Investor's wiki

통계 학적으로 유의

통계 학적으로 유의

톡계적 μœ μ˜μ„±μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

톡계적 μœ μ˜μ„±μ€ κ΄€μ°°λœ 데이터 집합이 μš°μ—°μ˜ κ²°κ³Όκ°€ μ•„λ‹ˆλΌ νŠΉμ • 원인에 기인할 수 μžˆλ‹€λŠ” μ£Όμž₯을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€. 톡계적 μ€‘μš”μ„±μ€ 경제, 금육,. 투자,. μ˜ν•™, 물리학 및 생물학과 같이 데이터 및 연ꡬ 뢄석에 크게 μ˜μ‘΄ν•˜λŠ” ν•™λ¬Έ λΆ„μ•Ό λ˜λŠ” μ‹€λ¬΄μžμ—κ²Œ μ€‘μš”ν•©λ‹ˆλ‹€ .

톡계적 μœ μ˜μ„±μ€ κ°•ν•˜κ±°λ‚˜ μ•½ν•˜λ‹€κ³  간주될 수 μžˆμŠ΅λ‹ˆλ‹€. 데이터 μ„ΈνŠΈλ₯Ό λΆ„μ„ν•˜κ³  ν•˜λ‚˜ μ΄μƒμ˜ λ³€μˆ˜κ°€ 결과에 영ν–₯을 λ―ΈμΉ˜λŠ”μ§€ μ—¬λΆ€λ₯Ό μ‹λ³„ν•˜κΈ° μœ„ν•΄ ν•„μš”ν•œ ν…ŒμŠ€νŠΈλ₯Ό μˆ˜ν–‰ν•  λ•Œ κ°•λ ₯ν•œ 톡계적 μœ μ˜μ„±μ€ κ²°κ³Όκ°€ μ‹€μ œμ΄λ©° μš΄μ΄λ‚˜ μš°μ—°μ— μ˜ν•œ 것이 μ•„λ‹ˆλΌλŠ” 사싀을 λ’·λ°›μΉ¨ν•˜λŠ” 데 도움이 λ©λ‹ˆλ‹€. κ°„λ‹¨νžˆ λ§ν•΄μ„œ p-값이 μž‘μœΌλ©΄ κ²°κ³Όκ°€ 더 μ‹ λ’°ν•  수 μžˆλŠ” κ²ƒμœΌλ‘œ κ°„μ£Όλ©λ‹ˆλ‹€.

μ—°κ΅¬μžλ“€μ€ 일반적으둜 λͺ¨μ§‘단 μžμ²΄κ°€ μ•„λ‹ˆλΌ 더 큰 λͺ¨μ§‘λ‹¨μ˜ ν‘œλ³ΈμœΌλ‘œ μž‘μ—…ν•˜κΈ° λ•Œλ¬Έμ— 톡계적 μœ μ˜μ„± ν…ŒμŠ€νŠΈμ—μ„œ λ¬Έμ œκ°€ λ°œμƒν•©λ‹ˆλ‹€. 결과적으둜 ν‘œλ³Έμ€ λͺ¨μ§‘단을 λŒ€ν‘œν•΄μ•Ό ν•˜λ―€λ‘œ ν‘œλ³Έμ— ν¬ν•¨λœ 데이터가 μ–΄λ–€ μ‹μœΌλ‘œλ“  편ν–₯λ˜μ–΄μ„œλŠ” μ•ˆ λ©λ‹ˆλ‹€. κ²½μ œν•™μ„ ν¬ν•¨ν•œ λŒ€λΆ€λΆ„μ˜ κ³Όν•™μ—μ„œ 결과의 μ‹ λ’° μˆ˜μ€€μ΄ 95%(λ˜λŠ” λ•Œλ‘œλŠ” 99%)인 경우 κ²°κ³Όκ°€ ν†΅κ³„μ μœΌλ‘œ μœ μ˜ν•œ κ²ƒμœΌλ‘œ 간주될 수 μžˆμŠ΅λ‹ˆλ‹€.

톡계적 의미 μ΄ν•΄ν•˜κΈ°

톡계적 μœ μ˜μ„± 계산(μœ μ˜μ„± ν…ŒμŠ€νŠΈ)μ—λŠ” μ–΄λŠ μ •λ„μ˜ μ˜€μ°¨κ°€ μžˆμŠ΅λ‹ˆλ‹€. 데이터가 κ°•ν•œ 관계λ₯Ό 가지고 μžˆλŠ” κ²ƒμ²˜λŸΌ 보이더라도 μ—°κ΅¬μžλŠ” λ¬΄μž‘μœ„ μš°μ—°μ΄λ‚˜ μƒ˜ν”Œλ§ 였λ₯˜ 둜 인해 λͺ…λ°±ν•œ 상관 관계가 λ°œμƒν–ˆμ„ κ°€λŠ₯성을 μ„€λͺ…ν•΄μ•Ό ν•©λ‹ˆλ‹€.

ν‘œλ³Έ ν¬κΈ°λŠ” ν‘œλ³Έμ΄ 클수둝 흑좩이 λ°œμƒν•˜κΈ° μ‰½λ‹€λŠ” μ μ—μ„œ ν†΅κ³„μ μœΌλ‘œ μ€‘μš”ν•œ μš”μ†Œμž…λ‹ˆλ‹€. λ¬΄μž‘μœ„λ‘œ μ„ νƒν•œ λŒ€ν‘œ μƒ˜ν”Œ 만 μœ μ˜μ„± ν…ŒμŠ€νŠΈμ— μ‚¬μš©ν•΄μ•Ό ν•©λ‹ˆλ‹€. 사건이 ν†΅κ³„μ μœΌλ‘œ 유의 ν•œμ§€ μ—¬λΆ€λ₯Ό μˆ˜μš©ν•  수 μžˆλŠ” μˆ˜μ€€μ„ 유의 μˆ˜μ€€μ΄λΌκ³  ν•©λ‹ˆλ‹€.

연ꡬ원은 p-κ°’ 이라고 ν•˜λŠ” μΈ‘μ •κ°’ 을 μ‚¬μš©ν•˜μ—¬ 톡계적 μœ μ˜μ„±μ„ κ²°μ •ν•©λ‹ˆλ‹€. p-값이 유의 μˆ˜μ€€ μ•„λž˜λ‘œ 떨어지면 κ²°κ³Όκ°€ ν†΅κ³„μ μœΌλ‘œ μœ μ˜ν•œ κ²ƒμž…λ‹ˆλ‹€. p-값은 데이터 μƒ˜ν”Œμ˜ 평균 및 ν‘œμ€€ 편차의 ν•¨μˆ˜μž…λ‹ˆλ‹€.

p-값은 주어진 톡계적 κ²°κ³Όκ°€ λ°œμƒν•œ ν™•λ₯ μ„ λ‚˜νƒ€λ‚΄λ©°, ν™•λ₯ λ§Œ 결과에 μ±…μž„μ΄ μžˆλ‹€κ³  κ°€μ •ν•©λ‹ˆλ‹€. 이 ν™•λ₯ μ΄ μž‘μœΌλ©΄ μ—°κ΅¬μžλŠ” κ΄€μ°°λœ 데이터에 λŒ€ν•΄ λ‹€λ₯Έ μš”μΈμ΄ 원인일 수 μžˆλ‹€λŠ” 결둠을 내릴 수 μžˆμŠ΅λ‹ˆλ‹€.

1μ—μ„œ 유의 μˆ˜μ€€μ„ λΊ€ κ°’μœΌλ‘œ κ³„μ‚°λ˜λŠ” 유의 μˆ˜μ€€μ˜ λ°˜λŒ€κ°€ μ‹ λ’° μˆ˜μ€€μž…λ‹ˆλ‹€. 톡계적 κ²°κ³Όκ°€ μš°μ—°μ΄λ‚˜ ν‘œλ³Έμ˜€μ°¨μ— μ˜ν•΄ λ°œμƒν•˜μ§€ μ•Šμ•˜λ‹€λŠ” μ‹ λ’°μ˜ 정도λ₯Ό λ‚˜νƒ€λ‚Έλ‹€. λ§Žμ€ 톡계 ν…ŒμŠ€νŠΈμ—μ„œ κ΄€μŠ΅μ  μ‹ λ’° μˆ˜μ€€μ€ 95%이며, μ΄λŠ” 5%의 κ΄€μŠ΅μ  유의 μˆ˜μ€€ λ˜λŠ” p-κ°’μœΌλ‘œ μ΄μ–΄μ§‘λ‹ˆλ‹€.

"P-hacking"은 ν†΅κ³„μ μœΌλ‘œ μœ μ˜λ―Έν•œ κ²°κ³Όλ₯Ό μ°ΎκΈ° μœ„ν•΄ λ‹€μ–‘ν•œ 데이터 μ„ΈνŠΈλ₯Ό μ² μ €ν•˜κ²Œ λΉ„κ΅ν•˜λŠ” ν–‰μœ„μž…λ‹ˆλ‹€. μ—°κ΅¬μžλ“€μ€ 뢀정적인 κ²°κ³Όκ°€ μ•„λ‹Œ μœ λ¦¬ν•œ 결과만 λ³΄κ³ ν•˜κΈ° λ•Œλ¬Έμ— 보고 편ν–₯ 이 μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.

νŠΉλ³„ κ³ λ € 사항

톡계적 μ€‘μš”μ„±μ΄ 항상 μ‹€μ§ˆμ μΈ 의미λ₯Ό λ‚˜νƒ€λ‚΄λŠ” 것은 μ•„λ‹ˆλ―€λ‘œ κ²°κ³Όλ₯Ό μ‹€μ œ λΉ„μ¦ˆλ‹ˆμŠ€ 상황에 μ μš©ν•  수 μ—†μŠ΅λ‹ˆλ‹€. λ˜ν•œ μ—°κ΅¬μžκ°€ κ²°κ³Όλ₯Ό 보고할 λ•Œ μ–Έμ–΄λ₯Ό 주의 깊게 μ‚¬μš©ν•˜μ§€ μ•ŠμœΌλ©΄ 톡계적 μœ μ˜μ„±μ΄ 잘λͺ» 해석될 수 μžˆμŠ΅λ‹ˆλ‹€. κ²°κ³Όκ°€ ν†΅κ³„μ μœΌλ‘œ μœ μ˜λ―Έν•˜λ‹€λŠ” 사싀이 그것이 μš°μ—°μ˜ κ²°κ³Όκ°€ μ•„λ‹™λ‹ˆλ‹€λŠ” 것을 μ˜λ―Έν•˜λŠ” 것은 μ•„λ‹ˆλ©° 단지 그럴 κ°€λŠ₯성이 μ λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

두 데이터 계열이 μ„œλ‘œ κ°•ν•œ 상관 관계λ₯Ό κ°–κ³  μžˆλ‹€κ³  ν•΄μ„œ 인과 관계λ₯Ό μ˜λ―Έν•˜μ§€λŠ” μ•ŠμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 배우 Nicolas Cageκ°€ 주연을 맑은 μ˜ν™”μ˜ μˆ˜λŠ” 수영μž₯μ—μ„œ μ‚¬κ³ λ‘œ μ΅μ‚¬ν•œ μˆ˜μ™€ 맀우 높은 상관관계가 μžˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 이둠적인 인과관계 μ£Όμž₯이 μ—†κΈ° λ•Œλ¬Έμ— 이 μƒκ΄€κ΄€κ³„λŠ” 거짓 μž…λ‹ˆλ‹€.

톡계적 μœ μ˜μ„±κ³Ό ν•¨κ»˜ λ°œμƒν•  수 μžˆλŠ” 또 λ‹€λ₯Έ λ¬Έμ œλŠ” κ³Όκ±° 데이터와 ν•΄λ‹Ή λ°μ΄ν„°μ˜ κ²°κ³Όκ°€ ν†΅κ³„μ μœΌλ‘œ μœ μ˜λ―Έν•œμ§€ 여뢀에 관계없이 진행 쀑인 λ˜λŠ” 미래의 상황을 λ°˜μ˜ν•˜μ§€ μ•Šμ„ 수 μžˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. νˆ¬μžμ—μ„œ μ΄λŠ” 상관관계가 λ³€ν•˜κ³  λ³€μˆ˜κ°€ ν‰μ†Œμ™€ 같이 μƒν˜Έ μž‘μš©ν•˜μ§€ μ•ŠκΈ° λ•Œλ¬Έμ— 금육 μœ„κΈ° μ‹œκΈ°μ— λ¬΄λ„ˆμ§€λŠ” 가격 λͺ¨λΈλ‘œ λ‚˜νƒ€λ‚  수 μžˆμŠ΅λ‹ˆλ‹€. 톡계적 μ€‘μš”μ„±μ€ λ˜ν•œ νˆ¬μžμžκ°€ ν•œ μžμ‚° 가격 μ±…μ • λͺ¨λΈμ΄ λ‹€λ₯Έ 것보닀 λ‚˜μ€μ§€ μ—¬λΆ€λ₯Ό μ‹λ³„ν•˜λŠ” 데 도움이 될 수 μžˆμŠ΅λ‹ˆλ‹€.

톡계적 μœ μ˜μ„± κ²€μ •μ˜ μœ ν˜•

μˆ˜ν–‰λ˜λŠ” 연ꡬ에 따라 μ—¬λŸ¬ μœ ν˜•μ˜ μœ μ˜μ„± 검정이 μ‚¬μš©λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 평균, λΆ„μ‚°, λΉ„μœ¨, 쌍 λ˜λŠ” 쌍이 μ—†λŠ” 데이터 λ˜λŠ” λ‹€λ₯Έ 데이터 뢄포에 λŒ€ν•΄ λ‹€μ–‘ν•œ 크기의 ν•˜λ‚˜, λ‘˜ λ˜λŠ” κ·Έ μ΄μƒμ˜ 데이터 μƒ˜ν”Œμ— λŒ€ν•΄ 검정을 μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

λ˜ν•œ μ‚¬μš© κ°€λŠ₯ν•œ 데이터 μœ ν˜•μ— 따라 μœ μ˜μ„± ν…ŒμŠ€νŠΈμ— λŒ€ν•œ λ‹€μ–‘ν•œ μ ‘κ·Ό 방식이 μžˆμŠ΅λ‹ˆλ‹€. Ronald FisherλŠ” κ°€μž₯ μœ μ—°ν•œ μ ‘κ·Ό 방식 쀑 ν•˜λ‚˜λ₯Ό κ³΅μ‹ν™”ν•˜κ³  p < 0.05μ—μ„œ μœ μ˜μ„±μ— λŒ€ν•œ ν‘œμ€€μ„ μ„€μ •ν•œ κ²ƒμœΌλ‘œ μ•Œλ €μ Έ μžˆμŠ΅λ‹ˆλ‹€. λŒ€λΆ€λΆ„μ˜ μž‘μ—…μ€ 데이터가 이미 μˆ˜μ§‘λœ 후에 μˆ˜ν–‰ν•  수 있기 λ•Œλ¬Έμ— 이 방법은 단기 λ˜λŠ” μž„μ‹œ 연ꡬ ν”„λ‘œμ νŠΈμ— 널리 μ‚¬μš©λ©λ‹ˆλ‹€.

Fisher의 방법을 기반으둜 ν•˜κΈ° μœ„ν•΄ Jerzy Neymanκ³Ό Egon Pearson은 κ²°κ΅­ λŒ€μ•ˆμ μΈ μ ‘κ·Ό 방식을 κ°œλ°œν•˜κ²Œ λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이 방법은 데이터λ₯Ό μˆ˜μ§‘ν•˜κΈ° 전에 더 λ§Žμ€ μž‘μ—…μ„ μˆ˜ν–‰ν•΄μ•Ό ν•˜μ§€λ§Œ μ—°κ΅¬μžκ°€ 잘λͺ»λœ 결둠에 도달할 κ°€λŠ₯성을 μ œμ–΄ν•˜λŠ” λ°©μ‹μœΌλ‘œ 연ꡬλ₯Ό 섀계할 수 μžˆμŠ΅λ‹ˆλ‹€.

귀무 κ°€μ„€ ν…ŒμŠ€νŠΈ

톡계적 μœ μ˜μ„±μ€ μ—°κ΅¬μžκ°€ λ‹€λ₯Έ μ„€λͺ…을 κ±°λΆ€ν•¨μœΌλ‘œμ¨ μžμ‹ μ˜ 이둠을 λ’·λ°›μΉ¨ν•˜λ €κ³  μ‹œλ„ν•˜λŠ” 귀무 κ°€μ„€ ν…ŒμŠ€νŠΈμ—μ„œ μ‚¬μš©λ©λ‹ˆλ‹€. 이 방법은 λ•Œλ•Œλ‘œ 잘λͺ» μ΄ν•΄λ˜μ§€λ§Œ μ˜ν•™, 심리학 및 기타 λΆ„μ•Όμ—μ„œ κ°€μž₯ 널리 μ‚¬μš©λ˜λŠ” 데이터 ν…ŒμŠ€νŠΈ λ°©λ²•μž…λ‹ˆλ‹€.

κ°€μž₯ 일반적인 귀무 가섀은 ν•΄λ‹Ή λ§€κ°œλ³€μˆ˜κ°€ 0κ³Ό κ°™λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€(일반적으둜 λ³€μˆ˜κ°€ 관심 결과에 0 영ν–₯을 λ―ΈμΉœλ‹€λŠ” 것을 λ‚˜νƒ€λƒ„). μ—°κ΅¬μžκ°€ 95% μ΄μƒμ˜ μ‹ λ’°λ„λ‘œ 귀무 가섀을 κΈ°κ°ν•˜λ©΄ κ΄€μ°°λœ 관계가 ν†΅κ³„μ μœΌλ‘œ μœ μ˜ν•˜λ‹€κ³  μ£Όμž₯ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 귀무 가섀은 λ‘˜ μ΄μƒμ˜ λŒ€μ²΄ μΉ˜λ£Œμ— λŒ€ν•œ 효과의 동등성에 λŒ€ν•΄ ν…ŒμŠ€νŠΈν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€.

λŒ€μ€‘μ μΈ μ˜€ν•΄μ™€ 달리 높은 μˆ˜μ€€μ˜ 톡계적 μœ μ˜μ„±μ€ 가섀이 참인지 거짓인지λ₯Ό 증λͺ…ν•  수 μ—†μŠ΅λ‹ˆλ‹€. μ‹€μ œλ‘œ 톡계적 μœ μ˜μ„±μ€ 귀무 가섀이 참이라고 κ°€μ •ν•  λ•Œ κ΄€μ°°λœ κ²°κ³Όκ°€ λ°œμƒν–ˆμ„ κ°€λŠ₯성을 μΈ‘μ •ν•©λ‹ˆλ‹€.

맀우 높은 μˆ˜μ€€μ˜ 톡계적 μœ μ˜μ„±μ΄ 무언가λ₯Ό κ²°μ½” 증λͺ…ν•  수 없더라도 귀무 κ°€μ„€μ˜ κ±°λΆ€λŠ” κΈ°μ‘΄ 가섀을 λ’·λ°›μΉ¨ν•  λΏμž…λ‹ˆλ‹€. λ°˜λ©΄μ— 귀무가섀을 κΈ°κ°ν•˜μ§€ λͺ»ν•˜λŠ” 것은 μ’…μ’… 가섀을 κΈ°κ°ν•˜λŠ” κ·Όκ±°κ°€ λ©λ‹ˆλ‹€.

λ˜ν•œ νš¨κ³ΌλŠ” ν†΅κ³„μ μœΌλ‘œ μœ μ˜ν•  수 μžˆμ§€λ§Œ 영ν–₯은 맀우 μž‘μŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, ν™”μž₯싀에 2κ²Ή ν™”μž₯지λ₯Ό μ‚¬μš©ν•˜λŠ” νšŒμ‚¬μ˜ 직원 생산성이 더 λ†’λ‹€λŠ” 것은 ν†΅κ³„μ μœΌλ‘œ μœ μ˜ν•  수 μžˆμ§€λ§Œ 각 μ§μ›μ˜ μ ˆλŒ€ 생산성 ν–₯상은 λ―Έλ―Έν•  κ°€λŠ₯성이 λ†’μŠ΅λ‹ˆλ‹€.

μˆ˜μ •β€“2022λ…„ 5μ›” 15일: 이 λ¬Έμ„œλŠ” μœ μ˜μ„± ν…ŒμŠ€νŠΈμ˜ 잠재적 였λ₯˜λ₯Ό κ°•μ‘°ν•˜κΈ° μœ„ν•΄ νŽΈμ§‘λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

##ν•˜μ΄λΌμ΄νŠΈ

  • 톡계적 μœ μ˜μ„±μ΄λž€ ν…ŒμŠ€νŠΈ λ˜λŠ” μ‹€ν—˜μ„ 톡해 μƒμ„±λœ λ°μ΄ν„°μ˜ κ²°κ³Όκ°€ νŠΉμ • 원인에 기인할 κ°€λŠ₯성이 λ†’λ‹€λŠ” μ£Όμž₯을 μ˜λ―Έν•©λ‹ˆλ‹€.

  • 톡계적 μœ μ˜μ„±μ˜ 계산은 μ–΄λŠ 정도 μ˜€μ°¨κ°€ μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.

  • 높은 μˆ˜μ€€μ˜ 톡계적 μœ μ˜μ„±μ€ κ΄€μ°°λœ 관계가 μš°μ—°μ— μ˜ν•œ 것이 아닐 κ°€λŠ₯성이 μžˆμŒμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

  • μˆ˜ν–‰ν•˜λŠ” 연ꡬ에 따라 μ—¬λŸ¬ μœ ν˜•μ˜ μœ μ˜μ„± 검정이 μ‚¬μš©λ©λ‹ˆλ‹€.

  • μ—°κ΅¬μžκ°€ κ²°κ³Όλ₯Ό 보고할 λ•Œ μ–Έμ–΄λ₯Ό 주의 깊게 μ‚¬μš©ν•˜μ§€ μ•ŠμœΌλ©΄ 톡계적 μœ μ˜μ„±μ΄ 잘λͺ» 해석될 수 μžˆμŠ΅λ‹ˆλ‹€.