Investor's wiki

분산 분석(ANOVA)

분산 분석(ANOVA)

λΆ„μ‚° 뢄석(ANOVA)μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

λΆ„μ‚° 뢄석(ANOVA)은 데이터 μ„ΈνŠΈ λ‚΄μ—μ„œ 발견된 κ΄€μ°°λœ 집계 변동성을 계톡 μš”μΈκ³Ό λ¬΄μž‘μœ„ μš”μΈμ˜ 두 λΆ€λΆ„μœΌλ‘œ λΆ„ν• ν•˜λŠ” 톡계에 μ‚¬μš©λ˜λŠ” 뢄석 λ„κ΅¬μž…λ‹ˆλ‹€. 계톡적 μš”μΈμ€ 주어진 데이터 μ„ΈνŠΈμ— 톡계적 영ν–₯을 λ―ΈμΉ˜λŠ” 반면 λ¬΄μž‘μœ„ μš”μΈμ€ 그렇지 μ•ŠμŠ΅λ‹ˆλ‹€. λΆ„μ„κ°€λŠ” ANOVA ν…ŒμŠ€νŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ νšŒκ·€ μ—°κ΅¬μ—μ„œ 독립 λ³€μˆ˜κ°€ 쒅속 λ³€μˆ˜μ— λ―ΈμΉ˜λŠ” 영ν–₯을 ν™•μΈν•©λ‹ˆλ‹€.

t-κ²€μ • 및 z-κ²€μ • 방법 은 Ronald Fisherκ°€ λΆ„μ‚° 뢄석 방법을 λ§Œλ“  1918λ…„κΉŒμ§€ 톡계 뢄석에 μ‚¬μš©λ˜μ—ˆμŠ΅λ‹ˆλ‹€. ANOVAλŠ” Fisher λΆ„μ‚° 뢄석이라고도 ν•˜λ©° t-κ²€μ • 및 z-κ²€μ •μ˜ ν™•μž₯μž…λ‹ˆλ‹€. 이 μš©μ–΄λŠ” 1925λ…„ Fisher의 μ €μ„œ "Statistical Methods for Research Workers"에 λ‚˜μ˜¨ ν›„ 유λͺ…ν•΄μ‘ŒμŠ΅λ‹ˆλ‹€. 그것은 μ‹€ν—˜ μ‹¬λ¦¬ν•™μ—μ„œ μ‚¬μš©λ˜μ—ˆκ³  λ‚˜μ€‘μ— 더 λ³΅μž‘ν•œ 주제둜 ν™•μž₯λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

ANOVA 곡식은 λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

<의미둠> F=MST MSE μ—¬κΈ°μ„œ:</ mtext></ mtd>F=ANOVA κ³„μˆ˜< /mtext>< /mtd>MST=처리둜 μΈν•œ 평균 μ œκ³±ν•©MSE=제곱의 평균 ν•© 였λ₯˜λ‘œ μΈν•œ\begin &\text = \frac{ \text }{ \text } \ &\textbf{μ—¬κΈ°μ„œ:} \ &\text = \text{ANOVA κ³„μˆ˜} \ &\text = \text{처리둜 μΈν•œ 평균 μ œκ³±ν•©} \ &\text = \text{였λ₯˜λ‘œ μΈν•œ 평균 μ œκ³±ν•©} \ \end{μ •λ ¬}

λΆ„μ‚° 뢄석은 무엇을 λ³΄μ—¬μ€λ‹ˆκΉŒ?

ANOVA ν…ŒμŠ€νŠΈλŠ” 주어진 데이터 μ„ΈνŠΈμ— 영ν–₯을 λ―ΈμΉ˜λŠ” μš”μΈμ„ λΆ„μ„ν•˜λŠ” 초기 λ‹¨κ³„μž…λ‹ˆλ‹€. ν…ŒμŠ€νŠΈκ°€ μ™„λ£Œλ˜λ©΄ λΆ„μ„κ°€λŠ” 데이터 μ„ΈνŠΈμ˜ λΆˆμΌμΉ˜μ— μƒλ‹Ήν•œ κΈ°μ—¬λ₯Ό ν•˜λŠ” 방법둠적 μš”μΈμ— λŒ€ν•΄ μΆ”κ°€ ν…ŒμŠ€νŠΈλ₯Ό μˆ˜ν–‰ν•©λ‹ˆλ‹€. λΆ„μ„κ°€λŠ” f-κ²€μ •μ—μ„œ ANOVA κ²€μ • κ²°κ³Όλ₯Ό ν™œμš©ν•˜μ—¬ μ œμ•ˆλœ νšŒκ·€ λͺ¨λΈκ³Ό μΌμΉ˜ν•˜λŠ” μΆ”κ°€ 데이터λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€.

ANOVA ν…ŒμŠ€νŠΈλ₯Ό μ‚¬μš©ν•˜λ©΄ λ‘˜ μ΄μƒμ˜ 그룹을 λ™μ‹œμ— λΉ„κ΅ν•˜μ—¬ 이듀 사이에 관계가 μžˆλŠ”μ§€ μ—¬λΆ€λ₯Ό 확인할 수 μžˆμŠ΅λ‹ˆλ‹€. ANOVA κ³΅μ‹μ˜ 결과인 F ν†΅κ³„λŸ‰(F-λΉ„μœ¨μ΄λΌκ³ λ„ 함)을 μ‚¬μš©ν•˜λ©΄ μ—¬λŸ¬ 데이터 그룹을 λΆ„μ„ν•˜μ—¬ μƒ˜ν”Œ κ°„ 및 μƒ˜ν”Œ λ‚΄ 변동성을 κ²°μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

귀무 κ°€μ„€ 이라고 ν•˜λŠ” ν…ŒμŠ€νŠΈλœ κ·Έλ£Ή 간에 μ‹€μ œ 차이가 μ—†μœΌλ©΄ ANOVA의 F-λΉ„μœ¨ ν†΅κ³„μ˜ κ²°κ³ΌλŠ” 1에 κ°€κΉŒμšΈ κ²ƒμž…λ‹ˆλ‹€. F ν†΅κ³„μ˜ κ°€λŠ₯ν•œ λͺ¨λ“  κ°’μ˜ λΆ„ν¬λŠ” F-λΆ„ν¬μž…λ‹ˆλ‹€. 이것은 μ‹€μ œλ‘œ λΆ„μž μžμœ λ„μ™€ λΆ„λͺ¨ μžμœ λ„ 라고 ν•˜λŠ” 두 가지 νŠΉμ„± μˆ«μžκ°€ μžˆλŠ” 뢄포 ν•¨μˆ˜ κ·Έλ£Ήμž…λ‹ˆλ‹€.

ANOVAλ₯Ό μ‚¬μš©ν•˜λŠ” λ°©λ²•μ˜ 예

예λ₯Ό λ“€μ–΄ 연ꡬ원은 μ—¬λŸ¬ λŒ€ν•™μ˜ 학생듀을 ν…ŒμŠ€νŠΈν•˜μ—¬ ν•œ λŒ€ν•™μ˜ 학생이 λ‹€λ₯Έ λŒ€ν•™μ˜ 학생보닀 μ§€μ†μ μœΌλ‘œ μš°μˆ˜ν•œμ§€ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€. λΉ„μ¦ˆλ‹ˆμŠ€ μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ—μ„œ R&D 연ꡬ원은 μ œν’ˆμ„ λ§Œλ“œλŠ” 두 가지 λ‹€λ₯Έ ν”„λ‘œμ„ΈμŠ€λ₯Ό ν…ŒμŠ€νŠΈν•˜μ—¬ λΉ„μš© νš¨μœ¨μ„± μΈ‘λ©΄μ—μ„œ ν•œ ν”„λ‘œμ„ΈμŠ€κ°€ λ‹€λ₯Έ ν”„λ‘œμ„ΈμŠ€λ³΄λ‹€ λ‚˜μ€μ§€ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

μ‚¬μš©λ˜λŠ” ANOVA ν…ŒμŠ€νŠΈ μœ ν˜•μ€ μ—¬λŸ¬ μš”μΈμ— 따라 λ‹€λ¦…λ‹ˆλ‹€. 데이터가 μ‹€ν—˜μ μ΄μ–΄μ•Ό ν•  λ•Œ μ μš©λ©λ‹ˆλ‹€. λΆ„μ‚° 뢄석은 톡계 μ†Œν”„νŠΈμ›¨μ–΄μ— μ•‘μ„ΈμŠ€ν•  수 μ—†λŠ” 경우 μˆ˜λ™μœΌλ‘œ ANOVAλ₯Ό κ³„μ‚°ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. μ‚¬μš©μ΄ κ°„νŽΈν•˜κ³  μž‘μ€ μƒ˜ν”Œμ— κ°€μž₯ μ ν•©ν•©λ‹ˆλ‹€. λ§Žμ€ μ‹€ν—˜ μ„€κ³„μ—μ„œ ν‘œλ³Έ ν¬κΈ°λŠ” λ‹€μ–‘ν•œ μš”μΈ μˆ˜μ€€ 쑰합에 λŒ€ν•΄ 동일해야 ν•©λ‹ˆλ‹€.

ANOVAλŠ” 3개 μ΄μƒμ˜ λ³€μˆ˜λ₯Ό ν…ŒμŠ€νŠΈν•˜λŠ” 데 μœ μš©ν•©λ‹ˆλ‹€. μ—¬λŸ¬ 개의 2-ν‘œλ³Έ t-κ²€μ • κ³Ό μœ μ‚¬ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 제1μ’… 였λ₯˜ κ°€ 더 적고 λ‹€μ–‘ν•œ λ¬Έμ œμ— μ ν•©ν•©λ‹ˆλ‹€. ANOVAλŠ” 각 그룹의 평균을 λΉ„κ΅ν•˜μ—¬ 차이점을 κ·Έλ£Ήν™”ν•˜κ³  뢄산을 λ‹€μ–‘ν•œ μ†ŒμŠ€λ‘œ λΆ„μ‚°μ‹œν‚€λŠ” 것을 ν¬ν•¨ν•©λ‹ˆλ‹€. 주제, ν…ŒμŠ€νŠΈ κ·Έλ£Ή, κ·Έλ£Ή κ°„ 및 κ·Έλ£Ή λ‚΄μ—μ„œ μ‚¬μš©λ©λ‹ˆλ‹€.

일원 λΆ„μ‚° 뢄석 λŒ€ 이원 λΆ„μ‚° 뢄석

ANOVAμ—λŠ” 단방ν–₯(λ˜λŠ” 단방ν–₯) 및 μ–‘λ°©ν–₯의 두 가지 μ£Όμš” μœ ν˜•μ΄ μžˆμŠ΅λ‹ˆλ‹€. ANOVA의 λ³€ν˜•λ„ μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ MANOVA(λ‹€λ³€λŸ‰ ANOVA)λŠ” μ „μžκ°€ μ—¬λŸ¬ 쒅속 λ³€μˆ˜λ₯Ό λ™μ‹œμ— ν…ŒμŠ€νŠΈν•˜λŠ” 반면 ν›„μžλŠ” ν•œ λ²ˆμ— ν•˜λ‚˜μ˜ 쒅속 λ³€μˆ˜λ§Œ ν‰κ°€ν•œλ‹€λŠ” μ μ—μ„œ ANOVA와 λ‹€λ¦…λ‹ˆλ‹€. 단방ν–₯ λ˜λŠ” μ–‘λ°©ν–₯은 λΆ„μ‚° 뢄석 ν…ŒμŠ€νŠΈμ—μ„œ 독립 λ³€μˆ˜μ˜ 수λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€. 일원 λΆ„μ‚° 뢄석은 단독 λ°˜μ‘ λ³€μˆ˜μ— λŒ€ν•œ 단독 μš”μΈμ˜ 영ν–₯을 ν‰κ°€ν•©λ‹ˆλ‹€. λͺ¨λ“  μƒ˜ν”Œμ΄ λ™μΌν•œμ§€ μ—¬λΆ€λ₯Ό κ²°μ •ν•©λ‹ˆλ‹€. 일원 λΆ„μ‚° 뢄석은 3개 μ΄μƒμ˜ 독립적인(κ΄€λ ¨λ˜μ§€ μ•Šμ€) 그룹의 평균 간에 ν†΅κ³„μ μœΌλ‘œ μœ μ˜ν•œ 차이가 μžˆλŠ”μ§€ μ—¬λΆ€λ₯Ό ν™•μΈν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€.

μ–‘λ°©ν–₯ ANOVAλŠ” 일원 λΆ„μ‚° λΆ„μ„μ˜ ν™•μž₯μž…λ‹ˆλ‹€. 단방ν–₯μ—μ„œλŠ” 쒅속 λ³€μˆ˜μ— 영ν–₯을 λ―ΈμΉ˜λŠ” ν•˜λ‚˜μ˜ 독립 λ³€μˆ˜κ°€ μžˆμŠ΅λ‹ˆλ‹€. μ–‘λ°©ν–₯ ANOVAμ—λŠ” 두 개의 독립이 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ–‘λ°©ν–₯ ANOVAλ₯Ό 톡해 νšŒμ‚¬λŠ” κΈ‰μ—¬ 및 기술 μ„ΈνŠΈμ™€ 같은 두 개의 독립 λ³€μˆ˜λ₯Ό 기반으둜 μž‘μ—…μž 생산성을 비ꡐ할 수 μžˆμŠ΅λ‹ˆλ‹€. 두 μš”μΈ κ°„μ˜ μƒν˜Έμž‘μš©μ„ κ΄€μ°°ν•˜κ³  λ™μ‹œμ— 두 μš”μΈμ˜ 효과λ₯Ό ν…ŒμŠ€νŠΈν•˜λŠ” 데 ν™œμš©λ©λ‹ˆλ‹€.

##ν•˜μ΄λΌμ΄νŠΈ

  • κ·Έλ£Ή 간에 μ‹€μ œ 뢄산이 μ—†λŠ” 경우 ANOVA의 F-λΉ„μœ¨μ€ 1에 κ°€κΉŒμ›Œμ•Ό ν•©λ‹ˆλ‹€.

  • 일원 λΆ„μ‚° 뢄석은 쒅속 λ³€μˆ˜μ™€ 독립 λ³€μˆ˜ κ°„μ˜ 관계에 λŒ€ν•œ 정보λ₯Ό μ–»κΈ° μœ„ν•΄ 3개 μ΄μƒμ˜ 데이터 그룹에 μ‚¬μš©λ©λ‹ˆλ‹€.

  • λΆ„μ‚° 뢄석 λ˜λŠ” ANOVAλŠ” κ΄€μ°°λœ λΆ„μ‚° 데이터λ₯Ό μΆ”κ°€ ν…ŒμŠ€νŠΈμ— μ‚¬μš©ν•˜κΈ° μœ„ν•΄ λ‹€λ₯Έ κ΅¬μ„±μš”μ†Œλ‘œ λΆ„λ¦¬ν•˜λŠ” 톡계적 λ°©λ²•μž…λ‹ˆλ‹€.