Investor's wiki

계층화된 무작위 샘플링

계층화된 무작위 샘플링

κ³„μΈ΅ν™”λœ 랜덀 μƒ˜ν”Œλ§μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ€ λͺ¨μ§‘단을 κ³„μΈ΅μœΌλ‘œ μ•Œλ €μ§„ 더 μž‘μ€ ν•˜μœ„ 그룹으둜 λ‚˜λˆ„λŠ” μƒ˜ν”Œλ§ λ°©λ²•μž…λ‹ˆλ‹€. κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§ λ˜λŠ” κ³„μΈ΅ν™”μ—μ„œ 계측은 μ†Œλ“μ΄λ‚˜ ꡐ윑 μˆ˜μ€€κ³Ό 같은 κ΅¬μ„±μ›μ˜ 곡유 μ†μ„±μ΄λ‚˜ νŠΉμ„±μ„ 기반으둜 ν˜•μ„±λ©λ‹ˆλ‹€.

κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ€ λΉ„λ‘€ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§ λ˜λŠ” ν• λ‹ΉλŸ‰ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ΄λΌκ³ λ„ ν•©λ‹ˆλ‹€.

κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ˜ μž‘λ™ 방식

μœ μ‚¬ν•œ νŠΉμ„±μ„ 가진 개체 그룹에 λŒ€ν•œ 뢄석 λ˜λŠ” 연ꡬλ₯Ό μ™„λ£Œν•  λ•Œ 연ꡬ원은 연ꡬ λ₯Ό μ™„λ£Œν•˜κΈ°μ—λŠ” 인ꡬ 규λͺ¨ κ°€ λ„ˆλ¬΄ ν¬λ‹€λŠ” 것을 λ°œκ²¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ‹œκ°„κ³Ό λΉ„μš©μ„ μ ˆμ•½ν•˜κΈ° μœ„ν•΄ λΆ„μ„κ°€λŠ” λͺ¨μ§‘λ‹¨μ—μ„œ μ†Œκ·Έλ£Ήμ„ μ„ νƒν•˜μ—¬ 보닀 μ‹€ν˜„ κ°€λŠ₯ν•œ μ ‘κ·Ό 방식을 μ·¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ†Œκ·Έλ£Ήμ€ 전체 λͺ¨μ§‘단을 λ‚˜νƒ€λ‚΄λŠ” 데 μ‚¬μš©λ˜λŠ” λͺ¨μ§‘λ‹¨μ˜ ν•˜μœ„ 집합인 ν‘œλ³Έ 크기 라고 ν•©λ‹ˆλ‹€. ν‘œλ³Έμ€ μ—¬λŸ¬ 가지 방법을 톡해 λͺ¨μ§‘λ‹¨μ—μ„œ 선택될 수 있으며 κ·Έ 쀑 ν•˜λ‚˜λŠ” κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ ν‘œλ³Έ μΆ”μΆœ λ°©λ²•μž…λ‹ˆλ‹€.

κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ—λŠ” 전체 λͺ¨μ§‘단을 계측(κ³„μΈ΅μ˜ λ³΅μˆ˜ν˜•)이라고 ν•˜λŠ” 동쒅 그룹으둜 λ‚˜λˆ„λŠ” 것이 ν¬ν•¨λ©λ‹ˆλ‹€. 그런 λ‹€μŒ 각 κ³„μΈ΅μ—μ„œ λ¬΄μž‘μœ„ μƒ˜ν”Œμ΄ μ„ νƒλ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 2007년에 μ‘Έμ—… ν›„ 3κ°œμ›” 이내에 μ·¨μ—… μ œμ•ˆμ„ 받은 MBA ν•™μƒμ˜ 수λ₯Ό μ•Œκ³ μž ν•˜λŠ” ν•™μˆ  연ꡬ원을 생각해 λ³΄μ‹­μ‹œμ˜€.

연ꡬ원은 곧 κ·Έ 해에 거의 200,000 MBA 쑸업생이 μžˆλ‹€λŠ” 것을 μ•Œκ²Œ 될 κ²ƒμž…λ‹ˆλ‹€. 그듀은 50,000λͺ…μ˜ 쑸업생을 λ¬΄μž‘μœ„ 둜 μΆ”μΆœν•˜μ—¬ 섀문쑰사λ₯Ό μ‹€ν–‰ ν•˜κΈ° 둜 κ²°μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€ . 더 λ‚˜μ€ 방법은 인ꡬλ₯Ό κ³„μΈ΅μœΌλ‘œ λ‚˜λˆ„κ³  κ³„μΈ΅μ—μ„œ λ¬΄μž‘μœ„ ν‘œλ³Έμ„ μΆ”μΆœν•  수 μžˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ 성별, μ—°λ Ή λ²”μœ„, 인쒅, ꡭ적 κ΅­κ°€ 및 κ²½λ ₯ 배경을 기반으둜 인ꡬ 그룹을 λ§Œλ“­λ‹ˆλ‹€. 각 κ³„μΈ΅μ—μ„œ λ¬΄μž‘μœ„ ν‘œλ³Έμ„ λͺ¨μ§‘단과 비ꡐ할 λ•Œ κ³„μΈ΅μ˜ 크기에 λΉ„λ‘€ν•˜λŠ” 숫자둜 μ·¨ν•©λ‹ˆλ‹€. 그런 λ‹€μŒ μ΄λŸ¬ν•œ κ³„μΈ΅μ˜ ν•˜μœ„ 집합을 ν’€λ§ν•˜μ—¬ λ¬΄μž‘μœ„ μƒ˜ν”Œμ„ ν˜•μ„±ν•©λ‹ˆλ‹€.

κ³„μΈ΅ν™”λœ μƒ˜ν”Œλ§μ€ λͺ¨μ§‘λ‹¨μ˜ λͺ¨λ“  ꡬ성원을 λ™μΌν•œ κ²ƒμœΌλ‘œ μ·¨κΈ‰ν•˜κ³  λ™μΌν•œ μƒ˜ν”Œλ§ κ°€λŠ₯μ„±μœΌλ‘œ μ·¨κΈ‰ν•˜λŠ” λ‹¨μˆœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§κ³Ό 달리 λͺ¨μ§‘λ‹¨μ˜ κ·Έλ£Ή κ°„μ˜ 차이λ₯Ό κ°•μ‘°ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€.

μΈ΅ν™” 랜덀 μƒ˜ν”Œλ§μ˜ 예

μ—°κ΅¬νŒ€μ΄ λ―Έκ΅­ μ „μ—­μ˜ λŒ€ν•™μƒλ“€μ˜ GPAλ₯Ό κ²°μ •ν•˜λ €κ³  ν•œλ‹€κ³  κ°€μ •ν•΄ λ΄…μ‹œλ‹€. μ—°κ΅¬νŒ€μ€ 2,100만 λͺ…μ˜ λŒ€ν•™μƒλ“€λ‘œλΆ€ν„° 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” 데 어렀움을 κ²ͺκ³  μžˆμŠ΅λ‹ˆλ‹€. 4,000λͺ…μ˜ 학생을 μ‚¬μš©ν•˜μ—¬ λͺ¨μ§‘λ‹¨μ˜ λ¬΄μž‘μœ„ ν‘œλ³Έμ„ μ·¨ν•˜κΈ°λ‘œ κ²°μ •ν•©λ‹ˆλ‹€.

이제 νŒ€μ΄ μƒ˜ν”Œ μ°Έκ°€μžμ˜ λ‹€μ–‘ν•œ νŠΉμ„±μ„ 보고 GPA와 ν•™μƒμ˜ 전곡에 차이가 μžˆλŠ”μ§€ κΆκΈˆν•΄ν•œλ‹€κ³  κ°€μ •ν•©λ‹ˆλ‹€. 560λͺ…μ˜ 학생이 μ˜μ–΄ 전곡, 1,135λͺ…이 κ³Όν•™ 전곡, 800λͺ…이 컴퓨터 곡학 전곡, 1,090λͺ…이 곡학 전곡, 415λͺ…이 μˆ˜ν•™ μ „κ³΅μ΄λΌλŠ” 것을 λ°œκ²¬ν–ˆλ‹€κ³  κ°€μ •ν•©λ‹ˆλ‹€. νŒ€μ€ ν‘œλ³Έμ˜ 계측이 λͺ¨μ§‘λ‹¨μ˜ λ¬΄μž‘μœ„ ν‘œλ³Έμ— λΉ„λ‘€ν•˜λŠ” λΉ„λ‘€ κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ ν‘œλ³Έμ„ μ‚¬μš©ν•˜λ €κ³  ν•©λ‹ˆλ‹€.

νŒ€ 이 λ―Έκ΅­ λŒ€ν•™μƒ 의 인ꡬ 톡계 λ₯Ό μ‘°μ‚¬ν•˜κ³  학생듀이 μ „κ³΅ν•˜λŠ” λΉ„μœ¨μ„ μ°ΎμŠ΅λ‹ˆλ‹€. 12%λŠ” μ˜μ–΄, 28%λŠ” κ³Όν•™, 24%λŠ” 컴퓨터 곡학, 21%λŠ” μ—”μ§€λ‹ˆμ–΄λ§, 15% μˆ˜ν•™ 전곡. λ”°λΌμ„œ κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§ ν”„λ‘œμ„ΈμŠ€μ—μ„œ 5개의 계측이 μƒμ„±λ©λ‹ˆλ‹€.

그런 λ‹€μŒ νŒ€μ€ λͺ¨μ§‘λ‹¨μ˜ 계측이 ν‘œλ³Έμ˜ 계측에 λΉ„λ‘€ν•˜λŠ”μ§€ 확인해야 ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 그듀은 λΉ„μœ¨μ΄ 같지 μ•Šλ‹€λŠ” 것을 λ°œκ²¬ν•©λ‹ˆλ‹€. 그런 λ‹€μŒ νŒ€μ€ λͺ¨μ§‘λ‹¨μ—μ„œ 4,000λͺ…μ˜ 학생을 λ‹€μ‹œ μƒ˜ν”Œλ§ν•˜κ³  480λͺ…μ˜ μ˜μ–΄, 1,120λͺ…μ˜ κ³Όν•™, 960λͺ…μ˜ 컴퓨터 곡학, 840λͺ…μ˜ 곡학 및 600λͺ…μ˜ μˆ˜ν•™ 학생을 λ¬΄μž‘μœ„λ‘œ 선택해야 ν•©λ‹ˆλ‹€.

이λ₯Ό 톡해 λ―Έκ΅­ λŒ€ν•™μƒμ˜ λŒ€ν•™ 전곡을 더 잘 ν‘œν˜„ν•  수 μžˆλŠ” λΉ„λ‘€ κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ ν‘œλ³Έμ΄ μžˆμŠ΅λ‹ˆλ‹€. 그런 λ‹€μŒ 연ꡬ원은 νŠΉμ • 계측을 κ°•μ‘° ν‘œμ‹œν•˜κ³  λ―Έκ΅­ λŒ€ν•™μƒμ˜ λ‹€μ–‘ν•œ 연ꡬλ₯Ό κ΄€μ°°ν•˜κ³  λ‹€μ–‘ν•œ 학점 평균을 κ΄€μ°°ν•  수 μžˆμŠ΅λ‹ˆλ‹€. .

λ‹¨μˆœ λ¬΄μž‘μœ„ λŒ€ 계측화 λ¬΄μž‘μœ„ μƒ˜ν”Œ

λ‹¨μˆœ λ¬΄μž‘μœ„ ν‘œλ³Έ κ³Ό κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ ν‘œλ³Έμ€ λͺ¨λ‘ 톡계적 μΈ‘μ • λ„κ΅¬μž…λ‹ˆλ‹€. λ‹¨μˆœ λ¬΄μž‘μœ„ ν‘œλ³Έμ€ 전체 데이터 λͺ¨μ§‘단을 λ‚˜νƒ€λ‚΄λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ ν‘œλ³Έμ€ 곡유된 νŠΉμ„±μ„ 기반으둜 λͺ¨μ§‘단을 더 μž‘μ€ κ·Έλ£Ή λ˜λŠ” κ³„μΈ΅μœΌλ‘œ λ‚˜λˆ•λ‹ˆλ‹€.

λ‹¨μˆœ λ¬΄μž‘μœ„ ν‘œλ³Έμ€ 데이터 λͺ¨μ§‘단에 λŒ€ν•΄ μ‚¬μš©ν•  수 μžˆλŠ” 정보가 맀우 μ κ±°λ‚˜, 데이터 λͺ¨μ§‘λ‹¨μ˜ 차이가 λ„ˆλ¬΄ λ§Žμ•„ λ‹€μ–‘ν•œ ν•˜μœ„ μ§‘ν•©μœΌλ‘œ λ‚˜λˆŒ 수 μ—†κ±°λ‚˜, 데이터 λͺ¨μ§‘단 간에 κ³ μœ ν•œ νŠΉμ„±μ΄ ν•˜λ‚˜λ§Œ μžˆλŠ” κ²½μš°μ— 자주 μ‚¬μš©λ©λ‹ˆλ‹€.

예λ₯Ό λ“€μ–΄, 사탕 νšŒμ‚¬λŠ” μ œν’ˆ 라인의 미래λ₯Ό κ²°μ •ν•˜κΈ° μœ„ν•΄ 고객의 ꡬ맀 μŠ΅κ΄€μ„ 연ꡬ할 수 μžˆμŠ΅λ‹ˆλ‹€. 10,000λͺ…μ˜ 고객이 μžˆλŠ” 경우 ν•΄λ‹Ή 고객 쀑 100λͺ…을 λ¬΄μž‘μœ„ ν‘œλ³ΈμœΌλ‘œ 선택할 수 μžˆμŠ΅λ‹ˆλ‹€. 그런 λ‹€μŒ 100λͺ…μ˜ κ³ κ°μ—κ²Œμ„œ 찾은 λ‚΄μš©μ„ λ‚˜λ¨Έμ§€ κΈ°λ°˜μ— μ μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 계측화와 달리 개인의 νŠΉμ„±μ„ κ³ λ €ν•˜μ§€ μ•Šκ³  μˆœμˆ˜ν•˜κ²Œ λ¬΄μž‘μœ„λ‘œ 100λͺ…μ˜ ꡬ성원을 μƒ˜ν”Œλ§ν•©λ‹ˆλ‹€.

λΉ„λ‘€ 및 λΆˆκ· ν˜• 계측화

κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ€ 주어진 λͺ¨μ§‘λ‹¨μ˜ 각 ν•˜μœ„ 그룹이 연ꡬ μ—°κ΅¬μ˜ 전체 ν‘œλ³Έ λͺ¨μ§‘단 λ‚΄μ—μ„œ μ μ ˆν•˜κ²Œ λŒ€ν‘œλ˜λ„λ‘ ν•©λ‹ˆλ‹€. κ³„μΈ΅ν™”λŠ” λΉ„λ‘€ν•˜κ±°λ‚˜ λΆˆκ· ν˜•ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λΉ„λ‘€ 계측화 λ°©λ²•μ—μ„œ 각 κ³„μΈ΅μ˜ ν‘œλ³Έ ν¬κΈ°λŠ” κ³„μΈ΅μ˜ λͺ¨μ§‘단 크기에 λΉ„λ‘€ν•©λ‹ˆλ‹€.

예λ₯Ό λ“€μ–΄, μ—°κ΅¬μžκ°€ μ—°λ Ή λ²”μœ„λ₯Ό μ‚¬μš©ν•˜μ—¬ 50,000λͺ…μ˜ 쑸업생 ν‘œλ³Έμ„ μ›ν•˜λŠ” 경우 λΉ„λ‘€ κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ ν‘œλ³Έμ€ (ν‘œλ³Έ 크기/인ꡬ 크기) x 계측 크기 곡식을 μ‚¬μš©ν•˜μ—¬ μ–»μŠ΅λ‹ˆλ‹€. μ•„λž˜ ν‘œλŠ” μ—°κ°„ MBA 쑸업생 180,000λͺ…μ˜ 인ꡬ 규λͺ¨λ₯Ό κ°€μ •ν•©λ‹ˆλ‹€.

TTT

2428μ„Έ MBA μ‘Έμ—…μƒμ˜ 계측 ν‘œλ³Έ ν¬κΈ°λŠ” (50,000/180,000) x 90,000 = 25,000으둜 κ³„μ‚°λ©λ‹ˆλ‹€. λ‹€λ₯Έ μ—°λ ΉλŒ€ 그룹에도 λ™μΌν•œ 방법이 μ‚¬μš©λ©λ‹ˆλ‹€. 계측 ν‘œλ³Έ 크기λ₯Ό μ•Œμ•˜μœΌλ―€λ‘œ 연ꡬ원은 각 κ³„μΈ΅μ—μ„œ κ°„λ‹¨ν•œ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ„ μˆ˜ν–‰ν•˜μ—¬ μ„€λ¬Έ μ°Έκ°€μžλ₯Ό 선택할 수 μžˆμŠ΅λ‹ˆλ‹€. 즉, 전체 λͺ¨μ§‘λ‹¨μ—μ„œ 2428μ„Έ 쑸업생 25,000λͺ…을 λ¬΄μž‘μœ„λ‘œ μ„ λ°œν•˜κ³ , 29~33μ„Έ 쑸업생 16,667λͺ…을 λͺ¨μ§‘λ‹¨μ—μ„œ λ¬΄μž‘μœ„λ‘œ μ„ λ°œν•˜λŠ” 식이닀.

λΆˆκ· ν˜• 계측화 ν‘œλ³Έμ—μ„œ 각 κ³„μΈ΅μ˜ ν¬κΈ°λŠ” λͺ¨μ§‘λ‹¨μ˜ 크기에 λΉ„λ‘€ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. μ—°κ΅¬μžλŠ” 34-37μ„Έ κ·Έλ£Ή μ‘Έμ—…μƒμ˜ 1/2, 29-33μ„Έ κ·Έλ£Ή μ‘Έμ—…μƒμ˜ 1/3을 ν‘œλ³ΈμœΌλ‘œ κ²°μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

ν•œ μ‚¬λžŒμ΄ μ—¬λŸ¬ 계측에 λ“€μ–΄κ°ˆ 수 μ—†λ‹€λŠ” 점에 μœ μ˜ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€. 각 μ—”ν„°ν‹°λŠ” ν•˜λ‚˜μ˜ κ³„μΈ΅μ—λ§Œ λ§žμ•„μ•Ό ν•©λ‹ˆλ‹€. ν•˜μœ„ 그룹이 κ²ΉμΉœλ‹€λŠ” 것은 일뢀 개인이 μ„€λ¬Έ 쑰사에 선택될 κ°€λŠ₯성이 더 λ†’λ‹€λŠ” 것을 μ˜λ―Έν•˜λ©°, μ΄λŠ” μΌμ’…μ˜ ν™•λ₯  μƒ˜ν”Œλ§μΈ μΈ΅ν™” μƒ˜ν”Œλ§μ˜ κ°œλ…μ„ μ™„μ „νžˆ λΆ€μ •ν•©λ‹ˆλ‹€.

포트폴리였 κ΄€λ¦¬μžλŠ” κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ„ μ‚¬μš©ν•˜μ—¬ μ±„κΆŒ μ§€μˆ˜μ™€ 같은 μ§€μˆ˜λ₯Ό λ³΅μ œν•˜μ—¬ 포트폴리였λ₯Ό 생성할 수 μžˆμŠ΅λ‹ˆλ‹€.

μΈ΅ν™” 랜덀 μƒ˜ν”Œλ§μ˜ μž₯점

κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ˜ μ£Όμš” 이점은 μƒ˜ν”Œμ˜ μ£Όμš” λͺ¨μ§‘단 νŠΉμ„±μ„ ν¬μ°©ν•œλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. 가쀑 평균과 μœ μ‚¬ν•˜κ²Œ 이 μƒ˜ν”Œλ§ 방법은 전체 λͺ¨μ§‘단에 λΉ„λ‘€ν•˜λŠ” μƒ˜ν”Œμ˜ νŠΉμ„±μ„ μƒμ„±ν•©λ‹ˆλ‹€. κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ€ λ‹€μ–‘ν•œ 속성을 가진 λͺ¨μ§‘단에 λŒ€ν•΄ 잘 μž‘λ™ν•˜μ§€λ§Œ ν•˜μœ„ 그룹을 ν˜•μ„±ν•  수 μ—†λŠ” κ²½μš°μ—λŠ” νš¨κ³Όκ°€ μ—†μŠ΅λ‹ˆλ‹€.

κ³„μΈ΅ν™”λŠ” λ‹¨μˆœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§ 방법보닀 μΆ”μ • 였λ₯˜κ°€ 적고 정밀도가 λ†’μŠ΅λ‹ˆλ‹€. 계측 κ°„μ˜ 차이가 클수둝 μ •λ°€λ„μ˜ 이득이 μ»€μ§‘λ‹ˆλ‹€.

κ³„μΈ΅ν™”λœ 랜덀 μƒ˜ν”Œλ§μ˜ 단점

λΆˆν–‰νžˆλ„, 이 연ꡬ 방법은 λͺ¨λ“  μ—°κ΅¬μ—μ„œ μ‚¬μš©ν•  수 μ—†μŠ΅λ‹ˆλ‹€. 이 λ°©λ²•μ˜ 단점은 λͺ‡ 가지 쑰건이 μΆ©μ‘±λ˜μ–΄μ•Ό μ œλŒ€λ‘œ μ‚¬μš©λœλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. 연ꡬ원은 연ꡬ λŒ€μƒ 인ꡬ의 λͺ¨λ“  ꡬ성원을 μ‹λ³„ν•˜κ³  각 ꡬ성원을 단 ν•˜λ‚˜μ˜ ν•˜μœ„ μ§‘λ‹¨μœΌλ‘œ λΆ„λ₯˜ν•΄μ•Ό ν•©λ‹ˆλ‹€. 결과적으둜 κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ€ μ—°κ΅¬μžλ“€μ΄ λͺ¨μ§‘λ‹¨μ˜ λͺ¨λ“  ꡬ성원을 ν•˜μœ„ 그룹으둜 μžμ‹  있게 λΆ„λ₯˜ν•  수 없을 λ•Œ λΆˆλ¦¬ν•©λ‹ˆλ‹€. λ˜ν•œ 전체 인ꡬ 에 λŒ€ν•œ μ² μ €ν•˜κ³  λͺ…ν™•ν•œ λͺ©λ‘μ„ μ°ΎλŠ” 것이 μ–΄λ €μšΈ 수 μžˆμŠ΅λ‹ˆλ‹€.

μ—¬λŸ¬ ν•˜μœ„ 그룹에 μ†ν•˜λŠ” μ£Όμ œκ°€ μžˆλŠ” 경우 겹침이 λ¬Έμ œκ°€ 될 수 μžˆμŠ΅λ‹ˆλ‹€. λ‹¨μˆœλ¬΄μž‘μœ„ν‘œλ³ΈμΆ”μΆœμ„ ν•˜λ©΄ μ—¬λŸ¬ 뢀뢄ꡰ에 μ†ν•œ μ‚¬λžŒλ“€μ΄ 선택될 κ°€λŠ₯성이 더 λ†’λ‹€. κ·Έ κ²°κ³Ό 인ꡬ에 λŒ€ν•œ 잘λͺ»λœ ν‘œν˜„μ΄λ‚˜ λΆ€μ •ν™•ν•œ 반영이 될 수 μžˆμŠ΅λ‹ˆλ‹€.

μœ„μ˜ 예λ₯Ό 보면 μ‰½κ²Œ 이해할 수 μžˆμŠ΅λ‹ˆλ‹€. ν•™λΆ€, λŒ€ν•™μ›, 남성 및 여성은 λͺ…ν™•ν•˜κ²Œ μ •μ˜λœ κ·Έλ£Ήμž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ λ‹€λ₯Έ μƒν™©μ—μ„œλŠ” 훨씬 더 μ–΄λ €μšΈ 수 μžˆμŠ΅λ‹ˆλ‹€. 인쒅, λ―Όμ‘± λ˜λŠ” 쒅ꡐ와 같은 νŠΉμ„±μ„ ν†΅ν•©ν•œλ‹€κ³  상상해 λ³΄μ‹­μ‹œμ˜€. λΆ„λ₯˜ ν”„λ‘œμ„ΈμŠ€κ°€ 더 μ–΄λ €μ›Œμ§€κ³  κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ΄ λΉ„νš¨μœ¨μ μ΄κ³  이상적이지 μ•Šμ€ 방법이 λ©λ‹ˆλ‹€.

##ν•˜μ΄λΌμ΄νŠΈ

  • κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ€ 전체 λͺ¨μ§‘λ‹¨μ—μ„œ 데이터λ₯Ό λ¬΄μž‘μœ„λ‘œ μ„ νƒν•˜λŠ” λ‹¨μˆœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§κ³Ό λ‹€λ₯΄λ―€λ‘œ κ°€λŠ₯ν•œ 각 μƒ˜ν”Œμ΄ λ°œμƒν•  κ°€λŠ₯성이 λ™μΌν•©λ‹ˆλ‹€.

  • κ³„μΈ΅ν™”λœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§μ€ 전체 λͺ¨μ§‘단을 계측이라고 ν•˜λŠ” κ· μ§ˆν•œ 그룹으둜 λ‚˜λˆ„λŠ” 것을 ν¬ν•¨ν•©λ‹ˆλ‹€.

  • μΈ΅ν™” λ¬΄μž‘μœ„ ν‘œλ³Έ μΆ”μΆœμ„ 톡해 μ—°κ΅¬μžλŠ” 연ꡬ λŒ€μƒ 전체 λͺ¨μ§‘단을 κ°€μž₯ 잘 λ‚˜νƒ€λ‚΄λŠ” ν‘œλ³Έ λͺ¨μ§‘단을 얻을 수 μžˆμŠ΅λ‹ˆλ‹€.