Investor's wiki

표본 선택 편향

표본 선택 편향

표본 선택 편향이란 무엇입니까?

표본 선택 편향은 통계 분석을 위해 무작위가 아닌 데이터를 선택하여 발생하는 편향의 한 유형입니다. 편향은 특정 속성으로 인해 데이터의 하위 집합이 체계적으로 제외되는 표본 선택 프로세스의 결함으로 인해 존재합니다. 부분 집합의 제외는 검정의 통계적 유의성에 영향을 미칠 수 있으며 통계 모델 의 매개변수 추정치를 편향시킬 수 있습니다 .

표본 선택 편향 이해하기

생존 편향 은 표본 선택 편향의 일반적인 유형입니다. 이러한 유형의 편향은 선발 과정에서 특정 시점을 통과하지 못한 과목을 무시하고 "생존"한 과목에만 초점을 맞춥니다. 이것은 잘못된 결론으로 이어질 수 있습니다.

예를 들어, 대규모 주식 그룹에 대한 투자 전략을 백테스트할 때 전체 샘플 기간에 대한 데이터가 있는 증권을 찾는 것이 편리할 수 있습니다. 15년치의 주식 데이터에 대해 전략을 테스트하려는 경우 전체 15년 기간에 대한 완전한 정보가 있는 주식을 찾는 경향이 있을 수 있습니다.

그러나 거래를 중단했거나 곧 시장을 떠난 주식을 제거하면 데이터 샘플에 편향이 입력됩니다. 15년 동안 지속된 주식만 포함하기 때문에 최종 결과에는 결함이 있을 수 있습니다.

표본 선택 편향의 유형

생존 편향 외에도 몇 가지 다른 유형의 표본 선택 편향이 있습니다.

광고 또는 사전 심사 편향

이는 참가자가 연구에서 사전 선별되는 방식이 편향을 도입 할 때 발생합니다. 예를 들어, 연구자들이 참가자를 위해 광고하는 데 사용하는 언어는 단순히 특정 그룹의 사람들이 자발적으로 참여하지 못하도록 하거나 권장함으로써 연구에 편향을 도입할 수 있습니다.

자기 선택 편향

자발적 응답 편향이라고도 하는 자기 선택 편향은 연구 주최자가 참가자가 스스로 선택하거나 자발적으로 참여하도록 허용할 때 발생합니다. 연구 주최자는 누가 참여하는지에 대한 통제를 자원 봉사를 결정한 사람들에게 포기합니다. 이로 인해 특정 특성이나 의견을 가진 사람들이 연구에 자원 하여 결과를 왜곡할 수 있습니다.

배제 및 은폐 편향

배제 편향은 모집단의 특정 구성원이 연구 참여에서 제외될 때 발생합니다. 연구 주최자가 인구의 일부 구성원을 적절하게 대표하지 않는 연구를 만들 때 Undercoverage 편향이 발생합니다.

표본 선택 편향의 예

헤지 펀드 성과 지수는 생존 편향에 따른 표본 선택 편향의 한 예입니다. 살아남지 못한 헤지 펀드는 인덱스 애그리게이터에 실적 보고를 중단하기 때문에 결과 인덱스는 자연스럽게 남아 있는 펀드와 전략에 기울어져 "생존"합니다. 이것은 인기 있는 뮤추얼 펀드 보고 서비스에서도 문제가 될 수 있습니다. 분석가는 이러한 편향을 고려하여 조정할 수 있지만 프로세스에서 새로운 편향을 도입할 수 있습니다.

관찰자 편향은 연구자가 자신의 신념이나 기대를 연구 참가자에게 투사하여 연구 결과를 왜곡할 때 발생합니다. 이것은 연구자들이 주로 자신의 가설을 뒷받침하는 통계에 집중하는 경우인 체리 따기 와 함께 발생합니다 .

특별 고려 사항

연구원과 연구 조직자는 연구 결과가 정확하고 관련성이 있으며 잘못된 결론으로 이어질 수 있는 어떠한 유형의 편견도 포함하지 않도록 할 책임이 있습니다. 이를 수행하는 한 가지 방법은 무작위 표본 선택 프로세스 를 지원하는 방법을 기반으로 연구를 구성하는 것 입니다.

이론적으로 이것은 충분히 간단해 보일 수 있지만, 현실은 연구자가 표본 선택 편향을 방지하기 위한 노력에 경계해야 할 필요가 있다는 것입니다. 또한 연구 주최자는 통제할 수 없는 제한 사항에 직면하여 무작위 표본을 실현하기 어려울 수 있습니다. 예를 들어, 참가자가 부족하거나 프로젝트에 대한 자금이 충분하지 않을 수 있습니다.

연구 중인 표본이 무작위인지 확인하기 위해 연구자는 모집단 내의 다양한 하위 그룹 을 식별해야 합니다. 그런 다음 샘플을 분석하여 이러한 하위 그룹이 연구에서 적절하게 대표되는지 확인해야 합니다.

어떤 경우에는 연구자가 연구에서 특정 하위 그룹이 과도하게 대표되거나 과소 대표되는 것을 발견할 수 있습니다. 이 시점에서 연구자는 바이어스 보정 방법을 구현할 수 있습니다. 한 가지 방법은 편향을 통계적으로 수정하기 위해 잘못 표현된 하위 그룹에 가중치를 할당하는 것입니다. 이 가중 평균 은 각 하위 그룹의 비례 관련성을 고려하고 연구 인구의 실제 인구 통계를 보다 정확하게 반영하는 결과로 이어질 수 있습니다.

하이라이트

  • 표본 선택 프로세스의 결함으로 인해 데이터의 하위 집합이 연구에서 제외되어 테스트의 통계적 유의성에 영향을 미치거나 무효화됩니다.

  • 생존 편향은 선택 과정에서 특정 지점을 통과한 요소, 사람 또는 사물에만 초점을 맞추고 그렇지 않은 것은 무시하기 때문에 잘못된 결론으로 이어질 수 있습니다.

  • 표본 선택 편향에는 사전 선별 편향, 자기 선택 편향, 배제 편향, 관찰자 편향이 있습니다.

  • 표본 선택 편향을 수정하는 한 가지 방법은 편향을 통계적으로 수정하기 위해 잘못 표현된 하위 그룹에 가중치를 할당하는 것입니다.

  • 연구 연구에서 표본 선택 편향은 통계 분석을 위해 무작위가 아닌 데이터를 선택할 때 발생합니다.