표본 선택 편향
표본 선택 편향이란 무엇입니까?
표본 선택 편향은 통계 분석을 위해 무작위가 아닌 데이터를 선택하여 발생하는 편향의 한 유형입니다. 편향은 특정 속성으로 인해 데이터의 하위 집합이 체계적으로 제외되는 표본 선택 프로세스의 결함으로 인해 존재합니다. 부분 집합의 제외는 검정의 통계적 유의성에 영향을 미칠 수 있으며 통계 모델 의 매개변수 추정치를 편향시킬 수 있습니다 .
표본 선택 편향 이해하기
생존 편향 은 표본 선택 편향의 일반적인 유형입니다. 이러한 유형의 편향은 선발 과정에서 특정 시점을 통과하지 못한 과목을 무시하고 "생존"한 과목에만 초점을 맞춥니다. 이것은 잘못된 결론으로 이어질 수 있습니다.
예를 들어, 대규모 주식 그룹에 대한 투자 전략을 백테스트할 때 전체 샘플 기간에 대한 데이터가 있는 증권을 찾는 것이 편리할 수 있습니다. 15년치의 주식 데이터에 대해 전략을 테스트하려는 경우 전체 15년 기간에 대한 완전한 정보가 있는 주식을 찾는 경향이 있을 수 있습니다.
그러나 거래를 중단했거나 곧 시장을 떠난 주식을 제거하면 데이터 샘플에 편향이 입력됩니다. 15년 동안 지속된 주식만 포함하기 때문에 최종 결과에는 결함이 있을 수 있습니다.
표본 선택 편향의 유형
생존 편향 외에도 몇 가지 다른 유형의 표본 선택 편향이 있습니다.
광고 또는 사전 심사 편향
이는 참가자가 연구에서 사전 선별되는 방식이 편향을 도입 할 때 발생합니다. 예를 들어, 연구자들이 참가자를 위해 광고하는 데 사용하는 언어는 단순히 특정 그룹의 사람들이 자발적으로 참여하지 못하도록 하거나 권장함으로써 연구에 편향을 도입할 수 있습니다.
자기 선택 편향
자발적 응답 편향이라고도 하는 자기 선택 편향은 연구 주최자가 참가자가 스스로 선택하거나 자발적으로 참여하도록 허용할 때 발생합니다. 연구 주최자는 누가 참여하는지에 대한 통제를 자원 봉사를 결정한 사람들에게 포기합니다. 이로 인해 특정 특성이나 의견을 가진 사람들이 연구에 자원 하여 결과를 왜곡할 수 있습니다.
배제 및 은폐 편향
배제 편향은 모집단의 특정 구성원이 연구 참여에서 제외될 때 발생합니다. 연구 주최자가 인구의 일부 구성원을 적절하게 대표하지 않는 연구를 만들 때 Undercoverage 편향이 발생합니다.
표본 선택 편향의 예
헤지 펀드 성과 지수는 생존 편향에 따른 표본 선택 편향의 한 예입니다. 살아남지 못한 헤지 펀드는 인덱스 애그리게이터에 실적 보고를 중단하기 때문에 결과 인덱스는 자연스럽게 남아 있는 펀드와 전략에 기울어져 "생존"합니다. 이것은 인기 있는 뮤추얼 펀드 보고 서비스에서도 문제가 될 수 있습니다. 분석가는 이러한 편향을 고려하여 조정할 수 있지만 프로세스에서 새로운 편향을 도입할 수 있습니다.
관찰자 편향은 연구자가 자신의 신념이나 기대를 연구 참가자에게 투사하여 연구 결과를 왜곡할 때 발생합니다. 이것은 연구자들이 주로 자신의 가설을 뒷받침하는 통계에 집중하는 경우인 체리 따기 와 함께 발생합니다 .
특별 고려 사항
연구원과 연구 조직자는 연구 결과가 정확하고 관련성이 있으며 잘못된 결론으로 이어질 수 있는 어떠한 유형의 편견도 포함하지 않도록 할 책임이 있습니다. 이를 수행하는 한 가지 방법은 무작위 표본 선택 프로세스 를 지원하는 방법을 기반으로 연구를 구성하는 것 입니다.
이론적으로 이것은 충분히 간단해 보일 수 있지만, 현실은 연구자가 표본 선택 편향을 방지하기 위한 노력에 경계해야 할 필요가 있다는 것입니다. 또한 연구 주최자는 통제할 수 없는 제한 사항에 직면하여 무작위 표본을 실현하기 어려울 수 있습니다. 예를 들어, 참가자가 부족하거나 프로젝트에 대한 자금이 충분하지 않을 수 있습니다.
연구 중인 표본이 무작위인지 확인하기 위해 연구자는 모집단 내의 다양한 하위 그룹 을 식별해야 합니다. 그런 다음 샘플을 분석하여 이러한 하위 그룹이 연구에서 적절하게 대표되는지 확인해야 합니다.
어떤 경우에는 연구자가 연구에서 특정 하위 그룹이 과도하게 대표되거나 과소 대표되는 것을 발견할 수 있습니다. 이 시점에서 연구자는 바이어스 보정 방법을 구현할 수 있습니다. 한 가지 방법은 편향을 통계적으로 수정하기 위해 잘못 표현된 하위 그룹에 가중치를 할당하는 것입니다. 이 가중 평균 은 각 하위 그룹의 비례 관련성을 고려하고 연구 인구의 실제 인구 통계를 보다 정확하게 반영하는 결과로 이어질 수 있습니다.
하이라이트
표본 선택 프로세스의 결함으로 인해 데이터의 하위 집합이 연구에서 제외되어 테스트의 통계적 유의성에 영향을 미치거나 무효화됩니다.
생존 편향은 선택 과정에서 특정 지점을 통과한 요소, 사람 또는 사물에만 초점을 맞추고 그렇지 않은 것은 무시하기 때문에 잘못된 결론으로 이어질 수 있습니다.
표본 선택 편향에는 사전 선별 편향, 자기 선택 편향, 배제 편향, 관찰자 편향이 있습니다.
표본 선택 편향을 수정하는 한 가지 방법은 편향을 통계적으로 수정하기 위해 잘못 표현된 하위 그룹에 가중치를 할당하는 것입니다.
연구 연구에서 표본 선택 편향은 통계 분석을 위해 무작위가 아닌 데이터를 선택할 때 발생합니다.