サンプル

##サンプルとは何ですか？

サンプルは、より大きなグループのより小さく、管理しやすいバージョンを指します。これは、より大きな母集団の特性を含むサブセットです。サンプルは、母集団のサイズが大きすぎてすべての可能なメンバーまたは観測値を含めることができない場合に、統計的検定で使用されます。サンプルは、母集団全体を表す必要があり、特定の属性に対するバイアスを反映してはなりません。

サンプリング手法はいくつかあり、それぞれに長所と短所があります。

##サンプルを理解する

サンプルは、母集団から取得された偏りのない数の観測値です。簡単に言うと、母集団とは、特定のグループまたはコンテキストに含まれる観測値（つまり、個人、動物、アイテム、データなど）の総数です。つまり、サンプルはグループ全体の一部、一部、または一部であり、母集団のサブセットとして機能します。サンプルは、研究が行われるさまざまな設定で使用されます。科学者、マーケター、政府機関、経済学者、および研究グループは、研究と測定にサンプルを使用する人々の中に含まれています。

集団全体を研究に使用することには課題が伴います。研究者は、集団全体にすぐにアクセスできるようにするのに問題があるかもしれません。また、一部の研究の性質上、研究者は必要な結果をタイムリーに得ることが難しい場合があります。これが、人々のサンプルが使用される理由です。全人口を代表する少数の人々を使用することで、時間とリソースを削減しながら、有効な結果を生み出すことができます。

研究者が使用するサンプルは、正確な推論または予測を行うために、より広い母集団に類似している必要があります。サンプルのすべての参加者は、同じ特性と品質を共有する必要があります。したがって、研究が男性の大学新入生に関するものである場合、サンプルはこの説明に適合する男性のわずかな割合である必要があります。同様に、研究グループが50歳以上の独身女性の睡眠パターンに関する調査を実施する場合、サンプルにはこの人口統計内の女性のみを含める必要があります。

##特別な考慮事項

CFA試験のために40時間未満勉強し、まだ合格した学生の数を知りたい学術研究者のチームを考えてみてください。毎年世界中で20万人以上が試験を受けているため、試験参加者全員に連絡を取ることは時間とリソースを浪費することになります。

実際、母集団からのデータが収集および分析されるまでに、数年が経過し、新しい母集団が出現したため、分析は無価値になります。代わりに研究者ができることは、母集団のサンプルを取り、このサンプルからデータを取得することです。

偏りのないサンプルを実現するには、母集団の全員がサンプルグループに追加される可能性が等しくなるように、選択をランダムにする必要があります。これは宝くじの抽選に似ており、単純ランダムサンプリングの基礎となります。

偏りのないサンプルの場合、母集団の全員がグループに追加される可能性が等しくなるように、選択はランダムである必要があります。

##サンプリングの種類

###単純ランダムサンプリング

母集団内のすべてのエンティティが同一である場合は、単純ランダムサンプリングが理想的です。研究者が、サンプルの被験者がすべて男性であるかすべて女性であるか、または何らかの形で男女の組み合わせであるかを気にしない場合は、単純ランダムサンプリングが優れた選択手法である可能性があります。

2021年にCFA試験に受験した受験者が20万人いたとしましょう。そのうち、40％が女性で、60％が男性でした。したがって、母集団から抽出されたランダムサンプルには、合計1,000人の受験者に対して400人の女性と600人の男性が含まれている必要があります。

しかし、40時間未満の勉強でテストに合格した男性と女性の比率を知ることが重要な場合はどうでしょうか。ここでは、単純なランダムサンプルよりも層化ランダムサンプルの方が適しています。

###層化ランダムサンプリング

このタイプのサンプリングは、比例ランダムサンプリングまたはクォータランダムサンプリングとも呼ばれ、母集団全体をより小さなグループに分割します。これらは層として知られています。地層内の人々は同様の特徴を共有しています。

年齢が研究者がデータに含めたい重要な要素だった場合はどうなりますか？層化ランダムサンプリング手法を使用して、年齢層ごとに層または層を作成できます。括弧内の全員がサンプルに含まれる可能性が高いように、各層からの選択はランダムである必要があります。たとえば、2人の参加者、AlexとDavidは、それぞれ22歳と24歳です。サンプルの選択では、優先的なメカニズムに基づいて一方を選択することはできません。どちらも、年齢層から選ばれる可能性は同じでなければなりません。階層は次のようになります。

TTT
表から、人口は年齢層に分けられています。たとえば、2021年に20〜24歳の範囲内の30,000人がCFA試験を受けました。これと同じ比率を使用すると、サンプルグループには（30,000÷200,000）×1,000=150人の受験者がこのグループに含まれます。アレックスまたはデビッド、あるいはその両方、またはどちらも、サンプルの150人のランダムな試験参加者に含まれる場合があります。

サンプルサイズを決定するときにコンパイルできる層は他にもたくさんあります。一部の研究者は、サンプルの作成方法を決定する際に、受験者の職務、国、結婚歴などを入力する場合があります。

##サンプルの例

2021年の世界の人口は約79億人で、そのうち49.6％が女性、50％が男性でした。特定の国の総人口も人口規模になる可能性があります。都市の学生の総数は人口と見なすことができ、都市の犬の総数も人口の大きさです。研究目的でこれらの集団からサンプルを採取することができます。

CFA試験の例に従って、研究者は、合計200,000人の受験者（母集団）から1,000人のCFA参加者のサンプルを取得し、この数で必要なデータを実行できます。このサンプルの平均は、40時間未満しか勉強しなかったにもかかわらず合格したCFA受験者の平均を推定するために使用されます。

採取したサンプルグループにバイアスをかけないでください。これは、1,000人のCFA試験参加者のサンプル平均が50である場合、200,000人の受験者の母平均も約50になるはずであることを意味します。

##ハイライト

-統計では、サンプルはより大きな母集団の分析サブセットです。

-単純ランダムサンプリングでは、母集団内のすべてのエンティティは同一ですが、層化ランダムサンプリングでは、母集団全体が小さなグループに分割されます。

-サンプルを使用することで、研究者はより管理しやすいデータを使用してタイムリーに研究を行うことができます。

-ランダムに抽出されたサンプルは、十分な大きさであればバイアスはあまりありませんが、そのようなサンプルを作成するには、費用と時間がかかる場合があります。

＃＃よくある質問

###単純ランダムサンプルとは何ですか？

このサンプリング方法では、より多くの母集団からランダムに選択された回答者またはデータポイントを使用します。サンプルサイズが十分に大きい場合、ランダムサンプルはバイアスを取り除きます。

###ランダムサンプルで推論が可能になるのはなぜですか？

統計の法則は、サンプルを使用することにより、母集団について正確な測定と評価を行うことができることを意味します。分散分析（ANOVA）、線形回帰、およびより高度なモデリング手法は、大数の法則と中心極限定理のために有効です。

###アナリストが母集団を測定する代わりにサンプルを使用するのはなぜですか？

多くの場合、すべてのメンバーを測定するには人口が多すぎるか広すぎるため、各メンバーの測定には費用と時間がかかります。サンプルを使用すると、統計的手法を使用して母集団について推論を行うことができます。

###どのくらいの大きさのサンプルが必要ですか？

これは、母集団のサイズと実行する分析のタイプ（たとえば、使用している信頼区間）によって異なります。検出力分析は、ニーズに基づいて必要な最小サンプルサイズを数学的に評価するための手法です。もう1つの経験則では、サンプルは十分な大きさである必要がありますが、母集団の10％以下である必要があります。