層化ランダムサンプリング

##階層化ランダムサンプリングとは何ですか？

層化ランダムサンプリングは、母集団を層と呼ばれる小さなサブグループに分割することを含むサンプリングの方法です。階層化ランダムサンプリングまたは階層化では、階層は、メンバーの共有属性または収入や学歴などの特性に基づいて形成されます。

層化ランダムサンプリングは、比例ランダムサンプリングまたはクォータランダムサンプリングとも呼ばれます。

##層化ランダムサンプリングのしくみ

同様の特性を持つエンティティのグループの分析または調査を完了すると、研究者は、人口サイズが大きすぎて調査を完了できないことに気付く場合があります。時間とお金を節約するために、アナリストは母集団から小グループを選択することにより、より実行可能なアプローチをとることができます。小グループはサンプルサイズと呼ばれ、母集団全体を表すために使用される母集団のサブセットです。サンプルは、いくつかの方法で母集団から選択できます。その1つは、階層化されたランダムサンプリング方法です。

階層化されたランダムサンプリングでは、母集団全体を層（**層の場合は複数）と呼ばれる均一なグループに分割します。**次に、各層からランダムサンプルが選択されます。たとえば、2007年に卒業後3か月以内に求人を受け取ったMBA学生の数を知りたい学術研究者を考えてみてください。

研究者はすぐにその年にほぼ20万人のMBA卒業生がいたことに気付くでしょう。彼らは、50,000人の卒業生の単純なランダムサンプルを取り、調査を実行することを決定するかもしれません。さらに良いことに、彼らは母集団を層に分割し、層からランダムなサンプルを取得することができます。これを行うために、彼らは性別、年齢層、人種、国籍の国、およびキャリアの背景に基づいて人口グループを作成します。各層からランダムなサンプルが、母集団と比較した場合の層のサイズに比例した数で取得されます。次に、これらの層のサブセットがプールされて、ランダムなサンプルが形成されます。

層別サンプリングは、集団のすべてのメンバーを同等に扱い、サンプリングされる可能性が等しい単純なランダムサンプリングとは対照的に、集団内のグループ間の違いを強調するために使用されます

##階層化ランダムサンプリングの例

研究チームが全米の大学生のGPAを決定したいとします。研究チームは2100万人の大学生全員からデータを収集するのが困難です。 4,000人の学生を使用して、母集団のランダムなサンプルを取得することにしました。

ここで、チームがサンプル参加者のさまざまな属性を調べ、GPAと学生の専攻に違いがあるかどうか疑問に思っていると仮定します。 560人の学生が英語専攻、1,135人が科学専攻、800人がコンピューター科学専攻、1,090人が工学専攻、415人が数学専攻であることがわかったとします。チームは、サンプルの層が母集団のランダムサンプルに比例する、比例層化ランダムサンプルを使用したいと考えています。

が米国の大学生の人口統計を調査し、学生が専攻している割合を見つけたと仮定します：英語で12％専攻、科学で28％専攻、コンピューター科学で24％専攻、工学で21％専攻、15％数学を専攻。したがって、5つの層が層化ランダムサンプリングプロセスから作成されます。

次に、チームは、母集団の層がサンプルの層に比例していることを確認する必要があります。しかし、彼らは比率が等しくないことを発見しました。次に、チームは人口から4,000人の学生を再サンプリングし、480人の英語、1,120人の科学、960人のコンピューター科学、840人の工学、600人の数学の学生をランダムに選択する必要があります。

それらを使用すると、大学生の比例した層別ランダムサンプルがあり、米国の学生の大学専攻をより適切に表すことができます。その後、研究者は特定の層を強調表示し、米国の大学生のさまざまな研究を観察し、さまざまな成績平均点を観察できます。。

##単純ランダムサンプルと層化ランダムサンプル

単純なランダムサンプルと階層化されたランダムサンプルは、どちらも統計測定ツールです。単純なランダムサンプルを使用して、データ母集団全体を表します。層化ランダムサンプルは、共通の特性に基づいて、母集団をより小さなグループまたは層に分割します。

単純なランダムサンプルは、データポピュレーションに関する情報がほとんどない場合、データポピュレーションの違いが多すぎてさまざまなサブセットに分割できない場合、またはデータポピュレーションの中に明確な特性が1つしかない場合によく使用されます。

たとえば、キャンディー会社は、製品ラインの将来を判断するために、顧客の購買習慣を調査したい場合があります。 10,000人の顧客がいる場合は、ランダムなサンプルとしてそれらの顧客から100人を選択することができます。次に、100人の顧客から見つけたものを残りのベースに適用できます。階層化とは異なり、個々の特性に関係なく、100人のメンバーを純粋にランダムにサンプリングします。

###比例および不均衡な層別化

階層化されたランダムサンプリングにより、特定の母集団の各サブグループが、調査研究の全サンプル母集団内で適切に表されることが保証されます。成層化は、比例的または不均衡になる可能性があります。比例層化法では、各層のサンプルサイズは、層の母集団サイズに比例します。

たとえば、研究者が年齢範囲を使用して50,000人の卒業生のサンプルを必要とする場合、比例層化ランダムサンプルは次の式を使用して取得されます:(サンプルサイズ/母集団サイズ）x層サイズ。以下の表は、年間180,000MBAの卒業生の人口規模を想定しています。

TTT

24〜28歳のMBA卒業生の層サンプルサイズは、（50,000 / 180,000）x 90,000=25,000として計算されます。同じ方法が他の年齢層グループにも使用されます。層のサンプルサイズがわかったので、研究者は各層で単純なランダムサンプリングを実行して、調査参加者を選択できます。つまり、24〜28歳の卒業生25,000人が全人口からランダムに選ばれ、29〜33歳の卒業生16,667人がランダムに選ばれます。

不均衡な層状サンプルでは、各層のサイズは母集団内のサイズに比例しません。研究者は、34〜37歳の卒業生の1/2と、29〜33歳の卒業生の1/3をサンプリングすることを決定できます。

1人が複数の層に収まらないことに注意することが重要です。各エンティティは、1つの階層にのみ収まる必要があります。サブグループが重複しているということは、一部の個人が調査に選ばれる可能性が高くなることを意味します。これは、確率サンプリングの一種としての階層化サンプリングの概念を完全に否定します。

ポートフォリオ管理者は、階層化されたランダムサンプリングを使用して、ボンドインデックスなどのインデックスを複製することでポートフォリオを作成できます。

##階層化ランダムサンプリングの利点

層化ランダムサンプリングの主な利点は、サンプル内の主要な母集団の特性をキャプチャすることです。加重平均と同様に、このサンプリング方法では、母集団全体に比例する特性がサンプルに生成されます。層化ランダムサンプリングは、さまざまな属性を持つ母集団に対して適切に機能しますが、サブグループを形成できない場合は効果がありません。

階層化により、単純なランダムサンプリング法よりも推定誤差が小さくなり、精度が高くなります。階層間の差異が大きいほど、精度が向上します。

##層化ランダムサンプリングのデメリット

残念ながら、この研究方法はすべての研究で使用できるわけではありません。この方法の欠点は、適切に使用するためにいくつかの条件を満たす必要があることです。研究者は、調査対象の母集団のすべてのメンバーを特定し、それぞれを1つだけのサブ母集団に分類する必要があります。その結果、研究者が母集団のすべてのメンバーを自信を持ってサブグループに分類できない場合、階層化されたランダムサンプリングは不利になります。また、全人口の網羅的で決定的なリストを見つけることは困難な場合があります。

複数のサブグループに分類されるサブジェクトがある場合、重複が問題になる可能性があります。単純なランダムサンプリングを実行すると、複数のサブグループに属する人が選択される可能性が高くなります。その結果、人口の不正確な表現または不正確な反映になる可能性があります。

上記の例は簡単です。学部生、大学院生、男性、女性は明確に定義されたグループです。ただし、他の状況では、はるかに難しい場合があります。人種、民族性、宗教などの特徴を取り入れることを想像してみてください。ソートプロセスはより困難になり、階層化されたランダムサンプリングは効果がなく、理想的とは言えない方法になります。

##ハイライト

-階層化されたランダムサンプリングは、母集団全体からデータをランダムに選択する単純なランダムサンプリングとは異なるため、考えられる各サンプルが同じように発生する可能性があります。

-層別ランダムサンプリングでは、母集団全体を層と呼ばれる同種のグループに分割します。

-階層化されたランダムサンプリングにより、研究者は、調査対象の母集団全体を最もよく表すサンプル母集団を取得できます。