適合度
##適合度とは何ですか?
適合度という用語は、サンプルデータが正規分布の母集団からの分布にどの程度適合しているかを判断する統計的検定を指します。簡単に言えば、サンプルが歪んでいるか、実際の母集団で見つかると予想されるデータを表しているかを仮定します。
適合度は、観測値と正規分布の場合のモデルに期待される値との間の不一致を確立します。適合度を判断するには、カイスクエアなど、複数の方法があります。
##適合度を理解する
適合度テストは、観測値について推測する統計的手法です。たとえば、サンプルグループが母集団全体を本当に代表しているかどうかを判断できます。そのため、実際の値がモデルの予測値にどのように関連しているかを判断します。意思決定に使用すると、適合度テストにより、将来の傾向とパターンを簡単に予測できます。
上記のように、適合性テストにはいくつかのタイプがあります。それらには、最も一般的なカイ2乗検定、コルモゴロフ-スミルノフ検定、およびシャピロ-ウィルク検定が含まれます。テストは通常、コンピュータソフトウェアを使用して実施されます。ただし、統計学者は、特定のタイプのテストに合わせた式を使用してこれらのテストを実行できます。
テストを実行するには、特定の変数と、それがどのように分散されるかを想定する必要があります。また、次のような明確で明示的な値を持つデータセットも必要です。
-実際のデータセットから導出された観測値
-行われた仮定から取られた期待値
-セット内のカテゴリの総数
適合度テストは、残差の正規性をテストするため、または2つのサンプルが同一の分布から収集されているかどうかを判断するために一般的に使用されます。
##特別な考慮事項
適合度検定を解釈するには、統計家がカイ2乗検定のp値などのアルファレベルを確立することが重要です。 p値は、観測された結果の極値に近い結果が得られる確率を指します。これは、帰無仮説が正しいことを前提としています。ヌル仮説は、変数間に関係が存在しないことを主張し、代替仮説は、関係が存在することを前提としています。
代わりに、観測値の頻度が測定され、その後、期待値と自由度とともに使用されて、カイ二乗が計算されます。結果がアルファよりも低い場合、帰無仮説は無効であり、変数間に関係が存在することを示します。
##適合度テストの種類
###カイ二乗検定
のカイ二乗テストとしても知られているカイ二乗テストは、ランダムなサンプルに基づいて母集団について行われた主張の妥当性をテストする推論統計法です。
クラス(ビン)に分割されたデータ専用に使用されるため、正確な結果を生成するには十分なサンプルサイズが必要です。しかし、それは関係のタイプや強さを示すものではありません。たとえば、関係が正であるか負であるかは結論付けられません。
カイ二乗適合度を計算するには、目的のアルファレベルの有意性を設定します。したがって、信頼水準が95%(または0.95)の場合、アルファは0.05です。次に、テストするカテゴリ変数を特定し、それらの間の関係に関する仮説ステートメントを定義します。
独立性のカイ二乗検定の資格を得るには、変数が相互に排他的である必要があります。また、chiの適合性テストは、継続的なデータには使用しないでください。
###コルモゴロフ-スミルノフテスト
ロシアの数学者AndreyKolmogorovとNikolaiSmirnovにちなんで名付けられたKolmogorov-Smirnovテスト(KSテストとも呼ばれます)は、サンプルが集団内の特定の分布からのものであるかどうかを判断する統計的手法です。
このテストは、大きなサンプル(たとえば、2000を超える)に推奨されますが、ノンパラメトリックです。つまり、有効であるためにディストリビューションに依存しないということです。目標は、正規分布のサンプルである帰無仮説を証明することです。
カイスクエアのように、それはヌルと代替の仮説と重要性のアルファレベルを使用します。 Nullは、データが母集団内の特定の分布に従っていることを示し、代替は、データが母集団内の特定の分布に従っていないことを示します。アルファは、テストで使用されるクリティカル値を決定するために使用されます。ただし、カイ2乗検定とは異なり、コルモゴロフ-スミルノフ検定は連続分布に適用されます。
計算されたテスト統計は、多くの場合Dとして示されます。これは、ヌル仮説が受け入れられるか拒否されるかを決定します。 Dがalphaでの臨界値よりも大きい場合、null仮説は拒否されます。 Dが臨界値よりも小さい場合、帰無仮説が受け入れられます。
###Shipiro-Wilkテスト
Shipiro-Wilkテストは、サンプルが正規分布に従うかどうかを判断します。このテストは、連続データの変数が1つあるサンプルを使用する場合にのみ正常性をチェックし、2000までの小さなサンプルサイズに推奨されます。
Shipiro-Wilk検定は、QQプロットと呼ばれる確率プロットを使用します。これは、最小から最大に配置された2セットの分位数をy軸に表示します。各分位数が同じ分布に由来する場合、一連のプロットは線形です。
QQプロットは、分散を推定するために使用されます。 QQプロットの分散と母集団の推定分散を使用して、サンプルが正規分布に属しているかどうかを判断できます。両方の分散の商が1に等しいか近い場合、帰無仮説を受け入れることができます。 1よりかなり低い場合は、拒否できます。
上記のテストと同様に、これはアルファを使用し、帰無仮説と代替仮説の2つの仮説を形成します。ヌル仮説は、サンプルが正規分布からのものであると述べていますが、代替仮説は、サンプルが正規分布からのものではないと述べています。
##適合度の例
これは、適合度テストがどのように機能するかを示すための架空の例です。
小さなコミュニティジムが、月曜日、火曜日、土曜日が最も多く、水曜日と木曜日が平均的で、金曜日と日曜日が最も少ないと仮定して運営されているとします。これらの仮定に基づいて、ジムは毎日一定数のスタッフを雇用して、メンバーのチェックイン、施設の清掃、トレーニングサービスの提供、クラスの指導を行っています。
しかし、ジムは財政的にうまく機能しておらず、所有者はこれらの出席の仮定と人員配置が正しいかどうかを知りたがっています。オーナーは、6週間の毎日のジムの参加者数を数えることにしました。次に、たとえばカイ2乗適合度検定を使用して、ジムの想定出席率と観察された出席率を比較できます。
新しいデータを入手したので、ジムを最適に管理して収益性を向上させる方法を決定できます。
##結論
適合性テストは、サンプルデータが母集団に期待されるものにどの程度適合しているかを判断します。サンプルデータから、観測値が収集され、不一致測定を使用して計算された期待値と比較されます。求めている結果に応じて、さまざまな適合性仮説テストを利用できます。
適切な適合度テストの選択は、サンプルについて知りたいこととサンプルの大きさに大きく依存します。たとえば、カテゴリデータの観測値がカテゴリデータの期待値と一致するかどうかを知りたい場合は、カイ2乗を使用します。少量の標本が正規分布に従うかどうかを知りたい場合は、シャピロ-ウィルク検定が有利な場合があります。適合度を決定するために利用できる多くのテストがあります。
##ハイライト
-適合度は、一連の観測値が該当するモデルで期待される値と一致するかどうかを判断しようとする統計的検定です。
-サンプルデータが、正規分布の母集団から予想されるデータセットに適合するかどうかを示すことができます。
-カイ2乗検定は、カテゴリデータ間に関係が存在するかどうかを判断します。
-適合度検定には複数の種類がありますが、最も一般的なのはカイ2乗検定です。
-コルモゴロフ-スミルノフ検定は、サンプルが母集団の特定の分布に由来するかどうかを判断します。
## よくある質問
###カイ二乗検定の適合度とは何ですか?
カイ二乗は、カテゴリ変数間に関係が存在するかどうか、およびサンプルが全体を表すかどうかをテストします。観測されたデータが期待されるデータをどれだけ厳密に反映しているか、またはそれらがどれだけ適合しているかを推定します。
###適合度とはどういう意味ですか?
Goodness-of-Fitは、厳密に観察されたデータが期待されるデータをどの程度反映しているかを確認するために使用される統計的仮説テストです。適合度検定は、サンプルが正規分布に従うかどうか、カテゴリ変数が関連しているかどうか、またはランダムサンプルが同じ分布からのものであるかどうかを判断するのに役立ちます。
###適合度テストをどのように行いますか?
適合度テストは、さまざまなテスト方法で構成されています。テストの目的は、使用する方法を決定するのに役立ちます。たとえば、目標が比較的小さなサンプルで正規性を検定することである場合、Shipiro-Wilk検定が適している可能性があります。サンプルが母集団内の特定の分布からのものであるかどうかを判断する場合は、コルモゴロフ-スミルノフ検定が使用されます。各テストは、独自の式を使用します。ただし、帰無仮説や有意水準などの共通点があります。
###適合度が重要なのはなぜですか?
適合度テストは、観測されたデータが期待されるものと一致しているかどうかを判断するのに役立ちます。実施した仮説テストの結果に基づいて決定を下すことができます。たとえば、小売業者は、どの製品が若者にアピールするかを知りたいと考えています。小売業者は、老若男女のランダムなサンプルを調査して、どの製品が好まれているかを特定します。カイ二乗を使用して、95%の信頼度で、製品Aと若者の間に関係が存在することを識別します。これらの結果に基づいて、このサンプルは若年成人の人口を表していると判断できます。リテールマーケターはこれを使用してキャンペーンを改革できます。