等分散性
##ホモケダスティックとは何ですか?
、回帰モデルの残差または誤差項の分散が一定である状態を指します。つまり、予測変数の値が変化しても、誤差項はあまり変化しません。別の言い方をすれば、データポイントの分散はすべてのデータポイントでほぼ同じです。
これは、一貫性のレベルを示唆し、回帰によるデータのモデル化と操作を容易にします。ただし、等分散性がないことは、従属変数のパフォーマンスを説明するために、回帰モデルに追加の予測変数を含める必要があることを示唆している可能性があります。
##ホモケダスティシティの仕組み
回帰モデリングに近いliの1つの仮定であり、このタイプのデータは最小二乗法でうまく機能します。回帰直線の周りの誤差の分散が大きく変化する場合、回帰モデルの定義が不十分である可能性があります。
「均一」の反対が「不均一」であるのと同じように、不均一分散の反対は不均一分散です。不均一分散(「不均一分散」とも呼ばれます)は、回帰方程式の誤差項の分散が一定でない状態を指します。
##特別な考慮事項
単純な回帰モデルまたは方程式は、4つの項で構成されます。左側は従属変数です。これは、モデルが「説明」しようとしている現象を表しています。右側には、定数、予測変数、および残差または誤差の項があります。誤差項は、予測変数によって説明されない従属変数の変動量を示します。
##等分散性の例
たとえば、各学生が勉強に費やした時間を使用して、学生のテストのスコアを説明したいとします。この場合、テストスコアは従属変数になり、学習に費やされた時間は予測変数になります。
誤差項は、学習時間によって説明されなかったテストスコアの分散の量を示します。その分散が均一またはホモスケダスティックである場合、それはモデルがテストパフォーマンスの適切な説明である可能性があることを示唆します-研究に費やされた時間の観点からそれを説明します。
しかし、差異は異質なものである可能性があります。誤差項データのプロットは、高いテストスコアと非常に密接に対応する大量の学習時間を示している可能性がありますが、低い学習時間のテストスコアは大きく異なり、非常に高いスコアも含まれています。
したがって、スコアの分散は、1つの予測変数(学習時間)だけでは十分に説明できません。この場合、他の要因が働いている可能性があり、モデルまたはそれらを識別するためにモデルを拡張する必要がある場合があります。
分散が特定の状況の予測結果と実際の結果の間の測定された差であると考える場合、等分散性を決定することは、どの要因を正確に調整する必要があるかを決定するのに役立ちます。
さらに調査すると、一部の学生は事前にテストの答えを見たことがあるか、以前に同様のテストを受けたことがあり、したがってこの特定のテストのために勉強する必要がなかったことが明らかになる場合があります。さらに言えば、科目に関係なく、学生は学習時間や以前のテストでの成績に関係なく、さまざまなレベルのテスト合格能力を持っていたことがわかるかもしれません。
回帰モデルを改善するには、研究者は、データにより正確に適合させることができる他の説明変数を試す必要があります。たとえば、一部の生徒が事前に回答を確認した場合、回帰モデルには2つの説明変数があります。学習時間と、生徒が回答について事前に知っているかどうかです。
これらの2つの変数を使用すると、テストスコアの分散の多くが説明され、誤差項の分散が等分散性になる可能性があります。これは、モデルが明確に定義されていることを示しています。
##ハイライト
-誤差項の分散がホモスケダスティックである場合、モデルは明確に定義されています。分散が大きすぎると、モデルが適切に定義されていない可能性があります。
-等分散性は、回帰モデルの誤差項の分散が一定の場合に発生します。
-反対に、不均一分散は、誤差項の分散が一定でない場合に発生します。
-予測変数を追加すると、従属変数のパフォーマンスを説明するのに役立ちます。
## よくある質問
###等分散性が重要なのはなぜですか?
ホモケダスティック性は、母集団の非類似性を識別するために重要です。母集団またはサンプルに分散がない場合でも、結果が歪んだり偏ったりして、分析が不正確または無価値になります。
###不均一分散とはどういう意味ですか?
統計における異質性は誤差分散です。これは、少なくとも1つの独立変数を持つサンプル内で発生する散乱の依存性です。これは、予測可能な変数の標準偏差が一定でないことを意味します。
###回帰が等分散性であるかどうかをどのように判断できますか?
最大の分散と最小の分散の比率を調べることで、回帰が等分散性であるかどうかを判断できます。比率が1.5以下の場合、回帰は等分散性です。