分散分析(ANOVA)
##分散分析(ANOVA)とは何ですか?
分散分析(ANOVA)は、統計で使用される分析ツールであり、データセット内で検出された集計の変動を系統的要因とランダム要因の2つの部分に分割します。系統的要因は特定のデータセットに統計的影響を及ぼしますが、ランダム要因は影響を及ぼしません。アナリストは、ANOVA検定を使用して、回帰研究で独立変数が従属変数に与える影響を判断します。
t検定とz検定の方法は、ロナルドフィッシャーが分散分析法を作成した1918年まで統計分析に使用されていました。 ANOVAは、フィッシャー分散分析とも呼ばれ、t検定とz検定の拡張です。この用語は、フィッシャーの著書「研究者のための統計的方法」に登場した後、1925年によく知られるようになりました。それは実験心理学で採用され、後にもっと複雑な主題に拡大されました。
##ANOVAの式は次のとおりです。
1
##分散分析は何を明らかにしますか?
ANOVAテストは、特定のデータセットに影響を与える要因を分析するための最初のステップです。テストが終了すると、アナリストは、データセットの不整合の原因となる系統的な要因について追加のテストを実行します。アナリストは、f検定でANOVAテストの結果を利用して、提案された回帰モデルと一致する追加のデータを生成します。
ANOVAテストでは、3つ以上のグループを同時に比較して、それらの間に関係が存在するかどうかを判断できます。 ANOVA式の結果であるF統計(F比とも呼ばれます)により、複数のデータグループを分析して、サンプル間およびサンプル内の変動性を判断できます。
帰無仮説と呼ばれる、テストされたグループ間に実際の違いが存在しない場合、ANOVAのF比統計の結果は1に近くなります。F統計のすべての可能な値の分布はF分布です。これは実際には、分子の自由度と分母の自由度と呼ばれる2つの特徴的な数値を持つ分布関数のグループです。
##ANOVAの使用方法の例
たとえば、研究者は、複数の大学の学生をテストして、ある大学の学生が他の大学の学生よりも一貫して優れているかどうかを確認する場合があります。ビジネスアプリケーションでは、R&D研究者は、製品を作成する2つの異なるプロセスをテストして、コスト効率の点で一方のプロセスが他方よりも優れているかどうかを確認する場合があります。
使用されるANOVAテストのタイプは、いくつかの要因によって異なります。データが実験的である必要がある場合に適用されます。手作業でANOVAを計算する結果となる統計ソフトウェアへのアクセスがない場合は、分散分析が使用されます。使い方は簡単で、少量のサンプルに最適です。多くの実験計画では、サンプルサイズはさまざまな因子レベルの組み合わせで同じである必要があります。
ANOVAは、3つ以上の変数をテストするのに役立ちます。これは、複数の2標本t検定に似ています。ただし、タイプIのエラーが少なくなり、さまざまな問題に適しています。 ANOVAは、各グループの平均を比較することによって差異をグループ化し、分散をさまざまなソースに分散することを含みます。これは、被験者、テストグループ、グループ間、およびグループ内で使用されます。
##一元配置分散分析と二元配置分散分析
ANOVAには、一元配置(または一元配置)と双方向の2つの主要なタイプがあります。 ANOVAのバリエーションもあります。たとえば、MANOVA(多変量ANOVA)は、前者が複数の従属変数を同時にテストするのに対し、後者は一度に1つの従属変数のみを評価するため、ANOVAとは異なります。一元配置または双方向分析とは、分散分析テストにおける独立変数の数を指します。一元配置分散分析は、唯一の応答変数に対する唯一の要因の影響を評価します。すべてのサンプルが同じであるかどうかを判別します。一元配置分散分析は、3つ以上の独立した(無関係の)グループの平均間に統計的に有意な差があるかどうかを判断するために使用されます。
双方向ANOVAは、一元配置分散分析の拡張です。一方向では、従属変数に影響を与える1つの独立変数があります。二元配置分散分析では、2つの独立したものがあります。たとえば、双方向ANOVAを使用すると、企業は、給与やスキルセットなどの2つの独立変数に基づいて労働者の生産性を比較できます。これは、2つの要因間の交互作用を観察し、同時に2つの要因の影響をテストするために使用されます。
##ハイライト
-グループ間に真の分散が存在しない場合、ANOVAのF比は1に近くなるはずです。
-一元配置分散分析は、従属変数と独立変数の間の関係に関する情報を取得するために、3つ以上のデータグループに使用されます。
-分散分析(ANOVA)は、観測された分散データをさまざまなコンポーネントに分離して追加のテストに使用する統計手法です。