Investor's wiki

四分位数

四分位数

##四分位数とは何ですか?

四分位数は、データの値と、それらが観測値のセット全体とどのように比較されるかに基づいて、観測値を4つの定義された間隔に分割することを表す統計用語です。

##四分位数を理解する

四分位数を理解するには、中心傾向の尺度として中央値を理解することが重要です。統計の中央値は、一連の数値の中央値です。これは、データのちょうど半分が中心値の上下にあるポイントです。

したがって、並べ替えられた(昇順または降順)13個の数値のセットが与えられると、中央値は7番目の数値になります。この値の前の6つの数値はデータの最小の数値であり、中央値の後の6つの数値は指定されたデータセットの最大の数値です。中央値は分布の極値や異常値の影響を受けないため、平均値よりも優先される場合があります

中央値は位置のロバスト推定量ですが、その値の両側のデータがどのように分散または分散されているかについては何も述べていません。ここで四分位数がステップインします。四分位数は、分布を4つのグループに分割することにより、平均の上下の値の広がりを測定します。

##四分位数のしくみ

中央値がデータを半分に分割して、測定値の50%が中央値より下になり、50%が中央値より上になるように、四分位数はデータを4分の1に分割し、測定値の25%が下の四分位数よりも小さくなるようにします。 %は中央値よりも小さく、75%は上位四分位数よりも小さくなっています。

四分位数は、データを3つのポイント(下位四分位数、中央値、および上位四分位数)に分割して、データセットの4つのグループを形成します。下の四分位数、つまり最初の四分位数はQ1として示され、データセットの最小値と中央値の中間の数値です。 2番目の四分位数Q2も中央値です。 Q3として示される上位または第3四分位数は、分布の中央値と最大数の間にある中心点です。

これで、四分位数から形成された4つのグループをマップできます。値の最初のグループには、Q1までの最小数が含まれます。 2番目のグループには中央値のQ1が含まれます。 3番目のセットはQ3の中央値です。 4番目のカテゴリは、セット全体の最高のデータポイントまでのQ3で構成されます。

各四分位数には、全観測値の25%が含まれています。一般に、データは最小から最大の順に並べられます。

  1. 最初の四分位数:数値の最低25%

  2. 第2四分位数:0%から50%の間(中央値まで)

  3. 第3四分位数:0%から75%

  4. 第4四分位数:数値の上位25%

##四分位数の例

昇順で19人の生徒のクラスの数学のスコアの分布が次のとおりであると仮定します。

-59、60、65、65、68、69、70、72、75、75、76、77、81、82、84、87、90、95、98

まず、中央値Q2をマークダウンします。この場合は10 ^ th ^の値:75です。

Q1は、最小スコアと中央値の間の中心点です。この場合、Q1は1番目と5番目のスコアの間にあります:68。(奇数の値のセットに対してQ1またはQ3を計算するときに、中央値も含めることができることに注意してください。中央値を中間点の両側に含める場合の場合、Q1は1番目と10番目のスコアの中央値になります。これは5番目と6番目のスコアの平均です—(5番目+ 6番目)/ 2 =(68 + 69)/ 2 = 68.5)。

Q3は、Q2と最高スコアの中間値である84です(または、中央値を含めると、Q3 =(82 + 84)/ 2 = 83)。

四分位数ができたので、それらの数を解釈してみましょう。スコア68(Q1)は、最初の四分位数を表し、25パーセンタイルです。 68は、利用可能なデータに設定されたスコアの下半分の中央値です。つまり、59から75までのスコアの中央値です。

Q1は、スコアの25%が68未満であり、クラススコアの75%が大きいことを示しています。 Q2(中央値)は50パーセンタイルであり、スコアの50%が75未満であり、スコアの50%が75を超えていることを示しています。最後に、75パーセンタイルであるQ3は、25%であることを示しています。スコアの75%は84より大きく、75%は小さくなっています。

##特別な考慮事項

Q1のデータポイントがQ3の中央値よりも中央値から離れている場合、データセットの小さい値の方が大きい値よりも分散が大きいと言えます。 Q1が中央値から離れているよりもQ3がQ2から離れている場合も、同じ論理が当てはまります。

または、データポイントの数が偶数の場合、中央値は中央の2つの数値の平均になります。上記の例では、19人ではなく20人の生徒がいた場合、スコアの中央値は10 thと11thの数値の算術平均になります。

四分位数は、中央値周辺の変動性の尺度である四分位範囲を計算するために使用されます。四分位範囲は、第1四分位数と第3四分位数の差Q3〜Q1として単純に計算されます。事実上、データがどの程度広がっているかを示すのは、データの中央半分の範囲です。

大規模なデータセットの場合、MicrosoftExcelには四分位数を計算するQUARTILE関数があります。

##ハイライト

-四分位数は、データを3つのポイント(下位四分位数、中央値、および上位四分位数)に分割して、データセットの4つのグループを形成します。

-四分位数は、分布を4つのグループに分割することにより、平均の上下の値の広がりを測定します。

-四分位数は、中央値周辺の変動性の尺度である四分位範囲を計算するために使用されます。