Investor's wiki

四分位数

四分位数

##什么是四分位数?

四分位数是一个统计术语,它根据数据的值以及它们与整个观察集的比较方式,将观察划分为四个定义的区间。

理解四分位数

要理解四分位数,重要的是要将中位数理解集中趋势的量度。统计学中的中位数是一组数字的中间值。这是恰好一半数据位于中心值下方和上方的点。

因此,给定一组已排序(升序或降序)的 13 个数字,中位数将是第七个数字。此值之前的六个数字是数据中的最低数字,中位数之后的六个数字是给定数据集中的最高数字。因为中位数不受分布中的极值或异常值的影响,所以有时它优于均值

中位数是对位置的可靠估计,但没有说明其价值两侧的数据是如何传播或分散的。这就是四分位数的作用。四分位数通过将分布分为四组来衡量高于和低于平均值的值的分布。

四分位数的工作原理

就像中位数将数据分成两半,50% 的测量值低于中位数,50% 高于中位数一样,四分位数将数据分成四等分,以便 25% 的测量值小于下四分位数,即 50 % 小于中位数,75% 小于上四分位数。

四分位数将数据分为三个点(下四分位数、中位数和上四分位数)以形成四组数据集。下四分位数或第一四分位数表示为 Q1,是介于数据集最小值和中位数之间的中间数。第二个四分位数 Q2 也是中位数。上四分位数或第三四分位数,表示为 Q3,是位于分布的中位数和最高数之间的中心点。

现在,我们可以绘制出由四分位数组成的四个组。第一组值包含直到 Q1 的最小数字;第二组包括 Q1 到中位数;第三组是 Q3 的中位数;第四类包括 Q3 到整个集合的最高数据点。

每个四分位数包含总观测值的 25%。通常,数据从小到大排列:

  1. 第一个四分位数:最低 25% 的数字

  2. 第二个四分位数:介于 0% 和 50% 之间(直至中位数)

  3. 第三四分位数:0% 至 75%

  4. 第四四分位数:最高 25% 的数字

四分位数示例

假设一个 19 名学生的数学分数升序分布为:

  • 59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98

首先,记下中位数 Q2,在本例中是第 10th 值:75。

Q1 是最小分数和中位数之间的中心点。在这种情况下,Q1 落在第一个和第五个分数之间:68。(请注意,在计算 Q1 或 Q3 的奇数组值时,中值也可以包括在内。如果我们要包括中间点任一侧的中值,那么 Q1 将是第一个和第 10th 分之间的中间值,即第五和第六分的平均值——(第五 + 第六)/2 = (68 + 69)/2 = 68.5)。

Q3 是 Q2 和最高分之间的中间值:84。(或者如果包括中位数,Q3 = (82 + 84)/2 = 83)。

现在我们有了四分位数,让我们解释一下他们的数字。 68 分(Q1)代表第一个四分位数,是第 25th 个百分位数。 68 是可用数据中设置的分数下半部分的中位数——即 59 到 75 分数的中位数。

Q1 告诉我们,25% 的分数低于 68,而 75% 的班级分数更高。 Q2(中位数)是第 50th 百分位,显示 50% 的分数低于 75,50% 的分数高于 75。最后,Q3,第 75th 百分位,显示 25%的分数更高,75% 的分数低于 84。

特别注意事项

如果 Q1 的数据点与中位数的距离比 Q3 与中位数的距离更远,那么我们可以说数据集的较小值之间的离散度大于较大值之间的离散度。如果 Q3 与 Q2 的距离大于 Q1 与中位数的距离,则同样的逻辑适用。

或者,如果有偶数个数据点,中位数将是中间两个数字的平均值。在上面的示例中,如果我们有 20 名学生而不是 19 名学生,他们的分数中位数将是第 10th 和 11th 数字的算术平均值

四分位数用于计算四分位数范围,这是对中位数周围变异性的度量。四分位距可以简单地计算为第一和第三四分位数之间的差:Q3–Q1。实际上,数据中半部分的范围显示了数据的分散程度。

对于大型数据集,Microsoft Excel 有一个 QUARTILE 函数来计算四分位数。

## 强调

  • 四分位数将数据分为三个点 - 下四分位数、中位数和上四分位数 - 以形成四组数据集。

  • 四分位数通过将分布分为四组来衡量高于和低于平均值的值的分布。

  • 四分位数用于计算四分位数范围,这是对中位数周围变异性的度量。