Investor's wiki

描述性统计

描述性统计

什么是描述性统计?

描述性统计是总结给定数据集的简短描述性系数,它可以是整个人口的表示,也可以是人口的样本。描述性统计分为集中趋势的度量和变异性(传播)的度量。集中趋势的度量包括均值、中位数和众数,而变异性的度量包括标准差、方差、最小和最大变量、峰度偏度

了解描述性统计

简而言之,描述性统计通过提供有关数据样本和测量值的简短摘要来帮助描述和理解特定数据集的特征。最受认可的描述性统计类型是中心度量:均值位数和众数,它们几乎用于所有级别的数学和统计。平均值或平均值是通过将数据集中的所有数字相加然后除以集中数字的数量来计算的。

例如,以下数据集的总和为 20:(2, 3, 4, 5, 6)。平均值为 4 (20/5)。数据集的众数是出现频率最高的值,中位数是位于数据集中间的图形。它是将数据集中的较高数字与较低数字分开的数字。然而,有一些不太常见的描述性统计类型仍然非常重要。

人们使用描述性统计数据将大型数据集中难以理解的定量见解重新用于一口大小的描述。例如,学生的平均绩点 (GPA) 可以很好地理解描述性统计数据。 GPA 的想法是,它从各种考试、课程和成绩中获取数据点,并将它们平均在一起,以提供对学生整体学习成绩的总体了解。学生的个人 GPA 反映了他们的平均学业成绩。

描述性统计的类型

所有描述性统计要么是集中趋势的度量,要么是可变性的度量,也称为离散度的度量。

### 集中趋势

集中趋势的度量侧重于数据集的平均值或中间值,而变异性的度量则侧重于数据的分散性。这两项措施使用图表、表格和一般性讨论来帮助人们理解分析数据的含义。

集中趋势度量描述了数据集分布的中心位置。一个人分析分布中每个数据点的频率,并使用均值、中位数或众数对其进行描述,这些均值或众数衡量分析数据集的最常见模式。

变异性度量

可变性度量(或传播度量)有助于分析一组数据的分布有多分散。例如,虽然集中趋势的测量可以给一个人一个数据集的平均值,但它并没有描述数据在该集中的分布情况。

因此,虽然数据的平均值可能是 100 个中的 65 个,但在 1 和 100 处仍可能存在数据点。变异性度量通过描述数据集的形状和分布来帮助传达这一点。范围、四分位数、绝对偏差和方差都是可变性度量的示例。

考虑以下数据集:5, 19, 24, 62, 91, 100。该数据集的范围是 95,其计算方法是从最高数 (100) 中减去数据集中的最低数 (5)。

## 强调

  • 描述性统计包括两个基本类别的度量:集中趋势的度量和可变性(或扩散)的度量。

  • 描述性统计总结或描述数据集的特征。

  • 可变性或传播的度量描述了数据集内数据的分散性。

  • 集中趋势度量描述了数据集的中心。

## 常问问题

可以使用描述性统计进行推断或预测吗?

不会。虽然这些描述有助于理解数据属性,但需要推论统计技术(统计的一个单独分支)来了解变量在数据集中如何相互影响。

###什么是均值和标准差?

这是两种常用的描述性统计数据。平均值是在某些数据中观察到的平均水平,而标准差描述了方差,或者在该变量中观察到的数据分布在其平均值周围的分散程度。

为什么我们需要简单描述数据的统计数据?

描述性统计用于描述或总结样本或数据集的特征,例如变量的均值、标准差或频率。推论统计可以帮助我们理解数据样本元素的集体属性。了解变量的样本均值、方差和分布可以帮助我们了解我们周围的世界。