Investor's wiki

自由程度

自由程度

什么是自由度?

自由度是指数据样本中逻辑独立值的最大数量,这些值是可以自由变化的值。

理解自由度

从概念上理解自由度的最简单方法是通过一个示例:

  • 为简单起见,考虑一个由五个正整数组成的数据样本。这些值可以是任何数字,它们之间没有已知的关系。理论上,该数据样本将具有五个自由度。

  • 样本中的四个数字是{3、8、5 和 4},整个数据样本的平均值显示为 6。

  • 这一定意味着第五个数字必须是 10。它不能是别的。它没有变化的自由。

  • 所以这个数据样本的自由度是 4。

自由度的公式等于数据样本的大小减一:

Df= N-1 其中: Df=自由度N=样本大小\begin{对齐} &\text\text = N - 1 \ &\textbf \ &\text\text = \text{degrees of自由} \ &N = \text{样本大小} \ \end

自由度通常与统计中各种形式的假设检验有关,例如卡方。当试图理解卡方统计量的重要性和原假设的有效性时,计算自由度是必不可少的。

卡方检验

有两种不同类型的卡方检验:独立性检验,它提出一个关系问题,例如“性别和 SAT 分数之间有关系吗?”;以及拟合优度测试,它会询问类似“如果一枚硬币被抛 100 次,它会出现 50 次正面和 50 次反面吗?”

对于这些测试,使用自由度来确定是否可以根据实验中变量和样本的总数拒绝某个零假设。例如,在考虑学生和课程选择时,30 或 40 名学生的样本量可能不足以生成重要数据。从使用 400 或 500 名学生的样本量的研究中获得相同或相似的结果更为有效。

自由度的历史

最早和最基本的自由度概念出现在 1800 年代初期,与数学家和天文学家卡尔·弗里德里希·高斯的著作交织在一起。该术语的现代用法和理解首先由英国统计学家威廉·西利·戈塞特(William Sealy Gosset)在他的文章“平均值的可能错误”中进行了阐述,该文章于 1908 年以笔名发表在 Biometrika 上,以保持他的匿名性。

在他的著作中,戈塞特没有特别使用“自由度”这个词。然而,他确实在整个开发最终被称为学生T 分布的过程中对这个概念进行了解释。实际术语直到 1922 年才流行起来。英国生物学家和统计学家罗纳德·费舍尔在开始发表关于他开发卡方的工作的报告和数据时开始使用“自由度”这个术语。

## 强调

  • 自由度通常与统计中各种形式的假设检验有关,例如卡方。

  • 自由度是指数据样本中逻辑独立值的最大数量,这些值是可以自由变化的值。

  • 在试图理解卡方统计量的重要性和零假设的有效性时,计算自由度是关键。