统计学意义

##什么是统计意义？

统计意义是指一组观察到的数据不是偶然的结果，而是可以归因于特定原因的说法。统计意义对于严重依赖分析数据和研究的学科或从业者来说很重要，例如经济学、金融学、投资学、医学、物理学和生物学。

统计显着性可以被认为是强或弱。在分析数据集并进行必要的测试以辨别一个或多个变量是否对结果有影响时，强大的统计显着性有助于支持这样一个事实，即结果是真实的，而不是由运气或偶然造成的。简单地说，如果 p 值较小，则认为结果更可靠。

在统计显着性检验中会出现问题，因为研究人员通常使用较大人群的样本而不是人群本身。因此，样本必须代表总体，因此样本中包含的数据不得有任何偏差。在包括经济学在内的大多数科学领域中，如果某个结果的置信度为 95%（或有时为 99%），则该结果可能被认为具有统计学意义。

了解统计意义

统计显着性（显着性检验）的计算存在一定程度的误差。即使数据看起来有很强的相关性，研究人员也必须考虑到由于随机机会或抽样错误而出现明显相关性的可能性。

样本量是统计显着性的重要组成部分，因为较大的样本不易发生侥幸。只有随机选择的有代表性的样本才能用于显着性检验。人们可以接受事件是否具有统计显着性的水平称为显着性水平。

研究人员使用称为p 值的测量来确定统计显着性：如果 p 值低于显着性水平，则结果具有统计显着性。 p 值是数据样本的均值和标准差的函数。

p 值表示给定统计结果发生的概率，假设仅是机会对结果负责。如果这个概率很小，那么研究人员可以得出结论，一些其他因素可能对观察到的数据负责。

显着性水平的反面（计算为 1 减去显着性水平）是置信水平。它表示统计结果不是偶然或抽样误差出现的置信度。许多统计检验的惯用置信水平为 95%，导致惯用显着性水平或 p 值为 5%。

“P-hacking”是对许多不同的数据集进行详尽比较以寻找具有统计意义的结果的做法。这会受到报告偏差的影响，因为研究人员只报告了有利的结果，而不是负面的结果。

统计意义并不总是表明实际意义，这意味着结果不能应用于现实世界的业务情况。此外，当研究人员在报告结果时没有仔细使用语言时，统计显着性可能会被误解。结果具有统计显着性这一事实并不意味着它不是偶然的结果，只是这种情况不太可能发生。

仅仅因为两个数据系列彼此之间具有很强的相关性并不意味着因果关系。例如，演员尼古拉斯凯奇在某一年出演的电影数量与在游泳池意外溺水的次数高度相关。但这种相关性是虚假的，因为没有理论上的因果关系可以做出。

统计显着性可能出现的另一个问题是，过去的数据以及来自该数据的结果，无论是否具有统计显着性，都可能无法反映当前或未来的情况。在投资中，这可能表现为在金融危机期间定价模型崩溃，因为相关性发生变化，变量不会像往常一样相互作用。统计意义还可以帮助投资者辨别一种资产定价模型是否优于另一种。

根据所进行的研究，使用了几种类型的显着性检验。例如，可以对一个、两个或多个不同大小的数据样本采用平均值、方差、比例、配对或非配对数据或不同数据分布的测试。

根据可用数据的类型，也有不同的显着性检验方法。 Ronald Fisher 被认为是制定最灵活的方法之一，并将显着性标准设置为 p < 0.05。由于大部分工作可以在数据收集完毕后完成，因此这种方法在短期或临时研究项目中仍然很受欢迎。

Jerzy Neyman 和 Egon Pearson 寻求在 Fisher 方法的基础上发展，最终开发了一种替代方法。这种方法需要在收集数据之前完成更多工作，但它允许研究人员以控制得出错误结论的可能性的方式设计他们的研究。

统计显着性用于零假设检验，研究人员试图通过拒绝其他解释来支持他们的理论。尽管该方法有时会被误解，但它仍然是医学、心理学和其他领域最流行的数据测试方法。

最常见的零假设是所讨论的参数等于零（通常表明变量对感兴趣的结果的影响为零）。如果研究人员以 95% 或更高的置信度拒绝原假设，他们可以声称观察到的关系具有统计显着性。零假设也可以测试两种或多种替代治疗的效果相等性。

与普遍的误解相反，高水平的统计显着性不能证明假设是真的还是假的。实际上，假设零假设为真，统计显着性衡量观察到的结果发生的可能性。

拒绝原假设，即使非常高程度的统计显着性永远无法证明某事，也只能增加对现有假设的支持。另一方面，未能拒绝零假设通常是驳回假设的理由。

此外，效果可能具有统计学意义，但影响很小。例如，在浴室中使用两层卫生纸的公司拥有更高生产力的员工可能具有统计学意义，但每个工人的绝对生产力的提高可能微不足道。

更正 - 2022 年 5 月 15 日： 本文经过编辑以突出显着性检验中的潜在谬误。

＃＃强调