非参数方法
什么是非参数方法?
非参数方法是指一种统计类型,它不对样本的特征(其参数)或观察到的数据是定量的还是定性的做出任何假设。
非参数统计可以包括某些描述性统计、统计模型、推理和统计检验。非参数方法的模型结构不是先验指定的,而是根据数据确定的。
术语“非参数”并不意味着这种模型完全没有参数,而是参数的数量和性质是灵活的,而不是预先固定的。直方图是概率分布的非参数估计的一个例子。
相比之下,众所周知的统计方法,如ANOVA 、 Pearson 相关性、 t 检验等,确实对所分析的数据做出了假设。最常见的参数假设之一是人口数据具有“正态分布”。
非参数方法的工作原理
参数和非参数方法通常用于不同类型的数据。参数统计通常需要区间或比率数据。此类数据的一个示例是年龄、收入、身高和体重,其中的值是连续的,并且值之间的间隔有意义。
相反,非参数统计通常用于名义或有序数据。名义变量是其值没有定量值的变量。例如,社会科学研究中常见的名义变量包括性别,其可能值为离散类别、“男性”和“女性”。社会科学研究中的其他常见名义变量是种族、婚姻状况、教育水平和就业状况(就业与失业)。
序数变量是那些值表明某种顺序的变量。序数变量的一个示例是,如果调查对象问:“在 1 到 5 的范围内,1 表示非常不满意,5 表示非常满意,您如何评价您在有线电视公司的经历?”
参数统计也可以应用于具有其他已知分布类型的人群。非参数统计不要求总体数据满足参数统计所需的假设。因此,非参数统计属于一类统计,有时称为无分布统计。当总体数据分布未知或样本量较小时,通常会使用非参数方法。
特别注意事项
尽管非参数统计具有不必满足很少假设的优点,但它们不如参数统计强大。这意味着当实际上存在一个变量时,它们可能不会显示两个变量之间的关系。
非参数统计因其易于使用而受到赞赏。随着对参数的需求减少,数据变得更适用于更多种类的测试。当这些信息都不可用时,可以在没有平均值、样本量、标准偏差或任何其他相关参数的估计的情况下使用这种类型的统计数据。
由于非参数统计对样本数据的假设较少,因此其应用范围比参数统计更广泛。在参数测试更合适的情况下,非参数方法的效率会降低。这是因为与参数统计不同,非参数统计丢弃了数据中可用的一些信息。
常见的非参数检验包括卡方检验、 Wilcoxon 秩和检验、Kruskal-Wallis 检验和 Spearman 秩相关检验。
非参数方法示例
考虑一位希望估计投资的风险价值 (VaR) 的金融分析师。分析师从类似时间范围内的数百个类似投资中收集收益数据。她没有假设收益服从正态分布,而是使用直方图以非参数方式估计分布。然后,该直方图的第 5 个百分位为分析师提供了 VaR 的非参数估计值。
第二个例子,考虑一位不同的研究人员,他想知道平均睡眠时间是否与一个人生病的频率有关。因为许多人很少生病,如果有的话,而且偶尔有人生病的频率比大多数人高得多,所以疾病频率的分布显然是非正态的,是右偏和易出现异常值的。
因此,研究人员决定使用非参数方法,例如分位数回归分析,而不是像在经典回归分析中那样使用假设疾病频率正态分布的方法。
## 强调
这与参数方法相反,参数方法对数据的形状或特征进行假设。这种方法的示例包括正态分布模型和线性回归模型。
非参数方法是统计的一个分支,其中数据不假定来自由少数参数确定的规定模型。
非参数分析通常最适合考虑事物的顺序,即使数值数据发生变化,结果也可能保持不变。