Python 中非参数统计显着性检验简介

原文： https://machinelearningmastery.com/nonparametric-statistical-significance-tests-in-python/

在应用机器学习中，我们经常需要确定两个数据样本是否具有相同或不同的分布。

我们可以使用统计显着性检验来回答这个问题，这些检验可以量化样本具有相同分布的可能性。

如果数据没有熟悉的高斯分布，我们必须求助于非参数版本的显着性检验。这些测试以类似的方式操作，但是无分布，要求在可以执行测试之前首先将实值数据转换为等级数据。

在本教程中，您将发现非参数统计测试，您可以使用它来确定数据样本是否来自具有相同或不同分布的群体。

完成本教程后，您将了解：

用于比较独立数据样本的 Mann-Whitney U 检验：Student t 检验的非参数版本。
用于比较配对数据样本的 Wilcoxon 符号秩检验：配对 Student t 检验的非参数版本。
Kruskal-Wallis H 和 Friedman 测试用于比较两个以上的数据样本：ANOVA 的非参数版本和重复测量 ANOVA 测试。

让我们开始吧。

更新于 May / 2018 ：改进了拒绝与拒绝统计测试的语言。

Python 中的非参数统计显着性检验介绍 Jirka Matousek 的照片，保留一些权利。

教程概述

本教程分为 6 个部分;他们是：

非参数统计显着性检验
测试数据
Mann-Whitney U 测试
威尔科克森签名等级测试
Kruskal-Wallis H 测试
弗里德曼测试

非参数统计显着性检验

非参数统计是那些不假设对数据进行特定分配的方法。

通常，它们指的是不采用高斯分布的统计方法。它们被开发用于序数或区间数据，但实际上也可以用于数据样本中的实值观测值的排序，而不是观察值本身。

关于两个或更多数据集的常见问题是它们是否不同。具体而言，它们的集中趋势（例如平均值或中值）之间的差异是否具有统计学意义。

对于没有使用非参数统计显着性检验的高斯分布的数据样本，可以回答这个问题。这些测试的零假设通常假设两个样本都来自具有相同分布的群体，因此具有相同的群体参数，例如平均值或中值。

如果在计算两个或更多样本的显着性检验后，零假设被拒绝，则表明有证据表明样本来自不同的群体，反过来是样本估计的人口参数之间的差异，例如平均值或中位数可能很重要。

这些测试通常用于模型技能分数的样本，以确认机器学习模型之间的技能差异是显着的。

通常，每个测试计算一个测试统计量，必须用统计学中的一些背景解释并对统计测试本身有更深入的了解。测试还返回一个 p 值，可用于解释测试结果。 p 值可以被认为是在给定基本假设（零假设）的情况下观察两个数据样本的概率，即两个样本是从具有相同分布的群体中抽取的。

可以在称为α的所选显着性水平的上下文中解释 p 值。 alpha 的常见值为 5％或 0.05。如果 p 值低于显着性水平，则测试表明有足够的证据拒绝零假设，并且样本可能来自具有不同分布的群体。

p <= alpha ：拒绝 H0，分布不同。
p＆gt; alpha ：无法拒绝 H0，相同的分布。

测试数据集

在我们查看特定的非参数重要性测试之前，让我们首先定义一个测试数据集，我们可以用它来演示每个测试。

我们将生成从不同分布中抽取的两个样本。为简单起见，我们将从高斯分布中抽取样本，尽管如上所述，我们在本教程中审查的测试是针对我们不知道或假设任何特定分布的数据样本。

我们将使用 randn（）NumPy 函数在每个样本中生成 100 个高斯随机数的样本，平均值为 0，标准差为 1.第一个样本中的观察值被缩放为具有均值标准偏差为 50，标准偏差为 5.将第二个样品中的观察结果缩放为平均值为 51，标准偏差为 5。

我们希望统计检验发现样本来自不同的分布，尽管每个样本 100 个观察值的小样本量会给这个决定增加一些噪音。

完整的代码示例如下所示。

# generate gaussian data samples
from numpy.random import seed
from numpy.random import randn
from numpy import mean
from numpy import std
# seed the random number generator
seed(1)
# generate two sets of univariate observations
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
# summarize
print('data1: mean=%.3f stdv=%.3f' % (mean(data1), std(data1)))
print('data2: mean=%.3f stdv=%.3f' % (mean(data2), std(data2)))

运行该示例生成数据样本，然后计算并打印每个样本的均值和标准差，确认它们的不同分布。

data1: mean=50.303 stdv=4.426
data2: mean=51.764 stdv=4.660

Mann-Whitney U 测试

Mann-Whitney U 检验是一种非参数统计显着性检验，用于确定是否从具有相同分布的群体中抽取两个独立样本。

该测试以 Henry Mann 和 Donald Whitney 的名字命名，虽然它有时被称为 Wilcoxon-Mann-Whitney 测试，也以 Frank Wilcoxon 命名，他也开发了测试的变体。

将两个样本组合在一起并排序。策略是确定来自两个样本的值是否在等级排序中随机混合，或者如果它们在组合时聚集在相对的末端。随机排名顺序意味着两个样本没有不同，而一个样本值的集群将指示它们之间的差异。

第 58 页，非统计学家的非参数统计：循序渐进的方法，2009 年。

默认假设或零假设是数据样本的分布之间没有差异。拒绝这一假设表明样本之间可能存在一些差异。更具体地，该测试确定来自一个样本的任何随机选择的观察是否同样可能大于或小于另一个分布中的样本。如果违反，则表明不同的分布。

无法拒绝 H0 ：样本分布相等。
拒绝 H0 ：样本分布不相等。

为使测试有效，每个数据样本至少需要 20 次观察。

我们可以使用 mannwhitneyu（）SciPy 函数在 Python 中实现 Mann-Whitney U 测试。这些函数将两个数据样本作为参数。它返回测试统计和 p 值。

下面的示例演示了测试数据集上的 Mann-Whitney U 测试。

# Mann-Whitney U test
from numpy.random import seed
from numpy.random import randn
from scipy.stats import mannwhitneyu
# seed the random number generator
seed(1)
# generate two independent samples
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
# compare samples
stat, p = mannwhitneyu(data1, data2)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# interpret
alpha = 0.05
if p > alpha:
	print('Same distribution (fail to reject H0)')
else:
	print('Different distribution (reject H0)')

运行该示例计算数据集上的测试并打印统计量和 p 值。

p 值强烈表明样本分布是不同的，如预期的那样。

Statistics=4025.000, p=0.009
Different distribution (reject H0)

威尔科克森签名等级测试

在某些情况下，数据样本可以配对。

有许多原因可能是这种情况，例如，样品是相关的或以某种方式匹配或代表相同技术的两次测量。更具体地，每个样本是独立的，但来自相同的群体。

机器学习中的配对样本的示例可以是在不同数据集上评估的相同算法，或者在完全相同的训练和测试数据上评估的不同算法。

样品不是独立的，因此不能使用 Mann-Whitney U 检验。相反，使用 Wilcoxon 符号秩检验，也称为 Wilcoxon T 检验，以 Frank Wilcoxon 命名。它相当于配对 T 检验，但是对于排序数据而不是具有高斯分布的实值数据。

Wilcoxon 签名等级测试是一种非参数统计程序，用于比较配对或相关的两个样本。与 Wilcoxon 签名等级测试相对应的参数等名称包括 Student's t 检验，匹配对的 t 检验，配对样本的 t 检验或依赖样本的 t 检验。

第 38-39 页，非统计学家的非参数统计：循序渐进的方法，2009。

测试的默认假设，即零假设，即两个样本具有相同的分布。

无法拒绝 H0 ：样本分布相等。
拒绝 H0 ：样本分布不相等。

For the test to be effective, it requires at least 20 observations in each data sample.

Wilcoxon 符号秩检验可以使用 wilcoxon（）SciPy 函数在 Python 中实现。该函数将两个样本作为参数，并返回计算的统计量和 p 值。

下面是完整的示例，演示了对测试问题的 Wilcoxon 符号秩检验的计算。这两个样本在技术上不配对，但我们可以假装它们是为了证明这个重要性测试的计算。

# Wilcoxon signed-rank test
from numpy.random import seed
from numpy.random import randn
from scipy.stats import wilcoxon
# seed the random number generator
seed(1)
# generate two independent samples
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
# compare samples
stat, p = wilcoxon(data1, data2)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# interpret
alpha = 0.05
if p > alpha:
	print('Same distribution (fail to reject H0)')
else:
	print('Different distribution (reject H0)')

运行该示例计算并打印统计量并打印结果。

p 值被强烈解释，表明样本是从不同的分布中提取的。

Statistics=1886.000, p=0.028
Different distribution (reject H0)

Kruskal-Wallis H 测试

当使用显着性检验时，例如 Mann-Whitney U 和 Wilcoxon 符号秩检验，数据样本之间的比较必须成对进行。

如果您有许多数据样本并且您只对两个或更多样本是否具有不同的分布感兴趣，则这可能是低效的。

Kruskal-Wallis 检验是单因素方差分析或简称 ANOVA 的非参数版本。它以该方法的开发者命名，William Kruskal 和 Wilson Wallis。该测试可用于确定两个以上的独立样本是否具有不同的分布。它可以被认为是 Mann-Whitney U 检验的推广。

默认假设或零假设是所有数据样本都来自同一分布。具体而言，所有群体的人口中位数相等。拒绝零假设表明有足够的证据表明一个或多个样本支配另一个样本，但测试并未指出哪些样本或多少样本。

当 Kruskal-Wallis H-检验导致显着结果时，则至少一个样品与其他样品不同。但是，测试不能确定差异发生的位置。而且，它没有确定出现了多少差异。为了确定样本对之间的特定差异，研究人员可以使用样本对比或事后测试来分析特定样本对的显着差异。 Mann-Whitney U 检验是在各个样本集之间进行样本对比的有用方法。

第 100 页，非统计学家的非参数统计：循序渐进的方法，2009。

无法拒绝 H0 ：所有样本分布均相等。
拒绝 H0 ：一个或多个样本分布不相等。

每个数据样本必须是独立的，具有 5 个或更多个观察值，并且数据样本的大小可以不同。

我们可以更新测试问题以获得 3 个数据样本，而不是 2 个，其中两个具有相同的样本均值。鉴于一个样本不同，我们期望测试发现差异并拒绝原假设。

# generate three independent samples
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 50
data3 = 5 * randn(100) + 52

Kruskal-Wallis H-test 可以使用 kruskal（）SciPy 函数在 Python 中实现。它将两个或多个数据样本作为参数，并返回测试统计量和 p 值作为结果。

下面列出了完整的示例。

# Kruskal-Wallis H-test
from numpy.random import seed
from numpy.random import randn
from scipy.stats import kruskal
# seed the random number generator
seed(1)
# generate three independent samples
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 50
data3 = 5 * randn(100) + 52
# compare samples
stat, p = kruskal(data1, data2, data3)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# interpret
alpha = 0.05
if p > alpha:
	print('Same distributions (fail to reject H0)')
else:
	print('Different distributions (reject H0)')

运行该示例计算测试并打印结果。

解释 p 值，正确地拒绝所有样本具有相同分布的零假设。

Statistics=6.051, p=0.049
Different distributions (reject H0)

弗里德曼测试

与前面的示例一样，我们可能有两个以上的不同样本，并且对所有样本是否具有相同分布感兴趣。

如果样品以某种方式配对，例如重复测量，那么 Kruskal-Wallis H 测试将是不合适的。相反，可以使用 Friedman 测试，命名为 Milton Friedman。

弗里德曼检验是方差检验的重复测量分析的非参数形式，或重复测量方差分析。该测试可以被认为是对两个以上样品的 Kruskal-Wallis H 检验的推广。

默认假设或零假设是多个配对样本具有相同的分布。拒绝零假设表明配对样本中的一个或多个具有不同的分布。

无法拒绝 H0 ：配对样本分布相等。
拒绝 H0 ：配对样本分布不相等。

该测试假设两个或更多配对数据样本，每组 10 个或更多样本。

弗里德曼检验是一种非参数统计程序，用于比较两个以上相关的样本。与该测试等效的参数是重复测量方差分析（ANOVA）。当 Friedman 测试导致显着结果时，至少一个样品与其他样品不同。

第 79-80 页，非统计学家的非参数统计：循序渐进的方法，2009。

我们可以使用 friedmanchisquare（）SciPy 函数在 Python 中实现 Friedman 测试。此函数将要比较的数据样本作为参数，并返回计算的统计量和 p 值。

可以在与前一节中使用的测试数据集相同的变体上证明该显着性检验。即三个样本，两个具有相同的总体平均值，一个具有略微不同的平均值。虽然样本没有配对，但我们希望测试发现并非所有样本都具有相同的分布。

The complete code example is listed below.

# Friedman test
from numpy.random import seed
from numpy.random import randn
from scipy.stats import friedmanchisquare
# seed the random number generator
seed(1)
# generate three independent samples
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 50
data3 = 5 * randn(100) + 52
# compare samples
stat, p = friedmanchisquare(data1, data2, data3)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# interpret
alpha = 0.05
if p > alpha:
	print('Same distributions (fail to reject H0)')
else:
	print('Different distributions (reject H0)')

运行该示例计算三个数据样本的测试并打印测试统计和 p 值。

对 p 值的解释正确地表明至少一个样本具有不同的分布。

Statistics=9.360, p=0.009
Different distributions (reject H0)

扩展

本节列出了一些扩展您可能希望探索的教程的想法。

更新所有示例以对具有相同分布的数据样本进行操作。
根据每个测试的要求和行为，创建一个流程图，用于选择每个统计显着性检验。
考虑 3 个在机器学习项目中比较数据样本的情况，假设样本的非高斯分布，并建议可以在每种情况下使用的测试类型。

如果你探索任何这些扩展，我很想知道。

进一步阅读

如果您希望深入了解，本节将提供有关该主题的更多资源。

图书

非统计人员的非参数统计：循序渐进的方法，2009 年。

API

numpy.random.seed（）API
numpy.random.randn（）API
scipy.stats.mannwhitneyu（）API
scipy.stats.wilcoxon（）API
scipy.stats.kruskal（）API
scipy.stats.friedmanchisquare（）API

用品

维基百科上的非参数统计
维基百科上的配对差异测试
维基百科上的 Mann-Whitney U 测试
Wilcoxon 对维基百科的签名等级测试
Kruskal-Wallis 对维基百科的单因素方差分析
弗里德曼在维基百科上的测试

摘要

在本教程中，您发现了非参数统计测试，可用于确定数据样本是否来自具有相同或不同分布的群体。

具体来说，你学到了：

用于比较独立数据样本的 Mann-Whitney U 检验：Student t 检验的非参数版本。
用于比较配对数据样本的 Wilcoxon 符号秩检验：配对 Student t 检验的非参数版本。
Kruskal-Wallis H 和 Friedman 测试用于比较两个以上的数据样本：ANOVA 的非参数版本和重复测量 ANOVA 测试。

你有任何问题吗？在下面的评论中提出您的问题，我会尽力回答。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

nonparametric-statistical-significance-tests-in-python.md

nonparametric-statistical-significance-tests-in-python.md

Python 中非参数统计显着性检验简介

教程概述

非参数统计显着性检验

测试数据集

Mann-Whitney U 测试

威尔科克森签名等级测试

Kruskal-Wallis H 测试

弗里德曼测试

扩展

进一步阅读

图书

API

用品

摘要

Files

nonparametric-statistical-significance-tests-in-python.md

Latest commit

History

nonparametric-statistical-significance-tests-in-python.md

File metadata and controls

Python 中非参数统计显着性检验简介

教程概述

非参数统计显着性检验

测试数据集

Mann-Whitney U 测试

威尔科克森签名等级测试

Kruskal-Wallis H 测试

弗里德曼测试

扩展

进一步阅读

图书

API

用品

摘要