黑客的统计学

2016-06-14

文章目录

最近看到一个题为《Statistics for Hackers》（黑客的统计学）的 PPT，觉得挺有意思，便尝试将它的主要内容整理一下，放在这里。

需要注意的是，这儿的 Hacker（黑客）并不是指那些尝试窃取你银行密码的人，而是指那些善用编程来解决问题的人。作者 Jake VanderPlas 是华盛顿大学的资深数据科学研究员，他在 PPT 中表示统计学很难，但使用编程技能后，它也可以很简单，他甚至宣称：只要你会写 for 循环，你就能做统计。

最重要的是：问正确的问题。

1、热身：抛硬币问题（直接模拟）

问题：你抛一个硬币 30 次，其中 22 次正面朝上。问这个硬币是均匀的吗？

这是一个经典的问题。有人认为均匀的硬币抛 30 次应该有 15 次朝上，所以这个硬币不均匀，也有人认为即使是均匀的硬币也有可能因为偶然而抛出 22 次朝上。

经典的解法如下：

假设硬币是均匀的，然后验证这个原假设，计算一个均匀的硬币抛出 22 次正面的概率是多少。

开始计算，如下图所示：

列出公式后，计算得知如果硬币是均匀的，那么抛 30 次并且有 22 次正面朝上的概率是 0.008，或者说如果抛 30 次并且观察到 22 次正面朝上，则这枚硬币是均匀的概率为 0.008。这个 0.008 一般称为 p 值，习惯上，当 p 值小于 0.05（有些时候取 0.01）时，我们认为这件事是不太可能发生的，因此拒绝原假设，即得到结论：硬币不是均匀的。

那么，是否有什么简单的方法呢？

这时，编程方法就可以派上用场了，我们只需要模拟一下：

from random import randint

N = 100000
M = 0
for i in range(N):
	trials = (randint(0, 1) for i in range(30))
	if sum(trials) >= 22:
		M += 1
p = M / N #0.00819

结论：由于 p = 0.008，拒绝原假设，硬币不是均匀的。

简单来说，计算样本分布比较困难，但模拟样本分布很简单。

2、随机打乱

观察两组数据：

★		✖︎
84	72	81	69
57	46	74	61
63	76	56	87
99	91	69	65
		66	44
		62	69

★ 均值：73.5
✖︎ 均值：66.9
差异：6.6

问题来了：两组数据的差异 6.6 是统计显著的吗？

经典解法如下：

然后查表，可得：

由于 t = 0.932 > t_crit = 1.796，所以我们得到结论：在 p = 0.05 的水平上差异 6.6 不是显著的。

所以……，我们刚刚究竟都做了些什么？最大的问题，是我们在解题过程中已经忘了我们最初要回答的问题。

为什么不直接使用流行的编程方法来处理呢？比如：

from statsmodels.stats.weightstats import ttest_indt, p, dof = ttest_ind(group1, group2,
				alternative='larger',
				usevar='unequal')
print(p)  # 0.186

这当然可以，但是……，我们正尝试回答的是什么问题呢？

让我们回到问题本身，上面的样本分布和抛硬币的原理其实是一样的，让我们用一个抽样方法来处理。和抛硬币不同，这儿我们没有生成器（模拟抛硬币的结果），但这不是问题，我们可以引入一个新的解决方案：随机打乱（Shuffling）。

过程如下图所示：