抛个硬币-中心极限定理

抛个硬币

假设你闲来无聊,将一个硬币抛了 \(n\) 次。你觉得得到的结果应该是什么样的比较合理呢?

一个符合直觉的答案是 \(\frac2n\) 次朝上,\(\frac2n\) 次朝下,对吧?

可惜,直觉不总是对的。事实上,当 \(n\) 很大时,任何一个特定结果的概率都很小。但总应该不会离 \(\frac2n\) 偏得太远吧?

好吧,这仍然是说不准的。事实上,概率论里有一整套完整的理论来确定这个问题:随机变量的值到底会偏离期望多少。

切比雪夫不等式

形式化上面的问题:我们有一个期望为 \(\mu\) 的随机变量 \(X\),我们想知道 \(P\{|X - \mu| > \epsilon\}\) 的一个限制。

首先,我们证明如下定理:

马尔可夫不等式: 对于非负随机变量 \(X\),有:

\[ P\{X > a\} \le \frac{E[X]}{a} \]

证明:

$$ \[\begin{aligned} &&aP\{X > a\} &= \int_{a}^{+\infty} ap_X(x)\mathrm dx \\ &&&\le\int_a^{+\infty} xp_X(x) \mathrm dx \\ &&&\le\int_0^{+\infty} xp_X(x) \mathrm dx \\ &&&= E[X]\\ &\therefore& P\{X > a\} &\le \frac{E[X]}{a} \end{aligned}\]

$$

对于离散以及混合随机变量同理可得。

接下来,我们将马尔可夫不等式应用到 \(Y = (X - \mu)^2\)

\[ P\{Y > \epsilon^2\} \le \frac{E[Y]}{\epsilon^2} \]

注意到 \(E[Y] = E[(X - \mu)^2] = Var(X)\),我们最终得到如下定理:

切比雪夫不等式: 对于任意随机变量 \(X\),有:

\[ P\{|X - \mu| > \epsilon\} \le \frac{Var(X)}{\epsilon^2} \]

如果我们考虑到标准差 \(\sigma = \sqrt{Var(X)}\),把 \(\epsilon\) 视作 \(k\sigma\),我们得到:

\[ P\{|X - \mu| > k\sigma\} \le \frac{1}{k^2} \]

即,任意随机变量偏离其期望 \(k\) 个标准差的概率小于等于 \(\frac1{k^2}\)。考虑到我们没有对随机变量做出任何要求,这个定理就显得十分强大。

比如物理学中一个经典的实验:在光子飞行过程中改变干涉的方式,观察光子的行为是否会随之改变。实验的结果比隐变量理论预言的结果偏差了超过 10 个标准差,即使我们不知道这个实验到底是啥,只要看到这个结果,我们就知道:(按照隐变量理论)这种情况发生的概率小于 \(1\%\),从而有力地说明了这个理论的彻底失败。

回到我们抛硬币的问题:抛硬币的结果实际遵循就是 \(p=.5\) 的伯努利分布。随着 \(n\) 的增大,结果的方差 \(\frac n4\) 也不断变大,导致合理的结果区间发散到无穷。这样看来,得到任何的结果都不会让我们惊讶。

弱大数定律

看起来是直觉不太对。但是,既然 \(p=.5\),总有什么量是 \(\frac n2\) 吧?

是有的。这个量是样本均值。形式化地,我们有如下定理:

弱大数定律:对于一列独立同分布的随机变量 \(\{X_n\}\),设 \(Y = \frac1n\sum_{i=1}^nX_i\),有:

\[ \forall \delta > 0,\lim_{n \to \infty}P\{|Y - E[X]| > \delta\} = 0 \]

这有时也记作 \(Y \mathop{\longrightarrow}\limits^P E[X]\),或 \(Y\) 依概率收敛为 \(E[X]\)

证明

\[ \begin{aligned} &&E[Y] &= \frac{1}{n}\sum_{i = 1}^nE[X_i] = E[X]\\ &&Var(Y) &= \frac{1}{n^2}\sum_{i = 1}^nVar(X_i) = \frac{1}{n}Var(X)\\ &\therefore& \forall\delta > 0&,P\{|Y - E[X]| > \delta\} \le \frac{Var(Y)}{\delta^2}=\frac{Var(X)}{n\delta^2}\\ &\therefore& \forall\delta > 0&, \lim_{n \to \infty} P\{|Y - E[X]| > \delta\} = 0 \end{aligned} \]

不难发现,这只是对切比雪夫不等式的一个简单应用。

因此,虽然我们不能预言实际正面的次数,但是我们知道,正面占全部的占比一定趋近 \(0.5\)

强大数定律

上述两者之间的关系非常微妙。随着随机次数的增多,最终结果的值越来越不可控,但是,把值除以 \(n\) 得到的平均数却趋向一个极限。这就像阶乘的斯特林近似:绝对误差发散到无穷,但是相对误差收敛到 0。

这让我们不禁要问:这两个极端中间有没有什么情况?

来分析一下:第一个问题中我们遇到的随机变量 \(Y = \sum X\),它的方差 \(Var(Y) = nVar(X)\),发散到无穷去了;第二个问题中的 \(Y = \frac1n\sum X\),它的方差 \(Var(Y) = \frac{Var(X)}{n}\),收敛到 0 去了。很自然地想到构造 \(Var(Y) = Var(X)\),那么我们需要 \(Y = \frac{1}{\sqrt n}\sum X\)

不过这个想法还不太成熟。首先就是这个 \(Y\) 的值可能会一直变大。为了克服这一点,我们对 \(X\) 进行标准化:

\(X' = \frac{X - E[X]}{\sqrt{Var(X)}}\)\(Y = \frac{1}{\sqrt n}\sum_{i=1}^n X'_i\)。这样一来,\(E[X'] = 0\)\(Var(X') = 1\)

那么此时 \(Y\) 会表现地怎么样呢?

首先注意到 \(Var(Y) = Var(X') = 1\)\(E[Y] = E[X']=0\),所以由切比雪夫不等式我们知道,\(Y\) 不会偏离 0 很远,而是大概率在 0 周围。

令人惊奇的是,此时,我们不仅可以说出一些大概性质,还可预言 \(Y\) 的具体分布!这就是强大数定律:

强大数定律:对于一列独立同分布的随机变量 \(\{X_n\}\),令 \(Y = \frac{1}{\sqrt n}\sum_{i=1}^n\frac{X_n - E[X]}{\sqrt{Var(X)}}\),则 \(Y\) 遵循标准正态分布\(p_Y(y) = \frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}\)

证明

这个证明就没有上面两个那么简单了。

首先我们引入一个概念:特征函数

我心态有点炸这里欠了傅里叶变换和连续随机变量内容然后又有新灵感了估计要鸽很久

不过我发誓军训回来一定补完

大概就是通过证明 \(Y\) 的特征函数和标准正态分布 \(\Phi\) 一样,用到的工具主要是洛必达。

留作读者自证