两个分布与泊松过程
概率论是我最喜欢拖更的内容,从预科一的上半学期就开始更,现在课都开始上了还在更。
今天来看看之前我略过的两个分布:几何分布和指数分布。
两个分布的定义
先不加解释地给出定义:几何分布是一个离散型随机变量的分布,有一个参数 \(p\),其质量函数如下:
\[ P(k) = (1-p)^{k-1}p, k \ge 1 \]
几何分布的几何(geometric)是等比数列的意思,不是几何的意思。
而指数分布是一个连续型随机变量的分布,有一个参数 \(\lambda\),其密度函数如下:
\[ p(x) = \lambda \mathrm e^{-\lambda x}, x \ge 0 \]
简要地来说,它们分别表示如下含义:几何分布描述了一个伯努利实验 \(k\) 次后获得第一次成功的概率;指数分布则描述了一个泊松过程在 \(x\) 时间后首次到达的概率。
两个分布与随机过程
如果你看了概率论2,你应该记得小明钓鱼的案例。
考虑“每小时钓上两条鱼”的含义。相当于是,当 \(n\) 很大时,在 \(n\) 小时的时间中能钓上 \(\lambda n\) 条鱼。可以把这 \(\lambda n\) 条鱼看成均匀分布在时间轴上。一个小时钓 \(i\) 条鱼相当于在这段时间轴上取一个长度为 1 的区间,覆盖了正好 \(i\) 个点。我们可以把顺序反过来,先取一个区间,再把鱼随机分布。这样这就是一个二项分布。概率是 \(C_{\lambda n}^{i}(\frac{n-1}{n})^{\lambda n-i}(\frac{1}{n})^i\)。令 \(n \to \infty\),\(C_{\lambda n}^i \to \frac{\lambda ^i n^i}{i!}\),\((\frac{n-1}{n})^{\lambda n-i} \to e^{- \lambda}\),概率的极限就是 \(e^{-\lambda}\frac{\lambda ^i}{i!}\)。也就是泊松随机变量。
像钓鱼这样的事,可以被描述成一个随机过程。
抽象地说,随机过程是一组随机变量 \(\underline{X} = \{X(t) \mid t \in T\}\),其中 \(X(t)\) 是一个随机变量,而随机过程是随机变量的集合。如果 \(T\) 是离散的,则 \(\underline{X}\) 是离散的。反之是连续的。
当这个集合中的每个随机变量都取值完毕,得到一个数集,这个结果被称为 \(\underline{X}\) 的样本路径。
上面的定义太抽象了。实际例子中,一个很好的解释是 \(t\) 为时间,\(X(t)\) 是某件事情(比如钓上鱼)在 \([0,t]\) 内发生的次数,这样我们就有了一个钓鱼的随机过程。现在,让时间开始转动,当我们知道具体什么时候钓上鱼之后,\(X(t)\) 也就有了明确的值,这时候我们就有了一个钓鱼的样本路径。
我们今天讨论的是特殊的随机过程,基于这样的模型:一组独立同分布,在时间轴上随时到来的事件,用 \(X(t)\) 表示 \([0,t]\) 时间段内这个事件的出现次数。这种过程被称为计数过程。
为了简单,我们假设所有事件独立同分布,对应到随机过程上,是说随机过程有如下两个性质:
- \(X(t_1) - X(t_0)\) 与 \(X(t_2) - X(t_1)\) 独立。这被称作独立增量。
- \(X(t_1 + t) - x(t_1)\) 与 \(X(t_2+t) - X(t_2)\) 同分布。这被称作平稳增量。
- 满足这两个性质的过程称作无记忆的。
我们下面要研究的过程,是同时拥有独立增量和平稳增量的计数过程,也被称为泊松过程。我们将会看到,这一过程中,自然蕴含了伯努利分布、二项分布、泊松分布、几何分布和指数分布。
时间与次数
单位时间发生的次数遵循泊松分布
作为一个计数过程,最重要的事就是计数。最自然也是最值得关心的一个量,是单位时间内事件发生的期望,也即 \(\mathrm E[X(1)]\)。
考虑到泊松过程有独立增量和平稳增量,这也等价于 \(\mathrm E[X(t+1) - X(t)]\)。我们将这个量记作 \(\lambda\)。事实上,我们只需要知道这 \(\lambda\) 一个量,就可以确定一个泊松过程。
概率论2里,我们对小明钓鱼的分析方法非常有启发性:泊松过程适用于无限长的时间,这是我们束手无措的,所以不妨先将时间限定在 \([0,n]\) 上,再令 \(n \to +\infty\) 得到一般结果。不过那篇文章里的分析有点太不严谨了,这次我们谨慎地看一看。
考虑 \(t \in [0,n]\) 的情况。虽然我们知道 \(\mathrm E[X(1)]=\lambda\),但是,在每一个确定的过程路径里,\(X(1)\) 的具体值我们完全不知道。考虑到弱大数定律,我们对 \(X(n)\) 反而有一个估计(依概率收敛):
\[ \lim_{n \to +\infty} \frac{X(n)}{n} = \lambda \]
这是由于独立平稳的增量,使得 \(X(n)\) 等价于 \(X(1)\) 取样 \(n\) 次的结果之和。
那么,我们就可以估计 \(X(n) = n(\lambda + o(\frac 1n))\)。
若已经知道 \(X(n) = N\),则此条件下,\(X(1) \sim B(N, \frac 1n)\),这是因为 \([0,1],[1,2],...,[n-1,n]\) 的地位完全相同,则对于 \(N\) 个事件中的每一个,都只有 \(\frac 1n\) 的概率发生在 \([1,n]\) 之内:
\[ P\{X(1) = k \mid X(n) = N\} = \binom{N}{k}\left(1 - \frac 1n\right)^{N - k}\left(\frac 1n\right)^k \]
那么,由全概率公式,就有:
\[ P\{X(1) = k\} = \sum_{N}P\{X(1) = k \mid X(n) = N\}P\{X(n) = N\} \]
现在,因为没法知道 \(P\{X(n) = N\}\),这个有限情况的分析似乎进行不下去了。是时候了,令 \(n \to +\infty\)。
对于任意有穷 \(k\):
\[ \begin{aligned} \lim_{n \to +\infty}P\{X(1) = k \mid X(n) = N\} &= \lim_{n \to +\infty}\left[\binom{N}{k}\left(1 - \frac 1n\right)^{N - k}\left(\frac 1n\right)^k\right] \\ &= \lim_{n \to +\infty}\left[\frac{N^k}{k!}\left(1 - \frac 1n\right)^{N - k}\left(\frac 1n\right)^k\right] \\ &= \frac{1}{k!}\lim_{n \to +\infty}\left(\frac{N}{n}\right)^k \lim_{n \to +\infty}\left(1 - \frac 1n\right)^{N - k} \end{aligned} \]
这个时候,我们对 \(N\) 的估计就派上用场了。我们知道, \(N = n(\lambda + o(\frac 1n))\),带入上式:
\[ \lim_{n \to +\infty}P\{X(1) = k \mid X(n) = N\} = \mathrm e^{-\lambda}\frac{\lambda^k}{k!} \]
这个表达式我们已经见过,就是泊松分布的概率值,不值得惊讶。值得惊讶的是,原来我们没有办法确定 \(N\) 的具体值,所以没有办法算出概率;但是,仅仅是依靠 \(N = n(\lambda+ o(\frac 1n))\) 的简单约束,在取极限之后,\(P\{X(1) = k \mid X(n) = N\}\) 与 \(N\) 无关了!
最后,我们再看全概率公式:
\[ \begin{aligned} \lim_{n \to +\infty}P\{X(1) = k\} &= \lim_{n \to +\infty}\sum_{N}P\{X(1) = k \mid X(n) = N\}P\{X(n) = N\}\\ &= \lim_{n \to +\infty}\sum_{N}\mathrm e^{-\lambda}\frac{\lambda^k}{k!} P\{X(n) = N\}\\ &= \mathrm e^{-\lambda}\frac{\lambda^k}{k!} \lim_{n \to +\infty}\sum_{N} P\{X(n) = N\}\\ &= \mathrm e^{-\lambda}\frac{\lambda^k}{k!} \end{aligned} \]
这是水到渠成的。既然在极限之后,\(P\{X(1) = k \mid X(n) = N\}\) 与 \(N\) 无关,说明 \(X(1) = k\) 和 \(X(n) = N\) 已经是独立事件了,自然概率值不会有任何影响。
到达时间
对于计数过程,另一个令人感兴趣的指标是到达时间。从 \(t_0\) 时刻开始的到达时间是一个随机变量,被定义为 \(t_0\) 之后 \(X\) 增长的最小时间:
\[ Y(t_0) = \min\{\Delta t \mid X(t_0 + \Delta t) > X(t_0)\} \]
从独立增量和平稳增量可以知道,对于不同的 \(t_1,t_2\),\(F(t_1)\) 与 \(F(t_2)\) 的分布应该是相同的,它们应该是同一个随机变量。我们把它统称为 \(Y\)。
进一步,这意味着 \(Y\) 的概率分布函数是无记忆的。记 \(G(t) = P\{Y > t\}\):
\[ \begin{aligned} P\{Y > t_0 + \Delta t \mid Y > t_0\} &= P\{Y > \Delta t\} \\ G(t_0+\Delta t) &= G(t_0)G(\Delta t) \end{aligned} \]
离散泊松过程的到达时间遵循几何分布
如果泊松过程是离散的,定义在 \(\mathbb Z^+\) 上,则取 \(\Delta t = 1\),不难看出 \(\{G(t)\}\) 是公比为 \(G(1)\) 的等比数列。而 \(G(1)\) 就是 \(P\{X(1) = 0\} = \mathrm e^{-\lambda}\)。特别的,\(G(0)=1\)。
所以,\(G(t) = e^{-\lambda t}\)。而:
\[ P\{Y = t\} = G(t - 1) - G(t) = \left(\mathrm e^{-\lambda}\right)^{t-1}\left(1 - \mathrm e^{-\lambda}\right) \]
即离散泊松过程的到达时间遵循参数为 \(p=1 - \mathrm e^{-\lambda}\) 的几何分布。这非常好理解。既然是离散的,每个时间单位内,“无事件发生”的概率为 \(\mathrm e^{-\lambda}\),而到达时间就是看,要经过多少个时间单位,才发生第一次“有事件发生”,也就是把一单位时间是否发生事件作为了几何分布对应的伯努利分布。
连续泊松过程的到达时间遵循指数分布
而对于连续的泊松过程,这就是一个喜闻乐见的练习题:
- \(G(a)G(b) = G(a+b)\)
- \(G\) 连续(概率的性质)
- \(G(1) = \mathrm e^{-\lambda}\)
从前两个条件,我们可以推出,\(G(t) = \mathrm e^{ct}\)。这是一个分析学的入门内容,证明思路如下:
- 对于整数 \(k\) 满足 \(G(kx) = G(x)^k\)。
- 反过来,\(G(x) = G(kx)^{\frac{1}{k}}\),即 \(G(\frac{x}{k}) = G(x)^{\frac{1}{k}}\)。
- 对于有理数 \(r\),\(G(xr) = G(x)^r\)。
- 由连续性,逼近得到,对于任意实数 \(y\),\(G(xy) = G(x)^y\)。
- 取 \(x=1\),\(G(t) = G(1)^t =\mathrm e^{t \ln G(1)}\)。
注意采用微分方程证明是不严谨的,因为 \(G\) 并不一定可微。(其实在当前背景下是可微的,但是我们还没说明)
所以,\(G(t)\) 是 \(\mathrm e^{ct}\) 的形式,而且这个常数 \(c\) 就是 \(\ln G(1) = -\lambda\)。则 \(G(t) = \mathrm e^{-\lambda t}\)。
则 \(Y\) 的概率分布函数 \(P\{Y \le t\} = 1 - G(t) = 1 - \mathrm e^{-\lambda t}\)。这玩意可导,对应的概率密度函数就是:
\[ p(t) = \lambda e ^{-\lambda t} \]
即连续泊松过程的到达时间遵循参数为 \(\lambda\) 的几何分布。
两个分布的关联
经过这样一长串分析,两个分布的关联已经很明显了:
- 指数分布就是连续泊松过程到达时间的分布。
- 几何分布是伯努利分布“到达次数”的分布,也可以看成离散泊松过程到达时间的分布。事实上,离散泊松过程的“到达”,本身就是伯努利分布的不断重复。
用数学语言把离散和连续关联起来,就得到:
如果 \(X\) 遵循参数为 \(\lambda\) 的指数分布,则 \(Y = \lfloor X\rfloor + 1\) 遵循参数为 \(1 - e^{-\lambda}\) 的几何分布。
通过构造参数为 \(\lambda\) 的泊松过程,上面的结论自然成立。