概率论基础3
协方差
在上一篇我们已经提到了方差的概念:
\[ Var(X)=E[(X-E(X))^2]=E[X^2]-E[X]^2 \]
同时得到了方差的两个性质:非负性 \(Var(X) \ge 0\) 和平方线性性 \(Var(kX+b)=k^2Var(X)\)。
我们还提到,对于独立的两个变量 \(X,Y\),我们有 \(Var(X+Y)=Var(X)+Var(Y)\)。这是合理的。方差也可以看作一个随机变量所描述的信息,独立的随机变量是不会互相影响的。这不禁让我们思考:如果是不独立的变量呢?怎么衡量两个变量的相关性呢?
有一个很自然的想法。我们可以用 \(Var(X+Y) - Var(X) - Var(Y)\) 来表示由于相关性而造成的影响。我们把它展开:
\[ \begin{aligned} &Var(X+Y)-Var(X)-Var(Y)\\ =&E[(X+Y)^2]-E[X+Y]^2-E[X^2]+E[X]^2-E[Y^2]+E[Y]^2 \\ =&E[2XY]-2E[X]E[Y] \end{aligned} \]
把 2 提出来,我们得到 $ 2(E[XY]-E[X]E[Y])$。括号里面的就被称为协方差(Covariance)。记作 \(Cov(X,Y)\) 容易发现,方差就是协方差的特殊情况,\(Var(X)=Cov(X,X)\)。
看到协方差的定义,不难联想到信息学中的互信息:\(I(X;Y)=H(X)+H(Y)-H(X,Y)\)。不同的是,在信息学中,新的变量不会让原有变量的熵变大,因此互信息是非负数;但新的变量却可以让总和与平均值的差异被拉得更大,因此协方差并没有非负性。
协方差有哪些性质呢?
- 可交换:\(Cov(X,Y)=Cov(Y,X)\)。
- 与常数的关系:\(Cov(a, X)=0\),\(Cov(aX,bY)=abCov(X,Y)\)。
- 加减运算:\(Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\)。
- 独立两变量的协方差为 0。注意这条性质反过来不成立。如果 \(X,Y\) 不同时非 0,显然协方差是 0,但 \(X,Y\) 也显然不独立。
另外,由一开始的推导我们知道,\(Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\) 。把加号改为减号还有 \(Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)\)。
扩展到多变量也是成立的:\(Var(\sum_i X_i)=\sum_iVar(X_i)+\sum_i\sum_{j\ne i}Var(X_i,X_j)\) 。
一般来说,我们把 \(Cov(X,Y)\) 看作 \(X\) 与 \(Y\) 的相关性。所以不相关是比独立更弱的条件。
为什么是相关性呢?这里有一个形象的解释:
协方差有一种计算方法是 \(Cov(X,Y)=E[(X-E[X])(Y-E[Y])]\),这可以用展开简单证明,不赘述。
重要的是,这个式子反应了协方差的一种意义:\(X\) 与 \(Y\) 是否总是同时比均值大或比均值小。
如果它们总是一起大一起小,则 \(X,Y\) 正相关,且 \(Cov(X,Y)>0\);反之,如果总是一个大一个小,则 \(X,Y\) 负相关,且 \(Cov(X,Y)<0\)。只有这两种情况均匀发生时,协方差才会接近于 0,也就是不相关。
相关系数
在进行多变量分析时,不同变量的数据大小不同,直接比较两组变量的协方差大小并不能知道哪一组相关性更强。这时,我们就可以对协方差进行标准化,得到相关系数 \(\rho(X,Y)\):
\[ \rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} \]
要求 \(Var(X)Var(Y) > 0\)。从另一个角度来说,相关系数可以看成将随机变量标准化(通过平移和缩放使得均值为 0,方差为 1)之后再计算的协方差。简单说明如下:
\[ \rho(X,Y)=E[\frac{(X-E[X])(Y-E[Y])}{\sqrt{Var(X)}\sqrt{Var(Y)}}] \]
其中,\(X-E[X]\) 是通过平移将期望设为 0,而除标准差则是将方差设为 1(\(Var(\frac{1}{\sqrt{Var(x)}}X)=\frac{1}{Var(x)}Var(X)=1\))。将标准化之后的随机变量记为 \(X',Y'\),则 \(\rho(X,Y)=E[X'Y']=Cov(X',Y')\)(第二个等号是由于 \(E[X']E[Y']=0\))。
比较两组变量的相关系数,就可以看出变量之间的相关性大小。
从刚才的推导还可以得出相关系数的范围:
\[ \begin{aligned} \rho(X,Y)&=Cov(X',Y')\\ &=\frac{1}{2}(Var(X'+Y') - Var(X')-Var(Y'))\\ &=\frac{1}{2}Var(X'+Y')-1 \\ &\ge -1\\ \rho(X,Y)&=Cov(X',Y')\\ &=\frac{1}{2}(Var(X')+Var(Y')-Var(X'-Y'))\\ &=1-\frac{1}{2}Var(X'-Y') \\ &\le 1 \end{aligned} \]
除了界,相关系数还有另一个重要的性质:\(X,Y\) 呈线性关系的充要条件是 \(\rho(X,Y)=\pm 1\)。所以相关系数是线性相关的系数。
这一性质就蕴含在刚才的证明中:\(\rho(X,Y)=1\) 意味着 \(Var(X+ Y)=0\),所以 \(X+Y\) 恒为常数。反之亦然。
在实践中,我们常常将一组变量两两之间的相关系数写成矩阵的形式,一般用 \(\Sigma\) 表示。其中,\(\Sigma_{[i,j]}=\rho(X_i,X_j)\)。这一形式在统计学习中大有所用。
样本方差
在实践中,我们往往不能直接知道随机变量所遵循的概率分布,而只是知道变量的一些取值。一个反直觉的地方是,直接按照公式 \(\frac{1}{n}\sum_i(X_i-\bar{X})^2\) 计算出来的“方差”是有偏的。这种“方差”的期望和概率分布的真实方差并不相同。让我们详细来看:
假设 \(X_i\) 是由一个方差为 \(\sigma^2\),期望为 \(\mu\) 的概率分布产生出的独立变量。首先我们要明确一点,对于同一个概率分布,\(\mu\) 是一个常数,但是 \(\bar X\) 是一个随机变量。我们可以知道,\(E[\bar X]=\mu\),但是平均数和期望并不等价,因为平均数作为随机变量是有方差的,并不时刻等于期望。其方差为:
\[ Var(\bar X)=Var(\frac{1}{n}\sum_iX_i)=\frac{\sum_iVar(X_i)}{n^2}=\frac{\sigma^2}{n} \]
其中第二个等号是由于 \(X_i\) 两两独立,第三个等号则是由于它们同分布。
又因为 \(Var(\bar X)=E[\bar X^2]-E[\bar X]^2\),所以 \(E[\bar X^2]=\mu^2+\frac{\sigma^2}{n}\)。同理,\(E[X^2]=\sigma^2+\mu^2\)。
这样,我们来考察 \(S^2=\frac{1}{n}\sum_i(X_i-\bar{X})^2\)。它化简的结果是 \(\frac{1}{n}(\sum_iX_i^2)-\bar X^2\)。对这个东西取期望,我们发现,\(E[S^2]=E[X^2]-E[\bar X^2]=\frac{n-1}{n}\sigma^2\)。并不是我们以为的方差。这和初中数学书所描述的是有区别的。
在实践中,为了克服这样的有偏性,我们应该用 \(\frac{n-1}{n}S^2\) 代表方差,也就是 \(\frac{1}{n-1}\sum_i(X_i-\bar{X})^2\)。