线性代数4-5章

线性空间

对于集合 \(V\) 和数域 \(F\),如果能够定义下面两种运算:

  • \(\forall a, b \in V, a+ b \in V\)
  • \(\forall a \in V, k\in F, ka \in V\)

并且满足下面八条性质:

  • \(a+b = b+a\)
  • \((a+b)+c=a+(b+c)\)
  • \(a+0=a\),存在零元。
  • \(a+(-a)=0\),存在负元。
  • \(1a=a\)
  • \(k(la) = (lk)a\)
  • \(k(a+b)=ka+kb\)
  • \((k+l)a=ka+la\)

那么我们称 \(V\) 是数域 \(F\) 上的线性空间(或向量空间)。

之所以叫向量空间,是因为向量是线性空间最常见的形式。我们简记 \(n\) 维向量组成的线性空间为 \(F^n = \{(x_{1},x_{2},x_{3},\dots ,x_{n})\mid x_{i} \in F\}\)。我们之前接触的空间是 \(\mathbb{R}^n\)。其零元是 \((0,0,0,\dots,0)\)

线性相关性

线性表出

对于 \(a_{1},a_{2},\dots,a_{n},b \in V\),如果存在 \(k_{1},k_{2},\dots,k_{n}\in F\),使得 \(\sum k_{i}a_{i}=b\),则称 \(b\) 可以被 \(a_{1},a_{2},\dots,a_{n}\) 线性表出。

线性相关

对于 \(V\) 中的一组元素 \(a_{1},a_{2},\dots,a_{n}\),如果存在一组不全为 0 的 \(k_{1},k_{2},\dots k_{n} \in F\),使得 \(\sum k_{i}a_{i} = 0\)。则称这一组元素线性相关。反之则线性无关。

考虑 \(k_{j}\neq 0\),则 \(\sum_{i \neq j} \frac{k_{i}}{k_{j}}a_{i}=a_{j}\),说明 \(a_{j}\) 可被剩余元素线性表出。

则线性相关的充要条件是:存在某个元素可被剩余元素线性表出。

唯一性

如果 \(A\) 是一组线性无关的元素,并且 \(b\) 可以被 \(A\) 线性表出,则这个表示是唯一的。

反证法:若有两组 \(\{p_{n}\},\{q_{n}\}\) 都满足 \(\sum p_{i}a_{i}=\sum q_{i}a_{i}=b\),且存在 \(j\) 使得 \(p_{j} \neq q_{j}\)。则 \(a_{j}=\sum_{i \neq j} \frac{p_{i}-q_{i}}{q_{j}-p_{j}}a_{i}\)。则 \(A\) 不是线性无关的,矛盾。

极大无关组

对于一组 \(V\) 中的元素 \(A\),在其中取出尽可能多的线性无关的元素,构成的新一组元素 \(B\) 称为 \(A\) 的极大无关组。显然 \(B\) 不一定唯一,并且 \(A\) 可以被 \(B\) 线性表出(否则加入无法表出的元素得到更大的组)。

如果极大无关组大小是 \(r\),我们称 \(A\) 的秩为 \(r\)

所有的大小小于 \(r\) 的元素组一定不能线性表出 \(A\) 中所有元素。

证明:对于大小小于 \(r\) 的元素组 \(C\),由于 \(C\) 的大小比 \(B\) 大,则必有某个元素 \(x\) 满足 \(x \in B, x\not\in C\)。因为 \(B\) 是线性无关的,则 \(x\) 无法被 \(B\) 中的元素线性表出,进而无法被 \(A\) 中元素线性表出,也就不可能被 \(C\) 中元素线性表出。

基和维度

线性空间的基是一组极小的、能线性表出所有元素的元素。即极小的 \(b_{1},b_{2},\dots,b_n\) 使得 \(\forall x \in V, \exists k_{1},k_{2},\dots,k_{n} \in F\) 使 \(\sum k_{i}b_{i}=x\)

由“极小”可以知道,基一定是线性无关的。否则假设 \(a_{j}\) 可被线性表出,则去掉 \(a_{j}\) 仍然可以将所有元素表示,就获得了一组更小的基。

此外,基同时是 \(V\) 中所有元素构成的一个极大无关组。否则 \(V\) 中就有元素无法被表出。

则所有的基大小是一样的。我们把这个大小 \(n\) 记作 \(V\) 的维度。

又因为线性表示的唯一性,所以 \(V\) 中的所有元素可以被唯一地表示为 \(\sum k_{i}b_{i}\) 的形式。

也就是说,只要我们给出了一组基 \(B\),我们就找到了 \(V\)\(n\) 维向量空间 \(F^n\) 的一个线性变换。也就是说,任何有限维度的线性空间和相同维度的向量空间是同构的。这也是为什么我们研究最多的是向量空间。

特别地,只包含零元素的线性空间没有基,维度是 0。

标准基

我们定义 \(F^n\) 的标准基为 \(\{(1,0,\dots,0),(0,1,\dots,0),\dots,(0,0,\dots,1)\}\)。这组基把 \(F^n\) 变换到 \(F^n\) 自身,且 \(x = b_{i}x_{i}\)

子空间

如果 \(V' \subseteq V\),且 \(V'\) 内元素的加法和数乘在 \(V'\) 内封闭,则称 \(V'\)\(V\) 的一个子空间。

张成子空间

对于 \(V\) 中一组元素 \(A = \{a_{1},a_{2},\dots,a_{m}\}\),定义 \(\operatorname{span}(A)\) 为恰好包含所有可以被 \(A\) 线性表出的元素的集合。

显然 \(\operatorname{span}(A)\)\(A\) 的子空间。

考虑 \(A\) 的极大无关组 \(B\)\(A\) 以及 \(\operatorname{span}(A)\) 都可以由 \(B\) 线性表出。则 \(B\)\(\operatorname{span}(A)\) 的一组基。

特别的,对于 \(A\) 的一组基 \(B\)\(\operatorname{span}(B)=A\)

子空间的和

对于 \(U\) 的子空间 \(A,B\),定义 \(A+B\) 为包含 \(A,B\) 的最小子空间。

有:\(a \in A\)\(a\in A+B\)\(b \in B\)\(b \in A+B\)\(c \not\in A,c\not\in B\)\(c \not\in A+B\)

子空间的交

对于 \(U\) 的子空间 \(A,B\),定义 \(A\cap B\)\(A,B\) 都包含的最大子空间。

有:\(a \not\in A\)\(a\not\in A\cap B\)\(b \not\in B\)\(b \not\in A\cap B\)\(c \in A,c\in B\)\(c \in A\cap B\)

子空间的直和

如果 \(A\cap B=\{0\}\),则称 \(A+B\) 为直和,记作 \(A \oplus B\)。直和满足 \(\dim A \oplus B=\dim A +\dim B\)。比较好证。

线性映射

对于线性空间 \(U,V\),一个从 \(U\)\(V\) 的线性映射是一个函数 \(T:U \to V\)。满足如下性质:

  • \(T(a+b)=Ta+Tb\)
  • \(T(ka) = kTa\)

既然有了这些性质,不难发现,只要确定了 \(U\) 的一组基在线性映射下的结果就可以确定 \(U\) 中所有元素在线性映射下的结果。如果 \(U\) 的基为 \(u_{1},u_{2},\dots u_{n}\),则只要确定 \(Tu_{1},Tu_{2}\dots Tu_{n}\) 就可以唯一确定一个线性映射。

特别地,既然 \(Tu \in V\),则 \(Tu\) 可以被 \(V\) 的基线性表示。如果 \(V\) 的基为 \(v_{1},v_{2},\dots v_{m}\),则对于每个 \(i\),我们都有 \(Tu_{i} = \sum_{j}k_{ij}v_{j}\)

这启发我们,如果我们确定了 \(U\)\(V\) 的基,就可以用一个矩阵来唯一确定线性映射:定义 \(\mathcal M(T)\)\(T\) 的矩阵表示如下:

\[ \mathcal M(T) = \begin{bmatrix} k_{11} & k_{12} & \dots & k_{1n} \\ k_{21} & k_{22} & \dots & k_{2n} \\ \dots & \dots & \dots & \dots \\ k_{m1} & k_{m2} & \dots & k_{mn} \end{bmatrix} \]

且有 \(Tu_{i}=\sum k_{ij}v_{i}\)。我们再来考察一般的 \(U\) 中元素 \(a\) 在线性映射下的结果。如果 \(u=\sum x_{i}u_{i}\)\(Tu = \sum y_{j}v_{j}\),我们得到一个矩阵乘法的形式:

\[ \begin{bmatrix} y_{1} \\ y_{2} \\ \dots \\ y_{m} \end{bmatrix} = \begin{bmatrix} k_{11} & k_{12} & \dots & k_{1n} \\ k_{21} & k_{22} & \dots & k_{2n} \\ \dots & \dots & \dots & \dots \\ k_{m1} & k_{m2} & \dots & k_{mn} \end{bmatrix} \begin{bmatrix} x_{1} \\ x_{2} \\ \dots \\ x_{n} \end{bmatrix} \]

也即 \(y = \mathcal M(T) x\)。所以,用矩阵表示的线性映射计算 \(Tu\) 如下:

  1. \(u\) 分解为 \(U\) 的基的线性表示,即 \(u=\sum x_{i}u_{i}\)。得到向量 \(x=(x_{1},x_{2}\dots x_{n})^\text{T}\)
  2. 计算矩阵乘法得到 \(y=(y_{1},y_{2},\dots,y_{m})^\text{T} = \mathcal M(T)x\)
  3. \(V\) 的基表示出 \(Tu\)\(Tu = \sum y_{j}v_{j}\)

注意,即使是同一个 \(T\)\(\mathcal M(T)\) 的数值也可以随着选取的基的不同而不同。

上面说了这么多,比矩阵乘法优越在哪里呢?线性映射可以对任何线性空间成立。矩阵乘法只是对 \(F^n\) 中的向量进行变换,但是有些线性空间可能是函数的集合,可能是矩阵的集合,但只要是线性空间就有基,有基就能转化到一个 \(F^n\) 上的向量,进而用矩阵乘法转化到另一个维度。

矩阵乘法本身也是线性运算,它是 \(U=F^n,V=F^m\),并且选取的基为标准基的时候的线性变换。由于是标准基,第一步与第三步就是多余的。

映射空间

\(U\)\(V\) 的所有线性映射为 \(\mathcal{L}(U,V)\)。定义线性映射的加法为 \((T_{1}+T_{2})u=T_{1}u+T_{2}u\),数乘为 \((kT)u=k(Tu)\),则不难证明所有的线性映射本身也组成一个线性空间!

这是自然的,因为线性映射可表示成矩阵,而矩阵构成线性空间。不过这启示我们,可以仿照矩阵的运算考虑线性映射的运算。

比如乘法运算:若 \(T_{1}:U\to V\)\(T_{2}:V\to W\),则定义 \((T_{1}T_{2})u = T_{1}(T_{2}u)\)。可以证明,当两个映射的 \(V\) 取相同的基的时候,\(T_{1}T_{2}\) 对应的矩阵 \(\mathcal M(T_{1}T_{2}) = \mathcal M(T_{1})\mathcal M(T_{2})\)

线性代数基本定理

既然线性映射是一个函数,自然考虑:什么时候是满射?什么时候是单射?什么时候是双射?

零空间

我们考虑一些特殊的输入:定义 \(\text{null}(T)\) 表示使得 \(Tu=0\) 的所有 \(u\) 构成的集合。由于 \(Tu=0,Tv=0\) 时,\(T(u+v)=T(cu)=0\),所以 \(u+v,cu \in \text{null}(T)\)

这样,\(\text{null}(T)\) 就是 \(U\) 的一个子空间。这被称为 \(T\) 的零空间。

我们有如下断言:当且仅当 \(\text{null}(T)\) 维度为 0 时,\(T\) 是单射。

显然 \(\text{dim null}(T) \neq 0\) 时,\(\text{null}(T)\) 中元素不唯一,但是它们的映射结果都是 0,不是单射。

\(\text{null}(T) = \{0\}\) 时,若 \(Tu = Tv\),则 \(T(u-v)=0\),则 \(u-v \in \text{null}(T)\),则 \(u-v=0,u=v\)。说明是单射。

值空间

定义 \(\text{range}(T)\) 表示所有 \(Tu\) 构成的集合。由 \(T\) 的定义自然得到 \(Tu\)\(\text{range}(T)\) 内封闭,所以 \(\text{range}(T)\)\(V\) 的子空间。被称为值空间。

我们有如下断言:当且仅当 \(\text{dim range}(T)=\text{dim }V\) 时,\(T\) 是满射。这十分显然,因为 \(\text{range}(T)\)\(V\) 的子空间,所以维度相等时 \(\text{range}(T)=V\)

基本定理

这个定理叫做基本定理,说明它的地位相当于牛顿-莱布尼茨公式在分析学中的地位。定理如下:

对于任何线性映射 \(T:U \to V\)\(\text{dim }U = \text{dim null}(T)+\text{dim range}(T)\)

证明不难。考虑 \(U\) 的子空间 \(W\) 满足 \(\text{null}(T) \oplus W=U\)

\(\text{null}(T)\) 的一组基 \(a_{1},a_{2},\dots,a_{x}\),取 \(W\) 的一组基 \(b_{1},b_{2},\dots,b_{n-x}\)。不难说明 \(a_{1},a_{2}\dots,a_{x},b_{1},b_{2},\dots,b_{n-x}\) 线性无关,而且是 \(U\) 的一组基。

由于 \(Tb_{i} \neq 0\),则 \(Tb_{i} \in \text{range}(T)\)。我们将要证明 \(Tb_{i}\) 之间线性无关。

假设 \(\sum c_{i}Tb_{i}=0\),则 \(T(\sum c_{i}b_{i})=0\)。则 \(\sum c_{i}b_{i} \in \text{null}(T)\)。同时因为 \(b_{i}\)\(W\) 的基,\(\sum c_{i}b_{i} \in W\),则 \(\sum c_{i}b_{i}\in \text{null}(T) \cap W = \{0\}\)。又因为 \(b_{i}\) 线性无关,所以 \(c_{i}\) 全为 0,所以 \(Tb_{i}\) 线性无关。

则对于任意 \(u \in U\),设 \(u = \sum x_{i}a_{i} + \sum y_{i}b_{i}\)\(Tu=T\left( \sum y_{i} b_{i} \right)=\sum y_{i}Tb_{i}\)。说明任何 \(Tu\) 都可以由 \(Tb_{i}\) 线性表出,而 \(Tb_{i}\) 又线性无关,那么 \(Tb_{i}\)\(\text{range}(T)\) 的一组基。

所以 \(\text{dim range}(T) = \text{dim }W= n-x\),则 \(\text{dim }U = \text{dim null}(T)+\text{dim range}(T)\)

由这个定理很容易知道,如果 \(V\) 维度小于 \(U\) 的维度,那么值空间维度小于 \(U\),则零空间维度不为 0,那么 \(T\) 必然不是单射。同样的,如果 \(U\) 的维度小于 \(V\) 的维度,则值空间维度最大不超过 \(U\),也小于 \(V\) 的维度,那么 \(T\) 必然不是满射。

这很形象:从高维到低维的映射必然重复,从低维到高维的映射必然不满。

另外,我们已经知道 \(\text{dim }W = \text{dim range}(T)\),对于 \(u,v \in W\),若 \(Tu=Tv\),则 \(u-v \in W \cap \text{null}(T) = \{0\}\),则 \(u=v\)。所以,\(W\)\(\text{range}(T)\) 的部分是一个双射,也即是可逆的

再强调一遍,一个线性映射把零空间映射到 0,把另一个子空间映射到值域空间,且值域空间的映射是可逆的!

这一句话隐含了线性代数的几乎全部内容。我们最终会看到,“另一个子空间”是伴随映射的值域空间,而值域空间是伴随映射的“另一个子空间”。

\(U,V\) 选取规范正交基时,所谓的“伴随”就是矩阵的共轭转置。

将线性映射进一步分解为:旋转,缩放到另一个空间(其中零空间对应维度缩放为 0),在另一个空间内旋转,可以实现这个“映射到 0+可逆”的过程。这就是奇异值分解。

矩阵视角下的基本定理

对于矩阵(也即 \(F^m \to F^n\) 的线性映射),考虑列分块 \(M = [x_{1},x_{2},\dots x_{n}]\)。则 \(\text{range}(M) = \text{span}(x_{1},x_{2},\dots,x_{n})\)(选取 \(F^m\) 的标准基带入相乘立刻得到)。也就是说,矩阵的值域是其列向量张成的空间。

而列向量张成空间的维度就是矩阵的列向量组的秩,也就是矩阵的秩。所以 \(r(M) = \dim \text{range}(M)=\dim \text{span}(x_{1},x_{2},\dots,x_{n})\)

这也完美解释了一个重要的不等式:\(r(A) + r(B) - n \leq r(AB) \leq \min(r(A), r(B))\)\(A\) 的输入空间实际是 \(\text{range}(B)\),而能够最终进入 \(\text{range}(AB)\) 的向量在 \(\text{range}(B)\cap W_{A}\) 中。也即 \(r(AB)=r(\text{range}(B)\cap W_{A})\)。由于这两个都是 \(F^n\) 的子空间,所以通过简单的容斥,就得到 \(r(A) + r(B) - n \leq r(AB) \leq \min(r(A), r(B))\)