定义

矩阵奇异值分解（Singular Value Decomposition,SVD）是指将一个非零的 $m \times n$ 实矩阵 $A$ , $A \in R^{m \times n}$ , 表示为以下三个实矩阵乘积形式的运算 , 即进行矩阵的因子分解:

$\begin{align} A = U \Sigma V^T \end{align}$

其中, $U$ 是 $m$ 阶正交矩阵(orthogonal matrix), $V$ 是 $n$ 阶正交矩阵, $\Sigma$ 是由降序排列的非负的对角线元素组成的 $m \times n$ 矩阵对角矩阵(rectangular diagonal matrix) , 满足

$\begin{array}{c} UU^T = I\\ VV^T = I\\ \Sigma = diag(\sigma_1 . \sigma_2 , ... , \sigma_p)\\ \sigma_1 \ge \sigma_2 \ge ... \ge \sigma_p \ge 0 \\ p = min(m,n) \end{array}$

$U\Sigma V^T$ 称为矩阵 $A$ 的奇异值分解, $\sigma_i$ 称为矩阵 $A$ 的奇异值, $U$ 的列向量称为左奇异向量, $V$ 的列向量称为右奇异向量。

奇异值分解基本定理

若 $A$ 为一个 $m \times n$ 实矩阵, $A\in R^{m \times n}$ ,则 $A$ 的奇异值分解存在:

$\begin{align} A = U \Sigma V^T \end{align}$

其中, $U$ 是 $m$ 阶正交矩阵, $V$ 是 $n$ 阶正交矩阵, $\Sigma$ d是 $m \times n$ 矩阵对角矩阵,其对角线元素非负,且按降序排列。

提示
证明参考Gilbert Strang的Introduction to Linear Algebra(Fifth Edition)第371页,或李航的机器学习方法第231页。

紧奇异值分解与截断奇异值分解

定义所给出的又称为矩阵的完全奇异值分解 (full singular value decomposition)。实际常用的是奇异值分解的紧凑形式与截断形式。
紧奇异值分解是与原始矩阵等秩的奇异值分解,截断奇异值分解是比原始矩阵低秩的奇异值分解。

紧奇异值分解定义

设有 $m \times n$ 实矩阵 $A$ ,其秩为 $rank(A) = r,r \le min(m,n)$ ,则称 $U_r \Sigma_r {V_r}^T$ 为 $A$ 的紧奇异值分解(compact singular value decomposition),即

$\begin{align} A = U_r \Sigma_r {V_r}^T \end{align}$

其中, $U_r$ 是 $m\times n$ 矩阵, $V_r$ 是 $n \times r$ 矩阵, $\Sigma_r$ 是 $r$ 阶对角矩阵；矩阵 $U_{r}$ 由完全奇异值分解中 $U$ 的前 $r$ 列、矩阵 $V_{r}$ 由 $V$ 的前 $r$ 列、矩阵 $\Sigma_{r}$ 由 $\Sigma$ 的前 $r$ 个对角线元素得到,紧奇异值分解的对角矩阵 $\Sigma_{r}$ 的秩与原始矩阵 $A$ 的秩相等。

截断奇异值分解定义

设 $A$ 为 $m \times n$ 实矩阵,其秩 $rank(A) = r$ ,且 $0 < k < r$ ,则称 $U_{k} \Sigma_{k} V_{k}^T$ 为矩阵 $A$ 的截断奇异值分解(truncated singular value decomposition),即

$\begin{align} A \approx U_{k} \Sigma_{k} V_{k}^T \end{align}$

其中, $U_{k}$ 是 $m \times k$ 矩阵, $V_{k}$ 是 $n \times k$ 矩阵, $\Sigma_{k}$ 是 $k$ 阶对角矩阵；矩阵 $U_{k}$ 由完全奇异值分解中 $U$ 的前 $k$ 列、矩阵 $V_{k}$ 由 $V$ 的前 $k$ 列、矩阵 $\Sigma_{k}$ 由 $\Sigma$ 的前 $k$ 个对角线元素得到,紧奇异值分解的对角矩阵 $\Sigma_{k}$ 的秩比原始矩阵 $A$ 的秩低。

几何解释

从线性变换的角度理解奇异值分解, $m \times n$ 矩阵 $\boldsymbol{A}$ 表示从 $n$ 维空间 $\boldsymbol{R}^{n}$ 到 $m$ 维空间 $R^{m}$ 的一个线性变换:

$T: \boldsymbol{x} \rightarrow \boldsymbol{A} \boldsymbol{x}$

其中, $x \in R^{n}$ , $\boldsymbol{A x} \in \boldsymbol{R}^{m}$ , $\boldsymbol{x}$ 和 $\boldsymbol{A x}$ 分别是各自空间的向量。线性变换可以分解为三个简单的变换: 一个坐标系的旋转或反射变换、一个坐标轴的缩放变换、另一个坐标系的旋转或反射变换。奇异值定理保证这种分解一定存在。这就是奇异值分解的几何解释。

对矩阵 $\boldsymbol{A}$ 进行奇异值分解, 得到 $R^{n}$ 中的正交坐标系的旋转或反射变换； $\boldsymbol{U}$ 的列向量 $\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \cdots, \boldsymbol{u}_{m}$ 构成 $\boldsymbol{R}^{m}$ 空间的一组标准正交基,表示 $\boldsymbol{R}^{m}$ 中的正交坐标系的旋转或反射变换； $\boldsymbol{\Sigma}$ 的对角元素 $\sigma_{1}, \sigma_{2}, \cdots, \sigma_{n}$ 是一组非负实数,表示 $\boldsymbol{R}^{n}$ 中的原始正交坐标系坐标轴的 $\sigma_{1}, \sigma_{2}, \cdots, \sigma_{n}$ 倍的缩放变换。

对于任意一个向量 $\boldsymbol{x} \in \boldsymbol{R}^{n}$ , 经过基于 $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}$ 的线性变换, 等价于经过坐标系的旋转或反射变换 $\boldsymbol{V}^{\mathrm{T}}$ 、坐标轴的缩放变换 $\boldsymbol{\Sigma}$ , 以及坐标系的旋转或反射变换 $\boldsymbol{U}$ , 得到向量 $\boldsymbol{A x} \in \boldsymbol{R}^{\boldsymbol{m}}$ 。

奇异值分解的性质

设矩阵 $A$ 的奇异值分解为 $A = U \Sigma V^T$ ,则以下关系成立:

$\begin{align} A^T A = (U \Sigma V^T)^T(U \Sigma V^T) = V(\Sigma^T \Sigma)V^T \\ AA^T = (U \Sigma V^T)(U \Sigma V^T)^T = U(\Sigma \Sigma^T)U^T \end{align}$

在矩阵 $A$ 的奇异值分解中,奇异值、左奇异向量和右奇异向量之间存在对应关系。

由 $A = U \Sigma V^T$ 易知：

$\begin{array}{c} AV = U \Sigma \end{array}$

比较这一等式两端的第 $j$ 列,得到:

$\begin{align} Av_{j} = \sigma_{j} u_{j},j = 1,2,\cdots,n \end{align}$

这就是矩阵 $A$ 的右奇异向量和奇异值、左奇异向量的关系。

类似的,有

$\begin{array}{} A^T U = V \Sigma^T \end{array}$

得到：

$\begin{align} A^Tu_{j}=\sigma_{j}v_{j},,j = 1,2,\cdots,n \\ A^Tu_{j} = 0,j = n+1,n+2,\cdots,m \end{align}$

这就是矩阵 $A$ 的左奇异向量和奇异值、右奇异向量的关系。

矩阵 $A$ 的奇异值分解中,奇异值 $\sigma_{1},\sigma_{2},\cdots,\sigma_{n}$ 是唯一的,而矩阵 $U$ 和 $V$ 不是唯一的。
矩阵 $A$ 和矩阵 $\Sigma$ 的秩相等,等于正奇异值 $\sigma_{i}$ 的个数 $r$ （包含重复的奇异值）。
矩阵 $A$ 的 $r$ 个右奇异向量 $v_{1},v_{2},\dots,v_{r}$ 构成 $A^T$ 的值域 $R(A^T)$ 的一组标准正交基, $n-r$ 个右奇异向量 $v_{r+1},v_{r+2},\dots,v_{n}$ 构成 $A$ 的零空间 $N(A)$ 的一组标准正交基;矩阵 $A$ 的 $r$ 个左奇异向量 $u_{1},u_{2},\dots,u_{r}$ 构成 $A$ 的值域 $R(A)$ 的一组标准正交基,矩阵 $A$ 的 $n-r$ 个左奇异向量 $u_{r+1},u_{r+2},\dots,u_{n}$ 构成 $A^T$ 的零空间 $N(A^T)$ 的一组标准正交基。这里的性质完美的符合了Gilbert Strang的那副经典图片。

计算方法

求 $A^TA$ 的特征值与特征向量
求 $n$ 阶正交矩阵 $V$
求 $m \times n$ 的对角矩阵 $\Sigma$
求 $m$ 阶正交矩阵 $U$

奇异值分解与矩阵近似

弗罗贝尼乌斯范数

奇异值分解也是一种矩阵近似的方法,这个近似是在弗罗贝尼乌斯范数(Frobenius norm)意义下的近似。矩阵的弗罗贝尼乌斯范数是向量 $L_{2}$ 范数的直接推广,对应机器学习中的平方损失函数。

弗罗贝尼乌斯范数的定义

设矩阵 $A \in R^{m \times n}$ , $A = [a_{ij}]_{m \times n}$ ,定义矩阵 $A$ 的弗罗贝尼乌斯范数为

$\begin{align} \Vert A \Vert_{F} = \left( \sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}^2 \right)^{\frac{1}{2}} \end{align}$

引理

设矩阵 $A \in R^{m \times n}$ , $A$ 的奇异值分解为 $U \Sigma V^T$ ,其中 $\Sigma = diag(\sigma_{1},\sigma_{2},\cdots,\sigma_{n})$ ,则

$\begin{align} \Vert A \Vert_{F} = (\sigma_{1}^2+\sigma_{2}^2+\cdots+\sigma_{n}^2) \end{align}$

矩阵的最优近似

奇异值分解是在平方损失（弗罗贝尼乌斯范数）意义下对矩阵的最优近似，即数据压缩。

定理设矩阵 $A \in R^{m \times n}$ ,矩阵的秩 $rank(A) = r$ ,并设 $\mathcal{M}$ 为 $R^{m \times n}$ 中所有秩不超过 $k$ 的矩阵集合, $0 <k < r$ ,则存在一个秩为 $k$ 的矩阵 $X \in \mathcal{M}$ ,使得

$\begin{align} \Vert A - X \Vert_{F} = \min_{S \in \mathcal{M}} \Vert A - S \Vert_{F} \end{align}$

称矩阵 $X$ 为矩阵 $A$ 在弗罗贝尼乌斯范数意义下的最优近似。

定理设矩阵 $\boldsymbol{A} \in \boldsymbol{R}^{m \times n}$ , 矩阵的秩 $\operatorname{rank}(\boldsymbol{A})=r$ , 有奇异值分解 $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}$ , 并设 $\mathcal{M}$ 为 $\boldsymbol{R}^{m \times n}$ 中所有秩不超过 $k$ 的矩阵的集合, $0<k<r$ ,若秩为 $k$ 的矩阵 $\boldsymbol{X} \in \mathcal{M}$ 满足

$\begin{align} \|\boldsymbol{A}-\boldsymbol{X}\|_{F}=\min _{S \in \mathcal{M}}\|\boldsymbol{A}-\boldsymbol{S}\|_{F} \end{align}$

则

$\begin{align} \|\boldsymbol{A}-\boldsymbol{X}\|_{F}=\left(\sigma_{k+1}^{2}+\sigma_{k+2}^{2}+\cdots+\sigma_{n}^{2}\right)^{\frac{1}{2}} \end{align}$

特别地, 若 $\boldsymbol{A}^{\prime}=\boldsymbol{U} \boldsymbol{\Sigma}^{\prime} \boldsymbol{V}^{\mathrm{T}}$ , 其中,

$\boldsymbol{\Sigma}^{\prime}=\left[\begin{array}{cccccc} \sigma_{1} & & & & & \\ & \ddots & & & 0 & \\ & & \sigma_{k} & & & \\ & & & 0 & & \\ & 0 & & & \ddots & \\ & & & & & 0 \end{array}\right]=\left[\begin{array}{cc} \Sigma_{k} & 0 \\ o & 0 \end{array}\right]$

则

$\begin{align} \left\|\boldsymbol{A}-\boldsymbol{A}^{\prime}\right\|_{F}=\left(\sigma_{k+1}^{2}+\sigma_{k+2}^{2}+\cdots+\sigma_{n}^{2}\right)^{\frac{1}{2}}=\min _{S \in \mathcal{M}}\|\boldsymbol{A}-\boldsymbol{S}\|_{F} \end{align}$

矩阵的外积展开式

$\begin{align} A &= \sigma_{1}u_{1}v_{1}^T + \sigma_{2}u_{2}v_{2}^T + \cdots + \sigma_{n}u_{n}v_{n}^T\\ &= \sum_{k=1}^nA_{k}=\sum_{k=1}^n\sigma_{k}u_{k}v_{k}^T\\ \end{align}$

若 $A$ 的秩为 $n$ ,则

$\begin{align} A = \sigma_{1}u_{1}v_{1}^T + \sigma_{2}u_{2}v_{2}^T + \cdots + \sigma_{n}u_{n}v_{n}^T \end{align}$

Rayleigh quotient 瑞利商

定义

本文采用STRANG G.Introduction to Linear Algebra的定义：

$\begin{align} r(x) = \frac{x^T S x}{x^T x} \end{align}$

习题

1.随机矩阵理论
The MATLAB commands A = rand (20, 40) and B = randn (20, 40) produce 20 by 40 random matrices. The entries of A are between 0 and 1 with uniform probability. The entries of B have a normal “bell-shaped” probability distribution. Using an svd command, find and graph their singular values $\sigma_{1}$ to $\sigma_{20}$ . Why do they have 20 $\sigma$ 's?(Source:STRANG G.Introduction to Linear Algebra P370)

该题代码如下：

A = rand(20, 40);
B = randn(20, 40);
s_A = svd(A);
s_B = svd(B);

figure;
subplot(1,2,1);
plot(1:20, s_A, 'b-o', 'LineWidth', 1.5);
title('Singular Values of A (rand)');
xlabel('Index');
ylabel('\sigma_i');
grid on;

subplot(1,2,2);
plot(1:20, s_B, 'r-*', 'LineWidth', 1.5);
title('Singular Values of B (randn)');
xlabel('Index');
ylabel('\sigma_i');
grid on;

观察 $\sigma_{i}-Index$ 图可以得出：矩阵A的奇异值第一个值到第二个值下降极快，后面下降平缓；矩阵B的奇异值均匀下降。需要注意的是，当矩阵A的秩越大，其第一奇异值越大，第一奇异值与第二奇异值差越大。