前置知识点：SVD(Singular Value Decomposition)

定义

假设 $x = (x_{1},x_{2},\dots,x_{m})^T$ 是 $m$ 维随机变量，其均值变量是 $\mu$ ，协方差矩阵是 $\Sigma$ ，考虑到由 $m$ 维随机变量 $x$ 到由 $m$ 维随机变量 $y$ 的线性变换：

$\begin{align} y_{i} = \alpha_{i}^T x = \alpha_{1i}x_{1} + \cdots + \alpha_{mi}x_{m} \end{align}$

由随机变量的性质：

$\begin{align} & E(y_{i}) = \alpha_{i}^T \mu \\ & \mathrm{var}(y_{i}) = \alpha_{i}^T \Sigma \alpha_{i} \\ & \mathrm{cov}(y_{i},y_{j}) = \alpha_{i}^T \Sigma \alpha_{j} \end{align}$

总体主成分分析

给定一个如式(1)所示的线性变换，如果他们满足以下条件：

系数变量 $\alpha_{i}^T$ 是单位向量，即 $\boldsymbol{\alpha_{i}^T \alpha_{i}} = 1$
$\mathrm{cov}(y_{i},y_{j}) = 0$
变量 $y_{1}$ 是 $\boldsymbol{x}$ 的所有线性变换中方差最大的； $y_{2}$ 是与 $y_{1}$ 不相关的 $\boldsymbol{x}$ 的所有线性变换中方差最大的；一般地， $y_{i}$ 是与 $y_{1}, y_{2}, \cdots, y_{i-1}(i=1,2, \cdots, m)$ 都不相关的 $\boldsymbol{x}$ 的所有线性变换中方差最大的，这时分别称 $y_{1}, y_{2}, \cdots, y_{m}$ 为 $\boldsymbol{x}$ 的第一主成分，第二主成分， $\cdots\cdots$ ，第 $m$ 主成分。

样本主成分分析

一般的，样本第 $i$ 主成分 $y_{i} = \boldsymbol{\alpha_{i}^T x}$ 是在 $\boldsymbol{a}_{i}^{\mathrm{T}} \boldsymbol{a}_{i}=1$ 和 $\boldsymbol{a}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}$ 与 $\boldsymbol{a}_{k}^{\mathrm{T}} \boldsymbol{x}_{j}(k<i, j=1,2, \cdots, n)$ 的样本协方差 $\boldsymbol{a}_{k}^{\mathrm{T}} \boldsymbol{S} \boldsymbol{a}_{i}=0$ 条件下，使 $\boldsymbol{a}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}(j=1,2, \cdots, n)$ 的样本方差 $\boldsymbol{a}_{i}^{\mathrm{T}} \boldsymbol{S} \boldsymbol{a}_{i}$ 最大的 $\boldsymbol{x}$ 的线性变换。

样本主成分分析与总体主成分分析具有相同的性质。样本协方差矩阵 $\boldsymbol{S}$ 是总体协方差矩阵 $\boldsymbol{\Sigma}$ 的无偏估计，样本相关矩阵 $\boldsymbol{R}$ 是总体相关矩阵的无偏估计， $\boldsymbol{S}$ 的特征值和特征向量是 $\boldsymbol{\Sigma}$ 的特征值和特征向量的最大似然估计。

主成分分析的计算及应用

主成分分析的计算

$m$ 维随机变量 $\boldsymbol{y} = (y_{1},y_{2},\cdots,y_{m})$ 的分量依次是 $\boldsymbol{x}$ 的第一主成分到第 $m$ 主成分的充要条件是：

$\boldsymbol{y = A^T x}$ , $\boldsymbol{A}$ 是正交矩阵：

$\left[ \begin{matrix} \alpha_{11} & \alpha_{12} & \cdots &\alpha_{1m} \\ \alpha_{21} & \alpha_{22} & \cdots &\alpha_{2m} \\ \vdots & \vdots & & \vdots \\ \alpha_{m1} & \alpha_{m2} & \cdots &\alpha_{mm} \\ \end{matrix} \right]$

$\boldsymbol{y}$ 的协方差矩阵为对角矩阵：

$\begin{align} &\mathrm{cov}(\boldsymbol{y}) = \mathrm{diag}(\lambda_{1},\lambda_{2},\cdots,\lambda_{m}) \\ &\lambda_{1} \geq \lambda_{2} \geq \cdots \geq \lambda_{m}\\ \end{align}$

其中， $\lambda_{k}$ 是 $\boldsymbol{\Sigma}$ 的第 $k$ 个特征值， $\alpha_{k}$ 是对应的单位特征向量， $k = 1,2,\cdots,m$ ，用矩阵可以表示为：

$\begin{align} &\boldsymbol{\Sigma A = A \Lambda} \end{align}$

主成分的个数

对于任意正整数 $q, 1 \leq q \leq m$ ，考虑正交线性变换

$\begin{align} \boldsymbol{y = B^T x} \end{align}$

其中， $\boldsymbol{y}$ 是 $q$ 维向量， $\boldsymbol{B^T}$ 是 $q \times m$ 矩阵，令 $\boldsymbol{y}$ 的协方差矩阵为

$\begin{align} \boldsymbol{\Sigma_y = B^T \Sigma B} \end{align}$

则 $\boldsymbol{\Sigma_y}$ 的迹 $\mathrm{tr}(\boldsymbol{\Sigma_y})$ 在 $\boldsymbol{B = A_q}$ 时取得最大值，其中矩阵 $\boldsymbol{A_q}$ 由正交矩阵 $\boldsymbol{A}$ 的前 $q$ 列组成。

主成分的方差贡献率

第 $k$ 主成分 $y_{k}$ 的方差贡献率定义为 $y_{k}$ 的方差与所有方差之和的比，记作 $\eta_k$ :

$\begin{align} \eta_k = \frac{\lambda_k}{\sum_{i=1}^{m} \lambda_i} \end{align}$

对于主成分 $y_1, y_2, \cdots, y_k$ ，其累计方差贡献率定义为从方差之和和所有方差之和的比：

$\begin{align} \eta_k = \frac{\sum_{i=1}^{k} \lambda_i}{\sum_{i=1}^{m} \lambda_i} \end{align}$

通常取 $k$ 使得累计方差贡献率达到规定的百分比以上，如 70%～80% 以上。累计方差贡献率反映了主成分保留的信息比例，但它不能反映对某个原有变量 $x_i$ 保留信息的比例，这时可以通过主成分 $y_1, y_2, \cdots, y_k$ 对原变量 $x_i$ 的贡献率。

主成分对原有变量的贡献率

第 $k$ 主成分 $y_1, y_2, \cdots, y_k$ 对原变量的贡献率与 $(x_1, x_2, \cdots, x_k)$ 的相关系数的平方，记作：

$\begin{align} v_i = \rho^2 (x_i, y_1, y_2, \cdots, y_k) \end{align}$

计算公式如下：

$\begin{align} v_i = \rho^2 (x_i, y_1, y_2, \cdots, y_k) = \sum_{j=1}^{k} \rho^2 (x_i, y_j) = \sum_{j=1}^{k} \lambda_j Q_{ij}^2 \end{align}$

主成分分析结果解读

本部分摘自什么是主成分分析 (PCA)？

主成分分析 (PCA) 图是使用前两个主成分作为轴创建的散点图。x 轴为第一主成分 (PC1)，y 轴为第二主成分 (PC2)。散点图显示了观测值（数据点）和新变量（主成分）之间的关系。每个点的位置显示该观测的 PC1 和 PC2 值。

绘图箭头的方向和长度指示变量的载荷，即每个变量对主成分的贡献。如果一个变量对于特定成分具有高载荷，则它与该成分具有强相关性。这可以突出显示哪些变量对数据变化有重大影响。

应用主成分分析 (PCA) 后剩余的主成分数量可帮助解释数据输出。第一个主成分解释最大的数据方差，后面每个成分解释更小的方差。因此，成分的数量可以表示从原始数据集中保留的信息量。应用主成分分析 (PCA) 后，成分越少可能意味着您没有捕捉到太多的数据变化。成分越多表示数据变化越多，但结果可能更难解释。您可以使用碎石图或累积解释方差来确定要保留成分的最优数量。

主成分分析实战——以MNIST数据集为例

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import fetch_openml
from sklearn.preprocessing import StandardScaler

# 加载MNIST数据集
mnist = fetch_openml("mnist_784")
X, y = mnist["data"], mnist["target"].astype(int)

# 标准化数据（PCA前通常需要标准化）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 显示每个标签的主成分（展示前5个主成分）
n_components = 5
for label in range(10):
    plt.figure(figsize=(8, 6))
    label_data = X_scaled[y == label]
    pca_label = PCA(n_components=n_components)
    pca_label.fit(label_data)
    for i in range(n_components):
        plt.subplot(1, n_components, i+1)
        plt.imshow(pca_label.components_[i].reshape(28, 28), cmap='gray')
        plt.title(f'PC {i+1} for label {label}')
        plt.axis('off')
    plt.show()

生成的图像如下（仅显示标签为0，标签为1的主成分）：

标签为0的主成分

标签为1的主成分