引言:高维数据的困境

在现代数据科学中,我们经常面临高维数据的处理挑战。

设数据集$X \in \mathbb{R}^{n \times d}$包含$n$个样本,每个样本有$d$维特征,当$d$较大时会出现:

  1. 维度灾难:样本密度随维度指数级下降
  2. 计算复杂度:许多算法复杂度与维度呈超线性关系
  3. 可视化困难:人类无法直接感知超过3维的空间

我们的目标是找到保持数据最大信息量的低维表示,这正是主成分分析(Principal Component Analysis)要解决的核心问题。

一、协方差与正交变换

1.1 数据预处理

首先对数据进行中心化处理:
$$ \tilde{X} = X - \frac{1}{n}\mathbf{1}\mathbf{1}^T X $$
其中$\mathbf{1}$是全1列向量,确保数据均值为零。

1.2 协方差矩阵

定义样本协方差矩阵:
$$ \Sigma = \frac{1}{n-1}\tilde{X}^T\tilde{X} \in \mathbb{R}^{d \times d} $$
其对角元素$\sigma_{ii}$表示第i个特征的方差,非对角元素$\sigma_{ij}$表示特征i与j的协方差。

1.3 特征值分解

根据谱定理,实对称矩阵可正交对角化:
$$ \Sigma = Q\Lambda Q^T $$
其中:

  • $Q = [\mathbf{q}_1 | \cdots | \mathbf{q}_d]$ 是正交矩阵
  • $\Lambda = \text{diag}(\lambda_1, \cdots, \lambda_d)$ 特征值矩阵
  • $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_d \geq 0$

二、PCA核心思想:方差最大化

2.1 投影方差

寻找投影方向$\mathbf{w}$使得投影后方差最大:
$$ \max_{\|\mathbf{w}\|=1} \text{Var}(\tilde{X}\mathbf{w}) = \mathbf{w}^T\Sigma\mathbf{w} $$

通过拉格朗日乘数法求解:
$$ \mathcal{L} = \mathbf{w}^T\Sigma\mathbf{w} - \lambda(\mathbf{w}^T\mathbf{w} - 1) $$
求导得:
$$ \Sigma\mathbf{w} = \lambda\mathbf{w} $$
即,最优投影方向是协方差矩阵的特征向量!

2.2 主成分的几何解释

前k个主成分构成正交基,张成最优k维子空间:
$$ V_k = \text{span}\{\mathbf{q}_1, ..., \mathbf{q}_k\} $$
于是,累计解释方差为:
$$ R^2 = \frac{\sum_{i=1}^k \lambda_i}{\sum_{i=1}^d \lambda_i} $$

三、算法实现

3.1 标准PCA流程抽象

  1. 数据标准化(中心化+可选缩放)
  2. 计算协方差矩阵
  3. 特征值分解
  4. 选择主成分数k:

    • 累计方差贡献率 > 阈值(如95%)
    • 拐点法(Scree Plot)
  5. 投影到新空间:$Z = \tilde{X}Q_k$

3.2 奇异值分解(SVD)视角

更数值稳定的实现方式:
$$ \tilde{X} = U S V^T $$
其中:

  • 右奇异向量$V$即为$Q$
  • 奇异值$\sigma_i = \sqrt{(n-1)\lambda_i}$

投影矩阵可直接表示为:
$$ Z = U_k S_k $$

四、应用与扩展

4.1 典型应用场景

  • 数据可视化(降维到2D/3D)
  • 特征工程(去相关、降维)
  • 噪声过滤(丢弃小特征值成分)
  • 图像压缩(特征脸方法)

4.2 核PCA

通过核技巧处理非线性结构:
$$ K = \tilde{X}\tilde{X}^T \Rightarrow \tilde{K} = K - \frac{1}{n}\mathbf{1}\mathbf{1}^TK - \frac{1}{n}K\mathbf{1}\mathbf{1}^T + \frac{1}{n^2}(\mathbf{1}^TK\mathbf{1})\mathbf{1}\mathbf{1}^T $$

4.3 鲁棒PCA

处理异常值的改进方法:
$$ X = L + S $$
其中$L$低秩,$S$稀疏,通过凸优化求解:
$$ \min_{L,S} \|L\|_* + \lambda\|S\|_1 $$

后记:数学本质的再思考

PCA本质上是在寻找:

  1. 最优线性近似:在Frobenius范数下最佳秩k近似
  2. 信息保留:最大化投影后互信息
  3. 流形学习:线性流形嵌入的特例

不过呢,PCA的局限性在于线性假设,对非线性结构需借助核方法或流形学习。


附录:关键公式速查

  • 投影方差:$\text{Var}(Z_i) = \lambda_i$
  • 重构误差:$\|X - XQ_kQ_k^T\|_F^2 = \sum_{i=k+1}^d \lambda_i$
  • 主成分正交性:$\mathbf{q}_i^T\mathbf{q}_j = \delta_{ij}$

标签: none

添加新评论