核方法思想

参考阅读：核函数

简单来说，核函数就是我们需要将数据进行高维非线性映射时，减少计算量的一种运算技巧，核函数的选取决定了映射空间的质量，所以有了多核学习，其实就是多种核函数的组合（构成一个加权求和核），通过学习得出一个合适的组合系数

案例1，通过非线性映射函数将原始空间中的线性不可分数据映射到目标空间，从而变得线性可分¹：

如上图所示，原 $R^{2}$ 空间 $X$ 中的红蓝两类样本点 $x$ （由两个分量构成 $x = [x_{1}, x_{2}]^{T}$ ）可以由一个椭圆曲线 $\frac{x _{1}^{2}}{a ^{2}} + \frac{x _{2}^{2}}{b ^{2}} = 1$ 非线性地分开，我们可以找到一个非线性映射 $ϕ : R^{2}_{(x_{1}, x_{2})} \to R^{3}_{(z_{1}, z_{2}, z_{3}) = (x_{1}^{2}, 2 x_{1} x_{2}, x_{2}^{2})}$ ，使得红蓝样本点在 $R^{3}$ 目标空间 $H$ 中可以由一个超平面线性分开，这时，显然空间 $X$ 中的椭圆曲线转变为了 $H$ 中的一条直线 $\frac{1}{a ^{2}} \cdot z_{1} + 0 \cdot z_{2} + \frac{1}{b ^{2}} \cdot z_{3} = 1$ ，经过它的一个线性超平面可以正确划分两类数据点，到此，你可能会产生一个问题，即这个映射是怎么找到的？

事实上，该问题基本是无解的，我们很难找出确切的映射函数，但是可以将问题进行转化，根据核相关理论，任意非线性映射 $ϕ$ 必然对应有一个核函数 $k$ ，同时给定一个核函数 $k$ （对应核矩阵需满足有限半正定的条件）就能构建出一个映射空间 $H$ （指高维希尔伯特空间Hilbert Space），且 $H$ 中的两个样本点内积可以由其在原始空间中的向量表示通过核函数计算得出，即 $< ϕ (x_{1}), ϕ (x_{2}) >= k (x_{1}, x_{2})$ ， $< ϕ (x_{1}), ϕ (x_{2}) >= ϕ (x_{1})^{T} ϕ (x_{2}) = ϕ (x_{2})^{T} ϕ (x_{1})$ 为向量内积，因此我们要做的是将进行了核扩展的模型目标函数使用核函数 $k$ 表示出来，以避免出现不可解的 $ϕ$ ，那么这个核扩展目标函数该如何定义？以上述二分类为例，给定训练样本集 ${(x_{i}, y_{i})}_{i = 1, ..., N}$ ，其中 $x_{i} \in R^{n}$ ， $y_{i} = {+ 1, - 1}$ 为类别标签，其在非线性映射空间 $H : R^{m}$ 中的表示为 ${(ϕ (x_{i}), y_{i})}_{i = 1, ..., N}$ ，设在 $H$ 中能够线性划分样本集的超平面为 $l : w^{T} ϕ (x) + b = 0$ ，相应的二分类判别模型为 $D (x) = {+ 1, w^{T} ϕ (x) + b > 0 - 1, w^{T} ϕ (x) + b < 0$ ，其中 $w \in R^{m}$ ，而根据表示理论， $w$ 可以由 $H$ 中训练样本的线性组合构成，设为 $w = i = 1 \sum N a_{i} ϕ (x_{i}) = ϕ (X) a$ ，其中 $ϕ (X) = [ϕ (x_{1}), ..., ϕ (x_{N})] \in R^{m \times N}$ ， $a = [a_{1}, ..., a_{N}]^{T} \in R^{N}$ ，于是 $l : a^{T} [ϕ^{T} (x_{1}) ϕ (x), ..., ϕ^{T} (x_{N}) ϕ (x)]^{T} + b = a^{T} [k (x_{1}, x), ..., k (x_{N}, x)]^{T} + b = 0$ ，由此，问题由求解未知量 $w, b$ 变为求解未知量 $a, b$ ，因为通常核函数所对应的高维映射空间维度 $m$ 非常大（甚至是无穷维），远远大于训练样本数 $N$ ，因此引入核函数极大减小了优化代价（未知参数量减少）。接下来的问题就简单了，我们采用Logistic回归构造二分类的目标函数（代价函数），得到 $J = \frac{1}{N} i = 1 \sum N ln (1 + e^{- y_{i} f (x_{i})})$ ，其中 $f (x_{i}) = a^{T} [ϕ^{T} (x_{1}) ϕ (x_{i}), ..., ϕ^{T} (x_{N}) ϕ (x_{i})]^{T} + b = a^{T} [k (x_{1}, x_{i}), ..., k (x_{N}, x_{i})]^{T} + b = a^{T} K_{:, i} + b$ ，其中 $K$ 为核矩阵， $K = ϕ^{T} (X) ϕ (X) = k (x_{1}, x_{1}) ⋮ k (x_{N}, x_{1}) \dots ⋱ \dots k (x_{1}, x_{N}) ⋮ k (x_{N}, x_{N}) \in R^{N \times N}$ ，参数 $a, b$ 的求解仍可借助感知器通过梯度下降优化算法得到，此时，感知器的输入变为 ${K}$ ，也就是原本的训练集 ${(x_{i}, y_{i})}_{i = 1, ..., N}$ 转变为 ${(K_{:, i}, y_{i})}_{i = 1, ..., N}$ ， $a, b$ 变成感知器的权重以及偏置参数

测试阶段，给定测试样本点 $x \in / {X}$ ，其所属类别将由判别模型 $D (x)$ ，其中 $w^{T} ϕ (x) + b = a^{T} [k (x_{1}, x), ..., k (x_{N}, x)]^{T} + b$ 计算得出

案例2：核PCA

案例3：核SVM（笔记）

李政轩 Kernel Method 讲解 ↩︎

muggledy于2022-01-05发布

标签: machine learning