【Novikoff 定理】

设训练集 $D=\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),…,(\mathbf{x}_N,y_N)\}$ 是是线性可分的，第 $i$ 组样本中的输入 $\mathbf{x}_i$ 具有 $n$ 个特征值，即：$\mathbf{x}_i=(x_i^{(1)},x_i^{(2)},…,x_i^{(n)})\in \mathbb{R}^n$，输出 $y_i\in\mathcal{Y}=\{+1,-1\}$，则：

存在满足条件 $||W_{opt}||_2=1$ 的超平面 $S:W_{opt}X=\boldsymbol{\omega}_{opt}\cdot\mathbf{x}+\theta_{opt}=0$ 将训练集完全正确分开，且存在 $\gamma>0$，对所有的 $i=1,2,…,N$，有：

$y_i(W_{opt}X_i)=y_i(\boldsymbol{\omega}_{opt}\cdot\mathbf{x}_i+\theta_{opt})\geq \gamma$

令 $R=\max\limits_{i}||X_i||_2$，则感知机学习算法原始形式在训练集上的误分类次数 $k$ 满足以下不等式：

$k\leq (\frac{R}{\gamma})^2$

该定理表明，分离超平面下样本点的函数间隔 $y_i(\boldsymbol{\omega}_{opt}\cdot\mathbf{x}_i+\theta_{opt})$ 存在下界，误分类次数 $k$ 存在上界，经过有限次搜索可以找到将训练集完全正确分开的分离超平面

也就是说，当训练集线性可分时，感知机学习算法原始形式是迭代收敛的

而当训练集线性不可分时，感知机学习算法原始形式是不迭代收敛的，迭代结果会发生震荡，为处理训练集线性不可分的情况，由此出现了多层感知机（Multi-Layer Perceptron）

【证明】

对于线性可分数据集，感知机学习算法的原始形式收敛，即：经过有限次迭代后，可以得到一个训练集完全正确划分的分离超平面及感知机模型

首先将阈值 $\theta$ 并入权重 $\boldsymbol{\omega}$ 中，记作：

$W=(\boldsymbol{\omega}^T,\theta)^T$

同时，将输入向量 $\mathbf{x}$ 进行扩充，加入常数 $1$，记作：

$X=(\mathbf{x}^T,1)^T$

由此，$W,X\in \mathbb{R}^{n+1}$，且有：

$WX=\boldsymbol{\omega}\cdot\mathbf{x}+\theta$

设训练集 $D=\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),…,(\mathbf{x}_N,y_N)\}$ 是线性可分的，那么根据数据集的线性可分性，存在超平面 $S$ 可将训练集完全正确分开，设该超平面为：

$W_{opt}X=\boldsymbol{\omega}_{opt}\cdot\mathbf{x}+\theta_{opt}=0$

取 $||W_{opt}||_2=1$，对于有限的 $i=1,2,…,N$，均有：

$y_i(W_{opt}X_i)=y_i(\boldsymbol{\omega}_{opt}\cdot \mathbf{x}_i+\theta_{opt})>0$

令：

$\gamma=\min_i \{y_i(\boldsymbol{\omega}_{opt}\mathbf{x}_i+\theta_{opt})\}$

故有：

$y_i(W_{opt}X_i)=y_i(\boldsymbol{\omega}_{opt}\cdot\mathbf{x}_i+\theta)\geq \gamma=\min_i \{y_i(\boldsymbol{\omega}_{opt}\mathbf{x}_i+\theta_{opt})\}$

感知机学习算法一般从 $\boldsymbol{\omega}=0,\theta=0$ 开始迭代，当样本被误分类时，更新权重与阈值

取 $W_{k-1}$ 为第 $k$ 个误分类样本之前的扩充权重向量，即：

$W_{k-1}=(\boldsymbol{\omega}_{k-1}^T,\theta_{k-1})^T$

假设 $(\mathbf{x}_j,y_j)$ 是第 $k$ 个被误分类，即被 $W_{k-1}=(\boldsymbol{\omega}_{k-1}^T,\theta_{k-1})^T$ 误分类的样本，则其满足：

$y_j(W_{k-1}X_j)=y_j(\boldsymbol{\omega}_{k-1}\cdot x_j+\theta_{k-1})\leq0$

且权重 $\boldsymbol{\omega}$ 与阈值 $\theta$ 的更新为：

$\left\{\begin{array}{rl} \boldsymbol{\omega}_k &=& \boldsymbol{\omega}_{k-1} + \alpha y_j\mathbf{x}_j \\ \theta_k &=& \theta_{k-1} + \alpha y_j \end{array} \right.$

即：

$W_k=W_{k-1}+\alpha y_jX_j$

考虑将训练集线性可分的超平面 $S:W_{opt}X=0$，有：

$\begin{align*} W_kW_{opt} &= W_{k-1}W_{opt}+\alpha y_jW_{opt}X_j \\ &\geq W_{k-1}W_{opt}+\alpha\cdot\min_j \{y_jW_{opt}X_j\} \end{align*}$

由于 $\min\limits_j\{y_jW_{opt}X_j\}=\min\limits_j \{y_j(\boldsymbol{\omega}_{opt}\mathbf{x}_j+\theta_{opt})\}=\gamma$，故有：

$W_kW_{opt}\geq W_{k-1}W_{opt}+\alpha\gamma$

根据上式进行递推，有：

$\begin{align*} W_kW_{opt} &\geq W_{k-1}W_{opt}+\alpha\gamma \\ &\geq W_{k-2}W_{opt}+2\alpha\gamma \\ &\geq ...\\ &\geq k\alpha\gamma \end{align*}$

即：

$W_kW_{opt}\geq k\alpha\gamma$

进一步，考虑到：

$W_k=W_{k-1}+\alpha y_jX_j$

对其两边同取 $l_2$ 范数的平方，有：

$||W_k||_2^2 = ||W_{k-1}||_2^2+2\alpha y_iW_{k-1}X_j+\alpha^2||X_j||_2^2$

根据第 $k$ 个被误分类样本所满足的条件：

$y_j(W_{k-1}X_j)=y_j(\boldsymbol{\omega}_{k-1}\cdot x_j+\theta_{k-1})\leq0$

有：

$2\alpha y_jW_{k-1}X_j\leq0$

故：

$\begin{align*} ||W_k||_2^2 &= ||W_{k-1}||_2^2 + 2\alpha y_iW_{k-1}X_j + \alpha^2||X_j||_2^2 \\ &\leq ||W_{k-1}||_2^2 + \alpha^2||X_j||_2^2 \end{align*}$

令 $R=\max\limits_{1\leq i\leq N}||X_i||_2$，则有：

$\begin{align*} ||W_k||_2^2 &= ||W_{k-1}||_2^2 + 2\alpha y_iW_{k-1}X_j + \alpha^2||X_j||_2^2 \\ &\leq ||W_{k-1}||_2^2 + \alpha^2||X_j||_2^2 \\ &\leq ||W_{k-1}||_2^2 + \alpha^2R^2 \end{align*}$

结合递推不等式：

$W_k=W_{k-1}+\alpha y_jX_j$

故有：

$\begin{align*} ||W_k||_2^2 &= ||W_{k-1}||_2^2 + 2\alpha y_iW_{k-1}X_j + \alpha^2||X_j||_2^2 \\ &\leq ||W_{k-1}||_2^2 + \alpha^2||X_j||_2^2 \\ &\leq ||W_{k-1}||_2^2 + \alpha^2R^2 \\ &\leq ||W_{k-2}||_2^2 + 2\alpha^2R^2 \\ &\leq ...\\ &\leq k\alpha^2R^2 \end{align*}$

即：

$||W_k||_2^2\leq k\alpha^2R^2$

根据 $W_kW_{opt}\geq k\alpha\gamma$，结合上式，有：

$k\alpha\gamma \leq W_kW_{opt} \leq ||W_k||_2||W_{opt}||_2\leq \sqrt{k}\alpha R$

即：

$k^2\gamma^2\leq kR^2$

故有：

$k\leq (\frac{R}{\gamma})^2$

Alex_McAvoy

单层感知机学习算法的收敛性

【Novikoff 定理】

【证明】