Alex_McAvoy

想要成为渔夫的猎手

单层感知机学习算法的收敛性

【Novikoff 定理】

设训练集 $D=\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),…,(\mathbf{x}_N,y_N)\}$ 是是线性可分的,第 $i$ 组样本中的输入 $\mathbf{x}_i$ 具有 $n$ 个特征值,即:$\mathbf{x}_i=(x_i^{(1)},x_i^{(2)},…,x_i^{(n)})\in \mathbb{R}^n$,输出 $y_i\in\mathcal{Y}=\{+1,-1\}$,则:

  1. 存在满足条件 $||W_{opt}||_2=1$ 的超平面 $S:W_{opt}X=\boldsymbol{\omega}_{opt}\cdot\mathbf{x}+\theta_{opt}=0$ 将训练集完全正确分开,且存在 $\gamma>0$,对所有的 $i=1,2,…,N$,有:
  1. 令 $R=\max\limits_{i}||X_i||_2$,则感知机学习算法原始形式在训练集上的误分类次数 $k$ 满足以下不等式:

该定理表明,分离超平面下样本点的函数间隔 $y_i(\boldsymbol{\omega}_{opt}\cdot\mathbf{x}_i+\theta_{opt})$ 存在下界,误分类次数 $k$ 存在上界,经过有限次搜索可以找到将训练集完全正确分开的分离超平面

也就是说,当训练集线性可分时,感知机学习算法原始形式是迭代收敛的

而当训练集线性不可分时,感知机学习算法原始形式是不迭代收敛的,迭代结果会发生震荡,为处理训练集线性不可分的情况,由此出现了多层感知机(Multi-Layer Perceptron)

【证明】

对于线性可分数据集,感知机学习算法的原始形式收敛,即:经过有限次迭代后,可以得到一个训练集完全正确划分的分离超平面及感知机模型

首先将阈值 $\theta$ 并入权重 $\boldsymbol{\omega}$ 中,记作:

同时,将输入向量 $\mathbf{x}$ 进行扩充,加入常数 $1$,记作:

由此,$W,X\in \mathbb{R}^{n+1}$,且有:

设训练集 $D=\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),…,(\mathbf{x}_N,y_N)\}$ 是线性可分的,那么根据数据集的线性可分性,存在超平面 $S$ 可将训练集完全正确分开,设该超平面为:

取 $||W_{opt}||_2=1$,对于有限的 $i=1,2,…,N$,均有:

令:

故有:

感知机学习算法一般从 $\boldsymbol{\omega}=0,\theta=0$ 开始迭代,当样本被误分类时,更新权重与阈值

取 $W_{k-1}$ 为第 $k$ 个误分类样本之前的扩充权重向量,即:

假设 $(\mathbf{x}_j,y_j)$ 是第 $k$ 个被误分类,即被 $W_{k-1}=(\boldsymbol{\omega}_{k-1}^T,\theta_{k-1})^T$ 误分类的样本,则其满足:

且权重 $\boldsymbol{\omega}$ 与阈值 $\theta$ 的更新为:

即:

考虑将训练集线性可分的超平面 $S:W_{opt}X=0$,有:

由于 $\min\limits_j\{y_jW_{opt}X_j\}=\min\limits_j \{y_j(\boldsymbol{\omega}_{opt}\mathbf{x}_j+\theta_{opt})\}=\gamma$,故有:

根据上式进行递推,有:

即:

进一步,考虑到:

对其两边同取 $l_2$ 范数的平方,有:

根据第 $k$ 个被误分类样本所满足的条件:

有:

故:

令 $R=\max\limits_{1\leq i\leq N}||X_i||_2$,则有:

结合递推不等式:

故有:

即:

根据 $W_kW_{opt}\geq k\alpha\gamma$,结合上式,有:

即:

故有:

感谢您对我的支持,让我继续努力分享有用的技术与知识点!