Alex_McAvoy

想要成为渔夫的猎手

生成式半监督方法

【概述】

生成式半监督方法(Generative semi-supervised methods)是直接基于生成式模型的方法,该类方法假设所有数据都是由同一个潜在的模型生成的

这个假设能够通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作模型的缺失参数,通常可基于 EM 算法进行极大似然估计求解

不同的生成式方法的区别主要在于生成式模型的假设,即不同的模型假设将产生不同的方法,下面展示了基于高斯混合模型的生成式方法,将下述过程中的高斯混合模型换为混合专家模型、朴素贝叶斯模型等模型,即可推导出其他的生成式半监督方法

生成式半监督方法简单,易于实现,在有标记数据极少的情况下往往比其他方法性能更好,但该类方法有一个关键:模型假设必须准确,即假设的生成式模型必须与真实数据分布吻合,否则利用未标记数据反而会降低模型的泛化性能

遗憾的是,在现实任务中,往往很难事先做出准确的模型假设,除非拥有充分可靠的领域知识

【基于高斯混合模型的生成式方法】

模型

对于给定样本 $\mathbf{x}$,其真实类别标记为 $y\in \mathcal{Y}=\{1,2,\cdots,N\}$ 为所有可能的类别

假设样本由高斯混合模型生成,且每个类别对应于一个高斯混合成分,即数据样本是基于如下概率密度生成的:

其中,混合系数 $\alpha_i\geq 0$,满足 $\sum\limits_{i=1}^N \alpha_i=1$;$p(\mathbf{x}|\boldsymbol{\mu}_i,\boldsymbol{\sigma}_i)$ 是样本 $\mathbf{x}$ 属于第 $i$ 个高斯混合成分的概率;$\boldsymbol{\mu}_i$ 与 $\boldsymbol{\sigma}_i$ 是该高斯混合成分的参数

令 $f(\mathbf{x})\in \mathcal{Y}$ 表示模型 $f$ 对 $\mathbf{x}$ 的预测标记,$\Theta\in \{1,2,\cdots,N\}$ 表示样本 $\mathbf{x}$ 隶属的高斯混合成分,由最大化后验概率可知:

其中,$p(y=j|\Theta=i,\mathbf{x})$ 是由样本 $\mathbf{x}$ 由第 $i$ 个高斯混合成分生成且其类别为 $j$ 的概率,样本 $\mathbf{x}$ 由第 $i$ 个高斯成分生成的后验概率为:

由于假设每个类别对应一个高斯混合成分,因此 $p(y=j|\Theta=i,\mathbf{x})$ 仅与样本 $\mathbf{x}$ 所属的高斯混合成分 $\Theta$ 有关,可用 $p(y=j|\Theta=i)$ 来代替

为不失一般性,假设第 $i$ 个类别对应于第 $i$ 个高斯混合成分,即当且仅当 $i=j$ 时,有 $p(y=j|\Theta=i)=1$,否则为 $0$

不难发现,对于 $f(\mathbf{x})$,要估计 $p(y=j|\Theta=i,\mathbf{x})$ 的话,需要知道样本的标记,此时仅能使用有标记的数据;而 $p(\Theta=i|\mathbf{x})$ 不涉及样本的标记,因此有标记数据和未标记数据均可使用,即通过引入大量的未标记数据,有望由于数据量的增长使得估计更加准确,进而对 $f(\mathbf{x})$ 的估计更加准确

参数估计

给定有标记样本集 $D_l=\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),\cdots,(\mathbf{x}_l,y_l)\}$ 和未标记样本集 $D_u=\{\mathbf{x}_{l+1},\mathbf{x}_{l+2},\cdots,\mathbf{x}_{l+u}\}$,其中 $l$ 和 $u$ 满足 $l\ll u,l+u=n$

假设所有样本独立同分布,且均由同一个高斯混合模型生成的,那么可以用极大似然法来估计高斯混合模型的参数 $\{(\alpha_i,\boldsymbol{\mu}_i,\boldsymbol{\sigma}_i)|1\leq i\leq N\}$

对于 $D_l$ 与 $D_u$,$D_l\cup D_u$ 的对数似然为:

显然,上式由基于有标记数据 $D_l$ 的有监督项和基于无标记数据 $D_u$ 的无监督项组成,参数估计可以使用 EM 算法来求解

感谢您对我的支持,让我继续努力分享有用的技术与知识点!