Alex_McAvoy

想要成为渔夫的猎手

最大熵模型的学习

Reference

【对偶函数的极大化】

对于最大熵模型的约束最优化问题,内部的极小化问题的求解得到了关于 $\boldsymbol{\omega}$ 的对偶函数

此时,只需对最大熵模型进行学习,即对对偶问题 $\max\limits_{\boldsymbol{\omega}}\:\min\limits_{p\in\mathcal{C}}\:L(p,\boldsymbol{\omega})$ 的外部极大化问题进行处理

将极大化问题的解记为 $\boldsymbol{\omega}^{*}$,有:

将 $p_{\boldsymbol{\omega}}(y|x)$ 代入到对偶函数 $\psi(\boldsymbol{\omega})$ 中,可得:

由于 $\sum\limits_{y\in Y} p(y|x)=1$,故有:

又因为:

则有:

化简得:

故极大化问题为:

【最大熵模型的极大似然估计】

假设样本集大小为 $n$,对于样本具体观测值 $x_1,x_2,…,x_n$,假设其取值有 $K$ 个,分别为 $v_1,v_2,…,v_K$,用 $C(X=v_i)$ 表示在观测值中样本 $v_i$ 出现的频数,那么似然函数可写为:

对上式两边同时开 $\frac{1}{n}$ 次方,可得:

由于经验概率 $\tilde{p}(x)=\frac{C(X=v_k)}{n}$,故有:

显然,对 $L(x_1,x_2,…,x_n;\theta)^{\frac{1}{n}}$ 求极大值与对 $L(x_1,x_2,…,x_n;\theta)$ 求极大值的优化结果是相同的,那么,最终的极大似然函数可表示为:

当已知训练数据的经验概率分布为 $\tilde{p}(X,Y)$ 时,有:

其中,对于第二项 $\sum\limits_{x\in X,y\in Y} \tilde{p}(x,y)\log \tilde{p}(x)$,一旦样本集确定,经验分布 $\tilde{p}(x,y)$ 与 $\tilde{p}(x)$ 可直接算出,故该项为一常数,忽略即可,故而最终的对数似然函数为:


当条件概率分布 $p(y|x)$ 为最大熵模型 $p_{\boldsymbol{\omega}}(y|x) = \frac{1}{Z_{\boldsymbol\omega}(x)} \exp\Big[\sum_{j=1}^m\omega^{(j)}f_j(x,y)\Big]$ 时,对数似然函数为:

可以发现,对数似然函数 $L_{\tilde{p}}(p_{\boldsymbol{\omega}}) $ 与对偶函数 $\psi(\boldsymbol{\omega}) $ 相等,即:

接着,考虑对偶函数 $\psi(\boldsymbol{\omega})$,有:

可以发现,最大熵模型 $p_{\boldsymbol{\omega}}(y|x)$ 的对数似然函数与对偶函数 $\psi(\boldsymbol{\omega})$ 等价,即:

因此,最大熵模型学习中的对偶函数 $\psi(\boldsymbol{\omega})$ 极大化等价于最大熵模型的极大似然估计,这样对最大熵模型的学习问题就转化成了具体求解对数似然函数极大化或求解对偶函数极大化的问题,即:

感谢您对我的支持,让我继续努力分享有用的技术与知识点!