【最大熵原理】
在 信息熵与互信息 中对信息熵进行了介绍,而最大熵原理,就是认为:在所有可能的概率分布中,熵最大的模型是最好的模型
对于来自参数空间 $\mathcal{X}$ 的离散随机变量 $X$,其概率分布为:
对于给定的容量为 $n$ 的训练集 $D=\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),…,(\mathbf{x_n},y_n)\}$,第 $i$ 组样本中的输入 $\mathbf{x_i}$ 具有 $m$ 个特征值,即:$\mathbf{x_i}=(x_i^{(1)},x_i^{(2)},…,x_i^{(m)})\in \mathbb{R}^m$,输出为 $y_i$,多元线性回归学习到的模型为 $f(\mathbf{x_i};\boldsymbol{\theta})$,使得 $f(x_i;\boldsymbol{\theta})\simeq y_i$
假设函数 $f(\mathbf{x_i};\boldsymbol{\theta})$ 形式如下: