References:
【概述】
贝叶斯统计的核心思想在于给定模型参数 $\theta$ 的一个先验分布 $p(\theta)$,这个分布某种程度上能够描绘对 $\theta$ 的经验判断,然后使用样本数据去不断更新这个分布,并在这个分布中研究模型参数 $\theta$ 的各种性质
而在先验分布中,共轭先验分布是一种能够极大提升计算便利程度的先验分布,当用样本数据更新共轭先验分布时,能够得到同样分布族的后验分布
例如,在使用先验分布为共轭先验分布 $Be(1,1)$ 时,使用样本数据 $x=1$ 能够得到同样为贝塔分布的后验分布 $Be(2,1)$
在贝叶斯统计中,经常会用后验分布分析参数的性质,此外后验分布其一大重要用途是统计预测,即利用现有数据对未来数据预测
【后验预测分布】
后验预测分布(Posterior Predictive Distribution)与后验分布是两个截然不同的分布:
- 后验分布 $p(\theta|X)$:用已有数据对参数 $\theta$ 的先验分布 $p(\theta)$ 进行更新得到的分布
- 后验预测分布 $p(x_{\text{new}}|X)$:在给定已知样本数据下,预测新数据所使用的分布
简单的来说,后验预测分布是关于数据而非参数的分布,即结合先验分布 $p(\theta)$ 与已知数据 $X$ 得到的一个模型
在使用机器学习方法进行预测的过程之中,会使用训练集拟合一个模型,然后利用模型去预测测试集中的数据,这就是后验预测分布一大经典应用
后验分布与后验预测分布两者的含义虽然不同,但它们之间存在紧密的联系,通过全概率公式,有:
对于上式,若假设训练集的数据与测试集的数据在给定参数 $\theta$ 下独立,那么有:
此时,即成功将后验预测分布的形式转换为了似然函数与后验分布乘积的积分
也就是说,后验预测分布是通过后验分布得到的
【先验预测分布】
当仔细审视上述的推导过程时可以发现,使用 $\theta$ 的前验分布来推导关于 $x$ 的预测分布函数时实际上也能够得到一个预测分布,通常称这个预测分布为先验预测分布(Prior Predictive Distribution)
事实上,在贝叶斯统计中并不一定需要严格区分前验分布与后验分布,这是因为在对参数 $\theta$ 的分布进行多次更新的过程中,这一轮更新的后验分布总会成为下一轮更新的先验分布
因此,先验分布与后验分布总是相对来说的
【实例】
下面以一个关于伯努利分布的例子来展现后验预测分布是如何工作的
假设已知:
- 抛掷硬币正面朝上的结果服从 $X\sim B(1,\theta)$
- 拥有一个抛掷结果为正面朝上的数据记录 $x=1$
- $\theta$ 的共轭先验分布 $p(\theta)=Be(1,1)$
根据这些已知的信息,可以得到了参数 $\theta$ 的后验分布 $\theta\sim Be(2,1)$,下面,用这个后验分布计算关于数据 $x$ 的后验预测分布:
可以发现,这个式子积分内的项可看作 $Be(x+2,2-x)$ 分布中的分子,因此可以通过将积分内的项放缩为贝塔分布来消除积分,最后得到 $p(x_{\text{new}}=?|X)$ 的一个确切的值
例如,当 $x=1$ 时,有:
那么有:
这便是利用先验分布 $Be(1,1)$ 与唯一样本数据 $x=1$ 得到的后验预测结论,即预测接下来的硬币有 $\frac{2}{3}$ 的概率正面朝上,有 $\frac{1}{3}$ 的概率反面朝上