【概述】
狄利克雷分布(Dirichlet Distribution)是一种多元连续随机变量的概率分布,属于贝塔分布的扩展,在贝叶斯统计中,狄利克雷分布常作为多项分布的先验分布使用
在常见概率分布中,曾简单介绍过贝塔分布和多项分布,为便于符号统一,本文将先对多项分布进行重新叙述,再叙述狄利克雷分布
【多项分布】
多项分布(Multinomial Distribution)是一种多元离散随机变量的概率分布,是二项分布(Binomial Distribution)的扩展
假设重复 $n$ 次独立随机试验,每次试验可能出现的结果有 $k$ 种,第 $i$ 种结果出现的概率为 $p_i$,第 $i$ 种结果出现的次数为 $n_i$,如果用随机变量 $X=(X_1,X_2,\cdots,X_k)$ 表示试验所有可能结果的次数,$X_i$ 表示第 $i$ 种结果出现的次数,那么随机变量 $X$ 服从多项分布
若多元随机变量 $X=(X_1,X_2,\cdots,X_k)$ 的概率质量函数为:
其中,$p=(p_1,p_2,\cdots,p_k),p_i\geq 0,i=1,2,\cdots,k,\sum\limits_{i=1}^k p_i=1,\sum\limits_{i=1}^k n_i=n$,则称随机变量 $X$ 服从参数为 $(n,p)$ 的多项分布,记作:
当试验次数 $n=1$ 时,多项分布变为类别分布(Categorical Distribution),表示试验可能出现的 $k$ 种结果的概率
【狄利克雷分布】
若多元连续随机变量 $\theta=(\theta_1,\theta_2,\cdots,\theta_k)$ 的概率密度函数为:
其中,$\Gamma(s)$ 是伽马函数,$\sum\limits_{i=1}^k \theta_i =1,\theta_i\geq 0,\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_k),\alpha_i\geq 0,i=1,2,\cdots,k$,则称随机变量 $\theta$ 服从参数为 $\alpha$ 的狄利克雷分布,记作:
令:
为规范化因子,称为多元贝塔函数,则狄利克雷分布的概率密度函数可写为:
根据概率密度函数的性质:
可得多元贝塔函数的积分表示:
【共轭先验】
狄利克雷分布具有两条重要性质:
- 狄利克雷分布属于指数分布族
- 狄利克雷分布是多项分布的共轭先验
设 $\mathcal{W}=\{w_1,w_2,\cdots,w_k\}$ 是由 $k$ 个元素组成的集合,随机变量 $X$ 服从 $\mathcal{W}$ 上的多项分布,$X\sim \text{Mult}(n,\theta)$,其中 $n=(n_1,n_2,\cdots,n_k)$ 和 $\theta=(\theta_1,\theta_2,\cdots,\theta_k)$ 是参数,$n$ 为从 $\mathcal{W}$ 中重复独立抽取样本的次数,$n_i$ 为样本中 $w_i$ 出现的次数,参数 $\theta_i$ 为 $w_i$ 出现的概率
将样本数据表示为 $D$,目标是计算在样本数据 $D$ 给定条件下参数 $\theta$ 的后验概率 $p(\theta|D)$,则似然函数为:
假设随机变量 $\theta$ 服从狄利克雷分布 $p(\theta|\alpha)$,$\alpha$ 为参数,则 $\theta$ 的先验分布为:
根据贝叶斯规则,在给定样本数据 $D$ 和参数 $\alpha$ 的条件下,$\theta$ 的后验概率分布为:
可以看出,先验分布 $p(\theta|\alpha) =\text{Dir}(\theta|\alpha)$ 和后验分布 $p(\theta|D,\alpha) = \text{Dir}(\theta|\alpha+n)$ 都是狄利克雷分布,两者有不同的参数,因此狄利克雷分布是多项分布的共轭先验
狄利克雷后验分布的参数,等于狄利克雷先验分布参数 $\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_k)$ 加上多项分布的观测计数 $n=(n_1,n_2,\cdots,n_k)$,而参数 $\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_k)$ 好像试验之前就已经观察到计数,因此也称 $\alpha$ 为先验伪计数(Prior Pseudo-counts)