Alex_McAvoy

想要成为渔夫的猎手

贝叶斯统计

References:

【概述】

统计学领域中有两大学派,古典统计学(Classical)贝叶斯统计学(Bayesian),古典统计学又称频率论(Frequentist),贝叶斯统计学以英国数学家托马斯•贝叶斯命名

关于这两大学派孰优孰劣已有一个世纪的争论,它们的本质区别在于对待未知模型或者参的方法是不同的:

  • 古典统计学:未知的模型或者参数是确定的,只不过不知道它确切的形式或者取值。
  • 贝叶斯统计学:未知的模型或者参数变量是不确定的,但是这种不确定性可以由一个概率分布来描述

【古典统计学】

古典统计学通过进行大量重复实验并统计某个特定结果出现的频率作为对未知参数的估计,其核心在于通过大量的实验来消除模型或参数估计中的不确定性

以猜桶中白球的比例为例,古典统计学会进行大量的带放回的独立抽取实验,然后计算所有结果中白球出现的频率,以此作为对小球中白球比例的推断

【贝叶斯统计学】

贝叶斯统计学则是使用概率方法来解决统计学问题,这里的概率可以被解释为:对未知变量不同取值的置信程度的测度(Measure of Confidence)

其首先会根据主观判断或者过去的经验,对这个概率分布有一个猜测,称为先验分布(Prior Distribution)

然后根据越来越多的观测值(New Evidence)来修正对该概率分布的猜测,最后得到的概率分布称为后验分布(Posterior Distribution)

贝叶斯统计不消除未知变量的不确定性,而是通过越来越多的新的观测点来持续更新对于该未知变量不确定性的认知,提高对不确定性的判断的置信度

同样以猜桶中白球的比例为例,假设在观测值出现之前,猜测桶中有 $50\%$ 的白球和 $50\%$ 的黑球,这 $50\%$ 就是对白球比例的先验信念(Prior Belief),随着不断进行抽取实验,会根据得到的观测值更新这个信念

假设 $10$ 次抽取后得到 $4$ 个白球和 $6$ 个黑球,那么此时对白球比例的信念就会从最初的 $50\%$ 减少一些,这是因为结合新的证据(观测的 $10$ 个球中仅有 $40\%$ 是白球)更新了猜测,假设 $100$ 次抽取后得到了 $35$ 个白球和 $65$ 个黑球,那么此时对白球比例的信念又会继续更新

随着越来越多的观测值,会持续更新猜测,并且对该猜测的置信度也会越来越高,即未知变量(在这里是白球比例)后验分布的标准差会越来越小

可以发现,对于未知变量的先验分布是非常主观的,这也是贝叶斯统计学派被古典统计学派诟病的核心问题

不过,尽管不同人可以有不同的先验分布,但是随着他们结合新的观测点来更新自己的信念,可以会发现他们最终得到的后验分布是会逐渐收敛的

【贝叶斯推断】

贝叶斯统计的核心是通过新的观测数据来不断的更新对未知量的认知,而通过新证据或者数据来更新认知的过程就是贝叶斯推断(Bayesian Inference),其是使用贝叶斯定理 $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$ 来推理数据的概率分布的性质的过程

假设存在一个需要估计的未知量 $\theta$,并且针对该变量有一个先验分布 $P(\theta)$,令 $D$ 为一系列观测值或者证据,现在希望通过 $D$ 来修正对 $\theta$ 的分布的认知,即 $P(\theta|D)$

根据贝叶斯定理,有:

在贝叶斯推断的框架下,上述公式中的这些概率量都有约定俗成的名字:

  • $P(\theta)$:$\theta$ 的先验分布(Prior),其表示在没有任何观测值序列 $D$ 时,对于 $\theta$ 的不确定性的认知
  • $P(\theta|D)$:$\theta$ 的后验分布(Posterior),其表示在考虑了观测值序列 $D$ 后,对于 $\theta$ 的不确定性的改进的认知
  • $P(D|\theta)$:似然度(Likelihood),其是当未知变量服从 $\theta$ 的前提下,观察到序列 $D$ 的条件概率
  • $P(D)$:观测值或证据(Evidence),其是在考虑所有可能的 $\theta$ 的分布下,所能观测到序列 $D$ 的非条件概率

可见,通过使用贝叶斯推断,可以合理的将先验认知和实际证据结合在一起,得到一个更新的后验认知

此外,贝叶斯推断的强大之处在于:可以迭代的看问题,即在每次有新观测数据后可以得到一个新的后验分布,然后把它作为下个新数据出现前的(新的)先验分布

换句话说,在这个过程中我们通过反复迭代使用贝叶斯定理,持续更新对未知量的分布的认知

感谢您对我的支持,让我继续努力分享有用的技术与知识点!