贝叶斯定理
贝叶斯推断与传统的频率学派不同,它是建立在主观判断的基础上的,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。由于其主观性太强,所以在一些传统行业内更偏向于传统的频率学派。
条件概率
同理可得:
全概率公式
若事件 B_1、 B_2、……构成一个完备事件组,且都有正概率,那么对于任意一个事件A,有如下公式:
贝叶斯公式
贝叶斯公式,其实原本应该叫逆概公式。通过对条件概率的简单变形,就可以得到贝叶斯公式:
后验概率 = 先验概率 * 似然估计。在上述公式中,
需要不断通过修正参数使得我们所求的概率无限接近于真实概率。
贝叶斯公式的实例
天气预测问题
- 根据若干年的统计(经验)或者气候(常识),某地方下雨的概率——
- 下雨(结果)的时候有乌云(原因/证据/观察的数据)的概率,即已经有了结果,对证据发生的可能性描述——
似然
- 根据天上有乌云(原因或者证据/观察数据),下雨(结果)的概率——
后验概率
先验概率
有下雨的可能(先验),下雨之前会有乌云(似然)→ 现在有乌云,可以推断是否下雨。
机器故障问题
产品好 | 产品坏 | |
---|---|---|
机器好 | 0.75 * 0.9 | 0.75 * 0.1 |
机器坏 | 0.25 * 0.3 | 0.25 * 0.7 |
假定事件A表示产品好,事件B表示机器好,之后看贝叶斯公式就可以了。
水果糖问题
假定H_1代表一号碗,H_2代表二号碗。因为两个碗完全相同,所以
先验概率,即在我们没有做实验之前,来自一号碗的概率是0.5。
后验概率,即在E事件发生以后,对P(H_1的修正。
已知
我们发现经过事件E之后,H_1事件的概率得到了提高。
假阳性问题
假设A事件表示得病,那么P(A = 0.001。这就是先验概率
,即没有做实验之前,我们预计的发病率。再假定B事件表示阳性,那么要计算就是 P(A|B 。这就是后验概率
,即做了实验之后,对发病率的估计。
用全概率公式计算得
0.1%到了2%
左右。所谓假阳性
,即阳性结果完全不足以说明病人得病。虽然这与我们的常规认识不同,但是这个结果主要是因为误报率过高导致的。
频率学派和贝叶斯学派的区别
频率学派,其特征是把需要推断的参数θ视作固定且位置的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。另一派叫做贝叶斯学派
,认为参数θ是随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布
。
-
频率学派和贝叶斯学派争论的焦点在于先验概率
。频率学派认为只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。但是贝叶斯学派认为先验分布可以是主观的,不需要有频率解释。 -
贝叶斯论善于利用过去的只是和抽样数据,而频率论仅仅利用抽样数据。因此,贝叶斯推论中前一次得到的后验概率分布可以作为后一次的先验概率
。但是贝叶斯的问题在于,无信息先验已经被证明是不存在的。所有的先验参数变换后都不可避免的带有主观性。而频率学派用最大似然估计(MLE)则没有这个问题。频率学派的困难在于如何利用前人已有的经验。
频率学派认为抽样是无限的。在无限次的抽样中,对于决策的规则可以很精确;而贝叶斯学派认为世界无时无刻不在改变,未知的的变量和事件都有一定的概率。这种概率会随时改变这个世界的状态(前面提到的后验概率是先验概率的修正)。
贝叶斯派因为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法(MCMC)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比贝叶斯方法更受到信任。
最后看一下先验分布是如何得到的。
为了方便计算,可以假设它属于一个分布,而它的的后验分布也是这个FAMILY里的。比如正态分布和BETA分布。
还有一种先验叫Non In Formative,假设我们对它一无所知。
更糟糕的是,科学实验往往探索的是以前没有探索过的新领域。很少有人去研究心电感应这种没什么希望的东西(也很少有人会资助这种研究)。在一个新领域,往往没有特别公认的先验概率,那么怎么办呢?这时候往往还是使用不提供任何信息的non-informative prior。
参考资料:
- 贝叶斯推断及其互联网应用(一):定理简介
- 怎样用非数学语言讲解贝叶斯定理(Bayes' theorem)
- 贝叶斯统计
- 频率学派和贝叶斯学派的不同