贝叶斯推断

贝叶斯推断（英语：Bayesian inference）是推断统计的一种方法。这种方法使用贝叶斯定理，在有更多证据及信息时，更新特定假设的概率。贝叶斯推断是统计学（特别是数理统计学）中很重要的技巧之一。贝叶斯更新（Bayesian updating）在序列分析中格外的重要。贝叶斯推断应用在许多的领域中，包括科学、工程学、哲学、医学、体育运动、法律等。在决策论的哲学中，贝叶斯推断和主观概率有密切关系，常常称为贝叶斯概率。

贝叶斯定理是由统计学家托马斯·贝叶斯（Thomas Bayes）根据许多特例推导而成，后来被许多研究者推广为一普遍的定理^[1]

贝叶斯定理的简介

正式的介绍贝叶斯推断

贝叶斯推断将后验概率（考虑相关证据或数据后，某一事件的条件概率）作为先验概率（考虑相关证据或数据前，某一事件不确定性的概率）和似然函数（由观测数据的统计模型（概率模型）推导而得）这两个前因导出的结果。贝叶斯推断根据贝叶斯定理计算后验概率：

P(H\mid E) = \frac{P(E\mid H) \cdot P(H)}{P(E)}

其中

$\textstyle \mid$ 表示将某事件成立作为条件（因此 $\textstyle (A\mid B)$ 表示“假定 B 事件成立下，A 事件发生”）
$\textstyle H$ 表示假说，其概率可能会受实验数据（以下会称为证据）影响。一般来说会有许多互相矛盾的假说，任务是要确认哪一个假说可能性最高。
$\textstyle E$ 表示证据。证据对应新的数据，也就是还没用来计算先验概率的数据。
$\textstyle P(H)$ ，先验概率，是观察到数据 $\textstyle E$ （目前证据）之前，假说 $\textstyle H$ 的概率。
$\textstyle P(H\mid E)$ ，后验概率，是在给定证据 $\textstyle E$ 之后，假说 $\textstyle H$ 的概率，是希望求得的资讯，也就是在有目前证据时，假说 $\textstyle H$ 的概率。
$\textstyle P(E\mid H)$ 是假定 $\textstyle H$ 成立时，观察到 $\textstyle E$ 的概率。在 $\textstyle H$ 不变时，这是 $\textstyle E$ 的函数，也是似然函数，指出在给定假设下假说和证据的相容程度。似然函数是证据 $\textstyle E$ 的函数，而后验概率是假说 $\textstyle H$ 的函数。
$\textstyle P(E)$ 有时会称为边缘似然率。此系数对所有可能的假说都是定值，因此在判断不同假说的相对概率时，不会用到这个系数中。

针对不同的 $\textstyle H$ 数值，只有 $\textstyle P(H)$ 和 $\textstyle P(E\mid H)$ （都在分子）会影响 $\textstyle P(H\mid E)$ 的数值。假说的后验概率和其先验概率（固有似然率）和新产生的似然率（假说和新得到证据的相容性）乘积成正比。

贝叶斯定理也可以写成下式：

P(H\mid E) = \frac{P(E\mid H)}{P(E)} \cdot P(H)

其中系数 $\textstyle \frac{P(E\mid H)}{P(E)}$ 可以解释成 $E$ 对 $H$ 概率的影响。

非正式的介绍贝叶斯推断

贝叶斯推断最关键的点是可以利用贝斯定理结合新的证据及以前的先验概率，来得到新的概率（这和频率学派推断相反，频率论推断只考虑证据，不考虑先验概率）。

而且贝叶斯推断可以迭代使用：在观察一些证据后得到的后设概率可以当作新的先验概率，再根据新的证据得到新的后设概率。因此贝斯定理可以应用在许多不同的证据上，不论这些证据是一起出现或是不同时出现都可以，这个程序称为贝斯更新（Bayesian updating）。

贝叶斯推断的描述

定义

$x$ 是数据点，可能是一个有许多数值形成的向量。
$\theta$ 是数据点分布的参数，也就是说 $x \sim p(x \mid \theta)$ 。这也有可能是参数形成的向量。
$\alpha$ 是参数的超参数，也就是说 $\theta \sim p(\theta \mid \alpha)$ 。这也有可能是超参数形成的向量。
$\mathbf{X}$ ，由观测到的 $n$ 个数据点组成的一组数据， $x_1,\ldots,x_n$ .
$\tilde{x}$ ，需预测分布的新数据点。

贝叶斯推断

先验分布是在观测资料前的参数分布 $p(\theta \mid \alpha)$ 。
先验分布可能不容易确认，此时可以用杰佛里斯事前分配在更新较新的观测值时，先获得后验分布。
取样分布是以观测资料的条件，其参数的分布 $p(\mathbf{X} \mid \theta)$ 。这也称为似然函数，尤其是视为是参数的函数时，有时会写成 $\operatorname{L}(\theta \mid \mathbf{X}) = p(\mathbf{X} \mid \theta)$ 。
边缘似然率（有时也称为证据）是观测资料在参数上的边缘分布 $p(\mathbf{X} \mid \alpha) = \int_{\theta} p(\mathbf{X} \mid \theta) p(\theta \mid \alpha) \operatorname{d}\!\theta$ 。
后验分布是考虑观测资料后的参数分布。可以由贝斯法则确认，也是贝叶斯推断的核心：

p(\theta \mid \mathbf{X},\alpha) = \frac{p(\mathbf{X} \mid \theta) p(\theta \mid \alpha)}{p(\mathbf{X} \mid \alpha)} \propto p(\mathbf{X} \mid \theta) p(\theta \mid \alpha)

若用文字表示，即为“后验和先验及似然率的乘积成正比”，有时也会写成“后验 = 先验 × 似然率，在有证据的情形下”。

应用

电脑应用

贝叶斯推断有在人工智能及专家系统上应用。自1950年代后期开始，贝叶斯推断技巧就是电脑模式识别技术中的基础。现在也越来越多将贝叶斯推断和以模拟为基础的蒙特卡洛方法合并使用的应用，因为一些模杂的模型无法用贝叶斯分析得到解析解，因图模式结构可以配合一些快速的模拟方式（例如吉布斯抽样或是其他Metropolis–Hastings算法）^[2]。因为上述理由，贝叶斯推断在系统发生学研究社群中来越受到重视，许多的应用可以用同时估测许多人口和进化参数。

历史

“贝叶斯”是指托马斯·贝叶斯（1702–1761），他证明了一个特例（现在知道是贝叶斯定理的特例），不过皮埃尔-西蒙·拉普拉斯（1749–1827）推导了此定理的一般版本，应用在天体力学、医疗统计学、可靠度及法学上^[3]。早期的贝叶斯推断是用拉普拉斯不充分理由原则所得的均匀先验，称为逆向概率（因为是由观测值倒推参数的归纳推理，或是从结果倒推到原因^[4]）。在1920年代以后，逆向概率很大程度的被另一群称为频率论统计的方式取代^[4]。

二十世纪时，拉普拉斯的概念往下分支为二派，开始出现主观贝叶斯方法及客观贝叶斯方法。客观贝叶斯方法（或是不提供信息的贝叶斯方法）中，统计分析只依照假设的模型、分析的资料^[5]以及给定先验分布的方式（不同的客观贝叶斯方法会有不同给定先验分布的方式）。主观贝叶斯方法（或是提供信息的贝叶斯方法）中，先验的规格依信念（也是分析希望要呈现的主张）而定，信念可以由专家整理资讯后总结产生，也可以根据以往的研究等。

1980年代发现了马尔科夫蒙特卡洛方法，让贝叶斯方法的研究及应用有大幅的发展，除去了许多运算上的问题，也有越来越多人愿意参与非标准的复杂问题^[6]。不过虽然贝叶斯方法的研究仍在成长，大部分大学本科的教学仍是以频率论统计为基础 ^[7]。不过贝叶斯方法也广为许多领域接受及应用，例如在机器学习的领域中^[8]。

参考资料

↑ Douglas Hubbard "How to Measure Anything: Finding the Value of Intangibles in Business" pg. 46, John Wiley & Sons, 2007
↑ Jim Albert. Bayesian Computation with R, Second edition. New York, Dordrecht, etc.: Springer. 2009. ISBN 978-0-387-92297-3.
↑ Stigler, Stephen M. Chapter 3. The History of Statistics. Harvard University Press. 1986.
↑ ^4.0 ^4.1 Fienberg, Stephen E. When did Bayesian Inference Become ‘Bayesian’? (PDF). Bayesian Analysis. 2006, 1 (1): 1–40 [p. 5] [2017-02-02]. doi:10.1214/06-ba101.
↑ Bernardo, José-Miguel. Reference analysis. Handbook of statistics 25. 2005: 17–90.
↑ Wolpert, R. L. A Conversation with James O. Berger. Statistical Science. 2004, 19 (1): 205–218. MR 2082155. doi:10.1214/088342304000000053.
↑ Bernardo, José M. A Bayesian mathematical statistics primer (PDF). ICOTS-7. 2006 [2017-02-02].
↑ Bishop, C. M. Pattern Recognition and Machine Learning. New York: Springer. 2007. ISBN 0387310738.

贝叶斯推断

目录

贝叶斯定理的简介

正式的介绍贝叶斯推断

非正式的介绍贝叶斯推断

贝叶斯推断的描述

定义

贝叶斯推断

应用

电脑应用

历史

参考资料

相关条目