贝叶斯定理

貝氏定理（英語：Bayes' theorem）是机率論中的一個定理，描述在已知一些條件下，某事件的發生机率。比如，如果已知某人媽媽得癌症與壽命有關，使用貝氏定理則可以通過得知某人年齡，來更加準確地計算出他媽媽罹患癌症的机率。

通常，事件A在事件B已發生的條件下發生的机率，與事件B在事件A已發生的條件下發生的机率是不一樣的。然而，這兩者是有確定的關係的，貝氏定理就是這種關係的陳述。贝叶斯公式的一個用途，即透過已知的三個机率而推出第四個机率。貝氏定理跟隨機變量的條件机率以及边缘机率分佈有關。

作為一個普遍的原理，貝氏定理對於所有机率的解釋是有效的。這一定理的主要應用為貝氏推論，是推论統計學中的一種推论法。這一定理名稱來自於托馬斯·貝葉斯。

陳述

貝氏定理是關於隨機事件A和B的條件机率的一則定理。

$P(A\mid B) = \frac{P(A) P(B \mid A)}{P(B)}$

其中 $A$ 以及 $B$ 為隨機事件，且 $P(B)$ 不為零。 $P(A\mid B)$ 是指在事件 $B$ 發生的情況下事件 $A$ 發生的机率。

在貝氏定理中，每個名詞都有約定俗成的名稱：

$P(A\mid B)$ 是已知 $B$ 發生後， $A$ 的條件机率。也稱作 $A$ 的事後机率。
$P(A)$ 是 $A$ 的先驗概率（或边缘机率）。其不考慮任何 $B$ 方面的因素。
$P(B\mid A)$ 是已知 $A$ 發生後， $B$ 的條件机率。也可稱為 $B$ 的事後机率。某些文獻又稱其為在特定 $B$ 時， $A$ 的似然性，因為 $P(B \mid A)=L(A \mid B)$ 。
$P(B)$ 是 $B$ 的先驗概率。

按這些術語，貝氏定理可表述為：

後驗概率 = (似然性*先驗概率)/標準化常數

也就是說，後驗概率與先驗概率和相似度的乘積成正比。

另外，比例 $P(B|A)/P(B)$ 也有時被稱作標準似然度（standardised likelihood），貝氏定理可表述為：

後驗概率 = 標準似然度*先驗概率

由贝叶斯公式

P(\theta|X)=\frac{P(\theta)P(X|\theta)}{P(X)}\propto P(\theta)P(X|\theta)

可以看出，這裏面的

\theta

是一個隨機變量（因為

\theta

有机率

P(\theta)

）。因為

P(\theta|X)\propto P(\theta)P(X|\theta)

，所以這也是貝氏估計和極大似然估計的區別所在，極大似然估計中要估計的参数是個一般变量，而貝氏估計中要估計的参数是個隨機變量。

從條件机率推導贝叶斯定理

根據條件机率的定義。在事件B發生的條件下事件A發生的机率是^[1]：

P(A|B)=\frac{P(A \cap B)}{P(B)}

。

其中 A與B的聯合机率表示為 $P(A \cap B)$ 或者 $P(A, B)$ 或者 $P(AB)$ 。

同樣地，在事件A發生的條件下事件B發生的机率

P(B|A) = \frac{P(A \cap B)}{P(A)}. \!

整理與合併這兩個方程式，我們可以得到

P(A|B)\, P(B) = P(A \cap B) = P(B|A)\, P(A). \!

這個引理有時稱作机率乘法規則。上式兩邊同除以P(B)，若P(B)是非零的，我們可以得到貝氏定理:

P(A|B) = \frac{P(B|A)\,P(A)}{P(B)}. \!

二中擇一的形式

贝叶斯定理通常可以再寫成下面的形式：

P(B) = P(A \cap B) + P(A^C \cap B) = P(B|A) P(A) + P(B|A^C) P(A^C)

，

其中A^C是A的補集（即非A）。故上式亦可寫成：

P(A|B) = \frac{P(B | A)\, P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)} \!

在更一般化的情況，假設{A_i}是事件集合里的部份集合，對於任意的A_i，贝叶斯定理可用下式表示：

P(A_i|B) = \frac{P(B | A_i)\, P(A_i)}{\sum_j P(B|A_j)\,P(A_j)}  \!

以可能性與相似率表示贝叶斯定理

贝叶斯定理亦可由相似率Λ和可能性O表示：

O(A|B)=O(A) \cdot \Lambda (A|B)

其中

O(A|B)=\frac{P(A|B)}{P(A^C|B)} \!

定義為B發生時，A發生的可能性（odds）；

O(A)=\frac{P(A)}{P(A^C)} \!

則是A發生的可能性。相似率（Likelihood ratio）則定義為：

\Lambda (A|B) = \frac{L(A|B)}{L(A^C|B)} = \frac{P(B|A)}{P(B|A^C)} \!

贝叶斯定理與机率密度

贝叶斯定理亦可用於連續机率分佈。由於机率密度函數嚴格上並非机率，由机率密度函數導出贝叶斯定理觀念上較為困難（詳細推導參閱^[2]）。贝叶斯定理與机率密度的關係是由求極限的方式建立：

f(x|y) = \frac{f(x,y)}{f(y)} = \frac{f(y|x)\,f(x)}{f(y)} \!

全机率定理則有類似的論述：

{\displaystyle f(x|y) = \frac{f(y|x)\,f(x)}{\int_{-\infty}^{\infty} f(y|x)\,f(x)\,dx}. \!}

如同離散的情況，公式中的每項均有名稱。 f(x, y)是X和Y的聯合分佈； f（x|y）是給定Y=y後，X的事後分佈； f（y|x）= L（x|y）是Y=y後，X的相似度函數（為x的函數)； f（x）和f（y）則是X和Y的边缘分佈； f（x）則是X的先驗分布。為了方便起見，這裏的f在這些專有名詞中代表不同的函數（可以由引數的不同判斷之）。

贝叶斯定理的推廣

對於变量有二個以上的情況，贝叶斯定理亦成立。例如：

P(A|B,C) = \frac{P(A) \, P(B|A) \, P(C|A,B)}{P(B) \, P(C|B)} \!

這個式子可以由套用多次二個变量的贝叶斯定理及條件机率的定義導出：

P(A|B,C) = \frac{P(A,B,C)}{P(B,C)} = \frac{P(A,B,C)}{P(B) \, P(C|B)} =

= \frac{P(C|A,B) \, P(A,B)}{P(B) \, P(C|B)} = \frac{P(A) \, P(B|A) \, P(C|A,B)}{P(B) \, P(C|B)}

。

一般化的方法則是利用聯合机率去分解待求的條件机率，並對不加以探討的变量積分（意即對欲探討的变量計算边缘机率）。取決於不同的分解形式，可以證明某些積分必為1，因此分解形式可被簡化。利用這個性質，贝叶斯定理的計算量可能可以大幅下降。贝叶斯網路為此方法的一個例子，贝叶斯網路指定數個变量的聯合机率分佈的分解型式，該机率分佈滿足下述條件：當其他变量的條件机率給定時，該变量的條件机率為一簡單型式。

範例

吸毒者檢測

下面展示貝氏定理在檢測吸毒者時的應用。假設一個常規的檢測結果的靈敏度和特異度均為99%，即吸毒者每次檢測呈陽性（+）的机率為99%。而不吸毒者每次檢測呈陰性（-）的机率為99%。從檢測結果的机率來看，檢測結果是比較準確的，但是貝氏定理卻可以揭示一個潛在的問題。假設某公司對全體僱員進行吸毒檢測，已知0.5%的僱員吸毒。請問每位檢測結果呈陽性的僱員吸毒的机率有多高？

令「D」為僱員吸毒事件，「N」為僱員不吸毒事件，「+」為檢測呈陽性事件。可得

P(D)代表僱員吸毒的机率，不考慮其他情況，該值為0.005。因為公司的預先統計表明該公司的僱員中有0.5%的人吸食毒品，所以這個值就是D的先驗概率。
P(N)代表僱員不吸毒的机率，顯然，該值為0.995，也就是1-P(D)。
P(+|D)代表吸毒者被驗出為陽性的机率，這是一個條件机率，由於陽性檢測準確性是99%，因此該值為0.99。
P(+|N)代表不吸毒者被驗出為陽性的机率，也就是出錯檢測的机率，該值為0.01。因為對於不吸毒者，其檢測為陰性的机率為99%，因此，其被誤檢測成陽性的机率為1 - 0.99 = 0.01。
P(+)代表不考慮其他因素的影響的陽性檢出率，白話來說，即該公司有多少比例的檢測結果為陽性。該值為0.0149或者1.49%。我們可以通過全机率公式計算得到：此机率 = 身為吸毒者的机率 x 吸毒被驗出陽性的机率（0.5% x 99% = 0.495%) + 身為不吸毒者的机率 x 不吸毒卻被驗出陽性的机率（99.5% x 1% = 0.995%)。P(+)=0.0149是檢測呈陽性的先驗概率。用數學公式描述為：

P(+)=P(+\cap D)+P(+\cap N)=P(+|D)P(D)+P(+|N)P(N)

根據上述描述，我們可以計算某人檢測呈陽性時確實吸毒的條件机率P(D|+)：

{\displaystyle \begin{align}P(D|+) & = \frac{P(+ | D) P(D)}{P(+)} \\ & = \frac{P(+ | D) P(D)}{P(+ | D) P(D) + P(+ | N) P(N)} \\ & = \frac{0.99 \times 0.005}{0.99 \times 0.005 + 0.01 \times 0.995} \\ & = 0.3322.\end{align}}

儘管吸毒檢測的準確率高達99%，但貝氏定理告訴我們：如果某人檢測呈陽性，其吸毒的机率只有大約33%，不吸毒的可能性比較大。假陽性高，則檢測的結果不可靠。這是因為該公司不吸毒的人數遠遠大於吸毒人數，所以即使不吸毒者被誤檢為陽性的机率僅為1%，其實際被誤檢人數還是很龐大。舉例來說，若該公司總共有1000人（其中5人吸毒，995人不吸），不吸毒的人被檢測出陽性的人數有大約10人（1% x 995），而吸毒被驗出陽性的人數有5人（99% x 5），總共15人被驗出陽性（10 + 5）。在這15人裏面，只有約33%的人是真正有吸毒。所以贝叶斯定理可以揭露出此檢測在這個案例中的不可靠。

同時，也因為不可靠的主因是不吸毒卻被誤檢陽性的人數遠多於吸毒被檢測出來的人數（上述例子中10人 > 5 人），所以即使陽性檢測靈敏度能到100%（即只要吸毒一定驗出陽性），檢測結果陽性的員工，真正吸毒的机率 $P(D|+)$ 也只會提高到約33.4%。但如果靈敏度仍然是99%，而特異度卻提高到99.5%（即不吸毒的人中，約0.5%會被誤檢為陽性），則檢測結果陽性的員工，真正吸毒的机率可以提高到49.9%。

胰腺癌檢測

基於貝氏定理：即使100%的胰腺癌症患者都有某症狀，而某人有同樣的症狀，絕對不代表該人有100%的机率得胰腺癌，還需要考慮先驗概率，假設胰腺癌的發病率是十萬分之一，而全球有同樣症狀的人有萬分之一，則此人得胰腺癌的机率只有十分之一，90%的可能是是假陽性。

不良種子檢測

基於貝氏定理：假設100%的不良種子都表現A性狀，而種子表現A性狀，並不代表此種子100%是不良種子，還需要考慮先驗概率，假設一共有6萬顆不良種子，在種子中的比例是十萬分之一（假設總共有60億顆種子），假設所有種子中有1/3表現A性狀（即20億顆種子表現A性狀），則此種子為不良種子的机率只有十萬分之三。

參見

參考文獻

↑ Kenneth H. Rosen. Discrete Mathematics and its Applications 7th edition. 2012: 456. ISBN 978-0-07-338309-5 （英語）.
↑ Papoulis A.(1984). Probability, Random Variables, and Stochastic Processes, 2nd edition. Section 7.3. New York: McGraw-Hill.

外部連結

數學之美番外篇：平凡而又神奇的贝叶斯方法

[1] Kenneth H. Rosen. Discrete Mathematics and its Applications 7th edition. 2012: 456. ISBN 978-0-07-338309-5 （英語）.

[2] Papoulis A.(1984). Probability, Random Variables, and Stochastic Processes, 2nd edition. Section 7.3. New York: McGraw-Hill.

[1]

[2]