置信區間

在統計學中，一個概率樣本的置信區間（英語：Confidence interval，CI），是對產生這個樣本的總體的參數分佈（Parametric Distribution）中的某一個未知參數值，以區間形式給出的估計。相對於點估計（Point Estimation）用一個樣本統計量來估計參數值，置信區間還蘊含了估計的精確度的訊息。在現代機器學習中越來越常用的信賴集合（Confidence Set）概念是置信區間在多維分析的推廣^[1]。

置信區間在頻率學派中間使用，其在貝氏統計中的對應概念是可信區間（Credible Interval）。兩者建立在不同的概念基礎上的，貝氏統計將分佈的位置參數視為隨機變量，並對給定觀測到的數據之後未知參數的後驗分布進行描述，故無論對隨機樣本還是已觀測數據，構造出來的可信區間，其可信水準都是一個合法的概率^[2]；而置信區間的置信水平，只在考慮隨機樣本時可以被理解為一個概率。

定義

對隨機樣本的定義

定義置信區間最清晰的方式是從一個隨機樣本出發。考慮一個一維隨機變量 ${\cal X}$ 服從分佈 ${\cal F}$ ，又假設 $\theta$ 是 ${\cal F}$ 的參數之一。假設我們的數據採集計劃將要獨立地抽樣 $n$ 次，得到一個隨機樣本 $\{X_1,\ldots,X_n\}$ ，注意這裏所有的 $X_i$ 都是隨機的，我們是在討論一個尚未被觀測的數據集。如果存在統計量(統計量定義為樣本 $X=\{X_1,\ldots,X_n\}$ 的一個函數，且不得依賴於任何未知參數) $u(X_1,\ldots,X_n),v(X_1,\ldots,X_n)$ 滿足 $u(X_1,\ldots,X_n)<v(X_1,\ldots,X_n)$ 使得：

\mathbb{P}\left(\theta\in\left(u(X_1,\ldots,X_n),v(X_1,\ldots,X_n)\right)\right)=1-\alpha

則稱 $\left(u(X_1,\ldots,X_n),v(X_1,\ldots,X_n)\right)$ 為一個用於估計參數 $\theta$ 的 $1-\alpha$ 置信區間，其中的， $\alpha$ 稱為置信水平。

對觀測到的數據的定義

接續隨機樣本版本的定義，現在，對於隨機變量 ${\cal X}$ 的一個已經觀測到的樣本 $\{x_1,\ldots,x_n\}$ ，注意這裏用小寫x表記的 $x_i$ 都是已經觀測到的數字，沒有隨機性了，定義基於數據的 $1-\alpha$ 置信區間為：

\left(u(x_1,\ldots,x_n),v(x_1,\ldots,x_n)\right)

注意，置信區間可以是單邊或者雙邊的，單邊的置信區間中設定 $u=-\infty$ 或者 $v=+\infty$ ，具體前者還是後者取決於所構造的置信區間的方向。

初學者常犯一個概念性錯誤，是將基於觀測到的數據所同樣構造的置信區間的置信水平，誤認為是它包含真實未知參數的真實值的概率。正確的理解是：置信水平只有在描述這個同樣構造置信區間的過程(或稱方法)的意義下才能被視為一個概率。一個基於已經觀測到的數據所構造出來的置信區間，其兩個端點已經不再具有隨機性，因此，類似的構造的間隔將會包含真正的值的比例在所有值中，其包含未知參數的真實值的概率是0或者1，但我們不能知道是前者還是後者^[3]。

例子

例1：正態分佈，已知總體方差 $\sigma^2$

$1-\alpha$ 水準的正態置信區間為：

\left( \bar{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right)

(雙邊)

\left( -\infty, \bar{x}+z_{\alpha}\frac{\sigma}{\sqrt{n}} \right)

(單邊)

\left( \bar{x}-z_{\alpha}\frac{\sigma}{\sqrt{n}}, +\infty \right)

(單邊)

以下為方便起見，只列出雙邊置信區間的例子，且區間中用" $\pm$ "進行簡記：

例2：正態分佈，未知總體方差 $\sigma^2$

$1-\alpha$ 水準的雙邊正態置信區間為：

\left( \bar{x}\pm t_{n-1;\alpha/2}\frac{s}{\sqrt{n}} \right)

例3：兩個獨立正態樣本

設有兩個獨立正態樣本 $x$ 和 $y$ ，樣本大小為 $m$ 和 $n$ ，估計總體均值之差 $\mu_1-\mu_2$ ，假設總體方差未知但相等： $\sigma_1=\sigma_2$ (如果未知且不等就要應用Welch公式來確定t分佈的自由度) $1-\alpha$ 水準的雙邊正態置信區間為：

\left( \bar{x}-\bar{y}\pm t_{m+n-2;\alpha/2}\cdot s_p\cdot \sqrt{\frac1m+\frac1n} \right)

，其中

s_p=\sqrt{\frac{(m-1)s_x^2+(n-1)s_y^2}{m+n-2}}

且

s_x,s_y

分別表示

x

和

y

的樣本標準差。

構造法

一般來說，置信區間的構造需要先找到一個樞軸變量（Pivotal quantity，或稱Pivot），其表達式依賴於樣本以及待估計的未知參數(但不能依賴於總體的其它未知參數)，其分佈不依賴於任何未知參數。

下面以上述例2為例，說明如何利用樞軸變量構造置信區間。對於一個正態分佈的隨機樣本 ${X_1,\ldots,X_n}$ ，可以證明(此證明對初學者並不容易)如下統計量互相獨立：

\bar{X}=\frac1n \sum_{i=1}^n X_i

和

S^2=\frac{\sum_{i=1}^n\left(X_i-\bar{X}\right)^2}{n-1}

它們的分佈是：

\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)

和

(n-1)\frac{S^2}{\sigma^2} \sim \chi^2_{n-1}

所以根據t分佈的定義，有

t = \frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}

於是反解如下等式左邊括號中的不等式

\mathbb{P}\left( -t_{n-1;\alpha/2}<t=\frac{\bar{X}-\mu}{S\sqrt{n}}<t_{n-1;\alpha/2} \right)=1-\alpha

就得到了例2中雙邊置信區間的表達式。

與參數檢驗的聯繫

有時，置信區間可以用來進行參數檢驗。例如在上面的例1中構造的雙邊 $1-\alpha$ 水準置信區間，可以用來檢驗具有相應的顯著水平為 $\alpha$ 的雙邊對立假設，具體地說是如下檢驗：正態分佈總體，知道總體方差 $\sigma^2$ ，在 $\alpha$ 顯著水平下檢驗：

H_0: \mu=\mu_0

vs

H_1: \mu \neq\mu_0

檢驗方法是：當（且僅當）相應的 $1-\alpha$ 水準置信區間不包含 $\mu_0$ 時拒絕虛無假設 $H_0$

例1中構造的雙邊 $1-\alpha$ 水準置信區間也可以用來檢驗如下兩個顯著水平為 $\alpha/2$ 的單邊對立假設：

H_0: \mu\leq \mu_0

vs

H_1: \mu >\mu_0

和

H_0: \mu\geq \mu_0

vs

H_1: \mu <\mu_0

檢驗方法是完全類似的，比如對於上述第一個單邊檢驗 $H_1: \mu >\mu_0$ ，當且僅當雙邊置信區間的左端點大於 $\mu_0$ 時拒絕虛無假設。

參考文獻

↑ Brittany Terese Fasy; Fabrizio Lecci; Alessandro Rinaldo; Larry Wasserman; Sivaraman Balakrishnan; Aarti Singh. Confidence sets for persistence diagrams. The Annals of Statistics. 2014, 42 (6): 2301–2339.
↑ Box, George EP; Tiao, George C. Bayesian inference in statistical analysis. John Wiley & Sons. 2011.
↑ Moore, D; McCabe, George P; Craig, B. Introduction to the Practice of Statistics. San Francisco, CA: Freeman. 2012.

參考書目

羅納德·費雪 (1956) Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh. (See p. 32.)
弗羅因德 (1962) Mathematical Statistics Prentice Hall, Englewood Cliffs, NJ. (See pp. 227–228.)
伊安·海金 (1965) Logic of Statistical Inference. Cambridge University Press, Cambridge
齊平 (1962) Introduction to Statistical Inference. D. Van Nostrand, Princeton, NJ.
傑克·基弗(1977) "Conditional Confidence Statements and Confidence Estimators (with discussion)" Journal of the American Statistical Association, 72, 789–827.
澤西·內曼 (1937) "Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability" Philosophical Transactions of the Royal Society of London A, 236, 333–380. (Seminal work.)
G.K.羅賓遜 (1975) "Some Counterexamples to the Theory of Confidence Intervals." Biometrika, 62, 155–161.

[1] Brittany Terese Fasy; Fabrizio Lecci; Alessandro Rinaldo; Larry Wasserman; Sivaraman Balakrishnan; Aarti Singh. Confidence sets for persistence diagrams. The Annals of Statistics. 2014, 42 (6): 2301–2339.

[2] Box, George EP; Tiao, George C. Bayesian inference in statistical analysis. John Wiley & Sons. 2011.

[3] Moore, D; McCabe, George P; Craig, B. Introduction to the Practice of Statistics. San Francisco, CA: Freeman. 2012.

[1]

[2]

[3]

定義