變異數

「Variance」的各地常用別名
中國內地	方差
中國台灣	變異數
港澳	方差
日本、韓國	分散
越南	分散（phương sai）

方差（英語：Variance），應用數學裡的專有名詞。在概率論和統計學中，一個隨機變量的方差描述的是它的離散程度，也就是該變量離其期望值的距離。一個實隨機變量的方差也稱為它的二階矩或二階主動差，恰巧也是它的二階累積量。意即，將各個誤差之平方（而非取絕對值，使之肯定為正數），相加之後再除以總數，透過這樣的方式來算出各個數據分佈、零散（相對中心點）的程度。繼續延伸的話，方差的正平方根稱為該隨機變量的標準差（此為相對各個數據點間），方差除以期望值歸一化的值叫分散指數，標準差除以期望值歸一化的值叫變異係數。

定義

設X為服從分布F的隨機變量，如果E[X]是隨機變量X的期望值（平均數μ=E[X]）
隨機變量X或者分布F的方差為：

\operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right]

這個定義涵蓋了連續、離散、或兩者都有的隨機變量。方差亦可當作是隨機變量與自己本身的共變異數：

\operatorname{Var}(X) = \operatorname{Cov}(X, X)

方差典型的標記有Var(X),　 $\scriptstyle\sigma_X^2$ ,　或是 $\sigma^{2}$ ，其表示式可展開成為：

\operatorname{Var}(X)= \operatorname{E}\left[X^2 - 2X\operatorname{E}[X] + (\operatorname{E}[X])^2\right] = \operatorname{E}\left[X^2\right] - 2\operatorname{E}[X]\operatorname{E}[X] + (\operatorname{E}[X])^2 = \operatorname{E}\left[X^2 \right] - (\operatorname{E}[X])^2

上述的表示式可記為"平方的期望減掉期望的平方"。

離散隨機變量

如果隨機變量X是具有概率質量函數的離散隨機分布x₁ ↦ p₁, ..., x_n ↦ p_n，則：

\operatorname{Var}(X) = \sum_{i=1}^n p_i\cdot(x_i - \mu)^2 = \sum_{i=1}^n (p_i\cdot x_i^2) - \mu^2

此處 $\mu$ 是其期望值, 即：

\mu = \sum_{i=1}^n p_i\cdot x_i

.

當X為有n個相等機率值的平均分佈：

{\displaystyle \operatorname{Var}(X) = \sigma^{2} =\frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 = \frac{1}{n} \left(\sum_{i=1}^n x_i^2 - n\mu^2 \right) = \frac{ \sum_{ i = 1 }^n x_i^2 }{ n } - \mu^2 }

n個相等機率值的方差亦可以點對點間的方變量表示為：

\operatorname{Var}(X) = \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n \frac{1}{2}(x_i - x_j)^2

連續型隨機變量

如果隨機變量X是連續分布，並對應至概率密度函數f(x)，則其方差為：

\operatorname{Var}(X) =\sigma^2 =\int (x-\mu)^2 \, f(x) \, dx\, =\int x^2 \, f(x) \, dx\, - \mu^2

此處 $\mu$ 是一期望值，

\mu = \int x \, f(x) \, dx\,

且此處的積分為以X為範圍的x定積分（definite integral）
如果一個連續分佈不存在期望值，如柯西分佈（Cauchy distribution），也就不會有方差（不予定義）。

特性

方差不會是負的，因為次方計算為正的或為零：

\operatorname{Var}(X)\ge 0

一個常數隨機變數的方差為零。反之，若有限個數組成的資料集方差為零，則其內所有數皆相等。對於一般隨機變數，也有類似結論，即方差為零推出該變數幾乎總是取同一個值：

P(X=a) = 1\Leftrightarrow \operatorname{Var}(X)= 0

方差不變於定位參數的變動。也就是說，如果一個常數被加至一個數列中的所有變數值，此數列的方差不會改變：

\operatorname{Var}(X+a)=\operatorname{Var}(X).

如果所有數值被放大一個常數倍，方差會放大此常數的平方倍：

\operatorname{Var}(aX)=a^2\operatorname{Var}(X)

兩個隨機變數合的方差為：

\operatorname{Var}(aX+bY)=a^2\operatorname{Var}(X)+b^2\operatorname{Var}(Y)+2ab\, \operatorname{Cov}(X,Y),

\operatorname{Var}(X-Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)-2\, \operatorname{Cov}(X,Y),

此數Cov(., .)代表共變異數。

對於 $N$ 個隨機變數 $\{X_1,\dots,X_N\}$ 的總和：

\operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i,j=1}^N\operatorname{Cov}(X_i,X_j)=\sum_{i=1}^N\operatorname{Var}(X_i)+\sum_{i\ne j}\operatorname{Cov}(X_i,X_j)

在樣本空間Ω上存在有限期望和方差的隨機變量構成一個希爾伯特空間： L²（Ω, dP），不過這裡的內積和長度跟協方差，標準差還是不大一樣。所以，我們得把這個空間「除」常變量構成的子空間，也就是說把相差一個常數的所有原來那個空間的隨機變量做成一個等價類。這還是一個新的無窮維線性空間，並且有一個從舊空間內積誘導出來的新內積，而這個內積就是協方差。

一般化

如果X是一個向量其取值範圍在實數空間Rⁿ，並且其每個元素都是一個一維隨機變量，我們就把X稱為隨機向量。隨機向量的方差是一維隨機變量方差的自然推廣，其定義為E[(X − μ)(X − μ)^T]，其中μ = E(X)，X^T是X的轉置。這個方差是一個非負定的方陣，通常稱為協方差矩陣。

如果X是一個複數隨機變量的向量（向量中每個元素均為複數的隨機變數），那麼其方差定義則為E[(X − μ)(X − μ)^*]，其中X^*是X的共軛轉置向量或稱為埃爾米特向量。根據這個定義，變異數為實數。

歷史

「方差」（variance）這個名詞率先由羅納德·費雪（英語：Ronald Fisher）在論文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》^[1]中提出。後來「半方差」（semi variance），「亞方差」（hypo variance）,「超方差」（super variance）,「圓方差」（circular variance）與「倒方差」（inverse variance）等類似概念也被逐漸延伸出去。

參考文獻

↑ Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance

參見

[1] Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance

[1]