此條目的主題是變異數,又稱方差、變方。關於與「
方差 」標題相近或相同的條目,請見「
變異係數 」。
方差 (英語:Variance ),應用數學 裡的專有名詞。在概率論 和統計學 中,一個隨機變量 的方差 描述的是它的離散程度,也就是該變量離其期望值 的距離。一個實隨機變量的方差也稱為它的二階矩 或二階主動差 ,恰巧也是它的二階累積量。意即,將各個誤差之平方(而非取絕對值,使之肯定為正數),相加之後再除以總數,透過這樣的方式來算出各個數據分佈、零散(相對中心點)的程度。繼續延伸的話,方差的正平方根 稱為該隨機變量的標準差 (此為相對各個數據點間),方差除以期望值 歸一化的值叫分散指數 ,標準差除以期望值 歸一化的值叫變異係數 。
「Variance」的各地常用別名 中國內地 方差 中國台灣 變異數 港澳 方差 日本、韓國 分散 越南 分散(phương sai)
定義
設X為服從分布F的隨機變量,
如果E[X]是隨機變量X 的期望值 (平均數μ =E[X ] )
隨機變量X或者分布F的方差 為:
Var
(
X
)
=
E
[
(
X
−
μ
)
2
]
{\displaystyle \operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right]}
這個定義涵蓋了連續、離散、或兩者都有的隨機變量。方差亦可當作是隨機變量與自己本身的共變異數 :
Var
(
X
)
=
Cov
(
X
,
X
)
{\displaystyle \operatorname{Var}(X) = \operatorname{Cov}(X, X)}
方差典型的標記有Var(X ),
σ
X
2
{\displaystyle \scriptstyle\sigma_X^2}
, 或是
σ
2
{\displaystyle \sigma^{2}}
,其表示式可展開成為:
Var
(
X
)
=
E
[
X
2
−
2
X
E
[
X
]
+
(
E
[
X
]
)
2
]
=
E
[
X
2
]
−
2
E
[
X
]
E
[
X
]
+
(
E
[
X
]
)
2
=
E
[
X
2
]
−
(
E
[
X
]
)
2
{\displaystyle \operatorname{Var}(X)= \operatorname{E}\left[X^2 - 2X\operatorname{E}[X] + (\operatorname{E}[X])^2\right] = \operatorname{E}\left[X^2\right] - 2\operatorname{E}[X]\operatorname{E}[X] + (\operatorname{E}[X])^2 = \operatorname{E}\left[X^2 \right] - (\operatorname{E}[X])^2}
上述的表示式可記為"平方的期望減掉期望的平方"。
離散隨機變量
如果隨機變量X 是具有概率質量函數的離散隨機分布 x 1 ↦ p 1 , ..., x n ↦ p n ,則:
Var
(
X
)
=
∑
i
=
1
n
p
i
⋅
(
x
i
−
μ
)
2
=
∑
i
=
1
n
(
p
i
⋅
x
i
2
)
−
μ
2
{\displaystyle \operatorname{Var}(X) = \sum_{i=1}^n p_i\cdot(x_i - \mu)^2 = \sum_{i=1}^n (p_i\cdot x_i^2) - \mu^2}
此處
μ
{\displaystyle \mu}
是其期望值, 即:
μ
=
∑
i
=
1
n
p
i
⋅
x
i
{\displaystyle \mu = \sum_{i=1}^n p_i\cdot x_i }
.
當X 為有n 個相等機率值的平均分佈:
Var
(
X
)
=
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
=
1
n
(
∑
i
=
1
n
x
i
2
−
n
μ
2
)
=
∑
i
=
1
n
x
i
2
n
−
μ
2
{\displaystyle \operatorname{Var}(X) = \sigma^{2} =\frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 = \frac{1}{n} \left(\sum_{i=1}^n x_i^2 - n\mu^2 \right) = \frac{ \sum_{ i = 1 }^n x_i^2 }{ n } - \mu^2
}
n 個相等機率值的方差亦可以點對點間的方變量表示為:
Var
(
X
)
=
1
n
2
∑
i
=
1
n
∑
j
=
1
n
1
2
(
x
i
−
x
j
)
2
{\displaystyle \operatorname{Var}(X) = \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n \frac{1}{2}(x_i - x_j)^2 }
連續型隨機變量
如果隨機變量X 是連續分布,並對應至概率密度函數f (x ),則其方差為:
Var
(
X
)
=
σ
2
=
∫
(
x
−
μ
)
2
f
(
x
)
d
x
=
∫
x
2
f
(
x
)
d
x
−
μ
2
{\displaystyle \operatorname{Var}(X) =\sigma^2 =\int (x-\mu)^2 \, f(x) \, dx\, =\int x^2 \, f(x) \, dx\, - \mu^2}
此處
μ
{\displaystyle \mu}
是一期望值,
μ
=
∫
x
f
(
x
)
d
x
{\displaystyle \mu = \int x \, f(x) \, dx\, }
且此處的積分為以X 為範圍的x定積分 (definite integral)
如果一個連續分佈不存在期望值,如柯西分佈 (Cauchy distribution),也就不會有方差(不予定義)。
特性
方差不會是負的,因為次方計算為正的或為零:
Var
(
X
)
≥
0
{\displaystyle \operatorname{Var}(X)\ge 0}
一個常數隨機變數的方差為零。反之,若有限個數組成的資料集方差為零,則其內所有數皆相等。對於一般隨機變數,也有類似結論,即方差為零推出該變數幾乎總是 取同一個值:
P
(
X
=
a
)
=
1
⇔
Var
(
X
)
=
0
{\displaystyle P(X=a) = 1\Leftrightarrow \operatorname{Var}(X)= 0}
方差不變於定位參數的變動。也就是說,如果一個常數被加至一個數列中的所有變數值,此數列的方差不會改變:
Var
(
X
+
a
)
=
Var
(
X
)
.
{\displaystyle \operatorname{Var}(X+a)=\operatorname{Var}(X).}
如果所有數值被放大一個常數倍,方差會放大此常數的平方倍:
Var
(
a
X
)
=
a
2
Var
(
X
)
{\displaystyle \operatorname{Var}(aX)=a^2\operatorname{Var}(X)}
兩個隨機變數合的方差為:
Var
(
a
X
+
b
Y
)
=
a
2
Var
(
X
)
+
b
2
Var
(
Y
)
+
2
a
b
Cov
(
X
,
Y
)
,
{\displaystyle \operatorname{Var}(aX+bY)=a^2\operatorname{Var}(X)+b^2\operatorname{Var}(Y)+2ab\, \operatorname{Cov}(X,Y),}
Var
(
X
−
Y
)
=
Var
(
X
)
+
Var
(
Y
)
−
2
Cov
(
X
,
Y
)
,
{\displaystyle \operatorname{Var}(X-Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)-2\, \operatorname{Cov}(X,Y),}
此數Cov(., .)代表共變異數 。
對於
N
{\displaystyle N}
個隨機變數
{
X
1
,
…
,
X
N
}
{\displaystyle \{X_1,\dots,X_N\}}
的總和:
Var
(
∑
i
=
1
N
X
i
)
=
∑
i
,
j
=
1
N
Cov
(
X
i
,
X
j
)
=
∑
i
=
1
N
Var
(
X
i
)
+
∑
i
≠
j
Cov
(
X
i
,
X
j
)
{\displaystyle \operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i,j=1}^N\operatorname{Cov}(X_i,X_j)=\sum_{i=1}^N\operatorname{Var}(X_i)+\sum_{i\ne j}\operatorname{Cov}(X_i,X_j)}
在樣本空間Ω上存在有限期望和方差的隨機變量構成一個希爾伯特空間 :
L2 (Ω, dP),不過這裡的內積和長度跟協方差,標準差還是不大一樣。
所以,我們得把這個空間「除」常變量構成的子空間,也就是說把相差一個常數的
所有原來那個空間的隨機變量做成一個等價類。這還是一個新的無窮維線性空間,
並且有一個從舊空間內積誘導出來的新內積,而這個內積就是協方差。
一般化
如果X 是一個向量 其取值範圍在實數空間R n ,並且其每個元素都是一個一維隨機變量,我們就把X 稱為隨機向量 。隨機向量的方差是一維隨機變量方差的自然推廣,其定義為E[(X − μ)(X − μ)T ],其中μ = E(X ),X T 是X 的轉置。這個方差是一個非負定 的方陣 ,通常稱為協方差矩陣 。
如果X 是一個複數隨機變量的向量(向量中每個元素均為複數的隨機變數),那麼其方差定義則為E[(X − μ)(X − μ)* ],其中X * 是X 的共軛轉置 向量或稱為埃爾米特向量 。根據這個定義,變異數 為實數。
歷史
「方差 」(variance)這個名詞率先由羅納德·費雪 (英語:Ronald Fisher )在論文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance 》[1] 中提出。後來「半方差 」(semi variance ),「亞方差 」(hypo variance),「超方差 」(super variance),「圓方差 」(circular variance )與「倒方差 」(inverse variance)等類似概念也被逐漸延伸出去。
參考文獻
參見