此条目的主题是变异数,又称方差、变方。关于与“
方差 ”标题相近或相同的条目,请见“
变异系数 ”。
方差 (英语:Variance ),应用数学 里的专有名词。在概率论 和统计学 中,一个随机变量 的方差 描述的是它的离散程度,也就是该变量离其期望值 的距离。一个实随机变量的方差也称为它的二阶矩 或二阶中心矩 ,恰巧也是它的二阶累积量。意即,将各个误差之平方(而非取绝对值,使之肯定为正数),相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。继续延伸的话,方差的正平方根 称为该随机变量的标准差 (此为相对各个数据点间),方差除以期望值 归一化的值叫分散指数 ,标准差除以期望值 归一化的值叫变异系数 。
“Variance”的各地常用别名 中国内地 方差 中国台湾 变异数 港澳 方差 日本、韩国 分散 越南 分散(phương sai)
定义
设X为服从分布F的随机变量,
如果E[X]是随机变量X 的期望值 (平均数μ =E[X ] )
随机变量X或者分布F的方差 为:
Var
(
X
)
=
E
[
(
X
−
μ
)
2
]
{\displaystyle \operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right]}
这个定义涵盖了连续、离散、或两者都有的随机变量。方差亦可当作是随机变量与自己本身的共变异数 :
Var
(
X
)
=
Cov
(
X
,
X
)
{\displaystyle \operatorname{Var}(X) = \operatorname{Cov}(X, X)}
方差典型的标记有Var(X ),
σ
X
2
{\displaystyle \scriptstyle\sigma_X^2}
, 或是
σ
2
{\displaystyle \sigma^{2}}
,其表示式可展开成为:
Var
(
X
)
=
E
[
X
2
−
2
X
E
[
X
]
+
(
E
[
X
]
)
2
]
=
E
[
X
2
]
−
2
E
[
X
]
E
[
X
]
+
(
E
[
X
]
)
2
=
E
[
X
2
]
−
(
E
[
X
]
)
2
{\displaystyle \operatorname{Var}(X)= \operatorname{E}\left[X^2 - 2X\operatorname{E}[X] + (\operatorname{E}[X])^2\right] = \operatorname{E}\left[X^2\right] - 2\operatorname{E}[X]\operatorname{E}[X] + (\operatorname{E}[X])^2 = \operatorname{E}\left[X^2 \right] - (\operatorname{E}[X])^2}
上述的表示式可记为"平方的期望减掉期望的平方"。
离散随机变量
如果随机变量X 是具有概率质量函数的离散随机分布 x 1 ↦ p 1 , ..., x n ↦ p n ,则:
Var
(
X
)
=
∑
i
=
1
n
p
i
⋅
(
x
i
−
μ
)
2
=
∑
i
=
1
n
(
p
i
⋅
x
i
2
)
−
μ
2
{\displaystyle \operatorname{Var}(X) = \sum_{i=1}^n p_i\cdot(x_i - \mu)^2 = \sum_{i=1}^n (p_i\cdot x_i^2) - \mu^2}
此处
μ
{\displaystyle \mu}
是其期望值, 即:
μ
=
∑
i
=
1
n
p
i
⋅
x
i
{\displaystyle \mu = \sum_{i=1}^n p_i\cdot x_i }
.
当X 为有n 个相等概率值的平均分布:
Var
(
X
)
=
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
=
1
n
(
∑
i
=
1
n
x
i
2
−
n
μ
2
)
=
∑
i
=
1
n
x
i
2
n
−
μ
2
{\displaystyle \operatorname{Var}(X) = \sigma^{2} =\frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 = \frac{1}{n} \left(\sum_{i=1}^n x_i^2 - n\mu^2 \right) = \frac{ \sum_{ i = 1 }^n x_i^2 }{ n } - \mu^2
}
n 个相等概率值的方差亦可以点对点间的方变量表示为:
Var
(
X
)
=
1
n
2
∑
i
=
1
n
∑
j
=
1
n
1
2
(
x
i
−
x
j
)
2
{\displaystyle \operatorname{Var}(X) = \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n \frac{1}{2}(x_i - x_j)^2 }
连续型随机变量
如果随机变量X 是连续分布,并对应至概率密度函数f (x ),则其方差为:
Var
(
X
)
=
σ
2
=
∫
(
x
−
μ
)
2
f
(
x
)
d
x
=
∫
x
2
f
(
x
)
d
x
−
μ
2
{\displaystyle \operatorname{Var}(X) =\sigma^2 =\int (x-\mu)^2 \, f(x) \, dx\, =\int x^2 \, f(x) \, dx\, - \mu^2}
此处
μ
{\displaystyle \mu}
是一期望值,
μ
=
∫
x
f
(
x
)
d
x
{\displaystyle \mu = \int x \, f(x) \, dx\, }
且此处的积分为以X 为范围的x定积分 (definite integral)
如果一个连续分布不存在期望值,如柯西分布 (Cauchy distribution),也就不会有方差(不予定义)。
特性
方差不会是负的,因为次方计算为正的或为零:
Var
(
X
)
≥
0
{\displaystyle \operatorname{Var}(X)\ge 0}
一个常数随机变量的方差为零。反之,若有限个数组成的资料集方差为零,则其内所有数皆相等。对于一般随机变量,也有类似结论,即方差为零推出该变量几乎总是 取同一个值:
P
(
X
=
a
)
=
1
⇔
Var
(
X
)
=
0
{\displaystyle P(X=a) = 1\Leftrightarrow \operatorname{Var}(X)= 0}
方差不变于定位参数的变动。也就是说,如果一个常数被加至一个数列中的所有变量值,此数列的方差不会改变:
Var
(
X
+
a
)
=
Var
(
X
)
.
{\displaystyle \operatorname{Var}(X+a)=\operatorname{Var}(X).}
如果所有数值被放大一个常数倍,方差会放大此常数的平方倍:
Var
(
a
X
)
=
a
2
Var
(
X
)
{\displaystyle \operatorname{Var}(aX)=a^2\operatorname{Var}(X)}
两个随机变量合的方差为:
Var
(
a
X
+
b
Y
)
=
a
2
Var
(
X
)
+
b
2
Var
(
Y
)
+
2
a
b
Cov
(
X
,
Y
)
,
{\displaystyle \operatorname{Var}(aX+bY)=a^2\operatorname{Var}(X)+b^2\operatorname{Var}(Y)+2ab\, \operatorname{Cov}(X,Y),}
Var
(
X
−
Y
)
=
Var
(
X
)
+
Var
(
Y
)
−
2
Cov
(
X
,
Y
)
,
{\displaystyle \operatorname{Var}(X-Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)-2\, \operatorname{Cov}(X,Y),}
此数Cov(., .)代表协方差 。
对于
N
{\displaystyle N}
个随机变量
{
X
1
,
…
,
X
N
}
{\displaystyle \{X_1,\dots,X_N\}}
的总和:
Var
(
∑
i
=
1
N
X
i
)
=
∑
i
,
j
=
1
N
Cov
(
X
i
,
X
j
)
=
∑
i
=
1
N
Var
(
X
i
)
+
∑
i
≠
j
Cov
(
X
i
,
X
j
)
{\displaystyle \operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i,j=1}^N\operatorname{Cov}(X_i,X_j)=\sum_{i=1}^N\operatorname{Var}(X_i)+\sum_{i\ne j}\operatorname{Cov}(X_i,X_j)}
在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间 :
L2 (Ω, dP),不过这里的内积和长度跟协方差,标准差还是不大一样。
所以,我们得把这个空间“除”常变量构成的子空间,也就是说把相差一个常数的
所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间,
并且有一个从旧空间内积诱导出来的新内积,而这个内积就是协方差。
一般化
如果X 是一个向量 其取值范围在实数空间R n ,并且其每个元素都是一个一维随机变量,我们就把X 称为随机向量 。随机向量的方差是一维随机变量方差的自然推广,其定义为E[(X − μ)(X − μ)T ],其中μ = E(X ),X T 是X 的转置。这个方差是一个非负定 的方阵 ,通常称为协方差矩阵 。
如果X 是一个复数随机变量的向量(向量中每个元素均为复数的随机变量),那么其方差定义则为E[(X − μ)(X − μ)* ],其中X * 是X 的共轭转置 向量或称为埃尔米特向量 。根据这个定义,方差 为实数。
历史
“方差 ”(variance)这个名词率先由罗纳德·费希尔 (英语:Ronald Fisher )在论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance 》[1] 中提出。后来“半方差 ”(semi variance ),“亚方差 ”(hypo variance),“超方差 ”(super variance),“圆方差 ”(circular variance )与“倒方差 ”(inverse variance)等类似概念也被逐渐延伸出去。
参考文献
参见