方差

“Variance”的各地常用别名
中国内地	方差
中国台湾	变异数
港澳	方差
日本、韩国	分散
越南	分散（phương sai）

方差（英语：Variance），应用数学里的专有名词。在概率论和统计学中，一个随机变量的方差描述的是它的离散程度，也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心矩，恰巧也是它的二阶累积量。意即，将各个误差之平方（而非取绝对值，使之肯定为正数），相加之后再除以总数，透过这样的方式来算出各个数据分布、零散（相对中心点）的程度。继续延伸的话，方差的正平方根称为该随机变量的标准差（此为相对各个数据点间），方差除以期望值归一化的值叫分散指数，标准差除以期望值归一化的值叫变异系数。

定义

设X为服从分布F的随机变量，如果E[X]是随机变量X的期望值（平均数μ=E[X]）
随机变量X或者分布F的方差为：

\operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right]

这个定义涵盖了连续、离散、或两者都有的随机变量。方差亦可当作是随机变量与自己本身的共变异数：

\operatorname{Var}(X) = \operatorname{Cov}(X, X)

方差典型的标记有Var(X),　 $\scriptstyle\sigma_X^2$ ,　或是 $\sigma^{2}$ ，其表示式可展开成为：

\operatorname{Var}(X)= \operatorname{E}\left[X^2 - 2X\operatorname{E}[X] + (\operatorname{E}[X])^2\right] = \operatorname{E}\left[X^2\right] - 2\operatorname{E}[X]\operatorname{E}[X] + (\operatorname{E}[X])^2 = \operatorname{E}\left[X^2 \right] - (\operatorname{E}[X])^2

上述的表示式可记为"平方的期望减掉期望的平方"。

离散随机变量

如果随机变量X是具有概率质量函数的离散随机分布x₁ ↦ p₁, ..., x_n ↦ p_n，则：

\operatorname{Var}(X) = \sum_{i=1}^n p_i\cdot(x_i - \mu)^2 = \sum_{i=1}^n (p_i\cdot x_i^2) - \mu^2

此处 $\mu$ 是其期望值, 即：

\mu = \sum_{i=1}^n p_i\cdot x_i

.

当X为有n个相等概率值的平均分布：

{\displaystyle \operatorname{Var}(X) = \sigma^{2} =\frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 = \frac{1}{n} \left(\sum_{i=1}^n x_i^2 - n\mu^2 \right) = \frac{ \sum_{ i = 1 }^n x_i^2 }{ n } - \mu^2 }

n个相等概率值的方差亦可以点对点间的方变量表示为：

\operatorname{Var}(X) = \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n \frac{1}{2}(x_i - x_j)^2

连续型随机变量

如果随机变量X是连续分布，并对应至概率密度函数f(x)，则其方差为：

\operatorname{Var}(X) =\sigma^2 =\int (x-\mu)^2 \, f(x) \, dx\, =\int x^2 \, f(x) \, dx\, - \mu^2

此处 $\mu$ 是一期望值，

\mu = \int x \, f(x) \, dx\,

且此处的积分为以X为范围的x定积分（definite integral）
如果一个连续分布不存在期望值，如柯西分布（Cauchy distribution），也就不会有方差（不予定义）。

特性

方差不会是负的，因为次方计算为正的或为零：

\operatorname{Var}(X)\ge 0

一个常数随机变量的方差为零。反之，若有限个数组成的资料集方差为零，则其内所有数皆相等。对于一般随机变量，也有类似结论，即方差为零推出该变量几乎总是取同一个值：

P(X=a) = 1\Leftrightarrow \operatorname{Var}(X)= 0

方差不变于定位参数的变动。也就是说，如果一个常数被加至一个数列中的所有变量值，此数列的方差不会改变：

\operatorname{Var}(X+a)=\operatorname{Var}(X).

如果所有数值被放大一个常数倍，方差会放大此常数的平方倍：

\operatorname{Var}(aX)=a^2\operatorname{Var}(X)

两个随机变量合的方差为：

\operatorname{Var}(aX+bY)=a^2\operatorname{Var}(X)+b^2\operatorname{Var}(Y)+2ab\, \operatorname{Cov}(X,Y),

\operatorname{Var}(X-Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)-2\, \operatorname{Cov}(X,Y),

此数Cov(., .)代表协方差。

对于 $N$ 个随机变量 $\{X_1,\dots,X_N\}$ 的总和：

\operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i,j=1}^N\operatorname{Cov}(X_i,X_j)=\sum_{i=1}^N\operatorname{Var}(X_i)+\sum_{i\ne j}\operatorname{Cov}(X_i,X_j)

在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间： L²（Ω, dP），不过这里的内积和长度跟协方差，标准差还是不大一样。所以，我们得把这个空间“除”常变量构成的子空间，也就是说把相差一个常数的所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间，并且有一个从旧空间内积诱导出来的新内积，而这个内积就是协方差。

一般化

如果X是一个向量其取值范围在实数空间Rⁿ，并且其每个元素都是一个一维随机变量，我们就把X称为随机向量。随机向量的方差是一维随机变量方差的自然推广，其定义为E[(X − μ)(X − μ)^T]，其中μ = E(X)，X^T是X的转置。这个方差是一个非负定的方阵，通常称为协方差矩阵。

如果X是一个复数随机变量的向量（向量中每个元素均为复数的随机变量），那么其方差定义则为E[(X − μ)(X − μ)^*]，其中X^*是X的共轭转置向量或称为埃尔米特向量。根据这个定义，方差为实数。

历史

“方差”（variance）这个名词率先由罗纳德·费希尔（英语：Ronald Fisher）在论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》^[1]中提出。后来“半方差”（semi variance），“亚方差”（hypo variance）,“超方差”（super variance）,“圆方差”（circular variance）与“倒方差”（inverse variance）等类似概念也被逐渐延伸出去。

参考文献

↑ Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance

参见

[1] Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance

[1]