添加的内容 删除的内容
(修改自此处;原许可:CC BY-SA 3.0[网站升级迁移]) |
(我来啦, replaced: 內 → 内 (6), 參考 → 参考, 開 → 开 (3), 學 → 学 (3), 與 → 与 (7), 間 → 间 (4), 風 → 风 (2), 構 → 构, 關 → 关, 協 → 协 (2), 應 → 应 (3), 來 → 来 (6), 義 → 义 (8), 對 → 对 (2), 爾 → 尔 (2), 樣 → 样 (5), 號 → 号 (2), 體 → 体 (6), 簡 → 简 (3), 稱 → 称 (2), 區 → 区, 為 → 为 (31), 於 → 于 (3), 種 → 种 (3), 數 → 数 (34), 據 → 据 (3), 術 → 术, 標 → 标 (42), 負 → 负, 複 → 复, 離 → 离 (9), 積 → 积, 實 → 实 (4), 際 → 际 (2), 並 → 并 (2), 後 → 后, 論 → 论, 認 → 认, 總 → 总, 統 → 统 (3), 測 → 测 (17), 過 → 过, 確 → 确 (5), 較 → 较 (10), 約 → 约 (3), 個 → 个 (16), 兩 → 两 (3), 資 → 资 (2),…) |
||
第1行: | 第1行: | ||
{{noteTA |
{{noteTA |
||
|G1=Math |
|G1=Math |
||
|1=zh-cn: |
|1=zh-cn:协方差;zh-tw:共变异数;zh-hk:协方差; |
||
|2=zh-cn:总体;zh-tw:母 |
|2=zh-cn:总体;zh-tw:母体;zh:母体; |
||
}} |
}} |
||
{{Redirect4|-{均方差}-|均方 |
{{Redirect4|-{均方差}-|均方误差(MSE)|均方误差|均方根误差(RMSE)|均方根误差}} |
||
{{Not| |
{{Not|标準误差}} |
||
''' |
'''标準差'''(又称'''标準偏-{}-差'''、'''-{均方差}- ''',{{Lang-en|'''S'''tandard '''D'''eviation}},缩写{{lang|en|'''SD'''}}),数学符号{{lang|el|'''[[σ]]'''}}(sigma),在[[概率]][[统计]]中最常使用作为[[测量]]一组数值的[[离散程度]]之用。标準差定义:为[[方差]]开[[算术平方根]],反映组内个体间的离散程度;标準差与[[期望值]]之比为[[标準离差率]]。测量到分布程度的结果,原则上具有两种性质: |
||
# |
# 为非负数值(因为开平方后再做平方根); |
||
# |
# 与测量资料具有相同单位(这样才能比对)。 |
||
一 |
一个总量的标準差或一个[[随机变量]]的标準差,及一个[[子集合]]样品数的标準差之间,有所差别。其公式如下所列。 |
||
标準差的概念由[[卡尔·皮尔森]]引入到统计中。 |
|||
== 闡述及 |
== 闡述及应用 == |
||
简单来说,标準差是一组数值自[[平均值]]分散开来的程度的一种测量观念。一个较大的标準差,代表大部分的数值和其平均值之间差异较大;一个较小的标準差,代表这些数值较接近平均值。 |
|||
例如, |
例如,两组数的[[集合 (数学)|集合]]{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二个集合具有较小的标準差。 |
||
表述“相差k个标准差”,即在 {{lang|el|'''X̄ ± kS'''}} 的[[ |
表述“相差k个标准差”,即在 {{lang|el|'''X̄ ± kS'''}} 的[[样本 (统计学)|样本]](Sample)范围内考量。 |
||
标準差可以当作不确定性的一种测量。例如在[[物理]][[科学]]中,做重复性测量时,测量数值集合的标準差代表这些测量的[[精确度]]。当要決定测量值是否符合預测值,测量值的标準差佔有決定性重要角色:如果测量平均值与預测值相差太远(同时与标準差数值做比较),则认为测量值与預测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论預测值是否正确。 |
|||
标準差应用于[[投资]]上,可作为量度回报稳定性的指标。标準差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标準差数值越小,代表回报较为稳定,风险亦较小。 |
|||
== 母 |
== 母体的标準差 == |
||
=== 基本定 |
=== 基本定义 === |
||
:<math>\ SD= \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}</math> |
:<math>\ SD= \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}</math> |
||
<math>\mu</math>为平均值(<math>\overline{x}</math>)。 |
<math>\mu</math>为平均值(<math>\overline{x}</math>)。 |
||
=== 简化计算公式 === |
=== 简化计算公式 === |
||
上述公式可以如下代 |
上述公式可以如下代换而简化: |
||
:<math>\begin{align} |
:<math>\begin{align} |
||
第47行: | 第47行: | ||
</math> |
</math> |
||
根 |
根号裡面,亦即[[变异数]](<math>\sigma^2</math>)的简易口訣为:“平方和的平均”減去“平均的平方”。 |
||
=== 母 |
=== 母体为随机变量 === |
||
一[[ |
一[[随机变量]]<math>X</math>的标準差定义为: |
||
:<math>\sigma = \sqrt{\operatorname{E}((X-\operatorname{E}(X))^2)} = \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}</math> |
:<math>\sigma = \sqrt{\operatorname{E}((X-\operatorname{E}(X))^2)} = \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}</math> |
||
须注意并非所有随机变量都具有标準差,因为有些随机变量不存在[[期望值]]。 |
|||
如果 |
如果随机变量<math>X</math>为<math>x_1, \cdots, x_n</math>具有相同机率,则可用上述公式计算标準差。 |
||
==== |
==== 离散随机变量的标准差 ==== |
||
若<math>X</math>是由[[ |
若<math>X</math>是由[[实数]]<math>x_{1}, x_{2}, ..., x_{n}</math>构成的[[随机变量|离散随机变数]]({{Lang-en|discrete random variable}}),且每个值的'''机率相等''',则<math>X</math>的标準差定义为: |
||
:<math>\sigma = \sqrt{\frac{1}{N}\left[(x_1-\mu)^2 + (x_2-\mu)^2 + \cdots + (x_N - \mu)^2\right]}</math> ,其中 <math> \mu = \frac{1}{N} (x_1 + \cdots + x_N)</math> |
:<math>\sigma = \sqrt{\frac{1}{N}\left[(x_1-\mu)^2 + (x_2-\mu)^2 + \cdots + (x_N - \mu)^2\right]}</math> ,其中 <math> \mu = \frac{1}{N} (x_1 + \cdots + x_N)</math> |
||
换成用<math>\sum</math>来写,就成为: |
|||
:<math>\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}</math> ,其中 <math> \mu = \frac{1}{N} (x_1 + \cdots + x_N)</math> |
:<math>\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}</math> ,其中 <math> \mu = \frac{1}{N} (x_1 + \cdots + x_N)</math> |
||
目前 |
目前为止,与母体标準差的基本公式一致。 |
||
然而若每 |
然而若每个<math>x_i</math>可以有'''不同机率'''<math>p_i</math>,则<math>X</math>的标准差定义为: |
||
:<math>\sigma = \sqrt{\sum_{i=1}^N p_i(x_i - \mu)^2}</math> ,其中 <math>\mu = \sum_{i=1}^N p_i x_i.</math> |
:<math>\sigma = \sqrt{\sum_{i=1}^N p_i(x_i - \mu)^2}</math> ,其中 <math>\mu = \sum_{i=1}^N p_i x_i.</math> |
||
第74行: | 第74行: | ||
==== 连续随机变量的标准差 ==== |
==== 连续随机变量的标准差 ==== |
||
若<math>X</math> |
若<math>X</math>为概率密度<math>p(X)</math>的[[随机变量|连续随机变量]]({{Lang-en|continuous random variable}}),则<math>X</math>的标准差定义为: |
||
:<math>\sigma = \sqrt{\int (x-\mu)^2 \, f(x) \, dx}</math> |
:<math>\sigma = \sqrt{\int (x-\mu)^2 \, f(x) \, dx}</math> |
||
第88行: | 第88行: | ||
::其中: |
::其中: |
||
::* <math>\mbox{cov}(X,Y)</math>表示随机变量<math>X</math>和<math>Y</math>的[[协方差]]。 |
::* <math>\mbox{cov}(X,Y)</math>表示随机变量<math>X</math>和<math>Y</math>的[[协方差]]。 |
||
::* <math> \sigma^2(X) </math>表示<math> [ \sigma(X) ]^2 </math>,即<math>Var(X)</math>(<math> X </math>的 |
::* <math> \sigma^2(X) </math>表示<math> [ \sigma(X) ]^2 </math>,即<math>Var(X)</math>(<math> X </math>的变异数),对<math> Y </math>亦同。 |
||
== 样本的标准差 == |
== 样本的标准差 == |
||
在真实世界中,找到一个总体的真实的标准差 |
在真实世界中,找到一个总体的真实的标准差并不实际。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。 |
||
从一大组数值<math>X_1, \cdots, X_N</math>当中取出一样本数值组合<math>x_1, \cdots, x_n : n < N</math>,常定义其'''样本标準差''': |
|||
:<math> |
:<math> |
||
第101行: | 第101行: | ||
样本方差<math>s^2</math>是对总体[[方差]]<math>\sigma^2</math>的[[无偏估计]]。之所以<math>s</math>中的分母要用<math>n-1</math>而不是像总体样本差那样用<math>n</math>,是因为<math>\left( x_i - \bar{x} \right)</math>的[[自由度 (统计学)|自由度]]为<math>n - 1</math>,这是由于存在约束条件<math>\sum_{i=1}^{n}\left(x_i - \bar{x}\right) = 0</math>。 |
样本方差<math>s^2</math>是对总体[[方差]]<math>\sigma^2</math>的[[无偏估计]]。之所以<math>s</math>中的分母要用<math>n-1</math>而不是像总体样本差那样用<math>n</math>,是因为<math>\left( x_i - \bar{x} \right)</math>的[[自由度 (统计学)|自由度]]为<math>n - 1</math>,这是由于存在约束条件<math>\sum_{i=1}^{n}\left(x_i - \bar{x}\right) = 0</math>。 |
||
== |
== 范例 == |
||
这裡示范如何计算一组数的标準差。例如一群孩童年齡的数值为{ 5, 6, 8, 9 }: |
|||
* 第一步, |
* 第一步,计算平均值<math>\overline{x}</math>︰ |
||
:<math>\overline{x}=\frac{1}{N}\sum_{i=1}^N x_i</math> |
:<math>\overline{x}=\frac{1}{N}\sum_{i=1}^N x_i</math> |
||
: |
:当<math>\begin{smallmatrix}N = 4\end{smallmatrix}</math>(因为集合裏有4个数),分别设为: |
||
::<math> |
::<math> |
||
第118行: | 第118行: | ||
\end{align} |
\end{align} |
||
</math> |
</math> |
||
则平均值为 |
|||
:<math>\begin{align}\overline{x}&=\frac{1}{4}\sum_{i=1}^4 x_i & (N = 4) \\ |
:<math>\begin{align}\overline{x}&=\frac{1}{4}\sum_{i=1}^4 x_i & (N = 4) \\ |
||
&=\frac{1}{4} \left ( x_1 + x_2 + x_3 +x_4 \right ) \\ |
&=\frac{1}{4} \left ( x_1 + x_2 + x_3 +x_4 \right ) \\ |
||
第125行: | 第125行: | ||
</math> |
</math> |
||
* 第二步, |
* 第二步,计算标準差<math>\sigma\,</math>︰ |
||
:<math>\begin{align}\sigma &= \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2} \\ |
:<math>\begin{align}\sigma &= \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2} \\ |
||
第137行: | 第137行: | ||
&\approx 1.58114\, .\end{align}</math> |
&\approx 1.58114\, .\end{align}</math> |
||
== 常 |
== 常态分布的规则 == |
||
{{main|常 |
{{main|常态分布}} |
||
[[File:Standard deviation diagram.svg|缩略图|350px|深 |
[[File:Standard deviation diagram.svg|缩略图|350px|深蓝区域是距[[平均值]]小于一个标準差之内的数值范围,在[[常态分布]]中,此范围所佔比率为全部数值之'''68%''';两个标準差之内(深蓝,蓝)的比率合起来为'''95%''';三个标準差之内(深蓝,蓝,浅蓝)的比率合起来为'''99.7%'''。]] |
||
在 |
在实际应用上,常考慮一组数据具有近似于[[常态分布]]的机率分布。若其假设正确,则约'''68%'''数值分布在距离平均值有'''1个标準差'''之内的范围,约'''95%'''数值分布在距离平均值有'''2个标準差'''之内的范围,以及约'''99.7%'''数值分布在距离平均值有'''3个标準差'''之内的范围。称为“'''[[68–95–99.7原则|68-95-99.7法则]]'''”。 |
||
:<math>f(x;\mu,\sigma^2) = \frac{1}{\sigma\sqrt{2\pi}} e^{ -\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2 } |
:<math>f(x;\mu,\sigma^2) = \frac{1}{\sigma\sqrt{2\pi}} e^{ -\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2 } |
||
第155行: | 第155行: | ||
{| class="wikitable" style="font-size: " |
{| class="wikitable" style="font-size: " |
||
|- |
|- |
||
! rowspan=2 | |
! rowspan=2 | 数字比率<br/>标準差值 |
||
! |
! 机率 |
||
! colspan=2 | 包含之外比例 |
! colspan=2 | 包含之外比例 |
||
|- |
|- |
||
第236行: | 第236行: | ||
| {{gaps|99.999|320|465|3751%}} |
| {{gaps|99.999|320|465|3751%}} |
||
| {{gaps|0.000|679|534|6249%}} |
| {{gaps|0.000|679|534|6249%}} |
||
| 1 / {{val|147159.5358}}<br>3.4 / {{val|1000000}} (''每一 |
| 1 / {{val|147159.5358}}<br>3.4 / {{val|1000000}} (''每一边'') |
||
|- |
|- |
||
| {{val|4.891638}}''σ'' |
| {{val|4.891638}}''σ'' |
||
第258行: | 第258行: | ||
| 1 / {{val|100000000}} |
| 1 / {{val|100000000}} |
||
|- |
|- |
||
| [[六 |
| [[六标準差#西格玛等级|{{val|6}}''σ'']] |
||
| {{val|99.9999998027}}% |
| {{val|99.9999998027}}% |
||
| {{val|0.0000001973}}% |
| {{val|0.0000001973}}% |
||
第284行: | 第284行: | ||
|} |
|} |
||
== |
== 标準差与平均值之间的关系 == |
||
一 |
一组数据的[[平均值]]及标準差常常同时作为参考的依据。从某种意义上说,如果用平均值来考量数值的中心的话,则标準差也就是对[[机率分布|统计的分散度]]的一个“自然”的测度。因为由平均值所得的标准差要小于到其他任何一个点的标准差。较确切的叙述为:设<math>X_1, \cdots, X_N</math>为[[实数]],定义[[函数]]: |
||
:<math>\sigma(\mu) = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}</math> |
:<math>\sigma(\mu) = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}</math> |
||
使用[[微 |
使用[[微积分]]或者通过[[配方法]],不难算出<math>\sigma(\mu)</math>在下面情況下具有唯一最小值: |
||
:<math>\mu = \overline{x}</math> |
:<math>\mu = \overline{x}</math> |
||
第312行: | 第312行: | ||
[[Category:概率与统计]] |
[[Category:概率与统计]] |
||
[[Category:技 |
[[Category:技术分析]] |