泊松分布

**泊松分布**
	概率质量函数; 横轴是索引k，发生次数。该函数只定义在k为整数的时候。连接线是只为了指导视觉。
	累积分布函数; 横轴是索引k，发生次数。CDF在整数k处不连续，且在其他任何地方都是水平的，因为服从泊松分布的变量只针对整数值。
参数	λ > 0（实数）
值域
概率质量函数
累积分布函数	，或，或 (对于，其中是不完全Γ函数，是高斯符号，Q是规则化Γ函数)
期望值
中位数
众数
方差
偏度
峰度
熵	（假设较大） ;
矩生成函数
特征函数
概率母函数

泊松分布（法语：loi de Poisson；英语：Poisson distribution）又称Poisson分布、帕松分布、布瓦松分布、布阿松分布、普阿松分布、波以松分布、卜氏分布、帕松小数法则（Poisson law of small numbers），是一种统计与概率学里常见到的离散概率分布，由法国数学家西莫恩·德尼·泊松在1838年时发表。

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。

泊松分布的概率质量函数为：

P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}

泊松分布的参数λ是单位时间（或单位面积）内随机事件的平均发生率。

记号

若 $X$ 服从参数为 $\lambda$ 的泊松分布，记为 $X \sim \pi(\lambda)$ ，或记为 $X \sim Pois(\lambda)$ .

性质

1、服从泊松分布的随机变量，其数学期望与方差相等，同为参数 $\lambda$ : $E(X) = V(X)= \lambda$

2、两个独立且服从泊松分布的随机变量，其和仍然服从泊松分布。更精确地说，若 $X \sim Poisson(\lambda_1)$ 且 $Y \sim Poisson(\lambda_2)$ ，则 $X+Y \sim Poisson(\lambda_1+\lambda_2)$ 。

3、其矩生成函数为：

M_X(t)=E[e^{tX}]=\sum_{x=0}^\infty e^{tx}\frac{e^{-\lambda}\lambda^x}{x!}=e^{-\lambda}\sum_{x=0}^\infty\frac{({e^t}\lambda)^x}{x!}=e^{{\lambda}(e^t-1)}

推导

期望值：(倒数第三至第二是使用泰勒展开式)

${\displaystyle \begin{align} \Epsilon(X) & =\textstyle \sum_{i=0}^\infty \displaystyle i P(X = i) \\ & = \textstyle \sum_{i=1}^\infty \displaystyle i {e^{-\lambda} \lambda^i \over i!} \\ & = \lambda e^{-\lambda} \textstyle \sum_{i=1}^\infty \displaystyle {\lambda^{i-1} \over (i-1)!} \\ & = \lambda e^{-\lambda} \textstyle \sum_{i=0}^\infty \displaystyle {\lambda^i \over i!} \\ & = \lambda e^{-\lambda} e^{\lambda} \\ & = \lambda \end{align}}$

${\displaystyle \begin{align} \Epsilon(X^2) & =\textstyle \sum_{i=0}^\infty \displaystyle i^2 P(X = i) \\ & = \textstyle \sum_{i=1}^\infty \displaystyle i^2 {e^{-\lambda} \lambda^i \over i!}\\ & = \lambda e^{-\lambda} \textstyle \sum_{i=1}^\infty \displaystyle {i \lambda^{i-1} \over (i-1)!}\\ & = \lambda e^{-\lambda} \textstyle \sum_{i=1}^\infty \displaystyle {1 \over (i-1)!} {d \over d \lambda}(\lambda ^ i)\\ & = \lambda e^ {- \lambda}{d \over d \lambda}[\textstyle \sum_{i=1}^\infty \displaystyle {\lambda^i \over (i-1)!}]\\ & = \lambda e^ {- \lambda}{d \over d \lambda}[\lambda \textstyle \sum_{i=1}^\infty \displaystyle {\lambda^{i-1} \over (i-1)!}]\\ & = \lambda e^ {- \lambda}{d \over d \lambda} (\lambda e^{\lambda}) = \lambda e^ {- \lambda} (e^ {\lambda} + \lambda e ^{\lambda}) = \lambda + \lambda^2 \end{align}}$

我们可以得到： $Var(X) = (\lambda + \lambda ^2) - \lambda ^2 = \lambda$

如同性质： $E(X) = Var(X) = \lambda$ 、 $\sigma_X = \sqrt{\lambda}$

泊松分布的来源（泊松小数定律）

在二项分布的伯努利试验中，如果试验次数n很大，二项分布的概率p很小，且乘积λ= np比较适中，则事件出现的次数的概率可以用泊松分布来逼近。事实上，二项分布可以看作泊松分布在离散时间上的对应物。

证明如下。首先，回顾e的定义：

\lim_{n\to\infty}\left(1-{\lambda \over n}\right)^n=e^{-\lambda},

二项分布的定义：

P(X=k)={n \choose k} p^k (1-p)^{n-k}

。

如果令 $p = \lambda/n$ , $n$ 趋于无穷时 $P$ 的极限：

{\displaystyle \begin{align} \lim_{n\to\infty} P(X=k)&=\lim_{n\to\infty}{n \choose k} p^k (1-p)^{n-k} \\ &=\lim_{n\to\infty}{n! \over (n-k)!k!} \left({\lambda \over n}\right)^k \left(1-{\lambda\over n}\right)^{n-k}\\ &=\lim_{n\to\infty} \underbrace{\left[\frac{n!}{n^k\left(n-k\right)!}\right]}_F \left(\frac{\lambda^k}{k!}\right) \underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to\exp\left(-\lambda\right)} \underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1} \\ &= \lim_{n\to\infty} \underbrace{\left[ \left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right) \ldots \left(1-\frac{k-1}{n}\right) \right]}_{\to 1} \left(\frac{\lambda^k}{k!}\right) \underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to\exp\left(-\lambda\right)} \underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1} \\ &= \left(\frac{\lambda^k}{k!}\right)\exp\left(-\lambda\right) \end{align} }

最大似然估计（MLE）

给定n个样本值k_i，希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值，列出对数似然函数：

{\displaystyle \begin{align} L(\lambda) & = \ln \prod_{i=1}^n f(k_i \mid \lambda) \\ & = \sum_{i=1}^n \ln\!\left(\frac{e^{-\lambda}\lambda^{k_i}}{k_i!}\right) \\ & = -n\lambda + \left(\sum_{i=1}^n k_i\right) \ln(\lambda) - \sum_{i=1}^n \ln(k_i!). \end{align} }

{\displaystyle \frac{\mathrm{d}}{\mathrm{d}\lambda} L(\lambda) = 0 \iff -n + \left(\sum_{i=1}^n k_i\right) \frac{1}{\lambda} = 0. \!}

解得λ从而得到一个驻点（stationary point）：

\widehat{\lambda}_\mathrm{MLE}=\frac{1}{n}\sum_{i=1}^n k_i. \!

检查函数L的二阶导数，发现对所有的λ与k_i大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点：

\frac{\partial^2 L}{\partial \lambda^2} =  \sum_{i=1}^n -\lambda^{-2} k_i

例子

对某公共汽车站的客流做调查，统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批（每批可以是1人也可以是多人）是互相独立发生的。观察每20秒区间来到候车的乘客批次，共观察77分钟*3=231次，共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计（MLE），得到 $\lambda$ 的估计为（81*1+34*2+9*3+6*4）/230≈0.87。

生成泊松分布的随机变量

一个用来生成随机泊松分布的数字（伪随机数抽样）的简单算法，已经由高德纳给出（见下文参考）：

algorithm poisson random number (Knuth):
    init:
         Let L ← e^−λ, k ← 0 and p ← 1.
    do:
         k ← k + 1.
         Generate uniform random number u in [0,1] and let p ← p×u.
    while p > L.
    return k − 1.

尽管简单，但复杂度是线性的，在返回的值k，平均是λ。还有许多其他算法来克服这一点。有些人由Ahrens和Dieter给出，请参阅下面的参考资料。同样，对于较大的λ值，e^-λ可能导致数值稳定性问题。对于较大λ值的一种解决方案是拒绝采样，另一种是采用泊松分布的高斯近似。

对于很小的λ值，逆变换取样简单而且高效，每个样本只需要一个均匀随机数u。直到有超过u的样本，才需要检查累积概率。

algorithm Poisson generator based upon the inversion by sequential search:^[1]
    init:
         Let x ← 0, p ← e^−λ, s ← p.
         Generate uniform random number u in [0,1].
    do:
         x ← x + 1.
         p ← p * λ / x.
         s ← s + p.
    while u > s.
    return x.

参见

参考文献

引用

↑ Luc Devroye, Non-Uniform Random Variate Generation（Springer-Verlag, New York, 1986）, chapter 10, page 505 http://luc.devroye.org/rnbookindex.html

来源

Guerriero V. Power Law Distribution: Method of Multi-scale Inferential Statistics. Journal of Modern Mathematics Frontier (JMMF). 2012, 1: 21–28 [2017-10-30].
Joachim H. Ahrens, Ulrich Dieter. Computer Methods for Sampling from Gamma, Beta, Poisson and Binomial Distributions. Computing. 1974, 12 (3): 223–246. doi:10.1007/BF02293108.
Joachim H. Ahrens, Ulrich Dieter. Computer Generation of Poisson Deviates. ACM Transactions on Mathematical Software. 1982, 8 (2): 163–179. doi:10.1145/355993.355997.
Ronald J. Evans, J. Boersma, N. M. Blachman, A. A. Jagers. The Entropy of a Poisson Distribution: Problem 87-6. SIAM Review. 1988, 30 (2): 314–317. doi:10.1137/1030059.
Donald E. Knuth. Seminumerical Algorithms. The Art of Computer Programming. Volume 2. Addison Wesley. 1969.

[1] Luc Devroye, Non-Uniform Random Variate Generation（Springer-Verlag, New York, 1986）, chapter 10, page 505 http://luc.devroye.org/rnbookindex.html

[1]

概率质量函数横轴是索引k，发生次数。该函数只定义在k为整数的时候。连接线是只为了指导视觉。
累积分布函数横轴是索引k，发生次数。CDF在整数k处不连续，且在其他任何地方都是水平的，因为服从泊松分布的变量只针对整数值。
参数	λ > 0（实数）
值域	$k \in \{0, 1, 2, 3, \cdots\}$
概率质量函数	$\frac{\lambda^k}{k!} e^{-\lambda}$
累积分布函数	$\frac{\Gamma(\lfloor k+1\rfloor, \lambda)}{\lfloor k\rfloor !}$ ，或 $e^{-\lambda} \sum_{i=0}^{\lfloor k\rfloor} \frac{\lambda^i}{i!}\$ ，或 $Q(\lfloor k+1\rfloor,\lambda)$ (对于 $k\ge 0$ ，其中 $\Gamma(x, y)$ 是不完全Γ函数， $\lfloor k\rfloor$ 是高斯符号，Q是规则化Γ函数)
期望值	$\lambda$
中位数	$\approx\lfloor\lambda+1/3-0.02/\lambda\rfloor$
众数	$\lceil\lambda\rceil - 1, \lfloor\lambda\rfloor$
方差	$\lambda$
偏度	$\lambda^{-1/2}$
峰度	$\lambda^{-1}$
熵	$\lambda[1 - \log(\lambda)] + e^{-\lambda}\sum_{k=0}^\infty \frac{\lambda^k\log(k!)}{k!}$ （假设 $\lambda$ 较大） $\frac{1}{2}\log(2 \pi e \lambda) - \frac{1}{12 \lambda} - \frac{1}{24 \lambda^2} -$ $\qquad \frac{19}{360 \lambda^3} + O\left(\frac{1}{\lambda^4}\right)$
矩生成函数	$\exp(\lambda (e^{t} - 1))$
特征函数	$\exp(\lambda (e^{it} - 1))$
概率母函数	$\exp(\lambda(z - 1))$