泊松分布
概率质量函数
横轴是索引k ,发生次数。该函数只定义在k 为整数的时候。连接线是只为了指导视觉。
累积分布函数
横轴是索引k ,发生次数。CDF在整数k 处不连续,且在其他任何地方都是水平的,因为服从泊松分布的变量只针对整数值。 参数
λ > 0(实数 ) 值域
k
∈
{
0
,
1
,
2
,
3
,
⋯
}
{\displaystyle k \in \{0, 1, 2, 3, \cdots\}}
概率质量函数
λ
k
k
!
e
−
λ
{\displaystyle \frac{\lambda^k}{k!} e^{-\lambda}}
累积分布函数
Γ
(
⌊
k
+
1
⌋
,
λ
)
⌊
k
⌋
!
{\displaystyle \frac{\Gamma(\lfloor k+1\rfloor, \lambda)}{\lfloor k\rfloor !}}
,或
e
−
λ
∑
i
=
0
⌊
k
⌋
λ
i
i
!
{\displaystyle e^{-\lambda} \sum_{i=0}^{\lfloor k\rfloor} \frac{\lambda^i}{i!}\ }
,或
Q
(
⌊
k
+
1
⌋
,
λ
)
{\displaystyle Q(\lfloor k+1\rfloor,\lambda)}
(对于
k
≥
0
{\displaystyle k\ge 0}
,其中
Γ
(
x
,
y
)
{\displaystyle \Gamma(x, y)}
是不完全Γ函数 ,
⌊
k
⌋
{\displaystyle \lfloor k\rfloor}
是高斯符号 ,Q是规则化Γ函数) 期望值
λ
{\displaystyle \lambda}
中位数
≈
⌊
λ
+
1
/
3
−
0.02
/
λ
⌋
{\displaystyle \approx\lfloor\lambda+1/3-0.02/\lambda\rfloor}
众数
⌈
λ
⌉
−
1
,
⌊
λ
⌋
{\displaystyle \lceil\lambda\rceil - 1, \lfloor\lambda\rfloor}
方差
λ
{\displaystyle \lambda}
偏度
λ
−
1
/
2
{\displaystyle \lambda^{-1/2}}
峰度
λ
−
1
{\displaystyle \lambda^{-1}}
熵
λ
[
1
−
log
(
λ
)
]
+
e
−
λ
∑
k
=
0
∞
λ
k
log
(
k
!
)
k
!
{\displaystyle \lambda[1 - \log(\lambda)] + e^{-\lambda}\sum_{k=0}^\infty \frac{\lambda^k\log(k!)}{k!}}
(假设
λ
{\displaystyle \lambda}
较大)
1
2
log
(
2
π
e
λ
)
−
1
12
λ
−
1
24
λ
2
−
{\displaystyle \frac{1}{2}\log(2 \pi e \lambda) - \frac{1}{12 \lambda} - \frac{1}{24 \lambda^2} -}
19
360
λ
3
+
O
(
1
λ
4
)
{\displaystyle \qquad \frac{19}{360 \lambda^3} + O\left(\frac{1}{\lambda^4}\right)}
矩生成函数
exp
(
λ
(
e
t
−
1
)
)
{\displaystyle \exp(\lambda (e^{t} - 1))}
特征函数
exp
(
λ
(
e
i
t
−
1
)
)
{\displaystyle \exp(\lambda (e^{it} - 1))}
概率母函数
exp
(
λ
(
z
−
1
)
)
{\displaystyle \exp(\lambda(z - 1))}
泊松分布 (法语:loi de Poisson ;英语:Poisson distribution )又称Poisson分布 、帕松分布 、布瓦松分布 、布阿松分布 、普阿松分布 、波以松分布 、卜氏分布 、帕松小数法则 (Poisson law of small numbers),是一种统计 与概率 学里常见到的离散概率分布 ,由法国 数学家 西莫恩·德尼·泊松 在1838年时发表。
泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话 交换机 接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害 发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光 的光子数分布等等。
泊松分布的概率质量函数 为:
P
(
X
=
k
)
=
e
−
λ
λ
k
k
!
{\displaystyle P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}}
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。
记号
若
X
{\displaystyle X}
服从参数为
λ
{\displaystyle \lambda}
的泊松分布,记为
X
∼
π
(
λ
)
{\displaystyle X \sim \pi(\lambda)}
,或记为
X
∼
P
o
i
s
(
λ
)
{\displaystyle X \sim Pois(\lambda)}
.
性质
1、服从泊松分布的随机变量 ,其数学期望 与方差 相等,同为参数
λ
{\displaystyle \lambda}
:
E
(
X
)
=
V
(
X
)
=
λ
{\displaystyle E(X) = V(X)= \lambda}
2、两个独立且服从泊松分布的随机变量 ,其和仍然服从泊松分布。更精确地说,若
X
∼
P
o
i
s
s
o
n
(
λ
1
)
{\displaystyle X \sim Poisson(\lambda_1)}
且
Y
∼
P
o
i
s
s
o
n
(
λ
2
)
{\displaystyle Y \sim Poisson(\lambda_2)}
,则
X
+
Y
∼
P
o
i
s
s
o
n
(
λ
1
+
λ
2
)
{\displaystyle X+Y \sim Poisson(\lambda_1+\lambda_2)}
。
3、其矩生成函数 为:
M
X
(
t
)
=
E
[
e
t
X
]
=
∑
x
=
0
∞
e
t
x
e
−
λ
λ
x
x
!
=
e
−
λ
∑
x
=
0
∞
(
e
t
λ
)
x
x
!
=
e
λ
(
e
t
−
1
)
{\displaystyle M_X(t)=E[e^{tX}]=\sum_{x=0}^\infty e^{tx}\frac{e^{-\lambda}\lambda^x}{x!}=e^{-\lambda}\sum_{x=0}^\infty\frac{({e^t}\lambda)^x}{x!}=e^{{\lambda}(e^t-1)}}
推导
期望值:(倒数第三至第二是使用泰勒展开式 )
E
(
X
)
=
∑
i
=
0
∞
i
P
(
X
=
i
)
=
∑
i
=
1
∞
i
e
−
λ
λ
i
i
!
=
λ
e
−
λ
∑
i
=
1
∞
λ
i
−
1
(
i
−
1
)
!
=
λ
e
−
λ
∑
i
=
0
∞
λ
i
i
!
=
λ
e
−
λ
e
λ
=
λ
{\displaystyle \begin{align}
\Epsilon(X) & =\textstyle \sum_{i=0}^\infty \displaystyle i P(X = i) \\
& = \textstyle \sum_{i=1}^\infty \displaystyle i {e^{-\lambda} \lambda^i \over i!} \\
& = \lambda e^{-\lambda} \textstyle \sum_{i=1}^\infty \displaystyle {\lambda^{i-1} \over (i-1)!} \\
& = \lambda e^{-\lambda} \textstyle \sum_{i=0}^\infty \displaystyle {\lambda^i \over i!} \\
& = \lambda e^{-\lambda} e^{\lambda} \\
& = \lambda
\end{align}}
E
(
X
2
)
=
∑
i
=
0
∞
i
2
P
(
X
=
i
)
=
∑
i
=
1
∞
i
2
e
−
λ
λ
i
i
!
=
λ
e
−
λ
∑
i
=
1
∞
i
λ
i
−
1
(
i
−
1
)
!
=
λ
e
−
λ
∑
i
=
1
∞
1
(
i
−
1
)
!
d
d
λ
(
λ
i
)
=
λ
e
−
λ
d
d
λ
[
∑
i
=
1
∞
λ
i
(
i
−
1
)
!
]
=
λ
e
−
λ
d
d
λ
[
λ
∑
i
=
1
∞
λ
i
−
1
(
i
−
1
)
!
]
=
λ
e
−
λ
d
d
λ
(
λ
e
λ
)
=
λ
e
−
λ
(
e
λ
+
λ
e
λ
)
=
λ
+
λ
2
{\displaystyle \begin{align}
\Epsilon(X^2) & =\textstyle \sum_{i=0}^\infty \displaystyle i^2 P(X = i) \\
& = \textstyle \sum_{i=1}^\infty \displaystyle i^2 {e^{-\lambda} \lambda^i \over i!}\\
& = \lambda e^{-\lambda} \textstyle \sum_{i=1}^\infty \displaystyle {i \lambda^{i-1} \over (i-1)!}\\
& = \lambda e^{-\lambda} \textstyle \sum_{i=1}^\infty \displaystyle {1 \over (i-1)!} {d \over d \lambda}(\lambda ^ i)\\
& = \lambda e^ {- \lambda}{d \over d \lambda}[\textstyle \sum_{i=1}^\infty \displaystyle {\lambda^i \over (i-1)!}]\\
& = \lambda e^ {- \lambda}{d \over d \lambda}[\lambda \textstyle \sum_{i=1}^\infty \displaystyle {\lambda^{i-1} \over (i-1)!}]\\
& = \lambda e^ {- \lambda}{d \over d \lambda} (\lambda e^{\lambda}) = \lambda e^ {- \lambda} (e^ {\lambda} + \lambda e ^{\lambda}) = \lambda + \lambda^2
\end{align}}
我们可以得到:
V
a
r
(
X
)
=
(
λ
+
λ
2
)
−
λ
2
=
λ
{\displaystyle Var(X) = (\lambda + \lambda ^2) - \lambda ^2 = \lambda}
如同性质:
E
(
X
)
=
V
a
r
(
X
)
=
λ
{\displaystyle E(X) = Var(X) = \lambda}
、
σ
X
=
λ
{\displaystyle \sigma_X = \sqrt{\lambda}}
泊松分布的来源(泊松小数定律)
在二项分布 的伯努利试验 中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= np 比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。
证明如下。首先,回顾e 的定义:
lim
n
→
∞
(
1
−
λ
n
)
n
=
e
−
λ
,
{\displaystyle \lim_{n\to\infty}\left(1-{\lambda \over n}\right)^n=e^{-\lambda},}
二项分布的定义:
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle P(X=k)={n \choose k} p^k (1-p)^{n-k}}
。
如果令
p
=
λ
/
n
{\displaystyle p = \lambda/n}
,
n
{\displaystyle n}
趋于无穷时
P
{\displaystyle P}
的极限:
lim
n
→
∞
P
(
X
=
k
)
=
lim
n
→
∞
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
lim
n
→
∞
n
!
(
n
−
k
)
!
k
!
(
λ
n
)
k
(
1
−
λ
n
)
n
−
k
=
lim
n
→
∞
[
n
!
n
k
(
n
−
k
)
!
]
⏟
F
(
λ
k
k
!
)
(
1
−
λ
n
)
n
⏟
→
exp
(
−
λ
)
(
1
−
λ
n
)
−
k
⏟
→
1
=
lim
n
→
∞
[
(
1
−
1
n
)
(
1
−
2
n
)
…
(
1
−
k
−
1
n
)
]
⏟
→
1
(
λ
k
k
!
)
(
1
−
λ
n
)
n
⏟
→
exp
(
−
λ
)
(
1
−
λ
n
)
−
k
⏟
→
1
=
(
λ
k
k
!
)
exp
(
−
λ
)
{\displaystyle
\begin{align}
\lim_{n\to\infty} P(X=k)&=\lim_{n\to\infty}{n \choose k} p^k (1-p)^{n-k} \\
&=\lim_{n\to\infty}{n! \over (n-k)!k!} \left({\lambda \over n}\right)^k \left(1-{\lambda\over n}\right)^{n-k}\\
&=\lim_{n\to\infty}
\underbrace{\left[\frac{n!}{n^k\left(n-k\right)!}\right]}_F
\left(\frac{\lambda^k}{k!}\right)
\underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to\exp\left(-\lambda\right)}
\underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1} \\
&= \lim_{n\to\infty}
\underbrace{\left[ \left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right) \ldots \left(1-\frac{k-1}{n}\right) \right]}_{\to 1}
\left(\frac{\lambda^k}{k!}\right)
\underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to\exp\left(-\lambda\right)}
\underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1} \\
&= \left(\frac{\lambda^k}{k!}\right)\exp\left(-\lambda\right)
\end{align}
}
最大似然估计(MLE)
给定n 个样本值k i ,希望得到从中推测出总体的泊松分布参数λ 的估计。为计算最大似然估计 值,列出对数似然函数:
L
(
λ
)
=
ln
∏
i
=
1
n
f
(
k
i
∣
λ
)
=
∑
i
=
1
n
ln
(
e
−
λ
λ
k
i
k
i
!
)
=
−
n
λ
+
(
∑
i
=
1
n
k
i
)
ln
(
λ
)
−
∑
i
=
1
n
ln
(
k
i
!
)
.
{\displaystyle
\begin{align}
L(\lambda) & = \ln \prod_{i=1}^n f(k_i \mid \lambda) \\
& = \sum_{i=1}^n \ln\!\left(\frac{e^{-\lambda}\lambda^{k_i}}{k_i!}\right) \\
& = -n\lambda + \left(\sum_{i=1}^n k_i\right) \ln(\lambda) - \sum_{i=1}^n \ln(k_i!). \end{align}
}
d
d
λ
L
(
λ
)
=
0
⟺
−
n
+
(
∑
i
=
1
n
k
i
)
1
λ
=
0.
{\displaystyle \frac{\mathrm{d}}{\mathrm{d}\lambda} L(\lambda) = 0
\iff -n + \left(\sum_{i=1}^n k_i\right) \frac{1}{\lambda} = 0. \!}
解得λ 从而得到一个驻点 (stationary point):
λ
^
M
L
E
=
1
n
∑
i
=
1
n
k
i
.
{\displaystyle \widehat{\lambda}_\mathrm{MLE}=\frac{1}{n}\sum_{i=1}^n k_i. \!}
检查函数L 的二阶导数,发现对所有的λ 与ki 大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L 的极大值点:
∂
2
L
∂
λ
2
=
∑
i
=
1
n
−
λ
−
2
k
i
{\displaystyle \frac{\partial^2 L}{\partial \lambda^2} = \sum_{i=1}^n -\lambda^{-2} k_i }
例子
对某公共汽车站的客流做调查,统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批(每批可以是1人也可以是多人)是互相独立发生的。观察每20秒区间来到候车的乘客批次,共观察77分钟*3=231次,共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计(MLE),得到
λ
{\displaystyle \lambda}
的估计为(81*1+34*2+9*3+6*4)/230≈0.87。
生成泊松分布的随机变量
一个用来生成随机泊松分布的数字(伪随机数抽样)的简单算法,已经由高德纳 给出(见下文参考):
algorithm poisson random number (Knuth) :
init :
Let L ← e −λ , k ← 0 and p ← 1.
do :
k ← k + 1.
Generate uniform random number u in [0,1] and let p ← p×u.
while p > L.
return k − 1.
尽管简单,但复杂度是线性的,在返回的值k ,平均是λ。还有许多其他算法来克服这一点。有些人由Ahrens和Dieter给出,请参阅下面的参考资料。同样,对于较大的λ值,e-λ 可能导致数值稳定性问题。对于较大λ值的一种解决方案是拒绝采样 ,另一种是采用泊松分布的高斯近似。
对于很小的λ值,逆变换取样简单而且高效,每个样本只需要一个均匀随机数u。直到有超过u 的样本,才需要检查累积概率。
algorithm Poisson generator based upon the inversion by sequential search :[1]
init :
Let x ← 0, p ← e −λ , s ← p.
Generate uniform random number u in [0,1].
do :
x ← x + 1.
p ← p * λ / x.
s ← s + p.
while u > s.
return x.
参见
参考文献
引用
来源
Guerriero V. Power Law Distribution: Method of Multi-scale Inferential Statistics . Journal of Modern Mathematics Frontier (JMMF). 2012, 1 : 21–28 [2017-10-30 ] .
Joachim H. Ahrens, Ulrich Dieter. Computer Methods for Sampling from Gamma, Beta, Poisson and Binomial Distributions. Computing. 1974, 12 (3): 223–246. doi:10.1007/BF02293108 .
Joachim H. Ahrens, Ulrich Dieter. Computer Generation of Poisson Deviates. ACM Transactions on Mathematical Software. 1982, 8 (2): 163–179. doi:10.1145/355993.355997 .
Ronald J. Evans, J. Boersma, N. M. Blachman, A. A. Jagers. The Entropy of a Poisson Distribution: Problem 87-6. SIAM Review. 1988, 30 (2): 314–317. doi:10.1137/1030059 .
Donald E. Knuth. Seminumerical Algorithms. The Art of Computer Programming. Volume 2. Addison Wesley . 1969.
有限支集 离散单变量
无限支集 离散单变量
紧支集 连续单变量
半无限区间支集 连续单变量
无限区间支集 连续单变量
可变类型支集 连续单变量
混合连续离散单变量
族