负二项分布

本页使用了标题或全文手工转换,现处于中国大陆简体模式
求闻百科,共笔求闻
负二项分布
概率质量函数
参数 ()
(实)
值域
概率质量函数
累积分布函数
期望值
众数
方差
偏度
峰度
矩生成函数
特征函数

负二项分布(Negative binomial distribution)是统计学上一种描述在一系列独立同分布的伯努利试验中,成功次数到达指定次数(记为r)时失败次数的离散概率分布。比如,如果我们定义掷骰子随机变量x值为x=1时为成功,所有x≠1为失败,这时我们反复掷骰子直到1出现3次(成功次数r=3),此时非1数字出现次数的概率分布即为负二项分布。

帕斯卡分布Pascal distribution,来自Blaise Pascal)和波利亚分布Polya distribution,又称罐子模型,来自George Pólya)均是负二项分布的特例。在工程,气候等领域中经常用“负二项分布”或“帕斯卡分布”来描述变量r为整数的情况,而使用“波利亚分布”来描述r取到实数值R的情况。

对于“传染性的”("contagious")的离散事件,例如龙卷风爆发,相比泊松分布,波利亚分布由于允许其平均值和方差不同,而能够给出更精确的模型。“传染性”的事件中,如果事件发生率相互独立,其发生率间的正相关性(即发生率间存在正协方差项)会导致变量分布有更大的方差。

“负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到r次成功时即终止的独立试验中,失败次数k的分布。

定义

若每次伯努利试验有两种可能的结果,分别为成功或者失败。在每次试验中,成功的概率为p,失败的概率为(1-p)。反复进行该伯努利试验,直到观察到第r次成功发生。此时试验失败次数的分布即为负二项分布(或称帕斯卡分布),那么:

若随机变量服从参数为的负二项分布,则记为.

在实际生活中,我们可以使用负二项分布描述某种机器在坏掉前,能够工作的天数的分布。此时,“成功”的事件可以指机器正常工作一天,“失败”的事件可以指机器故障的一天。如果我们使用负二项分布来描述运动员在获取r个奖牌前尝试的次数的分布,此时,“失败”的事件指运动员的一次尝试,“成功”的事件指运动员获取一枚奖牌。如果使用负二项分布来描述掷一枚硬币出现r次正面前,出现硬币反面的次数的分布,“成功”的事件指出现硬币的正面,“失败”的事件指出现硬币的反面。

概率质量函数

帕斯卡分布

是整数时的负二项分布又称帕斯卡分布,其概率质量函数为:

其中k是失败的次数,r是成功的次数,p是事件成功的概率。在负二项分布的概率质量函数中,由于k+r次伯努利试验为独立同分布,每个成功r次、失败k次的事件的概率为(1 − p)kpr。由于第r次成功一定是最后一次试验,所以应该在k+r-1次试验中选择r-1次成功,使用排列组合二项系数获取所有可能的选择数。

二项系数与负二项名称来源

括号中为二项式系数表达式:

该表达式可以写成带负值参数的二项系数的形式,如下式所示,解释了“负二项”名称的来源:

概率质量函数对所有可能k值求和为1

帕斯卡分布概率质量函数f(k;r,p)对所有可能k值求和,一定等于1:

证明如下:

其中第三步用到了二项序列展开。

几何分布

,负二项分布等于几何分布。其概率质量函数为

例子

举例说,若我们掷骰子,掷到一即视为成功。则每次掷骰的成功率是1/6。要掷出三次一,所需的掷骰次数属于集合{ 3, 4, 5, 6, ... }。掷到三次一的掷骰次数是负二项分布的随机变数。要在第三次掷骰时,掷到第三次一,则之前两次都要掷到一,其机率为。注意掷骰是伯努利试验,之前的结果不影响随后的结果。

若要在第四次掷骰时,掷到第三次一,则之前三次之中要有刚好两次掷到一,在三次掷骰中掷到2次1的机率为。第四次掷骰要掷到一,所以要将前面的机率再乘(1/6):

参见