卜瓦松分布

泊松分布(法語:loi de Poisson;英語:Poisson distribution)又稱Poisson分布、帕松分布、布瓦松分布、布阿松分布、普阿松分布、波以松分布、卜氏分布、帕松小數法則(Poisson law of small numbers),是一種統計與概率學裡常見到的離散機率分布,由法國數學家西莫恩·德尼·泊松在1838年時發表。

泊松分布

概率质量函數横轴是索引k,发生次数。该函数只定义在k为整数的时候。连接线是只为了指导视觉。

累積分布函數横轴是索引k,发生次数。CDF在整数k处不连续,且在其他任何地方都是水平的,因为服从泊松分布的变量只针对整数值。参数

λ > 0(实数)值域

k

{

0

,

1

,

2

,

3

,

}

{\displaystyle k\in \{0,1,2,3,\cdots \}}

概率质量函数

λ

k

k

!

e

λ

{\displaystyle {\frac {\lambda ^{k}}{k!}}e^{-\lambda }}

累積分布函數

Γ

(

k

+

1

,

λ

)

k

!

{\displaystyle {\frac {\Gamma (\lfloor k+1\rfloor ,\lambda )}{\lfloor k\rfloor !}}}

,或

e

λ

i

=

0

k

λ

i

i

!

{\displaystyle e^{-\lambda }\sum _{i=0}^{\lfloor k\rfloor }{\frac {\lambda ^{i}}{i!}}\ }

,或

Q

(

k

+

1

,

λ

)

{\displaystyle Q(\lfloor k+1\rfloor ,\lambda )}

(对于

k

0

{\displaystyle k\geq 0}

,其中

Γ

(

x

,

y

)

{\displaystyle \Gamma (x,y)}

是不完全Γ函数,

k

{\displaystyle \lfloor k\rfloor }

是高斯符号,Q是规则化Γ函数)期望值

λ

{\displaystyle \lambda }

中位數

λ

+

1

/

3

0.02

/

λ

{\displaystyle \approx \lfloor \lambda +1/3-0.02/\lambda \rfloor }

眾數

λ

1

,

λ

{\displaystyle \lceil \lambda \rceil -1,\lfloor \lambda \rfloor }

方差

λ

{\displaystyle \lambda }

偏度

λ

1

/

2

{\displaystyle \lambda ^{-1/2}}

峰度

λ

1

{\displaystyle \lambda ^{-1}}

λ

[

1

log

(

λ

)

]

+

e

λ

k

=

0

λ

k

log

(

k

!

)

k

!

{\displaystyle \lambda [1-\log(\lambda )]+e^{-\lambda }\sum _{k=0}^{\infty }{\frac {\lambda ^{k}\log(k!)}{k!}}}

(假设

λ

{\displaystyle \lambda }

较大)

1

2

log

(

2

π

e

λ

)

1

12

λ

1

24

λ

2

{\displaystyle {\frac {1}{2}}\log(2\pi e\lambda )-{\frac {1}{12\lambda }}-{\frac {1}{24\lambda ^{2}}}-}

19

360

λ

3

+

O

(

1

λ

4

)

{\displaystyle \qquad {\frac {19}{360\lambda ^{3}}}+O\left({\frac {1}{\lambda ^{4}}}\right)}

矩生成函数

exp

(

λ

(

e

t

1

)

)

{\displaystyle \exp(\lambda (e^{t}-1))}

特徵函数

exp

(

λ

(

e

i

t

1

)

)

{\displaystyle \exp(\lambda (e^{it}-1))}

概率母函数

exp

(

λ

(

z

1

)

)

{\displaystyle \exp(\lambda (z-1))}

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、雷射的光子數分布等等。(單位時間內發生的次數,可以看作事件發生的頻率,類似物理的頻率

f

{\displaystyle f}

)。

泊松分布的機率質量函数为:

P

(

X

=

k

)

=

e

λ

λ

k

k

!

{\displaystyle P(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}}}

泊松分布的参数

λ

{\displaystyle \lambda }

是随机事件发生次数的数学期望值。

目录

1 记号

2 假设

3 性质

4 推導

5 泊松分布的来源(泊松小数定律)

6 最大似然估計(MLE)

7 例子

8 生成泊松分布的随机变量

9 参见

10 参考文献

10.1 引用

10.2 来源

记号

编辑

X

{\displaystyle X}

服从参数为

λ

{\displaystyle \lambda }

的泊松分布,记为

X

π

(

λ

)

{\displaystyle X\sim \pi (\lambda )}

,或记为

X

Poisson

(

λ

)

{\displaystyle X\sim {\text{Poisson}}(\lambda )}

.

假设

编辑

如果以下假设成立,则适用泊松分布:

k是一个非负整数,是某个事件在某个时间间隔内发生的次数。

一个事件的发生不会影响第二个事件的概率。

事件发生的平均速率与任何事件的发生无关。

两个事件不可能在同一时刻发生。

如果这些条件成立,则k是泊松随机变量;k的分布是泊松分布。

性质

编辑

服从泊松分布的随机变量,其数学期望与方差相等,同为参数

λ

{\displaystyle \lambda }

:

E

(

X

)

=

V

(

X

)

=

λ

{\displaystyle E(X)=V(X)=\lambda }

兩個獨立且服从泊松分布的随机变量,其和仍然服从泊松分布。更精確地說,若

X

Poisson

(

λ

1

)

{\displaystyle X\sim {\text{Poisson}}(\lambda _{1})}

Y

Poisson

(

λ

2

)

{\displaystyle Y\sim {\text{Poisson}}(\lambda _{2})}

,則

X

+

Y

Poisson

(

λ

1

+

λ

2

)

{\displaystyle X+Y\sim {\text{Poisson}}(\lambda _{1}+\lambda _{2})}

。反過來若兩個獨立隨機變量的和服從卜瓦松分布,則這兩個隨機變量經平移後皆服從卜瓦松分布(Raikov定理(英语:Raikov's theorem))。

其動差母函數为:

M

X

(

t

)

=

E

[

e

t

X

]

=

x

=

0

e

t

x

e

λ

λ

x

x

!

=

e

λ

x

=

0

(

e

t

λ

)

x

x

!

=

e

λ

(

e

t

1

)

{\displaystyle M_{X}(t)=E[e^{tX}]=\sum _{x=0}^{\infty }e^{tx}{\frac {e^{-\lambda }\lambda ^{x}}{x!}}=e^{-\lambda }\sum _{x=0}^{\infty }{\frac {({e^{t}}\lambda )^{x}}{x!}}=e^{{\lambda }(e^{t}-1)}}

推導

编辑

期望值:(倒數第三至第二是使用泰勒展開式)

E

(

X

)

=

i

=

0

i

P

(

X

=

i

)

=

i

=

1

i

e

λ

λ

i

i

!

=

λ

e

λ

i

=

1

λ

i

1

(

i

1

)

!

=

λ

e

λ

i

=

0

λ

i

i

!

=

λ

e

λ

e

λ

=

λ

{\displaystyle {\begin{aligned}\mathrm {E} (X)&=\sum _{i=0}^{\infty }\displaystyle iP(X=i)\\&=\sum _{i=1}^{\infty }\displaystyle i{e^{-\lambda }\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {\lambda ^{i-1} \over (i-1)!}\\&=\lambda e^{-\lambda }\sum _{i=0}^{\infty }\displaystyle {\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }e^{\lambda }\\&=\lambda \end{aligned}}}

E

(

X

2

)

=

i

=

0

i

2

P

(

X

=

i

)

=

i

=

1

i

2

e

λ

λ

i

i

!

=

λ

e

λ

i

=

1

i

λ

i

1

(

i

1

)

!

=

λ

e

λ

i

=

1

1

(

i

1

)

!

d

d

λ

(

λ

i

)

=

λ

e

λ

d

d

λ

[

i

=

1

λ

i

(

i

1

)

!

]

=

λ

e

λ

d

d

λ

[

λ

i

=

1

λ

i

1

(

i

1

)

!

]

=

λ

e

λ

d

d

λ

(

λ

e

λ

)

=

λ

e

λ

(

e

λ

+

λ

e

λ

)

=

λ

+

λ

2

{\displaystyle {\begin{aligned}\mathrm {E} (X^{2})&=\sum _{i=0}^{\infty }\displaystyle i^{2}P(X=i)\\&=\sum _{i=1}^{\infty }\displaystyle i^{2}{e^{-\lambda }\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {i\lambda ^{i-1} \over (i-1)!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {1 \over (i-1)!}{d \over d\lambda }(\lambda ^{i})\\&=\lambda e^{-\lambda }{d \over d\lambda }\left[\sum _{i=1}^{\infty }\displaystyle {\lambda ^{i} \over (i-1)!}\right]\\&=\lambda e^{-\lambda }{d \over d\lambda }\left[\lambda \sum _{i=1}^{\infty }\displaystyle {\lambda ^{i-1} \over (i-1)!}\right]\\&=\lambda e^{-\lambda }{d \over d\lambda }(\lambda e^{\lambda })=\lambda e^{-\lambda }(e^{\lambda }+\lambda e^{\lambda })=\lambda +\lambda ^{2}\end{aligned}}}

我們可以得到:

V

a

r

(

X

)

=

(

λ

+

λ

2

)

λ

2

=

λ

{\displaystyle Var(X)=(\lambda +\lambda ^{2})-\lambda ^{2}=\lambda }

如同性質:

E

(

X

)

=

V

a

r

(

X

)

=

λ

{\displaystyle E(X)=Var(X)=\lambda }

σ

X

=

λ

{\displaystyle \sigma _{X}={\sqrt {\lambda }}}

相互獨立的卜瓦松分佈隨機變數之和仍服從卜瓦松分佈:

X

Poisson

(

λ

1

)

,

Y

Poisson

(

λ

2

)

.

{\displaystyle X\sim {\text{Poisson}}(\lambda _{1}),Y\sim {\text{Poisson}}(\lambda _{2}).}

P

(

X

=

k

1

)

=

λ

1

k

1

e

λ

1

k

1

!

,

P

(

Y

=

k

2

)

=

λ

2

k

2

e

λ

2

k

2

!

.

{\displaystyle P(X=k_{1})={\dfrac {\lambda _{1}^{k_{1}}e^{-\lambda _{1}}}{k_{1}!}},P(Y=k_{2})={\dfrac {\lambda _{2}^{k_{2}}e^{-\lambda _{2}}}{k_{2}!}}.}

P

(

X

+

Y

=

k

)

=

i

=

0

k

P

(

X

=

i

)

P

(

Y

=

k

i

)

=

i

=

0

k

λ

1

i

λ

2

k

i

e

(

λ

1

+

λ

2

)

i

!

(

k

i

)

!

=

e

(

λ

1

+

λ

2

)

k

!

i

=

0

k

C

k

i

λ

1

i

λ

2

k

i

=

e

(

λ

1

+

λ

2

)

(

λ

1

+

λ

2

)

k

k

!

{\displaystyle {\begin{aligned}P(X+Y=k)&=\sum _{i=0}^{k}P(X=i)P(Y=k-i)\\&=\sum _{i=0}^{k}{\frac {\lambda _{1}^{i}\lambda _{2}^{k-i}e^{-(\lambda _{1}+\lambda _{2})}}{i!(k-i)!}}\\&={\frac {e^{-(\lambda _{1}+\lambda _{2})}}{k!}}\sum _{i=0}^{k}C_{k}^{i}\lambda _{1}^{i}\lambda _{2}^{k-i}\\&={\frac {e^{-(\lambda _{1}+\lambda _{2})}(\lambda _{1}+\lambda _{2})^{k}}{k!}}\end{aligned}}}

X

+

Y

Poisson

(

λ

1

+

λ

2

)

{\displaystyle X+Y\sim {\text{Poisson}}(\lambda _{1}+\lambda _{2})}

泊松分布的来源(泊松小数定律)

编辑

在二项分布的伯努利试验中,如果试验次数

n

{\displaystyle n}

很大,二项分布的概率

p

{\displaystyle p}

很小,且乘积

λ

=

n

p

{\displaystyle \lambda =np}

比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散時間上的对应物。

证明如下。首先,回顾自然對數

e

{\displaystyle e}

的定义:

lim

n

(

1

λ

n

)

n

=

e

λ

,

{\displaystyle \lim _{n\to \infty }\left(1-{\lambda \over n}\right)^{n}=e^{-\lambda },}

二项分布的定义:

P

(

X

=

k

)

=

(

n

k

)

p

k

(

1

p

)

n

k

{\displaystyle P(X=k)={n \choose k}p^{k}(1-p)^{n-k}}

如果令

p

=

λ

n

{\displaystyle p={\frac {\lambda }{n}}}

n

{\displaystyle n}

趋于无穷时

P

{\displaystyle P}

的极限:

lim

n

P

(

X

=

k

)

=

lim

n

(

n

k

)

p

k

(

1

p

)

n

k

=

lim

n

n

!

(

n

k

)

!

k

!

(

λ

n

)

k

(

1

λ

n

)

n

k

=

lim

n

[

n

!

n

k

(

n

k

)

!

]

F

(

λ

k

k

!

)

(

1

λ

n

)

n

exp

(

λ

)

(

1

λ

n

)

k

1

=

lim

n

[

(

1

1

n

)

(

1

2

n

)

(

1

k

1

n

)

]

1

(

λ

k

k

!

)

(

1

λ

n

)

n

exp

(

λ

)

(

1

λ

n

)

k

1

=

(

λ

k

k

!

)

exp

(

λ

)

{\displaystyle {\begin{aligned}\lim _{n\to \infty }P(X=k)&=\lim _{n\to \infty }{n \choose k}p^{k}(1-p)^{n-k}\\&=\lim _{n\to \infty }{n! \over (n-k)!k!}\left({\lambda \over n}\right)^{k}\left(1-{\lambda \over n}\right)^{n-k}\\&=\lim _{n\to \infty }\underbrace {\left[{\frac {n!}{n^{k}\left(n-k\right)!}}\right]} _{F}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\lim _{n\to \infty }\underbrace {\left[\left(1-{\frac {1}{n}}\right)\left(1-{\frac {2}{n}}\right)\ldots \left(1-{\frac {k-1}{n}}\right)\right]} _{\to 1}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\left({\frac {\lambda ^{k}}{k!}}\right)\exp \left(-\lambda \right)\end{aligned}}}

最大似然估計(MLE)

编辑

给定

n

{\displaystyle n}

个样本值

k

i

{\displaystyle k_{i}}

,希望得到从中推测出总体的泊松分布参数

λ

{\displaystyle \lambda }

的估计。为计算最大似然估计值,列出对数似然函数:

L

(

λ

)

=

ln

i

=

1

n

f

(

k

i

λ

)

=

i

=

1

n

ln

(

e

λ

λ

k

i

k

i

!

)

=

n

λ

+

(

i

=

1

n

k

i

)

ln

(

λ

)

i

=

1

n

ln

(

k

i

!

)

.

{\displaystyle {\begin{aligned}L(\lambda )&=\ln \prod _{i=1}^{n}f(k_{i}\mid \lambda )\\&=\sum _{i=1}^{n}\ln \!\left({\frac {e^{-\lambda }\lambda ^{k_{i}}}{k_{i}!}}\right)\\&=-n\lambda +\left(\sum _{i=1}^{n}k_{i}\right)\ln(\lambda )-\sum _{i=1}^{n}\ln(k_{i}!).\end{aligned}}}

d

d

λ

L

(

λ

)

=

0

n

+

(

i

=

1

n

k

i

)

1

λ

=

0.

{\displaystyle {\frac {\mathrm {d} }{\mathrm {d} \lambda }}L(\lambda )=0\iff -n+\left(\sum _{i=1}^{n}k_{i}\right){\frac {1}{\lambda }}=0.\!}

解得λ从而得到一个驻点(stationary point):

λ

^

M

L

E

=

1

n

i

=

1

n

k

i

.

{\displaystyle {\widehat {\lambda }}_{\mathrm {MLE} }={\frac {1}{n}}\sum _{i=1}^{n}k_{i}.\!}

检查函数

L

{\displaystyle L}

的二阶导数,发现对所有的

λ

{\displaystyle \lambda }

k

i

{\displaystyle k_{i}}

大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数

L

{\displaystyle L}

的极大值点:

2

L

λ

2

=

i

=

1

n

λ

2

k

i

{\displaystyle {\frac {\partial ^{2}L}{\partial \lambda ^{2}}}=\sum _{i=1}^{n}-\lambda ^{-2}k_{i}}

例子

编辑

对某公共汽车站的客流做调查,统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批(每批可以是1人也可以是多人)是互相独立发生的。观察每20秒区间来到候车的乘客批次,共观察77分钟*3=231次,共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计(MLE),得到

λ

{\displaystyle \lambda }

的估计为

81

×

1

+

34

×

2

+

9

×

3

+

6

×

4

230

0.87

{\displaystyle {\frac {81\times 1+34\times 2+9\times 3+6\times 4}{230}}\approx 0.87}

生成泊松分布的随机变量

编辑

一个用来生成随机泊松分布的数字(伪随机数抽样)的简单算法,已经由高德纳给出(见下文参考):

algorithm poisson random number (Knuth):

init:

Let L ← e−λ, k ← 0 and p ← 1.

do:

k ← k + 1.

Generate uniform random number u in [0,1] and let p ← p×u.

while p > L.

return k − 1.

尽管简单,但复杂度是线性的,在返回的值

k

{\displaystyle k}

,平均是

λ

{\displaystyle \lambda }

。还有许多其他算法来克服这一点。有些人由Ahrens和Dieter给出,请参阅下面的参考资料。同样,对于较大的

λ

{\displaystyle \lambda }

值,

e

λ

{\displaystyle e^{-\lambda }}

可能导致数值稳定性问题。对于较大

λ

{\displaystyle \lambda }

值的一种解决方案是拒绝采样,另一种是采用泊松分布的高斯近似。

对于很小的

λ

{\displaystyle \lambda }

值,逆变换取样简单而且高效,每个样本只需要一个均匀随机数u。直到有超过

u

{\displaystyle u}

的样本,才需要检查累积概率。

algorithm Poisson generator based upon the inversion by sequential search:[1]

init:

Let x ← 0, p ← e−λ, s ← p.

Generate uniform random number u in [0,1].

do:

x ← x + 1.

p ← p * λ / x.

s ← s + p.

while u > s.

return x.

参见

编辑

泊松过程

概率论

泊松回归

概率分布

参考文献

编辑

引用

编辑

^ Luc Devroye, Non-Uniform Random Variate Generation(Springer-Verlag, New York, 1986), chapter 10, page 505 http://luc.devroye.org/rnbookindex.html (页面存档备份,存于互联网档案馆)

来源

编辑

Guerriero V. Power Law Distribution: Method of Multi-scale Inferential Statistics. Journal of Modern Mathematics Frontier (JMMF). 2012, 1: 21–28 [2017-10-30]. (原始内容存档于2018-02-21).

Joachim H. Ahrens, Ulrich Dieter. Computer Methods for Sampling from Gamma, Beta, Poisson and Binomial Distributions. Computing. 1974, 12 (3): 223–246. doi:10.1007/BF02293108.

Joachim H. Ahrens, Ulrich Dieter. Computer Generation of Poisson Deviates. ACM Transactions on Mathematical Software. 1982, 8 (2): 163–179. doi:10.1145/355993.355997.

Ronald J. Evans, J. Boersma, N. M. Blachman, A. A. Jagers. The Entropy of a Poisson Distribution: Problem 87-6. SIAM Review. 1988, 30 (2): 314–317. doi:10.1137/1030059.

Donald E. Knuth. Seminumerical Algorithms. The Art of Computer Programming. Volume 2. Addison Wesley. 1969.


“最严禁酒令”动销调研:白酒经销商何去何从?
仙侠世界2哪个职业好 仙侠世界2零氪职业推荐