Deeper Learning

[Statistics 110] Lecture 11: The Poisson distribution 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 11: The Poisson distribution

Dlaiml 2022. 12. 10. 12:26

확률변수와 확률분포의 혼동

확률변수 X, 확률변수 Y를 합하는 것은 확률변수 X가 따르는 확률분포와 Y가 따르는 확률분포를 합하는 것과 다름

X,Y가 이산확률변수라고 하면

P(X+Y=k)P(X=k)+P(Y=k)

확률변수 X+Y의 pmf는 새로 찾아야 함

확률변수가 집(랜덤)이라면 확률분포는 집의 설계도(문이 빨간색일 확률, 문이 파란색일 확률)

Poisson Distribution(포아송분포)

XPois(λ)

PMF

P(X=k)=eλλkk!,k={0,1,...,}

Expected value

E(X)=eλ\infink=0kλkk!=eλ\infink=1λk(k1)!=λeλ\infink=1λ(k1)(k1)!=λeλ\infinm=0λmm!=λeλeλ=λ,(f(x)=ex,Maclaurin Series)

Story

많은 시도와 낮은 성공확률 상황에서 성공 횟수를 세는데 주로 적용

예시: 1시간에 받는 이메일의 개수, 초코쿠키안에 들어있는 초코칩의 수

Poisson Paradigm(포아송근사)

사건 A1,...,An이 있고 P(Aj)=pj, n이 크고 pj가 작을 때 근사 가능 (많은 시도와 낮은 성공 확률)

각 사건이 독립이거나 약한 의존성(weakly dependent)을 가진다면 발생하는 사건 Aj의 횟수는 포아송분포로 근사가 가능하다.

λ=pj

이항분포를 포아송분포로 근사

포아송분포는 pj가 모두 달라도, 사건 간 약한 의존성이 있어도 사용가능하여 이항분포보다 일반적인 분포

XBin(n,p)

이항분포에서 n\infin,p0이며 np=λ 가 고정된다면 이항확률변수 X의 분포는 포아송분포로 근사된다

P(X=k)=(nk)pk(1p)(nk)

p=λ/n 을 대입하고 조합을 수식으로 표현하면

n(n1)...(nk+1)λkk!nk(1λn)n(1λn)k

n\infin,p0 를 적용하면

분자 분모 모두 n의 k승으로 로피탈의 정리에 따라 쉽게 계산 가능

n(n1)...(nk+1)λkk!nkλkk!

자연상수 e 의 정의가 아래와 같기 때문에 이를 활용하여 구할 수 있음

(1λn)n=eλ

분모인 n이 무한으로 가기 때문에 해당 항이 0이 되어 계산 가능

(1λn)k1

다시 모아서 보면 포아송분포의 pmf와 같은 것을 볼 수 있음

λkk!eλ

이항분포와 포아송분포의 직관

매우 많은 수의 타일로 구성된 한정된 공간에 비가 조금 오는 상황에서 해당 공간에 빗방울이 떨어지는 횟수를 세야하는 문제

이항분포로 문제를 풀 수 있으나 n이 매우 클 때 계산량이 매우 많아짐, 타일이 매우 많고(n), 각 타일마다 특정 시점에 빗방울이 떨어질 확률 낮기 떄문에(p) 포아송분포로 근사가능

n명의 사람이 있을 때, 3명의 생일이 겹치는 확률의 근사값

(n3)개의 3명이 모인 그룹에서 3명의 생일이 같다는 사건의 지시확률변수를 Iijk,(i<j<k) 라고 하자

첫 번째 사람에게는 제약이 없고, 두 번째, 세 번째 사람은 첫 번째 사람의 생일과 같아야하기 때문에 식을 세우면

E(#triplet matches)=(n3)13652

포아송분포의 기댓값은 λ이기 때문에 포아송분포로 이를 근사한다면 Pois(λ),λ=(n3)13652.

이제 확률값을 구해보면

1P(X=0)1eλλ00!=1eλ

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo