Deeper Learning

[Statistics 110] Lecture 11: The Poisson distribution 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 11: The Poisson distribution

Dlaiml 2022. 12. 10. 12:26

확률변수와 확률분포의 혼동

확률변수 X, 확률변수 Y를 합하는 것은 확률변수 X가 따르는 확률분포와 Y가 따르는 확률분포를 합하는 것과 다름

X,Y가 이산확률변수라고 하면

$$ P(X+Y=k) \ne P(X=k) + P(Y=k) $$

확률변수 $X+Y$의 pmf는 새로 찾아야 함

확률변수가 집(랜덤)이라면 확률분포는 집의 설계도(문이 빨간색일 확률, 문이 파란색일 확률)

Poisson Distribution(포아송분포)

$X \sim Pois(\lambda)$

PMF

$$ P(X=k) = e^{-\lambda}\frac{\lambda^k}{k!}, k=\{0,1,...,\} $$

Expected value

$$ E(X) = e^{-\lambda}\sum_{k=0}^{\infin}k\frac{\lambda^k}{k!} = e^{-\lambda}\sum_{k=1}^{\infin}\frac{\lambda^k}{(k-1)!} = \lambda e^{-\lambda}\sum_{k=1}^{\infin}\frac{\lambda^{(k-1)}}{(k-1)!} = \lambda e^{-\lambda}\sum_{m=0}^{\infin}\frac{\lambda^{m}}{m!} = \lambda e^{-\lambda}e^\lambda = \lambda ,(f(x)=e^x, Maclaurin\space Series) $$

Story

많은 시도와 낮은 성공확률 상황에서 성공 횟수를 세는데 주로 적용

예시: 1시간에 받는 이메일의 개수, 초코쿠키안에 들어있는 초코칩의 수

Poisson Paradigm(포아송근사)

사건 $A_1,...,A_n$이 있고 $P(A_j) = p_j$, $n$이 크고 $p_j$가 작을 때 근사 가능 (많은 시도와 낮은 성공 확률)

각 사건이 독립이거나 약한 의존성(weakly dependent)을 가진다면 발생하는 사건 $A_j$의 횟수는 포아송분포로 근사가 가능하다.

$$ \lambda = \sum p_j $$

이항분포를 포아송분포로 근사

포아송분포는 $p_j$가 모두 달라도, 사건 간 약한 의존성이 있어도 사용가능하여 이항분포보다 일반적인 분포

$$ X\sim Bin(n,p) $$

이항분포에서 $n \rightarrow \infin, p \rightarrow 0$이며 $np = \lambda$ 가 고정된다면 이항확률변수 $X$의 분포는 포아송분포로 근사된다

$$ P(X=k) = \binom{n}{k}p^k(1-p)^{(n-k)} $$

$p = \lambda / n$ 을 대입하고 조합을 수식으로 표현하면

$$ \frac{n(n-1)...(n-k+1)\lambda^k}{k!n^k}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k} $$

$n \rightarrow \infin, p \rightarrow 0$ 를 적용하면

분자 분모 모두 n의 k승으로 로피탈의 정리에 따라 쉽게 계산 가능

$$ \frac{n(n-1)...(n-k+1)\lambda^k}{k!n^k} \rightarrow \frac{\lambda^k}{k!} $$

자연상수 $e$ 의 정의가 아래와 같기 때문에 이를 활용하여 구할 수 있음

$$ (1-\frac{\lambda}{n})^n = e^{-\lambda} $$

분모인 n이 무한으로 가기 때문에 해당 항이 0이 되어 계산 가능

$$ (1-\frac{\lambda}{n})^{-k} \rightarrow 1 $$

다시 모아서 보면 포아송분포의 pmf와 같은 것을 볼 수 있음

$$ \frac{\lambda^k}{k!}e^{-\lambda} $$

이항분포와 포아송분포의 직관

매우 많은 수의 타일로 구성된 한정된 공간에 비가 조금 오는 상황에서 해당 공간에 빗방울이 떨어지는 횟수를 세야하는 문제

이항분포로 문제를 풀 수 있으나 n이 매우 클 때 계산량이 매우 많아짐, 타일이 매우 많고(n), 각 타일마다 특정 시점에 빗방울이 떨어질 확률 낮기 떄문에(p) 포아송분포로 근사가능

n명의 사람이 있을 때, 3명의 생일이 겹치는 확률의 근사값

$\binom{n}{3}$개의 3명이 모인 그룹에서 3명의 생일이 같다는 사건의 지시확률변수를 $I_{ijk}, (i<j<k)$ 라고 하자

첫 번째 사람에게는 제약이 없고, 두 번째, 세 번째 사람은 첫 번째 사람의 생일과 같아야하기 때문에 식을 세우면

$$ E(\#triplet \space matches) = \binom{n}{3}\frac{1}{{365}^2} $$

포아송분포의 기댓값은 $\lambda$이기 때문에 포아송분포로 이를 근사한다면 $Pois(\lambda), \lambda=\binom{n}{3}\frac{1}{365^2}$.

이제 확률값을 구해보면

$$ 1 - P(X=0)\approx 1-\frac{e^{-\lambda}\lambda^0}{0!} = 1-e^{-\lambda} $$

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo 

Comments