Deeper Learning

[Statistics 110] Lecture 15: Midterm Review 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 15: Midterm Review

Dlaiml 2022. 12. 17. 16:28

Coupon Collector

뽑기 상품에서 같은 확률로 등장하는 n개 종류의 장난감이 있다. 이를 모두 수집하기 위해 뽑기를 평균 몇 번 해야할까?

$T_j$를 j 번째 장난감을 얻기까지의 시도 횟수라고 하자

$T =T_1+T_2+...+T_n$.

$T_1$은 무엇이든 뽑으면 바로 성공이기 때문에 1이고, $T_2$는 이제 성공확률이 n/n(n-1)인 시행이 되어 기하분포로 표현이 가능 $T_2-1 \sim Geom(\frac {n-1}{n})$.

일반화한 식은

$$ T_j -1 \sim Geom(\frac{n-(j-1)}{n}) \\ E(T) = E(T_1)+...+E(T_n) = 1+\frac{n}{n-1} + ... + \frac n1 \\ =n(1+\frac 12 + ... + \frac 1n) $$

n이 충분히 크다면 조화급수를 log가 포함된 식으로 근사가능 ($=nlogn$)

Universality of Uniform distribution(균등분포의 보편성)

$X$는 cdf $F$를 따른다

$X$를 자기자신의 cdf인 $F$에 넣으면 균등분포가 나온다.

$F(x) = 1/3$인 지점을 고르고 $x$를 $x_0$이라고 하자

$$ F(x_0) = \frac13 \\ P(F(X)\le\frac13) = P(X \le x_0) = F(x_0) = \frac13 $$

$P(F(X) \le \frac13) = \frac13$으로 $F(X)$는 길이와 확률이 비례하는 균등분포다

$$ F(X) \sim Unif(0,1) $$

로지스틱 분포를 균등분포의 보편성을 통해 나타내보면

$$ F(X) = \frac{e^x}{1+e^x} \\ F^{-1}(u) = \log \frac{u}{1-u} $$

$F^{-1}(u)$를 사용해서 균등분포를 샘플링 함으로써 로지스틱 분포에서 샘플링이 가능

Linearity

r.v X,Y,Z가 iid이며 양의 값을 가질 때, $E(\frac X{X+Y+Z})$를 구하시오.

대칭성에 의해

$$ E(\frac X{X+Y+Z}) = E(\frac Y{X+Y+Z}) =E(\frac Z{X+Y+Z})\\E(\frac X{X+Y+Z}) = E(\frac Y{X+Y+Z})+E(\frac Z{X+Y+Z}) = 1\\E(\frac X{X+Y+Z}) = 1 $$

LOTUS

$$ u\sim unif(0,1),X = u^2, Y = e^X \\find \space E(Y) \space as \space \int $$

$f_X(x)$가 $X$의 pdf라면 $E(Y) = \int_0^1e^xf_X(x)dx$로 LOTUS에 의해 표현이 가능

그 후 $X$의 $P(u^2 \le x) = P( u \le \sqrt x) = \sqrt x$ 식으로 cdf를 구하고 미분해서 pdf를 구하며 식을 풀어나가도 되지만 아래 식과 같이 한 번에 수식을 정리할 수도 있음

$$ E(Y) = \int_0^1e^{u^2}f_u(u)du = \int_0^1e^{u^2}1du
$$

Story

$X \sim Bin(n,p)$, $n - X$의 분포를 구해라

이항분포의 pmf에서 식을 전개하면

$$ P(n-X = k) = P(X = n -k) = \binom{n}{n-k}p^{n-k}q^k \\ = \binom{n}{k}q^kp^{n-k} $$

story의 직관으로도 바로 풀 수 있는데, 이항분포는 독립적인 n번의 베르누이 시행에서 성공 횟수를 나타내기 때문에 n-X는 실패 횟수를 나타내는 확률변수이기 때문에 p와 q를 바꾸면 $n-X \sim Bin(n,q)$로 바로 답이 나오게된다

Poisson Distribution

일정시간 $t$동안 받은 이메일의 개수가 $Pois(\lambda t)$를 따른다.

첫 번째 이메일을 받는 시간을 나타내는 확률변수가 $T$라고 하면 $T$의 pdf를 구하시오

$t$ 시간까지 메일을 하나도 받지 않을 확률은 $P(N_t =0) = P(T > t)$로 표현할 수 있음

0개의 메일을 t시간 동안 받을 확률을 포아송분포의 pmf를 사용하여 구하면

$$ e^{-\lambda t}\frac{(\lambda t)^0} {0!} = e^{-\lambda t} $$

T의 CDF는 $1-e^{-\lambda t}$와 같고 이를 미분하여 pdf를 구할 수 있다

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo 

 

Statistics 110: Probability

Statistics 110 (Probability) has been taught at Harvard University by Joe Blitzstein (Professor of the Practice in Statistics, Harvard University) each year ...

www.youtube.com

 

Comments