Deeper Learning

[Statistics 110] Lecture 20: Multinomial and Cauchy 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 20: Multinomial and Cauchy

Dlaiml 2022. 12. 25. 17:30

2-D LOTUS

$Z_1,Z_2$가 i.i.d 표준정규분포를 따를 때, $E(|Z_1-Z_2|)$를 구하라

$X,Y$가 서로 독립이고 정규분포를 따를 때, $X+Y \sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$.

$Z_1-Z_2$는 N(0,2)를 따르기 때문에 $Z = \frac{x-\mu}{\sigma}$에서 $N(0,2)=\sqrt2Z$.

$$ \sqrt2 E(|Z|) = \sqrt2\int_{-\inf}^{inf}|z|\frac{1}{\sqrt{2\pi}}e^{-z^2/2}dz\\=\sqrt{\frac2\pi} $$

Multinomial Distribution(다항분포)

$\vec X\sim Mult(n,\vec p), \vec p=(p_1,...,p_k), p_j \le 0, \sum p_j = 1$.

여러 확률변수가 포함된 joint distribution

본 코스에서 처음 배우는 다변량분포

이항분포의 일반화 버전

Story

k개의 카테고리로 나눌 수 있는 object가 n개 존재. $p_j$는 object가 카테고리 j에 속할 확률.

$X_j$는 카테고리 j에 속하는 object의 개수

Joint PMF

$$ P(X_1=n_1, ...,X_k=n_k) = \frac{n!}{n_1!n_2!...n_k!}p_1^{n_1}p_2^{n_2}...p_k^{n^k}, (n_1+...+n_k = n) $$

marginal distribution

$\vec X\sim Mult_k(n,\vec p).$

$X_j$의 marginal distribution 구하기

카테고리 j에 속하는 시행을 성공, 아닐 경우를 실패라고 생각해보자. 바로 이항분포와 같은 형태다.

$X_j \sim Bin(n, p_j)$.

Conditional joint distribution

$\vec X \sim Mult_k(n,\vec p), given \space X_1=n_1$.

$$ (X_2,...,X_k) \sim Mult_{k-1}(n-n_1, (p'_2, p'_3,...,p'_k)) $$

단순하게 $p_1$를 제외하고 식을 쓰면 $p_j$의 모든 합이 1이 되지 않기 때문에 명백하게 오류가 있음을 알 수 있음.

$p'_2$는 P(카테고리 2에 속함 | 카테고리 1에 속하지 않음)이기 때문에 조건부확률 식을 이용하여 풀면

$$ p'_2 = \frac{p_2}{1-p_1} = \frac{p_2}{p_2+...+p_k}\\p'_j = \frac{p_j}{p_2+...+p_k} $$

Lumping Property

$\vec X = (X_1,X_2,...,X_{10}) \sim Mult(n,(p_1,...,p_{10}))$.

어떤 나라에 10개의 정당이 있고 n명의 국민들은 모두 어느 정당에 속해야 한다라는 이야기로 표현

$X_j$는 j정당에 속한 사람의 수, $p_j$는 j정당에 속할 확률

주력 정당인 1, 2정당을 제외한 3~10 정당을 “비주류 정당”이라고 이름 붙여 묶고 다시 식을 써보면

$$\vec Y = (X_1, X_2, X_3+...+X_{10}) \sim Mult(n,(p_1,p_2,p_3+...+p_{10})) $$

Cauchy Distribution(코시분포)

Cauchy Interview Problem

코시분포는 X,Y가 i.i.d 표준정규분포 N(0,1)일 때 $\frac XY$의 분포

기댓값이 발산

joint CDF ($\Phi$는 표준정규분포의 cdf)

$$ P(\frac{X}{Y} \le t) = P(\frac{X}{|Y|} \le t) = P(X \le t|Y|)\\ = \frac{1}{\sqrt{2\pi}} \int_{-\inf}^{\inf}e^{-y^2/2}\int_{-\inf}^{t|y|}e^{-x^2/2}dxdy \\= \frac{1}{\sqrt{2\pi}} \int_{-\inf}^{\inf}e^{-y^2/2}\Phi(t|y|) dy\\ =\sqrt{\frac{2}{\pi}} \int_{0}^{\inf}e^{-y^2/2}\Phi(ty) dy,(even \space function) $$

이제 적분을 하면 되는데 문제는 $\Phi$가 적분이 불가능한 intractable 함수로

모든 구간에서 연속이고 미분가능한 성질을 지니면(미분적분학 내용) 미분과 적분을 바꿔도 문제가 없는 well behaved 함수

PDF부터 구하면

$$ F'(t) = f(t) = \sqrt{\frac{2}{\pi}} \int_{0}^{\inf}ye^{-y^2/2}\frac {1}{\sqrt{2\pi}}e^{-t^2y^2/2} dy \\ = \frac{1}{\pi} \int_0^{\inf}ye^{-(1+t^2)y^2/2}dy \\u = (1+t^2)y^2/2, \frac{du}{dy} = y(1+t^2)\\du = y(1+t^2)dy \\ \frac{1}{\pi} \int_0^{\inf}ye^{-(1+t^2)y^2/2}d = \frac{1}{\pi} \int_0^{\inf}\frac1{1+t^2}e^{-u}du\\ = \frac1{\pi(1+t^2)} $$

CDF는 PDF를 적분한 arctan이 포함된 수식

LOTP 활용

$$ P(X \le t|Y|) = \int P(X \le t|Y||Y=y)f_Y(y) dy $$

독립이기 때문에 $P(X \le (t|Y|) | Y=y)$에서 조건 y를 대입 가능 (독립이 아니면 조건식을 없앨 수 없음)

$$ \int P(X \le t|Y||Y=y)f_Y(y) dy = \int P(X \le t|y|)f_Y(y) dy = \int \Phi(t|y|) f_Y(y) dy $$

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo 

 

Statistics 110: Probability

Statistics 110 (Probability) has been taught at Harvard University by Joe Blitzstein (Professor of the Practice in Statistics, Harvard University) each year ...

www.youtube.com

 

Comments