Deeper Learning

[Statistics 110] Lecture 25: Order Statistics and Conditional Expectations 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 25: Order Statistics and Conditional Expectations

Dlaiml 2023. 1. 28. 15:17

Beta Distribution & Gamma Distribution

베타분포와 감마분포의 관계

Bank-post office example

은행 대기시간을 $X \sim Gamma(a, \lambda)$, 우체국 대기시간을 $Y \sim Gamma(b,\lambda)$.

$X,Y$는 독립일 때, $T = X+Y, W = \frac{X}{X+Y}$의 joint distribution을 구하여라

계산의 편의를 위해 $\lambda$를 1로 두고 시작한다.

$$ f_{T,W}(t,w) = f_{X,Y}(x,y)|\frac{d(x,y)}{d(t,w)}| = \frac{1}{\Gamma(a)\Gamma(b)}x^ae^{-x}y^be^{-y}\frac1{xy}|J| $$

Jacobian을 구하고 식을 이어서 풀면

$$ x+y =t, \frac{x}{x+y} = w, x=tw, y=t-tw \\ |J| = \begin{vmatrix} w&t \\ 1-w& -t \end{vmatrix} = -wt-t+tw = |-t| = t\\\frac{1}{\Gamma(a)\Gamma(b)}x^ae^{-x}y^be^{-y}\frac1{xy}|J| = \frac{1}{\Gamma(a)\Gamma(b)}w^{a-1}(1-w)^{b-1}t^{a+b}e^{-t}\frac1{t} \\ = [\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}w^{a-1}(1-w)]^{b-1}]\times[\frac1{\Gamma(a+b)}t^{a+b}e^{-t}\frac1{t}] \\ T \sim Gamma(a+b,1) $$

마지막 줄 식에서 대괄호로 묶인 두번째 식을 보면 $Gamma(a+b,1)$과 같다는 것을 볼 수 있다.

그리고 t와 w의 식이 나뉘어 서로 독립이라는 것을 알 수 있다.

Marginal distribution 구하기

$$ f_W(w) = \int_{-\inf}^{inf}f_{T,W}(t,w)dt\\ = \int_{-\inf}^{inf}[\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}w^{a-1}(1-w)]^{b-1}]\times[\frac1{\Gamma(a+b)}t^{a+b}e^{-t}\frac1{t}] dt \\ =[\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}w^{a-1}(1-w)]^{b-1}]\int_{-\inf}^{inf}[\frac1{\Gamma(a+b)}t^{a+b}e^{-t}\frac1{t}]dt \\ = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}w^{a-1}(1-w)^{b-1} $$

$W$의 pdf가 베타분포와 같은것을 볼 수 있다.

이전에 구하지 않았던 베타분포의 정규화 상수도 위 식에서 얻을 수 있다.

$$ f(x) = cx^{a-1}(1-x)^{b-1}, 0<x<1 \\ W \sim Beta(a,b)\\T \sim Gamma(a+b,1) $$

$E(W)$를 구하는 방식은 LOTUS로 가능하나 T,W를 활용하는 방식도 있다.

$$ E(W) = E(\frac{X}{X+Y})\\T=X+Y, W=\frac{X}{X+Y} $$

T와 W는 독립이기 때문에

$E(T)E(W) = E(TW)$가 성립한다.

$$ E(\frac{X}{X+Y})E(X+Y) = E(X) \\ E(X) = a, E(X+Y) = a+b\\E(W) = \frac{a}{a+b} $$

Order Statistics(순서통계량)

$X_1,...,X_n$은 i.i.d

정의) $X_{(1)}\le X_{(2)}\le...\le X_{(n)}$.

$X_{(1)} = \min(X_1,...,X_n),X_{(n)} = \max(X_1,...,X_n)$.

서로 독립이 아닌 종속관계

PDF, CDF 구하기

$X_1,...X_n$이 PDF $f$, CDF $F$를 가지는 i.i.d를 따를 때, $X_{(j)}$의 PDF를 구하여라

$P(X_{(j)} \le x)$는 $X_{(i)}$중에서 적어도 j개가 x이하라는 것과 같다.

$x$ 왼쪽에 위치함을 성공인 시행, 그렇지 않으면 실패인 시행으로 정하면

$$ P(X_{(j)} \le x) = \sum_{k=j}^n \binom nk F(x)^k(1-F(x))^{n-k} $$

PDF는 위 식을 미분하여 얻을 수 있다.

더 직관적인 방법으로 다시 풀이해보기

위 그림처럼 매우 작은 구간 dx에 하나의 확률변수가 위치해있고 나머지는 그 구간의 왼쪽 또는 오른쪽에 위치해있다고 하자.

구간에 포함되는 확률변수의 경우의 수는 $n$.

구간에 확률변수가 위치할 확률 $f(x)dx$.

나머지는 아까와 같이 이항분포의 형태와 같다.

$$ f_{X_{(j)}}(x)dx = n\binom {n-1}{j-1}f(x)dxF(x)^{j-1}(1-F(x))^{n-j} \\f_{X_{(j)}}(x) = n\binom {n-1}{j-1}f(x)F(x)^{j-1}(1-F(x))^{n-j} $$

Uniform distribution의 순서통계량

$u_1,...,u_n$은 $Unif(0,1)$을 따르는 i.i.d

$$ f_{U(j)} = n\binom {n-1}{j-1}x^{j-1}(1-x)^{n-j} \\ U_{(j)} \sim Beta(j, n-j+1) $$

이를 활용하여 이전에 구한 균등분포의 두 점의 거리에 대한 기댓값을 Beta 분포를 활용하여 구할 수있다.

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo 

 

Statistics 110: Probability

Statistics 110 (Probability) has been taught at Harvard University by Joe Blitzstein (Professor of the Practice in Statistics, Harvard University) each year ...

www.youtube.com

 

Comments