Deeper Learning

[Statistics 110] Lecture 19: Joint, Conditional, and Marginal Distributions 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 19: Joint, Conditional, and Marginal Distributions

Dlaiml 2022. 12. 24. 22:42

Joint, Conditional, Marginal Distribution

joint CDF(discrete & continuous)

$$ F(x,y) = P(X \le x, Y \le y) $$

joint PDF(continuous)

$$ f(x,y) = \frac{d}{dxdy}F(x,y)\\P((x,y) \in A) = \int\int_Af(x,y)dxdy $$

marginal PDF of X

$$ \int f(x,y)dy $$

PDF of conditional distribution Y|X

독립

$f(x,y)= \frac1\pi,(x^2+y^2\le1, 0 \space otherwise)$.

위 식에서 X의 marginal distribution을 구하면

$$ f_X(x) = \int_{-\sqrt{1-x^2}}^{\sqrt{1-x^2}}\frac1\pi dy = \frac2\pi\sqrt{1-x^2},(-1 \le x \le 1) $$

Y|X의 pdf

$$ f_{Y|X}(y|x) = \frac{joint\space pdf}{marginal \space pdf} = \frac{1/\pi}{ \frac2\pi\sqrt{1-x^2}} $$

$Y$의 분포에서 $x$는 상수이기 때문에 $Y|X=x \sim unif(-\sqrt{1-x^2}, \sqrt{1-x^2})$.

$f_Y(y)$와 $f_{Y|X}(y|x)$가 다르기 때문에 $X,Y$는 독립이 아님

2-D LOTUS

정의)

$X,Y$가 jonit PDF $f(x,y)$를 가지고 $g(x,y)$가 $x,y$에 대한 함수라면

$E(g(X,Y)) = \int\int g(x,y)f(x,y)dxdy$.

LOTUS를 활용하면 $X,Y$가 독립일 때, $E(XY) = E(X)E(Y)$를 증명 가능

$$ E(XY) = \int_{-\inf}^{\inf}\int_{-\inf}^{\inf}xyf_X(x)f_Y(y)dxdy\\ = \int_{-\inf}^{\inf}yf_Y(y)\int_{-\inf}^{\inf}xf_X(x)dxdy = \int_{-\inf}^{\inf}yf_Y(y)E(X)dy = E(X)E(Y) $$

$X,Y$는 i.i.d이며 Unif(0,1)을 따를 때, $E|X-Y|$를 구하여라

$$ E(|X-Y|) = \int_0^1\int_0^1|x-y|1dxdy =\\ \int\int_{x>y}(x-y)dxdy+\int\int_{x<y}(y-x)dxdy\\ = 2\int\int_{x>y}(x-y)dxdy = 2\int_0^1\int_{y}^1(x-y)dxdy = 1/3 $$

두 균등분포에 위치하는 점 X,Y의 평균 거리는 1/3

다른 관점으로 보아 $M = \max(X,Y), L = \min(X,Y)$라고 하면

$$ |X-Y| = M-L\\E(M-L) = 1/3\\E(M) - E(L) = 1/3\\E(M)+E(L) = E(X)+E(Y) = 1\\ \therefore E(M) = \frac23, E(L)=\frac13 $$

Chicken-egg problem

$N\sim Pois(\lambda)$개의 달걀이 있고, 각 달걀은 독립적인 $Bern(p)$에 따라 부화한다.

부화한 달걀의 수를 $X$라고 하면 $X|N \sim Bin(N,p)$.

$Y$를 부화하지 못한 달걀의 수라고 하자.

joint PMF $f_{X,y}(x,y)$를 구하여라.

$$ P(X=i, Y=j) = \sum P(X=i,Y=j|N=n)P(N=n) \\ $$

생각해보면 $P(X=3,Y=5|N=10)P(N=10)$은 당연하게도 0이다.

이렇게 가능한 N에 대해서 많은 값들이 0을 가지고 결국 남는것은 $N= i+j$인 경우이다.

$$ \sum P(X=i,Y=j|N=i+j)P(N=i+j) \\ = \sum P(X=i|N=i+j)P(N=i+j)\\=\binom{i+j}{i}p^iq^je^{-\lambda}\frac {\lambda^{(i+j)}}{(i+j)!}\\ =\frac{(i+j)!}{i!j!}p^iq^j\frac{e^{-\lambda}\lambda^{i+j}}{(i+j)!} = e^{-\lambda p}\frac{(\lambda p)^i}{i!}e^{-\lambda q}\frac{(\lambda q)^j}{j!},(e^{-\lambda} = e^{-\lambda(p+q)}) $$

결합분포의 pmf식이 2개의 포아송분포의 pmf로 나뉘어졌다.

$X \sim Pois(\lambda p), Y \sim Pois(\lambda q)$.

N이 포아송분포를 따를 때만 성립하는, 직관과 반대되는 결과

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo 

 

Statistics 110: Probability

Statistics 110 (Probability) has been taught at Harvard University by Joe Blitzstein (Professor of the Practice in Statistics, Harvard University) each year ...

www.youtube.com

 

Comments