Deeper Learning

[Statistics 110] Lecture 27: Conditional Expectation given an R.V. 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 27: Conditional Expectation given an R.V.

Dlaiml 2023. 1. 28. 15:42

Conditional Expectation

$X \sim N(0,1), Y=X^2$이면

$E(Y|X) = E(X^2|X) = X^2 = Y \\E(X|Y) = E(X|X^2) = 0$.

바로 위 식이 0이되는 이유는 $X^2$이 $a$라고 생각해보면 $X = \pm \sqrt a$이며 따라서 $X$의 기댓값은 둘의 평균인 0이 된다.

막대 부러뜨리기 문제

길이가 1인 막대를 무작위 지점에서(Uniform) 부러뜨린다. 부러뜨려 얻은 좌측 조각을 다시 무작위 지점에서 부러뜨려 얻은 막대 조각의 길이의 기댓값은?

첫 번째로 부러뜨리는 지점을 $X$, 두 번째로 부러뜨리는 지점을 $Y$라고 하자.

$$ X \sim Unif(0,1)\\Y|X \sim Unif(0,X)\\E(Y|X=x) = \frac x2\\E(E(Y|X)) = E(\frac x 2) = \frac 1 4 = E(Y) $$

 

조건부 기댓값의 성질

  • $E(h(X)Y|X) = h(x)E(Y|X)$.
    • 아는 것 빼내기 성질
  • $X,Y$가 독립이면 $E(Y|X) = E(Y)$.
  • $E(E(Y|X)) = E(Y)$.
  • $E((Y-E(Y|X))h(X)) = 0$.
    • $Cov(Y-E(Y|X),h(X))=E((Y-E(Y|X))h(X)) - E(Y-E(Y|X))E(h(X)) = E((Y-E(Y|X))h(X))$

4번째 성질은 X에 관한 함수와 잔차의 비상관관계를 말한다.

4번째 성질의 공분산 수식 전개에서 $E(Y-E(Y|X))$는 3번 성질과 기댓값의 linearity에 의해 0이 된다.

4번째 성질에 대한 기하학적 직관

$X$의 모든 함수를 평면이라고 하고 $Y$를 특정함수(점) 이라고 하면 $E(Y|X)$는 $Y$에 가장 가까운 평면에서의 한 지점이라고 할 수 있다.(Projection의 개념)

이제 평면과 잔차인 $Y-E(Y|X)$는 서로 수직이기 때문에 내적 $E(XY) =0$이 된다.

4번째 성질 증명

$$ proof)\space E((Y-E(Y|X))h(X)) = 0\\E(Yh(X)) - E(E(Y(X)h(X)) \\ = E(Yh(X))-E(E(Yh(X)|X)) \\ = E(Yh(X))-E(Yh(X)) = 0 $$

먼저 분배법칙과 선형성을 사용해서 식을 두 항으로 나누고, 1번째 성질과, 3번째 성질을 사용하여 식을 전개하여 증명

3번째 성질인 Iterated Expectation or Adam’s Law에 대한 증명 (discrete case)

$$ proof) \space E(E(Y|X)) = E(Y)\\ Let\space E(Y|X) = g(X)\\E(g(X)) = \sum_x g(x)P(X=x) = \sum_xE(Y|X=x)P(X=x)\\=\sum_x(\sum_yyP(Y=y|X=x))P(X=x)\\ = \sum_y(\sum_xyP(Y=y,X=x) \\ =\sum_yy(\sum_xP(Y=y,X=x)\\ = \sum_yyP(Y=y) = E(Y)

$$

Conditional Variance

$$ Var(Y|X) = E(Y^2|X) - E(Y|X)^2 = E((Y-E(Y|X)^2|X) $$

조건부 분산의 성질(EVE’s Law)

$Var(Y) = E(Var(Y|X)) + Var(E(Y|X))$.

E - Var - Var - E가 수식에 나타나서 EVVE → EVE’s Law라고 이름 붙여짐 (a.k.a law of total variance)

X=1,2,3인 세 그룹이 있다. 식을 보면 $E(Var(Y|X))$는 각 그룹의 $Y$값의 분산을 보고 기댓값을 구하는 그룹내부의 분산에 대한 직관이고 $Var(E(Y|X))$는 각 그룹의 평균 $Y$의 분산을 말하는 그룹끼리의 분산이다.

즉, 그룹 내부의 그룹 끼리의 분산을 더한것이 $Y$의 분산과 같다는 직관

예제) 어떤 주에서 무작위로 도시를 고르고 그 도시에서 무작위로 표본 n명을 뽑는다. $X$는 표본 중 질병을 가지고 있는 사람의 수를 나타내고, $Q$는 해당 도시에서 실제로 감염된 사람의 비율일 때,$E(X),Var(X)$를 구하여라 ($단, Q \sim Beta(a,b),X|Q \sim Bin(n,Q))$.

$$ E(X) = E(E(X|Q))= E(nq)= n\frac{a}{a+b}\\Var(X) = E(Var(X|Q))+Var(E(X|Q)) = E(nQ(1-Q))+n^2Var(Q)\\ E(Q(1-Q)) = \int_0^1q(1-q)\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}q^{a-1}(1-q)^{b-1}dq = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b+1)}{\Gamma(a+b+2)}=\frac{ab}{(a+b+1)(a+b)} \\ Var(Q) = \frac{\mu (1-\mu)}{a+b+a}, (\mu = E(Q) = \frac a{a+b}) $$

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo 

 

Comments