Deeper Learning

[Statistics 110] Lecture 9: Expectation, Indicator Random Variables, Linearity 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 9: Expectation, Indicator Random Variables, Linearity

Dlaiml 2022. 12. 8. 21:53

Average, Expected values, Mean은 아래에서 모두 같은 의미로 사용

CDF

$F(x) = P(X\le x)$

  • cdf에서 pmf를 구하고 싶으면 값이 뛰는 수치를 계산
  • cdf $F$를 사용하여 $P(1<X\le3)$을 구하면

$$ P(X\le1)+P(1<X<3) = P(X\le3) $$

$$ P(1<X\le3) = F(3) - F(1) $$

  • 이산확률변수에서 부등호는 중요

CDF의 속성

  • increasing
  • right continuous
  • x가 -inf로 가면 0으로, x가 inf로 가면 1로

Independence of Random variables

X,Y 는 indep. r.v.s if

$$ P(X\le x, Y \le y) = P(X \le x)P(Y \le y) \space for \space all \space x,y $$

Average(Means, Expected Values)

  • 모두 더하고 나누는 방식 (1+2+3+4+5+6)/6 = 3.5
  • 1,1,1,1,1,3,3,5의 평균을 가중치를 주어 계산
    • 5/8 * 1 + 2/8 * 3 + 1/8 * 5

이산확률변수의 Average

$$ E(X) = \sum_{x}xP(X=x) $$

  • 시그마 내부의 x가 value고 pmf가 가중치

베르누이 분포의 Average

$$ E(X) = 1P(X=1)+0P(X=0) = p $$

indicator r,v(지시확률변수)

  • 사건 A가 발생하면 X가 1, 그렇지 않으면 0인 확률변수 $X$
  • $E(X) = P(A)$
  • 기댓값과 확률을 이어주어 여러 해석이 가능

이항분포의 Average

$X \sim Bin(n,p)$

$$ E(X) = \sum_{k=0}^{n}k\binom{n}{k}p^kq^{n-k} = \sum_{k=1}^{n}n\binom{n-1}{k-1}p^kq^{n-k} = np\sum_{k=1}^{n}\binom{n-1}{k-1}p^{k-1}q^{n-k} = np\sum_{j=0}^{n}\binom{n-1}{j}p^{j}q^{n-1-j}, (j=k-1) = np $$

수식의 전개는 우선 축구부 n명에서 대표팀 k명, 대표팀의 주장 1명을 뽑는 story를 사용하여 시작된다.

n명 중 k명의 대표팀을 뽑고 그 중 1명이 주장 = n명 중 주장 1명을 뽑고 n-1명 중 k-1명을 대표팀으로 뽑기

다음으로 j=k-1로 변수를 바꾸고 보면 시그마 내부의 항이 $Bin(n-1,j)$가 되고 확률분포이므로 모든 경우에 대한 합은 1이되어 $np$만 남는다.

Linearity

기댓값은 Linearity를 만족, X와 Y가 dependent여도 아래 수식은 성립(증명은 다음 강의에서)

$$ E(X+Y) = E(X)+ E(Y) $$

$$ E(cX) = cE(X) $$

Linearity를 활용하여 다시 이항분포의 기댓값을 구해보면

이항분포는 독립적인 베르누이 시행의 성공횟수의 합이므로

$$ X = X_1 + X_2 + ... + X_n $$

$$ E(X) = E(X_1+...+X_n) = E(X_1)+...+E(X_n) = np $$

초기하분포의 Average

Q) 52개 중 5개 카드를 뽑을 때 뽑은 Ace 카드의 수를 $X$, $E(X)$를 구하여라

지시확률변수 $X_j$를 뽑은 카드 1~5가 Ace냐 아니냐로 정의 (1≤j≤5)

$$ E(X) = E(X_1 + ... + X_j) = E(X_1) + ... + E(X_5) = 5E(X_1) $$

Linearity에 따라 수식을 전개, $X_j$는 symmetric으로 모두 같은 확률을 가짐

지시확률변수의 기댓값은 사건이 발생활 확률과 같기 때문에 $E(X_1)$은 1번째 카드가 Ace일 확률과 동일

$$ 5E(X_1) = 5\times \frac{1}{13} = \frac{5}{13} $$

$X_j$가 서로 독립이 아니지만 식은 성립

Geometric Distribution(기하분포)

Geom(p)

  • 독립적인 Bern(p) 시행에서 첫 성공 이전까지 실패 횟수
  • PMF

$$ P(X=k) = q^kp $$

기하분포의 Expected values

$$ E(X) = \sum_{k=0}^{\infin}kpq^k = p\sum_{k=0}^{\infin}kq^k $$

시그마 내부에 k가 있어 등비수열 공식을 쓸 수 없는 상황, 아래와 같이 미분으로 식의 꼴을 맞출 수 있다

$$ \sum_{k=0}^{\infin}q^k = \frac{1}{1-q} $$

$$ \sum_{k=1}^{\infin}kq^{k-1} = \frac{1}{({1-q})^2} $$

$$ \sum_{k=1}^{\infin}kq^{k} = \frac{q}{p^2} $$

따라서

$$ E(X) = p\frac{q}{p^2} = \frac{q}{p} $$

Story proof

  • 앞면이 나올 확률이 p인 동전을 앞면이 나올 때까지 던진다.
  • $c = E(X)$라고 하자
  • 바로 성공하는 경우에는 실패 횟수가 0번, 한 번 실패하고 성공하는 경우는 다시 문제가 원점으로 돌아가기 때문에 아래와 같이 식을 세울 수 있다

$$ c = 0 \times p + (1+c) \times q = \frac{q}{p} $$

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo 

Comments