일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- RNN
- 딥러닝
- multimodal
- Unreal Engine
- 오블완
- ddpm
- CNN
- motion matching
- Generative Model
- WinAPI
- Font Generation
- userwidget
- dl
- ue5.4
- Diffusion
- 생성모델
- BERT
- WBP
- NLP
- Stat110
- UE5
- animation retargeting
- GAN
- 폰트생성
- cv
- 모션매칭
- 언리얼엔진
- Few-shot generation
- deep learning
- 디퓨전모델
- Today
- Total
Deeper Learning
[Statistics 110] Lecture 21: Covariance and Correlation 본문
[Statistics 110] Lecture 21: Covariance and Correlation
Dlaiml 2022. 12. 25. 17:36Covariance(공분산)
정의
$$ Cov(X,Y) = E((X-E(X))(Y-E(Y))) = E(XY) - E(X)E(Y) $$
성질
$$ Cov(X,X) = Var(X)\\Cov(X,Y) = Cov(Y,X)\\Cov(X,c) = 0,(c=constant)\\Cov(cX,Y) = cConv(X,Y)\\Cov(X,Y+Z) = Cov(X+Y)+Cov(X,Z)\\Cov(X+Y,Z+W) = Cov(X,Z)+Cov(X,W)+Cov(Y,Z)+Cov(Y,W)\\Cov(\sum_{i=1}^ma_iX_i, \sum_{j=1}^nb_jY_j) = \sum_{i,j}a_ib_jCov(X_i,Y_j)\\Var(X_1+X_2) = Cov(X_1+X_2,X_1+X_2) = Cov(X_1,X_1)+2Cov(X_1,X_2)+Cov(X_2,X_2) = Var(X_1)+2Cov(X_1,X_2)+Var(X_2)\\Var(X_1+...+X_n) = Var(X_1)+...+Var(X_n)+2\sum_{i<j}Cov(X_i,X_j) $$
$X,Y$가 독립이면 uncorrelated이며, $Cov(X,Y)=0$이 된다.
하지만 $Cov(X,Y)=0$이라고 $X,Y$가 독립은 아님.
$$ Z \sim N(0,1), X=Z, Y=Z^2\\Cov(X,Y) = E(XY)-E(X)E(Y)\\=E(Z^3) - E(Z)E(Z^2) = 0 $$
표준정규분포의 홀수 차수 적률은 모두 0이기 때문에 $E(Z^3),E(Z) = 0$으로 위 식을 보면 공분산이 0이 나오지만, $Y$는 $X$에 대한 함수로 서로 종속
Correlation
정의
$$ Corr(X,Y) = \frac{Cov(X,Y)}{SD(X)SD(Y)} = Cov(\frac{X-E(X)}{SD(X)},\frac{X-E(Y)}{SD(Y)}) $$
2개의 식으로 표현할 수 있는데 하나는 Covariance를 구하고 표준편차로 나누어 정규화 하는 방식이고 다른 하나는 먼저 정규화를 하고 둘의 Covariance를 구하는 방식
성질
Covariance와 다르게 단위의 영향을 받지 않으며 -1이상, 1이하의 값을 가짐
증명
$X,Y$가 정규화되어있다고 가정한다(평균이0, 분산이 1).
$Var(X+Y) = Var(X)+Var(Y)+2Cov(X,Y) \ge 0$.
$Var(X-Y) = Var(X)+Var(Y)-2Cov(X,Y) \ge 0$.
$$ Var(X+Y) = Var(X)+Var(Y)+2Cov(X,Y) \ge 0\\Var(X-Y) = Var(X)+Var(Y)-2Cov(X,Y) \ge 0\\0\le 2+2Cov(X,Y), 0 \le 2 - 2Cov(X,Y)\\-1 \le Cov(X,Y) \le 1 $$
따라서 정규화된 두 분포의 Covariance인 Correlation은 -1이상 1이하의 값을 가진다
Multinomial Distribution
다항분포의 공분산
$$ (X_1,...X_k) \sim Mult(n, \vec p) $$
모든 i,j에 대하여 $Cov(X_i,X_j)$를 구하여라
만약 i와 j가 같다면 단일 카테고리 $i$에 대한 분포의 성질은 이항분포와 같기 때문에 $Cov(X_i, X_i) = Var(X_i) =np_i(1-p_i)$로 계산 가능
다른 두 카테고리에 대한 공분산을 $c$라고 하면
$$ Var(X_1+X_2) = np_1(1-p_1)+np_2(1-p_2)+2c $$
이전 강의의 정당 나누기 문제에서 비주류 정당이 묶이면 다항분포에서 해당 확률은 $p$를 모두 더한것과 같기 때문에 $X_1+X_2$의 $p$는 $p_1+p_2$.
$$ np_1(1-p_1)+np_2(1-p_2)+2c = n(p_1+p_2)(1-(p_1+p_2)) \\ \therefore Cov(X_1,X_2) = -np_1p_2 $$
Binomial Distribution
$X \sim Bin(n,p), X=X_1+...+X_n$.
$$ Var(X_i) = E(X_i^2)-(E(X))^2 = p-p^2 = pq \\ Var(X)=npq $$
독립이면 $Cov(X_,Y) = 0$이 되고 이는 $Var(X,Y) = Var(X)+Var(Y)$라는 것과 같다.
따라서 서로 독립인 베르누이 시행을 가정하는 이항분포에서 분산은 $npq$.
Hypergeometric Distribution
$X \sim HGeom(w,b,n)$. (흰공 2개+검은공 b개가 있는 상자에서 n번 공을 뽑을 때 뽑은 흰공의 수)
indicator random variable(지시확률변수)를 사용해서 $X$를 나타내면
$X = X_1+...+X_n$이고 $X_j$는 뽑은 공이 하얀색일 때 1, 그렇지 않을 때 0을 나타내는 확률변수
$$ Var(X) = nVar(X_1)+\binom{n}{2}2Cov(X_1,X_2)\\Cov(X_1,X_2) = E(X_1X_2)-E(X_1)E(X_2)= \frac{w(w-1)}{(w+b)(w+b-1)}-(\frac{w}{w+b})^2 $$
Reference
[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo
'Statistics & Math > Statistics 110: Probability' 카테고리의 다른 글
[Statistics 110] Lecture 23: Beta distribution (0) | 2023.01.08 |
---|---|
[Statistics 110] Lecture 22: Transformations and Convolutions (0) | 2022.12.25 |
[Statistics 110] Lecture 20: Multinomial and Cauchy (0) | 2022.12.25 |
[Statistics 110] Lecture 19: Joint, Conditional, and Marginal Distributions (0) | 2022.12.24 |
[Statistics 110] Lecture 18: MGFs Continued (0) | 2022.12.24 |