Deeper Learning

[Statistics 110] Lecture 21: Covariance and Correlation 본문

Statistics & Math/Statistics 110: Probability

[Statistics 110] Lecture 21: Covariance and Correlation

Dlaiml 2022. 12. 25. 17:36

Covariance(공분산)

정의

$$ Cov(X,Y) = E((X-E(X))(Y-E(Y))) = E(XY) - E(X)E(Y) $$

성질

$$ Cov(X,X) = Var(X)\\Cov(X,Y) = Cov(Y,X)\\Cov(X,c) = 0,(c=constant)\\Cov(cX,Y) = cConv(X,Y)\\Cov(X,Y+Z) = Cov(X+Y)+Cov(X,Z)\\Cov(X+Y,Z+W) = Cov(X,Z)+Cov(X,W)+Cov(Y,Z)+Cov(Y,W)\\Cov(\sum_{i=1}^ma_iX_i, \sum_{j=1}^nb_jY_j) = \sum_{i,j}a_ib_jCov(X_i,Y_j)\\Var(X_1+X_2) = Cov(X_1+X_2,X_1+X_2) = Cov(X_1,X_1)+2Cov(X_1,X_2)+Cov(X_2,X_2) = Var(X_1)+2Cov(X_1,X_2)+Var(X_2)\\Var(X_1+...+X_n) = Var(X_1)+...+Var(X_n)+2\sum_{i<j}Cov(X_i,X_j) $$

$X,Y$가 독립이면 uncorrelated이며, $Cov(X,Y)=0$이 된다.

하지만 $Cov(X,Y)=0$이라고 $X,Y$가 독립은 아님.

$$ Z \sim N(0,1), X=Z, Y=Z^2\\Cov(X,Y) = E(XY)-E(X)E(Y)\\=E(Z^3) - E(Z)E(Z^2) = 0 $$

표준정규분포의 홀수 차수 적률은 모두 0이기 때문에 $E(Z^3),E(Z) = 0$으로 위 식을 보면 공분산이 0이 나오지만, $Y$는 $X$에 대한 함수로 서로 종속

Correlation

정의

$$ Corr(X,Y) = \frac{Cov(X,Y)}{SD(X)SD(Y)} = Cov(\frac{X-E(X)}{SD(X)},\frac{X-E(Y)}{SD(Y)}) $$

2개의 식으로 표현할 수 있는데 하나는 Covariance를 구하고 표준편차로 나누어 정규화 하는 방식이고 다른 하나는 먼저 정규화를 하고 둘의 Covariance를 구하는 방식

성질

Covariance와 다르게 단위의 영향을 받지 않으며 -1이상, 1이하의 값을 가짐

증명

$X,Y$가 정규화되어있다고 가정한다(평균이0, 분산이 1).

$Var(X+Y) = Var(X)+Var(Y)+2Cov(X,Y) \ge 0$.

$Var(X-Y) = Var(X)+Var(Y)-2Cov(X,Y) \ge 0$.

$$ Var(X+Y) = Var(X)+Var(Y)+2Cov(X,Y) \ge 0\\Var(X-Y) = Var(X)+Var(Y)-2Cov(X,Y) \ge 0\\0\le 2+2Cov(X,Y), 0 \le 2 - 2Cov(X,Y)\\-1 \le Cov(X,Y) \le 1 $$

따라서 정규화된 두 분포의 Covariance인 Correlation은 -1이상 1이하의 값을 가진다

Multinomial Distribution

다항분포의 공분산

$$ (X_1,...X_k) \sim Mult(n, \vec p) $$

모든 i,j에 대하여 $Cov(X_i,X_j)$를 구하여라

만약 i와 j가 같다면 단일 카테고리 $i$에 대한 분포의 성질은 이항분포와 같기 때문에 $Cov(X_i, X_i) = Var(X_i) =np_i(1-p_i)$로 계산 가능

다른 두 카테고리에 대한 공분산을 $c$라고 하면

$$ Var(X_1+X_2) = np_1(1-p_1)+np_2(1-p_2)+2c $$

이전 강의의 정당 나누기 문제에서 비주류 정당이 묶이면 다항분포에서 해당 확률은 $p$를 모두 더한것과 같기 때문에 $X_1+X_2$의 $p$는 $p_1+p_2$.

$$ np_1(1-p_1)+np_2(1-p_2)+2c = n(p_1+p_2)(1-(p_1+p_2)) \\ \therefore Cov(X_1,X_2) = -np_1p_2 $$

Binomial Distribution

$X \sim Bin(n,p), X=X_1+...+X_n$.

$$ Var(X_i) = E(X_i^2)-(E(X))^2 = p-p^2 = pq \\ Var(X)=npq $$

독립이면 $Cov(X_,Y) = 0$이 되고 이는 $Var(X,Y) = Var(X)+Var(Y)$라는 것과 같다.

따라서 서로 독립인 베르누이 시행을 가정하는 이항분포에서 분산은 $npq$.

Hypergeometric Distribution

$X \sim HGeom(w,b,n)$. (흰공 2개+검은공 b개가 있는 상자에서 n번 공을 뽑을 때 뽑은 흰공의 수)

indicator random variable(지시확률변수)를 사용해서 $X$를 나타내면

$X = X_1+...+X_n$이고 $X_j$는 뽑은 공이 하얀색일 때 1, 그렇지 않을 때 0을 나타내는 확률변수

$$ Var(X) = nVar(X_1)+\binom{n}{2}2Cov(X_1,X_2)\\Cov(X_1,X_2) = E(X_1X_2)-E(X_1)E(X_2)= \frac{w(w-1)}{(w+b)(w+b-1)}-(\frac{w}{w+b})^2 $$

 

Reference

[0] https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo 

 

Comments