Deeper Learning

[Statistics 110] 확률변수와 확률분포 본문

Statistics & Math

[Statistics 110] 확률변수와 확률분포

Dlaiml 2022. 3. 27. 12:42

확률변수: 함수라고 할 수 있음, 지금까지 사용하던 $f(x) = x^2$ 와 같은 형태로 표기하지 않을 뿐

확률분포: 확률변수가 어떻게 행동할 것인지를 나타내는 개념

(확률분포는 확률변수가 취할 수 있는 모든 값과 그 값들이 나타날 확률을 표현한 것)

 

표본공간 S가 있고 S 내부에 가능한 여러 결과가 있다고 생각하자.

확률변수는 각 결과에 숫자를 배정하는 함수로 생각할 수 있음 (주사위의 경우 1~6)

확률변수 X에서

$$X=6$$

위 표현은 확률변수 X에 6을 할당하는 개념보다 Event 자체로 이해하는 것이 옳다.

 

확률변수 X를 시행이 성공하면 1, 시행이 실패하면 0이라고 정의해보자.

일단 S 내부의 결과(ex.시행이 성공)에 1이라는 숫자를 부여하는 함수로 X를 생각할 수 있다.

 

시행의 성공확률이 p, 시행의 실패확률이 1-p라고 해보자.

X는 이제 Bernoulli 분포를 따르는 “Bernoulli R.V”가 되었다.

$$X \sim Bern(p)$$

 

다른 예시

확률변수 $X_j$는 j번째 시행에서 성공하면 1, 실패하면 0의 값을 가진다고 해보자. (성공확률이 p인 베르누이 확률분포를 따른다)

$X = X_1+X_2+X_3+...+X_n$ 이며 모든 시행은 서로 independent하며 identical distributes = i.i.d

이제 이렇게 만들어진 $X$를 직관적으로 해석해보면 [앞면이 나올 확률이 p이며 성공인 동전던지기 시행을 n번 하였을 때 전체 성공횟수]라고 할 수 있다.

이 확률변수 $X$가 “어떻게 행동할 것인지”를 나타내주는 분포가 바로 확률분포이며 $X$의 확률분포는 이항분포를 따른다.

$$X \sim Bin(n,p)$$

 

다른 예시

자주 사용하던 Gaussian distribution

$$z \sim N(0,1)$$

위 표기는 확률변수 $z$가 표준정규분포(확률분포)를 따른다는 것이다.

$z$는 함수로 S에서의 결과들에 숫자를 부여한다. (-inf ~ inf)

어떤 식으로 $z$가 숫자를 부여하는가는 확률분포가 설명해준다.

(확률분포인 표준정규분포는 z가 취할 수 있는 모든 값과 그 값들이 나타날 확률을 말해주어야 함)

 

위 표준정규분포 pdf는 z가 0이되는(z가 0을 부여하는) S 내부의 space가 z가 100이되는 (z가 100을 부여하는) space보다 크다는 것을 말한다. (x축은 X의 값, y축은 확률값)

(pebble world approach로 공간이 크다는 것은 전체 표본공간의 확률 P(S)=1 중에서 차지하는 확률의 비율이 더 크다는 것, 더 발생할 확률이 높다는 것)

 

Reference

[0] Harvard Statistics 110, Lecture 8

'Statistics & Math' 카테고리의 다른 글

[Statistics 110] Law of the unconscious statistician (LOTUS)  (0) 2022.05.21
[Statistics 110] Universality of Uniform distribution  (0) 2022.05.21
Eigenvector & Eigenvalue  (0) 2021.07.20
Community Detection  (0) 2021.02.25
PageRank  (0) 2021.02.24
Comments