확률변수
確率變數, random variable, stochastic variable
1. 개요
확률적인 결과에 따라 결과값이 바뀌는 변수를 묘사하는 통계학 및 확률론의 개념. 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것으로 해석할 수 있으며, 공리적 확률론에서는 확률변수를 사건들의 집합인 확률공간 위에서 실수값을 갖는 함수로 정의한다.
일반적으로 대문자 $$X,Y$$ 등으로 나타내며, 확률변수가 특정한 값의 범위 내에 존재할 확률을 $$P(X=a)$$, $$P(a \le X \le b)$$, 더욱 일반적으로는 부분집합 ($$S \subset \mathbb{R}$$)에 대해 $$P(X \in S)$$ 등으로 쓸 수 있다. 둘 이상의 확률변수가 있다면 $$P(X \le Y)$$ 같은 것도 가능.
확률과 통계에서 빠질 수 없는 주요 개념으로, 기초적인 통계학의 경우 실제 계산을 하는 것보다는 확률변수, 확률분포, 기댓값 등의 개념을 이해하는 것이 중요하다.
보통 확률변수 $$X$$가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(離散確率變數, discrete random variable)와 연속확률변수(連續確率變數, continuous random variable)로 나뉜다. 다만 모든 확률변수가 이 두 가지의 형태인 것은 아니다. 예를 들어 동전을 던져서 앞면이 나오면 0부터 1 사이의 아무 숫자를, 뒷면이 나오면 숫자 2를 불러주는 확률변수는 어느 둘에도 속하지 않는다.
'''다변수 확률 변수'''(multivariate random variable)는 변수가 여러 개의 성분을 가지는 확률변수로, 확률공간 위에서 $$\mathbb{R}$$이 아닌 $$\mathbb{R}^n$$으로 가는 함수로 나타낼 수 있다. n변수 확률변수는 보통 확률변수의 n개의 순서쌍 $${\bf X}=(X_1, X_2, \cdots, X_n)$$으로 나타낼 수 있지만, 볼드체에서 느낄 수 있듯이 때로는 단일 개체로서 벡터처럼 묘사되어 선형대수학이나 기하학의 관점에서 생각되기도 한다.
2. 통계학에서의 확률 변수
통계학에서의 확률 변수(random variable)란, 어떤 확률실험에 있어 일정한 확률을 갖고 발생하는 임의의 사건에 수치를 부여하는 변수이다. 어떤 확률변수가 어떤 특정 값을 취할 확률을 함수로 나타낸 것은 확률함수라고 하고, 그 함수의 모든 가능한 값들에 할당될 수 있는 모든 확률을 식으로 정의하거나 이를 시각화하여 나타낸 것이 바로 확률분포이다.
확률변수 중에 일부는 그 모든 가능한 값이 유한 개인 경우가 있고, 어떤 일부는 무한 개인 경우가 있다. 이 차이는 이후의 모든 통계에 있어서 몹시 중요하다.[1] 당장 잠깐만 예를 든다 해도, 주사위 하나를 던지는 확률실험에서 나올 수 있는 결과의 값은 달랑 6개지만, 6명의 성인 남성을 모아 놓고 그들의 평균 키를 계산하는 확률실험에서 나올 수 있는 결과의 값은 그야말로 무한하다. 다시 말하면, 각각의 인접한 단위(adjacent units) 사이에서 존재할 수 있는 값의 수가 유한한 경우가 있고, 존재할 수 있는 값의 수가 무한한 경우가 있다. 유한한 경우를 우리는 '''이산변수'''(discrete variable)라고 부르고, 무한한 경우를 우리는 '''연속변수'''(continuous variable)라고 부를 수 있다. 물론 양쪽 어디에도 속하지 않는 확률변수가 없는 건 아니지만, 통계적 의미가 떨어지다 보니 그 존재감은 있는 듯 없는 듯한 수준.
갑자기 확률실험, 확률변수, 확률함수, 확률분포 등등이 쏟아져서 보는 사람 기겁하게 만들지만,(…) 간단한 이산확률변수의 사례를 들어서 설명하면 보다 편리하게 이해할 수 있을 것이다.
동전을 던진다고 가정해 보자. 동전을 던지는 확률실험에서, 임의의 사건은 “앞” 과 “뒤” 의 두 가지가 있다. 그렇다면 여기서 만들어지는 확률함수는 P(앞)=1/2, P(뒤)=1/2 두 가지가 나온다. 여기서 각 확률의 총합은 무조건 1이 나오게 되어 있다. 이번에는 두 개의 주사위를 동시에 던지는 확률실험을 가정해 보자. 두 주사위 눈의 총합이 2일 확률변수는 P(2)=1/36 확률변수로 나타나지만, 총합이 7일 확률변수는 P(7)=6/36 확률변수로 나타나며, 총합이 12일 확률변수는 P(12)=1/36 의 확률변수로 나타난다. 여기서도 다시 한 번, 각 확률의 총합은 무조건 1이 나온다. 여기서 1이라는 숫자는 결국 어떤 경우에든 이 이외의 상황이 만들어지지는 않는다는 뜻이다. 이를 바꿔 말하면 이산적 변수의 모든 확률변수는 무조건 0과 1 사이의 어딘가에 있다고도 할 수 있다.
앞서 설명한 것처럼, 이산확률변수는 모든 가능한 값이 유한하며, 각각의 값 사이의 차이가 통계적 의미를 갖는다. 서로 인접한 단위 사이에서 존재할 수 있는 값들의 수는 유한하며, 확률은 각각의 특정 값들에 대응하여 할당된다. 대표적인 이산확률변수로는 동전 던지기, 주사위 던지기(die roll), 사람이나 사물의 수,[2] Y/N 또는 T/F 형태의 판단 등이 있다. 또한 앞에서도 설명했듯이, 이산확률변수의 모든 특정 값의 확률은 0과 1사이에 있으며, 모든 확률의 총합은 예외 없이 반드시 1이다. 확률함수는 기본 P(X)의 형태. 일반적으로, 이산확률변수의 확률분포를 시각화할 경우에는 막대그래프(bar chart)의 형태로 나타난다.
반면, 연속확률변수는 모든 가능한 값이 무한하며, 각각의 값 사이의 차이가 큰 통계적 의미는 없는 경우가 많다. 서로 인접한 단위 사이에서 존재할 수 있는 값들의 수는 무한하며, 확률은 그 분포 상의 각각의 특정 구간들의 면적에 대응하여 할당된다. 대표적인 연속확률변수로는 사람의 키, 사물의 무게, 온도, 시간, 등이 있다. 연속확률변수의 확률분포 상에서 모든 구간은 양의 값을 갖게 되며, 면적의 총합이 무조건 1이다. 확률함수는 기본적으로 P(a≤X≤b)의 형태로 사용한다.[3] . 일반적으로, 연속확률변수의 확률분포를 시각화할 경우에는 히스토그램 또는 종형곡선(bell curve)과 같은 부드러운 비선형적 곡선의 형태로 나타난다.
이를 대조하기 쉽도록 표로 정리하면 다음과 같다.
2.1. 이산확률변수
이산확률변수(random variable of the discrete type, discrete random variable)는 확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산확률변수라고 한다.
유한개의 값, 또는 자연수 집합과 일대일 대응 가능한 개수의 값으로 구성되어 있는 확률변수이다. 예를 들어 2013년 11월 한 달 동안 나무위키를 방문한 사람이 n명이고, 이들이 한 달 안에 재방문할 확률이 p라고 했을 때, 2013년 11월에 나무위키를 방문한 사람 중 한 달 안에 재방문할 사람의 수는 이산확률변수이다. '사람의 수'는 0명, 1명, 2명 등과 같이 '셀 수 있다.' 다른 예로서 LOL 랭크 게임 승률이 52%인 사람이 랭크 게임을 다섯 판 했을 때 승리한 게임의 수, 자유투 성공률이 71%인 농구선수가 자유투를 세 번 던졌을 때 실패한 자유투의 수 등도 모두 이산확률변수이다. 랭크 게임 승률, 자유투 성공률을 모르더라도 위의 두 변수는 확률변수이다. 예를 들어 '원빈이 모르는 사람에게 세 번 고백해서 성공하는 횟수' 등과 같이 확률 p가 알려지지 않은 경우에도 위 '횟수'는 이산확률변수이다. 물론 가능한 갯수가 너무 많은 경우는 그냥 연속확률변수처럼 다룰 수도 있다.
보통 이런 식으로 개수를 나타내는 확률변수가 많지만, 실수값을 지니더라도 가능한 값이 유한 가지 뿐이면 그것도 역시 이산확률변수라 한다. 광주리에서 토마토를 하나 집어들었을 때 그 토마토의 무게 같은 것도 이산확률변수다.
2.1.1. 확률질량함수
확률질량함수(probability mass function) 문서 참조.
2.2. 연속확률변수
연속확률변수(random variable of the continuous type, continuous random variable)는 적절한 구간 내의 모든 값을 취하는 확률 변수이다.
연속적인 범위의 값을 지니는 확률변수. 예를 들어, '핸드폰으로 나무위키를 보는 사람의 수'는 셀 수 있으므로 이산확률변수이나, '핸드폰으로 나무위키를 보는 사람이 일요일에 나무위키를 본 시간'은 셀 수 없으므로 연속확률변수이다. 1초, 2초와 같이 셀 수 있는 것처럼 보이기도 하나, 실제로는 딱 떨어지지 않는다. 5분이라고 했을 때 300.0000001초 인지 300.0000000001초인지 정확하게는 알 수 없기 때문이다.
이산확률변수와 연속확률변수의 가장 큰 차이점은 확률을 P(X=x)로 표기할 수 있냐 없냐이다. 예를 들어 물컵에 물을 따랐을 때 99.999999999ml도 아니고 100.0000000001ml도 아니고 정확히 100ml를 따를 확률은 그냥 0이기 때문에, 분명 물컵에 물을 따라 정확히 100ml를 따르는 사건이 일어날 수 있는데도 그 확률이 아무 의미가 없는 사태가 벌어진다.
따라서 연속확률변수는 확률분포함수 f(x)를 도입하며, f(x)를 a에서 b까지 적분함으로써 확률변수의 값이 a와 b 사이에 있을 확률을 구한다. 앞의 예시를 다시 사용한다면 물컵에 물을 따랐을 때 99.5ml~100.5ml 사이로 따를 확률을 구하는 식이다.
가장 유명하면서도 대표적인 연속 확률 변수의 확률 분포는 정규분포이다. 해당 문서 참고.
2.2.1. 확률 밀도 함수
확률 밀도 함수(probability density function) 문서 참조.
3. 확률론에서의 엄밀한 정의
공리적 확률론에서 확률 변수의 정확한 정의는 다음과 같다. 확률공간 $$(\Omega, \mathcal{F}, P)$$[4] 위의 확률 변수는 함수 $$X : \Omega \rightarrow \mathbb{R}$$ 중 보렐 가측인(Borel measurable) 함수로 정의된다. 보렐 시그마 대수 $$\mathcal{B}(\mathbb{R})$$는 $$\mathbb{R}$$의 열린 집합 및 닫힌 집합을 모두 포함하는[5] 최소의 시그마 대수로 정의되고, 보렐 가측은 이 보렐 가측 공간 $$(\mathbb{R}, \mathcal{B}(\mathbb{R}))$$에 대해 가측인(measurable) 조건을 의미한다. 즉 보렐 가측일 필요충분조건은 임의의 열린 집합의 역상이 $$\mathcal{F}$$에 있는 것이고, 나아가서는 임의의 실수 $$a$$에 대해 $$X^{-1}([-\infty,a]) \in \mathcal{F}$$가 성립하는지만 확인해도 된다. 이 관점에서 통상적인 확률의 표기 $$P(X \in S)$$는 $$S$$의 역상 $$X^{-1}(S)$$의 확률, 즉
$$ \displaystyle P(X \in S) = P( \{ \omega : X(\omega) \in S \} $$
로 해석되고, 확률변수 $$X$$에 대한 확률 분포(probability distribution)는 확률측도 $$P$$의 pushforward measure로, 즉$$ \displaystyle \mu_X(S) = P(X \in S)$$
로 정의되는 $$(\mathbb{R}, \mathcal{B}(\mathbb{R}))$$ 위의 확률측도 [\math(\mu_X)]로 정의된다.물론 측도론이고 뭐고 다 몰라도 상관없다면, '함수 $$X : \Omega \rightarrow \mathbb{R}$$ 중 확률 $$P(a \le X \le b)$$을 항상 정할 수 있는 것' 정도로만 생각해도 무방하다. 따지고 보면 상단의 정의란 것도 결국에는 이 상식적인 조건을 측도론의 언어로 옮긴 것으로 볼 수 있다.
이 정의에서 이산확률변수와 연속확률변수는 오로지 누적 분포 함수 $$F_X(a) = P(X \le a)$$의 개형으로만 구분할 수 있는데, 누적분포함수가 계단함수의 합으로 나타나면 이산확률변수로, 미분가능한 함수로 나타나면 연속확률변수로 생각할 수 있다. 0에서 1 사이의 값을 갖는 단조증가함수가 이것만 있는 건 아니므로, 실제 확률변수의 공간은 이산도 연속도 아닌 확률변수로 가득 차 있다. 이는 통계학과는 다르게 이산/연속확률변수의 구분이 비교적 본질적이지 않은 이유로, 나중 가서 스틸체스 적분까지 익히면 누적분포함수 하나로 질량함수나 분포함수가 하는 역할을 모두 수행할 수 있기 때문에 실제 계산에서도 둘을 구분하지 않는 경우가 많다. 물론 그렇다고 이산/연속의 구분이 아예 의미가 없는 건 아닌 게, 실수 위에서의 모든 확률측도는 이산적인 부분과 연속적인 부분으로 나눌 수 있다는 것을 르베그 분해(Lebesgue decomposition)와 라돈-니코딤 정리(Radon-Nikodym theorem) 등을 이용해 증명할 수 있기도 하다. 이산도 연속도 아닌 확률 변수를 '''혼합 확률 변수'''(mixed random variable)라 부를 수 있는 것이 이 때문.
복소수 값을 갖는 복소 확률변수나 다변수 확률변수의 경우에도 위의 정의에서 확률변수의 치역만 단순히 $$\mathbb{C}$$나 $$\mathbb{R}^n$$으로 바꾸어 주고, 보렐 가측 조건을 똑같이 적용하면 된다.
3.1. 확률 변수의 성질
- 연산
- 기댓값
- 확률 변수의 독립
$$\displaystyle P(X \le a, Y \le b) = P(X \le a) P (Y \le b) $$
일반적인 n개의 확률변수 $$X_1, \cdots, X_n$$의 독립은 다음 조건으로 정의할 수 있다.$$\displaystyle P(X_1 \le a_1, X_2 \le a_2, \cdots, X_n \le a_n) = \prod_{i=1}^{n} P(X_i \le a_i) $$
3.2. 확률 변수의 수렴
4. 관련 문서
[1] 이는 모든 가능한 값이 유한할 때 각각의 값의 차이는 통계적 의미가 크지만, 모든 가능한 값이 무한할 때 각각의 값의 차이는 통계적 의미가 크지 않기 때문이기도 하다.[2] 예컨대 방문 고객의 수, 학생의 수, 재고품의 수 등[3] 연속 확률변수는 X에 속하는 모든 x 에 대해서 P(X=x) = 0 이기 때문에 P(X)로 쓰는게 의미가 없고 P(a≤X≤b) 형태로 표현해야 된다. 반면 이산 확률 변수는 P(a≤X≤b) 형태로도 당연히 쓸 수 있다.[4] 확률론에서 확률공간을 나타낼 때 쓰는 표준적인 표기로, (표본공간, 사건공간, 확률측도)의 세 쌍이다.[5] 실수집합의 경우에는 이 조건을 '개구간을 모두 포함하는' 혹은 '반직선 구간 $$[-\infty, a]$$을 모두 포함하는' 등의 다양한 형태의 약한 조건으로 바꾸어 쓸 수 있다. 시그마 대수가 반직선 구간들만 포함해도 모든 열린 집합과 닫힌 집합을 포함해야 하기 때문.