분산

1. 개요

2. 모 분산

2.1. N으로 나눔

3. 표본 분산

3.1. n-1로 나눔

4. 평균 절대 편차

5. 엑셀에서 분산 구하기

6. 같이 보기

1. 개요

variance ・分散
분산(var; variance)의 국립국어원 표준국어대사전의 정의는 '갈라져 흩어짐, 또는 그렇게 되게 함.'으로, 어떤 대상의 흩어진 정도나 상태를 의미한다. 물리학에서는 빛이 두 개 이상의 다른 매질을 통과할 때 그 경계면에서 고유 파장에 따라 나뉘어지는 현상을 의미한다.
통계학에서는 통계적 산술 평균의 하나로 '''편차 제곱(squared deviations)의 평균 값(mean value)'''으로 나타낸다. 본 문서에서의 분산은 '통계학적 분산'을 기준으로 한다.
통계학에서 분산(variance) 또는 변량은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 갯수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
절댓값을 취하면 되지 않느냐는 주장도 있지만 편차의 절댓값의 합의 평균은 중앙값에서 의미를 가진다.
편차의 제곱의 합은 평균에서 유의미 하다.
여담으로 통계학에서의 분산에는 단위[1]가 '''없다.'''[2]
모 분산(population variance) $$\sigma^2$$은 모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 $$n$$으로 나눈 것이다.
표본 분산(sample variance) $$s^2$$은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 $$n-1$$로 나눈 것이다.

2. 모 분산

아래는 모 집단의 모 분산(population variance) $$\sigma^2$$이다.
고등학교 수준의 설명을 하자면 다음과 같다. 각각 100명으로 구성된 두 집단의 평균 키를 구하는데, 한 집단은 10살짜리의 100명의 어린이들로만 구성되고, 다른 집단은 5~15세 연령이 골고루 포함된 100명으로 구성된다고 생각해 보자.
전자의 집단에 비해서 후자의 집단의 키는 그 숫자가 훨씬 들쑥날쑥하게 튀게 될 것이다. 평균 자체는 표본에 따라 대략 비슷하겠지만 각각의 관찰값들은 훨씬 더 넓게 퍼져 있게 된다는 것이다. 즉, '''관찰값들이 얼마나 많이 퍼져 있는지''' 역시 평균값이 어디인지만큼이나 중요하다. 그리고 그걸 조사하는 것이 바로 분산이다.
분산을 알기 위해서는 먼저 평균을 알아야 하고, 각각의 관찰값들과 평균 사이의 거리(distance)를 재기 위해 관찰값에서 평균을 빼게 된다. 그런데 여기서 문제가 생긴다. 어떤 관찰값들은 반드시 평균 이하에 존재하고 있고, 이들의 존재로 인해 양수 값들과 음수 값들이 혼재하게 되는 것이다. 그리고 이들을 모두 합칠 경우 결과는 반드시 0이 나온다.
결국 옛날 통계학자들은 이 문제를 해결하기 위해 제곱을 취해서 마이너스 기호를 떼어내 버리자! 라는 결정을 하게 되었다.
위의 설명은 분산의 여러 의의중 관측값의 특징을 나타내는 요약통계량적인 측면에 치우친 설명이다. 학교 시험을 보고나면 평균과 분산이 주어지는데 이는 위와 같은 과정을 통해 구해지는 것이다. 하지만 분산은 위의 요약통계량으로서의 의의 이외에 다른 의의를 가지고 있다. 이에 대해 설명 하기 위해 다음의 예를 들어보자. 아마 이 문서를 읽고 있는 독자라면 고등학교 수학에서 정규분포에 대해서 배웠을 것이다.
정규분포에 대한 문제를 풀때 거의 대부분 문제는 어떤 대상은 평균과 분산이 몇인 정규분포를 따른다고 주어지며 N(50, 4) 와 같은 형식이다. 그런데 이 때는 관측치가 주어지지 않았는데 어떻게 분산이란 것을 계산했을까? 위의 정의에 따르면 어떤 관측치가 주어져야만 분산이라는 것이 정의되는데 말이다.
사실 분산이란 관측값에 의존하여 정의되는 양이 아니라 분포함수에 의존하여 정의되는 양이다. 전공자가 아니라면 관찰값을 통해 설명해도 된다. 이에 대해 엄밀히 이야기 하자면 확률밀도함수(pdf), 누적확률밀도함수(cdf)에 대한 개념과 적분을 도입해야 하지만 생략하고 이야기하자. 분산이란 분포의 모양을 결정하는 양이다. 정규분포의 예시를 들면, 같은 평균을 가지는 정규분포라고 하더라도, 분산이 큰 정규분포가 그 확률밀도함수의 높이가 낮고 대신 넓게 퍼져있는 것을 볼 수 있다.
이렇게 분산은 확률밀도함수가 평균으로 부터 퍼져있는 정도를 나타내는 양이다. 분산이 크면 확률밀도함수의 모양은 평균으로부터 넓게 퍼지며, 분산이 작으면 확률밀도함수의 모양은 평균에 가깝게 몰리게 된다.

2.1. N으로 나눔

데이터의 각 값에서 모 평균 $$\mu$$를 빼고 제곱해서 모두 더한 후, 모집단(population)의 데이터 갯수 $$N$$으로 나눈다.
이렇게 얻어진 편차제곱(squares of deviation)을 모두 합친 후 전체 관찰값의 개수 $$N)$$만큼 나눈다. 즉 편차제곱을 가지고 평균을 구하는 것이다. 이것이 분산이다.
편차제곱을 모두 합친 값을 편차제곱합(SS; sum of squared deviation)이라고도 한다.

3. 표본 분산

통계학을 조금 더 공부하다보면, 관측치들의 성질을 요약하는 통계량으로서 모집단에서의 분산과는 다른 표본 분산 $$s^2$$이라는 개념을 정의한다. 모분산과 표본분산은 데이터를 뽑은 집단이 모집단인지 표본인지에 따라 구분하는데 자세한 내용은 표본조사 문서 참고.

3.1. n-1로 나눔

표본분산은 표본에서 구한 분산으로 모분산을 추정할 때 위의 분산 공식에서 $$n$$으로 나누는 것과 다르게 $$n-1$$로 나눈다. 분산 및 표준편차에서 분모를 n-1로 계산하는 이유
데이터의 각 값에서 표본 평균 $$\bar{X}$$를 빼고 제곱해서 모두 더한 후, 표본(sample)의 데이터 갯수 $$n$$에서 $$1$$을 뺀 $$n-1$$로 나눈다. 여기서 $$n-1$$로 나누는 이유는 $$n-1$$이 값이 표본의 자유도가 되기 때문이다. 자유도의 개념을 이해 했다면, 불편추정량으로 n-1로 나누는 이유를 설명할 수 있다.
이는 표본분산을 불편추정량(unbiased estimator)으로 만들기 위해서이다. 불편추정량이 되기 위해서는 독립항등분포 (모든 관측치가 독립이고 동일한 확률분포에서 뽑혔다는 뜻. iid; independent and identically distributed)는 가정이 필요하다. 조금 더 나아가서 이야기 하면 iid 샘플링을 정규분포에서 했다고 가정했을 경우 표본일지라도 위의 분산공식을 그대로 표본분산으로 사용한다. 불편추정량에 통한 이해가 어렵다면 수식 없이 설명하는 표분분산 계산법을 참고하길 바란다.
또, $$n$$으로 나눈 분산이 최대우도추정량(Maximum Likelihood Estimator)으로 설명가능하다. 이 경우에는 $$n-1$$로 나누나 $$n$$으로 나누나 어차피 일치추정량(Consistent Estimator)이기 때문에 어느 쪽을 사용하더라도 문제는 없다.
다만 z-test, t-test 등의 검정을 수행할 때는 꼭 통계학 서적에 있는 대로 계산하자. 그 때는 $$n$$으로 나누거나 $$n-1$$로 나누는 것이 꽤나 중요하다. 물론 n이 꽤나 크면 그렇게까지 중요하지는 않다. 값을 1,000,000으로 나누는 것과 999,999으로 나누는 것은 오차가 작기 때문이다. 하지만 모집단과 표본의 자유도의 개념은 숙지하는 것이 훗날을 위해 편하다.

4. 평균 절대 편차

제곱 후 제곱근 하는 대신 절댓값을 취하는 절대 편차를 써도 되지 않느냐고 할 수 있지만, 나중에 통계분석을 할 때 쓰기가 까다로워서 잘 안 쓴다고 한다.... 지만 최근에는 robust한 관측값을 얻기위해 사용되는 분야가 꽤나 있다. 절댓값을 취하는 방법은 따로 "평균 편차"(MAD) 라고 부른다.
절대 편차 문서의 평균 절대 편차 항목 참조.

5. 엑셀에서 분산 구하기

엑셀 2010 이후부터는 표본 분산(sample variance)은 VAR.S 함수로, 모 분산(population variance)은 VAR.P 함수로 구한다.
이전 버전 엑셀은 표본 분산은 VAR 함수를 쓰고, 모 분산은 VARP 함수를 쓴다. VAR 함수와 VARP 함수는 아직은 지원되지만 이후 버전의 엑셀에서는 지원이 종료될 수 있다.
Microsoft Excel/함수 목록#s-1.2 문서 참조.

6. 같이 보기

[1] 명, 개, 점, cm 등[2] 이것 때문에 시험에서 점수 깎이는 경우도 있으니 알아두자.

분류

통계학 용어