정규분포

 


1. 개요
1.1. 정의
1.1.1. 실수 전체 적분 값 증명
1.1.2. 정규 분포 곡선의 성질
1.2. 누적 분포 함수
1.3. 그래프
2. 표준 정규 분포
3. 로그 정규 분포
4. 이용 사례
4.1.1. 내신 전교등수 추정하기
5. 기타
5.1. 통계학에서의 중요성
5.2. 짤방: 세상은 정규 분포
6. 관련 문서


1. 개요


normal distribution ・
가우스(C. F. Gauss; 1777 ~ 1855)가 처음 정립했기 때문에 가우스 분포(Gaussian Distribution)라고도 한다.
인간자연 세상에서 일어나는 수많은 일을 설명하는 핵심 개념이며, 통계학에서 사용하는 각종 확률 분포 중에서도 가장 중요하게 다루는 분포이다. 일명 '''통계학의 꽃'''.

1.1. 정의


물리학 실험용으로 무작위 표본추출을 통해 도출한 '확률 밀도 곡선'에 '극한을 적용'해 만든 것을 '''형태'''로 정립한 것인데, 그 그래프를 함수식으로 풀어쓰면

$$\displaystyle N(x|\mu,\,\sigma^{2}) \equiv \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left[ -\frac{(x-\mu)^{2}}{2\sigma^{2}} \right]} $$[1]
[1] 고등학교 확률과 통계 교육과정에서는 $$\rm exp$$라는 기호를 쓰지 않기 때문에 $$\displaystyle N(x|m,\,\sigma^{2}) = \frac{1}{\sqrt{2 \pi} \sigma}e^{ -\frac{(x-m)^{2}}{2\sigma^{2}} } $$로 적는다. $$\mu$$대신 좀 더 익숙할만한 $$m$$를 쓴다.
이다. 이때, $$\mu$$, $$\sigma$$는 각각 평균표준편차이고, $$\exp{x}=e^{x}$$이다. 또한, $$N(x|\mu,\,\sigma^{2})$$은 확률 밀도 함수이기 때문에, 정의상 다음이 성립한다.

$$\displaystyle \int_{-\infty}^{\infty} N(x|\mu,\,\sigma^{2})\,\mathrm{d}x=1 $$
한편, $$\mu=0$$, $$\sigma^{2}=1$$일 때의 분포를 '''표준 정규 분포'''라고 한다.

1.1.1. 실수 전체 적분 값 증명


이 문단에서는 $$N(x|\mu,\,\sigma^{2})$$이 확률 밀도 함수의 성질 중 하나인, 실수 전체에 대해 적분하면 1이 나온다는 것을 증명한다.

$$\displaystyle \begin{aligned} &\int_{-\infty}^{\infty} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left[ -\frac{(x-\mu)^{2}}{2\sigma^{2}} \right]}\,\mathrm{d}x \end{aligned} $$
에서 적분 변수를 $$\sqrt{2}\sigma t \equiv x$$라 놓으면

$$\displaystyle \begin{aligned} & \int_{-\infty}^{\infty} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left[ -\frac{(x-\mu)^{2}}{2\sigma^{2}} \right]}\,\mathrm{d}x =\frac{1}{ \sqrt{ \pi}} \int_{-\infty}^{\infty} \exp{\left[ -\left( t-\frac{\mu}{\sqrt{2}\sigma} \right)^{2} \right]}\,\mathrm{d}t \end{aligned} $$
그런데 피적분 함수를 보면 가우스 함수 $$f(t)=e^{-t^{2}}$$를 $$t$$축의 방향으로 평행이동한 것[2]이고, 불행히도 위 적분은 초등함수로 표현할 수가 없어 다른 방법으로 계산하여야 한다. 이에 대해 다룬 가우스 적분 문서의 다음 결과를 사용하면

$$\displaystyle \int_{-\infty}^{\infty} e^{-t^{2}}\,\mathrm{d}t = \sqrt{\pi} $$
[2] 실수 전체에 대한 적분을 고려하고 있기 때문에 함수의 평행 이동은 적분 결과에 영향을 주지 못한다.
위 적분은 $$\mu$$와 $$\sigma$$의 값에 관계없이

$$\displaystyle \frac{1}{ \sqrt{ \pi}} \int_{-\infty}^{\infty} \exp{\left[ -\left( t-\frac{\mu}{\sqrt{2}\sigma} \right)^{2} \right]}\,\mathrm{d}t=1 $$
이므로 실수 전체에 대하여 적분하면 1이다.

1.1.2. 정규 분포 곡선의 성질


  • 기본적으로 $$N(x|\mu,\,\sigma^{2})$$은 가우스 함수 $$f(x)=e^{-x^{2}}$$를 $$x$$축 방향으로 평행 이동시킨 함수이므로 가우스 함수와 같이 종모양의 곡선이 나타나며, 좌우 극단으로 갈수록 급격하게 수치가 낮아지는 특징이 있다. 즉, 다음이 성립한다.

  • $$x=\mu$$에 대하여 대칭이다. 즉, $$\delta$$를 임의의 양수라 할 때, 다음이 성립한다.

  • 변곡점은 2개 존재하며, $$x=\mu \pm \sigma$$에 존재하며, $$\sigma$$의 값이 증가할 수록 변곡점 사이의 폭은 증가한다.

1.2. 누적 분포 함수


정규 분포의 누적 분포 함수는 아래와 같이 정의된다.

$$\displaystyle \Phi(x|\mu,\,\sigma^{2}) \equiv \int_{-\infty}^{x} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t $$
우선 이 적분을 하기 전에, 정규 분포 함수 곡선의 성질인 $$x=\mu$$를 기준으로 곡선이 대칭이라는 점을 상기하면, 위 적분은 아래와 같이 분리할 수 있다.

$$\displaystyle \Phi(x|\mu,\,\sigma^{2}) = \int_{-\infty}^{\mu} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t+ \int_{\mu}^{x} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t $$
적분 변수를 $$u \equiv t-\mu$$로 바꾸면

$$\displaystyle \Phi(x|\mu,\,\sigma^{2}) = \int_{-\infty}^{0} N(u|\mu,\,\sigma^{2}) \,\mathrm{d}u+ \int_{0}^{u+\mu} N(u|\mu,\,\sigma^{2}) \,\mathrm{d}u\quad\cdots(1) $$
$$(1)$$ 식의 우변의 제1항은

$$\displaystyle \int_{-\infty}^{0} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u $$
이고, 가우스 적분 문서의 결과를 사용하면, 위 적분의 값은 다음과 같다.

$$\displaystyle \frac{1}{\sigma \sqrt{2 \pi}} \cdot \frac{1}{2}\sqrt{2 \pi \sigma^{2}}=\frac{1}{2} $$
$$(1)$$ 식의 우변의 제2항은

$$\displaystyle \int_{0}^{x-\sigma} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{\sigma \sqrt{2 \pi}} \int_{0}^{x-\sigma} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u $$
로 표현되고, $$u/(\sqrt{2}\sigma) \equiv U$$의 변수를 치환하면

$$\displaystyle \int_{0}^{x-\sigma} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{ \sqrt{ \pi}} \int_{0}^{\scriptsize {\dfrac{x-\mu}{\sqrt{2} \sigma}} } e^{-U^{2} } \,\mathrm{d}U $$
오차함수(Error function) 문서를 참고하면, 해당 적분 결과는

$$\displaystyle \int_{0}^{x-\sigma} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{2} \mathrm{erf}\left( \frac{x-\mu}{\sqrt{2} \sigma} \right) $$
로 쓸 수 있으므로 다음과 같은 결론이 나온다.

$$\displaystyle \Phi(x|\mu,\,\sigma^{2})=\frac{1}{2}\left[1+\mathrm{erf}\left( \frac{x-\mu}{\sqrt{2} \sigma} \right) \right] $$

1.3. 그래프


[image]
위 그래프는 정규 분포 곡선과 그 누적 분포 함수의 그래프를 나타낸 것이다. 적색은 정규 분포 곡선, 청색은 누적 분포 곡선을 나타낸다.
누적 분포 함수[3][math(\tanh x)]와 닮은 것과 비슷하게, 정규 분포 곡선[4][math(\mathrm{sech} \, x)]와 개형이 비슷하다.

1.4. 중심 극한 정리




2. 표준 정규 분포


[ 표준 정규 분포표 펼치기 · 접기 ]
<^|1>
[image]

'''표준 정규 분포($$\boldsymbol{z}$$-분포, Standard Normal Distribution)는''' $$\sigma^{2}$$을 아는 경우 $$\mu$$를 구할 때 쓴다.
$$z$$-분포와 $$t$$-분포에서 귀무 가설 $$H_{0}$$는 $$\mu=0$$이나 $$\mu_{1} = \mu_{2}$$ 등이고, 대립 가설 $$H_{1}$$은 $$\mu \neq 0$$나 $$\mu_{1} \neq \mu_{2}$$같은 것이다. $$\mu_{1}$$, $$\mu_{2}$$처럼 변수가 2개인 경우 $$\mu_{1}-\mu_{2}=0$$으로 바꾸고 $$\mu_{1}-\mu_{2}=d$$로 치환하면 $$d=0$$과 같은 변수가 하나인 식으로 바꿀 수 있다.
정규 분포 중에서도 평균이 0이고 표준 편차가 1인 것을 표준 정규 분포(standard normal distribution)라고 하며 따로 분류한다. z-분포라고 줄여 부르기도 한다. 모든 정규 분포는 이 표준정규 분포의 상수배를 평균만큼 이동시킨 형태이므로, 표준정규 분포의 확률만을 알면 모든 정규 분포의 확률을 알기 충분하다는 것. 정확히는 표준정규 분포를 표준편차배 하고 평균을 더해주면 임의의 정규 분포를 만들 수 있다.
$$z$$-분포로 하는 검정(test)을 $$z$$-검정($$z$$-test)이라고 한다.
$$z$$-검정은 $$\sigma^{2}$$을 알 때 $$\mu$$를 구하는 것이고, $$t$$-검정은 $$\sigma^{2}$$을 모를 때 $$\mu$$를 구하는 것이다. $$\chi^{2}$$-검정은 $$\sigma^{2}$$을 구하는 것이고, $$F$$-검정은 $$\sigma_{1}^{2}/\sigma_{2}^{2}$$을 구할 때 사용한다.
자세한 내용은 표준화#s-3 문서를 참고하라.

3. 로그 정규 분포


$$\ln{X}\sim N(\mu,\,\sigma^2)$$일 때 $$X$$가 로그 정규 분포를 따른다고 한다. 금융 상품의 가격은 일반적으로 이 로그 정규 분포를 따르는 것으로 알려져 있다. 또한 '적률생성함수가 존재하면 모든 적률이 존재한다'라는 명제의 역이 성립하지 않는 대표적인 반례이다. 즉, 이 분포는 모든 적률이 존재하지만 적률생성함수를 갖지 않는다.

4. 이용 사례


정규 분포는 본래 자연과학의 도구로 출발하였다. 가우스가 정규 분포를 발견한 것은 소행성[5] 세레스를 찾기 위한 문제를 풀면서였다. 그는 세레스의 위치를 측정한 오차가 정규 분포를 따른다고 생각하였고, 이걸 활용해 그가 발명한 추정법이 최소제곱법(least square method)이다.[6]
지금은 정규 분포는 통계학의 어디에서나 튀어나오므로, 통계를 쓰는 어느 누구도 피해갈 수 없다. 자연과학의 실험 뿐만이 아니라 사회학, 심리학의 실험 통계에서도 정규 분포가 사용된다. 이는 특히 사회과학에서 대다수의 수포자문과출신 대학생들을 좌절시키는 데 일조하고 있다. 예로 빈부격차 수준과 같은 거시(巨視)적인 대상을 설명할 때 특히 중요하게 다뤄진다. 또 앞에서 말한 최소제곱법은 지금도 회귀분석(regression)이란 이름으로 통계학도들을 괴롭히고 있다. 분야를 막론하고 '시간에 따른 경향'을 생각하는 사람들은 누구나 이 골칫거리와 씨름해 봤을 것이다.
물론 학문을 하는 사람들이 아니더라도, 정규 분포를 해석할 줄 알면 정규 분포로 나타나는 많은 자료들을 이해하는 데 훨씬 유용하다. 보험사들이 보험료를 설정할 때 참고하는 '경험생명표'는 정규 분포 형태로 나타난다.
정규 분포가 아닌 자료를 비율에 맞추어 정규 분포로 나타내는 것을 표준화(standardization)라고 한다. 정확히 말하자면 자료의 백분위 $$p$$만을 뽑아내서, 그 백분위에 대응되는 정규 분포의 값을 $$z$$값, 표준화된 값, 혹은 표준점수라 부르는 것이다. 이 표준화는 주로 시험에서 많이 활용된다. IQ등의 지능검사라든지, 대학 학점이라든지, 미국의 SAT, 특히 '''성적표'''라든지.
고등학교 생명과학Ⅰ에서 우성 열성 몇 가지 던져주고 나타나는 것들을 확률로 만들라는 수행평가를 내주기도 하는데, 이게 별 것 아닌 것 같지만 형질 4가지가 나오기만 해도 전체 256가지인데 이걸 손으로 구하겠는가? 이때 정규 분포를 고등학교 확률과 통계 수준으로 대충이라도 알고 있고, 계산기까지 있다면 3분 이내에 끝내버릴 수 있다. 물론 계산기가 없으면 좀 큰 수 암산하니 귀찮지만, 손으로 그리는 것보단 훨씬 낫다. 제출 직전 쉬는시간에 끝내버리고 제출할 수 있다.[7]

4.1. 성적표


보통 성적표의 9등급은 표준점수의 범위에 따라 매겨진다. 간단히 말하면
  • 원점수가 전체 중 상위 몇%인지 → 백분위
  • 백분위에 대응되는 평균 100, 표준편차 20의 정규 분포값 → 표준점수
  • 표준점수의 범위 → 등급
으로 요약할 수 있다. 세부사항은 훨씬 복잡할 수 있다. 대학수학능력시험의 경우는 수능 등급제 항목에 기술된 것처럼 표준점수를 정수로 반올림하고 여기에서 다시 또 누적 비율을 따지는 과정이 들어간다. 하지만 학생들 석차를 매길 수 있는 내신의 경우는 백분위를 따지는 것이 훨씬 편하므로, 굳이 표준점수를 뽑아내지는 않는다.

4.1.1. 내신 전교등수 추정하기


대부분의 내신 성적표에는 등급만 표기되어 있을 뿐 전교등수는 교육정책에 의해 표기돼 있지 않다. 하지만 원점수의 전체평균과 표준편차가 알려져 있고, '''원점수의 분포가 정규 분포와 비슷하다면''',[8] 자신의 원점수를 이용해 표준점수, 전교등수, 백분위를 대략적으로 구할 수 있다.[9]
계산은 간단하다. 만약 원점수의 분포가 정확한 정규 분포를 따른다면, 자신의 원점수를 표준화해 표준점수로 만들 수 있다. 이 표준점수로 전체 백분위를 구하고, 전체 백분위에 해당하는 전교등수를 계산하면 끝.
  • 표준점수: $$ \displaystyle 20\times\frac{\textsf{(원점수)}-\textsf{(평균)}}{\textsf{(표준편차)}}+100 $$

  • 백분위: $$ \displaystyle \frac{\textsf{(원점수)}-\textsf{(평균)}}{\textsf{(표준편차)}} $$의 값이
    • 양수라면 정규 분포표로 그 값에 해당하는 확률을 구한 후 0.5에서 빼고 100을 곱한다.
    • 음수라면 0.5에 그 값을 더하고 100을 곱한다.

  • 전교 등수: $$ \displaystyle \frac{\textsf{(이수 전교생 수)}\times\textsf{(백분위)}}{100} $$
예를 들어 원점수가 90, 평균이 60, 표준편차가 20인 누군가의 성적표가 있다고 치자. 이 학생의 표준점수는 $$ 20\times {(90-60)}/{20}+100 $$으로 130점이고, 이를 표준화하면 1.5이다. 1.5의 표준정규 분포의 값은 상단의 표에 따라 0.4332이므로 이 학생의 백분위는 0.5-0.4332니 약 0.067. 따라서 대략 상위 6.7%이므로(백분위는 93.3%) 이 학생의 성적은 2등급일 가능성이 크다.
아래는 백분위에 해당하는 등급을 나타낸 표이다.
'''백분위(상위)'''
'''등급'''
0% ~ 4%
1
4% ~ 11%
2
11% ~ 23%
3
23% ~ 40%
4
40% ~ 60%
5
60% ~ 77%
6
77% ~ 89%
7
89% ~ 96%
8
96% ~ 100%
9
주의해야 할 것은 이 과정은 엄연히 '추산'이라는 점이다. 연속량을 이산량으로 바꾸고, 숫자를 반올림하고, 정규 분포로 근사하는 과정에서 당연히 오차가 생길 수 있기 때문.

5. 기타


  • 독일 마르크 10DM 권종에도 그림과 함수식이 들어가있다.
  • 식스 시그마라는 용어도 여기에서 비롯한 것이다. 표준편차 6배 바깥의 범위($$ \mu\pm6\sigma $$)는 0.0000002% 정도의 극히 희귀한 확률이다. 즉 부품 10억 개 중에서 단 2개만 6 시그마를 벗어난다는 말로 사실상 불량률 제로를 추구하는 말이다. IQ로 치면 SD 15 기준 10 이하나 190 이상에 해당하는 지수가 바로 6시그마이다.

5.1. 통계학에서의 중요성


정규 분포를 빼면 통계학이 존재할 수 없다고 보아도 무방하다. 통계학의 수많은 분포($$\chi^{2}$$-분포, $$t$$-분포, $$F$$-분포 등)는 사실상 정규 분포의 수반성질들을 연구하기 위해 만들어진 분포이다.
한편으로는 통계적 분석이나 검정을 할 때 분포에 대한 가정이 필요한 경우, 설령 주어진 데이터가 정규 분포와는 전혀 다른 모양들의 집합이더라도, 정규 분포를 가정하고 계산할 수 있다. 모르는 분포라면 정규 분포로 가정하는 것이 가장 일반적일 정도. 얼핏 보면 엉터리인 듯한 이런 방법은 실제로는 매우 잘 맞아 떨어지는 편.
단순히 통계학의 응용분야라고 하기에는 너무 규모 커지고 연구성향이 달라진 계량경제학의 경우(물론 계량경제학자가 통계학 저널에 논문을 발표하거나 통계학자가 계량경제학 학술지에 논문을 투고하는 경우는 비일비재하다.), 학부 수준에서 쓰는 정규 분포외의 분포들은 대부분 회귀모형이나 시계열모형의 오차항이 정규 분포를 따른다고 가정할 때 도출한 통계량들의 분포로서 쓰인다. 다시 말해 정규 분포를 가정하지 않으면 $$\chi^{2}$$-분포, $$t$$-분포, $$F$$-분포를 쓸 수가 없다. 추정한 모수의 단일 가설 검정에서의 $$t$$-분포나 복합 가설검정의 $$F$$-분포, Chow-test 등을 떠올려보자.
더불어 통계학에서는 모르겠지만, 계량경제학은 실험을 통한 새로운 데이터의 추출이 불가능하다는 여건 때문에 이미 주어진 데이터가 정규 분포가 아닐 때 이를 정규 분포로 transform하는 방법에 대한 연구도 활발하다. 예컨데 임금분포를 히스토그램으로 그려보면 skewness 때문에 아무리 예쁘게 봐줘도 정규 분포로 볼 수 없는 분포가 나온다. 대신에 임금 값에 로그를 씌우면 놀랍게도 정규 분포에 보다 근사한 형태의 그래프가 나오는데, 이를 바탕으로 모형을 추정한 후 이 추정값을 exponential 하여 원래의 임금값을 추정하는 방법 등이 있다. 이렇게 monotone transform 후 추정, 그 후 다시 inverse transform은 통계학과 학부 수준 회귀분석 1에서도 많이하는 방법이지만 계량경제학자들은 사회과학 데이터의 한계를 극복하기 위해 이러한 정규 분포화 기법의 개발에에 좀 더 집중하는 측면이 있다. 물론 적절한 변형을 통해 추출한 정규 분포에 근사한 데이터에서 추정한 추정량이 일치성, 불편성, 효율성 등을 만족한다고 해서 이것을 역변환하여 도출한 추정량이 이러한 성질을 따른다는 보장은 없으므로 자신이 취한 transform 방법의 가정, 특징, 효과와 한계 등을 제대로 파악해야할 것이다. 물론 직접 이것을 연구하는 사람도 있겠으나 그 정도 되면 최소 통계학이나 계량경제학이나 경영학과 재무의 박사 과정은 가야할 것이다.

5.2. 짤방: 세상은 정규 분포


[image]
자기 주변은 온통 x인데, 실상은 그 x가 굉장히 소수일 수 있다는 것을 보여주는 짤방.
트위터의 누군가가 '주변 사람들이 구글만 쓰던데 네이버는 누가 쓰죠?' 라는 트윗(해당 트윗)을 올린 것에서 유래한다.
통계 인원이 적으면 일반적인 통계치가 통계 인원 내에서 적어 보이고 극단적인 통계치가 해당 모집단 내에서 많아 보일 수가 있지만 결국 많으면 많아질수록 통계치에 근접해지는 것을 뜻한다. 결국 '소수자는 소수자일 뿐'이라는 것을 나타내는 것. '''굉장히 많은''' 상황에 이 그래프를 보여줄 수 있다. 대표적으로 선거 투표 개표 결과가 자기 생각과 다르게 나왔을 때 '''"나랑 내 주변 사람들은 아무도 A후보를 안뽑았는데 어떻게 A후보가 당선될 수가 있죠?"'''라는 의문을 갖는 사람에게 보여줄 수 있다. 선거 투개표 결과는 출구조사(표본조사)로도 얻을 수 없을 만큼 어마어마한 인원수에 대한 결과(즉, 전수조사)이고, 앞에서 말한 주위 사람들의 표본조사는 '''모집단'''에 대한 결과이므로 '모수', 즉 '모평균', '모분산' 등에 해당한다. 이런 결과는 당연히 정규분포 근사가 가능하므로 일반 사람의 생각은 그저 저 중에 하나, 실제 몇명의 가치로는 '''0에 수렴한다'''.[10]

6. 관련 문서



[3] 정확히는 오차함수 $$\mathrm{erf}(x)$$[4] 정확히는 $$\dfrac{1}{\sigma\sqrt{2\pi}} \exp{\left[ -\dfrac{1}{2}\left(\dfrac{x - \mu}{\sigma}\right)^2\right]}$$[5] 현재는 왜행성이지만, 당시에는 소행성으로 분류되었다.[6] 최소제곱법에 대해 자세한 것은 네이버캐스트의 이곳 을 참고. 아쉽게도 이 글은 정규 분포와의 연관성을 전혀 언급하지 않고 있다.[7] 다만, 고3 때 확통을 배우는 학교에서는 선생님이 채점을 거부할 수도 있으니 주의하자. 그런데 대놓고 조합 식을 써놓아도 그냥 받아주는 것 같다.[8] 예를 들어 시험이 아주 쉬워서 만점자가 수두룩했다거나, 매우 어려워서 잘하는 몇 명 빼고 다 죽을 쑨 경우라면, 혹은 해당 (선택)과목 이수생 수가 매우 적은 경우라면 이 추산은 거의 맞지 않을 것이다.[9] 만일 전체 평균과 등급컷 하나가 알려져 있다면 표준편차를 구할 수 있다. 그 다음 다른 등급컷까지 모두 계산할 수 있다.[10] 실제로 정규분포에서 특정 지점의 확률은 '''0'''이다.