표준편차

 


/ standard deviation(σ)
1. 개요
2. 모표준편차
2.1. N으로 나눔
3. 표본 표준 편차
3.1. n-1로 나눔
4. 표준 오차
5. 평균 절대 편차
6. 표준 편차의 용도
7. 엑셀에서 표준 편차 구하기
8. 같이 보기


1. 개요


자료의 관찰값이 얼마나 흩어져 있는지를 나타내는 값 중 하나. 이러한 의미를 가진 단어를 바로 산포도(scatterplot)라고 한다. 사실상 가장 많이 사용한다. 약어로는 StDev(또는 stdev)라고 쓰는데 Microsoft Excel의 함수 명칭과 동일하다.
편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다.
분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다. 표준편차의 경우 후술될 표준오차(stand error)와 함께 통계학 공부에서 제일 먼저 접하게 되는 개념이다. 특히, 표준편차는 서술되는 방식에 따라 그 함의가 다양해서 이후 '''연구방법론에 핵심'''인 추론통계의 기초가 되는 모 표준 편차, 표본 표준 편차, 표준오차를 이해하는 데 '''중요한 역할'''을 하게 된다. 이처럼 표준편차가 중요한 역할을 하는 데는 사실 표준편차는 어떤 수의 크고 작음을 직관적으로 이야기해 줄 수 있기 때문이다.
모 표준 편차(population standard deviation) σ는 모 집단의 표준 편차이다. 모 분산 σ2에 루트를 씌워서 구한다.
표본 표준 편차(sample standard deviation) s는 표본의 표준 편차이다. 표본 분산 s2에 루트를 씌워서 구한다.[1]

2. 모표준편차


모집단을 대상으로 한 표준 편차인 모표준편차(population standard deviation) σ는 짧게 말해서 모분산(population variance) σ2루트를 씌운 것이다.
'''분산에서 왜 제곱을 하는지 알고 있다면, 표준편차에서 왜 루트를 씌우는지도 알 수 있다.''' 분산을 구하는 과정에서 음의 부호를 없애기 위해 임의로 뻥튀기를 해 놓았으니, 이제 그 값을 도로 원상복구(…)시켜야 하는 것이다. 즉 제곱해서 커져 버린 값에 루트를 씌워서 도로 쪼그라들게 만들면 비로소 우리가 본래 알고 싶어하던 편차의 평균이 얻어지게 되는 것이다. 통계학자들은 시그마 소문자 기호로 표준편차를 표시하는데, 위에 서술한 바에 의해서 분산의 경우는 시그마 제곱으로 표현된다.
또한 단위를 맞춰주기 위해서 루트를 씌우기도 한다.
표준편차의 경우, 모든 관찰값에 동일한 상수를 똑같이 더하거나 빼는 것은 영향을 받지 않지만, 똑같이 곱하거나 나누게 되면 표준편차도 동일하게 영향을 받는다. 모든 수에 2를 곱한다면 표준편차도 2가 곱해진 새로운 값으로 구해지게 된다.

2.1. N으로 나눔


모 분산에서 유도된 값이므로 모 분산과 마찬가지로 모집단(population)의 데이터 개수 N으로 나눈다.
우선 N개의 자료값 $$ x_1 , x_2, \cdot\cdot\cdot , x_N $$이 있다고 가정할 때 이 자료값의 평균(mean) $$m$$부터 구하면
$$ m= \frac{x_1 + x_2 + \cdot \cdot \cdot + x_N } {N} $$
로 표현된다. 다음에 각 자료값 $$x_i, i=1, 2, \cdot \cdot \cdot N $$에 대해 $$ x_i -m $$을 평균 m에 대한 $$ x_i $$의 편차(deviation)라고 부른다. 이 편차들의 제곱의 평균인
$$ V= \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_N -m)}^{2} }{N} $$
를 $$ x_1 , x_2, \cdot\cdot\cdot , x_N $$에 대한 분산(Varience)이라 부른다. 이 분산의 제곱근
$$ \sigma= \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_N -m)}^{2} }{N} } $$
을 표준 편차라고 부른다.
확률 변수의 X에 대한 방식으로 묘사될 때에는 다음과 같이 정의된다.
$$ (X) $$$$ = \sqrt{ { E((X-E(X))}^{2}) } = \sqrt { E({X}^{2}) -{(E(X))}^{2}} $$

3. 표본 표준 편차


표본 표준 편차(sample standard deviation) s표본 분산(sample variance) s2제곱근이다.
모집단모평균, 모표준편차를 알고싶지만 많은 경우에 그것은 불가능하거나 너무많은 노력이 필요하므로 표본조사를 통하여 모집단의 정보를 추정한다.

3.1. n-1로 나눔


표본 분산에서 유도된 값이므로 표본 분산과 마찬가지로 표본(sample)의 데이터 개수 n에서 1을 뺀 n-1로 나눈다.
우리는 모집단의 표준편차는 알 수 없지만 표본을 뽑아 분산을 구하고 그 과정을 많이 반복하여(무한히) 모집단의 표준 편차와 같도록 하기위해, 표본을 이용하여 모집단의 분산을 추정할때는 표본크기 n이 아니라 n-1로 나눠준다. 표본분산이 모분산의 불편 추정량(unbiased estimator)이 된다. 표본분산의 양의 제곱근인 표본표준편차는 모표준편차의 편향추정량이다(복잡하지만, 기댓값을 계산해보면 모표준편차와 다른 값이 나온다).분산 및 표준편차에서 분모를 n-1로 계산하는 이유 그러나 통계전공자가 아니고서야 이러한 논리를 직관적으로 이해하는 데는 한계가 있다. 사회과학도에게는 수식 없이 직관적으로 살명한 영상을 추천한다.
표본 표준편차에서는 분모를 n이 아니라 n-1을 사용한다. '''간단히 말해서 편차의 제곱평균.'''

4. 표준 오차


표준 오차(standard error)는 표준 편차와는 다르다. 표준오차추론 통계학에서 수많은 표본 평균들의 편차를 구함으로써 모평균 "[math(\mu)]"를 추정할 때 쓰인다. 이 경우 $$\Sigma$$의 소문자 [math(\sigma)]에 아래 첨자로 m을 붙여서 표기하며($$\sigma_{m}$$), 루트 씌운 표본 관측값의 수로 표본 표준 편차를 나누면 된다.
$$\sigma_{\bar{x}} = \displaystyle{\sigma \over \sqrt{n}}$$
모 평균에 대한 표준 오차(standard error of the mean, SEM)
$$\sigma$$는 모 분산, $$n$$은 표본의 크기
$$\sigma_{\bar{x}} \approx \displaystyle{\frac{s}{\sqrt{n}}}$$
표본 표준 편차 $$s$$를 이용하여 근사값으로 구하기
$$s_{\bar{x}} = \displaystyle{\frac{s}{\sqrt{n}}}$$
표본 평균에 대한 표준 편차표본 평균오차에 대한 표준 편차와 동일하다.
관련 영상:수식없이 설명하는 표준오차

5. 평균 절대 편차


제곱 후 제곱근 하는 대신 편차에 절댓값을 취해서 그걸로 평균을 내는 절대 편차를 쓸 수도 있지 않나 할 수 있지만, 나중에 통계분석을 할 때 쓰기가 까다로워서 잘 안 쓴다고 한다. 최근에는 강력한 관측값을 얻기위해 사용되는 분야가 꽤나 있다. 절댓값을 취하는 방법은 따로 "평균편차"(MAD) 라고 부른다.
단순히 편차들의 절대값의 평균(평균절대편차)을 구하지 않고 '''제곱의 평균'''을 구한 뒤 제곱근을 취하는 이유는(표준편차) 평균으로 부터 분산된 정도를 구하기 위해서이다. 절대값을 이용하면 평균이 아닌 중앙값에서 분산된 정도를 나타내게 된다.
거꾸로 생각하여 우리가 '데이터가 흩어진 정도'를 표현하는 척도를 (표준편차, 평균절대편차 등) 정했다고 가정하자. 이때 데이터의 대표값은 '데이터가 흩어진 정도'가 가장 작게되는 값일 것이다. 이때 '데이터가 흩어진 정도'를 표준편차로 선택하면 대표값(흩어진 정도가 최소이게 만드는 수)은 평균이 되고, 그 척도를 평균 절대 편차로 선택하면 대표값은 중앙값으로 선택된다. 대표값을 미지수로 넣고 미분을 통해 최소값을 구해보면 나온다.
이렇게 '''제곱의 평균의 제곱근'''을 RMS(root mean square, 우리말로는 근평균제곱)이라고 하는데 기체분자의 속도 분포를 기반으로 운동에너지의 평균을 구할 때에도 유용하다. 왜냐하면 운동에너지가 속도의 제곱에 비례하기 때문이다.
절대 편차 문서의 평균 절대 편차 항목 참조.

6. 표준 편차의 용도


가장 대표적으로 수능점수의 표준점수가 이 평균과 표준편차를 기준으로 결정된다. 수능 시험 점수를 정규분포라고 가정하고 평균을 100으로, 표준편차를 20으로 가정하고 상대적으로 얼마나 높은 점수를 받았는지로 표현한다.
실제로 수험생들의 성적분포는 정규분포와는 다르다. 상위권은 오밀조밀 모여있고 중하위권은 점수 편차가 심하다. 이 현상이 특히 극대화된 케이스가 아랍어.
예를 들어, 올해 수능의 평균이 60점이고 올해 수능의 표준편차가 24점이라 가정하면 92점을 받은 학생은 표준점수가 127점[2]이 된다.
이 밖에도 통계조사에서 표본평균을 기반으로 모집단의 평균을 추정할 때에도 이 표준편차가 모평균의 범위를 결정하는데 중요한 역할을 한다. 지능 지수 테스트에서도 표준편차SD15, SD24 값에 따라 결과값이 달라진다.

7. 엑셀에서 표준 편차 구하기


엑셀 2010 버전부터는 표본 표준 편차(sample standard deviation)는 STDEV.S 함수로, 모 표준 편차(population standard deviation)는 STDEV.P 함수로 구한다.
이전 버전 엑셀까지는 표본 표준 편차는 STDEV 함수를, 모 표준 편차는 STDEVP 함수를 썼다. 아직까지는 STDEV 함수와 STDEVP 함수도 지원되지만 이후 버전의 엑셀에서는 지원이 중단될 수 있다.
Microsoft Excel/함수 목록#s-1.2 문서 참조.

8. 같이 보기




[1] 당연히 양수인 근으로 구해야 한다.[2] 100 + 20 * (92 - 60) / 24 = 126.66666... 이지만 소숫점은 반올림하여 계산한다.