산포도
1. 개요
dispersion, variability, scatter, spread, degree of scattering / 散布度
'''산포도''' 또는 변산도는 변량이 흩어져 있는 정도를 하나의 수로 나타낸 값이다. 범위, 사분위수 범위, 분산, 표준 편차, 절대 편차, 변동 계수 등이 이에 속한다.
수업시간엔 흔히 삼척동자도 예측가능한 아재개그와 그럼에도 불구하고 굳이 입밖으로 꺼내 딴에는 어떻게든 분위기를 띄우려는 결연한 의지를 가진 노잼 선생님들에게 수시로 능욕당하는 희생양이다.
2. 범위
range
최대값에서 최소값을 뺀 것이다.
3. 사분위간 범위
자료를 같은 갯수로 4개로 나눈 각각의 값을 사분위수(quartile)라고 한다. n개의 값이 있다면 중앙값이 2사분위수인 Q2이며, (Q2 + 1)/2 번째가 1사분위수인 Q1이고, (Q2 + n)/2 번째가 3사분위수인 Q3이다.
예를 들어 11~24의 14개의 숫자가 있다고 하면 7.5번째여서 중위수인 17.5가 Q2이다. Q1은 4.25번째인 14.25이고, Q3는 10.75번째 숫자인 20.75이다. 그럼 11과 14.25 사이의 간격은 3.25이고, 14.25와 17.5 사이의 간격도 3.25이다. 또한 17.5와 20.75 사이의 간격도 3.25이고, 20.75와 24사이의 간격도 3.25이다.
사분위간 범위(interquartile range, IQR)는 3 사분위수에서 1 사분위수를 뺀 값으로 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. Q1에서 Q3 사이의 간격이라고 생각하면 된다. 위의 예에서는 20.75 - 14.25 = 6.5이다.
산포도인 사분위간 범위와 달리 사분위수와 백분위수는 대푯값이다. Q1은 제25백분위수, Q2는 제 50백분위수, Q3는 제75 백분위수이기도 하다.
4. 분산
분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 갯수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
$$\text{Var}=\sigma^{2}=\frac{\text{SS}}{N}=\frac{\sum_{i}\left(x_{i}-\mu\right)^{2}}{N}$$
위의 수식은 모집단에서의 분산(variance)을 다룬다. $$\mu$$는 모집단의 산술 평균이다. N은 모집단의 원소의 갯수이다.
표본에서의 분산은 N이 아닌 n-1로 나눈다. n은 표본의 갯수이다.
분산은 쉽게 말하면 '''편차의 제곱의 평균'''이다.
분산 문서 참조.
5. 편차
편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.
5.1. 표준 편차
$$\sigma=\sqrt{\text{Var}}$$
모집단의 표준 편차
표준 편차(standard deviation)는 짧게 말해서 '''분산에 루트를 씌운 것'''이다. 분산에서 왜 제곱을 하는지 알고 있다면, 표준편차에서 왜 루트를 씌우는지도 알 수 있다. 분산을 구하는 과정에서 마이너스 기호를 떨구기 위해 임의로 뻥튀기를 해 놓았으니, 이제 그 값을 도로 원상복구(…)시켜야 하는 것이다. 즉 제곱해서 커져 버린 값에 루트를 씌워서 도로 쪼그라들게 만들면 '''비로소 우리가 본래 알고 싶어하던 편차의 평균이 얻어지게 되는 것이다.''' 통계학자들은 시그마 소문자 기호로 표준편차를 표시하는데, 위에 서술한 바에 의해서 분산의 경우는 시그마 제곱으로 표현된다.
표준편차의 경우, 모든 관찰값에 동일한 상수를 똑같이 더하거나 빼는 것은 영향을 받지 않지만, 똑같이 곱하거나 나누게 되면 표준편차도 동일하게 영향을 받는다. 모든 수에 2를 곱한다면 표준편차도 2가 곱해진 새로운 값으로 구해지게 된다.
표준 오차(standard error)는 표준 편차와는 다르다. 이쪽은 추론통계학에서 수많은 표본 평균들의 편차를 구함으로써 모 평균 "뮤"를 추정할 때 쓰인다. 이 경우 시그마 소문자에다 아래 첨자로 m 을 붙여서 표기하며, 루트 씌운 표본 관측값의 수로 표본 표준 편차를 나누면 된다.
표준 편차 문서 참조.
5.1.1. 변동 계수
변동 계수(coefficient of variation, CV) 또는 상대 표준 편차(relative standard deviation, RSD)는 표준 편차를 표본 평균이나 모 평균 등 산술 평균으로 나눈 것이다.
즉, "변동 계수 = 표준 편차 / 평균"이다.
변동 계수 문서 참조.
5.2. 절대 편차
각 데이터에서 평균을 빼고 제곱한 후 제곱근을 씌운 표준 편차와는 다르게, 제곱을 하지 않고 절대값을 씌운 것이다.
절대 편차(absolute deviation) 문서 참조.
6. 관련 문서
- 대푯값
- 산점도(scatter plot)
- 통계학
- 통계 관련 정보
- 표본조사
- 추론 통계학
- 회귀 분석
- 카이-제곱 분포
- Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.