대푯값
代表値 / Representative value[1]
1. 개요
대푯값(representative value)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다. 자료의 특징을 수 하나로 표현한 값이다. 한글 맞춤법에 따르면 사이시옷 규정에 의해 '대푯값'이 맞다.
2. 종류
- 평균(mean)은 데이터를 모두 더한 후 데이터의 갯수로 나눈 값이다.
- 중앙값(median)은 전체 데이터 중 가운데에 있는 수이다. 데이터의 수가 짝수인 경우는 가장 가운데에 있는 두 수의 평균이 중앙값이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4851만 원이 된다. 이처럼 극단적인 값이 있는 경우 중앙값이 평균값보다 유용하다.
- 최빈값(mode)은 가장 자주 나오는 값이다. 최빈값은 두 개 이상일수도 있으며, 자료가 숫자가 아니어도 구할 수 있다.
- 사분위수(quartile): 자료를 크기순으로 나열했을 때 4등분하는 관측값이다.
- 백분위수(percentile): 자료를 크기순으로 나열했을 때 x%인 관측값을 말한다.
- 절사 평균(trimmed mean): 관측값의 양쪽에서 일정 비율 α의 이상점을 버리고, 나머지 관측값들만으로 낸 평균을 100α% 절사 평균이라고 함.
- 이상점(극단값, outlier): 다른 자료와는 극단적으로 다른 값. 너무 크거나 작다.
- 기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24
3. 평균값
평균값(mean)은 n개의 변량을 모두 더하여 그 개수로 나누어 놓은 숫자이다. 산술평균이라고도 한다.
위 데이터에서는 $$\displaystyle \frac{1 + 1 + 2 + 3 + 4 + 5 + 5 + 5 + 5 + 7 + 8 + 9 + 10 + 11 + 24}{15} = \frac{100}{15} = 6.666...$$
대수적으로 건드리기가 쉬워서 사실상 가장 대중적이고(널리 쓰이고) 유명한 대푯값. 통계적인 무언가에서는 항상 빠지지 않고 등장하는 수치이다. 그러나 극단값의 영향을 가장 많이 받는 것이 단점이다. 이상할 정도로 다른 변량들과 차이나는 변량이 들어차면 대표로서의 의미를 잃어버리게 된다. 그런 상황에선 아래의 값들을 사용한다.
자세한 내용은 평균 문서 참조.
4. 중앙값
중앙값(median) 또는 중위수는 n개의 값을 크기 순으로 늘어놓았을 때 가장 가운데에 있는 숫자이다. n이 홀수일 때 중앙값은 '''(n+1)/2'''번째에 있는 값, n이 짝수일 때는 중앙값이 2개가 나오는데 이들의 평균값을 단 하나의 중앙값으로 하거나[2] 이 두 값을 모두 중앙값으로 간주하기도 하고, n/2번째에 있는 값을 중앙값으로 하기도 한다.[3]
예컨대, 위 데이터에서는 (n+1)/2 번째 값인 8번째 있는 데이터 세 번째 $$5$$가 중앙값이다.
n이 짝수일 경우 두 수(n/2 번째 값과 n/2 +1 번째 값)의 평균을 낸다. 가령 10,20,30,80의 중앙값은 20, 30이 아닌 $$25$$이다.(독학학위제의 행정계량분석 예시문제)[4]
중앙값 개념은 각 표본들의 격차가 워낙 커서 평균값이 의미가 없고 그 순위(백분위)가 더 중요할 때 주로 쓴다. 예를 들어 국민들의 '''평균소득'''은 부자와 가난한 서민의 소득은 워낙 격차가 커서 산술평균을 쓰면 부자들의 소득비중이 높아진다. 그래서 산술적 평균은 의미가 없으므로 모든 국민을 소득순으로 줄세우기를 해서 그 50%에 있는 국민의 소득을 '''중위소득'''으로 보는게 합당하다.
중앙값은 또한 어느 한 관찰값이 극단적으로 동떨어져 있을 때 사용하기도 한다. 예를 들어 직원이 100명인 회사에서 99명의 연봉 평균은 일괄 5천만 원인데 사장의 연봉만 100억이라면, 회사의 '평균' 연봉은 1억 4851만 원이 된다. 그렇지만 1억 4851만이라는 숫자는 사실상 대표성이 없다. 이처럼 극단적인 값이 있는 경우에는 중앙값이 평균값보다 유용하다.
중앙값은 극단의 관찰값이 확정되지 않았을 때, 또는 자료가 극단성을 포함할 여지가 있도록 개방된(open-ended) 경우에도 유용하게 사용할 수 있다. 예를 들어, 10명이 퍼즐을 푸는 평균 시간을 측정하는데, 9명은 12분 언저리에서 풀었지만 1명은 측정 한계시간 1시간을 훌쩍 넘기도록 여전히 끙끙거리는 바람에 '''측정이 중단된 경우.''' 이런 경우에는 애초에 평균을 낼 수도 없기 때문에 중앙값을 이용해야 한다. [5]
5. 최빈값
최빈값(mode)은 가장 빈번하게 등장하는 값을 의미한다. 위 데이터에서는 5가 네 번 나타나므로 최빈값은 $$5$$이다.
이건 각 값의 수치적 평균값이 의미 없고 대소 관계가 없을 때 사용한다. 예를 들어 사람들의 출생한 달이나 요일 따위. 최빈값은 여러 개가 될 수 있지만, 모든 관찰값이 동일하게 나타날 경우 최빈값은 의미가 없다고 한다.
6. 사분위수
자료를 같은 갯수로 4개로 나눈 각각의 값을 사분위수(quartile)라고 한다. n개의 값이 있다면 중앙값이 2사분위수인 Q2이며, (Q2가 가리키는 번째수 + 1)/2 번째가 1사분위수인 Q1이고, (Q2의 번째수 + n)/2 번째가 3사분위수인 Q3이다.
예를 들어 11~24의 14개의 숫자가 있다고 하면 7.5번째여서 중위수인 17.5가 Q2이다. Q1은 4.25번째인 14.25이고, Q3는 10.75번째 숫자인 20.75이다. 수치로 계산하면 안되고, 자료의 위치로 계산해야한다.
위 자료는 11, 12, 13, 14 ...으로 각 자료마다 (수치의)간격이 1로 동일하지만, 5, 6, 9, 17, 19, 24... 등과 같이 자료간 간격이 동일하지 않으면 위의 내용이 틀려진다. 11, 14.25, 17.5, 20.75, 24의 간격이 3.25로 동일 하지만 이것은 자료 내용이 간격 1로 균등하기 때문으로, 4.25번째, 7.5번째, 10.75번째의 거리 간격이 각 3.25개의 거리만큼 동일한 거리에 위치하고 있다고 설명하여야 옮다.
사분위간 범위(interquartile range)는 3 사분위수에서 1 사분위수를 뺀 값으로 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. 위의 예에서는 20.75 - 14.25 = 6.5이다.
7. 백분위수
산포도인 사분위간 범위와 달리 사분위수와 백분위수는 대푯값이다. Q1은 제25백분위수, Q2는 제 50백분위수, Q3는 제75 백분위수이기도 하다.
8. 그래프 모양
정규분포(normal distribution)에서 평균, 최빈값, 중앙값은 전부 동일한 위치에 놓이지만, 분포의 모양이 달라질 경우 세 값은 서로 달라질 수 있다. 예를 들어 기울어진(skewed) 정규분포에서는 두 가지 경우가 있는데, 왼쪽으로 기울어진 경우(positive skewed distribution) 값이 작은 순으로 정렬하면 '''최빈값, 중앙값, 평균'''이 나오고, 오른쪽으로 기울어진 경우(negative skewed distribution) 값이 작은 순으로 정렬하면 '''평균, 중앙값, 최빈값'''이 나온다. 평균은 긴 꼬리 쪽으로 이끌려가는데, 이는 평균이 극단값에 크게 영향을 받기 때문이다. 중앙값은 움직이지 않는다. 반면 최빈값은 평균과 반대방향으로 움직이며, 그 정의상 곡선의 최고점에서 벗어나지 않는다. 중앙값을 그래서 '''강고(robust)하다'''라고 표현한다. 이는 중앙값은 이상값들의 영향을 적게 받기 때문이다. 각각의 값들의 차이는 기울어진 정도가 클수록 커지며, 기울어진 정도를 따로 왜도(skewness)라고 부르기도 한다.
첨도(kurtosis)는 그래프가 세로로 뾰족한 정도이다.
9. 분산도 최소
위의 대푯값 모두 각 값들과의 거리가 최소가 되는 값, 즉 분산도가 최소가 되는 값들이다. 단지 각 값들의 거리를 어떻게 측정하느냐에 따라 다를 뿐이다. 거리를 (x-y)2으로 정의하면 평균, lx-yl로 정의하면 중앙값, 차이가 있을때 1로 정의하면 최빈값이 된다.(김태수, '통계학 입문', 자유아카데미, 2010, pp.11-13)
10. 중심화 경향: 평균, 중앙값, 최빈값
central tendency
많은 자료들을 늘어놓아 보면 빈도상의 패턴 내지 경향이 존재하는 경우가 있다. 관찰된 자료에서 집중되는 경향이 발견되는 것을 '''중심화 경향'''이라고 하고, 중심화 경향을 나타내는 수치는 따로 '''대푯값'''(representative value)이라고 부른다. 그리고 대푯값에는 평균(산술/기하/조화), 중앙값(median), 최빈값(mode) 등이 있다. 여기서 평균은 영어로 'mean'이지 'average'가 아님을 유의하자. 엑셀 함수 목록에서는 average로 쓰기는 하지만... 기하평균과 조화평균 역시 중심화 경향이긴 하지만 존재감은 역시 공기 수준이다. 평균은 관찰값 위에 bar를 긋거나 소문자 m으로 표시한다.
이 중에서 평균, 그 중에서도 '''산술평균'''(arithmetic mean)의 경우 양적 자료에서만 사용 가능하며, 그 수학적 응용의 가능성이 매우 크기 때문에 통계학적으로 극도로 자주 활용되고 있다. 산술평균은 간단히 말해서 전체 관찰값들의 총합을 관찰값의 수로 나눈 것과 같다. [6] 한편 크기가 서로 다른 여러 집단들의 평균을 다시 평균하려면, 각 평균들에 크기별로 가중치를 주는 복잡한 과정을 거쳐야 한다.
평균이 갖고 있는 중요한 특징 중 하나는 '''그것이 이상점이나 극단값에 심하게 영향을 받는다는 점이다.''' 자료가 잘 나가다가 확 튀면 평균도 자료를 따라서 확 튄다. 그래서 편포(skewed distribution)의 경우 평균은 보통 긴 꼬리를 향해 끌려가는 모습을 보인다. 좌측편포의 경우 평균은 왼쪽으로 끌려가며, 우측편포의 경우 평균은 오른쪽으로 끌려간다. 이는 각종 사회 데이터를 이해하는 데에 있어서도 중요한데, 왜냐하면 예컨대 양극화로 인해 다수가 흙수저이고 소수가 금수저일 때 평균을 내 보면 스테인리스 수저 정도에서 나오기 때문이다. 결국 흙수저 인생이 얼마나 많은지의 문제는 가려지게 되며, 이런 경우는 평균에 더해 최빈값이나 중앙값을 함께 구해서 판단하는 것이 좋다. 평균이 만능은 아니라는 말.
한편 '''중앙값'''은 양적 자료에서만 사용 가능하며, 수치 자료가 크기 순서대로 정렬되어 있을 때 가장 가운데에 위치하는 관찰값과 같다. 세 가지 중심화 경향 중에서 중앙값은 가장 쓸데없이 복잡하다.(…) 이산적 자료에서 중앙값을 찾으려면 다음의 절차를 거쳐야 한다. '''1)''' 전체 관찰값들을 크기 순서대로 정렬한다. '''2)''' 관찰값의 수에 1을 더한 뒤 2로 나눈다. '''3)''' 얻어진 수에 해당하는 번호의 관찰값을 읽는다. '''4)''' 번호가 만일 x.5 형태로 나온다면, x번 값과 x+1번 값의 산술평균을 구한다. 그리고 연속적 자료에서는 이것보다 더 복잡하다!
중앙값은 편포 여부에 영향을 받지 않는다. 즉 꼬리가 길어지고 비대칭이 되더라도 그 분포의 중앙값 자체는 변하지 않는다. 만일 완전한 좌우대칭일 경우, 평균과 최빈값은 중앙값과 정확히 일치하며, 이는 정규분포의 특징이기도 하다. 그래서 중앙값을 기준으로 정리하면, 좌측편포의 경우 평균은 중앙값의 좌측으로, 최빈값은 중앙값의 우측으로 끌려간다. 우측편포의 경우는 그 반대라서, 평균은 중앙값의 우측으로, 최빈값은 중앙값의 좌측으로 끌려간다. 아무튼 이처럼 편포로부터 자유롭기 때문에 이상점이 많은 자료를 다룰 때에는 중앙값도 함께 구해서 판단하게 되곤 한다.
마지막으로 '''최빈값'''은 양적 자료와 질적 자료 모두에서 사용 가능하며, 그 관찰 빈도수가 가장 높은 관찰값을 말한다. 가장 직관적이고 단순하다면 단순한 개념인데, 질적 자료에서 사용할 수 있는 유일한 중심화 경향이다. 정의가 정의인 만큼 최빈값은 하나가 아니라 여럿이 될 수 있으나, 모든 빈도가 동일할 경우에는 좀 애매하다. 대개는 모두 최빈값이라고 간주하기보다는 최빈값이 없다는 쪽으로 분석하는 듯. 이런 질적 자료에서 평균은 통계적으로 아무런 의미를 갖지 못한다.
최빈값은 편포에서 평균과 반대로 움직인다. 좌측편포의 경우 최빈값은 우측으로 밀려나며, 우측편포의 경우 최빈값은 좌측으로 밀려난다. 즉 최빈값은 꼬리에 대해 반대 방향으로 밀려나는 경향을 보인다. 결과적으로 좌측편포의 경우 세 가지 중심화 경향은 좌측에서부터 읽을 때 평균 - 중앙값 - 최빈값 순서로 놓이게 되며, 우측편포의 경우 세 가지 중심화 경향은 좌측에서부터 최빈값 - 중앙값 - 평균 순서로 놓인다. '''평균은 이상점에 이끌리고, 중앙값은 그 이름대로 항상 중앙이며, 최빈값은 평균의 반대 방향으로 밀려난다'''고 보면 될 듯.
이상의 내용을 정리하면 다음과 같다.
11. 관련 문서
- 산포도
- Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.
[1] 위치 측도(measure of location)라고도 한다.[2] 즉, n개의 표본 중 ('''n/2'''번째 값+'''(n/2)+1'''번째 값)/2[3] 10개의 표본을 작은 크기부터 순서대로 나열했을 때 5번째 값. 하지만 이 방법은 표본의 수가 너무 적다거나 하면 사용할 수 없다. 적어도 수십 개의 표본이 있어야 의미가 있다.[4] 위에서 설명한 두번째 방법으로는 중앙값이 20, 30의 두 가지이며, 세번째 방법으로는 중앙값이 20이다.[5] 마지막 한 사람의 기록을 60분으로 보고 평균을 내도 17분 정도가 나오기 때문에 평균값은 실제로 구하고자 하는 값과 많이 달라진다.[6] 일반인들에게는 이게 은근 나오는 오답인 모양인지, 한때 인기를 끌었던 《상식의 오류 사전》 시리즈에서도 이 오답을 다루었던 적이 있다. "통계학자들이 보면 그냥 허허 웃고 넘어갈 수준"이라고 디스하면서.