평균

 


1. 개요
2. 종류
2.1. 산술 평균
2.1.1. 모 평균
2.1.2. 표본 평균
2.1.3. 가중 평균
2.1.4. 절사 평균
2.2. 기하 평균
2.3. 조화 평균
2.4. 멱평균
3. 여담
4. 관련 문서


1. 개요


/ mean, average
대푯값의 일종이다. 산술 평균, 기하 평균, 조화 평균 등이 있다.

2. 종류


양수에 대해서 산술 평균 ≥ 기하 평균 ≥ 조화 평균이 성립한다.

2.1. 산술 평균


Arithmetic mean
$$\displaystyle \text{AM}=\frac{1}{n} \sum_{i=1}^{n}a_{i}={a_{1}+a_{2}+\cdots+a_{n}\over n}$$
가장 일반적으로 사람들이 생각하는 평균으로 다 합쳐서 개수만큼 나눠서 얻을 수 있다. 독립변수가 연속인 경우 확률변수를 확률측도에 대해 적분한 것으로 정의한다. 각각의 관찰값들의 총합을 $$n$$으로 나눈 값이라고 말하기도 한다. 어찌보면 당연한 사실이겠지만 모든 관찰값들에 동일하게 임의의 값을 더하거나, 뺀 뒤 다시 평균을 내면 평균에도 동일한 값이 계산된 결과가 나온다.
산술 평균은 아래와 같은 4가지 특징을 가지고 있다.
  • 극단적인 값에 민감하다. 보통 평균과 비교되는 중간값,최빈값과 비교하면 극단적인 값에 더 크게 영향을 받는다. 예를 들어 {1,2,3}에서 평균은 2이고 중간값도 2이다. 하지만 3을 96으로 바꾼 {1,2,96}의 경우에 중간값은 2로 변함없지만 평균은 33으로 매우 크게 변한다.
  • 편차의 합이 0이 된다. 분산 참고.
  • 분산이 가장 작다. 이 개념은 회귀분석을 배울 때에도 쓰인다. 최빈값 같은 다른 기준으로 분산을 구했을 때보다 항상 분산이 작게 나온다.
  • 표본 값의 평균이 모집단과 크게 다르지 않다. 표본을 어떻게 뽑느냐에 따라 평균은 다르게 나올수 있다. 어쩌면 모집단의 평균과 한참 거리가 먼 값이 나올 수도 있다. 이것은 중간값,최빈값 등도 마찬가지이다. 그런데 산술평균은 중간값,최빈값과 비교해서 표본의 상태에 크게 영향을 받지 않는다. 그래서 다른 값들에 비해 모집단의 참값에서 크게 벗어나지 않는다.

2.1.1. 모 평균


population mean(μ)
모집단의 데이터를 모두 더한 후 모집단의 데이터 갯수 N으로 나눈 것이다. 기댓값 문서 참조.

2.1.2. 표본 평균


sample mean($$\bar{X}$$)
표본의 데이터를 모두 더한 후 표본의 데이터 개수 n으로 나눈 것이다.
표본 평균은 확률변수이다. 즉, 어떤 표본을 추출했냐에 따라서 표본평균의 값이 변하는 변수이다.
그렇기 때문에 표본평균은 분포를 가지게 되고, 또 우리는 표본평균의 평균 또는 표본평균의 분산을 계산하게 되는 것이다.

표본 분산이나 표본 표준 편차와 달리 n-1로 나누는 것이 아닌 것에 주의. (표본분산 관련된 설명은 링크를 참고. 표본분산 계산)

2.1.3. 가중 평균


weighted mean
개별 값에 각각 가중값을 곱하고 계산한 산술 평균의 변형. 당신이 국어 40점 수학 50점일때 학과에 따라 한쪽에 10%의 가산점을 주고 평균하는 경우가 여기 속한다.
참고로 성격차지수나 여론조사 때도 가중평균을 쓴다.

2.1.4. 절사 평균


trimmed mean
평균을 구할때 극단값을 빼고 계산한 산술 평균의 변형. 평균을 낼 때 최고점/최저점이나 양 극단의 10% 정도를 잘라내는 것이 여기 속한다.
피겨 스케이팅, 싱크로나이즈드 스위밍, 리듬체조 등 예술적 가치가 높은 스포츠 종목에서 판정단이 점수를 내릴 때 최상위, 최하위 판정자 1명의 점수를 삭제하고 나머지 판정단의 점수로 평균을 내는 것이 이것이다.[1] 물론 모집단 수는 2를 뺀다.

2.2. 기하 평균


Geometric mean
$$\text{GM}=\sqrt[n]{{\displaystyle \prod_{i=1}^{n}}a_{i}}=\sqrt[n]{\left(a_{1}a_{2}\cdots a_{n}\right)}$$
숫자들을 모두 곱해서 거듭제곱근을 취해서 얻는 평균. 연속변수의 경우 확률변수에 p제곱을 한 뒤에 적분한 것을 다시 p제곱근을 취하고 나서 독립변수의 측도로 나눠준 뒤 p를 0으로 보내면 된다. 숫자들의 로그의 산술평균을 구한 후 그것을 밑이 같은 지수를 취해도 된다.
기하 평균은 예를 들어 연간 경제성장률, 물가인상율, 연간 이자율, 감쇠/증폭율, 백분비, 크기 확대 비율 같이 표본들이 비율이나 배수이고 각 표본값이 연속성/연계성이 있어서 표본들을 곱한 값이 의미가 있는 경우에 주로 쓰인다. 예를 들어 한국의 2000년 부터 2010년까지 평균경제성장률 등.
맹점이 하나 있는데, 곱하는 성분 중 하나라도 0이 있으면 '''기하 평균이 0이 되어버린다'''는 점이다. 그래서 표본 중 0이 있는 경우 이를 제외시켜야 한다. 모든 성분의 곱이 0보다 작을 경우 역시 주의해야 한다.

2.3. 조화 평균


Harmonic mean
$$\text{HM}=\left(\dfrac{1}{n}{\displaystyle \sum_{i=1}^{n}}a_{i}^{-1}\right)^{-1}=\dfrac{n}{\left(\dfrac{1}{a_{1}}+\dfrac{1}{a_{2}}+\cdots+\dfrac{1}{a_{n}}\right)}$$
숫자들의 역수의 산술평균을 구한 후 그것을 역수로 취한 평균. 연속변수의 경우 확률변수에 역수를 취한 것을 확률측도에 대해 적분한 뒤 다시 역수를 취한 후 독립변수의 측도로 나눠주면 된다. 역수를 취해야 하므로 숫자들 중에 0이 끼어있으면 계산할 수 없다. 또한 각 숫자들이 모두 양수여야만 의미있는 값이 얻어진다.
조화 평균은 기하평균과 같이 표본들이 비율이나 배수이지만 각 표본값은 독립적이고 표본끼리 곱한 값이 의미가 없을 때, 효율이나 속도 처럼 역수가 의미가 있을 때, 각 표본들이 비중이 같을 때 주로 쓰인다. 이런 표본값은 그냥 산술평균을 하면 값이 큰 쪽이 작은 쪽보다 부당하게 높은 비중을 차지하는 것을 시정하고 공정한 평균을 낼 수 있다. 성능이나 효율 속도 시간당 진도 통계 등에 그런 통계가 유효할 때가 많다. 예를 들어 여러 은행의 평균 이자율 이라든지 주식의 평균 주가수익률 이라든지 같은 것을 계산할 때 쓰는게 좋다. 각 표본값들이 비중이 다를 때는 가중조화평균을 사용해야 한다.
대한민국에서 쉽게 볼 수 있는 조화평균으로는 한국 영화 평점 서비스 왓챠의 평점이다. 평점이 50개를 넘어가면 '''조화평균'''으로 영화 평점을 구한다.

2.4. 멱평균


$$\displaystyle M(k)=\left(\frac{1}{n}{\sum_{i=1}^{n}{a_i}^{k}}\right)^{\frac{1}{k}} \left(k \neq 0\right) ,\ M(0)=\lim_{k\to 0}M(k) $$
power mean / Generalized mean.
위 세가지 평균을 일반화한 것으로, 산술평균은 k=1인 1차평균, 기하평균은 k=0인 0차평균, 조화평균은 k=-1인 -1차평균이 된다.
2차평균은 제곱평균제곱근이 된다. 대표적으로 표준 편차편차의 2차평균이다.
또한, 변량이 모두 양수인 경우 $$\displaystyle \lim_{k \to \infty} M(k)$$는 최댓값, $$\displaystyle \lim_{k \to -\infty} M(k)$$는 최솟값이 된다.

3. 여담


통계학 관련 용어 중에, 이상점(outlier)이라는 것이 있다. 일반적으로 평균은 어떤 지표를 확인할 때 유용한 수치로 보이지만 맹점이 하나 있다. 바로 표본 중 극히 일부의 값이 지나치게 높거나 낮으면 평균값이 실제와 달라져 오해를 부를 수 있다는 것이며, 이렇게 다른 표본들과 유독 다른 값을 '''이상점'''이라고 한다. 대표적인 예가 정몽준국회의원이었을 무렵의 한국 국회의원 재산 평균이다. 2010년대 기준으로 국회의원 평균 재산은 대략 20~30억원대 정도 한다. 근데 문제는 정몽준 의원의 재산이 '''2조원이 넘는다.''' 다른 국회의원들 재산을 '''다 합쳐도 정몽준에 못 미치며,''' 만약 정몽준의 재산을 포함하여 계산하면 평균 값이 갑자기 100억원대로 뛰어버린다(...). 그래서 정몽준 의원의 재산은 이상점으로 간주하고 평균 계산에서 제외한다. 안철수 의원 등 다른 몇 명도 재산이 500억원이 넘어서 역시 평균 계산에서 제외하는데, 그래도 정몽준과는 비교도 안 된다(...).

4. 관련 문서




[1] 그래서 '''올림픽 평균(Olympic average)'''이라고도 한다.

분류