이상점

 

[image]
xkcd 1701화
1. 뜻
2. 사용
3. 관련 문서


1. 뜻


/ outlier
이상점은 다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것을 일컫는다. 국내 번역명으로는 "이상점"(異常點). 한자를 풀어보면 "일반적이지 않은 위치에 있는 점" 을 의미하는데, 이는 아웃라이어가 대체로 산점도(scatterplot)나 상자도표(boxplot) 같은 통계 데이터 시각자료에서 나타나기 때문이다. 통계학 외에서는 특이점(特異點/singularity)이라는 다른 말을 쓴다.
예를 들어 산점도를 그린다고 가정해 보자. 좌표평면을 펼쳐 놓고 점을 마구 찍게 되면, 대체로 점들이 일정한 범위에 걸쳐서 모이게 되는 모습이 나타날 것이다. 그런데 그 중에는 여러분이 상당히 먼 바깥에 외따로 찍어놓은 점도 몇 개 있을 것이다. 이런 값은 전체 평균값을 크게 왜곡시킨다. 그러나 이렇게 뜬금없는 자리에 찍힌 점은 큰 통계적 의미는 없는 경우가 많지만 간혹 통계적으로 굉장히 중요하게 취급되는 경우도 있기는 있다. 특히 반례 사례를 찾는 경우 등. 따라서 아주 무시하고 넘길 수만도 없다.
그래서 데이터를 취급하는 과학자들은 이런 점들을 아웃라이어 혹은 이상점이라고 하여 별도로 관리하고 있다. 이들만 데이터에서 체계적으로 배제하는 과정은 "절사(trim)한다" 고 부르기도 한다.
이상점을 판단하기 위해 수 많은 계산이 필요한데 잘 판단하는 방법은 종속변수의 분포를 그려보는게 아주 쉽다. 즉 히스토그램정규분포 곡선을 이용해서 종속변수의 정규성에 대한 개괄적인 판단이 가능하다. 여기서 주의할점은 잔차의 분포가 정규분포를 갖는걸 가정해야 하기 때문에 진짜 판단을 잘하려면 잔차의 분포를 살펴야 할지도 모른다. 이상점이 존재한다면 상자그림에 이상점이 상위 25%와 하위25%에서 1.5iqr거리를 넘은 값은 이상점으로 나타난다.
이상점을 찾는 또 다른 방법은 스튜어트?를 이용한다??

2. 사용


통계, 수학 등에서 사용한다.
통계의 사용이 늘고 있는 스포츠에서도 이 용어를 가져와서 쓰기도 한다. 대부분 특정 선수가 일반적인 수준을 한참 뛰어넘을 때 쓴다. 한참 뒤떨어지는 선수를 뜻하지는 않는 게 보통이다.

3. 관련 문서