산점도
1. 개요
산점도(scatter plot, scatterplot, scatter graph, scatter chart, scattergram, scatter diagram)는 가로축(X축)과 세로축(Y축)을 설정한 좌표평면 상에서 각각의 관찰값들을 점이나 X 문자로 표시하는 방식. 물론 두 축이 의미하는 바가 무엇인지부터 확실하게 정의되어야 한다. 산점도는 나중에 회귀 분석(regression)을 할 때 굉장히 중요해진다. 특정 관찰값의 정보를 표시하려면 소괄호를 치고 X축 값과 Y축 값을 쉼표로 구분하여 표기하면 된다.
전체적으로 추세가 존재할 경우 굵은 직선으로 추세선(trend curve)을 표기하는 경우도 있으며, 이 경우 좌표평면은 일반적인 유클리드 공간에서 벗어나게 된다. 정확히 설명하자면 서로 다른 두 관찰값 간의 거리는 유클리드 거리와 달라지며, 새롭게 '''마할라노비스 범거리'''(Mah Dist; Mahalanobis generalized distance)에 따라 측정된다. 이를 엄밀하게 정의하는 것은 읽는 분들에게 고통스러울 수 있으니(…) 최대한 질박하게 설명하자면, 두 관찰값을 연결한 가상의 선이 추세선과 평행할수록 이 거리는 유클리드 거리보다 확연히 감소하고, 가상의 선이 추세선과 직교할수록 이 거리는 유클리드 거리보다 확연히 증가한다. 예컨대 이 그림 자료에서, 원점과 A점 사이의 거리는 원점과 B점 사이의 거리보다 훨씬 더 긴데, 이는 추세선이 우상향하는 방향으로 존재하기 때문이다. 이는 이상점을 찾아 정리하는 데 유리하며, 심화 수준에서는 카이제곱 분포에서도 써먹곤 한다.
산점도는 관찰값이 특정 범위에 지나치게 오밀조밀 몰려 있을 때 읽기가 쉽지 않다. 이 경우는 별도로 이 부분만 확대시켜서 추가 산점도를 그려 주어야만 한다. 또한 X축과 Y축 중 어느 하나에도 질적 자료가 들어가면 안 된다. 만일 X축(독립변인)이 질적 자료일 경우에는 산점도와 회귀분석을 쓰는 것보다는 차라리 분산분석(ANOVA), Y축(종속변인)이 질적 자료일 경우에는 로짓분석(logistic regression), 둘 다 질적 자료일 경우에는 교차표 분석(cross tabulation)을 쓰는 편이 좋다.
서로 다른 변인에서 나타나는 여러 산점도를 한꺼번에 겹쳐 놓는 경우도 있다. 변인이 2개일 경우에는 따로 행렬도(biplot)라고 부르기도 한다. 만약 산점도 상에 X축과 Y축이 동일한 값을 갖는 가상의 점들을 따라 45도 사선을 긋고, 그 선과 실제 나타나는 산점도의 결과를 비교할 경우 이는 Q-Q도표(Q-Q plot)라고 부른다. 한편 과학계량학 분야에서는 출판 편향(publication bias) 문제에 대응하기 위하여 산점도의 변형인 깔대기도표(funnel plot)를 개발하기도 했다.
2. 관련 문서
- 산포도(dispersion, scatter)