상자 수염 그림

 


상자 수염 그림(box-and-whisker plot, box-and-whisker diagram) 또는 상자 그림(box plot, boxplot) 또는 상자-수염 그림, 상자 도표다섯 숫자 요약으로 그린, 자료의 특성을 요약하는 그래프이다.
Q1에서 Q3 사이인 사분위간 범위(IQR)로 몸통을 구성하고 근접값들로 꼬리를 구성한다. 단위척도(step)는 1.5 x IQR이다.
안 울타리(inner fence)는 Q1에서 왼쪽으로 1 step만큼 간 것과 Q3에서 오른쪽으로 1 step만큼 간 것이다. 바깥 울타리(outer fence)는 Q1에서 왼쪽으로 2 step만큼 간 것과 Q3에서 오른쪽으로 2 step만큼 간 것이다.
근접 값(adjacent value)은 안 울타리 안쪽의 값 중에서 안 울타리에 가장 가까운 값이다. 보통 이상점(mild outlier)은 같은 방향에 있는 안 울타리와 바깥 울타리 사이에 있는 값이다. 극단 이상점(extreme outlier)은 바깥 울타리 바깥의 값이다.
허리에 굵은 선이 그려진 박스가 있고 위 아래로 두 개의 세로선이 그어져 있으며, 종종 별표나 X표 같은 것도 둥실둥실 떠 있는 것이 특징. 전체 관찰값들의 범위(range)에 기초한 시각화 방식인데, 그것이 포함하는 통계적 정보가 꽤 많아서 연구자들이 적극 활용하고 있다.
박스의 이쪽 끝에서 저쪽 끝은 주어진 분포의 사분위수 간 범위(IQR; inter-quartile range)를 의미한다. 그리고 2Q, 즉 두 번째 사분위수이자 전체 분포의 중앙값(median)에는 굵은 가로선이 대응한다. 위쪽 수염의 끝부분은 최댓값(max), 아래쪽 수염의 끝부분은 최솟값(min)을 의미하며, 위아래로 나타나는 점 표시는 이상점(아웃라이어)이다.
상자도표는 정규분포와 함께 설명하는 것이 가장 정확한데, 전체 분포 범위의 가운데 50%가 상자의 범위와 정확히 일치한다. 박스의 양쪽 끝부분은 ±0.6745σ, 수염의 양쪽 끝부분은 ±2.6980σ 이다. 위쪽 수염과 아래쪽 수염은 각각 24.65%씩의 범위가 할당되어 있다.
상자도표는 여러 모로 굉장한 장점들을 갖고 있다. 우선 이상점을 처리하는 데 뛰어나고, 데이터 전체의 편포 여부를 확인하는 것이 쉽다. 또한 데이터의 집단 간 비교, 데이터의 타당도(validity)를 체크하는 것도 용이하다.


분류