도수분포

 

1. 개요
2. 서론
3. 형태
4. 관련 용어
5. 관련 문서


1. 개요


도수분포(Frequency distribution)는 원자료를 계급과 도수로 구성된 표로 구조화한 것이다.

2. 서론


통계분석을 하려면, 연구대상 변수와 관련된 자료를 수집해야 한다. 예를 들어, 특정 지역에서 지난 몇 년 동안 벌레에 물린 사람의 수를 조사하려면 의사, 병원, 보건소 등에서 자료를 수집해야 한다.
상황을 설명하고 결론을 도출하거나 사건을 추리를 하려면, 수집한 자료를 의미 있게 가공해야 한다. 자료를 가공하는 가장 일반적인 방법이 도수분포 작성이다. 가공한 자료는 사용할 사람이 이해하기 쉽게 제시되어야 한다. 자료를 가장 유용하게 제시하는 방법이 통계 도표나 그래프이다. 이런 도표와 그래프에는 여러 가지가 있으며 각기 특성을 가지고 있다.

3. 형태


'''범주형 도수분포'''
범주형 도수분포는 명목자료나 순위자료로 된 자료를 구조화 할 때 사용한다. 예를 들면, 정치적 선호, 종교적 선호, 주요 연구분야 등의 자료에 범주형 도수분포를 적용하게 된다.
'''집단화 도수분포'''
자료값의 범위가 넓으면, 전체 범위를 일정한 폭의 계급구간 몇 개로 나누고, 이 계급별로 자료를 집단화하는데, 이를 집단화 도수분포라 부른다.

'''집단화 도수분포 작성'''

'''단계1''' 계급을 결정한다.

* 최댓값과 최솟값을 찾는다.

* 범위를 구한다.

* 바람직한 계급 개수를 정한다.

* 범위를 계급수로 나눈 후 올림하여 계급폭을 결정한다.

* 맨 아래 계급의 하한값을 결정한다. 계급폭을 더해가며 모든 계급의 하한을 구한다.

* 모든 계급구간의 상한을 구한다.

* 모든 계급의 경계를 구한다.

'''단계2''' 자료를 센다.

'''단계3''' 센 결과에서 도수를 구하고, 누적도수를 구한다.

'''비집단화 도수분포'''
집단화 도수분포와 반대로 자료값의 범위가 상대적으로 좁으면, 개별 자료값 하나를 하나의 계급로 하는 도수분포를 비집단화 도수분포라 한다.
'''누적 도수분포'''
누적 도수분포는 일정한 값[1] 이하인 자료의 개수를 표시하는 분포이다. 각 계급경계의 상한보다 아래에 있는 계급 모두의 도수를 합하면 그 계급의 누적도수가 된다. 이렇게 구한 것을 '''오름 누적도수'''라고 부른다.

4. 관련 용어


'''변량'''
어떠한 자료에 속해 있는 값들을 수량으로 나타낸 것이다.
'''계급'''
변량들을 일정한 간격으로 나눈 구간을 말한다.
'''계급값'''
각 계급의 중앙에 위치한 값이다. 도수분포표에서 평균 등을 구할 때는 보통 이 값을 사용한다. 'm 이상 n 미만'과 같은 반개구간의 경우에도 그냥 m과 n의 산술평균으로 계산하는데, 'n 미만이니 n을 안 포함한다'라면서 m과 n-1의 산술평균으로 계산해버리는 오개념이 생기기 쉽다. 그리고 계급값에 대해 배우지 않은 사람들에 의해 계급값이 몇이냐 하는 병림픽이 벌어진다(...).
'''계급의 크기'''
각 계급의 너비를 뜻한다.
'''도수'''
계급에 속한 값들의 양을 뜻한다.

5. 관련 문서



[1] 보통 계급경계의 상한

분류