통계적 추론

 

1. 개요
2. 관련 문서


1. 개요


statistical inference
추론 통계학(inferential statistics 또는 inductive statistics), 추측 통계학, 추리 통계학이라고도 불린다. 자료에 내포되어 있는 정보를 분석해서 불확실한 사실에 대해서 추론하여 검정, 추정, 예측 등을 하는 것이다.
모수(parameter): 모집단에서 나타나는 특정한 상수이다. 대표적으로 모 평균, 모 표준 편차, 모 분산모집단(population)을 대표하는 데이터가 있다.
통계량(statistic): 주어진 통계자료로부터 모수에 대한 추정치나 신뢰구간 등을 구할 때 사용되는 함수이다. 통계량은 수리통계적 유도를 통해 구해진 함수이므로 데이터와 구분할 필요가 있다. 통계량은 데이터를 분석하기 위한 공식이라고 생각하면 편하다. 표본 평균, 표본 표준 편차, 표본 표준 편차표본(sample)을 이해하기 위해 사용하는 각종 공식이 대표적이다.
통계치: 표본 데이터를 통계량에 대입했을 때 나온 결과물이다. 통계량은 일반적인 공식, 함수이지만 통계치는 주어진 데이터에서 계산되어 나온 숫자다. 따라서 통계량은 변수이며, 통계치는 표본이 통계량이라는 변수에 의해 계산되어 확정된 상수이다. 사회과학대의 학부 양적방법론이나 학부 재무관리, 투자론의 기초통계학 교과서들 중에 통계량과 통계치를 혼동하여 오용하는 경우가 많으니 주의하자.
점 추정(point estimation): 표본으로부터 모수를 추정하는 것이다. 이 과정에서 통계량을 활용해 계산한다.
구간 추정(interval estimation): 점 추정만으로는 모수가 얼마나 정확하게 추정되었는지 없다. 점은 크기나 부피 등을 계측할 수 없으므로 모수가 존재할 구간을 확률적으로 추정하는 것이다. 수학적으로 표현하면 '모수 추정의 불확실성을 수치적으로 측정(measure)하는 것'이라고 할 수 있다.
신뢰도(reliability): '신뢰도 95%의 신뢰 구간'과 같은 식으로 쓴다. 해당 구간에 모 평균이 있을 확률이 95%라는 뜻이다.
신뢰 구간(confidence interval, CI): 실제로 모수가 존재할 것으로 예측되는 구간이다. 보통 신뢰도 95%의 신뢰 구간을 쓰지만 90%나 99%도 많이 쓴다. (a, b)라고 써놓으면 a는 구간의 시작, b는 구간의 끝을 의미한다.
확률(probability): 모집단으로부터 특정 표본이 관측될 가능성이다.
우도(likelihood): 특정 표본에 대해 가장 가능성이 높은 모집단을 가장 우도가 높은 모집단이라고 한다.
  • 변인
    • 독립 변수(independent variable) 또는 설명 변수(explanatory variable): 다른 변수에 영향을 주는 변수이다.
    • 종속 변수(dependent variable) 또는 반응 변수(responsible variable): 다른 변수에 의해 영향을 받는 변수이다.
    • 교란변수 또는 혼란변수(confounder): 인과관계상관관계를 혼동시킬 수 잇는 변수이다. 교회가 많으면 범죄율도 높지만 그건 교회 숫자가 원인이고 범죄율이 결과가 아니라 인구가 많으면 교회도 많고, 범죄율도 높다는 의미이다.
교호작용(interaction): 독립변수 사이에 상호 작용을 하여 서로의 작용에 영향을 주는 것을 말한다.

2. 관련 문서