t분포
수식 없이 설명하는 t분포의 의미를 참조
1. 개요
독립적인 표준정규분포 $$x$$와 자유도가 $$k$$인 카이제곱분포 $$\chi^2$$에 대해[1] x/$$\sqrt{y/k}$$를 '''스튜던츠 t 분포'''(Student’s t-distribution) 또는 '''t분포'''라고 한다.
t-분포로 하는 검정(test)은 스튜던츠 t-검정(Student's t-test) 또는 t-검정(t-test)라고 부른다.
2. 역사
특이하게도 분포 이름이 학생(Student)인데, 이것은 이 분포를 처음 제안한 통계학자인 윌리엄 고셋(William Sealy Gosset)이 1908년에 해당 논문을 낼 때 가명으로 Student를 사용했기 때문이다.
윌리엄 고셋은 기네스 양조 공장에서 일하고 있었는데 적은 샘플에 대한 통계적 추정치가 잘 맞지 않은 점을 착안하여 t 분포를 제안하였다고 한다. 당시 기네스는 자사의 직원이 자사의 제품과 연관이 있는 연구 발표를 금지하고 있었다.
3. 기본 정보
$$Z\sim N(0,\,1)$$이고 $$U\sim\chi^2_v$$이며 $$Z$$와 $$U$$가 독립일 때 t분포를 다음과 같이 정의한다.
$$t=\dfrac{Z}{\sqrt {U/v}}\sim t_v$$
평균은 $$E(t)=0$$이고 분산은 $${\rm Var}(t)=\dfrac{v}{v-2}\;(v>2)$$이다. 표준정규분포와 평균은 같으나 $$\dfrac{v}{v-2}>1$$이므로 분산은 t분포가 더 크다. 만약 $$v$$의 값이 커지면 분산은 갈수록 작아져 1에 근접하며, 표준정규분포와 비슷한 분포를 이루게 된다.[1] 즉 x ~ N(0, 1)이고 y ~ χ2(k)
4. 공식 및 쓰임새
$$Z=\dfrac{\bar X-\mu}{\sigma/{\sqrt n}}\sim N(0,\,1)$$이고 $$U=\dfrac{(n-1)s^2}{\sigma^2}\sim \chi^2_{n-1}$$이면
$$\begin{aligned}t&=\dfrac{Z}{\sqrt{U/v}}\sim t_v\\&=\dfrac{\cfrac{\bar X-\mu}{\sigma/\sqrt{n} }}{\sqrt{\cfrac{(n-1)s^2}{\sigma^2}/(n-1)}}\\&=\dfrac{\bar X-\mu}{s/\sqrt{n}}\sim t_{n-1}\end{aligned}$$
곧, $$t$$분포는 표본평균 $$\bar X$$의 표준화 식에서 모표준편차 $$\sigma$$를 표본표준편차 $$s$$로 대체한 것이다.만약 모표준편차를 안다면 표본평균을 표준화한 표준정규분포로 모평균을 추측하는 것이 더욱 정확하다. 그러나 일반적으로 모표준편차를 잘 알지 못한다. 왜냐하면 모평균을 정확히 모르는데 모표준편차는 안다는 것 자체도 이상하거니와 모집단 전부를 조사하기란 현실적으로 어렵기 때문이다. 따라서 모표준편차 대신 표본표준편차의 값을 이용한 $$t$$분포로 모평균을 추측하는 것이다.
5. 그래프
매개변수: 자유도(실수값) ν > 0
6. 종류
- 독립 표본 t-검정(independent samples t-test)과
- 대응 표본(짝지은 표본) t- 검정(paired samples t-test, 종속 표본 t-검정, dependent samples t-test)이 있다.
6.1. 독립표본 t검정
독립 표본 t-검정은 두 개의 집단이 동일한 분산을 가진 경우(등분산, equal variance)와 두 개의 집단이 다른 분산을 가지고 있는 경우(이분산, unequal variance)가 있다.
독립 표본 t-검정은 두 반의 성적 평균 차이가 통계적으로 유의한 차이가 있나 등을 검증할 때 쓴다. F-검정으로 등분산인지 이분산인지 검증해봐서 F-검정의 p-값이 0.05보다 작으면 이분산, 크면 등분산이다. t-검정의 p-값이 0.05보다 작으면 두 반의 성적 차이는 통계적으로 유의미하게 차이가 난다는 의미이다.
SPSS를 활용하여 검정을 수행할 수 있다.
6.2. 대응표본 t검정
두 집단 간의 차이를 비교하는 독립 표본 t-test와는 달리, paired t-test는 같은 집단의 전후 차이를 비교한다. 특정 수업을 들은 전후의 성적 차이나, 약물 복용 후 효과 차이와 같은 것이 있을 수 있다. p-값이 0.05보다 작으면 수업 또는 약물이 효과가 있다는 의미이다.
7. 엑셀로 t-검정 하기
엑셀로 t-검정(t-test) 하기 (독립표본 t-검정)
엑셀로 대응표본 t-검정 (Paired t-test) 하기
엑셀로 통계 분석하는 방법
8. 기타
z-분포와 t-분포에서 귀무 가설 H0는 μ=0이나 μ1=μ2 등이고, 대립 가설 H1은 μ≠0나 μ1≠μ2같은 것이다. μ1=μ2처럼 변수가 2개인 경우 μ1-μ2=0으로 바꾸고 μ1-μ2를 d로 치환하면 d=0과 같은 변수가 하나인 식으로 바꿀 수 있다.
9. 관련 문서
- 확률 분포
- 정규 분포
- 표준 정규 분포(z-분포)
- F-분포
- 카이-제곱 분포(χ2 분포)
- Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.