카이제곱분포

 

1. 개요
2. 카이제곱확률변수
3. 공식
5. 활용
6. 그래프
7. 범주형 자료 분석
7.1. 적합도 검정
7.2. 동질성 검정
7.3. 독립성 검정
8. 자유도
9. 기타
10. 여담
11. 관련 문서


1. 개요


'''카이제곱분포'''(chi-squared distribution, χ2 분포)는 ''k''개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 구식 표현으로 '''카이자승분포'''라고도 한다. 즉 k차원 확률벡터 y ~ N(0, I)에 대해[1][2]
$$ χ^2 = y^Ty$$
가 카이제곱분포이다. χ그리스 문자 카이(chi)이다.
검정통계량이 카이제곱분포를 따른다면 카이제곱분포를 사용해서 가설검정을 하면 된다. 귀무가설 하에서의 검정통계량이 카이제곱분포를 따를 때 검정통계치가 카이제곱분포 하에서 일어나기 어려운 일이면 귀무가설을 기각하고, 충분히 일어날 수 있는 일이면 귀무가설을 기각하지 않는다. 이 때 일어날 법한 일인지, 희귀한 경우인지를 판단하는 기준은 유의수준과 p-값이다.
입문 수준의 통계학이나 학부 사회조사방법론에서는 카이-제곱 분포를 σ2을 구할 때 사용하여 모분산 검정, 적합도 검정, 독립성/동질성 검정 등에 사용한다. 귀무 가설 H0는 σ2=1같은 것이고, 대립 가설 H1은 σ2≠1같은 것이다. 또는 H0는 μ12이고, H1은 μ1≠μ2와 같은 것으로 H0는 "μ1과 μ2의 약효가 비슷하다", H1은 "μ1과 μ2의 약효에 차이가 있다"와 같은 것이다.
"남성과 여성, 성별로 보수 성향과 진보 성향의 비율에 유의한 차이가 있는가" 등의 검증을 할 때 쓸 수 있다. p-값이 0.05 [3] 보다 작으면 유의한 차이가 있다고 생각할 수 있다.
z-검정은 σ2을 알 때 μ를 구하는 것이고, t-검정σ2을 모를 때 μ를 구하는 것이다. 카이-제곱 검정은 σ2을 구하는 것이고, F-검정σ12 / σ22 을 구할 때 사용한다.
수식 없이 설명하는 카이제곱분포
엑셀로 카이제곱 검정 (교차분석)
카이제곱 검정(Chisquare test)

2. 카이제곱확률변수


$$Z_1,\,Z_2,\,\cdots ,\,Z_v$$가 서로 독립인 $$v$$개의 확률변수이면서 표준정규분포 $$N(0,1)$$을 따른다면
$$U=\displaystyle\sum_{i=1}^v Z_i^2$$
[1] 이 때의 0은 영벡터, I는 항등행렬이다.[2] 정규분포 확률벡터의 X의 기댓값이 영벡터라는 것은 개별 확률변수의 기댓값이 0이라는 것이다. 그리고 항등행렬은 대각원소가 1이기 때문에 정규분포 확률벡터의 공분산 행렬이 항등행렬이라는 것은 개별 정규분포의 분산이 1이라는 것이다. 즉 개별 정규분포들은 표준정규분포라는 것을 의미한다. 또한 항등행렬의 비대각원소가 0이기 때문에 임의의 두 정규분포의 공분산이 0이라는 것을 의미한다. 그런데 정규분포에서는 공분산이 0이라는 조건과 독립이라는 조건이 동치이다. (일반적으로는 독립이 '공분산 = 0'보다 강한 조건이다.) 이러한 점을 종합하면 y ~ N(0, I)는 '독립적인 표준정규분포들을 모은 벡터'를 의미한다는 것을 알 수 있다.[3] 5%가 일반적이긴 하지만 이는 개별 세부전공에 따라 다를 수 있다.
자유도가 $$v$$인 $$\chi^2$$(카이제곱)확률변수라고 한다.
예를 들어 각 $$X_i$$가 정규분포 $$N(\mu, \sigma^2)$$을 따르는 $$(X_1,\,X_2,\,\cdots ,\,X_n)$$의 확률표본을 표준화하면
$$Z_i=\dfrac{X_i-\mu}\sigma$$
가 되고 모든 $$Z_i$$의 제곱의 합인 다음 확률변수는 자유도가 $$v$$인 $$\chi^2$$분포를 따른다.
$$\displaystyle\sum_{i=1}^v\left(\dfrac{X_i-\mu}{\sigma}\right)^{\!2}\!=\dfrac{\displaystyle\sum_{i=1}^v(X_i-\mu)^2}{\sigma^2}$$
$$\chi^2$$확률변수는 연속확률변수인 표준정규변수의 함수이므로 똑같이 연속확률분포를 따른다. 또한, 제곱의 합으로 정의되기 때문에 항상 0 이상의 값만을 갖는다. 또한, 다음이 성립한다.
$$E(U)=v,\;Var(U)=2v$$
곧, 카이제곱분포는 '''평균이 자유도와 같고, 분산은 자유도의 2배이다.'''
[증명]
$$\begin{aligned}U&={Z_1}^2+{Z_2}^2+\cdots+{Z_v}^2\\\rightarrow E(U)&=E({Z_1}^2)+E({Z_2}^2)+\cdots+E({Z_v}^2)\end{aligned}$$
$$\begin{aligned}{\rm Var}(Z_i)&=E({Z_i}^2)-[E(Z_i) ]^2\\\rightarrow E({Z_i}^2)&={\rm Var}(Z_i)+[E(Z_i) ]^2\end{aligned}$$
$$Z_i$$는 표준정규분포를 따르므로 $$Var(Z_i)=1,\,E(Z_i)=0$$이므로
$$\begin{aligned}E(Z_i)&=1+0=1\\\therefore E(U)&=\underbrace{1+1+\cdots+1}_{v\;{\rm times}}=v\end{aligned}$$
$${\rm Var}(U)={\rm Var}({Z_1}^2)+{\rm Var}({Z_2}^2)+\cdots+{\rm Var}({Z_v}^2)=v\cdot{\rm Var}({Z_i}^2)$$
또한 $${\rm Var}({Z_i}^2)=E({Z_i}^4)-[E({Z_i}^2) ]^2$$이고 $$E({Z_i}^2)=1,\,E({Z_i}^4)=3$$임이 알려져 있으므로[4]
$${\rm Var}({Z_i}^2)=3-1=2$$
$$\therefore{\rm Var}(U)=2v$$

$$\therefore{\rm Var}(U)=2v$$}}}}}}

3. 공식


  • $$\bar X$$와 $$s^2$$이 독립이고 $$X_u\sim N(\mu,\,\sigma^2)$$일 때, $$\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}$$
즉, 표본분산에 상수 $$(n-1)/\sigma^2$$을 곱한 확률변수는 자유도가 $$n-1$$인 카이제곱분포를 따른다. 이를 이용하여 표본분산 $$s^2$$을 가지고 모분산 $$\sigma^2$$에 대한 가설검정이나 신뢰구간 도출이 가능하다. 바로 이 기능, 표본분산을 보고 모분산을 추측하는 것이 카이제곱분포의 주요한 용도이다.
[증명]
이하 $$\displaystyle\sum_{k=1}^n$$를 $$\displaystyle\sum$$로 생략하여 쓴다.
$$\begin{aligned}\displaystyle\sum(X_i-\mu)^2&=\sum[(X_i-\bar X)+({\bar X}-\mu) ]^2\\&=\sum(X_i-{\bar X})^2+\sum({\bar X}-\mu)^2+2(\bar X-\mu)\sum(X_i-\bar X)\\&=(n-1)\dfrac{\displaystyle\sum(X_i-{\bar X})^2}{n-1}+n(\bar X-\mu)^2+2(\bar X-\mu)\sum(X_i-\bar X)\\&=(n-1)s^2+n(\bar X-\mu)^2\\(&\because\sum(X_i-\bar X)=0\textsf{\footnotesize{(편차의 합)}}) \end{aligned}$$
양변을 $$\sigma^2$$으로 나누면
$$\dfrac{\sum(X_i-\mu)^2}{\sigma^2}=\dfrac{(n-1)s^2}{\sigma^2}+\dfrac{n(\bar X-\mu)^2}{\sigma^2}$$
여기에서 '''카이제곱분포의 정의에 의하여''' $$\dfrac{\sum(X_i-\mu)^2}{\sigma^2}$$은 자유도가 $$n$$인 카이제곱분포를 따르고 $$\dfrac{n(\bar X-\mu)^2}{\sigma^2}$$은 자유도가 1인 카이제곱분포를 따르므로 $$\dfrac{(n-1)s^2}{\sigma^2}$$은 자유도가 $$n-1$$인 카이제곱분포를 따른다.
$$\therefore\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}$$

$$\therefore\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}$$}}}}}}

4. 적률생성함수


자유도가 $$v$$인 카이제곱분포의 적률생성함수는 다음과 같다.
$$M(t)=(1-2t)^{-v/2}$$
이를 통해 카이제곱분포의 평균과 분산을 다음과 같이 구할 수 있다.
$$\begin{aligned}M'(t)&=-\dfrac{v}2(-2)(1-2t)^{-v/2-1}\quad\rightarrow\quad E(U)=M'(0)=v\\M''(t)&=-\dfrac{v}2(-2)^2\left(-\dfrac{v}{2}-1\right)(1-2t)^{-v/2-2}\quad\rightarrow\quad E(U^2)=M''(0)=v^2+2v\end{aligned}$$
$$\therefore{\rm Var}(U)=E(U^2)-\{E(U)\}^2=2v$$

5. 활용


정규분포의 확률변수를 '''제곱'''한 값에 대한 확률을 구할 때 요긴하게 쓴다.
'''[문제]'''

$$X\sim N(4,\,9)$$일 때, $$P[-11.95<X^2-8X<10.1]$$의 값을 구하시오.
[풀이]
$$\begin{aligned}P[-11.95<X^2-8X<10.1]&=P[4.05<(X-4)^2<26.1]\\&=P[0.45<\left(\dfrac{X-4}{\sqrt 9}\right)^{\!2}<2.9]\end{aligned}$$
$$U=\left(\dfrac{X-4}{\sqrt 9}\right)^{\!2}$$로 표준화된 '표준정규변수의 제곱'은 자유도가 1인 카이제곱분포를 따르므로
$$P[0.45<U<2.9]\approx 0.41376$$

$$P[0.45<U<2.9]\approx 0.41376$$}}}}}}

6. 그래프


[image]
[image]
확률 밀도 함수
누적 분포 함수
매개변수: 자유도(자연수) k
카이제곱분포는 기본적으로 좌측에 치우친 분포인데, 자유도가 커질수록 대칭의 분포로 접근한다.

7. 범주형 자료 분석


범주형 자료 분석(categorical data analysis)에 쓴다.
아래에 제시된 범주형 자료 분석의 검정통계량을 유도하기 위한 가정이 깨지는 경우가 많기 때문에 공부를 계속하다 보면 아래의 테크닉을 사용하는 빈도가 줄어든다. 하지만 통계학과 고학년이나 통계학과 및 다른 학과 대학원 레벨의 범주형 자료분석을 공부하려면 학부 회귀분석, 수리통계학에 대한 지식, 간단한 수학 테크닉이 기본적으로 필요하기 때문에 공부를 계속할 것이 아니라면 아래의 방법으로도 충분하다.

7.1. 적합도 검정


적합도 검정(goodness-of-fit test)은 관측 결과가 특정한 분포로부터의 관측값인지를 검정한다. 예를 들어, 멘델의 이론에 의하면 노란색 완두와 녹색 완두가 3:1로 나와야 한다. 교배 실험 결과 노란색 6,022개, 녹색 2,001개, 전체 8,023개로 나왔다면 이 실험 결과는 이론과 일치하는가 어긋나는가를 조사한다.

7.2. 동질성 검정


동질성 검정(test of homogeneity)은 두 집단의 분포가 동일한지를 검정한다. 예를 들어, 남학생과 여학생의 성별에 따라 물리학, 화학, 생물학에 대한 선호도가 같은가 다른가를 검증하는데 사용할 수 있다.

7.3. 독립성 검정


독립성 검정(test of independent)은 두 변수 사이에 관계가 있는지를 확인한다. 예를 들어, 성별이 특정 개인의 진보도(보수도)에 영향을 끼치는지 검정한다.

8. 자유도


일반적으로 카이제곱분포의 자유도는 정의 '독립적인 표준정규분포의 제곱 합'에서 표준정규분포의 개수이다.
사회과학의 학부수준의 조사방법론이나 통계학 개론에서 배우는 카이제곱 검정에서는 자료행렬의 (row)과 (column)의 숫자에서 1씩을 뺀 후 그 숫자를 곱함으로써, 즉, df = (r-1)(c-1)을 통해 자유도를 구할 수 있다. 이 때 하나의 행만 있을 경우 열의 숫자에서 1을 뺀 숫자가 자유도이다.
학부 선형대수학과 수리통계학 이상의 과정에서는 다변량정규분포를 따르는 확률벡터의 이차형식(quadratic form)으로 카이제곱분포를 나타내는 경우가 많다. 이 때는 일정한 행렬의 계수(rank)를 구함으로써 자유도를 구할 수 있다. 대부분의 경우 멱등행렬(idempotent)의 계수를 구하게 되는데, 멱등행렬에서는 대각합(trace)와 계수가 같다는 성질을 이용하면 손쉽게 자유도를 구할 수 있다.

9. 기타


예전에 카이 제곱 분포나 F 분포에 양방향 검정이 불가능하다는 설명도 있었다. 일반적으로는 카이제곱분포나 F분포에서 양방향 검정을 할 일이 딱히 없기는 하다. 하지만 이것이 '카이 제곱 분포나 F 분포에서 양방향 검정을 해서는 안된다'는 자명한 진리인 것은 아니다. 단일방향 검정을 할지 양방향 검정을 할지에 대해 알고 싶다면 최강기각력 검정을 공부해보자.
카이제곱분포의 일반화된 버전으로 비중심 카이제곱분포가 있다. 이 경우에는 확률변수의 기댓값이 0이라는 조건이 없어도 된다. 분산이 1이 아니더라도 확률변수들이 독립적이기만 하면 적절한 선형변환을 통해 카이제곱분포를 따르는 확률변수를 만들 수 있다. 또한 표준정규분포를 따르지 않는 확률변수들도 정규분포를 따른다면 적절한 선형변환을 통해서 비중심카이제곱분포를 따르는 확률변수를 만들 수 있다.
t 분포와 F 분포는 카이제곱 분포와 표준정규분포를 이용해 정의한다. 따라서 카이제곱분포를 다루는 연습을 많이 해두면 t 분포와 F 분포를 좀 더 쉽고 깊게 이해할 수 있다.

10. 여담


사회과학 조사방법론 책에서는 흔히 O는 관찰 빈도, E는 기대 빈도에 대해
$$ χ^2 = \sum {(O-E)^2 \over E} $$
와 같은 표현을 쓴다. 그러나 이러한 표현은 정확한 표현이 아니다. 카이제곱분포는 일반적으로 앞서 말한 것처럼 '독립적인 표준정규분포 제곱의 합'으로 정의하거나 '감마분포의 특이한 경우'로 정의한다. 그런데 $$ χ^2 = \sum {(O-E)^2 \over E} $$는 마치 카이제곱분포의 정의가 $$ \sum {(O-E)^2 \over E} $$인 것으로 사람을 오도할 수 있기 때문이다. 이러한 점에서 볼 때 좀 더 정확한 표현은 귀무가설 하에서의 검정통계량
$$ \sum {(O-E)^2 \over E}$$ ~ $$ χ^2(k) $$ , (단 k는 자유도)이다.

11. 관련 문서