분산 분석
1. 개요
분산 분석(analysis of variance; ANOVA) 또는 변량 분석은 종속 변수의 분산(variance, 변량)을 설명하는 독립 변수의 유의성을 알아보는 방법 중 하나이다. 영국의 통계학자 Fisher가 농업 생산성 관련 연구를 하려고 만들었다. 3개 이상의 처리 효과 또는 모평균을 비교하는 경우에는 일반적으로 실험을 계획하고 실험을 실시한 후에 얻은 자료를 기초로 하여 분석한다. 통계학 쪽에서는 통칭 '''아노바'''라고 부른다.
분산분석이란 명목척도로 측정된 독립변수와 등간척도 또는 비율척도로 측정된 종속변수 사이의 관계를 연구하는 통계 기법이다.
분산 분석의 귀무 가설 H0는 "μ1=μ2=μ3"같은 것이고, 대립 가설 H1은 "H0가 아니다"와 같은 것이다. 구체적인 예를 들자면, H0는 "약품 세 가지가 효과 차이가 없다"와 같은 것이고, H1은 "'''적어도 한 가지는'''[1] 효과 차이가 있다"와 같은 것이다.
세 개 이상의 집단의 평균 차이가 있는가를 검증할 때 쓴다. 예를 들어, 약물 3종류를 투여하고, 약물의 효과에 차이가 있는지 검증할 때 쓸 수 있다. p-값이 0.05보다 작으면 통계적으로 유의미한 차이가 있다고 볼 수 있다. 즉, 약물이 효과가 있다고 볼 수 있다.
크게 연구방법론 측면에서 보면, 회귀분석에 비해 집단비교가 그나마(?) 직관적인 부분이 있다( ). 다만, 아노바가 집단의 '''평균'''의 비교하는 기법인데, 이름이 '''분산'''분석( )이라는 점과 같이 난해한 부분들도 꽤 있다. 분산을 이용해 평균을 비교하는 논리에 대한 설명 영상
2. 전제 조건
변량 분석을 이용하여 가설 검증을 하기 위해서 각 변량들에 근거하여 갖추어야 할 전제 조건들이 있다.
3. 요인의 수에 따른 구분
요인의 수에 따라 다음으로 구분할 수 있다.
3.1. 일원 배치법
일원 배치법(one-way layout), 일원 분산 분석(one-way ANOVA)
일원 배치법은 특성값에 대한 한 종류의 변수의 영향을 조사할 때 사용하는 분산 분석법이다. 변수의 각 수준이 처리가 되며 2개의 처리 효과를 비교할 때는 t-검정을, 3개 이상의 처리 효과를 비교할 때는 ANOVA를 사용한다. 처리(treatment)는 각 실험 단위에서 특정한 실험 환경 또는 실험 조건을 가하는 것을 말한다.
- 반복이 일정한 모수 모형인 경우
- 반복이 일정하지 않은 모수 모형인 경우
- 반복이 일정한 변량 모형인 경우
- 반복이 일정하지 않은 변량 모형인 경우
3.2. 이원 배치법
이원 배치법(two-way layout), 이원 분산 분석(two-way ANOVA)
- 반복없는 이원 배치법
이원 배치법은 특성치에 영향을 주는 2개의 인자에 대하여 그 영향력을 조사하고자 할 때 사용하는 실험방법이다. 인자(factor)의 교호 작용이 있다고 판단 될 때에는 반복이 있는 실험을 하고, 교호작용이 없다고 생각되는 경우, 즉 A와 B가 독립인 경우에는 반복이 없는 실험을 한다. 교호작용(interaction)은 독립변수 사이에 상호 작용을 하여 서로의 작용에 영향을 주는 것을 말한다.
5. 반복이 없는 이원배치법
5. 반복이 없는 이원배치법
- 난괴법(randomized (complete) block design)
난괴법은 농업 관련의 시험에서 처리(시비량, 품종 등)의 효과를 지역 차를 극복하여 바르게 검정하기 위해서 사용한다. 지역을 몇 개의 구획으로 나누고, 이것을 다시 분할해서 처리 수만큼은 시험구(plot)를 만들고, 각 시험구에 무작위로 각 처리를 할당하는 실험 방식이다. 반복없는 이원 배치법의 일종이다.
난괴법
6. 난괴법
난괴법
6. 난괴법
- 반복있는 이원 배치법(모수 모형)
- 반복있는 이원 배치법(혼합 모형)
3.3. 삼원 배치법
삼원 배치법(three-way layout), 삼원 분산 분석(three-way ANOVA)
- 삼원 배치법
3.4. 다변량 분산 분석
다변량 분산 분석 (Multivariate analysis of variance)
4. 분석 모형
- 고정 효과(fixed-effects)
- 확률 효과, 무선 효과(random-effects)
- 혼합 효과(mixed-effects)
5. 자유도
분산 분석의 자유도(degrees of freedom, df)는 다음과 같이 구한다.
자료에 k개의 열(column)과 n개의 행(row)이 있는 경우 처리 제곱합의 자유도는 k-1이다.
잔차 제곱합의 자유도는 N-k 또는 k(n-1)이다.
총 제곱합의 자유도는 N-1 또는 nk-1이다.
6. 엑셀로 분산 분석 하기
엑셀로 일원배치 분산분석 (One-way ANOVA) 하기
엑셀로 통계 분석하는 방법
7. 기타
- 에타 제곱
- 본페로니 방법
8. 관련 문서
[1] 굉장히 중요하다. 분산분석을 할 때 여러개의 변수 중에서 보통 1~2개만 차이가 있는 경우가 많다.