Main/통계
분산분석 (ANOVA) #2 가정 및 이유
research_notes
2022. 8. 19. 11:37
728x90
반응형
반응형
2022.08.17 - [Main/통계] - 분산 분석 (ANOVA) #1 분산분석이란?
가정 (Assumptions)
- 정규성 (normality): 모든 데이터는 정규분포를 따르는 모집단들로부터 추출됨
- The populations from which the samples were obtained must be normally distributed.
- 정규분포라고 보기 곤란한 경우 로그 변환을 사용하여 유사 정규분포 바꿈
- 독립성 (independency)
- The samples must be independent
- 모든 데이터는 모집단들로부터 독립적으로 추출됨
- 등분산성 (homoscedasticity)
- The variances of the populations must be equal
- 모든 데이터는 평균이 달라도 분산은 동일한 모집단들로부터 추출됨.
- 등분산성을 만족하지 않는 경우 Welch ANOVA 사용.
T검정 (=두 집단 간 평균을 비교하는 통계분석)을 사용하지 않고 ANOVA를 사용하는 이유?
(why we do not just use another tt-test to test our hypotheses about three or more groups)
>> 3개 이상의 집단에서 t 검정을 하는 경우 문제가 발생 (n>2)
1) t-검정을 사용해여 세 개 이상의 평균을 비교하려면 여러번의 개별 그룹 비교(independent t-test)를 실행해야 함.
- 세 집단인 경우: group 1 vs group 2 // group 1 vs group 3 // and group 2 vs group 3 (=3 comparison)
- 네 집단인 경우: group 1 vs group 2 // group 1 vs group 3 // group 1 vs group 4 // group 2 vs group 3 // group 2 vs group 4 // group 3 vs group 4 (=6 comparison)
- 집단의 수가 많아질 수록 개별 그룹 비교의 수가 크게 증가함.
2) 제 1종 오류 (Type I Error)
- 1종 오류 (= false positive)
- 1개의 집단에서 제 1종 오류가 발생하지 않을 확률 (유의수준 5%): 0.95
- N개의 집단 모두 제 1종 오류가 발생하지 않을 확률 (유의수준 5%): 0.95^n
- 한 번이라도 제 1종 오류가 발생할 확률 (유의수준 5%): 1 - 0.95^n > 0.05
- 제 1종 오류의 누적으로 인해 ANOVA가 대두됨.
2022.02.22 - [Main/통계] - 공변량 (Covariate) / 공변량 분석 (Analysis of covariance)
728x90
반응형