본문 바로가기
Main/통계

분산분석 (ANOVA) #2 가정 및 이유

by research_notes 2022. 8. 19.
728x90
반응형
반응형

2022.08.17 - [Main/통계] - 분산 분석 (ANOVA) #1 분산분석이란?

 

분산 분석 (ANOVA) #1 분산분석이란?

분산분석 (Analysis of Variance, ANOVA) : 3개 이상 다수의 집단을 비교할 때 (평균 차이를 검정할 때) 사용하는 통계적 방법 (used to compare variances across the means (or average) of different groups 귀무가설 (Null Hypoth

kimtutor.tistory.com

 

가정 (Assumptions)

  • 정규성 (normality): 모든 데이터는 정규분포를 따르는 모집단들로부터 추출됨
    • The populations from which the samples were obtained must be normally distributed.
    • 정규분포라고 보기 곤란한 경우 로그 변환을 사용하여 유사 정규분포 바꿈
  • 독립성 (independency)
    • The samples must be independent
    • 모든 데이터는 모집단들로부터 독립적으로 추출됨
  • 등분산성 (homoscedasticity)
    • The variances of the populations must be equal
    • 모든 데이터는 평균이 달라도 분산은 동일한 모집단들로부터 추출됨. 
    • 등분산성을 만족하지 않는 경우 Welch ANOVA 사용. 

 

T검정 (=두 집단 간 평균을 비교하는 통계분석)을 사용하지 않고 ANOVA를 사용하는 이유?

(why we do not just use another tt-test to test our hypotheses about three or more groups)

>> 3개 이상의 집단에서 t 검정을 하는 경우 문제가 발생 (n>2)

 

1) t-검정을 사용해여 세 개 이상의 평균을 비교하려면 여러번의 개별 그룹 비교(independent t-test)를 실행해야 함. 

  • 세 집단인 경우: group 1 vs group 2  //  group 1 vs group 3  //  and group 2 vs group 3 (=3 comparison)
  • 네 집단인 경우:  group 1 vs group 2  //  group 1 vs group 3  //  group 1 vs group 4  //  group 2 vs group 3  //  group 2 vs group 4  //  group 3 vs group 4 (=6 comparison)
  • 집단의 수가 많아질 수록 개별 그룹 비교의 수가 크게 증가함. 

2) 제 1종 오류 (Type I Error)

  • 1종 오류 (= false positive)
  • 1개의 집단에서 1 오류가 발생하지 않을 확률 (유의수준 5%): 0.95
  • N개의 집단 모두 1 오류가 발생하지 않을 확률 (유의수준 5%): 0.95^n
  • 번이라도 1 오류가 발생할 확률 (유의수준 5%): 1 - 0.95^n > 0.05
  • 1 오류의 누적으로 인해 ANOVA 대두됨.

 

2022.02.22 - [Main/통계] - 공변량 (Covariate) / 공변량 분석 (Analysis of covariance)

728x90
반응형