분산분석 (ANOVA) #2 가정 및 이유

728x90

2022.08.17 - [Main/통계] - 분산 분석 (ANOVA) #1 분산분석이란?

분산 분석 (ANOVA) #1 분산분석이란?

분산분석 (Analysis of Variance, ANOVA) : 3개 이상 다수의 집단을 비교할 때 (평균 차이를 검정할 때) 사용하는 통계적 방법 (used to compare variances across the means (or average) of different groups 귀무가설 (Null Hypoth

kimtutor.tistory.com

가정 (Assumptions)

정규성 (normality): 모든 데이터는 정규분포를 따르는 모집단들로부터 추출됨
- The populations from which the samples were obtained must be normally distributed.
- 정규분포라고 보기 곤란한 경우 로그 변환을 사용하여 유사 정규분포 바꿈
독립성 (independency)
- The samples must be independent
- 모든 데이터는 모집단들로부터 독립적으로 추출됨
등분산성 (homoscedasticity)
- The variances of the populations must be equal
- 모든 데이터는 평균이 달라도 분산은 동일한 모집단들로부터 추출됨.
- 등분산성을 만족하지 않는 경우 Welch ANOVA 사용.

T검정 (=두 집단 간 평균을 비교하는 통계분석)을 사용하지 않고 ANOVA를 사용하는 이유?

(why we do not just use another tt-test to test our hypotheses about three or more groups)

>> 3개 이상의 집단에서 t 검정을 하는 경우 문제가 발생 (n>2)

1) t-검정을 사용해여 세 개 이상의 평균을 비교하려면 여러번의 개별 그룹 비교(independent t-test)를 실행해야 함.

세 집단인 경우: group 1 vs group 2 // group 1 vs group 3 // and group 2 vs group 3 (=3 comparison)
네 집단인 경우: group 1 vs group 2 // group 1 vs group 3 // group 1 vs group 4 // group 2 vs group 3 // group 2 vs group 4 // group 3 vs group 4 (=6 comparison)
집단의 수가 많아질 수록 개별 그룹 비교의 수가 크게 증가함.

2) 제 1종 오류 (Type I Error)

1종 오류 (= false positive)
1개의 집단에서 제 1종 오류가 발생하지 않을 확률 (유의수준 5%): 0.95
N개의 집단 모두 제 1종 오류가 발생하지 않을 확률 (유의수준 5%): 0.95^n
한 번이라도 제 1종 오류가 발생할 확률 (유의수준 5%): 1 - 0.95^n > 0.05
제 1종 오류의 누적으로 인해 ANOVA가 대두됨.

2022.02.22 - [Main/통계] - 공변량 (Covariate) / 공변량 분석 (Analysis of covariance)

728x90

저작자표시

'Main > 통계' 카테고리의 다른 글

[통계] 올바른 상관분석 고르기 (pearson, spearman, Kendall, etc) (0)	2024.05.16
분산 분석 (ANOVA) #1 분산분석이란? (0)	2022.08.17
회귀분석 (Regression Analysis) #2 회귀분석 종류 (0)	2022.08.10
회귀분석 (Regression Analysis) #1 회귀분석이란? (0)	2022.08.10
T 검정 (t-test) #2 T검정 종류 (Types of t-test) (0)	2022.08.04

Research Note

분산분석 (ANOVA) #2 가정 및 이유

'Main > 통계' 카테고리의 다른 글

티스토리툴바

분산분석 (ANOVA) #2 가정 및 이유

'Main > 통계' 카테고리의 다른 글

관련글

티스토리툴바