2022.07.20 - [Main/통계] - 상관분석 (Correlation Analysis) #1 Correlation Coefficient
상관분석 (Correlation Analysis) #1 Correlation Coefficient
1. Correlation (상관관계) : 한 변수가 다른 변수와 동시에 움직이는 정도를 나타내는 통계적 지수 (a statistical term describing the degree to which two variables move in coordination with one another) - 두 변수 간 직선관
kimtutor.tistory.com
**상관분석(Correlation Analysis)**은 두 변수 간의 관계를 분석하는 데 널리 사용되는 통계 기법입니다.
하지만 "상관계수(Correlation Coefficient)"는 단 하나만 존재하지 않습니다.
데이터의 성격과 분석 목적에 따라 적절한 상관계수 선택이 매우 중요합니다.
이번 포스트에서는 가장 대표적인 상관계수들을 비교하고, 언제 어떤 상관계수를 써야 하는지 명확하게 정리해드립니다.
1️⃣ Pearson 상관계수 (Pearson's r Correlation Coefficient)
- 정의: 두 연속형 변수 간의 **선형 관계(linear relationship)**를 수치로 표현
- 적합한 데이터: 키, 몸무게, 온도, 점수 등 연속형 변수
- 검정유형: 모수검정 (Parametric Test)
📌 사용 조건 (Assumptions)
- 두 변수는 연속형이어야 함
- 두 변수 모두 **정규분포(normal distribution)**를 따라야 함
- **선형 관계(linearity)**가 있어야 함
- **이상치(outlier)**가 없어야 함
❗ 조건 중 하나라도 위반되면 Pearson's r은 적절하지 않음 → 비모수 상관계수(Spearman, Kendall)를 고려해야 함
2️⃣ Spearman 상관계수 (Spearman’s rho, ρ)
= Spearman Rank Correlation Coefficient
- 정의: 두 변수의 **순위(rank)**를 기준으로 관계를 분석
- 검정유형: 비모수검정 (Non-parametric Test)
- 적합한 변수 유형: 순서형 변수(ordinal) 또는 정규성 가정을 만족하지 않는 연속형 변수
📌 특징
- 데이터 자체가 아니라 순위를 기반으로 분석
- **단조 관계(monotonic relationship)**를 측정 (선형보다 더 유연한 조건)
- 양의 단조 관계: 한 변수가 증가할 때 다른 변수도 증가
- 음의 단조 관계: 한 변수가 증가할 때 다른 변수는 감소
💡 Pearson은 선형성, Spearman은 단조성을 가정함.
3️⃣ Kendall 상관계수 (Kendall’s τ, tau)
- 정의: 두 변수 간 순위 일치 정도를 측정하는 순위 기반 상관계수
- 검정유형: 비모수검정 (Non-parametric Test)
- 특징:
- Spearman과 유사하지만 계산 방식은 다름 (concordant & discordant pair 기반)
- **소규모 샘플(small sample size)**에 더 적합
- 동률(ties)이 많은 경우에도 안정적
📌 Spearman과 Kendall은 둘 다 순위기반이지만, Spearman은 널리 쓰이고, Kendall은 작은 샘플에 추천됨
4️⃣ 양류상관계수 (Point-Biserial Correlation)
- 정의: 하나는 연속형 변수, 하나는 **이분형 범주 변수 (dichotomous, binary)**일 때 사용하는 상관계수
- 예시:
- 성별(남/여)과 시험 점수
- 합격 여부(합/불)와 스트레스 수준
- 검정유형: 모수검정
- 적합한 경우:
- 이분화된 명목형 변수(예: 성별, 맞음/틀림)와 연속형 변수 간의 관계 분석
🔁 요약 비교표
Pearson’s r | 연속형 vs 연속형 | 선형 (linear) | 필요함 | 키 vs 몸무게, 점수 vs 연봉 |
Spearman’s ρ | 순서형 또는 비정규 연속형 | 단조 (monotonic) | 불필요 | 학위 수준 vs 만족도 |
Kendall’s τ | 순서형 | 단조 (monotonic) | 불필요 | 샘플 수 적고, 동률 많은 경우 |
Point-Biserial | 이분형 vs 연속형 | 선형 | 필요함 | 성별 vs 성적, 합격 여부 vs 스트레스 |
✅ 마무리
같은 상관분석이라도 상황에 따라 써야 할 상관계수는 다릅니다.
특히, 데이터의 분포, 측정 수준, 관계 형태에 따라 Pearson, Spearman, Kendall, Point-Biserial 중 적절한 것을 선택하는 것이 중요합니다.
📌 기억하세요!
- 정규성 + 선형 → Pearson
- 순위 데이터 또는 비정규 분포 → Spearman / Kendall
- 연속형 + 이분형 변수 → Point-Biserial
출처: Scribbr.com/statistics, 네이버 지식백과, 구글
2022.07.20 - [Main/통계] - 📈 상관분석 #3: 상관계수와 p-value, 헷갈리지 마세요!
📈 상관분석 #3: 상관계수와 p-value, 헷갈리지 마세요!
통계 분석을 처음 접하는 분들이 자주 혼동하는 개념 중 하나가 바로,**상관계수(correlation coefficient)**와 **p-value(유의 확률)**입니다.두 값은 상관분석에서 자주 함께 나타나지만, 완전히 다른 의
kimtutor.tistory.com
'Main > 통계' 카테고리의 다른 글
T 검정 (t-test) #2 T검정 종류 (Types of t-test) (0) | 2022.08.04 |
---|---|
T-검정 (t-test) #1 t 검정이란? (0) | 2022.08.04 |
📈 상관분석 #3: 상관계수와 p-value, 헷갈리지 마세요! (0) | 2022.07.20 |
📊상관분석(Correlation Analysis) #1 기본 개념 완벽 정리! (0) | 2022.07.20 |
📈 공변량(Covariate)과 공변량분석(ANCOVA)이란? (0) | 2022.02.22 |