본문 바로가기
Main/통계

📊 상관분석 #2 – 상관계수의 종류 총정리 (Pearson, Spearman, Kendall, Point-Biserial)

by research_notes 2022. 7. 20.
728x90
반응형

2022.07.20 - [Main/통계] - 상관분석 (Correlation Analysis) #1 Correlation Coefficient

 

상관분석 (Correlation Analysis) #1 Correlation Coefficient

1. Correlation (상관관계) : 한 변수가 다른 변수와 동시에 움직이는 정도를 나타내는 통계적 지수 (a statistical term describing the degree to which two variables move in coordination with one another) - 두 변수 간 직선관

kimtutor.tistory.com

 

**상관분석(Correlation Analysis)**은 두 변수 간의 관계를 분석하는 데 널리 사용되는 통계 기법입니다.
하지만 "상관계수(Correlation Coefficient)"는 단 하나만 존재하지 않습니다.
데이터의 성격과 분석 목적에 따라 적절한 상관계수 선택이 매우 중요합니다.

이번 포스트에서는 가장 대표적인 상관계수들을 비교하고, 언제 어떤 상관계수를 써야 하는지 명확하게 정리해드립니다.

 

1️⃣ Pearson 상관계수 (Pearson's r Correlation Coefficient)

  • 정의: 두 연속형 변수 간의 **선형 관계(linear relationship)**를 수치로 표현
  • 적합한 데이터: 키, 몸무게, 온도, 점수 등 연속형 변수
  • 검정유형: 모수검정 (Parametric Test)

📌 사용 조건 (Assumptions)

  • 두 변수는 연속형이어야 함
  • 두 변수 모두 **정규분포(normal distribution)**를 따라야 함
  • **선형 관계(linearity)**가 있어야 함
  • **이상치(outlier)**가 없어야 함

❗ 조건 중 하나라도 위반되면 Pearson's r은 적절하지 않음 → 비모수 상관계수(Spearman, Kendall)를 고려해야 함

 


2️⃣ Spearman 상관계수 (Spearman’s rho, ρ)

= Spearman Rank Correlation Coefficient

  • 정의: 두 변수의 **순위(rank)**를 기준으로 관계를 분석
  • 검정유형: 비모수검정 (Non-parametric Test)
  • 적합한 변수 유형: 순서형 변수(ordinal) 또는 정규성 가정을 만족하지 않는 연속형 변수

📌 특징

  • 데이터 자체가 아니라 순위를 기반으로 분석
  • **단조 관계(monotonic relationship)**를 측정 (선형보다 더 유연한 조건)
    • 양의 단조 관계: 한 변수가 증가할 때 다른 변수도 증가
    • 음의 단조 관계: 한 변수가 증가할 때 다른 변수는 감소

💡 Pearson은 선형성, Spearman은 단조성을 가정함.


3️⃣ Kendall 상관계수 (Kendall’s τ, tau)

  • 정의: 두 변수 간 순위 일치 정도를 측정하는 순위 기반 상관계수
  • 검정유형: 비모수검정 (Non-parametric Test)
  • 특징:
    • Spearman과 유사하지만 계산 방식은 다름 (concordant & discordant pair 기반)
    • **소규모 샘플(small sample size)**에 더 적합
    • 동률(ties)이 많은 경우에도 안정적

📌 Spearman과 Kendall은 둘 다 순위기반이지만, Spearman은 널리 쓰이고, Kendall은 작은 샘플에 추천됨

 


4️⃣ 양류상관계수 (Point-Biserial Correlation)

  • 정의: 하나는 연속형 변수, 하나는 **이분형 범주 변수 (dichotomous, binary)**일 때 사용하는 상관계수
  • 예시:
    • 성별(남/여)과 시험 점수
    • 합격 여부(합/불)와 스트레스 수준
  • 검정유형: 모수검정
  • 적합한 경우:
    • 이분화된 명목형 변수(예: 성별, 맞음/틀림)와 연속형 변수 간의 관계 분석

🔁 요약 비교표

상관계수변수 유형관계 유형정규성 필요추천 상황
Pearson’s r 연속형 vs 연속형 선형 (linear) 필요함 키 vs 몸무게, 점수 vs 연봉
Spearman’s ρ 순서형 또는 비정규 연속형 단조 (monotonic) 불필요 학위 수준 vs 만족도
Kendall’s τ 순서형 단조 (monotonic) 불필요 샘플 수 적고, 동률 많은 경우
Point-Biserial 이분형 vs 연속형 선형 필요함 성별 vs 성적, 합격 여부 vs 스트레스

 

✅ 마무리

같은 상관분석이라도 상황에 따라 써야 할 상관계수는 다릅니다.
특히, 데이터의 분포, 측정 수준, 관계 형태에 따라 Pearson, Spearman, Kendall, Point-Biserial 중 적절한 것을 선택하는 것이 중요합니다.

📌 기억하세요!

  • 정규성 + 선형 → Pearson
  • 순위 데이터 또는 비정규 분포 → Spearman / Kendall
  • 연속형 + 이분형 변수 → Point-Biserial

출처: Scribbr.com/statistics, 네이버 지식백과, 구글

 

2022.07.20 - [Main/통계] - 📈 상관분석 #3: 상관계수와 p-value, 헷갈리지 마세요!

 

📈 상관분석 #3: 상관계수와 p-value, 헷갈리지 마세요!

통계 분석을 처음 접하는 분들이 자주 혼동하는 개념 중 하나가 바로,**상관계수(correlation coefficient)**와 **p-value(유의 확률)**입니다.두 값은 상관분석에서 자주 함께 나타나지만, 완전히 다른 의

kimtutor.tistory.com

 

728x90
반응형