본문 바로가기
Main/통계

📈 상관분석 #3: 상관계수와 p-value, 헷갈리지 마세요!

by research_notes 2022. 7. 20.
728x90
반응형

통계 분석을 처음 접하는 분들이 자주 혼동하는 개념 중 하나가 바로,

**상관계수(correlation coefficient)**와 **p-value(유의 확률)**입니다.

두 값은 상관분석에서 자주 함께 나타나지만, 완전히 다른 의미를 지니고 있다는 점을 꼭 기억해야 합니다.

 

✅ 1. 상관계수(Correlation Coefficient, r)란?

상관계수는 두 변수 간의 관계의 방향과 강도를 수치로 나타낸 값입니다.

  • 범위: -1 ~ +1
  • 양의 상관관계 (r > 0): 한 변수가 증가할수록 다른 변수도 증가
  • 음의 상관관계 (r < 0): 한 변수가 증가할수록 다른 변수는 감소
  • 0에 가까움 (r ≈ 0): 거의 상관관계가 없음

예) r = 0.78 → 두 변수 간에 꽤 강한 양의 상관관계가 있다는 의미

✅ 2. p-value(유의 확률)란?

p-value는 우연히 이런 상관계수를 얻었을 가능성, 즉 **이 상관계수가 '사실이 아닐 확률'**을 말합니다.
p-value는 신뢰의 정도를 판단하는 데 사용되며, 일반적으로 **유의 수준(significance level, 보통 0.05)**과 비교합니다.

  • p-value < 0.05 → 유의미한 결과 (귀무가설 기각, 대립가설 채택)
  • p-value ≥ 0.05 → 유의미하지 않음 (귀무가설 채택)

✅ 3. 유의 수준(Significance Level)이란?

유의 수준은 분석자가 틀려도 괜찮다고 설정한 허용 오차입니다.
가장 흔한 기준은 **0.05 (5%)**입니다.
즉, 5% 정도는 틀려도 그 결과를 믿겠다는 기준입니다.

 

정리해보자면!

1. 상관계수는 두 변수가 어떤 강도로 상관이 있는가를 나타내는 값

2. 유의 확률은 상관분석으로 나온 상관계수 값이 사실이 아닐 (틀릴) 확률을 말하는 값

3. 유의 수준은 분석자가 지정하는 기준 (0.05의 의미는 상관계수가 사실이 아닐 확률이 5%, 사실일 확률이 95%이라는 의미로, 5% 정도는 틀려도 그 정도는 사실로 보겠다는 기준을 세운 것)

 

따라서, 유의수준 0.05를 기준으로 세웠을 시, 유의 확률이 0.05보다 적게 나와야 의미 있는 상관계수 값(=사실)임. 

즉, 유의 확률 값이 유의수준보다 적어야 귀무가설을 기각할 수 있로 상관계수 값이 유의미하다고 인정된다는 뜻.


🧪 예시로 보는 상관분석

=> 키와 몸무게의 상관관계를 보기 위해 30명의 학생을 무작위 추출하여 자료를 수집함.
=> 두 변수 모두 연속형 (continuous) 변수이기 때문에 피어슨 상관게수를 이용하여 분석함.
=> 유의 수준은 0.05 (상관계수가 사실이 아닐 확률이 5%)로 설정함. 


목표
: 키와 몸무게 간의 상관관계를 분석
대상: 무작위로 추출한 30명의 학생
방법: 피어슨 상관분석
유의 수준: 0.05

  • 귀무가설(H₀) :  키와 몸무게 간의 상관 관계가 없다. (r = 0)
  • 대립가설(H₁) :  키와 몸무게 간의 상관 관계가 있다. (r ≠ 0)

▶ 분석 결과 ① (상관계수 r = 0.78, 유의 확률 p = 0.03)를 얻었을 때

▷ 상관계수의 값도 크고, p-value < 0.05인 경우

  • r 값이 높아 강한 상관관계를 나타내고,
  • p-value < 0.05이므로 귀무가설을 기각, 대립가설을 채택합니다.
  • → 즉, 키와 몸무게 간에는 유의미한 양의 상관관계가 있다고 해석합니다.

 두 변수간 강한 상관관계가 있으며, 그 결과가 유의미함!


▶ 분석 결과 ② (상관계수 r = 0.68, 유의 확률 p = 0.25)를 얻었을 때

▷ 상관계수의 값은 크지만, p-value > 0.05인 경우

  • r 값은 높지만, p-value가 너무 큽니다 (0.25 > 0.05). 유의미하지 않은 값. 즉, 결과가 정확하다고 볼 수 없다는 의미
  • 즉, 우연히 이렇게 높은 상관계수를 얻었을 가능성이 높음.
  • p 값은 샘플의 크기에 영향을 받지만, 상관계수는 샘플의 크기와는 무관함.
  • 이런 경우, 샘플의 수를 증가 시켜보면 유의미한 p 값을 얻을 수도 있음.
  • 샘플 수가 부족한 경우 이런 일이 흔히 발생하므로, 표본 수를 늘려야 함.

두 변수간 강한 상관관계가 있지만, 그 결과가 유의미하지 않음!


▶ 분석 결과 ③ (상관계수 r = 0.14, 유의 확률 p = 0.02)를 얻었을 때,

▷ 상관계수의 값은 작지만 p-value < 0.05인 경우

  • p-value는 작아서 통계적으로 유의미하다는 결과.
  • 하지만 r 값이 너무 작아 실제 상관관계는 매우 미미함.
  • p<0.05 (유의미함)의 의미는 귀무가설을 기각한다는 것, 'r=0' 이라는 귀무가설을 기각한다는 뜻.
  • 즉 상관계수의 값이 0이 아니라는 것 (r=0.04)을 의미하는 통계적 결론일 뿐, 실제 의미 있는 관계는 아님.

⚠️ 유의미하긴 하나, 해석에 주의가 필요

 


🔍 핵심 요약

구분상관계수 (r)p-value해석
의미 관계의 강도와 방향 결과가 우연일 확률 둘 다 함께 해석해야 함
관련성 두 변수의 관계 정도 통계적으로 믿을 수 있는지 단독으로 해석하면 위험
참고 r은 샘플 수와 무관 p는 샘플 수에 영향 받음 샘플 크기에 유의할 것

 

2024.05.16 - [Main/통계] - [통계] 올바른 상관분석 고르기 (pearson, spearman, Kendall, etc)

 

[통계] 올바른 상관분석 고르기 (pearson, spearman, Kendall, etc)

Choosing the Best Correlation Test논문을 읽다보면 수많은 통계 방법들이 나와서 종종 멘붕에 빠질 때도 많고,연구 초반에는 무적의 cor.test() 코드를 사용해 상관분석을 진행했다가,올바른 분석 방법

kimtutor.tistory.com

2022.08.17 - [Main/통계] - 분산 분석 (ANOVA) #1 분산분석이란?

 

분산 분석 (ANOVA) #1 분산분석이란?

분산분석 (Analysis of Variance, ANOVA): 3개 이상 다수의 집단을 비교할 때 (평균 차이를 검정할 때) 사용하는 통계적 방법 (used to compare variances across the means (or average) of different groups귀무가설 (Null Hypothe

kimtutor.tistory.com

 

728x90
반응형