본문 바로가기
Main/통계

상관분석 (Correlation Analysis) #3 상관계수와 p-value

by research_notes 2022. 7. 20.
728x90
반응형

상관계수와 p-value는 서로 다른 의미를 지닌 값이다. 

 

1. 상관계수는 두 변수가 어떤 강도로 상관이 있는가를 나타내는 값

2. 유의 확률은 상관분석으로 나온 상관계수 값이 사실이 아닐 (틀릴) 확률을 말하는 값

3. 유의 수준은 분석자가 지정하는 기준 (0.05의 의미는 상관계수가 사실이 아닐 확률이 5%, 사실일 확률이 95%이라는 의미로, 5% 정도는 틀려도 그 정도는 사실로 보겠다는 기준을 세운 것)

 

따라서, 유의수준 0.05를 기준으로 세웠을 시, 유의 확률이 0.05보다 적게 나와야 의미 있는 상관계수 값(=사실)임. 

즉, 유의 확률 값이 유의수준보다 적어야 귀무가설을 기각할 수 있로 상관계수 값이 유의미하다고 인정된다는 뜻.


EXAMPLE !

키와 몸무게의 상관관계를 보기 위해 30명의 학생을 무작위 추출하여 자료를 수집함.

두 변수 모두 연속형 (continuous) 변수이기 때문에 피어슨 상관게수를 이용하여 분석함.유의 수준은 0.05 (상관계수가 사실이 아닐 확률이 5%)로 설정함. 

  • 귀무가설 H0 :  키와 몸무게 간의 상관 관계가 없다.
  • 대립가설 H1 : 키와 몸무게 간의 상관 관계가 있다.

 

 ▶ 상관계수 r = 0.78 (유의 확률 p = 0.03)를 얻었을 때

  • r 값으로 보아 충분히 높은 상관관계를 보이고 있음.
  • p-value도 유의 수준인 0.05보다 작으므로 귀무가설 기각 & 대립가설 채택

== 두 변수간 강한 상관관계가 있으며, 그 결과가 유의미함!


 상관계수의 값은 크지만, p-value > 0.05인 경우

  • Ex) r=0.85 이지만 p=0.25인 경우, 높은 상관관계를 보이지만 p-value 값이 유의 수준보다 높을 때.
    • 유의미하지 않은 값이다. 즉 결과가 정확하다고 볼 수 없다는 의미
    • p 값은 샘플의 크기에 영향을 받지만, 상관계수는 샘플의 크기와는 무관함.
    • 이런 경우, 샘플의 수를 증가 시켜보면 유의미한 p 값을 얻을 수도 있음.

 상관계수의 값은 작지만 p-value < 0.05인 경우

  • Ex) r=0.04 이지만, p<0.05인 경우, 상관계수의 값은 작아서 두 변수의 상관관계는 없지만 p 값이 작아 유의미함.
    • p<0.05 (유의미함)의 의미는 귀무가설을 기각한다는 것, 'r=0' 이라는 귀무가설을 기각한다는 뜻.
    • 즉 상관계수의 값이 0이 아니라는 것 (r=0.04)을 의미함.
    • 즉 r≠0 이지만, 상관계수가 충분히 높지 않기 때문에 중요한 발견은 아님. 
728x90
반응형