상관계수의 종류 (Types of Correlation Coefficient)
: You can choose from many different correlation coefficients based on the linearity of the relationship, the level of measurement of your variables, and the distribution of your data.
1. 피어슨 상관계수 (Pearson r Correlation Coefficient)
: 두 변수 X와 Y 간의 선형 상관관계를 계량화한 수치
(describes the linear relationship between two quantitative variables)
- 연속형 변수의 상관관계 측정 (ex. 신장, 몸무게)
- 모수 검정 (Parametric Test)
- 가정 (Assumptions your data must meet if you want to use Pearson's r):
- Both variables are on an interval or ratio level of measurement
- Both variables should be normally distributed (a bell-shaped curve)
- Have no outliers
- Expect a linear relationship between the two variables (Linearity assumes a straight line relationship between each of the two variables)
- 변수가 비선형 상관관계(nonlinear relationship), 이상치(outlier), 비대칭분포(skewed distribution)를 가지거나, 데이터가 범주형 변수(categorical variable)인 경우 피어슨 상관계수는 상관관계를 측정하는 데 적합하지 않다. 이러한 가정 (assumption) 중 하나라도 위반된다면 순위 상관계수(rank correlation coefficient)를 고려해야한다.
2. 스피어만 상관계수 (Spearman's rho= Spearman Rank Correlation Coefficient)
- 스피어만 상관 계수 (ρ = rho)
- 비모수 검정 (non-parametric test)
- 순위가 매겨진 변수 간의 피어슨 상관계수 (학교등급, 졸업학위 level) - Ordinal Scale
- uses the rankings of data from each variable rather than the raw data itself
- 데이터가 피어슨 r 상관계수의 가정을 충족하지 못할 경우 스피어만 rho를 사용함.
- 피어슨 상관계수는 관계의 선형도(linearity)를 측정하는 반면, 스피어만 상관계수는 관계의 단조성(monotonicity)을 측정한다. (Monotonic relationships are less restrictive than linear relationships)
- Positive monotonic: when one variable increases, the other also increases.
- Negative monotonic: when one variable increases, the other decreases.
- 데이터 내 편차와 에러에 민감하며, 일반적으로 켄달 상관계수보다 높은 값을 가짐.
3. 켄달 상관계수 (Kendall Rank Correlation Coefficient)
- Kendall's τ coefficient (τ = tau)
- 변수값 대신 순위로 바꿔서 이용하는 상관계수 (ex. 학교등급, 졸업학위 level)
- Used to measure the ordinal association between two measured quantities.
- 비모수 검정 (non-parametric test)
- 샘플사이즈가 적거나, 데이터의 동률이 많을 때 유용
- 스피어만 상관계수와 켄달 상관계수는 사용 조건이 같지만, 켄달의 타우는 일반적으로 더 작은 표본에 선호되는 반면, 스피어만 상관계수는 더 널리 사용된다. (The Spearman’s rho and Kendall’s tau have the same conditions for use, but Kendall’s tau is generally preferred for smaller samples whereas Spearman’s rho is more widely used.)
※ 켄달과 스피어만은 순위 일치 정도를 검사한다는 점에서 유사한 분석이다. 따라서, 동일 데이터로 상관분석으로 진행한다면 상관계수 값이 약간 다를지라도 비슷한 추론을 내린다.
4. 양류상관계수 (Point-Biserial Correlation)
: 한 변수가 명명척도(nominal scale)에 의하여 이분화 (dichotomous, binary)된 질적 변수이고 다른 변수는 연속성을 지닌 양적 변수 (quantitative)일 때 두 변수의 상관 정도를 추정하기 위해 쓰이는 상관계수
(used to measure the strength and direction of the association that exists between one continuous variable and one dichotomous variable.)
- symbol: rpbis; rpb
- 모수검정 (Normal distribution
출처: Scribbr.com/statistics, 네이버 지식백과, 구글
