본문 바로가기
기본소양/선형대수학

[선형대수학] 공분산과 상관계수 ( 피어슨, 스피어만)

by EXUPERY 2021. 1. 14.
반응형

 

 

공분산과 상관계수 ( 피어슨, 스피어만 )

Covariance & Correaltion coefficient (Pearson, Spearman)

 

 


어떤 데이터를 알고싶을 때 우리는 흔히 평균분산을 이용합니다. 평균은 기대값을 구하기 위함이고, 분산은 데이터의 분포가 얼마나 퍼져있는지를 알기 위함입니다.

 

데이터를 비교할 때 우리는 각각의 평균을 구합니다. 예를 들어 한 학교의 시험점수의 평균이 영어가 80점, 국어가 70점이라고 했을 때, 우리는 영어시험이 더 쉬웠다거나 학생들이 영어를 더 잘하겠구나 생각할 수 있습니다.

하지만 아직 이 평균이 정말 의미가 있다고는 할 수 없습니다.  50명 중에 영어점수 60점이 25명, 100점이 25명이고 국어는 모두 70점이라면 고민을 더 해보아야겠죠. 평균말고도 얼마나 퍼져있는지 알아야 어떤 의미가 있는지 파악할 수 있습니다.

그렇다면 데이터의 상관관계를 알아봅시다. 국어점수가 높은 학생은 영어점수가 더 높지 않을까요?

 

 

공분산(Covariance)

In probability theory and statistics, covariance is a measure of the joint variability of two random variables. - Rice, John (2007). 

두개의 데이터를 가지고 좌표평면위에 점을 찍어서(산점도) 보면 보기 쉬울 것같습니다. 위의 자료는 유명한 데이타셋인 IRIS 예제입니다. IRIS의 꽃잎 너비와 꽃잎길이를 점으로 찍어 표현한 것입니다. 꽃잎이니 당연히 너비와 길이는 어느정도 비례하겠죠? 이 때 우리는 양의 상관관계를 갖는다고 표현합니다. 한 변수가 커지면 다른 변수도 커진다고 할 수 있습니다. 그 상관관계를 아래의 자료처럼 표현합니다.

By Cmglee - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=90452334

cov는 Covariance(공분산)의 약어입니다. X와 Y라는 변수가 있을 때 cov(X,Y)가 음이면 음의 상관관계를 갖게되고, 양의 상관관계를 가지면  양수를 갖습니다. 0이라는 뜻은 상관관계가 0이라는 것입니다. 여기까지 이해가 되었으면 공분산은 이미 익히신 것이나 다름이 없습니다!

 

살짝만 더 자세하게 들여다 보자면,

공분산의 공식은 위와 같습니다. X와 Y의 편차를 곱해서 더한 뒤에 갯수로 나누어줍니다. 즉 두 편차의 곱의 평균을 의미합니다. (표본이냐 아니냐에 따라서 1/n-1을 하는 경우도 있습니다.) 

xi가 평균에서 점점 커질 때 yi도 평균에서 점점 커진다면 두 곱은 양수가 될 것입니다. ( + x + = +)

xi가 평균에서 점점 작아지면 음수가되고  yi도 평균에서 점점 작아진다면 두 곱은 양수가 될 것입니다. ( - x - = +)

다시말해 cov가 양수이면 x와 y가 비례합니다.

하지만 문제가 있습니다. 공분산은 x와 y의 단위의 크기에 영향을 받습니다. 여기서 상관계수가 등장합니다.

 

 

 

상관계수(Coefficient)

Iris의 공분산입니다. 위의 산점도에서 보았던 꽃잎 길이(petal_length)와 꽃잎 너비(petal_width)는 공분산이 1.29입니다. 그런데 만약, 스케일이 다르면 어떨까요? mm단위가 아니라 어떤 것은 km단위일 수도 있고, 온도일 수도 있습니다. 스케일을 조정하기위해서 우리는 상관계수를 이용합니다. 분산에서 스케일을 조정하기위해서 표준편차썼던 것 처럼.

공식도 분산과 비슷합니다. 상관계수를 구하는 공식은 공분산에서 x와 y의 편차의 곱을 나눠주면 됩니다!

상관계수는 -1~1의 값을 가집니다. 

 

 

 

 

데이터 유형에 따른 상관계수

 

피어슨 상관계수 Pearson Coefficient

피어슨 상관계수는 두 연속형 변수가 모두 정규성을 따른다고 가정합니다. 다시말해 모수적방법입니다.

 

스피어만 상관계수 Spearman Coefficient

두 연속형 변수가 정규성을 따르지 않거나, (표본이 10개 미만이라던가)

두변수가 순위척도일 때 사용합니다.  ( 전공학점과 교양학점의 상관관계 )

 

 

반응형

댓글