본문 바로가기
기본소양/통계

[통계, 처음입니다] 가설검정 (귀무가설과 대립가설, p-value)

by EXUPERY 2021. 1. 5.
반응형

 

통계적 가설검정 Statistical hypothesis test

귀무가설과 대립가설, p-value

 

 

 


통계적 가설 검정(統計的假說檢定, statistical hypothesis test)은 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미한다. 간단히 가설 검정(假說檢定)이라고 부르는 경우가 많다. -위키백과 인용

 

다들 대중교통비에 얼마정도 쓸까요?

한달에 적어도 15만원은 쓰지 않을까요?

그래서 저는 가설을 하나 세웠습니다.

 

사람들은 대중교통비에 15만원을 쓴다!

 

 

귀무가설(H0) vs 대립가설(H1)

 

저는 이제 이 가설을 검정해보려고해요. 여기서 우리는 '사람들은 대중교통비에 15만원을 쓴다'라는 가설을 '귀무가설'이라고합니다. 말이 어렵죠? 한자로 歸無라고 하는데요 '없을 무'가 보이시죠? 없다는 뜻입니다. 영어로는 Null hypothesis입니다. Null, 없다는 뜻입니다. 귀무가설에서 '귀'자는 귀향길과 같은 돌아갈 귀 자를 쓰고있습니다. 없는 것으로 돌아간다는 것입니다. 뭐가 없을까요?

만약 모든사람들이 대중교통비에 20만원을 쓴다고하면 제 가설과 5만원이 차이가 나겠죠? 그럼 가설은 틀린게 되겠네요! 그렇다면 저의 가설대로 모든 사람이 대중교통비에 20만원을 쓴다면? 제 가설과 0원이 차이가 날 것입니다. 즉 차이가 없다. 차이가 0, 그래서 Null hypothesis, 귀무가설입니다.

그렇다면 상관관계에 대해서는 어떨까요? 예를들어 대중교통비를 15만원이상 쓰는 사람은 식비를 50만원이상 쓰는 사람일까요? 이런 상관관계에서는 연관성이 '없다'가 귀무가설입니다! 

말그대로 대립가설은 제 가설과 되립되는 가설입니다. 사람들이 대중교통비에 15만원을 쓰지 않는다!  대중교통비를 15만원이상 쓰는 사람은 식비를 50만원이상 쓰는 사람이 아니다!그것이 대립가설입니다. 

 

 

 

표본추출(Sampling)

 

가설을 검정하기 위해서는 정말 사람들에게 물어봐야할거에요. 물론 모든사람에게 물어보면 좋겠지만, 시간적, 공간적, 경제적인 여러 현실적인 이유들로 쉽지 않습니다. 그래서 표본을 가지고 검정을 진행합니다. 표본을 추출할 때는 여러 방법이 있습니다. 샘플링에 관해서는 제가 이전에 쓴 포스트를 읽으시면 도움이 될거라 생각합니다.

 

[통계, 처음입니다] 들어가며, 샘플링(표본추출)

Statistics 들어가며, 샘플링(표본추출) 기술통계학 vs 추론통계학 기술 통계학(descriptive statistics)는 측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 

exupery-1.tistory.com

 

 

신뢰도 (Confidence level)

 

하지만 세상만사가 그렇듯이 모든 사람이 똑같지는 않겠죠? 그러면 어느정도되야 제 가설이 맞다고 인정받을 수 있을까요? 그래서 95%이거나 99%의 신뢰도를 사용하고있습니다. 100번을 다시 조사해도 95번, 99번은 똑같은 결과가 나올것이라는 의미입니다. 

잘 이해가 안간다면 다음 통계청의 예를 보시면 훨씬 이해가 쉬울겁니다.

보통은 95%의 신뢰도를 사용한다.
예를 들어, ‘정치인 지지율 조사에서 A후보는 40%, B후보는 25%의 지지율을 얻었다. 신뢰수준 95%에서 표본오차는 3.1%포인트이다’란 말의 의미는 다음과 같다. 동일한 형태의 여론조사를 100번 실시했을 경우에 95번은 A후보가 40%에서 ±3.1% 인 36.9% ~ 43.1%, B후보는 25%에서 ±3.1% 인 21.9% ~ 28.1% 사이의 지지율을 얻을 것으로 기대된다는 의미이다.

 

 

ALPHA LEVEL

 

우리는 앞서 신뢰도를 95%이거나 99%로 정하기로 했습니다. 어떻게 95%임을 알 수 있을 까요? 우리는 이를 수치로 나타냅니다. 퍼센트로 나타내지말고 소수로 나타내볼까요? 1.00은 100%입니다. 95%는 0.95입니다.

알파는 100%에서 신뢰도를 뺀 값입니다. 1-0.95, 즉, 0.05입니다. 당연히 신뢰도를 어떻게 잡느냐에 따라 값이 달라지겠죠?

 

우리는 이제 기준이 생겼습니다. 알파를 기준으로 잡고 검정결과를 신뢰할 수 있는지 없는지 판단하게 될겁니다.

 

 

p-value(유의확률)

 

주변사람에게 물어봤습니다. (샘플링을 한 것입니다.)

교통비를 얼마쓰냐고 물어보니 1000만원이라고 답하네요!

그렇다면 제 가설이 틀린걸까요? 누가봐도 일반적인 값은 아닙니다. 이건 '우연히' 발생한 일이죠.. 아주 우연히...

실제로는 99%가 식비로 50만원을 사용한다고해도 

그럼 이런 상황도 숫자로 나타낼 수는 없을까요? 있습니다! 바로 p-value입니다.

 

예를 들어, 표본의 평균을 냈더니 25만원이었습니다. 여러 검정법중 하나를 골라서(검정법은 뒤에 포스팅합니다.) 통해서 계산해보니 p-value가 0.5라고하네요. 표본을 뽑았더니 그 표본의 평균이 우연히 10만원 더 비쌌을 확률이 50%라는 뜻입니다.

 

p - value가 의미하는건 probablitity value, '확률'입니다. 어떤 사건이 우연히 발생할 확률입니다.

p-value가 ALPHA LEVEL보다 작으면 귀무가설을 기각할 수 있기로 정했습니다. Alpha level은 0.05, 즉 우연히 발생할 확률이 5%보다 작으면 이 사건이 우연히 일어난게 아닐거라고 보는 것입니다.

 

말장난같죠? 쉽게말해서 0.05보다 작으면 이건 우연히 일어난일이 아니라는 것! 뭔가 의미가 있다는 것!

그래서 유의하다! 라고 합니다.

 

p-value가 중요한 이유

여러 가설검정을 하면 그 통계치가 나옵니다. T-test를 하면 평균이 얼마나 떨어져있는지에 대한 수치인 t-값이 나오고 chi제곱검정을 하면 카이제곱값이 나옵니다. 이를 알기쉽게 표준화 시켜주는 것입니다. 

 

반응형

댓글