본문 바로가기
기본소양/통계

[ 통계, 처음입니다] 헷갈리는 양측검정, 단측검정 (one-tailed, two-tailed)

by EXUPERY 2021. 1. 6.
반응형

 

 

헷갈리는 양측검정, 단측검정 

one-tailed, two-tailed

 

 


 

 

이 두개는 평균이 같다고할 수 있을까? 혹은 샘플 1이 2보다 더 크다고할 수 있을까? 통계적으로는 어떻게 바라보아야할까

 

 

 

샘플은 각각 30개씩이고 평균은 각 551.83, 559.83이다. 흩어져있는 정도도 각각 다르다. 이 두 샘플을 어떻게 비교할 수 있을까? 유의수준은 5%로 정했다.

 

 

 

양측검정

 

두 샘플이 다른것인가. 귀무가설은 차이가 0, sample1 = sample 2가된다. 

대립가설은 sample1과 sample2가 같지 않은 것이다.

stats.ttest_ind(sample_data['sample1'],sample_data['sample2'])
statistic=-0.11623161222764375, pvalue=0.9078705016359556

그저 우연히 8만큼 차이났을 확률이 90퍼센트라는 의미이다. 다르다고 단정지을 수 없다는 것. 귀무가설을 기각할만큼 유의하지 않다.

 

 

 

 

단측검정

 

그럼 sample 2이 sample1보다 큰것일까? 귀무가설은 다시 차이가 0, sample1 = sample 2가된다.

대립가설은 sample2 > sample1, sample1-sample2 <0이된다.

stats.ttest_ind(sample_data['sample1'],sample_data['sample2'])
statistic=-0.11623161222764375, pvalue=0.9078705016359556

통계치는 샘플1보다 샘플2가 평균값이 크므로 음수값이며,

크거나 작을 경우에는 한쪽만 보면 되기 때문에 p/2가된다.

그래도 여전히 0.45, 귀무가설을 기각할 수 없다. 다르다고 단정지을 수 없다. 

 

 

 

 

 

다시 한번

한번 더 검정해보자. 이번엔 샘플 3을 가져왔다.

 

 

 

다시, 양측검정

이번에는 평균의 차이가 많이 난다. 230정도난다.  최대치에는 차이가 많이 없으나 최소치가 sample3가 더 높고, 더 밀집되어있다. 다시 검정해보자.

stats.ttest_ind(sample_data['sample1'],sample_data['sample3'])
statistic=-4.335010250231997, pvalue=5.876851040052061e-05

statistics 가 음수 4로 sample3이 sample2보다 꽤 클 수 있다고 할 수 있다. p값도 매우작으므로 이는 통계적으로 유의하다고 볼 수 있고 sample1과 2가 같다는 귀무가설을 기각할 수 있다. 아래 plot을 보자.

참고로만 사용, 자유도에 따라서 -1.725값이 달라지고 그 값은 t-table이라고 검색하면 나온다.

statistics의 값은 -4.335였다. 우리가 사용한 표본에서의 값은 t table에서 2.086이 아니라 1.959이다. 다시말해 대립가설이 채택되려면 statistics의 절대값 1.959보다 작아야한다. 그래서 저 뻘건 구역을 귀무가설을 기각할 수 있는 구역이라고해서 기각역이라고 한다.

-4.335는 -1.644보다 작아도 한참 작다. 그 확률은 0에 수렴하는데 그 확률은 p/2값이다.

 

 

다시, 단측검정

참고로만 사용, 자유도에 따라서 -1.725값이 달라지고 그 값은 t-table이라고 검색하면 나온다.

statistics의 값은 -4.335였다. 우리가 사용한 표본에서의 값은 t table에서 1.725가 아니라 1.644이다. 다시말해 대립가설이 채택되려면 statistics가 -1.644보다 작아야한다.  즉 뻘건 구역에 위치할 수 있다면 귀무가설을 기각할 수 있다.

-4.335는 -1.644보다 작아도 한참 작다. 그 확률은 0에 수렴하는데 그 확률은 p/2값이다.

 

p/2 = 2.9384255200260306e-05

p/2값은 매우 작은 값이다. 귀무가설을 기각하고 크거나 작다고 판단할 수 있다.

여기서 statistics가 음수라는 의미는 sample1보다 sample3이 크다는 뜻이므로

sample1보다 sample3이 크다는 대립가설을 채택한다.

 

 

 

 

 

 

아직도 헷갈려, 정

 

먼저 one-sample인지, two-sample인지.

 

one-sample : 모수의 평균(알려진 값)이랑 같은가
    H0 : 모수의 평균 = 표본의 평균
    H1 : 모수의 평균 != 표본의 평균
two-sample : 
    H0 : μ1 = μ2
    H1 : μ1 != μ2

 

 

two-tailed인지, one-tailed인지.

 

two-tailed :
    H0 : A = B
    H1 : A != B
one-tailed :
    H0 : A = B
    H1 : A < B or A > B

 

 

p-value

 

p값이 0.05보다 크다면
    H0(귀무가설, Null hypo) 채택

p값이 0.05보다 작다면

    H1(대립가설, Alt hypo) 채택

p/2값이 0.05보다 작다면(one-tailed)
    statistics가 A에서 B를 뺀값이기 떄문에
    statistics가 양수면 A이 크다고생각할 수 있고
    statistics가 음수면 B가 크다고생각할 수 있다.

 

 

반응형

댓글