헷갈리는 양측검정, 단측검정
one-tailed, two-tailed
이 두개는 평균이 같다고할 수 있을까? 혹은 샘플 1이 2보다 더 크다고할 수 있을까? 통계적으로는 어떻게 바라보아야할까
샘플은 각각 30개씩이고 평균은 각 551.83, 559.83이다. 흩어져있는 정도도 각각 다르다. 이 두 샘플을 어떻게 비교할 수 있을까? 유의수준은 5%로 정했다.
양측검정
두 샘플이 다른것인가. 귀무가설은 차이가 0, sample1 = sample 2가된다.
대립가설은 sample1과 sample2가 같지 않은 것이다.
stats.ttest_ind(sample_data['sample1'],sample_data['sample2'])
statistic=-0.11623161222764375, pvalue=0.9078705016359556
그저 우연히 8만큼 차이났을 확률이 90퍼센트라는 의미이다. 다르다고 단정지을 수 없다는 것. 귀무가설을 기각할만큼 유의하지 않다.
단측검정
그럼 sample 2이 sample1보다 큰것일까? 귀무가설은 다시 차이가 0, sample1 = sample 2가된다.
대립가설은 sample2 > sample1, sample1-sample2 <0이된다.
stats.ttest_ind(sample_data['sample1'],sample_data['sample2'])
statistic=-0.11623161222764375, pvalue=0.9078705016359556
통계치는 샘플1보다 샘플2가 평균값이 크므로 음수값이며,
크거나 작을 경우에는 한쪽만 보면 되기 때문에 p/2가된다.
그래도 여전히 0.45, 귀무가설을 기각할 수 없다. 다르다고 단정지을 수 없다.
다시 한번
한번 더 검정해보자. 이번엔 샘플 3을 가져왔다.
다시, 양측검정
이번에는 평균의 차이가 많이 난다. 230정도난다. 최대치에는 차이가 많이 없으나 최소치가 sample3가 더 높고, 더 밀집되어있다. 다시 검정해보자.
stats.ttest_ind(sample_data['sample1'],sample_data['sample3'])
statistic=-4.335010250231997, pvalue=5.876851040052061e-05
statistics 가 음수 4로 sample3이 sample2보다 꽤 클 수 있다고 할 수 있다. p값도 매우작으므로 이는 통계적으로 유의하다고 볼 수 있고 sample1과 2가 같다는 귀무가설을 기각할 수 있다. 아래 plot을 보자.
statistics의 값은 -4.335였다. 우리가 사용한 표본에서의 값은 t table에서 2.086이 아니라 1.959이다. 다시말해 대립가설이 채택되려면 statistics의 절대값 1.959보다 작아야한다. 그래서 저 뻘건 구역을 귀무가설을 기각할 수 있는 구역이라고해서 기각역이라고 한다.
-4.335는 -1.644보다 작아도 한참 작다. 그 확률은 0에 수렴하는데 그 확률은 p/2값이다.
다시, 단측검정
statistics의 값은 -4.335였다. 우리가 사용한 표본에서의 값은 t table에서 1.725가 아니라 1.644이다. 다시말해 대립가설이 채택되려면 statistics가 -1.644보다 작아야한다. 즉 뻘건 구역에 위치할 수 있다면 귀무가설을 기각할 수 있다.
-4.335는 -1.644보다 작아도 한참 작다. 그 확률은 0에 수렴하는데 그 확률은 p/2값이다.
p/2 = 2.9384255200260306e-05
p/2값은 매우 작은 값이다. 귀무가설을 기각하고 크거나 작다고 판단할 수 있다.
여기서 statistics가 음수라는 의미는 sample1보다 sample3이 크다는 뜻이므로
sample1보다 sample3이 크다는 대립가설을 채택한다.
아직도 헷갈려, 정리
먼저 one-sample인지, two-sample인지.
one-sample : 모수의 평균(알려진 값)이랑 같은가
H0 : 모수의 평균 = 표본의 평균
H1 : 모수의 평균 != 표본의 평균
two-sample :
H0 : μ1 = μ2
H1 : μ1 != μ2
two-tailed인지, one-tailed인지.
two-tailed :
H0 : A = B
H1 : A != B
one-tailed :
H0 : A = B
H1 : A < B or A > B
p-value
p값이 0.05보다 크다면
H0(귀무가설, Null hypo) 채택
p값이 0.05보다 작다면
H1(대립가설, Alt hypo) 채택
p/2값이 0.05보다 작다면(one-tailed)
statistics가 A에서 B를 뺀값이기 떄문에
statistics가 양수면 A이 크다고생각할 수 있고
statistics가 음수면 B가 크다고생각할 수 있다.
'기본소양 > 통계' 카테고리의 다른 글
[ 통계, 처음입니다 ] 베이지안이론 (Bayesian Theory) (0) | 2021.01.08 |
---|---|
[통계, 처음입니다] 가설검정 (귀무가설과 대립가설, p-value) (3) | 2021.01.05 |
[통계, 처음입니다] 들어가며, 샘플링(표본추출) (0) | 2021.01.05 |
댓글