본문 바로가기
기본소양/통계

[통계, 처음입니다] 들어가며, 샘플링(표본추출)

by EXUPERY 2021. 1. 5.
반응형

 

Statistics

들어가며, 샘플링(표본추출)

 

 


기술통계학 vs 추론통계학

 

기술 통계학(descriptive statistics)는 측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법이다.
추론 통계학은 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭한다. 통계학의 한 부분으로서 추론 통계학이라고 불린다. 추론 통계에는 도수 확률(frequency probability)과 사전 확률(prior probability)을 기반으로 하는베이즈 추론의 두 학파가 있다. -위키백과 인용

 

판다스와 넘파이등을 이용해서 평균과 최소값, 최댓값, 중간값등(df.describe())을 구하고, 맷플롭립과 씨본등을 이용해서 시각화해서 자료의 의미를 도출해내는 것은 기술통계학이었습니다. 우리는 이제 추론통계학에대해 배울 차례입니다. 추론통계에는 어렵게 느껴지는 말들이 많은데 먼저 간단한 용어에 대한 정리부터 해보려합니다.

 

 

  • 모집단 (Population) : 알고싶은 것의 전체집합
  • 모수 (Parameter) : 모집단의 특성을 나타내는 양적인 측도
  • 표본 (Sample)  : 모집단은 규모가 크니까 표본을 뽑고(샘플링) 통계적 분석을 통해서 모집단의 특성을 추론
  • 통계량 (Statistic) : 표본에 대한 특성을 나타내는 양적인 측도
  • 추정량(표본통계량) Estimator : 추정에 사용되는 통계량
  • 표준편차 Standard Deviation : 데이터가 얼마나 퍼졌는지 (퍼짐성을 의미하는 분산에 루트를 씌운 형태)
  • 표준오차 Standard Error : 표본을 뽑을 때마다 표본이 다를 것이고 각 표본의 평균도 다를 것, 이 표본평균의 표준편차.
  • 추론 Infer

 

쉽게말해 우리는 모집단의 특성 알고자하며, 샘플링을 통해서 표본을 만들고, 표본을 분석하여 특성을 도출하여 모집단의 특성을 알아내고자합니다.

 

 

 

샘플링하는 4가지 방법

www.scribbr.com/methodology/sampling-methods/

 

 

1. Simple random sampling

모집단에서 무작위로 뽑는 방법입니다. [1,4,6,7,27,32,56,98,...]

규칙이 없습니다. 

 

2. Systematic sampling

일정한 규칙을 갖고 선택하는 방법입니다. [1,4,7,10,13,...]

3번씩 건너뛰며 샘플링하겠다, 5번씩 건너뛰며 샘플링하겠다, 이런방식입니다. 

 

3. Stratified sampling vs Cluster sampling

둘다 미리 그룹을 나눕니다.

Stratified sampling은 동질적인 것으로 묶고, 

Cluster sampling은 이질적인 것으로 묶습니다.

 

예를 들어 1반, 2반, 3반이 있다고 할때

Stratified는 1반, 2반, 3반으로 각 반으로 묶고

Cluster는 1반 몇명, 2반 몇명, 3반 몇명으로 묶는 것을 의미합니다.

 

Stratified의 1번 샘플에는 1반만, 2번 샘플에는 2반만, 3번 샘플에는 3반만 있을 것이고,

Cluster의 1번, 2번, 3번 샘플에는 1반,2반,3반이 골고루 섞여있을 것입니다.

 

 

 

 

 

Sampling Methods | Types and Techniques Explained

To draw valid conclusions, you must carefully choose a sampling method. Sampling allows you to make inferences about a larger population.

www.scribbr.com

 

 

 

반응형

댓글