표본 추출 방법, 확률 표본 추출의 종류
- 인공지능 및 데이터과학/데이터분석 & 통계
- 2020. 1. 28.
확률 표본 추출(Probability Sampling)이란?
모집단을 구성하는 모든 추출 단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법이다. 확률적 표본추출을 사용하려면 표본을 추출하기 전에 표본추출단위가 표본으로 추출될 확률을 밝혀줄 수 있는 정보를 가지고 있어야 한다.
확률 표본 추출 방법에는 단순랜덤 추출, 계통추출, 층화추출, 집락추출이 있다.
단순랜덤 추출(Simple Random Sampling, SRS)
단순랜덤 추출은 단순확률 추출, 단순 무작위 추출 등으로도 불리며, 영어의 앞글자를 따서 SRS라고도 한다. 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다.
= n/N
이 방식은 대규모 조사에서는 거의 사용되지 않지만 모든 표본추출방법의 기초라고 할 수 있다. 방법이 한가지만 있을 것 같지만 2가지 방식이 있는데 복원표본 추출 방식과 비복원표본 추출 방식이 있다.
복원은 한번 뽑힌 요소를 다시 모집단으로 되돌려 보내서 원상으로 복원시키는 방식이고, 비복원은 한번 뽑힌 요소는 모집단으로 다시 돌리지 않는 방법이다.
계통추출법(Systematic Sampling)
모집단을 구성하고 있는 구성요소들이 자연적인 순서 또는 일정한 질서에 따라 배열된 목록에서 매 k번째의 구성요소를 추출하여 형성한 추출. 표집틀에서 처음 1~k번째 단위들 중 하나를 랜덤하게 선택한 후, 매 k번째에 해당하는 표본들을 추출
계통추출 과정
- 추출간격 k 선정, N/n 또는 정확도를 고려하여 선정한다
- 1~k에서 하나를 선택해서 시작점으로 지정한다
- 시작점에서 k를 반복적으로 더하여 표본 추출
집락추출(Cluster Sampling)
서로 인접한 조사 단위들을 묶어 군집(cluster)을 구분하고, 일부의 군집을 추출한 후 모든 자료를 활용하거나 샘플링을 하는 방법이다.
그림에서와 같이, 서로 다른 성질을 군집끼리 묶는다. 즉 군집안에 서로 다른 성질들이 섞여 있는 것으로 예로 들자면 서울을 구, 동 등으로 구분한 것을 군집 단위라 할 수 있다.
층화추출(Stratified Sampling)
층화추출은 모집단을 동질적인 다수의 층으로 나누고, 이러한 층으로 부터 단순무작위 표본추출을 하는 방법이다. 집락추출과 층화추출의 차이점은 동질된 집단이나 아니냐로 층화는 동질 집단이고, 집락은 이질적인 집단이다.
층화추출과 집락추출의 차이
전국의 고등학생들을 표본 추출하기 위한 방법으로 층화추출과 집락추출의 차이를 비교해보면 다음과 같다.
층화추출
전국의 고등학생들을 1학년, 2학년, 3학년으로 나누거나, 이과 혹은 문과, 예체능과로 층을 나눈 후, 각 고등학생 수 비율만큼 인원을 랜덤으로 추출한다.
집락추출
전국의 고등학교의 리스트 중, 임의의 고등학교를 선택 한 후 한 몇개의 학급을 통째로 뽑는다.
참고자료
온라인 행정학전자사전 - 확률적 표본추출(probability sampling method)
https://www.scribbr.com/methodology/sampling-methods/
'인공지능 및 데이터과학 > 데이터분석 & 통계' 카테고리의 다른 글
노벨상의 매칭 알고리즘, 게일-섀플리(Gale-Shapley) 알고리즘 (0) | 2020.02.07 |
---|---|
통계 측정방법, 척도의 종류 (0) | 2020.01.28 |
맨하탄 거리(Manhattan Distance) 개념과 구현해보기 (0) | 2020.01.10 |
유클리디안 거리(Euclidean Distance) 개념과 구현해보기 (0) | 2020.01.10 |
통계학의 기초적인 용어 (0) | 2017.09.16 |