욕심쟁이의 취미/Data

Introduction to probability and data (3) - Sampling and sources of bias

늘늘:) 2018. 5. 16. 14:40

Census(인구조사)

전체를 모두 표본에 포함시키지 않고 sample을 뽑아서 조사하는 것이 좋다.


 특정 개인은 조사가 굉장히 어려운 위치에 있거나 조사를 기피할 수 있는데 이들의 특성이 다른 사람과 달라서 제외가 되면 데이터가 불안해질 수 있고,

또한 인구는 계속 변화하기 때문에 완벽히 전체를 조사한다는 것이 불가능


A few sources of sampling bias

1. Convenience sample : individuals who are easily accessible are more likely to be included in the sample

(쉽게 접근 가능한 개개인이 sample에 더 포함될 수 있음) -- > Convenience bias

2.  Non-response : if only a (non-random) fraction of the randomly sampled people respond to a survey such that

the sample is no longer representative of the population

(random sample의 일부만 대답을 할 경우 그것이 전체 인구를 대표한다고 말할 수 없음) 

3. Voluntary response : Occurs when the sample consists of people who volunteer to respond because they have strong opinions on the issue

( 해당 연구에 의견이 많은 사람이 sampling에 지원할 경우 의견이 편향될 수 있음)


Sampling methods

Simple random sample (SRS) 

 Cluster sample

모집단에서 무작위로 샘플 추출

 모집단을 몇개의 클러스터로 분류한 뒤 클러스터를 무작위로 샘플링하여 해당 클러스터 내의 모든 표본을 샘플링

 Stratified sample

 Multistage sample

 모집단을 동종 그룹으로 나눠서 각 그룹에서 일정량 무작위로 샘플링

 먼저 클러스터 분류 및 샘플링 후 해당 클러스터 들에서 샘플링 진행