Robust statistics
|
Robust |
Non - robust |
center |
Median |
Mean |
spread |
IQR |
Standard deviation, Range |
robust statistics는 skewed, with extreme observations 를 설명하는데 유용,
Non - Robust 는 symmetric observation을 설명하는데 유용
|
Robust |
Non - robust |
center |
Median |
Mean |
spread |
IQR |
Standard deviation, Range |
robust statistics는 skewed, with extreme observations 를 설명하는데 유용,
Non - Robust 는 symmetric observation을 설명하는데 유용
Mean |
Median |
Mode |
Arithmetic average(산술평균) |
Midpoint of distribution(50th percentile) 관찰이 짝수개일 경우 midpoint가 없으므로 가운데 두 값의 산술평균이 median |
Most frequent observation (연속분포에서 동일한 값이 여러번 관찰되는 것은 드문일이기 때문에 유용한 measurement는 아님) |
Sample로 부터 이러한 measurements가 계산되어 진 것을 sample statistics 라고 말하고,
이는 Unknown population(모집단)의 point estimation이다.
Sample statistics --------------------- point estimation ---------------------> population parameter |
sample statistics는 일반적으로 라틴 알파벳 문자를 사용,
population parameter는 그리스어 알파벳 문자로 표기
관찰의 분포가 Left skewed인 경우 평균값이 중앙값보다 왼편으로 끌려가고,(mean < median)
Right skewed의 경우 반대로 오른편으로 끌려가게 됨(mean > median)
Measures of spread는 data의 variability에 대해서 알려줌
관찰이 중심에 많이 모여있으면 variability가 떨어짐
Range |
Variance |
Standard deviation |
Inter-quartile range |
Max - Min 양 극단의 값으로만 구해지기 때문에 대표값으로 사용하기 어려움 (비정상적인 관찰이나, Outlier) |
편차(observation - mena)의 제곱의 평균, 평균을 구할 때 관찰수 N으로 나누지 않고 N-1로 나눔 제곱을 하는 이유는 음의 편차와 양의 편차를 더해서 상쇄되는 것을 막기 위함과 편차를 더 크게 키우기 위해서임( 무슨말? ) 제곱했기 때문에 단위도 제곱이 되는 단점이 있음 |
Variance의 제곱근 |
중간 50% 데이터의 범위 first quartile(25 percentile) 과 third quartile( 75 percentile )의 거리 box plot에서 활용 IQR의 비교는 분포를 비교하는데 주로 활용 |
히스토그램을 데이터를 특정 간격(bins)으로 나눠서 해당 간격에 속하는 데이터의 카운트를 표시
데이터의 밀도(density)를 확인 가능
데이터 분포의 모양(어디로 치우쳤는지?)을 확인하는데 유용
일반적으로 가장 많이 보게 되는 분포는 unimodal 인 정규분포(normal distribution)
bimodal의 경우는 data가 두개의 그룹으로 나뉘어져 있음을 의미
histogram에서는 bin의 간격이 중요한데, 너무 넓으면 세부 정보가 손실되고, 너무 좁으면 전체적인 분포를 확인하는 것이 어려워지기 때문
히트맵과 유사한 것으로, 공간상에 데이터의 분포를 확인하는 것에 매우 유용함
1) Control |
2) Randomize |
Compare treatment of interest to a control group 확인하려는 부분을 대조군과 비교해야 함 |
Randomly assign subjects to treatments 무작위로 subjects를 할당 |
3) Replicate |
4) Block |
Collect a sufficiently large sample, or replicate the entire study 샘플을 충분히 크게 수집하거나, 전체 케이스를 모두 복제 |
block for variables known or suspected to affect the outcome 결과를 영향을 주거나 영향을 받는 변수를 별도로 block 한 후 각각에서 randomized |
blinding은 피험자들이 자신이 어떤 그룹에 속해있는지 알지 못하게 하는 것이고, double-blind는 피험자와 실험자 모두 알지 못하게 하는 것
* random sampling : generalization에 활용, 그룹에서 램덤으로 표본을 뽑음
* random assignment : cuasal solution ckwsmsep, treatment gruop과 control 그룹에 특정이 골고루 들어가도록 assign
* 통상 모집단에서 random sampling -> random assignment 순서로 진행
전체를 모두 표본에 포함시키지 않고 sample을 뽑아서 조사하는 것이 좋다.
특정 개인은 조사가 굉장히 어려운 위치에 있거나 조사를 기피할 수 있는데 이들의 특성이 다른 사람과 달라서 제외가 되면 데이터가 불안해질 수 있고,
또한 인구는 계속 변화하기 때문에 완벽히 전체를 조사한다는 것이 불가능
1. Convenience sample : individuals who are easily accessible are more likely to be included in the sample
(쉽게 접근 가능한 개개인이 sample에 더 포함될 수 있음) -- > Convenience bias
2. Non-response : if only a (non-random) fraction of the randomly sampled people respond to a survey such that
the sample is no longer representative of the population
(random sample의 일부만 대답을 할 경우 그것이 전체 인구를 대표한다고 말할 수 없음)
3. Voluntary response : Occurs when the sample consists of people who volunteer to respond because they have strong opinions on the issue
( 해당 연구에 의견이 많은 사람이 sampling에 지원할 경우 의견이 편향될 수 있음)
Simple random sample (SRS) | Cluster sample |
모집단에서 무작위로 샘플 추출 | 모집단을 몇개의 클러스터로 분류한 뒤 클러스터를 무작위로 샘플링하여 해당 클러스터 내의 모든 표본을 샘플링 |
Stratified sample | Multistage sample |
모집단을 동종 그룹으로 나눠서 각 그룹에서 일정량 무작위로 샘플링 | 먼저 클러스터 분류 및 샘플링 후 해당 클러스터 들에서 샘플링 진행 |
Observational studies |
|
Experiment studies |
|
끝으로 Correlation does not imply causation을 명심 또 명심!
Observational study로 correlation을 확인, Experiment study로 causation 확인
Introduction to probability and data (5) - Visualizing numerical data (0) | 2018.05.24 |
---|---|
Introduction to probability and data (4) - experimental design (0) | 2018.05.16 |
Introduction to probability and data (3) - Sampling and sources of bias (0) | 2018.05.16 |
Introduction to probability and data (1) - Data basics (0) | 2018.05.15 |
Coursera 강의를 수강하다( Introduction to Probability and Data ) (0) | 2018.05.15 |
Numerical(양적) variable |
숫자로 표현되고 산술연산이 가능한 변수 |
Categorical(질적) variable |
기본적으로 범주형 변수로 숫자로도 표현 가능하나(ex : 남자 0, 여자 1) 산술연산에 적합하지 않음 |
두 변수가 어떤 연결이 있으면 하나의 변수가 다른 변수에 associated(종속 dependent)라고 말하고
그 정도에 따라 Positive와 Negative로 나누어짐
Associated가 아니면 independent(독립)이라고 부른다.
회사에서 좋은 기회로 Coursera 수강기회(Certification)를 얻어서
평소 커리어를 쌓고 싶었던 Data 관련 내용을 듣기로 결정하였다.
무슨일이든 꾸준하게 해본적이 없고 금새 흥미를 가졌다가 식어버리는 타입이라
작년에는 끝까지 수강하지 못해 Certification을 취득하지 못했는데,
이번에는 나의 커리어를 위해 Certification도 취득하고 데이터와 통계에 대한 지식을 쌓겠다고 마음먹었다.
(제발 작심삼일이 아니길... ㅠ)
아무래도 블로그에 강의 내용들 중 정리가 필요한 부분들을 기록하면 기억에도 잘 남고,
나의 결심을 계속 유지할 수 있을 것이라는 생각에 시간이 들더라도 포스팅으로 남길 예정이다.
그럼 힘내보자!!!