Robust statistics

극단적인 관찰에 거의 영향을 받지 않는 measure

 

 Robust

Non - robust 

center 

 Median

Mean 

 spread

IQR 

Standard deviation, Range 


robust statistics는 skewed, with extreme observations 를 설명하는데 유용,

Non - Robust 는 symmetric observation을 설명하는데 유용

Transforming Data

transformation은 함수를 이용해서 data를 rescaling하는 것(특히 skewed 일때 사용하면 symmetric하게 변환됨)
가장 많이 쓰이는 것은 log transformation로 관찰값이 0 주변에 많이 모여있고, 모든 관찰이 양수일 때 사용
또는 두 변수의 관계를 좀 더 선형으로 변환해 줌

square root나 inverse transformation 도 가능(추후 더 자세히 다룰 예정)

goals of transformation
to see the data structure differently
to reduce skew assist in modeling
to straighten a nonlinear relationship in a scatterplot


Measures of center

Mean 

Median 

Mode 

 Arithmetic average(산술평균) 

Midpoint of distribution(50th percentile) 

관찰이 짝수개일 경우 midpoint가 없으므로

가운데 두 값의 산술평균이 median

Most frequent observation

(연속분포에서 동일한 값이 여러번 관찰되는 것은 드문일이기 때문에 유용한 measurement는 아님) 


Sample로 부터 이러한 measurements가 계산되어 진 것을 sample statistics 라고 말하고,

이는 Unknown population(모집단)의 point estimation이다.

Sample statistics --------------------- point estimation ---------------------> population parameter 

sample statistics는 일반적으로 라틴 알파벳 문자를 사용,

population parameter는 그리스어 알파벳 문자로  표기


관찰의 분포가 Left skewed인 경우 평균값이 중앙값보다 왼편으로 끌려가고,(mean < median)

Right skewed의 경우 반대로 오른편으로 끌려가게 됨(mean > median)


Measures of spread

Measures of spread는 data의 variability에 대해서 알려줌

관찰이 중심에 많이 모여있으면 variability가 떨어짐


Range 

Variance 

Standard deviation 

Inter-quartile range 

Max - Min

양 극단의 값으로만 구해지기 때문에 대표값으로 사용하기 어려움 (비정상적인 관찰이나, Outlier)

편차(observation - mena)의 제곱의 평균, 

평균을 구할 때 관찰수 N으로 나누지 않고 N-1로 나눔

제곱을 하는 이유는 음의 편차와 양의 편차를 더해서 상쇄되는 것을 막기 위함과 편차를 더 크게 키우기 위해서임( 무슨말? )

제곱했기 때문에 단위도 제곱이 되는 단점이 있음


Variance의 제곱근 

중간 50% 데이터의 범위

first quartile(25 percentile) 과 third quartile( 75 percentile )의 거리

box plot에서 활용

IQR의 비교는 분포를 비교하는데 주로 활용



Scatter Plot

Numerical 변수 사이의 관계를 시각화하는 기본적인 tool
두 변수 중 어떤 변수가 설명변수인지를 식별할 수 있게 됨(반대로 얘기하면 응답변수도 확인할 수 있을 듯)
일반적으로 X축에 설명변수, Y축에 응답변수를 배치
두 변수간의 관계를 확인하기 위해서는 Plot들을 지나는 직선이나, 곡선을 그려서 알 수 있음

Evaluating the relationship


Histogram

히스토그램을 데이터를 특정 간격(bins)으로 나눠서 해당 간격에 속하는 데이터의 카운트를 표시

데이터의 밀도(density)를 확인 가능

데이터 분포의 모양(어디로 치우쳤는지?)을 확인하는데 유용

skewness

modality

두드러진 peak가 1개면 unimodal, 2개면 bimodal, 3개 이상이면 multimodal, 두드러진 peak가 없으면 uniform


일반적으로 가장 많이 보게 되는 분포는 unimodal 인 정규분포(normal distribution)

bimodal의 경우는 data가 두개의 그룹으로 나뉘어져 있음을 의미


histogram에서는 bin의 간격이 중요한데, 너무 넓으면 세부 정보가 손실되고, 너무 좁으면 전체적인 분포를 확인하는 것이 어려워지기 때문

Dot Plot

개별데이터 값에 초점을 둘 경우 dot plot이 유용
하지만 샘플 사이즈가 너무 클 경우에는 좋지 않을 수 있음

Box Plot

박스 플랏은 아웃라이어를 표기하는데 매우 유용함
박스 가운데 선은 Median을 나타내고 박스의 사이즈는 IQR(interquartile range, 25~75%)을 의미
Box plot의 모양에 따라 Skewed 를 파악할 수 있음

Intensity Map

히트맵과 유사한 것으로, 공간상에 데이터의 분포를 확인하는 것에 매우 유용함




Principles of experimental design

1) Control 

2) Randomize 

Compare treatment of interest to a control group

확인하려는 부분을 대조군과 비교해야 함 

Randomly assign subjects to treatments

무작위로 subjects를 할당

3) Replicate

4) Block 

Collect a sufficiently large sample, or replicate the entire study

샘플을 충분히 크게 수집하거나, 전체 케이스를 모두 복제

block for variables known or suspected to affect the outcome

결과를 영향을 주거나 영향을 받는 변수를 별도로 block 한 후 각각에서 randomized


blinding은 피험자들이 자신이 어떤 그룹에 속해있는지 알지 못하게 하는 것이고, double-blind는 피험자와 실험자 모두 알지 못하게 하는 것


* random sampling : generalization에 활용, 그룹에서 램덤으로 표본을 뽑음

* random assignment : cuasal solution  ckwsmsep, treatment gruop과 control 그룹에 특정이 골고루 들어가도록 assign

* 통상 모집단에서 random sampling -> random assignment 순서로 진행



Census(인구조사)

전체를 모두 표본에 포함시키지 않고 sample을 뽑아서 조사하는 것이 좋다.


 특정 개인은 조사가 굉장히 어려운 위치에 있거나 조사를 기피할 수 있는데 이들의 특성이 다른 사람과 달라서 제외가 되면 데이터가 불안해질 수 있고,

또한 인구는 계속 변화하기 때문에 완벽히 전체를 조사한다는 것이 불가능


A few sources of sampling bias

1. Convenience sample : individuals who are easily accessible are more likely to be included in the sample

(쉽게 접근 가능한 개개인이 sample에 더 포함될 수 있음) -- > Convenience bias

2.  Non-response : if only a (non-random) fraction of the randomly sampled people respond to a survey such that

the sample is no longer representative of the population

(random sample의 일부만 대답을 할 경우 그것이 전체 인구를 대표한다고 말할 수 없음) 

3. Voluntary response : Occurs when the sample consists of people who volunteer to respond because they have strong opinions on the issue

( 해당 연구에 의견이 많은 사람이 sampling에 지원할 경우 의견이 편향될 수 있음)


Sampling methods

Simple random sample (SRS) 

 Cluster sample

모집단에서 무작위로 샘플 추출

 모집단을 몇개의 클러스터로 분류한 뒤 클러스터를 무작위로 샘플링하여 해당 클러스터 내의 모든 표본을 샘플링

 Stratified sample

 Multistage sample

 모집단을 동종 그룹으로 나눠서 각 그룹에서 일정량 무작위로 샘플링

 먼저 클러스터 분류 및 샘플링 후 해당 클러스터 들에서 샘플링 진행




Observational Studies & Experiment Studies

Observational studies 

  • 데이터 발생 방법에 별도의 직접적인 간섭없이 데이터를 수집
  • 설명 변수와 응답 변수의 association에 대해서만 확립할 수 있음
  • 과거 데이터를 활용해서 연구하는 후향적 연구(retrospective)와 study 전반에 결처 데이터가 수집되는 전향적(prospective)연구가 있음

Experiment studies

  • 연구자들이 무작위로 subjects에 할당하고 관리
  • 설명 변수와 응답 변수인과관계를 확립할 수 있음



Confounding variable

외부 변수로 설명 변수와 응답 변수 모두에 영향을 줘서 둘 사이에 어떤 관계가 있어 보이도록 만드는 오염변인


끝으로 Correlation does not imply causation을 명심 또 명심!


Observational study로 correlation을 확인, Experiment study로 causation 확인

Data matrix


Types of variables



Numerical(양적) variable

 숫자로 표현되고 산술연산이 가능한 변수

Categorical(질적) variable

 기본적으로 범주형 변수로 숫자로도 표현 가능하나(ex : 남자 0, 여자 1) 산술연산에 적합하지 않음 


Relationship between variables

두 변수가 어떤 연결이 있으면 하나의 변수가 다른 변수에 associated(종속 dependent)라고 말하고

그 정도에 따라 Positive와 Negative로 나누어짐

Associated가 아니면 independent(독립)이라고 부른다.



회사에서 좋은 기회로 Coursera 수강기회(Certification)를 얻어서 

평소 커리어를 쌓고 싶었던 Data 관련 내용을 듣기로 결정하였다.


무슨일이든 꾸준하게 해본적이 없고 금새 흥미를 가졌다가 식어버리는 타입이라

작년에는 끝까지 수강하지 못해 Certification을 취득하지 못했는데,

이번에는 나의 커리어를 위해 Certification도 취득하고 데이터와 통계에 대한 지식을 쌓겠다고 마음먹었다.

(제발 작심삼일이 아니길... ㅠ)


아무래도 블로그에 강의 내용들 중 정리가 필요한 부분들을 기록하면 기억에도 잘 남고,

나의 결심을 계속 유지할 수 있을 것이라는 생각에 시간이 들더라도 포스팅으로 남길 예정이다.


그럼 힘내보자!!!

+ Recent posts