욕심쟁이의 취미/Data

Introduction to probability and data (6) - Measures of center & spread

늘늘:) 2018. 6. 7. 08:25

Measures of center

Mean 

Median 

Mode 

 Arithmetic average(산술평균) 

Midpoint of distribution(50th percentile) 

관찰이 짝수개일 경우 midpoint가 없으므로

가운데 두 값의 산술평균이 median

Most frequent observation

(연속분포에서 동일한 값이 여러번 관찰되는 것은 드문일이기 때문에 유용한 measurement는 아님) 


Sample로 부터 이러한 measurements가 계산되어 진 것을 sample statistics 라고 말하고,

이는 Unknown population(모집단)의 point estimation이다.

Sample statistics --------------------- point estimation ---------------------> population parameter 

sample statistics는 일반적으로 라틴 알파벳 문자를 사용,

population parameter는 그리스어 알파벳 문자로  표기


관찰의 분포가 Left skewed인 경우 평균값이 중앙값보다 왼편으로 끌려가고,(mean < median)

Right skewed의 경우 반대로 오른편으로 끌려가게 됨(mean > median)


Measures of spread

Measures of spread는 data의 variability에 대해서 알려줌

관찰이 중심에 많이 모여있으면 variability가 떨어짐


Range 

Variance 

Standard deviation 

Inter-quartile range 

Max - Min

양 극단의 값으로만 구해지기 때문에 대표값으로 사용하기 어려움 (비정상적인 관찰이나, Outlier)

편차(observation - mena)의 제곱의 평균, 

평균을 구할 때 관찰수 N으로 나누지 않고 N-1로 나눔

제곱을 하는 이유는 음의 편차와 양의 편차를 더해서 상쇄되는 것을 막기 위함과 편차를 더 크게 키우기 위해서임( 무슨말? )

제곱했기 때문에 단위도 제곱이 되는 단점이 있음


Variance의 제곱근 

중간 50% 데이터의 범위

first quartile(25 percentile) 과 third quartile( 75 percentile )의 거리

box plot에서 활용

IQR의 비교는 분포를 비교하는데 주로 활용