욕심쟁이의 취미/Data

Introduction to probability and data (5) - Visualizing numerical data

늘늘:) 2018. 5. 24. 09:51

Scatter Plot

Numerical 변수 사이의 관계를 시각화하는 기본적인 tool
두 변수 중 어떤 변수가 설명변수인지를 식별할 수 있게 됨(반대로 얘기하면 응답변수도 확인할 수 있을 듯)
일반적으로 X축에 설명변수, Y축에 응답변수를 배치
두 변수간의 관계를 확인하기 위해서는 Plot들을 지나는 직선이나, 곡선을 그려서 알 수 있음

Evaluating the relationship


Histogram

히스토그램을 데이터를 특정 간격(bins)으로 나눠서 해당 간격에 속하는 데이터의 카운트를 표시

데이터의 밀도(density)를 확인 가능

데이터 분포의 모양(어디로 치우쳤는지?)을 확인하는데 유용

skewness

modality

두드러진 peak가 1개면 unimodal, 2개면 bimodal, 3개 이상이면 multimodal, 두드러진 peak가 없으면 uniform


일반적으로 가장 많이 보게 되는 분포는 unimodal 인 정규분포(normal distribution)

bimodal의 경우는 data가 두개의 그룹으로 나뉘어져 있음을 의미


histogram에서는 bin의 간격이 중요한데, 너무 넓으면 세부 정보가 손실되고, 너무 좁으면 전체적인 분포를 확인하는 것이 어려워지기 때문

Dot Plot

개별데이터 값에 초점을 둘 경우 dot plot이 유용
하지만 샘플 사이즈가 너무 클 경우에는 좋지 않을 수 있음

Box Plot

박스 플랏은 아웃라이어를 표기하는데 매우 유용함
박스 가운데 선은 Median을 나타내고 박스의 사이즈는 IQR(interquartile range, 25~75%)을 의미
Box plot의 모양에 따라 Skewed 를 파악할 수 있음

Intensity Map

히트맵과 유사한 것으로, 공간상에 데이터의 분포를 확인하는 것에 매우 유용함