본문 바로가기
데이터 프레임 시각화

[데이터프레임 분석] 단변량 분석

by Jasonify97 2023. 2. 10.

1. 숫자형 데이터 단변량 분석

숫자형 데이터를 정리하는 방법에는 2가지가 있음

  • 기초통계량
    • boxplot
  • 도수분포표
    • histogram
    • density plot(kdeplot)

기초통계량 - box plot

데이터에 대해 min, max, mean 같은 수치들을 분석하는 방법임


import matplotlib.pyplot as plt
import seaborn as sns

# plt로 그리기
plt.boxplot(titanic['Survived'], vert = True)
# vert = vertical의 줄임말이며 수직의 라는 뜻임, default는 True

# sns로 그리기
sns.boxplot(titanic['Survived'], titanic['Age'])

# 만약 boxplot을 두개이상 그리고 싶울때 plt로 그리려면 하나하나 만들어줘야함 그래서 sns쓰자


4분위수에 대한 내용을 표시한게 boxplot이며 가운데인 Q2는 mean()이 아닌 median()이다.
그리고 오른쪽에Q3 + iQR*1.5라고 선이 하나그어져있는데 저 선은 max지점과 Q3 + iQR*1.5값을 비교해서 작은값으로 한다.
요약하면, 박스플롯의 최 외각 선2개는 min값과 max값사이에 있어야지, 넘길 수 없다는 듯이다.

도수분포표 - histogram

문법

plt.hist(titanic['Fare'], bins = 30, edgecolor = 'gray')
plt.show()

edgecolor는 이해가 가는데 bins가 무슨 줄임말인지 갑자기 궁금해져서 찾아봤는데사전에 등록된거라곤

이런거 밖에 없었음 구간, 영역을 의미하는 건 없어서 여기저기 찾아보던중미국 사전 싸이트를 찾아냄.

여기서 bins의 의미는 box, frame같은 무언가를 담을 수 있는 공간인듯..
그리고 histogram에서 범주를 하나로 설정하지는 않으니까 bin보단 bins가 옵션이 된듯하다.

도수분포표 - densityplot(kdeplot)

histogram은 bins의 영향에 따라 잘못해석될 수 있음.
따라서 밀도함수도 고려햐봐아함


문법

sns.kdeplot(titanic['Fare'])

matplotlib보다 sns가 더 간편함!


2. 범수형 데이터 단변량 분석

Bar plot

문법

sns.countplot(titanic['Pclass'])

plt.bar()
#plt.bar은 높이나 너비이런거 지정해줘야되서 잘 안씀

 

'데이터 프레임 시각화' 카테고리의 다른 글

[데이터프레임 분석] 이변량 분석  (0) 2023.02.10
산점도 분석  (0) 2023.02.09