1. 숫자형 데이터 단변량 분석
숫자형 데이터를 정리하는 방법에는 2가지가 있음
- 기초통계량
- boxplot
- 도수분포표
- histogram
- density plot(kdeplot)
기초통계량 - box plot
데이터에 대해 min, max, mean 같은 수치들을 분석하는 방법임
import matplotlib.pyplot as plt
import seaborn as sns
# plt로 그리기
plt.boxplot(titanic['Survived'], vert = True)
# vert = vertical의 줄임말이며 수직의 라는 뜻임, default는 True
# sns로 그리기
sns.boxplot(titanic['Survived'], titanic['Age'])
# 만약 boxplot을 두개이상 그리고 싶울때 plt로 그리려면 하나하나 만들어줘야함 그래서 sns쓰자
4분위수에 대한 내용을 표시한게 boxplot이며 가운데인 Q2는 mean()이 아닌 median()이다.
그리고 오른쪽에Q3 + iQR*1.5라고 선이 하나그어져있는데 저 선은 max지점과 Q3 + iQR*1.5값을 비교해서 작은값으로 한다.
요약하면, 박스플롯의 최 외각 선2개는 min값과 max값사이에 있어야지, 넘길 수 없다는 듯이다.
도수분포표 - histogram
문법
plt.hist(titanic['Fare'], bins = 30, edgecolor = 'gray')
plt.show()
edgecolor는 이해가 가는데 bins가 무슨 줄임말인지 갑자기 궁금해져서 찾아봤는데사전에 등록된거라곤
이런거 밖에 없었음 구간, 영역을 의미하는 건 없어서 여기저기 찾아보던중미국 사전 싸이트를 찾아냄.
여기서 bins의 의미는 box, frame같은 무언가를 담을 수 있는 공간인듯..
그리고 histogram에서 범주를 하나로 설정하지는 않으니까 bin보단 bins가 옵션이 된듯하다.
도수분포표 - densityplot(kdeplot)
histogram은 bins의 영향에 따라 잘못해석될 수 있음.
따라서 밀도함수도 고려햐봐아함
문법
sns.kdeplot(titanic['Fare'])
matplotlib보다 sns가 더 간편함!
2. 범수형 데이터 단변량 분석
Bar plot
문법
sns.countplot(titanic['Pclass'])
plt.bar()
#plt.bar은 높이나 너비이런거 지정해줘야되서 잘 안씀
'데이터 프레임 시각화' 카테고리의 다른 글
[데이터프레임 분석] 이변량 분석 (0) | 2023.02.10 |
---|---|
산점도 분석 (0) | 2023.02.09 |