산점도 분석 필요 라이브러리
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt # matplotlib
import seaborn as sns # seaborn
산점도를 표현하기 위한 라이브러리에는 2가지가 있다.
1. matplotlib.pyplot as plt
plt.scatter(x축, y축)
plt.scatter(x = '', y = '', data = )
2. seaborn as sns
sns.scatterplot(x = '', y = '', data = )
sns.pairplot(data)
각 컬럼들끼리 산점도를 만들어줌
위에서는 그래프로 나타냈다면 여기서는 숫자로 나타내봄
scatter는 x축과 y축이 얼마나 상관관계가 있는지 파악하는것임
만약에 scatter는 그렸는데도 뚜렷한 직선이 없어 시각화 하기 어려울 수도 있음
필요 라이브러리
import scipy.stats as spst
상관관계 분석
spst.pearsonr(air['Temp'], air['Ozone'])
>> PearsonRResult(statistic=0.6833717861490114, pvalue=2.197769800200274e-22)
처음나온 값인 statistic은 상관계수 값이며
두번째 값인 pvalue는 위에서 도출해낸 상관계수를 믿어도 되는지 없는지 확인
데이터프레임 한번에 상관계수 분석
spst.pearsonr을 이용해 두개의 컬럼에 대해 상관관계를 분석할 수 있는데 pairplot처럼 전체 컬럼에 대해 모든 상관계수를 분석해주는 함수도 있음
df.corr()
df.corr()값을 응용해서 heatmap으로 나타낼수도 있음!
'데이터 프레임 시각화' 카테고리의 다른 글
[데이터프레임 분석] 이변량 분석 (0) | 2023.02.10 |
---|---|
[데이터프레임 분석] 단변량 분석 (0) | 2023.02.10 |