본문 바로가기
데이터 프레임 시각화

산점도 분석

by Jasonify97 2023. 2. 9.

산점도 분석 필요 라이브러리

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt # matplotlib

import seaborn as sns # seaborn

산점도를 표현하기 위한 라이브러리에는 2가지가 있다.

1. matplotlib.pyplot as plt

plt.scatter(x축, y축)

plt.scatter(x = '', y = '', data = )

2. seaborn as sns

sns.scatterplot(x = '', y = '', data = )
sns.pairplot(data)

각 컬럼들끼리 산점도를 만들어줌


위에서는 그래프로 나타냈다면 여기서는 숫자로 나타내봄

scatter는 x축과 y축이 얼마나 상관관계가 있는지 파악하는것임
만약에 scatter는 그렸는데도 뚜렷한 직선이 없어 시각화 하기 어려울 수도 있음

상관계수 r을 구하는 공식

필요 라이브러리
import scipy.stats as spst

상관관계 분석
spst.pearsonr(air['Temp'], air['Ozone'])

>> PearsonRResult(statistic=0.6833717861490114, pvalue=2.197769800200274e-22)

처음나온 값인 statistic은 상관계수 값이며 
두번째 값인  pvalue는  위에서 도출해낸 상관계수를 믿어도 되는지 없는지 확인

상관계수의 대략적인 기준


데이터프레임 한번에 상관계수 분석

spst.pearsonr을 이용해 두개의 컬럼에 대해 상관관계를 분석할 수 있는데 pairplot처럼 전체 컬럼에 대해 모든 상관계수를 분석해주는 함수도 있음

df.corr()

df.corr()값을 응용해서 heatmap으로 나타낼수도 있음!