본문 바로가기

전체 글29

[데이터프레임 분석] 이변량 분석 이변량 분석은 원인과 결과가 있을때 원인의 개수가 2개가 존재한다는 의미임. 데이터를 분석할 때 데이터는 크게 숫자형과 범주형이 있기에 존재하는 경우의 수는 총 4가지이며, 아래 방법에 따라 사용되는 함수의 종류는 달라짐. 숫자 범주 그래프 통계량 그래프 통계량 숫자 scatter 상관분석 boxplot Histogram Densityplot 범주 평균비교 barplot T검정 분산분석 Barplot Mosaic 카이제곱검사 또한, 위에 표처럼 분석한 것을 나타낼 때는 시각적으로 보여주는 그래프와, 수치적으로 보여주는 통계량이 있음 1. 숫자 - 숫자 이변량 분석 그래프로 나타내기 - scatter 두 숫자형 변수의 관계를 점으로 나타내는 그래프를 산점도라고 함 산점도 그래프를 볼때 중요한 관점은 점들을.. 2023. 2. 10.
[데이터프레임 분석] 단변량 분석 1. 숫자형 데이터 단변량 분석 숫자형 데이터를 정리하는 방법에는 2가지가 있음 기초통계량 boxplot 도수분포표 histogram density plot(kdeplot) 기초통계량 - box plot 데이터에 대해 min, max, mean 같은 수치들을 분석하는 방법임 import matplotlib.pyplot as plt import seaborn as sns # plt로 그리기 plt.boxplot(titanic['Survived'], vert = True) # vert = vertical의 줄임말이며 수직의 라는 뜻임, default는 True # sns로 그리기 sns.boxplot(titanic['Survived'], titanic['Age']) # 만약 boxplot을 두개이상 그리고 .. 2023. 2. 10.
산점도 분석 산점도 분석 필요 라이브러리 import pandas as pd import numpy as np import matplotlib.pyplot as plt # matplotlib import seaborn as sns # seaborn 산점도를 표현하기 위한 라이브러리에는 2가지가 있다. 1. matplotlib.pyplot as plt plt.scatter(x축, y축) plt.scatter(x = '', y = '', data = ) 2. seaborn as sns sns.scatterplot(x = '', y = '', data = ) sns.pairplot(data) 각 컬럼들끼리 산점도를 만들어줌 위에서는 그래프로 나타냈다면 여기서는 숫자로 나타내봄 scatter는 x축과 y축이 얼마나 상관관계.. 2023. 2. 9.
나중에 공부해야 할것들 mae, mape git reflog 메소드 가우시안 랭크 스케일러 tpe sampling wandb 사이트 tabnet auto gluon 아마존에서 나온 오토 모델 https://auto.gluon.ai/stable/api/autogluon.tabular.models.html autogluon.tabular.models - AutoGluon 0.7.0 documentation Toggle Light / Dark / Auto color theme Toggle table of contents sidebar auto.gluon.ai rfe smote joblib gensim의 fasttext y data profiling 1. 데이터 값들이 한쪽으로 편향되있어서(hist) 로그 스케일링으로 정규 분포표로 .. 2023. 2. 8.