본문 바로가기

빅데이터/데이터 처리3

[빅데이터] 시계열 데이터 처리 시계열 데이터란, 행과 행에 시간의 순서(흐름)이 있고, 행과 행의 시간간격이 동일한 데이터 1. 날짜 요소 뽑기 날짜 타입의 변수로 부터 날짜의 요소를 뽑아낼 수 있음 df["date"].dt.date 2. 시간 흐름 전후로 정보 이동 - shift() temp['salesY_lag1'] = temp["salesY"].shift() defualt = 1 temp['salesY_lag2'] = temp["salesY"].shift(2) temp['salesY_lag_1'] = temp["salesY"].shift(-1) 3. 시간 흐름 전후로 평균 구하기 - rolling().mean() temp["salesY_MA3"] = temp["salesY"].rolling(3).mean() temp["sales.. 2023. 9. 11.

[빅데이터] 데이터 프레임 구조 변경 데이터 프레임에서 일부 값들만 따로 보고 싶을때 사용 일반적으로 groupby()를 이용하여 집계 후 pivot(index, column, values)를 이용하여 집계된 데이터를 재구성할 수 있다. 2023. 9. 11.

[빅데이터]데이터 프레임 결합 데이터 프레임을 결합하는 2가지 방법 1. pd.concat() 기준 : 인덱스(행), column이름(열) 2. pd.merge() 기준 : 특정 column의 값을 기준으로 결합 1. pd.concat() pd.concat을 사용하려면 2가지를 선택해야함 1. 방향 선택 axis = 0 : 세로로 합치기(행) - 기본값 axis = 1 : 가로로 합치기(열) 2. 방법 선택 join = "outer" : 모든 행과 열 합치기 - 기본값 join = "inner" : 매핑되는 행과 열만 합치기 먼저 2개의 데이터 프레임 생성 df1 = pd.DataFrame({"a" : [10,25], "b" : [15,30]}) df2 = pd.DataFrame({"a" : [20,35], "c" : [35,40]}.. 2023. 9. 11.

이전 1 다음

티스토리툴바