본문 바로가기
빅데이터/데이터 처리

[빅데이터] 시계열 데이터 처리

by Jasonify97 2023. 9. 11.

시계열 데이터란, 행과 행에 시간의 순서(흐름)이 있고, 행과 행의 시간간격이 동일한 데이터

1. 날짜 요소 뽑기

날짜 타입의 변수로 부터 날짜의 요소를 뽑아낼 수 있음

df["date"].dt.date

 

2. 시간 흐름 전후로 정보 이동 - shift()

temp['salesY_lag1'] = temp["salesY"].shift() defualt = 1
temp['salesY_lag2'] = temp["salesY"].shift(2)
temp['salesY_lag_1'] = temp["salesY"].shift(-1)

 

3. 시간 흐름 전후로 평균 구하기 - rolling().mean()

temp["salesY_MA3"] = temp["salesY"].rolling(3).mean()
temp["salesY_MM3"] = temp["salesY"].rolling(3).max()
temp["salesY_MA3_2"] = temp["salesY"].rolling(3, min_periods = 1).mean()

  • rolling()에 min_peridos를 지정해주면 값이 없을 경우 채워줄수 있음

4. 특정 시점 데이터, 이전시점 데이터와의 차이 구하기 - diff()

temp["salesY_diff1"] = temp["salesY"].diff()
temp["salesY_diff2"] = temp["salesY"].diff(2)