시계열 데이터란, 행과 행에 시간의 순서(흐름)이 있고, 행과 행의 시간간격이 동일한 데이터
1. 날짜 요소 뽑기
날짜 타입의 변수로 부터 날짜의 요소를 뽑아낼 수 있음
df["date"].dt.date

2. 시간 흐름 전후로 정보 이동 - shift()
temp['salesY_lag1'] = temp["salesY"].shift() defualt = 1
temp['salesY_lag2'] = temp["salesY"].shift(2)
temp['salesY_lag_1'] = temp["salesY"].shift(-1)

3. 시간 흐름 전후로 평균 구하기 - rolling().mean()
temp["salesY_MA3"] = temp["salesY"].rolling(3).mean()
temp["salesY_MM3"] = temp["salesY"].rolling(3).max()
temp["salesY_MA3_2"] = temp["salesY"].rolling(3, min_periods = 1).mean()

- rolling()에 min_peridos를 지정해주면 값이 없을 경우 채워줄수 있음
4. 특정 시점 데이터, 이전시점 데이터와의 차이 구하기 - diff()
temp["salesY_diff1"] = temp["salesY"].diff()
temp["salesY_diff2"] = temp["salesY"].diff(2)

'빅데이터 > 데이터 처리' 카테고리의 다른 글
[빅데이터] 데이터 프레임 구조 변경 (0) | 2023.09.11 |
---|---|
[빅데이터]데이터 프레임 결합 (0) | 2023.09.11 |