📌 시계열(time series) 데이터
- 시간에 걸쳐 순차적으로 기록되고 배열된 데이터의 한 종류
- 시간의 흐름에 따라 불규칙적으로 변동되는 자료들을 분석하기 위해 필수적
- ‘과거’가 ‘미래’에 어떤 영향을 주는지 분석을 통해 예측 가능
- 최근 새롭게 등장한 기계학습과 딥러닝을 사용하여 복잡한 데이터를 예측
- 시계열 분해법을 통해 체계적 성분과 불규칙적 성분으로 분리
- 대표적 시계열 데이터: 주식 수익률 데이터, 재무 데이터, 정당 지지율 등
📌 시계열 구성요소(Components)
- 추세 trend: 장기간 데이터의 일반적인 경향
- 시간의 흐름에 따른 시계열 자료들의 상승경향이나 하강경향의 상태를 의미
- 계절성 seasonal variations: 1년 미만의 기간에 걸쳐 나타나는 변동
- 순환 cyclic variations: 1년 이상 지속되는 시계열의 변동
- 불규칙 변동 irregular movements: 사전적으로 예상할 수 없는 특수한 사건에 의해 야기되는 변동
📌 시계열 모형
- 성분들의 결합 방식에 따라 분류
- 가법 모형 addictive model
- 구성 요소 간 독립적임을 가정하여 각 구성 요소를 더하는 모형
- 주로 계절 성분의 진폭이 시계열의 수준과 관계없이 일정한 수준일 때 사용
- 승법 모형 multiplicative model
- 구성 요소들이 독립적이지 않고 상호작용 한다고 가정하여 구성 요소 간 곱해주는 모형
- 시계열의 수준에 따라 진폭이 달라질 때 사용
📌 시계열 데이터 변환
- 정상과정 stationary process: 어떤 시계열 자료의 변화 패턴이 평균값을 중심으로 일정한 변동폭을 갖는 시계열
- 비정상과정 non-stationary process: 정상성을 갖지 않는 대부분의 시계열
- 통계적 시계열 분석을 하기 위해서는 정상성이 필수적
- 시계열의 평균과 분산이 일정해야 시계열 값 예측 가능
- 정상성을 띄지 않으면 전통적 시계열 분석 방법 적용 어려움
- 정상성을 만족하지 못한 시계열 데이터: 비정상과정을 정상과정으로 변환
- 변동폭이 일정하지 않은 경우 → 로그 logarithm 변환
- 추세, 계절성이 존재하는 경우 → 차분 differencing (단, 1차 차분으로 정상성을 띄지 않으면 차분을 반복)
📌 시계열 데이터 정상성 검증
- 실제로 변환된 시계열이 정상성을 만족하는지 검증하는 과정 필요
- 자기 상관 함수(ACF: Auto Correlation Function)
- 시차에 따른 일련의 자기상관을 의미, 시차가 커질수록 ACF 값은 0에 가까워짐
- 만약 정상 시계열이라면 ACF는 0에 수렴, 비정상 시계열이라면 천천히 감소하거나 큰 양의 값을 가짐
- 가설 검정으로 정상성 파악: p-value가 0.05보다 작으면 정상성 만족
- KPSS (Kwiatkowski-Phillips-Schmidt-shin) test
- ADF (Augmented Dickey-Fuller) test
- 귀무가설(H0): 자료의 단위근에 존재하여 정상성을 만족하지 않음
- 대립가설(H1): 자료가 정상성을 만족
'Experience > SKADA' 카테고리의 다른 글
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (6) (0) | 2024.07.15 |
---|---|
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (5) (2) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (4) (2) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (3) (0) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (2) (0) | 2024.07.15 |