📌 이상 징후 감지 (Anomaly Detection)
- 통신 데이터는 이상 발생 빈도가 매우 낮아 충분한 수의 데이터 확보가 어려움
- 이상 발생 후 사후 대처를 하는 것보다 사전 예측하여 발생 자체를 막는 것이 중요
- 이상치
- 주어진 데이터 정상 모집단 내의 관측치와 거리가 먼 관측점
- 손실(실측치와 예측치) 값이 임계치를 초과 시 “이상”이라고 간주
- 시계열 분석 기반 모델 사용하여 이상 징후 탐지
- 전통적 통계모델 → ARIMA, Prophet
- 기계학습/딥러닝 → LSTM, AutoEncoder
📁 ARIMA 모델을 활용한 이상 징후 감지
📌 ARIMA 모델
- 자기 회귀누적 이동평균 모형 Autoregressive Integrated Moving-average
- 과거의 관측값과 오차를 사용하여 현재의 시계열 값을 설명하는 모델
- ARIMA(p, d, q) 모형은 d차 차분한 데이터 위 AR(p) 모형과 MA(q) 모형을 합친 ARMA 모델을 일반화한 모델
- AR(Auto Regressive): 과거 데이터에 기반하여 미래를 예측하는 모형, 추세선을 통한 예측 과정은 선형 회귀 모델과 동일
- MA(Moving Average): 직전 데이터와 현재 데이터의 평균인 이동평균을 이용한 시계열 분석 방법, 전체 자료 가운데 다른 하위 데이터에 대한 이동평균을 따로 생성해 활용도 가능
- ACF와 PACF 방법을 통해 모델 파라미터 (p, d, q) 설정
- PACF(Partial AutoCorrelation Function): 시차에 따른 일련의 편자기상관, 시차가 다른 두 시계열 데이터 간의 상호 연관성 ACF와 PACF 방법을 통해 모델 파라미터 (p, d, q) 설정
Model | ACF | PACF |
AR(p) | 점차 감소하여 0에 접근 | 시차 p 이후에 0에 접근 |
MA(q) | 시차 q 이후에 0에 접근 | 점차 감소하여 0에 접근 |
ARMA(p, q) | 시차 q 이후에 0에 접근 | 시차 p 이후에 0에 접근 |
📌 장점
- 안정적 시계열과 비안정적 시계열의 적용 가능
- 통계 모델이므로 추론 과정이 투명하여 명확하게 이해 가능
- 작은 데이터셋에 적용하여도 좋은 결과를 얻을 수 있음
- 기계학습 모델과 다르게 과적합 위험성 없이 좋은 성능을 얻을 수 있음
📌 단점
- 비선형 관계가 많은 데이터를 설명하는 데 적합하지 않음
- 데이터셋이 커지더라도, 성능 향상을 보장하지 않음
- 대규모 데이터셋에는 기계학습 모델 및 딥러닝 방법보다 좋지 않음
📌 이상 징후 감지 유형
- Supervised Anomaly Detection: 학습 시, Labeling이 된 정상/비정상 데이터를 모두 사용한 경우
- 모델 성능 평가가 직관적
- Class Imbalanced Problem 해결이 필요
- Semi-Supervised Anomaly Detection: 학습 시, Labeling이 된 정상 데이터만을 사용한 경우
- 정상 데이터만 확보되는 상황에서 시도해 보기 좋음
- Unsupervised Anomaly Detection: 학습 시, 데이터가 대부분 정성으로 이루어져 있다고 가정
- 데이터에 확실한 Labeling이 없을 때 용이
- 모델 학습 후, 정상/비정상 데이터의 구분에 대한 임계치 설정이 필요할 수 있음
'Experience > SKADA' 카테고리의 다른 글
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (6) (0) | 2024.07.15 |
---|---|
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (5) (2) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (4) (2) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (2) (0) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (1) (0) | 2024.07.15 |