본문 바로가기

Experience/SKADA

[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (3)

📌 이상 징후 감지 (Anomaly Detection)

  • 통신 데이터는 이상 발생 빈도가 매우 낮아 충분한 수의 데이터 확보가 어려움
  • 이상 발생 후 사후 대처를 하는 것보다 사전 예측하여 발생 자체를 막는 것이 중요
  • 이상치
    • 주어진 데이터 정상 모집단 내의 관측치와 거리가 먼 관측점
    • 손실(실측치와 예측치) 값이 임계치를 초과 시 “이상”이라고 간주
    • 시계열 분석 기반 모델 사용하여 이상 징후 탐지
      • 전통적 통계모델 → ARIMA, Prophet
      • 기계학습/딥러닝 → LSTM, AutoEncoder

 

 

📁 ARIMA 모델을 활용한 이상 징후 감지

 

📌  ARIMA 모델

  • 자기 회귀누적 이동평균 모형 Autoregressive Integrated Moving-average
  • 과거의 관측값과 오차를 사용하여 현재의 시계열 값을 설명하는 모델
  • ARIMA(p, d, q) 모형은 d차 차분한 데이터 위 AR(p) 모형과 MA(q) 모형을 합친 ARMA 모델을 일반화한 모델
    • AR(Auto Regressive): 과거 데이터에 기반하여 미래를 예측하는 모형, 추세선을 통한 예측 과정은 선형 회귀 모델과 동일
    • MA(Moving Average): 직전 데이터와 현재 데이터의 평균인 이동평균을 이용한 시계열 분석 방법, 전체 자료 가운데 다른 하위 데이터에 대한 이동평균을 따로 생성해 활용도 가능
  • ACF와 PACF 방법을 통해 모델 파라미터 (p, d, q) 설정
    • PACF(Partial AutoCorrelation Function): 시차에 따른 일련의 편자기상관, 시차가 다른 두 시계열 데이터 간의 상호 연관성 ACF와 PACF 방법을 통해 모델 파라미터 (p, d, q) 설정
Model  ACF PACF
AR(p) 점차 감소하여 0에 접근 시차 p 이후에 0에 접근
MA(q) 시차 q 이후에 0에 접근 점차 감소하여 0에 접근
ARMA(p, q) 시차 q 이후에 0에 접근 시차 p 이후에 0에 접근

 

📌  장점

  • 안정적 시계열과 비안정적 시계열의 적용 가능
  • 통계 모델이므로 추론 과정이 투명하여 명확하게 이해 가능
  • 작은 데이터셋에 적용하여도 좋은 결과를 얻을 수 있음
  • 기계학습 모델과 다르게 과적합 위험성 없이 좋은 성능을 얻을 수 있음

 

📌  단점

  • 비선형 관계가 많은 데이터를 설명하는 데 적합하지 않음
  • 데이터셋이 커지더라도, 성능 향상을 보장하지 않음
  • 대규모 데이터셋에는 기계학습 모델 및 딥러닝 방법보다 좋지 않음


📌  이상 징후 감지 유형

  • Supervised Anomaly Detection: 학습 시, Labeling이 된 정상/비정상 데이터를 모두 사용한 경우
    • 모델 성능 평가가 직관적
    • Class Imbalanced Problem 해결이 필요
  • Semi-Supervised Anomaly Detection: 학습 시, Labeling이 된 정상 데이터만을 사용한 경우
    • 정상 데이터만 확보되는 상황에서 시도해 보기 좋음
  • Unsupervised Anomaly Detection: 학습 시, 데이터가 대부분 정성으로 이루어져 있다고 가정
    • 데이터에 확실한 Labeling이 없을 때 용이
    • 모델 학습 후, 정상/비정상 데이터의 구분에 대한 임계치 설정이 필요할 수 있음