본문 바로가기

Experience/SKADA

[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (1)

📌 시계열(time series) 데이터

  • 시간에 걸쳐 순차적으로 기록되고 배열된 데이터의 한 종류
  • 시간의 흐름에 따라 불규칙적으로 변동되는 자료들을 분석하기 위해 필수적
  • ‘과거’가 ‘미래’에 어떤 영향을 주는지 분석을 통해 예측 가능
  • 최근 새롭게 등장한 기계학습과 딥러닝을 사용하여 복잡한 데이터를 예측
  • 시계열 분해법을 통해 체계적 성분과 불규칙적 성분으로 분리
  • 대표적 시계열 데이터: 주식 수익률 데이터, 재무 데이터, 정당 지지율 등

 

📌 시계열 구성요소(Components)

  • 추세 trend: 장기간 데이터의 일반적인 경향
    • 시간의 흐름에 따른 시계열 자료들의 상승경향이나 하강경향의 상태를 의미
  • 계절성 seasonal variations: 1년 미만의 기간에 걸쳐 나타나는 변동
  • 순환 cyclic variations: 1년 이상 지속되는 시계열의 변동
  • 불규칙 변동 irregular movements: 사전적으로 예상할 수 없는 특수한 사건에 의해 야기되는 변동

 

📌 시계열 모형

  • 성분들의 결합 방식에 따라 분류
  • 가법 모형 addictive model
    • 구성 요소 간 독립적임을 가정하여 각 구성 요소를 더하는 모형
    • 주로 계절 성분의 진폭이 시계열의 수준과 관계없이 일정한 수준일 때 사용
  • 승법 모형 multiplicative model
    • 구성 요소들이 독립적이지 않고 상호작용 한다고 가정하여 구성 요소 간 곱해주는 모형
    • 시계열의 수준에 따라 진폭이 달라질 때 사용

 

📌 시계열 데이터 변환

  • 정상과정 stationary process: 어떤 시계열 자료의 변화 패턴이 평균값을 중심으로 일정한 변동폭을 갖는 시계열
  • 비정상과정 non-stationary process: 정상성을 갖지 않는 대부분의 시계열
  • 통계적 시계열 분석을 하기 위해서는 정상성이 필수적
    • 시계열의 평균과 분산이 일정해야 시계열 값 예측 가능
    • 정상성을 띄지 않으면 전통적 시계열 분석 방법 적용 어려움
  • 정상성을 만족하지 못한 시계열 데이터: 비정상과정을 정상과정으로 변환
    • 변동폭이 일정하지 않은 경우 → 로그 logarithm 변환
    • 추세, 계절성이 존재하는 경우 → 차분 differencing (단, 1차 차분으로 정상성을 띄지 않으면 차분을 반복)

 

📌 시계열 데이터 정상성 검증

  • 실제로 변환된 시계열이 정상성을 만족하는지 검증하는 과정 필요
  • 자기 상관 함수(ACF: Auto Correlation Function)
    • 시차에 따른 일련의 자기상관을 의미, 시차가 커질수록 ACF 값은 0에 가까워짐
    • 만약 정상 시계열이라면 ACF는 0에 수렴, 비정상 시계열이라면 천천히 감소하거나 큰 양의 값을 가짐
  • 가설 검정으로 정상성 파악: p-value가 0.05보다 작으면 정상성 만족
    • KPSS (Kwiatkowski-Phillips-Schmidt-shin) test
    • ADF (Augmented Dickey-Fuller) test
      • 귀무가설(H0): 자료의 단위근에 존재하여 정상성을 만족하지 않음
      • 대립가설(H1): 자료가 정상성을 만족