본문 바로가기

Experience/SKADA

[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (2)

📌 Pandas

  • Python에서 데이터 분석을 위한 라이브러리
  • 사용이 쉬운 데이터 구조와 여러 도구를 갖추고 있으며, 다른 라이브러리와의 연동으로 유용성을 높인 분석 툴
  • DataFrame: 2차원 데이터 구조로써 관계형 데이터 베이스의 테이블 구조와 비슷, Series의 집합
    • Data: DataFrame에 저장할 데이터
    • Index: 행(row) 이름으로써 기본 값 0부터 1씩 증가하는 정수
    • columns: 열(column) 이름, 기본 값 0부터 1씩 증가하는 정수
    • Missing value: 결측값으로 NaN으로 표기
    • Axis: 행 방향(axis=0) 열 방향(axis=1)

 

📌 DataFrame 결측치 기준

  • 결측치 비율 10% 미만: 데이터 제거 or 다양한 imputation
  • 결측치 비율 10%~20%: 모델 기반 다중 대치, 단일 대치
  • 결측치 비율 20%~30%: 모델 기반 다중 대치
  • 결측치 비율 30% 이상: 피처 제거 (결측치 값이 30% 이상인 데이터들은 데이터의 완전성이 떨어지므로 삭제)

 

📌 DataFrame 결측치 처리

  • 보간법 interpolation
    • 선형 보간법: 특정 데이터를 지나는 선형함수를 사용하여 사이 값을 보간
    • 다항 보간법: 선형 보간법을 일반화한 것, 더 높은 차수의 다항식 함수를 사용하여 보간
      • ex) polynomial, spline …