📌 Pandas
- Python에서 데이터 분석을 위한 라이브러리
- 사용이 쉬운 데이터 구조와 여러 도구를 갖추고 있으며, 다른 라이브러리와의 연동으로 유용성을 높인 분석 툴
- DataFrame: 2차원 데이터 구조로써 관계형 데이터 베이스의 테이블 구조와 비슷, Series의 집합
- Data: DataFrame에 저장할 데이터
- Index: 행(row) 이름으로써 기본 값 0부터 1씩 증가하는 정수
- columns: 열(column) 이름, 기본 값 0부터 1씩 증가하는 정수
- Missing value: 결측값으로 NaN으로 표기
- Axis: 행 방향(axis=0) 열 방향(axis=1)
📌 DataFrame 결측치 기준
- 결측치 비율 10% 미만: 데이터 제거 or 다양한 imputation
- 결측치 비율 10%~20%: 모델 기반 다중 대치, 단일 대치
- 결측치 비율 20%~30%: 모델 기반 다중 대치
- 결측치 비율 30% 이상: 피처 제거 (결측치 값이 30% 이상인 데이터들은 데이터의 완전성이 떨어지므로 삭제)
📌 DataFrame 결측치 처리
- 보간법 interpolation
- 선형 보간법: 특정 데이터를 지나는 선형함수를 사용하여 사이 값을 보간
- 다항 보간법: 선형 보간법을 일반화한 것, 더 높은 차수의 다항식 함수를 사용하여 보간
- ex) polynomial, spline …
'Experience > SKADA' 카테고리의 다른 글
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (6) (0) | 2024.07.15 |
---|---|
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (5) (2) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (4) (2) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (3) (0) | 2024.07.15 |
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (1) (0) | 2024.07.15 |