본문 바로가기

Dev/Python

[Python/Pandas] 데이터프레임 결측치, 중복, 피벗테이블

📁 결측치

  • isna( ), isnull( )
    • 각 셀마다 결측치 여부 확인
    • True/False 반환
  • isna( ).sum( )
    • 각 열별로 결측치의 개수를 확인하여 어떤 열에서 결측치가 많은지 보여줌
  • isna( ).any(axis=1)
    • any( ): 불리언 시리즈/데이터프레임에서 하나 이상의 True 값을 가지고 있는지 확인
    • 결측치를 가지고 있는 행만 추출
  • dropna( ): 결측치가 있는 행 제거
  • fillna( ): 결측치에 다른 값을 채워넣음
  • interpolate( )
    • 결측치 보간: 결측치가 있는 데이터를 주변 데이터를 활용해 추정하여 채우는 작업
    • method: linear, time, index, pad/ffill, backfill/bfill, nearest

 

📁 중복 제거

drop_duplicates( ): 중복된 행을 제거한 새로운 데이터프레임 생성

 

📁 피벗 테이블

데이터를 요약하고 분석할 수 있는 도구

  • pivot_table( )
    • 데이터프레임을 특정 열을 기준으로 행/열로 재구조화하여 요약된 데이터 생성
    • index, columns, values, aggfunc 등의 매개변수 활용