본문 바로가기

Dev/Python

[Python/Pandas] Series

📁  Series

1차원 데이터 구조로 인덱스와 값으로 구성

다양한 데이터 유형 포함 가능

 

📁 속성

  • values
    • 시리즈의 값들을 넘파이 배열 형태로 반환
  • index
    • 각 데이터 항목에 대한 레이블
    • 레이블을 통해 데이터 식별, 접근 가능
  • name
    • 객체에 이름 부여, 조회에 사용
  • dtype
    • 시리즈 객체에 데이터 타입 부여, 조회
    • 데이터가 어떤 형태의 데이터로 구성되었는지 파악
    • 필요한 데이터 타입으로 변환
  • describe
    • 시리즈의 주요 통계량 요약 반환
    • 평균, 표준편차, 최소값, 25% 백분위수, 중간값(50% 백분위수), 75% 백분위수, 최대값

 

📁 index의 특성

  • 고유성: 중복된 값을 가질 수 없음
  • 다양성: 정수/문자열/날짜 등 다양한 유형의 데이터 사용 가능
  • 데이터 정렬: 데이터 정렬에 사용, 검색/분석 가능
  • 데이터 조작: 데이터 선택/조작 가능

 

📁 통계 연산 함수

  • sum( ): 시리즈 내 모든 요소의 합
  • mean( ): 시리즈 내 모든 요소의 평균
  • max( ): 시리즈 내 최대값
  • min( ): 시리즈 내 최소값
  • std( ): 시리즈 내 요소들의 표준편차
  • var( ): 시리즈 내 요소들의 분산
  • median( ): 시리즈 내 요소들의 중앙값
  • quantile(0.25): 시리즈 내 요소들의 25% 백분위수
  • count( ): 결측치를 제외한 시리즈 내 요소들의 개수

 

📁 대괄호를 이용한 인덱싱

  • 정수 인덱스: 시리즈가 생성 시, 자동으로 생성되는 0부터 시작하는 순차적인 인덱스
  • 라벨 인덱스: 시리즈 생성 시, 지정 가능한 각 요소의 이름
  • 불리언 인덱싱: 조건을 만족하는 요소 선택 시 사용, 참/거짓 판단 후 참인 요소 선택

 

📁 정렬

sort_values(ascending='', inplace=, na_position='')

  • ascending
    • 정렬 순서 결정
    • 오름차순 True, 내림차순 False
  • inplace
    • True로 설정 시 정렬된 결과가 기존 시리즈에 적용되어 시리즈 자체가 정렬됨
  • na_position
    • NaN(결측값)이 있는 경우 이를 어떻게 처리할지 결정, 기본값 last

 

📁 순위

rank(method='', na_option='', ascending=, pct=)

  • method
    • 값이 동일한 경우 순위를 매길 때 사용하는 방법 지정
    • average, min, max, first, dense
  • na_option
    • 결측값을 어떻게 처리할지 결정
    • keep: 결측값을 그대로 둚
    • top: 가장 높은 순위에 할당
    • bottom: 가장 낮은 순위에 할당
  • ascending
    • 순위를 오름차순으로 할지 여부를 결정
  • pct
    • 상대적인 순위를 계산할지 여부를 결정
    • 기본값 False: 절대적인 순위 반환

'Dev > Python' 카테고리의 다른 글

[Python/Pandas] 결측치와 중복값  (0) 2023.11.15
[Python/Pandas] 데이터 변환  (1) 2023.11.14
[Python/Pandas] Pandas  (0) 2023.11.14
[Python] 집합  (0) 2023.11.14
[Python] 리스트, 튜플, 딕셔너리  (0) 2023.11.13