📁 Series
1차원 데이터 구조로 인덱스와 값으로 구성
다양한 데이터 유형 포함 가능
📁 속성
- values
- 시리즈의 값들을 넘파이 배열 형태로 반환
- index
- 각 데이터 항목에 대한 레이블
- 레이블을 통해 데이터 식별, 접근 가능
- name
- 객체에 이름 부여, 조회에 사용
- dtype
- 시리즈 객체에 데이터 타입 부여, 조회
- 데이터가 어떤 형태의 데이터로 구성되었는지 파악
- 필요한 데이터 타입으로 변환
- describe
- 시리즈의 주요 통계량 요약 반환
- 평균, 표준편차, 최소값, 25% 백분위수, 중간값(50% 백분위수), 75% 백분위수, 최대값
📁 index의 특성
- 고유성: 중복된 값을 가질 수 없음
- 다양성: 정수/문자열/날짜 등 다양한 유형의 데이터 사용 가능
- 데이터 정렬: 데이터 정렬에 사용, 검색/분석 가능
- 데이터 조작: 데이터 선택/조작 가능
📁 통계 연산 함수
- sum( ): 시리즈 내 모든 요소의 합
- mean( ): 시리즈 내 모든 요소의 평균
- max( ): 시리즈 내 최대값
- min( ): 시리즈 내 최소값
- std( ): 시리즈 내 요소들의 표준편차
- var( ): 시리즈 내 요소들의 분산
- median( ): 시리즈 내 요소들의 중앙값
- quantile(0.25): 시리즈 내 요소들의 25% 백분위수
- count( ): 결측치를 제외한 시리즈 내 요소들의 개수
📁 대괄호를 이용한 인덱싱
- 정수 인덱스: 시리즈가 생성 시, 자동으로 생성되는 0부터 시작하는 순차적인 인덱스
- 라벨 인덱스: 시리즈 생성 시, 지정 가능한 각 요소의 이름
- 불리언 인덱싱: 조건을 만족하는 요소 선택 시 사용, 참/거짓 판단 후 참인 요소 선택
📁 정렬
sort_values(ascending='', inplace=, na_position='')
- ascending
- 정렬 순서 결정
- 오름차순 True, 내림차순 False
- inplace
- True로 설정 시 정렬된 결과가 기존 시리즈에 적용되어 시리즈 자체가 정렬됨
- na_position
- NaN(결측값)이 있는 경우 이를 어떻게 처리할지 결정, 기본값 last
📁 순위
rank(method='', na_option='', ascending=, pct=)
- method
- 값이 동일한 경우 순위를 매길 때 사용하는 방법 지정
- average, min, max, first, dense
- na_option
- 결측값을 어떻게 처리할지 결정
- keep: 결측값을 그대로 둚
- top: 가장 높은 순위에 할당
- bottom: 가장 낮은 순위에 할당
- ascending
- 순위를 오름차순으로 할지 여부를 결정
- pct
- 상대적인 순위를 계산할지 여부를 결정
- 기본값 False: 절대적인 순위 반환
'Dev > Python' 카테고리의 다른 글
[Python/Pandas] 결측치와 중복값 (0) | 2023.11.15 |
---|---|
[Python/Pandas] 데이터 변환 (1) | 2023.11.14 |
[Python/Pandas] Pandas (0) | 2023.11.14 |
[Python] 집합 (0) | 2023.11.14 |
[Python] 리스트, 튜플, 딕셔너리 (0) | 2023.11.13 |