본문 바로가기

Dev/Python

(13)
[Python/Pandas] 데이터 변환 📁 apply( ) 판다스의 시리즈, 데이터프레임에 함수를 적용하는 메소드 각 요소에 대해 사용자 정의 함수, 내장 함수 적용 가능 시리즈 내의 각 요소에 함수를 적용해 반환된 결과를 새로운 시리즈로 반환 사용자 정의 함수 작성 가능, lambda 함수를 사용해 간단한 연산 적용 가능 📁 map( ) 시리즈 내의 각 요소에 함수를 적용하여 반환된 결과를 새로운 시리즈로 반환 사용자 정의 함수 작성 가능, lambda 함수를 사용해 간단한 연산 적용 가능 📁 apply( )와 map( ) apply는 데이터프레임/시리즈 객체에 사용, map은 시리즈 객체에서만 사용 apply는 각 행/열에 함수 적용 시 axis를 통해 축 지정 가능, map은 시리즈의 각 요소에 함수 적용 apply는 반환값을 모아 새로..
[Python/Pandas] Series 📁 Series 1차원 데이터 구조로 인덱스와 값으로 구성 다양한 데이터 유형 포함 가능 📁 속성 values 시리즈의 값들을 넘파이 배열 형태로 반환 index 각 데이터 항목에 대한 레이블 레이블을 통해 데이터 식별, 접근 가능 name 객체에 이름 부여, 조회에 사용 dtype 시리즈 객체에 데이터 타입 부여, 조회 데이터가 어떤 형태의 데이터로 구성되었는지 파악 필요한 데이터 타입으로 변환 describe 시리즈의 주요 통계량 요약 반환 평균, 표준편차, 최소값, 25% 백분위수, 중간값(50% 백분위수), 75% 백분위수, 최대값 📁 index의 특성 고유성: 중복된 값을 가질 수 없음 다양성: 정수/문자열/날짜 등 다양한 유형의 데이터 사용 가능 데이터 정렬: 데이터 정렬에 사용, 검색/분석 ..
[Python/Pandas] Pandas 📁 Pandas 데이터 조작과 분석을 위한 파이썬 라이브러리 표 형태의 데이터를 다루는데 매우 효과적 📁 DataFrame 엑셀 시트와 같은 형태로 데이터 표현 📁 Series 판다스에서 데이터를 다루는 기본 단위 데이터프레임의 한 열을 나타내는데 사용되는 자료구조 📁 주요 기능 데이터 불러오기 및 저장 데이터 정렬 및 필터링 데이터 변환 및 처리 누락 데이터 처리 통계 및 집계 함수 시계열 데이터 처리
[Python] 집합 📁 set( ) 집합에 관련된 것을 쉽게 처리하기 위해 만든 자료형 괄호 안에 리스트, 문자열 삽입 가능 중복 비허용 순서 없음 → 인덱싱으로 값을 얻을 수 없음 인덱싱을 통해 값을 얻고 싶다면 먼저 리스트/튜플로 변환해야 함 요소는 변경 불가능한 자료형만 사용 가능 📁 교집합, 합집합, 차집합 교집합 & 기호 사용 intersection( ) 사용 합집합 | 기호 사용 union( ) 사용 차집합 - 기호 사용 difference( ) 사용 📁 집합 자료형 관련 함수 add: 값 1개 추가 update: 값 여러 개 추가 remove: 특정 값 제거, 세트에 존재하지 않는 경우 KeyError 발생 discard: 특정 값 제거, 세트에 존재하지 않아도 KeyError 발생X pop: 임의의 요소 제거
[Python] 리스트, 튜플, 딕셔너리 📁 리스트 [ ] 문자열, 실수, 정수, 불 등 모든 자료형 저장 가능 요소 추가/삭제/변경 가능 → mutable, iterable 📁 튜플 ( ) 리스트와 비슷하지만, 요소의 변경/추가/삭제가 불가능 → 읽기 전용 리스트 (immutable, iterable) 내용 변경이 불가능하므로, 요소의 정보를 구하는 메소드만 사용 가능 📁 딕셔너리 { } 키:값(key:value) 형태 해시/해시맵/해시테이블 등으로 부름 중복이 불가능한 collection 자료형, mutable 키에는 리스트/딕셔너리 사용 불가