본문 바로가기

Dev/NLP

(4)
[NLP/KoNLPy] 텍스트 전처리 텍스트 전처리: 용도에 맞게 텍스트를 사전 처리하는 작업 토큰화(tokenization): 코퍼스에서 토큰이라는 단위로 나누는 작업 단어 토큰화(word tokenization) 토큰의 기준을 단어로 하는 경우 단어 단위 외에도 단어구, 의미를 갖는 문자열로 간주되기도 함 토큰화에서 고려해야 할 사항 구두점/특수문자를 단순 제외해서는 안됨 줄임말과 단어 내에 띄어쓰기가 있는 경우 문장 토큰화(sentence tokenization): 코퍼스 내에서 문장 단위로 구분하는 작업 한국어에서 토큰화의 어려움 교착어의 특성 잘 지켜지지 않는 띄어쓰기 정제(cleaning): 코퍼스로부터 노이즈 데이터 제거 정규화(normalization): 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦 표기가 다른 단어..
[NLP/KoNLPy] 데이터 말뭉치(corpus) kolaw: 한국 법률 말뭉치 kobill: 대한민국 국회 의안 말뭉치, 파일ID는 의안 번호 의미 corpus Package: https://konlpy.org/ko/latest/api/konlpy.corpus/ 사전 말뭉치를 이용해 구축, 형태소 분석 및 품사 태깅에 사용됨 Hannanum 시스템 사전: KAIST 말뭉치를 이용해 생성된 사전 Kkma 시스템 사전: 세종 말뭉치를 이용해 생성된 사전 Mecab 시스템 사전: 세종 말뭉치로 만들어진 CSV 형태의 사전 시스템 사전과 사용자 사전 시스템 사전에 항목 추가: 사전 업데이트가 잦지 않은 경우, 속도 저하를 원하지 않는 경우 사용자 사전에 항목 추가: 사전 업데이트가 잦은 경우, 관리자(root) 권한이 없는 경우
[NLP/KoNLPy] 형태소 분석 및 품사 태깅 형태소 분석: 형태소를 비롯해, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것 품사 태깅: 형태소의 뜻과 문맥을 고려하여 마크업을 하는 일 KoNLPy로 품사 태깅 문구(phrase)를 입력받아 태깅된 형태소를 출력하는 입출력 구조 한국어 품사 태그 비교표 https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0 Korean POS tags comparison chart chart Not provided in KoNLPy,Provided in KoNLPy Sejong project (ntags=42),Sim Gwangsub project (ntags=26),Twitt..
[NLP/KoNLPy] NLP란? NLP(Natural Language Processing, 자연어처리): 텍스트에서 의미있는 정보를 분석, 추출, 이해하는 일련의 기술 집합 NLP 응용 사례 텍스트 요약 대화 시스템 기계 번역 한국어 NLP: KoNLPy https://konlpy.org/ko/latest/index.html 사용예시: https://konlpy.org/ko/latest/examples/ 영어 NLP: NLTK https://www.nltk.org/ KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.6.0 documentation KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은..