- 말뭉치(corpus)
- kolaw: 한국 법률 말뭉치
- kobill: 대한민국 국회 의안 말뭉치, 파일ID는 의안 번호 의미
- corpus Package: https://konlpy.org/ko/latest/api/konlpy.corpus/
- 사전
- 말뭉치를 이용해 구축, 형태소 분석 및 품사 태깅에 사용됨
- Hannanum 시스템 사전: KAIST 말뭉치를 이용해 생성된 사전
- Kkma 시스템 사전: 세종 말뭉치를 이용해 생성된 사전
- Mecab 시스템 사전: 세종 말뭉치로 만들어진 CSV 형태의 사전
- 시스템 사전과 사용자 사전
- 시스템 사전에 항목 추가: 사전 업데이트가 잦지 않은 경우, 속도 저하를 원하지 않는 경우
- 사용자 사전에 항목 추가: 사전 업데이트가 잦은 경우, 관리자(root) 권한이 없는 경우
'Dev > NLP' 카테고리의 다른 글
[NLP/KoNLPy] 텍스트 전처리 (0) | 2023.07.20 |
---|---|
[NLP/KoNLPy] 형태소 분석 및 품사 태깅 (0) | 2023.07.03 |
[NLP/KoNLPy] NLP란? (0) | 2023.07.03 |