본문 바로가기

Dev/NLP

[NLP/KoNLPy] 데이터

  1. 말뭉치(corpus)
  2. 사전
    • 말뭉치를 이용해 구축, 형태소 분석 및 품사 태깅에 사용됨
    • Hannanum 시스템 사전: KAIST 말뭉치를 이용해 생성된 사전
    • Kkma 시스템 사전: 세종 말뭉치를 이용해 생성된 사전
    • Mecab 시스템 사전: 세종 말뭉치로 만들어진 CSV 형태의 사전
    • 시스템 사전과 사용자 사전
      • 시스템 사전에 항목 추가: 사전 업데이트가 잦지 않은 경우, 속도 저하를 원하지 않는 경우
      • 사용자 사전에 항목 추가: 사전 업데이트가 잦은 경우, 관리자(root) 권한이 없는 경우

'Dev > NLP' 카테고리의 다른 글

[NLP/KoNLPy] 텍스트 전처리  (0) 2023.07.20
[NLP/KoNLPy] 형태소 분석 및 품사 태깅  (0) 2023.07.03
[NLP/KoNLPy] NLP란?  (0) 2023.07.03