본문 바로가기

Research Review

[LLM] HyperCLOVA X Technical Report

📌 Abstract

  • trained on a balanced mix of Korean, English, and code data, followed by instruction-tuning with high-quality human-annotated datasets
  • 종합적인 추론, 지식, 상식, 사실성, 코딩, 수학, 채팅, 지도 따라하기, 무해성 등 다양한 벤치마크를 통해 한국어와 영어 모두에서 평가됨

 

 

📌 Details

  • consists of two sizes: a larger model, HCX-L, and a smaller model, HCX-S

 

Evaluation

  • open-ended question-answering approach 모델에게 자유 형식의 답변을 생성하도록 요청하고 예측된 답변이 실측 답변과 일치하는지 확인
  • closed-form question-answering 주어진 후보 옵션에서 하나 이상의 답을 예측할 것으로 예상
  • 자유 형식 답변
    • 비교적 간단함 그러나 모델이 주어진 옵션 중에서 선택하도록 지시하려면 특정 수준의 instruction-following capabilities 또는 컨텍스트 예제가 필요하며, 이는 모든 벤치마크에서 항상 사용할 수 있는 것은 아님
    • 한 가지 해결책은 객관식 문제를 일련의 독립적인 가능성 검정으로 캐스팅하는 것 → 프롬프트 민감도로 인해 사소한 즉각적인 변화에 따라 평가 점수가 크게 달라짐
    • 프롬프트 민감도 감소와 평가 안정성 증진을 위해 언어 모델이 벤치마크가 원래 의도한 대로 실제 객관식 형식으로 프롬프트되는 기술 채택

 

Safety Evaluation

  • 자동 및 수동 평가 방법을 모두 사용하여 모델 안전성 평가
  • 자동 평가를 위해 한국어와 영어 모두 toxic 및 사회적 편견 평가를 실시
  • 주석자는 적대적 프롬프트에 대한 응답의 안전성을 한국어로 채점

 

 

📌 Conclusion

  • HyperCLOVA X는 특히 영어 및 기타 언어에서 강력한 기능을 유지하면서 한국어와 문화 강조
  • 다국어 추론 및 기계 번역에서 인상적인 다국어 능력은 일반화 능력과 다양한 언어 맥락에서 광범위하게 적용될 수 있는 가능성을 보여줌
  • 광범위한 안전 평가와 윤리 원칙 준수를 통해 책임 있는 AI 개발 및 배포에 대한 의지
  • 전반적으로 HyperCLOVA X는 이중 언어 및 다국어 LLM에 대한 새로운 표준을 설정하여 보다 포괄적이고 문화적으로 민감한 AI 기술을 위한 길을 열었음