[LLM] HyperCLOVA X Technical Report

trained on a balanced mix of Korean, English, and code data, followed by instruction-tuning with high-quality human-annotated datasets
종합적인 추론, 지식, 상식, 사실성, 코딩, 수학, 채팅, 지도 따라하기, 무해성 등 다양한 벤치마크를 통해 한국어와 영어 모두에서 평가됨

open-ended question-answering approach 모델에게 자유 형식의 답변을 생성하도록 요청하고 예측된 답변이 실측 답변과 일치하는지 확인
closed-form question-answering 주어진 후보 옵션에서 하나 이상의 답을 예측할 것으로 예상
자유 형식 답변
- 비교적 간단함 그러나 모델이 주어진 옵션 중에서 선택하도록 지시하려면 특정 수준의 instruction-following capabilities 또는 컨텍스트 예제가 필요하며, 이는 모든 벤치마크에서 항상 사용할 수 있는 것은 아님
- 한 가지 해결책은 객관식 문제를 일련의 독립적인 가능성 검정으로 캐스팅하는 것 → 프롬프트 민감도로 인해 사소한 즉각적인 변화에 따라 평가 점수가 크게 달라짐
- 프롬프트 민감도 감소와 평가 안정성 증진을 위해 언어 모델이 벤치마크가 원래 의도한 대로 실제 객관식 형식으로 프롬프트되는 기술 채택

HyperCLOVA X는 특히 영어 및 기타 언어에서 강력한 기능을 유지하면서 한국어와 문화 강조
다국어 추론 및 기계 번역에서 인상적인 다국어 능력은 일반화 능력과 다양한 언어 맥락에서 광범위하게 적용될 수 있는 가능성을 보여줌
광범위한 안전 평가와 윤리 원칙 준수를 통해 책임 있는 AI 개발 및 배포에 대한 의지
전반적으로 HyperCLOVA X는 이중 언어 및 다국어 LLM에 대한 새로운 표준을 설정하여 보다 포괄적이고 문화적으로 민감한 AI 기술을 위한 길을 열었음

[LLM] A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators (0)	2024.05.07
[LLM] LLMEval: A Preliminary Study on How to Evaluate Large Language Models (0)	2024.05.07
[MultiModal] DDPM: Denoising Diffusion Probabilistic Models (0)	2024.05.07
[MultiModal] Transformer (0)	2024.05.07
[MultiModal] VAE: Auto-Encoding Variational Bayes (0)	2024.05.07

단정한 마음