본문 바로가기

Research Review

[LLM] A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators

📌 Abstract

  • 자동 대화 평가를 위한 LLM 적용에 대한 종합적인 연구를 수행
  • 12개의 메타 평가 데이터셋을 사용하여 턴 및 대화 수준에서 최근 등장한 30개의 LLM의 다차원 평가 기능 분석
  • 모델 수준 및 차원 수준 앙상블이 평가 성능에 어떤 영향을 미치는지 탐구

 

 

📌 Ensemble Analysis

Dimension-Wise Ensemble

  • Tulu13B, Chimera-inst-chat-13B, Baize-v2-13B, WizardLM13B-V1.2, Palm-2 Bison, and ChatGPT
  • 앙상블 접근법은 일반적으로 인간의 전반적인 판단과 강한 상관관계를 산출
  • 대화 수준에서 Chimera-inst-chat-13B 및 Baize-v2-13B, 앙상블 접근 방식은 직접 프롬프트보다 10% 이상의 이득 제공
  • 서로 다른 차원의 Tulu-13B, ChatGPT 및 Palm2 Bison은 매우 유사하며, Chimera-inst-chat-13B 및 Baize-v2-13B는 서로 다른 차원을 평가할 때 더 다양한 점수 제공
  • Chimera-inst-chat-13B와 Baize-v2-13B의 서로 다른 차원별 점수의 앙상블은 다른 LLM보다 더 큰 개선을 가져옴

 

Model-Wise Ensemble

  • 각 차원에 대한 상위 3개 오픈 소스 모델의 점수 평균
  • 앙상블은 ChatGPT에 필적하는 성능을 발휘하며 대화 수준에서 Palm-2 Bison을 능가
  • 향후 연구에서는 모델을 가장 잘 결합하는 방법, 앙상블에 포함할 모델 및 개별 모델 출력의 무게를 측정하는 방법과 같은 최적의 앙상블 방법에 대해 더 깊이 탐구할 필요 존재

 

 

📌 Conclusion

  1. 최근 30개 LLM의 다차원 평가 능력을 분석하여 일관성, 참여성 등을 대화 및 턴 레벨에서 다룸
  2. instruction-tuned 모델은 바닐라 파운데이션 모델보다 사람의 평가와 더 잘 일치함
  3. 독점 모델, 특히 GPT-4는 오픈 소스 LLM에 비해 우수한 평가 능력을 가지고 있음
  4. 모델 크기와 지침 데이터는 평가에 매우 중요 강력한 오픈 소스 모델의 앙상블만이 ChatGPT 및 PaLM-2 바이슨과 동등한 성능을 발휘함
  5. LLM은 특이성과 다양성보다 일관성, 관련성 및 전반적인 품질을 평가하는 데 더 탁월 차원별 점수의 앙상블을 사용하면 전반적인 품질에 대한 직접적인 평가보다 인간의 전반적인 평가와 더 잘 일치