📌 Design
- 정확성
답변의 정확성을 판단하고, 제공된 정보의 정확성과 신뢰성을 검증하는 것을 목표로 함 - 유창성
정답이 자연어 규칙을 따르는지 여부를 조사하는 것을 포함
고품질 응답은 해석을 방해할 수 있는 복잡하거나 모호한 문장에서 벗어나 쉽게 이해할 수 있어야함 - 정보성
답변은 충분하고 의미 있는 정보를 제공 양질의 답변은 질문자에게 유용하고 관련된 정보를 제공할 수 있어야 함 - 논리적 일관성
대답은 논리적으로 엄격하고 정확하며, 제시된 관점과 주장의 합리성을 결정
수준 높은 대답은 논리적 원리를 준수해야 하며, 명확한 추론과 일관성을 입증해야 함 - 무해성
답변은 윤리적 기준을 준수하도록 보장하면서 비윤리적인 정보를 포함하는 것을 자제
고품질의 답변은 유해하거나 비윤리적인 정보의 유포를 방지하면서 윤리적 원칙을 준수해야 함
- scoring method - star scoring / pairwise comparison
- annotator - onsite / crowd-sourcing / public
- manual annotation - GPT-4, same scoring requirement and criteria
📌 Results
- 차별화 기준 → 정보성, 정확성
무해성에서는 모든 LLM의 수행이 괜찮았음
순위 첫 번째와 마지막 사이에 정보성에서는 0.853 차이가 났고, 정확성에서는 0.776 차이가 났음 - 모델의 기능을 가장 잘 차별화하는 작업은 대화
최상위에 랭크된 LLM은 특히 대화, 수학 풀이, 추론 작업에서 다른 모델을 능가 - on-site annotator가 정확성과 일관성 측면에서 최고의 품질을 보여줌
GPT-4의 별점 평가 정확도는 0.908의 값으로 인간 평균에 가까움 일관성 지표 또한 유사한 결과를 보임 - 반면 public annotator는 가장 낮은 수준의 일관성과 정확성을 보여줌
- 자동 평가와 수동 평가 간의 정렬은 star-scoring 설정에서 더 우수 star-scoring 사용 시, GPT-4의 평가 결과는 수동 평가와 더 밀접하게 일치
- 평가자로서의 GPT-4는 인간 평가자보다 길고 장황한 응답에 대한 편향이 강함 두 응답 간에 300자 이상의 길이 차이가 있을 때 GPT-4가 긴 텍스트를 더 나은 텍스트로 선택할 확률 78.8%, 반면 인간 주석자는 긴 텍스트를 선택할 확률 51.4%
- 주관식 문항에 대한 수동평가와 GPT-4 자동평가 점수의 일관성이 떨어짐
GPT-4 자동평가가 정형화된 답안으로 객관적인 문항을 판단하는 데 있어 더 높은 수준의 일관성을 보인다는 것을 나타냄 - 주석자는 답변 힌트가 제공되지 않을 때 더 높은 점수를 주는 경향이 있음
- 엘로 등급 시스템에서 생성된 순위는 10만 라운드의 비교 후에도 계속해서 상당한 변동을 보임
- 엘로 등급 시스템은 순서에 따라 순위가 다를 수 있기 때문에 경기 순서에 민감함
📌 Discussion
- LLM을 평가하는 가장 구별되는 기준 → 정보성과 정확성
- on-site star-scoring → 인간과 LLM 평가자 간의 정확성, 일관성 및 정렬 측면에서 최적의 수동 평가 방법
- 자동 평가와 수동 평가의 차이점은 주관적인 질문에서 가장 눈에 띔
'Research Review' 카테고리의 다른 글
[LLM] HyperCLOVA X Technical Report (0) | 2024.05.07 |
---|---|
[LLM] A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators (0) | 2024.05.07 |
[MultiModal] DDPM: Denoising Diffusion Probabilistic Models (0) | 2024.05.07 |
[MultiModal] Transformer (0) | 2024.05.07 |
[MultiModal] VAE: Auto-Encoding Variational Bayes (0) | 2024.05.07 |