본문 바로가기

Research Review

[LLM] LLMEval: A Preliminary Study on How to Evaluate Large Language Models

📌 Design

  • 정확성
    답변의 정확성을 판단하고, 제공된 정보의 정확성과 신뢰성을 검증하는 것을 목표로 함
  • 유창성
    정답이 자연어 규칙을 따르는지 여부를 조사하는 것을 포함
    고품질 응답은 해석을 방해할 수 있는 복잡하거나 모호한 문장에서 벗어나 쉽게 이해할 수 있어야함
  • 정보성
    답변은 충분하고 의미 있는 정보를 제공 양질의 답변은 질문자에게 유용하고 관련된 정보를 제공할 수 있어야 함
  • 논리적 일관성
    대답은 논리적으로 엄격하고 정확하며, 제시된 관점과 주장의 합리성을 결정
    수준 높은 대답은 논리적 원리를 준수해야 하며, 명확한 추론과 일관성을 입증해야 함
  • 무해성
    답변은 윤리적 기준을 준수하도록 보장하면서 비윤리적인 정보를 포함하는 것을 자제
    고품질의 답변은 유해하거나 비윤리적인 정보의 유포를 방지하면서 윤리적 원칙을 준수해야 함
  • scoring method - star scoring / pairwise comparison
  • annotator - onsite / crowd-sourcing / public
  • manual annotation - GPT-4, same scoring requirement and criteria

 

 

📌 Results

  1. 차별화 기준 → 정보성, 정확성
    무해성에서는 모든 LLM의 수행이 괜찮았음
    순위 첫 번째와 마지막 사이에 정보성에서는 0.853 차이가 났고, 정확성에서는 0.776 차이가 났음
  2. 모델의 기능을 가장 잘 차별화하는 작업은 대화
    최상위에 랭크된 LLM은 특히 대화, 수학 풀이, 추론 작업에서 다른 모델을 능가
  3. on-site annotator가 정확성과 일관성 측면에서 최고의 품질을 보여줌
    GPT-4의 별점 평가 정확도는 0.908의 값으로 인간 평균에 가까움 일관성 지표 또한 유사한 결과를 보임
  4. 반면 public annotator는 가장 낮은 수준의 일관성과 정확성을 보여줌
  5. 자동 평가와 수동 평가 간의 정렬은 star-scoring 설정에서 더 우수 star-scoring 사용 시, GPT-4의 평가 결과는 수동 평가와 더 밀접하게 일치
  6. 평가자로서의 GPT-4는 인간 평가자보다 길고 장황한 응답에 대한 편향이 강함 두 응답 간에 300자 이상의 길이 차이가 있을 때 GPT-4가 긴 텍스트를 더 나은 텍스트로 선택할 확률 78.8%, 반면 인간 주석자는 긴 텍스트를 선택할 확률 51.4%
  7. 주관식 문항에 대한 수동평가와 GPT-4 자동평가 점수의 일관성이 떨어짐
    GPT-4 자동평가가 정형화된 답안으로 객관적인 문항을 판단하는 데 있어 더 높은 수준의 일관성을 보인다는 것을 나타냄
  8. 주석자는 답변 힌트가 제공되지 않을 때 더 높은 점수를 주는 경향이 있음
  9. 엘로 등급 시스템에서 생성된 순위는 10만 라운드의 비교 후에도 계속해서 상당한 변동을 보임
  10. 엘로 등급 시스템은 순서에 따라 순위가 다를 수 있기 때문에 경기 순서에 민감함

 

 

📌 Discussion

  1. LLM을 평가하는 가장 구별되는 기준 → 정보성과 정확성
  2. on-site star-scoring → 인간과 LLM 평가자 간의 정확성, 일관성 및 정렬 측면에서 최적의 수동 평가 방법
  3. 자동 평가와 수동 평가의 차이점은 주관적인 질문에서 가장 눈에 띔