본문 바로가기

Experience/LG AI aimers

[LG AI aimers] 머신러닝 - 분류(3)

분류 알고리즘 평가 지표

📌 혼동 행렬(Confusion Matrix)

  • True Positive: 실제 Positive인 값을 Positive라고 예측(정답)
  • True Negative: 실제 Negative인 값을 Negative라고 예측(정답)
  • False Positive: 실제 Negative인 값을 Positive라고 예측(오답) → 1형 오류
  • False Negative: 실제 Positive인 값을 Negative라고 예측(오답) → 2형 오류

 

📌 정확도(Accuracy)

  • 전체 데이터 중에서 제대로 분류된 데이터의 비율, 모델이 얼마나 정확하게 분류하는 지를 나타냄
  • 일반적으로 분류 모델의 주요 평가 방법으로 사용됨
  • 클래스 비율이 불균형할 경우 평가 지표의 신뢰성을 잃음

 

📌 정밀도(Precision)

  • 모델이 Positive라고 분류한 데이터 중에서 실제로 Positive인 데이터의 비율
  • Negative가 중요한 경우, 즉 실제로 Negative인 데이터를 Positive로 판단하면 안되는 경우 사용하는 지표

 

📌 재현률(Recall, TPR)

  • 실제로 Positive인 데이터 중에서 모델이 Positive로 분류한 데이터의 비율
  • Positive가 중요한 경우, 즉 실제로 Positive인 데이터를 Negative라고 판단하면 안되는 경우 사용되는 지표

 

📌 FPR(False Positive Rate)

  • 실제로 Negative인 데이터 중에서 모델이 Positive로 분류한 데이터의 비율

 

📌 ROC Curve와 AUC

  • $x$축을 False Positive Rate, $y$축을 Recall(True Positive Rate)로 두고 시각화한 그래프
  • ROC Curve 아래 면적인 AUC(Area Under Curve)를 이용해 모델의 성능 평가
  • AUC가 0.5인 부분 → Classifier의 최하 성능
    AUC가 1에 가까워질수록 Classifier 성능이 향상됨