본문 바로가기

Experience/LG AI aimers

[LG AI aimers] 머신러닝 - 분류(2)

📌 SVM(Support Vector Machine)

  • 양성(1)과 음성(0) 두 개의 결과 값으로 분류되는 이진 분류 문제
  • 딥러닝 기술 등장 이전까지 가장 인기있던 분류 알고리즘
  • 최적의 결정 경계를 정의하는 모델

 

최적 결정 경계

데이터 군으로부터 최대한 멀리 떨어지는 것

 

서포트 벡터(Support Vector)

결정 경계와 가장 가까이 있는 데이터 포인트

 

결정 경계 여유, 마진(Margin)

  • 클래스를 분류하는 기준 선에 여유(Margin)를 둘 수 있음
  • 여유(Margin) → 결정 경계와 서포트 벡터 사이의 거리
  • Margin을 최대화하는 결정 경계를 찾아야 함

Hard Margin VS Soft Margin

이상치(Outlier) 허용 범위에 따라 Hard(비허용)와 Soft(허용)로 구분

 

특징

  • 선형 분류와 비선형 분류 모두 가능
  • 고차원 데이터에서도 높은 성능의 결과 도출
  • 회귀에도 적용 가능

 

 

 

📌 나이브 베이즈 분류(NaΪve Bayes Classification)

각 특징들이 독립적, 즉 서로 영향을 미치지 않을 것이라는 가정 설정

베이즈 정리(Bayes Rule)를 활용한 확률 통계학적 분류 알고리즘

 

원리

베이즈 정리를 활용하여 입력값이 해당 클래스에 속할 확률을 계산하여 분류

 

특징

  • 각 특징들이 독립이라면 다른 분류 방식에 비해 결과가 좋고, 학습 데이터도 적게 필요
  • 각 특징들이 독립이 아니라면 즉, 특징들이 서로 영향을 미치면 분류 결과 신뢰성 하락
  • 학습 데이터에 없는 범주의 데이터일 경우 정상적 예측 불가능

 

가우시안 나이브 베이즈

  • 가우시안: 데이터들의 분포가 평균값을 중심으로 대칭적인
  • 가우시안 나이브 베이즈 모델: 이산적 데이터가 아닌 연속적인 값을 가진 데이터에 적용 가능

 

 

 

📌 KNN(K-Nearest Neighbor)

기존 데이터 가운데 가장 가까운 K개 이웃의 정보로 새로운 데이터를 예측하는 방법론

유사한 특성을 가진 데이터는 유사 범주에 속하는 경향이 있다는 가정 하에 분류

 

원리

설정된 K값에 따라 가까운 거리 내의 이웃의 수에 따라 분류

 

특징

  • 직관적이며 복잡하지 않은 알고리즘, 결과 해석이 쉬움
  • K값 결정에 따라 성능이 크게 좌우됨
  • 딱히 학습이랄 것이 없는 Lazy Model