본문 바로가기

Experience/LG AI aimers

[LG AI aimers] 머신러닝 - 회귀(1)

📌 회귀의 개념

 

지도학습 - 회귀분석, 분류

 

회귀분석과 분류의 차이

  • 예측하고자 하는 Y값이 실수이냐, 분류 값(class)이냐에 따라 달라짐
  • 회귀분석은 실수를 예측하는 것

문제 정의  데이터, 가정, 목표 3가지 고려

 

회귀분석이란?

  • 데이터를 가장 잘 설명하는 선을 찾아 입력 값에 따른 미래 결과 값을 예측하는 알고리즘
  • 완벽한 예측은 불가능
    → 각 데이터의 실제 값과 모델이 예측하는 값의 차이를 최소한으로 하는 선을 찾자
    즉, 전체 모델의 차이(Loss function)를 최소로 하는 값 구하기

 

Gradient Descent(경사하강법)

  • 최적의 값을 찾기 위해 거꾸로 된 산을 내려가는 방법
  • loss function( |pred|-실제 값 )을 최소로 만드는 y절편과 기울기 선정

💡 회귀분석 = loss function을 최소화하는 gradient descent를 통해 데이터를 가장 잘 설명할 수 있는 선을 찾는 방법

 

회귀분석의 구현

  1. X라는 값이 입력되면 회귀 분석 식을 통해 값을 산출하는 예측 함수 정의
  2. 실제 값 y와 예측 함수를 통해 도출된 예측 값 pred_y간의 차이 계산
  3. 계산한 차이에 기반하여 β0와 β1를 업데이트하는 규칙을 정의하고 이를 바탕으로 β0와 β1 값 조정
  4. 위의 과정을 특정 반복 횟수(iteration) 만큼 반복
  5. 반복적으로 수정된 β0와 β1를 바탕으로 회귀식 정의

 

 

 

📌 단순 선형회귀

 

단순 선형회귀

  • 가장 기본적이고 간단한 방법의 회귀 알고리즘
  • 입력 값 X와 결과 값 y의 관계를 설명할 때 가장 많이 사용되는 단순한 모델
  • 회귀 알고리즘의 기초로 이를 응용한 다수 알고리즘 존재

단순 선형회귀 특징

  • 가장 기초적이나 여전히 많이 사용되는 알고리즘
  • 입력 값(X)이 1개인 경우에만 적용 가능
  • 입력 값과 결과 값의 관계를 가장 알아보는 데 용이
  • 입력값이 결과값에 얼마나 영향을 미치는지 알수있음
  • 두 변수간의 관계를 직관적으로 해석하고자 하는 경우 활용

 

 

 

📌 다중 선형 회귀와 다항 회귀

 

다중 선형 회귀(Multiple Linear Regression)

  • 입력 값 X가 여러 개(2개 이상)인 경우 활용할 수 있는 회귀 알고리즘
  • 각 개별 Xi에 해당하는 최적의 Bi를 찾아야 함

다중 선형 회귀 특징

  • 여러 개의 입력 값과 결과 값 간의 관계 확인 가능
  • 어떤 입력 값이 결과 값에 어떠한 영향을 미치는 지 알 수 있음
  • 여러 개의 입력 값 사이 간의 상관 관계가 높을 경우 결과에 대한 신뢰성을 잃을 가능성이 있음

💡  다중 선형 회귀 적용 시 예측 결과 값이 좋지 않고, 데이터들간의 관계가 선형적이지 않은 경우
→ 다항 회귀(Polynomial Regression)

 

 

다항 회귀(Polynomial Regression)

1차 함수 선형식으로 표현하기 어려운 분표의 데이터를 위한 회귀

복잡한 분포의 데이터의 경우 일반 선형 회귀 알고리즘 적용 시 낮은 성능의 결과가 도출뫼, 데이터의 분포에 더 잘 맞는 모델이 필요

 

다항 회귀 특징

  • 일차 함수 식으로 표현할 수 없는 복잡한 데이터 분포에도 적용 가능
  • 극단적으로 높은 차수의 모델을 구현할 경우 과도하게 학습 데이터에 맞춰지는 과적합 현상 발생
  • 데이터 관계를 선형으로 표현하기 어려운 경우 사용