본문 바로가기

전체 글

(81)
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (2) 📌 PandasPython에서 데이터 분석을 위한 라이브러리사용이 쉬운 데이터 구조와 여러 도구를 갖추고 있으며, 다른 라이브러리와의 연동으로 유용성을 높인 분석 툴DataFrame: 2차원 데이터 구조로써 관계형 데이터 베이스의 테이블 구조와 비슷, Series의 집합Data: DataFrame에 저장할 데이터Index: 행(row) 이름으로써 기본 값 0부터 1씩 증가하는 정수columns: 열(column) 이름, 기본 값 0부터 1씩 증가하는 정수Missing value: 결측값으로 NaN으로 표기Axis: 행 방향(axis=0) 열 방향(axis=1) 📌 DataFrame 결측치 기준결측치 비율 10% 미만: 데이터 제거 or 다양한 imputation결측치 비율 10%~20%: 모델 기반 ..
[SKADA] 통신 Core 장비에 대한 이상 징후 감지 (1) 📌 시계열(time series) 데이터시간에 걸쳐 순차적으로 기록되고 배열된 데이터의 한 종류시간의 흐름에 따라 불규칙적으로 변동되는 자료들을 분석하기 위해 필수적‘과거’가 ‘미래’에 어떤 영향을 주는지 분석을 통해 예측 가능최근 새롭게 등장한 기계학습과 딥러닝을 사용하여 복잡한 데이터를 예측시계열 분해법을 통해 체계적 성분과 불규칙적 성분으로 분리대표적 시계열 데이터: 주식 수익률 데이터, 재무 데이터, 정당 지지율 등 📌 시계열 구성요소(Components)추세 trend: 장기간 데이터의 일반적인 경향시간의 흐름에 따른 시계열 자료들의 상승경향이나 하강경향의 상태를 의미계절성 seasonal variations: 1년 미만의 기간에 걸쳐 나타나는 변동순환 cyclic variations: 1년..
[LG AI aimers] 머신러닝 - 분류(3) 분류 알고리즘 평가 지표📌 혼동 행렬(Confusion Matrix)True Positive: 실제 Positive인 값을 Positive라고 예측(정답)True Negative: 실제 Negative인 값을 Negative라고 예측(정답)False Positive: 실제 Negative인 값을 Positive라고 예측(오답) → 1형 오류False Negative: 실제 Positive인 값을 Negative라고 예측(오답) → 2형 오류 📌 정확도(Accuracy)전체 데이터 중에서 제대로 분류된 데이터의 비율, 모델이 얼마나 정확하게 분류하는 지를 나타냄일반적으로 분류 모델의 주요 평가 방법으로 사용됨클래스 비율이 불균형할 경우 평가 지표의 신뢰성을 잃음 📌 정밀도(Precision)모델이 P..
[LG AI aimers] 머신러닝 - 분류(2) 📌 SVM(Support Vector Machine)양성(1)과 음성(0) 두 개의 결과 값으로 분류되는 이진 분류 문제딥러닝 기술 등장 이전까지 가장 인기있던 분류 알고리즘최적의 결정 경계를 정의하는 모델 최적 결정 경계데이터 군으로부터 최대한 멀리 떨어지는 것 서포트 벡터(Support Vector)결정 경계와 가장 가까이 있는 데이터 포인트 결정 경계 여유, 마진(Margin)클래스를 분류하는 기준 선에 여유(Margin)를 둘 수 있음여유(Margin) → 결정 경계와 서포트 벡터 사이의 거리Margin을 최대화하는 결정 경계를 찾아야 함Hard Margin VS Soft Margin이상치(Outlier) 허용 범위에 따라 Hard(비허용)와 Soft(허용)로 구분 특징선형 분류와 비선형 분류 ..
[LG AI aimers] 머신러닝 - 분류(1) 📌 분류주어진 입력 값이 어떤 클래스에 속할 지에 대한 결과 값을 도출하는 알고리즘다양한 분류 알고리즘이 존재하며, 예측 목표와 데이터 유형에 따라 적용   📌 분류 문제에 회귀 알고리즘 적용하기일반적인 회귀 알고리즘은 분류 문제에 그대로 사용할 수 없음→ 이유: 선형회귀는 $-∞$ ~ $+∞$의 값을 가질 수 있기 때문 해결 방안해당 클래스에 속할 확률인 0 또는 1 사이의 값만 내보낼 수 있도록 선형 회귀 알고리즘 수정이처럼 분류 문제에 적용하기 위해 출력 값의 범위를 수정한 회귀를 로지스틱 회귀(Logistic Regression) 라고 함   📌 분류 문제를 위한 회귀, Logistic Regression이진 분류(Binary Classification) 문제를 해결하기 위한 모델최소값 0,..
[LG AI aimers] 머신러닝 - 회귀(2) 📌 과적합과 정규화과적합 (Overfitting)모델이 주어진 훈련 데이터에 과도하게 맞춰져 새로운 데이터가 입력되었을 때 잘 예측하지 못하는 현상즉, 모델이 과도하게 복잡해져 일반성이 떨어진 경우  교차 검증(Cross Validation)모델이 잘 적합되었는지 알아보기 위해 훈련/테스트/검증 데이터로 나누어 성능 평가하는 방법일반적으로 K-fold 교차 검증을 많이 사용K-fold 교차검증훈련 데이터를 계속 변경하며 모델 훈련  → 데이터를 K등분으로 나누고 K번 훈련시킴K를 설정하여 데이터 셋을 K개로 나눔K개 중 한 개를 valid, 나머지를 훈련용으로 사용K개 모델의 평균 성능이 최종 모델 성능   📌 정규화(Regularization)모델의 복잡성을 줄여 일반화된 모델을 구현하기 위한 방법..
[LG AI aimers] 머신러닝 - 회귀(1) 📌 회귀의 개념 지도학습 - 회귀분석, 분류 회귀분석과 분류의 차이예측하고자 하는 Y값이 실수이냐, 분류 값(class)이냐에 따라 달라짐회귀분석은 실수를 예측하는 것문제 정의 →  데이터, 가정, 목표 3가지 고려 회귀분석이란?데이터를 가장 잘 설명하는 선을 찾아 입력 값에 따른 미래 결과 값을 예측하는 알고리즘완벽한 예측은 불가능→ 각 데이터의 실제 값과 모델이 예측하는 값의 차이를 최소한으로 하는 선을 찾자즉, 전체 모델의 차이(Loss function)를 최소로 하는 값 구하기 Gradient Descent(경사하강법)최적의 값을 찾기 위해 거꾸로 된 산을 내려가는 방법loss function( |pred|-실제 값 )을 최소로 만드는 y절편과 기울기 선정💡 회귀분석 = loss functio..
[LG AI aimers] 실습 교육 정리 AI aimers 정규 기간에는 일정이 촉박해서 수강하기에 급급했는데,추가 실습 교육이 열려서 내용을 정리하려고 한다.학기 중이라 바빠서 다 수강할 수 있을 지 모르겠지만 힘닿는 곳까지 해보도록 하자!