○ (다변량) 데이터 예시
○ 예측 모델링
● X, Y 데이터가 주어진 상태에서 관계를 설명하는 함수식을 찾는 것
○ 수치예측/범주예측(분류)
● Y형태에 따라 두 개로 나누어짐
● 연속형: 데이터 자체를 숫자로 표현
● 범주형: 원칙적으로 숫자로 표시 불가한 데이터 e.g. 제품불량여부, 보험사기여부 등
○ Regression(수치예측) 데이터
※ 큰 의미에서 수치예측을 의미
○ 수치예측 모델링 개요
● 함수를 구해서 왼쪽 그림의 오른쪽 표의 X값 37이 주어졌을 때 Y값인 ??를 33으로 예측하는 것
● 오른쪽 그림: 중고차 가격 예측
○ Classification(범주예측, 분류) 데이터
○ 범주예측(분류) 모델링 개요
● 범주 사이를 잘 나눌 수 있는 모델을 찾는 것
● 예제1) 불량 예측
- 디스플레이 공정에서 공정 파라미터의 측정값들을 이용해 해당 글라스가 양품|불량품 여부 예측
● 예제2) 고객 이탈 예측
- 고객 정보(성별, 연령, 직업, 연봉 등)를 이용해, 고객 이탈 여부 예측
● 예제3) 보험 사기 예측
- 각 청구 건에 대한 내역 분석을 통해 청구 건에 대한 사기 여부 예측
● 예제4) 이메일/스팸 분류
머신러닝 모델 학습 프로세스
○ 머신러닝 모델 핵심
● w = weight(가중치) ← 파라미터(모수) 즉, w1과 w2는 파라미터(매개변수)
● 즉, 데이터가 주어졌을 때, 파라미터를 찾는 것이 핵심
● 파라미터 추정
○ 손실함수와 비용함수
● 손실함수(Loss Function): 개별적인 차이(오차)를 정의
● 비용함수(Cost Function): 손실함수의 합이나 평균의 형식으로 나타낸 함수
○ 모델 결정 → 파라미터 추정
● 선형 결합(다중선형회귀 모델)
- Least Square Estimation Algorithm 사용
● 지수형태에 역수(비선형; 로지스틱회귀 모델)
- 여러 개의 알고리즘 중 유명한 알고리즘 적용식(Conjugate Gradient Algorithm)
● X의 조합으로 Y를 표현(의사결정나무 모델)
● 2번째 식을 여러 개 합친 형태(뉴럴네트워크 모델)
- 역전오류파알고리즘(Backpropagation Algorithm)
○ 정리
● 왼쪽 식처럼 표현을 하겠다(다중선형회귀, 로지스틱 회귀 모델, 뉴럴네트워크 모델)
→ 파라미터를 추정하는 알고리즘을 사용
○ 머신러닝 모델 학습 과정 요약
● 모델 결정(Y를 표현하기 위한 X들의 조합 방식 결정)
● 모델을 구성하는 파라미터 찾기(모델의 핵심)
How? 가지고 있는 데이터를 이용
Porpose? 실제 데이터의 값과 최대한 같게 나오도록
'AI > 김성범교수님 강의' 카테고리의 다른 글
[핵심 머신러닝] 선형회귀모델 (0) | 2025.01.21 |
---|