AI/김성범교수님 강의

[핵심 머신러닝] 예측 모델링

코딩하는 Español되기 2025. 1. 21. 15:30

○ (다변량) 데이터 예시

○ 예측 모델링

     ● X, Y 데이터가 주어진 상태에서 관계를 설명하는 함수식을 찾는 것

 

○ 수치예측/범주예측(분류)

    ● Y형태에 따라 두 개로 나누어짐

    ● 연속형: 데이터 자체를 숫자로 표현

    ● 범주형: 원칙적으로 숫자로 표시 불가한 데이터 e.g. 제품불량여부, 보험사기여부 등

 

○ Regression(수치예측) 데이터

    ※ 큰 의미에서 수치예측을 의미


○ 수치예측 모델링 개요

    ● 함수를 구해서 왼쪽 그림의 오른쪽 표의 X값 37이 주어졌을 때 Y값인 ??를 33으로 예측하는 것

    ● 오른쪽 그림: 중고차 가격 예측


○ Classification(범주예측, 분류) 데이터

○ 범주예측(분류) 모델링 개요

    ● 범주 사이를 잘 나눌 수 있는 모델을 찾는 것

    ● 예제1) 불량 예측

         - 디스플레이 공정에서 공정 파라미터의 측정값들을 이용해 해당 글라스가 양품|불량품 여부 예측

    ● 예제2) 고객 이탈 예측

        - 고객 정보(성별, 연령, 직업, 연봉 등)를 이용해, 고객 이탈 여부 예측

    ● 예제3) 보험 사기 예측

        - 각 청구 건에 대한 내역 분석을 통해 청구 건에 대한 사기 여부 예측

    ● 예제4) 이메일/스팸 분류


머신러닝 모델 학습 프로세스

○ 머신러닝 모델 핵심

    ● w = weight(가중치) ← 파라미터(모수) 즉, w1과 w2는 파라미터(매개변수)

    ● 즉, 데이터가 주어졌을 때, 파라미터를 찾는 것이 핵심

    ● 파라미터 추정

○ 손실함수와 비용함수

    ● 손실함수(Loss Function): 개별적인 차이(오차)를 정의

    ● 비용함수(Cost Function): 손실함수의 합이나 평균의 형식으로 나타낸 함수

 

○ 모델 결정 → 파라미터 추정

    ● 선형 결합(다중선형회귀 모델)

        - Least Square Estimation Algorithm 사용

    ● 지수형태에 역수(비선형; 로지스틱회귀 모델

        - 여러 개의 알고리즘 중 유명한 알고리즘 적용식(Conjugate Gradient Algorithm)

    ● X의 조합으로 Y를 표현(의사결정나무 모델)

    ● 2번째 식을 여러 개 합친 형태(뉴럴네트워크 모델)

        - 역전오류파알고리즘(Backpropagation Algorithm)

 

○ 정리

    ● 왼쪽 식처럼 표현을 하겠다(다중선형회귀, 로지스틱 회귀 모델, 뉴럴네트워크 모델)

       → 파라미터를 추정하는 알고리즘을 사용

 

○ 머신러닝 모델 학습 과정 요약

    ● 모델 결정(Y를 표현하기 위한 X들의 조합 방식 결정)

    ● 모델을 구성하는 파라미터 찾기(모델의 핵심)

        How? 가지고 있는 데이터를 이용

        Porpose? 실제 데이터의 값과 최대한 같게 나오도록