playdata 59

SK networks AI Camp - 비지도 학습

비지도 학습(Unsupervised Learning): 타깃이 없을 때 사용하는 머신러닝 알고리즘  사진을 분석 할 때는 높은 값으로 설정(밝은 색) why? 픽셀값이 높으면 출력값도 커지기 때문plt.imshow(fruits[0], cmap ='gray')plt.show()  색을 반전하고 싶다면?plt.imshow(fruits[0], cmap ='gray_r')plt.show() ○ 군집(clustering) 분석 : 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습    ● 평균 값 찾기 : k-평균(= 클러스터 중심 | 센트로이드)       - 작동 방식          1. 무작위로 k개의 클러스터 중심 선정              * 클러스터 : 군집 알고리즘으로 모은 샘플 그룹 ..

SK networks AI Camp- 회귀

지도 학습 알고리즘1. 회귀(Regression) : 임의의 어떤 숫자를 예측하는 문제(두 변수 사이의 상관관계를 분석하는 방법))2. 분류(Classification) : 추측하고자 하는 결과가 이름이나 문자면 분류(샘플을 몇 개의 클래스 중 하나로) 회귀○ 결정계수(R^2) = 1 - { (타깃 - 예측)^2의 합 / (타깃 - 평균)^2의 합 }  ○ 과대적합(overitting) : 훈련 세트에만 적합한 모델 ○ 과소적합(underfitting) : 테스트 점수가 높게 나오는 경우 or 두 점수 모두 낮은 경우    ● 과소적합 발생 이유 : 데이터의 수가 적은 경우    ● 과소적합 줄이는 법 : 모델을 복잡하게 만들기 ○ 선형 회귀 (Linear Regression)    ● 비교적 간단 & ..

SK networks AI Camp - 평가 지표

모델 성능 평가지표(Metric): 실제값과 모델에 의해 예측된 값을 비교하여 모델의 성능을 측정하는 방법 회귀 모형 성능 측정○ 회귀모델(Linear Regression) 학습 및 예측from sklearn.datasets import load_diabetesdiabetes = load_diabetes()data = diabetes.datatarget = diabetes.targetdata.shape , target.shapefrom sklearn.model_selection import train_test_splitSEED = 42x_train, x_valid , y_train, y_valid = train_test_split(data, target, random_state=SEED)x_train.s..

SK networks AI Camp - 8월 3주차 회고록

이번 주에 Mini project 발표와 Machine Learning, 데이터 전처리를 위한 Pandas와 Numpy 를 사용하는 수업을 하였습니다.[8월 3주차 배운 내용]2024.08.20 - [Networks/데이터 분석 및 AI] - SK networks AI Camp - Numpy 기초 SK networks AI Camp - Numpy 기초Numpy: C언어로 구현된 Python 라이브러리, 벡터 및 행렬 연산에 있어 매우 편리한 기능을 제고○ numpy.ndarray    ● ndarray.ndim : Array 요소의 총 개수(= shape 요소의 곱)    ● ndarray.shape : Array 크기를 나joowon582.tistory.com2024.08.20 - [Networks/데..

Networks/회고록 2024.08.25

SK networks AI Camp - Machine Learning

머신 러닝 시스템 워크플로우: 데이터 수집 → 점검 및 탐색 →  전처리 및 정제 →  모델링 및 훈련 →  평가 →  배포  ○ 수집 : 머신러닝 학습에 필요한 데이터 수집 ○ 점검 및 탐색 : 수집된 데이터의 구조, 노이즈 등 파악                          (= 탐색적 데이터 분석(EDA; Exploratory Data Analysis) 단계)○ 전처리 및 정제: 머신러닝 학습에 알맞게 데이터 정제 및 전처리○ 모델링 및 훈련 : 머신러닝 알고리즘을 선택 및 전처리가 완료된 데이터를 이용하여 머신러닝 학습○ 평가 : 테스트 데이터를 통해 모델 학습 평가, 평가가 좋지 않으면, 다시 머신러닝 학습을 진행○ 배포 : 성공적으로 훈련이 된 것으로 판단 → 완성된 모델을 서비스에 적용하기..

SK networks AI Camp - Pandas EDA

EDA(Exploratory Data Analysis) : 탐색적 데이터 분석데이터를 분석하고 결과를 도출하는 과정에 있어 지속적으로 해당 데이터에 대한 탐색, 이해를 가져야 함 ○ 분석 방법    ● 상관계수(피어슨 상관계수) : 두 변수 x, y 사이의 상관관계 정도를 나타내는 수치        - (-1)        - |r|의 크기 = 직선 관계에 가까운 정도       - r의 부호 = 관계의 방향       - r이 0에 가까울수록 상관관계가 없다       - 단위 X       - 큰 상관계수 값이 항상 두 변수 사이의 인과관계를 의미하지는 않음 why? 여러 잠재변수 존재 가능     ● 왜도(Skewness) : 데이터 분포의 비대칭도를 나타내는 통계량       - DataFrame..

SK networks AI Camp - Pandas 심화

(Colab에서 진행하며, 사용 데이터는 타이타닉 데이터를 사용합니다.) 1. 데이터 로드import seaborn as snsdf = sns.load_dataset('titanic') # 타이타닉 데이터 받아오기2. 데이터 조회○ df.head(I) : 처음에 해당하는 데이터 I개를 출력○ df.tail(I) : 끝에 해당하는 데이터 I개 출력○ df.isnull() : Null 값인지 True, False로 확인○ df.isnull().sum() : 컬럼별로 Null 값 확인○ df.isnull().sum().sum() : 컬럼별로 Null 값을 확인한 것들의 합(즉, 전체 데이터의 Null 값의 수)○ df.info() : 전체 수, nill 값 존재 유무, type 등에 대한 정보를 출력 # 처음..

SK networks AI Camp - Pandas 기초

Pandas: 데이터 처리와 분석을 위한 라이브러리* 수많은 개발자들이 numpy의 alias는 np, pandas의 alias는 pd로 해줍니다.import numpy as npimport pandas as pd 데이터 구조○ Series : 1차원 구조로 되어 있는 데이터(벡터)pd.Series(data=None, index=None, dtype=None, name=None, copy=False)    ● Series 생성 : 스칼라 값인 경우에는 인덱스를 제공해야 한다.data = {'a':1, 'b':2, 'c':3} # 딕셔너리pd.Series(data=data, dtype=np.int16, name='dict')# 스칼라 값인 경우 인덱스를 제공해야 함pd.Series(5.0, index=['..

SK networks AI Camp - Numpy 심화

기본 연산○ 행렬 연산    ● add(I, J), subtract(I, J), multiply(I, J), divide(I, J) : 각각 I+J, I-J, I*J, I/J 와 같은 결과import numpy as np data = np.array([1,2])ones = np.ones(2, dtype=int) # 2차원의 요소가 1인 행렬 생성data + ones, np.add(data, ones) # 두 개 같은 결과data - ones, np.subtract(data,ones) # 뺄셈 연산data * data, np.multiply(data, data) # 곱셈 연산data / data, np.divide(data, data) # 나눗셈 연산     ● 변수명.sum(), 변수명.size : 각..

SK networks AI Camp - Machine Learning(용어 및 모듈 정리)

○ 용어 정리    ● feauture : 학습용 데이터(머신러닝이나 데이터 분석에서 사용되는 개별 독립 변수 = 데이터 특성 표현)    ● 특성 : 데이터를 표현하는 하나의 성질    ● 훈련 : 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정    ● 모델 : 알고리즘이 구현된 객체    ● 정확도 : 사이킷런에서는 0 ~ 1 사이 (클수록 정확함)    ● 지도학습 : 입력과 타깃을 전달해 모델을 훈련한 다음 새로운 데이터를 예측하는데 활용    ● 비지도 학습: 타깃 데이터가 없이, 입력 데이터에서 어떤 특성을 찾는 데 주로 이용    ● 훈련 세트 : 모델 훈련 시 사용 데이터    ● 테스트 세트 : 전체 데이터의 20 ~ 30% 정도 사용. 데이터가 클 경우 1%로도 충분    ● 데이터 ..