머신러닝(8)
-
chapter 1.
1.피처 정규화 수치형 데이터에 대한 피처 정규화가 중요한 이유는? 모든 특징을 대략적으로 비슷한 수치 구간 내로 이동시킬 수 있음 두 가지 방법 선형함수 정규화(min - max scailng) 데이터에 대해 선형변환을 진행하여 결괏값이 [0, 1] 범위에 투영되도록 만듬 표준 정규화(z-score) 데이터를 평균이 0이고 표준편차가 1인 분포상으로 투영시킴 왜 수치형 데이터에 대해 정규화를 진행해야 하는가? 정규화되지 않은 데이터를 사용하면 비교적 많은 반복 과정을 거쳐야만 최적해를 찾을 수 있는 반면 정규화를 거치면 더 바르게 경사하강법을 이용해 최적해를 찾을 수 있음 2. 범주형 피처 데이터 정제 작업을 진행할 때 범주형 피처는 어떻게 처리해야 하는가? 순서형 인코딩 (=대소관계 - ) 원핫인코딩..
2024.01.06 -
차원축소
차원 축소 개념 차원이(feature) 증가하면 데이터 포인트 간 거리가 기하급수적으로 멀어짐 (=희소한 구조) 만약 수백 개 이상 피처로 구성된 데이터 세트가 있다면 적은 차원에서 학습된 모델보다 예측 신뢰도 떨어짐 또한 개별 피처간 상관관계가 높을 가능성이 큼 선형 모델에서 입력 변수 간 상관관계가 높은 경우 다중 공산성 문제가 발생하며 결국, 모델 예측 성능이 저하됨 이러한 문제들을 해결하기 위해, 많은 다차원 피처를 줄이는 것이 차원 축소임 차원 축소 종류 2가지 피처 선택(feature selection) & 피처 추출(feature extraction) 피처 선택 특정 피처에 종속성이 강한 불필요한 피처 제거 즉, 특징을 잘 나타내는 주요 피처만 선택 피처 추출 기존 피처를 저차원의 중요 피처..
2023.12.30 -
224~349p
XGBoost(extreme gradient boosting) 트리 기반의 앙상블 학습에서 가장 각광받고 있는 기법 GBM의 단점인 느린 수행시간, 과적합 규제 부재 등의 문제를 해결 xgboost의 대표적인 장점 분류와 회귀에서의 뛰어난 예측 성능 GBM대비 빠른 수행 시간 과적합 규제 tree pruning 자체 내장된 교차검증-교차검증을 통해 평가데이터셋의 평가값이 최적화되면 반복을 중간에 멈출 수 있는 early stopping 기능 존재 결손값 자체 처리 파이썬 래퍼 xgboost 모듈 & 사이킷런 래퍼 xgboost 모듈 파이썬 래퍼 xgboost 모듈 : 초기의 독자적인 xgboost 프레임워크 기반의 xgboost 사이킷런 래퍼 xgboost 모듈 : 사이킷런과 연동되는 모듈 파이썬 래퍼 ..
2023.12.16 -
XGBoost 개념
225p~229p 1.Xgboost(extreme gradient boosting) : 트리 기반의 앙상블 학습에서 가장 각광받고 있는 기법 gbm의 단점인 느린 수행시간, 과적합 규제 부재 등의 문제를 해결 2.xgboost의 대표적인 장점 분류와 회귀에서의 뛰어난 예측 성능 GBM대비 빠른 수행 시간 과적합 규제 tree pruning 자체 내장된 교차 검증 - 교차 검증을 통해 평가 데이터셋의 평가 값이 최적화 되면 반복을 중간에 멈출 수 있는 early stopping 기능 존재 결손값 자체 처리 3.파이썬 래퍼 xgboost 모듈 & 사이킷런 래퍼 xgboost 모듈 파이썬 래퍼 xgboost 모듈 : 초기의 독자적인 xgboost 프레임워크 기반의 xgboost 사이킷런 래퍼 xgboost 모..
2023.12.05 -
numpy,ndarray배열, argsort
#1번 import numpy as np x=np.array([4,2,6,5,1,3,0]) print(np.sort(x)) print('\n') print(x) [0 1 2 3 4 5 6] [4 2 6 5 1 3 0] #2번 x=np.array([4,2,6,5,1,3,0]) print(x.sort()) print(x) None [0 1 2 3 4 5 6] #3번 x=np.array([4,2,6,5,1,3,0]) x_reverse_1=np.sort(x)[::-1] x_reverse_1 array([6, 5, 4, 3, 2, 1, 0]) In [12]: #4번 x=np.array([4,2,6,5,1,3,0]) x_reverse_2 = x[np.argsort(-x)] x_reverse_2 array([6, ..
2023.11.16 -
머신러닝 코딩 실습 [iris data]
n의 개수를 20개로 증가시키니 경계면이 완만하게 변하는 것이 확인되었음. 또한 성능 측정에서도 이전과는 다르게 100% 정확도가 아닌 것도 확인 가능했음. knn방식에서는 k가 적을수록 복잡해지고 과적합 될 가능성이 존재함.
2023.11.13