책(13)
-
텍스트 분석
텍스트 분석 : 비정형 데이터인 텍스트를 분석하는 것 텍스트 분석 수행 프로세스 텍스트 사전 준비작업(텍스트 전처리) -> 피처 벡터화/추출 -> ML 모델 수립 및 학습/예측/평가 NTLK : 파이썬의 가장 대표적인 NLP패키지 Gensim : 토픽 모델링 분야에서 가장 두각을 나타내는 패키지 SoaCy : 뛰어난 수행 성능으로 최근 가장 주목을 받는 NLP 패키지 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화 - 클렌징 : 텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업 - 토큰화 : 문서에서 문장을 분리하는 문장 토큰화, 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눌 수 있음 - 필터링/스톱 워드 제거/철자 수정 - stemming - lemm..
2024.01.06 -
분류
지도학습 (정답이 주어진 상태) 주어진 데이터의 피처와 레이블 값을 머신러닝 알고리즘으로 학습하고 모델을 생성하여 새로운 데이터(피처)가 주어졌을 때 해당 데이터의 레이블 값이 무엇인지 예측하도록 하는 것 알고리즘 종류 나이브 베이즈 (Naïve Bayes) : 특성들 사이의 독립을 가정하는 베이즈 정리를 기반으로 한 알고리즘 로지스틱 회귀 (Logistic Regression) : 회귀 알고리즘이지만 시그모이드 함수를 사용하여 분류에도 사용이 가능. 독립 변수와 선형 관계성에 기반한다. 결정트리 (Decision Tree) : 데이터 균일도에 따른 규칙을 기반으로 하는 알고리즘 서포트 벡터 머신 (Support Vector Machine, SVM) : 개별 클래스 간 최대 분류 마진을 효과적으로 잡아줌..
2024.01.05 -
회귀
회귀 Linear Regression 회귀에서 RSS는 비용(Cost), 비용 함수, 손실 함수(loss function)라고 함 머신러닝 회귀 알고리즘은 데이터를 계속 학습하면서 이 비용 함수가 반환하는 값을 지속해서 감소시키고 최종적으로는 더 이상 갑소하지 않는 최소의 오류 값을 구하는 것임 1)단순 선형 회귀(simple linear regression) : 한개의 독립 변수로 타겟 변수 예측 2)다중 선형 회귀(multiple linear regression) : 다수의 독립변수로 타겟 변수 예측 ex) 아들의 키 예측(y) = 아버지의 키 (x1) + 어머니의 키(x2) ...... 어머니 몸무게 …etc.. 경사하강법 점진적으로 반복적인 계산을 통해 w 파라미터를 업데이트하면서 오류 값이 최소..
2024.01.05 -
군집화
k-평균 알고리즘 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법 k-평균 동작 process 군집화의 기준이 되는 중심을 구성하는 군집화 개수만큼 임의의 위치에 가져다 놓음 각 데이터가 가장 가까운 곳에 위치한 중심점에 소속됨 소속이 결정되면 군집 중심정르 소속된 데이터의 평균 중심으로 이동 각 데이터는 기존에 속한 중심점보다 더 가까운 중심점이 있다면 해당 중심점으로 다시 소속을 변경 다시 중심을 소속된 데이터의 평균 중심으로 이동 중심점을 이동했는데 데이터의 중심점 소속 변경이 없으면 군집화를 종료. 그렇지 않다면 다시 4번 과정을 거쳐서 소속을 변경하고 이 과정을 반복 장점 일반적인 군집화에서 가장 많이 활용되는 알고리즘 쉽고 간결 단점 거리..
2024.01.05 -
차원축소
차원 축소 개념 차원이(feature) 증가하면 데이터 포인트 간 거리가 기하급수적으로 멀어짐 (=희소한 구조) 만약 수백 개 이상 피처로 구성된 데이터 세트가 있다면 적은 차원에서 학습된 모델보다 예측 신뢰도 떨어짐 또한 개별 피처간 상관관계가 높을 가능성이 큼 선형 모델에서 입력 변수 간 상관관계가 높은 경우 다중 공산성 문제가 발생하며 결국, 모델 예측 성능이 저하됨 이러한 문제들을 해결하기 위해, 많은 다차원 피처를 줄이는 것이 차원 축소임 차원 축소 종류 2가지 피처 선택(feature selection) & 피처 추출(feature extraction) 피처 선택 특정 피처에 종속성이 강한 불필요한 피처 제거 즉, 특징을 잘 나타내는 주요 피처만 선택 피처 추출 기존 피처를 저차원의 중요 피처..
2023.12.30 -
224~349p
XGBoost(extreme gradient boosting) 트리 기반의 앙상블 학습에서 가장 각광받고 있는 기법 GBM의 단점인 느린 수행시간, 과적합 규제 부재 등의 문제를 해결 xgboost의 대표적인 장점 분류와 회귀에서의 뛰어난 예측 성능 GBM대비 빠른 수행 시간 과적합 규제 tree pruning 자체 내장된 교차검증-교차검증을 통해 평가데이터셋의 평가값이 최적화되면 반복을 중간에 멈출 수 있는 early stopping 기능 존재 결손값 자체 처리 파이썬 래퍼 xgboost 모듈 & 사이킷런 래퍼 xgboost 모듈 파이썬 래퍼 xgboost 모듈 : 초기의 독자적인 xgboost 프레임워크 기반의 xgboost 사이킷런 래퍼 xgboost 모듈 : 사이킷런과 연동되는 모듈 파이썬 래퍼 ..
2023.12.16