책(13)
-
텍스트 분석/추천시스템
텍스트 분석텍스트 분석 : 비정형 데이터인 텍스트를 분석하는 것 텍스트 분석 수행 프로세스 텍스트 사전 준비작업(텍스트 전처리) -> 피처 벡터화/추출 -> ML 모델 수립 및 학습/예측/평가 NTLK : 파이썬의 가장 대표적인 NLP패키지 Gensim : 토픽 모델링 분야에서 가장 두각을 나타내는 패키지 SoaCy : 뛰어난 수행 성능으로 최근 가장 주목을 받는 NLP 패키지 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화클렌징 : 텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업토큰화 : 문서에서 문장을 분리하는 문장 토큰화, 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눌 수 있음필터링/스톱 워드 제거/철자 수정stemminglemma..
2024.05.06 -
군집화
군집화k-평균 알고리즘군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법k-평균 동작 process군집화의 기준이 되는 중심을 구성하는 군집화 개수만큼 임의의 위치에 가져다 놓음각 데이터가 가장 가까운 곳에 위치한 중심점에 소속됨소속이 결정되면 군집 중심정르 소속된 데이터의 평균 중심으로 이동각 데이터는 기존에 속한 중심점보다 더 가까운 중심점이 있다면 해당 중심점으로 다시 소속을 변경다시 중심을 소속된 데이터의 평균 중심으로 이동중심점을 이동했는데 데이터의 중심점 소속 변경이 없으면 군집화를 종료. 그렇지 않다면 다시 4번 과정을 거쳐서 소속을 변경하고 이 과정을 반복장점일반적인 군집화에서 가장 많이 활용되는 알고리즘쉽고 간결단점거리 기반 알고리즘으로..
2024.05.06 -
회귀 / 차원축소
회귀 Linear Regression회귀에서 RSS는 비용(Cost), 비용 함수, 손실 함수(loss function)라고 함머신러닝 회귀 알고리즘은 데이터를 계속 학습하면서 이 비용 함수가 반환하는 값을 지속해서 감소시키고 최종적으로는 더 이상 갑소하지 않는 최소의 오류 값을 구하는 것임1)단순 선형 회귀(simple linear regression) : 한개의 독립 변수로 타겟 변수 예측2)다중 선형 회귀(multiple linear regression) : 다수의 독립변수로 타겟 변수 예측ex) 아들의 키 예측(y) = 아버지의 키 (x1) + 어머니의 키(x2) ...... 어머니 몸무게 …etc..경사하강법점진적으로 반복적인 계산을 통해 w 파라미터를 업데이트하면서 오류 값이 최소가 되는 w ..
2024.05.06 -
분류
2023년 12월 4일 225~229p분류지도학습 (정답이 주어진 상태)주어진 데이터의 피처와 레이블 값을 머신러닝 알고리즘으로 학습하고 모델을 생성하여 새로운 데이터(피처)가 주어졌을 때 해당 데이터의 레이블 값이 무엇인지 예측하도록 하는 것알고리즘 종류나이브 베이즈 (Naïve Bayes) : 특성들 사이의 독립을 가정하는 베이즈 정리를 기반으로 한 알고리즘로지스틱 회귀 (Logistic Regression) : 회귀 알고리즘이지만 시그모이드 함수를 사용하여 분류에도 사용이 가능. 독립 변수와 선형 관계성에 기반한다.결정트리 (Decision Tree) : 데이터 균일도에 따른 규칙을 기반으로 하는 알고리즘서포트 벡터 머신 (Support Vector Machine, SVM) : 개별 클래스 간 최대..
2024.05.06 -
추천 시스템
추천 시스템 콘텐츠 기반 필터링 협업 필터링 -> 최근접 이웃 협업 필터링, 잠재 요인 협업 필터링 콘텐츠 기반 필터링 추천 시스템 - 사용자가 특정한 아이템을 매우 선호하는 경우, 그 아이템과 비슷한 콘텐츠를 가진 다른 아이템을 추천하는 방식 ex) 특정 영화에 높은 평점을 주었다면 그 영화의 장르, 출연 배우, 감독, 영화 키워드 등의 콘텐츠와 유사한 다른 영화를 추천해 줌 최근접 이웃 협업 필터링 - 사용자가 아이템에 매긴 평점 정보나 상품 구매 이력과 같은 사용자 행동 양식(User behavior)만을 기반으로 추천을 수행하는 것 - 협업 필터링은 사용자-아이템 평점 매트릭스를 사용하여 사용자가 평가하지 않은 아이템을 평가한 아이템에 기반하여 예측하는 알고리즘- - 사용자-아이템 평점 매트릭스에..
2024.01.07 -
chapter 1.
1.피처 정규화 수치형 데이터에 대한 피처 정규화가 중요한 이유는? 모든 특징을 대략적으로 비슷한 수치 구간 내로 이동시킬 수 있음 두 가지 방법 선형함수 정규화(min - max scailng) 데이터에 대해 선형변환을 진행하여 결괏값이 [0, 1] 범위에 투영되도록 만듬 표준 정규화(z-score) 데이터를 평균이 0이고 표준편차가 1인 분포상으로 투영시킴 왜 수치형 데이터에 대해 정규화를 진행해야 하는가? 정규화되지 않은 데이터를 사용하면 비교적 많은 반복 과정을 거쳐야만 최적해를 찾을 수 있는 반면 정규화를 거치면 더 바르게 경사하강법을 이용해 최적해를 찾을 수 있음 2. 범주형 피처 데이터 정제 작업을 진행할 때 범주형 피처는 어떻게 처리해야 하는가? 순서형 인코딩 (=대소관계 - ) 원핫인코딩..
2024.01.06