파머완(3)
-
텍스트 분석/추천시스템
텍스트 분석텍스트 분석 : 비정형 데이터인 텍스트를 분석하는 것 텍스트 분석 수행 프로세스 텍스트 사전 준비작업(텍스트 전처리) -> 피처 벡터화/추출 -> ML 모델 수립 및 학습/예측/평가 NTLK : 파이썬의 가장 대표적인 NLP패키지 Gensim : 토픽 모델링 분야에서 가장 두각을 나타내는 패키지 SoaCy : 뛰어난 수행 성능으로 최근 가장 주목을 받는 NLP 패키지 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화클렌징 : 텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업토큰화 : 문서에서 문장을 분리하는 문장 토큰화, 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눌 수 있음필터링/스톱 워드 제거/철자 수정stemminglemma..
2024.05.06 -
군집화
군집화k-평균 알고리즘군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법k-평균 동작 process군집화의 기준이 되는 중심을 구성하는 군집화 개수만큼 임의의 위치에 가져다 놓음각 데이터가 가장 가까운 곳에 위치한 중심점에 소속됨소속이 결정되면 군집 중심정르 소속된 데이터의 평균 중심으로 이동각 데이터는 기존에 속한 중심점보다 더 가까운 중심점이 있다면 해당 중심점으로 다시 소속을 변경다시 중심을 소속된 데이터의 평균 중심으로 이동중심점을 이동했는데 데이터의 중심점 소속 변경이 없으면 군집화를 종료. 그렇지 않다면 다시 4번 과정을 거쳐서 소속을 변경하고 이 과정을 반복장점일반적인 군집화에서 가장 많이 활용되는 알고리즘쉽고 간결단점거리 기반 알고리즘으로..
2024.05.06 -
분류
2023년 12월 4일 225~229p분류지도학습 (정답이 주어진 상태)주어진 데이터의 피처와 레이블 값을 머신러닝 알고리즘으로 학습하고 모델을 생성하여 새로운 데이터(피처)가 주어졌을 때 해당 데이터의 레이블 값이 무엇인지 예측하도록 하는 것알고리즘 종류나이브 베이즈 (Naïve Bayes) : 특성들 사이의 독립을 가정하는 베이즈 정리를 기반으로 한 알고리즘로지스틱 회귀 (Logistic Regression) : 회귀 알고리즘이지만 시그모이드 함수를 사용하여 분류에도 사용이 가능. 독립 변수와 선형 관계성에 기반한다.결정트리 (Decision Tree) : 데이터 균일도에 따른 규칙을 기반으로 하는 알고리즘서포트 벡터 머신 (Support Vector Machine, SVM) : 개별 클래스 간 최대..
2024.05.06