텍스트 분석/추천시스템
텍스트 분석텍스트 분석 : 비정형 데이터인 텍스트를 분석하는 것 텍스트 분석 수행 프로세스 텍스트 사전 준비작업(텍스트 전처리) -> 피처 벡터화/추출 -> ML 모델 수립 및 학습/예측/평가 NTLK : 파이썬의 가장 대표적인 NLP패키지 Gensim : 토픽 모델링 분야에서 가장 두각을 나타내는 패키지 SoaCy : 뛰어난 수행 성능으로 최근 가장 주목을 받는 NLP 패키지 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화클렌징 : 텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업토큰화 : 문서에서 문장을 분리하는 문장 토큰화, 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눌 수 있음필터링/스톱 워드 제거/철자 수정stemminglemma..
2024.05.06