bag(bag of word)
from konlpy.tag import Okt okt=Okt() def build_bow(document): #온점 제거 및 형태소 분석 document=document.replace('.','') tokenized_document=okt.morphs(document) word_to_index={} bow=[] for word in tokenized_document: if word not in word_to_index.keys(): word_to_index[word]=len(word_to_index) #bow에 전부 기본값 1을 넣는다 bow.insert(len(word_to_index)-1,1) else: #재등장하는 단어의 인덱스 index=word_to_index.get(word) #word no..
2024.02.28