fake news
2023. 12. 23. 11:01ㆍ공모전 & 프로젝트/kaggle
https://www.kaggle.com/competitions/fake-news/data
Fake News | Kaggle
www.kaggle.com
nltk : 자연어 처리 패키지
stopwords (불용어) : 중요한 의미를 가지지 않은 단어 (관사, 전치사)
PorterStemmer : 유사한 의미를 가진 단어들을 동일한 형태로 처리
STEMMING : 언어를 정규화 시키는 알고리즘 - 유사하지만 다양한 형태의 단어를 공통된 형태로 줄일 수 있음
actor, actress, acting --> act
eating, eats, eaten --> eat
- ^는 반전을 의미 : a~z, A~Z를 제외한 것은 공백처리
- stem 어간추출 예시 : the going → the go
<어간추출 전 후 비교>
TF-IDF : 단어의 중요도를 측정하는 수적 통걔 모델 기법
confusion matrix : 예측 라벨과 실제 라벨을 비교하는 것
cm :시각화될 혼동 행렬/classes : 혼동행렬 라벨 이름