fake news

2023. 12. 23. 11:01공모전 & 프로젝트/kaggle

 

https://www.kaggle.com/competitions/fake-news/data

 

Fake News | Kaggle

 

www.kaggle.com

nltk : 자연어 처리 패키지

 

 

stopwords (불용어) : 중요한 의미를 가지지 않은 단어 (관사, 전치사)

PorterStemmer : 유사한 의미를 가진 단어들을 동일한 형태로 처리

STEMMING : 언어를 정규화 시키는 알고리즘 - 유사하지만 다양한 형태의 단어를 공통된 형태로 줄일 수 있음
actor, actress, acting --> act
eating, eats, eaten --> eat

- ^는 반전을 의미 : a~z, A~Z를 제외한 것은 공백처리

- stem 어간추출 예시 :  the going → the go

 

<어간추출 전 후 비교>

TF-IDF : 단어의 중요도를 측정하는 수적 통걔 모델 기법

 

confusion matrix : 예측 라벨과 실제 라벨을 비교하는 것

cm :시각화될 혼동 행렬/classes : 혼동행렬 라벨 이름