Kaggle(2)
-
[시계열 분석 개념 및 실습] Kaggle(Store Sales - Time Series Forecasting)
[시계열 분석 기본 개념]1. 정상성과 비정상성 정상성이란 ARIMA 모델링을 통해 시계열 데이터를 분석할 때 필수적으로 고려해야하는 가정으로 시점에 무관하게 과거, 현재, 미래의 분포가 같을 때 정상성을 띈다 말하고 추세를 보이거나 계절성을 보이면 비정상성을 띈다고 말한다. 2. 추세, 계절성, 주기성 추세란 데이터가 장기적으로 위로 올라가는지 내려가는지를 말한다. 계절성은 해마다 어떤 특정한 때나 1주일로 봤을 때 특정 요일에 나타나는 계절성 요인을 말한다. 주기성은 고정된 빈도가 아닌 형태로 증가나 감소하는 모습을 보이는 것이다. 계절성은 1면 마다 같은 변화가 생기는 것이고 주기는 1년보다 길고 다양하며 변동폭이 훨씬 크다. 추세 그래프 : 2,3 / 계절성 그래프 : 1, 3 / 주기성 ..
2024.07.18 -
fake news
https://www.kaggle.com/competitions/fake-news/data Fake News | Kaggle www.kaggle.com nltk : 자연어 처리 패키지 stopwords (불용어) : 중요한 의미를 가지지 않은 단어 (관사, 전치사) PorterStemmer : 유사한 의미를 가진 단어들을 동일한 형태로 처리 STEMMING : 언어를 정규화 시키는 알고리즘 - 유사하지만 다양한 형태의 단어를 공통된 형태로 줄일 수 있음 actor, actress, acting --> act eating, eats, eaten --> eat - ^는 반전을 의미 : a~z, A~Z를 제외한 것은 공백처리 - stem 어간추출 예시 : the going → the go TF-IDF : 단어..
2023.12.23