데이터분석(13)
-
[시계열 분석 개념 및 실습] Kaggle(Store Sales - Time Series Forecasting)
[시계열 분석 기본 개념]1. 정상성과 비정상성 정상성이란 ARIMA 모델링을 통해 시계열 데이터를 분석할 때 필수적으로 고려해야하는 가정으로 시점에 무관하게 과거, 현재, 미래의 분포가 같을 때 정상성을 띈다 말하고 추세를 보이거나 계절성을 보이면 비정상성을 띈다고 말한다. 2. 추세, 계절성, 주기성 추세란 데이터가 장기적으로 위로 올라가는지 내려가는지를 말한다. 계절성은 해마다 어떤 특정한 때나 1주일로 봤을 때 특정 요일에 나타나는 계절성 요인을 말한다. 주기성은 고정된 빈도가 아닌 형태로 증가나 감소하는 모습을 보이는 것이다. 계절성은 1면 마다 같은 변화가 생기는 것이고 주기는 1년보다 길고 다양하며 변동폭이 훨씬 크다. 추세 그래프 : 2,3 / 계절성 그래프 : 1, 3 / 주기성 ..
2024.07.18 -
시계열 데이터 분석
[개념] 1. 정상성과 비정상성 정상성이란 ARIMA 모델링을 통해 시계열 데이터를 분석할 때 필수적으로 고려해야하는 가정으로 시점에 무관하게 과거, 현재, 미래의 분포가 같을 때 정상성을 띈다 말하고 추세를 보이거나 계절성을 보이면 비정상성을 띈다고 말한다. 2. 추세, 계절성, 주기성 추세란 데이터가 장기적으로 위로 올라가는지 내려가는지를 말한다. 계절성은 해마다 어떤 특정한 때나 1주일로 봤을 때 특정 요일에 나타나는 계절성 요인을 말한다. 주기성은 고정된 빈도가 아닌 형태로 증가나 감소하는 모습을 보이는 것이다. 계절성은 1면 마다 같은 변화가 생기는 것이고 주기는 1년보다 길고 다양하며 변동폭이 훨씬 크다. 추세 그래프 : 2,3 / 계절성 그래프 : 1, 3 / 주기성 그래프 : 1 3...
2024.07.07 -
ClumnTransformer
ColumnTransformer는 파이썬의 scikit-learn 라이브러리에서 제공하는 클래스로, 데이터 전처리 과정에서 서로 다른 변환을 다른 열 또는 열 그룹에 적용할 수 있도록 해준다.이를 통해 각 열에 가장 적합한 전처리 방법을 선택적으로 적용할 수 있어, 데이터 처리 파이프라인을 효율적으로 구성할 수 있다.예를 들어, 데이터 세트에 숫자형 데이터와 범주형 데이터가 혼합되어 있는 경우, 숫자형 데이터에는 표준화나 정규화를 적용하고, 범주형 데이터에는 원-핫 인코딩을 적용할 수 있다.ColumnTransformer를 사용하면 이러한 다양한 처리를 단일 변환기 인터페이스를 통해 간단하게 적용할 수 있다.
2024.05.08 -
서울 법정동(자치구) 코드북
강서구 : 1150000000 양천구 : 1147000000 구로구 : 1153000000 영등포구 : 1156000000 금천구 : 1154500000 관악구 : 1162000000 동작구 : 1159000000 서초구 : 1165000000 강남구 : 1168000000 송파구 : 1171000000 강동구 : 1174000000 마포구 : 1144000000 서대문구 : 1141000000 은평구 : 1138000000 종로구 : 1111000000 중구 : 1114000000 용산구 : 1117000000 성북구 : 1129000000 성동구 : 1120000000 광진구 : 1121500000 중랑구 : 1126000000 동대문구 : 1123000000 강북구 : 1130500000 노원구 :..
2024.01.30 -
melt(데이터프레임 변형) 개념 및 예제
melt id_vars : 그대로 놔둘 컬럼 명 value_vars : 녹일 컬럼 명 var_name : 열에 사용할 이름 value_name : 열의 값에 사용할 이름 [실습1] 변경이 필요한 구조가 무엇인가? 연도별 데이터 확인이 직관적이지 못함 → 연도별 정리 국가 컬럼은 그대로 놔두기 위해 id_vars 사용 연도별 환자 수, 인구 컬럼 열의 이름을 지정하기 위해 var_name 사용 데이터 값들의 열 이름을 지정하기 위해 value_name 사용 추가적인 예제를 살펴보자 [실습2] 기존 데이터셋은 직관적으로 데이터 값을 확인할 수 있겠지만 데이터가 방대해지면 그 값을 찾기 어려워질 것이다. 변경한 데이터는 동일선상의 위치에서 값을 쉽게 찾을 수 있는 것이다. < ( — ) ..
2024.01.19 -
linear regression(ridge & lasso) coding implementation
to_numpy를 활용하면 행렬 연산이 가능한 형태로 변화 x의 feature는 5개 matmul은 행렬곱 함수(전치x 곱하기 x) 위의 w변수의 각각의 계수와 데이터프레임의 각 첫번째 행을 곱하기.(w곱하기 x_train) predicted_y_train 은 위에 수기로 계산한 것과 동일한 계산 값들임.(w계수와 train_x를 곱한것) 첫번째 값이 23.07245881로 동일한 것을 알 수 있음 잔차는 관측값 - 예측값 -> 그것을 제곱하기 -> 잔차의 평균을 구함 마찬가지로 y_test에 대해 잔차를 구하는 과정 선형회귀 모델을 만들고 fit을 이용해 학습시키기 (X_train, y_train)사용 절편 확인 mes값 구하기 \ & 결정계수 구하는 벙법 quiz! # 1. Student_Perfor..
2023.11.22