공모전 & 프로젝트
월마트 데이터 분석(평가 : ridge, lasso, elastic net)
광이11
2023. 12. 16. 11:54
https://github.com/1282saa/warmart-data-analysis
GitHub - 1282saa/warmart-data-analysis: warmart dataset analysis and evaluation by using lasso, ridge, elastic net
warmart dataset analysis and evaluation by using lasso, ridge, elastic net - GitHub - 1282saa/warmart-data-analysis: warmart dataset analysis and evaluation by using lasso, ridge, elastic net
github.com
데이터 소개
- 월마트 매출 분석
해당 데이터셋은 휴무일, 날짜, 온도 등 따른 상점 판매에 대한 판매액을 보여주고 있고,
10개의 특성 [휴일, 온도, 연료 가격, 경제 지표(CPI, 실업률) 및 시간 관련 특징(년, 월, 일, 요일)과 같은 요소] 및 타겟 변수 [판매액]으로 구성된 6435개의 행을 가지고 있다. 이에 본 팀은 해당 데이터셋으로 다양한 특성들에 대한 판매액 간의 상관관계를 분석하고, 이를 시각화하며 이를 통해 어떤 요소가 더 효과적인지, 해당 요소는 판매액에 어떤 영향을 미치는지 등을 평가하고자 한다.
변수 설명
- Store (상점): 상점을 식별하는 번호
- Weekly_Sales (주간 판매): 주간 전체 판매 금액
- Holiday_Flag (휴일 플래그): 휴일을 포함하는 주(1)인지 아닌지(0)를 나타내는 이진 표시기
- Temperature (온도): 주간 동안의 온도
- Fuel_Price (연료 가격): 주간 동안의 연료 비용
- CPI (소비자 물가 지수): 소비자가 상품과 서비스를 지불하는 가격 변화를 측정하는 지수-> 인플레이션의 지표
- Unemployment (실업률): 주간 동안의 실업률
- Year (년): 데이터가 기록된 연도
- Month (월): 데이터가 기록된 월
- Day (일): 데이터가 기록된 월 중 날짜
- Weekday (요일): 요일의 숫자 표현 (예: 일요일에는 1, 월요일에는 2 등).
데이터 불러오기
분석에 필요한 패키지 불러오기