월마트 데이터 분석(평가 : ridge, lasso, elastic net)

2023. 12. 16. 11:54공모전 & 프로젝트

https://github.com/1282saa/warmart-data-analysis

 

GitHub - 1282saa/warmart-data-analysis: warmart dataset analysis and evaluation by using lasso, ridge, elastic net

warmart dataset analysis and evaluation by using lasso, ridge, elastic net - GitHub - 1282saa/warmart-data-analysis: warmart dataset analysis and evaluation by using lasso, ridge, elastic net

github.com

 

데이터 소개

  • 월마트 매출 분석

해당 데이터셋은 휴무일, 날짜, 온도 등 따른 상점 판매에 대한 판매액을 보여주고 있고,

10개의 특성 [휴일, 온도, 연료 가격, 경제 지표(CPI, 실업률) 및 시간 관련 특징(년, 월, 일, 요일)과 같은 요소] 및 타겟 변수 [판매액]으로 구성된 6435개의 행을 가지고 있다. 이에 본 팀은 해당 데이터셋으로 다양한 특성들에 대한 판매액 간의 상관관계를 분석하고, 이를 시각화하며 이를 통해 어떤 요소가 더 효과적인지, 해당 요소는 판매액에 어떤 영향을 미치는지 등을 평가하고자 한다.

변수 설명

  • Store (상점): 상점을 식별하는 번호
  • Weekly_Sales (주간 판매): 주간 전체 판매 금액
  • Holiday_Flag (휴일 플래그): 휴일을 포함하는 주(1)인지 아닌지(0)를 나타내는 이진 표시기
  • Temperature (온도): 주간 동안의 온도
  • Fuel_Price (연료 가격): 주간 동안의 연료 비용
  • CPI (소비자 물가 지수): 소비자가 상품과 서비스를 지불하는 가격 변화를 측정하는 지수-> 인플레이션의 지표
  • Unemployment (실업률): 주간 동안의 실업률
  • Year (년): 데이터가 기록된 연도
  • Month (월): 데이터가 기록된 월
  • Day (일): 데이터가 기록된 월 중 날짜
  • Weekday (요일): 요일의 숫자 표현 (예: 일요일에는 1, 월요일에는 2 등).

데이터 불러오기

분석에 필요한 패키지 불러오기