데이터분석(21)
-
SPARK 파티션, 액션, 그리고 DAG 구조 이해하기
Spark는 방대한 데이터를 빠르게 처리하기 위한 분산 처리 엔진이며, 데이터프레임(DataFrame)과 RDD(Resilient Distributed Dataset) 등의 자료 구조를 효과적으로 활용할 수 있는 다양한 API를 제공한다특히 트랜스포메이션(Transformation), 액션(Action), 지연 실행(Lazy Evaluation) 같은 개념을 파악하면 훨씬 효율적으로 Spark를 다룰 수 있다또한 Spark UI를 통해 작업을 모니터링하고, DAG(지향성 비순환 그래프)를 최적화하는 원리를 파악하면 한층 더 높은 퍼포먼스를 이끌어낼 수 있다목차Spark 파티션(Partition)의 이해트랜스포메이션(Transformation)과 액션(Action)지연 실행(Lazy Evaluation)D..
2025.02.25 -
시계열 데이터 분석
[개념] 1. 정상성과 비정상성 정상성이란 ARIMA 모델링을 통해 시계열 데이터를 분석할 때 필수적으로 고려해야하는 가정으로 시점에 무관하게 과거, 현재, 미래의 분포가 같을 때 정상성을 띈다 말하고 추세를 보이거나 계절성을 보이면 비정상성을 띈다고 말한다. 2. 추세, 계절성, 주기성 추세란 데이터가 장기적으로 위로 올라가는지 내려가는지를 말한다. 계절성은 해마다 어떤 특정한 때나 1주일로 봤을 때 특정 요일에 나타나는 계절성 요인을 말한다. 주기성은 고정된 빈도가 아닌 형태로 증가나 감소하는 모습을 보이는 것이다. 계절성은 1면 마다 같은 변화가 생기는 것이고 주기는 1년보다 길고 다양하며 변동폭이 훨씬 크다. 추세 그래프 : 2,3 / 계절성 그래프 : 1, 3 / 주기성 그래프 : 1 3...
2024.07.07 -
k-means 군집화를 사용한 편의점 입점 위치 추천
https://github.com/1282saa/dongjak-gu GitHub - 1282saa/dongjak-gu: where is the best convenient store place in dongjak-gu? this project analizes many factors in dongjwhere is the best convenient store place in dongjak-gu? this project analizes many factors in dongjak-gu's data. and visualize. finally, we perform machine learning(Clustering) and find insigh...github.com
2024.05.06 -
서울 내 도서관 시각화(folium) & 주소를 좌표 값으로 변환하는 방법
라이브러리 불러오기 In [1]: import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import folium import requests import pandas as pd import geopandas as gpd df = pd.read_csv('Library.csv') df /Users/yeong-gwang/anaconda3/lib/python3.11/site-packages/pandas/core/arrays/masked.py:60: UserWarning: Pandas requires version '1.3.6' or newer of 'bottleneck' (version '1.3.5' currently installe..
2024.01.29 -
[공공데이터]지하철 2호선, 언제 어디서 타야 앉아서 갈 수 있을까?
코드 : https://github.com/1282saa/seoulmetro_line2_density GitHub - 1282saa/seoulmetro_line2_density Contribute to 1282saa/seoulmetro_line2_density development by creating an account on GitHub. github.com 가장 눈에띄게 승차한 인원이 많은 곳은 신림역 부근임을 확인할 수 있고, 잠실과 구의역도 그 뒤를 잇는다. 또한, 퇴근시간과 비교했을 때 강남역과, 시청역 부근에서 승차하는 인원은 매우 적은 것을 확인 가능하다. 따라서 2호선을 8~9시에 승차할 시 신림이나, 잠실역에서는 앉아가는 것을 기대하기는 어려울 것이며 반대로 시청역 부근이나 한강 이남 방..
2024.01.19 -
deep learning개념 & 대학 진학 예측 모델
import pandas as pd import tensorflow as tf import numpy as np #결측치 확인 및 제거 data=pd.read_csv('gpascore.csv') data.isnull().sum() data=data.dropna() data.isnull().sum() #x value, y value 설정 y_data = data['admit'].values print(y_data) x_data=[] for i,rows in data.iterrows(): #데이터를 한 행씩 출력하는 iterrows x_data.append([rows['gre'],rows['gpa'],rows['rank']]) print(x_data) exit() #딥러닝 model 디자인 model=tf...
2023.12.28