SPARK(3)
-
SPARK 파티션, 액션, 그리고 DAG 구조 이해하기
Spark는 방대한 데이터를 빠르게 처리하기 위한 분산 처리 엔진이며, 데이터프레임(DataFrame)과 RDD(Resilient Distributed Dataset) 등의 자료 구조를 효과적으로 활용할 수 있는 다양한 API를 제공한다특히 트랜스포메이션(Transformation), 액션(Action), 지연 실행(Lazy Evaluation) 같은 개념을 파악하면 훨씬 효율적으로 Spark를 다룰 수 있다또한 Spark UI를 통해 작업을 모니터링하고, DAG(지향성 비순환 그래프)를 최적화하는 원리를 파악하면 한층 더 높은 퍼포먼스를 이끌어낼 수 있다목차Spark 파티션(Partition)의 이해트랜스포메이션(Transformation)과 액션(Action)지연 실행(Lazy Evaluation)D..
2025.02.25 -
Apache Spark 기본 개념 - 아키텍처부터 간단한 코드 실행까지
1. Apache Spark란?이전 글에서 Spark를 설치하고 spark-shell을 실행하는 것까지 완료했다. 이제 Spark가 어떻게 동작하는지 기본 개념을 정리해보려고 한다.📌 이번 글에서 다룰 내용Spark의 기본 아키텍처Spark 애플리케이션 구조다양한 언어 APISparkSession 개념간단한 코드 실행2. Spark 기본 아키텍처Spark는 분산 데이터 처리를 위한 프레임워크로, 여러 개의 컴퓨터(클러스터)에서 데이터를 효율적으로 처리할 수 있도록 설계되었다.✅ Spark의 클러스터 아키텍처Spark는 데이터를 처리할 때 클러스터(Cluster) 환경에서 실행된다.Spark에서 지원하는 클러스터 유형은 다음과 같다.클러스터 유형설명Standalone 모드Spark 자체 클러스터 매니저 ..
2025.02.22 -
Apache Spark 설치 & 실행기
스파크 완벽 가이드오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의 개선점과 새로운 기능을 자세히 설명합니다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 함께 살펴봅니다. 이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한저자빌 체임버스, 마테이 자하리아출판한빛미디어출판일2018.12.10 가격 : 48,000원광화문 교보문고에서 고르고 고른 책. 1. Spark를 공부하게 된 이유최근 데이터 처리와 분석에 관심이 생기면서 Spark를 직접 사용해보고 싶어졌다..
2025.02.22