SPARK 파티션, 액션, 그리고 DAG 구조 이해하기
Spark는 방대한 데이터를 빠르게 처리하기 위한 분산 처리 엔진이며, 데이터프레임(DataFrame)과 RDD(Resilient Distributed Dataset) 등의 자료 구조를 효과적으로 활용할 수 있는 다양한 API를 제공한다특히 트랜스포메이션(Transformation), 액션(Action), 지연 실행(Lazy Evaluation) 같은 개념을 파악하면 훨씬 효율적으로 Spark를 다룰 수 있다또한 Spark UI를 통해 작업을 모니터링하고, DAG(지향성 비순환 그래프)를 최적화하는 원리를 파악하면 한층 더 높은 퍼포먼스를 이끌어낼 수 있다목차Spark 파티션(Partition)의 이해트랜스포메이션(Transformation)과 액션(Action)지연 실행(Lazy Evaluation)D..
2025.02.25