개요
스파크 동작의 원리를 Jupyter Notebook 환경에서 실습하고, Spark UI를 통해 내부 처리 과정을 살펴보는 방법을 정리한다.
Jupyter Notebook 환경에서 Spark 설정하기
- Spark 설치
- 로컬 환경 혹은 도커 환경에서 Spark를 설치한다.
- 설치 후, spark-submit, pyspark 등의 명령이 정상 동작하는지 확인한다.
- Jupyter Notebook 설치 및 실행
- pip install jupyter (또는 pip3 install jupyter)
- 터미널에서 jupyter notebook 명령 실행
- 브라우저가 자동으로 열리거나, http://localhost:8888 주소로 접속한다.
- PySpark를 Notebook에서 사용
- 노트북 셀에서 from pyspark.sql import SparkSession 등을 이용해 SparkSession을 생성한다.
SparkSession 생성 예시
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("SparkJupyterExample") \
.master("local[*]") \
.getOrCreate()
생성된 SparkSession을 통해 RDD, DataFrame을 다룰 수 있다.
RDD/데이터프레임 연산 확인하기
RDD 예시
rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5])
mapped_rdd = rdd.map(lambda x: x * 2)
filtered_rdd = mapped_rdd.filter(lambda x: x > 5)
result = filtered_rdd.collect() # Action 호출
print(result)
- map, filter 같은 Transformation은 즉시 실행되지 않고, Spark 내부 DAG(계산 계획)에만 기록된다.
- collect처럼 결과를 반환하는 Action이 호출되면 그제서야 실제 연산이 수행된다.
DataFrame 예시
data = [("Alice", 20), ("Bob", 25), ("Charlie", 30)]
df = spark.createDataFrame(data, ["name", "age"])
df_filtered = df.filter(df.age > 20)
df_filtered.show() # Action
- 스파크의 DataFrame은 Catalyst Optimizer를 통해 내부적으로 추가 최적화를 수행한다.
- RDD와 마찬가지로 Action 호출 시점에 클러스터에서 연산이 시작된다.
참고 자료
Overview - Spark 3.5.5 Documentation
Downloading Get Spark from the downloads page of the project website. This documentation is for Spark version 3.5.5. Spark uses Hadoop’s client libraries for HDFS and YARN. Downloads are pre-packaged for a handful of popular Hadoop versions. Users can al
spark.apache.org
RDD Programming Guide - Spark 3.5.5 Documentation
RDD Programming Guide Overview At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. The main abstraction Spark provides is a resilient distributed
spark.apache.org
Web UI - Spark 3.5.5 Documentation
Web UI Apache Spark provides a suite of web user interfaces (UIs) that you can use to monitor the status and resource consumption of your Spark cluster. Table of Contents Jobs Tab The Jobs tab displays a summary page of all jobs in the Spark application an
spark.apache.org
Monitoring and Instrumentation - Spark 3.5.5 Documentation
Monitoring and Instrumentation There are several ways to monitor Spark applications: web UIs, metrics, and external instrumentation. Web Interfaces Every SparkContext launches a Web UI, by default on port 4040, that displays useful information about the ap
spark.apache.org
'기술 탐구 > Spark' 카테고리의 다른 글
(Apache Spark) 스파크의 구성 요소 및 개념 (feat: RDD, Dag, Lazy Evaluation, Job, Stage, Task, Shuffle) (0) | 2025.03.19 |
---|