이 글에서 다루는 개념Apache Spark는 대용량 데이터를 빠르게 처리할 수 있는 분산 컴퓨팅 프레임워크입니다.이번 글에서는 다음 내용을 학습합니다.Apache Spark 개념 및 아키텍처PySpark 설치 및 환경 설정Spark DataFrame을 활용한 데이터 처리Spark SQL을 활용한 데이터 분석RDD(Resilient Distributed Dataset)와 DataFrame 비교1️⃣ Apache Spark란?📌 Apache Spark란?대용량 데이터를 병렬 분산 처리하는 프레임워크Hadoop보다 100배 빠른 메모리 기반 연산 가능머신러닝, 스트리밍 데이터 처리 등 다양한 기능 지원📌 Spark 주요 개념 개념 설명 RDDSpark의 기본 데이터 구조 (Resilient Distr..