대용량데이터 2

EP28 | 고급 Python 활용 #17 | Spark와 Hadoop을 결합한 대규모 데이터 분석 아키텍처

이 글에서 다루는 개념Apache Spark와 Hadoop을 함께 활용하면 대용량 데이터를 효율적으로 저장하고 분석할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.Hadoop과 Spark의 차이 및 결합 방식Spark와 HDFS 연동하여 데이터 저장 및 분석YARN을 활용한 Spark 클러스터 관리Hive를 활용한 대용량 데이터 쿼리 실행Spark와 Hadoop을 활용한 실전 데이터 분석 사례1️⃣ Hadoop과 Spark의 차이 및 결합 방식📌 Hadoop과 Spark의 차이점 항목  Hadoop (MapReduce) Spark 처리 방식디스크 기반 (Batch Processing)메모리 기반 (In-Memory Processing)속도상대적으로 느림빠름 (100배 이상)주요 사용 사례장기적..

EP21 | 고급 Python 활용 #10 | Spark와 Python을 활용한 대용량 데이터 처리

이 글에서 다루는 개념Apache Spark는 대용량 데이터를 빠르게 처리할 수 있는 분산 컴퓨팅 프레임워크입니다.이번 글에서는 다음 내용을 학습합니다.Apache Spark 개념 및 아키텍처PySpark 설치 및 환경 설정Spark DataFrame을 활용한 데이터 처리Spark SQL을 활용한 데이터 분석RDD(Resilient Distributed Dataset)와 DataFrame 비교1️⃣ Apache Spark란?📌 Apache Spark란?대용량 데이터를 병렬 분산 처리하는 프레임워크Hadoop보다 100배 빠른 메모리 기반 연산 가능머신러닝, 스트리밍 데이터 처리 등 다양한 기능 지원📌 Spark 주요 개념  개념 설명 RDDSpark의 기본 데이터 구조 (Resilient Distr..

728x90