'대용량데이터' 태그의 글 목록

대용량데이터 2

EP28 | 고급 Python 활용 #17 | Spark와 Hadoop을 결합한 대규모 데이터 분석 아키텍처

이 글에서 다루는 개념Apache Spark와 Hadoop을 함께 활용하면 대용량 데이터를 효율적으로 저장하고 분석할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.Hadoop과 Spark의 차이 및 결합 방식Spark와 HDFS 연동하여 데이터 저장 및 분석YARN을 활용한 Spark 클러스터 관리Hive를 활용한 대용량 데이터 쿼리 실행Spark와 Hadoop을 활용한 실전 데이터 분석 사례1️⃣ Hadoop과 Spark의 차이 및 결합 방식📌 Hadoop과 Spark의 차이점 항목 Hadoop (MapReduce) Spark 처리 방식디스크 기반 (Batch Processing)메모리 기반 (In-Memory Processing)속도상대적으로 느림빠름 (100배 이상)주요 사용 사례장기적..

Data Engineering/python 2025.03.19

EP21 | 고급 Python 활용 #10 | Spark와 Python을 활용한 대용량 데이터 처리

이 글에서 다루는 개념Apache Spark는 대용량 데이터를 빠르게 처리할 수 있는 분산 컴퓨팅 프레임워크입니다.이번 글에서는 다음 내용을 학습합니다.Apache Spark 개념 및 아키텍처PySpark 설치 및 환경 설정Spark DataFrame을 활용한 데이터 처리Spark SQL을 활용한 데이터 분석RDD(Resilient Distributed Dataset)와 DataFrame 비교1️⃣ Apache Spark란?📌 Apache Spark란?대용량 데이터를 병렬 분산 처리하는 프레임워크Hadoop보다 100배 빠른 메모리 기반 연산 가능머신러닝, 스트리밍 데이터 처리 등 다양한 기능 지원📌 Spark 주요 개념 개념 설명 RDDSpark의 기본 데이터 구조 (Resilient Distr..

Data Engineering/python 2025.03.19

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

Cilium, langchain, gitops, 서비스메시, Istio, Python, RAG, 파이썬, Minio, DevOps, k8s, CI/CD, kubernetes, 쿠버네티스, 서비스_운영, argocd, statefulset, Security, DaemonSet, YAML,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

대용량데이터 2

티스토리툴바