'hadoop' 태그의 글 목록

📘 [MinIO & Cilium 기반 오브젝트 스토리지 연동 시리즈 #9] fs.s3a.fast.upload를 활용한 Spark-S3 업로드 최적화 실습

✅ 목표: Apache Spark에서 MinIO(S3 호환)로 데이터를 업로드할 때,fs.s3a.fast.upload=true 설정을 적용하여 업로드 성능을 개선하는 방법을 실습합니다.🔎 이번 글에서 수행할 작업 요약Spark에서 S3A 기본 업로드 방식 이해fast.upload 옵션이 활성화되었을 때의 성능 변화 구조 설명Spark 작업에서 실제 옵션 적용 방법 실습업로드 처리 시간 비교 테스트🧠 1단계: 기본 업로드 방식 구조 이해이 단계의 목적: Spark가 S3A를 통해 데이터를 저장할 때,기본 업로드 흐름과 성능 병목이 발생하는 원인을 이해합니다.기본 구조:데이터가 작은 버퍼 단위로 업로드됨네트워크 호출이 잦고 병렬성이 낮음병목 원인:작은 객체가 잦은 PUT 요청으로 전송됨Buffer-to-..

Data Engineering/s3 minio 2025.03.26

📘 [MinIO & Cilium 기반 오브젝트 스토리지 연동 시리즈 #3] MinIO 내부 네트워크 구조 및 s3a:// 접근 테스트

✅ 목표: Kubernetes 클러스터 내부에서 MinIO의 DNS 기반 네트워크 구조를 이해하고,Spark 등 워크로드가 s3a:// 방식으로 MinIO에 접근할 수 있는지 실제로 테스트해봅니다.🔎 이번 글에서 수행할 작업 요약MinIO 서비스의 DNS 구조 및 접근 주소 확인Spark 또는 테스트 파드에서 s3a:// 프로토콜로 접근 테스트Spark 설정에 필요한 핵심 fs.s3a.* 항목 정리 및 테스트🌐 1단계: MinIO 서비스 DNS 구조 확인이 단계의 목적: MinIO가 내부에서 어떤 DNS 주소로 노출되는지 확인하고,s3a:// 경로로 접근할 때 사용할 수 있는 주소 형식을 파악합니다.# MinIO 서비스 정보 확인kubectl get svc -n minio 예시 출력:NAME T..

Data Engineering/s3 minio 2025.03.26

EP28 | 고급 Python 활용 #17 | Spark와 Hadoop을 결합한 대규모 데이터 분석 아키텍처

이 글에서 다루는 개념Apache Spark와 Hadoop을 함께 활용하면 대용량 데이터를 효율적으로 저장하고 분석할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.Hadoop과 Spark의 차이 및 결합 방식Spark와 HDFS 연동하여 데이터 저장 및 분석YARN을 활용한 Spark 클러스터 관리Hive를 활용한 대용량 데이터 쿼리 실행Spark와 Hadoop을 활용한 실전 데이터 분석 사례1️⃣ Hadoop과 Spark의 차이 및 결합 방식📌 Hadoop과 Spark의 차이점 항목 Hadoop (MapReduce) Spark 처리 방식디스크 기반 (Batch Processing)메모리 기반 (In-Memory Processing)속도상대적으로 느림빠름 (100배 이상)주요 사용 사례장기적..

Data Engineering/python 2025.03.19

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

YG Tech Blog

hadoop 3

티스토리툴바