tuning 2

📘 [MinIO & Cilium 기반 오브젝트 스토리지 연동 시리즈 #11] Spark Executor 병렬 요청으로 S3 업로드 성능 측정 실습

✅ 목표: Apache Spark에서 Executor 수를 조절하며 MinIO로 데이터를 저장할 때병렬성에 따른 성능 변화를 측정하고 최적의 리소스 설정을 도출해 봅니다.🔎 이번 글에서 수행할 작업 요약Spark Executor 병렬 구조 이해 및 리소스 설정 포인트 정리Executor 수를 조절하며 MinIO 업로드 테스트작업 처리 시간 및 S3 요청 수 비교실험 결과를 기반으로 적정 Executor 수 도출🧠 1단계: Spark Executor 구조와 리소스 설정 이해이 단계의 목적: Spark Executor가 어떤 역할을 수행하며,병렬성(Executor 수)이 데이터 처리에 어떤 영향을 주는지 이해합니다.Executor: Spark 작업 단위 실행 주체 (컨테이너 1개 = Executor 1개..

📘 [MinIO & Cilium 기반 오브젝트 스토리지 연동 시리즈 #9] fs.s3a.fast.upload를 활용한 Spark-S3 업로드 최적화 실습

✅ 목표: Apache Spark에서 MinIO(S3 호환)로 데이터를 업로드할 때,fs.s3a.fast.upload=true 설정을 적용하여 업로드 성능을 개선하는 방법을 실습합니다.🔎 이번 글에서 수행할 작업 요약Spark에서 S3A 기본 업로드 방식 이해fast.upload 옵션이 활성화되었을 때의 성능 변화 구조 설명Spark 작업에서 실제 옵션 적용 방법 실습업로드 처리 시간 비교 테스트🧠 1단계: 기본 업로드 방식 구조 이해이 단계의 목적: Spark가 S3A를 통해 데이터를 저장할 때,기본 업로드 흐름과 성능 병목이 발생하는 원인을 이해합니다.기본 구조:데이터가 작은 버퍼 단위로 업로드됨네트워크 호출이 잦고 병렬성이 낮음병목 원인:작은 객체가 잦은 PUT 요청으로 전송됨Buffer-to-..

728x90