airflow 6

[Airflow 가이드 ep.8] 2부 DAG 작성 #3 | Branching, SubDAG, Dynamic DAG 활용 전략

이 글에서는 Airflow DAG 작성의 고급 기법인 Branching, SubDAG, Dynamic DAG에 대해 알아봅니다. 기본적인 DAG 구조를 넘어 더 복잡하고 유연한 워크플로우를 구현하는 방법을 실전 예제와 함께 살펴보겠습니다. 다양한 비즈니스 로직을 Airflow에 효과적으로 구현하기 위한 전략을 배워보세요.📌 Branching 이해하기Airflow에서 Branching은 조건에 따라 다른 경로로 워크플로우를 분기하는 기능입니다. 데이터 처리 파이프라인에서 상황에 맞게 다른 작업을 수행해야 할 때 유용합니다.✅ BranchPythonOperator의 기본 원리BranchPythonOperator는 Python 함수의 반환값에 따라 워크플로우의 다음 경로를 결정합니다.  from airflo..

EP15 [Part 5: 애플리케이션 레벨 모니터링] 웹 애플리케이션 모니터링 (Airflow 등)

이번 글에서는 쿠버네티스 환경에서 운영되는 웹 애플리케이션, 특히 Airflow와 같은 워크플로우 관리 시스템을 모니터링하는 방법에 대해 알아보겠습니다. 웹 애플리케이션은 사용자에게 직접적인 서비스를 제공하는 핵심 구성 요소로, 효과적인 모니터링은 서비스 안정성과 사용자 경험을 보장하는 데 필수적입니다. 이 글에서는 Prometheus와 Grafana를 활용한 웹 애플리케이션 메트릭 수집, 대시보드 구성, 성능 병목 감지, 그리고 Airflow와 같은 특수 애플리케이션의 모니터링 전략까지 실무에 바로 적용할 수 있는 내용을 다루겠습니다.📌 웹 애플리케이션 모니터링의 핵심 개념웹 애플리케이션 모니터링은 인프라 모니터링보다 더 복잡하고, 애플리케이션에 특화된 접근이 필요합니다.✅ 웹 애플리케이션 모니터링의..

EP31 | 고급 Python 활용 #20 | Spark 기반 데이터 파이프라인 배포 전략

이 글에서 다루는 개념Spark 기반의 데이터 파이프라인을 효율적으로 배포하고 운영하는 전략을 다룹니다.이번 글에서는 다음 내용을 학습합니다.Spark 데이터 파이프라인 배포 개요Spark 배포 모드별 장단점 (Standalone, YARN, Kubernetes)Airflow와 Spark 연동하여 파이프라인 자동화CI/CD를 활용한 Spark 파이프라인 배포Spark 작업 모니터링 및 유지보수 방법1️⃣ Spark 데이터 파이프라인 배포 개요📌 데이터 파이프라인 배포란?데이터를 수집 → 처리 → 저장하는 Spark 애플리케이션을 운영 환경에 배포하는 과정실시간 또는 배치 처리 방식에 따라 다른 배포 전략 적용📌 Spark 배포 방식 비교 배포 방식 설명 장점 단점 Standalone단일 Spar..

EP20 | 고급 Python 활용 #9 | 데이터 자동화 및 작업 스케줄링 (Airflow)

이 글에서 다루는 개념Python에서는 Apache Airflow를 사용하여 작업 자동화 및 데이터 파이프라인을 관리할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.Airflow 개념 및 아키텍처Airflow 설치 및 실행 방법DAG(Directed Acyclic Graph) 개념 및 기본 작성법태스크(Task) 및 연산자(Operator) 활용크론(Cron) 스케줄링을 활용한 자동 실행1️⃣ Apache Airflow란?📌 Apache Airflow란?데이터 파이프라인 및 작업 자동화를 위한 워크플로우 관리 도구DAG(Directed Acyclic Graph) 개념을 기반으로 태스크 실행 흐름을 제어스케줄링 기능을 통해 주기적인 작업 자동화 가능📌 Airflow 주요 개념  개념 설명 DAG..

[13편] 운영 자동화 (Airflow & Kubernetes)

이 글에서는 PostgreSQL pgvector 기반 벡터 검색 시스템을 Airflow와 Kubernetes를 활용하여 자동화하는 방법을 다룹니다.특히, Airflow로 벡터 데이터를 자동 업데이트하고, Kubernetes CronJob & HPA(Auto Scaling)를 적용하여 운영을 최적화하는 실무적인 방법을 정리합니다. ✅ Airflow를 활용한 벡터 데이터 자동 업데이트 및 관리✅ Kubernetes CronJob을 활용한 주기적 벡터 데이터 백업 & 최적화✅ HPA(Auto Scaling) 적용으로 AI 검색 시스템의 자동 확장 🚀 1. Airflow를 활용한 벡터 데이터 자동 업데이트 🔹 1️⃣ Airflow를 활용하는 이유  ✅ AI 검색 시스템에서 벡터 데이터는 지속적으로 추가 & ..

Apache Airflow를 Minikube와 Helm으로 설치하기 (Apple M1 환경)

최근 로컬 개발 환경에서 워크플로우 관리 도구인 Apache Airflow를 사용해보고자, Apple M1 Pro 환경(MacBook Pro, 16GB 메모리)에서 Minikube와 Helm을 이용해 설치한 경험을 공유합니다. 이 글에서는 Minikube 클러스터 생성부터 Helm 차트를 활용한 Airflow 설치, 그리고 웹 UI 접속 및 초기 관리자 계정 설정까지의 전체 과정을 단계별로 정리합니다.1. Minikube 클러스터 생성먼저, Apple M1 Pro 환경에서 Docker 드라이버를 이용해 2노드 클러스터를 생성합니다.클러스터 생성 시, 총 7680MB 메모리와 4개의 CPU를 할당했습니다.다음 커맨드를 터미널에 입력합니다:minikube start --driver=docker --kuber..

728x90