activedeadlineseconds 2

📌 [Job 심화편 #3] Job 실행 중 Node 장애 시 복구 시나리오 분석

1️⃣ 개요 Job은 일회성 작업 또는 배치 작업을 위한 중요한 리소스입니다.하지만 Job 실행 중 해당 Pod이 올라간 노드가 장애(예: 전원 다운, 네트워크 단절) 상태가 되면, Job의 처리 흐름이 중단될 수 있습니다. 이 글에서는 Job이 노드 장애 상황에서 어떻게 반응하는지, 그리고복구를 위해 어떤 설정을 적용해야 하는지에 대해 설명합니다. 2️⃣ 기본 동작 원리조건Kubernetes의 기본 반응Job Pod 실행 중 노드가 다운됨해당 Pod이 Unknown 또는 Terminating 상태로 유지됨Kubelet이 응답 불가 상태Pod이 삭제되지 않고 그대로 남음일정 시간 경과 후Controller가 Pod을 새로 생성할 수 있음 (노드 상태 감지 후 재시도)✅ 이 과정은 빠르게 전환되지 않으며,..

📌 [Job 심화편 #2] Job에서 BackoffLimit과 ActiveDeadlineSeconds의 차이점과 조합 전략

1️⃣ 개요Job 리소스를 구성할 때 많이 사용되는 두 가지 설정이 있습니다:backoffLimit: 실패 시 재시도 횟수activeDeadlineSeconds: Job 전체 실행의 최대 허용 시간이 두 옵션은 비슷해 보이지만 완전히 다른 기준으로 Job의 생존을 제어합니다.이 글에서는 두 항목의 차이점과 함께, 실제 운영 환경에서 어떻게 조합하는 것이 효과적인지 전략적으로 설명합니다.2️⃣ 두 설정의 차이 정리 항목 backoffLimit activeDeadlineSeconds 기준실패 횟수실행 시간작동 대상실패한 Pod 기준Job 전체 기준목적최대 재시도 횟수 제한무한 실행 방지 (타임아웃)기본값6없음 (무제한)제어 방법실패마다 1회 증가Job 생성 시부터 시간 카운트✅ 두 설정은 병렬로 작동하며..

728x90