pod복구 2

📌 [Job 심화편 #3] Job 실행 중 Node 장애 시 복구 시나리오 분석

1️⃣ 개요 Job은 일회성 작업 또는 배치 작업을 위한 중요한 리소스입니다.하지만 Job 실행 중 해당 Pod이 올라간 노드가 장애(예: 전원 다운, 네트워크 단절) 상태가 되면, Job의 처리 흐름이 중단될 수 있습니다. 이 글에서는 Job이 노드 장애 상황에서 어떻게 반응하는지, 그리고복구를 위해 어떤 설정을 적용해야 하는지에 대해 설명합니다. 2️⃣ 기본 동작 원리조건Kubernetes의 기본 반응Job Pod 실행 중 노드가 다운됨해당 Pod이 Unknown 또는 Terminating 상태로 유지됨Kubelet이 응답 불가 상태Pod이 삭제되지 않고 그대로 남음일정 시간 경과 후Controller가 Pod을 새로 생성할 수 있음 (노드 상태 감지 후 재시도)✅ 이 과정은 빠르게 전환되지 않으며,..

📌 [DaemonSet 심화편 #22] DaemonSet이 적용되지 않는 노드 감지 및 복구 자동화 방안

1️⃣ 개요DaemonSet은 클러스터의 모든 노드에 Pod을 하나씩 자동으로 배포하는 구조입니다.하지만 다양한 이유로 인해 특정 노드에 DaemonSet Pod이 배포되지 않거나, 실패한 상태로 남는 경우가 있습니다.이 글에서는 DaemonSet이 일부 노드에 정상적으로 배포되지 않았을 때 이를 자동으로 감지하고, 복구하는 방법에 대해 설명합니다.2️⃣ DaemonSet이 노드에 배포되지 않는 주요 원인 유형 설명 Taint/Toleration 불일치해당 노드에 Taint가 설정되어 있고, DaemonSet이 이를 Toleration하지 않음NodeSelector/NodeAffinity 조건 불일치노드의 라벨 조건과 맞지 않아 스케줄링에서 제외됨리소스 부족CPU, 메모리 부족으로 스케줄링 불가Pod ..

728x90