EP10 [시리즈 1: Observability의 개념과 방향성] #10 Observability 오픈소스 정리

Observability/Observability

EP10 [시리즈 1: Observability의 개념과 방향성] #10 Observability 오픈소스 정리

ygtoken 2025. 3. 23. 15:11

728x90

지금까지 Observability의 기본 개념과 핵심 요소들에 대해 살펴보았습니다. 이번 포스트에서는 시리즈 1의 마지막 주제로 Observability 오픈소스 생태계를 총정리해보겠습니다. 현재 사용 가능한 주요 오픈소스 도구들의 특징, 장단점, 그리고 이들이 어떻게 함께 작동하여 종합적인 관측 가능성 솔루션을 제공하는지 알아보겠습니다.

📌 Observability 오픈소스 생태계 개요

Observability 생태계는 메트릭, 로그, 트레이스라는 세 가지 핵심 요소를 중심으로 발전해왔습니다. 각 영역에는 특화된 도구들이 있으며, 최근에는 이들을 통합하는 솔루션도 등장하고 있습니다.

✅ 오픈소스 도구의 중요성

Observability 구현에 있어 오픈소스 도구가 중요한 이유는 다음과 같습니다:

▶️ 비용 효율성

상용 솔루션 대비 라이센스 비용 절감
자원 사용량 최적화를 통한 인프라 비용 절감
필요한 기능만 선택적으로 구현 가능

▶️ 유연성과 확장성

다양한 환경과 사용 사례에 맞춤 구성 가능
조직의 성장에 따른 확장 용이
맞춤형 통합 및 확장 지원

▶️ 커뮤니티 지원

활발한 개발자 커뮤니티를 통한 지속적인 개선
다양한 사용 사례와 문제 해결 방법 공유
빠른 버그 수정 및 보안 업데이트

▶️ 혁신 촉진

최신 기술 및 방법론 신속 도입
실험과 검증을 통한 새로운 접근법 발견
다양한 도구 간 상호운용성 증진

✅ 생태계 지형도

현재 Observability 오픈소스 생태계는 다음과 같이 구분할 수 있습니다:

[이미지: Observability 오픈소스 생태계 지형도 - 메트릭, 로그, 트레이스 영역별 주요 도구들과 통합 플랫폼 표시]

▶️ 메트릭 중심 도구

Prometheus, Grafana, Nagios, Zabbix 등

▶️ 로깅 중심 도구

Elasticsearch, Logstash, Kibana(ELK), Fluentd, Loki 등

▶️ 트레이싱 중심 도구

Jaeger, Zipkin, OpenTracing, OpenTelemetry 등

▶️ 통합 플랫폼

Grafana Labs 스택, Elastic Observability, OpenTelemetry 등

▶️ 특화 도구

네트워크 모니터링: Telegraf, collectd
데이터베이스 모니터링: Percona PMM, pgMonitor
컨테이너 모니터링: cAdvisor, Prometheus Operator

📌 메트릭 수집 및 분석 도구

메트릭은 시스템 및 애플리케이션 상태를 수치로 표현한 데이터로, Observability의 핵심 구성 요소입니다.

✅ Prometheus

Prometheus는 현재 메트릭 기반 모니터링의 사실상 표준으로 자리 잡았습니다.

▶️ 주요 특징

다차원 데이터 모델(레이블 기반)
강력한 쿼리 언어(PromQL)
풀 기반 데이터 수집 아키텍처
내장 시계열 데이터베이스
서비스 발견 기능
알림 관리자(AlertManager) 통합

▶️ 장점

확장성과 안정성이 검증됨
쿠버네티스와의 뛰어난 통합
활성화된 커뮤니티와 풍부한 생태계
경량화된 에이전트 및 익스포터

▶️ 단점

장기 스토리지 제한(연합 또는 원격 스토리지 필요)
풀 모델로 인한 방화벽 뒤 서비스 모니터링 어려움
높은 카디널리티 처리에 제한

# Prometheus 기본 구성 예시
global:
  scrape_interval: 15s     # 기본 스크랩 간격: 15초마다 메트릭 수집
  evaluation_interval: 15s # 규칙 평가 간격: 15초마다 알림 규칙 평가

scrape_configs:
  - job_name: 'prometheus'  # 프로메테우스 자체 모니터링을 위한 작업
    static_configs:
      - targets: ['localhost:9090']  # 프로메테우스 자체 엔드포인트
  
  - job_name: 'node_exporter'  # 호스트 시스템 메트릭 수집을 위한 작업
    static_configs:
      - targets: ['node-exporter:9100']  # Node Exporter 엔드포인트
  
  - job_name: 'api_service'  # API 서비스 모니터링을 위한 작업
    metrics_path: '/metrics'  # 메트릭 수집 경로 지정
    static_configs:
      - targets: ['api-server:8080']  # API 서버 엔드포인트
        labels:  # 추가적인 레이블 정의 - 메트릭 데이터 분류에 사용
          service: 'api'  # 서비스 이름 레이블
          environment: 'production'  # 환경 레이블 (프로덕션)
          # 레이블을 통해 나중에 PromQL로 특정 서비스/환경의 메트릭만 필터링 가능

✅ Grafana

Grafana는 데이터 시각화 및 대시보드 도구로, 다양한 데이터 소스와 통합됩니다.

▶️ 주요 특징

다양한 데이터 소스 지원(Prometheus, Elasticsearch, InfluxDB 등)
풍부한 시각화 옵션과 커스터마이징
대시보드 템플릿 및 공유 기능
알림 및 알림 규칙 관리
사용자 관리 및 권한 제어

▶️ 장점

직관적인 인터페이스
다양한 데이터 소스 통합의 중앙 허브 역할
풍부한 커뮤니티 대시보드 템플릿
각종 알림 채널 지원(이메일, Slack, PagerDuty 등)

▶️ 단점

자체 데이터 수집/저장 기능 제한(다른 도구와 함께 사용 필요)
복잡한 설정이 필요한 고급 기능들
대규모 배포 시 리소스 요구사항 증가

// Grafana 대시보드 JSON 구성 예시 (일부)
{
  "dashboard": {
    "id": null,  // 새 대시보드 생성 시 null 유지, 기존 대시보드 업데이트 시 ID 지정
    "title": "API 서비스 모니터링",  // 대시보드 제목
    "tags": ["api", "production"],  // 대시보드 분류를 위한 태그
    "timezone": "browser",  // 시간대 설정 (브라우저 기준)
    "panels": [
      {
        "title": "요청 처리량(RPS)",  // 패널 제목
        "type": "graph",  // 패널 유형 (그래프)
        "datasource": "Prometheus",  // 데이터 소스 (Prometheus)
        "targets": [
          {
            // PromQL 쿼리: API 서비스의 초당 요청 수를 인스턴스별로 계산
            "expr": "sum(rate(http_requests_total{service=\"api\"}[5m])) by (instance)",
            "legendFormat": "{{instance}}",  // 범례 형식 (인스턴스 이름 표시)
            "interval": "",  // 시간 간격 (기본값 사용)
            "refId": "A"  // 참조 ID (여러 쿼리 구분에 사용)
          }
        ],
        "yaxes": [
          {
            "format": "short",  // Y축 형식
            "label": "요청/초"   // Y축 레이블
          }
        ]
        // 패널의 기타 속성 (크기, 위치, 색상 등)은 생략
      }
      // 추가 패널은 생략
    ]
    // 대시보드의 기타 설정은 생략
  }
}

✅ 기타 메트릭 도구

▶️ InfluxDB & Telegraf

시계열 데이터에 최적화된 데이터베이스(InfluxDB)
경량 데이터 수집 에이전트(Telegraf)
특징: 푸시 모델 지원, SQL과 유사한 쿼리 언어(InfluxQL), 다양한 입출력 플러그인

▶️ Zabbix

종합적인 모니터링 솔루션
특징: 에이전트 기반, 템플릿 시스템, 네트워크 디스커버리, 분산 모니터링

▶️ Nagios & Icinga

전통적인 모니터링 도구
특징: 상태 모니터링, 알림 시스템, 풍부한 플러그인 생태계

📌 로그 수집 및 분석 도구

로그는 시스템과 애플리케이션에서 발생하는 이벤트에 대한 자세한 정보를 제공합니다.

✅ Elasticsearch, Logstash, Kibana (ELK 스택)

ELK 스택은 로그 수집, 처리, 저장 및 시각화를 위한 통합 솔루션입니다.

▶️ Elasticsearch

분산 검색 및 분석 엔진
특징: 실시간 검색, 수평적 확장성, RESTful API, 스키마 없는 JSON 문서 저장

▶️ Logstash

로그 및 이벤트 데이터 수집 및 변환 파이프라인
특징: 다양한 입력/출력 플러그인, 필터링 및 강화 기능, 동적 파이프라인 구성

▶️ Kibana

Elasticsearch 데이터 시각화 및 탐색 도구
특징: 대화형 대시보드, 다양한 차트 및 그래프, 검색 및 필터링 기능

▶️ 장점

성숙하고 검증된 기술 스택
강력한 전체 텍스트 검색 및 분석 기능
확장성 높은 아키텍처
다양한 사용 사례 지원(로그 분석, 보안, 비즈니스 인텔리전스 등)

▶️ 단점

리소스 사용량이 많음
복잡한 설정 및 관리
대규모 배포 시 높은 운영 비용

// Logstash 파이프라인 구성 예시
{
  "input": {
    "beats": {
      "port": 5044  // Filebeat와 같은 Beats 에이전트가 데이터를 보내는 포트
    }
  },
  "filter": [
    {
      "grok": {
        "match": {
          // 정규 표현식 패턴을 사용하여 비정형 로그 메시지를 구조화된 필드로 파싱
          // 이 패턴은 ISO8601 형식 타임스탬프, 로그 레벨, 나머지 메시지를 추출
          "message": "%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:log_level} %{GREEDYDATA:message}"
        }
      }
    },
    {
      "date": {
        // 'timestamp' 필드의 값을 Elasticsearch가 이해할 수 있는 날짜 형식으로 변환
        // 이를 통해 시간 기반 검색 및 시각화 가능
        "match": [ "timestamp", "ISO8601" ]
      }
    }
    // 여기에 추가 필터(필드 추가, 조건부 로직, 데이터 변환 등)를 설정할 수 있음
  ],
  "output": {
    "elasticsearch": {
      "hosts": [ "elasticsearch:9200" ],  // Elasticsearch 서버 주소
      "index": "logs-%{+YYYY.MM.dd}"     // 일별 인덱스 생성 (로그 보관 정책 적용 용이)
      // 이 패턴을 통해 "logs-2023.03.23"와 같은 형식의 인덱스가 생성됨
    }
  }
}

✅ Grafana Loki

Loki는 Grafana Labs에서 개발한 로그 집계 시스템으로, 경량화와 비용 효율성에 중점을 둡니다.

▶️ 주요 특징

Prometheus에서 영감을 받은 레이블 기반 인덱싱
로그 콘텐츠 대신 메타데이터에 집중한 인덱싱
객체 스토리지 활용
Grafana와의 긴밀한 통합

▶️ 장점

적은 리소스 요구사항
간단한 설정 및 운영
Prometheus와 유사한 쿼리 모델
비용 효율적인 스토리지 사용

▶️ 단점

전체 텍스트 검색 제한
Elasticsearch보다 제한적인 쿼리 기능
아직 발전 중인 기능들

# Loki 구성 예시
auth_enabled: false  # 인증 비활성화 (개발/테스트 환경용, 프로덕션에서는 true 권장)

server:
  http_listen_port: 3100  # Loki 서버가 수신할 포트

ingester:
  lifecycler:
    address: 127.0.0.1  # 로컬 주소 (단일 인스턴스 모드)
    ring:
      kvstore:
        store: inmemory  # 인메모리 키-값 저장소 사용
      replication_factor: 1  # 복제 계수 (단일 인스턴스에서는 1)
    final_sleep: 0s  # 종료 전 대기 시간
  chunk_idle_period: 5m  # 청크가 비활성 상태로 간주되기 전 시간
  chunk_retain_period: 30s  # 청크가 플러시된 후 유지되는 시간

schema_config:  # 스키마 구성 (인덱스 및 청크 관리 방법 정의)
  configs:
    - from: 2020-01-01  # 이 스키마 구성이 적용되는 시작 날짜
      store: boltdb-shipper  # 인덱스 저장에 BoltDB Shipper 사용
      object_store: filesystem  # 파일 시스템을 객체 저장소로 사용
      schema: v11  # 스키마 버전
      index:
        prefix: index_  # 인덱스 파일 접두사
        period: 24h  # 인덱스 기간 (24시간마다 새 인덱스 생성)

storage_config:  # 스토리지 구성
  boltdb_shipper:  # BoltDB Shipper 설정
    active_index_directory: /loki/index  # 활성 인덱스 디렉토리
    cache_location: /loki/cache  # 캐시 위치
    cache_ttl: 24h  # 캐시 TTL (Time To Live)
    shared_store: filesystem  # 공유 저장소 유형
  filesystem:  # 파일 시스템 설정
    directory: /loki/chunks  # 청크 저장 디렉토리

limits_config:  # 제한 설정
  enforce_metric_name: false  # 메트릭 이름 강제 비활성화
  reject_old_samples: true  # 오래된 샘플 거부
  reject_old_samples_max_age: 168h  # 거부할 샘플의 최대 나이 (7일)
  # 이를 통해 시스템이 지나치게 오래된 로그를 처리하지 않도록 보호

✅ Fluentd & Fluent Bit

Fluentd와 Fluent Bit는 로그 수집 및 전송을 위한 오픈소스 도구입니다.

▶️ 주요 특징

통합 로깅 레이어
유연한 파이프라인 구성
다양한 입출력 플러그인
버퍼링 및 장애 복구 기능

▶️ Fluentd vs Fluent Bit

Fluentd: 더 다양한 기능과 플러그인, 리소스 요구사항 높음
Fluent Bit: 경량화, 컨테이너 환경에 최적화, 제한된 기능

▶️ 장점

다양한 소스와 목적지 지원
데이터 변환 및 필터링 기능
클라우드 네이티브 친화적
활발한 커뮤니티 지원



  @type tail  
  path /var/log/containers/*.log  
  pos_file /var/log/fluentd-containers.log.pos  
  tag kubernetes.*  
  read_from_head true  
  
    @type json  
    time_format %Y-%m-%dT%H:%M:%S.%NZ  
  



  @type kubernetes_metadata  
  kubernetes_url https://kubernetes.default.svc  
  verify_ssl false  
  



  @type elasticsearch  
  host elasticsearch   
  port 9200            
  logstash_format true  
  logstash_prefix k8s  
    
    @type file  
    path /var/log/fluentd-buffer  
    flush_interval 5s  
    retry_max_interval 30s  
    flush_thread_count 2

📌 분산 트레이싱 도구

분산 트레이싱은 마이크로서비스 아키텍처에서 요청 흐름을 추적하고 성능 병목을 식별하는 데 필수적입니다.

✅ Jaeger

Jaeger는 Uber에서 개발한 분산 트레이싱 시스템으로, 현재 CNCF 졸업 프로젝트입니다.

▶️ 주요 특징

분산 트랜잭션 모니터링
성능 및 지연 시간 최적화
서비스 의존성 분석
분산 컨텍스트 전파

▶️ 장점

OpenTracing 호환성
쿠버네티스 친화적
확장 가능한 아키텍처
직관적인 UI

▶️ 단점

일부 고급 분석 기능 제한
초기 설정 복잡성

# Jaeger 간단한 배포 구성 예시 (Docker Compose)
version: '3'
services:
  jaeger:
    image: jaegertracing/all-in-one:latest  # Jaeger의 모든 컴포넌트가 포함된 올인원 이미지
    ports:
      - "6831:6831/udp"  # Jaeger Thrift 에이전트 - 애플리케이션이 UDP로 트레이스를 전송하는 포트
      - "16686:16686"    # Jaeger UI - 웹 인터페이스에 접근하기 위한 포트
    environment:
      - COLLECTOR_ZIPKIN_HTTP_PORT=9411  # Zipkin 호환 HTTP 포트 설정 (Zipkin 클라이언트도 수용)
      - SPAN_STORAGE_TYPE=memory         # 스토리지 유형 (개발 환경용 메모리 스토리지)
      # 프로덕션 환경에서는 memory 대신 elasticsearch, cassandra 등을 사용해야 함

# 애플리케이션에서의 Jaeger 초기화 (Java 예시)
@Configuration  // Spring 설정 클래스임을 나타냄
public class JaegerConfig {
    @Bean  // Spring Bean 정의
    public Tracer jaegerTracer() {
        // 환경 변수나 시스템 속성에서 Jaeger 설정을 자동으로 로드
        // JAEGER_SERVICE_NAME, JAEGER_AGENT_HOST, JAEGER_AGENT_PORT 등을 설정 가능
        Config config = Config.fromEnv();
        
        // 설정을 기반으로 Tracer 인스턴스 생성 및 반환
        // 이 Tracer는 애플리케이션 내에서 트레이스 생성 및 전송에 사용됨
        return config.getTracer();
    }
}

✅ Zipkin

Zipkin은 Twitter에서 개발한 분산 트레이싱 시스템으로, 다양한 언어와 프레임워크를 지원합니다.

▶️ 주요 특징

서비스 호출 그래프 시각화
트레이스 탐색 및 필터링
지연 시간 히스토그램
REST API 제공

▶️ 장점

간단한 아키텍처
직관적인 사용자 인터페이스
Spring Cloud와의 긴밀한 통합
가벼운 리소스 요구사항

▶️ 단점

대규모 환경에서의 확장성 제한
일부 고급 분석 기능 제한

# Zipkin 간단한 배포 구성 예시 (Docker Compose)
version: '3'
services:
  zipkin:
    image: openzipkin/zipkin:latest  # 공식 Zipkin 이미지
    ports:
      - "9411:9411"  # Zipkin HTTP API 및 웹 UI 포트
    environment:
      - STORAGE_TYPE=elasticsearch  # 스토리지 유형 (Elasticsearch 사용)
      - ES_HOSTS=elasticsearch:9200  # Elasticsearch 호스트 주소
      # 기본값은 메모리 스토리지지만, 프로덕션 환경에서는 영구 스토리지 사용 권장
      # elasticsearch, mysql, cassandra 등을 지원함

# Spring Boot 애플리케이션에서의 Zipkin 구성 (application.properties)
spring.zipkin.baseUrl=http://zipkin:9411  # Zipkin 서버 기본 URL
spring.sleuth.sampler.probability=1.0  # 샘플링 비율 (1.0 = 100%, 모든 요청 추적)
# 프로덕션 환경에서는 성능 최적화를 위해 샘플링 비율을 낮추는 것이 좋음 (예: 0.1 = 10%)
# 추가 구성: 서비스 이름, 스팬 커스터마이징, 태그 추가 등 가능

✅ SigNoz

SigNoz는 Datadog, New Relic과 같은 SaaS 솔루션의 오픈소스 대안으로 개발된 통합 Observability 도구입니다.

▶️ 주요 특징

메트릭, 로그, 트레이스 통합
OpenTelemetry 기반
사용자 중심 모니터링
이상 탐지 및 알림

▶️ 장점

올인원 솔루션
현대적이고 직관적인 UI
OpenTelemetry 통합으로 표준화된 계측
SaaS 솔루션보다 비용 효율적

▶️ 단점

비교적 신생 프로젝트
일부 고급 기능 개발 중

# SigNoz 배포 구성 예시 (Docker Compose 일부)
version: '3'
services:
  clickhouse:
    image: clickhouse/clickhouse-server:22.6  # ClickHouse 데이터베이스 서버
    # ClickHouse는 SigNoz의 기본 스토리지 엔진으로, 고성능 컬럼형 분석 데이터베이스
    volumes:
      - ./clickhouse-config.xml:/etc/clickhouse-server/config.xml  # 기본 설정 파일
      - ./clickhouse-user-config.xml:/etc/clickhouse-server/users.xml  # 사용자 설정 파일
      - ./clickhouse-data:/var/lib/clickhouse  # 영구 데이터 저장 경로
      # 볼륨 마운트로 컨테이너 재시작 시에도 데이터 유지

  otel-collector:
    image: signoz/signoz-otel-collector:0.76.1  # SigNoz의 OpenTelemetry 컬렉터
    command: ["--config=/etc/otel-collector-config.yaml"]  # 컬렉터 설정 파일 경로
    volumes:
      - ./otel-collector-config.yaml:/etc/otel-collector-config.yaml  # 컬렉터 설정 파일 마운트
    ports:
      - "4317:4317"  # OTLP gRPC 포트 - 애플리케이션에서 트레이스/메트릭을 gRPC로 전송
      - "4318:4318"  # OTLP HTTP 포트 - 애플리케이션에서 트레이스/메트릭을 HTTP로 전송
      # 애플리케이션은 이 포트로 텔레메트리 데이터를 전송

  frontend:
    image: signoz/frontend:0.12.0  # SigNoz 웹 UI
    ports:
      - "3301:3301"  # 웹 인터페이스 접근 포트
    # 프론트엔드는 사용자가 텔레메트리 데이터를 시각화하고 분석하는 인터페이스
    # 이 UI에서 대시보드, 트레이스 뷰, 서비스 맵, 알림 설정 등 제공

📌 통합 Observability 프레임워크

최근에는 메트릭, 로그, 트레이스를 통합적으로 관리할 수 있는 프레임워크들이 등장하고 있습니다.

✅ OpenTelemetry

OpenTelemetry는 Cloud Native Computing Foundation(CNCF)의 인큐베이팅 프로젝트로, 표준화된 원격 측정 데이터 수집 및 전송을 위한 도구와 API를 제공합니다.

▶️ 주요 특징

표준화된 API 및 SDK
자동 계측 지원
다양한 언어 지원
백엔드 독립적 데이터 수집

▶️ 장점

산업 표준 지향
벤더 중립적
OpenTracing과 OpenCensus의 통합
풍부한 컨텍스트 및 메타데이터

▶️ 단점

아직 개발 중인 부분 존재
복잡한 초기 설정
일부 언어/프레임워크에서 제한적 지원

// Java 애플리케이션에서 OpenTelemetry 구성 예시
OpenTelemetrySdk openTelemetry = OpenTelemetrySdk.builder()
    .setTracerProvider(
        SdkTracerProvider.builder()
            .addSpanProcessor(BatchSpanProcessor.builder(OtlpGrpcSpanExporter.builder()
                .setEndpoint("http://otel-collector:4317")  // OpenTelemetry 컬렉터 gRPC 엔드포인트
                .build()).build())  // 트레이스를 모아서 배치로 내보내는 프로세서 설정
            .build())  // SDK Tracer Provider 구성 완료
    .setMeterProvider(
        SdkMeterProvider.builder()
            .registerMetricReader(PeriodicMetricReader.builder(OtlpGrpcMetricExporter.builder()
                .setEndpoint("http://otel-collector:4317")  // 동일한 컬렉터로 메트릭도 전송
                .build()).build())  // 주기적으로 메트릭을 내보내는 리더 설정
            .build())  // SDK Meter Provider 구성 완료
    .setPropagators(ContextPropagators.create(W3CTraceContextPropagator.getInstance()))  // W3C 표준 컨텍스트 전파기 사용
    .build();  // OpenTelemetry SDK 구성 완료

// 이 설정으로 애플리케이션은 트레이스와 메트릭을 OpenTelemetry 컬렉터로 전송할 수 있음
// 위 코드는 애플리케이션 시작 시 한 번 실행되어 OpenTelemetry SDK를 구성함

// OpenTelemetry 컬렉터 구성 예시
receivers:
  otlp:  # OTLP(OpenTelemetry Protocol) 수신기 설정
    protocols:
      grpc:  # gRPC 프로토콜 설정
        endpoint: 0.0.0.0:4317  # 모든 인터페이스에서 4317 포트로 수신
      http:  # HTTP 프로토콜 설정
        endpoint: 0.0.0.0:4318  # 모든 인터페이스에서 4318 포트로 수신
    # 이 설정으로 애플리케이션에서 gRPC 또는 HTTP로 텔레메트리 데이터 수신 가능

processors:
  batch:  # 배치 프로세서 설정 - 성능 최적화를 위해 데이터를 배치로 처리
    timeout: 1s  # 최대 배치 처리 대기 시간
    send_batch_size: 1024  # 한 번에 보낼 최대 항목 수
    # 배치 처리는 네트워크와 백엔드 부하를 줄이는 데 도움

exporters:
  prometheus:  # Prometheus 익스포터 - 수집된 메트릭을 Prometheus가 스크랩할 수 있는 형태로 노출
    endpoint: 0.0.0.0:8889  # Prometheus가 스크랩할 엔드포인트
  
  otlp:  # OTLP 익스포터 - 다른 OpenTelemetry 지원 백엔드(여기서는 Jaeger)로 데이터 전송
    endpoint: jaeger:4317  # Jaeger 백엔드 주소
    tls:
      insecure: true  # TLS 검증 비활성화 (개발 환경용, 프로덕션에서는 보안 설정 필요)
    # 이 설정으로 수집된 트레이스 데이터를 Jaeger로 전송

service:  # 서비스 파이프라인 설정 - 수신기, 프로세서, 익스포터를 연결
  pipelines:
    metrics:  # 메트릭 파이프라인
      receivers: [otlp]  # OTLP 수신기에서 데이터 입력
      processors: [batch]  # 배치 프로세서로 처리
      exporters: [prometheus]  # Prometheus 익스포터로 출력
    
    traces:  # 트레이스 파이프라인
      receivers: [otlp]  # OTLP 수신기에서 데이터 입력
      processors: [batch]  # 배치 프로세서로 처리
      exporters: [otlp]  # OTLP 익스포터(Jaeger)로 출력
    # 이 파이프라인 구성으로 수신한 데이터를 적절히 처리하고 내보냄

✅ Grafana Labs 통합 스택

Grafana Labs는 Grafana, Prometheus, Loki, Tempo를 결합하여 완전한 Observability 솔루션을 제공합니다.

▶️ 구성 요소

Grafana: 시각화 및 대시보드
Prometheus: 메트릭 수집 및 분석
Loki: 로그 집계
Tempo: 분산 트레이싱
Mimir: 대규모 Prometheus 메트릭 저장소

▶️ 장점

통합된 사용자 경험
상관관계 있는 뷰(트레이스-로그-메트릭 연결)
일관된 쿼리 언어 및 데이터 모델
오픈소스 기반

▶️ 단점

일부 고급 기능은 유료 엔터프라이즈 버전 필요
다른 도구 대비 일부 기능 제한

# Grafana 통합 스택 배포 예시 (Docker Compose)
version: '3'
services:
  grafana:
    image: grafana/grafana:latest  # Grafana 최신 이미지
    ports:
      - "3000:3000"  # Grafana 웹 인터페이스 포트
    environment:
      - GF_AUTH_ANONYMOUS_ENABLED=true  # 익명 액세스 허용 (개발 환경용)
      - GF_AUTH_ANONYMOUS_ORG_ROLE=Admin  # 익명 사용자에게 관리자 역할 부여
      # 프로덕션에서는 적절한 인증 메커니즘 구성 필요
    volumes:
      - ./grafana-provisioning:/etc/grafana/provisioning  # 데이터 소스 및 대시보드 자동 설정
      # 'provisioning' 디렉토리에는 데이터 소스와 대시보드 설정 JSON 파일을 미리 준비하여 배치 가능
  
  prometheus:
    image: prom/prometheus:latest  # Prometheus 최신 이미지
    ports:
      - "9090:9090"  # Prometheus 웹 UI 및 API 포트
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml  # Prometheus 구성 파일
      # 구성 파일에서 스크랩 대상 및 알림 규칙 정의
  
  loki:
    image: grafana/loki:latest  # Loki 최신 이미지 (로그 집계 시스템)
    ports:
      - "3100:3100"  # Loki API 포트
    command: -config.file=/etc/loki/local-config.yaml  # 로컬 구성 파일 사용
    # Loki는 레이블 기반 인덱싱으로 Prometheus와 유사한 접근 방식 채택
  
  tempo:
    image: grafana/tempo:latest  # Tempo 최신 이미지 (분산 트레이싱 시스템)
    command: -config.file=/etc/tempo.yaml  # 설정 파일 경로
    volumes:
      - ./tempo.yaml:/etc/tempo.yaml  # Tempo 구성 파일
    # Tempo는 대규모 트레이스를 저비용으로 저장/쿼리할 수 있도록 설계됨
  
  promtail:
    image: grafana/promtail:latest  # Promtail 최신 이미지 (로그 수집 에이전트)
    volumes:
      - /var/log:/var/log  # 호스트의 로그 디렉토리 마운트
      - ./promtail-config.yaml:/etc/promtail/config.yaml  # Promtail 구성 파일
    # Promtail은 로그 파일을 읽어 Loki로 전송하는 에이전트
    # 로그에 Prometheus와 동일한 레이블을 추가하여 메트릭-로그 상관관계 지원

✅ Elastic Observability

Elastic Stack(ELK)은 Observability 기능을 확장하여 종합적인 모니터링 솔루션을 제공합니다.

▶️ 구성 요소

Elasticsearch: 데이터 저장 및 검색
Kibana: 시각화 및 대시보드
Beats: 경량 데이터 수집기
APM: 애플리케이션 성능 모니터링
Machine Learning: 이상 감지 및 예측

▶️ 장점

통합된 플랫폼
강력한 검색 및 분석 기능
ML 기반 이상 탐지
확장성과 유연성

▶️ 단점

높은 리소스 요구사항
일부 기능은 유료 라이센스 필요
복잡한 설정 및 유지 관리

# Elastic Stack 배포 예시 (Docker Compose)
version: '3'
services:
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:8.6.1  # Elasticsearch 8.6.1 버전
    environment:
      - discovery.type=single-node  # 단일 노드 모드로 실행 (개발/테스트용)
      - ES_JAVA_OPTS=-Xms512m -Xmx512m  # JVM 힙 사이즈 설정 (메모리 제한)
      # 프로덕션 환경에서는 클러스터 모드 및 적절한 메모리 설정 필요
    ports:
      - "9200:9200"  # Elasticsearch HTTP API 포트
    volumes:
      - esdata:/usr/share/elasticsearch/data  # 데이터 영속성을 위한 볼륨
  
  kibana:
    image: docker.elastic.co/kibana/kibana:8.6.1  # Kibana 8.6.1 버전
    ports:
      - "5601:5601"  # Kibana 웹 UI 포트
    depends_on:
      - elasticsearch  # Elasticsearch 시작 후 실행
    # Kibana는 Elasticsearch의 데이터를 시각화하는 도구
  
  apm-server:
    image: docker.elastic.co/apm/apm-server:8.6.1  # APM 서버 8.6.1 버전
    ports:
      - "8200:8200"  # APM 서버 API 포트 - 애플리케이션에서 APM 데이터를 이 포트로 전송
    depends_on:
      - elasticsearch  # Elasticsearch 시작 후 실행
    volumes:
      - ./apm-server.yml:/usr/share/apm-server/apm-server.yml  # APM 서버 구성 파일
    # APM 서버는 애플리케이션 성능 데이터를 수집하여 Elasticsearch에 저장
  
  filebeat:
    image: docker.elastic.co/beats/filebeat:8.6.1  # Filebeat 8.6.1 버전
    volumes:
      - ./filebeat.yml:/usr/share/filebeat/filebeat.yml  # Filebeat 구성 파일
      - /var/log:/var/log:ro  # 호스트의 로그 디렉토리를 읽기 전용으로 마운트
    depends_on:
      - elasticsearch  # Elasticsearch 시작 후 실행
    # Filebeat는 로그 파일을 모니터링하고 수집하여 Elasticsearch로 전송
    # 시스템 로그, 애플리케이션 로그 등 다양한 로그 소스 지원

volumes:
  esdata:  # Elasticsearch 데이터를 위한 명명된 볼륨 정의
  # 이를 통해 컨테이너가 재시작되어도 데이터 유지

📌 특화 모니터링 도구

특정 영역이나 시스템에 특화된 오픈소스 모니터링 도구들도 Observability 생태계의 중요한 부분입니다.

✅ 데이터베이스 모니터링

데이터베이스는 대부분의 애플리케이션에서 핵심 구성 요소이므로 전용 모니터링 도구가 필요합니다.

▶️ PostgreSQL - pgMonitor

EnterpriseDB에서 개발한 PostgreSQL 모니터링 솔루션
Prometheus, Grafana와 통합
쿼리 성능, 연결, 복제 등 모니터링

▶️ MySQL/MariaDB - Percona Monitoring and Management (PMM)

MySQL, MariaDB, MongoDB 및 PostgreSQL 모니터링을 위한 솔루션
쿼리 분석, 성능 최적화, 용량 계획
기본 제공 대시보드 및 알림

# PMM 서버 배포 예시 (Docker)
docker run -d \
  --name pmm-server \
  -p 80:80 \
  -p 443:443 \
  --restart always \
  -v pmm-data:/srv \
  percona/pmm-server:latest

# PMM 클라이언트 설치 명령 (MySQL 서버 예시)
docker run -d \
  --name pmm-client \
  -e PMM_SERVER=pmm-server \
  -e PMM_USER=admin \
  -e PMM_PASSWORD=admin \
  --network=host \
  percona/pmm-client:latest \
  pmm-admin add mysql --username=monitor --password=password

✅ 네트워크 모니터링

네트워크 모니터링은 인프라 Observability의 중요한 부분입니다.

▶️ LibreNMS

자동 디스커버리 기능이 있는 네트워크 모니터링 시스템
SNMP 지원, 다양한 네트워크 장비 모니터링
알림 및 보고 기능

▶️ Netdata

실시간 성능 모니터링 도구
초당 수천 개의 메트릭을 수집하여 시각화
최소한의 리소스 사용

# Netdata 설치 예시 (Linux)
bash <(curl -Ss https://my-netdata.io/kickstart.sh)

# Netdata 설정 파일 (예시)
# /etc/netdata/netdata.conf
[global]
  update every = 1  # 1초마다 데이터 수집
  memory mode = dbengine  # 데이터 저장 모드 설정
  
[web]
  allow connections from = localhost 192.168.1.*  # 접근 허용 IP 범위
  default port = 19999  # 웹 UI 포트

✅ 컨테이너 및 쿠버네티스 모니터링

컨테이너화된 환경은 특별한 모니터링 접근 방식이 필요합니다.

▶️ Prometheus Operator

쿠버네티스에서 Prometheus 인스턴스 관리 자동화
모니터링 구성을 쿠버네티스 네이티브 방식으로 관리
ServiceMonitor CRD를 통한 대상 발견

▶️ kube-state-metrics

쿠버네티스 클러스터의 다양한 객체에 대한 메트릭 생성
디플로이먼트, 포드, 서비스 등의 상태 모니터링
Prometheus와 통합

# Prometheus Operator 배포 예시 (Kubernetes Manifest 일부)
apiVersion: monitoring.coreos.com/v1
kind: Prometheus  # Prometheus CR 정의
metadata:
  name: prometheus
  namespace: monitoring
spec:
  replicas: 2  # 고가용성을 위한 복제본 수
  serviceAccountName: prometheus
  serviceMonitorSelector:  # 모든 ServiceMonitor 선택
    matchLabels:
      release: prometheus
  resources:  # 리소스 제한 설정
    requests:
      memory: 400Mi
    limits:
      memory: 2Gi
  retention: 15d  # 데이터 보존 기간
  storage:  # 영구 스토리지 구성
    volumeClaimTemplate:
      spec:
        storageClassName: standard
        resources:
          requests:
            storage: 100Gi

---
# ServiceMonitor 예시 - API 서비스 모니터링
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor  # ServiceMonitor CR 정의
metadata:
  name: api-service
  namespace: monitoring
  labels:
    release: prometheus  # Prometheus CR에서 참조하는 레이블
spec:
  selector:  # 모니터링할 서비스 선택
    matchLabels:
      app: api-service
  namespaceSelector:  # 타겟 네임스페이스 설정
    matchNames:
      - default
      - production
  endpoints:  # 메트릭 엔드포인트 설정
    - port: metrics  # 서비스의 'metrics' 포트 참조
      interval: 15s  # 스크랩 간격
      path: /metrics  # 메트릭 경로
      scheme: http  # 프로토콜

📌 Observability 도구 선택 가이드

적절한 Observability 도구 선택은 환경, 요구사항, 팀 역량에 따라 달라집니다.

✅ 선택 기준

▶️ 환경 및 인프라

온프레미스 vs 클라우드
컨테이너/쿠버네티스 사용 여부
마이크로서비스 vs 모놀리식
지원되는 언어 및 프레임워크

▶️ 기능 요구사항

실시간 모니터링 필요성
긴 보존 기간 요구 사항
고급 분석 기능 필요성
상관관계 분석 중요도

▶️ 운영 고려사항

팀의 기술적 역량
유지 관리 리소스 가용성
확장성 요구사항
비용 제약

▶️ 통합 가능성

기존 도구와의 통합
알림 시스템 연동
CI/CD 파이프라인 통합
티켓팅/장애 관리 시스템 연결

✅ 시작을 위한 추천 스택

▶️ 소규모 환경 (기본 스택)

Prometheus + Grafana (메트릭)
Loki + Promtail (로그)
Tempo 또는 Jaeger (트레이스)

# 소규모 환경을 위한 설치 가이드 (Ubuntu, 요약)

# Prometheus 설치
wget https://github.com/prometheus/prometheus/releases/download/v2.37.0/prometheus-2.37.0.linux-amd64.tar.gz
tar xvfz prometheus-*.tar.gz
cd prometheus-*
./prometheus --config.file=prometheus.yml

# Grafana 설치
sudo apt-get install -y software-properties-common
sudo add-apt-repository "deb https://packages.grafana.com/oss/deb stable main"
sudo apt-get update
sudo apt-get install grafana
sudo systemctl start grafana-server

▶️ 중규모 환경 (균형 잡힌 스택)

Prometheus + Thanos (장기 스토리지)
Grafana (시각화)
Loki + Fluentd (로그)
OpenTelemetry + Jaeger (트레이스)

▶️ 대규모 환경 (엔터프라이즈 스택)

분산 Prometheus + Thanos/Cortex (메트릭)
Elasticsearch + Logstash + Kibana (로그)
OpenTelemetry + 선택한 백엔드 (트레이스)
중앙 집중식 알림 및 이벤트 관리 시스템

📌 미래 전망 및 트렌드

Observability 오픈소스 생태계는 계속 발전하고 있으며, 몇 가지 주요 트렌드가 나타나고 있습니다.

✅ 주요 트렌드

▶️ 통합 및 표준화

OpenTelemetry를 중심으로 한 표준화 노력
메트릭, 로그, 트레이스의 통합 뷰
데이터 수집 및 전송의 표준화

▶️ AI/ML 기반 분석

이상 탐지 자동화
예측적 모니터링 및 알림
자동 근본 원인 분석

▶️ 서비스 메시 및 에지 모니터링

서비스 메시와 Observability 통합
에지 컴퓨팅 환경 모니터링
IoT 장치 모니터링

▶️ 비즈니스 관측성 확장

기술 메트릭과 비즈니스 KPI 연계
사용자 경험 모니터링
비즈니스 프로세스 관측성

✅ 미래 과제

▶️ 데이터 양 관리

급증하는 텔레메트리 데이터 볼륨
비용 효율적인 장기 저장 솔루션
효과적인 샘플링 전략

▶️ 복잡성 관리

도구 과잉 방지
통합 구성 및 관리
간소화된 사용자 경험

▶️ 보안과 규정 준수

텔레메트리 데이터의 보안
개인 정보 보호 규정 준수
보안 이벤트 모니터링 통합

📌 결론

Observability 오픈소스 생태계는 다양한 도구와 프레임워크를 제공하여 현대적인 시스템 모니터링과 문제 해결을 가능하게 합니다. 주요 내용을 요약하면 다음과 같습니다:

다양한 도구들이 각 영역(메트릭, 로그, 트레이스)에서 특화된 기능을 제공하며, 이들은 점차 통합되는 추세입니다.
Prometheus와 Grafana는 메트릭 중심 모니터링의 사실상 표준으로 자리 잡았습니다.
ELK 스택과 Loki는 로그 관리에 있어 각각 다른 접근 방식을 제공합니다.
Jaeger와 Zipkin은 분산 트레이싱을 위한 강력한 오픈소스 솔루션입니다.
OpenTelemetry는 다양한 Observability 데이터 수집을 표준화하는 중요한 역할을 하고 있습니다.
통합 플랫폼(Grafana Labs 스택, Elastic Observability 등)은 종합적인 관측 가능성을 제공합니다.
특화된 도구들은 데이터베이스, 네트워크, 컨테이너와 같은 특정 영역에 대한 깊이 있는 모니터링을 가능하게 합니다.

Observability는 단순한 모니터링을 넘어 시스템 상태에 대한 깊은 이해와 문제 해결 능력을 제공합니다. 오픈소스 생태계의 다양한 도구들을 조합하여 자신의 환경에 맞는 최적의 Observability 스택을 구축할 수 있습니다. 미래에는 AI 기반 분석, 표준화, 통합 등의 트렌드가 더욱 강화될 것으로 예상됩니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Observability > Observability' 카테고리의 다른 글

EP11 [시리즈 2: 관측 가능성 기반 기술] #1 효과적인 트래픽 관리와 단일 장애점 해결 전략 (0)	2025.03.23
EP09 [시리즈 1: Observability의 개념과 방향성] #9 Observability 레퍼런스 아키텍처와 달성해야 할 핵심 목표 (0)	2025.03.19
EP08 [시리즈 1: Observability의 개념과 방향성] #8 RED 방법론 vs USE 방법론 - 관측 가능성 접근법 비교 분석 (0)	2025.03.19
EP07 [시리즈 1: Observability의 개념과 방향성] #7 Observability의 핵심: 상관관계의 중요성과 실제 구현 방법 (2)	2025.03.19
EP06 [시리즈 1: Observability의 개념과 방향성] #6 효과적인 로그 관리와 표준화 - 최적의 로깅 시스템 구축하기 (0)	2025.03.19

현재글EP10 [시리즈 1: Observability의 개념과 방향성] #10 Observability 오픈소스 정리

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

langchain, k8s, argocd, Minio, RAG, DaemonSet, statefulset, 파이썬, Python, CI/CD, 쿠버네티스, gitops, Istio, DevOps, Cilium, YAML, 서비스메시, 서비스_운영, Security, kubernetes,

Today :
Yesterday :

YG Tech Blog