[Datadog] Datadog 입문 (실습/사용법/설치/APM 모니터링)
이번에 AWS summit 2025 에 다녀오면서 Datadog 부스에 신청을 하니 14일 무료 데모판을 줘서 한번 써봤다.
전부터 관심 있었지만 유료라 실습해볼 생각을 못했었는데.. 오예!
게다가 지금 free trial 하면 경품도 준다고 함
저 주세요!!!!!
기본 개념
Datadog은 애플리케이션 상태 모니터링 / 분석 플랫폼이다. SaaS 기반으로 에이전트만 설치하고 API키로 접근권한만 열어주면 편하게 사용가능하다.
기본적으로 로그 추적 및 상태 모니터링 툴로 Prometheus + Grafana 조합을 많이 쓰는데 비용만 감당 가능하다면.. datadog 너무 편리하고 좋고..
장점
✅ 설치와 설정이 간편하다
아무래도 SaaS 라... P+G는 설치도 직접 해야하고 메트릭설정도 하나하나 해줘야하고 대시보드 구성도 하나하나 해줘야 했는데 Datadog은 기본 설정부터가 그냥 완성형이다.
✅ UI가 직관적이고 대시보드가 예쁘다
✅클라우드 통합 연동 쉬움
API키로 접근 권한을 열어주는 거라서 서버가 여러개라도 바로 바로 연동하기 좋다. 요즘같은 분산 환경 관리에 딱이다.
✅ Logs + Metrics + Tracing 통합
서버 시스템 상태인 Metrics와 이벤트 기록인 Logs 그리고 요청의 흐름인 Tracing을 한눈에 쉽게 볼 수 있다.
P+G로 구성하려면
Promethus로 메트릭 수집
로그는 따로 (Loki 나 ELK 와 같은 도구 사용)
트레이싱도 따로 (tempo 와 같은 도구 사용)
수집해 그라파나로 대시보드를 만들어줘야한다
생각만해도 귀찮은 작업을 datadog로 한방에 할 수 있다니.. 그러니 비싸지 🤣
단점
✅ 위에서 말했듯 유료다.
P+G는 오픈소스지만 datadog은 제품 사용에 따라 비용이 결정된다
메트릭 수집 모니터링, 로그 수집 & 저장, APM, Tracing 등등등
각각 세부적인 비용이 존재하고 한번에 청구되는 방식이다.
이거 꽤나 두려운...
나는 신용카드 정보 입력도 하지 않은 무료계정이니 안심하고 실습해봤다! 😼
실습
FastAPI + Uvicorn의 간단한 애플리케이션과 ChromDB 모니터링
Window Datadog Agent 설치
아주 친절하게 알려준다.
관리자 권한으로 powershell 실행 후 해당 명령어 실행하면 된다.
APIkey도 가려줌
아주 친절백점
설치, agent 연동 완료...
애플리케이션과 연결
나는 FastAPI로 진행했다.
ddtrace 를 설치해 uvicorn run 할때 같이 돌려주면 된다.
ddtrace-run uvicorn main:app
APM 의 성능 추적을 위해 두가지 엔드포인트도 임의로 만들어줬다.
서버를 run 해줬더니 APM 모니터링 대시보드에서 볼 수 있었다.
다시말하지만 ddtrace 하나 붙여줬다.
별다른 설정 없이 run 했더니 대시보드가 뚝딱 나왔다. 실습이라고 할 수도 없음
각 엔드포인트에 대해서도 기간내 몇 번 호출됐는지, 응답은 얼마나 걸렸는지, 에러 여부 등등을 한 눈에 볼 수 있다.
엔드포인트를 누르면 요청별 상세 트레킹도 가능하다.
어떤 파라미터를 달고... 캡쳐는 하지 않았지만 어느 브라우저인지도 다 나온다.
ChromaDB 실행 모니터링
애플리케이션의 요청을 좀 더 확장해 트래킹하기 위해서 ChromDB도 띄워줬다.
띄우기 전에 애플리케이션에서 chromaDB의 상태를 체크하는 엔드포인트로 확인해줬다.
chromadb가 실행되지 않는 상황에서 health check를 해봤다.
에러가 자동으로 기록됐다.
watchdog을 통해 ai가 <어라 이거 이상하네... > 라며 대시보드에 크게 알려주기까지 해준다.
들어가 자세히 볼 수 있다.
분홍색 박스에 ONGOING 표시가 되어 있는 걸 보면
아직도 해결되지 않는 상태임을 확인할 수 있다.
로그도 수집되어 있어 바로 볼 수 있다.
chromaDB 안띄우고 health check 요청해서 그런거라고 딱 알 수 있다.
여기까지가 APM 모니터링이고
메트릭 시각화 대시보드인 Host Map 도 있다.
CPU 사용률, 메모리 사용량, 네트워크 트래픽 등을 한 눈에 볼 수 있다.
더 대박인건 docker 컨테이너도 볼 수 있음
아래는 datadog에서 제공하는 이미지인데
현업에서는 서버가 많을테니 이런식으로 아름답게 나올 것이다..
이 외에도 알림 장애분석, 보완 이벤트 탐지 등등 기능이 너어무 많다.
재밌었다..
현업에서 datadog를 어떤식으로 활용하는지 가장 잘 적어둔 올리브영 기술 블로그 글을 공유하며 마무리하겠다.
datadog 실습을 하다보니 new relic 도 많이 쓰던데 좀 찾아봐야겠다... !
https://oliveyoung.tech/2024-07-05/dash-2024-slide/
DASH 2024,올리브영은 어떻게 Datadog으로 비즈니스를 모니터링하는가? | 올리브영 테크블로그
CJ Olive Young’s Journey to Bridge the Gap Between Business Operations and Infrastructure
oliveyoung.tech
https://oliveyoung.tech/2024-04-11/Datadog_QA/
올리브영 QA는 Datadog을 어떻게 활용하고 있을까? | 올리브영 테크블로그
Datadog을 활용할 줄 아는 QA가 되어보기
oliveyoung.tech