Infra

[Datadog] Datadog 입문 (실습/사용법/설치/APM 모니터링)

비전공자 기록광 2025. 5. 27. 20:03
반응형

이번에 AWS summit 2025 에 다녀오면서 Datadog 부스에 신청을 하니 14일 무료 데모판을 줘서 한번 써봤다.

전부터 관심 있었지만 유료라 실습해볼 생각을 못했었는데.. 오예!

 

 

게다가 지금 free trial 하면 경품도 준다고 함

저 주세요!!!!!

 

기본 개념

Datadog은 애플리케이션 상태 모니터링 / 분석 플랫폼이다. SaaS 기반으로 에이전트만 설치하고 API키로 접근권한만 열어주면 편하게 사용가능하다.

기본적으로 로그 추적 및 상태 모니터링 툴로 Prometheus + Grafana 조합을 많이 쓰는데 비용만 감당 가능하다면.. datadog 너무 편리하고 좋고..

 

장점

 설치와 설정이 간편하다

아무래도 SaaS 라... P+G는 설치도 직접 해야하고 메트릭설정도 하나하나 해줘야하고 대시보드 구성도 하나하나 해줘야 했는데 Datadog은 기본 설정부터가 그냥 완성형이다.

 

UI가 직관적이고 대시보드가 예쁘다

 

datadog 제공

 

✅클라우드 통합 연동 쉬움

API키로 접근 권한을 열어주는 거라서 서버가 여러개라도 바로 바로 연동하기 좋다. 요즘같은 분산 환경 관리에 딱이다.

 

✅ Logs + Metrics + Tracing 통합

서버 시스템 상태인 Metrics와 이벤트 기록인 Logs 그리고 요청의 흐름인 Tracing을 한눈에 쉽게 볼 수 있다.

 

P+G로 구성하려면

Promethus로 메트릭 수집 

로그는 따로 (Loki 나 ELK 와 같은 도구 사용) 

트레이싱도 따로 (tempo 와 같은 도구 사용)

 

수집해 그라파나로 대시보드를 만들어줘야한다

생각만해도 귀찮은 작업을 datadog로 한방에 할 수 있다니.. 그러니 비싸지 🤣

 

 

단점

✅ 위에서 말했듯 유료다.

P+G는 오픈소스지만 datadog은 제품 사용에 따라 비용이 결정된다

메트릭 수집 모니터링, 로그 수집 & 저장, APM, Tracing 등등등 

각각 세부적인 비용이 존재하고 한번에 청구되는 방식이다.

 

이거 꽤나 두려운...

 

 

나는 신용카드 정보 입력도 하지 않은 무료계정이니 안심하고 실습해봤다! 😼

 

실습

FastAPI + Uvicorn의 간단한 애플리케이션과 ChromDB 모니터링

 

Window Datadog Agent 설치

 

아주 친절하게 알려준다.

관리자 권한으로 powershell 실행 후 해당 명령어 실행하면 된다.

APIkey도 가려줌

아주 친절백점

 

 

설치, agent 연동 완료...

 

애플리케이션과 연결

나는 FastAPI로 진행했다.

ddtrace 를 설치해 uvicorn run 할때 같이 돌려주면 된다.

 

ddtrace-run uvicorn main:app

 

 

APM 의 성능 추적을 위해 두가지 엔드포인트도 임의로 만들어줬다.

서버를 run 해줬더니 APM 모니터링 대시보드에서 볼 수 있었다.

 

 

 

다시말하지만 ddtrace 하나 붙여줬다.

별다른 설정 없이 run 했더니 대시보드가 뚝딱 나왔다. 실습이라고 할 수도 없음

 

 

각 엔드포인트에 대해서도 기간내 몇 번 호출됐는지, 응답은 얼마나 걸렸는지, 에러 여부 등등을 한 눈에 볼 수 있다.

 

 

엔드포인트를 누르면 요청별 상세 트레킹도 가능하다.

어떤 파라미터를 달고... 캡쳐는 하지 않았지만 어느 브라우저인지도 다 나온다.

 

ChromaDB 실행 모니터링

애플리케이션의 요청을 좀 더 확장해 트래킹하기 위해서 ChromDB도 띄워줬다.

띄우기 전에 애플리케이션에서 chromaDB의 상태를 체크하는 엔드포인트로 확인해줬다.

 

 

 

chromadb가 실행되지 않는 상황에서 health check를 해봤다.

 

 

에러가 자동으로 기록됐다.

watchdog을 통해 ai가 <어라 이거 이상하네... > 라며 대시보드에 크게 알려주기까지 해준다.

 

들어가 자세히 볼 수 있다.

 

 

분홍색 박스에 ONGOING 표시가 되어 있는 걸 보면

아직도 해결되지 않는 상태임을 확인할 수 있다.

 

 

 

로그도 수집되어 있어 바로 볼 수 있다.

chromaDB 안띄우고 health check 요청해서 그런거라고 딱 알 수 있다.

 

 

여기까지가 APM 모니터링이고

메트릭 시각화 대시보드인 Host Map  도 있다.

 

CPU 사용률, 메모리 사용량, 네트워크 트래픽 등을 한 눈에 볼 수 있다.

더 대박인건 docker 컨테이너도 볼 수 있음

 

 

아래는 datadog에서 제공하는 이미지인데

현업에서는 서버가 많을테니 이런식으로 아름답게 나올 것이다..

 

datadog 제공

 

이 외에도 알림 장애분석, 보완 이벤트 탐지 등등 기능이 너어무 많다.

재밌었다..

 

 

 

현업에서 datadog를 어떤식으로 활용하는지 가장 잘 적어둔 올리브영 기술 블로그 글을 공유하며 마무리하겠다.

datadog 실습을 하다보니 new relic 도 많이 쓰던데 좀 찾아봐야겠다... !

 

 

https://oliveyoung.tech/2024-07-05/dash-2024-slide/

 

DASH 2024,올리브영은 어떻게 Datadog으로 비즈니스를 모니터링하는가? | 올리브영 테크블로그

CJ Olive Young’s Journey to Bridge the Gap Between Business Operations and Infrastructure

oliveyoung.tech

https://oliveyoung.tech/2024-04-11/Datadog_QA/

 

올리브영 QA는 Datadog을 어떻게 활용하고 있을까? | 올리브영 테크블로그

Datadog을 활용할 줄 아는 QA가 되어보기

oliveyoung.tech

 

반응형