leangnews

2025년 11월 12일 10:00

크로노스피어, 설명 가능한 AI로 Datadog에 도전하는 관측 플랫폼

크로노스피어, 설명 가능한 AI로 Datadog에 도전하는 관측 플랫폼


기사 요약

  • 크로노스피어가 템포럴 지식 그래프를 바탕으로 한 AI 가이드형 트러블슈팅을 공개하며 복잡한 클라우드 환경에서의 문제 해결을 자동화·가속한다. 기업 로그가 급증하고 코드 커밋 속도가 빨라지는 가운데, 요약·패턴 인식에 그치지 않고 원인·결과를 설명하는 접근으로 차별화를 시도한다. 파트너 생태계, 비용 절감(평균 84%), 단계적 출시 전략으로 Datadog·Dynatrace·Splunk와의 경쟁에서 입지를 넓힌다.

크로노스피어, 'AI 가이드형 트러블슈팅' 공개

뉴욕 기반 옵저버빌리티(관측 가능성) 스타트업 크로노스피어가 엔지니어의 프로덕션 장애 진단·해결을 돕는 AI 가이드형 트러블슈팅을 발표했다. 핵심은 AI 분석과 템포럴 지식 그래프(Temporal Knowledge Graph)의 결합으로, 서비스와 인프라 의존성, 배포·플래그 등 변경 이력을 시간 축에서 연결해 맥락을 보여주는 것이다.

왜 지금 필요한가: 비용 폭증과 복잡성의 역설

크로노스피어 조사에 따르면 엔터프라이즈 로그 데이터는 전년 대비 250% 늘었고, MIT·펜실베이니아대 연구는 생성형 AI 도입 이후 주간 코드 커밋이 13.5% 증가했다고 전한다. 개발 속도는 빨라졌지만, 장애 디버깅은 여전히 수작업 위주라 병목이 커지는 상황이다.

핵심 기술: 템포럴 지식 그래프와 네 가지 기능

AI 가이드형 트러블슈팅: 데이터 기반 제안(Suggestions)

시스템이 자동으로 조사 경로를 제안하고, 각 제안에는 타이밍·의존성·오류 패턴 등 근거와 '왜 이 제안을 했는가'가 함께 제시된다. 엔지니어는 검증·수정·무시를 직접 선택하며, AI 가이드형 트러블슈팅은 엔지니어 주도권을 전제로 설계됐다.

템포럴 지식 그래프(시간 인지 모델)

메트릭·트레이스·로그, 인프라 컨텍스트, 배포/피처 플래그 같은 변경 이벤트, 운영 노트·런북 등 사람의 입력까지 한데 엮어 지속적으로 갱신되는 질의 가능한 지도로 만든다. Datadog·Dynatrace·Splunk의 정적 의존성 맵과 달리 '토폴로지'뿐 아니라 '시간' 변화를 추적하고, 비표준/커스텀 텔레메트리까지 정규화해 사각지대를 줄인다는 점을 내세운다.

Investigation Notebooks

조사 단계, 확인한 증거, 내린 결론과 조치가 자동으로 기록된다. 결과는 템포럴 지식 그래프에 반영되어 유사 사건의 해결 시간을 단축한다.

자연어 질의 빌더

자연어로 관측 데이터를 탐색·조합하는 질의를 생성해, 탭 전환 없이 한 화면에서 심층 분석을 이어갈 수 있다.

왜 '자동화'보다 '설명하는 AI'인가

크로노스피어는 초기 옵저버빌리티 AI의 한계로 '그럴듯하지만 틀린 자신감'을 지적한다. 그래서 자동 결정 대신 과정을 드러내는 방식을 채택했다. 예를 들어 Checkout 서비스에 SLO 알림이 울리면, 종속된 Payment 서비스에서 오류가 시작됐다는 우선 제안을 띄운다. 엔지니어가 '무엇이 바뀌었나?'를 묻자 변경 이벤트가 합류하고, 노트북에는 '피처 플래그 업데이트 → Payment 메모리 소진 → Checkout 지연'의 인과 사슬이 명확히 기록된다. 필요한 경우 플래그 롤백을 결정하고, 이 여정 전부가 재사용 가능한 지식이 된다. 이러한 흐름에서 AI 가이드형 트러블슈팅은 제안과 증거를 통해 신뢰를 구축한다.

경쟁 구도: Datadog·Dynatrace·Splunk와의 차별점

과거의 'AI for Observability'가 이상 탐지 상관·요약에 치우쳤다면, 크로노스피어는 인과 설명과 커스텀 텔레메트리 커버리지를 강조한다. 표준 통합에만 의존하면 모델이 빈칸을 추정해 오도할 수 있다는 지적이다. 가트너는 2025 매직 쿼드런트에서 크로노스피어를 2년 연속 리더로 선정했고, 2024년 고객의 소리에서도 4.7/5로 최고 평점을 기록했다. 한편 OpenAI가 GPU 워크로드 관측에 Datadog과 크로노스피어를 병행한다는 UBS 분석도 나왔다.

비용 효과와 CIO 체크리스트

크로노스피어는 평균 84% 데이터·비용 절감과 최대 75% 중대 사고 감소를 주장한다. 실제로 Robinhood는 신뢰성 5배, MTTD 4배 개선을 보고했고, Astronomer는 수집 단계 데이터 셰이핑으로 85% 이상 비용을 낮췄다. DoorDash는 거버넌스·표준화를 강화했고, Affirm은 블랙 프라이데이 10배 트래픽을 무리 없이 처리했다. CUBE Research는 '조회되지도 않는 로그가 관측 비용의 70% 이상을 차지한다'고 지적하며, CIO에게는 (1) 추론 투명성·통제, (2) 커스텀 텔레메트리 커버리지, (3) 수작업·도구 전환 감소 정도를 자가 환경에서 검증할 것을 권고한다. 이 과정에서도 AI 가이드형 트러블슈팅의 효과를 체감할 수 있어야 한다.

올인원 대신 파트너 에코시스템

크로노스피어는 LLM 모니터링(Arize), 실사용자 모니터링(Embrace), 지속 프로파일링(Polar Signals), 합성 모니터링(Checkly), 인시던트 관리(Rootly) 등 5개 특화 벤더와 파트너 프로그램을 공개했다. 대기업은 각 도메인에서 최고 깊이를 원한다는 판단으로, 현재는 계약이 분리되어 있으나 중장기적으로 단일 계약 모델로 간소화할 계획이다. 복합 구성임에도 단일 올인원 대비 비용·가치 측면에서 유리하다는 입장이다.

배경: 우버에서 탄생한 관측 아키텍처

공동창업자 마틴 마오와 롭 스킬링턴은 우버에서 연휴 대목(핼러윈·연말)에 내부 도구가 실패하던 문제를 오픈소스 기반으로 해결했고, 이 경험을 바탕으로 2019년 크로노스피어를 설립했다. 이후 Greylock·Lux·General Atlantic·Addition·Founders Fund 등에서 누적 3억4,300만 달러 이상을 조달했고, DoorDash·Zillow·Snap·Robinhood·Affirm 등 클라우드 네이티브 고객을 확보했다.

제공 일정과 로드맵

AI 가이드형 트러블슈팅의 Suggestions와 Investigation Notebooks는 일부 고객 대상으로 제한 제공을 시작했으며, 2026년 일반 제공을 목표로 한다. 내부 AI 워크플로에 직접 연결하는 MCP(Model Context Protocol) 서버는 즉시 사용 가능하다. 크로노스피어는 단계적 도입으로 현장 검증을 거쳐 제안 알고리즘을 정제하고, 시연용이 아닌 실제 장애 복구 시간을 단축하는지에 초점을 맞춘다. 궁극적으로 '블랙박스 자동화'가 아니라, 무엇을 알고 무엇을 모르는지 설명하며 최종 결정권을 인간에게 두는 접근이 대규모 시스템의 옵저버빌리티를 바꿀 것이라는 게 회사의 논지다.

이 기사 공유하기