leangnews

2026년 03월 08일 09:56

카르파티의 ‘나인의 행진’: 왜 AI 90% 신뢰성은 턱없이 부족한가

카르파티의 ‘나인의 행진’: 왜 AI 90% 신뢰성은 턱없이 부족한가


기사 요약

  • 카르파티가 말한 ‘나인의 행진’은 데모 수준의 90%에서 엔터프라이즈급 AI 신뢰성으로 가려면 각 자리의 9를 더할 때마다 같은 수준의 노력이 반복된다는 현실을 짚는다.

카르파티의 ‘나인의 행진’과 엔터프라이즈 AI

“데모에서 90% 성공하면, 그건 첫 번째 9에 불과하다.” — 안드레이 카르파티. ‘나인의 행진(March of Nines)’은 강력한 데모로 초기 90%까지는 갈 수 있지만, 그다음 각 자리의 9(99%, 99.9%, 99.99%…)를 더할 때마다 비슷한 공학적 노력이 다시 필요하다는 생산 환경의 현실을 설명한다. 엔터프라이즈 채택은 “가끔 잘 동작함”과 “소프트웨어처럼 믿고 쓸 수 있음” 사이의 간극, 즉 AI 신뢰성의 격차로 갈린다.

복리처럼 쌓이는 실패: p^n의 직관

대리(Agentic) 워크플로는 의도 파싱, 문맥 검색, 계획 수립, 도구 호출, 검증, 포맷팅, 감사 로깅 등 여러 단계를 거친다. 각 단계의 성공 확률이 p이고 전체 단계가 n이면, 끝단 성공률은 대략 p^n이 된다. 10단계만 되어도 단계별 실패가 복리처럼 누적된다. 인증·레이트리밋·커넥터와 같은 공유 의존성의 연쇄 장애는 경화하지 않으면 전체를 압도한다.

예시: 단계별 90%면 10단계 종단 성공은 34.87%로 떨어지고, 하루 10회 실행 시 약 6.5건이 중단된다. 99%→90.44%(거의 매일 중단), 99.9%→99.00%(10일에 한 번), 99.99%→99.90%(약 3.3개월에 한 번) 수준에서야 비로소 엔터프라이즈급으로 “믿을 만하다”는 체감이 생긴다.

측정 가능한 SLO로 AI 신뢰성 정의하기

카르파티의 조언처럼, 프롬프트를 더 구체화하고, 신뢰성을 수치화된 목표로 바꾼 뒤 분산을 줄이는 통제에 투자해야 높은 나인을 얻을 수 있다. 소수의 핵심 SLI로 시작하라.

  • 워크플로 완료율(성공 또는 명시적 에스컬레이션)
  • 도구 호출 성공률(타임아웃 내), 입·출력에 대한 엄격한 스키마 검증
  • 구조화 응답(JSON/arguments) 스키마 적합률
  • 정책 준수율(PII, 시크릿, 보안 제약)
  • p95 종단 지연시간과 워크플로당 비용
  • 페일백률(안전한 모델, 캐시, 휴먼 리뷰)

워크플로 영향도(저/중/고)별 SLO를 설정하고, 실험을 통제할 에러 버짓을 운영하라. 이것이 실전의 AI 신뢰성이다.

아홉 가지 실천법으로 ‘나인’을 더하기

1) 명시적 워크플로 그래프로 자율성 제한(메인: AI 신뢰성 확보)

유한한 상태와 재시도·타임아웃·종단 처리의 결정적(Deterministic) 핸들링이 있을수록 신뢰성은 오른다. 모델 호출은 상태기계나 DAG의 노드 안에 위치시키고, 허용 도구·최대 시도·성공 판정을 명시한다. 상태를 멱등 키로 영속화해 안전하고 디버그 가능한 재시도를 보장한다.

2) 경계마다 계약 강제

프로덕션 실패의 다수는 인터페이스 드리프트에서 시작된다. 모든 구조화 출력에 JSON Schema/Protobuf를 쓰고, 도구 실행 전 서버에서 검증하라. enum, 정규화된 ID, 시간(ISO-8601+타임존)·단위(SI)의 정규화를 습관화한다.

3) 검증기 레이어: 구문·의미·업무 규칙

스키마 검증은 형식을 잡고, 의미/업무 규칙 검사는 그럴듯하지만 시스템을 깨는 답을 막는다. 의미 검사는 참조 무결성·수치 범위·권한·ID 기반 결정적 조인을 포함한다. 업무 규칙은 쓰기 승인, 데이터 거주성, 고객 등급 제약을 포함한다.

4) 불확실성 신호로 위험 기반 라우팅

영향이 큰 행동일수록 높은 확증이 필요하다. 분류기·일관성 체크·2차 모델 검증 등의 신호로 경로를 결정하고, 위험한 단계는 더 강한 모델·추가 검증·휴먼 승인을 통과시키라.

5) 도구 호출을 분산 시스템처럼 설계

커넥터/의존성이 실패의 주범이 된다. 도구별 타임아웃, 지터 백오프, 서킷 브레이커, 동시성 제한을 적용하라. 도구 스키마를 버전 관리하고 API 변경 시 침묵 실패를 막기 위해 응답을 검증하라.

6) 검색(Retrieval)을 예측 가능하고 관측 가능하게

검색 품질은 grounding을 좌우한다. 커버리지 지표를 갖춘 버전드 데이터 제품으로 다루고, 빈 검색률·문서 최신성·라벨 쿼리 적중률을 추적하라. 카나리아로 인덱스 변경을 점진 배포하고, 최소 권한과 마스킹으로 유출 위험을 낮춰라.

7) 프로덕션 평가 파이프라인 구축

후반의 9는 희귀한 실패를 빨리 찾고 회귀를 막는 데 달렸다. 운영 트래픽에서 사건 기반 골든셋을 유지해 모든 변경에 돌리고, 섀도 모드·A/B 카나리아·SLI 회귀 시 자동 롤백을 운용하라.

8) 관측성과 운영 대응에 투자

실패가 드물어질수록 진단/복구 속도가 한계가 된다. 단계별 트레이스/스팬을 내고, 프롬프트·도구 I/O를 적절히 가린 뒤 저장하며, 모든 실패를 분류 체계로 태깅하라. 런북과 세이프 모드 토글(위험 도구 비활성, 모델 전환, 휴먼 승인 강제)로 빠른 완화가 가능해야 한다.

9) 결정적 페일백을 갖춘 자율성 슬라이더

결함 가능성이 있는 시스템엔 감독이 필요하다. 자율성은 스위치가 아니라 노브다. 읽기 전용·되돌릴 수 있는 행동을 기본으로 하고, 쓰기/비가역 작업엔 확인(또는 승인 워크플로)을 요구하라. 검색 전용 답변·캐시·룰 기반 처리·휴먼 에스컬레이션 같은 결정적 페일백을 마련하고, 테넌트별 세이프 모드를 노출해 사고 시 강한 모델·낮은 온도·짧은 타임아웃을 강제하라. 재개 가능한 핸드오프로 상태를 보존하고, 계획/변경분을 보여주며, 멱등 키로 정확한 단계부터 재개하도록 한다. 이것이 지속 가능한 AI 신뢰성의 토대다.

구현 스케치: 경계가 있는 스텝 래퍼

각 모델/도구 단계를 작은 래퍼로 감싸 예측 불가능성을 정책 기반 통제로 바꾼다. 엄격한 검증, 한정된 재시도, 타임아웃, 텔레메트리, 명시적 페일백을 포함한다. 유효성 오류 시 더 안전한 모드(낮은 온도, 더 엄격한 프롬프트)로 한 번 재시도하고, 소진 시 휴먼 에스컬레이션으로 안전을 지킨다.

왜 ‘후반의 9’가 비즈니스에 필요한가

신뢰성 격차는 곧 비즈니스 리스크다. 맥킨지 2025 글로벌 조사에 따르면 AI를 쓰는 조직의 51%가 최소 한 번의 부정적 결과를 겪었고, 약 3분의 1은 AI 부정확성과 직접 관련된 결과를 보고했다. 이 현실이 더 강한 측정, 가드레일, 운영 통제에 대한 수요를 만든다.

클로징 체크리스트

  • 가장 중요한 워크플로 하나를 골라 완료 SLO와 종단 상태 코드를 계측한다.
  • 모든 모델 출력과 도구 입·출력에 계약과 검증기를 추가한다.
  • 커넥터와 검색을 1급 신뢰성 과제로 다루고(타임아웃, 서킷, 카나리아), 관측한다.
  • 영향도가 큰 행동은 검증·승인을 거치는 고확신 경로로 라우팅한다.
  • 모든 사고를 골든셋 회귀 테스트로 전환한다.

규율 있는 엔지니어링—경계가 분명한 워크플로, 엄격한 인터페이스, 탄탄한 의존성, 빠른 운영 학습 루프—이 ‘나인의 행진’을 완성한다. (필자: 니킬 문젤, 15년 이상 SaaS에서 분산 시스템과 AI 팀을 구축)

실제 적용 예시

홈페이지 제작 전 필수 체크리스트

웹사이트 제작을 에이전트 워크플로로 자동화한다고 가정하면, 요구사항 수집→콘텐츠 검색→디자인 제안→에셋 생성→CMS 게시→품질 검수→승인 기록의 단계별 성공이 종단 품질을 좌우한다. 착수 전 체크리스트에 AI 신뢰성 관점의 항목을 넣어라: 도구/커넥터 스키마 버전 고정, 이미지·텍스트 생성의 스키마·브랜드 규칙 검증, 검색 인덱스 카나리아, 고위험(실서버 게시) 단계의 휴먼 승인, p95 지연·비용 모니터링과 세이프 모드(스테이징 전용 게시) 토글. 이렇게 하면 초기 데모 90%를 넘어 실서비스 수준의 AI 신뢰성을 확보할 수 있다.

홈페이지 제작 프로세스 단계별 안내

1) 요구 파악: 폼 입력을 스키마로 검증, PII 마스킹. 2) 자료 수집/검색: 빈 검색률·적중률을 추적, 최신성 점검. 3) 초안 생성: 모델 출력에 JSON 스키마 적용, 의미 검증으로 브랜드 톤/가이드 위반 차단. 4) 에셋 생성/편집: 도구 타임아웃·백오프·서킷 브레이커 적용. 5) 미리보기/검수: 불확실성 신호가 낮으면 휴먼 리뷰 강제. 6) 게시: 멱등 키로 안전 게시, 롤백 스위치 제공. 7) 감사/로그: 전 단계 트레이스와 실패 분류 체계 수집. 단계마다 SLI/SLO를 두고 에러 버짓을 운영하면, 홈페이지 제작 자동화에서도 엔터프라이즈급 AI 신뢰성이 일관되게 유지된다.

이 기사 공유하기