leangnews

2026년 01월 22일 11:02

트루파운드리, 모델 장애 자동 우회 솔루션 ‘TrueFailover’ 출시

트루파운드리, 모델 장애 자동 우회 솔루션 ‘TrueFailover’ 출시


기사 요약

  • 대형 모델 장애·지연·품질 저하를 자동 감지해 백업 모델·리전에 트래픽을 무중단 전환하는 TrueFailover를 공개했다.
  • 다중 모델·리전·클라우드 라우팅, 저하 인지형 모니터링, 프롬프트 자동 조정, 전략적 캐싱 등으로 엔터프라이즈 AI의 단일 공급자 의존을 완화한다.
  • 규제 준수 가드레일과 한계를 명확히 하고, 사용량 기반 과금으로 AI 게이트웨이 애드온으로 제공하며 조기 액세스 프로그램을 곧 시작한다.

트루파운드리, ‘TrueFailover’로 모델 장애 시 자동 우회

지난 12월 OpenAI 장애 당시 한 약국 고객사는 LLM으로 처방전 재조제를 지원하고 있어, 초 단위의 다운타임이 곧바로 매출 손실과 환자 불편으로 이어졌다. 트루파운드리는 이런 상황을 막기 위해 엔터프라이즈 AI 인프라용 ‘TrueFailover’를 공개했다. 이 시스템은 AI 제공자의 장애·지연·품질 저하를 자동 감지하고, 사용자가 눈치채기 전에 트래픽을 백업 모델과 다른 리전으로 매끄럽게 전환한다. 공동창업자 니쿤즈 바자즈는 “모델을 바꿀 때는 출력 품질, 지연 시간, 프롬프트 호환성까지 함께 고려해야 하며, 실시간 프롬프트 조정이 필요한 경우가 많다”고 말했다.

단일 공급자 의존이 위험한 이유

엔터프라이즈는 OpenAI, Anthropic, Google 등 주요 LLM을 핵심 인프라로 사용하지만, 수십 년의 운영 노하우로 가동률을 보장해온 전통적 클라우드와 달리 LLM 서비스는 고복잡·고자원 구조로 예기치 못한 장애에 취약하다. 완전한 중단뿐 아니라 응답 저하·품질 하락 같은 부분 장애는 모니터링을 피해가며 사용자 경험과 SLA를 잠식하고, 규모가 큰 서비스일수록 몇 초의 중단도 큰 금전·신뢰 손실로 번진다.

트루페일오버 아키텍처와 핵심 기능

트루파운드리의 AI 게이트웨이(포춘 1000 기업 대상 월 100억+ 요청 처리) 상단의 복원력 레이어로 동작하는 트루페일오버는 여러 기능을 엮어 안전망을 만든다. 다중 모델 페일오버로 주·백업 모델을 공급자별로 정의해 OpenAI 장애 시 Anthropic, Google Gemini, Mistral 또는 셀프호스팅 대안으로 투명하게 라우팅한다. 멀티리전·멀티클라우드 배치를 통해 지역 단위의 건강 상태를 감지해 정상 리전으로 우회하고, 저하 인지형 라우팅은 지연·오류율·품질 신호를 상시 모니터링해 느려짐이나 불안정의 전조를 포착, 사용자 체감 저하 전에 선제 전환한다. 전략적 캐싱은 급격한 트래픽 급증과 레이트리밋 연쇄를 흡수해 브라운아웃을 방지한다. TrueFailover는 다수 고객·다양한 워크로드에서 관찰한 신호를 바탕으로 자동 대응하며, 개별 기업이 보기 어려운 전체적 가시성을 제공한다.

품질 저하 없이 모델을 바꾸는 방법

모델 전환 시 최대 난제는 출력 일관성이다. GPT 계열에 최적화한 프롬프트가 Claude나 Gemini에서 다른 결과를 낼 수 있기 때문이다. 일부 팀은 대형 모델의 관용성을 활용해 소폭 품질 변화를 감수하고 전환하지만, 성숙한 구현은 공급자별 프롬프트 구성을 미리 준비한다. 트루파운드리는 라우팅과 동시에 프롬프트를 해당 모델용으로 자동 전환해, 사전 정의한 허용 범위 내 품질을 유지한다. 핵심은 “사후 대응이 아닌 사전 설계”로, 로직·프롬프트·가드레일을 미리 정의해 전환을 사용자가 알아채지 못하게 만드는 것이다. 때로는 같은 모델의 다른 리전으로만 우회해 프롬프트 변경 없이도 충분히 복원력을 확보한다.

규제 산업을 위한 컴플라이언스 가드레일

의료·금융 등 규제 산업은 데이터 이동 경로에 엄격하다. TrueFailover는 관리 콘솔에서 허가한 모델·공급자·리전으로만 라우팅하며, 승인 목록 밖으로 데이터가 나가는 일은 없다. 한 포춘 50 의료사는 클라우드와 온프레미스를 아우르는 하이브리드 환경에서 엄격한 데이터 레지던시를 유지하며 연 5억 건 이상의 IVR 콜을 에이전틱 AI로 처리하고 있다. 이러한 요구사항을 정책 가드레일로 정확히 반영하는 것이 제품 설계의 핵심이다.

자동 페일오버의 한계와 대비 과제

가드레일이 허용하는 범위가 곧 보호 한계다. 대형 모델에서 훨씬 작은 모델로 우회하면서 프롬프트·기대치를 조정하지 않으면 동일 품질을 보장할 수 없다. 자체 호스팅 모델이 단일 GPU 클러스터에 몰려 있다면 해당 인프라 장애 시 우회할 곳이 없다. 다만 현실에서 “공급자 전체가 전면 중단”되는 경우는 드물고, 특정 모델·리전의 혼잡과 용량 이슈가 더 흔하다. 온프레미스↔클라우드, 리전 간, 모델 간, 같은 공급자 내 라우팅 등 다층 중복을 쌓을수록 전면 중단 가능성은 작아진다.

기업 채택 배경과 트루파운드리 현황

트루파운드리는 2025년 2월 인텔 캐피털 주도로 1,900만 달러 시리즈 A를 유치(총 누적 2,100만 달러)했고, 2021년 메타 출신 공동창업진이 설립했다. 2023년 생성형 AI 대중화에 맞춰 방향을 전환했으며, Nvidia는 전 세계 데이터센터의 GPU 클러스터 활용률을 높이는 멀티에이전트 시스템 구축에, Adopt AI는 월 1,500만 요청·400억 토큰 라우팅에 활용한다. Games 24x7은 초당 200건+ 규모로 1억 명 이상의 사용자에게 모델을 서빙하고, Whatfix는 마이크로서비스 전환으로 배포 주기 6배 단축·테스트 시간 40% 절감을 달성했다. 현재 30개+ 유료 고객, 연환산 매출 150만 달러+를 기록했고, 1,000개+ ML 클러스터를 관리한다. TrueFailover는 AI 게이트웨이 애드온으로 제공되며, 트래픽·사용자·모델·공급자·리전 수에 연동된 사용량 기반 과금과 함께 조기 액세스가 곧 시작된다.

클라우드 SLA와 다른 AI 인프라의 현실

다수의 기반 LLM은 공유 자원으로 운영돼 공시 가격을 가능케 하지만, 높은 가용성 약속은 전용·예약 용량을 요구하고 비용이 급증한다. 예산을 투입해도 사용 한도 초과 시 공유 인프라로 재유입될 수 있어, 전통 클라우드 수준의 “강한 보장”을 달성하기 어렵다. LLM 운영의 경제성·복잡성은 중장기적으로도 완전 전용 인스턴스 다중화를 어렵게 만들며, 이 공백을 트루페일오버 같은 독립적 복원력 레이어가 메운다.

결론: ‘AI가 사라질 때’를 전제로 한 기본 설계

내부 실험을 넘어 고객 접점으로 확장된 지금, 장애는 곧 매출과 평판 리스크다. 처방전 재조제, 고객지원, 영업 제안 등 핵심 프로세스는 여전히 예고 없이 멈출 수 있는 모델 제공자에 의존한다. 트루파운드리는 트루페일오버로 이 리스크를 가리고, 사용자가 알아차리기 전에 서비스 연속성을 지키는 데 기업이 기꺼이 비용을 지불할 것이라 내다본다.

이 기사 공유하기