Intuit, 맞춤형 금융 LLM으로 지연 50% 단축·거래 분류 정확도 90%

Intuit, 맞춤형 금융 LLM으로 지연 50% 단축·거래 분류 정확도 90%

Intuit, 맞춤형 금융 LLM으로 지연 50% 단축·거래 분류 정확도 90%


기사 요약

  • Intuit가 GenOS를 업그레이드해 도메인 특화 금융 LLM, 전문가 개입, 고급 에이전트 평가 프레임워크를 공개했다.
  • 새 금융 LLM은 거래 분류 정확도 90%를 달성하고 범용 모델 대비 지연을 50% 줄여, 대규모 비용 절감과 사용자 경험 개선을 이끌었다.
  • 의미론적 이해 강화, 감독학습·가드레일 결합, 의사결정 효율성까지 측정하는 평가 체계가 엔터프라이즈 AI에 실질적 시사점을 제공한다.

GenOS 업그레이드 한눈에: 도메인 특화로 성능·효율 동시 개선

Intuit는 TurboTax, QuickBooks, Credit Karma, Mailchimp 전반의 AI 에이전트를 구동하는 자사 Generative AI 운영체제 GenOS를 수년간 고도화해 왔다. 현재 GenOS는 수천 명의 개발자가 AI 경험을 구축하도록 지원하며, 중소기업의 월 12시간을 절약하는 QuickBooks 회계 보조 같은 에이전트를 운영 중이다. 이번 발표의 핵심은 세 가지다: 맞춤형 금융 LLM, 자연스러운 전문가 개입(expert-in-the-loop), 고급 에이전트 평가 프레임워크. 특히 새 모델은 거래 분류 정확도 90%를 달성하고 범용 LLM 대비 지연을 50% 줄였다. 대규모 트래픽에서 이는 곧 비용 절감과 사용자 경험의 체감 향상으로 이어진다. Intuit 최고 AI 책임자 Ashok Srivastava는 “비용과 지연을 낮추는 동시에 정확도는 더 높이는 선순환”을 강조했다.

기술적 돌파구: 대규모 의미론적 이해(Semantic Understanding)

많은 기업 AI가 겪는 한계는 ‘표면적 매핑’에 머무는 것이다. 전통적 모델은 거래→카테고리의 직접 매핑을 학습하지만, Intuit의 접근은 금융 용어의 맥락적 의미를 파악하는 데 초점을 맞춘다. 카테고리가 미리 고정돼 있다면 매핑은 쉽지만, 실제 고객은 각자 다른 분류 체계를 갖는다. Intuit는 개인화 수준을 높이기 위해 시스템이 사용자 고유의 카테고리를 ‘의미’로부터 학습하도록 설계했다. 이 맞춤형 금융 LLM은 익명화·비식별 처리된 은행 거래 데이터를 기반으로, 감독학습 파인튜닝과 훈련 단계에 내장된 특화 가드레일을 결합해 의미론적 이해를 강화했다. 수개월에 걸친 다단계 연구·개발 끝에, 도메인 특화 금융 LLM이 범용 대안 대비 높은 정확도와 낮은 지연을 동시에 구현했다.

개인화된 분류 체계 처리(금융 LLM의 적용)

Intuit의 금융 LLM은 사용자가 실제로 쓰는 계정 과목·세목·태그의 의미를 추론해, 경직된 사전 카테고리 없이도 조직별 고유한 택소노미와 규칙을 반영한다. 이는 다양한 내부 규정과 회계 정책을 가진 엔터프라이즈 환경에서 핵심 역량으로 작동한다.

고급 에이전트 평가: 정확도를 넘어 ‘의사결정 효율’로

Intuit는 Agent Starter Kit 내 GenOS Evaluation Service를 대폭 확장해, 불확실성 하에서의 에이전트 효율과 의사결정의 질을 정교하게 측정한다. 많은 기업이 결과의 ‘정확’ 여부만 보지만, 최적의 결정을 했는지(더 빠르고, 더 저렴하고, 제약을 더 잘 만족하는지)는 간과하기 쉽다. 예컨대 샌프란시스코→LA를 오클라호마시티 경유로 가는 경로는 ‘가능한’ 해지만 명백히 비효율적이다. 새로운 프레임워크는 외부 제약과 비용·지연·경로 복잡도 등을 함께 고려해 목표에 이르는 가장 효율적 경로를 선택했는지 평가한다. 이 체계는 금융 LLM을 운영 환경에 투입할 때도 모델 응답이 ‘맞는가’를 넘어 ‘가장 잘했는가’를 판별하는 데 기여한다.

전략적 시사점: 엔터프라이즈 AI 팀을 위한 교훈

도메인 특화가 범용을 이긴다: 산업 데이터로 학습한 커스텀 모델은 초기 투자 비용을 상쇄하고도 특정 과제에서 큰 격차를 만든다.

평가 프레임워크가 경쟁력이다: 불확실성 하 의사결정의 효율을 계량화해야 ‘성공하는’ AI 구현과 실험 수준의 프로젝트를 가른다.

전문가 개입은 인프라 문제다: 라우팅·핸드오프가 자연스러운 설계 없이는 사람-에이전트 협업이 지속적으로 실패한다.

개발자 생산성은 복리로 축적된다: 내부 AI 도구 투자가 속도·품질을 동시 개선하며, 장기적으로 조직 역량을 증폭한다.

실제 적용 예시

도메인별 분류 체계 설계 체크리스트

조직 고유 택소노미 정의(계정 과목·세목·정책)→민감정보 거버넌스와 데이터 비식별화→의미 기반 레이블링 가이드 정비→감독학습 파인튜닝 세트 구축→훈련 가드레일(금칙어, 규정 위반 방지, 근거 제시) 적용→운영 전 샌드박스 검증 및 편향·오분류 리스크 점검.

에이전트 평가 프로세스 단계별 안내

업무 목표·제약 수립(SLA, 비용 한도)→정확도+효율 지표 정의(지연, 비용, 경로 길이, 재시도 수)→오프라인 재현 평가(결정 경로 로깅)→전문가 개입 기준·핸드오프 설계→A/B 및 캐너리 릴리스로 실제 트래픽 검증→주기적 피드백 루프로 모델·프롬프트·도구 호출 전략을 지속 개선.