leangnews
Command Palette
Search for a command to run...
2025년 12월 12일 11:02
정확도 70%의 벽: 구글 FACTS 벤치마크가 던진 경고
기사 요약
- 구글과 캐글이 공개한 FACTS 벤치마크는 맥락 기반과 세계 지식 기반 정확도를 분리해 기업용 AI의 사실성 한계를 정밀 측정한다.
- 초기 결과에 따르면 어떤 모델도 평균 정확도 70%를 넘지 못했고, 검색·멀티모달·그라운딩 과제별로 성능 편차가 두드러졌다.
- 기술 리더는 내장 지식에 의존하지 말고 검색·RAG와 검증 절차를 기본 설계로 채택하며, 멀티모달 자동 추출은 특히 신중히 운용해야 한다.
정확도 70%의 벽과 FACTS 벤치마크의 등장
생성형 AI 평가는 많지만, 실제 세계 데이터를 바탕으로 얼마나 사실에 부합하는지 측정하는 표준은 부족했다. 구글 FACTS 팀과 캐글은 이 공백을 메우기 위해 FACTS 벤치마크 스위트를 공개했고, 논문에서는 사실성을 맥락 사실성(제공된 자료에 근거)과 세계 지식 사실성(기억 또는 웹에서 검색)으로 나눠 정의했다. 초기 결과는 기술 리더에게 신호를 보낸다. 신뢰하되 검증하라는 원칙은 아직 유효하다는 것이다.
FACTS 스위트 구성과 평가 범주
FACTS 스위트는 단순 질의응답을 넘어, 실제 운영에서 자주 발생하는 실패 양상을 시뮬레이션한 네 가지 테스트로 구성된다.
파라메트릭 벤치마크(내장 지식): 훈련 데이터만으로 상식·퀴즈형 질문에 정확히 답할 수 있는가?
서치 벤치마크(도구 사용): 웹 검색 도구를 활용해 최신 정보를 찾고 종합할 수 있는가?
멀티모달 벤치마크(비전): 차트, 다이어그램, 이미지 정보를 환각 없이 해석할 수 있는가?
그라운딩 벤치마크 v2(맥락): 제공된 원문에서 벗어나지 않고 답변을 고정할 수 있는가?
구글은 3,513개의 공개 예제를 배포했고, 캐글은 데이터 오염을 막기 위해 비공개 세트를 별도로 유지한다.
초기 리더보드와 수치 해석
초기 실행에서 Gemini 3 Pro가 종합 FACTS 점수 68.8%로 선두를 차지했고, Gemini 2.5 Pro 62.1%, OpenAI의 GPT-5 61.8%, Grok 4 53.6%, Claude 4.5 Opus 51.3가 뒤를 이었다. 세부 과제에서는 Gemini 3 Pro의 Search 83.8%, Multimodal 46.1, Gemini 2.5 Pro의 Multimodal 46.9, GPT-5의 Search 77.7 등이 확인됐다. 어떤 모델도 70%를 넘지 못했다는 점이 핵심이다.
빌더를 위한 핵심 인사이트: Search와 Parametric의 간극
RAG 시스템을 구축하는 개발자에게는 Search 벤치마크가 결정적 지표다. 예컨대 Gemini 3 Pro는 Search 83.8%지만 파라메트릭은 76.4%에 그쳤다. 이는 중요한 사실을 모델의 내부 메모리에 의존하지 말라는 현재의 엔터프라이즈 아키텍처 원칙을 재확인한다. 내부 지식 봇을 만든다면 검색 도구나 벡터 데이터베이스 결합이 선택이 아니라 필수다.
멀티모달 경고와 운영 리스크
가장 우려스러운 신호는 멀티모달 과제 성과다. 범주 최고 성능인 Gemini 2.5 Pro조차 46.9%에 머물렀다. 차트 판독, 도표 해석, 자연물 식별 등에서 정확도가 50% 미만이므로, 무감독 데이터 추출에는 아직 이르다. 인보이스에서 자동 스크레이핑하거나 금융 차트를 사람 검토 없이 해석하도록 두면 유의미한 오류율을 파이프라인에 도입할 수 있다.
조달과 모델 선정 가이드
조달 단계에서는 종합 점수만 보지 말고, 사용 사례에 맞는 하위 지표를 확인해야 한다. 고객지원 봇은 그라운딩 점수를 확인하라(예: Gemini 2.5 Pro 74.2, Gemini 3 Pro 69.0). 리서치 보조는 Search 우선, 이미지 해석 도구는 극도의 주의가 필요하다. FACTS 벤치마크는 이러한 비교의 공통 기준으로 자리잡을 가능성이 크다.
실제 적용 예시
내부 지식 봇 설계에서 FACTS 벤치마크 활용
정책·지침 문서 기반 QA에는 그라운딩 성능이 높은 모델을 우선 고려하고, 최신성·정확도를 위해 반드시 검색 또는 RAG를 결합한다. 중요 답변은 출처 링크와 증거 문구를 함께 제시하도록 프롬프트를 설계한다.
데이터 추출 워크플로의 위험 관리
멀티모달 정확도가 낮은 현재는 영수증·송장·재무차트 자동 추출에 샘플링 검수, 임계값 기반 휴먼 리뷰, 재질문 루프를 포함해 운영 리스크를 통제한다.
마무리
FACTS 벤치마크는 기업용 AI의 사실성 평가를 표준화하는 출발점이다. 아직 70%의 천장을 넘지 못한 만큼, FACTS 결과를 바탕으로 신뢰하되 반드시 검증하는 시스템 설계가 요구된다.