메타 ‘DeepConf’: LLM 추론 비용·정확도 조절 다이얼

메타 ‘DeepConf’: LLM 추론 비용·정확도 조절 다이얼

메타 ‘DeepConf’: LLM 추론 비용·정확도 조절 다이얼


기사 요약

  • Meta AI와 UCSD의 DeepConf는 모델 내부 신뢰도 신호로 저품질 추론 경로를 걸러 LLM 정확도를 유지하면서 추론 비용을 크게 낮춘다.
  • 오프라인·온라인 모드와 그룹/테일/최저 그룹 신뢰도 지표로 가중 투표와 조기 중단을 구현해 최대 99.9% 정확도와 최대 84.7% 토큰 절감을 달성했다.
  • 기업은 DeepConf-high와 DeepConf-low 사이에서 위험 허용도에 맞춰 비용·신뢰성 균형을 조절할 수 있으며, 추가 학습 없이 기존 서빙 스택에 쉽게 통합된다.

개요

Meta AI와 UC 샌디에이고가 공개한 DeepConf는 모델의 내부 신뢰도 신호를 이용해 저품질 추론 경로를 동적으로 걸러냄으로써, LLM의 추론 정확도를 유지하면서도 추론(서빙) 비용을 크게 절감하는 테스트타임 스케일링 기법이다.

왜 필요한가: 테스트타임 스케일링의 비용

복잡한 과제에서 LLM의 추론 성능을 높이기 위해 널리 쓰이는 방법이 ‘다중 시도 후 다수결(Self-Consistency with Majority Voting)’이다. 그러나 동일 프롬프트에 대해 수십~수백 개의 추론 경로를 생성하면 비용이 급증하고, 경로 수를 늘릴수록 수익 체감이 발생한다. 또한 표준 다수결은 경로의 품질을 구분하지 못해, 유사하지만 저품질인 답변이 정답을 압도하는 문제가 생길 수 있다. 과거에는 전체 경로의 내부 활성 신뢰도를 단일 ‘글로벌 신뢰도’로 산출해 필터링했지만, 이는 특정 단계에서의 치명적 붕괴를 가리거나, 경로 전체를 생성해야만 평가할 수 있어 조기 중단과 비용 절감을 막는 한계가 있었다.

어떻게 작동하나: 국소 신뢰도 기반 필터링

신뢰도 지표 설계(그룹·테일·최저 그룹)

연구팀은 글로벌 점수 대신, 응답의 서로 다른 부분에 대한 모델의 확신을 세밀하게 포착하는 로컬 지표들을 제안한다. 토큰 구간별로 확신을 계산하는 ‘그룹 신뢰도’, 추론의 말미에 초점을 맞춘 ‘테일 신뢰도’, 그리고 전체 경로에서 가장 확신이 낮은 구간을 찾는 ‘최저 그룹 신뢰도’가 핵심이다. 추론 사슬은 ‘가장 약한 고리’만큼만 강하다는 직관에 기반해, 급격한 신뢰도 하락은 나머지가 자신감 있어 보여도 치명적 오류의 신호로 본다.

오프라인 모드: 가중 투표와 저신뢰 경로 제거

오프라인에서는 모든 추론 경로를 먼저 생성한 뒤, 위 지표로 각 경로에 가중치를 부여하거나 최하위 경로를 제거한 후 최종 투표를 진행한다. 이렇게 하면 표준 다수결의 약점을 보완하고, 고신뢰 경로에 더 큰 영향력을 부여해 DeepConf의 효과를 극대화한다.

온라인 모드: 실시간 품질 평가와 조기 중단

온라인에서는 토큰 생성 중 실시간으로 경로 품질을 평가해, 그룹 신뢰도가 임계치 아래로 떨어지면 해당 경로 생성을 즉시 중단한다. 이 동적 종료는 자원이 제한되거나 빠른 응답이 중요한 환경에서 특히 유용하다. 연구팀은 공격적 필터링으로 성능·절감을 극대화하는 DeepConf-low와, 기준 정확도를 우선하는 보수적 설정 DeepConf-high 두 변형을 제시한다.

성능 평가: 정확도 상한에 근접, 토큰 대폭 절감

DeepSeek-8B, Qwen3-32B, GPT-OSS 계열 등 최신 공개 모델과 AIME, HMMT 등 수리·STEM 난도 벤치마크에서 검증했다. 오프라인 테스트에서는 자신감 상위 10%만 유지하는 공격적 전략이 가장 큰 이득을 보였으며, DeepSeek-8B의 AIME25 정확도를 82.3%→87.4%로 끌어올렸다. GPT-OSS-120B는 같은 벤치마크에서 99.9% 정확도로 사실상 포화했다. 온라인 평가에서는 생성 토큰 수를 기준 대비 43~79% 줄이면서도 다수 경우 정확도를 유지·개선했다. 예컨대 AIME24에서 DeepConf-low는 토큰을 77.9% 줄이면서 DeepSeek-8B의 정확도를 5.8%p 향상시켰다. 전반적으로 DeepConf는 최대 84.7%의 토큰 절감과 최대 99.9% 정확도를 달성했다.

도입과 통합: 추가 학습 없이 ‘플러그인’처럼

이 방식은 공개 모델 전반에 적용 가능하며 추가 학습이 필요 없다. 기존 서빙 스택 위에 ‘플러그인 레이어’처럼 얹을 수 있어 오프라인 모드는 사실상 드롭인 교체에 가깝다. 온라인 모드는 생성 중 토큰 확률을 실시간으로 읽는 작은 훅을 추가하면 되므로 대대적 재작성 없이 반영 가능하다. vLLM과의 통합이 진행 중이며, SGLang과 TensorRT-LLM도 지원을 검토하고 있다. 코드는 곧 GitHub에 공개될 예정이다.

어디에 쓰면 좋은가: 구조적 추론과 리스크 관리

수학·과학·코딩처럼 내부 신뢰도가 추론 품질과 정합적인 ‘구조적 추론’ 과제에 최적화되어 있다. 반면 문서 요약이나 마케팅 카피 등 주관적·개방형 과제에서는 장문의 추론 사슬이 부족해 신뢰도 신호의 해석력이 떨어질 수 있다. 위험 허용도가 낮은 재무 분석·법률 검토 등에는 DeepConf-high가 적합하며, 생성 비용을 절반가량 낮추면서 기준 정확도에 근접한다. 내부 지식베이스 질의나 초안 생성 등 저위험·비용 민감 과제에는 70~85% 토큰 절감이 가능한 DeepConf-low가 유용하다.

전망: 테스트타임 압축과 자율성으로

연구진은 이 접근이 재학습 비용 없이 추론 효율을 높이는 ‘테스트타임 압축’의 실용성과 확장 가능성을 보여준다고 강조한다. 더 나아가 모델이 확신이 낮을 때 ‘잠시 멈추고, 전략을 전환하거나, 명확화를 요청’하는 자기 인식형 동작으로 이어지는 기반이 될 수 있으며, 이는 엔터프라이즈 환경에서 더 신뢰할 수 있고 적응적인 차세대 AI로 가는 핵심 발판이 될 것이다.