leangnews

Command Palette
Search for a command to run...

2026년 01월 14일 09:02

프롬프트 반복만으로 LLM 정확도 최대 76% 향상, 구글 연구

기사 요약

구글 리서치 논문은 프롬프트를 두 번 반복하는 단순한 기법이 비추론 과제에서 LLM 정확도를 일관되게 높인다고 밝혔다.
트랜스포머의 좌→우 인과적 제약을 우회해 두 번째 입력이 첫 번째 전체 토큰에 주의를 기울일 수 있어 정밀 검색 성능이 크게 향상된다.
지연 시간과 비용 증가는 거의 없고, 다만 체인 오브 소트 등 추론 유도 프롬프트와 함께 쓰면 이득이 제한적이어서 조건부 적용이 권장된다.

프롬프트 반복: 비추론 LLM 성능을 끌어올리는 단순한 해법

프롬프트를 그대로 한 번 더 붙이는 ‘프롬프트 반복’ 기법이 Gemini, GPT-4o, Claude, DeepSeek 등 주요 모델에서 비추론(non-reasoning) 과제의 정확도를 크게 높인다는 구글 리서치의 결과가 공개됐다. 복잡한 사고 전개 없이 정답만 요구하는 작업에서 단일 프롬프트 대비 일관된 향상을 보였고, 일부 벤치마크에서는 정확도가 최대 76%포인트까지 뛰었다. 트랜스포머 구조적 특성 덕분에 생성 속도 측면의 체감 지연도 거의 없다.

왜 효과가 있나: 인과적 블라인드 스폿

대다수 최신 LLM은 좌에서 우로만 진행하는 인과(causal) 언어 모델로 학습된다. 이때 입력 순서가 성능에 큰 영향을 주며, <CONTEXT> <QUESTION>과 <QUESTION> <CONTEXT>의 결과가 달라질 수 있다. 모델이 질문을 읽을 때 아직 맥락을 보지 못했다면 적용 대상 정보를 놓치기 쉽기 때문이다.

핵심 원리: <QUERY> → <QUERY><QUERY>

프롬프트 반복은 입력을 두 번 나열해 두 번째 질의가 첫 번째 질의의 모든 토큰에 ‘주의(attention)’를 기울일 수 있게 만든다. 결과적으로 두 번째 사본은 사실상 양방향에 가까운 효과로 첫 번째 전체 내용을 되짚으며 모호성을 해소하고, 단일 패스로는 놓칠 세부를 정확히 집어낸다.

벤치마크 결과: 47승 0패

연구진은 ARC, OpenBookQA, GSM8K, MMLU-Pro 등 7개 벤치마크와 Gemini 2.0 Flash Lite, GPT-4o-mini, Claude 3.7 Sonnet, DeepSeek V3 등 7개 모델을 대상으로 테스트했다. 명시적 추론을 금지하고 단답만 요구했을 때, 프롬프트 반복은 기준 대비 70건 중 47건에서 승리하고 패배는 0건이었다. 50개 이름 목록에서 25번째를 찾는 ‘NameIndex’ 과제에서는 Gemini 2.0 Flash Lite의 정확도가 21.33%에서 97.33%로 급등해 인과적 블라인드 스폿을 극명하게 보여줬다.

지연 시간과 비용: ‘거의 공짜’

LLM 추론은 입력을 병렬로 처리하는 프리필(prefill) 단계와, 토큰을 순차 생성하는 디코딩 단계로 나뉜다. 프롬프트 반복은 프리필만 소폭 늘리고 디코딩에는 영향을 주지 않아 사용자가 체감하는 대기 시간 변화가 미미했다. 응답 길이나 첫 토큰까지의 시간도 대부분의 모델에서 증가하지 않았고, 매우 긴 요청에서만 일부 Anthropic 모델(예: Claude Haiku, Sonnet)이 프리필 병목을 보였다.

추론과의 관계

체인 오브 소트(단계적 사고)와 프롬프트 반복을 결합하면 이득이 대부분 사라져 중립~소폭 개선 수준(5승, 1패, 22무)으로 나타났다. 모델이 스스로 생각을 전개할 때는 문제 조건을 출력 내에서 재진술하는 경향이 있어, 프롬프트 반복의 장점이 중복되기 때문이다. 따라서 프롬프트 반복은 비추론 과제에 우선 적용하는 것이 합리적이다.

엔터프라이즈 적용 전략

모델 선택과 오케스트레이션

프롬프트 반복을 적용하면 Gemini 2.0 Flash Lite 같은 소형·고속 모델도 정밀 검색/추출 과제에서 대형 모델에 근접한 성능을 낼 수 있다. 정확도 병목을 해소하려 대형 모델로 갈아타기 전에, 현재의 ‘Lite’ 모델에 프롬프트 반복을 시험해 비용·지연 이점을 유지하는 전략이 유효하다. 최적 적용 지점은 오케스트레이션 레이어다. 미들웨어나 API 게이트웨이에서 엔티티 추출, 분류, 단순 Q&A 등 비추론 엔드포인트를 자동 식별해 프롬프트를 조건부로 두 번 전달하도록 표준화하면 사용자 개입 없이 품질을 높일 수 있다.

보안 시사점

프롬프트 반복이 의도를 더 선명히 만든다면 악성 의도도 더 또렷해질 수 있다. 보안팀은 ‘반복 주입(repeated injection)’ 시나리오를 포함해 레드팀 프로토콜을 업데이트하고, 동일한 탈옥 명령을 반복할 때의 취약성을 점검해야 한다. 동시에 시스템 프롬프트(안전 가드레일)를 이중 명시해 모델이 안전 규정을 더 엄격히 ‘주목’하도록 만드는 저비용 방어책도 고려할 만하다.

실제 적용 예시

비추론 엔드포인트 조건부 적용 체크리스트

1) 요청이 추출·분류·단답 등 비추론 성격인지 판별한다. 2) 프롬프트 반복 적용 전/후 정확도와 응답 길이를 모니터링한다. 3) 입력이 매우 긴 경우 프리필 자원 한계를 감시한다. 4) 보안 가드레일(System Prompt)도 동일하게 두 번 명시해 안전성을 보강한다.

오케스트레이션 파이프라인 단계별 구현 안내

1) 라우팅 단계에서 엔드포인트 메타데이터로 ‘비추론’ 태그를 감지한다. 2) 태그가 참이면 프롬프트 반복을 적용해 <QUERY><QUERY> 형태로 변환한다. 3) 모델 응답을 수집·평가하고, 임계값 기준으로 프롬프트 반복의 지속 적용 여부를 동적으로 조정한다.

왜 중요한가

현재 LLM은 일방향성 제약에 묶여 있으며, 새로운 아키텍처가 성숙하기 전까지 프롬프트 반복 같은 ‘조악하지만 효과적인’ 우회로가 즉시 가치를 준다. 향후 추론 엔진이 백그라운드에서 프롬프트를 자동 이중화하거나, 모델이 이 전략을 내재화할 가능성도 크다. 지금 당장 복잡한 지시를 제대로 따르지 못하거나 긴 문서에서 특정 정보를 못 집어낼 때, 해결책은 더 그럴듯한 문구가 아니라 같은 말을 한 번 더 하는 것일 수 있다. 프롬프트 반복은 간단하면서도 현업에 바로 투입 가능한 실전 최적화다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다