leangnews

2026년 02월 28일 16:04

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지


기사 요약

  • MS 연구진의 OPCD가 장문의 시스템 프롬프트 없이도 기업용 LLM에 지식과 규칙을 내재화해 지연과 비용을 줄인다.
  • 온폴리시 학습과 역 KL을 통해 노출 편향과 모드 커버링을 완화하고 환각을 줄이면서 일반 성능을 유지한다.
  • 수치 실험에서 안전·의료·수리 추론 성능이 크게 향상됐고, 기존 RLVR 파이프라인에 적은 비용으로 통합되며 RAG와 상호보완적이다.

장문 시스템 프롬프트의 비용과 한계

기업용 LLM 애플리케이션은 회사 지식, 선호, 업무 지침을 담은 장문의 시스템 프롬프트로 모델의 동작을 조정하곤 한다. 그러나 이 같은 컨텍스트는 추론 지연을 늘리고 쿼리당 비용을 급격히 끌어올린다. 인컨텍스트 러닝은 파라미터를 바꾸지 않고도 행동을 바꿔주지만, 지식이 대화 간 유지되지 않아 매번 방대한 지침과 문서를 다시 넣어야 하는 일시적 한계를 갖는다.

마이크로소프트 리서치 아시아의 예 톈주(Tianzhu Ye)는 “엔터프라이즈는 안전 제약(예: 혐오 발언 탐지)이나 도메인 전문성(예: 의료 지식)을 강제하기 위해 긴 시스템 프롬프트를 쓰지만, 이는 추론 시 계산 오버헤드와 지연을 크게 늘린다”고 말했다.

컨텍스트 증류의 아이디어와 기존 접근의 문제

컨텍스트 증류는 반복적으로 문맥에 넣던 정보를 모델이 내부화하도록 학습시키는 방법이다. 교사-학생 패러다임으로, 교사 모델은 방대한 지시 프롬프트를 받아 고도로 맞춤화된 응답을 만들고, 학생 모델은 질문만 보고 교사의 출력을 관찰·모방해 교사의 복잡한 지시를 파라미터로 압축한다.

오프폴리시 학습의 한계: 노출 편향과 정방향 KL

고전적 컨텍스트 증류는 사전 수집된 고정 데이터셋(오프폴리시)으로 훈련한다. 이때 학생은 정답과 교사 생성 답변만 접하게 되어, 실제 운영에서 자신이 만든 토큰 시퀀스로 스스로 복구하는 연습을 못 해 쉽게 탈선하는 ‘노출 편향’이 생긴다. 또한 정방향 KL 발산을 최소화하며 교사와의 유사성만을 점수화하면 ‘모드 커버링’이 유도되어, 용량이 작은 학생이 무리하게 다양한 가능성을 덮으려다 분포가 퍼지고 환각이 늘며 일반화 성능이 떨어진다.

OPCD(온폴리시 컨텍스트 증류)의 해법

OPCD는 학생이 정적 데이터가 아니라 자신의 생성 궤적에서 학습하는 온폴리시 접근이다. 학생은 거대 지시 프롬프트를 보지 않은 상태로 답을 스스로 생성하고, 교사는 전체 맞춤 프롬프트에 접근해 학생 출력을 단계마다 평가한다. 매 단계에서 학생의 토큰 분포를 교사의 컨텍스트 인지 분포와 비교해 정렬한다.

역 KL로 ‘모드 시킹’ 유도

이 방법은 역 KL 발산을 최소화해 학생 분포의 고확률 영역을 찾아가게 한다. 학생이 낮다고 판단한 토큰은 교사가 높게 보더라도 억제되어, 분포가 불필요하게 넓어지는 것을 막고 스스로의 실수를 교정하는 학습이 가능해진다. 그 결과, 실서비스에서 더 신뢰성 있게 동작하며 복잡한 비즈니스 규칙, 안전 제약, 전문 지식이 영구 메모리로 내재화된다.

벤치마크 결과: 성능 향상과 일반성 보존

경험적 지식 증류

연구진은 수리 추론 문제로 다양한 크기의 모델을 시험했다. 먼저 모델이 문제를 풀고 성공 경험에서 일반 규칙을 스스로 적게 한 뒤, 그 서술적 교훈을 파라미터에 구워 넣었다. 복잡한 수학 문제에서 80억 매개변수 모델은 75.0%에서 80.9%로 상승했다. Frozen Lake 내비게이션에서는 17억 매개변수 모델이 6.3%에서 38.3%로 뛰었다.

시스템 프롬프트 증류

기업이 사용하는 장문의 행동 규칙을 매 요청마다 붙이지 않도록 내재화한 실험에서도 큰 개선이 나타났다. 30억 매개변수 Llama 모델의 안전·독성 분류 정확도는 30.7%에서 83.1%로, 의료 질의응답은 59.4%에서 76.3%로 향상됐다. 한편 미분야(의료)로의 일반 지식은 유지되어, 오프폴리시 방법 대비 약 4%p 더 나은 성능을 보이며 ‘카타스트로픽 포게팅’을 완화했다.

적용 범위와 통합 방법

OPCD는 정적 지식이나 복잡한 규칙을 내재화하는 데 강력하지만, 모든 외부 컨텍스트를 대체하진 않는다. 변화가 잦거나 방대한 외부 지식은 검색증강생성(RAG)이 더 적합하다.

엔터프라이즈는 기존 RLVR(검증 가능한 보상 기반 강화학습) 파이프라인에 큰 변경 없이 통합할 수 있다. 실무에서는 학생 모델이 정책 모델로 롤아웃을 수행하고, 동결된 교사 모델이 로짓을 제공하는 참조 역할을 맡는다. 하드웨어는 A100 GPU 약 8대로 재현 가능하며, 데이터도 가볍다. 경험 증류는 약 30개의 시드 예제로 풀이 트레이스를 만들면 충분하고, 시스템 프롬프트 증류는 기존 최적화 프롬프트와 표준 태스크 데이터셋으로 시작할 수 있다. 구현은 오픈소스 RLVR 코드베이스인 verl 위에 구축됐으며, 내부 검토 후 공개될 예정이다.

실제 적용 예시

엔터프라이즈 안전 정책 내재화를 위한 체크리스트

- 적용할 규칙 정의(전문 톤 유지, 유해·독성 발화 차단, 민감정보 마스킹 등) - 기준 프롬프트와 평가 세트 마련 - 교사/학생 모델 선택과 동결 정책 설정 - 온폴리시 롤아웃 구성 및 역 KL 손실 적용 - 배포 전후 정확도·지연·비용 및 환각률 A/B 테스트

기존 RLVR 파이프라인에 통합하는 단계별 가이드

- 정책 모델(학생)로 롤아웃 수집 - 교사 로짓으로 참조 분포 산출 - 역 KL 기반 업데이트와 안정화 - 장문 시스템 프롬프트 제거 상태로 재평가 - 운영 로그에서 성공 사례를 주기적으로 증류해 자가 개선 루프 구축

이 기사 공유하기