leangnews

2025년 11월 20일 09:02

메타 등 연구진, DreamGym으로 LLM 강화학습 비용 절감

메타 등 연구진, DreamGym으로 LLM 강화학습 비용 절감


기사 요약

  • 메타·시카고대·UC 버클리 연구진은 LLM 에이전트를 위한 강화학습의 비용·인프라 복잡성·피드백 문제를 해결하기 위해 DreamGym이라는 시뮬레이션 기반 프레임워크를 공개했다.
  • DreamGym은 추론 기반 경험 모델·리플레이 버퍼·커리큘럼 태스크 생성기를 통해 다양한 합성 경험을 온라인으로 만들어내며 난이도를 동적으로 조절한다.
  • 벤치마크에서 DreamGym은 WebArena 등에서 30%p+ 향상을 보였고, PPO/GRPO와 동급 성능을 실환경 상호작용 없이 달성했으며, S2R 전이로 10% 미만의 실데이터로도 40%+ 성능 향상을 입증했다.

개요

메타, 시카고대, UC 버클리 연구진은 LLM 에이전트를 위한 강화학습(RL)의 높은 비용과 인프라 복잡성, 불안정한 피드백 문제를 해결하기 위해 DreamGym 프레임워크를 제안했다. 이 시스템은 시뮬레이션된 환경에서 과제 난이도를 점진적으로 조절하며 에이전트가 점차 어려운 문제를 풀도록 학습시킨다. 합성 상호작용만으로도 데이터 수집·환경 상호작용 비용을 크게 줄이면서, 실제 환경 적용이 필요한 시나리오에서도 경쟁력 있는 성능을 보였다.

LLM 에이전트 강화학습의 과제

웹 내비게이션, 도구 활용, 로보틱스 등 에이전틱 환경에서는 긴 행동 시퀀스와 희소한 보상이 흔해 학습이 어렵다. 충분히 다양한 검증 데이터 수집에는 전문가 검증·주석이 필요해 비용이 크고, 대규모 RL 실험을 위한 라이브 환경 구축은 인프라가 복잡하며 잘못된 조작이 실제 시스템에 피해를 줄 수 있다.

DreamGym 프레임워크 작동 원리

추론 기반 경험 모델

대상 환경의 동역학을 텍스트 공간으로 추상화해 애플리케이션 시뮬레이터로 동작한다. 실제 환경 대신 일관된 상태 전이와 피드백을 생성하며, 웹 쇼핑의 경우 원시 HTML이 아니라 페이지 요소의 정제된 목록을 합성해 효율을 높인다.

경험 리플레이 버퍼

초기에는 오프라인 데이터로 시드를 심고, 학습 중 생성되는 합성 궤적을 지속적으로 축적해 동적으로 기억을 확장한다. 이를 통해 예측을 안내하고 합성 경험의 다양성과 사실성을 유지한다.

커리큘럼 태스크 생성기

경험 모델과 연동해 난도를 적응적으로 높여 간다. 성능이 들쑥날쑥한(도전적이지만 해결 가능성이 있는) 과제를 찾아 변형을 생성함으로써 에이전트의 능력을 끌어올린다. 이렇게 상호작용, 메모리, 온라인 과제 생성이 통합된 폐루프가 DreamGym의 확장 가능한 학습을 뒷받침한다.

벤치마크 결과와 성능

연구팀은 WebShop(전자상거래), ALFWorld(체현 제어), WebArena(현실적 웹 상호작용)에서 Llama 3와 Qwen 2.5를 백본으로 사용해 SFT, DPO 같은 오프라인 방법과 PPO, GRPO 같은 온라인 RL과 비교했다. 대규모 인프라 구축이 어려운 WebArena에서 DreamGym으로만 학습한 에이전트는 기준선 대비 30%p 이상 높은 성공률을 기록했다. RL이 가능하지만 비용이 큰 환경에서도 DreamGym은 외부 환경 상호작용 없이 PPO/GRPO와 동등한 성능을 달성했다.

DreamGym-S2R와 일반화

합성→현실 전이 방식인 DreamGym-S2R은 합성 환경에서 먼저 학습한 뒤 소량의 실제 데이터로 미세조정해, 순수 실환경 학습 대비 40%+ 성능 향상을 달성하면서도 외부 데이터 사용량은 10% 미만으로 줄였다. 또한 WebShop에서 배운 능력을 WebArena로 이전하는 등 도메인 간 전이도 확인되었는데, 이는 추상적 메타 표현 공간에서 도메인 불가지의 행동 선험을 학습했기 때문이라고 연구진은 설명한다.

실제 적용 예시

사내 자동화 과제 도입 전 체크리스트

자동화하려는 업무의 단계별 궤적과 설명을 소량 수집·정제한다. 민감 시스템에는 읽기 전용 샌드박스를 사용하고, 보상 신호 정의와 실패 케이스를 명확히 문서화한다. 그런 다음 DreamGym 초기 시드로 투입해 합성 데이터 품질을 점검하고, 인프라 비용과 리스크를 낮춘 상태에서 반복 실험을 시작한다.

DreamGym 기반 에이전트 학습 프로세스 단계별 안내

1) 경험 모델을 공개 데이터로 경량 학습한다. 2) 리플레이 버퍼에 오프라인 시드를 주입한다. 3) 커리큘럼 생성기로 난도를 점진적으로 올리며 합성 궤적을 축적한다. 4) 필요 시 DreamGym-S2R로 소량의 실데이터로 미세조정해 배포 전 성능을 보정한다. 이 과정을 통해 기업은 라이브 RL 환경을 구축하지 않고도 확장 가능하고 비용 효율적인 에이전트를 훈련할 수 있다.

이 기사 공유하기