leangnews
Command Palette
Search for a command to run...
2025년 12월 01일 09:02
수학·코딩을 넘어: Agent-R1로 복잡한 LLM 에이전트 훈련
기사 요약
- 중국과학기술대 연구진이 동적 환경과 불완전 정보를 반영한 새로운 강화학습 프레임워크 Agent-R1을 공개했습니다.
- Agent-R1은 다중 검색 단계와 도구와의 다회차 상호작용이 필요한 추론 과제에서 기존 방식 대비 유의미한 성능 향상을 보였습니다.
- 확장된 MDP와 프로세스 보상을 도입해 희소 보상 문제를 완화하고, 엔터프라이즈 환경의 복잡한 에이전트 작업에 실용적 기반을 제공합니다.
Agent-R1: 현실 지향형 LLM 에이전트 강화를 위한 새로운 RL 틀
중국과학기술대(USTC) 연구진은 수학·코딩처럼 정답이 명확한 과제를 넘어, 복잡한 에이전트 작업을 수행하는 대규모 언어모델(LLM)을 훈련하기 위한 강화학습(RL) 프레임워크 Agent-R1을 제안했습니다. Agent-R1은 인기 RL 알고리즘과 호환되며, 다중 검색 단계와 도구와의 다회차 상호작용이 요구되는 추론 과제에서 큰 개선을 보였습니다. 이 프레임워크는 변화하는 환경과 불완전한 정보를 다루는 실제 애플리케이션의 동적 특성을 반영하도록 RL 패러다임을 재정의했습니다.
에이전트를 위한 강화학습 재정의
전통적으로 RL은 정오 판정이 명확한 수학·코딩 영역에서 효과적이었습니다. 그러나 사용자와 상호작용하고, 대화 전반의 동적 메모리를 축적하며, 다단계 추론을 수행하고, 예측 불가능한 피드백에 대응해야 하는 에이전트 과제에서는 어려움이 컸습니다. 특히 다회차 상호작용에서는 보상 설계가 복잡하고, 학습된 에이전트가 현실 세계의 불규칙성과 잡음에 일반화하지 못하는 문제가 빈번했습니다.
확장된 MDP: 상태·행동·전이·보상
연구진은 RL의 기본 틀인 마르코프 결정과정(MDP)을 LLM 에이전트에 맞게 확장했습니다. 상태 공간은 모델이 생성한 현재 토큰열만이 아니라, 상호작용의 전체 이력과 환경 피드백까지 포함하도록 넓혔습니다. 행동은 여전히 텍스트 생성이 중심이지만, 특정 시퀀스는 API 호출 등 외부 도구 실행을 촉발할 수 있습니다. 상태 전이는 모델 예측뿐 아니라 외부 요인에 좌우되는 환경 반응에 의해 확률적(스토캐스틱) 특성을 갖습니다. 보상 함수는 과정을 세분화해 중간 단계의 성공에 대한 ‘프로세스 보상’을 부여함으로써 학습 중 더 빈번하고 정밀한 신호를 제공합니다.
프로세스 보상으로 ‘희소 보상’ 완화
최종 결과 한 번만 보상을 주는 전통적 방식은 중간 단계의 옳고 그름을 학습하기 어렵다는 ‘희소 보상’ 문제를 낳습니다. 프로세스 보상은 각 단계에서 피드백을 제공해 탐색을 안내하고, 학습 효율을 크게 높입니다. 연구진은 이러한 확장이 “동적 환경에서 복잡한 다단계 추론·상호작용이 가능한 정교한 에이전트를 RL로 훈련하는 데 필수적”이라고 설명합니다.
Agent-R1 프레임워크
확장된 MDP 정의를 바탕으로 한 Agent-R1은 단일 턴 중심의 기존 RL을 다회차, 인터랙티브한 에이전트 작업으로 확장하는 유연한 훈련 플랫폼입니다. 다양한 환경과의 매끄러운 통합을 지원하며, 실제 업무 흐름에 가까운 상호작용 패턴을 모사합니다.
롤아웃 단계의 변화
전통적 단일 턴 RL에서는 모델이 한 번의 응답을 생성합니다. 반면 Agent-R1의 다회차 RL 롤아웃은 질의·도구 호출·피드백·상태 갱신이 왕복되는 복합 절차로 진행됩니다. 이 과정에서 Agent-R1은 각 단계의 상태와 보상을 체계적으로 관리합니다.
Tool과 ToolEnv의 역할
Agent-R1의 핵심 모듈은 Tool과 ToolEnv입니다. Tool은 API 호출, 데이터베이스 조회 등 특정 행동을 실행하고 원시 결과를 반환합니다. ToolEnv는 오케스트레이터이자 해석기 역할로, Tool 출력이 에이전트 상태와 과제 진행에 미치는 영향을 판단하고, 상태 전이와 보상 계산을 수행해 갱신된 상태 정보를 에이전트에 제공합니다. 요약하면 Tool이 “무슨 일이 일어났는지”를 보고하면, ToolEnv는 “그 결과가 작업에 갖는 의미”를 규정합니다.
Agent-R1 실험과 결과
연구진은 복수 문서를 거치는 정보 검색과 다단계 의사결정이 필요한 멀티홉 질의응답을 과제로 Agent-R1을 평가했습니다. Qwen2.5-3B-Instruct를 학습시켜 HotpotQA와 2WikiMultihopQA에서 성능을 측정하고, 학습 분포 밖인 Musique로 일반화도 점검했습니다. 비교 대상은 단일 패스 검색에 의존하는 Naive RAG와, 별도 RL 없이 모델의 기본 함수 호출만 사용하는 Base Tool Call이었습니다.
Agent-R1로 훈련된 모든 RL 에이전트는 두 베이스라인을 크게 상회했으며, DeepSeek-R1 등 고급 추론 모델에 쓰이는 GRPO 알고리즘이 전반적으로 최고 성능을 보였습니다. 이는 다양한 데이터셋과 RL 알고리즘 전반에서 Agent-R1의 종단간 RL 훈련 효율을 강하게 입증합니다.
엔터프라이즈 시사점과 향후 방향
사용자와의 난삽한 다회차 상호작용과 동적 환경을 전제로 설계된 Agent-R1은 실제 업무 시나리오에 가까운 문제 해결형 에이전트를 구현하는 데 중요한 발판이 됩니다. 연구진은 Agent-R1이 에이전트형 LLM을 위한 확장 가능하고 통합된 RL 훈련의 기반이 되기를 기대한다고 밝혔습니다.