
기사 요약
- 알리바바 통이(Tongyi) 랩이 오픈소스 훈련 프레임워크 Agentic CPT를 공개해 상용 딥 리서치 모델에 견주는 오픈 LLM 에이전트를 만들 수 있게 했다.
- 핵심은 FAS/HAS 기반 오프라인 데이터 합성으로 방대한 에이전트 행동 데이터를 만들어 Agentic CPT 단계적 사전학습으로 계획·자기교정 능력을 길러주는 것이다.
- 이 방식으로 학습한 AgentFounder-30B가 BrowseComp, HLE, Academic Browse에서 최고 수준 성능을 기록해, 온프레미스 배치와 기업 맞춤 에이전트 개발의 비용·기간을 크게 낮출 전망이다.
알리바바, 오픈소스 Agentic CPT로 API 비용 없이 연구 에이전트 훈련
알리바바 통이(Tongyi) 랩은 대형 언어모델(LLM)을 상용 딥 리서치 에이전트와 경쟁 가능한 수준으로 끌어올리는 새로운 오픈소스 훈련 프레임워크를 공개했다. 핵심 기법인 Agentic Continual Pre-training(Agentic CPT)은 새 데이터 합성 체계와 훈련 파이프라인을 통해 복잡한 다단계 행동을 학습하도록 설계됐다. 이 프레임워크로 학습된 딥 리서치 에이전트 ‘AgentFounder’는 주요 벤치마크에서 최고 성능을 경신하며, 맞춤형 LLM 에이전트를 경제적으로 구축하는 경로를 제시했다.
에이전트 정렬의 과제: 단발 응답을 넘어 행동 일관성으로
챗봇을 넘어 자율 에이전트로 진화하는 LLM에는 단일 턴 선호 정렬만으로는 부족하다. 신뢰할 수 있는 에이전트는 동적 환경에서 도구 호출, 실패 대응, 오정보 교정 등 전문가 수준의 행동 일관성을 유지하는 ‘에이전트 정렬(agentic alignment)’을 달성해야 한다. 그러나 기존의 지도 미세조정(SFT)과 강화학습(RL)은 방대한 의사결정 공간을 탐색하게 만드는 학습 신호가 부족해, 특정 행태 모방에 갇히는 한계가 지적됐다. 일반 목적 기반모델은 본래 에이전트적 유도 편향이 약해, 능력과 정렬을 동시에 억지로 학습시키는 최적화 충돌이 발생하기도 한다.
Agentic Continual Pre-training(Agentic CPT) 개요
알리바바 팀은 정렬의 중간 단계로 Agentic CPT를 도입해 훈련 파이프라인을 재정의했다. 목표는 최종 미세조정 전부터 강한 에이전트적 행동을 갖춘 ‘사전 정렬(pre-aligned)’ 기반모델을 만드는 것이다. 이를 위해 초기 데이터는 단일 도메인에 국한하지 않고 폭넓게 수집하며, 다양한 에이전트 행동 유형을 포함해 패턴 암기에 머물지 않고 해결 전략을 탐색하도록 유도한다.
Agentic CPT 단계 1: 광범위한 에이전트·추론 데이터로 기반 강화
오픈소스 Qwen3-30B 기반으로 약 2천억 토큰 규모의 에이전트 데이터와 지식·추론 텍스트를 32K 컨텍스트로 학습해, 도구 사용과 검색·브라우징·코드 실행 등 기본 에이전트 능력을 폭넓게 내재화한다.
Agentic CPT 단계 2: 장기 계획과 대규모 컨텍스트 이해 정밀화
추가로 1천억 토큰 고품질 에이전트 데이터를 128K 컨텍스트로 학습해, 복잡한 액션 공간 이해와 장기 지평(long-horizon) 계획·경로 선택 능력을 정제한다.
오프라인 데이터 합성: FAS와 HAS로 비용 없이 대규모 생성
Agentic CPT의 초석은 API 호출이나 대규모 인력 라벨링 없이도 강력한 모델을 키우는 확장형 데이터 합성이다. ‘일차 행동 합성(First-order Action Synthesis, FAS)’은 다양한 원천의 원시 데이터를 구조화된 오픈월드 메모리로 변환하고, 사실 검색부터 멀티홉 추론까지 포괄하는 복합 질의-응답 데이터를 생성한다. ‘고차 행동 합성(Higher-order Action Synthesis, HAS)’은 각 문제에 대해 단일 정답 경로 대신 복수의 대안적 추론 경로를 만들어, 단순 모방이 아닌 유연한 의사결정을 학습하게 한다. 두 과정은 전부 오프라인으로 수행돼, 대규모 데이터 생성에도 API 비용이 들지 않는다.
FAS: 오픈월드 메모리로 다양하고 깊은 질문 만들기
이질적 데이터 소스를 정규화해 지식 그래프처럼 다룬 뒤, 사실 회수·요약·비교·멀티홉 추론을 아우르는 질문과 근거를 체계적으로 합성한다.
HAS: 다중 경로 추론으로 자기교정·경로 선택 학습
문제별로 여러 행동 시나리오를 생성해 교차검증과 경로 재선택을 가능하게 하고, 접근 불가 페이지나 모호한 출처에 직면했을 때의 재라우팅·검증·보류 판단을 훈련한다.
AgentFounder-30B 성능: 공개 모델 중 최상위권
AgentFounder-30B는 일반 LLM, 상용 에이전트, 오픈소스 딥 리서치 에이전트와의 비교에서 최첨단 결과를 보였다. 영어 BrowseComp에서 기존 최고 오픈소스인 DeepSeek-V3.1 대비 10%p 높았고, HLE(Humanity’s Last Exam)에서 최초로 30점대를 넘어섰다. Academic Browse에서도 75.3%로 독보적 성능을 보여, 학술 보조용으로서의 유효성을 입증했다.
기업 적용 효과와 위험 관리
이 성능 향상은 실제 비즈니스에서 안정성·정확성·실행력을 의미한다. 경쟁 시장 분석, 공급망 모니터링처럼 다원 데이터 집계와 신호 교차검증, 빠른 지식 갱신이 필요한 과업에서 신뢰도 높은 리포트를 신속히 도출한다. 고위험 환경에선 핵심 의사결정 지점에 인간 검토를 삽입하는 휴먼 인 더 루프 구성이 권장된다.
맞춤형 에이전트 개발과 전망
Agentic CPT로 얻은 ‘에이전트 기반모델’은 다양한 사후 훈련 방식에 쉽게 적응하며, 온프레미스 배치로 통제와 보안을 강화할 수 있다. 또한 내부 도구·사유 데이터 소스에 맞춘 파이프라인 커스터마이징이 가능해, 금융 분석·제약 연구 등 도메인 특화 에이전트를 짧은 기간·합리적 비용으로 구축할 수 있다. 에이전트적 능력이 기반모델의 네이티브 역량으로 자리 잡으면, 많은 복잡 과제가 단순 프롬프트 엔지니어링만으로도 해결될 가능성이 커진다.
실전 적용 가이드(Agentic CPT 관점)
1) 사내 데이터·도구 맵을 작성해 FAS로 오픈월드 메모리를 구성하고, 2) HAS로 다중 추론 경로를 합성해 위험 시나리오 대응을 내재화하며, 3) 경량 적응(LoRA 등)으로 도메인 특화 성능을 끌어올린 뒤, 4) 운영 단계에서 휴먼 검토 체크포인트를 삽입해 안정성을 확보한다.