leangnews

2025년 12월 16일 11:02

Ai2, Olmo 3.1 공개…강화학습 확장으로 추론 성능 대폭 향상

Ai2, Olmo 3.1 공개…강화학습 확장으로 추론 성능 대폭 향상


기사 요약

  • Ai2가 Olmo 3 후속으로 강화학습(RL) 구간을 확장해 Olmo 3.1을 내놓고, 연구 최적화형 Think 32B와 지시 따르기 특화형 Instruct 32B를 업데이트했다.
  • 224개의 GPU로 21일 추가 학습하고 Dolci-Think-RL 데이터셋에서 에폭을 늘린 결과 AIME, ZebraLogic, IFEval, IFBench 등 주요 벤치마크에서 큰 폭의 향상을 보였다.
  • Olmo 3.1 Think는 AIME 2025에서 Qwen 3 32B를 앞섰고 Gemma 27B에 근접했으며, Instruct는 Math 벤치마크에서 강세를 보였고 모델은 Ai2 Playground와 허깅페이스에서 이용 가능하다.

Olmo 3.1 개요: 엔터프라이즈 효율·투명·제어에 초점

Allen Institute for AI(Ai2)는 자사 모델군 중 가장 강력하다고 평가한 Olmo 3의 후속으로 Olmo 3.1을 발표했다. 이번 릴리스는 엔터프라이즈의 효율성, 투명성, 제어 가능성을 강화하는 데 초점을 맞췄으며, 세 가지 에디션 중 연구용 플래그십 Think 32B와 지시 따르기·멀티턴 대화·툴 사용에 맞춘 Instruct 32B가 갱신됐다. 프로그래밍·독해·수학에 적합한 Base 버전은 지속 파인튜닝에도 용이하다.

강화학습 확장으로 탄생한 Olmo 3.1 Think 32B

Ai2는 최고의 RL 러닝을 더 길게 연장하는 방식으로 Olmo 3.1 Think 32B를 완성했다. 구체적으로 224개의 GPU를 동원해 21일 추가 학습하고, Dolci-Think-RL 데이터셋에서 에폭을 증설했다. 그 결과 수학·추론·지시 따르기 벤치마크에서 유의미한 향상(AIME +5점 이상, ZebraLogic +4점 이상, IFEval +4점 이상, IFBench +20점 이상)을 달성했으며, 코딩과 복잡한 다단계 과제에서도 성능이 강화됐다.

Instruct 32B 업그레이드와 대화 최적화

연구진은 소형 7B Instruct에서 검증된 레시피를 대형 모델에 적용해 Olmo 3.1 Instruct 32B를 구축했다. 이 모델은 챗, 툴 사용, 멀티턴 대화에 최적화되어 실사용에 적합한 성능을 제공하며, 자체 평가에서 “완전 오픈 32B급 인스트럭트 모델 중 가장 강력하다”는 결과를 보였다.

벤치마크 성능: AIME·Math 등에서 두각

Olmo 3.1 Think는 AIME 2025에서 Qwen 3 32B를 앞섰고, Gemma 27B에 근접한 성능을 기록했다. 또한 Instruct 계열은 오픈소스 동급 모델과의 비교에서 강세를 보였으며, Math 벤치마크에서는 Gemma 3를 상회하는 결과도 보고됐다. 아울러 Ai2는 수학·코딩 특화 RL-Zero 7B 모델도 더 길고 안정적인 학습으로 함께 개선했다.

배포 및 접근성

새 체크포인트는 현재 Ai2 Playground와 허깅페이스에서 이용할 수 있으며, API 접근은 곧 제공될 예정이다. 기업과 연구 조직은 공개된 리소스를 통해 모델을 평가·적용하고, 자체 데이터로 후속 파인튜닝을 진행할 수 있다.

투명성과 오픈소스 철학

Ai2는 데이터·코드·학습 결정 전반을 투명하게 공개하는 철학을 유지해 왔다. 조직은 모델의 데이터 믹스를 확장해 재학습할 수 있으며, OlmoTrace 도구를 통해 LLM 출력과 학습 데이터의 정합성을 추적할 수 있다. Ai2는 “Olmo 3.1 Think 32B와 Olmo 3.1 Instruct 32B는 개방성과 성능이 함께 전진할 수 있음을 보여준다”고 밝혔다.

이 기사 공유하기