leangnews

2025년 10월 10일 00:00

삼성 SAIT의 초소형 추론 모델 TRM, 일부 과제서 1만배 큰 모델 능가

삼성 SAIT의 초소형 추론 모델 TRM, 일부 과제서 1만배 큰 모델 능가


기사 요약

  • 700만 파라미터의 TRM이 스도쿠·미로·ARC-AGI 등 그리드 기반 추론 벤치마크에서 대형 LLM과 견주거나 능가했다.
  • TRM은 단순한 2층 구조와 재귀 추론으로 스스로 답을 갱신하며, MIT 라이선스로 공개돼 재현 가능한 연구 기반을 제공한다.
  • 다만 범용 언어 모델이 아닌 특화 솔버로 설계돼 일반화 범위에 논쟁이 있으며, 향후 생성형·다중 해답과 재귀 스케일링 법칙이 과제로 남았다.

개요

삼성 고등기술연구소(SAIT)의 시니어 AI 연구원 알렉시아 졸리퀘르-마르티노가 700만 파라미터 규모의 Tiny Recursion Model(TRM)을 공개했다. 이 소형 신경망은 OpenAI o3-mini, Google Gemini 2.5 Pro 등 매개변수가 1만 배 큰 최신 모델과 맞먹거나 능가하는 성과를 일부 추론 벤치마크에서 보였다. 목표는 초대형 모델 학습에 필요한 막대한 GPU와 전력 투입 없이도 높은 성능을 경제적으로 달성할 수 있음을 입증하는 것이다. 관련 결과는 arXiv에 ‘Less is More: Recursive Reasoning with Tiny Networks’라는 제목의 논문으로 공개됐다.

TRM 아키텍처: 계층에서 단순성으로

HRM 대비 핵심 차이

이 모델은 올해 초 제안된 HRM(Hierarchical Reasoning Model)을 단순화했다. HRM은 고주파·저주파 두 네트워크와 생물학적 비유, 고정점 정리 기반 수학적 정당화를 동원했지만, 연구진은 이를 과도한 복잡성으로 판단했다. TRM은 두 네트워크를 단일 2층 모델로 축소하고, 스스로의 출력을 반복적으로 정제하는 재귀 메커니즘만 남겼다.

재귀가 규모를 대체하는 방식

모델은 임베딩된 질문과 초기 답(x, y, z)을 시작점으로, 내부 잠재 표현 z와 답 y를 여러 단계에 걸쳐 갱신하며 안정적인 출력에 수렴한다. 최대 16회의 감독 단계로 반복되는 이 과정은 이전 단계의 잠재적 오류를 교정해 자기개선 추론을 이끈다. 다층 구조를 깊게 쌓지 않고도 반복을 통해 ‘깊이’를 모사하며, 경량 정지(halting) 메커니즘이 불필요한 연산을 줄인다. 대형 언어 모델의 다단계 추론과 유사한 효과를, 단순한 피드포워드 설계로 구현한 셈이다.

성능과 효율

벤치마크 결과

평가에서 모델은 Sudoku-Extreme 87.4%(HRM의 55% 대비 향상), Maze-Hard 85%, ARC-AGI-1 45%, ARC-AGI-2 8%의 정확도를 보였다. 매개변수 수가 0.01%에도 못 미침에도 DeepSeek R1, Gemini 2.5 Pro, o3-mini 등 일부 대형 모델과 비슷하거나 더 나은 성적을 거뒀다. 이는 추상·조합적 문제에서 규모보다 재귀 추론이 관건일 수 있음을 시사한다.

설계 철학: Less is More

연구진은 층 수나 모델 크기를 늘릴수록 소규모 데이터셋에서 과적합이 심해져 성능이 떨어진다고 보고했다. 반대로 2층 구조에 재귀 깊이와 딥 슈퍼비전을 결합하면 최적의 일반화가 가능했다. 스도쿠처럼 컨텍스트가 작고 고정된 과제에서는 셀프 어텐션 대신 단순한 MLP가 더 효과적이었고, ARC처럼 큰 격자에서는 셀프 어텐션이 여전히 유용했다.

학습과 오픈소스 공개

코드는 MIT 라이선스로 GitHub에 공개되어 연구·기업 용도로 자유롭게 수정·배포할 수 있다. 저장소에는 스도쿠, 미로, ARC-AGI용 데이터셋 빌더와 전체 학습·평가 스크립트, 재현을 위한 레퍼런스 설정이 포함됐다. 연산 요구사항은 스도쿠 학습의 단일 NVIDIA L40S부터 ARC-AGI 실험의 멀티 H100 구성까지 문서화되었다. 학습에는 색상 치환, 기하 변환 등 강한 데이터 증강이 사용되며, 효율성의 핵심은 총 연산량이 아니라 매개변수 규모에 있음을 보여준다.

적용 범위와 한계

이 모델은 스도쿠, 미로, ARC-AGI처럼 구조화된 시각적 격자 문제에 특화된 솔버로 설계되었다. 따라서 범용 대화나 텍스트 생성에는 적합하지 않다. 일부 연구자는 강한 증강과 재귀 패스가 추가 연산을 요구한다며, 절감은 주로 모델 크기에서 비롯된다고 지적했다. 그럼에도 TRM은 HRM의 복잡한 가정을 덜어낸 명료한 재귀 구조를 제시해, ‘크기가 전부’라는 통념에 반하는 재현 가능한 기준선을 제공한다.

커뮤니티 반응

공개 직후 연구 커뮤니티에서는 일반화 가능성을 두고 논쟁이 일었다. 지지자들은 “1만 배 더 작지만 더 똑똑한” 사례라며, 규모 확장보다 ‘생각하는’ 아키텍처의 가능성을 봤다. 비판자들은 범위가 그리드 퍼즐에 국한된다고 지적했으며, TRM을 범용 지능이 아닌 HRM의 간결한 개선으로 평가하는 시각도 제기됐다. 요지는 좁은 도메인이라도, 치밀한 재귀가 다음 세대의 추론 연구를 견인할 수 있다는 점이다.

전망

향후 과제로는 단일 정답 대신 복수 해를 생성하는 생성형·다중 해답 변형, 모델·데이터 규모 증가에 따른 재귀 스케일링 법칙 규명이 제안된다. 요약하면, 더 큰 모델을 한 번 생각하게 만들기보다, 작은 모델이 신중하게—그리고 재귀적으로—생각하도록 가르치는 접근이 더 강력할 수 있다. TRM은 그 가능성을 작고 투명한 형태로 보여준 출발점이다.

이 기사 공유하기