leangnews

2025년 12월 13일 10:03

노스 리서치 ‘Nomos 1’, 푸트남 수학 대회 2위권 기록

노스 리서치 ‘Nomos 1’, 푸트남 수학 대회 2위권 기록


기사 요약

  • 샌프란시스코의 Nous Research가 오픈소스 수학 추론 시스템 ‘Nomos 1’을 공개해 2024년 푸트남 대회에서 87점을 받아 3,988명 중 2위 수준을 기록했습니다.
  • Qwen3 기반 300억 파라미터 MoE(활성 30억)와 두 단계 추론 하니스 덕분에 소비자급 하드웨어에서도 구동되며, 동일 베이스 대비 24점에서 87점으로 향상했습니다.
  • 허깅페이스·GitHub에 오픈소스로 공개됐고, Hermes 4.3·Psyche 네트워크 성과와 함께 ‘작지만 효율적인’ 모델 전략이 대형 폐쇄모델 격차를 좁힌다는 신호를 보냅니다.

오픈소스 수학 추론 AI의 성과

샌프란시스코의 AI 스타트업 Nous Research가 화요일 오픈소스 수학적 추론 시스템 ‘Nomos 1’을 공개했다. 이 모델은 올해 윌리엄 로웰 푸트남 수학 경시대회에서 87/120점을 받아 3,988명 중 2위에 해당하는 성적을 기록했으며, 같은 해 최고 점수는 90점, 중앙값은 2점에 불과했다. 모델 아키텍처는 알리바바의 Qwen3를 바탕으로 한 혼합전문가(MoE) 설계의 300억 파라미터로, 매 시점 활성 파라미터는 약 30억에 그쳐 효율성이 높다. 개발은 Hillclimb AI와의 협업으로 이뤄졌다.

푸트남 대회가 ‘최종 보스’로 불리는 이유

푸트남 대회는 북미 대학 학부생을 대상으로 매년 열리는 최고 권위의 수학 경시대회다. 시험은 3시간 세션 2회(중간 2시간 휴식)로 진행되며 총 12문항(각 10점, 합계 120점)으로 구성된다. 문제는 교과서 계산형이 아니라 퍼즐에 가까워, 표현을 바꿔가며 통찰을 이끌어내야 한다. 최근 대회에서는 약 4천 명이 응시했고, 미수학협회(MAA) 집계 기준 61%가 3점 이하를 받았다. 역대 ‘Putnam Fellows’ 중에는 필즈상 수상자(존 밀너, 데이비드 멈퍼드, 대니얼 퀼런)와 노벨 물리학상 수상자(리처드 파인만, 케네스 윌슨)도 포함된다.

‘Nomos 1’ 추론 하니스: 두 단계로 풀고 고르는 시스템

핵심 차별점은 단순 추론 호출을 넘어 문제 접근을 조율하는 오픈소스 ‘추론 하니스’다. 실제 푸트남의 3시간 제한을 모사해 두 단계로 동작한다. 해결 단계에서는 다수의 워커가 병렬로 가장 덜 해결된 문제를 우선 선택해 답안을 생성하고, 스스로 1~7점으로 채점한다. 완벽한 답안이 적은 문제에 연산 자원을 집중해 난제를 공략한다. 마감 15분 전(또는 짧은 런의 50% 시점)부터는 최종화 단계로 전환되어, 먼저 결론이 같은 답안을 묶어 ‘다수결이 아닐 수도 있는’ 정답 그룹을 찾고, 이어 단판 토너먼트 방식으로 문제별 최종 제출을 결정한다.

베이스 대비 격차와 검증 절차

동일한 베이스 모델(Qwen3-30B-A3B-Thinking-2507)을 같은 하니스로 평가했을 때 성적은 24/120점에 그쳤다. 회사는 성능 격차가 모델 규모보다 사후학습과 데이터 품질의 효과임을 강조했다. 또한 ‘87/120점, 완벽 채점 8문항’이라는 결과는 과거 푸트남 상위 200위권 인력이 블라인드 채점으로 검증했다. 익명 제출본은 채점 후 비식별 해제본과 실행 로그(runbook)와 함께 GitHub에 공개됐다.

경쟁 모델 비교: DeepSeek·Google·OpenAI

수학 추론 AI 경쟁은 급가속 중이다. DeepSeekMath-V2는 2024년 푸트남 문제에서 118/120점을 기록해 최고 인간 점수를 넘어섰고, 국제수학올림피아드(IMO) 금메달 수준의 성능을 보였다. 구글의 고급 Gemini 계열은 자연어만으로 공식 문제 서술에서 엄밀한 증명을 생성해 4.5시간 제한 내에 완주했으며, ‘Gemini Deep Think’의 발전형을 사용했다. 반면 접근성과 효율성 측면에서 Nomos 1은 300억 파라미터(활성 30억)로 소비자급 하드웨어에서도 구동 가능해, 초대형 폐쇄모델이 요구하는 막대한 연산 자원과 대조를 이룬다.

Hermes 4.3와 Psyche 네트워크

이번 발표 6일 전(12월 3일), Nous Research는 범용 언어모델 Hermes 4.3도 공개했다. ByteDance의 Seed-OSS-36B-Base를 기반으로 하며, 공개 인터넷 상의 데이터센터 노드를 합의(솔라나 블록체인)로 묶어 조정하는 분산 학습 인프라 ‘Psyche’에서 전량 학습된 첫 프로덕션 모델이다. 신규 옵티마이저 ‘DisTrO’와 오버랩드 컬렉티브 전략을 통해 P2P 통신을 학습 시간에 숨겨 전통적 중앙집중 학습과 동등한 처리량(평균 14.4만 토큰/초, 24 노드)을 달성했고, 실제로 중앙집중 버전 대비 다양한 다운스트림 과제에서 더 높은 성능을 보였다. 또 ‘RefusalBench’에서 74.60% 응답률로 Hermes 4 70B(59.50%)와 폐쇄형 모델 Grok 4(51.30%), Gemini 2.5 Pro(24.23%)를 앞섰다.

오픈소스 배포와 핵심 기여자

모델은 허깅페이스에서 Apache 2.0 라이선스로, 전체 추론 하니스는 GitHub에 공개됐다. 훈련은 Roger Jin이 주도했고, 인프라는 Jeffrey Quesnelle과 Dakota Mahan이 구축했으며, Chen Guang이 자문, Ryan Teknium과 Jeffrey Quesnelle이 리더십을 제공했다. Hillclimb AI와 수학 전문가 팀(예: Samuel Kim, Miron Yurkevich 등)도 개발에 기여했다.

의미와 전망: 작지만 강한 모델의 부상

제86회 푸트남 대회는 2025년 12월 6일에 열렸고, 불과 사흘 뒤 관련 성과가 공개될 만큼 ‘AI 수학자’ 경쟁은 예상보다 빠르게 움직이고 있다. 같은 시기 구글·오픈AI의 고급 모델이 IMO 2025에서 금메달 수준을 달성했고, DeepSeek도 6문항 중 5문항을 해결했다. 그러나 OpenAI o1-pro(추정 1.8조+ 파라미터), Gemini 2.5 Pro(4천억+ 파라미터) 등 최전선 모델의 자원 요구량은 대부분의 조직에 부담이다. 이에 비해 Nomos 1은 노트북급 장비에서도 경쟁적 결과를 내며, 형식 검증·정리 증명·과학 모델링·암호 분석 등 고신뢰 추론이 필요한 기업 업무에 실용 대안을 제시한다. 거대 클라우드 API에 의존하지 않고 자체 인프라에 배치할 수 있다는 점도 채택 장벽을 낮춘다.

이 기사 공유하기