leangnews

2026년 01월 09일 10:02

오픈소스 코딩 모델 NousCoder-14B, ‘클로드 코드’ 열풍 속 출격

오픈소스 코딩 모델 NousCoder-14B, ‘클로드 코드’ 열풍 속 출격


기사 요약

  • 오픈소스 AI 스타트업 누스 리서치가 48대의 엔비디아 B200으로 4일간 학습한 코딩 모델 NousCoder-14B를 공개했다.
  • LiveCodeBench v6에서 정확도 67.87%로 Qwen3-14B 대비 7.08%p 향상했으며, 강화학습 파이프라인과 Atropos 스택을 전면 공개해 재현성을 확보했다.
  • 경쟁 프로그래밍 데이터의 한계가 드러난 가운데 합성 데이터·문제 생성·멀티턴 RL이 다음 과제로 제시됐다.

개요

오픈소스 AI 기업 Nous Research(누스 리서치)가 경쟁 프로그래밍 특화 코딩 모델을 공개했다. 공개 시점은 라이벌 앤트로픽의 에이전틱 코딩 도구 ‘Claude Code’가 새해부터 화제를 모으는 국면과 맞물려, AI 보조 기반 소프트웨어 개발의 속도전과 판도 변화를 상징한다. 회사는 48대의 엔비디아 B200 GPU로 4일간 강화학습을 수행해 대형 폐쇄 모델에 견줄 성능을 냈다고 밝혔다.

NousCoder-14B 출시와 시기적 맥락

개발자 커뮤니티에서는 ‘문제 서술만으로 작년 한 해 만든 시스템을 한 시간 만에 재현했다’는 후기가 회자되는 등 에이전틱 코딩 보조의 체감 효용이 커지고 있다. 이에 대해 누스 리서치는 검증 가능한 문제로 학습한 오픈소스 대안이 격차를 빠르게 좁힐 수 있으며, 모델 구축 과정의 투명성도 성능 못지않게 중요하다고 강조한다.

성능과 벤치마크

NousCoder-14B 성능(67.87%)과 기준

해당 모델은 2024년 8월부터 2025년 5월 사이에 출제된 경쟁 프로그래밍 문제로 구성된 표준 평가인 LiveCodeBench v6에서 정확도 67.87%를 기록했다. 이는 베이스 모델인 알리바바 Qwen3-14B 대비 7.08%p 개선된 수치다. 구글의 자아나 도건은 분산 에이전트 오케스트레이션 시스템을 3단락 프롬프트로 근사해낸 사례를 공유하며, 현 시점의 에이전틱 개발 도구가 보여주는 종단형 개발 능력의 인상적 단면을 전했다.

훈련 기법과 인프라

NousCoder-14B 학습 파이프라인 요약

학습은 테스트케이스 실행을 통한 이분(정답/오답) 보상으로 이루어지는 ‘검증 가능한 보상’ 체계를 채택했다. 대규모 병렬 샌드박스 실행은 Modal 클라우드에서 처리됐고, 평균 수백 개 테스트케이스를 지닌 2만4천 개 문제에 대해 시간 15초, 메모리 4GB 제약 내 정답 여부를 검증했다. 최적화는 DAPO(동적 샘플링 정책 최적화)를 사용했으며, 모두 맞히거나 모두 틀린 시도는 학습 신호가 약하므로 폐기하는 ‘동적 샘플링’을 도입했다. 컨텍스트 윈도우는 32k로 시작해 40k로 확장했고, 평가 시 약 80k까지 늘려 최고 성능을 확보했다. 또한 추론과 검증을 파이프라이닝해 이전 출력의 채점이 진행되는 동안 다음 문제를 생성하도록 하고, 비동기 다중 인스턴스로 병렬 학습을 수행해 고가 GPU 자원을 극대화했다.

오픈소스와 재현성

Atropos 공개와 NousCoder-14B 재현성

누스 리서치는 모델 가중치뿐 아니라 Atropos 프레임워크 기반의 강화학습 환경, 벤치마크 모음, 트레이닝 하네스를 전면 공개했다. 이는 충분한 연산 자원을 가진 연구자라면 누구나 동일 실험을 재현·확장할 수 있음을 뜻한다. 학습을 주도한 Joe Li는 자신의 Codeforces 레이팅 향상(약 1600~1750에서 2100~2200)과 모델의 성능 향상을 대비해, 본인이 14~16세에 걸쳐 2년간 쌓은 도약을 모델이 4일 만에 달성했다고 밝혔다. 다만 그는 본인은 약 1,000문제, 모델은 24,000문제를 풀었다며, 인간이 여전히 월등히 ‘샘플 효율적’임을 강조했다.

데이터 한계와 다음 단계

NousCoder-14B 데이터 한계, 합성 데이터

이번 학습에 사용된 데이터셋은 표준화된 형식으로 자동 검증 가능한 경쟁 프로그래밍 문제의 ‘상당 부분’을 포괄한다. 이는 해당 도메인에서 고품질 학습 데이터의 물리적 한계에 근접했음을 시사한다. 계산 자원은 계속 확장되지만 데이터는 점점 유한해지는 만큼, 합성 데이터 생성, 데이터 효율적 알고리즘·아키텍처 연구의 중요성이 커지고 있다. 특히 코드 분야는 정답의 자동 검증이 요구돼 자연어와 달리 합성 데이터 생성이 난이도가 높다. 한 가지 해법으로 모델이 ‘풀 수 있는 문제’를 스스로 생성하고, 자가 대전(self-play) 방식으로 커리큘럼을 확장하는 접근이 제안됐다.

비즈니스·커뮤니티 맥락

오픈소스 전략과 투자, 비교 평가

누스 리서치는 대형 빅테크의 폐쇄 모델에 맞서는 오픈소스 지향으로 독자적 위치를 구축했다. 2025년 4월 파라다임 주도로 5천만 달러를 유치해 총 투자금은 6,500만 달러에 달한다는 보도가 나왔으며, 분산형 학습 플랫폼 Psyche와 Hermes 4, DeepHermes-3(토글형 추론 모델) 등도 선보였다. 한편 커뮤니티에서는 ‘애니 프로필’ 등 브랜드 이미지에 대한 냉소, 엔비디아 Nemotron 대비 성능 비교, 에이전틱 초점인지 ‘원샷’ 코딩인지에 대한 실무적 질문이 제기되며 건강한 검증이 이어지고 있다.

향후 연구 과제와 사용 가능성

멀티턴 RL·응답 길이·자기학습

현재는 최종 통과/실패만 보상으로 쓰지만, 컴파일 에러·부분 오답·시간 초과 등 중간 피드백을 반영하는 멀티턴 강화학습이 효과적일 전망이다. 잘못된 해답이 대체로 더 길고, 학습 중 응답 길이가 컨텍스트 한도를 빠르게 채우는 문제도 해결 과제로 남았다. 궁극적으로는 문제 생성과 자가학습을 통한 데이터 확장이 돌파구가 될 수 있다. 모델은 Apache 2.0 라이선스로 Hugging Face에서 제공되며, 전체 Atropos 학습 스택도 함께 공개됐다. 인간이 두 해에 걸쳐 이룬 레이팅 도약을 모델이 96시간 만에 반복해낸 지금, 질문은 ‘기계가 코드를 배울 수 있나’가 아니라 ‘머지않아 인간보다 더 나은 교사가 될 것인가’로 옮겨가고 있다.

NousCoder-14B가 던지는 함의

오픈성과 재현성, 검증 가능한 보상, 고효율 파이프라인이 맞물리며, 우리는 빠른 주기로 개선되는 오픈소스 코딩 모델의 시대에 들어섰다. NousCoder-14B 사례는 데이터 한계와 합성 데이터의 필요, 그리고 에이전틱 개발 도구의 실전 가치에 대한 새로운 기준점을 제공한다.

이 기사 공유하기