누스 리서치, 검열 최소화한 Hermes 4 공개…ChatGPT 앞서는 성능

누스 리서치, 검열 최소화한 Hermes 4 공개…ChatGPT 앞서는 성능

누스 리서치, 검열 최소화한 Hermes 4 공개…ChatGPT 앞서는 성능


기사 요약

  • 오픈소스 AI 선두주자 누스 리서치가 사용자 통제와 최소한의 제한을 내세운 대형 언어모델 패밀리 Hermes 4를 공개했다.
  • 하이브리드 추론 모드, RefusalBench 최상위 점수, MATH-500·AIME’24 고득점 등으로 상용 모델과 대등한 성능을 입증했다.
  • DataForge·Atropos 기반 학습, 길이 제어 기법, 공개 가중치·API 제공으로 빅테크 중심의 AI 개발에 도전장을 던진다.

오픈소스 AI의 역공: 검열 최소화한 Hermes 4 공개

오픈소스 AI 운동의 대표 주자로 떠오른 누스 리서치(Nous Research)가 상용 모델에 견줄 성능과 사용자 주도적 제어를 앞세운 Hermes 4를 조용히 공개했다. 이 모델군은 OpenAI·Google·Anthropic 계열과 달리 상업용 안전 가드레일을 대폭 줄여, 요청 대부분에 답하도록 설계됐다는 점에서 AI 접근 통제권을 둘러싼 논쟁을 한층 가열시켰다.

하이브리드 추론으로 수학·추론 성능 도약 (Hermes 4)

핵심은 사용자가 빠른 응답과 단계적 사고를 오가는 ‘하이브리드 추론’ 모드다. 활성화 시 모델은 최종 답변 전에 내부 추론을 <think> 태그 형태로 생성해 사고 과정을 투명하게 드러낸다. 최대 4,050억 파라미터 모델은 추론 모드에서 MATH-500 96.3%, AIME’24 81.9%를 기록해 초거대 상용 모델에 견주는 수학 성능을 보였다. 거부 성향을 측정하는 RefusalBench에서는 57.1%로 GPT-4o(17.67%)와 Claude Sonnet 4(17%)를 크게 앞섰다.

데이터·강화학습 엔진: DataForge와 Atropos로 빚은 Hermes 4

수년간 개발된 학습 인프라가 성능을 받쳤다. 그래프 기반 합성 데이터 생성기 DataForge는 지식 그래프를 무작위로 순회해 단순 프리트레이닝 데이터를 고난도 지시 따르기 예제로 바꾼다(예: 위키 문서를 랩 가사로 변환하고, 그 변환물에서 Q&A 생성). 오픈소스 강화학습 프레임워크 Atropos는 수학·코딩·도구 사용·창작 등 수백 개 특화 환경에서 정답을 냈을 때만 피드백을 주는 ‘거부 샘플링’으로 고품질 응답만 누적한다. 전체 데이터셋은 추론 샘플 350만 건, 비추론 160만 건 규모이며, 최대 모델 학습에 엔비디아 B200 GPU 192장과 71,616 GPU-시간이 투입됐다.

거부 최소화 철학과 투명성: Hermes 4의 사용자-정렬 설계

누스 리서치는 ‘스티어러블(steerable) 모델’ 철학을 강조한다. 과도한 면책·규칙·과잉 신중함을 배제해 활용성과 혁신성을 높이고, 프롬프트/미세조정으로 행동을 유연하게 바꿀 수 있도록 했다. 동시에 학습 과정, 평가 결과, 벤치마크 실제 출력까지 상세히 공개한 기술 보고서를 통해 벤치마킹 투명성의 새로운 기준을 제시했다고 밝혔다.

작은 팀, 큰 기술: 192 GPU로 빅테크에 맞서는 오픈소스

수십 명 규모의 스타트업이 수십억 달러 예산의 빅테크에 맞서는 구도다. 최근 Meta Llama 3.1, DeepSeek R1, 알리바바 Qwen 등 오픈소스 계열이 약진하는 가운데, 모델 추론 능력은 오랫동안 폐쇄형(o1 등)의 강점으로 여겨졌다. 누스 리서치는 올해 Paradigm 주도로 6,500만 달러를 유치했으며, 블록체인으로 인터넷 연결 컴퓨터를 조정하는 분산 학습 시스템 Psyche Network도 병행 개발 중이다.

끝없는 사고 고리 차단: 30k 토큰 길이 제어 기법

추론 모델의 고질병인 ‘과도한 생각 루프’도 기술적으로 대응했다. 140억 파라미터급 소형 모델은 추론 시 최대 컨텍스트 길이에 60%나 도달하는 문제가 있었고, 연구진은 3만 토큰에서 사고를 정확히 멈추도록 가르치는 2단계 학습을 도입했다. 그 결과 과도한 생성이 65~79% 줄었고, 성능 저하는 최소화됐다. 보고서는 ‘소형(<14B) 증류 모델은 과도 사고 경향이 크고, 대형은 덜하다’는 통찰도 제시한다.

한계와 활용: 가용성, 비용, 그리고 배치 옵션

모델 가중치는 허깅페이스에서 자유롭게 내려받을 수 있고, 새로 개편된 Nous Chat UI 및 Chutes·Nebius·Luminal 등 추론 파트너를 통한 API 이용도 가능하다. 병렬 대화와 메모리 시스템을 제공해 연구·엔터프라이즈 환경에서 맞춤화·민감 데이터 처리가 필요한 경우 상용 API 대비 매력적 대안이 될 수 있다. 다만 높은 연산 자원 요구와 운영 편의성 측면에서 상용 서비스가 여전히 유리한 용례도 존재한다.

큰 그림: 안전과 역량, 통제와 자율 사이에서

이번 출시는 ‘누가 고급 AI에 접근할 권한을 쥐어야 하는가’라는 근본 질문을 던진다. 빅테크는 엄격한 콘텐츠 중재와 안전 가드레일을 책임 있는 배포의 핵심으로 보지만, 오픈소스 진영은 투명성과 사용자 자율을 더 중시한다. 어는 쪽이 옳은지 단정하긴 이르지만, 적어도 AI의 미래가 자본 규모만으로 결정되지 않음을 이번 사례가 분명히 보여줬다.