leangnews
Command Palette
Search for a command to run...
2026년 01월 07일 09:02
Falcon H1R 7B, 7배 큰 모델 제치고 하이브리드로 추론력 입증
기사 요약
- TII의 Falcon H1R 7B는 Mamba+Transformer 하이브리드로 7B 규모임에도 7배 큰 모델을 능가하는 추론력을 보였다.
- 수학·코드 중심 SFT, GRPO 기반 No-KL RL, TTS(DeepConf)로 AIME 2025 83.1%와 효율성 향상을 달성했다.
- 모델은 Hugging Face·Falcon Chat로 공개되며, 상업적 이용 가능하지만 출처 표시와 AUP 등 라이선스 조건을 따라야 한다.
개요
최근 생성형 AI는 “크면 더 잘 추론한다”는 통념이 지배했지만, 아부다비 TII의 Falcon H1R 7B는 이를 뒤집는다. 공개 가중치 생태계에서 매개변수 수 경쟁이 아니라 아키텍처 효율과 추론 시점 스케일링으로 전장을 옮겼으며, Falcon H1R 7B 코드는 Hugging Face에 공개되고 Falcon Chat 데모로 시험해볼 수 있다.
하이브리드 백본: Mamba + Transformer
대다수 LLM이 Transformer만을 쓰는 반면, Falcon H1R 7B는 상태공간모델(SSM)인 Mamba를 주의(attention)와 병행해 통합했다. Transformer가 모든 토큰을 상호 비교(제곱 스케일링)하는 대신, Mamba는 순차 처리로 선형 스케일링을 확보해 긴 컨텍스트에서도 메모리·연산 비용을 크게 줄인다. 이는 긴 사고 사슬이 필요한 추론 모델의 고질적 병목, 즉 ‘생각 비용’을 낮추는 데 핵심이다.
성능: 작은 모델의 반란
AIME 2025와 대형 모델 비교
Falcon H1R 7B는 AIME 2025에서 83.1%를 기록해 15B Apriel-v1.6-Thinker(82.7%)와 32B OLMo 3 Think(73.7%)를 앞질렀다. GPT-5.2(99.0%), Gemini 3 Flash(97.0%) 등 초대형 상용 모델에는 미치지 못하지만, 효율적 오픈웨이트와 중간급 상용 모델 사이의 격차를 크게 좁혔다. 또한 Mistral Large 3(38.0%), Llama 4 Maverick(19.3%) 같은 구세대 대형 모델을 특정 추론 지표에서 크게 상회했다.
코딩·일반 추론 지표
코딩 벤치마크 LCB v6에서 68.6%로, 최대 4배 큰 모델들을 포함한 테스트 대비 최고 수준을 주장한다. 일반 추론은 49.48%로 14B·15B 바로 아래권이지만 동급 8B 대비 우수하다.
추론 처리량
배치 64 기준 GPU당 초당 약 1,500토큰으로, 경쟁 모델 Qwen3 8B 대비 거의 2배 속도를 보였다.
훈련 기법: 두 단계 파이프라인
Stage 1: 콜드스타트 SFT
수학(56.8%)·코드(29.8%) 중심의 정제 데이터로 최대 48,000토큰 길이까지 학습했다. 난이도 인지 가중치로 어려운 문제를 1.25~1.75배 상향하고 쉬운 문제는 축소·제거해 사소한 패턴 과적합을 방지했다. 다중 교사 혼합은 추론 스타일 충돌로 성능을 해쳐 단일 교사 전략을 채택했다. 시퀀스 길이 편차를 보정하는 Balanced Data-Parallel Token Normalization으로 GPU 간 토큰 기여를 균등화해 학습 안정성과 정확도(약 4~10%p)를 끌어올렸다.
Stage 2: GRPO 기반 강화학습
별도 가치 모델 없이 정답 보상만으로 정책을 개선하는 GRPO를 사용했다. 표준 RLHF와 달리 KL 패널티를 제거(beta=0)해 SFT 정책에서 과감히 이탈하며 새로운 추론 경로 탐색을 장려했다. RL 단계는 수학 전용 커리큘럼이 혼합·코드 전용 대비 전 영역(코드·과학 포함) 일반화를 가장 효과적으로 높였다고 보고한다.
테스트 타임 스케일링(TTS)과 DeepConf
Falcon H1R 7B는 Test-Time Scaling을 전제로 다중 추론 경로를 병렬 생성한다. 이때 내부 신뢰도 점수를 활용하는 Deep Think with Confidence(DeepConf)로 저품질 체인을 동적으로 가지치기한다. 생성 초기에 16개 트레이스로 기준선을 만든 뒤, 기준선 신뢰도 하위 10백분위 미만 체인은 조기 종료한다. 그 결과 AIME 25에서 96.7%에 도달하면서, DeepSeek-R1-0528-Qwen3-8B 대비 토큰 사용을 38% 줄여 새로운 효율-정확도 파레토 프런티어를 제시했다.
라이선스: 상업 사용 가능하되 조건 있음
Apache 2.0을 변형한 Falcon LLM License 1.0으로 공개되며, 로열티는 없지만 출처 표기와 TII 상대 소송 금지 조항이 포함된다. 또한 엄격한 AUP를 위반하거나 TII에 대한 특허 소송을 개시하면 라이선스가 자동 종료된다. 금지 사례는 법령 위반, 미성년자·생명체에 대한 위해, 악의적 허위정보 유포, 명예훼손·괴롭힘 등이 있다.
산업 동향과 이용 방법
엔비디아 Nemotron 3(하이브리드 MoE+Mamba-Transformer), IBM Granite 4.0(메모리 70%+ 절감), AI21 Jamba 1.5, 미스트랄 Codestral Mamba 등으로 하이브리드 흐름이 확산 중이다. Falcon H1R 7B는 특히 조밀한 추론 작업을 소형 폼팩터로 겨냥하며, 전체 코드는 Hugging Face에서, 체험은 Falcon Chat 데모에서 가능하다. TII는 Falcon H1 7B의 접근법·학습법을 담은 기술 보고서도 함께 공개했다.