leangnews

2025년 11월 06일 09:00

어텐션만으론 부족? Brumby-14B와 Power Retention의 도전

어텐션만으론 부족? Brumby-14B와 Power Retention의 도전


기사 요약

  • Manifest AI가 어텐션을 버린 Brumby-14B-Base를 공개하며 약 4천 달러 재학습만으로 동급 트랜스포머와 성능 대등을 입증했다.
  • 장문맥에서 토큰당 상수 시간 계산과 높은 하드웨어 활용도를 내세워 수학·장문 추론 과제에서 강점을 보였다.
  • 다만 비용은 기존 가중치 재활용이 전제되며, 추론 엔진 통합 등 실전 배포 과제는 여전히 진행 중이다.

트랜스포머의 한계와 대안의 등장

2017년 구글의 ‘Attention Is All You Need’로 트랜스포머가 AI의 표준으로 떠올랐지만, 문맥 길이에 따라 계산·메모리 비용이 제곱으로 늘어나는 어텐션의 병목은 시간이 지날수록 커졌다. 2025년 10월 28일, 스타트업 Manifest AI는 어텐션을 과감히 제거한 Brumby-14B-Base를 공개했다. 이 모델은 새로운 메커니즘인 Power Retention을 도입해 임의로 긴 문맥에서도 메모리 폭증 없이 상태를 저장·갱신하며, 약 4,000달러의 재학습 비용으로 Qwen3-14B·GLM-4.5-Air와 견줄 성능을 보였다고 밝혔다.

From Attention to Retention: 구조적 전환

Power Retention 레이어의 작동 원리

이른바 Power Retention 레이어는 트랜스포머와 동일하게 Q/K/V를 입력으로 받되, 전 구간 유사도 계산 대신 순환적 상태 업데이트를 수행한다. 각 레이어는 메모리 행렬 S를 유지하며 매 토큰마다 유입된 키·밸류와 학습된 게이팅 신호로 S를 갱신한다. 이는 전체 문맥에 대해 어텐션을 재계산하는 대신, 과거 정보를 고정 크기 잠재 상태로 압축하는 RNN 유사 방식이다. 결과적으로 문맥이 1,000토큰이든 100만 토큰이든 토큰당 계산 비용은 상수로 유지된다. 한편 입력의 텐서 거듭제곱을 활용한 재귀로 고차 의존성을 표현해 트랜스포머에 버금가는 표현력을 지향한다.

재학습으로 비용 절감

Brumby-14B는 32대의 H100으로 60시간가량 재학습해 약 4,000달러가 들었다. 다만 이는 기존 트랜스포머 가중치를 활용했기에 가능한 수치로, 창시자 Jacob Buckman은 “처음부터 학습한다면 이 비용으론 불가능”하다고 못 박았다. 어텐션 레이어를 제거하고 새 메커니즘으로 교체하면서 Qwen3의 기존 가중치는 일부 적합성을 잃었고, 약 3,000 스텝의 재학습으로 이를 재보정했다. 세계적 피아니스트에게 기타를 쥐여 준 비유처럼, 모델은 지식을 새 ‘연주법’에 맞춰 빠르게 다시 익혔고, 그 결과 GSM8K·HellaSwag·MMLU 등 핵심 벤치마크에서 원래 Qwen3와 동급 정확도를 회복했다.

벤치마크 성능

표준 평가 전반에서 동급 트랜스포머와 대등한 성능을 보였다. 지식 의존적인 MMLU-Pro에서는 다소 뒤지지만, 수학·장문맥 추론에서는 동률 혹은 우위다(예: GSM8K 0.88, MATH 0.62). 이는 순환·보존형 구조가 시간적으로 길게 이어지는 추론이나 논리적 의존성에서 구조적 이점을 가질 수 있음을 시사한다.

하드웨어 효율과 추론 성능

상태 갱신이 국소 행렬 연산으로 이뤄져 시퀀스 길이에 선형 복잡도로 추론을 구현할 수 있다. 사내 CUDA 프레임워크 Vidrial로 개발된 Power Retention 커널(알파)은 초장문맥에서 어텐션 대비 수백 배 가속을 보고했으며, 하드웨어 활용도는 80~85%로 FlashAttention2(70~75%)나 Mamba(50~60%)보다 높다고 한다. Mamba는 어텐션을 상태공간 메커니즘으로 대체해 선형 처리하는 2023년 제안으로 장문 입력에 효율적이지만, 초기 하드웨어 활용도는 상대적으로 낮았다. 두 방식 모두 장문맥에서 FLOPs와 메모리 사용을 크게 줄였으며, 보고된 ‘100배’ 가속은 활용도 향상과 연산 효율의 결합 효과라는 점, 그리고 아직 대규모 실전 부하에 대한 스트레스 테스트는 남아 있다는 단서가 붙었다.

훈련·스케일링 경제성

140억 매개변수 모델을 수천 달러로 재학습했다는 점은 파운데이션 모델 개발 비용을 한두 자릿수 배수로 낮출 잠재력을 보여준다. Buckman은 규모가 클수록 재학습 난도가 오히려 낮아지는 경향을 관찰했으며, 700B급도 1만~2만 달러 선을 전망했다. 이는 소규모 연구팀·기업이 기존 트랜스포머 체크포인트를 저비용으로 전환·재활용해 대규모 실험을 민주화할 길을 연다.

통합과 배포

기존 트랜스포머를 이 구조로 바꾸는 절차는 간단하다고 한다. “pip install retention 후 아키텍처 코드 한 줄을 바꾸고 중단 지점에서 학습을 재개하면 된다”는 설명이다. 몇 GPU-시간이면 원성능을 회복하고 장문맥 학습·추론에서의 효율을 얻는다. 주요 커널은 Triton으로 작성되어 NVIDIA·AMD 모두 호환되며, 특화 CUDA 커널은 Vidrial에서 제공된다. vLLM 등 추론 엔진 통합은 진행 중이고, 분산 추론의 안정성 문제는 재귀 상태 구조 덕에 오히려 기술적으로 단순해졌다고 주장한다.

미션과 장기 비전

Manifest AI는 ‘인간의 모든 출력을 모델링하는 신경망’을 지향한다. 산출물이라는 결과물 모사가 아니라, 그것을 낳는 지적 과정 자체의 모델링을 위해 아키텍처·훈련 방식을 근본적으로 재고해야 한다는 입장이다. 이번 공개는 연속적이고 효율적인 사고 과정을 담는 아키텍처로 가는 이정표로 제시된다.

공개 논쟁과 업계 반응

출시 직후 X(옛 트위터)에선 ‘$4,000 파운데이션 모델’이라는 표현이 사전학습 가중치 재활용을 과장했다는 지적이 나왔다. Buckman은 트윗 스레드의 전체 맥락을 강조하며, “트랜스포머 시대의 종말은 아직 아니지만 변화의 행군은 시작됐다”고 재차 강조했다. 비용 주장은 문맥상 정확하나, 프런티어 규모 실험비에 대한 통념을 흔들어 더 큰 관심을 모았다는 평가다.

결론: 트랜스포머의 벽에 난 균열

Brumby-14B-Base는 어텐션을 Power Retention로 대체해 최첨단 트랜스포머와의 성능 동등성과 장문맥 병목 해소 가능성을 훨씬 낮은 비용으로 입증한 개념 증명이다. 이로써 훈련·서빙 경제성의 지형이 바뀔 수 있고, 트랜스포머 단일체제를 넘어 아키텍처 다양성이 재점화될 여지가 커졌다.

실제 적용 예시

홈페이지 제작 전 필수 체크리스트

기업 홈페이지나 고객 포털에 장문맥 AI 도우미를 탑재하려면 다음을 점검하라: 요구 문맥 길이·지연 한도, 검색/요약 파이프라인 정확도, 개인정보·규정 준수, GPU 및 추론 예산과 탄력적 스케일링, 보존형 아키텍처 채택 시 커널/엔진 호환성과 운영 성숙도.

홈페이지 제작 프로세스 단계별 안내

1) 유즈케이스·콘텐츠 소스·보안 요구 정의. 2) 기존 트랜스포머를 효율적 장문맥 구조로 변환 후 재학습해 정확도 회복 확인. 3) 검색·캐시·스트리밍을 포함한 추론 경로 설계 및 vLLM 등 엔진 통합. 4) 부하 테스트로 지연·비용 튜닝, 관찰성 구축과 롤백 계획 수립. 5) 단계적 롤아웃 후 실사용 데이터 기반 지속 재학습·개선.

이 기사 공유하기