leangnews

2025년 12월 17일 10:02

Ai2 ‘Bolmo’: 품질 저하 없이 바이트 레벨 LM 학습

Ai2 ‘Bolmo’: 품질 저하 없이 바이트 레벨 LM 학습


기사 요약

  • Ai2가 Olmo 3를 ‘바이트화’해 재활용한 Bolmo 7B/1B를 공개, 처음으로 완전 공개된 바이트 레벨 언어 모델을 제시했다.
  • UTF-8 바이트를 직접 다루는 바이트 레벨 언어 모델은 토크나이저 없이 오탈자·희귀언어·비정형 텍스트에 강하고 운영 복잡도를 줄인다.
  • 두 단계 학습과 Dolma 3 데이터로 구축된 Bolmo는 CUTE·EXECUTE 등 문자 중심 벤치마크와 동급 모델 대비 우수한 성능을 보였다.

Bolmo가 여는 바이트 레벨 학습의 실용화

멀티언어 환경에서 토크나이저 없는 모델을 원하는 기업이 늘면서, Ai2는 Olmo 3를 ‘바이트화’해 백본과 능력을 그대로 활용하는 새로운 계열의 Bolmo를 선보였다. 첫 공개 버전은 Bolmo 7B와 Bolmo 1B로, Ai2에 따르면 업계 최초의 완전 공개 바이트 레벨 언어 모델이며, 동급의 바이트/문자 기반 모델과 경쟁하거나 일부를 능가하는 성능을 보인다.

왜 바이트 레벨 언어 모델인가

바이트 레벨 언어 모델은 사전이나 토크나이저 없이 원시 UTF-8 바이트를 직접 처리한다. 이 방식은 오탈자, 희귀 언어, 비정형 텍스트에 강인해 콘텐츠 모더레이션, 엣지 배포, 다국어 애플리케이션 등에서 특히 유용하다. 여러 언어와 잡음 많은 입력, 제약된 환경을 동시에 다루는 기업에게 바이트 레벨 언어 모델은 운영 복잡도를 줄이는 실질적 대안이 된다.

Bolmo의 설계와 학습 방식

2단계 ‘바이트화’ 전략(바이트 수준 언어 모델 전환)

바이트 레벨 언어 모델을 처음부터 학습하면 비용이 크기 때문에, 연구진은 기존 Olmo 3 7B 체크포인트를 두 단계로 바이트화했다. 1단계에서는 Olmo 3 트랜스포머를 동결하고 로컬 인코더·디코더, 경계 예측기, 언어 모델링 헤드만 학습해 ‘빠르고 저렴한’ 전환을 달성했다(약 98억 토큰). 2단계에서는 동결을 해제하고 추가 토큰으로 전면 재학습해 품질을 끌어올렸다. 이 접근은 전통적 서브워드 모델의 어휘 병목을 피하도록 설계되었다.

데이터 구성과 생태계 공개

학습에는 Olmo 플래그십 모델을 키운 Dolma 3 데이터 믹스와 공개 코드 데이터셋, 문자 수준 데이터가 사용됐다. Ai2는 커뮤니티가 채택·확장할 수 있도록 강한 서브워드 모델을 바이트 레벨로 전환하는 재현 가능 청사진을 목표로 체크포인트, 코드, 논문 전체를 공개할 계획이다.

성능과 동향: 동급 대비 강세

바이트 레벨 언어 모델은 아직 주류 LLM만큼 보편적이진 않지만, 메타의 BLT, 구글의 ByT5, 스탠퍼드 MrT5, Canine 등으로 연구가 확산 중이다. Ai2의 내부 평가 스위트(수학, STEM 추론, 질의응답, 상식, 코드)에서 Bolmo 7B는 문자 중심 벤치마크 CUTE·EXECUTE를 앞섰고, 베이스 LLM인 Olmo 3 대비 정확도도 향상했다. 코딩·수학·객관식 QA·문자 수준 이해에서 동급 모델을 상회하는 결과를 보였다.

엔터프라이즈를 위한 시사점

대부분의 기업은 다양한 크기의 모델을 혼합 운용하는 하이브리드 구조를 선호한다. Ai2는 바이트 레벨 언어 모델이 강인성·다국어 이해뿐 아니라 기존 모델 생태계에 자연스럽게 플러그인된다는 점을 강조한다. ‘동적 계층형’ 셋업의 장점으로 압축을 손쉽게 조절 가능한 노브처럼 다룰 수 있다는 점을 들며, 강한 서브워드 모델을 레트로핏해 학습함으로써 인프라를 갈아엎지 않고도 낮은 리스크로 견고함을 얻는 경로를 제시한다.

이 기사 공유하기