leangnews

2025년 10월 16일 04:00

MIT, SEAL로 스스로 학습하는 LLM 현실화…오픈소스 공개

MIT, SEAL로 스스로 학습하는 LLM 현실화…오픈소스 공개


기사 요약

  • MIT가 SEAL(Self-Adapting LLMs)을 공개해 LLM이 자체 생성한 합성 데이터로 스스로 미세조정하도록 하는 기법을 제시했습니다.
  • 강화학습과 이중 루프 설계를 통해 망각을 줄이고 성능을 높였으며, SQuAD·ARC 평가에서 합성 데이터 기준 GPT-4.1을 일부 능가했습니다.
  • 계산 비용과 배치 인프라 등 과제가 남지만, SEAL 자기적응 LLM은 지속학습·에이전트형 시스템의 핵심 기반으로 주목받고 있습니다.

SEAL: MIT의 자기적응 LLM 기법 업데이트와 파장

MIT Improbable AI Lab 연구진이 SEAL(Self-Adapting LLMs)을 대폭 확장·업데이트한 논문과 오픈소스 코드를 공개했습니다. 이 기법은 대형 언어모델이 스스로 합성 데이터를 생성하고, 그 데이터에 기반해 자율적으로 미세조정하는 과정을 설계해 SEAL 자기적응 LLM의 실용 가능성을 보여줍니다. 코드는 MIT 라이선스로 깃허브에 공개돼 상업·엔터프라이즈 활용이 가능합니다. 해당 연구는 NeurIPS 2025(제39회)에서 발표되며, X(구 트위터) 커뮤니티에서 큰 관심을 받고 있습니다.

배경과 의의

사전학습된 모델이 배포 후 정체되는 한계를 넘어, SEAL 자기적응 LLM은 환경 변화에 맞춰 스스로 학습 데이터를 만들고 최적화 방식을 갱신합니다. 초기에는 기업용 에이전트가 인력 개입 없이도 지속적으로 배우게 하는 개념증명 단계였으나, 업데이트 버전은 규모 확장성, 재현 가능한 이중 루프 구조, 프롬프트 형식 전반의 안정성 개선 등으로 성숙도가 크게 높아졌습니다.

작동 원리: 이중 루프와 강화학습

셀프에딧과 자율 미세조정

SEAL의 핵심은 모델이 자연어로 작성한 ‘셀프에딧(self-edits)’입니다. 이는 가중치를 어떻게 수정할지에 대한 지시문으로, 정보 재서술, 논리적 함의, 도구 설정(증강·학습용) 등으로 표현됩니다. 모델은 이 셀프에딧을 토대로 미세조정하고, 보상 신호는 다운스트림 과제의 성능 향상에서 얻습니다. 이는 사람이 학습 자료를 재구성해 더 잘 내재화하는 과정과 유사하며, 원문 데이터를 수동적으로 주입하는 방식보다 지식 흡수 효율을 높입니다.

강화학습(ReSTEM)과 효율화(LoRA)

바깥 루프는 강화학습으로 셀프에딧 생성 정책을 개선하고, 안쪽 루프는 셀프에딧에 따른 지도 미세조정을 수행하는 이중 구조입니다. 사용한 RL 알고리즘은 샘플링과 필터드 행동복제를 결합한 ReSTEM으로, 성능 향상을 이끈 셀프에딧만 강화합니다. 파라미터 전체를 갱신하지 않고 LoRA 기반 미세조정을 적용해 비용과 속도를 절감합니다. 다만 셀프에딧 1건을 평가하려면 미세조정과 성능 테스트가 필요해 30~45초가 소요되는 등, 표준 RL 대비 계산 오버헤드가 큽니다. 추론 단계에서의 가중치 업데이트도 새로운 시스템 인프라가 요구됩니다.

성능과 실험 결과

지식 주입(SQuAD 유사 과제)

연구진은 위키 기반 독해 벤치마크 SQuAD와 유사한 문단에서 새로운 사실 정보를 내재화하는 능력을 평가했습니다. 원문 문단 자체를 학습시키는 대신, 모델이 문단의 논리적 함의를 합성해 그 데이터로 미세조정했습니다. 강화학습 두 라운드 후, 문맥 없는(no-context) SQuAD 변형 설정에서 정답률이 33.5%에서 47.0%로 상승했으며, GPT-4.1이 만든 합성 데이터를 쓴 방식보다 더 높은 성능을 보였습니다.

퓨샷 학습(ARC 서브셋)

소수 예시만으로 추론해야 하는 ARC 일부 과제에서는, SEAL이 데이터 증강과 하이퍼파라미터를 명시하는 셀프에딧을 생성했습니다. 강화학습 적용 후 보류 과제 정답률은 20%에서 72.5%로 도약했습니다. 적응 없이 문맥 내 학습(In-Context Learning)만 적용한 모델은 0%에 그쳤습니다.

강점과 한계

SEAL 자기적응 LLM은 최소 감독으로도 고가치 학습 데이터를 생산해, 특정 작업에서는 외부의 대형 모델(GPT-4.1)보다 나은 결과를 냅니다. 단일 패스 업데이트를 넘어 다문서 연속 사전학습(continued pretraining) 시나리오로 확장해도 성능을 유지했습니다. 반면 새로운 정보를 반영하는 과정에서 과거 능력이 저하되는 ‘파국적 망각’ 문제가 남아 있으며, 저자들은 지도 미세조정보다 강화학습이 망각을 더 잘 완화한다는 최근 결과를 근거로, 보상함수 자체를 학습하도록 확장할 가능성을 제시합니다. 또한 셀프에딧의 생성·평가가 비싸고, 매 컨텍스트에 과제-정답 쌍이 필요하다는 전제가 있어 비라벨 말뭉치에는 곧바로 적용하기 어렵습니다. 다만 계산 가능한 보상이 있는 다운스트림 과제만 있다면 안전 영역을 포함해 적응이 가능하며, 적절한 보상 설계로 유해 입력 회피를 학습시킬 수 있습니다.

커뮤니티 반응

X(구 트위터)에서는 “얼어붙은 가중치 시대의 종말” “지속 자가학습 AI의 탄생” 등 기대가 이어졌습니다. 일부는 SEAL이 “모델이 스스로를 다시 쓰는” 전환점이라 평하며, 사실 회상 40% 향상 등 핵심 결과를 근거로 “자기 미세조정 LLM은 더 이상 SF가 아니다”라고 강조했습니다. 변화가 빠른 도메인과 개인화된 사용 사례에서, 잦은 재학습 없이 진화하는 시스템에 대한 수요가 높다는 점이 확인됐습니다.

향후 방향과 열린 질문

부록 B.7에 따르면 모델이 클수록 유용한 셀프에딧을 더 잘 생성해 자기적응 능력이 커집니다. 프롬프트 양식 변화에도 일반화되지만(표 10), 완전히 새로운 도메인·아키텍처 전이는 아직 검증되지 않았습니다. 소수의 RL 스텝만으로도 측정 가능한 향상이 관찰되어, 더 큰 연산 자원 투입 시 추가 개선 여지가 큽니다. ReSTEM을 넘어 GRPO 등 고급 RL 기법을 접목하는 방향도 제안됩니다.

더 적응적·에이전트형 모델로

SEAL 자기적응 LLM은 상호작용마다 가중치 업데이트를 합성해 점진적으로 행동과 통찰을 내재화하는 방향으로 확장될 수 있습니다. 이는 데이터가 제한된 전문 영역에서 감독·수동 개입을 줄이고, 공개 웹 텍스트가 포화되어 스케일링이 데이터 가용성에 막히는 국면에서 LLM의 한계를 넓히는 열쇠가 될 수 있습니다.

리소스

프로젝트와 코드, 문서는 다음에서 확인할 수 있습니다: https://jyopari.github.io/posts/seal. 연구진: Adam Zweiger, Jyothish (Jyo) Pari, Han Guo, Ekin Akyürek, Yoon Kim, Pulkit Agrawal.

이 기사 공유하기