leangnews

2025년 11월 25일 13:01

구글 ‘Nested Learning’로 LLM 기억·지속 학습 한계 돌파 시도

구글 ‘Nested Learning’로 LLM 기억·지속 학습 한계 돌파 시도


기사 요약

  • 구글 연구진이 ‘Nested Learning’ 패러다임을 제안해 학습 이후 지식 갱신이 어려운 LLM의 근본적 한계를 해결하려 한다.
  • 이 접근은 모델을 다층 최적화 문제의 중첩 시스템으로 재구성해 문맥 내 학습과 연상 기억을 강화한다.
  • 이를 구현한 Hope 모델은 언어 모델링, 지속 학습, 장문맥 추론에서 낮은 퍼플렉서티와 높은 정확도를 보여 실용화 가능성을 입증했다.

구글의 Nested Learning: LLM 기억과 지속 학습의 새 패러다임

구글 연구진은 학습이 끝난 뒤 지식을 갱신하지 못하는 대형 언어 모델(LLM)의 한계를 해결하기 위해 Nested Learning이라는 새로운 패러다임을 제시했다. 단일 학습 과정을 다층의 중첩된 최적화 문제로 재정의해, 더 표현력 있는 알고리즘과 향상된 문맥 내 학습, 기억 형성을 가능하게 한다.

대형 언어 모델의 기억 한계

현재의 트랜스포머 기반 LLM은 사전학습이 끝나면 핵심 파라미터가 고정되어 상호작용으로 새로운 지식이나 기술을 장기적으로 획득하지 못한다. 모델이 적응할 수 있는 부분은 프롬프트에 담긴 정보에만 의존하는 문맥 내 학습뿐이며, 컨텍스트 윈도우를 넘어선 정보는 유지되지 않는다. 특히 컨텍스트의 정보가 피드포워드 층의 가중치로 통합되는 “온라인 통합” 메커니즘이 없어, 학습한 내용이 대화가 진행되며 곧바로 사라진다.

Nested Learning(중첩 학습)의 핵심 아이디어

연상 기억으로서의 학습

Nested Learning은 모델 아키텍처와 최적화 알고리즘을 분리하지 않고, 서로 연결된 다수의 학습 문제를 서로 다른 속도로 동시에 최적화하는 관점이다. 이 과정은 데이터 간의 연결과 회상을 가능하게 하는 “연상 기억”을 형성하는 것으로 해석되며, 모델은 각 데이터 포인트의 국소 오차(놀라움)를 학습해 표현을 정교화한다. 트랜스포머의 어텐션조차 토큰 간 매핑을 학습하는 단순한 연상 기억 모듈로 볼 수 있다.

중첩 최적화 레벨과 업데이트 주기

컴포넌트별 업데이트 빈도를 정의해 최적화 문제를 레벨로 조직하는 것이 Nested Learning의 핵심이다. 빠른 레벨은 즉시성 높은 정보를 처리하고, 느린 레벨은 더 추상적 지식을 장기간에 걸쳐 통합한다. 이러한 계층적 시간 척도가 결합되며 Nested Learning의 장점이 발휘된다.

Hope 아키텍처: 지속 학습의 구현

Titans에서 발전한 자기수정 구조

연구진은 Nested Learning을 구현하기 위해 Titans를 확장한 Hope를 제안했다. Titans는 강력한 메모리 시스템을 갖췄지만 장기·단기 두 가지 속도로만 파라미터를 갱신했다. Hope는 자기수정(self-modifying) 구조에 연속체 메모리 시스템(Continuum Memory System, CMS)을 결합해 문맥 내 학습 레벨을 사실상 무한대로 확장하고 더 큰 컨텍스트 윈도우로 스케일링한다.

Continuum Memory System(CMS)의 역할

CMS는 서로 다른 주기로 갱신되는 일련의 메모리 뱅크로 구성된다. 빠른 뱅크는 즉각적 정보를 처리하고, 느린 뱅크는 더 추상적 지식을 장기적으로 응축한다. Hope는 이 자기참조 루프를 통해 자체 메모리를 최적화하며, Nested Learning 설계를 체화한 다층 학습 레벨을 형성한다.

성능 검증: 퍼플렉서티와 장문맥 과제

Hope는 다양한 언어 모델링과 상식 추론 과제에서 표준 트랜스포머와 최신 순환형 모델을 넘어서는 낮은 퍼플렉서티와 높은 정확도를 보였다. 또한 대용량 텍스트에서 특정 정보를 찾아 활용하는 장문맥 “Needle-In-Haystack” 과제에서도 더 안정적인 성능을 보여, 긴 정보 시퀀스를 효율적으로 다루는 CMS의 장점을 입증했다.

관련 동향과 실용화 과제

다층 추론 모델의 흐름

Sapient Intelligence의 HRM은 위계적 구조로 추론 학습 효율을 높였고, 삼성의 TRM은 구조 개선으로 이를 더 가볍고 성능 좋게 만들었다. 이러한 흐름 속에서 Nested Learning은 아키텍처와 최적화를 함께 재설계하는 대안으로 주목받는다.

인프라 적합성의 장벽과 기회

현재 하드웨어·소프트웨어 스택은 트랜스포머 중심으로 최적화되어 있어 Nested Learning의 대규모 채택에는 근본적 변경이 필요하다. 그럼에도 이 접근이 확산되면, 변화하는 환경과 데이터 속에서 지속적으로 배우는 더 효율적인 LLM이 가능해져 엔터프라이즈 현장의 실사용 가치가 높아질 전망이다.

이 기사 공유하기