leangnews

2026년 01월 18일 09:02

표현 깊이 없인 정체되는 강화학습: NeurIPS 2025 핵심 정리

표현 깊이 없인 정체되는 강화학습: NeurIPS 2025 핵심 정리


기사 요약

  • NeurIPS 2025의 주요 논문들은 ‘큰 모델=더 나은 추론’ 같은 통념을 뒤집고, 성능 병목이 규모가 아니라 아키텍처·학습 동역학·평가 전략임을 보여준다.
  • 게이티드 어텐션과 초심층 네트워크는 안정성·문맥 유지·표현 일반화를 크게 높였고, 확산 모델의 암기는 데이터셋 크기에 따라 지연됨이 규명됐다.
  • RLVR은 추론 ‘용량’이 아니라 샘플링 ‘효율’을 높이는 것으로 드러나, 진정한 추론 확장을 위해선 증류나 아키텍처 변화가 병행되어야 한다.

왜 표현 깊이가 없는 강화학습은 정체되는가 — NeurIPS 2025 핵심 요약

올해 NeurIPS는 ‘큰 모델일수록 더 잘 추론한다’, ‘RL은 새로운 능력을 만든다’, ‘어텐션은 해결됐다’, ‘생성 모델은 결국 암기한다’ 같은 전제를 정면으로 재검토했다. 결론은 명확하다: 진전의 병목은 매개변수 수가 아니라 아키텍처, 학습 동역학, 그리고 평가 전략이다.

1. LLM 수렴을 측정하는 새 기준: Infinity-Chat

논문: Artificial Hivemind: The Open-Ended Homogeneity of Language Models

정답이 하나로 정해지지 않는 브레인스토밍·창작 과제에서 관건은 정확도보다 다양성이다. 이 벤치마크는 정오 판정 대신 두 가지를 계량한다: 한 모델이 스스로를 반복하는 빈도(내부 붕괴)와 서로 다른 모델 출력의 유사도(모델 간 동질성). 결과적으로, 설계와 공급자를 막론하고 모델 출력이 점점 비슷해지는 수렴이 확인됐다.

의미: 선호도 튜닝과 안전 제약은 다양성을 잠식해 ‘무난하고 예측 가능한’ 답변을 증폭시킬 수 있다. 창의·탐색형 제품이라면 다양성 지표를 1급 시민으로 다뤄야 한다.

2. 어텐션은 끝나지 않았다: 게이티드 어텐션

논문: Gated Attention for Large Language Models

스케일드 점곱 어텐션 뒤, 헤드별로 쿼리 의존 시그모이드 게이트를 더하는 소규모 변경만으로, 수십 건의 대규모 학습에서 안정성 향상, ‘어텐션 싱크’ 완화, 장문맥 성능 개선이 일관되게 관측됐다. 별도의 커널이나 큰 오버헤드는 없다.

왜 작동하나: 게이트는 어텐션 출력에 비선형성과 암묵적 희소성을 부여해 병적 활성화를 억제한다. 데이터나 최적화만의 문제가 아니라 아키텍처 문제였다는 점을 시사한다.

3. 강화학습은 ‘깊이’로 스케일한다

논문: 1,000-Layer Networks for Self-Supervised Reinforcement Learning

보상이 듬성듬성하면 RL이 잘 안 스케일된다는 통념을 깨고, 2~5층 수준의 얕은 네트워크를 약 1,000층까지 과감히 늘리면 자기지도 목표조건 RL에서 2~50배 성능 향상이 가능함을 보였다. 핵심은 단순한 화력 투입이 아니라, 깊이를 대조학습 목표, 안정적 최적화 체계, 목표조건 표현과 짝지우는 것이다.

로보틱스를 넘어: 에이전트형 시스템과 자율 워크플로우에서 ‘표현의 깊이’가 데이터 증대나 보상 설계 못지않게 일반화·탐색의 결정적 레버가 된다.

4. 확산 모델은 왜 암기 대신 일반화하나

논문: Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training

과매개변수임에도 확산 모델이 잘 일반화하는 이유가 규명됐다. 학습에는 두 시간척도가 공존하는데, 하나는 생성 품질이 급격히 오르는 구간, 다른 하나는 훨씬 느린 속도로 암기가 나타나는 구간이다. 특히 암기 시간척도는 데이터셋 크기에 선형 비례해, 과적합 없이 품질이 개선되는 ‘안전 창문’이 커진다.

실무적 함의: 조기 종료와 데이터셋 스케일링 전략의 재정립이 필요하다. 암기는 필연이 아니라 예측 가능하며 지연된다.

5. 강화학습은 추론 ‘성능’을 올리지만 ‘용량’을 늘리진 않는다

논문: Does Reinforcement Learning Really Incentivize Reasoning in LLMs?

검증 가능 보상(RLVR)이 새로운 추론 능력을 ‘창출’하는지, 아니면 기존 분포를 ‘재구성’하는지를 정밀 검증한 결과, 주효한 효과는 추론 용량 증대가 아니라 샘플링 효율 개선이었다. 충분한 샘플을 쓰면 기반 모델에 이미 올바른 추론 경로가 잠재해 있으며, RL은 그 분포를 유리하게 재형성할 뿐이다.

따라서 참된 용량 확장을 원한다면 교사 증류나 아키텍처적 변화와의 결합이 필요하다.

큰 그림: 모델 크기보다 시스템 설계

다양성 붕괴는 새로운 평가 지표를, 어텐션 실패는 소규모 아키텍처 수정을, RL의 스케일링은 깊은 표현을, 확산 모델의 암기는 학습 동역학을, 추론 성능 향상은 분포 재형성을 요구한다. 경쟁력은 ‘가장 큰 모델’이 아니라 ‘시스템을 이해하는 팀’에게 돌아간다.

실제 적용 예시

홈페이지 제작 전 필수 체크리스트

1) 크리에이티브 기능이 있는 서비스라면 출시 전 Infinity-Chat 유사 다양성 지표를 A/B 대시보드에 포함한다. 2) 긴 설명 페이지·검색·챗봇이 핵심이면 게이티드 어텐션 채택 여부를 벤치마크한다. 3) 에이전트 자동화가 있다면 강화학습 파이프라인에 ‘표현 깊이’(심층 네트워크)와 대조 목표를 설계 단계에서 명시한다. 4) 이미지 생성은 데이터셋 규모를 우선 확장해 조기 종료 윈도를 넓힌다. 5) RLVR은 성능 튜닝(샘플 효율) 도구로 위치시키고, 용량 확장은 증류·아키텍처 변경 계획과 연동한다.

홈페이지 제작 프로세스 단계별 안내

1) 기획: 목표 과제의 정답 다중성·창의 요구를 정의하고 다양성 메트릭을 명세한다. 2) 데이터·평가: 오프라인 벤치와 인프라에 동질성·내부 붕괴 지표를 탑재한다. 3) 아키텍처: 장문맥·안정성 요구에 맞춰 게이티드 어텐션을 기본 옵션으로 검토한다. 4) 학습: 에이전트 기능에는 심층 네트워크와 목표조건 표현을 결합한 강화학습 학습 계획을 수립한다. 5) 안전·정렬: 선호 튜닝의 다양성 손실을 모니터링하고 가드레일의 강도를 조정한다. 6) 배포·관측: 수렴·다양성·롱컨텍스트 지표를 실사용 로그에 연결해 지속적으로 회귀를 감지한다.

이 기사 공유하기