leangnews

2025년 10월 23일 09:00

마르코프식 사고와 Delethink, LLM을 선형 비용으로 장기 추론

마르코프식 사고와 Delethink, LLM을 선형 비용으로 장기 추론


기사 요약

  • 캐나다 밀라 연구진이 ‘마르코프식 사고’와 Delethink 환경으로 LLM의 장기 추론을 선형 계산·고정 메모리로 구현했다.
  • 고정 크기 청크와 짧은 캐리오버로 상태 폭증을 막아, 1.5B 모델 학습 비용을 기존 대비 3분의 1 이하로 낮추고 성능도 유지·향상했다.
  • LongCoT 대비 24k→140k 토큰 확장과 96k 평균 추론 길이 학습 시 27→7 H100-GPU-월 절감 등, 추론 단계까지 비용 이점을 이어간다.

마르코프식 사고(Delethink) 개요

밀라(Mila) 연구진은 마르코프식 사고(Markovian Thinking)라는 강화학습(RL) 기반 패러다임과 실행 환경 Delethink를 제안했다. 이 방식은 추론 맥락 창을 일정하게 유지한 채 모델이 오래 ‘생각’하도록 만들어, LLM 장기 추론의 계산 비용을 선형으로 낮추고 메모리를 고정한다. 초기 추산에 따르면 1.5B 파라미터 모델 기준 학습 비용을 기존 대비 3분의 1 이하로 절감할 수 있다.

장문의 연쇄 추론이 비싼 이유

복잡한 문제를 풀 때 LLM은 중간 추론 토큰(Chain-of-Thought)을 길게 생성해야 한다. 기존 LongCoT-RL은 더 긴 CoT로 성능을 높였지만, 트랜스포머 구조에서 상태(프롬프트+누적 추론 토큰)가 매 토큰마다 커지며 계산량이 길이에 따라 제곱으로 폭증한다. 그래서 많은 시도는 ‘생각을 덜 하게’ 제한하는 데 그쳤다.

Delethink의 핵심 원리

마르코프식 사고의 요지는 “얼마나 오래 생각할지”와 “한 번에 처리할 맥락의 양”을 분리하는 것이다. 올바르게 구성하면 제곱 성장을 선형 계산과 고정 메모리로 바꿀 수 있다.

고정 크기 청크와 캐리오버

Delethink는 추론을 예컨대 8,000토큰 단위 청크로 나눈다. 각 청크 내부에서는 일반적 어텐션으로 추론하고, 한도에 이르면 환경이 맥락을 리셋해 원 질문과 짧은 ‘캐리오버’를 포함한 새 프롬프트를 만든다. 캐리오버는 직전 CoT의 마지막 일부나 핵심 요약일 수 있다.

프롬프트는 그대로, 추론만 관리

원 입력(문서·컨텍스트 포함)은 수정하지 않는다. 변경되는 것은 추론 단계의 맥락 관리뿐이며, 모델은 청크 경계에서 이어갈 최소 정보를 캐리오버로 전달받는다.

텍스트형 마르코프 상태 학습

이 재구성 덕분에 모델은 진행 상황의 요지를 짧게 ‘텍스트형 마르코프 상태’로 압축·기록해 다음 청크로 넘기는 법을 학습한다. 마르코프식 사고는 이렇게 중요한 정보를 선택적으로 기억·계승하는 전략을 스스로 익히도록 강제한다.

실험: R1-Distill-1.5B와 벤치마크

연구진은 R1-Distill-1.5B를 경쟁 수준 수학 데이터셋으로 Delethink 학습(최대 24,000토큰, 8,000토큰 청크)시켜 표준 LongCoT-RL과 비교했다. 수학 벤치마크에서 동일한 24,000토큰 예산의 LongCoT를 맞추거나 상회했고, 코딩·박사급 질의에서도 동급 혹은 소폭 우세했다. 훈련 한도를 넘겨 확장하면 LongCoT는 빨리 정체되는 반면 Delethink 모델은 성능이 계속 오르며, 일부 수학 문제는 140,000토큰까지 생각한 뒤에야 해결됐다.

비용과 확장성: 선형 추론의 현실적 이점

기업 환경에서 이 선형 계산 이점은 크다. 평균 추론 길이 96,000토큰 학습 시 LongCoT는 27 H100-GPU-월이 드는 반면 Delethink는 7에 그친다. 추론 단계에서도 동일한 ‘delethink-tracing’ 스타일을 사용해 선형 계산·고정 메모리의 이득이 유지된다. 예컨대 대규모 코드베이스를 오래 디버깅하는 에이전트가 마르코프식 사고로 비용을 크게 줄일 수 있다.

오프더셸프 모델과 호환성

흥미롭게도 별도 학습 없이도 시판 추론 모델들이 어느 정도 마르코프식 사고를 보였다. 즉, Delethink-RL 없이도 단순 래퍼(delethink-tracing)로 LongCoT에 견줄 성능을 내는 경우가 관찰됐다. GPT-OSS 120B 등 대형 모델 실험에서도 강건한 성능을 보여, 최신 모델과의 호환성과 확장성이 확인됐다.

전망: 수백만 토큰 시대를 향해

연구진은 마르코프식 사고가 “수백만 토큰에 이르는 차세대 장기 추론”의 길을 연다고 본다. 제곱 비용이라는 병목을 제거함으로써, 수주에 걸친 추론과 과학적 발견을 목표로 하는 다음 세대 능력을 현실화할 토대를 제공한다.

실제 적용 예시

대규모 코드베이스 디버깅

긴 호출 체인과 산재한 로그를 고정 청크로 순차 탐색하며, 캐리오버 요약으로 맥락 손실 없이 원인 추적을 이어간다. 마르코프식 사고 덕분에 추론이 길어져도 비용과 메모리가 안정적이다.

장기간 실험 설계 및 과학 발견 보조

가설 수립→실험 설계→결과 해석을 수십·수백 단계로 전개하면서 핵심 상태만 압축해 다음 단계로 넘겨, 장기적 탐색을 지속한다.

기업 문서 분석과 장기 의사결정

방대한 정책·계약·지식베이스를 청크별로 정리하고, 캐리오버에 결정적 근거만 유지해 단계적 결론을 누적한다. 마르코프식 사고는 이 과정 전반에서 계산량을 선형으로 유지한다.

이 기사 공유하기