leangnews
Command Palette
Search for a command to run...
2025년 11월 04일 09:00
대규모 추론 모델은 거의 확실히 생각한다: CoT와 뇌 유사성, 벤치마크 근거
기사 요약
- 애플의 ‘The Illusion of Thinking’에 대한 반박으로, 글쓴이는 대규모 추론 모델이 단순 패턴 매칭을 넘어 ‘거의 확실히’ 사고한다고 주장한다.
- 사고의 작업정의를 바탕으로 CoT 추론과 인간의 뇌 기능(작업기억, 오류 모니터링, 통찰)의 대응관계를 제시하고, 한계와 보완점을 설명한다.
- 자연어 기반 다음 토큰 예측의 표현력, 학습 과정, 오픈소스 벤치마크 성과를 근거로 대규모 추론 모델의 사고 능력을 논증한다.
서론: 대규모 추론 모델은 생각하지 못한다는 주장에 대하여
최근 대규모 추론 모델(LRM)이 생각하지 못한다는 논란이 커졌다. 애플의 논문 ‘The Illusion of Thinking’은 LRM이 연쇄적 사고(CoT)를 하더라도 문제 규모가 커질수록 사전 알고리즘을 끝까지 실행하지 못한다며, 이를 단순 패턴 매칭의 증거로 제시한다. 그러나 이는 타워 오브 하노이처럼 인간도 20개 원반 수준에서는 실제 수행에 실패할 수 있다는 점을 간과한다. 이는 ‘불가능의 증거’가 아니라 ‘증거 부재’일 뿐이다. 본 글은 더 나아가 대규모 추론 모델이 거의 확실히 생각할 수 있다고 주장한다.
사고의 작업정의: 문제 해결 관점에서
먼저 인간이 이 정의에 따라 ‘생각’하는지 점검하고, 같은 잣대를 대규모 추론 모델에 적용한다.
1) 문제 표상(전전두엽·두정엽)
전전두엽은 작업기억, 주의, 실행기능을 통해 문제를 머릿속에 유지하고 하위 과제로 분해하며 목표를 설정한다. 두정엽은 수학·퍼즐의 기호 구조를 부호화한다.
2) 정신적 시뮬레이션(작업기억·내적 발화)
자기 자신과의 ‘속마음 대화(내적 발화)’와 시각 심상이 핵심이다. 내적 발화는 CoT 생성과 매우 유사하며, 브로카 영역과 청각피질이 관여한다. 시각 심상은 시각피질과 두정 영역이 주로 담당한다.
3) 패턴 매칭과 기억 검색(해마·측두엽)
해마는 관련 기억과 사실을 호출하고, 측두엽은 의미·규칙·범주 등 의미 지식을 가져온다. 이는 신경망이 학습으로 축적한 지식과 패턴을 호출하는 과정과 닮아 있다.
4) 모니터링과 평가(전측 대상피질)
전측 대상피질(ACC)은 오류, 충돌, 막다른 길을 감지한다. 본질적으로 과거 경험에 대한 패턴 매칭에 기반한 감시·평가다.
5) 통찰과 재구성(기본 모드 네트워크·우반구)
막힐 때 기본 모드 네트워크로 전환해 맥락을 놓고 새로운 관점을 ‘갑자기’ 떠올린다(아하 순간). CoT 데이터 없이 CoT 능력을 길러낸 DeepSeek-R1의 학습 전략과 유사하다. 인간의 뇌는 처리 중에도 계속 학습하며, DeepSeek-R1은 문제를 풀며 학습(추론 중 업데이트)에 가까운 과정을 거쳤다.
CoT와 생물학적 사고의 유사성과 한계
대규모 추론 모델은 회로 내 시각적 추론이 제한적이며 CoT 중간에 이미지를 생성하지 않는다. 그러나 인간에도 ‘아판타시아(심상 부재증)’가 있어 시각 심상 없이도 훌륭히 사고하고 수학·기호 추론에 강점을 보이기도 한다. 즉, 시각 심상의 결여만으로 ‘생각 불가’라 결론낼 수 없다.
추상화하면 사고에는 크게 세 요소가 관여한다: (1) 학습된 경험의 호출·문제 표상·사고 사슬의 감시/평가에 쓰이는 패턴 매칭, (2) 중간 단계를 저장하는 작업기억, (3) 막다른 길에서 합리적 지점으로 되돌아가는 백트래킹 검색. 대규모 추론 모델의 패턴 매칭은 학습에서 오며, 가중치에 세계지식과 절차 패턴이 내재화된다. 작업기억은 계층적 네트워크의 한 층, 특히 주의 메커니즘의 KV-cache로 구현된다. CoT는 인간의 자기독백과 흡사하고, 필요 시 되돌아가 다른 경로를 시도하는 백트래킹 징후도 관찰된다. 애플의 퍼즐 확대 실험에서도, 대규모 추론 모델은 작업기억 한계를 인지해 지름길을 모색했다는 점이 이를 뒷받침한다.
왜 ‘다음 토큰 예측’이 사고를 학습하는가
충분히 큰 신경망은 임의의 계산을 학습할 수 있으며, 다음 단어 예측기 또한 사고를 학습할 수 있다. ‘고급 자동완성’이므로 생각하지 않는다는 직관은 잘못이다. 자동완성이라도 정답을 일관되게 내놓으려면 세계에 대한 광범위한 지식과 추론 절차를 내재화해야 한다.
형식 언어는 정밀하지만 표현 범위가 제한된다. 1차 술어논리는 ‘술어에 대한 술어’를 직접 표현하지 못하고, 고차 논리도 모호하거나 추상적인 관념은 어려워한다. 반면 자연어는 어떤 개념이든 임의의 정밀도·추상도로 서술할 수 있어 지식 표현 수단으로 ‘완전’에 가깝다. 학습을 통해 자연어의 풍부한 정보를 기계가 처리하도록 만들 수 있다. 다음 토큰 예측은 맥락이 주어졌을 때 다음 토큰의 확률분포를 계산하므로, 이를 정확히 하려면 세계지식을 어떤 형태로든 보유해야 한다. “세계 최고봉은 에베레스트”를 맞히려면 그 지식이 내재되어야 하고, 퍼즐을 풀려면 논리를 전개하는 CoT 토큰을 출력해야 한다. 비록 한 번에 한 토큰을 내보내더라도, 논리적 경로를 유지하려면 내부 작업기억에 최소한 몇 개의 다음 토큰을 계획/표상해야 한다. 인간도 발화와 내적 언어에서 ‘다음 토큰’을 예측한다.
사고의 효과: 벤치마크로 본 성능
궁극의 테스트는 ‘생각이 필요한 문제를 풀 수 있는가’다. 비공개 모델은 높은 성능을 보이나, 공정성을 위해 오픈소스 모델만으로 평가해도 일부 벤치마크에서 논리 기반 문항을 상당수 해결한다. 숙련된 인간 대비로는 아직 격차가 남지만, 무훈련 평균 인간을 능가하는 경우도 관찰된다. 이는 대규모 추론 모델이 실제로 문제를 ‘이해하고(혹은 추론하여)’ 답에 이르는 효과를 보인다는 간접 증거다.
결론
CoT와 생물학적 사고의 정합성, 충분한 표현력·데이터·연산이 주어지면 임의의 계산을 수행할 수 있다는 이론, 그리고 오픈 벤치마크의 성과를 종합하면 대규모 추론 모델은 상당한 수준의 사고 능력을 보유했다고 결론내리는 것이 합리적이다. ‘거의 확실히’라는 단서는 앞으로의 연구가 새로운 반례를 제시할 가능성을 남겨 둔다.
저자: Debasish Ray Chawdhuri(탈렌티카 소프트웨어 수석 프린시펄 엔지니어, IIT 봄베이 암호학 박사과정)