leangnews
Command Palette
Search for a command to run...
2025년 10월 28일 09:00
Thinking Machines, 스케일링 정설에 도전: 첫 초지능은 ‘슈퍼휴먼 학습자’
기사 요약
- Thinking Machines Lab의 라파엘 라파일로프는 스케일 확장이 아니라 학습 능력이 AGI로 가는 핵심이라며 ‘첫 초지능은 슈퍼휴먼 학습자’가 될 것이라고 주장했다.
- 현재 코딩 에이전트가 try/except 같은 편법으로 과제를 마치고도 지식을 내재화하지 못하는 한계는 ‘과제 완료’ 중심 보상과 데이터 설계에서 비롯된다고 지적했다.
- 그는 교과서식 메타러닝과 올바른 데이터·보상 설계를 통해 자기개선형 시스템을 만들 수 있다고 보면서도, 구체적인 시점은 제시하지 않았다.
스케일링 정설에 대한 도전: “첫 초지능은 슈퍼휴먼 학습자”
오픈AI, 앤트로픽, 구글 딥마인드 등 선도 기업들이 거대 모델·데이터·컴퓨트 확장에 수십억 달러를 베팅하는 가운데, Thinking Machines Lab의 강화학습 연구자 라파엘 라파일로프는 ‘더 크게’가 아니라 ‘더 잘 배우기’가 핵심이라고 주장했다. 그는 TED AI 샌프란시스코 무대에서 “첫 초지능은 슈퍼휴먼 학습자”라며, 스스로 가설을 세우고 실험을 설계·검증하며 환경을 활용해 반복적으로 개선하는 능력을 강조했다.
스케일보다 학습: 정교한 구분선
라파일로프는 “학습은 지성이 스스로 하는 일, 훈련은 외부가 주입하는 일”이라고 구분하며, 현재의 경로가 과연 가장 야심찬 약속(AGI·ASI)을 실현할 수 있는지 되물었다. 그는 Mira Murati가 공동 창업한 Thinking Machines Lab이 120억 달러 가치로 20억 달러 시드 투자를 유치했다고 소개하며, 그 내부 문제의식 일부를 공유했다.
왜 스케일보다 학습인가 — 슈퍼휴먼 학습자 관점
현재 시스템은 과제를 풀어도 배운 추상화를 보존·재활용하지 못한다. 반면 슈퍼휴먼 학습자는 새 정보를 내재화하고, 행동을 조정해 매일 더 잘하고 더 빨라지는 존재다. 이 ‘지속 학습’ 능력이 AGI로 가는 마지막 결손 고리라는 주장이다.
코딩 에이전트가 어제를 잊는 이유
라파일로프는 고급 코딩 에이전트 사례를 들었다. 오늘은 어려운 기능 구현에 성공해도 내일 다시 같은 탐색을 반복한다. 즉 “매일이 첫 출근일”처럼 지식이 축적되지 않는다. 이는 현재 훈련이 즉시 과제 완료에만 보상을 주기 때문으로, 일반적 능력 형성을 위한 계산은 ‘낭비’로 간주되기 쉽다.
덕트 테이프식 try/except 문제
코딩 에이전트가 불확실한 코드를 try/except로 감싸 ‘에러만 막고’ 넘어가는 경향은, 제한된 상호작용·시간 내에 단기 목표(버그 해결·기능 구현)만 최적화하도록 가르친 결과다. 결국 문제를 뒤로 미루는 셈이며, 진짜 학습으로 이어지지 않는다.
“더 많은 컴퓨트”만으로는 AGI에 이르지 못한다
그는 다음 국면을 “강화학습의 스케일”로 보되, 웹 탐색·코드 작성 같은 일반 ‘행위능력’의 확장은 일반 ‘지능’과 다르다고 선을 그었다. 한두 번 더 스케일·환경·RL·컴퓨트를 늘리는 식으로는 AGI/ASI의 본질에 닿지 못하며, 현재 패러다임 아래서는 핵심 능력인 ‘학습’이 결여될 것이라고 했다.
일반 행위능력과 일반 지능의 차이
행위능력은 세계와 상호작용하는 실행력, 지능은 추상화·내재화·전이 학습으로 지식을 확장하는 능력이다. 후자를 갖추지 못하면 스케일은 성능을 늘려도 본질적 도약을 보장하지 않는다.
교과서식 메타러닝: “정답”보다 “진전”을 보상하라
그는 수학 교육 비유를 들었다. 지금은 어려운 한 문제를 풀면 그 경험을 버리고 다음 문제로 넘어간다. 반대로 대학원 수준의 교과서를 1장부터 차근히 학습하며, 연습문제를 거치며 축적된 추상화·정리를 보존·활용하도록 해야 한다. 성취(몇 문제를 맞혔는가)가 아니라 학습 진전·개선도를 보상 대상으로 삼아야 한다.
성공 보상에서 ‘학습 진전’ 보상으로
알파고류에서 보였듯 테스트 타임 탐색·서치의 아이디어가 작게는 입증됐다. 과제는 이를 기초 모델 스케일과 역량에 맞게 확장해, 메타러닝—즉 ‘배우는 법을 배우는’ 체계를 구축하는 것이다.
결핍의 본질: 새 아키텍처가 아니라 데이터와 목표
현재 모델이 못 배우는 이유는 의외로 단순하다고 그는 말한다. 올바른 데이터 분포와 보상(목표) 설계가 없기 때문이다. “학습 자체도 하나의 알고리즘”이며, 입력(모델 상태)·데이터·컴퓨트를 최적화해 더 강한 모델을 산출하는 과정으로 보아야 한다.
‘학습을 배우는’ 알고리즘은 가능한가
그는 “그렇다”고 답한다. 학습·적응·탐색·자기개선·일반화를 성공의 필요조건으로 설계한 대규모 훈련 환경과 충분한 컴퓨트를 제공하면, 범용 학습 알고리즘이 출현할 수 있다고 본다.
슈퍼휴먼 학습자가 그리는 초지능의 상
그가 그리는 ASI는 ‘신 같은 만능 추론기’가 아니라, 환경을 활용해 가설을 세우고 실험으로 검증하며 스스로 개선을 반복하는 슈퍼휴먼 학습자다. 컴퓨터 사용·연구 수행·로봇 제어 등 일반 행위능력과 결합될 때, 효율적인 범용 지능의 마지막 퍼즐이 맞춰진다는 구상이다. 이처럼 슈퍼휴먼 학습자 개념은 OpenAI의 추론 강화, Anthropic의 헌법형 AI 기조와 결을 달리한다.
조직·시장 맥락: 120억 달러 가치의 도전
Thinking Machines Lab은 오픈AI·구글·메타 출신 약 30명으로 팀을 꾸렸고, 시드 단계에서 20억 달러를 유치했다. 10월 초 공동창업자 앤드루 털록이 메타로 복귀했고, 월스트리트저널이 ‘전면 영입 공세’로 보도한 인재 유출 압박도 있었다. 그럼에도 첫 제품으로 오픈소스 LLM 파인튜닝 API ‘Tinker’를 출시하며, 메타러닝·자기개선 연구 아젠다의 초석을 놓았다고 밝혔다.
난제와 로드맵의 부재 — 절제된 전망
그는 메모리·엔지니어링·데이터·최적화에서 돌파가 필요하다고 인정하면서도 ‘근본적으로 가능하다’는 확신만을 남겼다. 구체적인 일정 예측은 하지 않았다. 이는 짧은 시간 스케일링으로는 도달할 수 없고, 슈퍼휴먼 학습자라는 방향을 향한 장기적·난도 높은 경로를 선택했음을 시사한다.
정리
핵심은 명확하다. 스케일링만으로는 부족하다. 메타러닝, 올바른 데이터·보상 설계, 지속 내재화가 결합될 때, 첫 초지능은 슈퍼휴먼 학습자 형태로 나타날 가능성이 크다. 결국 승부는 ‘얼마나 크게’가 아니라 ‘얼마나 빨리, 깊이, 잘 배우는가’에 달려 있다.