leangnews
Command Palette
Search for a command to run...
2026년 02월 07일 10:02
TTT-Discover, 추론 중 학습으로 인간 전문가 넘는 커널 2배 가속
기사 요약
- 스탠퍼드·엔비디아·투게더 AI 연구진이 추론 중 학습 기법으로 인간 전문가가 작성한 SOTA를 넘어 GPU 커널을 최대 2배 가속했다.
- 이 기법은 엔트로피 목적과 PUCT 탐색을 결합해 테스트 단계에서 모델 가중치를 실시간 업데이트하며 연속적 보상 신호를 따라 최적 해를 찾는다.
- 단건당 약 $500의 ‘헤비 인퍼런스’ 비용이 들지만, 공급망·신약·소재 등 검증 가능한 스칼라 지표가 있는 고가치 문제에서 즉각적 ROI가 가능하다.
TTT-Discover: 추론 중 학습으로 ‘발견’을 가속하다
스탠퍼드, 엔비디아, 투게더 AI 연구진은 테스트 단계에서 계속 학습하는 새로운 접근으로 매우 복잡한 문제의 해법을 스스로 찾아냈다. 대표적으로 핵심 GPU 커널을 인간 전문가가 쓴 기존 최첨단 코드보다 최대 2배 빠르게 최적화했으며, ‘생각을 더 길게’ 하는 기존 추론 패러다임을 넘어 테스트 시점에 모델 가중치를 갱신하는 방식을 제시한다.
‘얼어붙은(frozen)’ 추론의 한계
오늘날 많은 기업용 AI는 닫힌·열린 모델을 막론하고 파라미터가 고정돼 있어, 프롬프트에 응답할 때 과거 학습 분포의 경계 안에서만 답을 탐색한다. 이는 유사한 문제에는 통하지만, 새로운 알고리즘 발명이나 수학 정리 증명처럼 분포 밖 문제에서는 한계를 드러낸다. 스탠퍼드의 Mert Yuksekgonul은 ‘P != NP를 증명하는 일은, 앤드루 와일스가 7년간 실패를 학습하며 페르마의 마지막 정리를 증명했던 것처럼, 테스트 시 학습 없이는 어렵다’고 비유했다. 이 접근은 테스트 문제를 단순 질의가 아닌 ‘숙달해야 할 환경’으로 보고, 실패·부분 성공·오류 등 시도 데이터를 버리지 않고 즉시 학습에 반영해 특정 과제에 초점을 극도로 맞춘다.
TTT-Discover의 핵심 원리
표준 강화학습(RL)이 여러 과제에서 평균적으로 잘하는 범용 정책을 목표로 하는 데 비해, 이 기법은 ‘특정 문제의 최적 산출물(코드·증명·분자)’을 찾는 데 초점을 둔다. 산출물을 얻고 나면 그 신경망은 폐기해도 된다.
엔트로피 목적(entropic objective)
표준 RL은 기대보상의 평균을 높이며, 위험한 시도 실패에는 페널티를 준다. 반면 이 목적 함수는 보상이 큰 결과를 지수적으로 더 크게 가중해 ‘평균적이고 안전한’ 답을 외면하게 만들고, 낮은 확률이더라도 큰 보상을 주는 ‘유레카’ 해법을 과감히 탐색하게 한다.
PUCT 탐색
AlphaZero에서 영감을 받은 트리 탐색으로 다양한 경로를 확장하며 시도 데이터셋을 구축한다. 모델은 이 데이터로 실시간 학습해 어떤 부분 단계가 고보상 결과로 이어지는지 점차 알아차린다.
연속적 보상 신호의 중요성
이 방식은 이진 통과/실패가 아닌 실행 시간, 오류율처럼 연속적 지표가 있을 때 최적이다. 미세한 개선을 계단식으로 추적하며 최적점에 수렴할 수 있기 때문이다.
‘헤비 인퍼런스’의 경제성
연구진에 따르면 단일 ‘발견’ 런에는 약 50번의 학습 단계와 수천 회 롤아웃이 필요해 문제당 약 $500이 든다. 하지만 야간에 페타바이트급 데이터를 처리하는 클라우드 파이프라인처럼, 특정 SQL 쿼리나 GPU 커널을 1%만 개선해도 연간 막대한 컴퓨팅 비용을 절감할 수 있는 환경에선 투자 대비 효과가 즉각적이다. 예컨대 커널을 50% 더 빠르게 찾기 위해 $500을 쓰는 것은 사소한 비용이다. Yuksekgonul은 ‘저빈도·고임팩트 의사결정, 예를 들어 공급망 경로 최적화, 신약 설계, 소재 발견에서 한 번의 개선이 계산 비용을 훨씬 상회한다’고 밝혔다.
구현과 인프라: 오픈 모델로 가능한 TTT-Discover
이 방식은 최전선의 독점 모델이 없어도 된다. 연구진은 OpenAI의 오픈 웨이트 모델 gpt-oss-120b로 최첨단 성과를 냈고, 코드를 공개해 누구나 자체 모델에 적용할 수 있게 했다. 기업은 사설 VPC나 온프레미스 H100 클러스터에서 민감 데이터를 외부로 내보내지 않고 ‘발견 루프’를 운영할 수 있다. 이미 RL 인프라를 갖춘 기업은 GPU, 롤아웃 워커, 옵티마이저, 체크포인팅 등 동일한 스택을 그대로 활용하면 되고, 없더라도 Thinking Machines의 Tinker API(및 오픈 대안 OpenTinker)로 분산 학습·추론 오케스트레이션을 단순화해 초기 구축 비용과 인건비·연산비를 낮출 수 있다.
실제 적용 사례와 한계
시스템 엔지니어링, 알고리즘 설계, 생물학, 수학 등 네 분야에 걸쳐 거의 모든 사례에서 최첨단을 경신했다. 특히 행렬 곱셈용 GPU 커널(AlphaFold에 쓰이는 ‘TriMul’ 포함)을 최대 2배 더 빠르게 만들었고, 리더보드의 최고 수준 인간 작성 커널을 앞질렀다. 경쟁 프로그래밍(AtCoder)에서도 어망의 기하 제약 최적화 같은 복잡한 휴리스틱 문제를 상위 인간 전문가와 기존 AI 기준선을 능가하는 해법으로 풀어냈다.
다만 비즈니스 전환의 열쇠는 검증 가능한 스칼라 지표의 존재다. 실행 시간, 오류율, 이익률처럼 ‘단단한’ 지표가 있어야 한다. 이는 물류·공급망·자원 관리 등 차량 경로 계획, 승무원 스케줄링 같은 문제로의 적용을 촉진하며, 하루 연료비 5% 절감과 같은 개선을 위해 수시간을 투자할 가치를 만든다. 반면 ‘더 나은 마케팅 전략 작성’처럼 정성적이고 노이즈가 큰 과제는 제외된다. 현재로서는 검증기를 설계해보는 것이 최선이지만, 견고하고 게임이 불가능한 검증기를 만드는 일은 여전히 도전적이다.
기업 스택의 변화와 다음 단계
기업 AI 스택은 문제별(또는 도메인별) 적응과 더 나은 문제 명세, 내부 피드백 신호를 전제로 테스트 시 학습을 지원하도록 진화해야 한다. 사설 VPC 내에서 학습이 돌아가면 중앙 연구 파이프라인을 넘어 기업의 내부 환경과 더 촘촘히 통합할 수 있다. 핵심은 ‘밀리언 달러 문제’를 식별하는 것이다. 검증 가능한 지표가 있으나 사람과 고정 모델의 진전이 정체된 최적화 과제들이다. 특정 질의에 더 높은 지연과 비용을 감수하면, 추론 컴퓨팅을 자동화된 R&D 랩으로 바꿔 이전에는 인간도, 고정 모델도 닿지 못한 해법을 발명할 수 있으며, 이때 TTT-Discover가 전략적 레버리지로 작동한다.