leangnews

2026년 02월 10일 10:02

엔비디아, 4.4만 시간 인간 영상으로 학습한 로봇 ‘DreamDojo’ 공개

엔비디아, 4.4만 시간 인간 영상으로 학습한 로봇 ‘DreamDojo’ 공개


기사 요약

  • 엔비디아 주도의 연구진이 4만4천 시간의 1인칭 인간 영상으로 사전학습한 로봇 월드 모델 ‘DreamDojo’를 공개했다.
  • 사람 영상을 통해 물리 상식을 익히고 로봇 하드웨어에 후학습하는 2단계 방식으로 데이터 수집 비용과 시간을 크게 낮춘다.
  • 실시간 10FPS 상호작용, 다양한 휴머노이드 플랫폼 시연, 시뮬레이션 기반 정책 평가와 계획 수립 등 기업 적용 가능성이 강조됐다.

개요: 엔비디아의 로봇 월드 모델 DreamDojo

엔비디아 주도의 연구진이 로봇이 물리 세계와 상호작용하는 법을 학습하도록 설계된 새 AI 시스템 DreamDojo를 공개했다. UC 버클리, 스탠퍼드, 텍사스 오스틴대 등과 공동으로 이달 발표된 이 연구는 후학습 이후에도 다양한 물체와 환경으로의 강한 일반화를 보이는 ‘전례 없는 로봇 월드 모델’을 제시했다고 밝혔다.

거대 데이터셋 DreamDojo-HV와 규모의 도약

핵심은 세계 모델 사전학습을 위한 최대 규모의 비디오 데이터셋으로, 4만4천 시간에 달하는 다양한 인간 1인칭 영상으로 구성됐다. 프로젝트 문서에 따르면 이전 최대 규모 대비 학습 길이는 15배, 습득 스킬은 96배, 장면 수는 2,000배 확장됐다. 이 거대 데이터는 DreamDojo의 기반을 이루며, 세계 모델 사전학습의 분기점을 만든다.

두 단계 학습: 사람을 보고 배우고 로봇에 맞춰 정교화

시스템은 두 단계로 동작한다. 먼저 잠재 행동(latent actions)으로 사전학습해 대규모 인간 데이터로부터 포괄적 물리 지식을 획득하고, 이어 연속적 로봇 행동으로 목표 로봇 체화에 맞춰 후학습한다. 이 접근은 비정형 환경에서 조작 기술을 가르치기 위해 개별 로봇별 시연 데이터를 대량 수집해야 하는 기존 병목을 완화한다. 물리 객체를 직접 만지기 전, 풍부한 인간 영상을 활용해 관찰만으로 학습을 시작할 수 있게 한 것이 DreamDojo의 포인트다.

속도와 범용성: 실시간 10FPS와 다수 플랫폼 시연

연구진은 지식 증류를 통해 1분 이상 10FPS로 실시간 상호작용을 구현했으며, 라이브 원격조작과 즉석 계획 수립 같은 실용 시나리오를 뒷받침한다. 또한 GR-1, G1, AgiBot, YAM 등 여러 휴머노이드 플랫폼 전반에서 다양한 환경과 객체 상호작용에 대한 현실적인 ‘행동 조건 롤아웃’을 시연했다.

기업 적용 포인트: 시뮬레이션으로 정책 검증과 계획

실무 의사결정자에게 가장 즉각적인 가치는 시뮬레이션 역량이다. 연구진은 실제 투입 없이도 신뢰도 높은 정책 평가와 테스트 시점 성능 향상을 위한 모델 기반 계획을 제시한다. 이는 제어된 실험실 성과와 변동성 큰 현장 현실 사이의 간극—조명, 낯선 객체, 예기치 못한 장애물—을 줄이는 데 유용하다. 수천 개 장면과 약 100개에 가까운 스킬을 아우르는 4만4천 시간의 1인칭 인간 영상 학습을 통해 로봇이 깨지기 쉬운 규칙 대신 일반적 물리 직관을 갖추도록 돕는다.

AI 인프라 호황 속 엔비디아의 로보틱스 베팅

다보스 세계경제포럼에서 젠슨 황 CEO는 제조 역량이 강한 지역에 특히 기회가 큰 ‘일생일대’의 AI 로보틱스 기회를 강조했다. Digitimes에 따르면 향후 10년은 로보틱스 기술의 가속 발전기로 규정됐다. 그는 CNBC에 올해 하이퍼스케일러들이 집행할 자본지출이 최대 6,600억 달러에 이를 수 있으며 이는 정당하고 지속가능하다고 말하며, 지금을 ‘인류 역사상 최대의 인프라 구축’이라 표현했다. 메타·아마존·구글·마이크로소프트의 AI 확대 투자와 맞물려, 로보틱스 스타트업은 2025년에만 265억 달러를 조달했고, 지멘스·메르세데스-벤츠·볼보 등 유럽 제조 대기업은 로보틱스 파트너십을 잇따라 발표했다. 일론 머스크는 테슬라 기업가치의 80%가 휴머노이드 옵티머스에서 나올 것이라 주장하기도 했다.

향후 로드맵과 함의

연구팀(Linxi “Jim” Fan, Joel Jang, Yuke Zhu; 공동 제1저자 Shenyuan Gao, William Liang)은 코드를 공개할 예정이나 시점은 밝히지 않았다. 한편 엔비디아는 게이밍 중심 이미지를 넘어 물리 세계로의 확장을 가속 중이며, 기즈모도의 Kyle Barr가 지적했듯 ‘게임·개인용 컴퓨터’ 관련 사업은 분기 실적표에서 점점 변두리로 밀리고 있다. 엔비디아는 Anthropic에 100억 달러를 투자했고 OpenAI의 다음 라운드에도 대규모 투자를 예고했다. DreamDojo는 자사의 AI 역량과 칩 경쟁력이 수렴하는 다음 전선이 휴머노이드 로봇임을 시사하며, 본질적으로 ‘우리를 관찰함으로써 세계를 배우는 로봇’이라는 가설을 대규모 데이터로 검증했다.

이 기사 공유하기