leangnews

2026년 02월 20일 15:02

구글, Gemini 3.1 Pro 공개…추론 성능 2배↑로 왕좌 탈환

구글, Gemini 3.1 Pro 공개…추론 성능 2배↑로 왕좌 탈환


기사 요약

  • 구글이 Gemini 3.1 Pro를 내놓으며 ARC-AGI-2 77.1%로 전작 대비 2배+ 추론 성능을 보여주고 최강자 지위를 되찾았다.
  • 바이브 코딩 SVG, 실시간 ISS 대시보드, 3D 벌떼 시뮬레이션 등 실용 데모와 함께 전문 벤치마크에서도 최고 수준을 기록했다.
  • 가격은 3 Pro와 동일하며, Vertex Studio·Gemini API를 통한 상용 SaaS 모델로 제공되고 앱·NotebookLM에도 단계적 적용된다.

개요

지난해 말 강력한 Gemini 3 Pro로 한때 정상에 올랐던 구글이, 치열한 경쟁 속에서 불과 몇 주 만에 뒤집힌 판세를 다시 뒤집었다. 업데이트된 플래그십인 Google Gemini 3.1 Pro는 단순 응답을 넘어 깊은 계획과 종합이 필요한 과학·연구·엔지니어링 작업의 새로운 기준선을 지향한다. 서드파티 평가 기관 Artificial Analysis는 이 모델이 현존 최고 성능을 다시 기록했다고 밝혔다.

왕좌 탈환: Google Gemini 3.1 Pro의 포지셔닝

이번 릴리스는 “대화형 챗팅”에서 “지능의 실용화”로 초점을 옮긴다. 복잡한 문제를 단계적으로 설계·통합하는 데 강점을 보이며, 자율 에이전트 개발을 위한 더욱 신뢰 가능한 기반을 제공한다.

핵심 추론 성능 비약

가장 큰 도약은 엄격한 논리 벤치마크 성능이다. ARC-AGI-2에서 검증된 77.1%를 기록해, 학습 중 보지 못한 새로운 규칙 패턴을 추론하는 능력을 입증했다. 이는 이전 3 Pro 대비 추론 성능이 두 배 이상 향상된 수치다.

전문 도메인 벤치마크 경쟁력

내부 및 공개 지표에서 폭넓은 우수성을 보였다. GPQA Diamond 94.3%(과학 지식), LiveCodeBench Pro Elo 2887 및 SWE-Bench Verified 80.6%(코딩), MMMLU 92.6%(멀티모달 이해)를 달성했다. 이러한 개선은 단순한 점수 상승을 넘어, 사고(thinking) 토큰 운용과 장기 추론 과제 처리 방식의 정교화로 이어졌다.

지능의 활용: 바이브 코딩과 3D 합성

텍스트 프롬프트만으로 ‘바이브 코딩’된 애니메이티드 SVG를 생성해, 픽셀 기반 영상 대비 파일 크기는 작고 해상도 확장성은 크게 확보된다. 웹사이트·프레젠테이션 등에서 더 세밀하고 전문적인 비주얼을 손쉽게 구현한다. 또 국제우주정거장(ISS)의 궤도를 시각화하는 실시간 항공우주 대시보드를 공개 텔레메트리로 구성했고, 핸드 트래킹으로 조작 가능한 복잡한 3D 벌떼(스타링) 군무와 생성 오디오 데모도 선보였다. 에밀리 브론테의 ‘폭풍의 언덕’ 분위기를 현대적 웹 디자인으로 번역하는 등, 글자 그대로의 모방이 아닌 톤·스타일을 추론해 구현하는 창의 코딩 능력도 확인됐다.

비즈니스 임팩트와 커뮤니티 반응

프리뷰를 통합한 엔터프라이즈 파트너들은 안정성과 효율이 눈에 띄게 개선됐다고 보고했다. JetBrains의 Vladislav Tankov는 품질이 약 15% 향상됐고, “더 강력하고 빠르며 출력 토큰을 적게 쓴다”고 평가했다. Databricks CTO Hanlin Tang은 표·비정형 데이터를 아우르는 OfficeQA에서 ‘최고 수준’ 결과를 확인했다고 밝혔고, Cartwheel 공동 창업자 Andrew Carr는 오랜 3D 애니메이션 회전 순서 버그를 해결할 만큼 3D 변환 이해가 크게 향상됐다고 했다. Hostinger Horizons의 Dainius Kavoliunas는 프롬프트의 ‘바이브’를 파악해 비개발자도 의도에 맞춘 스타일 정확도의 코드를 얻을 수 있다고 전했다.

가격, 라이선스, 제공 현황

가격은 3 Pro와 동일해, 성능 대비 비용(Reasoning-to-dollar) 비율이 크게 개선됐다. 입력 요금: 표준 프롬프트 200k 토큰까지 100만 토큰당 $2.00, 그 초과분은 $4.00. 출력 요금: 200k 토큰까지 100만 토큰당 $12.00, 초과분은 $18.00. 컨텍스트 캐싱: 프롬프트 크기에 따라 100만 토큰당 $0.20~$0.40에 더해, 시간당 100만 토큰당 $4.50 저장 비용이 부과된다. 검색 그라우딩: 월 5,000회 프롬프트는 무료, 이후 1,000건당 $14. 소비자용으로는 Gemini 앱과 NotebookLM에서 Google AI Pro·Ultra 구독자에게 더 높은 한도로 순차 제공된다.

엔터프라이즈 보안과 프리뷰의 의미

이 모델은 Google Cloud의 Vertex Studio와 Gemini API를 통한 상용 SaaS로 제공되며, 오픈소스가 아니다. 엔터프라이즈는 Vertex AI 보안 경계 안에서 자사 데이터로 ‘근거 기반 추론’을 수행할 수 있다. 프리뷰 단계는 일반 제공 전까지 안전성과 성능을 다듬기 위한 통상적 절차다.

의미와 전망: ‘다음 단어’ 예측을 넘어

Google Gemini 3.1 Pro는 ARC-AGI-2 같은 전문 추론 벤치마크에 집중하며, 문제를 ‘생각해 풀어내는’ 모델이 다음 AI 경쟁의 승자가 될 것임을 시사한다. 성능과 가격 체계를 유지한 점도 개발자 생태계 확장을 뒷받침한다.

가격 고정의 파급효과

동일한 과금 구조로 대폭 향상된 추론 성능을 제공하는 Google Gemini 3.1 Pro는 API 사용자에게 즉각적인 효율 향상을 제공해, 에이전트·리서치·엔지니어링 워크플로의 생산성 가속을 돕는다.

정리

결국 Google Gemini 3.1 Pro는 성능, 실용 데모, 파트너 피드백, 상업적 조건까지 고르게 강화하며 정상 복귀를 선언했다. 구글은 “생각하는 AI”에 베팅했고, 그 결과를 수치와 사례로 제시했다.

이 기사 공유하기