leangnews

2025년 11월 20일 12:02

구글, Gemini 3 공개…수학·과학·멀티모달·에이전트 AI 선두 주장

구글, Gemini 3 공개…수학·과학·멀티모달·에이전트 AI 선두 주장


기사 요약

  • 구글이 차세대 프런티어 모델 패밀리 Gemini 3를 공개하고 Pro·Deep Think·에이전트·생성형 인터페이스를 포함한 대규모 통합 출시에 나섰다.
  • 초기 벤치마크에서 Gemini 3 Pro가 LMArena 등에서 1위를 기록하고 ARC-AGI-2, MMMU-Pro, SWE-Bench 등 핵심 지표에서 전작 대비 대폭 향상됐다.
  • 개발자 도구·Antigravity·Gemini Agent·가격 정책을 공개하며 엔터프라이즈용 장기 계획·멀티모달·에이전트 워크플로에 초점을 맞췄다.

Google, Gemini 3 공개와 제품군

한 달 넘게 이어진 소문과 추측 끝에 구글이 차세대 프런티어 모델 패밀리인 Gemini 3를 공식 발표했다. 이번 출시는 2023년 Gemini 라인 데뷔 이후 가장 포괄적인 AI 릴리스로, Google AI Studio, Vertex AI, 개발자용 Gemini CLI, 주요 IDE 생태계의 서드파티 통합을 통해 제공된다. 제품군은 Gemini 3 Pro(플래그십), 심화 추론 모드인 Gemini 3 Deep Think, 생성형 인터페이스(Visual Layout·Dynamic View), 멀티스텝 작업을 수행하는 Gemini Agent, 그리고 에이전트 중심 개발 환경 Antigravity에 내장된 Gemini 3 엔진으로 구성된다.

동시 배포와 에이전트 중심 전환

Gemini 3는 Google Search의 AI 모드, Gemini 앱, Google AI Studio, Vertex AI, 개발자 도구 전반에 동시 배포된다. 구글은 자체 TPU 하드웨어, 데이터센터 인프라, 소비자 제품을 아우르는 수직 통합을 강조했으며, 월간 6억 5천만 명 이상의 Gemini 앱 사용자, 1,300만 명 이상의 개발자, 검색의 AI Overviews 월간 20억 명 이상 참여 수치를 공개했다. 이번 릴리스의 중심에는 단순 텍스트 생성이 아닌 계획·행동·인터페이스 탐색·툴 조정이 가능한 ‘에이전트형 AI’로의 전환이 있다. Gemini 3는 고수준 지시를 디바이스와 애플리케이션 전반의 멀티스텝 워크플로로 번역하고, 기능성 UI를 생성·툴을 실행·복합 업무를 관리하도록 설계됐다.

성능 향상: 개요

초기 외부 리더보드에서 Gemini 3 Pro는 텍스트 추론 LMArena에서 사전 투표 기준 Elo 1501로 1위를 기록(최초의 1500대 진입)하며 Grok-4.1-thinking(1484), Grok-4.1(1465), Gemini 2.5 Pro(1451), 최근 Claude Sonnet/Opus 등을 앞섰다. Artificial Analysis 지수에서도 종합 73점으로 ‘새로운 글로벌 리더’로 평가됐다. 다만 일부 결과는 커뮤니티 라이브 투표 기반의 예비치로 표시됐다.

추론·수학·과학 벤치마크

수학/과학 추론에서 Gemini 3 Pro는 AIME 2025 무도구 95%, 코드 실행 활용 시 100%를 기록(전작 88%), GPQA Diamond 91.9%(86.4%→)로 상승했다. MathArena Apex는 23.4%(0.5%→)로 대폭 개선됐고, ARC-AGI-2에서 31.1%(4.9%→)를 달성했다. 특히 더 긴 사고 시간을 쓰는 Deep Think는 ARC-AGI-2에서 45.1%로, 다단계 가설 생성·검증·수정에 최적화된 아키텍처 강점을 보여줬다.

멀티모달·도큐먼트 이해·컴퓨터 사용

MMMU-Pro 81%(68%→), Video-MMMU 87.6%(83.6%→), 에이전트형 컴퓨터 사용 지표 ScreenSpot-Pro 72.7%(11.4%→)로 전방위 개선을 보였다. 문서 이해와 차트 추론도 함께 향상됐다.

코딩·툴 사용·장기 계획

LiveCodeBench Pro 2,439(1,775→), Terminal-Bench 2.0 54.2%(32.6%→), SWE-Bench Verified 76.2%(59.6%→), t2-bench 85.4%(54.9%→)를 기록했다. 장문 컨텍스트/플래닝에서는 MRCR v2 128k에서 77%(58%→), 100만 토큰에서 26.3%(16.4%→), 장기 결정 일관성을 보는 Vending-Bench 2는 $5,478.16($573.64→)로 크게 상승했다. 언어 이해도 SimpleQA Verified 72.1%(54.5%→), MMLU 91.8%(89.5%→), FACTS 70.5%(63.4%→)로 상향됐다.

생성형 인터페이스: 텍스트를 넘어

검색의 AI 모드와 Google AI Studio에 도입되는 생성형 인터페이스는 쿼리에 맞춘 잡지형 Visual Layout과 계산기·시뮬레이션·갤러리·인터랙티브 그래프 등 Dynamic View 컴포넌트를 생성한다. 소비자용 풀 UI 형식은 API로 직접 노출되지 않으며, 개발자는 렌더링용 코드/스키마를 받는 방식이다. 모델은 의도 분석을 통해 과업에 최적화된 레이아웃을 구성하고, 과학 개념 다이어그램 자동 생성부터 입력 반응형 커스텀 UI까지 지원한다.

Gemini Agent와 Antigravity

Gemini Agent는 Gmail·Calendar·Canvas·웹 탐색 등 도구를 조율하며 멀티스텝 워크플로를 자동화한다. 메일 검토, 답장 초안, 계획 수립, 정보 트리아지 등을 수행하고 민감 행위 전에는 사용자 승인을 요구한다. 초기에는 Gemini 앱의 Google AI Ultra 구독자에게 우선 제공된다. Antigravity는 에이전트 우선 개발 환경으로, 에디터·터미널·브라우저를 가로질러 코드 생성, UI 프로토타이핑, 디버깅, 라이브 실행, 보고서 생성을 오케스트레이션한다.

개발자 경험과 API 업데이트

Google AI Studio에는 모델/API를 자동 연결하는 Build 모드와 UI 요소에 프롬프트를 부착하는 Annotations가 추가됐다. Gemini API는 ‘생각의 깊이(Thinking level)’와 ‘모델 해상도(Model resolution)’ 제어, 멀티턴 일관성을 위한 사고 서명 검증 강화, 서버사이드 호스팅 bash 툴을 통한 다국어 코드 생성/프로토타이핑을 제공한다. 또한 Google Search와 URL 컨텍스트를 결합한 그라운딩으로 구조화 정보를 추출해 다운스트림 작업에 활용할 수 있다. 공간 추론 개선으로 마우스 동선, 화면 주석, 다중 창 레이아웃 해석 등 인터페이스 조작이 정교해졌다.

엔터프라이즈 영향과 적용 분야

엔터프라이즈는 멀티모달 이해, 에이전트형 코딩, 장기 플래닝을 기반으로 문서·오디오·비디오·워크플로·로그를 통합 분석할 수 있다. 공간/시각 추론 강화는 로보틱스·자율시스템·화면 내비게이션 시나리오를 지원하고, 고프레임레이트 비디오 이해는 빠른 장면 이벤트 감지를 돕는다. 구조화 문서 이해는 법률 검토, 복잡한 양식 처리, 규제 워크플로에 유용하며, 기능성 UI/프로토타입 자동 생성은 엔지니어링 사이클을 단축한다. 신뢰성·툴 호출 안정성·컨텍스트 유지력이 개선돼 재무 예측, 고객지원 자동화, 공급망 모델링, 예지 정비 등 연속 계획 업무의 실사용성이 높아졌다.

가격과 경쟁 구도

API 프리뷰 기준 Gemini 3 Pro는 입력 100만 토큰당 $2, 출력 100만 토큰당 $12(≤200K 토큰)이며, 200K 초과 시 입력 $4, 출력 $18로 책정됐다. 경쟁 모델 대비 중상위 가격대로, 저렴한 오픈소스(관대한 라이선스) 중국계 모델 확산이 채택에 변수로 작용할 수 있다. Google AI Studio에서는 실험용으로 제한적 무료 사용이 가능하다. Deep Think, 확장 컨텍스트, 생성형 인터페이스, 툴 호출 등의 가격은 추후 공개 예정이다.

안전성과 평가

구글은 Gemini 3가 아부 성향 감소, 프롬프트 인젝션 저항 강화, 오남용 방어 개선 등 가장 안전한 모델이라고 밝혔다. 2024년에 도입한 Frontier Safety Framework를 기반으로, Apollo·Vaultis 등 외부 기관과의 평가도 수행했다.

소셜 루머와 출시 전후 반응

출시 전 X(구 트위터)에서 내부 빌드 성능 추정, TPU/데이터 이점, 단일 프롬프트로 웹사이트·애니메이션·UI 생성 시연 등이 확산됐다. Polymarket 예측시장에서는 출시일 베팅이 과열됐고, 유출된 벤치마크 표가 공식 수치와 일치하며 열기를 키웠다. 출시 당일 실제 예시가 잇달아 공유되며 가격·효율성 우려에도 불구하고 구글의 풀스택 AI 역량을 보여준 전환점으로 평가됐다.

결론: 에이전트형 시대를 겨냥한 Gemini 3

Gemini 3는 추론·수학·멀티모달·코딩·플래닝에서 전작 대비 큰 폭의 향상을 입증했으며, 생성형 인터페이스, Gemini Agent, Antigravity로 에이전트 중심 제품군을 현실화했다. 광범위한 통합 배포와 개발자 도구 개선은 다음 세대 에이전트 드라이브 제품/서비스의 기반을 제공하며, 경쟁이 치열한 AI 시장에서 구글의 존재감을 한층 확대한다.

이 기사 공유하기