구글 Gemini 2.5 Flash Lite, 최고 속도 경신과 주요 업데이트

작성일시 2025년 09월 30일 03:0283조회수

구글 Gemini 2.5 Flash Lite, 최고 속도 경신과 주요 업데이트

Table of Contents

기사 요약

독립 평가에 따르면 Gemini 2.5 Flash Lite가 초당 887토큰으로 가장 빠른 폐쇄형 모델로 등극했다.
Flash와 Flash Lite는 추론·도구 사용·멀티모달 품질과 비용 효율이 개선됐고, 새 별칭으로 최신 미리보기를 제공한다.
Gemini Live API는 함수 호출 신뢰성과 자연스러운 대화가 강화됐으며 곧 ‘Thinking’ 기능도 도입된다.

Gemini 2.5 Flash·Flash Lite 최신 업데이트 한눈에

구글은 대규모 숫자 버전 업데이트 사이에서도 Gemini 제품군과 오디오 모델 Gemini Live를 꾸준히 고도화하고 있다. 독립 평가기관 Artificial Analysis에 따르면 Gemini 2.5 Flash Lite는 초당 887 출력 토큰으로 해당 사이트에서 벤치마크한 폐쇄형 모델 중 가장 빠른 성능을 기록했다(이전 대비 +40%). GPT-5와 Grok 4 Fast의 초당 수백 토큰 속도를 상회하지만, MBZUAI·G42 AI의 오픈소스 K2 Think(초당 2,000 토큰)에는 미치지 못한다. 토큰은 LLM이 정보를 표현·전달하는 단위로, 초당 출력 토큰 수는 사용자에게 답을 내보내는 속도의 유의미한 지표다. 새로운 미리보기 버전은 Google AI Studio와 Vertex AI에서 즉시 사용할 수 있다.

성능 및 기능 개선 사항

Gemini 2.5 Flash: 에이전트형 추론과 도구 사용 강화

Gemini 2.5 Flash는 다단계·준자율 작업을 다루는 데 중요한 에이전트형(Agentic) 추론과 도구 사용 능력이 향상됐다. 구글에 따르면 SWE-Bench Verified 점수는 이전 48.9%에서 54%로 상승했다. 또한 더 적은 토큰으로 더 높은 품질을 생성해 지연시간과 비용을 동시에 줄였다.

Gemini 2.5 Flash Lite: 속도·간결성·멀티모달 업그레이드

Gemini 2.5 Flash Lite는 장황함을 줄이고(출력 토큰 50% 감소), 지시문 준수와 멀티모달 이해를 강화했다. 이미지 이해, 번역 품질, 오디오 전사 성능도 개선되어 고처리량 애플리케이션에서 배포 비용을 크게 낮춘다. Gemini 2.5 Flash Lite는 특히 속도 최적화에 초점을 맞춰 실제 서비스 응답성을 높인다.

벤치마크와 외부 검증

Artificial Analysis 기준, Gemini 2.5 Flash Preview 09-2025는 추론 모드 54점, 비추론 모드 47점을 기록해 이전 안정판 대비 각각 3점, 8점 상승했다. Gemini 2.5 Flash Lite Preview 09-2025는 48점(추론), 42점(비추론)으로 8점, 12점의 더 큰 폭의 개선을 보였으며, 2025년 7월 릴리스 대비 약 40% 더 빨라졌다.

또 다른 제3자 평가사 Vals AI에 따르면 Gemini 2.5 Flash는 TerminalBench(+5%), GPQA(+17.2%), 사내 재무 벤치마크 CorpFin(+4.4%)에서 큰 개선을 보였다. 공용 벤치마크에서는 MMMU 38개 중 3위, SWE-Bench 20개 중 6위를 기록하면서도 유사 성능 모델 대비 절반 수준의 비용을 유지했다. 많은 공개 벤치마크에서 Flash와 Flash Lite의 성능이 비슷하지만, 비공개 법률·재무 벤치마크(CaseLaw, TaxEval, MortgageTax)에서는 Flash가 Flash Lite 대비 약 10% 우수했다. 이는 Gemini 2.5 Flash Lite의 압도적 속도 이점에도 불구하고, 복잡한 추론과 엔터프라이즈급 과제에는 기본 2.5 Flash가 더 적합할 수 있음을 시사한다. 또한 Manus의 공동창업자 겸 최고과학자 지이차오(“Peak”) 지는 내부 장기 지평 에이전트형 벤치마크에서 15% 성능 향상을 보고했으며, 새 Flash의 비용 효율이 대규모 확장을 가능케 했다고 밝혔다.

가격과 접근 방법

가격은 가치 중심 전략을 유지한다. Gemini 2.5 Flash Preview 09-2025는 입력 100만 토큰당 0.30달러, 출력 100만 토큰당 2.50달러다. Gemini 2.5 Flash Lite Preview 09-2025는 입력 100만 토큰당 0.10달러, 출력 100만 토큰당 0.40달러다. 개발자는 새 별칭 gemini-flash-latest, gemini-flash-lite-latest를 통해 최신 미리보기 버전을 모델명 수정 없이 바로 통합할 수 있으며, 별칭 뒤 모델의 업데이트나 지원 종료 전 최소 2주 전에 공지한다. 안정성을 우선한다면 gemini-2.5-flash, gemini-2.5-flash-lite의 현행 안정판 사용이 권장된다. 이 과정 전반에서 Gemini 2.5 Flash Lite는 고처리량·저비용 시나리오에서 매력적인 선택지로 부각된다.

Gemini Live API 확장

실시간 음성 중심 모델인 Gemini Live도 대규모 업데이트가 적용됐다. 네이티브 오디오 기능과 함께 함수 호출 신뢰성, 자연스러운 대화 처리 능력이 강화되어 동적인 현실 환경에서 더 매끄러운 음성 에이전트를 구현할 수 있다. 내부 테스트에서 단일 호출 상황의 함수 호출 성공률은 2배, 5~10개 활성 호출이 있는 다중 함수 환경에서는 1.5배 향상됐다. 또한 중간 끼어들기, 주변 잡음, 자연스러운 침묵을 더 유연하게 처리해 맥락을 잃지 않고 대화를 이어간다. AI 기반 가정 운영 플랫폼 Ava는 Live API로 디지털 가정 COO 역할의 음성 에이전트를 구축했으며, 소음 환경 처리와 신뢰할 수 있는 함수 호출 개선으로 개발·배포 속도가 빨라졌다고 밝혔다. 다음 주에는 Flash·Pro 모델과 유사한 ‘Thinking’ 기능이 추가되어, 개발자가 ‘생각 예산’을 설정해 복잡한 질의에 대한 응답 전 추가 사고 시간을 부여할 수 있다. 현재는 gemini-2.5-flash-native-audio-preview-09-2025 미리보기로 실시간 오디오 입력과 오디오 응답을 추가 설정 없이 사용할 수 있다.

개발자에게 의미하는 바

이번 업데이트는 개발자 피드백에 기반한 성능·사용성 개선이라는 구글의 일관된 전략을 반영한다. Gemini 2.5 Flash와 Gemini 2.5 Flash Lite는 더 빠른 응답, 더 나은 비용 효율, 확장된 기능으로 에이전트형 추론 시스템, 실시간 음성 비서, 고처리량 고객 애플리케이션 등 다양한 영역에서 선택지를 넓힌다. Google AI Studio와 Vertex AI의 새 별칭을 통해 최신 기능을 빠르게 수용하면서도, 필요 시 안정판으로 운영 안정성을 확보하는 하이브리드 전략이 가능하다. 특히 Gemini 2.5 Flash Lite는 속도 중심 제품·서비스에서 성능 헤드룸을 크게 제공한다.