2025년 11월 20일 10:02

xAI, Grok 4.1 공개: 환각률 대폭↓·추론 강화…API는 미공개

기사 요약

xAI가 구글 Gemini 3 발표 직전 대규모 언어 모델 Grok 4.1을 공개했으며, 웹과 X, iOS·안드로이드 앱에서 즉시 사용 가능하다.
두 가지 모드(빠른 응답·생각 모드), 향상된 감정 지능, 환각률 대폭 감소 등으로 공용 벤치마크 상위권에 올랐고, 비전·롱컨텍스트·도구 오케스트레이션도 강화됐다.
다만 공용 API는 아직 열리지 않아 엔터프라이즈 통합이 제한되며, 현시점에서 API로는 Grok 4 Fast 등 구형 모델만 이용할 수 있다.

xAI Grok 4.1 출시 개요

구글의 Gemini 3 공개를 앞두고 주목을 끌려는 행보로 해석되는 가운데, xAI가 최신 대규모 언어 모델 Grok 4.1을 공개했다. 이 모델은 Grok.com, 소셜 네트워크 X(구 트위터), iOS·안드로이드 앱에서 즉시 사용 가능하며, 더 빠른 추론, 향상된 감정 지능, 대폭 낮아진 환각률 등 아키텍처·사용성 개선을 동반했다. xAI는 평가 결과와 일부 학습 과정을 담은 화이트페이퍼도 공개했다.

공용 벤치마크에서 선두권으로 도약해 Anthropic, OpenAI, Google의 기존 모델(특히 Gemini 2.5 Pro)을 앞섰으며, VentureBeat가 2025년 9월 보도한 Grok‑4 Fast의 성과를 토대로 발전했다.

모델 설계와 배포 전략: Grok 4.1의 두 가지 모드

모델은 빠른 응답의 저지연 모드와 다단계 추론을 수행하는 “생각 모드”로 제공되며, xAI 앱의 모델 선택기에서 전환할 수 있다. 생각 모드는 내부 계획·심사숙고 메커니즘을 활용하고, 표준 모드는 속도를 우선시한다. 두 모드 모두 블라인드 선호도 및 벤치마크 테스트에서 경쟁 모델을 상회했다.

인간·전문가 평가에서의 성과: 리더보드 순위

LMArena Text Arena에서 생각 모드는 정규화 Elo 1483으로 잠시 1위를 기록했으나, 곧바로 Google의 Gemini 3(1501)에 1위를 내줬다. 비생각 모드는 1465로 양호한 성적을 보였고, 이들 점수는 Gemini 2.5 Pro, Claude 4.5 시리즈, GPT‑4.5 프리뷰를 상회한다. 크리에이티브 라이팅 v3에서는 생각 모드가 1721.9로 Polaris Alpha(초기 GPT‑5.1 변형)에 이어 2위를 차지하며 이전 세대 대비 약 600점 개선을 보였다. Arena Expert 리더보드에서도 생각 모드가 1510으로 선두권을 형성했다. 이러한 성과는 Grok 4 Fast 출시 불과 두 달 만에 나온 결과다.

핵심 개선점: 멀티모달·지연·롱컨텍스트

이 모델은 차트 해석과 OCR 수준의 텍스트 추출을 포함해 이미지·영상 이해 능력이 대폭 강화됐다. 토큰 단위 지연은 약 28% 줄이면서 추론 깊이는 유지했고, 긴 문맥 작업에서 최대 100만 토큰까지 일관된 출력을 유지해 30만 토큰 이후 성능이 저하되던 이전 세대의 약점을 보완했다.

도구 오케스트레이션도 개선되어 외부 도구를 병렬로 계획·실행함으로써 다단계 질의에 필요한 상호작용 횟수를 줄였다. 내부 테스트 로그에 따르면, 일부 리서치 작업은 기존 4단계를 1~2단계로 단축했다. 정렬 측면에서는 정치적으로 민감한 출력에서의 ‘진실 보정’이 강화됐고, 음성 모드에서는 보다 자연스러운 운율과 다양한 말투·억양을 지원한다.

안전성과 적대적 강건성

xAI는 거부 행동, 환각 저항성, 아부 성향, 이중 용도 안전성 등을 평가했다. 비추론 모드의 환각률은 Grok‑4 Fast의 12.09%에서 4.22%로 크게 낮아졌고, 사실성 QA 벤치마크인 FActScore는 2.97%(이전 9.89%)로 보고됐다. 모델은 프롬프트 인젝션, 탈옥 프롬프트, 민감 화학·생물 질의에 대한 테스트에서 안전 필터의 낮은 위음성률을 보였으며, 제한 화학 지식 0.00%, 제한 생물 질의 0.03%를 기록했다. MakeMeSay와 같은 설득 벤치마크에서도 공격자 역할의 성공률이 0%로 나타났다.

엔터프라이즈 접근성: Grok 4.1의 API 미공개

현재 Grok 4.1은 X, Grok.com, 모바일 앱 등 소비자 대상 인터페이스에서만 접근 가능하며, 공용 API 공개 일정은 발표되지 않았다. 개발자 API로는 Grok 4 Fast(추론·비추론), Grok 4 0709, Grok 3, Grok 3 Mini, Grok 2 Vision 등 구형 모델만 제공되며, 최대 200만 토큰 컨텍스트와 구성별 백만 토큰당 0.20~3.00달러 가격, 분당 400만 토큰 처리량 및 분당 480요청 제한을 지원한다. 이에 따라 백엔드 통합, 미세 조정된 에이전틱 파이프라인, 대규모 내부 도구에의 투입은 제약을 받는다.

업계 반응과 향후 과제

일론 머스크는 “훌륭한 모델”이라며 팀을 축하했고, 여러 벤치마크 플랫폼은 사용성과 언어적 미묘함의 도약을 긍정적으로 평가했다. 다만 API가 열리기 전까지는 소비자 중심 제품에 머물 가능성이 커 엔터프라이즈 활용도는 제한적이다. OpenAI·Google·Anthropic의 경쟁 모델이 빠르게 진화하는 가운데, xAI의 다음 전략은 신형 모델을 외부 개발자에게 언제, 어떤 방식으로 개방하느냐에 달려 있다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다