leangnews

2026년 03월 06일 09:28

OpenAI, GPT-5.4 공개: 네이티브 컴퓨터 사용·엑셀/시트 연동

OpenAI, GPT-5.4 공개: 네이티브 컴퓨터 사용·엑셀/시트 연동


기사 요약

  • OpenAI가 GPT-5.4를 발표해 네이티브 컴퓨터 사용 모드와 Excel·Google Sheets 통합 등 업무 자동화를 크게 확장했다.
  • GPT-5.4는 Thinking와 Pro 두 가지로, 토큰 효율과 장기 문맥 처리, 도구 검색 기능으로 에이전트 워크플로의 비용과 지연을 줄였다.
  • API 가격은 상향됐지만 성능·신뢰성·코딩 지원이 강화돼 기업용 지속 워크플로 전환을 겨냥한다.

출시 개요

GPT-5.4 제품 구성과 접근 방식

OpenAI는 GPT-5.4를 두 가지로 내놓았다: 복합 추론 중심의 GPT-5.4 Thinking와 가장 까다로운 업무용 GPT-5.4 Pro. 두 모델 모두 유료 API와 Codex에서 제공되며, ChatGPT에서는 Plus 이상 구독자에게 Thinking이 열리고 Pro는 ChatGPT Pro(월 200달러)와 엔터프라이즈 전용으로 제공된다. 무료 이용자는 트래픽 자동 라우팅 시 제한적으로 접근 가능하다.

네이티브 컴퓨터 사용과 에이전트 워크플로

컴퓨터를 직접 조작하는 네이티브 모드

이번 버전의 핵심은 API·Codex에서 제공되는 네이티브 컴퓨터 사용 모드다. 에이전트가 Playwright 같은 라이브러리로 코드를 작성해 앱을 제어하고, 스크린샷을 바탕으로 마우스·키보드 입력을 발행해 다단계 업무를 가로지르는 것이 가능해졌다. 단순 UI 래퍼가 아님을 보여주기 위해 공개된 벤치마크에서, BrowseComp에서는 전작 대비 절대 17%p 상승했고 Pro는 89.3%로 SOTA를 기록했다. OSWorld-Verified에서는 성공률 75.0%로 전작 47.3%를 앞섰고(보고된 인간 72.4%), WebArena-Verified 67.3%, Online-Mind2Web 92.8%를 보였다. 시각·문서 처리도 개선돼 MMMU-Pro 도구 미사용 조건에서 81.2%(전작 79.5%), OmniDocBench 평균 오류 0.109(전작 0.140)를 기록했으며, 최대 10.24M 픽셀의 고충실도 이미지 입력을 지원한다.

장기·다단계 흐름에 맞춘 설계

이 모델은 단발성 답변을 넘어, 상태를 유지하며 계획-실행-검증을 반복하는 장기 워크플로에 맞춰 설계됐다. GPT-5.4는 이런 에이전트형 작업에서 토큰 사용량과 재시도 비용을 줄이는 것을 목표로 한다.

도구 검색과 오케스트레이션

툴 서치로 프롬프트 오염과 비용 절감

도구 생태계가 커질수록 모든 도구 정의를 프롬프트에 넣는 것은 비용·지연·문맥 오염을 초래한다. 이를 구조적으로 해결하기 위해 API에 ‘도구 검색’이 도입됐다. 모델은 가벼운 도구 목록과 검색 권한만 받고, 필요할 때에만 전체 정의를 불러온다. Scale의 MCP Atlas 250개 과제(36개 MCP 서버 활성화)에서 이 설정은 정확도를 유지하면서 총 토큰 사용량을 47% 절감했다. 이 수치는 해당 평가의 툴 서치 구성에 한정된 결과다.

개발자와 코딩 워크플로

코딩 성능, 지연 시간, 실행 제어

코딩 측면에서 이번 모델은 GPT-5.3-Codex의 강점을 유지하면서 도구·컴퓨터 사용 능력을 결합해 단일 시도로 끝나지 않는 과제에서 우수성을 보인다. SWE-Bench Pro에서 전작과 동률 또는 우위를 보이면서 추론 레이턴시는 더 낮다. 또한 Codex의 /fast 모드는 동일한 모델 지능으로 최대 1.5배 빠른 응답을 제공한다. 실험적 스킬 ‘Playwright(Interactive)’를 통해 웹·Electron 앱을 시각적으로 디버깅하고 빌드 중 테스트하는 개발 흐름을 시연한다.

Excel·Google Sheets 통합과 금융 기능

스프레드시트 내장형 ChatGPT와 데이터 파이프라인

OpenAI는 기업·금융권용 보안 제품군을 함께 발표했다. 핵심은 베타 단계의 ChatGPT for Excel & Google Sheets로, 스프레드시트 셀 안에서 복잡한 재무 모델을 만들고 분석·업데이트한다. 또한 FactSet, MSCI, Third Bridge, Moody’s 등 앱 연동으로 외부·내부 데이터를 하나의 워크플로로 묶고, 실적 프리뷰·컴프스·DCF·투자 메모 같은 재사용 가능한 ‘스킬’을 제공한다. 내부 투자은행 벤치마크에서 GPT-5 대비 GPT-5.4 Thinking 성능이 43.7%에서 88.0%로 뛰었다.

업무 산출물 중심의 성능 평가

문서·표·수식·디자인 품질 전반의 향상

GDPval(44개 직종의 명확히 규정된 지식 업무)에서 이번 버전은 전문가와의 비교 중 83.0%에서 동급 이상을 기록했다(전작 71.0%). 주니어 IB 애널리스트 수준의 스프레드시트 모델링 내부 평가에서는 평균 87.5%(전작 68.4%)를 보였다. 프레젠테이션 평가에서는 인간 평가자가 전작 대비 68.0% 비율로 더 선호했으며, 미학·시각적 다양성·이미지 생성 활용도가 개선됐다는 평을 얻었다.

신뢰성 향상과 환각 감소

사용자 플래그 데이터 기반 사실성 개선

과거 사용자 플래그가 달린 비식별 프롬프트 집합에서, 개별 주장 오류 가능성은 33% 낮아지고 전체 응답 오류 포함 가능성은 18% 감소했다(전작 대비). 초기 테스터 피드백으로 Walleye Capital의 Daniel Swiecki는 재무·엑셀 평가에서 정확도가 30%p 향상돼 모델 업데이트·시나리오 분석 자동화가 확대됐다고 밝혔다. Mercor의 Brendan Foody는 본 모델이 APEX-Agents 벤치마크에서 최고 성능을 보였다고 전했다.

가격과 이용 가능성

API 모델명, 요금, 장문맥 과금

API에서는 GPT-5.4 Thinking이 gpt-5.4, Pro가 gpt-5.4-pro로 제공된다. 요금은 다음과 같다: 기본형 입력 100만 토큰당 2.50달러, 출력 15달러; Pro 입력 30달러, 출력 180달러. Batch·Flex는 반값, Priority 처리는 2배로 책정된다. 입력이 272,000 토큰을 넘으면 장문맥 요금(2배)이 적용되며, Codex의 기본 컴팩션은 272k로 이 이하는 기존 요금이 유지된다. 최대 출력은 128,000 토큰으로 전작과 동일하다. 기본 요금 인상 배경으로는 복잡 과제(코딩·컴퓨터 사용·딥 리서치·고급 문서 생성·툴 사용) 대응력 강화, 로드맵 기반 연구 성과, 같은 작업에서 적은 ‘추론 토큰’ 사용 등이 제시됐다. GPT-5.4는 경쟁 최전선 모델 대비 가격 경쟁력을 유지한다는 입장이다.

의미와 전망

GPT-5.4가 여는 지속형 전문 워크플로

GPT-5.4는 ‘정답 생성기’에서 벗어나 도구 오케스트레이션, 컴퓨터 상호작용, 장기 문맥, 실사용 산출물 중심의 업무로 무게중심을 옮긴다. 토큰 효율, 도구 검색, 네이티브 컴퓨터 사용, 사용자 플래그 오류 감소라는 축이 맞물리며, 사람의 재프롬프트·에이전트의 재호출·워크플로 재실행 같은 재시도 비용을 낮춰 에이전트 시스템의 실전 배치를 앞당긴다.

이 기사 공유하기