2025년 11월 21일 10:01

OpenAI, GPT‑5.1‑Codex‑Max 공개: 장기 추론·실시간 강화

기사 요약

OpenAI가 Codex 개발 환경에 에이전틱 코딩 모델 GPT‑5.1‑Codex‑Max를 공개하고 기본 모델로 교체했다.
SWE‑Bench Verified 77.9%, Terminal‑Bench 2.0 58.1% 등 주요 코딩 벤치마크에서 Gemini 3 Pro를 앞서거나 맞먹었다.
‘컴팩션(compaction)’으로 장시간 세션과 토큰 효율을 개선해 24시간 이상 과제도 완료했으며, 보안 통제와 엔터프라이즈 배포를 강화했다.

개요

OpenAI가 Codex 개발 환경에 새로운 에이전틱 코딩 모델을 선보였다. 이번 공개는 장기 추론, 효율성, 실시간 상호작용을 크게 끌어올리며, Codex 통합 전반의 기본 모델을 새로 교체한다.

개요: GPT‑5.1‑Codex‑Max가 여는 에이전틱 코딩

이 모델은 지속적으로 컨텍스트를 유지하는 소프트웨어 개발 에이전트로 설계되어, 복잡한 리팩터링과 디버깅 워크플로, 프로젝트 규모 작업을 여러 컨텍스트 윈도에서 관리한다.

성능 벤치마크: GPT‑5.1‑Codex‑Max의 측정 개선

SWE‑Bench Verified에서 추가 고난도 추론 설정으로 77.9% 정확도를 기록해 Gemini 3 Pro(76.2%)를 앞섰고, Terminal‑Bench 2.0은 58.1%(대비 52.8%)로 개선됐다. LiveCodeBench Pro에서는 2,439점으로 Gemini와 동률을 이뤘으며, Gemini 3 Pro의 Deep Thinking 구성과 비교한 에이전틱 코딩 지표에서도 근소한 우위를 보였다. SWE‑Lancer IC SWE는 79.9%로 기존 모델(66.3%) 대비 큰 폭으로 상승했으며, 모든 평가는 컴팩션과 추가 고난도 추론 설정을 활성화한 조건에서 진행됐다.

기술 아키텍처: 컴팩션으로 장기 추론 구현

컴팩션(compaction)은 컨텍스트 한계에 다가갈수록 핵심 정보는 유지하고 불필요한 세부는 압축·제거해, 수백만 토큰에 걸친 연속 작업에서도 성능 저하를 최소화한다. GPT‑5.1‑Codex‑Max는 내부 테스트에서 다단계 리팩터링, 테스트 주도 반복, 자율 디버깅 등 24시간이 넘는 과제를 완주한 사례가 관찰됐다. 중간 수준 추론 설정에서 생각 토큰을 약 30% 절감하면서 정확도를 유지하거나 개선해 비용과 지연 측면의 이점을 제공한다.

플랫폼 통합과 활용 사례

현재 Codex CLI(@openai/codex), IDE 확장, CartPole 및 스넬의 법칙(Snell’s Law) 시뮬레이터 같은 인터랙티브 환경, 내부 코드 리뷰 도구 등 다양한 Codex 기반 환경에서 이용할 수 있다. 공개 API는 곧 제공될 예정이며, 당장은 터미널 환경에서 Codex CLI를 통해 접근 가능하다. 서드파티 IDE 통합은 CLI 또는 향후 API 위에서 이뤄질지 여부가 아직 확정되지 않았다. 모델은 실시간 도구·시뮬레이션과 상호작용해 강화학습 시각화와 동적 레이 트레이싱 등 데모를 수행한다.

사이버보안과 안전 장치

Preparedness Framework 기준 ‘High’ 역량 임계에는 미달하지만, 현재 배포된 모델 중 보안 측면 역량은 가장 높다. 기본으로 네트워크를 비활성화하고 엄격한 샌드박스를 적용하며, 의심 활동을 위한 라우팅 및 차단 등 모니터링을 강화했다. 또한 개발자가 명시적으로 확장하지 않는 한 로컬 워크스페이스에 격리되어, 신뢰되지 않은 콘텐츠에서 비롯되는 프롬프트 인젝션 위험을 줄인다.

배포 맥락과 개발자 사용

GPT‑5.1‑Codex‑Max는 ChatGPT Plus·Pro·Business·Edu·Enterprise 구독자에게 제공되며, Codex 기반 환경의 새 기본값으로 기존 모델을 대체한다. OpenAI에 따르면 내부 엔지니어의 95%가 매주 Codex를 사용하고 도입 이후 평균 PR 제출이 약 70% 증가했다. 자율성과 지속성이 강화되었더라도 이 모델은 ‘코딩 보조’로 사용되어야 하며, 생성 코드의 투명성을 위해 터미널 로그, 테스트 근거, 도구 호출 출력을 제공한다.

전망: 저장소 단위로 확장되는 에이전틱 개발

GPT‑5.1‑Codex‑Max는 확장된 컨텍스트 관리와 컴팩션 전략을 통해 파일·스니펫이 아닌 전체 저장소 규모의 과제를 처리하도록 자리매김한다. 에이전틱 워크플로, 안전한 샌드박스, 현실 세계 평가 지표에 대한 집중은 차세대 AI 보조 프로그래밍 환경을 앞당기며, 점증하는 자율성 속에서도 인간의 감독 필요성을 분명히 한다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다