leangnews

Command Palette
Search for a command to run...

2026년 02월 06일 10:01

OpenAI GPT-5.3-Codex 공개…Anthropic Claude 4.6과 정면승부

기사 요약

OpenAI가 GPT-5.3-Codex를 공개하며 같은 시각 Anthropic의 Claude Opus 4.6과 정면 대결을 벌였다.
새 모델은 Terminal-Bench 2.0 77.3% 등 주요 벤치마크와 효율성에서 대폭 향상됐고, 보안 영역에서 '고능력' 등급을 받았다.
a16z 자료에 따르면 엔터프라이즈 AI 지출이 급증하는 가운데 양사는 플랫폼 전략과 막대한 자본으로 시장 주도권 경쟁을 가속 중이다.

AI 코딩 전쟁의 서막: GPT-5.3-Codex vs Claude Opus 4.6

OpenAI가 수요일 GPT-5.3-Codex를 공개했고, 같은 시각 Anthropic은 주력 모델 업그레이드인 Claude Opus 4.6을 발표했다. 동시에 맞부딪힌 출시는 엔터프라이즈 소프트웨어 개발 시장을 둘러싼 'AI 코딩 전쟁'의 본격 개막을 알렸다. 양사는 슈퍼볼 광고 예고와 함께 사업 모델, 접근성, 기업 윤리를 놓고 공방을 이어가며 경쟁에 불을 지폈다.

모델이 스스로의 개발에 기여하다

OpenAI에 따르면 초기 버전의 GPT-5.3-Codex는 자체 학습 과정 디버깅, 배포 인프라 관리, 테스트·평가 진단에 활용됐다. 회사는 이를 "자기 개발에 실질적으로 기여한 첫 모델"로 소개했다.

벤치마크 성능과 효율성 도약

GPT-5.3-Codex 벤치마크 하이라이트

새 모델은 SWE-Bench Pro 57%, Terminal-Bench 2.0 77.3%, OSWorld 64%를 기록했다. 특히 Terminal-Bench 2.0에서 전 세대 GPT-5.2-Codex(64.0%) 대비 13포인트 급등했으며, Anthropic의 Opus 4.6이 보고한 65.4%를 크게 상회했다는 평가가 나왔다.

GPT-5.3-Codex 효율성 개선

동일 작업에서 전 세대의 절반 이하 토큰으로 결과를 내며 토큰당 추론 속도도 25% 이상 빨라졌다고 한다. OpenAI는 "이전 어떤 모델보다 적은 토큰으로 더 많이 만들 수 있다"고 밝혔다.

코딩 보조에서 컴퓨터 오퍼레이터로

GPT-5.3 코덱스의 업무 자동화 범위

OpenAI는 GPT-5.3-Codex를 "코드를 쓰고 리뷰하는 에이전트를 넘어, 개발자와 전문가가 컴퓨터로 하는 거의 모든 일을 수행"하는 모델로 포지셔닝했다. 디버깅, 배포·모니터링, PRD 작성, 카피 에디팅, 사용자 리서치, 슬라이드 제작, 스프레드시트 데이터 분석까지 영역을 넓혔고, 44개 직군의 지식업무를 측정하는 자체 GDPVal 평가에서도 강점을 보였다고 주장했다. 이는 개발자 도구를 넘어 엔터프라이즈 생산성 소프트웨어 전반으로의 확장 의지를 드러낸다.

보안: '고능력' 등급과 새로운 안전 장치

일반 목적 컴퓨팅으로 확장되면서 보안 고려도 강화됐다. OpenAI는 GPT-5.3-Codex가 대비 프레임워크에서 사이버보안 관련 작업에 "고능력"으로 분류된 첫 모델이며, 소프트웨어 취약점 탐지에 직접 학습된 첫 사례라고 밝혔다. 듀얼유즈 안전 교육, 자동 모니터링, 고급 기능 신뢰 접근, 위협 인텔리전스 기반 집행 파이프라인 등을 도입하고, 보안 연구 에이전트 Aardvark의 프라이빗 베타를 확대했다. 또한 오픈소스 유지관리자와 협력해 인기 프로젝트의 코드베이스 무상 스캐닝을 제공하며, 최근에는 Next.js의 취약점 사례도 소개됐다. Altman은 API 크레딧 1천만 달러로 사이버 방어를 가속하겠다고 밝혔다.

격화되는 라이벌전: 광고, 발언, 그리고 점유율

Anthropic은 무료 이용자 대상 ChatGPT 광고 테스트를 풍자하는 슈퍼볼 광고를 예고했고, Altman은 이를 "재미있지만 명백히 오해를 불러일으키는" 표현이라고 반박했다. 그는 Anthropic을 "AI 사용을 통제하려는 권위적 회사"라고 비판하며 양사의 철학과 시장 전략 차이를 에둘러 드러냈다.

엔터프라이즈 지출 급증과 시장 지형 변화

a16z 조사에 따르면 기업의 LLM 평균 지출은 2024년 250만 달러에서 2025년 700만 달러로 180% 급증했으며, 2026년에는 기업당 1,160만 달러로 더 늘어날 전망이다. OpenAI의 엔터프라이즈 지갑 점유율은 2024년 62%에서 2026년 53%로 하락하는 반면 Anthropic은 14%에서 18%로, Google도 유사한 상승세를 보인다. 생산 환경에서 최상위 모델을 쓰는 비율은 Anthropic 75%, Google 76%, OpenAI 46%로 나타났다. 소프트웨어 개발 분야에서는 OpenAI가 약 35% 점유로 선두지만, Anthropic이 빠르게 추격 중이다.

플랫폼로의 도약: Frontier와 데스크톱 앱

양사는 단순 모델 제공을 넘어 플랫폼 전략을 내세우고 있다. OpenAI는 서드파티 도구와도 매끄럽게 연결되는 기업용 허브 플랫폼 'Frontier'를 선보였고, macOS용 Codex 데스크톱 앱은 이미 50만 다운로드를 넘겼다. 이 앱은 복수의 AI 코딩 에이전트를 동시에 관리해 장기·복합 작업에 유용성을 높인다.

막대한 자본의 게임: 컴퓨트와 밸류에이션

Anthropic은 최소 3,500억 달러 기업가치로 200억 달러 이상 조달을 논의 중이며, 직원 지분 매각 프로그램도 병행한다는 보도가 나왔다. OpenAI는 Oracle, Microsoft, Nvidia 등 후원자에게 향후 수익을 전제로 한 1조 달러 이상 규모의 금융 의무를 공개했다. GPT-5.3-Codex는 Nvidia의 Blackwell 세대인 GB200 NVL72 시스템에서 공동 설계·학습·서빙되었다고 한다. 천문학적 인프라 비용은 양사에 수익화 가속을 압박하고 있다.

출시, 접근성, 그리고 상호작용

GPT-5.3-Codex는 유료 ChatGPT 이용자를 대상으로 데스크톱 앱, CLI, IDE 확장, 웹 인터페이스 등 모든 Codex 화면에서 즉시 사용 가능하며, API는 추후 제공될 예정이다. 사용자 성향을 '실용형'과 '친화형'으로 선택할 수 있고, 진행 상황을 자주 공유해 실시간 피드백·질의·경로 수정이 가능하다. Altman은 "Codex가 승리할 것"이라며 자신감을 보였지만, 기업 고객 다수는 여전히 신뢰·보안·컴플라이언스를 최우선 과제로 꼽는다. 그럼에도 GPT-5.3-Codex를 축으로 한 AI 코딩 전쟁은 이미 본격화했다.

최신기사

Masters AI Legal, Cat Casey와 손잡고 법률 AI 학습 생태계 출범

브라이트하트, GE 헬스케어 볼루손 스토어 통해 산전 초음파 AI 지원 확대

월드 모델 혁명: Yoroll.ai의 ‘엔진리스 게임’ 도전

pHathom, 시드 라운드 마감…누적 약정자금 1,200만 달러 돌파

SAP Joule for Consultants: 컨설팅 프로젝트의 새 표준

개인이 이끄는 지역 에너지 혁명: 옥상 태양광·배터리·마이크로그리드

Anthropic, Claude Opus 4.6: 100만 토큰·에이전트 팀 출시

레이크하우스를 넘어: Fundamental NEXUS, 표형 데이터 예측의 새 기반

Hovercraft Ventures, 디자인·크리에이티브 에이전시 Visual Endeavors 인수