leangnews

2026년 02월 13일 10:02

OpenAI, Cerebras 칩 채택해 초저지연 코딩 모델 Codex-Spark 공개

OpenAI, Cerebras 칩 채택해 초저지연 코딩 모델 Codex-Spark 공개


기사 요약

  • OpenAI가 Cerebras 웨이퍼스케일 칩에 기반한 GPT-5.3-Codex-Spark를 공개하며 Nvidia 중심 인프라 밖 첫 대규모 추론 파트너십을 맺었다.
  • 초저지연으로 초당 1000토큰을 내지만 복잡한 벤치마크에선 GPT-5.3-Codex 대비 성능 저하가 있으며, 128K 컨텍스트·텍스트 전용으로 Pro 미리보기와 제한적 API로 제공된다.
  • Nvidia와의 긴장, 안전팀 해산·광고 논란·국방부 계약 속에서도 OpenAI는 추론 지연시간을 핵심 경쟁축으로 삼아 Codex의 실시간 협업 비전을 추진한다.

출시 배경과 의의: Codex-Spark로 여는 초저지연 코딩

OpenAI가 GPT-5.3-Codex-Spark를 공개하며, Nvidia 중심의 기존 인프라에서 벗어나 Cerebras Systems와 첫 대규모 추론 파트너십을 맺었다. Cerebras의 웨이퍼스케일 프로세서는 초저지연 AI 워크로드에 특화돼 실시간 코딩 협업 경험을 노린다. OpenAI는 “GPU는 여전히 학습과 추론의 토대”라고 강조하면서도, 초저지연 워크플로에선 Cerebras가 보완적 역할을 수행해 반복적 코딩 루프의 반응성을 크게 높인다고 밝혔다. 이 같은 신중한 메시지는 Nvidia를 자극하지 않으면서도 칩 공급 다각화를 추진하려는 균형 전략을 드러낸다.

성능과 한계: 1000토큰/초, 128K 컨텍스트, 텍스트 전용

OpenAI에 따르면 Codex-Spark는 초저지연 하드웨어에서 초당 1000토큰 이상의 응답 속도를 내도록 최적화됐다(정확한 지연 지표는 비공개). 다만 SWE-Bench Pro와 Terminal-Bench 2.0 같은 복잡한 자율 SW공학 과제에선 풀 사이즈 GPT-5.3-Codex보다 낮은 성능을 보인다. 회사는 창작 흐름을 끊지 않는 속도가 개발자에게 실용적 가치를 준다는 교환으로 규정한다. 모델은 128,000토큰 컨텍스트를 제공하고 텍스트 입력만 지원한다. 현재 ChatGPT Pro의 Codex 앱·CLI·VS Code 확장으로 연구 미리보기를 제공하며, 소수의 엔터프라이즈 파트너에게만 API 접근을 열어 실사용 통합을 탐색 중이다. 이처럼 Codex-Spark는 실시간 개발 루프에 특화된 경량 모델로 자리매김한다.

Cerebras 아키텍처가 여는 추론 경제학

Cerebras의 Wafer Scale Engine 3는 4조 트랜지스터를 단일 대형 칩에 집적해, 다수 GPU 클러스터에서 발생하는 통신 오버헤드를 대폭 줄인다. 대규모 학습은 여전히 분산 GPU가 강점을 가지지만, 사용자 질의에 대한 추론 단계에선 Cerebras 설계가 지연시간을 극적으로 낮출 수 있다는 주장이다. Codex-Spark와의 결합은 개발자-모델 상호작용을 재정의할 잠재력으로 평가된다. 아울러 OpenAI는 하드웨어 외에도 추론 스택 전반을 최적화해, 지속 WebSocket 연결과 Responses API 개선으로 왕복 오버헤드를 80% 줄이고, 토큰당 오버헤드를 30% 절감했으며, 첫 토큰 대기시간을 50% 단축했다고 밝혔다.

Nvidia와의 미묘한 기류, 칩 생태계 다각화

작년 ‘Stargate’ 인프라 계획 발표 당시 Nvidia는 최대 1,000억 달러 투자 의사를 밝히며 밀착 행보를 보였지만, 이후 이 초대형 딜은 정체 상태라는 보도가 이어졌다. 젠슨 황 CEO는 공개적으로 “갈등은 없다”고 선을 그었지만, OpenAI가 Cerebras에 더해 AMD·Broadcom 등 대안을 적극 모색하면서 긴장감이 형성됐다. OpenAI는 “모든 용례에서 가격-성능이 뛰어난 칩을 지속 평가하되, 비용 민감·처리량 우선 과제에선 GPU가 우선”이라고 밝혀, 유연성을 확보하면서도 대규모 병렬 학습에는 여전히 Nvidia GPU가 필수임을 인정했다.

내부 논란: 안전팀 해산, 광고, 국방부 계약

이번 발표는 OpenAI 내부 이슈와 맞물려 있다. 2024년 9월 출범한 ‘미션 얼라인먼트’ 팀이 최근 해산됐고(리더 조슈아 아키엄은 ‘Chief Futurist’로 전환), 장기 위험을 다루던 ‘슈퍼얼라인먼트’ 팀도 앞서 해체됐다. ChatGPT 광고 도입 결정으로 윤리적 우려가 커졌고, 연구자 조이 히지그는 뉴욕타임스 기고와 함께 사임했다. Anthropic은 슈퍼볼 광고에서 “광고는 클로드에 오지 않는다”는 메시지로 맞불을 놨다. 별개로 미 국방부 Genai.mil 프로그램에 참여하면서 ‘모든 합법적 사용’을 허용하는 조건이 주목을 받았고, 제품 정책 부문 임원 해고 논란도 불거졌다.

로드맵: 실시간 편집과 자율 작업의 융합

OpenAI는 빠른 인터랙티브 편집과 장시간 자율 작업을 한 도우미 안에서 자연스럽게 결합하는 방향을 제시한다. 필요할 때는 다수의 모델로 작업을 병렬 확대(fan-out)하고, 다른 한편으로는 하위 에이전트가 배경에서 긴 작업을 수행해 사용자는 ‘빠른 대화 루프’에 머무를 수 있도록 한다. 이를 위해선 더 빠른 추론뿐 아니라, 작업 분해·조정 능력과 이질적 모델 간 오케스트레이션이 필수다. Codex-Spark는 이 중 상호작용 구간의 저지연 기반을 담당하며, 연구 미리보기 동안은 전용 저지연 하드웨어 용량 제약을 반영해 별도 레이트 리밋이 적용된다.

경쟁 구도와 생산성의 시험대

개발자 도구 시장은 Anthropic의 Claude Cowork, 그리고 Microsoft·Google·Amazon의 클라우드 통합 코딩 기능 등으로 경쟁이 치열하다. 출범 10일 만에 Codex 앱은 100만+ 다운로드, 주간 활성 사용자는 전주 대비 60% 성장했고, 32만 5천 명 이상의 개발자가 무료·유료 티어에서 활용 중이다. 다만 Codex-Spark 같은 속도 향상이 실제 생산성 향상으로 이어지는지, 아니면 체감 만족도 개선에 그치는지는 여전히 논쟁적이다. 초기 근거는 ‘빠른 응답이 더 많은 실험과 반복’을 유도함을 시사한다. OpenAI는 추론 지연시간을 차세대 경쟁축으로 보고, 범용 GPU로는 비용효율이 떨어지는 영역을 특화 하드웨어로 여는 전략적 베팅을 이어간다. 결국 관건은 Codex-Spark의 속도가 더 나은 소프트웨어라는 결과로 귀결되느냐다.

이 기사 공유하기