leangnews

2025년 12월 14일 09:01

OpenAI GPT-5.2 공개: 엔터프라이즈가 꼭 알아야 할 핵심

OpenAI GPT-5.2 공개: 엔터프라이즈가 꼭 알아야 할 핵심


기사 요약

  • OpenAI가 40만 토큰 컨텍스트와 심층 추론을 갖춘 GPT-5.2를 공개하고, Instant·Thinking·Pro 3개 티어와 API를 동시에 출시했습니다.
  • GDPval·SWE-bench Pro·ARC-AGI-1 등 주요 벤치마크에서 선도적 성능을 보였으며, 가격은 GPT-5.1 대비 최대 40% 인상됐지만 효율 개선을 내세웁니다.
  • 장기 실행 에이전트, 문서 처리 가속, 오류율 38% 감소 등 엔터프라이즈 생산성 강화와 함께 ‘성인 모드’와 2026년 프로젝트 Garlic 등 로드맵도 제시했습니다.

OpenAI GPT-5.2 한눈에 보기

OpenAI가 차세대 대형 언어 모델 제품군 GPT-5.2를 발표했습니다. 이번 모델은 전문 지식 업무에 초점을 맞춰 추론, 코딩, 복잡한 멀티스텝 작업에서 대폭 강화됐습니다. 40만 토큰 컨텍스트 윈도우와 최대 12.8만 토큰 출력, 2025년 8월 31일 지식 컷오프, 체인 오브 소트 기반의 ‘Reasoning 토큰’ 지원이 핵심입니다.

출시 배경과 ‘코드 레드’

경쟁사 구글 Gemini 3가 여러 벤치마크를 선점한 이후 나왔지만, OpenAI는 이번 발표 시점이 오랫동안 계획된 것임을 강조했습니다. ‘코드 레드’는 ChatGPT 제품 전반의 개선 신호였으며, GPT-5.2가 성급히 출시된 것은 아니라는 입장입니다.

제품 라인업과 API

GPT-5.2 Instant

속도와 일상 업무(작성, 번역, 정보 탐색)에 최적화된 기본 모델로, 낮은 레이턴시가 강점입니다.

GPT-5.2 Thinking

코딩·수학·멀티스텝 프로젝트 등 복잡하고 구조화된 작업을 위한 심층 추론형으로, 장기 실행 에이전트에 적합합니다.

GPT-5.2 Pro

정확도가 최우선인 시나리오에 맞춘 최상위 옵션으로 신뢰성과 품질을 중시합니다. API는 gpt-5.2, gpt-5.2-chat-latest(Instant), gpt-5.2-pro로 즉시 이용 가능합니다.

벤치마크 성능

전문 지식 업무(GDPval)

44개 직무의 명확히 정의된 과제를 측정하는 GDPval에서 GPT-5.2 Thinking이 SOTA를 달성했으며, 전문가와 비교해 70.9% 과제에서 우위 또는 동률을 보였습니다.

코딩과 수학

실전 소프트웨어 엔지니어링 평가 SWE-bench Pro에서 GPT-5.2 Thinking은 55.6%로 새로운 최고 기록을 세웠습니다. FrontierMath(티어 1~3)에서도 40.3%로 전작(31.0%) 대비 큰 폭의 향상을 보였습니다.

일반 추론

GPQA Diamond에서 GPT-5.2 Pro가 93.2%를 기록했고, ARC-AGI-1에서는 90.5%로 최초로 90% 벽을 넘었다고 밝혔습니다.

가격과 경제성

성능 향상에는 비용이 따릅니다. GPT-5.2 Thinking은 입력 100만 토큰당 $1.75, 출력 $14이며, GPT-5.2 Pro는 입력 $21, 출력 $168입니다. 이는 표준 GPT-5.1 및 이전 GPT-5 Pro 대비 약 40% 인상입니다. 그럼에도 최상위 추론 전용 모델 o1-pro($150/$600)보다는 저렴하며, OpenAI는 더 높은 토큰 효율과 적은 횟수의 질의로 총비용을 절감할 수 있다고 설명합니다.

멀티모달과 이미지 생성

이번 릴리스에는 DALL·E 3 및 gpt-4o 대비 새로운 이미지 생성 기능 향상이 포함되지 않았습니다. 다만 OpenAI는 해당 영역에 대해 ‘곧 더 많은 업데이트’를 예고했습니다.

에이전트와 업무 자동화

GPT-5.2는 장기 실행 에이전트를 위한 엔진으로 포지셔닝됩니다. Box는 긴 문서에서 정보 추출 속도가 약 40% 빨라졌고, 생명과학·헬스케어 분야 추론 정확도도 40% 개선됐다고 보고했습니다. Notion은 전 영역에서 GPT-5.1 대비 우수했다고 밝혔고, Augment Code는 새 코드 리뷰 에이전트의 기반으로 채택했습니다. GUI 스크린샷 이해를 측정하는 ScreenSpot-Pro에서 GPT-5.2 Thinking은 86.3%로, GPT-5.1의 64.2%를 크게 상회했습니다.

과학 연구와 신뢰성

면역학 연구자가 검증한 결과, GPT-5.2는 중요한 미해결 질문을 더 날카롭게 도출하고 그 중요성을 더 설득력 있게 설명했습니다. 또한 비식별 질의 세트 기준으로 GPT-5.1 대비 오류 포함 응답이 38% 감소해 환각이 유의미하게 줄었습니다.

사용자 경험과 레거시 모델

모델이 바뀌면 ‘바이브’가 달라질 수 있어 일부 사용자는 이전 모델을 선호할 수 있습니다. 특정 모델에 맞춰 프롬프트를 정교하게 튜닝한 엔터프라이즈의 소폭 회귀 가능성도 고려해 GPT-5.1 등 레거시 접근을 유지합니다.

안전, ‘성인 모드’와 로드맵

OpenAI는 연령 예측 시스템 개선 후 내년 1분기에 ‘성인 모드’를 선보일 계획입니다. 더 멀리 보면 ‘프로젝트 Garlic’으로 불리는 구조적 전환 작업이 2026년 초 플래그십을 목표로 진행 중인 것으로 알려졌습니다. 최근 3년간 연산량과 매출이 각각 연 3배 증가하는 선순환을 언급했고, 지난해 대비 비슷한 벤치마크 점수를 훨씬 낮은 비용과 연산으로 달성했다고 밝혔습니다.

도입 가이드

엔터프라이즈에서 GPT-5.2 활용 체크리스트

업무 유형별로 Instant·Thinking·Pro 적합도를 정하고, 40만 토큰 컨텍스트를 장문 문서 요약·분석·코드베이스 이해에 우선 적용하세요. 토큰 단가·회전 수·결과 품질을 함께 본 총비용 모델을 세우고, 기존 프롬프트를 재점검하며, 데이터 접근·연령 예측·성인 모드 등 안전 정책을 병행하십시오. 초기에는 고가치 업무에 파일럿을 집중하고 도구 호출, 장기 에이전트, 관측·로깅을 통한 품질 관리 체계를 마련하는 것이 좋습니다.

마이그레이션 및 통합 팁

점진적 롤아웃에 맞춰 버전 고정과 회귀 테스트를 수행하고, 긴 컨텍스트는 캐시·요약·RAG로 최적화하세요. 스트리밍 응답과 함수 호출을 조합해 대기 시간을 줄이고, 비용 한도·중단 복구·감사 추적을 시스템 차원에서 설계하십시오.

출시 및 이용 가능성

GPT-5.2(Instant·Thinking·Pro)는 ChatGPT 유료 요금제(Plus, Pro, Team, Enterprise)에 오늘부터 단계적 배포되며, API에서도 즉시 사용 가능합니다. 안정성을 위해 롤아웃은 점진적으로 진행됩니다.

이 기사 공유하기