leangnews

2026년 02월 19일 09:02

Sonnet 4.6, 플래그십급 성능을 1/5 가격에…기업 에이전트 도입 가속

Sonnet 4.6, 플래그십급 성능을 1/5 가격에…기업 에이전트 도입 가속


기사 요약

  • 앤트로픽이 Claude Sonnet 4.6을 공개해 플래그십급 성능을 중간 가격대에서 제공하며 기업용 AI 에이전트 경제성을 재편했다.
  • SWE-bench·OSWorld 등 주요 벤치마크에서 Opus 4.6에 필적하거나 앞서면서도 토큰당 비용은 Opus 대비 5분의 1에 불과하다.
  • 1M 토큰 컨텍스트, 강화된 컴퓨터 사용·보안, 실제 고객 사례와 파트너십이 결합돼 대규모 도입이 급물살을 타고 있다.

개요: 가격 지각변동을 일으킨 중간급 모델의 반란

Anthropic(앤트로픽)은 Claude Sonnet 4.6을 발표하며, 중간 가격대에서 플래그십에 근접한 지능을 제공하는 ‘재가격책’의 분기점을 열었다. 코딩, 컴퓨터 사용, 장문맥 추론, 에이전트 계획, 지식 업무, 디자인 전 영역이 업그레이드됐고, 1M 토큰 컨텍스트(베타)를 지원한다. claude.ai와 Claude Cowork의 기본 모델로 지정됐으며 가격은 백만 토큰당 입력 $3/출력 $15로 동결됐다. 반면 플래그십 Opus는 $15/$75로 Sonnet 대비 5배 비싸다.

성능과 비용: 벤치마크가 증명한 ‘가성비’

플래그십급 성능을 1/5 비용으로

기업이 수백만~수천만 토큰 규모로 에이전트를 돌리는 시대에는 토큰 단가가 누적 호출 수만큼 증폭된다. 여기서 Claude Sonnet 4.6의 의미가 커진다. SWE-bench Verified에서 79.6%(Opus 4.6: 80.8%), OSWorld-Verified에서 72.5%(Opus 4.6: 72.7%)를 기록했고, 사무 업무 지표(GDPval-AA Elo)에서는 1633으로 Opus 4.6(1606)을 넘어섰다. 에이전트형 재무 분석도 63.3%로 Opus 4.6(60.1%)을 앞질렀다. 과거에는 플래그십을 써야 했던 성능 영역이 이제 중간급 가격으로 가능해진 셈이다.

현장 선호도: 더 적은 과공학·환각, 더 나은 따름성

Claude Code 초기 테스트에서 사용자는 Sonnet 4.5 대비 Sonnet 4.6을 약 70% 선호했고, 심지어 Opus 4.5보다도 59% 선호했다. 사용자 평가는 과공학과 ‘게으름’ 성향이 줄고, 지시 따름성이 개선됐으며, 성공 오판·환각이 적고 다단계 작업의 이행이 안정적이라고 요약된다.

컴퓨터 사용 능력: 16개월 만에 5배 도약

‘실험적’에서 ‘준-인간’으로

앤트로픽의 컴퓨터 사용 능력은 2024년 10월 첫 공개 당시 “여전히 실험적”이었지만, OSWorld 점수가 Sonnet 3.5의 14.9%에서 3.7의 28.0%(2025년 2월), 4의 42.2%(6월), 4.5의 61.4%(10월)를 거쳐 이번에 72.5%로 뛰었다. 이는 현대적 API가 없는 레거시 소프트웨어(보험 포털, 정부 DB, ERP, 병원 스케줄러 등) 자동화를 ‘화면 기반 상호작용’만으로 열어준다는 점에서 기업 적용 폭을 최대로 넓힌다. Pace는 자체 복잡 보험 시나리오에서 94%를 기록했다고 밝혔고, Convey는 동급 최고 개선이라고 평가했다. 프롬프트 인젝션 내성도 Sonnet 4.5 대비 크게 강화돼 웹 브라우징·외부 시스템 연동형 에이전트 배치에 필요한 방어력을 갖췄다.

장기 추론과 전략 수립: 에이전트의 다음 단계

1M 토큰 컨텍스트와 Vending-Bench Arena

1M 토큰 컨텍스트는 전체 코드베이스, 장문의 계약서, 수십 편의 논문을 한 번에 담아 추론하도록 돕는다. Vending-Bench Arena 시뮬레이션에서 모델은 초기 10개월간 과감히 생산능력에 투자한 뒤 막판에 이익 극대화로 전환하는 전략을 스스로 세웠고, 365일 종료 시 잔액은 약 $5,700으로 Sonnet 4.5(약 $2,100)의 거의 3배에 달했다. 이는 단답형 응답을 넘어 수개월 단위의 자율 전략 수립이 가능함을 보여준다.

고객 사례: 비용·성능의 경계가 무너졌다

현업이 말하는 ‘Opus 대체’의 순간

여러 초기 고객은 “더 이상 비싼 Opus로 올라갈 필요가 없다”고 밝힌다. Hex는 대부분의 트래픽을 Sonnet 4.6으로 전환하며, 높은 노력·적응적 사고 전제 시 가장 어려운 분석 과제를 빼곤 Opus급 성능을 본다고 했다. Box는 실문서 기반 고난도 질의응답에서 Sonnet 4.5 대비 15%p 향상을 보고했다. Replit은 성능 대비 비용을 “비범”하다고 평했고, Mercury는 “더 빠르고 싸며 첫 시도 성공률이 높다”고 밝혔다. 개발자 도구 측면에서도 CodeRabbit, Factory AI, GitHub, Hercules 등은 대규모 코드베이스 수정과 실제 PR 처리에서 손색이 없고, “Opus 4.6 수준의 정확도·지시 따름성·UI를 더 낮은 비용에 제공”한다고 강조했다.

경쟁 구도와 사업 확장

Infosys 협력, 인도 확장, 인력 담론

출시와 동시에 Infosys와의 엔터프라이즈 에이전트 파트너십(Topaz AI에 Claude 통합)이 공개됐다. 다리오 아모데이는 “데모에서 작동하는 모델과 규제 산업에서 작동하는 모델 사이의 간극”을 지적하며, Infosys가 이를 메운다고 설명했다. 앤트로픽은 벵갈루루에 인도 첫 사무소를 열었고, 인도는 글로벌 Claude 사용의 약 6%를 차지한다. 회사는 CNBC 보도로 기업가치 약 1,830억 달러로 전해졌으며, 다니엘라 아모데이는 “AI 시대에 인문학 전공의 중요성 증대”를 역설했다.

Google·OpenAI와의 비교, 그리고 함의

모델은 복수의 벤치마크에서 Google Gemini 3 Pro와 OpenAI GPT-5.2를 앞서거나 대등한 성능을 보였다. 특히 에이전트형 컴퓨터 사용(예: 72.5% 대 38.2%)과 재무 분석(63.3% 대 59.0%)에서 우위를 보였고, 시각추론·다국어는 Gemini가 경쟁력이 있으나 기업 투자가 몰리는 에이전트 영역에서는 격차가 드러난다. 핵심은 특정 모델의 단판 승부가 아니라, ‘Opus급 지능을 백만 토큰당 몇 달러’에 쓸 수 있게 되며 기업의 비용 계산이 근본적으로 바뀌었다는 점이다.

실제 적용 예시

엔터프라이즈 에이전트 비용 시뮬레이션

일 1,000만 입력 토큰을 처리하는 에이전트를 가정하면, 입력 단가 $15(플래그십)와 $3(중간급)의 차이는 하루 수만 달러 수준의 비용 격차로 누적된다. Claude Sonnet 4.6을 선택하면 동급 과제에서 성능 손실 없이 비용을 대폭 줄여 더 많은 워크플로우를 자동화하거나, 검색·브라우징·코드 실행 등 도구 호출을 공격적으로 확장할 수 있다.

레거시 소프트웨어 자동화 도입 체크리스트

API가 없는 핵심 업무 화면을 우선 식별하고, 브라우저 내 프롬프트 인젝션 대응 체계를 검증하며, OSWorld 유사 태스크로 파일럿을 설계해 실패 자가수정·복구 능력을 점검한다. 이어 실제 문서·대규모 코드베이스로 장문맥 추론 품질을 계측하고, 환각·성공 오판률과 다단계 과업 이행 안정성을 모니터링해 단계적 롤아웃을 추진한다.

도입과 이용 가능성

지금 바로 사용할 수 있는 곳

Claude Sonnet 4.6은 모든 Claude 요금제, Claude Cowork, Claude Code, API 및 주요 클라우드에서 제공되며, 무료 티어도 기본 모델로 업그레이드됐다. 개발자는 Claude API에서 모델 ID ‘claude-sonnet-4-6’으로 즉시 접근할 수 있다.

이 기사 공유하기