leangnews

2026년 02월 18일 10:01

클로드 소넷 4.6, 플래그십급 성능을 1/5 비용으로: 엔터프라이즈 채택 가속

클로드 소넷 4.6, 플래그십급 성능을 1/5 비용으로: 엔터프라이즈 채택 가속


기사 요약

  • 앤트로픽의 Claude Sonnet 4.6은 플래그십급 지능을 중간 가격대($3/$15)로 제공해 대규모 에이전트 운영 비용을 획기적으로 낮췄다.
  • SWE-bench·OSWorld·GDPval-AA 등 주요 벤치마크에서 오퍼스 4.6에 맞먹거나 앞서며 코딩·업무·금융 분석에서 실질 성능을 입증했다.
  • 100만 토큰 컨텍스트, 비약적인 컴퓨터 사용 능력과 보안 강화, 고객사의 대규모 전환으로 엔터프라이즈 도입이 급속히 확대되고 있다.

개요: 비용 구조를 뒤흔든 클로드 소넷 4.6의 등장

앤트로픽이 공개한 Claude Sonnet 4.6은 플래그십급 지능을 중간 가격대에서 제공하는 모델로, 코딩·컴퓨터 사용·장문 맥락 추론·에이전트 계획·지식 업무·디자인 전반을 업그레이드했다. 베타 단계의 100만 토큰 컨텍스트를 지원하며, claude.ai와 Claude Cowork의 기본 모델로 지정됐다. 가격은 100만 토큰당 입력 $3/출력 $15로 동결됐고, 플래그십인 오퍼스 라인이 $15/$75인 점을 감안하면 대규모 API 호출을 수행하는 기업 에이전트의 총소유비용을 크게 낮춘다.

왜 비용 구조가 급변했나

에이전트 시대의 단가 효과

요즘 모델은 고립된 품질이 아니라 자율 에이전트의 엔진으로 평가된다. 에이전트는 수천 건의 툴 호출과 장시간 실행, 브라우저 탐색, 코드 작성·실행, 엔터프라이즈 SW 상호작용을 수행한다. 이때 100만 토큰당 $15와 $3의 차이는 호출 수만큼 누적되어, 시범 도입과 상시 운영 사이의 문턱을 사실상 재정의한다.

Claude Sonnet 4.6의 가격 포지셔닝

동급 최고 수준의 성능을 유지하면서도 오퍼스 대비 1/5 가격대에 책정돼, 동일 예산으로 더 많은 작업량·더 긴 컨텍스트·더 촘촘한 루프를 돌릴 수 있다. 특히 실무 가치가 높은 오피스 태스크까지 오퍼스 급 성능에 근접해, 성능-비용 간 필연적이던 절충을 크게 줄였다.

성능 검증 하이라이트

코딩·업무·금융 벤치마크

앤트로픽 공개치에 따르면, SWE-bench Verified에서 79.6%로 오퍼스 4.6(80.8%)에 근접했다. 에이전트형 컴퓨터 사용(OSWorld-Verified)도 72.5%로 오퍼스 4.6(72.7%)과 사실상 동률이며, 오피스 업무(GDPval-AA Elo)는 1633으로 오퍼스 4.6(1606)을 상회했다. 에이전트형 재무 분석은 63.3%로 비교군 중 최고 수치를 기록했다.

사용자 선호도와 품질 지표

Claude Code 초기 테스트에서 이용자들은 소넷 4.5 대비 약 70% 확률로 소넷 4.6을 선호했고, 오퍼스 4.5 대비로도 59% 선호를 보였다. 과도한 설계와 '게으름' 성향이 줄고, 지시 따르기·다단계 작업 완수·환각 및 성급한 성공 주장 감소 등 품질 개선이 확인됐다.

컴퓨터 사용 능력의 비약

16개월 만의 5배 도약

처음 '실험적'이라던 컴퓨터 사용 기능은 OSWorld 기준 소넷 3.5의 14.9%(2024.10)에서 소넷 4.6의 72.5%까지 상승했다. 불과 16개월 만에 약 5배 개선된 수치다.

레거시 소프트웨어 자동화의 열쇠

API가 없는 보험 포털, 공공 DB, ERP, 병원 스케줄러 등 레거시 시스템도 화면을 보고 클릭·입력으로 조작할 수 있어 커넥터 개발 없이 자동화가 가능해진다. Pace는 보험 도메인 벤치마크에서 94%로 최고 성능을 확인했고, Convey는 자사 평가에서 뚜렷한 개선을 보고했다.

보안과 안전성 강화

웹 탐색형 에이전트의 핵심 리스크인 프롬프트 인젝션에 대해, 소넷 4.6은 소넷 4.5 대비 내성이 크게 향상됐다고 평가됐다. 외부 시스템과 상호작용하는 엔터프라이즈 환경에선 필수적 경화다.

장기 맥락과 전략적 계획

100만 토큰 컨텍스트의 활용

코드베이스 전체, 대형 계약서, 다수의 논문을 단일 요청에 담아 맥락 전반을 추론할 수 있다는 점이 핵심이다. 이는 장기 과업·복합 의사결정에서 에이전트의 품질을 좌우한다.

Vending-Bench에서 드러난 전략성

시뮬레이션 사업 운영 평가에서 소넷 4.6은 초반 10개월 간 설비에 과감히 투자한 뒤 후반부에 수익성으로 전환하는 전략을 자율적으로 수립했다. 365일 종료 시 잔액은 약 $5,700으로 소넷 4.5(약 $2,100)의 거의 3배에 달했다. 이는 단문 응답을 넘어 장기 지평의 계획·집행 능력을 보여준다.

고객 반응과 도입 가속

비용 대비 성능으로 전환 촉진

Hex는 대다수 트래픽을 소넷 4.6으로 이전 중이며, '높은 노력과 적응형 사고' 조건에서 가장 어려운 분석 과제를 제외하면 오퍼스급 성능을 본다고 밝혔다. Box는 실문서 기반 고난도 질의응답에서 소넷 4.5 대비 15%p 우위를, Replit은 비용 대비 성능을 '탁월'하다고 평가했다. Mercury Banking은 "더 빠르고, 더 저렴하며, 첫 시도 성공률이 높다"고 총평했다.

개발 워크플로 측면에서 CodeRabbit은 실무 PR에서 기대 이상이라고 했고, Factory AI는 트래픽을 신규 모델로 전환 중이다. GitHub는 대규모 코드베이스 탐색이 필요한 복잡한 수정에서 이미 두각을 보인다고 밝혔고, Hercules는 "현 시점 최고의 모델"이라며 정확도·지시 준수·UI를 높이 평가했다.

이 같은 피드백은 Claude Sonnet 4.6이 중간 가격대임에도 대다수 실무 범주에서 플래그십에 근접한다는 점을 방증한다.

시장 확장과 경쟁 구도

엔터프라이즈·국제 확장

Infosys와의 파트너십으로 은행·통신·제조 분야 에이전트 구축을 공동 추진하며, 벵갈루루에 인도 첫 사무소를 열었다. 인도 사용 비중은 글로벌의 약 6%로 미국 다음 규모이며, 기업 가치는 약 1,830억 달러로 보도됐다. 또 인문학 전공의 중요성을 강조하며 비판적 사고의 가치를 역설했다.

경쟁 모델 대비 성능

공개 수치 기준, 구글 Gemini 3 Pro 및 오픈AI GPT-5.2 대비 에이전트형 컴퓨터 사용(72.5% vs 38.2%), 에이전트형 검색(비프로 점수 기준 74.7% vs 77.9%), 에이전트형 금융 분석(63.3% vs 59.0%) 등에서 우위를 보였다. 다만 핵심 함의는 단일 모델 간 승패보다, 오퍼스급 지능이 '수 달러/백만 토큰' 가격대로 내려왔다는 구조적 변화에 있다.

이용 가능성과 접근성

Claude Sonnet 4.6은 모든 Claude 요금제·Claude Cowork·Claude Code·API 및 주요 클라우드에서 즉시 사용 가능하며, 무료 티어도 기본 모델로 상향됐다. 개발자는 API에서 'claude-sonnet-4-6'으로 접근하면 된다. 기업들은 이를 통해 하루 수천만 토큰 규모의 에이전트 운영을 경제적으로 확장할 수 있다.

정리

클로드 소넷 4.6이 여는 실용적 전환

Claude Sonnet 4.6은 성능 대비 가격의 비약적 개선으로, 파일럿 단계에 머물던 에이전트를 상시 운영 체제로 전환시키는 촉매제다. 코딩·업무·컴퓨터 사용·장기 계획 능력의 동반 향상은, 엔터프라이즈 자동화의 범위와 속도를 새 기준으로 끌어올리고 있다.

이 기사 공유하기