leangnews
Command Palette
Search for a command to run...
2026년 02월 06일 11:02
Anthropic, Claude Opus 4.6: 100만 토큰·에이전트 팀 출시
기사 요약
- Anthropic이 Claude Opus 4.6을 공개, 100만 토큰 컨텍스트와 에이전트 팀을 도입해 장기 자동화와 계획 능력을 강화했다.
- 이 모델은 Terminal-Bench 2.0, Humanity’s Last Exam, GDPval-AA 등 주요 벤치마크에서 경쟁사(GPT-5.2 포함)를 앞섰고, MRCR v2 76%로 컨텍스트 로트 문제를 크게 완화했다.
- 가격은 기존과 같고 즉시 사용 가능하며, 단순 작업에는 effort를 ‘중’으로 낮춰 비용·지연을 줄일 것을 권장한다.
개요
Anthropic이 자사 주력 모델 Claude Opus 4.6을 공개했다. 첫 100만 토큰 컨텍스트 윈도우와 에이전트 팀 기능(리서치 프리뷰)을 탑재해 더 정교한 계획 수립과 장시간 자동화 워크플로를 지원한다. 출시는 OpenAI가 데스크톱용 Codex 앱을 내놓은 지 3일 만이자, 엔터프라이즈 소프트웨어 시장 전반의 변동성이 극심한 시점과 맞물린다. Anthropic은 이번 업데이트가 대규모 코드 작업과 복합 추론에서 경쟁 모델을 앞선다고 밝혔다.
경쟁 구도와 벤치마크
Claude Opus 4.6 벤치마크 성능
회사 발표에 따르면, Terminal-Bench 2.0(에이전트형 코딩 평가)에서 최고 점수를 기록했고, Humanity’s Last Exam(복합 학제 추론)에서도 선도권을 보였다. GDPval-AA(금융·법률 등 고가치 지식 작업)에서는 GPT-5.2 대비 약 144 ELO 우위로, 대략 70% 확률로 더 높은 점수를 얻는다고 한다. 내부 테스트 기준, 에이전트형 태스크·사무 업무·신규 문제 해결 부문에서 특히 강점을 보였다. 한편 OpenAI는 Codex 데스크톱 앱으로 개발 경험을 ‘단일 보조자’에서 ‘자율 협업 팀’ 형태로 확장하며 1개월 새 100만 명 넘는 개발자 사용을 밝혔다.
수익과 기업 도입 현황
엔터프라이즈 확산과 성장
Anthropic은 2025년 5월 GA 이후 6개월 만에 Claude Code가 런레이트 기준 10억 달러에 도달했다고 밝혔다. 우버(소프트웨어, 데이터사이언스, 재무, 신뢰·안전), 세일즈포스 전사 엔지니어링, 액센츄어 수만 명 개발자, 스포티파이·라쿠텐·스노플레이크·노보 노디스크·램프 등 다양한 업종에서 배치가 진행 중이다. 이 같은 실적을 바탕으로 최근 3500억 달러 기업가치에 100억 달러 규모 투자 유치 조건부 합의를 맺었고, 직원 대상 지분 매각을 허용하는 텐더 오퍼도 검토 중이라고 전해졌다.
핵심 기술 업데이트
Claude Opus 4.6의 100만 토큰 컨텍스트
업계가 ‘컨텍스트 로트’라 부르는 장문 대화 시 성능 저하 문제를 겨냥했다. MRCR v2(장문 내 정보 검색)에서 76%를 기록해 이전 세대 Sonnet 4.5의 18.5%를 크게 상회했다는 설명이다. 출력 역시 최대 12만8천 토큰을 지원해 대형 코드 베이스나 문서를 여러 번 쪼개지 않고 한 번에 마무리할 수 있다.
에이전트 팀과 장기 자동화
에이전트 팀 기능은 프런트엔드·API·마이그레이션 등 역할을 분담한 다중 에이전트가 자율적으로 협조해 코딩 프로젝트를 병렬로 진행하도록 돕는다. 계획 수립 능력 강화와 결합해 복잡한 개발 업무의 리드타임 단축과 품질 제고가 기대된다.
개발자 기능과 제어
Claude Opus 4.6 개발자 기능 요약
어댑티브 씽킹은 깊은 추론이 필요할 때만 추가 사고를 수행하도록 해 비용·지연을 자동으로 균형 잡는다. 노력도(effort) 4단계(낮음·중간·높음·최대)로 지능/속도/비용 트레이드오프를 제어할 수 있으며, 컨텍스트 컴팩션(베타)은 오래된 맥락을 자동 요약해 장기 과제를 끊김 없이 지속한다. 단순 작업에서 과도한 사고로 지연이 생긴다면 기본값인 ‘높음’ 대신 ‘중간’으로 낮출 것이 권장된다.
안전·보안과 거버넌스
Claude Opus 4.6 안전성 평가
Anthropic은 속성과 능력이 확장되었음에도 이전 세대와의 정렬을 유지했다고 강조한다. 기만·아첨·오남용 협조 등 불일치 행태를 자동 점검한 결과 낮은 비율을 보였고, 최근 Claude 계열 중 무해한 질의에 대한 과도한 거절 비율도 가장 낮았다고 밝혔다. 자율 협조형 에이전트의 안전 가드레일은 공개된 프레임워크를 따르며, 잠재적 유해 사용 탐지를 위한 6종 사이버보안 프로브를 추가하고 오픈소스 취약점 탐지·패치에도 모델을 활용 중이다.
마케팅 전선: 슈퍼볼 광고 논쟁
양사는 소비자 마케팅에서도 충돌한다. Anthropic은 ChatGPT 내 광고 시험 도입을 풍자하는 광고를 예고했고, OpenAI는 과장이라고 반박했다. OpenAI는 대규모 무료 사용자 기반의 수익화(광고)에, Anthropic은 엔터프라이즈와 프리미엄 구독에 집중하는 등 전략 차이가 부각된다.
시장 반응과 소프트웨어 주가 급락
Anthropic PBC의 새 자동화·법률 관련 도구와 Claude Cowork 에이전트용 플러그인 공개 이후, 소프트웨어·금융·자산운용 섹터에서 약 2850억 달러 규모의 급락이 발생했다. 톰슨로이터(-15.83%), 리걸줌(-19.68%)을 비롯해 RELX(렉시스넥시스 모회사), 볼터스 클루버 등 유럽 법률 소프트웨어 기업도 수십 년 만의 최악의 일일 낙폭을 기록했다. 엔비디아 젠슨 황과 JP모건의 마크 머피는 ‘LLM 플러그인이 미션 크리티컬 소프트웨어 전 층을 대체한다’는 공포는 비약이라고 평가했다.
Microsoft 생태계와의 통합
PowerPoint용 통합(리서치 프리뷰)도 공개됐다. 문서·스프레드시트 작업에 쓰인 동일한 AI로 슬라이드 생성·개선을 돕는다. OpenAI에 대한 마이크로소프트의 지분 보유와는 별개로, 오피스 공식 애드인 마켓플레이스 참여를 통해 사용자가 원하는 프로그램 안에서 원하는 도구를 쓰도록 하겠다는 실용적 접근이다.
엔터프라이즈 도입 데이터
a16z 조사에 따르면 2026년 1월 기준 기업 생산 환경에서 OpenAI 사용률은 약 77%로 여전히 1위지만, Anthropic은 2024년 초 거의 제로에서 40% 수준까지 가파르게 상승했다. Anthropic 고객의 75%가 생산 환경에서 사용 중(시험 또는 생산은 89%), OpenAI 고객은 각각 46%와 73%로 집계됐다. 엔터프라이즈 LLM 지출은 2024년 250만 달러에서 2025년 700만 달러로 180% 증가, 2026년에는 1160만 달러로의 추가 성장이 예상된다.
가격과 제공 현황
모델은 claude.ai, Claude API, 주요 클라우드에서 즉시 사용 가능하며, API 모델 ID는 claude-opus-4-6이다. 가격은 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 동일하며, 20만 토큰을 초과해 100만 토큰 컨텍스트를 활용하는 프롬프트에는 10/37.50달러의 프리미엄이 적용된다. 단순 과제에서 ‘과도한 사고’가 관측되면 effort를 ‘중간’으로 조정해 비용과 지연을 낮추는 것이 좋다.