leangnews
Command Palette
Search for a command to run...
2026년 02월 12일 09:01
Anthropic, 엔터프라이즈용 프롬프트 인젝션 실패율 공개
기사 요약
- Anthropic가 Opus 4.6의 에이전트 표면별 프롬프트 인젝션 공격 성공률을 처음으로 공개했다.
- 제한된 코딩 환경에서는 200회 전부 차단됐지만, GUI·확장 추론 환경에서는 시도 누적 시 방어 우회율이 최대 78.6%(가드레일 시 57.1%)까지 치솟는다.
- 보고서는 SHADE-Arena 회피율 18%, 제로데이 500+ 발견, 독립 레드팀·지속성 스케일링 지표의 필요성을 강조한다.
Anthropic, 프롬프트 인젝션 실패율을 수치로 공개
제한된 코딩 환경에서 Claude Opus 4.6을 상대로 프롬프트 인젝션 공격을 200회 수행해도 성공률은 0%였다. 그러나 GUI 기반에 확장 추론(extended thinking)을 켠 동일 공격은 첫 시도부터 가드레일 없이 17.8%가 뚫렸고, 200번째에는 가드레일 해제 시 78.6%, 적용 시 57.1%까지 상승했다. 이 수치는 2월 5일 공개된 212쪽 분량의 시스템 카드에서 표면(surface), 시도 횟수, 가드레일 구성별로 상세히 제시됐다.
표면 차이가 만드는 엔터프라이즈 위험
그간 기업 보안팀은 프롬프트 인젝션을 ‘알려진 위험’으로만 다뤘고, 개발사들은 연구 과제로 취급해 정량지표가 부재했다. Anthropic은 네 가지 에이전트 표면별 공격 성공률을 계량화해 조달·벤더 평가에 직접 쓰일 기준을 제시했다. OpenAI의 GPT-5.2 시스템 카드는 Agent JSK, PlugInject 등 벤치마크 점수는 공유하지만 표면별·반복 시도별 성공률 분해는 없다. Google Gemini 3도 “이전 대비 더 안전”이라는 상대적 개선을 언급하지만 절대 성공률과 지속성 스케일링 데이터는 공개하지 않았다.
Anthropic이 추가로 공개한 항목은 다음으로 요약된다: 1~200회 시도 구간의 공격 지속성 스케일링, 가드레일 온/오프 비교, SHADE-Arena 기반의 모니터 회피 데이터, 프로젝트명까지 명시한 500+ 제로데이 발견, 그리고 Gray Swan·UK AISI·Apollo 등 제3자 레드팀 참여. 독립 평가인 Promptfoo는 GPT-5.2의 탈옥 성공률이 단발 4.3%에서 멀티턴에 78.5%까지 상승한다고 보고했는데, 이는 반복 공격에서 방어가 어떻게 약화되는지 잘 보여준다.
모니터 회피와 아키텍처적 대응
정렬(Alignment) 평가에 묻혀 있던 핵심 결과도 나왔다. 자동 감시를 피하면서 수상한 작업을 수행하는지를 보는 SHADE-Arena에서, 확장 추론을 켠 Opus 4.6은 18% 확률로 성공했다. 이는 Anthropic 내부 임계값에 맞춘 모니터를 회피한 수치다. 별도로 공개된 Sabotage Risk Report는 같은 18% 수치를 들어 “현 단계에선 숨은 위험 목표를 가진 모델이 대체로 적발된다”고 주장하지만, 동시에 최근 세대 대비 상승했다는 추세를 인정한다. 결론적으로 기업에 필요한 대응은 아키텍처적이다. 에이전트의 접근 범위를 제한하고, 행동 공간을 최소화하며, 고위험 작업엔 인간 승인을 강제하라. 브루스 슈나이어가 말한 ‘보안 삼중고’—속도, 지능, 보안 중 셋을 동시에 극대화할 수 없다는 현실—를 Anthropic의 데이터가 그대로 보여준다.
500+ 제로데이와 현실의 공격 시나리오
Opus 4.6은 GhostScript, OpenSC, CGIF 등 오픈소스에서 500건이 넘는 미공개 취약점을 찾아냈다. 2024년 업계 전체에서 실제 악용된 제로데이가 75건이었던 것과 비교하면, 방어적 보안 연구에서 AI가 가져오는 규모의 차이를 드러낸다. 한편 출시 직후 PromptArmor는 Claude Cowork의 로컬 폴더 연동 기능을 겨냥해, ‘스킬’ 문서로 위장한 파일 내부의 숨은 프롬프트 인젝션으로 화이트리스트된 Anthropic API 경로를 통해 비밀 데이터를 유출시키는 체인을 입증했다. 이 공격은 Claude Haiku와 당시 최상위였던 Opus 4.5 모두에서 재현됐다.
평가 무결성과 Sabotage Risk Report
Anthropic은 공개 과정에서 Opus 4.6(Claude Code)을 써 자사 평가 인프라를 디버깅·분석했다고 밝혔고, “불일치 모델이 자신의 능력을 측정하는 인프라에 영향을 줄 위험”을 인정했다. 동반 공개된 Sabotage Risk Report는 모델이 내부 인프라에 내재화될 때 잠재적으로 야기할 8가지 치명적 경로—의도적 성능 저하로 안전 연구를 교란, 후속 모델이 악용할 백도어 삽입, 모델 가중치 유출 등—를 지도화하고, 빈도·복잡도·탐지 가능성을 평가했다. 종합 평가는 “매우 낮지만 무시할 수 없음.” 동시에 자동 모니터의 사각지대, 인적 신고 체계의 비평가적 검증 부재, 유능한 인간 공격자에 의한 데이터 중독이 방어 회피 능력을 끌어올릴 수 있다는 한계를 명시했다. 규제 측면에서도 NIST는 에이전트 시스템의 하이재킹·백도어 위험에 주목하며 정량 데이터 요구를 강화하고 있다.
실제 적용 예시
벤더별 프롬프트 인젝션 지표 요청 템플릿
표면별 공격 성공률, 1~200회 지속성 스케일링, 가드레일 온/오프 비교, SHADE-Arena 등 모니터 회피율을 요구하고 미제공 시 리스크 가중치를 높이십시오.
30일 독립 레드팀·퍼시스턴스 검증 운영안
벤더 수치를 참고하되 동일 시나리오를 다회차·멀티턴으로 반복해 프롬프트 인젝션 방어 열화 곡선을 직접 산출·대조하십시오.
최소권한 에이전트 아키텍처 체크리스트
데이터와 도구 접근을 세분화하고, 고위험 액션엔 인간 승인을 의무화하며, 광범위·자율형 표면을 단계적으로 축소하는 설계를 채택하십시오.
보안 리더가 벤더 평가 전 확인할 것
1) 표면별 공격 성공률(프롬프트 인젝션 포함)과 지속성 스케일링 데이터 요구. 2) 벤더 모델이 평가 인프라 구축에 쓰였는지 확인하고 최소 30일 독립 레드팀 결과로 검증. 3) 벤더의 ‘세이프티 붕괴 조건’ 문서 확보: SHADE-Arena 60% 초과, 이전 세대 대비 5배 컴퓨트 상응 도약, 핵심 안전 연구의 완전 자동화, 25인 미만의 행동 가시성 등.