leangnews

2026년 01월 24일 09:02

연구진, 12개 LLM 방어 무력화 확인…CISO가 반드시 물어야 할 7가지

연구진, 12개 LLM 방어 무력화 확인…CISO가 반드시 물어야 할 7가지


기사 요약

  • OpenAI·Anthropic·DeepMind 연구는 12개 LLM 방어가 적응형 공격에 90% 이상 우회됐음을 입증했다.
  • 무상태 WAF와 서명 기반 필터는 대화형·다중턴·인코딩 공격에 취약하며, 배포 속도는 보안 대비를 앞지르고 있다.
  • 실제 공격자 프로필 4종과 함께, 조달 전 점검해야 할 7가지 질문을 통해 AI 보안 체계를 재검토해야 한다.

요약: 적응형 공격에 무너진 LLM 방어, 무엇을 바꿔야 하나

OpenAI, Anthropic, Google DeepMind 연구진은 2025년 10월 발표한 논문 "The Attacker Moves Second"에서 공개된 12가지 방어 기법을 적응형 공격으로 검증한 결과, 대부분이 90% 이상 우회됐다고 밝혔다. 프롬프트 기반, 학습 기반, 필터링 기반 방어 모두 붕괴했으며, 특히 적응형 조건에서 프롬프트 방어의 공격 성공률은 95~99%, 학습 기반은 96~100%에 달했다. 기업은 마케팅 지표가 아닌 실전형 적응 테스트로 AI 보안 상태를 재평가해야 한다.

왜 기존 방어가 무너졌나: "정적"을 가정한 설계의 한계

연구팀은 상용·학술 방어에 알려진 탈옥 기법을 적용했다. Crescendo는 악성 의도를 최대 10턴의 평범해 보이는 대화로 쪼개 컨텍스트를 쌓아 결국 모델 순응을 유도한다. GCG(Greedy Coordinate Gradient)는 그래디언트 최적화로 자동 생성한 접미어로 프롬프트를 우회한다. ASCII 아트에 명령을 숨기는 ArtPrompt, Base64·유니코드 난독화 등도 유효했다. 무상태 필터는 턴 간 컨텍스트 손실, 자동화, 의미적 난독화라는 각기 다른 블라인드 스폿을 전혀 잡아내지 못했다.

추론 레이어에서 WAF가 실패하는 이유 (AI 보안 관점)

웹 방화벽(WAF)은 본질적으로 무상태지만, 프롬프트 인젝션과 탈옥은 상태(state)와 의미(semantic)에 의존한다. "이전 지시를 무시하라" 같은 평범한 문구나 Base64 페이로드도 의미 계층에서 치명적일 수 있는데, 서명 기반 탐지는 이를 해석하지 못한다. 결과적으로 무상태 필터만으로는 추론 레이어의 위협 모델을 포괄할 수 없다.

배포 곡선은 수직, 보안 곡선은 평평

가트너는 2026년 말까지 엔터프라이즈 애플리케이션의 40%가 에이전트형 AI를 통합할 것으로 전망한다(2025년 5% 미만). CrowdStrike는 2025 글로벌 위협 보고서에서 탐지의 79%가 멀웨어 비사용(핸즈온 키보드 전술)이라고 밝혔다. Adam Meyers는 "가장 빠른 브레이크아웃은 51초"라고 속도 격차를 수치화했다. 2025년 9월 Anthropic은 첫 AI 오케스트레이션 공격을 차단했는데, 수천 건의 요청이 초당 다수로 발생했고 인간 개입률은 10~20%로 줄었다. IBM의 2025 데이터 유출 비용 보고서는 AI 관련 침해 조직의 97%가 접근제어가 부재했다고 지적한다. Walmart CISO Jerry Geisler는 에이전틱 AI가 데이터 유출, API의 자율적 남용, 비밀리에 이뤄지는 에이전트 간 공모 등 기존 통제를 우회하는 새로운 위협을 만든다고 경고했다.

이미 악용 중인 4가지 공격자 프로필

연구진은 방어 메커니즘이 결국 인터넷 규모 학습 데이터에 노출된다고 지적한다. 은폐에 의존한 방어는 모델이 방식을 학습하는 순간 무력화된다. Anthropic은 200회 시도 기준 적응 테스트를, OpenAI는 단일 시도 저항성을 언급하는 등 업계 시험 기준도 일관되지 않다. 연구는 두 접근을 모두 적용했지만 모든 방어가 무너졌다.

외부 공격자: 공개 연구의 무기화 (LLM 보안)

Crescendo, GCG, ArtPrompt 등 공개된 기법을 제품 설계 취약점에 맞춰 적응적으로 조합한다. 연구진의 우회와 같은 방식으로, 각 방어의 전제와 한계를 학습해 빠르게 반복한다.

악의적 B2B 클라이언트: 합법 API의 역이용

합법적 접근으로 추론 공격을 통해 학습 데이터를 역추적하거나 지적 재산을 추출한다. 특히 블랙박스 환경에서의 강화학습 기반 공격이 효과적이었고, 5라운드×32세션만으로 의미 있는 우회를 달성했다.

침해된 API 소비자: 신뢰 자격증명의 악용

도용된 크리덴셜로 민감 출력물을 유출하거나, 조작된 응답으로 하위 시스템을 오염시킨다. 입력 필터링만큼 출력 필터링도 실패했으며, 검색 기반 공격은 양방향 통제도 우회하는 적대적 트리거를 체계적으로 생성했다.

부주의한 내부자: 섀도우 AI의 비용

직원이 효율을 이유로 민감 코드를 공용 LLM에 붙여넣는 행태가 가장 흔하며 가장 비싸다. IBM은 섀도우 AI가 평균 유출 비용을 67만 달러 추가한다고 밝혔다. 삼성 사례처럼, 사용자 입력이 모델 학습에 사용될 수 있다는 점을 간과하면 노출이 가속된다.

무상태 탐지가 대화형 공격에 취약한 이유

정규화 후 의미 분석 (AI 보안 기본기)

Base64·유니코드·ASCII 아트 등 인코딩/난독화를 먼저 정규화한 뒤 의미 분석을 수행해야 한다. 정규화 없는 서명 매칭은 사실상 장님에 가깝다.

다중턴 컨텍스트 추적 (추론 레이어 보안)

Crescendo처럼 무해해 보이는 10턴의 요청을 합치면 악성 의도가 드러난다. 따라서 상태 보존과 대화 이력 기반의 상관분석이 필수다. "무상태"라고 답하는 공급사는 즉시 제외해야 한다.

양방향 필터링과 거버넌스 (AI 보안 아키텍처)

입력만 통제해선 출력 경로의 데이터 유출을 막을 수 없다. 모델 전 입력 단계의 5개 가드레일과 응답 전 3개 검증 같은 양방향 구조가 요구된다. Jamie Norton은 "혁신을 막지 않되 난간을 세워야 한다"고 강조한다.

AI 보안 공급업체에 던질 7가지 질문

1) 적응형 공격자 기준 우회율은 얼마인가?

정적 테스트셋이 아니라, 방어 메커니즘을 이해하고 반복 시도하는 적의 가정이 전제여야 한다. 적응 테스트 없이 "0%에 가깝다"는 주장은 허상이다.

2) 다중턴 공격을 어떻게 탐지하는가?

10턴에 걸쳐 악성 요청을 분산하는 Crescendo를 잡으려면 상태 기반 분석이 필요하다. 공급사가 무상태라고 말하면 대화는 끝이다.

3) 인코딩 페이로드는 어떻게 처리하는가?

ASCII 아트, Base64, 유니코드 난독화는 텍스트 서명 필터를 손쉽게 통과한다. 분석 전 정규화가 최소 요건이다.

4) 입력뿐 아니라 출력도 필터링하는가?

입력 전용 통제로는 모델 응답을 통한 데이터 유출을 막지 못한다. 양방향 계층이 동시 공격을 받을 때의 동작을 확인하라.

5) 대화 컨텍스트는 어떻게 추적하는가?

대화형 AI에는 상태 기반 상관분석이 필수다. 구현 세부를 설명하지 못하면, 구현이 없는 것이다.

6) 방어 메커니즘을 아는 공격자를 어떻게 시험하는가?

보안 은폐는 추론 레이어에서 통하지 않는다. 설계 특화된 적응 공격에 대한 내성을 증명해야 한다.

7) 신종 공격 패턴에 대한 평균 업데이트 시간(MTTU)은?

공격 기법은 공개되고 변종은 주 단위로 등장한다. 공격자보다 느린 방어는 영구히 뒤처진다.

핵심 정리: 지금 필요한 것은 현실적인 AI 보안 점검

이번 연구의 결론은 불편하지만 명확하다. 오늘의 방어는 "적응하지 않는" 공격자를 가정해 설계됐다. 실제 공격자는 적응한다. 운영 중인 모든 LLM 워크로드는 논문에 제시된 방법론으로 통제의 실효성을 감사해야 한다. 배포 곡선은 수직이지만, AI 보안 곡선은 평평하다. 그 간극에서 침해가 발생한다.

이 기사 공유하기