leangnews

2026년 01월 10일 11:02

AI 런타임 보안을 무너뜨리는 11가지 공격과 CISO의 대응 전략

AI 런타임 보안을 무너뜨리는 11가지 공격과 CISO의 대응 전략


기사 요약

  • 기업 보안팀은 위협 모델이 런타임으로 이동하면서 가시성과 통제가 약한 틈을 노린 AI 기반 공격에 뒤처지고 있다.
  • CrowdStrike는 브레이크아웃 최단 51초와 악성코드 없는 탐지 79%를 보고했고, 패치 후 72시간 내 역공학이 일상화됐다.
  • CISO들은 11가지 런타임 공격 벡터와 다섯 가지 배포 우선순위를 통해 AI 런타임 보안을 강화해야 한다.

AI 런타임 보안을 무너뜨리는 11가지 공격과 CISO의 대응 전략

위협 모델의 전환: 런타임이 전장이다

AI 에이전트가 프로덕션에 투입되면서 공격자는 초 단위로 전개되는 런타임 취약점을 노린다. CrowdStrike 2025 위협 보고서는 브레이크아웃이 최단 51초에 이르고, 탐지의 79%가 악성코드 없이 수동 조작으로 이뤄진다고 밝혔다. 다수의 조직이 여전히 수주~수개월 단위의 수동 패치를 고수하는 사이, 패치 공개와 무기화 사이의 간극은 AI로 인해 72시간 이하로 붕괴됐다. 이런 환경에서 AI 런타임 보안은 가시성과 통제의 공백을 메우는 핵심 과제가 됐다.

전통 보안이 런타임에서 실패하는 이유

SQL 인젝션처럼 서명으로 식별되는 공격은 점차 잘 막아내고 있지만, '이전 지시를 무시하라' 유형의 프롬프트 인젝션은 알려진 악성코드와 공통점이 거의 없는 반면, 버퍼 오버플로 급의 위험을 낳는다. 즉 공격은 문법이 아니라 의미를 악용한다. Gartner는 보안을 아슬아슬하게 건너뛰더라도 기업은 생성형 AI를 채택할 것이라 지적하며, 89%의 현업 기술 인력이 목표 달성을 위해 보안 가이드를 우회할 수 있다고 밝혔다. Reputation의 Carter Rees는 결정론적 규칙·서명 기반의 다계층 방어만으로는 확률적이고 의미 중심인 런타임 공격을 막기에 근본적으로 부족하다고 경고한다. 이런 배경에서 AI 런타임 보안을 체계적으로 설계해야 한다.

전통 보안을 우회하는 11가지 런타임 공격

OWASP LLM 애플리케이션 Top 10(2025)은 프롬프트 인젝션을 1위로 꼽는다. 아래의 11개 벡터는 메커니즘과 방어책을 함께 이해해야 한다.

1) 직접 프롬프트 인젝션

설명: 지시 따르기에 훈련된 모델은 안전 규정보다 사용자 명령을 우선시한다. Pillar Security에 따르면 평균 42초 만에 20% 탈옥이 성공하고, 이 중 90%가 민감 정보를 유출한다. 방어: 프롬프트 도달 전 의도 분류로 탈옥 패턴을 차단하고, 출력 필터링으로 우회 성공을 재차 잡아낸다.

2) 위장(카모플라주) 공격

설명: 평범한 대화 맥락에 악성 요청을 숨겨 모델의 맥락 추종 성향을 악용한다. Palo Alto Unit 42 연구는 8개 모델, 8천 건 테스트에서 세 번의 상호작용만으로 65% 성공률을 보였다. 방어: 메시지 단건이 아닌 대화 전반의 누적 의도를 평가하는 컨텍스트 인지 분석.

3) 멀티턴 크레셴도 공격

설명: 각 턴은 무해해 보이도록 분산해 단일 요청 기반의 보호를 무력화한다. 자동화 도구 Crescendomation은 GPT-4에서 98%, Gemini-Pro에서 100% 성공했다. 방어: 상태 유지형 컨텍스트 추적과 대화 이력 기반의 단계적 고조 패턴 탐지.

4) 간접 프롬프트 인젝션(RAG 포이즈닝)

설명: RAG 구조를 겨냥한 제로 클릭 공격으로, 대규모 문서에 단 몇 건의 악성 텍스트를 주입해 모델을 교란한다. PoisonedRAG는 수백만 문서 중 5건만 주입해도 90% 성공률을 보였다. 방어: 검색 결과를 구분 기호로 감싸 '데이터로만' 취급하도록 지시하고, 벡터DB 청크의 제어 토큰을 컨텍스트 투입 전 제거한다.

5) 난독화(Obfuscation) 공격

설명: ASCII 아트, Base64, 유니코드 등 비표준 인코딩으로 악성 지시를 숨겨 키워드 필터를 우회한다. ArtPrompt는 GPT-4, Gemini, Claude, Llama2에서 최고 76.2% 성공을 기록했다. 방어: 정규화 레이어로 모든 비표준 표현을 평문으로 디코드한 뒤 의미 분석을 수행한다.

6) 모델 추출

설명: 체계적 API 질의로 독점 모델의 능력을 증류·재구성한다. Model Leeching은 48시간, 50달러 비용으로 ChatGPT-3.5-Turbo와 73% 유사성을 뽑아냈다. 방어: 행위 지문 채취로 분포 분석 패턴을 감지하고, 워터마킹으로 사후 증명하며, 단순 요청 수가 아닌 질의 패턴 기반의 레이트 리미팅을 시행한다.

7) 자원 고갈(스펀지) 공격

설명: 트랜스포머 어텐션의 제곱 복잡도를 파고들어 지연과 비용을 폭증시킨다. IEEE EuroS&P 연구는 LLM 지연 30배 증가를 보였고, Azure Translator는 1ms에서 6초(6,000배)까지 밀렸다. 방어: 사용자별 토큰 예산, 재귀적 패턴을 거르는 프롬프트 복잡도 분석, 반복적 무거운 요청을 위한 시맨틱 캐싱.

8) 합성 신원 사기

설명: 실제·허위 정보를 결합한 AI 생성 인물로 본인확인을 우회한다. 미 연준 연구는 합성 지원자의 85~95%가 기존 사기 모델을 피한다고 보고했고, Signicat는 금융권 탐지 사기의 42.5%가 AI 주도라고 밝혔다. 방어: 정적 속성 너머의 행태 신호를 포함한 다중요소 검증과 합성 신원 패턴에 학습된 이상 탐지.

9) 딥페이크 기반 사기

설명: 경영진을 음성·영상으로 사칭해 거래를 승인받는다. Onfido는 2023년 딥페이크 시도가 3,000% 증가했다고 밝혔고, Arup은 단 한 번의 화상 통화로 2,500만 달러 피해를 입었다. 방어: 고가치 거래의 대체 경로 확인, 영상 인증 라이브니스 검증, 직급과 무관한 2차 확인 정책.

10) 부주의한 내부자에 의한 데이터 유출

설명: 직원이 소스코드나 전략 문서를 공개 LLM에 붙여넣어 누출이 발생한다. 삼성 엔지니어는 사용 금지 해제 몇 주 만에 세 차례 유출을 일으켰다. Gartner는 2026년까지 비인가 AI 거래의 80%가 악성 공격이 아닌 내부 정책 위반에서 비롯될 것이라 본다. 방어: PII 자동 마스킹·편집으로 안전한 사용을 보장하고, 보안 친화적 경로를 가장 쉬운 기본 선택지로 만든다.

11) 환각 악용

설명: 반사실적 프롬프트로 모델이 허구를 수긍하게 만들어 오류 출력을 증폭한다. LLM 에이전트 연구는 다단계 과정에서 환각이 누적·증폭됨을 보여준다. 방어: 검색된 컨텍스트와의 일치도를 비교하는 그라운딩 모듈과 신뢰도 점수로 전파 전에 의심 응답을 표시한다.

지금 당장 CISO가 할 일: AI 런타임 보안 실행 체크리스트

패치 자동화와 72시간 대응

클라우드 관리와 연동된 자율 패치로 공개 후 72시간 내 무기화 공백을 닫는다.

정규화 레이어 우선 배치

Base64, ASCII 아트, 유니코드를 평문으로 복원한 뒤 의미 분석을 적용해 난독화 우회를 봉쇄한다.

상태 유지형 컨텍스트 추적

멀티턴 크레셴도 공격을 고려해 대화 이력과 상승 패턴을 검사한다.

RAG 지시 계층 강제

검색 데이터는 구분 기호로 감싸 데이터로만 취급하고, 제어 토큰은 컨텍스트 투입 전에 제거한다.

프롬프트에 신원·권한 컨텍스트 전파

사용자 메타데이터를 주입해 권한 기반 응답을 강제하고, 요청의 정당성을 평가한다.

제로 트러스트와 결론

AWS CISO Chris Betz는 생성형 AI 도입 경쟁 속에서 첫 보안 격차가 애플리케이션 계층에서 발생한다고 경고했다. Ivanti의 Mike Riemer는 '누가 키보드 반대편에 있는지 알기 전까지는 통신하지 않는다'는 운영 원칙을 제로 트러스트로 설명한다. Microsoft의 장기 노출과 삼성의 연속 유출 사례는, 문제의 본질이 배포 여부가 아니라 격차를 닫을 속도임을 보여준다. 지금이 바로 AI 런타임 보안을 체계화할 시점이며, 조직 전반의 애플리케이션 계층에서 AI 런타임 보안을 반복 가능한 운영 원칙으로 내재화해야 한다.

이 기사 공유하기