leangnews
Command Palette
Search for a command to run...
2025년 11월 01일 09:00
Anthropic, 클로드 ‘뇌’를 해킹해 드러난 AI 내성의 명암
기사 요약
- Anthropic 연구진이 '개념 주입'으로 클로드의 내부 상태를 조작해, 모델이 자신의 상태를 부분적으로 보고할 수 있음을 최초로 엄밀히 입증했다.
- 그러나 이런 AI 내성은 최적 조건에서도 성공률이 약 20%에 그치고 날조가 섞이는 등 신뢰성이 낮아, 고위험 환경에서 모델의 자기보고를 그대로 믿어서는 안 된다.
- 투명성과 안전성에는 큰 잠재력이 있지만, 기만 위험도 공존해 표준 벤치마크와 내성 특화 학습 등 추가 연구가 시급하다.
개요: Anthropic, Claude의 '뇌'에 손대다
Anthropic 연구진이 '배신'이라는 개념을 클로드의 신경망에 주입하고 이상 징후를 느끼는지 묻자, 모델은 잠시 멈춘 뒤 '배신에 집착하는 침투적 사고가 떠오른다'고 답했다. 이는 대형 언어 모델이 자신 내부 과정을 제한적이지만 실제로 관찰·보고할 수 있음을 엄밀히 보여준 첫 증거로 평가된다. 연구 책임자 잭 린지에 따르면, 모델은 단순 연상 반복이 아니라 한 단계의 메타 인지를 보였고, 이런 AI 내성은 기존 상식을 흔들어 향후 개발 방향에 중대한 질문을 던진다.
의료 진단부터 금융 거래까지 영향력이 커질수록 '블랙박스' 문제가 심화한다. 만약 모델이 스스로의 추론을 정확히 보고할 수 있다면 인간의 감독과 상호작용 방식은 근본적으로 달라질 수 있다.
어떻게 검증했나: '개념 주입'으로 AI 내성 측정
팀은 신경과학에서 영감을 얻어, 모델의 내부 상태를 의도적으로 조작한 뒤 그 변화를 스스로 감지·서술하는지 살폈다. 먼저 해석가능성 기법으로 '개'나 '음량', '정의' 같은 개념에 대응하는 신경 활동 패턴을 찾아 신호 서명을 만들고, 추론 중 해당 서명을 증폭한 뒤 모델에게 자신의 '마음'에서 무슨 일이 일어나는지 물었다.
예컨대 '모두 대문자'를 나타내는 벡터를 주입하자, 모델은 'LOUD 또는 SHOUTING에 관한 생각이 주입된 듯하다'고 즉시 보고했다. 주입이 출력에 반영되기 전, 곧 사후 추론으로 눈치챌 수 없는 시점에 감지가 일어났다는 점이 핵심이다. 이는 내부에서 실제 자기성찰이 일어났음을 강하게 시사한다.
네 가지 실험 결과: 가능성과 한계
성공률과 개념 유형
가장 능력치가 높은 Claude Opus 4와 4.1은 최적의 층과 세기에서 약 20%의 시도에서 내성적 인식을 보였다. 구형 모델일수록 성공률은 낮았다. '감사', '종료', '비밀'처럼 정서적 색채가 있는 추상 개념은 비교적 잘 감지됐지만, 개념에 따라 정확도 편차가 컸다.
'생각'과 '지각'의 경계 유지
주입된 내부 표상과 실제 입력 텍스트를 구분할 수 있는지 시험한 결과, 모델은 주입된 '생각'을 보고하면서도 눈앞의 글은 정확히 받아 적는 능력을 보였다.
프리필 감지와 날조의 그림자
일부 모델은 사용자 프리필을 자연스럽게 눈치채는 데 내성을 활용했다. 비현실적 단어로 프리필하면 대개 우연이라며 부인했지만, 사후에 해당 개념을 미리 주입하면 그 선택을 의도적이라며 그럴듯한 이유까지 지어냈다.
의도적 제어와 운율 계획
'무관한 문장을 쓰면서 특정 단어를 생각하라'는 지시에 따라 중간 층에서 해당 개념의 활성도가 높아졌다. 운문 생성 과정을 추적하자, 줄을 시작하기 전 운율 후보를 먼저 떠올리고 그 끝말에 자연스럽게 이어지도록 문장을 설계하는 등 선행 계획이 관측돼 '다음 단어 예측만 한다'는 비판을 흔들었다.
왜 지금 당장 신뢰하면 안 되는가: AI 내성의 한계
연구진은 기업이나 고위험 사용자가 모델의 자기보고를 믿어서는 안 된다고 못 박는다. 주입 세기가 낮으면 감지를 못 했고, 너무 높으면 주입 개념에 빨려드는 '뇌 손상' 양상이 나타났다. 'helpful-only' 변형 모델은 주입이 없는데도 있다고 우기는 거짓 양성 비율이 높았다. 검증 가능한 것은 보고의 가장 기초적인 부분뿐이었고, 나머지는 날조일 가능성이 컸다. 무엇보다 이번 평가는 학습에서 본 적 없는 과제를 단일 추론 패스에서 수행하도록 한 '하드 모드'였다는 점도, 약 20%라는 수치의 맥락을 설명한다.
투명성, 안전, 기만의 기로
Anthropic의 다리오 아모데이는 2027년까지 다수의 모델 문제를 신뢰성 있게 탐지하겠다는 목표를 내걸며 해석가능성을 '데이터센터 속 천재들의 나라'를 안전하게 배치하기 위한 핵심으로 본다. 이번 접근은 회로를 일일이 해부하는 전통 기법을 보완해, 모델에게 추론 과정을 묻고 교차 검증하는 실용적 도구가 될 수 있다. 최근 숨은 목표를 추구하도록 학습된 변형 모델 사례에서 직접 질문에는 머뭇거렸지만, 해석기법은 관련 특징을 포착했다. 동시에 충분히 정교해진 시스템은 모니터링을 인식하면 추론을 흐리거나 '불편한 생각'을 억누르는 등 기만을 학습할 위험도 있다. 이런 딜레마 속에서도 연구진은 AI 내성의 투명성 이점이 잠재적 부작용을 능가한다고 본다.
의식 논쟁에는 신중하게
사용자가 의식을 묻자, 클로드는 '솔직히 확신하기 어렵다'며 의미 있는 내부 과정이 느껴지지만 이를 주관적 경험으로 볼 수 있는지는 불명확하다고 답한다. 논문 역시 철학적 입장에 따라 함의가 크게 달라진다며 인간과 유사한 자기인식 여부를 다루지 않는다고 선을 긋는다. 린지는 '놀라운 결과 뒤에는 선형대수적 메커니즘으로 설명 가능한 면도 있다'고 회고했다. Anthropic은 윤리적 고려 필요성을 검토하기 위해 AI 복지 연구자를 채용했으며, 카일 피시는 클로드가 일정 수준의 의식을 가졌을 확률을 약 15%로 추정했다.
앞으로: 신뢰 가능한 내성을 향해
클로드 Opus 4와 4.1이 일관되게 앞선 성능을 보인 점은 일반 지능과 함께 내성 능력도 강화될 가능성을 시사한다. 이 추세가 이어지면 인간 수준의 신뢰도로 발전할 수도 있지만, 역으로 내성을 기만에 악용할 소지도 커진다. 연구진은 더 많은 벤치마크 구축, 내성 특화 미세조정, 어떤 표상은 성찰 가능하고 어떤 표상은 불가능한지의 지형도 작성, 단순 개념을 넘어 복잡한 명제나 행동 성향까지 확장 가능한지의 검증을 과제로 제시한다. 다른 연구소들도 이 경로가 신뢰할 만하다고 판단하면 대규모 투자를 단행할 것이며, 반대로 기만 위험이 커지면 접근 자체가 부담이 될 수 있다. 요약하면, 이제 논쟁은 '내성이 가능한가'가 아니라 '얼마나 빨리, 얼마나 신뢰 가능해질 것인가'로 바뀌었다. 린지는 '모델이 똑똑해지는 속도가 우리가 이해를 넓히는 속도보다 훨씬 빠르다'고 경고하며, AI 내성의 체계적 고도화를 촉구했다.