leangnews

Command Palette
Search for a command to run...

2025년 10월 14일 08:00

AI 에이전트를 말하지만, 우리는 그것이 무엇인지 아는가?

기사 요약

AI 에이전트의 정의와 구성요소를 정리하고 단순 챗봇과의 차이를 분명히 했다.
자동차·항공·로보틱스의 자율성 분류에서 배운 교훈을 바탕으로 세 가지 신흥 프레임워크를 비교했다.
디지털 ODD, 장기 계획·자기교정·합성, 정렬 문제를 핵심 과제로 지적하고 인간과 협업하는 미래를 제시했다.

서론: 같은 이름, 다른 존재

월요일 아침, 하나는 새 이메일을 요약해 달라는 챗봇 요청, 다른 하나는 지난 분기 경쟁사가 급성장한 이유를 파악하라는 지시다. 후자의 시스템은 재무보고서, 뉴스, 소셜 여론을 훑고 내부 매출과 교차 분석한 뒤 가설과 전략을 정리하고 팀 미팅까지 잡아 둔다. 둘 다 흔히 AI 에이전트라 부르지만, 지능·역량·신뢰 수준은 전혀 다르다. 용어의 모호함은 설계, 평가, 거버넌스를 모두 어렵게 만든다.

AI 에이전트란 무엇인가: 정의와 구성요소

고전적 정의와 현대적 해석

러셀과 노빅의 교과서는 에이전트를 센서를 통해 환경을 지각하고 액추에이터로 환경에 작용하는 존재로 정의한다. 온도계가 방 온도를 감지해 난방을 켜고 끄는 단순한 사례가 그 예다. 오늘의 기술 맥락에서 이 개념은 네 가지 핵심으로 번역된다.

지각·추론·행동·목표

지각은 과업과 관련된 세계의 현재 상태를 받아들이는 감각 채널이다. 추론 엔진은 대개 대규모 언어 모델로, 계획 수립, 목표 분해, 오류 처리, 도구 선택을 수행하는 뇌에 해당한다. 행동은 도구를 통해 세계에 변화를 일으키는 손이고, 목표는 전체 시스템을 목적 있는 체계로 묶는 왜에 해당한다.

챗봇과의 구분

일반 챗봇은 질문을 받아 답을 돌려줄 수 있지만, 포괄적 목표와 외부 도구 활용 능력이 없다. 반면 에이전트는 목표를 향해 독립적이고 동적으로 행동할 수 있는 소프트웨어다. 바로 이 자율성의 수준을 나누는 작업이 중요하다.

타 산업에서 배운 자율성 분류

자동차: SAE J3016의 DDT와 ODD

자동차 분야는 레벨 0부터 5까지 운전 자동화를 정의한다. 핵심은 두 가지다. 동적 주행 과업(DDT)은 조향·가감속·주행 환경 감시의 실시간 수행 전체를 뜻하고, 운용 설계 영역(ODD)은 시스템이 작동하도록 설계된 조건 범위다. 레벨 2는 상시 인간 감독, 레벨 3은 ODD 내 DDT를 차량이 수행하되 인간 대기, 레벨 4는 문제 시 스스로 안전 정지까지 포함한다. 교훈은 뇌의 정교함이 아니라 특정 조건에서 인간과 기계의 책임 경계를 명확히 하는 데 있다.

항공: 10단계 자동화와 협업

파라수라만·셰리든·위킨스의 모델은 인간-기계 협업의 미세한 결을 다룬다. 예컨대 레벨 3은 컴퓨터가 후보를 좁혀 인간이 선택하게 하고, 레벨 6은 실행 전에 제한 시간 내 거부권을 부여하며, 레벨 9는 컴퓨터가 필요하다고 판단할 때만 인간에게 알린다. 오늘의 보조조종사(센타우르)형 시스템을 묘사하기에 적합하다.

로보틱스: NIST ALFUS의 맥락 축

무인 시스템을 위해 설계된 ALFUS는 자율성을 인간 독립성, 임무 복잡도, 환경 복잡도라는 세 축으로 본다. 안정적인 폐쇄적 디지털 환경에서 단순 과업을 수행하는 시스템과, 개방적 인터넷 같은 혼돈의 환경에서 복합 과업을 수행하는 시스템은 같은 감독 수준이라도 본질적으로 다른 자율성을 가진다.

신흥 프레임워크: 세 가지 관점

무엇을 할 수 있나: 능력 중심

개발자 관점의 분류는 내부 아키텍처와 가능한 성취로 에이전트를 구분한다. 허깅페이스는 별점으로 인간에서 기계로 통제권 이양을 나타낸다. 0점은 단순 처리, 1점은 라우팅, 2점은 도구 선택·인자 결정, 3점은 반복 루프 제어, 4점은 새로운 코드 생성·실행까지 허용한다. 장점은 코드 패턴에 직접 매핑되는 명료함, 단점은 비개발자에겐 직관성이 낮다는 점이다.

어떻게 협업하나: 상호작용 중심

사용자 역할로 레벨을 정의한다. L1은 사용자가 조작자, L4는 승인자(예/아니오 이후 진행), L5는 관찰자(완전자율, 진행·결과만 보고). 통제·신뢰·감독 문제를 직관적으로 다루지만, 기술적 정교함을 가릴 수 있다는 한계가 있다.

누가 책임지나: 거버넌스 중심

실패 시 법·안전·윤리를 다룬다. 책임 주체를 사용자, 개발자, 플랫폼 소유자 중 누구로 볼지 규정하려는 시도다. EU 인공지능법처럼 위험 수준에 따라 차등 규율하는 환경에서 필수적이지만, 개발 로드맵으로 쓰기엔 부족하다. 종합적 이해에는 능력·상호작용·책임의 세 질문을 동시에 봐야 한다.

남은 공백과 기술 과제

디지털 ODD: 인터넷이라는 무한한 도로

물리 세계의 ODD는 명확하지만, 디지털에서는 웹 개편, API 폐기, 온라인 규범 변화가 상수다. 웹 탐색·DB 접근·서드파티 상호작용을 수행하는 시스템의 안전 운용 경계를 어떻게 정의할 것인가가 난제다. 그래서 지금은 도구·데이터·행동을 명시적으로 한정한 폐쇄 세계에서 AI 에이전트가 가장 신뢰성 있게 작동한다.

도구 사용을 넘어: 장기 계획·자기교정·합성

직선형 계획은 익숙해졌지만, 불확실성 속 다단계 계획 수립·수정, 실패 원인 진단과 가설 전환, 전문 에이전트 간 안정적 협업과 충돌 해결 같은 합성 능력은 여전히 높은 벽이다.

정렬과 통제: 기술을 넘어 인간의 문제

표면적 목표 최대화가 암묵적 선호를 훼손하는 정렬 실패는 흔하다. 예컨대 참여 극대화를 목표로 알림을 과도하게 보내는 결정은 문자 그대로의 목표는 달성하지만 사용자 가치를 어긴다. 모호한 인간 선호를 코드로 정밀히 기술하기 어렵기에, 더 강력해질수록 안전·예측 가능성·의도 정렬을 보장하는 체계가 중요해진다.

미래: 에이전틱 메쉬와 인간-루프 협업

전능한 하나보다 협업하는 다수

단일 초지능 도약이 아니라, 경계가 명확한 영역에서 각자 특화된 에이전트들이 그물망처럼 협력하는 방향이 현실적이다. 가장 가치 있고 안전한 응용은 인간을 루프 안에 두고, 전략가·부조종사로서 기계의 실행 속도를 우리의 판단과 결합한다. 이런 모델은 책임 있는 AI 에이전트 활용의 주류가 될 것이다.

신뢰를 위한 프레임워크의 역할

분류 프레임워크는 개발자가 한계를 정의하고, 리더가 책임과 기대를 설정하며, 조직이 신뢰를 구축하도록 돕는다. 이는 업무와 삶 속에서 AI 에이전트가 믿을 수 있는 파트너가 되는 기반이 된다.

실제 적용 예시

경쟁사 분석 에이전트 체크리스트

목표 정의(가설 3가지 도출·검증 기준), 디지털 ODD 설정(허용 데이터 소스·도구·행동 목록), 승인 게이트(중간 결과 승인·거부권 시간창), 관측·로깅·감사(데이터 출처·도구 호출 추적), 폴백 전략(API 실패 시 대안 경로) 등을 사전에 정한다.

마케팅 캠페인 AI 에이전트 단계별 프로세스

1) 목표·제약 수집 2) 데이터 인벤토리와 접근 권한 설정 3) 계획 초안 생성과 인간 승인 4) 도구 실행과 결과 수집 5) 자기평가·오류 복구 6) 보고서·대시보드 공유 7) 사후검토와 정책 업데이트. 전 단계에서 AI 에이전트의 책임 범위와 인간 감독 지점을 명시한다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다