leangnews
Command Palette
Search for a command to run...
2025년 12월 16일 10:02
대부분의 기업용 AI 코딩 파일럿이 부진한 이유: 모델이 아니라 컨텍스트
기사 요약
- 에이전틱 코딩이 부상했지만 많은 기업 파일럿은 모델 한계가 아니라 컨텍스트 부족 때문에 성과가 미흡하다.
- 컨텍스트 엔지니어링과 워크플로·거버넌스 재설계 없이 자율성만 키우면 검증과 재작업 비용이 늘어 생산성이 떨어진다.
- 테스트가 견고한 영역에서 지표 기반으로 실험하고, 에이전트를 데이터 인프라로 다루는 조직이 앞으로 경쟁우위를 확보한다.
왜 대부분의 기업용 AI 코딩 파일럿이 부진한가
링크드인에서 생성형 AI 가속을 이끄는 Dhyey Mavani는 에이전틱 코딩(계획·다단계 실행·피드백 반복이 가능한 에이전트형 코딩)이 차세대 경계라고 강조한다. 그러나 다수의 기업 배치는 기대에 못 미친다. 병목은 더 이상 모델이 아니라 코드를 둘러싼 구조·이력·의도, 즉 컨텍스트이며, 이는 곧 컨텍스트 엔지니어링의 문제다.
보조에서 자율로의 전환
지난해 보조형 코딩 도구에서 에이전트형 워크플로로 빠르게 진화했다. 연구는 설계·테스트·실행·검증 전반을 가로지르는 추론 능력으로 에이전틱 행동을 정식화하기 시작했으며, 동적 액션 재샘플링(dynamic action re-sampling)처럼 분기·재고·자기수정을 허용하면 대규모 상호의존 코드베이스에서 성과가 유의미하게 개선됨을 보였다. 플랫폼 차원에서도 GitHub은 Copilot Agent와 Agent HQ 등 멀티 에이전트 오케스트레이션 환경을 구축해 실제 엔터프라이즈 파이프라인 내 협업을 지원하고 있다.
초기 현장 결과의 경고
그러나 워크플로와 실행 환경을 손보지 않은 채 에이전트를 투입하면 생산성이 오히려 하락할 수 있다. 올해 무작위 대조 실험은 기존 방식 그대로 AI 보조를 쓴 개발자가 검증·재작업·의도 해석 비용 탓에 더 느리게 과제를 마친다는 점을 보여줬다. 교훈은 분명하다. 오케스트레이션 없는 자율성은 효율을 거의 낳지 못한다.
컨텍스트 엔지니어링이 관건
실패한 배치의 공통 원인은 컨텍스트다. 에이전트가 코드베이스의 관련 모듈, 의존 그래프, 테스트 하니스, 아키텍처 관례, 변경 이력을 구조적으로 이해하지 못하면 겉보기엔 맞는 듯해도 현실과 동떨어진 출력을 낸다. 정보가 과하면 과부하, 부족하면 추측이 늘어난다. 목표는 토큰을 더 먹이는 게 아니라 언제, 무엇을, 어떤 형태로 에이전트에 보여줄지 결정하는 것이다. 여기서 컨텍스트 엔지니어링이 핵심이다.
작업 메모리와 스펙을 엔지니어링하기
성과를 내는 팀은 컨텍스트를 엔지니어링의 표면으로 취급한다. 에이전트의 작업 메모리를 스냅샷·압축·버전관리해 턴 간 무엇을 유지·폐기·요약·링크(인라인 대신)할지 도구화한다. 단순 프롬프트 세션이 아니라 숙고 단계를 설계하고, 대화 로그 대신 검토·테스트·소유 가능한 스펙을 일급 산출물로 만든다. 이는 “스펙이 새로운 단일 진실원”이라는 흐름과 맞닿아 있다.
워크플로 재설계와 거버넌스
컨텍스트만으로는 부족하다. 기업은 에이전트를 중심으로 워크플로를 재설계해야 한다. 맥킨지의 2025년 보고서 ‘One Year of Agentic AI’가 지적하듯, 생산성 향상은 기존 프로세스 위에 AI를 얹을 때가 아니라 프로세스를 새로 설계할 때 나온다. 테스트가 권위 있고 모듈화·소유권·문서가 명확한 코드베이스에서 에이전트는 레버리지를 제공하지만, 기반이 없으면 자율성은 혼돈이 된다.
보안과 컴플라이언스 가드레일
AI 생성 코드는 미검증 의존성, 미묘한 라이선스 위반, 동료 검토를 비켜가는 미문서 모듈 같은 새로운 위험을 낳는다. 성숙한 팀은 에이전트 활동을 CI/CD 파이프라인에 직접 통합해 인간 개발자와 동일한 정적 분석, 감사 로깅, 승인 게이트를 통과하도록 한다. GitHub 문서도 Copilot Agents를 대체자가 아닌, 안전하고 검토 가능한 워크플로의 오케스트레이션된 참여자로 위치시킨다. 목표는 “AI가 전부 쓰게 하자”가 아니라, 작동하더라도 명확한 가드레일 안에서 작동하게 하는 것이다.
의사결정자를 위한 실행 지침
기술 리더는 과대광고가 아니라 준비도로 출발해야 한다. 테스트가 빈약한 모놀리식 시스템은 순이익을 내기 어렵고, 테스트가 권위 있는 환경에서 에이전트는 반복 개선 루프를 돈다(Anthropic이 지적한 바와 같다).
작게 시작하고, 명확히 측정하라
테스트 생성, 레거시 현대화, 격리된 리팩터링처럼 범위를 좁혀 파일럿을 돌리고, 각 배치를 결함 유출률, PR 사이클 타임, 변경 실패율, 보안 이슈 소거 추이 등 명시적 지표로 실험으로 다뤄라.
에이전트를 데이터 인프라로 다루라
모든 계획, 컨텍스트 스냅샷, 액션 로그, 테스트 실행은 검색 가능한 엔지니어링 의도의 메모리가 된다. 본질적으로 에이전틱 코딩은 도구 문제가 아니라 데이터 문제다. 컨텍스트 스냅샷·테스트 반복·코드 수정은 저장·색인·재사용돼야 할 구조화 데이터로 축적되고, 엔지니어링 로그는 의도·의사결정·검증의 지식 그래프로 변환된다. 이 컨텍스트 메모리를 검색·재생할 수 있는 조직이 앞서가며, 컨텍스트 엔지니어링을 자산으로 구축하는 팀이 지속적 우위를 만든다.
바텀라인
플랫폼은 오케스트레이션과 가드레일로 수렴하고, 연구는 추론 시 컨텍스트 제어를 고도화하고 있다. 앞으로 12~24개월의 승자는 가장 화려한 모델을 가진 팀이 아니라 컨텍스트를 자산으로 엔지니어링하고 워크플로를 제품처럼 다루는 팀일 것이다. 그렇게 하면 자율성은 누적되고, 그렇지 않으면 리뷰 큐만 쌓인다. 컨텍스트 + 에이전트 = 레버리지.