2026년 03월 04일 09:45

오픈AI 내부 ‘AI 데이터 에이전트’ 공개: 두 엔지니어가 만든 전사 분석 혁신

기사 요약

오픈AI는 두 명의 엔지니어가 3개월 만에 만든 AI 데이터 에이전트로 600PB·7만 개 데이터셋을 자연어로 분석해 수천 명 직원의 업무 시간을 단축했다.
Codex 기반의 계보·의존성 자동 매핑과 6개 컨텍스트 레이어, 과신을 줄이는 프롬프트·실시간 추적·강력한 권한 제어가 정확성과 신뢰를 높였다.
제품화 대신 공개 API와 OpenAI Frontier 등 빌딩 블록을 제공해 기업이 자체 구축하도록 유도하며, 성공의 관건은 정합성 높은 데이터 거버넌스다.

오픈AI의 AI 데이터 에이전트가 바꾼 전사 데이터 분석

작년까지만 해도 재무 애널리스트가 지역·코호트별 매출을 비교하려면 7만 개 데이터셋에서 테이블을 찾고 SQL을 작성하며 스키마를 검증하는 데 몇 시간이 걸렸다. 이제는 슬랙에 평범한 문장으로 질문하면 몇 분 만에 완성 차트가 돌아온다. 두 명의 엔지니어가 3개월 만에 구축했고, 코드의 70%는 AI가 작성했으며, 현재 오픈AI 임직원 수천 명이 매일 쓰는 사내 AI 데이터 에이전트다. 이 시스템은 더 똑똑한 조직을 가로막는 병목이 모델이 아니라 데이터임을 단적으로 보여준다.

600PB와 7만 데이터셋에 대한 자연어 인터페이스

오픈AI의 데이터 플랫폼은 600페타바이트, 7만 개 데이터셋 규모로, 올바른 테이블을 찾는 데만도 전문가 시간이 소모됐다. 인프라 산하 데이터 플랫폼 팀은 사내 5천 명 중 4천 명 이상에게 도구를 제공한다. GPT-5.2를 기반으로 슬랙, 웹, IDE, Codex CLI, 내부 ChatGPT 등 직원이 일하는 환경 어디서나 접속 가능하며, 자연어 질의에 대해 차트·대시보드·장문 분석 리포트를 생성한다. 쿼리당 2~4시간을 절감할 뿐 아니라, 비기술 인력도 테이블·스키마 전반을 몰라도 스스로 심화 분석을 수행할 수 있게 된다.

가로 조직을 관통하는 활용: 매출 비교부터 지연 시간 디버깅까지

재무팀은 지역·코호트별 매출 비교를, 제품팀은 기능 채택률 분석을, 엔지니어는 성능 회귀의 원인을 묻는다. 서로 다른 구독 대시보드 간 불일치를 발견한 사례에선 다섯 가지 요인 차이를 스택 랭크로 도출해 수분 내 설명했다. 부서별로 맞춤 컨텍스트와 메모리를 큐레이션하며 단계적으로 론칭했지만, 결국 하나의 데이터베이스 위에서 작동해 세일즈·엔지니어링·프로덕트 지표를 한 번에 결합 질의할 수 있는 점이 특징이다. 이러한 전사 가시성은 AI 데이터 에이전트의 가치를 극대화한다.

가장 어려운 문제: ‘정확한 테이블 찾기’와 Codex Enrichment

7만 데이터셋 중 정답 테이블을 고르는 일이 최대 난제였다. 여기서 코덱스(Codex)가 세 가지 역할을 한다. 첫째, MCP를 통해 사용자가 AI 데이터 에이전트에 접근하는 게이트웨이이며, 둘째, 전체 코드의 70% 이상을 생성해 두 엔지니어가 3개월 내 출시하도록 했다. 셋째, 핵심은 매일 비동기로 파이프라인 코드를 읽고 테이블의 상·하류 의존성, 소유자, 세분성, 조인 키, 유사 테이블을 추론해 메타데이터로 영속화하는 ‘Codex Enrichment’다. 이후 에이전트는 벡터 DB를 검색해 ‘매출’ 같은 개념과 사전 매핑된 테이블을 우선 추천한다. 컨텍스트는 스키마 메타와 전문가 설명, 슬랙·구글 문서·노션의 조직 지식, 대화 교정 학습 메모리 등 여섯 레이어로 구성되며, 히스토리에서는 표준 대시보드·임원 리포트를 ‘단일 진실 소스’로 승격하고, 도움이 적은 범용 쿼리는 하향 반영한다. 선행 정보가 없을 땐 창고 라이브 질의로 폴백한다.

과신을 줄이는 프롬프트와 투명한 인터랙션

모델의 과신은 대표적 함정이었다. 초기에는 “이 테이블이 맞다”는 확신으로 바로 분석을 시작해 오류가 났다. 팀은 ‘발견 단계에 머무르며 후보를 더 모으고 비교·검증하라’는 프롬프트로 속도를 의도적으로 늦춰 정확도를 높였다. 또한 무조건 많은 컨텍스트가 성능을 올리지 않음을 평가를 통해 확인했고, 적고 정확한 맥락이 더 낫다는 원칙을 세웠다. 신뢰를 위해 중간 추론을 실시간 스트리밍하고, 선택한 테이블과 이유, 원본 쿼리 결과 링크를 노출한다. 사용자는 중도 개입해 경로를 수정할 수 있고, 체크포인트로 실패 후 재개가 가능하다. 작업 종료 후에는 모델이 스스로 성과를 평가한다.

단순하지만 효과적인 가드레일

정교한 정렬 기법보다 강력하고 단순한 접근 제어가 핵심이다. 항상 개인 토큰으로 호출해 개인 권한 범위만 접근하며, 퍼블릭 채널이 아닌 개인·프라이빗 공간에서만 동작한다. 쓰기 권한은 주기적으로 초기화되는 임시 테스트 스키마로 제한하고, 운영 시스템 임의 쓰기는 차단했다. 사용자의 오피니언·신고와 모델의 자가 평가로 피드백 루프를 닫고, 장기적으로는 특화 에이전트들이 상호 모니터링하는 멀티 에이전트 아키텍처로 확장할 계획이다.

제품화 대신 ‘누구나 구축’ 전략과 생태계

오픈AI는 사내 도구를 제품화하지 않을 것이며, 대신 외부에 공개된 API로 누구나 자체 AI 데이터 에이전트를 만들 수 있다고 밝힌다. Responses API, Evals API, 파인튜닝 없이 5.2 모델을 사용했다는 점도 동일하다. 기업용 에이전트 플랫폼 ‘OpenAI Frontier’와 컨설팅 파트너십(맥킨지, BCG, 액센츄어, 캡제미니), AWS와의 Bedrock 상태 보존 런타임 협력, 애플의 Xcode 내 Codex 통합 등 생태계 확장도 병행된다. 사내에서는 엔지니어 95%가 Codex를 사용하고 모든 PR을 사전 리뷰하며, 주간 활성 사용자가 3배 이상 증가했다. 비개발 부서도 코덱스를 아이디어 정리, 슬라이드, 일일 요약, 메시지 초안 작성 등 범용 업무 도우미로 활용한다.

승패를 가르는 전제 조건: 데이터 거버넌스

성공의 관건은 모델 성능보다 데이터 거버넌스다. 깨끗하게 정리·주석화된 데이터, 에이전트가 크롤링할 공신력 있는 진실 소스가 필요하다. 저장·연산·오케스트레이션·BI 등 기존 인프라는 여전히 필수이며, AI 데이터 에이전트는 이 층위를 대체하지 않고 더 자율적이고 접근 가능한 새로운 진입점을 제공한다. 도입 기업은 빠르게 이득을 얻을 것이고, 머뭇거리는 기업은 격차가 벌어질 것이라는 경고도 덧붙였다.

구축을 앞둔 기업을 위한 AI 데이터 에이전트 체크리스트

데이터 계보·의존성 자동화(Codex 등)와 메타데이터 카탈로그 정비, 개인 권한 기반 접근 제어와 임시 쓰기 격리, 표준 대시보드의 진실 소스 지정, 발견 단계 지연·검증을 강제하는 프롬프트, 중간 추론 스트리밍과 근거 노출, 평가·휴리스틱을 갖춘 오프라인/온라인 에벌 체계, 부서별 컨텍스트 큐레이션과 전사 통합 전략을 준비하라. 이를 토대로 AI 데이터 에이전트를 도입하면 지식 노동의 병목을 신속히 해소할 수 있다.

최신기사

엔도어 랩스, AI 코드 보안 도구 ‘AURI’ 공개…AI 생성 코드 10%만 안전

해고 대란이 부른 ‘생존형 창업’: 2026년 기업가 시대의 서막

구글, Gemini 3.1 Flash-Lite 공개: Pro 대비 1/8 비용·즉시 응답 강화

OpenAI GPT-5.3 Instant, 환각 26.8% 감축…정확성·대화 신뢰성 강화

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작