2025년 11월 11일 09:00

Terminal-Bench 2.0·Harbor 공개, 컨테이너 에이전트 평가 표준

기사 요약

Terminal-Bench 2.0과 컨테이너 기반 프레임워크 Harbor가 동시 공개되며 자율 에이전트 벤치마크 표준을 재정의했다.
89개 과제로 재설계된 Terminal-Bench 2.0은 검증을 강화해 재현성과 난이도를 높였고, Harbor는 수천 개 클라우드 컨테이너에서 평가를 확장한다.
초기 리더보드에선 GPT-5 기반 Codex CLI가 49.6%로 1위를 기록했으며, 간단한 CLI로 제출과 검증이 가능하다.

출시 개요: Terminal-Bench 2.0과 Harbor

자율 AI 에이전트를 실제 터미널 작업으로 평가하는 벤치마크인 Terminal-Bench 2.0이 테스트·개선·최적화를 위한 컨테이너 프레임워크 Harbor와 함께 공개됐다. 이 이중 릴리스는 현실적인 개발자 환경에서 자율적으로 동작하는 에이전트의 테스트 난제를 해결하고, 표준화된 평가 인프라를 제공하는 데 초점을 맞춘다. Terminal-Bench 2.0은 더 어려우면서도 엄격히 검증된 과제 세트를 통해 1.0을 대체하는 새로운 기준으로 자리 잡는다.

TB1.0의 한계와 2.0의 개선

2025년 5월 공개된 Terminal-Bench 1.0은 빠르게 채택됐지만, 광범위한 범위 탓에 일부 과제가 외부 서비스 변경으로 불안정하거나 명세가 모호하다는 지적이 있었다. Terminal-Bench 2.0은 총 89개 과제를 수시간의 수작업 및 LLM 보조 검증으로 다듬어, 해결 가능성과 현실성, 명확한 요구사항을 강화했다. 불안정한 서드파티 API에 의존하던 download-youtube 과제는 제거되거나 재구성됐다. 공동 제작자 알렉스 쇼는 X에서 “TB2.0이 더 어렵지만 SOTA 성능은 TB1.0과 유사해 보인다”며 “과제 품질이 크게 향상됐기 때문”이라고 설명했다.

Harbor: 컨테이너 기반 대규모 롤아웃

Harbor는 클라우드에 배포된 컨테이너에서 에이전트를 실행·평가하는 런타임 프레임워크로, Daytona와 Modal 등 주요 제공자와 호환된다. 컨테이너에 설치 가능한 어떤 에이전트든 평가할 수 있으며, 대규모 SFT·RL 파이프라인, 커스텀 벤치마크 생성·배포, Terminal-Bench 2.0과의 완전 통합을 지원한다. 팀은 Terminal-Bench 2.0 제작 과정에서 Harbor로 수만 건의 롤아웃을 수행했으며, 현재 harborframework.com을 통해 공개 문서와 퍼블릭 리더보드 제출 가이드를 제공한다.

초기 결과: 리더보드 현황

Terminal-Bench 2.0 리더보드 초기 결과에서 OpenAI의 GPT-5 기반 Codex CLI가 49.6% 성공률로 선두를 기록했다. 뒤이어 다른 GPT-5 변형과 Claude Sonnet 4.5 기반 에이전트가 근소한 격차로 추격하고 있으며, 어떤 에이전트도 전체 과제의 절반을 넘기진 못했다. 상위 5위는 Codex CLI (GPT-5) 49.6%, Codex CLI (GPT-5-Codex) 44.3%, OpenHands (GPT-5) 43.8%, Terminus 2 (GPT-5-Codex) 43.4%, Terminus 2 (Claude Sonnet 4.5) 42.8%다.

제출 및 활용: 간단한 CLI로 시작

사용자는 Harbor를 설치한 뒤 간단한 명령으로 Terminal-Bench 2.0을 실행·제출할 수 있다. 리더보드 제출에는 5회 벤치마크 실행이 필요하며, 결과와 작업 디렉터리를 개발팀에 이메일로 전달해 검증받는다. 예시: harbor run -d terminal-bench@2.0 -m "" -a "" --n-attempts 5 --jobs-dir . Terminal-Bench 2.0은 에이전틱 리저닝, 코드 생성, 도구 활용 연구 워크플로우에 이미 통합되고 있으며, 공동 제작자이자 스탠퍼드 박사후 연구원인 마이크 메릴은 검증 절차와 설계 방법론을 다룬 프리프린트를 준비 중이다.

표준화를 향해: 평가 스택의 토대

Terminal-Bench 2.0과 Harbor의 동시 공개는 일관되고 확장 가능한 에이전트 평가 인프라로 가는 중요한 진전이다. LLM 에이전트가 개발 및 운영 현장에 확산되면서 통제되고 재현 가능한 테스트가 필수가 되었고, 두 도구는 모델 개선, 환경 시뮬레이션, 벤치마크 표준화를 아우르는 통합 평가 스택의 기반을 제공한다. Terminal-Bench 2.0은 이러한 표준화의 중심 축으로, Harbor는 컨테이너 운영과 대규모 확장을 책임지는 실행 계층으로 자리매김한다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다