leangnews
Command Palette
Search for a command to run...
2025년 11월 11일 09:00
Terminal-Bench 2.0·Harbor 공개, 컨테이너 에이전트 평가 표준
기사 요약
- Terminal-Bench 2.0과 컨테이너 기반 프레임워크 Harbor가 동시 공개되며 자율 에이전트 벤치마크 표준을 재정의했다.
- 89개 과제로 재설계된 Terminal-Bench 2.0은 검증을 강화해 재현성과 난이도를 높였고, Harbor는 수천 개 클라우드 컨테이너에서 평가를 확장한다.
- 초기 리더보드에선 GPT-5 기반 Codex CLI가 49.6%로 1위를 기록했으며, 간단한 CLI로 제출과 검증이 가능하다.
출시 개요: Terminal-Bench 2.0과 Harbor
자율 AI 에이전트를 실제 터미널 작업으로 평가하는 벤치마크인 Terminal-Bench 2.0이 테스트·개선·최적화를 위한 컨테이너 프레임워크 Harbor와 함께 공개됐다. 이 이중 릴리스는 현실적인 개발자 환경에서 자율적으로 동작하는 에이전트의 테스트 난제를 해결하고, 표준화된 평가 인프라를 제공하는 데 초점을 맞춘다. Terminal-Bench 2.0은 더 어려우면서도 엄격히 검증된 과제 세트를 통해 1.0을 대체하는 새로운 기준으로 자리 잡는다.
TB1.0의 한계와 2.0의 개선
2025년 5월 공개된 Terminal-Bench 1.0은 빠르게 채택됐지만, 광범위한 범위 탓에 일부 과제가 외부 서비스 변경으로 불안정하거나 명세가 모호하다는 지적이 있었다. Terminal-Bench 2.0은 총 89개 과제를 수시간의 수작업 및 LLM 보조 검증으로 다듬어, 해결 가능성과 현실성, 명확한 요구사항을 강화했다. 불안정한 서드파티 API에 의존하던 download-youtube 과제는 제거되거나 재구성됐다. 공동 제작자 알렉스 쇼는 X에서 “TB2.0이 더 어렵지만 SOTA 성능은 TB1.0과 유사해 보인다”며 “과제 품질이 크게 향상됐기 때문”이라고 설명했다.
Harbor: 컨테이너 기반 대규모 롤아웃
Harbor는 클라우드에 배포된 컨테이너에서 에이전트를 실행·평가하는 런타임 프레임워크로, Daytona와 Modal 등 주요 제공자와 호환된다. 컨테이너에 설치 가능한 어떤 에이전트든 평가할 수 있으며, 대규모 SFT·RL 파이프라인, 커스텀 벤치마크 생성·배포, Terminal-Bench 2.0과의 완전 통합을 지원한다. 팀은 Terminal-Bench 2.0 제작 과정에서 Harbor로 수만 건의 롤아웃을 수행했으며, 현재 harborframework.com을 통해 공개 문서와 퍼블릭 리더보드 제출 가이드를 제공한다.
초기 결과: 리더보드 현황
Terminal-Bench 2.0 리더보드 초기 결과에서 OpenAI의 GPT-5 기반 Codex CLI가 49.6% 성공률로 선두를 기록했다. 뒤이어 다른 GPT-5 변형과 Claude Sonnet 4.5 기반 에이전트가 근소한 격차로 추격하고 있으며, 어떤 에이전트도 전체 과제의 절반을 넘기진 못했다. 상위 5위는 Codex CLI (GPT-5) 49.6%, Codex CLI (GPT-5-Codex) 44.3%, OpenHands (GPT-5) 43.8%, Terminus 2 (GPT-5-Codex) 43.4%, Terminus 2 (Claude Sonnet 4.5) 42.8%다.
제출 및 활용: 간단한 CLI로 시작
사용자는 Harbor를 설치한 뒤 간단한 명령으로 Terminal-Bench 2.0을 실행·제출할 수 있다. 리더보드 제출에는 5회 벤치마크 실행이 필요하며, 결과와 작업 디렉터리를 개발팀에 이메일로 전달해 검증받는다. 예시: harbor run -d terminal-bench@2.0 -m "
표준화를 향해: 평가 스택의 토대
Terminal-Bench 2.0과 Harbor의 동시 공개는 일관되고 확장 가능한 에이전트 평가 인프라로 가는 중요한 진전이다. LLM 에이전트가 개발 및 운영 현장에 확산되면서 통제되고 재현 가능한 테스트가 필수가 되었고, 두 도구는 모델 개선, 환경 시뮬레이션, 벤치마크 표준화를 아우르는 통합 평가 스택의 기반을 제공한다. Terminal-Bench 2.0은 이러한 표준화의 중심 축으로, Harbor는 컨테이너 운영과 대규모 확장을 책임지는 실행 계층으로 자리매김한다.