메타 ARE와 Gaia2: 실세계 적응성까지 검증하는 에이전트 평가
기사 요약 메타가 오픈소스 평가 플랫폼 ARE와 새로운 Gaia2 벤치마크를 공개해 에이전트의 실세계 적응성을 검증한다. Gaia2 벤치마크는 비동기 환경에서 기한 준수, API 실패 대응, 불명확 지시 해소 등 강건성을 측정한다. Yourbench·MCPEval·Inclusion Arena와 비교해 Gaia2는 적응성과 노이즈 처리에 초점을 맞춘 것이 특징이다. ARE와 Gaia2가 해결하려는 문제 에이전트 평가의 난점은 실제 환경에서의 성능을 어떻게 계량화하느냐에 있다. 메타는 … Read more