번역 - 르앙뉴스

메타 ARE와 Gaia2: 실세계 적응성까지 검증하는 에이전트 평가

2025년 09월 26일 로 박민찬

기사 요약 메타가 오픈소스 평가 플랫폼 ARE와 새로운 Gaia2 벤치마크를 공개해 에이전트의 실세계 적응성을 검증한다. Gaia2 벤치마크는 비동기 환경에서 기한 준수, API 실패 대응, 불명확 지시 해소 등 강건성을 측정한다. Yourbench·MCPEval·Inclusion Arena와 비교해 Gaia2는 적응성과 노이즈 처리에 초점을 맞춘 것이 특징이다. ARE와 Gaia2가 해결하려는 문제 에이전트 평가의 난점은 실제 환경에서의 성능을 어떻게 계량화하느냐에 있다. 메타는 … Read more

텐센트 Parallel-R1, LLM에 ‘병렬 사고’를 학습시키는 RL 기법

2025년 09월 26일 로 박민찬

기사 요약 텐센트 AI Lab 시애틀과 메릴랜드대 연구진은 LLM이 추론 시간 스케일링을 더 효과적으로 쓰도록 돕는 강화학습 기법 Parallel-R1을 공개했다. 이 기법은 콜드스타트 데이터로 형식을 익히고 쉬운 수학 RL의 보상 교대 전략을 거쳐 일반 수학 RL로 병렬 분기-요약 능력을 안정화·일반화한다. Qwen-3-4B-Base를 AIME·AMC·MATH 등에서 평가한 결과 표준 RL 대비 일관된 향상을 보였으며, 기업 현장에 효율적 추론 … Read more

Brex·Puzzle 통합, 스타트업 회계를 원클릭으로 끝낸다

2025년 09월 26일 로 박민찬

기사 요약 Brex가 AI 회계 플랫폼 퍼즐과 손잡고 스타트업의 회계 초기 설정을 원클릭으로 자동화했다. API 기반 실시간 동기화와 메타데이터, AI 분석 모드로 분개, 규정 준수, 리포팅을 즉시 지원한다. 양사는 창업자 성공을 핵심 전략으로 삼고 금융 운영체제 비전을 가속하며 VC 생태계의 실사 부담 완화를 노린다. Brex–Puzzle 통합이 여는 원클릭 회계 설정 Brex와 AI 회계 플랫폼 Puzzle이 … Read more

마이크로소프트, 기술 부채 해소 겨냥한 자율형 AI 에이전트·현대화 서비스 공개

2025년 09월 25일 로 박민찬

기사 요약 마이크로소프트가 GitHub Copilot에 자율형 AI 에이전트를 추가하고 Azure Migrate의 에이전트형 기능과 Azure Accelerate를 발표해 레거시 Java·.NET 애플리케이션 현대화를 자동화했다. 이는 기업의 기술 부채를 줄여 AI 도입 병목을 해소하려는 전략으로, Xbox 사례에서 수작업 마이그레이션을 88% 줄이고 고객당 연간 평균 90만2천 달러의 가치를 입증했다. Java·.NET 중심의 차별화로 구글·AWS와 경쟁하며, Copilot 현대화 기능은 GA, Azure Migrate의 … Read more

Intuit, 맞춤형 금융 LLM으로 지연 50% 단축·거래 분류 정확도 90%

2025년 09월 25일 로 박민찬

기사 요약 Intuit가 GenOS를 업그레이드해 도메인 특화 금융 LLM, 전문가 개입, 고급 에이전트 평가 프레임워크를 공개했다. 새 금융 LLM은 거래 분류 정확도 90%를 달성하고 범용 모델 대비 지연을 50% 줄여, 대규모 비용 절감과 사용자 경험 개선을 이끌었다. 의미론적 이해 강화, 감독학습·가드레일 결합, 의사결정 효율성까지 측정하는 평가 체계가 엔터프라이즈 AI에 실질적 시사점을 제공한다. GenOS 업그레이드 한눈에: … Read more

엔터프라이즈용 Grok 4 Fast: 성능·비용·도입 가이드

2025년 09월 25일 로 박민찬

기사 요약 xAI의 새 모델은 최첨단 추론 성능에 근접하면서도 토큰 사용과 비용을 크게 줄여 대규모 업무에 적합합니다. 2M 토큰 컨텍스트, 통합 추론/비추론 모드, 공격적인 요금제와 고정 안전 프롬프트 정책이 특징입니다. 다만 거부·컴플라이언스, 지연·안정성, 에이전트 리스크 등은 사내 평가·통제와 함께 신중히 검증해야 합니다. 개요 매주 쏟아지는 AI 소식 속에서 주목할 만한 진전을 고르기 어렵지만, xAI가 공개한 … Read more

FICO, AI 리스크에 답하다: 트러스트 스코어와 금융 특화 기초 모델

2025년 09월 25일 로 박민찬

기사 요약 신용평가로 유명한 FICO가 금융 규제 환경을 겨냥해 자체 기초 모델 FICO FLM·FSM을 공개했다. FICO 트러스트 스코어는 응답의 근거·정확·준법성을 점수화해 가드레일로 작동하며, 지식 앵커와 고객 데이터 통합을 지원한다. 두 모델은 소형 파라미터로 도메인 특화 성능과 에이전트화 가능성을 높였고, 사기 탐지·언더라이팅·컴플라이언스에 최적화됐다. FICO, 금융 서비스 신뢰를 위한 기초 모델 공개 신용점수로 잘 알려진 FICO가 수년간의 … Read more

애플 EPICACHE: 대화형 AI 메모리 6배 절감 혁신

2025년 09월 25일 로 박민찬

기사 요약 애플 연구진이 EPICACHE로 장기 대화형 AI의 메모리 사용을 최대 6배 줄여 컨텍스트 유지 비용을 대폭 낮췄다. 주제별 에피소드 분할과 KV 캐시 압축·블록 단위 프리필로 정확도 최대 40% 향상, 지연 2.4배·메모리 3.5배 절감 효과를 입증했다. 의미 기반 클러스터링과 계층별 메모리 예산 배분을 포함한 무학습 설계로 엔터프라이즈 챗봇·어시스턴트에 즉시 적용 가능하다. 장기 대화형 AI의 최대 … Read more

브라이언 이노가 수십 년 앞서 본 AI 창의 역학과 프롬프트 엔지니어링

2025년 09월 24일 로 박민찬

기사 요약 1975년 브라이언 이노와 피터 슈미트의 오블리크 스트래티지는 오늘의 프롬프트 엔지니어링을 예견한 창의 시스템의 원형으로 제시된다. 카드가 먼저였다: 오블리크 스트래티지와 프롬프트의 기원 1975년, 아직 누구도 “프롬프트 엔지니어링”을 입에 올리지 않던 시절 브라이언 이노와 피터 슈미트는 오블리크 스트래티지라는 카드 덱을 만들었다. 소프트웨어도, 기계도 아닌 이 카드는 짧고 수수께끼 같은 지시문으로 예술가의 막힘을 푸는 장치였고, 소량의 … Read more

무디스, 모듈형 에이전틱 AI로 신용메모 40시간→2분

2025년 09월 24일 로 박민찬

기사 요약 무디스가 ‘Agentic Solutions’를 공개해 금융·리스크·전략 워크플로를 자동화하고 신용심사 메모 작성을 40시간에서 2분으로 단축했다. 모듈형 AI 에이전트, 모델 불가지론 전략, 방대한 고유 데이터와 그라운딩을 결합해 정확도와 규정 준수를 확보했다. 이 접근법은 규제 산업 기업에 유효한 청사진으로, 강점이 있는 워크플로부터 작게 시작해 단계적으로 확장할 것을 제안한다. 무디스, 에이전틱 AI로 신용메모 40시간을 2분으로 무디스는 신용평가와 데이터 … Read more