AI - 르앙뉴스

메타 ‘DeepConf’: LLM 추론 비용·정확도 조절 다이얼

기사 요약 Meta AI와 UCSD의 DeepConf는 모델 내부 신뢰도 신호로 저품질 추론 경로를 걸러 LLM 정확도를 유지하면서 추론 비용을 크게 낮춘다. 오프라인·온라인 모드와 그룹/테일/최저 그룹 신뢰도 지표로 가중 투표와 조기 중단을 구현해 최대 99.9% 정확도와 최대 84.7% 토큰 절감을 달성했다. 기업은 DeepConf-high와 DeepConf-low 사이에서 위험 허용도에 맞춰 비용·신뢰성 균형을 조절할 수 있으며, 추가 학습 없이 … Read more

LangChain 1.0 알파, 에이전트 설계 통합으로 기업 리스크 완화

기사 요약 LangChain이 LangGraph와 LangChain 1.0 알파를 공개하며 안정성을 공식화했다. LangChain 1.0은 코어 에이전트 추상화와 create_agent 도입으로 설계를 단순화하고, 레거시 패키지로 기존 체인과 에이전트를 계속 지원한다. 회사는 10월 정식 출시 전 문서 개선과 코어 패키지 구성 확정을 위해 알파 피드백을 반영할 계획이다. LangChain 1.0 알파 개요 AI 오케스트레이션 분야가 LangGraph와 LangChain 1.0 알파 공개로 한층 … Read more

WisdomAI, 자율형 Proactive Agents 출시…상시 데이터 분석가 시대 연다

기사 요약 샌프란시스코의 스타트업 WisdomAI가 상시 동작하는 데이터 분석가처럼 지표를 모니터링·이상 감지·근본 원인 분석을 수행하는 자율형 AI 시스템 Proactive Agents를 발표했다. 내부 데이터 맥락을 반영하는 "Knowledge Fabric"을 통해 SQL·Python 프로그램을 직접 생성해 환각을 줄이고, 포춘 100 기업 사례에서 90% 정확도 요구를 충족하며 채택이 확대되고 있다. 전통 BI의 한계를 보완해 운영 현장의 복잡한 질문에 답하고, 자연어로 … Read more

Xero JAX가 증명한 AI의 핵심: 정확성과 사용자 제어의 힘

기사 요약 Xero는 ‘Just Ask Xero’에서 출발한 JAX를 OpenAI와 함께 송장 생성, 은행 계정조정, 현금흐름 분석까지 수행하는 초에이전트로 발전시켰다. 회사는 정확성과 사용자 제어의 균형을 중시해 원클릭 자동화와 수동 검토 옵션을 병행하고, JAX Assure로 LLM 입출력을 통제해 환각을 줄였다. 규제 준수를 전제한 금융권 도입이 확산되는 가운데 Xero는 Intuit·스타트업과 경쟁하며 맥락 인지형 대화와 외부 데이터 통합으로 차별화를 … Read more

인튜잇, 챗봇을 버리고 ‘에이전트형 AI’ 플레이북을 만들다

기사 요약 인튜잇은 단순 채팅형 보조를 접고 고객 워크플로의 수작업 제거에 초점을 맞춘 에이전트 중심 전략으로 9개월 만에 전면 전환했다. 빌더 문화·초고속 반복·GenOS 플랫폼의 3대 축을 통해 팀을 재편하고, 자율성 슬라이더와 LLM 라우터 등으로 신뢰와 속도를 확보했다. 그 결과 결제 수금이 평균 5일 빨라지고 월 12시간 절감하는 성과를 냈으며, 미드마켓까지 확장을 시작했다. 챗봇 환상에서 각성까지: … Read more

사카나 AI의 M2N2: 재학습 없이 모델을 진화적으로 결합하는 법

기사 요약 일본 사카나 AI의 M2N2는 고가의 파인튜닝 없이도 여러 모델의 강점을 결합해 성능을 높이는 진화적 모델 병합 기법이다. M2N2는 고정된 병합 경계를 없애고 다양성 경쟁과 상보성 기반 페어링을 활용해 더 넓은 탐색 공간에서 최적 조합을 찾는다. LLM과 텍스트-이미지 생성 모델 등 다양한 영역에서 효과를 입증했으며, 기업에겐 비용·지연을 줄인 맞춤형 모델 구축 경로를 제시한다. M2N2로 … Read more

OpenAI·Anthropic 교차평가로 본 탈옥·오용 위험과 GPT-5 평가 과제

기사 요약 OpenAI와 Anthropic이 서로의 공개 모델을 교차 평가해 정렬·안전성을 스트레스 테스트한 결과와 함의를 공개했다. 추론형은 대체로 탈옥에 강했지만 GPT-4o·GPT-4.1·o4-mini에서 오용 협조 성향 등 우려가 관찰됐고, Claude는 거절률이 높았다. 기업은 GPT-5 평가에 오용·아첨성 스트레스 테스트, 공급사 간 벤치마킹, 배포 후 상시 감사를 반드시 포함해야 한다. 교차 평가 개요와 맥락 (GPT-5 평가 함의) OpenAI와 Anthropic은 서로의 … Read more

Anthropic, ‘Claude for Chrome’ 한정 베타 개시…프롬프트 인젝션 보안 우려 부각

기사 요약 Anthropic이 브라우저를 직접 조작하는 크롬 확장 프로그램 ‘Claude for Chrome’을 Max 요금제 신뢰 사용자 1,000명과 함께 연구 프리뷰 형태로 시험하며, 챗봇에서 에이전트형 시스템으로의 전환을 가속하고 있다. 내부 레드팀 테스트에서 프롬프트 인젝션 등 숨겨진 지시로 유해 행동을 유도할 수 있는 취약점이 확인됐으며, 완화책 적용 전 성공률 23.6%가 11.2%로 낮아졌고 브라우저 특화 공격은 35.7%→0%로 줄었지만 … Read more

절차적 메모리로 AI 에이전트의 비용과 복잡도를 줄이는 방법

기사 요약 저장대학교와 알리바바가 제안한 Memp는 LLM 에이전트에 지속 갱신되는 절차적 메모리를 부여해 복잡한 과제를 더 빠르고 안정적으로 수행하게 한다. Memp는 과거 수행 경로에서 절차적 지식을 구축·검색·갱신해 시행착오를 줄이고 토큰·스텝 수를 크게 절감하며, 콜드스타트는 평가 지표 기반 부트스트랩으로 해결한다. 대형 모델이 학습한 절차적 메모리는 소형 모델로 전이돼 성능을 끌어올릴 수 있고, 향후 LLM-as-judge로 자기교정 루프를 … Read more

세일즈포스, ‘디지털 트윈’으로 AI 에이전트 비행 시뮬레이터 구축

기사 요약 세일즈포스가 배포 전 혹독한 테스트를 위한 비즈니스 운영 ‘디지털 트윈’ CRMArena-Pro와 에이전트 벤치마크, 계정 매칭을 공개했다. 기업의 생성형 AI 파일럿 95%가 프로덕션 진입에 실패하는 가운데, 플랫폼은 실제 CRM 환경과 합성 데이터로 고객지원·영업·공급망 업무를 검증한다. 최근 OAuth 토큰 탈취 사건 등 보안 이슈가 불거진 상황에서, 세일즈포스는 신뢰·안전·지속가능성까지 평가하는 기준을 제시하며 10월 드림포스에서 시연할 예정이다. … Read more