leangnews
Command Palette
Search for a command to run...
2025년 11월 26일 09:03
마이크로소프트 Fara-7B, PC에서 직접 실행되는 컴퓨터 사용 에이전트
기사 요약
- 마이크로소프트가 70억 매개변수의 Fara-7B를 공개해, 대형 클라우드 모델 없이도 로컬에서 복잡한 업무를 처리하는 컴퓨터 사용 에이전트(CUA)를 제시했습니다.
- 스크린샷 기반의 픽셀 수준 인식으로 접근성 트리에 의존하지 않으며, WebVoyager에서 73.5% 성공률로 GPT-4o와 UI-TARS-1.5-7B를 앞섰고 평균 수행 단계도 크게 줄였습니다.
- 크리티컬 포인트 승인, Magentic-UI 연동, 지식 증류 및 합성 데이터 학습을 통해 안전성과 효율을 높였으며, MIT 라이선스로 공개됐지만 아직 생산 환경 투입은 권장되지 않습니다.
개요: 마이크로소프트 Fara-7B 컴퓨터 사용 에이전트
마이크로소프트는 70억 매개변수의 Fara-7B를 공개했습니다. 이 모델은 사용자의 PC에서 직접 복잡한 작업을 자동화하는 컴퓨터 사용 에이전트(CUA)로 설계되어, 낮은 지연시간과 강화된 프라이버시를 제공하며 대형 클라우드 의존도를 낮춥니다. 특히 엔터프라이즈 도입의 핵심 장벽인 데이터 보안을 겨냥해, 내부 계정 관리나 민감 데이터 처리 같은 워크플로우를 기기 내에서 안전하게 실행하도록 합니다.
Fara-7B가 웹을 보는 방법: 픽셀 기반 상호작용
Fara-7B는 사람과 같은 도구(마우스·키보드)로 UI를 조작합니다. 스크린샷을 통해 페이지를 시각적으로 인지하고, 클릭·입력·스크롤에 필요한 좌표를 예측합니다. 접근성 트리에 의존하지 않고 픽셀 단서만으로 동작해, 웹 코드가 난독화됐거나 복잡해도 상호작용할 수 있습니다. 모든 시각 입력을 온디바이스에서 처리해 스크린샷과 추론이 기기 밖으로 나가지 않는 ‘픽셀 주권’을 구현하며, 이는 HIPAA와 GLBA 같은 규제 요건 충족에도 도움이 됩니다.
벤치마크와 효율: GPT-4o 대비 성과
표준 벤치마크인 WebVoyager에서 Fara-7B는 73.5%의 과제 성공률을 기록해, 컴퓨터 사용 에이전트로 프롬프트된 GPT-4o(65.1%)와 UI-TARS-1.5-7B(66.4%)를 앞섰습니다. 또한 평균 약 16단계로 작업을 완료해, 약 41단계가 필요한 UI-TARS-1.5-7B 대비 효율을 크게 개선했습니다. 비용 대비 정확도 측면에서도 Fara-7B가 유리한 트레이드오프를 보여줍니다.
보안·컴플라이언스와 ‘픽셀 주권’
Fara-7B의 온디바이스 처리 아키텍처는 민감한 정보가 기기를 벗어나지 않도록 설계되어, 엔터프라이즈 환경에서 요구되는 강력한 데이터 보호 기준을 뒷받침합니다. 이는 규제 산업에서의 사용성을 높이고, 프라이버시와 운영 효율을 동시에 만족시키는 기반이 됩니다.
위험 완화: 크리티컬 포인트와 Magentic-UI
자율 에이전트 전환에는 환각, 복잡 지시 오해, 난도 높은 과제에서의 정확도 저하 같은 위험이 따릅니다. 이를 줄이기 위해 모델은 되돌릴 수 없는 행동(이메일 발송, 금융 거래 완료 등) 전에 사용자 데이터나 동의를 요구하는 ‘크리티컬 포인트’를 인지하도록 학습됐습니다. 해당 순간 Fara-7B는 진행을 일시 중지하고 명시적 승인을 요청하며, Microsoft Research의 Magentic-UI와 결합해 개입 기회를 제공하면서도 ‘승인 피로’를 줄이는 상호작용을 목표로 합니다.
지식 증류와 합성 데이터: Magentic-One에서 Fara-7B로
웹 내비게이션 학습에는 방대한 데이터가 필요하므로, 인력 라벨링 대신 멀티에이전트 프레임워크 Magentic-One을 활용한 합성 데이터 파이프라인을 구축했습니다. 오케스트레이터가 계획을 세우고 WebSurfer가 웹을 탐색해 14만5천 건의 성공 궤적을 생성했으며, 이를 Fara-7B에 ‘증류’했습니다. 베이스로는 긴 컨텍스트 윈도우(최대 128,000 토큰)와 강한 시각-텍스트 연결 능력을 가진 Qwen2.5-VL-7B를採用했고, 지도 미세조정으로 합성 파이프라인의 성공 사례를 모사하도록 학습했습니다. 런타임에서는 단일 모델로 동작해 복잡한 스캐폴딩 없이도 고급 행동을 수행합니다.
향후 계획과 이용 가능성
향후 버전은 크기를 키우기보다 ‘더 똑똑하고 안전한’ 방향으로 진화할 예정이며, 샌드박스된 실환경에서의 강화학습(RL)을 통해 실시간 시행착오 학습을 탐색합니다. 모델은 MIT 라이선스로 Hugging Face와 Microsoft Foundry에서 제공되며, 상업적 사용이 가능하지만 아직 생산 단계 투입에는 이르지 못했습니다. 현재로서는 파일럿과 PoC에 Fara-7B를 적용해 실험·프로토타입을 진행하는 것이 권장됩니다.