leangnews
Command Palette
Search for a command to run...
2025년 12월 03일 15:02
OpenAI·Anthropic 능가 주장, 오픈AGI ‘Lux’ 컴퓨터 제어 AI 에이전트 공개
기사 요약
- MIT 연구자가 창업한 오픈AGI가 ‘Lux’를 공개하며 Online-Mind2Web에서 83.6%를 기록, OpenAI Operator(61.3%), Claude Computer Use(56.3%)를 앞섰다고 발표했다.
- Lux는 스크린샷과 행동 시퀀스로 학습하는 Agentic Active Pre-training으로 텍스트가 아닌 ‘행동’을 생성하며, 비용은 선도 모델 대비 약 1/10이라고 주장한다.
- 브라우저를 넘어 Slack·Excel 등 데스크톱 앱 제어, 인텔과의 엣지 최적화, 안전장치 내장을 내세우지만 실제 업무 환경에서의 신뢰성 검증이 핵심 과제로 남는다.
오픈AGI ‘Lux’ 출시 개요
Online-Mind2Web 성과와 경쟁 비교
오픈AGI는 컴퓨터 제어 AI 에이전트 ‘Lux’를 공개하며 업계 표준으로 떠오른 Online-Mind2Web 벤치마크에서 83.6% 성공률을 기록했다고 밝혔다. 이는 OpenAI의 Operator(61.3%), Anthropic의 Claude Computer Use(56.3%)보다 높다는 설명이다. 해당 리더보드는 허깅페이스 공개 보드로 관리되며, 실제 웹 페이지의 동적 변화와 예측 불가 상황에서 에이전트를 평가한다.
왜 중요한가: 마케팅과 실제 성능의 간극
Ohio State University와 UC Berkeley 연구진이 설계한 이 벤치마크는 캐시된 페이지 대신 라이브 환경에서 136개 실서비스, 300개 과제를 테스트한다. 연구진은 상용 웹 에이전트 다수를 정밀 평가한 결과, 기대만큼 성숙하지 않았다고 보고했다. 그 맥락에서 Lux의 수치가 주목받지만, 벤치마크 우위가 즉시 실사용 우수성으로 이어진다고 단정하긴 이르다.
Lux의 기술 접근: 행동을 학습하는 컴퓨터 제어 AI 에이전트
텍스트 생성이 아닌 액션 생성
일반 LLM은 방대한 텍스트로 다음 단어 예측을 학습하지만, Lux는 스크린샷과 클릭·키 입력 등 행동 시퀀스를 함께 학습해 목표 달성에 필요한 조작을 계획·실행한다. 컴퓨터 제어 AI 에이전트로서 화면 요소를 해석하고 적절한 내비게이션을 결정하는 데 최적화됐다.
Agentic Active Pre-training과 자기 강화 루프
오픈AGI는 ‘Agentic Active Pre-training’으로 모델이 스스로 환경을 탐색하며 새 데이터를 생성하고, 이를 다시 학습에 반영하는 자기 강화형 루프를 강조한다. 이 접근은 대규모 정적 말뭉치에 덜 의존하면서도 성능 개선을 도모하고, 추론 비용 역시 선도 모델 대비 약 1/10 수준이라고 주장한다.
브라우저 밖으로: 데스크톱 앱 제어와 생태계
Slack·Excel 등 네이티브 앱 제어와 SDK
많은 제품이 브라우저 작업에 집중한 것과 달리, Lux는 Slack, Microsoft Excel, Adobe 제품군, 개발 IDE 등 데스크톱 애플리케이션까지 제어 가능한 컴퓨터 제어 AI 에이전트임을 내세운다. 함께 공개된 개발자 SDK를 통해 서드파티가 Lux 위에 응용 프로그램을 구축할 수 있다.
온디바이스 최적화와 파트너십
오픈AGI는 인텔과 협력해 엣지 디바이스 최적화를 진행 중이라고 밝혔다. 이는 노트북·워크스테이션에서 로컬 실행을 가능하게 해 클라우드 전송 없이 민감한 화면 데이터를 처리하려는 기업 수요를 겨냥한다. AMD, 마이크로소프트와의 추가 협력도 타진하고 있다고 전했다.
안전과 보안
민감정보 보호를 위한 거부·경고 메커니즘
컴퓨터 사용 에이전트는 클릭, 입력, 파일 조작 능력 탓에 잠재적 피해 범위가 크다. Lux는 안전 정책 위반 요청을 감지하면 실행을 거부하고 사용자에게 경고한다. 예컨대 ‘내 은행 정보 복사해 새 Google 문서에 붙여넣기’ 요청에 대해 내부 추론으로 민감정보 처리 불가를 판단하고 경고만 출력하는 식이다.
프롬프트 인젝션 등 남은 과제
보안 연구자들은 이미 초기 에이전트에서 웹·문서 내 악성 지시로 행위를 탈취하는 프롬프트 인젝션을 시연했다. Lux의 안전장치가 적대적 공격을 어느 수준까지 견딜지는 독립 연구진의 검증이 필요하다.
창업자 배경과 트랙 레코드
연구 실적과 오픈소스 영향력
CEO 친젠이(Zengyi Qin)는 MIT에서 2025년 박사학위를 받았으며, CVPR·ICLR·ICML 등에 논문을 게재했다. 그가 주도한 JetMoE는 10만 달러 미만 예산으로 학습해 LLaMA2-7B를 표준 벤치마크에서 능가했다고 보고됐다. 오픈소스 프로젝트 OpenVoice는 약 3.5만 GitHub 스타로 상위 0.03%에 들었고, MeloTTS는 누적 1,900만+ 다운로드를 기록했다. 또한 에이전트 플랫폼 MyShell을 공동 창업해 600만 사용자가 20만 개 이상의 에이전트를 만들었으며, 누적 상호작용 10억 회를 넘겼다고 한다.
시장 동향과 전망
거대 기업의 진입과 남은 숙제
OpenAI(Operator), Anthropic(Claude Computer Use), 구글(Gemini), 마이크로소프트(Copilot·Windows) 등도 컴퓨터 제어 AI 에이전트를 전면에 내세우고 있다. 다만 기업 도입은 신뢰성·보안·에지 케이스 처리 우려로 더디다. 벤치마크는 벤치마크일 뿐, 통제된 시험과 변수가 많은 8시간의 실제 업무 사이엔 큰 간극이 존재한다. Lux가 실전에서도 실험실 수준을 재현한다면, 거대 예산보다 영리한 아키텍처가 경쟁우위를 만든다는 메시지를 줄 수 있다.
실제 적용 예시: 컴퓨터 제어 AI 에이전트 활용
홈페이지 제작 전 필수 체크리스트
컴퓨터 제어 AI 에이전트인 Lux를 활용하면 도메인 확보, 호스팅 설정, SSL 적용, 접근성 표준 점검, 분석 태그 삽입 등 사전 준비 항목을 자동화 점검할 수 있다. 예를 들어 스프레드시트에 요구사항을 정리하고, 브라우저·디자인 툴·FTP 클라이언트를 순차 제어해 누락 항목을 표시·보완하도록 워크플로를 구성할 수 있다.
홈페이지 제작 프로세스 단계별 안내
와이어프레임 작성→디자인 시안→콘텐츠 이관→반응형 검수→성능·SEO 튜닝의 단계별 작업을 Lux가 데스크톱 앱과 웹 도구를 넘나들며 실행·기록하게 할 수 있다. 예컨대 Figma에서 에셋을 내보내고, CMS에 업로드한 뒤 Lighthouse로 성능을 측정·개선하는 루틴을 자동화해 제작 리드타임을 단축한다. 이렇게 컴퓨터 제어 AI 에이전트를 프로젝트 보조자로 두면 반복 업무를 줄이고 품질 기준을 일관되게 유지할 수 있다.