leangnews

2025년 11월 02일 09:00

커서, 첫 자체 코딩 LLM ‘Composer’ 공개…최대 4배 속도 향상

커서, 첫 자체 코딩 LLM ‘Composer’ 공개…최대 4배 속도 향상


기사 요약

  • 커서는 Cursor 2.0 업데이트와 함께 자체 코딩 LLM Composer를 공개해 대규모 실사용 환경에서 30초 내 응답과 최대 4배 속도를 내세웠습니다.
  • Composer는 RL·MoE 기반으로 실제 코드베이스와 도구를 활용해 학습됐으며, 에이전트형 워크플로에 최적화됐습니다.
  • 멀티에이전트, IDE 내 실행, 샌드박스 터미널 등 Cursor 2.0 기능과 결합해 엔터프라이즈 관리·보안·분석 기능 및 유료 티어를 제공합니다.

개요

스타트업 애니스피어의 바이브 코딩 도구 커서가 Cursor 2.0과 함께 첫 자체 프로프라이어터리 코딩 LLM인 Composer를 공개했습니다. 이 모델은 프로덕션 급 환경에서 빠르고 정확한 코드 작업 수행을 목표로 하며, 이미 사내 엔지니어링팀의 일상 개발에 투입될 만큼 성숙도를 갖췄습니다.

성능과 벤치마크

요약 성능

Composer는 대부분의 상호작용을 30초 이내에 마무리하면서 대규모·복잡한 코드베이스에서도 높은 추론력을 유지합니다. 내부 지표에 따르면 동급 지능 모델 대비 최대 4배 빠르고, 에이전트형(Agentic) 워크플로—계획·작성·테스트·리뷰를 자율 에이전트가 협업—에 맞춰 훈련됐습니다.

벤치마크 결과

커서는 실제 개발자 에이전트 요청에서 파생한 내부 평가 모음인 Cursor Bench로 역량을 측정했습니다. 정답률뿐 아니라 기존 추상화, 스타일, 엔지니어링 관례 준수까지 본다는 점이 특징입니다. 이 지표에서 모델은 초당 250토큰 생성이라는 속도로 선두권 코딩 지능을 보였고, 공개 최적 모델군, 고속 프런티어, 중반기 프런티어, 최고 프런티어 등 비교군 전반에서 중상위 지능과 최고 수준 생성 속도의 조합을 기록했습니다.

아키텍처와 학습

RL·MoE 기반 설계

연구진은 이 모델을 강화학습(RL)로 학습한 Mixture-of-Experts(MoE) 아키텍처로 소개했습니다. 모델과 커서 실행 환경을 공동 설계해 전체 시스템 스케일에서 효율적으로 동작하도록 했으며, 정적 데이터셋이 아니라 실제 소프트웨어 엔지니어링 태스크 안에서 파일 편집, 시맨틱 검색, 터미널 명령 등 프로덕션 도구를 활용해 문제를 풀게 하는 방식으로 학습시켰습니다.

실제 개발 맥락에서의 Composer

훈련 루프는 정답성과 효율을 동시에 최적화해 도구 선택, 병렬화, 불필요한 출력 회피를 학습했습니다. 시간이 지날수록 단위 테스트 실행, 린터 오류 수정, 다단계 코드 검색 같은 행동이 자발적으로 나타났고, 버전 관리와 종속성, 반복 테스트를 포함한 사용자와 동일한 런타임 컨텍스트에서 일하도록 설계됐습니다.

프로토타입에서 제품화

초기 내부 프로토타입 ‘Cheetah’를 통해 저지연 추론을 검증한 뒤 제품화가 진행됐습니다. Cheetah는 속도 검증에 초점을 맞췄고, 현재 모델은 그 속도를 유지하면서도 추론력과 과제 일반화가 크게 향상됐다는 평가를 받았습니다.

Cursor 2.0 통합과 에이전트 협업

이 모델은 Cursor 2.0에 완전 통합됐으며, 최대 8개 에이전트를 병렬 실행하는 멀티에이전트 인터페이스에서 독립 또는 협업적으로 태스크를 수행합니다. 고립된 워크스페이스(git worktree 또는 원격 머신)에서 결과를 병렬 산출하고, 개발자는 여러 결과를 비교해 최적안을 선택할 수 있습니다.

지원 기능

IDE 내 코드 실행·테스트를 가능케 하는 인에디터 브라우저(GA), 다중 파일 변경을 모아보는 개선된 코드 리뷰, 안전한 로컬 실행을 위한 샌드박스 터미널(GA), 음성으로 에이전트 세션을 제어하는 보이스 모드가 추가돼 워크플로 전반의 속도와 안정성을 높입니다.

인프라와 대규모 학습 시스템

대규모 학습을 위해 PyTorch와 Ray를 결합한 비동기 RL 인프라를 구축, 수천 대의 NVIDIA GPU에서 학습을 병렬화했습니다. 전용 MXFP8 MoE 커널과 하이브리드 샤딩 데이터 병렬화를 적용해 통신 오버헤드를 줄였고, 후처리 양자화 없이도 저정밀 원천 학습으로 추론 속도와 효율을 끌어올렸습니다. 또 수십만 개 동시 샌드박스 개발 환경을 클라우드에서 가변적으로 스케줄링해 대규모 RL 런의 버스티 특성을 감당하도록 했습니다.

엔터프라이즈 적용과 가격

코드 인텔리전스 스택 전반의 최적화가 함께 이뤄졌으며, 특히 Python·TypeScript 프로젝트에서 LSP 진단과 내비게이션 지연을 줄였습니다. 팀 규칙, 감사 로그, 샌드박스 강제 등 관리 기능과 함께 풀드 모델 사용, SAML/OIDC 인증, 조직 수준 에이전트 성능 분석을 제공합니다. 개인 요금제는 무료부터 Ultra(월 200달러)까지, 비즈니스는 Teams 기준 사용자당 월 40달러부터 시작하며 엔터프라이즈는 맞춤 옵션을 지원합니다.

의미와 전망

바이브 코딩의 지향점에서, 이 모델은 제안 엔진을 넘어 프로젝트 코드베이스와 직접 상호작용하는 지속적·에이전트 주도 협업을 구현합니다. 실제 작동 환경 안에서 학습된 특화 전략은 코드 생성에 그치지 않고 통합·테스트·개선을 맥락 속에서 수행하게 하며, 이는 실용적 자율 소프트웨어 개발로 가는 중요한 진전입니다.

활용 시나리오

대규모 리포지토리에서의 다단계 구현과 리팩터링, 단위·통합 테스트 자동화, 다파일 변경 검토, 종속성·버전 관리 병행, 빠른 실험과 롤백 등 일상 개발 루프 전반에서 속도와 신뢰성을 강화합니다.

이 기사 공유하기