leangnews

2026년 02월 20일 14:01

Rapidata, 실시간 RLHF로 AI 개발 주기를 몇 달에서 며칠로 단축

Rapidata, 실시간 RLHF로 AI 개발 주기를 몇 달에서 며칠로 단축


기사 요약

  • AI 개발의 병목인 인간 피드백을 Rapidata가 모바일 앱 네트워크를 활용한 실시간 RLHF로 전환해 속도를 크게 높였다.
  • 전 세계 1,500만~2,000만 명을 통해 시간당 150만 건 주석, 분당 5,500명 동시 피드백 등으로 학습 루프에 즉시 반영한다.
  • 카나안 파트너스 등으로부터 850만 달러 시드 투자를 유치했으며, 취향 기반 판별과 ‘human use’ 비전으로 활용 범위를 확장한다.

실시간 RLHF의 등장 배경

AI가 자동화의 상징이 되었지만, 모델이 사람답게 작동하도록 가르치는 과정은 여전히 인간에 의존한다. RLHF는 사람이 모델 출력물을 평가·순위를 매겨 보상 신호로 학습을 유도하는 ‘튜터링’에 가깝다. 그러나 단절된 배치(Label) 사이클, 저임금 지역에 집중된 라벨링 풀, 몇 주에서 몇 달에 이르는 대기 시간은 기업에 비효율과 평판 리스크를 안겨왔다. Rapidata는 이 병목을 글로벌 규모의 실시간 RLHF로 뒤집는다.

Rapidata의 실시간 RLHF 인프라

Rapidata는 특정 지역의 전업 주석 인력을 고용하는 대신, 듀오링고·캔디크러시 같은 써드파티 모바일 앱과 제휴해 ‘광고 시청 대신 짧은 피드백 참여’를 제안한다. 사용자 중 50~60%가 동의하며, 데이터는 의뢰한 AI 연구팀에 즉시 전송된다. 현재 도달 범위는 1,500만~2,000만 명, 시간당 약 150만 건의 인간 주석을 병렬 처리한다. 응답자는 익명화된 ID로 추적해 일관성과 신뢰도를 관리하고, 축적된 평판·전문성 프로필을 통해 난도가 높은 과제는 적합한 판단자에게 배정한다. 이렇게 구축된 네트워크가 실시간 RLHF를 가능하게 한다.

온라인 RLHF와 GPU 통합

전통적 RLHF가 ‘학습 중단→라벨링 대기→재개’의 배치 처리였다면, Rapidata는 API를 통해 GPU 상의 추론·학습 루프 안으로 사람 판단을 직접 끌어들인다. 분당 약 5,500명의 실시간 참여자가 수천 개 GPU에서 돌고 있는 모델 출력에 즉시 피드백을 제공하고, 모델은 그 신호로 곧바로 손실을 적용한다. 이는 두 모델이 서로를 속이며 보상 모형을 우회하는 ‘리워드 모델 해킹’을 줄이고, 인간의 미묘한 감각으로 학습을 접지시킨다. 사실상 온라인 RLHF의 구현이다.

취향·맥락 과제와 실시간 RLHF의 효과

생성형 AI 확산으로 라벨링은 ‘고양이인가?’ 같은 객관 판별을 넘어 ‘음성 합성이 자연스러운가?’, ‘요약 A와 B 중 무엇이 더 전문적인가?’ 같은 취향·맥락 기반 판단으로 이동했다. 보이스 AI 스타트업 Rime는 Rapidata로 스웨덴, 세르비아, 미국 등 목표 고객군을 빠르게 모집해 실제 업무 흐름에서 모델을 시험하고, 며칠 만에 시그널을 얻고 있다. 많은 모델이 사실은 맞지만 어딘가 ‘인간미’가 부족한데, 실시간 RLHF는 그 간극을 메워준다.

인프라와 투자, 운영 전환

Rapidata는 RLHF를 노동 관리 문제가 아닌 고속 데이터 인프라로 재정의한다. 기업은 자체 주석 운영을 꾸리는 부담 없이, 필요할 때 즉시 확장되는 네트워크를 호출해 피드백 루프를 돌릴 수 있다. 카나안 파트너스와 IA 벤처스 공동 주도, 아세키아 캐피털과 블루야드 참여로 850만 달러 시드 투자를 유치했으며, “모든 진지한 AI 배포는 생애주기 어딘가에서 인간 판단을 필요로 한다”는 투자 논지를 인프라로 구현한다.

‘Human Use’ 비전과 실시간 RLHF의 확장

Rapidata가 그리는 다음 단계는 AI가 직접 인간 판단을 호출하는 ‘human use’이다. 예컨대 자동차 디자이너 AI가 프랑스 시장의 2만5천 명에게 특정 디자인 미감을 묻고, 응답을 반영해 몇 시간 내에 형태를 다듬는다. 사회적 취향과 규범은 계속 변하므로, 고정된 시뮬레이션보다 분산·프로그램적 인간 두뇌 접근이 현실을 더 잘 반영한다. Rapidata는 실리콘과 사회를 잇는 인터커넥트로서, 실시간 RLHF를 통해 인간 요소를 병목이 아닌 기능으로 바꾼다.

이 기사 공유하기