leangnews
Command Palette
Search for a command to run...
2025년 11월 15일 10:01
링크드인 AI 인물 검색, 13억 이용자까지 확장한 ‘요리책’
기사 요약
- 링크드인은 의미 기반의 LinkedIn AI 인물 검색을 공개하며, 키워드 중심 검색의 한계를 LLM으로 보완했습니다.
- 정책 문서-합성데이터-멀티 티처 증류-경량화로 이어지는 ‘요리책’ 파이프라인과 GPU 인덱싱 전환으로 10배 처리량을 달성했습니다.
- 에이전트 유행보다 추천 시스템과 지능형 쿼리 라우팅 최적화에 집중해 실용적인 대규모 엔터프라이즈 AI 구현 사례를 제시합니다.
LinkedIn AI 인물 검색 출시 개요
링크드인은 생성형 AI를 적용한 LinkedIn AI 인물 검색을 공개했습니다. 챗GPT 출시 3년 후, 그리고 AI 채용 검색 도입 6개월 뒤 나온 이번 기능은 13억 명 규모에서 의미 기반 탐색을 실용 성능으로 제공하기 위해 장기간의 최적화와 엔지니어링 전환을 거친 결과물입니다.
어떻게 작동하나: 의미 이해와 네트워크 활용
사용자는 “암 치료에 정통한 사람은 누구인가?”처럼 자연어로 검색할 수 있으며, LLM이 의미를 파악해 ‘cancer’와 ‘oncology’, 더 나아가 ‘genomics research’ 간의 연관까지 이해합니다. 그 결과, 프로필에 정확히 ‘cancer’가 없더라도 종양학 리더·연구자를 더 잘 찾아냅니다. 또한 단순히 세계 최고 전문가만이 아니라 1·2촌 등 사용자의 가까운 네트워크에서 ‘충분히 관련성 높은’ 사람을 함께 제시해 실제 연결 가능성과 유용성을 균형 있게 반영합니다.
‘요리책’ 방법론: 정책 주도 증류 파이프라인
골든 데이터셋과 합성 데이터
시작은 수백~천 개 규모의 실제 질의-프로필 페어로 구성한 골든 데이터셋이었습니다. 이는 20~30쪽 분량의 상세 ‘제품 정책’ 문서로 정밀 채점되었고, 대형 기초 모델을 프롬프트해 대량의 합성 학습 데이터를 생성하는 씨앗으로 쓰였습니다. 이렇게 만든 데이터로 70억 파라미터 규모의 ‘정책 판정’ 모델을 학습해 높은 충실도의 관련성 판단자를 확보했는데, 이는 실시간 서비스엔 느리지만 더 작은 모델들을 가르치기엔 최적이었습니다.
멀티 티처 증류와 2단계 아키텍처
팀은 초기 6~9개월 동안 ‘정책 준수(관련성)’와 ‘사용자 참여’ 신호를 단일 모델에 동시에 담으려다 한계를 체감했고, 문제 분해에서 전환점을 맞았습니다. 70억 정책 모델을 관련성 전용 17억 티처로 증류하고, 여기에 구인·구직/인물 연결 등 구체적 행동(지원·팔로우·커넥트)을 예측하는 별도 티처들을 묶은 멀티 티처 앙상블을 구성했습니다. 최종 학생 모델은 이들이 내는 연성 확률을 KL 발산 손실로 모사합니다. 운영 단계에서는 80억 파라미터 모델이 광범위 후보를 끌어오는 1단계 검색(리트리벌)을 맡고, 고도로 증류된 학생 모델이 미세 랭킹을 수행하는 2단계 파이프라인으로 동작합니다. 채용 검색에선 6억 파라미터 학생 모델이 충분했지만, LinkedIn AI 인물 검색은 더 과감한 경량화가 필요해 4.4억을 2.2억 파라미터로 절반까지 가지치기하고도 관련성 손실을 1% 미만으로 억제했습니다.
검색 인프라 재설계: CPU에서 GPU 인덱싱으로
사람 찾기 문제는 단순 랭킹을 넘어 리트리벌 자체의 난이도가 급격히 상승했습니다. 10억 건대의 멤버 그래프를 ‘빠릿한’ 체감 속도로 탐색하려면, 기존 CPU 기반 리트리벌 스택으로는 한계가 뚜렷했습니다. 이에 인덱싱을 GPU 기반 인프라로 이전하는 근본적 아키텍처 전환이 이뤄졌고, 이는 채용 검색 단계에선 불필요했던 대수술이었습니다. 조직 측면에서도 채용/인물 두 팀이 병렬 시도를 하다가, 정책 기반 증류에서 돌파구를 낸 팀의 책임자들(프로덕트 리드 Rohan Rajiv, 엔지니어링 리드 Wenjing Zhang)을 투입해 ‘요리책’을 LinkedIn AI 인물 검색 도메인에 이식했습니다.
10배 처리량: 입력 요약과 모델 경량화
리트리벌 병목을 해결한 뒤엔 랭킹 효율을 극대화했습니다. 강화학습(RL)로 학습한 별도 LLM ‘요약기’를 투입해 입력 컨텍스트를 전용 요약으로 줄였고, 정보 손실을 최소화하면서 입력 크기를 20분의 1로 압축했습니다. 2.2억 파라미터 학생 모델과 20배 입력 축소가 결합되어 랭킹 처리량이 10배 증가했고, 이를 통해 LinkedIn AI 인물 검색을 13억 이용자 규모로 무리 없이 제공할 수 있었습니다.
도구 우선주의: 추천 시스템과 지능형 라우팅
링크드인은 구체적 모델 명세보다 태스크 효율을 우선해 모델을 선택합니다. 에이전트 유행을 좇기보다 추천 시스템을 먼저 극대화하는 철학 아래, LLM 기반 ‘지능형 쿼리 라우팅 레이어’를 도입했습니다. 예컨대 ‘신뢰 전문가(trust expert)’ 같은 질의를 의미 기반 스택으로 보낼지, 전통 키워드 스택으로 보낼지 상황에 맞게 판단합니다. 전체 시스템은 훗날 에이전트가 활용할 ‘도구’로 설계되었으며, 도구의 품질이 곧 에이전트 성능을 좌우한다는 관점을 반영합니다. 이 원칙은 LinkedIn AI 인물 검색 전반에 일관되게 적용됩니다.
엔터프라이즈를 위한 요약 교훈
첫째, 한 번에 모든 걸 하려 들지 말고 한 vertical에서 승리하라. 둘째, 승리 공식을 요리책으로 체계화하라(정책 문서, 증류 파이프라인, 공동 설계). 셋째, 초기 모델 이후가 진짜 시작이다(프루닝, 증류, RL 요약 등 창의적 최적화로 10배 이득). 링크드인의 여정은 특정 모델이나 에이전트 ‘멋짐’보다, 파이프라인 장악이 지속 가능한 전략 우위임을 보여줍니다.