leangnews
Command Palette
Search for a command to run...
2025년 11월 19일 15:02
반짝이던 벡터 데이터베이스, 2년 후 드러난 냉정한 현실
기사 요약
- 벡터 데이터베이스 열풍은 2년 만에 현실 검증을 맞았고, Pinecone의 매각 검토와 95% 기업의 성과 부재가 이를 상징한다.
- 순수 벡터 검색만으로는 정확도와 신뢰성을 담보하기 어려워 하이브리드 검색과 GraphRAG가 사실상의 표준으로 부상했다.
- 앞으로의 승자는 벡터를 포함한 통합 리트리벌 스택을 구축하는 생태계 플레이어이며, 진짜 유니콘은 검색·회수 스택이다.
개요
2024년 3월, 업계는 벡터 데이터베이스를 생성형 AI 시대의 필수 인프라로 치켜세웠지만, 2년이 지난 지금 다수의 기업(95%)이 가시적 성과를 얻지 못하며 현실 점검이 이뤄졌다. 의미 기반 검색의 약속은 부분적으로만 실현됐고, 벤더 난립과 과도한 기대가 한계로 드러났다.
예측과 현실: 사라진 유니콘
Pinecone와 경쟁 격화
카테고리 대표였던 Pinecone은 치열한 경쟁과 고객 이탈 속에서 매각을 검토하는 것으로 알려졌다. Milvus, Qdrant, Chroma 같은 오픈소스가 비용을 낮추고, PostgreSQL(pgVector)과 Elasticsearch 등 기존 DB·검색 엔진이 벡터 기능을 기본 제공하자, 고객은 굳이 새 DB를 도입할 필요가 있느냐고 되묻기 시작했다. 2025년 9월에는 Ash Ashutosh가 CEO로 선임되고 창업자 Edo Liberty는 최고과학자로 이동하는 등 독립성에 대한 의문이 커졌다.
벡터 데이터베이스 단독 사용의 한계
정확성이 필요한 업무에서 순수 유사도 검색은 작은 오류도 치명적이다. 예를 들어 매뉴얼에서 특정 오류 코드를 찾는 경우 유사한 코드까지 근사치로 반환되면 운영 장애로 이어질 수 있다. 기업들은 semantic ≠ correct라는 교훈을 얻었고, 메타데이터 필터링, 리랭킹, 규칙 기반 로직을 결합해 정확도를 보강했다. 결론적으로 벡터 검색은 하이브리드 스택의 일부일 때 가장 강력하다.
붐에서 상품화로
Weaviate, Milvus(Zilliz), Chroma, Vespa, Qdrant 등은 미세한 차별점을 주장했지만, 다수 구매자에게는 최근접 이웃 검색을 저장·조회하는 동일 범주로 인식됐다. 시장은 파편화와 상품화를 거쳐, 오늘날 클라우드 데이터 플랫폼에서 벡터 검색은 독자적 해자라기보다 체크박스 기능이 되었다. PostgreSQL, MySQL HeatWave, Oracle 23c, Azure SQL, Cassandra, Redis, Neo4j, SingleStore, Elasticsearch, OpenSearch, Apache Solr, Vald, Marqo, LanceDB 등 목록은 끝이 없다.
새 흐름: 하이브리드 검색과 GraphRAG
하이브리드 검색: 키워드+벡터 데이터베이스
정확도와 포괄성을 동시에 얻기 위해 키워드와 의미 검색의 결합이 표준으로 자리 잡았다. Apache Solr, Elasticsearch, pgVector, Pinecone의 단계적(cascading) 검색 등은 정밀함과 유연함을 균형 있게 제공한다.
GraphRAG: 지식 그래프와 임베딩의 결합
GraphRAG는 지식 그래프가 담는 관계성 위에 임베딩을 결합해, 임베딩만으로는 평탄화되기 쉬운 엔터티 간 연결을 보존한다. 그 결과 복잡한 추론, 다중 홉 질의, 도메인 제약을 더 잘 다루며 회수 품질을 높인다.
벤치마크와 근거
실험 결과 요약
Amazon AI 블로그는 Lettria의 결과를 인용해, 하이브리드 GraphRAG가 금융·헬스케어·제조·법률 데이터셋에서 정답률을 약 50%에서 80% 이상으로 끌어올렸다고 전했다. 2025년 5월 공개된 GraphRAG-Bench는 GraphRAG와 기본 RAG를 추론·멀티홉·도메인 과제에서 엄정하게 비교 평가했다. OpenReview의 비교 연구는 과제별 강점이 다르지만 하이브리드 조합이 종종 최선임을 보여줬고, FalkorDB는 스키마 정밀도가 중요한 구조화 도메인에서 GraphRAG가 특정 벤치마크에서 약 3.4배 성능 우위를 보인다고 보고했다.
의미와 전망
진짜 유니콘은 검색·회수 스택
벡터 데이터베이스는 기적이 아니라 진화 과정의 한 단계였다. 승자는 벡터, 그래프, 메타데이터, 규칙, 컨텍스트 엔지니어링을 통합해 일관된 플랫폼을 구축하는 기업이다. 다시 말해 유니콘은 데이터베이스가 아니라 리트리벌 스택이다.
다가올 변화
통합 데이터 플랫폼은 벡터+그래프+전체 텍스트를 기본 내장할 것이다.
리트리벌 엔지니어링이 하나의 전문 분야로 부상해 임베딩 튜닝, 하이브리드 랭킹, 그래프 구축의 모범 사례가 정립될 것이다.
미래의 LLM은 질의별로 회수 방식을 동적으로 오케스트레이션하며 가중치를 조절할 것이다.
시계열·멀티모달 GraphRAG(T-GRAG 등) 연구가 확대될 것이다.
BenchmarkQED와 GraphRAG-Bench 같은 공개 벤치마크가 공정한 비교와 추상화 레이어를 촉진할 것이다.
결론
반짝이는 대상에서 필수 인프라로
2025년 벡터 검색은 더 이상 반짝이는 유행이 아니라, 다층적이고 문맥 인식적인 리트리벌 아키텍처의 핵심 빌딩 블록이다. 초기 희망은 정밀도, 관계 복잡성, 엔터프라이즈 제약에 부딪혀 조정되었지만, 그 과정에서 의미·어휘·관계 전략이 통합됐다. 2027년에는 벡터 DB가 레거시 인프라로 자리하고, 더 영리한 오케스트레이션 계층과 적응형 컨트롤러가 전면에 설 가능성이 크다. 지금의 승부는 키워드 대 벡터가 아니라, 사실 기반 지식을 안정적으로 회수하는 파이프라인을 얼마나 잘 설계하고 혼합하느냐에 달려 있다.
글: Amit Verma(Neuron7 엔지니어링 및 AI Labs 총괄)