leangnews

Command Palette
Search for a command to run...

2026년 02월 01일 09:02

대부분의 RAG 시스템은 복잡한 문서를 이해하지 못하고 파편화한다

기사 요약

많은 기업이 RAG를 도입했지만 문제의 본질은 LLM이 아니라 전처리이며, 고정 길이 청킹이 기술 문서의 논리를 깨뜨려 환각을 유발한다.
레이아웃 인지 파서를 활용한 시맨틱 청킹과 멀티모달 텍스트화로 표·도면·계층 구조를 보존해 검색 정확도를 높일 수 있다.
시각적 인용 등 증거 기반 UI로 신뢰를 높이고, 네이티브 멀티모달 임베딩과 장문맥 LLM의 발전을 대비하되 현재는 시맨틱 전처리가 가장 경제적이다.

복잡한 문서를 이해하지 못하는 RAG 시스템의 한계

많은 기업이 PDF를 색인하고 LLM을 연결하는 형태로 RAG 시스템을 도입했지만, 중공업·인프라처럼 엔지니어링 의존 산업에서는 성과가 미흡했다. 문제는 LLM이 아니라 전처리다. 표·도면·캡션·페이지 레이아웃을 무시한 채 문서를 평평한 문자열로 보고 고정 길이로 자르는 관행이 기술 매뉴얼의 논리를 파괴해, 질문에 대해 검색은 어긋나고 답변은 환각으로 이어진다.

고정 길이 청킹의 오류

일반적인 튜토리얼처럼 문자 수 기준으로 텍스트를 자르면, 엔터프라이즈 PDF에서 치명적인 문제가 발생한다. 예컨대 안전 규격 표가 1,000토큰인데 청크 크기가 500이면, ‘전압 한계’ 헤더와 ‘240V’ 값이 갈라져 서로 다른 벡터로 저장된다. 사용자가 “전압 한계는?”을 묻자 검색은 헤더만, 값은 놓치고, LLM은 어쩔 수 없이 추측한다.

시맨틱 청킹으로 RAG 시스템 안정화

자의를 기준으로 자르는 방식을 버리고 문서 지능에 기반한 시맨틱 청킹으로 전환해야 한다. Azure Document Intelligence 같은 레이아웃 인지 파서를 사용해 토큰 수가 아니라 장(章)·절(節)·문단 등 문서 구조를 기준으로 세분화한다. 특정 기계 부품을 설명하는 단락은 길이가 달라도 하나의 벡터로 유지하고, 표는 경계를 감지해 그리드 전체를 단일 청크로 묶어 행·열의 관계를 보존한다. 내부 질적 벤치마크에서 고정 길이 대비 시맨틱 청킹은 표 데이터 검색 정확도를 크게 끌어올리며 기술 사양 파편화를 효과적으로 차단했다.

시각적 다크 데이터 해제

기업 IP의 상당 부분은 텍스트가 아닌 플로우차트, 배선도, 시스템 아키텍처 다이어그램에 담겨 있다. 표준 임베딩 모델은 이미지를 ‘보지’ 못해 색인 단계에서 건너뛰고, 답이 도식에 있으면 RAG 시스템은 “모르겠다”고 말할 수밖에 없다.

멀티모달 텍스트화로 RAG 시스템 확장

벡터 스토어에 넣기 전, GPT-4o 같은 비전 모델을 활용해 멀티모달 전처리를 수행한다. 고정밀 OCR로 이미지 내부의 라벨 텍스트를 추출하고, 비전 모델이 도식을 분석해 “온도가 50도를 넘으면 프로세스 A에서 B로 이동” 같은 자연어 캡션을 생성한다. 이 설명을 임베딩해 원본 이미지와 연결된 메타데이터로 저장하면, 사용자가 “온도 프로세스 플로우”를 검색할 때 원본이 PNG여도 생성 설명과의 의미 유사도로 정확히 매칭된다.

신뢰 계층: 증거 기반 UI

엔터프라이즈 도입에서는 정확성만큼 검증 가능성이 중요하다. 파일명만 인용하는 기본 RAG 인터페이스는 사용자가 PDF를 내려받아 페이지를 뒤져야 하므로, “이 화학물질은 인화성인가?” 같은 고위험 질문에서는 신뢰를 얻기 어렵다.

시각적 인용으로 RAG 시스템의 신뢰 구축

전처리 단계에서 텍스트 청크와 상위 이미지(표·차트)의 연결을 보존했기 때문에, UI는 텍스트 답변과 함께 근거가 된 정확한 표나 차트를 바로 제시할 수 있다. 이 ‘풀이 과정 공개’ 메커니즘은 사람이 즉시 검증하도록 돕고, 내부 AI 프로젝트를 좌초시키는 신뢰의 간극을 메운다.

미래 대비: 네이티브 멀티모달 임베딩과 장문맥

이미지를 텍스트로 바꾸는 ‘텍스트화(텍스추얼라이제이션)’는 오늘 당장의 실용적 해법이지만, 텍스트와 이미지를 캡션 없이 같은 벡터 공간에 매핑하는 네이티브 멀티모달 임베딩(예: Cohere Embed 4)이 빠르게 등장하고 있다. 현재는 통제력을 위해 다단계 파이프라인을 쓰지만, 앞으로는 페이지 레이아웃 자체를 직접 벡터화하는 엔드투엔드 방식이 보편화될 가능성이 크다. 또한 장문맥 LLM의 비용이 충분히 낮아지면 청킹의 필요가 줄어들 수 있으나, 백만 토큰 단위 호출의 지연과 비용이 크게 떨어지기 전까지는 시맨틱 전처리가 실시간 시스템에서 가장 경제적이다.

결론

RAG 데모와 실제 운영의 차이는 기업 데이터의 복잡한 현실을 다루는 방식에 달려 있다. 문서를 단순한 텍스트 문자열로 취급하는 일을 멈추고, 구조를 존중하라. 시맨틱 청킹과 차트 속 시각 데이터를 해제하는 전처리를 적용하면, RAG 시스템은 ‘키워드 검색기’에서 진정한 ‘지식 어시스턴트’로 탈바꿈한다.

글: Dippu Kumar Singh(데이터 엔지니어·AI 아키텍트)

최신기사

OpenClaw가 드러낸 에이전틱 AI 보안의 맹점과 기업 대응 로드맵

시장 압박 속 CPG 운영을 재설계하는 선도 브랜드의 전략

대규모 AI 확산을 막는 ‘신뢰 패러독스’: 76% 기업의 거버넌스 공백

PageIndex: 트리 검색으로 벡터 검색의 빈틈을 메우다

Arcee, 미국산 오픈소스 Trinity Large와 10조 토큰 TrueBase 공개

구글 연구: ‘사고의 사회’ 내부 토론이 복잡한 추론·계획 정확도 크게 높인다

SeaVerse 공개…SeaArt, AI-네이티브 창작·소비 커뮤니티로 도약

보안팀 몰래 확산된 Clawdbot, 인포스틸러가 먼저 노렸다

서로 말하는 AI 에이전트, 함께 추론은 못한다: 아웃시프트의 ‘인지의 인터넷’