leangnews
Command Palette
Search for a command to run...
2026년 01월 11일 09:01
폭증하는 LLM 비용, 시맨틱 캐싱으로 73% 줄인 비결
기사 요약
- 월 30%씩 늘던 LLM API 비용의 원인은 같은 질문을 다른 표현으로 호출하는 중복 트래픽이었다.
- 의미 기반 캐싱을 도입해 캐시 히트율을 18%에서 67%로 끌어올리고 비용을 73% 절감, 평균 지연도 850ms에서 300ms로 낮췄다.
- 성공 요인은 쿼리 유형별 임계값 튜닝과 TTL·이벤트·신선도 검증을 결합한 캐시 무효화, 그리고 캐싱 제외 규칙의 설계였다.
문제의 본질: 동일 의도, 다른 표현
트래픽 증가 속도보다 빠르게 LLM API 비용이 월 30%씩 치솟은 이유는 사용자가 같은 질문을 다양한 문장으로 반복했기 때문이다. 실제 로그 10만 건을 분석한 결과, 이전 쿼리와 완전히 동일한 질의는 18%에 불과했고, 의도는 같지만 표현이 다른 유사 질의가 47%, 완전히 새로운 질의가 35%였다. 텍스트가 일치할 때만 캐시하는 전통적 방식은 이 18%만 포착해 중복 호출을 제대로 줄이지 못했다.
시맨틱 캐싱 아키텍처(의미 기반 캐싱)
텍스트 자체를 키로 해싱하는 대신, 쿼리를 임베딩하여 벡터 공간에서 유사도를 검색하고 임계값 이상이면 기존 응답을 반환한다. 이를 위해 벡터 저장소(예: FAISS, Pinecone)와 응답 저장소(예: Redis, DynamoDB)를 분리해 관리하고, 유사도 임계값으로 잘못된 매칭을 걸러낸다. 핵심은 “무엇을 물었는지”의 의미를 기준으로 재사용성을 판단하는 것이다.
임계값 설계: 한 번에 끝나지 않는다
0.85라는 보수적인 듯한 임계값은 “구독 취소”와 “주문 취소”처럼 답이 다른 질의도 0.87 유사도로 매칭해 오답을 유발했다. 시맨틱 캐싱의 품질은 임계값에 좌우되며, 유형별 최적값이 다르다. FAQ는 0.94(정확도 우선), 상품 검색은 0.88(재사용 극대화), 지원 문의는 0.92(균형), 거래성 질의는 0.97(오류 최소 허용)이 효과적이었다. 이를 위해 0.80~0.99 유사도 구간에서 5,000쌍을 샘플링해 3인 다수결로 의도 동일/상이를 라벨링하고, 각 임계값의 정밀도·재현율 곡선을 계산해 오류 비용 구조에 맞춰 선택했다. 그 결과 FAQ는 0.94에서 정밀도 98%, 검색은 0.88에서 재현율을 극대화했다.
지연 시간 오버헤드와 전체 체감 성능
캐시 조회에는 임베딩(p50 12ms/p99 28ms)과 벡터 검색(p50 8ms/p99 19ms)이 추가되어 총 p50 20ms, p99 47ms의 오버헤드가 생긴다. 반면 LLM 호출은 p50 850ms, p99 2400ms로 훨씬 크다. 히트율 67% 기준으로 평균 지연은 기존 850ms에서 (미스 33%×약 870ms) + (히트 67%×약 20ms) ≈ 300ms로 줄어 65% 개선되었다. 미스 시 20ms 늘어나는 비용보다 히트에서 절감되는 이득이 훨씬 컸다.
캐시 무효화: TTL·이벤트·신선도 검증
가격·상품·정책 등 콘텐츠는 변하기 때문에 무효화가 필수다. 유형별 TTL을 달리해 가격 4시간, 정책 7일, 상품 정보 1일, 일반 FAQ 14일로 만료를 관리하고, 원천 데이터 갱신 시 관련 질의를 찾아 일괄 무효화한다. 또한 주기적으로 일부 항목을 재질의해 응답 임베딩 간 유사도를 비교하고 0.90 미만으로 떨어지면 폐기한다. 시맨틱 캐싱은 무효화 없이는 곧바로 신뢰 하락으로 이어진다.
프로덕션 결과와 품질 지표
3개월 운영 결과, 캐시 히트율은 18%에서 67%로(+272%) 상승했고, 월 LLM 비용은 4.7만 달러에서 1.27만 달러로 73% 절감되었다. 평균 지연은 850ms에서 300ms로 65% 개선됐다. 의미가 다른 응답을 반환한 오탐률은 0.8%였고, 임계값 경계에서 주로 발생했다. 잘못된 답변 관련 고객 불만은 기준 대비 0.3%p만 증가해 수용 가능했다.
피해야 할 함정과 운영 팁
단일 전역 임계값을 쓰지 말고, 쿼리 유형별로 조정하라. 캐시 적중 시에도 임베딩 생략을 유혹받기 쉽지만, 키 생성과 유사도 판단을 위해 필요하다. 무효화 전략을 초기부터 설계하지 않으면 응답 노후화로 신뢰가 훼손된다. 개인화·시계열 민감·거래 확인 등은 캐시에서 제외하는 규칙을 두어라. 시맨틱 캐싱 운영 시 가장 흔한 실수는 단일 임계값과 무효화 누락이다.