leangnews
Command Palette
Search for a command to run...
2025년 11월 10일 09:00
NYU, RAE 기반 확산 변환기로 고품질 이미지 생성 속도·비용 혁신
기사 요약
- NYU가 표현 오토인코더(RAE)를 도입한 확산 변환기 아키텍처로 이미지 생성의 의미 이해와 품질을 동시에 끌어올렸다.
- 사전학습 표현 인코더(DINO 등)와 ViT 디코더를 결합하고 DiT를 수정해 고차원 잠재공간에서도 효율적으로 학습, SD‑VAE 대비 인코더 6배·디코더 3배 연산 절감과 최대 47배 학습 가속을 달성했다.
- ImageNet에서 FID 1.51(무가이던스), AutoGuidance 적용 시 1.13을 기록했으며, RAG 기반 생성·영상 생성·액션 조건 월드 모델 등 기업용 신뢰성 높은 활용을 예고한다.
NYU의 RAE: 확산 모델의 새 설계
뉴욕대학교 연구진이 이미지 생성의 의미적 표현을 대폭 개선하는 새 확산 모델 아키텍처를 공개했다. ‘표현 오토인코더(RAE)와 결합한 확산 변환기(Diffusion Transformer)’는 전통적 설계를 재고하며, 사전학습 표현 학습의 강점을 활용해 더 빠르고 정확하며 저비용의 생성을 실현한다. 공동 저자 사이닝 셰(Xie)는 “이미지를 잘 편집하려면 모델이 그 안의 내용을 제대로 이해해야 한다”며, 표현 오토인코더(RAE)가 ‘이해’와 ‘생성’을 긴밀히 잇는 매개라고 설명했다.
왜 표현 오토인코더(RAE)인가
확산 모델은 노이즈를 거꾸로 되돌리며 이미지를 복원하는 방식으로 학습한다. 통상 쓰이는 자동인코더(SD‑VAE)는 저수준 특징과 국소 외관을 잘 포착하지만, 일반화와 생성 성능에 중요한 전역 의미 구조가 부족하다는 지적을 받아왔다. 한편 DINO, MAE, CLIP 같은 표현 학습 모델은 과제 전반에 잘 일반화되는 의미 기반 시각 표현을 학습해 왔지만, “픽셀 단위의 미세 정보를 놓치고 표현 차원이 높아 생성에 부적합하다”는 통념 때문에 생성 모델에 잘 도입되지 못했다. RAE는 이 간극을 메우는 해법이다.
RAE + 확산 변환기(DiT)의 작동 방식
RAE는 메타의 DINO 같은 사전학습 표현 인코더를 고정(frozen)해 쓰고, 비전 트랜스포머(Transformer) 디코더를 학습해 복원을 수행한다. 연구진은 RAE의 고차원 잠재공간에서도 효율적으로 훈련되도록 확산 변환기(DiT)를 변형해, 막대한 연산 증가 없이 학습이 가능함을 보였다. 그 결과, 의미에 최적화된 인코더조차 이미지 생성에 성공적으로 적응시킬 수 있었고, 표준 SD‑VAE보다 더 우수한 복원 품질을 얻었다. 다만 저자들은 “RAE는 단순한 플러그앤플레이가 아니며, 잠재 공간 모델링과 생성 모델링을 분리하지 말고 공동 설계해야 한다”고 강조한다.
성능과 효율: 비용을 줄이고 품질을 높이다
논문에 따르면 고차원 잠재 표현은 오히려 장점으로 작동해 더 풍부한 구조, 더 빠른 수렴, 더 나은 생성 품질을 제공한다. 특히 이러한 고차원 잠재는 사실상 추가 연산/메모리 비용을 유발하지 않는다고 보고됐다. 반대로 표준 SD‑VAE는 RAE 대비 인코더 약 6배, 디코더 약 3배의 연산이 더 들며, 아키텍처도 비효율적이다. 개선된 확산 학습 레시피는 80 에폭 만에 강력한 성능에 도달했고, VAE 기반 기존 확산 모델 대비 최대 47배, 표현 정렬 기법 대비 16배 빠른 학습 속도를 달성했다. 기업 관점에서는 더 낮은 학습 비용과 짧은 개발 주기, 의미 오류 감소로 인한 일관된 출력이 핵심 이점이다. 연구진은 최신 모델들이 주제 중심·지식 보강 생성으로 나아가는 추세 속에서, 표현 오토인코더(RAE)가 데이터에 대한 ‘더 똑똑한 렌즈’를 제공해 대규모·오픈소스 환경에서도 신뢰성을 높인다고 밝혔다.
ImageNet 벤치마크와 FID 지표
ImageNet 기준, 가이던스를 쓰지 않은 상태에서 FID 1.51을 기록했고, 더 작은 모델로 생성을 유도하는 AutoGuidance를 적용하자 256×256과 512×512 모두에서 FID 1.13으로 더 향상됐다. 낮을수록 좋은 FID 특성상, 이는 동급 최고 수준의 이미지 품질을 의미한다.
실제 적용 예시: RAG·영상·월드 모델
첫째, RAG 기반 생성: RAE 인코더 특징을 검색에 활용한 뒤 결과를 조건으로 새 이미지를 생성해, 지식 일관성과 주제 충실도를 높일 수 있다. 둘째, 영상 생성: 전역 의미 구조를 안정적으로 보존해 장면·주체의 일관성을 유지하는 시퀀스 생성을 지원한다. 셋째, 액션 조건 월드 모델: 행동 조건을 잠재 표현에 자연스럽게 주입해 예측적 시뮬레이션 품질을 끌어올린다. 또한 정교한 이미지 편집, 주제 일관 모델링, 대규모 파이프라인의 비용 절감 등 기업 워크플로우 전반에서 표현 오토인코더(RAE)의 이점을 직접 체감할 수 있다.
향후 전망: 통합 표현 모델로
연구진은 현실의 풍부한 구조를 포착하는 단일 통합 표현 모델이 여러 출력 모달리티로 복호화되는 미래를 제시한다. 핵심은 고차원 잠재공간을 별도로 학습해 강한 사전(prior)으로 삼고, 이후 이미지·영상 등 다양한 모달리티로 디코딩하는 방식이다. 이는 모든 데이터를 한데 섞어 다중 목적을 동시에 학습하는 ‘힘으로 밀어붙이는’ 접근보다 더 견고하고 확장 가능한 경로로, 표현 오토인코더(RAE)가 그 가교 역할을 한다.