leangnews
Command Palette
Search for a command to run...
2025년 11월 29일 09:02
블랙 포레스트 랩스, FLUX.2 공개…나노 바나나 프로·미드저니에 도전
기사 요약
- 독일 스타트업 블랙 포레스트 랩스가 멀티 레퍼런스, 고충실도, 개선된 텍스트 렌더링을 갖춘 이미지 생성·편집 시스템 FLUX.2를 출시했다.
- Apache 2.0으로 공개된 FLUX.2 VAE와 함께 Pro·Flex(호스팅), Dev(오픈웨이트·상업 라이선스 필요), 곧 공개될 Klein 등 다섯 가지 변형을 제공한다.
- BFL에 따르면 새 시스템은 품질-비용 효율과 정확도에서 경쟁력을 보였고, API 가격은 1MP당 약 $0.03로 Gemini 3 Pro(일명 나노 바나나 프로) 대비 유리하다.
개요: FLUX.2가 겨냥한 변화
블랙 포레스트 랩스(BFL)가 이미지 생성·편집 신형 스택인 FLUX.2를 공개했다. 이번 세대는 멀티 레퍼런스 컨디셔닝, 더 높은 재현 충실도, 향상된 텍스트 렌더링을 내세우며, 데모 중심을 넘어 실제 제작 파이프라인에 통합되도록 설계됐다. 오픈코어 전략을 유지하면서 상용 엔드포인트와 오픈웨이트 체크포인트를 병행 제공한다.
오픈코어와 FLUX.2 VAE의 의미
유일하게 완전 오픈소스로 공개된 구성요소는 Apache 2.0 라이선스의 변분 오토인코더(VAE)다. 이 모듈은 이미지를 잠재공간으로 압축·복원하며, 모든 변형 모델이 공유하는 표준 잠재 표현을 정의한다. 기업은 이 VAE를 통해 자사 셀프호스팅 파이프라인에서도 상용 모델과 동일한 잠재공간을 채택해 상호운용성을 확보하고 벤더 종속을 줄일 수 있다. 투명한 표준 잠재공간은 감사·컴플라이언스, 일관된 복원 품질, 경량 파인튜닝(브랜드 스타일·템플릿)에도 유리하다.
모델 라인업: Flux.2 [Pro/Flex/Dev/Klein]와 VAE
Pro는 최소 지연·최고 화질을 목표로 BFL Playground, FLUX API 및 파트너 플랫폼에서 제공된다. Flex는 샘플링 스텝 수, 가이던스 스케일 등 파라미터를 노출해 속도·텍스트 정확도·디테일 간 트레이드오프를 조정할 수 있다. Dev는 320억 파라미터의 오픈웨이트 체크포인트로 텍스트-투-이미지와 이미지 편집을 단일 모델에 통합했으며, 별도 모듈 없이 멀티 레퍼런스를 지원한다(로컬 실행 및 FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra 호스팅 제공). Klein은 곧 Apache 2.0으로 공개 예정인 사이즈 증류 모델이며, 모든 변형의 기반이 되는 VAE는 재구성 충실도·학습 용이성·압축률의 균형에 초점을 맞췄다.
벤치마크: FLUX.2 성능과 비용 효율
BFL이 공개한 평가에서 Dev 변형은 오픈웨이트 대안 대비 높은 승률을 보였다: 텍스트-투-이미지 66.6%(Qwen-Image 51.3%, Hunyuan Image 3.0 48.1%), 단일 레퍼런스 편집 59.8%(Qwen-Image 49.3%, FLUX.1 Kontext 41.2%), 멀티 레퍼런스 편집 63.6%(Qwen-Image 36.4%). ELO-비용 비교에서는 Pro·Flex·Dev가 1장당 2~6센트 구간에서 ELO 약 1030~1050대로 상단에 클러스터를 형성했다. BFL에 따르면 일부 독점 경쟁작(예: 나노 바나나 2)이 더 높은 ELO를 보이나 비용이 크게 높다.
가격: FLUX.2 API와 Nano Banana Pro 비교
가격 계산기에 따르면 Pro는 입력·출력을 합산한 메가픽셀당 약 $0.03이며, 1024×1024(1MP)는 $0.030이다. 입력 이미지도 과금 총량에 포함돼 멀티 레퍼런스 사용 시 호출 단가가 상승할 수 있다. 반면 Google Gemini 3 Pro Image Preview(일명 나노 바나나 프로)는 출력 기준 100만 토큰당 $120로, 1~2K(최대 2048×2048) 이미지는 약 $0.134, 4K는 약 $0.24다(입력은 이미지당 $0.0011로 미미). 실사용 관점에서 1MP 기준 Pro는 1~2K 및 4K 출력 대비 현저히 저렴하며, 고해상도·다중 이미지 편집 워크플로에서 비용 우위가 크다.
아키텍처 업그레이드와 잠재공간 개편
새 스택은 라틴트(flow) 매칭 기반으로, Rectified Flow Transformer와 Mistral-3(24B) 기반 비전-언어 모델을 결합한다. VLM이 의미적 정합과 문맥 이해를, 트랜스포머가 공간 구조·재질 표현·광원 거동을 담당한다. 재훈련된 VAE는 의미 정렬, 재구성 품질, 표현 학습 용이성에서 진전이 있었고, BFL 연구 데이터에 따르면 FLUX.1 및 SD 오토인코더 대비 LPIPS 왜곡을 낮추면서 생성 FID도 개선했다. 이는 4MP 수준의 고충실도 편집과 대규모 생성 학습의 학습성 사이 균형을 가능하게 한다.
주요 기능: 멀티 레퍼런스·타이포그래피·프롬프트 추종
최대 10장의 레퍼런스를 받아 인물·제품·스타일 일관성을 유지한다. 난점이던 타이포그래피도 개선돼 미세 문자, 구조화된 레이아웃, UI 요소, 인포그래픽 제작 신뢰성이 높아졌다. 유연한 종횡비와 고해상도 편집, 복합 지시문 추종력 향상, 광원·재질 같은 물리 속성의 정합성 개선으로 상업 사진, 머천다이징, 스토리보딩, 브랜드 에셋 제작 등 활용 폭이 넓다.
생태계와 배경: 오픈과 상용의 병행
BFL은 추론 코드 공개, 오픈웨이트 VAE, 프롬프트 가이드, 아키텍처 문서로 투명성을 강조하며 오픈 연구와 상용 신뢰성을 결합한다. 창업자는 Stable Diffusion의 주역 로빈 롬바흐, 패트릭 에서, 안드레아스 블라트만이며, 2024년 a16z 주도의 3,100만 달러 시드 투자를 유치했다. 전작 FLUX.1(120억 파라미터)은 Pro·Dev·Schnell로 공개돼 품질로 호평을 받았고, xAI Grok 2 등 다운스트림 채택과 함께 엄격한 사용 정책을 발표했다. 2024년 말에는 Flux 1.1 Pro로 속도를 6배 높이고 유료 API(이미지당 $0.04부터)와 TogetherAI, Replicate, FAL, Freepik 파트너십을 확장했다.
엔터프라이즈 시사점
모델 생애주기를 관리하는 엔지니어는 호스팅 엔드포인트와 오픈웨이트 체크포인트를 병행 활용해 유연한 통합 경로를 설계할 수 있다. 멀티 레퍼런스와 확장된 해상도 지원은 브랜드·아이덴티티 일관성 확보에 필요한 맞춤 파이프라인을 줄여 배포를 가속한다. 오케스트레이션 측면에서는 Pro가 예측 가능한 지연을 제공하고, Flex가 스텝·가이던스 제어로 성능 튜닝 요구를 충족한다. Dev 오픈웨이트는 컨테이너화·CI/CD 통합과 비용 통제를 돕지만 내부 최적화가 필요하다. 데이터·보안 팀은 표준 잠재공간과 높은 재구성 품질로 데이터 정제 부담을 줄이고, 호스팅/자체 배포 각각에 맞는 거버넌스·버전 관리·사용 모니터링 체계를 갖춰야 한다.
결론: 생산 중심으로 이동하는 이미지 생성
FLUX.2는 멀티 레퍼런스 일관성, 텍스트 렌더링, 잠재공간 품질, 구조화 프롬프트 추종 등에서 뚜렷한 진전을 보였다. 완전관리형(off-the-shelf) 서비스와 오픈웨이트를 함께 제공하는 오픈코어 전략으로 상업용 크리에이티브 워크플로에 적합한 예측 가능성·확장성·제어 가능성을 제시한다.