가장 강력한 오픈 소스 Wensheng 그래프 모델이 하룻밤 사이에 주인이 바뀌었습니다! SD 원팀이 직접 만든 SOTA 영상 생성 모델 출시 예정

2024-08-02

스마트한 것들(공개 계정:지드엑스컴）
작가바닐라
편집하다리 슈이칭

가장 강력한 오픈 소스 Wensheng 그래프 모델이 하룻밤 사이에 주인이 바뀌었습니다!

Zhidongxi는 8월 2일에 어제 저녁 오픈 소스 Wensheng 그래프 모델이 대군주라고 보고했습니다.안정된 확산원팀은 새로운 이미지 생성 모델 출시를 발표했습니다.플럭스.1。

FLUX.1에는 다음이 포함됩니다.프로페셔널 에디션, 개발자 에디션, 익스프레스 에디션세 가지 모델 중 처음 두 모델은 SD3-Ultra와 같은 주류 모델을 능가했으며, 더 작은 FLUX.1 [schnell]도 Midjourney v6.0 및 DALL·E 3과 같은 대형 모델을 능가했습니다.

▲주류 모델 대비 FLUX.1 ELO 점수

FLUX.1인치텍스트 생성, 복잡한 명령 따르기그리고직접 생성됨 장점이 있습니다. 다음은 가장 강력한 프로페셔널 버전 모델인 FLUX.1[pro]로 생성한 이미지의 예입니다. 큰 부분의 텍스트와 여러 문자를 생성하더라도 문자, 사람 손 등 세부적인 부분에는 오류가 없음을 알 수 있습니다. .

▲FLUX.1[pro] 생성 이미지 예시

FLUX.1은 이제 오픈 소스 플랫폼 Replicate에서 사용할 수 있습니다. 사용에 대한 팁은 다음과 같습니다.블랙 포레스트 나무들에 둘러싸인 손가락 크기의 세계에서 가장 작은 블랙 포레스트 케이크”, 세 모델에서 생성된 이미지는 각각 촬영되었습니다.17.5초、12.2초、1.5초。

▲3세대 모델 비교

FLUX.1은 또한 API(Application Programing Interface)를 열고 이미지 수에 따라 가격이 책정됩니다. 세 가지 모델의 가격은 차례로 이미지별로 책정됩니다.0.055달러, 0.03달러, 0.003달러(대략 RMB 0.4, 0.22, 0.022위안)

FLUX.1 뒤에 있는 회사는 다음과 같습니다.블랙 포레스트 랩스 (Black Forest Laboratory)는 Stable Diffusion의 원래 팀과 Stability AI의 전직 연구원들이 설립했습니다.Stability AI와 마찬가지로 Black Forest는 고품질 다중 모드 모델을 개발하고 이를 오픈소스화하는 데 전념하고 있습니다.3,100만 달러(약 2억 2,500만 위안)의 시드 라운드 파이낸싱.

블랙포레스트도 곧 출시된다고 놀리더라구요SOTA(현행기술지표 1위) 영상모델 . 출시된 데모를 보면 부드러움, 안정성, 물리적 시뮬레이션 모두 1단계 수준에 도달했습니다. 이 회사는 비디오 생성 분야에서 다크호스가 될 수 있습니다.

▲영상 생성 모델 미리보기

세 가지 모델 평가판 주소:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. 텍스트와 인간의 손을 생성하는 데 능숙하며 세 가지 모델을 규모에 맞게 몇 초 만에 생성할 수 있습니다.

FLUX.1은 시각적 품질, 이미지 디테일 및 출력 다양성 측면에서 탁월한 성능을 제공합니다. 세 가지 주요 특징이 있습니다.텍스트 생성, 복잡한 구성, 인간 손 그리기。

텍스트 생성은 이미지 및 비디오 생성에서 매우 중요하며, 많은 모델이 유사해 보이는 문자를 혼동하는 경향이 있습니다. FLUX.1은 반복되는 문자가 포함된 까다로운 단어를 처리할 수 있습니다.블랙 포레스트 플럭스 슈넬 케이크：

▲블랙 포레스트 플럭스 슈넬 케이크

구성과 관련하여 FLUX.1은 이미지의 위치와 같은 복잡한 지침을 따르는 데 탁월합니다. 예를 들어 FLUX.1은 이 프롬프트를 완벽하게 해석합니다. 세 명의 마법 마법사가 노란색 테이블 위에 각각 표지판을 들고 서 있습니다. 왼쪽에는 검은 로브를 입은 마법사가 중앙에 "AI"라고 적힌 표지판을 들고 있고, 오른쪽에는 빨간색 로브를 입은 마녀가 "IS"라고 적힌 표지판을 들고 있으며, 파란색 로브를 입은 마법사는 "AI"라고 적힌 표지판을 들고 있습니다. "AI" "멋지다"라는 표시입니다.

▲복잡한 구성

인간의 손은 항상 다중 모드 생성 모델에서 가장 큰 타격을 받는 영역이었습니다. FLUX.1에서 생성된 인간 손 이미지는 아직 완벽하지는 않지만 큰 발전을 이루었습니다.

▲인력

FLUX.1 총프로페셔널 에디션, 개발자 에디션, 익스프레스 에디션세 가지 버전.

안에,플럭스.1[프로]최고 수준의 즉각적인 추적, 시각적 품질, 이미지 디테일 및 출력 다양성을 갖춘 가장 진보된 버전으로, 전문 사용자를 위한 맞춤형 기업 솔루션을 제공합니다.

▲FLUX.1[pro] 생성 이미지 예시

FLUX.1[개발]비상업적 용도로 설계된 이 제품은 FLUX.1[pro]에서 개선되었으며 동일한 크기의 표준 모델보다 더 효율적이면서 유사한 품질과 기능을 제공합니다.

▲FLUX.1[dev] 생성 이미지 예시

FLUX.1[스넬]세 가지 모델 중 가장 빠른 이 모델은 로컬 개발 및 개인 용도로 맞춤화되었으며 Apache 2.0 표준 라이선스에 따라 공개적으로 제공됩니다.

▲FLUX.1[schnell] 생성 이미지 예시

FLUX.1은 이제 오픈 소스 플랫폼 Replicate에서 사용할 수 있으며 단 한 줄의 코드로 클라우드에서 실행할 수 있습니다. 또는 사용자가 모델 가중치를 다운로드하여 프로그래밍 방식으로 실행할 수 있습니다. FLUX.1의 API도 동시에 오픈되었으며, 세 가지 모델의 가격은 다음과 같습니다.0.055달러, 0.03달러, 0.003달러(대략 RMB 0.4, 0.22, 0.022위안)

2. 패배엠제이 V6달이 3, 기술 보고서가 곧 공개될 예정입니다.

성능 측면에서 FLUX.1은 사전 훈련에서 전체 출력 다양성을 유지하도록 특별히 미세 조정되었으며 지침 준수, 시각적 품질, 크기/길이 및 너비 변경 등과 같은 여러 측면에서 새로운 표준을 설정했습니다.

이 중 FLUX.1 [pro]와 [dev] 두 모델은 5가지 평가 기준에서 Midjourney v6.0, DALL·E 3, SD3-Ultra 등 인기 모델을 능가했습니다.

경량 모델인 FLUX.1[schnell]은 유사한 경쟁사보다 우수할 뿐만 아니라 Midjourney v6.0 및 DALL·E 3과 같은 강력한 비증류 모델보다 우수합니다.

▲FLUX.1 메인스트림 모델과의 성능 비교

또한 모든 FLUX.1 모델은 0.1 및 2.0 메가픽셀의 다양한 화면비와 해상도를 지원합니다.

▲화면 비율/해상도 변경

이렇게 강력한 성능을 어떻게 달성할 수 있나요?

모델 아키텍처 측면에서 FLUX.1은 다중 모드 및 병렬 확산 변압기 모듈을 기반으로 하는 하이브리드 아키텍처를 채택하고 이를 12B 매개변수로 확장합니다.

팀은 Flow Matching을 구축하여 최첨단 확산 모델을 개선했으며, Rotary Position Embedding과 병렬 주의 레이어를 결합하여 모델 성능과 하드웨어 효율성을 향상했습니다. 보다 자세한 기술 보고서는 곧 공개될 예정입니다.

삼,에스디원래 승무원은,2.251억시드 라운드, 보내려고 합니다소타비디오 모델

Black Forest Lab은 Stable Diffusion의 창립팀이 설립한 팀의 이전 작업에도 고품질 이미지 생성 모델 VQGAN, 비디오 생성 모델 Stable Video Diffusion 등이 포함되었습니다.

Stable Diffusion의 원저자 5인 중,4Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser 등 Stability AI에 합류하고 계속해서 SD의 후속 버전을 개발하는 구성원이 모두 Black Forest Labs 창립 팀에 속해 있습니다.

▲Stable Diffusion의 저자이자 Black Forest Lab 창립팀

팀은 자사의 핵심 신념은 광범위하게 접근 가능한 모델을 개발하고 연구 및 학술 커뮤니티에서 혁신과 협력을 촉진하며 모델 투명성을 높이는 것이라고 말했습니다.

Black Forest Labs, 완료 발표3,100만 달러(약 2억2천5백만 위안)시드 라운드 파이낸싱이번 투자에는 유명 벤처캐피탈 기관인 a16z(안드레센 호로비츠)를 필두로 VR 제조사 오큘러스(Oculus)의 브렌단 이리베(Brendan Iribe) CEO, 스타트업 인큐베이터 YC의 게리 탄(Garry Tan) CEO, 엔비디아 연구원 티모 아일라(Timo Aila) 등 전문가와 AI 기업들도 투자에 참여했다. General Catalyst 등 1차 펀드로부터 후속 투자도 이어졌습니다.

팀의 자문단에는 콘텐츠 제작 업계에서 폭넓은 경험을 보유한 전직 디즈니 사장인 마이클 오비츠(Michael Ovitz)와 뉴럴 스타일 트랜스퍼(Neural Style Transfer) 분야의 선구자인 마티아스 베스게(Matthias Bethge) 교수가 포함되어 있습니다.

이제 막 사업을 시작한 AI 마스터안드레이 카파시(Andrej Karpathy)는 Black Forest 팀에 축복을 전하며 "오픈 소스 FLUX.1 이미지 생성 모델이 매우 강력해 보인다"고 말했습니다.

▲카파시의 코멘트

전 창립팀 리더 - 전 Stability AI CEO에마드 모스탁(Emad Mostaque)도 축하 메시지를 보내 "이전에도 함께 일할 수 있어서 영광이었고, 모든 픽셀을 생성하는 여정에서 계속해서 한계를 뛰어 넘을 것이라고 믿습니다."라고 말했습니다.

▲모스타크 코멘트

다음 작업 단계에서 Black Forest Trailer는SOTA 빈센트 비디오 모델 , "모든 사람이 텍스트를 비디오로 변환할 수 있습니다." 이 모델은 FLUX.1을 기반으로 구축되어 "고화질 및 전례 없는 속도로 정확한 생성 및 편집이 가능합니다."

▲영상 생성 모델 미리보기

결론: 복합 대형 모델 분야에 다크호스가 등장하다

많은 주요 제조업체와 스타트업이 Vincent 비디오에 열광하는 동안 Vincent 사진 분야는 갑자기 다크호스를 불러왔습니다. "새롭게 태어난" FLUX.1은 텍스트 생성, 복잡한 구성 및 수동 드로잉의 어려움을 뛰어넘어 뛰어난 성능을 보여줄 뿐만 아니라 다양한 버전으로 다양한 사용자의 요구를 충족합니다.

Black Forest Laboratory는 Stable Diffusion의 원래 팀의 강력한 힘에 의지하여 넉넉한 시드 라운드 자금 조달을 확보했으며 많은 업계 리더들의 관심과 지원을 받았습니다. 앞으로 출시될 영상 모델들은 빈센트 영상 분야에 새로운 활력을 불어넣을 것입니다.

소식

가장 강력한 오픈 소스 Wensheng 그래프 모델이 하룻밤 사이에 주인이 바뀌었습니다! SD 원팀이 직접 만든 SOTA 영상 생성 모델 출시 예정

소개

내 연락처 정보