소식

멤버들은 모두 예전 클럽을 떠났고 Stable Diffusion은 사업을 시작했고 즉시 MJ v6를 물리쳤습니다.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

편집자: Du Wei, Jiaqi

AI 이미지 및 비디오 생성 분야에 또 다른 강력한 플레이어가 추가되었습니다.

올해 3월 말 AI 스타트업 스태빌리티 AI(Stability AI)에서 사임한 연구 과학자 로빈 롬바흐(Robin Rombach)를 기억하는가? Vincent 그래프 모델 Stable Diffusion을 개발한 두 명의 주요 저자 중 한 명인 그는 2022년 Stability AI에 합류했습니다.



Stability AI를 떠난 지 거의 5개월이 지난 지금, Robin Rombach는 자신의 사업을 시작한다는 좋은 소식을 트위터에 올렸습니다!

그는 이미지와 비디오를 위한 SOTA 고품질 생성 딥 러닝 모델을 홍보하고 가능한 한 많은 사람들이 사용할 수 있도록 "Black Forest Labs"를 설립했습니다.



팀 구성원은 뛰어난 AI 연구자 및 엔지니어로 구성되어 있으며, 이전 대표 연구로는 VQGAN 및 Latent Diffusion, 이미지 및 비디오 생성 분야의 Stable Diffusion 모델(Stable Diffusion XL, Stable Video Diffusion 및 Rectified Flow Transformers 포함) 및 Adversarial Diffusion이 있습니다. 초고속 실시간 이미지 합성을 위한 증류.

Robin Rombach 외에도 Stable Diffusion에는 Andreas Blattmann, Dominik Lorenz 및 Patrick Esser를 포함하여 창립 팀원이 된 세 명의 다른 저자가 있다는 점은 주목할 가치가 있습니다. 두 사람 모두 올해 초 Stability AI를 떠났으며 일부에서는 자신의 사업을 시작하기 위해 떠났다고 추측했습니다.



현재 Labs는 Andreessen Horowitz가 이끄는 3,100만 달러의 초기 자금 조달을 완료했습니다. 다른 투자자로는 엔젤 투자자 Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun 및 일부 유명한 AI 연구 및 기업가 정신 전문가가 있습니다. 또한 General Catalyst 및 MätchVC로부터 후속 투자도 받았습니다.

연구소는 또한 콘텐츠 제작 업계에서 광범위한 경험을 보유한 기술 거물 Michael Ovitz와 신경 스타일 전송의 선구자이자 유럽 개방형 AI 연구의 최고 전문가인 Matthias Bethge 교수를 포함하는 자문 위원회를 설립했습니다.

물론 Black Forest Labs는 다음과 같은 세 가지 변형 모델을 포함하는 첫 번째 모델 시리즈 "FLUX.1"을 출시했습니다.



첫 번째 변종은FLUX.1 [프로] , 이는 매우 풍부한 이미지 세부 정보, 강력하고 신속한 규정 준수 기능 및 다양한 스타일을 갖춘 새로운 SOTA Vincent 다이어그램 모델입니다. 현재 API를 통해 사용할 수 있습니다.

API 주소: https://docs.bfl.ml/



두 번째는FLUX.1 [개발] 는 FLUX.1 [pro]의 개방형 비상업적 변형이며 FLUX.1 [pro]에서 직접 증류됩니다. 이 모델은 Midjourney 및 Stable Diffusion 3과 같은 다른 이미지 모델보다 성능이 뛰어납니다. 추론 코드와 가중치는 GitHub에 게시되었습니다. 아래 사진은 경쟁 이미지 모델과 비교한 사진입니다.

GitHub 주소: https://github.com/black-forest-labs/flux



세 번째는 오픈소스다.FLUX.1 [슈넬] , Apache 2.0 프로토콜을 따르는 매우 효율적인 4단계 모델입니다. 이 모델은 성능면에서 [dev] 및 [pro]와 매우 유사하며 Hugging Face에서 사용할 수 있습니다.

포옹 얼굴 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell





한편, 블랙포레스트랩스는 자체 홍보에 나섰다.



다음 단계는 모두가 이용할 수 있고 모두가 기대할 수 있는 SOTA Vincent 비디오 모델을 출시하는 것입니다!



즉각적인 성공: Vincent 피규어 모델 시리즈 "FLUX.1" 출시

이번에 Black Forest Labs가 출시한 세 가지 모델은 모두 다중 모드 및 병렬 확산 변환기의 하이브리드 아키텍처를 사용합니다. 매개변수 개수에 따라 '중컵', '대형컵', '특대컵' 등 일련의 모델을 나누는 타사와 달리 FLUX.1 제품군은 12개라는 거대한 규모로 일률적으로 확장됐다. 10억 개의 매개변수.



연구팀은 기존 SOTA 확산 모델을 업그레이드하기 위해 Flow Matching 프레임워크를 사용했습니다. 연구팀이 Stability AI에서 작업하는 동안(올해 3월) 제안된 Rectified flow+Transformer 방법을 따랐다는 것은 공식 블로그의 댓글에서 유추할 수 있습니다.



논문 링크: https://arxiv.org/pdf/2403.03206.pdf

그들은 또한 회전 위치 임베딩과 병렬 주의 레이어를 도입했습니다. 이러한 방법은 모델의 이미지 생성 성능을 효과적으로 향상시키며, 하드웨어 장치에서 이미지를 생성하는 속도도 빨라졌습니다.

블랙포레스트랩스는 이번 모델의 세부 기술을 공개하지 않았지만, 보다 자세한 기술 보고서는 곧 공개될 예정이다.

세 가지 모델 모두 해당 분야에서 새로운 표준을 제시합니다. 생성된 이미지의 아름다움, 이미지가 텍스트 프롬프트에 얼마나 잘 맞는지, 크기/종횡비 가변성, 다양한 출력 형식 등 FLUX.1 [pro] 및 FLUX.1 [dev]는 다양한 기능을 뛰어넘습니다. Midjourney v6.0, DALL・E 3(HD) 및 SD3-Ultra와 같은 인기 있는 이미지 생성 모델입니다.

FLUX.1 [schnell]은 현재까지 가장 발전된 몇 단계 모델로, 경쟁사뿐만 아니라 Midjourney v6.0 및 DALL・E 3(HD) 모델과 같은 강력한 비증류 모델도 능가합니다.

모델은 사전 훈련 단계의 전체 출력 다양성을 유지하도록 특별히 미세 조정되었습니다. FLUX.1 시리즈 모델은 현재의 최첨단 기술에 비해 개선의 여지가 많이 남아 있습니다.



모든 FLUX.1 시리즈 모델은 0.1메가픽셀에서 2메가픽셀까지 다양한 화면비와 해상도를 지원합니다.



발빠르게 행동한 일부 네티즌들은 이미 시도해 본 바 있다. 블랙포레스트랩스가 거듭 강조한 '최강'은 단순한 자기 홍보가 아닌 것 같다.

간단한 프롬프트 단어로 이러한 효과를 만들 수 있습니다. 알파카 매트의 패턴을 자세히 살펴보면 왜곡이나 변형이 없습니다.



프롬프트 단어: 하얀 라마 위에 타고 있는 에메랄드 에뮤.

AI가 생성한 사진이라고는 말하지 않고서는 사진작가가 찍은 사진인지 구별하기 어렵다.



프롬프트 단어: 말 한 마리가 강에서 두 마리의 알리게이터와 함께 놀고 있습니다.

텍스트가 포함된 이미지도 쉽게 처리할 수 있으며 피사계 심도도 실제 렌즈 느낌에 맞게 처리됩니다.



세 가지 모델 중 성능이 조금 약한 FLUX.1 [schnell] 역시 빠르고 강력하게 사용해본 경험을 일부 네티즌들이 공유하며 한숨을 쉬었다. 정말 쓸만하다. .



Stable Diffusion과 Stability AI 작성자 간의 '불만'을 잘 모르는 네티즌들은 빈센트 그래프 모델이 갑자기 등장했는데, 정말 무섭도록 강력하다고 한탄했습니다.



Stable Diffusion의 저자와 그의 전 회사 Stability AI의 이야기와 관련하여 Machine Heart의 이전 보고서를 읽을 수 있습니다. 가치가 1억 달러에 달했을 때 Stable Diffusion 뒤의 팀은 누가 진짜 공식인지 서로 싸우기 시작했습니다. ?

가장 강력한 세 가지 Vincentian 모델 외에도 Black Forest Labs는 '큰 행보'도 보류하고 있습니다. 이미지 생성 모델을 위한 이러한 강력한 기능을 통해 Black Forest Labs는 비디오 생성 모델을 위한 탄탄한 기반을 마련했으며, 그들이 예언한 대로 컴퓨터 비전 분야의 최고 과학자들은 모두를 위한 최첨단 비디오 기술을 향해 나아가고 있습니다. .

회사 블로그: https://blackforestlabs.ai/announcements/