Новости

Все участники покинули свой старый клуб, Stable Diffusion начали свой бизнес и сразу же победили MJ v6.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Монтажер: Ду Вэй, Цзяци

В области создания изображений и видео с помощью ИИ появился еще один мощный игрок.

Помните Робина Ромбаха, ученого-исследователя, который ушел из AI-стартапа Stability AI в конце марта этого года? Как один из двух основных авторов, разработавших графовую модель Винсента Stable Diffusion, он присоединился к Stability AI в 2022 году.



Теперь, спустя почти пять месяцев после ухода из Stability AI, Робин Ромбах написал в Твиттере хорошие новости о открытии собственного бизнеса!

Он основал «Black Forest Labs», чтобы продвигать высококачественные модели генеративного глубокого обучения SOTA для изображений и видео и делать их доступными как можно большему количеству людей.



Члены команды состоят из выдающихся исследователей и инженеров в области искусственного интеллекта. Их предыдущая репрезентативная работа включает модели VQGAN и Latent Diffusion, Stable Diffusion в области генерации изображений и видео (включая Stable Diffusion XL, Stable Video Diffusion и Rectified Flow Transformers) и Adversarial Diffusion. Дистилляция для сверхбыстрого синтеза изображений в реальном времени.

Стоит отметить, что помимо Робина Ромбаха в Stable Diffusion есть еще три автора, которые стали членами команды-основателя, в том числе Андреас Блаттманн, Доминик Лоренц и Патрик Эссер. Они оба покинули Stability AI в начале этого года, причем некоторые полагают, что они ушли, чтобы начать собственный бизнес.



В настоящее время лаборатории завершили начальный раунд финансирования на сумму 31 миллион долларов под руководством Андриссена Горовица. Среди других инвесторов — бизнес-ангелы Брендан Ирибе, Майкл Овиц, Гарри Тан, Тимо Айла, Владлен Колтун и некоторые известные эксперты в области исследований искусственного интеллекта и предпринимательства. Кроме того, компания получила дополнительные инвестиции от General Catalyst и MätchVC.

Лаборатории также создали консультативный совет, в состав которого входят Майкл Овиц, технологический магнат с обширным опытом работы в индустрии создания контента, и профессор Маттиас Бетге, пионер в области передачи нейронных стилей и ведущий эксперт в области открытых исследований искусственного интеллекта в Европе.

Конечно, Black Forest Labs выпустила свою первую модельную серию «FLUX.1», которая включает в себя следующие три варианта модели.



Первый вариантFLUX.1 [про] , это совершенно новая модель диаграммы SOTA Vincent с чрезвычайно богатой детализацией изображения, мощными возможностями быстрого соответствия и разнообразными стилями. В настоящее время доступно через API.

Адрес API: https://docs.bfl.ml/



ВторойFLUX.1 [разв] , который представляет собой открытый некоммерческий вариант FLUX.1 [pro] и получен непосредственно из последнего. Эта модель превосходит другие модели изображений, такие как Midjourney и Stable Diffusion 3. Код вывода и веса были размещены на GitHub. На рисунке ниже представлено сравнение с конкурирующими моделями изображений.

Адрес GitHub: https://github.com/black-forest-labs/flux



Третий — с открытым исходным кодом.FLUX.1 [шнелль] , это сверхэффективная четырехэтапная модель, основанная на протоколе Apache 2.0. Эта модель очень близка к [dev] и [pro] по производительности и может использоваться на Hugging Face.

«Обнимающее лицо»: https://huggingface.co/black-forest-labs/FLUX.1-schnell





Тем временем Black Forest Labs начинает продвигать себя.



Следующий шаг — запуск видеомодели SOTA Vincent, которая доступна каждому, и каждый может ее с нетерпением ждать!



Мгновенный успех: скоро появится серия фигурок Винсента «FLUX.1».

Все три модели, выпущенные Black Forest Labs на этот раз, используют гибридную архитектуру мультимодального и параллельного диффузионного трансформатора. В отличие от других компаний, которые по количеству параметров делят серию моделей на «среднюю чашку», «большую чашку» и «очень большую чашку», члены семейства FLUX.1 единообразно расширены до огромного масштаба в 12 миллиард параметров.



Исследовательская группа использовала структуру Flow Matching для обновления предыдущей модели диффузии SOTA. Из комментариев в официальном блоге можно сделать вывод, что исследовательская группа следовала предложенному методу «Выпрямленный поток + Трансформатор», еще работая в Stability AI (в марте этого года).



Ссылка на документ: https://arxiv.org/pdf/2403.03206.pdf.

Они также представили встраивание вращательного положения и слои параллельного внимания. Эти методы эффективно улучшают производительность модели при генерации изображений, а также стала быстрее скорость генерации изображений на аппаратных устройствах.

Black Forest Labs на этот раз не раскрыла подробную технологию модели, но более подробный технический отчет будет опубликован в ближайшее время.

Все три модели устанавливают новые стандарты в своих областях. Будь то красота сгенерированных изображений, насколько хорошо изображения вписываются в текстовые подсказки, изменчивость размера/соотношения сторон или разнообразие выходных форматов, FLUX.1 [pro] и FLUX.1 [dev] выходят за рамки диапазона Популярные модели создания изображений, такие как Midjourney v6.0, DALL・E 3 (HD) и SD3-Ultra.

FLUX.1 [schnell] — самая совершенная на сегодняшний день многоступенчатая модель, превосходящая не только своих конкурентов, но и мощные непереработанные модели, такие как Midjourney v6.0 и DALL・E 3 (HD).

Модель специально настроена так, чтобы сохранить все разнообразие выходных данных этапа предварительного обучения. Модели серии FLUX.1 также оставляют много возможностей для улучшения по сравнению с современными технологиями.



Все модели серии FLUX.1 поддерживают различные соотношения сторон и разрешения: от 0,1 до 2 мегапикселей.



Некоторые пользователи сети, которые действовали быстро, уже опробовали это. Похоже, что «самое сильное», на что неоднократно подчеркивали Black Forest Labs, — это не просто самореклама.

Простые слова-подсказки могут создать такой эффект. Если внимательно посмотреть на рисунок коврика из альпаки, то никаких искажений или деформаций нет.



Подсказка: изумрудный эму верхом на белой ламе.

Не говоря уже о том, что это изображение, созданное искусственным интеллектом, трудно сказать, сделана ли эта фотография фотографом.



Слово-подсказка: Лошадь играет с двумя аллигаторами на реке.

Изображения, содержащие текст, также можно легко обрабатывать, а глубина резкости также обрабатывается в соответствии с реальным ощущением от объектива.



Среди трех моделей FLUX.1 [schnell], который имеет немного более низкую производительность, также является быстрым и мощным в использовании. Некоторые пользователи сети поделились своим опытом запуска его на Mac и не могли не вздохнуть: оно того стоит. .



Пользователи сети, мало что знавшие о «разногласиях» между авторами Stable Diffusion и Stability AI, сокрушались: модель графа Винсента появилась из ниоткуда, и она была просто пугающе мощной.



Что касается истории автора Stable Diffusion и его бывшей компании Stability AI, вы можете прочитать предыдущие отчеты Machine Heart: Когда проект был оценен в 100 миллионов долларов США, команды, стоящие за Stable Diffusion, начали сражаться друг с другом, кто является настоящим чиновником. ?

Помимо трех самых мощных моделей Vincentian, Black Forest Labs также сдерживает свой «большой ход». Обладая такими мощными возможностями для моделей генерации изображений, Black Forest Labs заложила прочную основу для моделей генерации видео, и, как они предсказывают, эти ведущие ученые в области компьютерного зрения движутся к созданию самых современных видеотехнологий для всех. .

Блог компании: https://blackforestlabs.ai/announcements/