Новости

Самая мощная графовая модель Wensheng с открытым исходным кодом в одночасье перешла из рук в руки! Будет выпущена модель генерации видео SOTA, созданная оригинальной командой SD.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Умные вещи (паблик аккаунт:zhidxcom
авторваниль
редактироватьЛи Шуйцин

Самая мощная графовая модель Wensheng с открытым исходным кодом в одночасье перешла из рук в руки!

Чжидунси сообщил 2 августа, что вчера вечером графовая модель Вэньшэн с открытым исходным кодом повелительСтабильная диффузияПервоначальная команда объявила о запуске новой модели генерации изображений.ПОТОК.1

FLUX.1 содержитПрофессиональная версия, версия для разработчиков, экспресс-версияИз трех моделей первые две превзошли основные модели, такие как SD3-Ultra, а меньшая по размеру FLUX.1 [schnell] также превзошла более крупные модели, такие как Midjourney v6.0 и DALL·E 3.


▲Показатель ELO FLUX.1 по сравнению с основными моделями

ПОТОК.1 дюймГенерация текста, следование сложным инструкциямиСоздано вручную имеет преимущества. Ниже приведен пример изображений, созданных с помощью самой мощной модели профессиональной версии FLUX.1[pro]. Вы можете видеть, что даже при создании больших фрагментов текста и нескольких символов ошибок в деталях, таких как символы и человеческие руки, не возникает. .


▲FLUX.1[pro] Пример сгенерированного изображения

FLUX.1 теперь доступен на платформе с открытым исходным кодом Replication, вот мои советы по его использованию»Самый маленький в мире торт «Шварцвальд» размером с палец в окружении шварцвальдских деревьев.», изображения, созданные на трех моделях, заняли соответственно17,5 с、12,2 с、1,5 с


▲Сравнение трех поколений моделей

FLUX.1 также открывает API (интерфейс прикладного программирования), и его цена зависит от количества изображений. Цены на три модели указаны за изображение.0,055 доллара США, 0,03 доллара США, 0,003 доллара США(Приблизительно 0,4, 0,22 и 0,022 юаней).

Компания, стоящая за FLUX.1, называетсяЛаборатории Черного леса (Лаборатория Шварцвальда), основанная первоначальной командой Stable Diffusion и несколькими бывшими исследователями Stability AI.Как и Stability AI, Black Forest стремится разрабатывать высококачественные мультимодальные модели и открывать их исходный код. Это завершено.31 миллион долларов(около 225 миллионов юаней) в рамках начального раунда финансирования.

Black Forest также дразнит, что он скоро выйдетВидеомодель SOTA (№1 по текущим техническим показателям) . Судя по выпущенной демо-версии, плавность, стабильность и физическая симуляция достигли уровня первого эшелона. Компания может стать темной лошадкой в ​​области генерации видео.


▲Предварительный просмотр модели создания видео

Пробный адрес трех моделей:

https://reulate.com/black-forest-labs/flux-pro

https://reulate.com/black-forest-labs/flux-dev

https://reulate.com/black-forest-labs/flux-schnell

1. Хорошо генерирует текст и человеческие руки, три модели могут быть созданы за секунды в любом масштабе.

FLUX.1 обладает превосходными характеристиками с точки зрения визуального качества, детализации изображения и разнообразия вывода. Он имеет три основные характеристики:Генерация текста, сложная композиция, рисунок человеческой руки

Генерация текста очень важна при создании изображений и видео, и многие модели склонны путать похожие буквы. FLUX.1 может обрабатывать сложные слова с повторяющимися буквами, например, генерироватьТорт Шварцвальд Флюс Шнелль


▲Торт Шварцвальд Флюс Шнелль

Когда дело доходит до композиции, FLUX.1 превосходно выполняет сложные инструкции, например, где что должно находиться на изображении. Например, FLUX.1 прекрасно интерпретирует эту подсказку: Три волшебника стоят на желтом столе, каждый держит табличку. Слева волшебник в черных одеждах держит табличку с надписью «ИИ»; посередине ведьма в красных одеждах держит табличку с надписью «IS»; справа волшебник в синих мантиях держит табличку с надписью «IS»; «ИИ» Знак с надписью «круто».


▲Сложный состав

Человеческие руки всегда были наиболее уязвимой зоной для мультимодальных генеративных моделей. Хотя изображение человеческой руки, созданное с помощью FLUX.1, еще не идеально, оно достигло большого прогресса.


▲Рабочая сила

ПОТОК.1 всегоПрофессиональная версия, версия для разработчиков, экспресс-версияТри версии.

в,FLUX.1[про]Это самая продвинутая версия с мгновенным отслеживанием высшего уровня, визуальным качеством, детализацией изображения и разнообразием выходных данных, предоставляющая индивидуальные корпоративные решения для профессиональных пользователей.


▲FLUX.1[pro] Пример сгенерированного изображения

FLUX.1[dev]Предназначенный для некоммерческого применения, он является усовершенствованной версией FLUX.1[pro] и предлагает аналогичное качество и возможности, но при этом более эффективен, чем стандартные модели того же размера.


▲FLUX.1[dev] Пример сгенерированного изображения

FLUX.1[schnell]Самая быстрая из трех моделей, она адаптирована для локальной разработки и личного использования и общедоступна по стандартной лицензии Apache 2.0.


▲FLUX.1[schnell] пример сгенерированного изображения

FLUX.1 теперь доступен на платформе Replication с открытым исходным кодом и может быть запущен в облаке с помощью всего лишь одной строки кода, или пользователи могут загрузить веса модели и запустить их программно. API FLUX.1 также открыт одновременно, а цены на три модели следующие:0,055 доллара США, 0,03 доллара США, 0,003 доллара США(Приблизительно 0,4, 0,22 и 0,022 юаней).

2. ПоражениеМЖ V6ДАЛЛЕ 3, скоро будет опубликован технический отчет

Что касается производительности, FLUX.1 был специально настроен, чтобы сохранить все разнообразие выходных данных при предварительном обучении, устанавливая новые стандарты во многих аспектах, таких как соответствие инструкциям, качество изображения, изменение размера/длины и ширины и т. д.

Среди них две модели, FLUX.1 [pro] и [dev], превзошли популярные модели, такие как Midjourney v6.0, DALL·E 3 и SD3-Ultra, по пяти критериям оценки.

Как легкая модель FLUX.1[schnell] не только лучше аналогичных конкурентов, но и лучше мощных недистилированных моделей, таких как Midjourney v6.0 и DALL·E 3.


▲Сравнение производительности FLUX.1 с основными моделями

Кроме того, все модели FLUX.1 поддерживают несколько соотношений сторон и разрешений 0,1 и 2,0 мегапикселя.


▲Изменение соотношения сторон/разрешения

Как достигается такая мощная производительность?

Что касается архитектуры модели, FLUX.1 использует гибридную архитектуру, основанную на мультимодальных и параллельных модулях диффузионных трансформаторов, и расширяет ее до 12B параметров.

Команда улучшила современную модель диффузии, создав Flow Matching, а также улучшила производительность модели и эффективность оборудования за счет объединения вращающегося позиционного внедрения и параллельных слоев внимания. Более подробный технический отчет будет опубликован в ближайшее время.

три,СДОригинальный экипаж,2.25100 миллионовСеменной раунд, хочу отправитьСОТАвидео модель

Лаборатория Black Forest Lab была основана командой основателей Stable Diffusion. Предыдущая работа команды также включала модель генерации высококачественных изображений VQGAN, модель генерации видео Stable Video Diffusion и т. д.

Среди первых пяти авторов «Стабильной диффузии»4Участники, которые присоединились к Stability AI и продолжили разработку последующих версий SD, в том числе Робин Ромбах, Андреас Блаттманн, Доминик Лоренц и Патрик Эссер, входят в команду основателей Black Forest Labs.


▲Автор книги «Стабильная диффузия» и основатель Black Forest Lab.

Команда заявила, что ее основными убеждениями являются разработка широко доступных моделей, содействие инновациям и сотрудничеству в исследовательских и академических сообществах, а также повышение прозрачности моделей.

Black Forest Labs объявляет о завершении31 миллион долларов(около 225 миллионов юаней)Начальное финансирование, возглавляемый известным институтом венчурного капитала a16z (Andreessen Horowitz), Брендан Ирибе, генеральный директор производителя виртуальной реальности Oculus, Гарри Тан, генеральный директор стартап-инкубатора YC, исследователь NVIDIA Тимо Айла и другие эксперты и компании, занимающиеся искусственным интеллектом, также приняли участие в инвестициях, а также получены последующие инвестиции от фондов первого уровня, таких как General Catalyst.

В консультативный совет команды входят бывший президент Disney Майкл Овиц, имеющий большой опыт работы в индустрии создания контента, и профессор Матиас Бетге, пионер в области нейронной передачи стилей.

Мастер искусственного интеллекта, который только начал свой бизнесАндрей Капаси(Андрей Карпати) поблагодарил команду Шварцвальда и сказал, что «модель генерации изображений FLUX.1 с открытым исходным кодом выглядит очень мощной».


▲Комментарии Капаси

Бывший лидер команды основателей – бывший генеральный директор Stability AIЭмад Мостак(Эмад Мостаке) также отправил поздравительное сообщение и сказал: «Для меня было честью работать с ними раньше, и я верю, что они будут продолжать раздвигать границы в пути создания каждого пикселя».


▲Комментарии Мостака

На следующем этапе работы Black Forest Trailer выпустит трейлер.Видеомодель SOTA Винсент , «Позволяет каждому конвертировать текст в видео». Модель будет построена на базе FLUX.1, «обеспечивающей точное создание и редактирование в высоком разрешении и с беспрецедентной скоростью».


▲Предварительный просмотр модели создания видео

Вывод: в области мультимодальных больших моделей появляются темные лошадки.

В то время как многие крупные производители и стартапы без ума от видеороликов Винсента, в сфере изображений Винсента внезапно появилась темная лошадка. «Рожденный из ниоткуда» FLUX.1 не только демонстрирует отличную производительность, преодолевая трудности при генерации текста, сложной композиции и ручном рисовании, но также удовлетворяет потребности различных пользователей благодаря разнообразным версиям.

Опираясь на сильную команду Stable Diffusion, лаборатория Шварцвальда получила щедрое начальное финансирование и привлекла внимание и поддержку многих лидеров отрасли. Видеомодели, которые будут выпущены в будущем, придадут новую жизнь сфере видео Винсента.