Моя контактная информация
Почта[email protected]
2024-08-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Автор|Сюушань, редактор|Манман Чжоу
“
Многие ожидают, что он станет следующим Midjourney.
”
Возможно, это самый успешный стартап в области искусственного интеллекта в истории.
Всего через 15 дней после своего создания AI-стартап Black Forest Labs уже привлек 32 миллиона долларов США в виде начального финансирования и выпустил серию крупных моделей искусственного интеллекта Vincent FLUX.1.
Мало того, даже Grok-2, крупная модель искусственного интеллекта, только что созданная Маском, быстро запустила функцию графа Винсента с ее поддержкой, привлекая миллионы пользователей сети к участию во взаимодействии.
И в отличие от функции изображения Винсента других моделей ИИ, ограничений на изображения, генерируемые на Гроке-2, почти нет, и они вполне реалистичны.
Хотите ли вы, чтобы Стив Джобс дразнил кота, или хотите, чтобы Цукерберг и Маск встретились оффлайн в «Восьмиугольной клетке», Grok-2 может удовлетворить ваши желания. Видно, что модель работает очень хорошо с точки зрения семантического понимания, выравнивания и возможностей генерации изображений (за исключением безопасности).
Каково происхождение этой компании? Как это свело с ума пользователей сети, и даже Маск был готов выбрать его для своих основных продуктов? После тщательного расследования г-н Силиконовый Кролик наконец раскрыл тайну Шварцвальдских лабораторий.
01
Возможность создания Black Forest Labs начинается с Stability AI, еще одной компании-единорога в области искусственного интеллекта.
Фактически, нынешняя стартовая команда Black Forest Labs, состоящая из 15 человек, полностью состоит из Stability AI. Можно сказать, что создание Black Forest Labs было коллективным бегством сотрудников.
Основатель Black Forest Labs Робин Ромбах был бывшим научным сотрудником Stability AI и одним из двух основных столпов Stability AI.
Он изучал физику в Гейдельбергском университете и в 2020 году начал докторантуру в группе компьютерного зрения университета. Робин сосредоточился на моделях глубокого обучения, особенно в области графов Винсента, а затем в 2021 году присоединился к Мюнхенскому университету в составе научно-исследовательской группы.
Во время работы в Stability AI он руководил разработкой большой модели искусственного интеллекта на винсентском графе.Стабильная диффузия. Поначалу Stable Diffusion можно было назвать повелителем в области визуализации ИИ, что вызвало шок в отрасли. Оценка Stability AI также превысила 1 миллиард долларов США, что сделало ее одним из единорогов ИИ.
Но в 2024 году развитие Stability AI резко повернётся. По имеющимся данным, ежегодные затраты Stability AI составляют примерно 99 миллионов долларов США, но ее доход составляет всего 11 миллионов долларов США, что приводит к серьезному дисбалансу между доходами и расходами. Впоследствии в марте этого года бывший генеральный директор Stability AI Эмад Мостак уволил из компании по меньшей мере 19 руководителей высшего звена.
Робин Ромбах тоже снова начал искать выход. Black Forest Labs — это новое начало для него и новая отправная точка для многих бывших сотрудников Stability AI. Когда была основана Black Forest Labs, многие сотрудники Stability AI взволнованно воскликнули: «Мы живы!».
В настоящее время существует три версии моделей серии FLUX.1: с открытым и закрытым исходным кодом. Среди них FLUX.1 [pro] — самая мощная версия с закрытым исходным кодом, предназначенная для профессиональных приложений, требующих максимальной производительности; FLUX.1 [dev] — модель искусственного интеллекта с открытым исходным кодом, обеспечивающая более эффективное качество изображения и оперативность; слова, но не для коммерческого использования; FLUX.1 [schnell] — версия с открытым исходным кодом, предназначенная для локальной разработки и личного использования. Это самая быстрая из трех версий и требуется наименьший объем памяти.
Все три модели имеют открытые пробные версии на сайтах Replication и Models. Всего за полмесяца FLUX.1 [dev]HuggingfaceКоличество загрузок на FLUX.1 [schnell] превысило 200 000, а число загрузок FLUX.1 [schnell] превысило 580 000, а количество опытов достигло 380 миллионов раз.
Ссылка на опыт регистрации: FLUX.1 [schnell]: https://redicate.com/black-forest-labs/flux-schnell
02
Хотя модели серии FLUX.1 созданы оригинальной командой Stable Diffusion, это не означает, что они являются копиями Stable Diffusion.
СМИ объединили для обзора Flux, SD3 Medium, Auraflow и Midjourney. Видно, что текущая относительно превосходная графическая модель Винсента генерирует разные фотографии для одной и той же текстовой подсказки.
Сначала подсказка: «Нарисованная от руки иллюстрация гигантского паука, преследующего женщину в джунглях. Чрезвычайно страшная, болезненная, темная и жуткая сцена со пугающей, наводящей на размышления атмосферой».
Видно, что Flux очень хорошо использует свет и тени, чтобы создать ощущение ужаса. Дизайн паука действительно устрашающий, ноги острые, а мордашка очень реалистична. Голубой тон Auraflow не создает темного и пугающего эффекта, а общая картина стилизована. Черно-белый стиль SD3 Medium создает у людей сильное ощущение эскиза. Дизайн паука детализирован и устрашающий, но характеристики немного противоречивы.
Вторая оценка в основном проверяет способность генераторов изображений понимать пространство. Текстовая подсказка гласит: «Собака стоит на вершине телевизора, на экране отображается слово «Расшифровать». Слева — женщина в костюме, держащая монету, а справа — робот, оказывающий первую помощь. комплект. Вся сцена была сюрреалистичной».
Изображение, сгенерированное Flux, наиболее близко к описанию, оно размещает все элементы там, где они должны быть. Общая композиция сбалансирована, оформление каждого элемента и ретрофутуристический стиль отвечают требованиям сюрреализма. Но у него есть и некоторые недостатки, например, у персонажа лишняя рука. SD3 Medium занял второе место. Общий дизайн также соответствовал требованиям к текстовому описанию, но не хватало точности. Например, собака в мультяшном стиле должна стоять, а не сидеть. Auraflow имеет пробелы в точности понимания текста и качестве изображений, которые он представляет.
Совет третий гласит: «Фотография оживленной городской улицы ночью в высоком разрешении. Неоновые огни освещают сцену. Люди ходят по тротуару, проезжают машины, а уличные торговцы продают хот-доги. Огни отражаются на скользкой дороге. Общий стиль Гиперреалистичный, внимание к деталям и освещению, неоновая вывеска с надписью «Расшифровано». Этот совет посвящен взгляду основных генераторов изображений на реализм.
Изображение, созданное Flux, богато деталями и хорошо освещено. Изображение хорошо отображает оживленную улицу с четкими ключевыми указателями и яркими изображениями пешеходов. SD3 также способен показать сбалансированную композицию, реалистичное освещение и тщательно интегрированные элементы, но изображение пешеходов немного скудное.
Наконец, зарубежные СМИ Decrypt также поставили Flux и Midjourney на две оценки и в конечном итоге сочли Flux более сильным.
Первая текстовая подсказка гласит: «Черно-белое фото женщины с длинными прямыми волосами, сидящей на полу перед современным диваном, одетой в полностью черный наряд, подчеркивающий ее формы. Она уверенно смотрит в камеру. стройные ноги обнажены, когда она присела на минималистском фоне, подчеркивающем ее элегантную позу. Снято Питером Линдбергом с использованием объектива Hasselblad X2D 105 мм с диафрагмой f/4 для большей визуальной привлекательности».
Decrypt считает, что Flux отражает требования подсказки с помощью естественных поз, контекстного фона и детальной визуализации. С морфологической точки зрения он наиболее точен. Midjourney показывает яркие изображения и богатые детали на изображениях, но ему не хватает многоуровневого изображения, как у Flux, а представление положения тела не так точно, как у Flux.
Вторая текстовая подсказка гласила: «Снимок белого кота в полный рост, играющего на пианино, в солнцезащитных очках и шляпе, в фиолетовом костюме в гавайском стиле на сером студийном фоне, для коммерческого использования».
Decrypt считает, что Flux отвечает требованиям фотографии в полный рост, серого студийного фона и определенной одежды. Композиция является профессиональной и изысканной и полностью соответствует требованиям. Midjourney обеспечивает снимки крупным планом, изображение выразительное, но не отвечает требованиям съемки в полный рост и студийных фонов.
Видно, что Flux находится в авангарде отрасли с точки зрения детализации фотографий, понимания пространства и стилизации. Он может конкурировать с Midjourney, а в некоторых аспектах даже превосходит Midjourney.
03
Можно сказать, что область ИИ Вэньшэнту на данный момент находится в стадии разработки.Генеративный ИИОдин из самых горячих треков в этой области. В настоящее время Google, Meta и OpenAI присматриваются к этому направлению. Возможности, продемонстрированные FLUX.1, заставили многих людей ожидать, что он станет следующим Midjourney.
Но ключ к тому, чтобы стать следующим Midjourney, лежит в коммерциализации.
Базовый план Midjourney, пионера в том же направлении, стоит 96 долларов США в год и может генерировать около 200 изображений в месяц, что эквивалентно 25 изображениям на доллар. Базовый план Ideogram стоит 84 доллара в год и может генерировать до 400 изображений в месяц или 50 изображений за доллар.
Компания Black Forest заключила партнерское соглашение с Fal AI, разработчиком модели Auraflow с открытым исходным кодом, для поддержки генерации облаков. Эти модели также доступны для бесплатного тестирования на сайте Replication.com. Как только пользователи достигнут своей бесплатной дневной квоты, они смогут использовать модель Flux Pro для создания 33 изображений за 1 доллар или использовать Flux Schell для создания 333 изображений за 1 доллар.
По сравнению с Midjourney и Ideogram, Black Forest предоставляет пользователям больше выбора. Но это не является коммерческим успехом Шварцвальда. Стоимость поддержки генеративной модели ИИ очень высока. Возьмем, к примеру, Stability AI. По данным Forbes, Stability AI тратит около 8 миллионов долларов США в месяц на затраты и заработную плату, но ее доход составляет всего 1,2 миллиона долларов США, что далеко не покрывает затраты. Сегодня коммерциализация также стала «застрявшим» звеном для Ideogram и Pika Labs AI.
Таким образом, чтобы действительно превзойти Midjourney, то, как Black Forest сбалансирует доходы и расходы, будет ключом к доминированию в крупной модели Винсентийского ИИ.
04
Лаборатории Шварцвальда и Маск, кажется, договорились о создании «чат-бота против пробуждения ИИ», и ни один из них не хочет налагать слишком много ограничений на ИИ.
«Чат-бот против пробуждения ИИ» здесь относится к чат-боту с ИИ, который намеренно избегает принятия определенных политкорректных или социально пробуждённых взглядов. Он не будет фильтровать спорные темы, когда сталкивается с ними. Грок, очевидно, является носителем концепции Маска «чат-бот против пробуждения искусственного интеллекта».
Что касается оценки безопасности, то хотя Грок и упомянул свои шесть «запретов», включая ограничения контента, авторские права, сложность обработки изображений и т. д., на самом деле, судя по сгенерированным фотографиям, у Грока почти нет табу, в том числе знаменитости, порнография, насилие, и т. д. Созданные изображения стали популярными на социальной платформе X.
Хотя многие регулирующие органы выразили недовольство Социальной платформой X, Маска это, похоже, не смущает. После выпуска Grok-2 Маск также разрешил пользователям публиковать созданные Grok изображения AI непосредственно на платформе без каких-либо подсказок водяных знаков, созданных AI или Grok.
В 2022 году Маск упомянул в социальной платформе X, что установление ограничений для ИИ снизит безопасность модели ИИ. «Обучение ИИ легко разбудить. Другими словами, опасность лжи (ИИ) фатальна». войти во владение моделями серии FLUX.1.
в соответствии сГраньПо оценкам многих СМИ, аналогичная модель искусственного интеллекта изображений Imagen от Google и DALL·E 3 от OpenAI также отказались генерировать слова с «опасным подтекстом», но Грок быстро отреагировал и быстро сгенерировал изображения.
Всего полмесяца назад, когда Black Forest Labs была впервые основана, она объявила, что целью компании является «повышение доверия людей к безопасности этих моделей». Полмесяца спустя Black Forest Labs и Маск встали на сторону «отсутствия ограничений на ИИ» и открыли черный ящик винсентийской модели ИИ.
Столкнувшись со множеством противоречий, Black Forest Labs теперь предпочитает избегать разговоров об этом, пытаясь сместить фокус обсуждения в другие направления. Член правления компании Анджей Мидха 14 августа раскритиковал Google в социальной платформе X. БлизнецыПри первом выпуске в области винсентийской графики присутствовала скрытая расовая дискриминация и другие ситуации, и было заявлено, что таких ситуаций не будет в моделях серии FLUX.1.
Мы видим, что с точки зрения возможностей винсентианских графов модели серии FLUX.1 действительно мощны и уже могут конкурировать с Midjourney. Но с точки зрения безопасности Black Forest Labs, похоже, выбрали другой путь, чем игроки, идущие по тому же пути.
Сделает ли «отказ от установки ограждений безопасности» Black Forest Labs абсолютным доминирующим игроком в области винсентийской графики? Или это одним махом уничтожит новую популярность моделей серии FLUX.1? Посмотрим.