Тонкая настройка Flux взорвала весь Интернет: иностранные ребята сформировали команду героев Marvel!

2024-08-19

Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость]Рождение короля картографирования искусственного интеллекта, покорившего мир открытого исходного кода! Спустя полмесяца после выхода Flux стал любимой альтернативой Midjourney. Разработчики из всех слоев общества начали дорабатывать LoRA с помощью собственных фотографий, позволяя одному человеку освоить несколько стилей.

После Midjourney я никогда не видел людей, настолько без ума от приложений для обработки изображений с использованием искусственного интеллекта.

Появление Flux означает, что генерация изображений ИИ вступила в новый этап.

Сам Маск заявил, что больше не может отличить правду от лжи.

Во-первых, реалистичная фотография спикера TED произвела фурор в Интернете. Позже Grok 2, интегрировавшая модель Flux, преодолела ограничения и вызвала сумасшедшую реакцию среди пользователей сети.

Недавно разработчики Flux также начали дорабатывать свои собственные модели LoRA.

HuggingFace Lianchuang воскликнул, что Flux полностью покорил мир искусственного интеллекта с открытым исходным кодом. Он никогда не видел, чтобы модель с таким количеством производных моделей/онлайн-платформ/демо одновременно занимала горячий список.

Разработчик, который его настроил, сказал: «Flux+LoRA разрушит рынок генеративного ИИ. Вы можете находиться где угодно, носить что угодно, носить любую одежду, которая вам нравится, и создавать разные версии себя».

Например, превратиться в Супермена.

Возьмите выдвижной меч света и тени и превратитесь в рыцаря-джедая. Да пребудет с вами Сила.

Мало того, фотографии ледяных скульптур, игровых консолей с переключателями, ушей эльфов, показов мод и т. д. — это всего лишь слова.

Проведите пальцем влево или вправо, чтобы просмотреть

Точная настройка собственного LoRA теперь стала новой игрушкой для многих разработчиков.

Нет, вся сеть залита Flux+LoRA.

Один человек может сформировать «Мстителей»

Роуэн Чунг, основатель Rundown AI, использовал свои собственные фотографии в качестве данных, использовал Flux для обучения модели LoRA, а затем связал ее с Runway, чтобы заставить ее двигаться.

Как показано ниже, создается изображение, похожее на изображение выступающего TED.

После создания видео человек на фото действительно ожил и стал похож на говорящего. Единственный недостаток – от правой руки до тыльной стороны всего 2-3 пальца.

Другой создал себя, спасая мир как Супермен.

Благодаря анимации я наконец стал героем Marvel.

Переродитесь в фотографию, на которой вы носите модную одежду и идете по подиуму.

Публика с обеих сторон с энтузиазмом аплодировала, и это было воспринято как дефиле Т-сцены.

Кроме того, Роуэн Чунг также создал разные стили себя, которые соответствуют сцене и не содержат чувства непослушания.

Проведите пальцем влево или вправо, чтобы просмотреть

Он считает, что, хотя графика, созданная искусственным интеллектом, по-прежнему не может заменить целые фильмы/рекламные ролики, она уже имеет множество важных применений, особенно для создателей контента.

Например, эти изображения AI используются для создания превью и сопроводительных изображений к новостям, а также дополнительного материала (B-roll) в короткометражных фильмах.

Прочитав это, пользователь сети Мин Чхве сказала, что могла бы создать «Мстителей».

Бывший технический директор Intel также настроил свою собственную модель LoRA на A100, что обошлось ему в 7 долларов США (около 50 юаней) за 75 минут.

Проведите пальцем влево или вправо, чтобы просмотреть

Есть и разработчики, которые просто превратили себя в фильмы ужасов.

Проведите пальцем влево или вправо, чтобы просмотреть

Не могу отличить ИИ от реальности

Самый популярный из них — доработанная версия «сюрреализма» — провести границу между воображением и реальностью становится все сложнее.

Это реальная фотография или человек, нарисованный искусственным интеллектом?

После обучения LoRA в Flux-Dev был достигнут невероятный прогресс с точки зрения сложности и реализма сцены.

Любой стиль можно доработать

Кроме того, появляются различные стили тонкой настройки.

пиксельный стиль

Разработчики использовали стиль легендарного ZX Spectrum в качестве примера для тонкой настройки генерации пиксельных изображений LoRA.

В сгенерированном изображении ниже присутствуют такие изображения, как Жемчуг Дракона Сунь Укун, Железный Человек Марвел, Чуань Цзяньго (по-видимому) и т. д.

Проведите пальцем влево или вправо, чтобы просмотреть

анимированные каракули

Дизайнер продуктов генеративного искусственного интеллекта PS Дэвис Браун доработал модель half_illustration на основе Flux.

Создаваемые им изображения частично выполнены в стиле реальных фотографий, частично — в стиле анимированных граффити.

Перед каждым рисунком нужно только добавить - В стиле ТОК в начале подсказки.

Затем подробно опишите желаемый эффект, и фильм можно будет снимать немедленно.

Я чувствую, что в будущем мне не придется использовать PS, я смогу просто использовать AI для генерации изображений.

подсказка: В стиле TOK, фоторедакционная авангардная драматическая поза женщины с короткими синими волосами в круглых солнцезащитных очках 70-х годов, опускающей очки вниз и смотрящей вперед, в Токио с большими мраморными конструкциями и деревьями бонсай на закате, в яркой иллюстрированной куртке, окруженной иллюстрациями цветов, дыма, пламени, мороженого, блесток, рок-н-ролла.

подсказка: В стиле TOK, фоторедакционная драматическая поза человека с пронзительным взглядом, татуировками на лице, в креативной панаме, стоящего в Токио с большими мраморными сооружениями и бело-фиолетовыми деревьями на баскетбольной площадке, с яркой уличной иллюстрированной дутой винтажной курткой, черной рубашкой, вулканом на заднем плане, окруженным иллюстрациями дыма, пламени и цветов, тумана, восклицательных знаков, линий, выходящих наружу, персонажей-миньонов, бабочек.

Есть и другие фотографии в стиле граффити.

Проведите пальцем влево или вправо, чтобы просмотреть

Цзюгунге

Платформа набора данных с открытым исходным кодом LAION использовала модель Flux для обучения модели, которая может генерировать свои фотографии в виде сетки из девяти квадратов 3x3 под разными углами.

Отныне селфи будет достаточно.

Проведите пальцем влево или вправо, чтобы просмотреть

разный возраст

Облик жизни человека можно увидеть через Flux+LoRA.

Проведите пальцем влево или вправо, чтобы просмотреть

Другой пример:

Проведите пальцем влево или вправо, чтобы просмотреть

Супер играбельность

Главный герой сегодняшнего дня, FLUX.1, использует новую технологию «согласования потоков».

В то время как предыдущие модели диффузии создавали изображение путем постепенного удаления шума, начиная со случайной начальной точки, сопоставление потоков использует более прямой подход, изучая точные изменения, необходимые для преобразования шума в реальное изображение.

Эта разница в подходах приводит к уникальной эстетике и большим преимуществам с точки зрения скорости и контроля.

Текст: Большинство из них можно получить.

Одной из задач преобразования текста в изображение является точное преобразование текста в визуальное представление. FLUX.1 справляется с этим довольно хорошо, даже в таких сложных сценах, как мемы.

быстрый:

Это мем «хорошая собака под водой». Текст: «Изменение климата — это нормально». Это мем «хорошая собака» под водой. Текст: «Изменение климата не является большой проблемой»

быстрый:

Мем известного актера корчит смешную рожицу с надписью «Когда ты забываешь свои реплики» причудливым шрифтом Мем известного актера корчит смешную рожицу с надписью «Когда ты забываешь свои реплики» причудливым шрифтом

И свет, и текстура хороши

FLUX.1 прекрасно понимает свет, тень и текстуру, что позволяет неизменно создавать высококачественные изображения.

быстрый:

Подробное изображение сада, где цветы сделаны из нежного стекла, красиво отражающего солнечный свет Детальное изображение сада, где цветы изготовлены из нежного стекла, прекрасно отражающего солнечный свет

В этом изображении акцент сделан не только на текстуре стекла, но и на том, как свет преломляется и проходит через лепестки, создавая световой эффект.

быстрый:

Перья совы, сливающиеся с осенними листьями на ветру Перья совы, сливающиеся с осенними листьями на ветру

Художественный стиль: больше, чем имитация

FLUX.1, кажется, овладел принципами, лежащими в основе различных художественных стилей, что делает возможными творческие интерпретации.

быстрый:

знаменитая картина с волнами акварелью знаменитая картина с волнами

Эта «акварельная» версия «Большой волны в Канагаве» не только подразумевает, что знаковые волны были частью обучающих данных модели, но также подчеркивает, как методы «потока» приближают движение краски через воду, бумагу и чернила.

Композиция: сделайте сцену значимой.

FLUX.1 превосходно справляется с созданием сложных сцен, размещением объектов и персонажей одновременно реалистичным и визуально привлекательным.

быстрый:

Реалистичное изображение заколдованной библиотеки, где книги парят в воздухе, а полки сделаны из древних скрученных корней Реалистическое изображение волшебной библиотеки, где книги парят в воздухе, а полки сделаны из древних скрученных корней

«Поток»: новый визуальный язык

Технология сопоставления потоков, используемая в FLUX.1, придает изображению уникальное ощущение органического движения и плавности, как будто сами пиксели текут.

быстрый:

Собака с закрученным мехом в стиле Ван Гога.

Всегда есть инструмент, который поможет вам это сделать

Мы можем резюмировать процесс генерации изображения следующим образом: возьмите несколько входных пикселей, слегка переместите их от шума к шаблону, созданному введенным вами текстом, и повторяйте этот процесс, пока не достигнете заданного количества шагов.

Процесс тонкой настройки берет каждую пару изображение/аннотация из набора данных и слегка обновляет ее внутреннее сопоставление.

Таким образом вы можете научить модель чему угодно, если она может быть представлена парой изображение-заголовок: персонаж, обстановка, среда, стиль, жанр.

Слева: создано с использованием исходной модели FLUX.1; справа: создано на основе модели fofr/flux-bad-70s-food с использованием тех же подсказок и начальных значений;

В ходе обучения модель научится связывать эти понятия с конкретными текстовыми строками. В приглашении вам необходимо добавить эту строку, чтобы активировать эту ассоциацию.

Например, вы хотите настроить модель «супергероя в стиле комиксов».

Во-первых, необходимо собрать большое количество изображений персонажей в виде набора данных, включая, помимо прочего: разные сцены, костюмы, освещение и, возможно, даже разные художественные стили.

Затем выберите короткое и необычное слово или фразу, которая послужит триггером: что-то уникальное, что не будет конфликтовать с другими концепциями или настройками. Вы можете выбрать такие термины, как «плохая еда 70-х» или «ДЖЕЛЛОМОЛД».

После обучения вы просто вводите подсказку, содержащую триггерное слово, например «Сцена с плохой едой 1970-х годов на вечеринке в Сан-Франциско», и модель будет использовать конкретные концепции, которые вы добавили во время тонкой настройки.

Это так просто.

Поняв принцип, мы можем выбрать любой инструмент для тонкой настройки модели.

Например, парню по имени Мэтт Вулф, увидев крутое поколение выше, стало любопытно, и он попробовал его.

В результате он перевернулся...

Созданные ИИ изображения можно назвать разницей между шоу покупателя и шоу продавца.

Вот что он создал——

Это чужое -

Эти два изображения сопоставимы. Разница заключается в том, используется ли точная настройка LoRA или нет.

Младший брат, которого это стимулировало, немедленно отправился провести небольшое исследование. Он был приятно удивлен, обнаружив, что модель LoRA очень маленькая, всего от 2 до 500 МБ, и ее можно легко комбинировать с существующими моделями.

Что еще более удивительно, так это то, что модель ИИ может улучшать качество изображения, создавать уникальный стиль или генерировать специальных персонажей, таких как Марио или Губка Боб, не требуя дополнительных вычислительных мощностей или комплексного переобучения.

К сожалению, на Glif, которым я так хорошо пользуюсь, LoRA нельзя использовать во Flux.

Он обнаружил, что один из способов использования Flux — использование ComfyUI.

Думаю, многим знакома эта картина.

Альтернативно вы можете использовать такие платформы, как Replication, HuggingFace Spaces или Fal AI.

Попробовав ее на платформе Fal, я обнаружил, что она стоит 0,035 доллара США за мегапиксель. Таким образом, вы можете запустить модель 29 раз всего за 1 доллар США, что вполне рентабельно.

Здесь доступны FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro и т. д.

Не говоря ни слова, младший брат выбрал Flux Realism LoRA.

После тщательной отладки я установил размер шага вывода 28, а CFG — 2.

Полученные изображения потрясающие!

Если и есть какой-то недостаток, так это то, что освещение морщин на лбу все же неестественно.

Затем младший брат с энтузиазмом импортировал изображение в Gen-3 Alpha. На основании введенной им подсказки Gen-3 Alpha сгенерировал видео.

Вот только в какой-то момент микрофон в моей руке внезапно «поплыл», а в остальном видео все было в порядке.

Парень попробовал еще раз и создал второе видео.

На этот раз микрофон казался слишком неподвижным, словно застывшим на месте.

Кроме того, младший брат также присоединился к тенденции менять себя во всем Интернете, сгенерировав серию веселых фотографий.

Проведите пальцем влево или вправо, чтобы просмотреть

Наконец, я использовал Gen-3 Alpha, чтобы превратить его в видео, позволив себе и Дэдпулу пройти по одной и той же сцене фильма.

Ссылки:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://reulate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM

новости

Тонкая настройка Flux взорвала весь Интернет: иностранные ребята сформировали команду героев Marvel!

Введение

Моя контактная информация