Искусственный интеллект создает изображения быстрее и лучше понимает ваши мысли. Какие технические секреты раскрывает красавица-модель Винсента?

2024-08-12

С появлением крупных моделей и нажатием кнопки ускорения диаграммы Винсента, несомненно, стали одним из самых популярных направлений применения.

С момента зарождения Stable Diffusion в стране и за рубежом шел бесконечный поток больших моделей винсентианских фигур, и какое-то время это было похоже на «битву между богами». Всего за несколько месяцев титул «Сильнейшего художника по искусственному интеллекту» несколько раз переходил из рук в руки. Каждая технологическая итерация продолжает расширять верхний предел качества и скорости генерации изображений ИИ.

Итак, теперь мы можем получить любую картинку, какую захотим, введя несколько слов. Будь то коммерческий плакат профессионального уровня или гиперреалистичная фотография, точность картографирования с помощью ИИ поразила нас. ИИ даже выиграл премию Sony World Photography Awards 2023 года. До объявления главного приза эта «фотография» выставлялась в Сомерсет-Хаусе в Лондоне — если бы автор не раскрыл ее публично, никто бы не узнал, что фотография на самом деле была создана ИИ.

Эльдагсе и его работа «Электрик», созданная искусственным интеллектом.

То, как сделать изображения, нарисованные ИИ, красивее, невозможно отделить от настойчивых усилий технических специалистов по ИИ.В шестом выпуске «Школы опыта AIGC» были приглашены технический эксперт Doubao Vincent Chart Ли Лян и архитектор решений NVIDIA Чжао Ицзя, чтобы предоставить нам углубленный анализ технологии, лежащей в основе модели Vincent Chart, для создания более красивых, быстрых и более понятных моделей. в сознании пользователя.

В начале прямой трансляции Ли Лян впервые подробно рассмотрел техническую модернизацию модели диаграммы Винсента недавней «топовой» отечественной большой модели - большой модели ByteDance Doubao.

Ли Лян сказал, что проблемы, которые команда Doubao хочет решить, в основном включают три аспекта: во-первых, как добиться более четкого соответствия изображений и текста, чтобы они соответствовали дизайну идеи пользователя, во-вторых, как создавать более красивые изображения, чтобы обеспечить более полный опыт пользователей; третий — как быстрее создавать графики для удовлетворения сверхкрупномасштабных сервисных вызовов.

Что касается сопоставления изображений и текста, команда Doubao начала с данных, уточнила и отфильтровала огромные объемы изображений и текстовых данных и, наконец, сохранила в базе данных сотни миллиардов высококачественных изображений. Кроме того, команда также специально подготовила мультимодальную модель большого языка для задачи перепросмотра. Эта модель будет более полно и объективно описывать физические взаимоотношения изображений в картинках.

Если у вас есть высококачественные и подробные изображения и текстовые данные, если вы хотите лучше использовать возможности модели, вам необходимо улучшить возможности модуля понимания текста. В качестве кодировщика текста команда использует родную двуязычную модель большого языка, что значительно улучшает способность модели понимать китайский язык. Поэтому, учитывая национальные элементы, такие как «Династия Тан» и «Фестиваль фонарей», модели диаграмм Дубао и Винсента. также продемонстрировать более глубокое понимание.

Для архитектуры модели Diffsuion команда Дубао также применила уникальные секреты. Они использовали UNet для эффективного масштабирования. Увеличив количество параметров, графовая модель Дубао-Венсена еще больше улучшила понимание пар изображение-текст и возможности генерации с высокой точностью. .

Для наиболее очевидного эстетического стиля, который пользователи интуитивно чувствуют, команда Doubao ввела профессиональное эстетическое руководство и всегда обращает внимание на эстетические предпочтения пользователей и публики. В то же время команда также усердно работала над архитектурой данных и модели. Во многих случаях сравнение изображений, которые получает пользователь, и демонстрационного дисплея похоже на «шоу покупателя» и «шоу продавца». На самом деле, данное приглашение не является подробным и достаточно ясным для модели и диаграммы Дубао Винсента. Модель представляет «Перефразировщик», следуя первоначальному намерению пользователя, добавляет более подробные описания к словам подсказки, поэтому все пользователи ощутят более совершенный эффект генерации.

Чтобы модель создавала изображения быстрее и потребляла меньше денег на изображение, команда Дубао также предложила новые идеи решения проблем в методе дистилляции модели. Типичным достижением является Hyber-SD, которая представляет собой новую дистилляцию диффузионной модели. Структура, которая обеспечивает производительность практически без потерь при сокращении количества шагов шумоподавления.

Затем архитектор решений NVIDIA Чжао Ицзя начал с базовой технологии и объяснил две наиболее распространенные архитектуры моделей Vincent Graph SD и DIT на основе Unet и их соответствующие характеристики, а также представил инструменты NVIDIA Tensorrt, Tensorrt-LLM, Triton, How, такие как Nemo. Megatron обеспечивает поддержку при развертывании моделей и помогает большим моделям рассуждать более эффективно.

Чжао Ицзя сначала поделился подробным объяснением принципов модели, лежащей в основе стабильной диффузии, и подробно остановился на принципах работы ключевых компонентов, таких как Clip, VAE и Unet. По мере того, как Sora стала популярной, она также стала популярной благодаря стоящей за ней архитектуре DiT (Diffusion Transformer). Чжао Ицзя далее провел всестороннее сравнение преимуществ SD и DiT по трем аспектам: структура модели, характеристики и энергопотребление.

При использовании стабильной диффузии для создания изображений вы часто чувствуете, что содержание слов-подсказок представлено в сгенерированных результатах, но изображение не то, что вам нужно. Это связано с тем, что стабильная диффузия, основанная на рендеринге текста, не очень хорошо контролирует детали. изображения, такие как композиция, движения, черты лица, пространственные отношения и т. д. Поэтому, основываясь на принципе работы стабильной диффузии, исследователи разработали множество модулей управления, чтобы компенсировать недостатки стабильной диффузии. Чжао Ицзя добавил представителя IP-адаптера и ControlNet.

Техническая поддержка NVIDIA играет ключевую роль в ускорении вывода модели графа Винсента с интенсивными вычислениями. Чжао Ицзя представил инструменты Nvidia TensorRT и TensorRT-LLM, которые оптимизируют процесс вывода моделей генерации изображений и текста посредством высокопроизводительной свертки, эффективного планирования и технологий распределенного развертывания. В то же время Ada, Hopper и будущая аппаратная архитектура NVIDIA BlackWell уже поддерживают обучение и вывод FP8, что обеспечит более плавное обучение моделей.

После шести замечательных прямых трансляций «AIGC Experience Party», организованная совместно Volcano Engine, NVIDIA и CMO CLUB, завершилась успешно. Я считаю, что благодаря этим шести программам каждый имеет более глубокое понимание того, как AIGC меняется от «интересного» к «полезному». Мы также надеемся, что «Школа опыта AIGC» не только останется в обсуждении программы, но и ускорит процесс интеллектуального обновления в сфере маркетинга на практике.

Обзорный адрес всех шести выпусков «Школы опыта AIGC»: https://vtizr.xetlk.com/s/7CjTy

новости

Искусственный интеллект создает изображения быстрее и лучше понимает ваши мысли. Какие технические секреты раскрывает красавица-модель Винсента?

Введение

Моя контактная информация