Новости

Процесс рисования можно восстановить с помощью всего лишь одного изображения. Этот документ был реализован раньше, чем Paints-UNDO.

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Введение автора: Сонг Ижэнь: кандидат наук в ShowLab Национального университета Сингапура. Его основные направления исследований включают создание изображений и видео, а также безопасность искусственного интеллекта.

Хуан Шицзе: студент второго курса магистратуры Национального университета Сингапура. В настоящее время работает инженером-алгоритмом в компании Tiamat AI. Его основное направление исследований — генерация изображений. В настоящее время ищу возможности поступления в докторантуру осенью 2025 года.

Недавно lvmin представил последнюю модель Paints-UNDO. Этот инструмент генерации искусственного интеллекта может восстановить весь процесс рисования на основе изображений, и все сообщество AIGC шокировано.



Демо-версия Paints-UNDO.

Еще месяц назад NUS, SJTU, Tiamat и другие учреждения совместно выпустили работу по аналогичным задачам: ProcessPainter: Изучите процесс рисования на основе данных последовательности. Технический отчет Paints-UNDO еще не опубликован, давайте посмотрим, как его реализует ProcessPainter!



  • Название статьи: ProcessPainter: Изучите процесс рисования на основе данных последовательности
  • Ссылка на документ: https://arxiv.org/pdf/2406.06062.
  • Ссылка на код: https://github.com/nicolaus-huang/ProcessPainter

Откройте любую книгу с инструкциями по рисованию, и вы увидите пошаговые инструкции по рисованию. Однако в эпоху генеративного ИИ генерация изображений посредством процесса шумоподавления полностью отличается от процесса рисования людей-художников. Процесс рисования ИИ не может быть напрямую использован для обучения рисованию.

Чтобы решить эту проблему, ProcessPainter впервые позволяет модели диффузии генерировать процесс рисования, обучая временную модель на синтетических данных и видео рисования людей-художников. Кроме того, процессы рисования разных тем и художников сильно различаются, а стили сильно различаются. Однако в настоящее время существует очень мало исследований, в которых процесс живописи был бы объектом изучения. На основе предварительно обученной модели движения автор статьи изучил техники рисования художника, обучая Motion LoRA на небольшом количестве последовательностей рисования конкретного художника.



Углубленная интерпретация базовой технологии ProcessPainter.



1. Временной механизм внимания

Использование временного внимания для обучения созданию процесса рисования является основной инновацией ProcessPainter. Ключом к созданию последовательности живописи является то, что вся последовательность представляет собой процесс изменения одной и той же картины от абстрактного к конкретному, а предыдущие и последующие кадры последовательны и актуальны по содержанию и композиции. Для достижения этой цели автор представил в Unet модуль тайминга из AnimateDiff. Этот модуль располагается после каждого диффузионного слоя и поглощает информацию из разных кадров посредством механизма межкадрового самообслуживания, обеспечивающего плавный переход и непрерывность всей последовательности.

Эксперименты показывают, что эта стратегия обучения может поддерживать одинаковые эффекты рисования между кадрами. Разница между задачами генерации процесса рисования и задачами создания видео заключается в том, что изменения до и после процесса рисования более радикальные. Первый кадр представляет собой цветной блок или линейный рисунок с низкой степенью завершенности, а последний кадр представляет собой полную картину. , что создает проблему для обучения модели. С этой целью автор статьи сначала предварительно обучил модуль синхронизации на большом количестве наборов синтетических данных, что позволило модели изучить пошаговый процесс рисования различными методами SBR (рендеринг на основе штрихов), и затем использовал данные процесса рисования десятков художников для обучения модели рисования LoRA.

2. Сеть репликации произведений искусства

В живописной практике мы предпочитаем знать, как написано произведение и как продолжать дорабатывать его, начиная с полузаконченной картины, чтобы добиться желаемого законченного эффекта. Это приводит к двум задачам: реконструкция и завершение процесса покраски. Учитывая, что обе задачи требуют ввода изображений, автор статьи предложил сеть репликации произведений искусства.

Эта сетевая конструкция может обрабатывать ввод изображения любого кадра и гибко управлять генерацией процесса рисования. Подобно предыдущим методам управляемой генерации, автор статьи представляет вариант ControlNet для управления конкретными кадрами в сгенерированных результатах, чтобы они соответствовали эталонному изображению.

3. Синтетические наборы данных и стратегии обучения

Поскольку реальные данные о процессе окраски получить трудно, их количества недостаточно для крупномасштабного обучения. С этой целью авторы статьи построили синтетический набор данных для предварительного обучения.

В частности, используются три метода синтетических данных:

1. Используйте «Научиться рисовать», чтобы создать последовательность рисования полупрозрачных штрихов кривой Безье;

2. Используйте рисование в нейронном стиле, чтобы создать стиль масляной живописи и последовательности рисования в стиле китайской живописи, настроив мазки.

3. Вышеупомянутый метод SBR (основное рисование обводкой) предназначен для подбора целевого изображения от грубого до мелкого, что означает, что уже окрашенные части можно перезаписывать и изменять. Однако многие типы картин, например китайские картины. и скульптуры, из-за ограниченности материала, завершенную часть невозможно существенно видоизменить, и процесс росписи завершается на отдельных участках. С этой целью автор статьи использует SAM (сегментацию чего угодно) и методы обнаружения значимости, чтобы добавлять контент с чистого холста в субрегионы один за другим, сначала рисовать заметные объекты, а затем постепенно рассеивать их на фон для синтеза. видео процесса покраски.

На этапе обучения автор статьи сначала предварительно обучил модель движения на синтетическом наборе данных, затем заморозил параметры модели движения и обучил сеть репликации произведений искусства. При точной настройке модели рисования LoRA первым шагом является использование только последнего кадра для точной настройки пространственного внимания LoRA, чтобы не допустить, чтобы полуфабрикат обучающего набора рисования навредил качеству генерации модели.

После этого авторы статьи заморозили параметры пространственного внимания LoRA и точно настроили временное внимание LoRA, используя полную последовательность рисования. На этапе вывода, при создании последовательностей рисования из текста, ProcessPainter не использует сеть репликации графических изображений. В задаче реконструкции и завершения процесса рисования ProcessPainter использует сеть репликации графических изображений для получения входных эталонных данных для конкретного кадра. Чтобы гарантировать, что кадры в сгенерированной последовательности рисования максимально точно соответствуют входному изображению, ProcessPainter использует технику инверсии DDIM для получения начального шума эталонного изображения и замены начального шума конкретного кадра в UNet.

Отображение эффекта ProcessPainter

Базовая модель ProcessPainter, обученная на синтетическом наборе данных, может генерировать последовательности рисования с процедурным стилем.



Отдельно обучая Motion Lora на последовательностях рисования небольшого количества художников, ProcessPainter может изучить процесс рисования и стиль конкретного художника.



Укажите эталонное изображение, и ProcessPainter сможет выполнить обратную деконструкцию готового изображения на этапы рисования или вывести законченное изображение из полуфабриката.



Сочетание этих технических компонентов позволяет ProcessPainter не только генерировать процессы рисования из текста, но также преобразовывать эталонные рисунки в последовательности рисования или завершать незавершенные рисунки. Это, несомненно, предоставляет новые инструменты для художественного образования, а также открывает новый путь для сообщества AIGC. Возможно, в ближайшем будущем на Цивитаи появятся различные Лоры, имитирующие процесс рисования людей-художников.

Для получения более подробной информации прочтите оригинальную статью или посетите домашнюю страницу проекта Github.