Новости

Комплексная комбинация создания 3D-сцен, диалоговой управляемой системы создания и редактирования 3D-изображений LLM доступна здесь.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Первый автор и соответствующий автор этой статьи оба из лаборатории VDIG (визуальная интерпретация и генерация данных) Института компьютерных наук Вансюань Пекинского университета. Первым автором является докторант Чжоу Сяоюй, а руководителем докторантуры Ван Юнтао. . В последние годы лаборатория VDIG опубликовала ряд репрезентативных результатов на ведущих конференциях, таких как IJCV, CVPR, AAAI, ICCV, ICML, ECCV и т. д., а также завоевала награды чемпионата и места, занявшего второе место в соревнованиях в тяжелом весе на внутреннем рынке. и зарубежная область резюме, он также неоднократно получал награды от известных университетов в стране и за рубежом. Научно-исследовательские учреждения активно сотрудничают.

В последние годы методы преобразования текста в 3D для отдельных объектов совершили ряд прорывов, но создание управляемых, высококачественных сложных многообъектных 3D-сцен из текста по-прежнему сталкивается с огромными проблемами. Предыдущие методы имели серьезные недостатки в сложности, геометрическом качестве, согласованности текстур, многообъектном взаимодействии, управляемости и редактируемости сгенерированной сцены.

Недавно исследовательская группа VDIG из Института компьютерных наук Вансюань Пекинского университета и ее сотрудники объявили о последних результатах исследования GALA3D. Для создания сложных 3D-сцен с несколькими объектами в этой работе предлагается управляемая структура генерации сложных 3D-сцен на основе LLM, GALA3D, которая может генерировать высококачественные, высокосогласованные 3D-сцены с несколькими объектами и сложными интерактивными отношениями, а также поддерживает диалоговое взаимодействие. Контролирующий редактор, статья принята ICML 2024.



Подробнее: GALA3D: на пути к созданию сложных сцен из текста в 3D с помощью генеративного гауссовского сплаттинга, управляемого макетом

Ссылка на документ: https://arxiv.org/pdf/2402.07207.

Код бумаги: https://github.com/VDIGPKU/GALA3D.

Сайт проекта: https://gala3d.github.io/



GALA3D — это высококачественная комплексная комбинированная генерация сцен и управляемая среда редактирования текста в 3D. Пользователь вводит текст описания, и GALA3D может создать соответствующую трехмерную сцену с множеством объектов и сложными интерактивными отношениями в режиме нулевого кадра. Обеспечивая точное соответствие сгенерированной 3D-сцены тексту, GALA3D демонстрирует отличные характеристики в создании качества сцены, сложном взаимодействии нескольких объектов и геометрической согласованности сцены. Кроме того, GALA3D также поддерживает удобную для пользователя сквозную генерацию и контролируемое редактирование, позволяя обычным пользователям легко настраивать и редактировать 3D-сцены во время разговорных разговоров. Общаясь с пользователями, GALA3D может точно осуществлять диалоговое и управляемое редактирование сложных 3D-сцен, а также реализовывать различные потребности в контролируемом редактировании, такие как преобразование макета сложных 3D-сцен, встраивание цифровых активов и изменение стиля оформления на основе диалога пользователя.

Введение метода

Общая архитектура GALA3D показана на рисунке ниже:



GALA3D использует большие языковые модели (LLM) для создания первоначальных макетов и предлагает генеративное трехмерное гауссово представление с управлением макетом для построения сложных трехмерных сцен. GALA3D Design оптимизирует форму и распределение 3D-гауссианов посредством адаптивного управления геометрией для создания 3D-сцен с единообразной геометрией, текстурой, масштабом и точным взаимодействием. Кроме того, GALA3D также предлагает комбинированный механизм оптимизации, который сочетает в себе априоры условной диффузии и модели графов Винсента для совместного создания трехмерных многообъектных сцен с согласованными стилями, одновременно оптимизируя начальные априоры компоновки, извлеченные из LLM, для получения более реалистичной и точной Реальная сцена планировка пространства. Обширные количественные эксперименты и качественные исследования показывают, что GALA3D достигает значительных результатов в создании сложных 3D-сцен из текста, превосходя существующие методы Винсента 3D-сцен.

a. Предварительная компоновка сцены на основе LLM.

Большие языковые модели демонстрируют превосходное понимание естественного языка и возможности рассуждения. В этой статье дополнительно исследуются возможности рассуждения и создания макетов больших языковых моделей LLM в сложных трехмерных сценах. Получение относительно разумного макета без ручного проектирования может помочь снизить затраты на моделирование и создание сцены. С этой целью мы используем LLM (например, GPT-3.5) для извлечения экземпляров ввода текста и их пространственных отношений, а также генерируем соответствующие априоры макета. Однако существует определенный разрыв между трехмерной пространственной компоновкой и априорной компоновкой сцены, интерпретируемой LLM, и реальной сценой, что обычно приводит к генерации подвешенных/проходящих объектов, комбинаций объектов с чрезмерно разными пропорциями и т. д. Кроме того, мы предлагаем модуль уточнения макета для корректировки и оптимизации предварительно созданного чернового макета с помощью предварительной диффузии на основе визуального представления и генеративного 3D Gaussian на основе макета.

б. Улучшение макета

GALA3D использует модуль оптимизации макета макета, основанный на Diffusion, перед оптимизацией макета, ранее созданного вышеупомянутыми LLM. В частности, мы добавили оптимизацию градиента трехмерного гауссовского пространства на основе макета в процесс создания трехмерных изображений и скорректировали пространственное положение, угол поворота и соотношение размеров макетов, сгенерированных LLM, через ControlNet. На рисунке показаны трехмерная сцена и макет до и. после оптимизации Переписка. Оптимизированный макет имеет более точное пространственное положение и пропорциональный масштаб, а также делает взаимодействие нескольких объектов в 3D-сцене более разумным.



c. Генеративное трехмерное гауссово представление на основе макета.

Мы впервые вводим ограничения 3D-макета в 3D-гауссово представление и предлагаем генеративное 3D-гауссово представление на основе макета для сложных 3D-сцен. Трехмерное гауссово представление на основе макета содержит несколько семантически извлеченных объектов экземпляра, где предшествующий макет каждого объекта экземпляра может быть параметризован как:

Среди них N представляет общее количество объектов-экземпляров на сцене. В частности, каждый экземпляр 3D Gaussian оптимизируется посредством адаптивного управления геометрией для получения 3D Gaussian представления объекта уровня экземпляра. Кроме того, мы объединяем гауссианы нескольких объектов во всю сцену в соответствии с отношениями относительного положения, генерируем глобальные 3D-гауссианы с учетом макета и визуализируем всю сцену с помощью глобального гауссова сплаттинга.

d. Адаптивное управление геометрией.

Чтобы лучше контролировать пространственное распределение и геометрическую форму 3D-гауссианов в процессе генерации, мы предлагаем метод адаптивного управления геометрией для генеративных 3D-гауссианов. Во-первых, учитывая набор исходных гауссиан, чтобы ограничить 3D-гауссианы в пределах диапазона макета, GALA3D использует набор функций распределения плотности для ограничения пространственного положения гауссовского эллипсоида. Затем мы отбираем гауссианы вблизи поверхности макета, чтобы соответствовать функции распределения. После этого мы предлагаем использовать регуляризацию формы для управления геометрией трехмерных гауссиан. В процессе создания 3D-изображений адаптивный контроль геометрии постоянно оптимизирует распределение и геометрию гауссиан для создания 3D-мультиобъектов и сцен с большим количеством деталей текстур и стандартизированной геометрией. Адаптивное управление геометрией также обеспечивает генерацию 3D-гауссианов на основе макета с большей управляемостью и согласованностью.

Результаты эксперимента

По сравнению с существующими методами преобразования текста в 3D, GALA3D демонстрирует лучшее качество и согласованность создания 3D-сцен. Количественные результаты эксперимента показаны в следующей таблице:



Мы также провели обширный и эффективный опрос пользователей, пригласив 125 участников (39,2% из которых были экспертами и практиками в смежных областях) для проведения многосторонней оценки сценариев генерации этого метода и существующих методов. Результаты показаны на рисунке. следующая таблица:



Результаты экспериментов показывают, что GALA3D превосходит существующие методы по показателям многомерной оценки, таким как качество сцены, геометрическая точность, согласованность текста и согласованность сцены, и достигает оптимального качества генерации.

Как показано в качественных экспериментальных результатах ниже, GALA3D может генерировать сложные многообъектные 3D-сцены с нулевым кадром и хорошей согласованностью:



На рисунке ниже показано, что GALA3D может поддерживать удобное, диалоговое и управляемое создание и редактирование:



Более подробную информацию об исследовании можно найти в оригинальной статье.