новости

Каков технический путь FancyTech, возглавляя коммерциализацию AIGC с помощью «вертикальной модели»?

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Машинное Сердце Оригинал

Редакция «Машинное сердце»

Мы являемся свидетелями еще одного витка технологических инноваций. На этот раз AIGC предоставляет людям инструменты для самовыражения, делая творчество проще и популярнее, но движущей силой этого процесса является не «большая» модель.

За последние два года технология AIGC развивалась быстрее, чем кто-либо мог себе представить, охватывая все области: от текста до изображений и видео. Дискуссии о пути коммерциализации AIGC никогда не прекращались. Среди них есть консенсус и расхождение маршрутов.

С одной стороны, мощные возможности общих моделей поражают и показывают потенциал их применения в различных отраслях. В частности, внедрение таких архитектур, как DiT и VAR, позволило Scaling Law перейти от текстовой генерации к визуальной. Под руководством этого правила многие крупные производители моделей продолжают двигаться вперед в направлении увеличения обучающих данных, инвестиций в вычислительные мощности и накопления параметров.

С другой стороны, мы также увидели, что универсальная модель не означает «убить всех». Перед лицом многих задач, разделенных на треки, «хорошо обученная» вертикальная модель может достичь лучших результатов.

Поскольку технология больших моделей вступает в период ускоренного внедрения, последний путь коммерциализации получил быстрый рост внимания.

В ходе этой эволюции выделилась FancyTech, стартап-компания из Китая:Она быстро расширила рынок стандартизированными продуктами для создания коммерческого визуального контента и подтвердила превосходство «вертикальной модели» на уровне промышленной реализации раньше, чем ее аналоги.

Если взглянуть на отечественный предпринимательский круг крупных моделей, то успехи коммерциализации FancyTech очевидны для всех. Но что менее известно, так это вертикальная модель и технологические преимущества, благодаря которым эта компания, родившаяся всего несколько лет назад, находится в авангарде отрасли.

В эксклюзивном интервью Machine Heart поговорила с FancyTech о технологических исследованиях, которые они проводят.

FancyTech выпускает видеовертикальную модель DeepVideo

Как преодолеть отраслевые барьеры?

Вообще говоря, после того, как способность общей модели к нулевому обобщению достигает определенного уровня, ее можно использовать для последующих задач путем ее точной настройки. Именно таким же способом сегодня запускаются многие крупные модели. Но с точки зрения фактического эффекта, простая «тонкая настройка» не может удовлетворить потребности промышленных приложений, поскольку задачи генерации контента в каждой отрасли имеют свой собственный специфический и сложный набор стандартов.

Общая модель может быть способна выполнить 70% рутинных задач, но что действительно нужно клиентам, так это «вертикальная модель», способная удовлетворить 100% их потребностей. Возьмем, к примеру, коммерческий визуальный дизайн. Раньше соответствующие работы выполнялись профессионалами с многолетним опытом, и их нужно было проектировать и корректировать в соответствии с конкретными потребностями бренда, что требовало большого опыта работы вручную. По сравнению с такими показателями, как эстетика и соответствие инструкциям, «восстановление продукта» — это момент, которому бренды уделяют больше внимания в этой задаче, а также решающий фактор в том, готовы ли бренды платить.

В процессе самостоятельной разработки вертикальной модели для коммерческих изображений/видео компания FancyTech разобрала основную задачу: как сделать продукт достаточно восстановленным и интегрированным в фон, особенно в сгенерированное видео, чтобы добиться контролируемого движения продукта без деформации. .







视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Сегодня, с развитием технологий больших моделей, для прикладного уровня выбор пути с открытым или закрытым исходным кодом больше не является основной проблемой. Вертикальная модель FancyTech основана на базовой алгоритмической структуре с открытым исходным кодом, наложенной на собственные аннотации данных и переобученной, и требует всего лишь несколько сотен графических процессоров для непрерывных итераций обучения для достижения хороших результатов генерации. Напротив, два фактора: «данные о продукте» и «методы обучения» более важны для конечного эффекта внедрения.

Опираясь на накопление огромных объемов 3D-данных обучения, FancyTech представила идею пространственного интеллекта для управления созданием 2D-контента модели.В частности, для создания контента изображений команда предложила «мультимодальное функциональное устройство» для обеспечения восстановления продуктов и использовала специальный сбор данных, чтобы обеспечить естественную интеграцию продуктов и фонов для создания видеоконтента, команда реконструировала генерацию видео; Базовые связи, направленная структура проектирования и обработка данных, что позволяет реализовать создание видео, ориентированного на продукт.

Удар по уменьшению истинной размерности: как «пространственный интеллект» управляет созданием 2D-контента?

Основная причина, по которой эффекты многих продуктов визуальной генерации неудовлетворительны, заключается в том, что современные модели генерации изображений и видео часто обучаются на основе 2D-данных обучения и не понимают реальный физический мир.

В этой области достигнут консенсус, и некоторые исследователи даже полагают, что в рамках авторегрессионной парадигмы обучения модельное понимание мира всегда поверхностно.

Однако в задаче разделения коммерческой визуальной генерации не является полностью неразрешимой задача улучшить понимание физического трехмерного мира модели и лучше генерировать двухмерный контент.

FancyTech перенесла исследовательские идеи в области «пространственного интеллекта» на построение визуальных генеративных моделей. В отличие от общих генеративных моделей, идея пространственного интеллекта состоит в том, чтобы учиться на исходных сигналах, полученных большим количеством датчиков, и точно калибровать исходные сигналы, полученные датчиками, чтобы дать модели возможность воспринимать и понимать реальный мир.

Поэтому FancyTech использует лидарное сканирование вместо традиционной студийной съемки и накопил большое количество пар высококачественных 3D-данных, которые отражают различия до и после интеграции продукта. Он объединяет данные облака 3D-точек с 2D-данными в качестве данных для обучения модели. улучшить понимание модели реальности.

Мы знаем, что при создании любого визуального контента формирование эффектов света и тени — очень сложная задача. Такие элементы, как освещение, светящиеся тела, подсветка и световые пятна, могут усилить пространственную многослойность изображения, но это «точка знаний», которую трудно понять для генеративных моделей.

Чтобы собрать как можно больше данных о естественном освещении и тенях, FancyTech создала десятки источников света с регулируемой яркостью и цветовой температурой в каждой среде. Это означает, что на каждую пару в массиве данных можно накладывать несколько источников света с различной яркостью и цветовой температурой. . изменения.



Этот сбор данных высокой интенсивности имитирует освещение реальных сцен съемки, что делает его более соответствующим характеристикам сцен электронной коммерции.



Объединив сбор высококачественных 3D-данных, FancyTech внесла ряд инноваций в структуру алгоритмов, органично объединив пространственные алгоритмы с алгоритмами изображения и видео, чтобы позволить модели лучше понимать взаимодействие между основными объектами и окружающей средой.

В процессе обучения у модели может в определенной степени «появляться» понимание физического мира, а также более глубокое понимание трехмерного пространства, глубины, отражения и преломления света, а также результатов воздействия света в различных средах. и различных материалов, мы наконец добились «сильного сокращения» и «гиперслияния» продуктов в полученных результатах.

Какие инновации в алгоритмах лежат в основе «сильной редукции» и «гиперслияния»?

Для общих задач создания изображения сцены продукта текущий основной метод в основном использует текстуры, чтобы обеспечить восстановление частей продукта, а затем реализует редактирование сцен изображения на основе технологии Inpainting. Пользователь выбирает область, которую необходимо изменить, и вводит подсказку или предоставляет эталонное изображение для создания сцены продукта. Эффект слияния этого метода лучше. Недостатком является то, что управляемость результатов генерации сцены невысока. Например, он недостаточно ясен или слишком прост и не может гарантировать высокую степень доступности одного выхода.

В ответ на проблемы, которые не могут быть решены текущими методами, FancyTech предложила запатентованное «мультимодальное функциональное устройство», которое извлекает характеристики продукта в нескольких измерениях, а затем использует эти функции для создания интегрированных графов сцены.



Работу по извлечению функций можно разделить на «глобальные функции» и «локальные функции». Глобальные функции включают в себя контур, цвет и другие элементы продукта, которые извлекаются с помощью кодировщиков VAE; локальные функции включают повсюду детали продукта, которые извлекаются; с использованием графовых нейронных сетей. Одним из больших преимуществ графовой нейронной сети является то, что она может извлекать информацию о каждом ключевом пикселе продукта и взаимосвязях между ключевыми пикселями, а также улучшать восстановление деталей внутри продукта.

При создании контента изделий из гибких материалов эффект, получаемый этим методом, значительно улучшается:



视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

По сравнению с изображениями, создание видео также включает в себя контроль движения самого продукта и изменений света и тени, которые он вызывает. Для общих моделей генерации видео сложность заключается в невозможности самостоятельно защитить определенную часть видео. Чтобы решить эту проблему, FancyTech разделила задачу на две ветви: «генерация движения товара» и «интеграция видеосцены».

  • На первом этапе FancyTech разработала несколько решений для целевого планирования движения, позволяющих контролировать движение продукта на экране, что эквивалентно предварительной «фиксации» продукта в каждом кадре видео;
  • На втором этапе с помощью модуля управления достигается управляемая генерация видео. Модуль управления имеет гибкую конструкцию и совместим с различными архитектурами, такими как U-net и DiT, что упрощает его расширение и оптимизацию.

На уровне данных, помимо использования уникальных ресурсов данных о продуктах FancyTech для обеспечения обучения управлению и защиты продуктов, также добавляются несколько наборов данных с открытым исходным кодом, чтобы обеспечить возможности обобщения сцены. План обучения сочетает в себе сравнительное обучение и курсовое обучение и в конечном итоге обеспечивает эффект защиты товаров.

Пусть дивиденды эпохи AIGC

Начиная от вертикальной модели и заканчивая более обычными людьми

Будь то «универсальный» или «вертикальный», конечной точкой обоих путей является коммерциализация.

Самым непосредственным бенефициаром внедрения вертикальной модели FancyTech является бренд. Раньше цикл производства рекламного видеоролика мог длиться несколько недель, начиная с планирования, съемки и монтажа. Но в эпоху AIGC создание такого рекламного ролика занимает всего десять минут, а стоимость составляет лишь одну пятую от первоначальной стоимости.

Благодаря преимуществам огромных уникальных данных и отраслевых ноу-хау, FancyTech завоевала широкое признание в стране и за рубежом благодаря преимуществам вертикальной модели. Она подписала контракты с Samsung и LG, а также сотрудничала с хорошо развитой компанией Lazada. известная платформа электронной коммерции в Юго-Восточной Азии; в США она пользуется популярностью у местных брендов, таких как Kate Sommerville и Solawave, в Европе она получила награду LVMH Innovation Award и тесно сотрудничает с европейскими клиентами;

В дополнение к базовой вертикальной модели FancyTech также предоставляет возможности автоматической публикации с полной ссылкой и обратной связи для коротких видеороликов с использованием искусственного интеллекта, что способствует постоянному росту продаж продукции.

Что еще более важно,Вертикальная модель визуализирует путь, по которому широкая общественность может использовать технологию AIGC для повышения производительности.Например, традиционная фотостудия на улице может завершить трансформацию бизнеса от простой портретной съемки к производству коммерческих визуальных материалов профессионального уровня без добавления профессионального оборудования и специалистов с помощью продуктов FancyTech.



视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Теперь, просто взяв в руки мобильный телефон, практически каждый может снимать видео, записывать музыку и делиться своими творениями со всем миром. Представьте себе будущее, в котором AIGC снова раскрывает индивидуальное творчество——

Это позволяет обычным людям преодолеть профессиональные пороги и с большей легкостью воплощать идеи в реальность, тем самым позволяя производительности каждой отрасли резко подняться и создать больше новых отраслей. С этого момента дивиденды времени, принесенные технологией AIGC, действительно станут обычным явлением. люди.