Новости

Крупные компании начали «гонку вооружений» в производстве видео. Сможет ли искусственный интеллект победить Голливуд?

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Отчет о сердце машины

Редакция «Машинное сердце»

Видеокруг ИИ убивает вас до смерти.

На переднем плане Kuaishou громко выпустил Ke Ling. С другой стороны, Luma не смог отстать и выпустил новейшую видеомодель Dream Machine. Затем вмешался Runway и выпустил Gen-3, большого убийцу. .

Движимые тонкой атмосферой FOMO, все больше игроков придерживаются цели «устать до смерти, скатиться до смерти» и погрузиться в этот трек ——

Alibaba DAMO Academy делает ставку на «Платформу для создания видео Xunguang», ByteDance AI исследует «генеративные кинодрамы», Meitu MOKI фокусируется на создании короткометражных фильмов с помощью ИИ, Haiper AI фокусируется на творческом самовыражении...

В Шанхае 5 июля было очень жарко, как и тревога в видеокруге ИИ.

В этот день проведут конференц-зал.



Форум объединяет множество звездных компаний и экспертов в области AI-видео, чтобы обсудить последние достижения в области технологий генерации видео и их инновационные практики в промышленном применении.

Углубленный обмен: искренние слова круга инсайдеров

С момента появления ChatGPT технология генерации видео, предложенная Сорой, определенно стала «самой горячей курицей» в мире технологий.

Хотя эта область все еще находится в зачаточном состоянии, технология генерации видео постоянно расширяет границы создания цифрового контента благодаря своей удивительной скорости развития и потенциальным перспективам применения.

На форуме присутствовали Чэнь Вэйхуа, руководитель отдела создания видео в Alibaba Damo Academy, Ни Бинбин, профессор кафедры электроники Шанхайского университета Цзяо Тун, Чэнь Цзяньи, старший вице-президент Meitu Corporation, и Мяо Ишу, основатель Haiper AI, приняли участие в форуме и выступил с программными докладами.



Чэнь Вэйхуа, руководитель отдела создания видео в Alibaba Damo Academy, сказал, что выпуск Sora в начале года не только продемонстрировал огромный потенциал создания видео с помощью искусственного интеллекта с точки зрения высокой четкости, высокой точности и высокого качества, но и вдохновил неограниченное воображение людей об этой технологии.

Хотя Сора очень крут, процесс генерации по-прежнему сложно контролировать, сложно обеспечить согласованность главного героя, и для достижения наилучших результатов требуется много ручного постредактирования.

«Контроль видеоконтента — это самая большая потребность в создании, а также самая большая проблема, стоящая перед нашим алгоритмом сегодня», — сказал Чэнь Вэйхуа.

Последний продукт AIGC, выпущенный Alibaba DAMO Academy — платформа создания видео Xunguang, призван повысить эффективность производства видео и решить проблемы постредактирования видео. Благодаря простой организации кадров и широким возможностям редактирования видео пользователи могут осуществлять контроль над видеоконтентом. точный контроль и поддержание единообразия персонажей и сцен в нескольких видеороликах.

Xunguang предоставляет универсальную инструментальную платформу для широкого применения ИИ-видео. ИИ не заменит работу создателя, но оптимизирует рабочий процесс создания видео и станет новым двигателем творчества.



Ни Бинбин, профессор кафедры электроники Шанхайского университета Цзяо Тун, поделился технологией создания медиаконтента для векторизации.

Как только речь началась, он облил ее холодной водой.

«Алгоритмы текущего поколения сталкиваются со структурными и детальными проблемами. Например, сгенерированный контент может иметь больше или меньше элементов или может быть проколот вручную и т. д. Для тех усовершенствованных видео, которые должны соответствовать физическим правилам, в настоящее время технология генерации по-прежнему сталкивается с проблемами «Ни Бинбин сказал, что причина в том, что весь генеративный интеллект — это, по сути, процесс выборки, а видео — это многомерное пространство. Хотя качество контента можно улучшить за счет увеличения обучающих данных и снижения точности выборки, однако из-за этого. В условиях чрезвычайно многомерного пространства все еще трудно достичь совершенства в рамках нынешних технических рамок.

Кроме того, важным фактором является ограничение вычислительной мощности. В настоящее время показатели вычислительной мощности, включая большие языковые модели и модели генерации изображений и видео, достигли уровня десятков, сотен или даже тысяч терабайт. В будущем тенденция развития генеративного интеллекта определенно дойдет до конечной стороны, и конечная сторона не сможет использовать неограниченную выборку большой вычислительной мощности для решения проблем.

В связи с этим Ни Бинбин предложил использовать структуру векторного представления для преобразования видеоконтента в параметры сети, тем самым достигая точного контроля над генерируемым контентом и лучшего соблюдения правил физического мира.

Он считает, что успех генеративного искусственного интеллекта на нынешнем этапе достигается за счет чрезмерного потребления вычислительной мощности и данных. В будущем нам следует сосредоточиться на новых представлениях медиаконтента и новых парадигмах генеративных вычислений, а также активно создавать новые медиакачества. с более высоким качеством и эффективностью производительных сил.



Чэнь Цзяньи, старший вице-президент Meitu Group, проанализировал сценарии применения и проблемы создания видео с помощью искусственного интеллекта с точки зрения менеджера по продукту.

В ходе исследования пользователей он обнаружил два интересных явления.

Во-первых, инсайдеры будут удивлены, потому что видео генерируется ИИ, но обычных пользователей не волнует, создано ли видео ИИ, а фокусируется на том, является ли контент привлекательным.

«Это означает, что независимо от того, какого визуального опыта достигает технология создания видео с помощью искусственного интеллекта, мы должны вернуться к самому контенту и сосредоточиться на ценностях и историях, которые видео хочет передать», — сказал Чэнь Цзяньи.

Во-вторых, большинство обычных пользователей не знакомы с профессиональными терминами, такими как «Винсент Пикчерз» и «Висент Видео», и не знают их конкретного использования. Возьмем, к примеру, «Вэнь Шэн Ту». Этот термин аналогичен тогдашней функции «Пластика» в PhotoShop, которую трудно понять. Однако, если она ограничена сценой и описана как функция «уменьшения лица», то пользователи могут понять это более интуитивно, понять его ценность. То же самое касается и «Винсента Видео».

В то же время он сказал, что технология генерации видео с помощью искусственного интеллекта делает выражение контента более конкретным и обогащает визуальное творчество и опыт, но ей все еще необходимо решать такие ключевые проблемы, как управляемость визуальных настроек, динамическая управляемость и управляемость звуком.

Платформа MOKI для создания короткометражных фильмов с искусственным интеллектом компании Meitu Discovery преодолевает эти основные трудности.

По имеющимся данным, MOKI создала комплексный процесс создания короткометражных фильмов, в основе которого лежит технология генерации видео с использованием искусственного интеллекта. На раннем этапе создатели могут писать сценарии, разрабатывать визуальные стили и настраивать персонажей, а затем использовать технологию искусственного интеллекта для создания видеоматериалов. Наконец, благодаря возможностям постобработки ИИ все материалы соединяются в единый короткометражный фильм.



Будучи основателем знаменитого стартапа Haiper AI, Мяо Ишу глубоко обсудил значение и ценность технологии генерации видео.

Мяо Ишу сказал: «Мы часто слышим такие мнения, как «Язык — это интеллект» или «Большие языковые модели — это общий искусственный интеллект (AGI)». Однако может ли изучение языка само по себе действительно привести нас непосредственно к AGI? Это важный способ получения знаний для людей, но это не единственный способ. Люди учатся с помощью различных методов обучения, таких как зрение, слух, чтение и кинестетика. ИИ также должен выучить и построить действительно универсальный язык посредством интеграции множества модальностей. . разумный."

После запуска GPT-3.5 многие люди выдвинули точку зрения, что «обработки естественного языка (NLP) больше не существует», потому что большие языковые модели в основном решают изучение и семантику языковой системы посредством авторегрессионных генеративных моделей (каждый раз предсказывающих следующее слово). проблемы вывода, нам больше не нужны дискриминационные модели для точной настройки конкретных задач вывода.

Точно так же модели генерации видео также создают генеративные модели посредством авторегрессии (каждый раз прогнозируя следующий видеокадр), поэтому модель неявно изучает важные задачи в области компьютерного зрения, такие как прогнозирование глубины, семантическая аннотация и семантическая сегментация. Поэтому в 2024 году мы услышим высказывания типа «Компьютерное зрение (CV) больше не существует», потому что модель генерации видео постепенно освоила возможности восприятия и физические законы в процессе обучения генерации видеоконтента.

«Нужно ли нам понимать первый закон Ньютона, как щенку, гоняющему бабочек на улице, нужно ли нам знать все законы физики, как пятилетнему ребенку, чтобы ходить и кататься на велосипеде? Ответ — нет? это посредством постоянного взаимодействия с миром и наблюдения, обучения посредством различного моделирования. Фактически, модель создания видео создала модель мира, научившись генерировать разнообразный видеоконтент, и мы можем легко взаимодействовать с моделью мира с помощью подсказок для рендеринга. видеоконтент, который мы хотим, и все это не требует от нас явного создания симулятора для имитации так называемых физических законов».

Мяо Ишу подчеркнул: «Создание видео — это нечто большее, чем просто создание видео». По его мнению, модель генерации видео может не только генерировать видеоконтент, но также является важным шагом в изучении основных возможностей восприятия посредством мультимодального обучения, а также является единственным способом для искусственного интеллекта перейти к AGI.

Дебаты за круглым столом: Как создавать видео?

Помимо обмена тем четырьмя экспертами и учеными, на форум также были приглашены гости из академических кругов, предприятий, стартапов и известных инвестиционных институтов для проведения углубленных дискуссий за круглым столом, посвященных передовым технологиям создания видео и инновационным практикам их применения в индустрии посадки на сцену.



На первом круглом столе присутствовали Чжу Цзян, основатель и генеральный директор Jingying Technology, Лю Цзывэй, доцент Наньянского технологического университета в Сингапуре, Ли Фэн, директор по искусственному интеллекту Центра игровых технологий Shengqu, Ле Юань, партнер Yitian Capital, и другие гости. обсуждались «движимые большими моделями. Куда пойдет путь совершенствования технологии генерации видео?» Эта тема обсуждалась подробно и обсуждались перспективы внедрения технологии генерации видео в отрасли.

Чжу Цзян, основатель и генеральный директор Jingying Technology, сравнивает технологию генерации видео с кембрийским взрывом жизни и считает, что в настоящее время она находится на этапе быстрого развития технологий и приложений. Он подчеркнул, что компаниям прикладного уровня необходимо сохранять понимание и лидерство в технологиях, уделяя при этом внимание потребностям пользователей, чтобы выделиться среди конкурентов. Он сказал, что в конечном итоге выживут и модельные компании, и компании-разработчики приложений, но модельные компании могут быть более общими, а компаниям-разработчикам приложений необходимо уделять больше внимания пониманию пользователей и бизнеса.

Лю Цзивэй, доцент Наньянского технологического университета в Сингапуре, считает, что технология генерации видео в настоящее время находится в эпохе GPT-3, и до ее зрелости еще около полугода. Он проанализировал преимущества и недостатки трех технических путей: диффузии, трансформера и языковой модели, и полагал, что они могут быть интегрированы и развиты в будущем. Он также подчеркнул необходимость изучения «первого закона Ньютона» технологии генерации видео, то есть того, как добиться предсказуемых улучшений за счет инвестиций в вычислительную мощность и данные.

С точки зрения игровой индустрии, Ли Фэн, руководитель отдела искусственного интеллекта в Центре игровых технологий Shengqu, считает, что технология генерации видео может повысить эффективность и креативность разработки игр. Он надеется на сотрудничество с модельными компаниями для применения технологии генерации видео в процессе разработки игр, например, ссылаясь на идею дифференцируемого рендеринга для дизайна уровней и предварительного просмотра макета, визуального согласования методов связи во время сотрудничества в области исследований и разработок, а также визуального согласования с другими создание динамических изображений активов.

Ле Юань, партнер Yitian Capital, проанализировал проблемы, с которыми сталкивается коммерческое внедрение технологии генерации видео, с точки зрения капитала. Он считает, что технологии генерации видео за последние два-три года шагнули далеко вперед, что удивительно. Однако, объективно говоря, сегодняшний технический уровень все еще недостаточен для поддержки крупномасштабной коммерциализации приложений на основе языковых моделей. используется Методология и возникающие проблемы также применимы к областям применения, связанным с видео.



Второй круглый стол форума был посвящен теме «Инновации и возможности в приложениях для генерации видео в условиях волны деконструированного генеративного искусственного интеллекта». Гости из Wuyuan Capital, FancyTech, Morph AI и Стэнфордского университета рассказали об инвестициях, приложениях, технологиях и искусстве и т. д. С разных точек зрения исследованы направление развития и сценарии применения технологии генерации видео.

Конг Цзе, основатель и генеральный директор FancyTech, считает, что технология создания видео приведет к реформам в сфере предложения, позволяя большему количеству людей участвовать в создании контента. Он представил платформу создания видео To B от FancyTech, которая помогает продавцам сократить затраты на создание контента за счет восстановления реальных предметов в виртуальных сценах.

Ши Юньфэн, вице-президент Wuyuan Capital, отметил, что нынешнее поколение видео все еще находится на ранних стадиях разработки, аналогично состоянию разведки, когда GPT2 был впервые выпущен. Поиск PMF является большой проблемой, когда фундамент технологии еще не заложен. Он считает, что, хотя технологии продолжают развиваться, создатели полны энтузиазма и имеют определенный диапазон распространения, но широкого потребления контента нет. Требуется, чтобы талантливые менеджеры по продукту адаптировали продукт и создавали новые формы контента, несовместимые с существующим информационным потоком.

Основатель и генеральный директор Morph AI Сюй Хуайчжэ считает, что технологии и приложения для создания видео одинаково важны. Для команды с техническим опытом более важно координировать разработку уровня модели и уровня приложения. Он представил Morph Studio, универсальный инструмент для создания видео с использованием искусственного интеллекта, основанный на ведущей большой модели видео с использованием искусственного интеллекта Morph. В настоящее время он проходит глобальное тестирование и получил положительные отзывы. В будущем Morph продолжит оптимизировать функции продуктов и взаимодействие с пользователем посредством обратной связи с пользователями, чтобы ее видеотехнология AI могла быстрее внедряться в продукты и лучше помогать создателям.

С точки зрения объединения искусства и технологий Рао Аньи, научный сотрудник Стэнфордского университета, считает, что технология генерации видео может вдохновить на создание более интерактивных методов творчества. Он подчеркнул, что ни машины, ни люди не могут быть на 100% правильными, поэтому в творческий процесс необходимо ввести механизм интерактивного улучшения, который позволит машинам и людям сотрудничать для завершения творения.

В целом, гости круглого стола полны ожиданий относительно перспектив применения технологии генерации видео, но они также признают, что текущая технология все еще находится на ранних стадиях развития, и для достижения большей ценности необходимо изучить новые бизнес-модели и сценарии применения. .









Успешное проведение этого форума не только предоставляет платформу для общения и обучения для практиков в области AI-видео, но и предоставляет больше возможностей сотрудничества для всех звеньев смежной отраслевой цепочки. В будущем видеотехнологии искусственного интеллекта откроют более широкое пространство для разработки и более богатые сценарии применения, создавая лучший визуальный опыт для людей.