Прошло полгода, куда пропало видео с ИИ?

2024-07-23

Фиксированный фокус (dingjiaoone) оригинал

Автор | Ван Лу

Редактор | Вэй Цзя

С тех пор, как в начале этого года появилась Сора, люди в стране и за рубежом захотели использовать ИИ, чтобы подорвать Голливуд. Недавний круг видео ИИ был очень оживленным. Продукты выпускались одна за другой, и все стремятся догнать их. Сора.

Два иностранных стартапа в области искусственного интеллекта Luma, компания, занимающаяся технологиями искусственного интеллекта, запустили модель создания видео Dream Machine и выпустили рекламный видеоролик на уровне фильма. Другой продукт предоставляет пользователям бесплатные пробные версии. известная в области AI-видео стартап-компания Runway также объявила, что откроет тестирование модели Gen-3 Alpha для некоторых пользователей, заявив, что она может воспроизводить такие детали, как свет и тень.

Чтобы не отставать в Китае, компания Kuaishou запустила веб-клиент Keling, который позволяет пользователям создавать видеоконтент длительностью до 10 секунд, а также имеет функции управления первым и последним кадром и объективом камеры. Его оригинальная короткометражная фэнтезийная драма с искусственным интеллектом «Странное зеркало гор и морей: рубящие волны» также транслируется на Kuaishou со всеми изображениями, созданными искусственным интеллектом. Научно-фантастическая короткометражная драма с искусственным интеллектом «Саньсиндуй: Будущий апокалипсис» также недавно транслировалась и была снята для видеопродукта Byte с искусственным интеллектом Jimeng.

Высокая скорость обновления видео AI заставила многих пользователей сети сказать: «В Голливуде может быть еще одна всеобщая забастовка».

Сегодня на видео-треке искусственного интеллекта присутствуют отечественные и зарубежные технологические и интернет-гиганты, такие как Google, Microsoft, Meta, Alibaba, Byte и Meitu, а также новые компании, такие как Runway и Aishi Technology. Согласно неполной статистике. Из «Fix Focus» только отечественные около 20 компаний запустили собственные разработки/модели видеопродуктов с искусственным интеллектом.

Данные Исследовательского института Toubao показывают, что размер рынка китайской индустрии создания видео с использованием искусственного интеллекта в 2021 году составит 8 миллионов юаней, и ожидается, что в 2026 году этот размер рынка достигнет 9,279 миллиардов юаней. Многие представители отрасли считают, что созданный видеотрек откроет момент Midjourney в 2024 году.

На каком этапе развития достигли Сорасы во всем мире? Кто самый сильный? Сможет ли ИИ уничтожить Голливуд?

Осада Соры: хотя существует множество продуктов, лишь немногие из них можно использовать.

В видеотреке AI представлено множество продуктов/моделей, но те, которые действительно могут быть использованы публикой, очень ограничены. , выдающимся представителем за рубежом является Sora, которая шесть месяцев спустя все еще находится на внутреннем тестировании и открыта только для служб безопасности и некоторых художников, дизайнеров и кинопродюсеров. Внутри страны аналогичная ситуация: видеопродукт Xunguang от Alibaba Damo Academy и видеомодель Baidu UniVG находятся на стадии внутреннего тестирования. Что касается популярного в настоящее время Kuaishou Keling, пользователям необходимо встать в очередь, чтобы подать заявку, если они хотят его использовать. . Это обсуждалось. Я купил большую часть продуктов.

Среди оставшихся доступных видеопродуктов с искусственным интеллектом некоторые имеют установленные пороговые значения использования, и пользователям необходимо платить или знать определенные технологии.Например, если вы недостаточно разбираетесь в коде Open-Sora от Luchen Technology, пользователи не смогут начать работу.

«Фикс Фокус» разобрал видеопродукты с искусственным интеллектом, выпущенные в стране и за рубежом, и обнаружил, что методы работы и функции каждого из них схожи. Пользователь сначала использует текст для генерации инструкций, а одновременно выбирает размер кадра, изображение. ясность, стиль генерации, секунды генерации и другие функции, и, наконец, клики «Создать одним щелчком мыши».

Технические трудности, стоящие за этими функциями, различаются. Самый трудный из них,Разрешение и секунды создаваемого видео, это также является предметом конкуренции между компаниями в видео-треке AI во время продвижения.Оно тесно связано с качеством материалов и объемом вычислительной мощности, используемой в процессе обучения.

Исследователь искусственного интеллекта Сайрус рассказал «Fixed Focus», что в настоящее время большинство видео искусственного интеллекта в стране и за рубежом поддерживают разрешение 480p/720p, а некоторые поддерживают видео высокой четкости 1080p.

Он предположил, что чем больше качественных материалов и чем выше вычислительная мощность, тем обученная модель может генерировать видео более высокого качества, но это не означает, что высококачественные материалы и вычислительная мощность могут генерировать высококачественные материалы. Однако если модель, обученная с использованием материалов с низким разрешением, вынуждена генерировать видео с высоким разрешением, она рухнет или повторится, например, у нее будет несколько рук и ног. Такую проблему можно решить увеличением, исправлением и перерисовкой, но эффект и детализация средние.

Многие компании также рассматривают создание длинных секунд как преимущество.

Большинство отечественных видеороликов с искусственным интеллектом поддерживают продолжительность 2–3 секунды, что считается относительно сильным продуктом, если оно может достигать 5–10 секунд. Есть также некоторые очень длинные продукты, такие как Jimeng, которые могут длиться до 12 секунд, но их нет. из них так же хороши, как Сора. Он сказал, что создается самое длинное 60-секундное видео, но, поскольку оно еще не открыто для использования, конкретную производительность невозможно проверить.

Длины светового ролика недостаточно, создаваемый видеоконтент также должен быть разумным. Чжан Хэн, главный исследователь Pomegranate AI, рассказал «Динцзяо»: Технически от ИИ можно требовать вывода данных постоянно. Не будет преувеличением сказать, что даже если он генерирует видео в течение часа, это не проблема, но это не проблема. В большинстве случаев нам нужен не фрагмент наблюдения. Видео представляет собой не зацикленную пейзажную анимацию, а короткий фильм с красивыми картинками и историями.

Компания «Fixed Focus» протестировала 5 популярных бесплатных продуктов искусственного интеллекта для видео Wensheng в Китае, а именно Jimeng от Byte, Morph Studio от Morph AI, PixVerse от Aishi Technology, Yiying AI от MewXAI и Vega AI от Right Brain Technology, предоставив им одинаковые текстовые инструкции. : «Маленькая девочка в красном платье кормила маленького белого кролика морковкой в парке».

Скорость генерации нескольких продуктов одинаковая, занимает всего 2-3 минуты, но четкость и продолжительность совершенно разные, а точность еще более «хаотичный танец». Результаты следующие:

Иин ИИ

Вега ИИ

мечта

Превращаться

Пикс Верс

Преимущества и недостатки каждого очевидны. Несмотря на то, что игра была короткой, качество игры было невысоким. Маленькая девочка, главный герой, деформированный непосредственно на более поздних этапах, также столкнулся с той же проблемой. Качество изображения PixVerse относительно низкое.

Для сравнения, контент, созданный Morph, является точным, но только на короткие 2 секунды. Качество картинки у Иин тоже хорошее, но он плохо понимает текст и прямо теряет ключевой элемент кролика, а сгенерированное видео недостаточно реалистично и носит скорее комический стиль.

Короче говоря, ни один продукт не может предоставить видео, соответствующее требованиям.

Проблемы AI-видео: точность, последовательность, насыщенность

Опыт «фиксированного фокуса» сильно отличается от рекламных видеороликов, выпускаемых различными компаниями. Если видео ИИ хочет по-настоящему коммерциализировать, ему еще предстоит пройти долгий путь.

Чжан Хэн рассказал «Fixed Focus», что с технической точки зрения они в основном рассматривают уровни различных видеомоделей искусственного интеллекта в трех измерениях:Точность, последовательность, богатство.

Как понять эти три измерения, Чжан Хэн привел пример.

Например, создайте видео «две девушки смотрят баскетбольный матч на детской площадке».

Точность отражается, во-первых, в точном понимании структуры контента, например, если в видеоролике фигурируют две девушки, во-вторых, в точности управления процессом, например, после совершения броска баскетбольный мяч должен постепенно опускаться; из сети, наконец, моделирование статических данных является точным. Например, если в объективе есть препятствие, баскетбольный мяч не может превратиться в футбольный мяч.

Последовательность относится к способности ИИ моделировать в пространстве и времени, что также включает в себя внимание к объекту и долгосрочное внимание.

Основной акцент можно понять так: во время просмотра баскетбольного матча две маленькие девочки должны всегда оставаться в кадре и не могут случайно бегать вокруг, длительное внимание означает, что во время упражнения различные элементы видео; не должно быть потеряно. Также не должно быть никаких отклонений, таких как деформация.

Богатство означает, что ИИ также имеет свою собственную логику и может генерировать некоторые разумные детали даже без текстовых подсказок.

По сути, ни один из представленных на рынке видеоинструментов с искусственным интеллектом не может в полной мере достичь вышеуказанных размеров, и каждая компания постоянно предлагает решения.

Например, с точки зрения последовательности персонажей, что очень важно в видео, Мэн и Келинг подумали об использовании Tusheng Video заменяет Винсента Видео. То есть пользователь сначала использует текст для генерации картинок, а затем использует картинки для генерации видео, либо напрямую дает одну или две картинки, а ИИ соединяет их в движущееся видео.

«Но это не новый технологический прорыв, и видео Tusheng менее сложны, чем видео Винсента», — сказал Чжан Хэн изданию Dingzhong. Принцип видео Винсента заключается в том, что ИИ сначала анализирует вводимый пользователем текст и разбирает его на компоненты. зеркальное описание, преобразуйте описание в текст, а затем преобразуйте его в картинки, и вы получите промежуточные ключевые кадры видео. Соединив эти картинки, вы можете получить непрерывное видео с действием. Tusheng Video эквивалентен предоставлению ИИ конкретной картинки, которую можно имитировать, а сгенерированное видео будет продолжать черты лица на изображении, чтобы добиться единообразия главного героя.

Он также сказал, что в реальных сценариях эффект видеороликов Tusheng больше соответствует ожиданиям пользователей, поскольку текст имеет ограниченную способность передавать детали изображения. Использование изображений в качестве справочной информации поможет создать видео, но оно еще не коммерчески доступно. Интуитивно говоря, 5 секунд — это верхний предел видео Tusheng. Если оно длиннее 10 секунд, это может не иметь большого значения. Либо контент будет повторяться, либо структура будет искажена и качество снизится.

В настоящее время во многих короткометражных и телевизионных фильмах, в которых утверждается, что на протяжении всего производственного процесса используется искусственный интеллект, в основном используется видео Tusheng или видео-в-видео.

Функция последнего кадра Джимэна также использует видео Tusheng, и была специально опробована «фиксированная фокусировка». Результаты следующие:

В процессе объединения персонажи предстают деформированными и искаженными.

Сайрус также сказал, что видео должно быть последовательным. Многие видеоинструменты искусственного интеллекта, поддерживающие преобразование изображения в видео, также прогнозируют последующие действия с помощью однокадровых изображений. Что касается правильности прогноза, это все еще зависит от удачи.

Понятно, чтоКогда дело доходит до достижения единообразия главных героев Vincent Video, каждая компания не полагается исключительно на генерацию данных.Чжан Хэн сказал, что большинство моделей основаны на исходной базовой большой модели DIT, на которую наложены различные технологии, такие как ControlVideo (метод управляемой генерации текстового видео, предложенный Харбинским технологическим институтом и облаком Huawei), тем самым углубляя понимание главного героя ИИ. . Память черт лица не позволяет лицу сильно меняться во время движения.

Однако он все еще находится на стадии эксперимента. Даже с помощью технической суперпозиции проблема согласованности символов не решена полностью.

AI-видео, почему оно развивается медленно?

В сфере ИИ на данный момент наиболее популярны США и Китай.

Из соответствующего отчета «Самые влиятельные ученые в области искусственного интеллекта в мире в 2023 году» (именуемого «Список ученых AI 2000») видно, что среди 1071 учреждения, включенного в глобальный «Институт AI 2000», в за четыре года с 2020 по 2023 год в Соединенных Штатах их было 443, за ними следует Китай со 137. Судя по распределению стран «Ученых AI 2000» в 2023 году, в Соединенных Штатах наибольшее количество отобранных людей - 1079 человек, что составляет с 54,0% от общего числа в мире, за ним следует Китай с 280 избранными.

За последние два года, помимо того, что ИИ добился большого прогресса в области винсентских изображений и винсентийской музыки, ИИ-видео, которые труднее всего пробить, также добились некоторых прорывов.

На недавно состоявшейся Всемирной конференции по искусственному интеллекту Ле Юань, партнер Etian Capital, публично заявил, что технология генерации видео за последние два-три года добилась прогресса, намного превзошедшего все ожидания. Лю Цзивэй, доцент Наньянского технологического университета в Сингапуре, считает, что технология генерации видео в настоящее время находится в эпохе GPT-3, и до ее зрелости еще около полугода.

Однако Лэйюань также подчеркнул, чтоЕго технический уровень все еще недостаточен для поддержки масштабной коммерциализации.Используемые методологии и проблемы, возникающие при разработке приложений на основе языковых моделей, также применимы в областях приложений, связанных с видео.

Появление Sora в начале года потрясло мир. Ее новая диффузионная модель DiT, основанная на архитектуре трансформатора, совершает технологические прорывы в распространении и генерации, улучшая качество и реалистичность генерации изображений, делая видео с использованием искусственного интеллекта большим прорывом. Сайрус сказал, что в настоящее время в большинстве видеороликов Винсента дома и за рубежом используется аналогичная технология.

Источник изображения/официальный сайт Соры

На данный момент все в основном одинаковы в отношении базовой технологии. Хотя каждая компания также ищет технологические прорывы, основанные на этом, больший объем данных используется для улучшения функций продукта.

При использовании Jimeng от Byte и Morph Studio от Morph AI пользователи могут выбирать, как перемещать видео. Принцип, лежащий в основе этого, заключается в том, что наборы данных различны.

«Раньше изображения, используемые различными компаниями во время обучения, были относительно простыми. В основном они отмечали, какие элементы присутствуют на снимке, но не объясняли, какой объектив использовался для съемки этого элемента. Это также заставило многие компании обнаружить этот пробел, поэтому они использовали 3D. Набор видеоданных рендеринга дополняет функции объектива». Чжан Хэн сказал, что текущие данные получены из рендеринга кино- и телеиндустрии, а также игровых компаний.

«Фиксированный фокус» тоже пробовал эту функцию, но смена объектива была не очень очевидна.

Причина, по которой Sora развивалась медленнее, чем GPT и Midjourney, заключается в том, что у нее другая временная шкала, а обучение видеомоделей сложнее, чем текста и изображений. «Все данные видеообучения, которые можно использовать сейчас, исчерпаны, и мы также думаем о некоторых новых способах создания серии данных, которые можно использовать для обучения», — сказал Чжан Хэн.

И каждая видеомодель AI имеет свой собственный стиль, в котором она хороша. Например, видео с едой и трансляцией Куайшоу Келинга лучше, потому что за ними стоит большой объем таких данных.

Шэнь Ренкуй, основатель Pomegranate AI, считает, что видеотехнологии искусственного интеллекта включают «текст в видео» (текст в видео), «изображение в видео» (изображение в видео), «видео в видео» (видео в видео) и «аватар в видео» (цифровой человек), которые можно настраивать. Цифровые люди с изображением и голосом уже используются в сфере маркетинга и достигли уровня коммерческого использования, в то время как Винсент Видео все еще нуждается в решении проблем точности и управляемости.

На данный момент, будь то короткометражная научно-фантастическая драма с искусственным интеллектом «Саньсиндуй: Будущий апокалипсис», сопродюсерами которой выступили Доуинь и Бона, или короткометражная фантастическая драма с искусственным интеллектом «Странное зеркало в горах и морях: разрезающие волны», первоначально созданная Куайшоу, все больше и больше крупных модельных компаний активно ищут команды по производству фильмов и телевидения. Для сотрудничества необходимо продвигать собственные технологические продукты, и работы не выходят за рамки отрасли.

В области короткометражных видеороликов ИИ еще предстоит пройти долгий путь, и говорить о том, что он убьет Голливуд, даже преждевременно.

*Заглавное изображение взято с сайта Pexels.

Новости