Новости

Видео Война поколений 2.0!Крупные производители без ума от базовых моделей, а стартапы привлекли 4,4 миллиарда долларов за 5 месяцев.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Умные вещи (паблик аккаунт:zhidxcom
авторваниль
редактироватьЛи Шуйцин

Чтобы говорить о самых популярных треках для больших моделей в 2024 году, в список обязательно должна войти генерация видео.

После того, как в феврале Сора открыла новую эру создания видео с помощью искусственного интеллекта, интенсивный выпуск модели в июне этого года подтолкнул войну к новому кульминации.

«Следующее поколение ИИ в кино и на телевидении уже здесь», «Оно такое громкое, как будто вы поете, а потом появляемся мы», «Наконец-то появилась надежда избавиться от эпохи PPT», «Похоже, что ИИ будет использоваться для создания клипов в ближайшее время «…Среди создателей или практиков видео с использованием искусственного интеллекта наиболее распространенной эмоцией, которую мы видим, является «волнение».

С момента выхода Соры супер8ДомОтечественные и зарубежные компании, занимающиеся искусственным интеллектом, запускают новые продукты или модели одна за другой, создавая новые продукты на каждом шагу.более 10 секундВидео общедоступны, и некоторые из них, как сообщается, были реализованы с тех пор, как2 минутыГенерация сверхдлинного видео и создание видео с помощью искусственного интеллекта положили начало горячей войне 2.0.

Сюда,байтБудьте первым, кто запустит продукт для создания видео с использованием искусственного интеллекта Jimeng, который увеличивает время создания видео с обычных 3-4 секунд до 12 секунд;быстрый работникВнезапно была выпущена большая модель Кэ Лина, и ошеломляющий эффект вызвал бурные дискуссии в Интернете. Число людей, стоящих в очереди, приблизилось к 1 миллиону.


▲Количество претендентов, ожидающих очереди в Куайшоу Келинг

Там стартапыLuma ИИ«Откажитесь от 3D-видеопроекции» и выпустите Dream Machine, чтобы войти в игру с известными игроками-ветеранами;ВППЧтобы не отставать, компания выпустила новое поколение моделей Gen-3, подняв возможности физического моделирования на новую высоту.


▲Эффект генерации видео Gen-3

На поле битвы за финансирование война столь же ожесточена. одомашненный,Технология Аиши, Технология ШэншуС марта он последовательно получил финансирование на миллиардную сумму за рубежом;ПикаВ июне компания получила финансирование в размере 80 миллионов долларов США, что удвоило ее оценку до 500 миллионов долларов США.ВППВыяснилось, что готовится финансирование в размере до 450 миллионов долларов США.

Сора похожа на блокбастер, который потряс мир создания видео с помощью искусственного интеллекта. Теперь, после пяти месяцев интенсивных поисков, каков прогресс в области продуктов для генерации видео с помощью искусственного интеллекта в стране и за рубежом? Смогут ли они конкурировать с Сорой? С какими проблемами он столкнется? Благодаря горизонтальному опыту доступных продуктов и обсуждениям с практиками и создателями, Чжидунси проводит углубленный анализ этих проблем.

В реальных измерениях я отчетливо чувствую, что скорость генерации видео стала выше, явление «опрокидывания» значительно уменьшилось, а простое панорамирование в стиле «PPT» превратилось в движения с углами и изменениями движений. По общему опыту, лучшие результаты среди бесплатных продуктов имеют Jimeng и Keling, которые являются лидерами по продолжительности, стабильности и физическому моделированию.

Что касается финансирования, по сравнению с тем, что было до выпуска Sora, плотность и объем финансирования, связанного с созданием видео с помощью искусственного интеллекта, значительно возросли, привлекая более 4,4 миллиарда долларов за пять месяцев. процесса производства видео, таких как редактирование искусственного интеллекта, освещение искусственного интеллекта и т. д., предпочитаются капиталом. Кроме того, в игру входит много новых игроков, и некоторые из них собрали сотни миллионов средств, прежде чем выпустить какие-либо продукты или технологии.

1. Техническая битва: продолжительность броска, высокое разрешение броска, симуляция физики броска.

16 февраля OpenAI выпустила Sora, которая в одночасье перевернула трек генерации видео AI. Однако пять месяцев спустя Sora все еще остается фьючерсным продуктом, и кажется, что до того момента, когда он станет доступен широкой публике, еще очень далеко.

В этот период крупные отечественные и зарубежные производители и стартапы бросились выпускать новые продукты или обновления моделей, и большинство из них были открыты для всех пользователей. Многие из них добились потрясающих результатов. Это также изменило структуру видео с использованием ИИ. поколение снова. В конце концов, какой бы хорошей ни была Сора, какой в ​​ней смысл, если вы не можете ее использовать?

По неполной статистике Чжидунси, с момента выхода «Соры» было как минимум8 домовКомпания выпустила новые продукты или модели, из которых все, кроме Vidu от Shengshu Technology.Общедоступный


▲Выпуск/обновление продукта для создания видео с использованием искусственного интеллекта (умная таблица Восток-Запад)

21 февраля,Стабильность ИИ Веб-версия продукта для создания AI-видео Stable Video официально запущена и открыта для всех пользователей. Хотя ее базовая модель Stable Video Diffusion была выпущена с открытым исходным кодом в ноябре прошлого года, она по-прежнему имеет определенные пороговые значения для развертывания и использования. После упаковки и выпуска в виде веб-версии больше пользователей могут легко и удобно начать работу.

27 апреля,Шэншу ТехнологияСовместно с Университетом Цинхуа Виду выпустил большую долговременную, высокосогласованную и высокодинамическую видеомодель, которая, как утверждается, способна генерировать видео длиной до 16 секунд и с разрешением 1080P и может имитировать реальный физический мир. .

Судя по вышедшей демо-версии, Vidu действительно добился хороших результатов с точки зрения четкости, диапазона движений, физической симуляции и т. д. Однако, к сожалению, Vidu, как и Sora, до сих пор не выпущен. Чжидунси обратился к Shengshu Technology и узнал, что в ближайшем будущем продукт начнет внутреннее тестирование.


▲Демонстрация технологии Shengshu Vidu

9 мая,байтDreamina, платформа для создания искусственного интеллекта, принадлежащая Jiuying, была переименована в «Jimeng» и запустила функции рисования AI и создания видео AI, поддерживающие создание видеороликов длиной до 12 секунд.

6 июня,быстрый работник Большая модель видео AI Keling выпущена и запущена в приложении Kuaiying. Пользователям нужно только заполнить анкету, чтобы подать заявку на использование. Большая модель Келинга фокусируется на высокоинтенсивном моделировании характеристик физического мира, таких как проблема «поедания лапши», которая ставит в тупик многих ИИ, что отражено в предоставленных ею видеокейсах.

В настоящее время Keling поддерживает создание видео фиксированной продолжительности 5 и 10 секунд. Согласно официальному сайту, модель может генерировать видео продолжительностью до 2 минут с частотой кадров 30 кадров в секунду и разрешением 1080P. Такие функции, как продолжение видео, будут запущены в будущем.

13 июня стартап, который ранее в основном фокусировался на 3D-технологиях, создаваемых искусственным интеллектом.Luma ИИОбъявлено о запуске инструмента создания видео Dream Machine, который поддерживает создание 5-секундных видеороликов из текста и изображений. Он также предоставляет функцию расширения видео, которая может расширять сгенерированное видео на 5 секунд за раз.

17 июня,ВПП Альфа-версия модели нового поколения Gen-3 выпущена и будет доступна всем платным пользователям 2 июля с минимальной абонентской платой в размере 15 долларов в месяц. Gen-3 в настоящее время поддерживает создание 5-секундных и 10-секундных видеороликов на основе текста. Tusheng Video и другие управляемые инструменты пока недоступны.


▲Gen-3 Alpha генерирует видеоэффекты

6 июля,Интеллектуальное будущее(HiDream) выпустила интеллектуальную модель изображения 2.0 на WAIC, обеспечивающую три продолжительности генерации видео: 5, 10 и 15 секунд, а также такие возможности, как генерация встраивания текста, генерация многокадрового видео со сценарием и согласованность IP.

17 июля британский стартап в области искусственного интеллекта, ранее занимавшийся 3D-реконструкцией с помощью искусственного интеллекта.Хайпер ИИ, объявила, что ее продукт Haiper для генерации видео с использованием искусственного интеллекта был обновлен до версии 1.5, продолжительность которого увеличена до 8 секунд, а также реализованы такие функции, как расширение видео и улучшение качества изображения.

В следующей таблице показано время генерации, разрешение, частота кадров и другие параметры этих моделей, а также дополнительные возможности помимо базовой генерации.


▲Обновлены параметры продукта для генерации видео с помощью искусственного интеллекта (умная таблица Восток-Запад)

С точки зрения параметров, эти продукты для генерации видео с использованием искусственного интеллекта впервые достигли значительного прогресса во времени генерации. Базовое время генерации было увеличено с предыдущих 2-4 секунд до 5 секунд, и более половины из них поддерживают продолжительность, превышающую 10. секунд и несколько. Продукт предоставляет функциональные возможности расширения. Среди продуктов, доступных в настоящее время бесплатно, самое длинное видео, созданное Джимэном, составляет 12 секунд.

Что касается визуальных эффектов, разрешение и частота кадров были значительно улучшены. Есть больше продуктов, поддерживающих разрешение 720P и выше, а частота кадров также приближается к 24/30 кадров в секунду. Большинство разрешений видео, созданных предыдущими продуктами, составляло около 1024*. 576, а частота кадров была около 1024*576. Частота в основном 8-12 кадров в секунду.

2. Война продуктов:Практический тест6 бесплатных «мест», «Диккуай» лидирует

Когда Sora была впервые выпущена, Zhixixi имел обширный опыт работы с 8 инструментами создания видео с использованием искусственного интеллекта, доступными в Китае. В то время разрыв все еще был относительно очевиден, и было много «переносов». (Была рассмотрена первая «китайская версия Sora» во всей сети! Соревнулись 15 компаний, лидировала Byte)

Итак, после нескольких месяцев итеративных обновлений, как себя ведут игроки, отправившие новые ответы? Zhidongxi испытал недавно выпущенные или обновленные продукты для создания видео с помощью искусственного интеллекта. Справедливости ради мы опробовали только бесплатные возможности и выбрали видео, созданные впервые.

Следует отметить, что сама по себе генерация видео имеет элемент удачи, аналогичный «вытягиванию карт», а также тесно связана с написанием слов-подсказок. Поэтому небольшое количество случаев не полностью отражает возможности модели.

Я выбрал первый уровеньсцена натюрморта, подсказка:Крупный план тюльпанов, купающихся в теплом свете заката

Стабильное видео демонстрирует высокую стабильность в этом режиме, и в то же время четкость изображения и насыщенность цвета относительно высоки. Что касается движения, то движение объектива является основным фокусом.


▲Stable Video генерирует видео

Четкость изображения Dream Machine явно снизилась, но воспроизведение подсказок по-прежнему относительно точное, а движение также в основном основано на перемещении объектива.


▲Dream Machine генерирует видео

Видео, созданное Haiper, имеет хорошие визуальные эффекты, но диапазон движения немного меньше.


▲Haiper генерирует видео

Производительность большой модели Zhixiang также хороша, и изображение имеет сильный эффект глубины резкости. Однако, если вы внимательно посмотрите на лепестки, вы обнаружите дефекты в деталях и нестабильность.


▲Видео о создании крупных моделей Zhixiang

Цзи Мэн создал изображение с фиксированным объективом, в котором в основном в движении преобладал дрожание тюльпанов, а общий эффект был относительно стабильным.


На видео, созданном Келингом, максимально четко показано слово «крупный план». В то же время изображение имеет высокое разрешение и передает текстуру лепестков. Но при этом, как понимать «тюльпаны крупным планом» — это не вопрос с фиксированным ответом, поэтому невозможно сказать, кто прав, а кто нет.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Келинг создает видео

В целом производительность различных проигрывателей на натюрмортах очень стабильна, а удобство использования созданных видеороликов очень высокое.

Я выбрал второй уровеньсцена с животнымии добавлены элементы стилизации и динамического действия. Слова-подсказки:Мультяшная дискотека, танцующая кенгуру . На самом деле это один из случаев, предоставленных Сорой. Сначала давайте посмотрим на доказательство Соры.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲Сора создает видеокейс

Стабильно Видео "вышло на улицу" на этом уровне. Первый кадр изображения идеален — это может быть связано с путем, выбранным Stable Video при создании видео. В процессе генерации он сначала сгенерирует 4 изображения на выбор пользователя, а затем сгенерирует видео на основе. изображение, выбранное пользователем - и тут кенгуру Все его тело начало скручиваться и деформироваться.

Что еще интереснее, так это то, что персонажи и антропоморфные животные на заднем плане картины не вызывают особых проблем. Интересно, не поставил ли Stable Video в тупик экшн «танцы на дискотеке».


▲Стабильное видео генерирует видеоэффекты.

Общая стабильность видео, созданного Dream Machine, хорошая, но не хватает стабильности в таких деталях, как ноги и руки кенгуру. Что касается диапазона движений, помимо движения самого кенгуру, он также подвергается линзовому переходу от крупного плана к панораме.

Я снова попробовал функцию расширения видео Dream Machine, и контент, созданный расширением, появляется через 5 секунд после видео. Видно, что он не ограничивается одним кадром, а переключается с анфас на съемку верхней части тела крупным планом. Однако в расширенном видео персонажи на заднем плане хоть и более стабильны, но кенгуру еще более нестабильно.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲Dream Machine создает видеоэффекты

Кенгуру, созданный Haiper, в определенной степени искажен и не отражает ключевое слово «дискотека».


▲Haiper генерирует видео

Большая модель Чжисяна серьезно перевернулась на этом уровне. Как и в Stable Video, основная часть изображения была сильно искажена и не отражала эффекта «дискотеки».


▲Умная модель слона генерирует видеоэффекты.

Общий визуальный эффект видео, созданного Джимэном, относительно хороший, с высокой четкостью и насыщенными цветами. С точки зрения стабильности, в первые несколько секунд все было относительно нормально, но в последние 3 секунды или около того произошли очевидные искажения, а степень искажений была аналогична таковой у Dream Machine.

В смысловом понимании картина демонстрирует некие «танцевальные» движения, но к «дискотеке» она имеет мало общего. Кроме того, текст на заднем плане картинки выглядит как «символы призрачного рисунка».

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲Видеоэффекты, созданные мечтой

Видео, созданные Keling, в целом относительно стабильны, и основные проблемы сосредоточены на руках и глазных яблоках. Но с точки зрения смыслового понимания ключевое слово «дискотека» не отражается.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Можно использовать для создания видеоэффектов

В целом Dream Machine, Цзи Мэн и Кэ Лин выступили лучше на этом уровне, но ни один из них не смог достичь уровня Соры. Кроме того, это слово-подсказка также показывает эстетические различия каждой модели, включая цветовые тенденции, выбор стиля, смену линз и т. д.

Третий уровень установлен наПерсонаж крупным планом, используются слова-подсказки:Крупный план астронавта, плывущего за пределами космической станции, на фоне Земли и Луны, а на козырьке его шлема отражаются звезды.

Стабильное видео показало хорошие результаты на этом уровне, точно отображая такие ключевые слова, как «космонавт», «земля», «луна» и «отражение звезды», а его стабильность также была очень высокой. С точки зрения движения, это не простое перемещение объектива, а движение объекта снимка относительно фона.


▲Stable Video генерирует видео

Машина Мечты перевернулась, напрочь забыв о «космонавте» и нарисовав космическую сцену.


▲Dream Machine генерирует видео

Хайпер хорошо показал себя на этом уровне, хотя слово «луна» было пропущено, были отражены и другие ключевые слова, а отражение в шлеме также было очень естественным.


▲Haiper генерирует видео

Большая модель Zhixiang изначально отказывалась генерировать слово-подсказку, указывая на наличие конфиденциального контента. После многих сокращений я наконец создал видео с «крупным планом человека, плывущего за пределами космической станции».

Общий эффект изображения относительно реалистичен. Хотя последнее слово-подсказка содержит только ключевое слово «космическая станция», которое отражает содержание, на нем все равно изображены такие элементы, как Земля и скафандры. Однако главный герой не носит космический шлем, не умеет дышать и даже говорить (дог).


▲Умная модель слона генерирует видеоэффекты.

Цзи Мэн относительно хорошо передает детали персонажей. Лица и костюмы относительно тонкие, а стабильность очень высокая. Однако на заднем плане изображения, кажется, есть вторая «Земля». это скорее «крупный план», чем «крупный план».

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲Видео о мгновенном создании мечты

В ролике, сгенерированном Келингом, сначала не было персонажей, а затем астронавт медленно вошел в кадр, но фон был неподвижным, что, казалось, имело нотку юмора. Однако точность и стабильность самого изображения по-прежнему очень высока: оно отражает каждое ключевое слово, а также изображает «космическую станцию», которую пропустили некоторые игроки.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Келинг создает видео

Хотя общая производительность уровня персонажа не так стабильна, как сцена натюрморта, она намного лучше, чем на предыдущем уровне. Это может быть связано с богатыми тренировочными данными и небольшим диапазоном движений. Лучше всего на этом уровне работают Stable Video, Haiper, Ji Meng и Ke Ling.

В целом, среди 6 продуктов для создания видео с использованием искусственного интеллекта, с которыми компания Zhidongxi столкнулась на этот раз,Мечта, дух Преимущество эффекта генерации относительно очевидно, как с точки зрения продолжительности, так и стабильности, он достиг хороших возможностей. Кроме того, отечественные продукты, такие как Morph Studio и NeverEnds, также очень эффективны, но поскольку с момента выпуска Sora у них не было новых продуктов или обновлений моделей, они не входят в сферу данного опыта.

3. Битва за капитал:5Ежемесячная прибыль44миллиардов, появляются новые игроки

Когда Sora была выпущена, она снова вызвала увлечение генеративным искусственным интеллектом, как и оригинальный GPT-4, вызвав коллективный дневной лимит концептуальных акций Vincent Video.

Первичный рынок также возвещает новую волну карнавала.По неполным статистическим данным Чжидунси, за пять месяцев с момента освобождения Соры, по крайней мере,5Победил стартап в треке генерации видео с помощью искусственного интеллектаБолее 100 миллионов юанейФинансирование на общую сумму около 1,2 миллиарда юаней, и Runway, как выяснилось, ведет переговоры о новом финансировании в размере 450 миллионов долларов США (приблизительно 3,268 миллиарда юаней).


▲Крупные инвестиции и финансирование, связанные с созданием видео с помощью искусственного интеллекта (умная таблица Восток-Запад)

одомашненный,Аиши ТехнологияВ марте и апреле компания привлекла два миллиарда долларов соответственно, и ей отдали предпочтение такие известные инвесторы, как Ant. Ранее в августе прошлого года она получила лишь ангельский раунд финансирования на сумму десятки миллионов юаней.

В январе этого года Aishi Technology запустила зарубежную версию своего продукта для создания видео с использованием искусственного интеллекта PixVerse. На тот момент она стала мощной темной лошадкой, конкурирующей с Pika и Runway. После того, как Sora была выпущена, ее основатель Ван Чанху однажды сказал, что она наверстает упущенное в течение 3-6 месяцев.

Прошло пять месяцев, а Aishi Technology еще не выпустила итеративное обновление базовой модели, но последовательно запустила новые функции, такие как согласованность символов и кисти движения. Zhidongxi поинтересовался прогрессом своей продукции и узнал, что ее модель нового поколения и новые функции "Винсент Видео Художественный фильм” выйдет на этой неделе и может генерироватьПродолжительность 8 секундвидео и можетСоздавайте 3-5 непрерывных аудиовидео одновременно


▲PixVerse запускает функцию кисти движения (Источник: Aishi Technology)

Шэншу Технология Компания также получила два последовательных раунда финансирования на сумму в сотни миллионов юаней всего за три месяца, при этом Baidu Venture Capital продолжала инвестировать в качестве старого акционера. Ранее Shengshu Technology получила 2 раунда финансирования на общую сумму более 100 миллионов юаней.

Песок ИИ Это стартап, который недавно привлек внимание общественности и еще не выпустил ни одного продукта. 10 июля стало известно, что Sand AI получила десятки миллионов долларов в рамках финансирования серии А, возглавляемого Capital Today в мае.

Sand AI была основана в октябре 2023 года и в основном занимается разработкой технологии генерации видео, аналогичной Sora.Стоит отметить, что его основательЦао ЮэдаОдин из соучредителей Light Years Beyond., занимал должности руководителя Центра исследования визуальных моделей Пекинского научно-исследовательского института искусственного интеллекта Чжиюань и ведущего исследователя Microsoft Research Asia.

Публичная информация показывает, что Цао Юэ окончил Университет Цинхуа со степенями бакалавра и доктора. Он получил премию Марра за лучшую работу на ICCV, ведущей конференции по компьютерному зрению, и был процитирован более 40 000 раз в Google Scholar.


▲Цао Юэ (источник изображения с его личной домашней страницы)

Хайпер ИИ Это также новый стартап в индустрии создания видео. Компания была основана в 2022 году и расположена в Лондоне, Англия. Ранее она занималась 3D-реконструкцией на основе искусственного интеллекта.

По сообщениям зарубежных СМИ в марте, Haiper AI получила 13,8 млн долларов США (приблизительно 100 млн юаней) в рамках начального раунда финансирования, ранее в апреле 2022 года она привлекла 5,4 млн долларов США.

Команда основателей Haiper AI состоит из двух китайцев: Ишу Мяо когда-то работал в глобальной команде доверия и безопасности TikTok, а Зию Ван работал научным сотрудником в DeepMind. В конце прошлого года команда Haiper AI решила сосредоточиться на создании видео и в декабре выпустила бета-версию своего первого одноименного продукта для создания видео.


▲Haiper выпускает бета-версию одноименного продукта

Пика В июне компания объявила, что получила новый раунд финансирования на сумму около 80 миллионов долларов США (приблизительно 581 миллион юаней), при этом ее оценка удвоилась почти до 500 миллионов долларов США. В ноябре прошлого года Pika объявила, что завершила финансирование на общую сумму 55 миллионов долларов США при оценке в 200-300 миллионов долларов США.

2 июля, «Старый плеер» трека генерации видео AI.ВППВыяснилось, что компания ведет переговоры о новом финансировании в размере 450 миллионов долларов США (приблизительно 3,268 миллиарда юаней) при оценке в 4 миллиарда долларов США.

Последнее финансирование Runway было завершено в июне прошлого года. В число инвесторов входят Google, NVIDIA и т. д., объем финансирования достиг 1,5 миллиарда долларов США при 141 миллионе долларов США, в результате чего общий объем финансирования составил 237 миллионов долларов США. Если этот раунд финансирования будет реализован, как сумма финансирования, так и оценка увеличится более чем вдвое.

Вообще говоря, в последние несколько месяцев после выпуска Sora на первичном рынке продолжали появляться новые средства для создания видео с использованием искусственного интеллекта. Не только частота стала более частой, но и сумма значительно увеличилась. превысил предыдущий общий объем финансирования. Даже если у некоторых стартапов нет релизов продуктов или обновлений моделей, это не останавливает энтузиазм инвесторов.

4. 150 дней видеовойны ИИ, от «PPT» до настоящего «видео»

За 150 дней «невидимости» Sora, под «осадой» многих крупных производителей и стартапов, разрыв между основными продуктами для создания видео с использованием искусственного интеллекта и Sora значительно сократился, и есть один решающий момент —Готов использовать, и даже многие функции по-прежнему бесплатны.

В настоящее время продукт для создания видео с помощью искусственного интеллекта достиг хорошей продолжительности и стабильности, и в следующей итерации основное внимание уделяется физическому моделированию. Судя по официально представленным демоверсиям, Gen-3, Keling, Jimeng и Vidu в высокой степени имитируют реальный мир, а показанные кейсы практически такие же, как и выпущенные Sora.

Итак, каков текущий опыт продукта с точки зрения создателя?

недавно,Режиссер и создатель фильмов и телевидения с искусственным интеллектом Чэнь Кунь(Xianren Yikun) подготовила ремейк трейлера своей короткометражной драмы с искусственным интеллектом «Горы и моря» и сравнила его с оригинальной версией.

На премьере короткометражного спектакля он сказал Чжисиси и другим средствам массовой информации, что прогресс ИИ за полгода все еще очень очевиден, особенно вфизическое моделированиеПо аспектам, по его мнению, это достигнуто»межпоколенческий«Итерация. В частности, на этом этапе модели генерации видео, такие как Keling, достигли естественного высокого разрешения и больше не управляются нарезанным контентом изображения. Основные движения тела разумны, диапазон движений не только большой, но и плавный, и они положительно реагируют на подсказки. Но в то же время технология создания видео с помощью искусственного интеллекта по-прежнему сталкивается с несколькими основными проблемами: согласованность персонажей, согласованность сцены, производительность персонажей, взаимодействие действий и диапазон движений.


▲Сравнение ремейка и оригинального трейлера «Горы и моря»

С точки зрения приложений, ИИ все еще находится в процессе догонения традиционного кино и телевидения в таких сферах, как кино- и телепроизводство.

В полноценном производственном процессе ИИ по-прежнему является вспомогательным средством, а не основным инструментом, таким как сценарии, дубляж, монтаж, постпродакшн и т. д. В настоящее время не существует продукта, который мог бы достичь уровня производительности.

Однако с точки зрения затрат, в том числе коэффициента эффективности человеческого труда, процессы на базе ИИ сильно сжимаются, достигая уровня традиционных производственных процессов.Ниже 1/4


▲Чэнь Кунь дал интервью на показе

На выставке WAIC 2024Се Сюйчжан, соучредитель Aishi TechnologyТан сказал, что то, что мы сейчас называем «генерацией видео», на самом деле — это всего лишь генерация видеоматериалов, которая представляет собой лишь малую часть полного процесса производства видео. Здесь нет звука, монтажа, переходов, сценариев и т. д., будь то со стороны. с технической или деловой точки зрения, это очень долгий путь.

Это также еще одно важное направление развития видео с использованием искусственного интеллекта в дополнение к продолжению итерации базовой модели для преодоления существующих болевых точек генерации видео.

На рынке также есть много компаний, которые экспериментируют с различными процессами производства видео, и им также отдает предпочтение первичный рынок.Только за последнюю неделю появились инструменты для редактирования видео на базе искусственного интеллекта.ПодписиВиртуальная среда искусственного интеллекта предоставляет инструменты освещения и композитинга.БиблПолучил финансирование в размере 60 миллионов долларов США и 4,75 миллиона долларов США соответственно.

Заключение:ИИГенерация видео, ждем одногомомент ГПТ-4

Выпуск Sora вызвал энтузиазм отечественных и зарубежных команд и предпринимателей. Однако в целом он все еще находится на ранней стадии, технический маршрут еще не достиг консенсуса, а полученные эффекты все еще далеки от коммерческих стандартов. Что касается конкретного этапа, многие люди в отрасли сравнивают его с ранними этапами моделей языка и изображения, такими как «эра GPT-3», «канун 2022 года для генерации изображений» и т. д.

Но что можно сказать наверняка, так это то, что технология создания видео с помощью искусственного интеллекта развивается в геометрической прогрессии, и постоянно появляются новые продукты и технологии. Хотя существуют некоторые технические болевые точки и проблемы, ожидается, что с развитием технологий и продвижением рынка в этой области будет достигнуто больше прорывов и применений.

Война поколений ИИ-видео — это не только соревнование технологий, но и соревнование капитала. Нам придется подождать и посмотреть, кто посмеется последним в этой буре зарабатывания денег.