«Jimeng AI» уже на прилавках. Сможет ли Byte догнать Kuaishou в масштабных видеомоделях?

2024-08-13

Журналист: Ян Синьи Редактор: Вэй Гуаньхун

«Давление оказывается на Douyin». Когда в июне этого года появились феноменальные продукты генеративного искусственного интеллекта, представленные собственной разработкой Kuaishou большой модели генерации видео Keling, весь внешний мир с нетерпением ждал дальнейших результатов Byte.

Недавно в Apple App Store была официально запущена мобильная версия «Jimeng AI», универсальной платформы для создания искусственного интеллекта, разработанной командой редакторов ByteDance.

Репортер Daily Economic News узнал, что в настоящее время в приложении есть такие функции, как отображение текстовых изображений и видео на основе текста/изображений. Кроме того, Jimeng запустил систему членства и запустил несколько способов подписки.

Сравнивая фактические применения Цзи Мэн, Кэ Лина и Соры, репортеры «Daily Economic News» обнаружили, что три большие модели генерации видео более точны и полны в захвате и понимании подсказок, но такие способности персонажей Цзи Мэн, как Формирование, богатство контента и беглость видео относительно недостаточны. Что касается продолжительности создаваемого контента, Jimeng поддерживает генерацию видео длительностью до 12 секунд.

«Количество секунд, необходимое для создания плавного видео, является ключевым фактором при оценке способности видео генерировать большую модель». Инженер по большим моделям сказал в интервью репортеру «Daily Economic News»: « «Плавность» необходимо измерять по нескольким измерениям. Посмотрите, например, есть ли фактические ошибки в сгенерированном контенте, насколько хороша память и правильно ли ощущается пространство».

Мобильная версия «Jimeng AI» уже на полках магазинов. Источник изображения: скриншоты приложения.

«Цжимэн ИИ» уже на полках, сможет ли эффект догнать Лина?

В начале этого года появление Sora ознаменовало «эру видео ChatGPT». Впоследствии «темная лошадка» Keling, запущенная Kuaishou, повысила ожидания людей в отношении производительности крупномасштабных отечественных видеомоделей AI. ByteDance, материнская компания Douyin, которая также является гигантом короткометражного видео, считается одним из игроков с наибольшим потенциалом наверстать упущенное.

Источник изображения веб-страницы Keling AI: скриншот официального сайта.

В конце марта платформа для создания искусственного интеллекта «Jimeng AI», разработанная передовой командой Byte, была открыта для внутреннего тестирования, а 9 мая приложение было запущено в веб-версии. Вначале их было всего три. основные функции: генерация изображений, интеллектуальное полотно и генерация видео. В настоящее время 6 августа была запущена новая функция создания историй, мобильная версия приложения была официально запущена в Apple App Store и теперь имеет такие функции, как текст; -изображения и видео на основе текста/изображений.

Источник изображения веб-страницы Jimeng AI: скриншот официального сайта

Что касается фактического эффекта Цзимэна, то в начале июля этого года на Douyin был запущен первый в стране короткометражный научно-фантастический сериал AIGC с генеративным непрерывным повествованием «Саньсиндуй: Будущий апокалипсис». В этом коротком сериале, состоящем в общей сложности из 13 эпизодов, Джимэн, как главный сторонник технологий искусственного интеллекта, использовал 10 технологий искусственного интеллекта, включая создание сценариев AIGC, разработку концепции и раскадровки, преобразование изображений в видео, редактирование видео и улучшение медиаконтента.

По сообщениям СМИ, в процессе сотрудничества с Bona Pictures по запуску «Саньсиндуй: Будущий апокалипсис» Jimeng AI улучшил функцию «генерации видео», включая поддержку заполнения кадров со скоростью 24, 30, 60 кадров в секунду и возможность удвоения суперсчета. , добавлено горизонтальное движение линзы, движение вверх и вниз, поддержка управления направлением и амплитудой движения линзы и т.д.

Источник изображения: Скриншот публичного аккаунта Jianying WeChat.

После запуска приложения Jimeng репортер Daily Economic News выбрал несколько слов из видеороликов Sora, официально выпущенных OpenAI, для проведения сравнительного теста Jimeng, Keling и Sora.

Судя по результатам испытаний, проведенных репортером, три большие модели генерации видео относительно точны и полны в захвате и понимании подсказок, а производительность экрана сгенерированного видеоконтента также является последовательной и плавной.

Однако по точности изображения персонажей Сора имеет определенные преимущества перед Цзи Мэн и Кэ Лин, по естественности движений Цзи Мэн несколько уступает трем тестовым произведениям. На видеозаписях, посвященных "Улицам Токио", видно, что голова и шея персонажа, созданного во сне, слегка искажаются при повороте головы, а также деформируются движения рук при переноске сумки.

Источник изображения: скриншот видео, созданный репортером.

С точки зрения богатства элементов производственного содержания, Сора также выглядит лучше среди трех. Например, в сгенерированном видеоконтенте на тему «Астронавт» Сора вызвал множество ассоциаций, связанных с подсказками, такими как космические корабли и сцены внекорабельных путешествий, в то время как Цзи Мэн и Кэ Лин представили только мужского персонажа в скафандре.

Источник изображения: скриншот видео, созданный репортером.

Партнер по исследованиям Analysys Analysis Чэнь Чен сказал в интервью репортеру Daily Economic News, что с точки зрения эффекта генерации общее качество изображений AI Dream лучше, а видео AI лучше с точки зрения продолжительности, богатства элементов и действия. связность и т. д. Подробностей пока нет.

«(Содержимое элемента недостаточно богато). Речь идет больше о выравнивании модели, но если отсутствует возможность ассоциировать «космонавт» с «космическим кораблем», это проблема с возможностями базовой модели». Инженер по крупным моделям рассказал репортеру «Daily Economics» News», что количество секунд, необходимое для создания плавного видео, является ключевым фактором при оценке способности видео создавать большие модели. «Плавное» необходимо просмотреть. из нескольких измерений, таких как наличие фактических ошибок в сгенерированном контенте, насколько хороша память и неодинаковое ощущение пространства».

Репортеры Daily Economic News в ходе испытаний обнаружили, что при вводе одних и тех же слов-подсказок, чем длиннее видео, которое требуется создать, тем выше вероятность того, что точность и плавность основного изображения и движений видео будут соответственно нарушены.

В настоящее время Jimeng поддерживает генерацию видеоконтента длительностью 3 секунды, 6 секунд, 9 секунд и 12 секунд, что соответствует разному потреблению очков. Sora смогла синтезировать 1-минутные видеоролики уже после своего выпуска, 21 июня, Keling запустила видеофункцию Tusheng, которая поддерживает преобразование статических изображений в яркие 5-секундные видеоролики на основе различного текстового содержимого, и продолжает это делать; запись. Функция позволяет сделать видео продолжительностью около 5 секунд, а самое длинное видео можно создать примерно за 3 минуты.

Станет ли ИИ-видео золотой жилой для больших моделей?

Появление Sora, несомненно, открыло новое игровое поле для крупных моделей — в июле этого года Alibaba Damo Academy выпустила универсальную платформу для создания видео с использованием искусственного интеллекта «Xunguang», а SenseTime запустила первую управляемую платформу для создания видео с использованием искусственного интеллекта для C- конечные пользователи Vimi, крупная модель для создания персонажного видео, и Zhipu также объявили, что на Zhipu Qingyan⋯⋯ будет официально запущена видеомодель Qingying (Ying), созданная с помощью искусственного интеллекта.

Когда ведущие игроки в сфере искусственного интеллекта коллективно начинают яростную атаку на крупные модели, созданные с помощью видео, перед нами неизбежен вопрос: могут ли видеоролики с искусственным интеллектом помочь крупным модельным компаниям зарабатывать деньги?

Возьмем в качестве примера OpenAI, звездную компанию в отрасли. После запуска в июле этого года ряда крупномасштабных моделей с передовыми возможностями, таких как Sora, некоторые средства массовой информации процитировали людей, знакомых с этим вопросом и нераскрытыми внутренними финансовыми данными анализа. заявив, что OpenAI может столкнуться с потерей до 5 миллиардов долларов США в этом году. Учитывая огромные потери в 3,5 миллиарда долларов США, годовой доход компании оценивается в пределах от 3,5 до 4,5 миллиардов долларов США, что намного ниже операционных расходов.

В то же время отечественные крупномасштабные видеомодели также кажутся немного «тревожными», когда дело доходит до коммерциализации. 30 июля компания Keling запустила глобальную систему членства, аналогичную системе членства, которую она запустила на внутреннем рынке. Например, ежемесячная карта разделена на три уровня: 10 долларов США, 37 долларов США и 92 доллара США. может генерировать около 66, 300 и 800 5-секундных видеороликов.

Репортер Daily Economic News заметил, что Джимэн запустил систему членства с различными методами подписки: базовое членство стоит 79 юаней за один месяц, 69 юаней за непрерывную ежемесячную подписку и 659 юаней за годовую подписку. В частности, базовые участники могут использовать 505 баллов в месяц для создания примерно 2020 изображений или 168 видеороликов с использованием искусственного интеллекта. Кроме того, в ближайшее время будут запущены стандартные членские услуги с 2020 баллами в месяц и расширенные членские услуги с 6555 баллами в месяц.

«Из-за высоких затрат на обучение моделей и выводов больших моделей ИИ в сочетании с относительно разбросанным спросом на инструменты ИИ со стороны пользователей C-конца и их нежеланием платить, коммерциализация больших видеомоделей на рынке C-конца будет еще предстоит долгий период совершенствования». Чэнь Чен считает, что на рынке C-end коммерциализации крупномасштабных видеомоделей еще предстоит пройти долгий путь.

Начиная с рынка B-стороны, Чэнь Чен рассказал репортеру Daily Economic News: «Для стороны B революция в области технологий искусственного интеллекта меняет первоначальный рабочий процесс, сжимая избыточные ссылки и вызывая новые потребности в творческих инструментах. В этом процессе большие модели видео с искусственным интеллектом можно постепенно интегрировать с существующей кино- и телепродукцией, рекламным творчеством и планированием медиа-контента, чтобы помочь в автоматизированной обработке сложных процессов и производстве интеллектуального контента, а также определить, можно ли эффективно внедрить возможности модели в реальные рабочие процессы принесут пользу. Повышение сексуальной эффективности и снижение затрат являются ключевыми факторами в создании возможностей коммерциализации».

«Коммерциализация Кими постепенно начнет изучаться, но в настоящее время это не является основной задачей. В настоящее время основное внимание уделяется созданию модели следующего поколения с более сильными возможностями». В августе этого года репортер из Dark Side of the Moon дал интервью. В газете «Daily Economic News» Ши Цзэн заявил, что на данном этапе не время сосредотачиваться на коммерциализации.

Возможно, то же самое можно сказать и о «молодой» Мечте, которой еще предстоит достичь и превзойти одну веху за другой. «Текущие функции продукта и бизнес-модели Цзимэна сосредоточены на обслуживании UGC (пользовательского контента), а экологическая интеграция с Douyin также будет в центре внимания будущего развития», — сказал Чэнь Чен: «Возможно, с точки зрения продолжительности, частоты кадров и детализации изображения». и другие технологии. Прямой сравнительный анализ параметров — это не то, на что Джимэну следует обращать наибольшее внимание на данном этапе, главное — реализация приложений и возможности экологической интеграции».

новости

«Jimeng AI» уже на прилавках. Сможет ли Byte догнать Kuaishou в масштабных видеомоделях?

Введение

Моя контактная информация