«Jimeng AI» уже на прилавках, сможет ли Byte догнать Куайшоу?

2024-08-13

Журналист: Ян Синьи Редактор: Вэй Гуаньхун

«Давление оказывается на Douyin». Когда в июне этого года появились феноменальные продукты генеративного искусственного интеллекта, представленные собственной разработкой Kuaishou большой модели генерации видео Keling, весь внешний мир с нетерпением ждал дальнейших результатов Byte.

Недавно в Apple App Store была официально запущена мобильная версия «Jimeng AI», универсальной платформы для создания искусственного интеллекта, разработанной командой редакторов ByteDance.

Репортер Daily Economic News узнал, что в настоящее время в приложении есть такие функции, как отображение текстовых изображений и видео на основе текста/изображений. Кроме того, Jimeng запустил систему членства и запустил несколько способов подписки.

Сравнивая фактические применения Цзи Мэн, Кэ Линга и Соры, репортеры из «Daily Economic News» обнаружили, что три большие модели генерации видео более точны и полны в захвате и понимании подсказок, но возможности персонажей Цзи Мэн, такие как Формирование, богатство контента и беглость видео относительно недостаточны. Что касается продолжительности создаваемого контента, Jimeng поддерживает генерацию видео длительностью до 12 секунд.

«Количество секунд, необходимых для создания плавного видео, является ключевым фактором при оценке способности видео генерировать большую модель». Инженер по большим моделям сказал в интервью репортеру «Daily Economic News»: « «Гладкость» необходимо измерять по нескольким измерениям. Посмотрите, например, есть ли фактические ошибки в сгенерированном контенте, насколько хороша ваша память и правильно ли вы ощущаете пространство».

Мобильная версия «Jimeng AI» уже на полках магазинов. Источник изображения: скриншоты приложения.

«Цжимэн ИИ» уже на полках, сможет ли эффект догнать Лина?

В начале этого года появление Sora ознаменовало «эру видео ChatGPT». Впоследствии «темная лошадка» Keling, запущенная Kuaishou, повысила ожидания людей в отношении производительности крупномасштабных отечественных видеомоделей с искусственным интеллектом. ByteDance, материнская компания Douyin, которая также является гигантом короткометражного видео, считается одним из игроков с наибольшим потенциалом наверстать упущенное.

Источник изображения веб-страницы Keling AI: скриншот официального сайта.

В конце марта платформа для создания искусственного интеллекта «Jimeng AI», разработанная передовой командой Byte, была открыта для внутреннего тестирования, а 9 мая приложение было запущено в веб-версии. Вначале их было всего три. основные функции: генерация изображений, интеллектуальное полотно и генерация видео. В настоящее время 6 августа была запущена новая функция создания историй, мобильная версия приложения была официально запущена в Apple App Store и теперь имеет такие функции, как текстовые сообщения; на основе изображений и видео на основе текста/изображений.

Источник изображения веб-страницы Jimeng AI: скриншот официального сайта

Что касается фактического эффекта Цзимэна, то в начале июля этого года на Douyin был запущен первый в стране короткометражный научно-фантастический сериал AIGC с генеративным непрерывным повествованием «Саньсиндуй: Будущий апокалипсис». В этом коротком сериале, состоящем в общей сложности из 13 эпизодов, Джимэн, как главный сторонник технологий искусственного интеллекта, использовал 10 технологий искусственного интеллекта, включая создание сценариев AIGC, разработку концепции и раскадровки, преобразование изображений в видео, редактирование видео и улучшение медиаконтента.

По сообщениям СМИ, в процессе сотрудничества с Bona Pictures по запуску «Саньсиндуй: Будущий апокалипсис» Jimeng AI усовершенствовал функцию «генерации видео», включая поддержку заполнения кадров со скоростью 24, 30, 60 кадров в секунду и возможность удвоения суперсчета. , добавлено горизонтальное движение линзы, движение вверх и вниз, поддержка управления направлением и амплитудой движения линзы и т.д.

Источник изображения: Скриншот публичного аккаунта Jianying WeChat.

После запуска приложения Jimeng репортер Daily Economic News выбрал несколько слов-подсказок для видео Sora, официально выпущенных OpenAI, для проведения сравнительного теста Jimeng, Keling и Sora.

Судя по результатам испытаний, проведенных репортером, три большие модели генерации видео относительно точны и полны в захвате и понимании подсказок, а производительность экрана сгенерированного видеоконтента также является последовательной и плавной.

Однако по точности изображения персонажей Сора имеет определенные преимущества перед Цзи Мэн и Кэ Лином, а по естественности движений Цзи Мэн несколько уступает трем тестовым произведениям. На видеороликах, посвященных "Улицам Токио", видно, что голова и шея персонажа, созданного во сне, слегка искажаются при повороте головы, а также деформируются движения рук при переноске сумки.

Источник изображения: скриншот видео, созданный репортером.

С точки зрения богатства элементов производственного содержания, Сора также выглядит лучше среди трех. Например, в сгенерированном видеоконтенте на тему «Астронавт» Сора вызвал множество ассоциаций, связанных с подсказками, такими как космические корабли и сцены внекорабельных путешествий, в то время как Цзи Мэн и Кэ Лин представили только мужского персонажа в скафандре.

Источник изображения: скриншот видео, созданный репортером.

Партнер по исследованиям Analysys Analysis Чэнь Чен сказал в интервью репортеру Daily Economic News, что с точки зрения эффекта генерации общее качество изображений AI Dream лучше, а видео AI лучше с точки зрения продолжительности, богатства элементов и действия. связность и т. д. Подробностей пока нет.

«(Содержимое элемента недостаточно богато). Речь идет больше о выравнивании модели, но если возможность связать от «космонавта» к «космическому кораблю» отсутствует, это проблема с возможностями базовой модели». Инженер по крупным моделям рассказал репортеру Daily Economics News, что количество секунд, необходимое для создания плавного видео, является ключевым фактором при оценке способности видео создавать большие модели. «Плавное» необходимо просмотреть. из нескольких измерений, таких как наличие фактических ошибок в сгенерированном контенте, насколько хороша память и неодинаковое ощущение пространства».

Репортеры Daily Economic News в ходе испытаний обнаружили, что при вводе одних и тех же подсказок, чем длиннее видео, которое требуется создать, тем вероятнее, что точность и плавность основного изображения и движений видео будут соответственно повреждены.

В настоящее время Jimeng поддерживает генерацию видеоконтента продолжительностью 3 секунды, 6 секунд, 9 секунд и 12 секунд, что соответствует разному потреблению очков. Sora смогла синтезировать 1-минутные видеоролики уже после своего выпуска, 21 июня, Keling запустила видеофункцию Tusheng, которая поддерживает преобразование статических изображений в яркие 5-секундные видеоролики на основе различного текстового содержимого, и продолжает это делать; запись. Функция позволяет сделать видео продолжительностью около 5 секунд, а самое длинное видео можно создать примерно за 3 минуты.

Станет ли ИИ-видео золотой жилой для больших моделей?

Появление Sora, несомненно, открыло новое игровое поле для крупных моделей — в июле этого года Alibaba Damo Academy выпустила универсальную платформу для создания видео с использованием искусственного интеллекта «Xunguang», а SenseTime запустила первую управляемую платформу для создания видео с использованием искусственного интеллекта для C- конечные пользователи Vimi, крупная модель для создания персонажного видео, и Zhipu также объявили, что на Zhipu Qingyan⋯⋯ будет официально запущена видеомодель Qingying (Ying), созданная с помощью искусственного интеллекта.

Когда ведущие игроки в области ИИ коллективно начинают яростную атаку на крупные модели, созданные с помощью видео, перед нами неизбежен вопрос: могут ли видео ИИ заставить крупные модельные компании зарабатывать деньги?

Возьмем в качестве примера OpenAI, звездную компанию в отрасли. После запуска в июле этого года ряда крупномасштабных моделей с передовыми возможностями, таких как Sora, некоторые СМИ процитировали людей, знакомых с этим вопросом и нераскрытыми внутренними финансовыми данными анализа. заявив, что OpenAI может столкнуться с потерей до 5 миллиардов долларов США в этом году. Учитывая огромные потери в 3,5 миллиарда долларов США, годовой доход компании оценивается в пределах от 3,5 до 4,5 миллиардов долларов США, что намного ниже операционных расходов.

В то же время отечественные крупномасштабные видеомодели также кажутся немного «тревожными», когда дело доходит до коммерциализации. 30 июля компания Keling запустила глобальную систему членства, аналогичную системе членства, запущенной на внутреннем рынке. Например, ежемесячная карта разделена на три уровня: 10 долларов США, 37 долларов США и 92 доллара США, которые можно использовать. генерировать около 66, 300 и 800 5-секундных видеороликов.

Репортер Daily Economic News заметил, что Джимэн запустил систему членства с различными методами подписки: базовое членство стоит 79 юаней за один месяц, 69 юаней за непрерывную ежемесячную подписку и 659 юаней за годовую подписку. В частности, базовые участники могут использовать 505 баллов в месяц для создания примерно 2020 изображений или 168 видеороликов с использованием искусственного интеллекта. Кроме того, в ближайшее время будут запущены стандартные членские услуги с 2020 баллами в месяц и расширенные членские услуги с 6555 баллами в месяц.

«Из-за высоких затрат на обучение моделей и выводов больших моделей ИИ, в сочетании с относительно разрозненным спросом на инструменты ИИ со стороны пользователей C-конца и их нежеланием платить, коммерциализация больших видеомоделей на рынке C-конца будет еще предстоит долгий период совершенствования». Чэнь Чен считает, что на рынке C-конца коммерциализации крупномасштабных видеомоделей еще предстоит пройти долгий путь.

Начиная с рынка B-стороны, Чэнь Чен рассказал репортеру Daily Economic News: «Для стороны B революция в области технологий искусственного интеллекта меняет первоначальный рабочий процесс, сжимая избыточные ссылки и вызывая новый спрос на творческие инструменты. В этом процессе большие модели видео с использованием искусственного интеллекта можно постепенно интегрировать с существующим кино- и телепроизводством, рекламным творчеством и планированием медиа-контента, чтобы помочь в автоматизации сложных процессов и производстве интеллектуального контента, а также можно ли эффективно внедрить возможности модели в реальные рабочие процессы принесут реальный результат. Повышение сексуальной эффективности и снижение затрат являются ключевыми факторами в создании возможностей коммерциализации».

«Коммерциализация Кими постепенно начнет изучаться, но в настоящее время это не является основной задачей. В настоящее время основное внимание уделяется созданию модели следующего поколения с более мощными возможностями». В августе этого года Dark Side of the Moon дала интервью журналисту. Репортер газеты Daily Economic News Ши Цзэн заявил, что на данном этапе не время сосредотачиваться на коммерциализации.

Возможно, то же самое можно сказать и о «молодой» Мечте, которой еще предстоит достичь и превзойти одну веху за другой. «Текущие функции продукта и бизнес-модели Цзимэна сосредоточены на обслуживании пользовательского контента (пользовательский контент), а экологическая интеграция с Douyin также будет в центре внимания будущего развития», — сказал Чэнь Чен: «Возможно, с точки зрения продолжительности, частоты кадров и изображения». детали и другие технологии. Прямой сравнительный анализ параметров — это не то, на что Джимэн должен обращать наибольшее внимание на данном этапе, главное — реализация приложений и возможности экологической интеграции».

новости

«Jimeng AI» уже на прилавках, сможет ли Byte догнать Куайшоу?

Введение

Моя контактная информация