Zhipu AI приступает к созданию видео: «Цинъин» онлайн, длительностью 6 секунд, бесплатно и без ограничений

2024-07-26

Отчет о сердце машины

Редакция «Машинное сердце»

Большая модельная команда Zhipu разработана и построена самостоятельно.

Поскольку искусственный интеллект Kuaishou Keling стал популярным в стране и за рубежом, генерация домашнего видео становится все более популярной, как и модель большого текста в 2023 году.

Только что был официально выпущен еще один продукт большой модели поколения видео: Zhipu AI официально выпустила «Qingying». Если у вас есть хорошие идеи (от нескольких слов до нескольких сотен слов) и немного терпения (30 секунд), «Цинъин» может генерировать высокоточные видеоролики с разрешением 1440x960.

Ссылка на видео: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

С этого момента Qingying запустит приложение Qingyan, и все пользователи смогут в полной мере воспользоваться функциями диалога, изображений, видео, кодов и создания агентов. Помимо работы в Интернете и приложении Zhipu Qingyan, вы также можете использовать «Мини-программу AI Dynamic Photo», чтобы быстро добиться динамических эффектов для фотографий на вашем телефоне.

Видео, созданное Zhipu «Qingying», длится 6 секунд и имеет разрешение 1440×960. Все пользователи могут использовать его бесплатно.

Ссылка для доступа к ПК: https://chatglm.cn/
Ссылка для мобильного доступа: https://chatglm.cn/download?fr=web_home.

Чжипу AI заявил, что благодаря постоянному развитию технологий генерирующие возможности «Цинъин» вскоре будут использоваться в производстве коротких видео, создании рекламы и даже редактировании фильмов.

При разработке генеративных видеомоделей ИИ закон масштабирования продолжает играть роль как в алгоритмах, так и в данных. «Мы активно изучаем более эффективные методы масштабирования на уровне модели». На Дне открытых дверей Чжан Пэн, генеральный директор Zhipu AI, сказал: «Я считаю, что благодаря непрерывной итерации алгоритмов и данных закон масштабирования будет продолжать играть важную роль. сильная роль».

Подберите различные стили

Судя по некоторым текущим демонстрациям и простым испытаниям, «Цинъин» от Zhipu AI имеет следующие характеристики:

Производительность выше при создании видеоконтента с пейзажами, животными, научной фантастикой, гуманитарными науками и историей и т. д.;
Стили видео, которые мы умеем создавать, включают стиль мультфильма, стиль настоящей фотографии, стиль двухмерной анимации и т. д.;
С точки зрения эффекта представления типа объекта, животные > растения > предметы > здания > люди.

Он может генерировать видео с текстом или изображениями, а созданный стиль охватывает стиль фэнтезийной анимации.

Винсент Видео

Слова-подсказки: Толкнитесь вверх под небольшим углом, медленно поднимите голову, и на айсберге внезапно появится дракон. Затем дракон замечает вас и бросается к вам. Стиль голливудского кино.

Подсказка: Маг произносит заклинание в волнах. Драгоценный камень собирает морскую воду и открывает магический портал.

Слово-подсказка: Гриб превращается в медведя.

К реальной сцене:

Подсказка: в лесу, с точки зрения человека, высокие деревья закрывают солнце, и часть солнечного света проникает сквозь щели в листьях, эффект Тиндаля.

Слово-подсказка: Капибара стоит, как человек, держит в руке мороженое и с удовольствием его ест.

тушэн видео

Помимо текстовых видео, на Qingying вы также можете воспроизводить видеоролики, созданные в виде изображений. Tusheng Video предлагает больше новых способов игры, включая смайлики, создание рекламы, создание сюжетов, создание коротких видеороликов и т. д. В то же время одновременно будет запущен апплет «Анимированные старые фотографии», основанный на Qingying. Вам нужно всего лишь загрузить старые фотографии за один шаг, и ИИ сможет анимировать фотографии, сжатые в старину.

Слово-подсказка: Свободно движущаяся разноцветная рыбка.

Слово-подсказка: мужчина на фотографии стоит, ветер развевает его волосы.

Слово-подсказка: Маленькая желтая игрушка-утка, плавающая на поверхности бассейна, крупный план.

А затем о современном искусстве:

Ключевое слово: Камера вращается вокруг группы старинных телевизоров, показывающих разные шоу — научно-фантастические фильмы 1950-х годов, фильмы ужасов, новости, кадры, ситкомы 70-х и т. д., действие которых происходит в нью-йоркском музее в большой галерее.

Совет: достаньте iPhone и сделайте фотографию.

Никаких подсказок.

Ваши часто используемые смайлы, Zhipu AI может расширить их до «сериалов».

Подсказка: Четверо мастеров и учеников протянули руки и дали друг другу пять с растерянным выражением лиц.

Ссылка на видео: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Подсказки: Котенок широко открыл рот, с растерянным выражением лица и множеством вопросительных знаков.

Ссылка на видео: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Видно, что Цинъин может использовать различные стили, и есть больше способов игры, которые ждут, пока люди их откроют. Просто нажмите на функцию «Qingying Intelligent» на ПК/приложении Zhipu Qingyan, и каждая ваша идея может быть мгновенно воплощена в реальность.

Все технологии собственной разработки

Все в большой модели Wisdom AI уже давно внедряет мультимодальные генеративные модели ИИ. Начиная с 2021 года Zhipu AI опубликовала множество исследований, таких как CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024) и т. д.

Согласно сообщениям, «Qingying» опирается на CogVideoX, новое поколение модели генерации большого видео, независимо разработанное командой крупных моделей Zhipu AI.

В ноябре прошлого года его команда создала модель преобразования текста в видео CogVideo на основе графовой модели Винсента CogView2 и впоследствии сделала ее открытым исходным кодом.

CogVideo имеет 9,4 миллиарда параметров. Он генерирует серию начальных кадров через CogView2 и реализует генерацию видео путем интерполяции кадров изображений на основе модели двунаправленного внимания. Кроме того, CogVideo создает 3D-среду на основе текстовых описаний и может напрямую использовать предварительно обученные модели, чтобы избежать дорогостоящего обучения. Он также поддерживает ввод подсказок на китайском языке.

Модель генерации видео Qingying Base на этот раз — CogVideoX, которая может объединять три измерения текста, времени и пространства. Это относится к конструкции алгоритма Соры. Это также архитектура DiT. Благодаря оптимизации CogVideoX лучше, чем предыдущее поколение. CogVideo). Скорость вывода увеличена в 6 раз.

Появление Sora от OpenAI позволило ИИ добиться значительного прогресса в создании видео, но большинство моделей по-прежнему испытывают трудности с созданием видеоконтента с согласованностью и логической последовательностью.

Чтобы решить эти проблемы, компания Zhipu AI разработала эффективную трехмерную вариационную структуру автокодировщика (3D VAE), которая может сжимать исходное видеопространство до 2%, что значительно снижает стоимость обучения модели и значительно снижает сложность обучения.

Структура модели использует причинную 3D-свертку в качестве основного компонента модели и удаляет модуль внимания, обычно используемый в автоэнкодерах, чтобы модель могла быть перенесена в различное разрешение.

В то же время причинная свертка во временном измерении позволяет модели кодирования и декодирования видео иметь независимость от последовательностей, что помогает расширить модель до более высоких частот кадров и более длинных сцен посредством точной настройки.

Кроме того, при создании видео также возникает проблема, заключающаяся в том, что большинству видеоданных не хватает соответствующего описательного текста или качество описания низкое. По этой причине Zhipu AI самостоятельно разработала сквозную модель понимания видео для создания больших объемов видеоданных. описания, соответствующие контенту, а затем построить большое количество высококачественных пар видео-текст, что делает обученную модель полностью соответствующей инструкциям.

Наконец, стоит отметить, что компания Zhipu AI самостоятельно разработала архитектуру преобразователя, которая объединяет текст, время и пространство. Эта архитектура не использует традиционный модуль перекрестного внимания, а соединяет встраивание текста и встраивание видео на этапе ввода. для более полного взаимодействия между двумя модальностями.

Однако существуют большие различия в пространстве функций текста и видео. Zhipu AI обрабатывает их отдельно с помощью экспертной адаптивной нормы слоя, что позволяет модели эффективно использовать параметры для лучшего согласования визуальной информации с семантической информацией.

Компания Zhipu AI заявила, что благодаря технологии оптимизации скорость вывода генеративной видеомодели Zhipu AI увеличилась в 6 раз. В настоящее время теоретическое время, затрачиваемое моделью на создание 6-секундного видео, составляет 30 секунд.

Теперь, с запуском «Qingying», снова появился Zhipu AI, крупный игрок в области создания видео.

В дополнение к приложениям, которые может попробовать каждый, Qingying API также одновременно запускается на открытой платформе больших моделей bigmodel.cn. Предприятия и разработчики могут испытать и использовать возможности моделей Wensheng Video и Tusheng Video, вызвав API.

Поскольку различные компании продолжают запускать функции генерации видео с помощью искусственного интеллекта, в этом году конкурс генеративного искусственного интеллекта вступил в горячую стадию. Для большинства пользователей есть больше выбора: теперь как люди без опыта создания видео, так и профессиональные создатели контента могут создавать видео с помощью возможностей больших моделей.

Новости

Zhipu AI приступает к созданию видео: «Цинъин» онлайн, длительностью 6 секунд, бесплатно и без ограничений

Введение

моя контактная информация