Новости

Создавайте видео за 30 секунд, бесплатно и неограниченное количество раз. Выпущенная сегодня китайская версия «Wisdom Spectrum Qingying» от OpenAI была просто сумасшедшей.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


За последние полгода отечественные и зарубежные модели генерации видео открыли новый виток технологического взрыва, и они всегда были популярны в первую очередь в социальных сетях.

Однако, в отличие от «отставания» моделей генерации языков, последние тенденции показывают, что отечественный прогресс в области моделей генерации видео значительно превысил международный уровень. Многие иностранные пользователи сети заявили, что «Китайское Keling AI Video» взрывает Интернет, в то время как Sora от OpenAI спит.

Сегодня компания Zhipu AI, ведущий отечественный производитель моделей, также выпустила свой продукт для генерации видео с использованием искусственного интеллекта «Qingying».


Конечно, в стране и за рубежом существует множество видеомоделей искусственного интеллекта, и все они имеют множество недостатков, но по сравнению с «будущими» Sora, эти видеопродукты искусственного интеллекта одновременно видимы и осязаемы, и могут потребоваться максимум несколько дополнительных попыток. . Видео «рисования» гарантированной сделки.

И само это исследование является частью технического прогресса.

Точно так же, как GPT-3 подвергался сомнению и критике в начале своего рождения и, наконец, использовал время, чтобы доказать свою ценность для продолжения прошлого и открытия будущего, точно так же, если мы дадим этим инструментам генерации видео AI некоторое время, они могут превращаются из игрушек в инструменты за считанные дни.

Ссылка на доступ к ПК Цинъин:
https://chatglm.cn/video?fr=opt_homepage_PC
Ссылка на мобильный доступ Цинъин:
https://chatglm.cn/video?&fr=opt_888_qy3

Создайте 6-секундное видео за полминуты, официально выпущен «Zhipu Qingying».

По сравнению с Zhipu Qingying, выпущенным сегодня, многие люди, возможно, более знакомы с Zhipu Qingying, но вместо того, чтобы смотреть рекламу, чтобы убедиться в эффективности, вы могли бы также сначала взглянуть на демоверсию, созданную «Qingying».

В густом лесу сквозь щели между листьями пробивается солнечный свет, создавая эффект Тиндаля, и свет обретает форму.


Когда цунами взревело, как разъяренный монстр, вся деревня мгновенно была поглощена морем, как в классической сцене из фильма о конце света.


В ночном городе с мигающими неоновыми огнями маленькая обезьянка, полная механической красоты, держит в руках высокотехнологичные инструменты и ремонтирует такое же мигающее ультрафутуристическое электронное оборудование.


Снова сменив стиль рисования, котенок широко открыл рот, демонстрируя очеловеченное выражение растерянности, с вопросительными знаками по всей морде.


Никакой дворцовой боевой драмы, никаких интриг, перекрестных объятий Чжэнь Хуань Мэйчжуан сквозь время и пространство, только искренняя сестринская любовь.


Кроме того, благодаря CogVideo, модели генерации большого видео, независимо разработанной и эффективно созданной командой крупных моделей Zhipu, Qingying теперь поддерживает различные методы генерации, включая генерацию видео текста, генерацию видео изображений, и даже может использоваться в производстве рекламы. монтаж фильмов, производство коротких видеороликов и другие области.

Цинъин обладает сильной способностью следовать командам и может полностью понимать и выполнять инструкции, данные пользователями.

Согласно сообщениям, компания Zhipu AI самостоятельно разработала комплексную модель понимания видео для создания подробных и удобных для содержания описаний больших объемов видеоданных, тем самым улучшая понимание текста модели и возможности следования инструкциям, а также генерируя контент, отвечающий потребностям пользователей. . видео.


С точки зрения согласованности контента компания Zhipu AI самостоятельно разработала эффективную трехмерную вариационную структуру автокодировщика (3D VAE), которая сжимает исходное видеопространство до 2% от размера. Вместе с модулем кодирования положения 3D RoPE это более удобно. для захвата кадров во временном измерении. Отношения между ними устанавливают дальнюю зависимость в видео.

Например, сколько шагов нужно, чтобы превратить картофель в картофель фри? Не нужно «зажигать», достаточно простого слова, и картошка превратится в золотистую и привлекательную картошку фри. Чиновники утверждают, что какой бы дикой ни была ваша идея, она может превратить ее в реальность одну за другой.


Кроме того, CogVideoX, разработанный со ссылкой на алгоритм Sora, также представляет собой архитектуру DiT, которая может интегрировать три измерения текста, времени и пространства. После технической оптимизации CogVideoX увеличил скорость рассуждения в 6 раз по сравнению с предыдущим поколением. (КогВидео). Теоретически стороне модели требуется всего 30 секунд для создания 6-секундного видео.

Для сравнения, Keling AI, который сейчас находится в первом эшелоне, обычно генерирует одно 5-секундное видео за 2–5 минут.

На сегодняшней пресс-конференции генеральный директор Zhipu AI Чжан Пэн попросил Цинъин создать видео, на котором гепард спит на земле и слегка покачивается. На это ушло около 30 секунд. Однако для «цветения» статичной розы требуется больше времени.

Кроме того, разрешение видео, генерируемого Qingying, может достигать 1440x960 (3:2), а частота кадров — 16 кадров в секунду.

Qingying также продуманно предоставляет функцию звукового сопровождения, и вы можете добавлять музыку к созданному видео и публиковать его напрямую.

Я думал, что статичной картины космонавтов, играющих на гитаре, достаточно для воображения, но когда она двигалась и сочеталась с неторопливой мелодией, казалось, будто космонавты проводят концерт в космосе.

В отличие от Соры «Futures», «Цинъин» не занимается маркетингом голода. Он будет полностью открыт, как только появится в сети. Любой желающий сможет опробовать его без предварительной записи и очереди. Кроме того, будут запущены более высокие разрешения. в последующих версиях функция генерации видео с большей скоростью и большей длительностью.

Чжан Пэн также сказал на Дне открытых дверей Zhipu: «Все пользователи могут испытать возможности искусственного интеллекта в области текстового видео и видео на основе изображений через Ying».

Сейчас Qingying находится на начальном этапе тестирования, и все пользователи могут использовать его бесплатно. Если вы стремитесь к более плавному использованию, вы можете разблокировать права высокоскоростного доступа на один день (24 часа) за 5 юаней. Если вы готовы заплатить 199 юаней, вы можете разблокировать платные права высокоскоростного доступа на один год.

Кроме того, API Ying также одновременно запускается на открытой платформе больших моделей bigmodel.cn. Предприятия и разработчики могут испытать и использовать возможности моделей Wensheng Video и Tusheng Video, вызвав API.

Порог для начала работы низкий, но вам все равно нужно «вытягивать карты». Новичкам больше не придется беспокоиться о написании плохих инструкций.

APPSO также впервые испытала Qingying. После тестирования некоторых сценариев мы также обобщили некоторые впечатления об использовании Qingying:

  • Генерация видео похожа на «алхимию», и результат нестабильный. Рекомендуется попробовать несколько раз.
  • Верхний предел эффекта зависит от слова-подсказки, структура слова-подсказки должна быть максимально понятной.
  • Наилучший эффект от объектива дает съемка крупным планом, остальные снимки не очень стабильны.
  • Сортировка реализации типа объекта: животные>растения>предметы>здания>люди.

Ученый, который не разбирается в искусстве, не является хорошим ученым. Эйнштейн играл на гитаре, как рыба в воде, качая головой в своем собственном ритме, и это не выглядело так, как будто он играл.


Гигантская панда также играет на гитаре стильно и универсально.


Тан Сенг, который обычно стоичен, помахал вам рукой и покачнулся в такт.


Конечно, вышеперечисленные видео все еще являются относительно хорошими. В процессе создания видео у нас также накопилось много бесполезных видео.

Например, я попросил лежащего на кровати императора съесть куриную голень правой рукой, и из воздуха появилась дополнительная рука. На последней секунде видео я почувствовал, что император вот-вот раскроет свою самку. макияж и прическа.


Или, может быть, в тот момент, когда Лесли Чунг посмотрел на меня, брат в его сердце стал «тем человеком».


В сложных сценах переход движений персонажей неестественен, физические характеристики сложных сцен не могут быть точно смоделированы, точность генерируемого контента недостаточна и т. д. Эти недостатки являются не «патентом Цинъин», а текущими ограничениями генерации видео. модель.

В практических приложениях, хотя пользователи могут улучшить качество видео за счет оптимизации слов-подсказок, также часто встречается «переворачивание». К счастью, слова-подсказки приемлемого качества могут в значительной степени обеспечить нижний предел модели генерации видео.

Чтобы позаботиться о некоторых начинающих игроках, мы также специально подготовили несколько советов по подсказкам:

  • Простая формула: [Движение камеры] + [Построить сцену] + [Подробнее]
  • Сложная формула: [Язык объектива] + [Свет и тень] + [Сюжет (Описание объекта)] + [Движение объекта] + [Сцена (Описание сцены)] + [Настроение/Атмосфера]

Камера поворачивается (движение объектива), показывая маленького мальчика, сидящего на скамейке в парке (описание объекта) и держащего дымящуюся чашку кофе (действие объекта). Он одет в синюю рубашку и выглядит счастливым (подробности сюжета), а фоном является обсаженный деревьями парк, сквозь листья которого на мальчика светит солнечный свет (описание окружающей среды).

Если вы все еще понятия не имеете, то я рекомендую вам использовать интеллектуальный агент, предоставленный Чжипу Цинъянь, чтобы помочь написать слова-подсказки для видео. Даже если вы входите в обычные сцены из жизни, вы можете получить три высококачественных слова-подсказки.


Например, если вы просто скажете: «Корги загорает на пляже», вы получите следующие подсказки в стиле фотографии природных пейзажей на китайском и английском языках, а также стиль акварельной живописи, стиль 3D-анимации и другие подсказки стиля на выбор. от:

Русский: На солнечном пляже корги лениво лежит на пляжном полотенце, наслаждаясь теплым солнечным светом. Камера снимает с низкого угла. На заднем плане — огромный синий океан и белый песчаный пляж. Волны мягко плещутся о берег. Атмосфера спокойная, а качество изображения — сверхчеткое. Русский: На солнечном пляже корги лениво лежит на пляжном полотенце, греясь в теплом солнечном свете. Камера снимает сцену с низкого ракурса, демонстрируя на заднем плане огромный синий океан и девственно чистый белый песок, а также ласковые волны. берег. Атмосфера спокойная, снятая в сверхвысоком разрешении 4K.

Видя такую ​​приятную подсказку, да, это то, что мне действительно хотелось тогда написать.

Прилагается адрес словесного агента Цинъин (видео Вэньшэн): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

То же самое касается создания видео из изображений. Введите тему изображения, выберите стиль изображения, и пусть Чжипу Цинъянь поможет вам написать соответствующие слова-подсказки. Эволюция от слов без подсказок к «надеть очки» к «Танский монах протягивает руку и надевает очки», эффект также очень разный.


Прилагается адрес агента с подсказкой Цинъин (видео Tusheng): https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Если вы хотите хорошо выполнять свою работу, вам необходимо сначала отточить свои инструменты и немного больше раскрыть шаблон. В Zhipu Qingyan вы также можете испытать дополнительные инструменты для создания контента.

От первоначального сбора тематических материалов, до процесса написания сценария, процесса создания картинок и видео, а затем и до рекламного копирайтинга, можно практически раскрыть всю цепочку творчества по созданию видео. Почти не указано четко, что только вы. подумайте о творчестве, а все остальное остается за вами.

Мы обнаружили, что недавно выпущенные видеопродукты с искусственным интеллектом, в том числе Keling, улучшают управляемость за счет контроля первого и последнего кадра.


Создатель искусственного интеллекта Чэнь Кунь однажды рассказал APPSO, что почти все видео с искусственным интеллектом, которые можно поставлять на коммерческой основе, — это видеоролики Tusheng, потому что видеоролики Wensheng пока не могут этого сделать, и это на самом деле вопрос управляемости.

Qingying, выпущенный сегодня компанией Zhipu AI, еще больше улучшает управляемость текстовых видео. В интервью APPSO компания Zhipu AI заявила, что текстовые видео отражают более универсальную управляемость.

Большинство видео, созданных ИИ, по-прежнему контролируются людьми с помощью языка. Следовательно, распознавание текста или простых языковых инструкций — это более высокий уровень контроля.
Видео с искусственным интеллектом переходит из игрушек в инструменты для творчества

Если прошлый год был первым годом бурного роста крупных моделей, то этот год стал важным узлом для применения видео ИИ.

Хотя Сора, которая стала причиной всего этого, еще не была в сети, она вдохновила на создание видеороликов с искусственным интеллектом.

Сора решает проблему скачков детализации между кадрами за счет разумного проектирования деталей. В то же время напрямую генерируются видеоизображения высокого разрешения (1080p), которые могут генерировать семантически насыщенные видеоролики продолжительностью до 60 секунд, что указывает на то, что последовательность обучения, стоящая за ним, также является относительно длинной.


Только за последние два месяца не менее 10 компаний выпустили новые видеопродукты с искусственным интеллектом или крупные обновления.


Всего за несколько дней до выпуска Zhipu Qingying ИИ Keling AI компании Kuaishou был открыт для внутреннего тестирования по всему миру, а другой PixVerse, названный Sora, выпустил свою версию V2, которая поддерживает генерацию 1-5 непрерывных видеоконтента в один клик.


Не так давно Runway Gen 3 Alpha также запустила публичное бета-тестирование для платных пользователей, в результате чего точность и плавность деталей были значительно улучшены. Модель генерации видео на уровне фильма Dream Machine, которая была выпущена только в прошлом месяце, также недавно была обновлена ​​с помощью функции первого и последнего кадра.

Всего за несколько месяцев создание видео с помощью ИИ значительно улучшилось с точки зрения физического моделирования, плавности движений и понимания подсказок. Чэнь Кун, режиссер фэнтезийной драмы об искусственном интеллекте, более чувствителен к этому. Он считает, что прогресс в технологии создания видео с использованием искусственного интеллекта может быть быстрее, чем предполагалось.

Видео с искусственным интеллектом в 2023 году больше похожи на динамические PPT, в которых персонажи действуют в замедленном режиме и полагаются на редактирование монтажа для рисования точек. Но теперь «аромат PPT» видео с искусственным интеллектом сильно потускнел.

Недавно был запущен первый отечественный драматический сериал AIGC «Горы и моря: Зеркала гор и морей: Рассекая волны». Он использует искусственный интеллект, чтобы заменить многие аспекты традиционных съемок кино и телевидения. Он рассказал APPSO, что в прошлом. , для создания подобных фэнтезийных тем нужно было не менее 100 человек, а он В команде всего более 10 человек, что значительно сокращает производственный цикл и стоимость.

За последние шесть месяцев мы видим, как больше профессиональных создателей кино и телевидения начинают пробовать видео с искусственным интеллектом. Внутренняя компания Kuaishou Douyin выпустила короткометражные драмы с искусственным интеллектом, а в Лос-Анджелесе состоялась премьера первого полнометражного фильма с искусственным интеллектом «Наш ремейк T2», созданного в сотрудничестве 50 создателей AIGC.


Хотя создание видео с помощью ИИ по-прежнему имеет ограничения с точки зрения согласованности персонажей и сцен, производительности персонажей, взаимодействия действий и т. д., нельзя отрицать, что видео с использованием ИИ постепенно превращается из игрушки, опробованной в прошлом году, в инструмент для создателей.

Это также может быть важной причиной, по которой такие продукты, как Zhipu Qingying, Kuaishou Keling, Luma Dream Machine и другие продукты, начали запускать системы членства. Вы должны знать, что большинство отечественных крупных моделей для C-конца бесплатны, а это значит, что это важная причина. В соответствии с внутренними привычками и приоритетами оплаты подписки. В связи со стремлением к стратегиям роста пользователей, помимо любопытных пользователей, оплата видео с использованием искусственного интеллекта должна поддерживаться большим количеством создателей контента, чтобы быть устойчивой.

Конечно, генерация видео с помощью ИИ все еще находится на относительно ранней стадии. Так называемое «создание фильма в одном предложении» — это всего лишь вводящий в заблуждение заголовок. Видеомодели должны иметь лучшие возможности отслеживания команд и управляемости, чтобы лучше понимать происходящее. Физический мир.

Жипу также упомянул на сегодняшней пресс-конференции, что исследование мультимодальных моделей все еще находится на очень ранней стадии.

Судя по эффекту создаваемых видеороликов, есть много возможностей для совершенствования в плане понимания законов физического мира, высокого разрешения, непрерывности движений камеры и продолжительности. С точки зрения самой модели, необходима новая архитектура модели с более революционными инновациями. Она должна более эффективно сжимать видеоинформацию, полностью интегрировать текстовый и видеоконтент и делать генерируемый контент более реалистичным, одновременно соответствуя инструкциям пользователя.

«Мы активно изучаем более эффективные методы масштабирования на уровне модели». Однако Чжан Пэн также уверен в разработке мультимодальных моделей: «Я считаю, что благодаря непрерывному обновлению алгоритмов и данных закон масштабирования будет продолжать действовать. его мощная сила».

Создатель искусственного интеллекта Чэнь Кунь считает, что это лишь вопрос времени, когда кадры, созданные искусственным интеллектом, будут на 100% подходить для большого экрана. Сколько времени это займет, не самое главное, но участие в этом процессе важнее, как отметил в предыдущем интервью APPSO Чжан Пэн, генеральный директор Zhipu AI:

Многие вещи нужно исследовать одно за другим, и этот процесс очень важен. Не просто видеть окончательные результаты, но, что более важно, мы принимаем меры. Я думаю, что это то, на что всем следует обратить больше внимания в данный момент.

Автор: Ли Чаофань, Мо Чунюй