Новости

AI-версия Соры уже здесь!Это бесплатно и безлимитно для всех, вы можете играть в нее, если у вас есть мобильный телефон, а также открыт API.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Цзинь Лэй родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Прямо сейчас,Спектр мудрости ИИРодилась версия Соры, названнаяясная тень

Без лишних слов, давайте взглянем на изображения, созданные Qingying.короткометражный фильм



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

существоватьВинсент ВидеоНапример, если вы дадите Цинъин подсказку, вы сможетеБросьте вызов его воображению

В ночной городской сцене в стиле киберпанк с мигающими неоновыми огнями портативная камера медленно приближается, показывая маленькую механическую обезьянку, использующую высокотехнологичные инструменты для ремонта, в окружении мигающего электронного оборудования и футуристических отделочных материалов. Стиль киберпанк, загадочная атмосфера, высокое разрешение 4K.



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Он полон киберпанка и футуристического привкуса и ближе к той картине, которую мы себе представляем.

И кромеВинсент ВидеоКроме того, на этот раз Цинъинтушэн видеоСпособности также были выпущены вместе.

Теперь давайте сравним ваше воображение и креативность Цинъин, чтобы увидеть, кто лучше.

Пожалуйста, посмотрите на первую картинку——пещерная цивилизация



Следующее видео представляет собой версию, созданную и оцененную Цинъином с использованием AI Power:



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

В конце видео Цинъин даже научилась трясти камеру в ключевых кадрах, что сделало видео более загадочным.

Далее, давайте перейдем ко второму раунду и все же сначала вместе посмотрим картинки——Дыхание Огненного Дракона



Видео, созданное Цинъин на основе этой картинки, открывается так:



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Я мог представить, что дракон готовится извергнуть огонь, но не ожидал, что он сожжёт деревню на земле, но это тоже было разумно.

Но, если посмотреть на всю презентацию Zhipu AI, эффекты высокой четкости и согласованности изображения — это лишь часть основных моментов.ценность благосостоянияЭто полно!

Бесплатно для всех, без очереди, неограниченное количество раз!

Более того, эффект заключается в непосредственном создании большой модели из ваших собственных видео.CogVideoСпособностьПолная мощность, не занимайтесь голодным маркетингом.

По данным Zhipu AI, для создания 6-секундного видео с разрешением 1440x960 требуется всего 30 секунд, что увеличивает скорость вывода модели в 6 раз.



Мало того, теперь в Чжипу ЦинъяньПК-версияиПРИЛОЖЕНИЕНа сайте открыты функции Wensheng Video/Tusheng Video;АпплетыС другой стороны, в настоящее время он поддерживает только видео Tusheng.

Есть и хорошие новости для разработчиков. На этот раз видео генерирует большие модели.APIОн тоже был полностью открыт, даСначала внутри страныой!

Надо сказать, что с точки зрения удобства и эффективности Zhipu AI и на этот раз преуспел.

Итак, пришло время использовать функцию генерации видео Zhipu AI для реального тестирования.

Измеренный спектр мудрости AI версия Сора

Давайте сначала пройдём тестВинсент ВидеоЭффект.

Откройте приложение Zhipu Qingyan или версию для ПК, и вход в Vincent Video будет в главном диалоге.





Если взять в качестве примера приложение, интерфейс выглядит следующим образом:



Дальше все готово, просто введите подсказку.

Но следует отметить, что это залог успеха или провала генерации видео.

Одним из наиболее важных принципов является: Морской узел! Состав! секс!Формула выглядит следующим образом:

  • Простая формула: [Движение камеры] + [Построить сцену] + [Подробнее]
  • Сложная формула: [Язык объектива] + [Свет и тень] + [Сюжет (Описание объекта)] + [Движение объекта] + [Сцена (Описание сцены)] + [Настроение/Атмосфера/Стиль]

Насколько хуже будет эффект?

Например, если вы просто введете:маленький мальчик пьет кофе, сгенерированный результат выглядит следующим образом:



Это вполне удовлетворительно, но на первый взгляд кажется, что это искусственный интеллект.

А вот если слова-подсказки обогащаются по формуле, то способ открытия будет совсем другой:

Камера поворачивается, показывая маленького мальчика, сидящего на скамейке в парке с чашкой дымящегося кофе. Он выглядел веселым в синей рубашке на фоне обсаженного деревьями парка и солнечного света, проникающего сквозь листву.



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Нет, ощущение фильма возникло внезапно.

Но помимо приведенной выше формулы, есть еще несколько важных принципов, на которые вы также можете ссылаться.

первый,Повторение – это сила

Повторение или усиление ключевых слов в разных частях подсказки может помочь улучшить согласованность вывода. Например, камера летит по сцене на сверхвысокой скорости (слова «сверхвысокая скорость» и «быстрый» — повторяющиеся слова).

Во-вторых, постарайтесь сосредоточить свои подсказки на том, что должно появиться в сцене. Например, вам следует указать чистое небо, а не безоблачное небо.

Имея в виду эти формулы и принципы, мы можем попробовать.

Маленький принц и лиса вместе смотрели на звезды на луне. Лисица время от времени смотрела на Маленького принца.



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Реалистичное изображение с близкого расстояния гепарда, спящего на земле, его тело слегка поднимается и опускается.



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Кроме того, согласно представлению Zhipu AI, если вы попробуете его несколько раз, могут появиться неожиданные эффекты (в любом случае это бесплатно).

После видео Винсента мы протестируем его еще раз.тушэн видео

Здесь также есть два ключевых метода.

Во-первых, загружаемые изображения должны быть максимально четкими, желательно с соотношением сторон 3:2 и форматом jpg или png.

Второй еще Подскажите,Должен быть предмет, и тогда Подсказку можно записать по формуле «[Предмет]+[Движение субъекта]+[Фон]+[Движение фона]».

Конечно, можно и без подсказки, но ИИ будет генерировать видеоролики на основе собственных идей.

Например, «кормим» фото Тан Монка:



Тогда, согласно только что приведенной формуле, подсказка будет следующей:

Тан Сенг протянул руку и надел солнцезащитные очки.



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Исходя из этого, есть много способов играть (делать что-то).

Например, пусть Чжэнь Хуань и Шэнь Мэйчжуан «сломают стену» и обнимают друг друга:

Чжэнь Хуань Мэйчжуан обнимается на экране.



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Оживить старые фотографии легко:

Ху Ши развернулся и ушел.



Адрес видео: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Судя по различным эффектам, Цинъин из Чжипу ИИ — это своего рода Сора, которую можно использовать напрямую.

Итак, следующий вопрос:

Как ты сделал это?

В области создания видео последовательность и последовательность выходного контента являются ключевыми факторами, определяющими конечный эффект.

С этой целью, по словам Жипу А.И., команда разработала эффективнуюТрехмерная вариационная структура автоэнкодера(3D VAE) сжимает исходное видеопространство до 2% от размера, что значительно снижает стоимость обучения и сложность обучения модели генерации диффузии видео.

Что касается структуры модели, команда Zhipu принимаетпричинная трехмерная свертка(Каузальная 3D-свертка) является основным компонентом модели, а модуль внимания, обычно используемый в автокодировщиках, удален, что дает модели возможность перехода к различным разрешениям.

В то же время форма причинной свертки во временном измерении также позволяет модели иметь независимость от прямой последовательности для кодирования и декодирования видео. Целью этого является облегчение обобщения для более высоких частот кадров и более длительного времени за счет штрафа. -тюнинг.

С точки зрения инженерного развертывания, Zhipu AI основан на временном измерении.параллелизм последовательностей(Temporal Sequential Parallel) настраивает и развертывает вариационный автокодировщик, чтобы он мог поддерживать кодирование и декодирование видео с чрезвычайно высокой частотой кадров при меньшем объеме графической памяти.



Но помимо последовательности и связности контента существует еще одна проблема при создании видео — у большинства текущих видеоданных отсутствует соответствующий описательный текст или качество описания низкое.

С этой целью компания Zhipu AI разработала комплексную модель понимания видео, позволяющую генерировать подробные и удобные для содержания описания больших объемов видеоданных.

Таким образом, можно улучшить понимание текста и выполнение инструкций модели, что сделает сгенерированное видео более согласованным с пользовательским вводом и позволит понимать сверхдлинные и сложные подсказки.

Наконец, Zhipu AI также разработала архитектуру Transformer, которая объединяет три измерения текста, времени и пространства.

Он отказывается от традиционного модуля перекрестного внимания, но объединяет встраивание текста и встраивание видео на этапе ввода для более полного взаимодействия с двумя модальностями.

Однако пространства признаков двух модальностей сильно различаются. Команда использовала экспертную адаптивную норму слоя для раздельной обработки текстовой и видеомодальностей, чтобы компенсировать эту разницу. Это может обеспечить более эффективное использование информации о временном шаге в модели диффузии. Создание модели может эффективно использовать параметры для лучшего согласования визуальной информации с семантической информацией.

Модуль внимания использует трехмерный механизм полного внимания. Предыдущие исследования обычно используют разделение пространственного и временного внимания или блокируют пространственно-временное внимание. Они требуют большого количества неявной передачи визуальной информации, что в то же время значительно увеличивает сложность моделирования. не могут адаптироваться к существующим эффективным системам обучения.

Модуль кодирования положения разрабатывает 3D RoPE, который более способствует фиксации взаимосвязей между кадрами во временном измерении и установлению долгосрочных зависимостей в видео.

Вышеупомянутое является ключевым техническим преимуществом того, как Чжипу стал Цинъин.

Еще кое-что

В дополнение к этой бесплатной версии Zhipu AI также выпустила платную версию, цена которой следующая:

  • 5 юаней:Откройте для себя преимущества круглосуточной высокоскоростной связи
  • 199 юаней: Разблокируйте один год высокоскоростных прав.

Конвертировать годовую плату, т.е.Всего 5 центов в день

Ну, на самом деле он пахнет немного ароматно.

Ссылка на опыт ниже. Заинтересованные друзья могут попробовать~.

https://chatglm.cn/video