Новости

Пусть AI-видео войдет в эпоху «универсального GC», эта китайская компания только что сделала это.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Дом возник из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Более низкий порог, более высокое качество, больше логики и большая продолжительность.

Эти несколько «обновлений» дебютировали сегодня утром.Новый продукт для домашнего видео с искусственным интеллектом PixVerse V2, жара резко возросла.

И его происхождение бросается в глаза:

От самой популярной отечественной звездной стартап-компании на этом трекеАиши ТехнологияТолько в первой половине этого года компания завершила два раунда финансирования.

Давайте посмотрим непосредственно на ключевые «новые идеи» Pixverse V2:

Модельная технология, использует архитектуру DiT (Diffusion+Transformer) и во многих аспектах использует оригинальную технологию, позволяющую значительно улучшить эффект генерации.

Например, введение пространственно-временного механизма внимания может обеспечить более масштабную и естественную генерацию видео.

Давайте посмотрим на маленькую альпаку, счастливо занимающуюся серфингом внизу, что очень уместно, поскольку LIama 3.1 была выпущена и сегодня достигла вершины.



Количество и качество видео, поддерживает создание до 5 последовательных фрагментов видеоконтента одним щелчком мыши.

При этом между клипами будет автоматически сохраняться согласованность основного изображения, стиля изображения и элементов сцены.



Кроме того, в официальном представлении Aishi также говорилось, что новый продуктПорог подсказок снова сильно снижен.

Независимо от того, освоили ли вы технику подсказки или нет, если вы ясно и кратко выражаете требования к картинке, вы легко сможете ее реализовать.иТо же самое относится и к китайскому контексту.

Кроме того, в нескольких видеороликах, созданных одновременно, наблюдается единообразие стиля, сюжета и сцены.

Сделайте короткое видео прямо сейчасВам не только не нужно самим фотографировать, но и даже вырезать их самостоятельно больше не нужно.

Сгенерируй его одним щелчком мыши и загрузи прямо на различные платформы для обмена, девочка-гусыня!



И качество, и количество гарантированы, а порог все ниже и ниже.

В создании видео с использованием искусственного интеллекта активно участвуют такие компании, как PixVerse, Runway и Luma.Каждый может наслаждаться этимэпоха.

Создайте до 5 видеороликов, чтобы обеспечить непрерывную креативность.

Но ждать!

Мы никогда не будем легко ослеплены демо-версиями, выпущенными различными компаниями.

Итак, узнав, что PixVerse V2 был запущен сегодня утром, Qubits немедленно запустилиТест на человеческую плоть.

Зайдите на официальный сайт PixVerse и перейдите прямо к PixVerse V2 в левой строке меню.

в настоящее время этоПоддерживает два режима генерации текста/изображений и видео.В реальной работе вы можете выбрать один из двух или использовать оба вместе.

Поле подсказки для ввода текста, изображения можно загрузить, нажав на желтое поле на картинке ниже.



В правом нижнем углу поля ввода, в части выбора серого поля, также естьварианты 5с/8с, вы можете выбрать длину сгенерированного отдельного видеоклипа в соответствии с вашими потребностями.

Сцена, выделенная зеленой рамкой, относится к конкретному видеоклипу, который необходимо создать.

Действительно, как сказано в официальном введении, теперь для генерации можно добавить до 5 видеороликов, а именно Scene1-5.



Стиль изображения всех клипов сцены будет соответствовать сцене 1., даже если другие последующие сцены загружают эталонные изображения, PixVerse будет обращаться к стилю изображения сцены 1 для перерисовки.

Короче говоря, я изо всех сил старался сохранить единый стиль пяти видеороликов.

Кроме того, слова-подсказки/изображения-подсказки для каждой сцены можно вводить индивидуально.

После того, как вы закончите, вы можете нажать кнопку со звездочкой в ​​правом нижнем углу поля ввода, чтобы войти в состояние генерации.

По опыту я обнаружил, что независимо от того, сколько сцен необходимо создать, каждое поколение стоит 50 кредитов (валюта вычислительной мощности PixVerse V2).

В ходе опыта, придерживаясь вводимыхСамая простая подсказкаВ принципе, пять слов-подсказок, которые мы вводим, следующие:

  1. Ранним утром на кровати оделся маленький белый кролик.
  2. Маленький белый кролик шёл на работу и проходил мимо сада.
  3. Маленький белый кролик держит чашку дымящегося кофе.
  4. Маленький белый кролик держит кофе и ждет очереди к лифту.
  5. Смирившийся маленький белый кролик прыгал вверх и вниз по дороге.

Хотя после генерации вы можете использовать опции для тонкой настройки каждого видео индивидуально (настроить объект, сцену, действие и движение камеры), мы не стали вмешиваться и сосредоточились на оригинальном вкусе.



Сгенерированные результаты следующие:

△Что касается внешнего вида, скорость воспроизведения этого видео ускоряется всего в 2,5 раза.

5 клипов были склеены вместе.Вы можете скачать полную версию напрямую,очень удобно.

Это немного забавно. На видео Пиа, маленькая белая крольчонка, ушедшая в отставку, сняла рабочую одежду, не лишив при этом никакого чувства класса.

Начав и проделав этот шаг, я, как и я, рабочий, который бережно относится к своему бюджету, сделал замечательное открытие, и я должен поделиться им со всеми:

Если вы хотите создавать только один видеоклип за раз, напрямую настройте параметры PixVerse V2 и удалите его только для сцены 1, и все будет в порядке — мы называем это методом 1.

Но есть другой способ (Метод 2) войти в другой режим PixVerse V2 через другой вход.

Поспрашивав в офисе, хотите ли вы создать один видеоклип, все предпочитают последний метод.

Почему?

Во-первых, метод 2 позволяет внести больше корректировок на основе таких параметров, как пропорции видео и стиль видео. Чем больше информации вы «хочет» предоставить, тем больше вероятность того, что модель вас поймет, и сгенерированные видеоизображения с большей вероятностью попадут в нее. соответствовать тому, что вы хотите.

С другой стороны, счеты затрещали и подсчитали: метод 1 потребляет 50 кредитов за одно поколение, независимо от того, генерирует ли он 1 фрагмент или 5 фрагментов, эта сумма будет вычтена, но метод 2 стоит всего 30 кредитов за одно поколение;

Экономьте, друзья!



Быстро возьмите в уме небольшой блокнот и запишите процесс работы метода 2——

Нажмите «Текст в видео» в левой строке меню, затем выберите «PixVerse V2» в «Модель».

может быть осуществленоВинсент Видео.



А добавив к словам-подсказкам такие слова, как «Аниме» и «Реалистичный», сгенерированный контент можно изменить по стилю.

Вся суть в том, что создаются сцены, которых нет в реальном мире. Введите слово-подсказку:

Зефирный великан бродит по красочному зефирному лесу.

Генерация результатов:



Ладно-ладно, невероятно, я никогда не думал, что мне действительно удастся получить такое абстрактное описание, как «Зефирный великан»!

Слепое предположение связано с тем, что семантическое понимание PixVerse V2 было значительно оптимизировано.

Подобные методы также могут быть испытаныФункция видео Тушенг

Нажмите «Изображение в видео» в левой строке меню и выберите «PixVerse V2» в «Модель».



Немного жаль, что упомянутую ранее кисть для движения нельзя использовать в видеороликах PixVerse Tuxing.

Следует отметить, что Tusheng Video в настоящее время не может использовать кисть движения «рисуй и двигай» (это новая видеофункция AI, запущенная Aishi в прошлом месяце).

Кубит спросил команду PixVerse V2:Кисть движения также скоро будет доступна в версии V2.

Кисти движения Runway и PixVerse раньше были хорошо приняты, поскольку они компенсируют отсутствие быстрого описания слов и повышают управляемость движения изображения.

Если PixVerse V2 запустит эту функцию, думаю, играть будет приятнее всем, а движение персонажей/объектов в видео будет более соответствовать законам физики.



Учитывая тот факт, что «подиум» людей или животных всегда был обязательным вариантом для видеороликов ИИ, демонстрирующих их мускулы (хотя мы не знаем почему), на этот раз, используя функцию графического видео PixVerse V2, мы сразу перешел к интенсивности и сделалАстронавт паркур на улице

Введите изображение подсказки:



Генерация результатов:



Эта задача представляет собой своего рода бафф, основанный на изображениях для создания динамики нереалистичного контента.

Что еще более необходимо, так это то, чтобы модель, лежащая в ее основе, имела сильнуювизуальное понимание

С точки зрения эффектов, будь то создание непрерывного видео, текстового видео или видео на основе изображений, PixVerse V2 может легко победить.

Наконец, я хотел бы отметить, что независимо от того, являетесь ли вы Вэньшэном или Тушеном, каждое созданное видео продолжительностью 5 или 8 секунд будет стоить 30 кредитов.

Однако скорость генерации относительно высокая, а качество стабильное и гарантированное. На самом деле, я считаю, что потратить 30 кредитов вполне стоит.

Поддержка обновления базовой пресс-формы DiT

В видео-треке AI, который в этом году известен как «король королей громкости», Ай Ши внезапно сделал другой ход.

Когда все игроки Соры по всему миру увеличивают продолжительность, улучшают качество графики и снижают сложность,Что делает Аиши, так это резко перерезает порог.

Мало того, что слово-подсказка не должно быть слишком профессиональным, но, что более важно, оно может создавать (до) 5 видеороликов одновременно, каждый по 8 секунд.

Можно гарантировать согласованность стиля, темы и сцены между этими 1–5 видеоклипами, и на основе логики между подсказками каждого видеоклипа в конечном итоге синтезируется длинное видео продолжительностью около 40 секунд.

Типа со связным сюжетом и последовательным содержанием.

Говорят, что у него «плавные движения и богатая детализация», а качество изображения достигает 1080p.



Другими словами, пользователи могут думать о том, что они хотят, вводить слова-подсказки и ждать создания видео продолжительностью от 10 до 40 секунд.

Он может не только реализовать «перемещение мыслей в видео» на изображении, а клипы будут последовательными и естественными; он также может сэкономить время и усилия в процессе производства видео, а также значительно повысить творческую эффективность.

После выхода PixVerse V2 некоторые пользователи сети быстро начали его использовать.

Появление PixVerse V2 позволяет многим людям, которые никогда не использовали видеоинструменты AI и даже не создавали видео, с его помощью добиться прорыва в количестве генерируемых работ от 0 до 5 и количестве работ от 0 до 1.

Право использования инструментов AIGC вновь делегировано

Расширение числа пользователей инструмента AIGC за пределами круга (больше не ограничиваясь профессиональными пользователями) достигается за счет итеративного обновления технологии.

За PixVerse V2 стоит технология AishiИтеративные обновления самостоятельно разработанной модели, лежащей в основе архитектуры DiT.

Это также основная технология PixVerse.

Чтобы проанализировать предыдущую ситуацию, Кубит изучил общедоступную информацию о внешнем выступлении Аиши/Вана Чанху и обнаружил, что вначале компания приняла технический маршрут архитектуры Diffusion + Unet, который также был основным подходом AIGC до появления Sora. , но как пошло дальше, С расширением параметров и сложными инструкциями Унет немного неадекватен.

Поэтому Аиси начал пробовать архитектуру DiT очень рано (до появления Соры) и следовал закону масштабирования для улучшения производительности модели.

Машина развернулась очень рано, поэтому появление Соры не застало Аиси врасплох. Напротив, поскольку оно подтвердило правильность маршрута, скорость Аиси в этом году значительно возросла.



Итак, какие обновления есть в базовой модели DiT PixVerse V2 на этот раз?

Первый пункт касается диффузионного пространственно-временного моделирования.

Аиши создал уникальный механизм моделирования пространственно-временного внимания, который «более разумен» и превосходит пространственно-временное разделение и архитектуру Fullseq.

Этот механизм лучше воспринимает время и пространство и лучше справляется со сложными сценами.

Второй момент – понимание текста.

Способность PixVerse V2 понимать подсказки была значительно улучшена. За кулисами стоит использование мультимодальной модели, которая позволяет лучше согласовывать текстовую информацию и видеоинформацию, чтобы получаемые результаты были такими, какими задумал создатель.

третийЧтобы добиться более высокой эффективности вычислений, PixVerse V2 взвешивает потери на основе традиционной модели Flow, чтобы модель могла сходиться быстрее и лучше.

Еще один момент, именно команда разработчиков PixVerse V2 разработала улучшенную 3D-модель VAE.

Для улучшения качества сжатия видео введен механизм пространственно-временного внимания; также используется технология непрерывного обучения для дальнейшего улучшения результатов сжатия и реконструкции видео.



«Простая и интересная» тенденция UGC под благословением ИИ

AIGC — просто самая известная тема в этом году.

ноСпособность применять AIGC фактически все еще находится в руках небольшого числа людей., таких как программисты, дизайнеры и другие специалисты.

AIGC еще не вышла на стадию универсального «GC», подобного UGC.

Столкнувшись с такой ситуацией, то, что Aishi Technology сделала с момента своего создания более года назад, можно резюмировать следующим образом:

  • Постоянно совершенствуйте возможности технологий искусственного интеллекта
  • Раскрыть подлежащую группу глагола «G (Порожденный)»
  • Обратите внимание на уровень качества «С (Контент)».

Это отражено не только в PixVerse V2, но и в том же духе в дальнейшем——

Обзор показал, что выпуск PixVerse V2 фактически стал третьим разом в этом году, когда компания предприняла шаги в области видеофункций и продуктов AI.

В январе этого года Aishi официально выпустила веб-версию PixVerse, видеопродукта Винсента, ежемесячные посещения которого быстро превысили один миллион.

В апреле была выпущена функция C2V (от символа к видео, согласованность ролей), разработанная на основе собственной видеомодели, которую можно использовать на веб-странице.

Точно извлекая характеристики персонажей и глубоко внедряя их в модель создания видео, PixVerse может зафиксировать персонажей и изначально решить проблему согласованности при создании видео с помощью ИИ.

В июне была выпущена кисть для движения Magic Brush. Используйте ее для размазывания по видеоэкрану и точного управления движением и направлением видеоэлементов.

Это также первая компания по производству видео с использованием искусственного интеллекта, выпустившая аналогичные функции после Runway.



Три раза за полгода – это не редкость, но действия в первые два раза показались несколько сдержанными.

Это может быть связано с желанием начинающей компании сконцентрироваться на совершенствовании своих работ, а может быть связано со сдержанным характером Ван Чанху и других лидеров, мы не знаем.

Но феномен заключается в том, что многие люди знают, что Aishi Technology является ведущей головкой на отечественном видеотреке с искусственным интеллектом, но они не обязательно знают, почему это голова и проста ли она в использовании.

Теперь, когда появился PixVerses V2, молодые и старые, профессионалы и непрофессионалы могут использовать его лично и чувствовать, что он действительно очень эффективен - это одна из причин, почему PixVerse V2 мгновенно стал хитом после своего запуска.

И, оглядываясь назад на различные действия, нетрудно обнаружить, что все эти несколько обновлений возможностей продукта сосредоточены вокруг одной основной части:Сделайте создание видео с помощью искусственного интеллекта более практичным и простым.

При этом видно, что возможности предыдущего продукта ориентированы на опыт использования профессионалов.

Это также подтверждает предыдущую речь Ван Чанху. Однажды он сказал:

Есть надежда, что нативное видео с использованием искусственного интеллекта можно будет интегрировать в звенья производства и потребления в индустрии контента.

Но PixVerse V2 отличается от других. Это поколение продуктов ориентировано на то, как сделать создание видео с помощью ИИ доступным для более широкого круга обычных людей.

В конце концов, хотя Magic Brush проста в использовании и полезна, она все равно требует от пользователя создания видео с использованием искусственного интеллекта.

Видеоподсказки сложнее, чем генерация текста и подсказки для генерации текста, и часто являются камнем преткновения для обычных людей при использовании генерации видео с помощью ИИ.

То, что снимает PixVerse V2, просто чудесно——

С помощью различных аспектов, таких как снижение сложности подсказок, дополнительная точная настройка, расширение границ генерируемого контента и устранение необходимости редактирования на более позднем этапе, мы стараемся максимально снизить стоимость создания видео с помощью ИИ.

Каков будет результат?

каждый,У каждого есть возможность, и каждый может принять участие, может превратить ваше буйное воображение в видимые видеоработы.

Поскольку существует сильное чувство участия, больше людей и даже каждый может проявить свой творческий потенциал и принять участие в создании видео с помощью ИИ.

В долгосрочной перспективе,Постепенно сформируется экосистема UGC в эпоху ИИ, и она будет проще и интереснее, чем UGC.

Я уже видел интересную картинку-мем раньше, и я думаю, что многие друзья тоже ее видели:



«PixVerse имеет честь оказаться в первом ряду вместе с лучшими продуктами для создания видео того времени, такими как Runway, Pika и SVD. Это также единственная китайская компания на этой фотографии, когда-то сам Ван Чанху держал эту фотографию». Шучу: «Но с другой стороны, впереди у нас гигант и нам еще предстоит его превзойти».

Нельзя отрицать, что AI-видео находится в центре внимания мультимодального трека в эпоху AI 2.0, особенно после того, как Сора произвела огромную волну.

Полный энтузиазм всех гигантов, крупных производителей и начинающих компаний иллюстрирует одну проблему.

Видео с использованием искусственного интеллекта расширяет и стимулирует потенциал рынка, а инновации, движимые мультимодальными большими моделями с использованием искусственного интеллекта, растут.

На этой картинке-меме может появиться Aishi, и это единственная китайская компания на картинке. Причина вполне очевидна.

С одной стороны, модельная технология Aishi Technology и эффекты продукта, выращенные на самостоятельно разработанных базовых формах, действительно признаны.

с другой стороны,Независимо от того, на какой волне технологий они находятся, стартапы привлекут внимание всего мира.

Во время поисковой войны Google использовал инновационный алгоритм ранжирования веб-страниц PageRank, чтобы украсть пользователей Yahoo, и даже обогнал опоздавших, став лидером на рынке поиска по сей день.

На заре существования большой языковой модели, хотя Transformer пришел от Google, GPT был инициативой OpenAI, небольшого исследовательского учреждения (в то время). Постепенно это привело к сегодняшнему GPT-4o и стало целью преследования.

Сегодня среди преследователей и конкурентов OpenAI есть Google.

В любое время, даже когда мы сталкиваемся с осадой крупных компаний и гигантов, всегда есть истории о стартапах, вырывающих искры, которые зажигают отрасль и сияют звезды.

То, что Aishi Technology пишет с помощью технологий и продуктов, — это видео-трек AI, который является собственной историей стартап-компании.