Новости

Zhipu AI выпускает большую модель генерации видео, Bilibili участвует в исследованиях и разработках, а Yizhuang предоставляет вычислительную мощность Jiazi Guangnian |

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Видео больших моделей вступают в битву сотен моделей.

Автор|Чжао Цзянь‍‍‍

Этот год стал первым годом бурного развития крупномасштабных моделей «видеопоколения». За последние два месяца мы видели, как Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 и другие крупные видеомодели гонялись друг за другом.

Однако в первой половине года крупные модельные компании по производству видео, как правило, сосредотачивались только на функции создания видео.

Во второй половине года крупные компании, занимающиеся языковыми моделями, постепенно последуют по стопам OpenAI и выйдут на рынок больших видеомоделей, чтобы унифицировать языковые модели и видеомодели.

Среди громких «шести больших моделей» самой быстродвижущейся является Zhipu AI.

Сегодня утром эта крупная модель-единорог из Цинхуа запустила продукт для создания больших моделей видео «Qingying», который напрямую открыт для всех пользователей и поддерживает Wensheng Video и Tusheng Video.

После ввода фрагмента текста или изображения (например, подсказки) в ПК или приложение Zhipu Qingyan пользователи могут выбрать стиль, который они хотят создать, включая мультяшный 3D, черно-белый, живопись маслом, стиль кино и т. д., в сопровождении собственного стиля Qingying. музыка, создание видеоклипов, полных воображения искусственного интеллекта, кроме того, «Мини-программа AI Dynamic Photo» поддерживает видео Tusheng;

Что касается текущей ситуации в области больших видеомоделей, Чжан Пэн считает, что она, вероятно, попадет в ситуацию, в которой будут конкурировать сотни научных школ, как и в случае с большими языковыми моделями.

С точки зрения стратегии коммерциализации текущий план оплаты Qingying таков: в течение начального тестового периода все пользователи могут использовать его бесплатно; заплатите 5 юаней, чтобы разблокировать права на высокоскоростной канал на один день (за 24 часа заплатите 199 юаней); платный высокоскоростной доступ на один год Права на канал. Чжан Пэн, генеральный директор Zhipu AI, сказал: «Текущая коммерциализация все еще находится на очень ранней стадии, и стоимость на самом деле очень высока. Мы будем постепенно повторять действия, основываясь на отзывах рынка».

Qingying API также одновременно запускается на открытой платформе крупных моделей Zhipu. Предприятия и разработчики могут испытать и использовать возможности моделей Wensheng Video и Tusheng Video, вызвав API.

Исследования и разработки Цинъин получили мощную поддержку со стороны Пекина. В районе Хайдянь расположена штаб-квартира Zhipu AI. Он обеспечивает комплексную поддержку, такую ​​​​как промышленные инвестиции, субсидии на вычислительную мощность, демонстрацию сценариев применения и таланты для Zhipu AI для проведения крупномасштабных исследований и разработок моделей. Обучение Qingying опирается на знания Yizhuang. Кластер высокопроизводительных вычислений в Пекине Рождение кластера вычислительных мощностей Ичжуан в будущем также будет применяться к огромному высокоточному промышленному кластеру в Ичжуане, Пекин, формируя новый бизнес-формат, в котором большие модели расширяют возможности реальной экономики.


Что касается экологического сотрудничества, bilibili также участвовала в процессе технологических исследований и разработок Qingying в качестве партнера и стремится изучить возможные будущие сценарии применения. В то же время в совместном строительстве модели участвовал и партнер Huace Film and Television.

Создавайте видео из любого текста за 1,30 секунды.

Каков конкретный эффект Цинъин? Давайте сначала посмотрим на несколько официально выпущенных видеокейсов (все они сопровождаются музыкой).

  • Видео Винсента:

Слова-подсказки: Толкнитесь вверх под небольшим углом, медленно поднимите голову, и на айсберге внезапно появится дракон. Затем дракон замечает вас и бросается к вам.стиль голливудского кино

Подсказка: в ночной городской сцене в стиле киберпанк с мигающими неоновыми огнями портативная камера медленно приближается, и маленькая обезьянка в механическом стиле ремонтирует ее с помощью высокотехнологичных инструментов в окружении мигающего электронного оборудования и футуристических отделочных материалов. Стиль киберпанк, загадочная атмосфера, высокое разрешение 4K.

Слово-подсказка: Перспектива рекламной съемки, желтый фон, белый стол, картошка брошена и превращена в порцию картофеля фри.

  • тушэн видео

Слово-подсказка: Классическая красота.

Подсказка: дракон выпускает огонь изо рта и сжигает небольшую деревню.

Слово-подсказка: Капибара лениво пьет колу через соломинку, повернув голову в сторону камеры

Время создания видео Qingying составляет около 6 секунд, а время ожидания после ввода слова-подсказки составляет около 30 секунд. Чжан Пэн сказал, что скорость этого поколения уже очень высока в отрасли.

Чжан Пэн считает, что исследование мультимодальных моделей все еще находится на очень ранней стадии. Судя по эффекту создаваемых видеороликов, есть много возможностей для совершенствования в плане понимания законов физического мира, высокого разрешения, непрерывности движений камеры и продолжительности. С точки зрения самой модели, необходима новая архитектура модели с более революционными инновациями. Она должна более эффективно сжимать видеоинформацию, полностью интегрировать текстовый и видеоконтент и делать генерируемый контент более реалистичным, одновременно соответствуя инструкциям пользователя.

2. Архитектура DiT собственной разработки.

Модель генерации видео Qingying Base — это CogVideoX, которая объединяет три измерения текста, времени и пространства и относится к алгоритму Соры. CogVideoX также представляет собой архитектуру DiT. Благодаря оптимизации скорость вывода CogVideoX увеличена в 6 раз по сравнению с предыдущим поколением (CogVideo).

Жипу в основном поделился тремя техническими особенностями CogVideoX: согласованностью контента, управляемостью и структурой модели.


Во-первых, чтобы решить проблему согласованности контента,Компания Zhipu самостоятельно разработала эффективную трехмерную вариационную структуру автокодировщика (3D VAE), которая сжимает исходное видеопространство до 2% от размера, тем самым снижая стоимость обучения и сложность обучения модели генерации диффузии видео.

Что касается структуры модели, Wisdom Spectrum использует причинную 3D-свертку в качестве основного компонента модели и удаляет модуль внимания, обычно используемый в автокодировщиках, что делает модель способной к миграции и использованию с разными разрешениями.

В то же время форма причинной свертки во временном измерении также позволяет модели иметь независимость от прямой последовательности для кодирования и декодирования видео, что упрощает обобщение на более высокие частоты кадров и более длительное время посредством точной настройки.

С точки зрения инженерного развертывания, Zhipu настраивает и развертывает вариационный автокодировщик на основе Temporal Sequential Parallel во временном измерении, чтобы он мог поддерживать кодирование видео с чрезвычайно высокой частотой кадров с меньшим объемом графической памяти. Возможность декодирования. .

Второй момент – управляемость.Большинству текущих видеоданных не хватает соответствующего описательного текста или качество описания низкое. По этой причине Zhipu разработала сквозную модель понимания видео для создания подробных и удобных для содержания описаний для больших видеоданных, чтобы улучшить качество. возможности понимания текста модели и выполнения инструкций, что делает сгенерированное видео более согласованным с пользовательским вводом и позволяет понимать сверхдлинные и сложные подсказки.

Этот же метод использует и Сора. OpenAI обучила высокоописательную модель генератора субтитров, используя «технику повторного субтитров» DALL·E 3, а затем использовала ее для создания текстовых субтитров для видео в наборе обучающих данных. Кроме того, OpenAI использует GPT для преобразования коротких запросов пользователя в более длинные подробные субтитры, которые затем отправляются в видеомодель.

Наконец, существует архитектура-трансформер, разработанная Zhipu, которая объединяет три измерения текста, времени и пространства.Он отказывается от традиционного модуля перекрестного внимания, но объединяет встраивание текста и встраивание видео на этапе ввода для более полного взаимодействия с двумя модальностями.

Однако пространства признаков этих двух модальностей сильно различаются, чтобы компенсировать эту разницу, чтобы компенсировать эту разницу, Zhipu использует экспертную адаптивную норму слоя для более эффективной обработки информации о временном шаге. позволяет модели эффективно использовать параметры для лучшего согласования визуальной информации с семантической информацией.

Модуль внимания использует трехмерный механизм полного внимания. Предыдущие исследования обычно используют разделение пространственного и временного внимания или блокируют пространственно-временное внимание. Они требуют большого количества неявной передачи визуальной информации, что в то же время значительно увеличивает сложность моделирования. не могут адаптироваться к существующим эффективным системам обучения.

Модуль кодирования положения разрабатывает 3D RoPE, который более способствует фиксации взаимосвязей между кадрами во временном измерении и установлению долгосрочных зависимостей в видео.

3. Закон масштабирования все еще действует.

В начале маршрута AI in big model компания Zhipu начала выкладывать сопутствующие макеты в мультимодальной сфере. От текста до изображений и видео понимание мира крупными моделями становится все более сложным и многомерным. Благодаря изучению различных модальностей появляются большие модели, способные понимать, знать и решать различные задачи.

Исследования Жипу мультимодальных больших моделей можно проследить до 2021 года. Начиная с 2021 года Zhipu разработала CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24) и CogView3 (2024).


На основе CogView команда разработала CogVideo, модель генерации текста в видео на основе больших моделей. Она приняла стратегию иерархического обучения с несколькими частотами кадров для создания высококачественных видеоклипов и предложила метод, основанный на рекурсивной интерполяции. постепенно генерировать текст, соответствующий каждому подописанию, и интерполировать эти видеоклипы слой за слоем для получения окончательных видеоклипов. Эта работа привлекла широкое внимание со стороны Facebook, Google и Microsoft и упоминалась в последующих работах по моделям генерации видео, таких как Make-A-Video от Facebook, Phenaki и MAGVIT от Google, DragNUWA от Microsoft и Video LDM от NVIDIA.

В мае 2024 года техническая группа по большим моделям GLM подробно остановилась на трех основных технических тенденциях больших моделей GLM для AGI во время основного выступления на ICLR 2024, в которой важную роль играют собственные мультимодальные большие модели: Команда больших моделей GLM считает, что Построение текста Ключевая основа для больших моделей. Следующим шагом является объединение текста, изображений, видео, аудио и других модальностей для обучения построению действительно собственной мультимодальной модели.


Zhipu имеет комплексную компоновку продуктов крупных модельных серий, и мультимодальные модели всегда играют важную роль. Zhipu подтвердил эффективность закона масштабирования при создании видео. В будущем, продолжая увеличивать масштаб данных и масштаб модели, мы будем исследовать новые архитектуры моделей с более революционными инновациями, более эффективно сжимать видеоинформацию и более полно смешивать текст. и видеоконтент.

Чжан Пэн считает, что одним из технологических прорывных направлений для больших моделей в будущем станут нативные мультимодальные большие модели, а закон масштабирования продолжит играть роль как в алгоритмах, так и в данных.

«Мы пока не видим признаков замедления технологической кривой», — сказал Чжан Пэн.

(Изображение на обложке и текст, сопровождающий изображения, источник: Zhipu)