Модель Zhipu Qingying CogVideoX 2B с открытым исходным кодом, для inference

Модель Zhipu Qingying CogVideoX 2B с открытым исходным кодом, для вывода можно использовать один RTX 4090.

2024-08-06

Автор｜Большая модельная мобильная группа
Электронная почта ｜ [email protected]

Благодаря постоянному развитию технологии крупномасштабных моделей технология генерации видео постепенно становится зрелой. Технологии, представленные моделями генерации видео с закрытым исходным кодом, такими как Sora и Gen-3, переопределяют будущий ландшафт отрасли. Однако до сих пор не существует модели генерации видео с открытым исходным кодом, которая могла бы удовлетворить требования приложений коммерческого уровня.

Придерживаясь концепции «обслуживания глобальных разработчиков передовыми технологиями», Zhipu AI объявила, что откроет исходный код CogVideoX, модели создания видео того же происхождения, что и «Qingying», в надежде, что каждый разработчик и каждое предприятие смогут свободно разрабатывать свои собственная модель генерации видео, способствующая быстрому обновлению и инновационному развитию всей отрасли.

Вывод Cog Video Perform и точная настройка могут быть выполнены с помощью одной видеокарты A6000.

Верхний предел слов подсказки для CogVideoX-2B — 226 токенов, длина видео — 6 секунд, частота кадров — 8 кадров в секунду, разрешение видео — 720*480. Мы зарезервировали широкое пространство для улучшения качества видео и с нетерпением ждем вклада разработчиков открытого исходного кода в быструю оптимизацию слов, длину видео, частоту кадров, разрешение, тонкую настройку сцены и разработку различных функций, связанных с видео.

На подходе модели с более высокими характеристиками и большими параметрами, так что следите за обновлениями и ждите их с нетерпением.

Репозиторий кода:
https://github.com/THUDM/CogVideo

Загрузка модели:
https://huggingface.co/THUDM/CogVideoX-2b

Технический отчет: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf.

Модель

ВАЭ：

Поскольку видеоданные содержат пространственную и временную информацию, их объем данных и вычислительная нагрузка намного превышают объем данных изображений. Чтобы решить эту проблему, мы предлагаем метод сжатия видео, основанный на 3D-вариационном автокодировщике (3D VAE). 3D VAE одновременно сжимает пространственные и временные измерения видео посредством трехмерной свертки, обеспечивая более высокую степень сжатия и лучшее качество реконструкции.

Структура модели включает в себя кодер, декодер и регуляризатор скрытого пространства, а сжатие достигается за счет четырех этапов понижающей и повышающей дискретизации. Временная причинная свертка обеспечивает причинность информации и снижает накладные расходы на связь. Мы используем методы контекстного параллелизма для крупномасштабной обработки видео. В ходе экспериментов мы обнаружили, что кодирование с большим разрешением легко обобщить, но увеличить количество кадров сложнее. Поэтому мы обучаем модель в два этапа: сначала на более низкой частоте кадров и мини-пакетах, а затем настраиваем на более высокой частоте кадров посредством контекстного параллелизма. Функция потерь обучения сочетает в себе потерю L2, потерю восприятия LPIPS и потерю GAN 3D-дискриминатора.

ЭкспертТрансформер

Мы используем кодировщик VAE для сжатия видео в скрытое пространство, затем разбиваем скрытое пространство на блоки и расширяем его до встраивания длинных последовательностей z_vision. В то же время мы используем T5 для кодирования введенного текста в текстовый встраивание z_text, а затем объединяем z_text и z_vision по измерению последовательности. Склеенные вложения подаются в стек экспертных блоков Transformer для обработки. Наконец, мы сшиваем вложения, чтобы восстановить исходную форму скрытого пространства, и декодируем с помощью VAE для восстановления видео.

Данные

Обучение модели генерации видео требует проверки высококачественных видеоданных для изучения реальной динамики. Видео может быть неточным из-за проблем с редактированием или съемкой человеком. Мы разработали отрицательные ярлыки, чтобы идентифицировать и исключать видео низкого качества, такие как чрезмерно отредактированные, прерывистые видео, низкокачественные видео в стиле лекций, с преобладанием текста и шумом на экране. Мы аннотировали и отфильтровали 20 000 точек видеоданных с помощью фильтров, обученных на видеоламе. В то же время рассчитываются показатели оптического потока и эстетики, а пороговое значение динамически регулируется для обеспечения качества создаваемого видео.

Видеоданные обычно не имеют текстовых описаний и их необходимо преобразовать в текстовые описания для обучения модели преобразования текста в видео. Существующие наборы данных субтитров видео имеют короткие субтитры и не могут полностью описать видеоконтент. Мы предлагаем конвейер для создания видеосубтитров из субтитров изображений и тонкую настройку сквозной модели видеосубтитров для получения более плотных субтитров. Этот метод генерирует короткие субтитры с помощью модели Panda70M, субтитры с плотным изображением с использованием модели CogView3, а затем суммирует их с использованием модели GPT-4 для создания окончательного короткого видео. Мы также доработали модель CogVLM2-Caption на основе CogVLM2-Video и Llama 3, обученную с использованием плотных данных субтитров для ускорения процесса создания видеосубтитров.

производительность

Чтобы оценить качество генерации текста в видео, мы используем в VBench несколько показателей, таких как действия человека, сцены, динамика и т. д. Мы также использовали два дополнительных инструмента оценки видео: Dynamic Quality в Devil и GPT4o-MT Score в Chrono-Magic, которые фокусируются на динамических характеристиках видео. Как показано в таблице ниже.

Мы подтвердили эффективность закона масштабирования при создании видео. В будущем, продолжая увеличивать масштаб данных и масштаб модели, мы будем исследовать новые архитектуры моделей с более революционными инновациями, более эффективно сжимать видеоинформацию и более полно ее интегрировать. Текстовый и видеоконтент.

Демо

Детализированный игрушечный деревянный корабль с искусно вырезанными мачтами и парусами плавно скользит по плюшевому синему ковру, который имитирует морские волны. Корпус корабля окрашен в насыщенный коричневый цвет с крошечными окнами. Ковер, мягкий и текстурированный, обеспечивает идеальный фон, напоминающий океанские просторы. Вокруг корабля находятся различные другие игрушки и детские предметы, намекающие на игровую среду. Сцена передает невинность и воображение детства, а путешествие игрушечного корабля символизирует бесконечные приключения в причудливой, внутренней обстановке.

Камера следует за белым винтажным внедорожником с черным багажником на крыше, когда он ускоряется по крутой грунтовой дороге, окруженной соснами на крутом склоне горы, пыль поднимается из-под его шин, солнечный свет освещает внедорожник, когда он ускоряется по грунтовой дороге, отбрасывая теплое сияние на сцену. Грунтовая дорога плавно изгибается вдаль, и не видно никаких других машин или транспортных средств. Деревья по обе стороны дороги — секвойи, с пятнами зелени, разбросанными повсюду. Автомобиль виден сзади, легко следуя изгибу, создавая впечатление, что он находится на неровной дороге через пересеченную местность. Сама грунтовая дорога окружена крутыми холмами и горами, с чистым голубым небом над ней с тонкими облаками.

На тревожном фоне разрушенного войной города, где руины и обрушившиеся стены рассказывают историю опустошения, пронзительный крупный план кадра молодой девушки. Ее лицо заляпано пеплом, молчаливое свидетельство хаоса вокруг нее. Ее глаза блестят смесью печали и стойкости, улавливая грубые эмоции мира, который утратил свою невинность из-за разрушительного конфликта.

Одинокая бабочка с крыльями, напоминающими витражи, порхает по полю цветов. Снимок фиксирует свет, проходящий через нежные крылья, создавая яркое, красочное зрелище. HD.

Заснеженный лесной пейзаж с грунтовой дорогой, пролегающей через него. Дорога обрамлена деревьями, покрытыми снегом, и земля также покрыта снегом. Светит солнце, создавая яркую и безмятежную атмосферу. Дорога кажется пустой, и на видео не видно ни людей, ни животных. Стиль видео — съемка естественного пейзажа с акцентом на красоту заснеженного леса и умиротворенность дороги.

Крупный план курицы и шашлыков с зеленым перцем, жарящихся на гриле с пламенем. Неглубокий фокус и легкий дым. Яркие цвета

Нажимаем "" и поехали

Новости

Модель Zhipu Qingying CogVideoX 2B с открытым исходным кодом, для вывода можно использовать один RTX 4090.

Введение

моя контактная информация