Новости

Отечественная версия Sora имеет открытый исходный код!Вывод оптимизирован для 18G, может работать одна карта 4090

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


умные вещи
АвторZeR0
Редактор Мо Ин

6 августа компания Zhidongxi сообщила, что хорошей новостью является то, что вчера вечером исходный код модели генерации видео Zhipu AI CogVideoX-2B был официально открыт.

Модель размещена на GitHub и Hugging Face. Для вывода с точностью FP16 требуется всего 18 ГБ видеопамяти, а для точной настройки требуется только 40 ГБ. Для вывода можно использовать одну видеокарту 4090, а для точной настройки — одну видеокарту A6000. тюнинг.


Верхний предел слов подсказки для CogVideoX-2B — 226 токенов, длина видео — 6 секунд, частота кадров — 8 кадров в секунду, разрешение видео — 720*480.


Серия моделей CogVideoX с открытым исходным кодом имеет то же происхождение, что и модель создания коммерческого видео «Qingying» от Zhipu AI. После запуска версии 2B в будущем на прилавки поступят модели с открытым исходным кодом, обладающие более высокой производительностью и большими параметрами.

Репозиторий кода:https://github.com/THUDM/CogVideo
Загрузка модели:https://huggingface.co/THUDM/CogVideoX-2b
Технические отчеты:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Согласно документу, CogVideoX больше, чем несколько других моделей генерации видео, на диаграмме радара, а значения атрибутов приближаются к шестиугольнику.


Чтобы оценить качество видео Винсента, Zhipu AI использует в VBench несколько индикаторов, таких как движения людей, сцены, динамика и т. д., а также два дополнительных инструмента оценки видео: Dynamic Quality in Devil и Chrono-Magic GPT4o-MT; Оценка: эти инструменты ориентированы на динамические характеристики видео. Как видно из таблицы ниже, CogVideoX лидирует по множеству показателей.


В слепой оценке CogVideoX набрал больше баллов, чем Куайшоу Келинг по всем пяти показателям.


На странице GitHub показано несколько видеоработ, созданных CogVideoX-2B:


▲ Подробнее: Детализированный деревянный игрушечный корабль с искусно вырезанными мачтами и парусами плавно скользит по плюшевому синему ковру, который имитирует морские волны. Корпус корабля окрашен в насыщенный коричневый цвет с крошечными окнами. Мягкий и текстурированный ковер обеспечивает идеальный фон, напоминающий океанские просторы. Вокруг корабля находятся различные другие игрушки и детские предметы, намекающие на игровую среду. Сцена передает невинность и воображение детства, а путешествие игрушечного корабля символизирует бесконечные приключения в причудливой внутренней обстановке.


▲ Подробнее: Камера следует за белым винтажным внедорожником с черным багажником на крыше, когда он ускоряется по крутой грунтовой дороге, окруженной соснами на крутом склоне горы, пыль поднимается из-под его шин, солнечный свет освещает внедорожник, когда он ускоряется по грунтовой дороге, отбрасывая теплое сияние на сцену. Грунтовая дорога плавно изгибается вдаль, не видно никаких других автомобилей или транспортных средств. Деревья по обе стороны дороги — секвойи, с пятнами зелени, разбросанными повсюду. Автомобиль виден сзади, легко следуя изгибу, создавая впечатление, что он находится на неровной дороге по пересеченной местности. Сама грунтовая дорога окружена крутыми холмами и горами, с чистым голубым небом над ним с тонкими облаками.


▲ Подробнее: Уличный художник, одетый в потертую джинсовую куртку и красочную бандану, стоит перед огромной бетонной стеной в самом центре города, держа в руках баллончик с краской, и рисует на пестрой стене красочную птицу.


▲ Подробнее: На тревожном фоне разрушенного войной города, где руины и обрушившиеся стены рассказывают историю опустошения, пронзительный крупный план показывает молодую девушку. Ее лицо испачкано пеплом, безмолвное свидетельство хаоса вокруг нее. Ее глаза блестят смесью печали и стойкости, улавливая грубые эмоции мира, который утратил свою невинность из-за разрушительного конфликта.

CogVideoX использует 3D VAE и экспертную архитектуру Transformer для создания связных длинных видеороликов и создает относительно высококачественную коллекцию видеоклипов с текстовыми описаниями с помощью самостоятельно разработанной модели понимания видео.


Поскольку видеоданные содержат пространственную и временную информацию, их объем данных и вычислительная нагрузка намного превышают объем данных изображений.Жипу ИИ предложил на основеВариационный 3D-автоэнкодер (3D VAE)Метод сжатия видео одновременно сжимает пространственные и временные размеры видео посредством трехмерной свертки, обеспечивая более высокую степень сжатия и лучшее качество реконструкции.


▲Архитектура 3D VAE в CogVideoX

Структура модели включает в себя кодер, декодер и регуляризатор скрытого пространства, а сжатие достигается за счет четырех этапов понижающей и повышающей дискретизации. Временная причинно-следственная свертка обеспечивает причинность информации и снижает накладные расходы на связь. Технология контекстного параллельного анализа может лучше адаптироваться к крупномасштабной обработке видео.

В ходе эксперимента Zhipu AI обнаружил, что кодирование с большим разрешением легко обобщить, а увеличение количества кадров представляет собой более сложную задачу. Поэтому обучение модели делится на два этапа: первое обучение на более низкой частоте кадров и небольшой пакетный анализ. , а затем использовать контекстный параллелизм для обучения более высокой точной настройке частоты кадров. Функция потерь обучения сочетает в себе потерю L2, потерю восприятия LPIPS и потерю GAN 3D-дискриминатора.

Zhipu AI использует кодировщик VAE для сжатия видео в скрытое пространство, затем делит скрытое пространство на блоки и расширяет его на длинные последовательности для встраивания z_vision. В то же время он использует T5 для кодирования введенного текста в текст, встраивающий z_text, и затем z_text и z_vision по мере сращивания размеров, в него подается склеенное встраивание.ЭкспертТрансформерОбработанные в стеках блоков, встраивания, наконец, сшиваются для восстановления исходной формы скрытого пространства и декодируются с помощью VAE для восстановления видео.


▲Архитектура CogVideoX

Что касается данных обучения, Zhipu AI разработал отрицательные метки для выявления и исключения видео низкого качества, а также пометил и просмотрел 20 000 образцов видеоданных через фильтры, обученные видео-ламой, в то же время были рассчитаны оптический поток и эстетические показатели; и пороги были динамически настроены. Обеспечьте качество создаваемого видео.

В ответ на проблему нехватки данных видеосубтитров компания Zhipu AI предложилаКонвейер для создания субтитров видео из субтитров изображений и точно настройте модель сквозных видеосубтитров для получения более плотных субтитров. Этот метод использует модель Panda70M для создания коротких субтитров, модель CogView3 для создания субтитров с плотным изображением, а затем модель GPT-4 для суммирования и создания окончательного короткого видео.

Команда также доработала систему на базе CogVLM2-Video и Llama 3.Модель CogVLM2-Caption, обученный с использованием плотных данных субтитров для ускорения процесса создания видеосубтитров.


▲Процесс создания плотных данных субтитров

Команда Zhipu AI все еще усердно работает над улучшением способности CogVideoX захватывать сложную динамику, исследовать новые архитектуры моделей, более эффективно сжимать видеоинформацию и более полно интегрировать текст и видеоконтент, чтобы продолжить исследование закона масштабирования модели генерации видео, стремясь обучать более крупные и мощные модели созданию более длинных и качественных видеороликов.

В настоящее время существует все больше и больше моделей и приложений для генерации видео, и технология постепенно совершенствуется. Однако до сих пор не существует модели генерации видео с открытым исходным кодом, которая могла бы удовлетворить требования приложений коммерческого уровня. Мы с нетерпением ждем, когда больше моделей генерации видео станут открытыми, что позволит большему количеству разработчиков и предприятий участвовать в разработке моделей и приложений для генерации видео, а также внесет свой вклад в различную техническую оптимизацию и функциональное развитие, связанное с генерацией видео.