AI-версия Sora имеет открытый исходный код! Первый коммерчески доступен, GitHub набрал 3,7 тыс. звезд за 5 часов

AI-версия Sora имеет открытый исходный код!Первый коммерчески доступный GitHub собрал 3,7 тыс. звезд за 5 часов.

2024-08-06

Цзинь Лэй родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Отечественная версия Соры действительно сумасшедшая.

Прямо сейчас,Спектр мудрости ИИнапрямуюясная теньБольшая модель создания видео даетОткрытый источник。

И являетсяПервый коммерчески доступныйТакая вещь!

Название этой моделиCogVideoX, только что выпущенный только на GitHub5 часов, поэтому он воспринял это дико3,7 тыс. звезд️。

Давайте посмотрим непосредственно на эффект.

Подсказка 1，крупный план людей：

На тревожном фоне разрушенного войной города, где руины и обрушившиеся стены рассказывают историю опустошения, пронзительный крупный план кадра молодой девушки. Ее лицо заляпано пеплом, молчаливое свидетельство хаоса вокруг нее. Ее глаза блестят смесью печали и стойкости, улавливая грубые эмоции мира, который утратил свою невинность из-за разрушительного конфликта.

Видно, что не только такие детали, как глаза персонажей, имеют очень высокую четкость, но также сохраняется непрерывность до и после моргания.

Приходите к подсказке 2 еще раз,Один выстрел до конца：

Камера следует за белым винтажным внедорожником с черным багажником на крыше, когда он ускоряется по крутой грунтовой дороге, окруженной соснами на крутом склоне горы, пыль поднимается из-под его шин, солнечный свет освещает внедорожник, когда он ускоряется по грунтовой дороге, отбрасывая теплое сияние на сцену. Грунтовая дорога плавно изгибается вдаль, и не видно никаких других машин или транспортных средств. Деревья по обе стороны дороги — секвойи, с пятнами зелени, разбросанными повсюду. Автомобиль виден сзади, легко следуя изгибу, создавая впечатление, что он находится на неровной дороге через пересеченную местность. Сама грунтовая дорога окружена крутыми холмами и горами, с чистым голубым небом над ней с тонкими облаками.

Свет и тень, отдаленные виды, снимки с близкого расстояния, а также процесс вождения автомобиля — все это запечатлено.

И эти эффекты — не просто официальные релизные действия, в них может играть каждый онлайн~

Одна карта A100 может быть создана за 90 секунд.

Стоит отметить, что CogVideoX от Zhipu AI включает в себя несколько разных размеров, и на этот раз с открытым исходным кодом — CogVideoX-2B.

Соответствующая основная информация следующая:

Для вывода с точностью FP-16 требуется всего 18 ГБ видеопамяти и только 40 ГБ видеопамяти для точной настройки. Это означает, что одна видеокарта 4090 может выполнять вывод, а одна видеокарта A6000 может выполнять точную настройку.

Понятно, что эта модель уже поддерживает развертывание в библиотеке диффузоров HuggingFace, и операция очень проста, всего в 2 шага:

1. Установите соответствующие зависимости

пип установить --обновить трансформеры opencv-python пип установить git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Все еще в PR

2. Запустите код

импортировать горелку из диффузоров импортировать CogVideoXPipeline из диффузоров.utils импортировать export_to_video prompt = «Панда, одетая в маленькую красную куртку и крошечную шляпу, сидит на деревянном табурете в безмятежном бамбуковом лесу. Пушистые лапки панды перебирают миниатюрную акустическую гитару, издавая мягкие мелодичные мелодии. Рядом собрались еще несколько панд, с любопытством наблюдая и хлопая в ладоши в такт. Солнечный свет проникает сквозь высокий бамбук, отбрасывая мягкое свечение на сцену. Морда панды выразительна, она показывает сосредоточенность и радость во время игры. На заднем плане изображен небольшой струящийся ручей и яркая зеленая листва, что усиливает мирную и волшебную атмосферу этого уникального музыкального представления». труба = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b", torch_dtype=torch.float16 ).to("куда") prompt_embeds, _ = pipe.encode_prompt( prompt=prompt, do_classifier_free_guidance=True, num_videos_per_prompt=1, max_sequence_length=226, device="куда", dtype=torch.float16, ) видео = труба( num_inference_steps=50, guide_scale=6, prompt_embeds=prompt_embeds, ).frames[0] экспорт_в_видео(видео, "выход.mp4", кадр/с=8)

А на A100 с одной картой, следуя только что описанным шагам, создание видео займет всего 90 секунд.

Мало того, что на HuggingFace Zhipu AI еще и сделалМожно играть онлайндемо,Персональный тестовый эффектследующее:

Как видите, сгенерированные результаты можно скачать не только в формате .mp4, но и в формате GIF.

Итак, следующий вопрос: как Zhipu AI это делает?

Документ также был обнародован.

На этот раз компания Zhipu AI не только открыла исходный код модели генерации видео, но и опубликовала ее технический отчет.

В отчете есть три основных технических момента, о которых стоит поговорить.

Прежде всего, команда разработала эффективнуюТрехмерная вариационная структура автоэнкодера(3D VAE) сжимает исходное видеопространство до 2% от размера, что значительно снижает стоимость обучения и сложность обучения модели генерации диффузии видео.

Структура модели включает в себя кодер, декодер и регуляризатор скрытого пространства, а сжатие достигается за счет четырех этапов понижающей и повышающей дискретизации. Временная причинная свертка обеспечивает причинность информации и снижает накладные расходы на связь. Команда использует контекстный параллелизм для адаптации к крупномасштабной обработке видео.

В ходе экспериментов команда обнаружила, что кодирование с большим разрешением легко обобщить, тогда как увеличить количество кадров сложнее.

Поэтому команда обучала модель в два этапа: сначала на более низкой частоте кадров и мини-пакетах, а затем настраивала на более высокой частоте кадров посредством контекстного параллелизма. Функция потерь обучения сочетает в себе потерю L2, потерю восприятия LPIPS и потерю GAN 3D-дискриминатора.

с последующимЭкспертТрансформер。

Команда использовала кодировщик VAE для сжатия видео в скрытое пространство, затем разделила скрытое пространство на фрагменты и расширила его до встраивания длинных последовательностей z_vision.

В то же время они используют T5 для кодирования ввода текста в текст, встраивающий z_text, а затем объединяют z_text и z_vision по измерению последовательности. Склеенные вложения подаются в стек экспертных блоков Transformer для обработки.

Наконец, команда сшила вложения, чтобы восстановить исходную форму скрытого пространства, и декодировала с помощью VAE для восстановления видео.

Последний момент заключается в том, чтоданные.

Команда разработала отрицательные теги для выявления и исключения видео низкого качества, таких как чрезмерно отредактированные, прерывистые видео, низкокачественные видео в стиле лекций, с преобладанием текста и шумом на экране.

Используя фильтры, обученные на видеоламе, они аннотировали и отфильтровали 20 000 точек видеоданных. В то же время рассчитываются показатели оптического потока и эстетики, а пороговое значение динамически регулируется для обеспечения качества создаваемого видео.

Видеоданные обычно не имеют текстовых описаний и их необходимо преобразовать в текстовые описания для обучения модели преобразования текста в видео. Существующие наборы данных субтитров видео имеют короткие субтитры и не могут полностью описать видеоконтент.

С этой целью команда также предложила конвейер для создания видеосубтитров из субтитров изображений и точно настроила модель сквозных видеосубтитров для получения более плотных субтитров.

Этот метод генерирует короткие субтитры с помощью модели Panda70M, субтитры с плотным изображением с использованием модели CogView3, а затем суммирует их с использованием модели GPT-4 для создания окончательного короткого видео.

Они также доработали модель CogVLM2-Caption на основе CogVLM2-Video и Llama 3, обученную с использованием плотных данных субтитров для ускорения процесса создания видеосубтитров.

Вышеупомянутое является технической силой CogVideoX.

Еще кое-что

В области создания видео компания Runway’sГен-3Также есть новые действия——

Видео Винсента Gen-3 Alpha теперь поддерживает изображение «потока», которое можно использовать не только в качестве первого кадра видео, но также в качестве последнего кадра видео.

Такое ощущение, что ИИ поворачивает время вспять.

Давайте посмотрим на эффект:

Наконец, что касается большой модели генерации видео с открытым исходным кодом Zhipu AI, соответствующие ссылки прикреплены ниже ~

Репозиторий кода:
https://github.com/THUDM/CogVideo

Загрузка модели:
https://huggingface.co/THUDM/CogVideoX-2b

Технические отчеты:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

онлайн-опыт:
https://huggingface.co/spaces/THUDM/CogVideoX

Новости

AI-версия Sora имеет открытый исходный код!Первый коммерчески доступный GitHub собрал 3,7 тыс. звезд за 5 часов.

Введение

моя контактная информация