моя контактная информация
Почта[email protected]
2024-08-06
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Цзинь Лэй родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI
Отечественная версия Соры действительно сумасшедшая.
Прямо сейчас,Спектр мудрости ИИнапрямуюясная теньБольшая модель создания видео даетОткрытый источник。
И являетсяПервый коммерчески доступныйТакая вещь!
Название этой моделиCogVideoX, только что выпущенный только на GitHub5 часов, поэтому он воспринял это дико3,7 тыс. звезд️。
Давайте посмотрим непосредственно на эффект.
Подсказка 1,Крупный план людей:
На тревожном фоне разрушенного войной города, где руины и обрушившиеся стены рассказывают историю опустошения, пронзительный крупный план кадра молодой девушки. Ее лицо заляпано пеплом, молчаливое свидетельство хаоса вокруг нее. Ее глаза блестят смесью печали и стойкости, улавливая грубые эмоции мира, который утратил свою невинность из-за разрушительного конфликта.
Адрес видео: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g
Видно, что не только такие детали, как глаза персонажей, имеют очень высокую четкость, но также сохраняется непрерывность до и после моргания.
Приходите к подсказке 2 еще раз,Один выстрел до конца:
Камера следует за белым винтажным внедорожником с черным багажником на крыше, когда он ускоряется по крутой грунтовой дороге, окруженной соснами на крутом склоне горы, пыль поднимается из-под его шин, солнечный свет освещает внедорожник, когда он ускоряется по грунтовой дороге, отбрасывая теплое сияние на сцену. Грунтовая дорога плавно изгибается вдаль, и не видно никаких других машин или транспортных средств. Деревья по обе стороны дороги — секвойи, с пятнами зелени, разбросанными повсюду. Автомобиль виден сзади, легко следуя изгибу, создавая впечатление, что он находится на неровной дороге через пересеченную местность. Сама грунтовая дорога окружена крутыми холмами и горами, с чистым голубым небом над ней с тонкими облаками.
Адрес видео: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g
Свет и тень, отдаленные виды, снимки с близкого расстояния, а также процесс вождения автомобиля — все это запечатлено.
И эти эффекты — не просто официальные релизные действия, в них может играть каждый онлайн~
Стоит отметить, что CogVideoX от Zhipu AI включает в себя несколько разных размеров, и на этот раз с открытым исходным кодом — CogVideoX-2B.
Соответствующая основная информация следующая:
Для вывода с точностью FP-16 требуется всего 18 ГБ видеопамяти и только 40 ГБ видеопамяти для точной настройки. Это означает, что одна видеокарта 4090 может выполнять вывод, а одна видеокарта A6000 может выполнять точную настройку.
Понятно, что эта модель уже поддерживает развертывание в библиотеке диффузоров HuggingFace, и операция очень проста, всего в 2 шага:
1. Установите соответствующие зависимости
pip install --upgrade opencv-python transformers pip install git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Все еще в стадии PR
2. Запустите код
import torchfrom diffusionrs import CogVideoXPipelinefrom diffusionrs.utils import export_to_videoprompt = "Панда, одетая в маленькую красную куртку и крошечную шляпу, сидит на деревянном табурете в безмятежном бамбуковом лесу. Пушистые лапки панды перебирают миниатюрную акустическую гитару, издавая мягкие мелодичные мелодии. Рядом собрались еще несколько панд, с любопытством наблюдая, а некоторые хлопая в ладоши в такт. Солнечный свет проникает сквозь высокий бамбук, отбрасывая мягкое свечение на сцену. Морда панды выразительна, она показывает концентрацию и радость во время игры. На заднем плане изображен небольшой струящийся ручей и яркая зеленая листва, что усиливает мирную и волшебную атмосферу этого уникального музыкального представления."pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b",torch_dtype=torch.float16).to("cuda")prompt_embeds, _ = pipe.encode_prompt(prompt=prompt,do_classifier_free_guidance=True,num_videos_per_prompt=1,max_sequence_length=226,device="cuda",dtype=torch.float16,)video = pipe(num_inference_steps=50,guidance_scale=6,prompt_embeds=prompt_embeds,).frames[0]export_to_video(video, "output.mp4", fps=8)
А на A100 с одной картой, следуя только что описанным шагам, создание видео займет всего 90 секунд.
Мало того, что на HuggingFace Zhipu AI еще и сделалМожно играть онлайндемо,Персональный тестовый эффектследующее:
Адрес видео: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g
Как видите, сгенерированные результаты можно скачать не только в формате .mp4, но и в формате GIF.
Итак, следующий вопрос: как Zhipu AI это делает?
На этот раз компания Zhipu AI не только открыла исходный код модели генерации видео, но и опубликовала ее технический отчет.
В докладе есть три основных технических момента, о которых стоит поговорить.
Прежде всего, команда разработала эффективнуюТрехмерная вариационная структура автоэнкодера(3D VAE) сжимает исходное видеопространство до 2% от размера, что значительно снижает стоимость обучения и сложность обучения модели генерации диффузии видео.
Структура модели включает в себя кодер, декодер и регуляризатор скрытого пространства, а сжатие достигается за счет четырех этапов понижающей и повышающей дискретизации. Временная причинная свертка обеспечивает причинность информации и снижает накладные расходы на связь. Команда использует контекстный параллелизм для адаптации к крупномасштабной обработке видео.
В ходе экспериментов команда обнаружила, что кодирование с большим разрешением легко обобщить, тогда как увеличить количество кадров сложнее.
Поэтому команда обучала модель в два этапа: сначала на более низкой частоте кадров и мини-пакетах, а затем настраивала на более высокой частоте кадров посредством контекстного параллелизма. Функция потерь обучения сочетает в себе потерю L2, потерю восприятия LPIPS и потерю GAN 3D-дискриминатора.
с последующимЭкспертТрансформер。
Команда использовала кодировщик VAE для сжатия видео в скрытое пространство, затем разделила скрытое пространство на фрагменты и расширила его до встраивания длинных последовательностей z_vision.
В то же время они используют T5 для кодирования ввода текста в текст, встраивающий z_text, а затем объединяют z_text и z_vision по измерению последовательности. Склеенные вложения подаются в стек экспертных блоков Transformer для обработки.
Наконец, команда сшила вложения, чтобы восстановить исходную форму скрытого пространства, и использовала VAE для декодирования, чтобы восстановить видео.
Последний момент заключается в том, чтоданные.
Команда разработала отрицательные теги для выявления и исключения видео низкого качества, таких как чрезмерно отредактированные, прерывистые видео, низкокачественные видео в стиле лекций, с преобладанием текста и шумом на экране.
Используя фильтры, обученные на видеоламе, они аннотировали и отфильтровали 20 000 точек видеоданных. В то же время рассчитываются показатели оптического потока и эстетики, а пороговое значение динамически регулируется для обеспечения качества создаваемого видео.
Видеоданные обычно не имеют текстовых описаний и их необходимо преобразовать в текстовые описания для обучения модели преобразования текста в видео. Существующие наборы данных субтитров видео имеют короткие субтитры и не могут полностью описать видеоконтент.
С этой целью команда также предложила конвейер для создания видеосубтитров из субтитров изображений и настроила сквозную модель видеосубтитров для получения более плотных субтитров.
Этот метод генерирует короткие субтитры с помощью модели Panda70M, субтитры с плотным изображением с использованием модели CogView3, а затем суммирует их с использованием модели GPT-4 для создания окончательного короткого видео.
Они также доработали модель CogVLM2-Caption на основе CogVLM2-Video и Llama 3, обученную с использованием плотных данных субтитров для ускорения процесса генерации видеосубтитров.
Вышеупомянутое является технической силой CogVideoX.
В области создания видео компания Runway’sГен-3Также есть новые действия——
Видео Винсента Gen-3 Alpha теперь поддерживает изображение «потока», которое можно использовать не только в качестве первого кадра видео, но и в качестве последнего кадра видео.
Такое ощущение, что ИИ поворачивает время вспять.
Давайте посмотрим на эффект:
Адрес видео: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g
Адрес видео: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g
Наконец, что касается большой модели генерации видео с открытым исходным кодом Zhipu AI, соответствующие ссылки прикреплены ниже ~
Репозиторий кода:
https://github.com/THUDM/CogVideo
Загрузка модели:
https://huggingface.co/THUDM/CogVideoX-2b
Технические отчеты:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
онлайн-опыт:
https://huggingface.co/spaces/THUDM/CogVideoX