моя контактная информация
Почта[email protected]
2024-08-06
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Цзинь Лэй родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI
Отечественная версия Соры действительно сумасшедшая.
Прямо сейчас,Спектр мудрости ИИнапрямуюясная теньБольшая модель создания видео даетОткрытый источник。
И являетсяПервый коммерчески доступныйТакая вещь!
Название этой моделиCogVideoX, только что выпущенный только на GitHub5 часов, поэтому он воспринял это дико3,7 тыс. звезд️。
Давайте посмотрим непосредственно на эффект.
Подсказка 1,крупный план людей:
На тревожном фоне разрушенного войной города, где руины и обрушившиеся стены рассказывают историю опустошения, пронзительный крупный план кадра молодой девушки. Ее лицо заляпано пеплом, молчаливое свидетельство хаоса вокруг нее. Ее глаза блестят смесью печали и стойкости, улавливая грубые эмоции мира, который утратил свою невинность из-за разрушительного конфликта.
Видно, что не только такие детали, как глаза персонажей, имеют очень высокую четкость, но также сохраняется непрерывность до и после моргания.
Приходите к подсказке 2 еще раз,Один выстрел до конца:
Камера следует за белым винтажным внедорожником с черным багажником на крыше, когда он ускоряется по крутой грунтовой дороге, окруженной соснами на крутом склоне горы, пыль поднимается из-под его шин, солнечный свет освещает внедорожник, когда он ускоряется по грунтовой дороге, отбрасывая теплое сияние на сцену. Грунтовая дорога плавно изгибается вдаль, и не видно никаких других машин или транспортных средств. Деревья по обе стороны дороги — секвойи, с пятнами зелени, разбросанными повсюду. Автомобиль виден сзади, легко следуя изгибу, создавая впечатление, что он находится на неровной дороге через пересеченную местность. Сама грунтовая дорога окружена крутыми холмами и горами, с чистым голубым небом над ней с тонкими облаками.
Свет и тень, отдаленные виды, снимки с близкого расстояния, а также процесс вождения автомобиля — все это запечатлено.
И эти эффекты — не просто официальные релизные действия, в них может играть каждый онлайн~
Одна карта A100 может быть создана за 90 секунд.
Стоит отметить, что CogVideoX от Zhipu AI включает в себя несколько разных размеров, и на этот раз с открытым исходным кодом — CogVideoX-2B.
Соответствующая основная информация следующая:
Для вывода с точностью FP-16 требуется всего 18 ГБ видеопамяти и только 40 ГБ видеопамяти для точной настройки. Это означает, что одна видеокарта 4090 может выполнять вывод, а одна видеокарта A6000 может выполнять точную настройку.
Понятно, что эта модель уже поддерживает развертывание в библиотеке диффузоров HuggingFace, и операция очень проста, всего в 2 шага:
1. Установите соответствующие зависимости
пип установить --обновить трансформеры opencv-python пип установить git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Все еще в PR
2. Запустите код
импортировать горелку из диффузоров импортировать CogVideoXPipeline из диффузоров.utils импортировать export_to_video prompt = «Панда, одетая в маленькую красную куртку и крошечную шляпу, сидит на деревянном табурете в безмятежном бамбуковом лесу. Пушистые лапки панды перебирают миниатюрную акустическую гитару, издавая мягкие мелодичные мелодии. Рядом собрались еще несколько панд, с любопытством наблюдая и хлопая в ладоши в такт. Солнечный свет проникает сквозь высокий бамбук, отбрасывая мягкое свечение на сцену. Морда панды выразительна, она показывает сосредоточенность и радость во время игры. На заднем плане изображен небольшой струящийся ручей и яркая зеленая листва, что усиливает мирную и волшебную атмосферу этого уникального музыкального представления». труба = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b", torch_dtype=torch.float16 ).to("куда") prompt_embeds, _ = pipe.encode_prompt( prompt=prompt, do_classifier_free_guidance=True, num_videos_per_prompt=1, max_sequence_length=226, device="куда", dtype=torch.float16, ) видео = труба( num_inference_steps=50, guide_scale=6, prompt_embeds=prompt_embeds, ).frames[0] экспорт_в_видео(видео, "выход.mp4", кадр/с=8)
А на A100 с одной картой, следуя только что описанным шагам, создание видео займет всего 90 секунд.
Мало того, что на HuggingFace Zhipu AI еще и сделалМожно играть онлайндемо,Персональный тестовый эффектследующее:
Как видите, сгенерированные результаты можно скачать не только в формате .mp4, но и в формате GIF.
Итак, следующий вопрос: как Zhipu AI это делает?
Документ также был обнародован.
На этот раз компания Zhipu AI не только открыла исходный код модели генерации видео, но и опубликовала ее технический отчет.
В отчете есть три основных технических момента, о которых стоит поговорить.
Прежде всего, команда разработала эффективнуюТрехмерная вариационная структура автоэнкодера(3D VAE) сжимает исходное видеопространство до 2% от размера, что значительно снижает стоимость обучения и сложность обучения модели генерации диффузии видео.
Структура модели включает в себя кодер, декодер и регуляризатор скрытого пространства, а сжатие достигается за счет четырех этапов понижающей и повышающей дискретизации. Временная причинная свертка обеспечивает причинность информации и снижает накладные расходы на связь. Команда использует контекстный параллелизм для адаптации к крупномасштабной обработке видео.
В ходе экспериментов команда обнаружила, что кодирование с большим разрешением легко обобщить, тогда как увеличить количество кадров сложнее.
Поэтому команда обучала модель в два этапа: сначала на более низкой частоте кадров и мини-пакетах, а затем настраивала на более высокой частоте кадров посредством контекстного параллелизма. Функция потерь обучения сочетает в себе потерю L2, потерю восприятия LPIPS и потерю GAN 3D-дискриминатора.
с последующимЭкспертТрансформер。
Команда использовала кодировщик VAE для сжатия видео в скрытое пространство, затем разделила скрытое пространство на фрагменты и расширила его до встраивания длинных последовательностей z_vision.
В то же время они используют T5 для кодирования ввода текста в текст, встраивающий z_text, а затем объединяют z_text и z_vision по измерению последовательности. Склеенные вложения подаются в стек экспертных блоков Transformer для обработки.
Наконец, команда сшила вложения, чтобы восстановить исходную форму скрытого пространства, и декодировала с помощью VAE для восстановления видео.
Последний момент заключается в том, чтоданные.
Команда разработала отрицательные теги для выявления и исключения видео низкого качества, таких как чрезмерно отредактированные, прерывистые видео, низкокачественные видео в стиле лекций, с преобладанием текста и шумом на экране.
Используя фильтры, обученные на видеоламе, они аннотировали и отфильтровали 20 000 точек видеоданных. В то же время рассчитываются показатели оптического потока и эстетики, а пороговое значение динамически регулируется для обеспечения качества создаваемого видео.
Видеоданные обычно не имеют текстовых описаний и их необходимо преобразовать в текстовые описания для обучения модели преобразования текста в видео. Существующие наборы данных субтитров видео имеют короткие субтитры и не могут полностью описать видеоконтент.
С этой целью команда также предложила конвейер для создания видеосубтитров из субтитров изображений и точно настроила модель сквозных видеосубтитров для получения более плотных субтитров.
Этот метод генерирует короткие субтитры с помощью модели Panda70M, субтитры с плотным изображением с использованием модели CogView3, а затем суммирует их с использованием модели GPT-4 для создания окончательного короткого видео.
Они также доработали модель CogVLM2-Caption на основе CogVLM2-Video и Llama 3, обученную с использованием плотных данных субтитров для ускорения процесса создания видеосубтитров.
Вышеупомянутое является технической силой CogVideoX.
Еще кое-что
В области создания видео компания Runway’sГен-3Также есть новые действия——
Видео Винсента Gen-3 Alpha теперь поддерживает изображение «потока», которое можно использовать не только в качестве первого кадра видео, но также в качестве последнего кадра видео.
Такое ощущение, что ИИ поворачивает время вспять.
Давайте посмотрим на эффект:
Наконец, что касается большой модели генерации видео с открытым исходным кодом Zhipu AI, соответствующие ссылки прикреплены ниже ~
Репозиторий кода:
https://github.com/THUDM/CogVideo
Загрузка модели:
https://huggingface.co/THUDM/CogVideoX-2b
Технические отчеты:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
онлайн-опыт:
https://huggingface.co/spaces/THUDM/CogVideoX