Новости

Компания Zhipu AI официально открыла исходный код своей Соры «Цинъин».

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Посреди ночи катился не другой берег океана, а отечественные компании.

Я очень хочу спать, правда.

Причина в том, что перед сном, просматривая Github, я случайно увидел аккаунт THUKEG и обновил проект.

CogVideoX

THUKEG — официальное название Zhipu, аCogVideoX — это базовая модель системы очистки видео с использованием искусственного интеллекта Zhipu второго поколения, которая была очень популярна в последние две недели.

В самых популярных терминах CogVideoX равен GPT4o, а Qingying равенЧатGPT, вы можете просто понять, что одно — это модель, а другое — продукт, основанный на модели, поэтому вы действительно можете нарисовать знак равенства.

За последние две недели в рамках видеобитвы с искусственным интеллектом второго поколения компания Pixverse запустила версию V2, основанную на существующих трех фэнтезийных богах Взлетно-посадочной полосы, Ке Линга и Лумы, а также была выпущена столь востребованная модель Виду.

Будучи самой звездной компанией в области искусственного интеллекта в области крупных моделей, Zhipu также присоединилась к этой схватке с искусственным интеллектом и выпустила свой видеопродукт DiT — Qingying.

Этот продукт можно использовать на их помощнике по искусственному интеллекту Чжипу Цинъянь.

Но, если быть совсем откровенным, я это написал не потому, что считаю, что между ним и Келингом и Runway все же существует определенный разрыв с точки зрения эффектов генерации.

И сегодня, через две недели после освобождения Цинъин, они решилиCogVideoX,Это открытый исходный код.

Стоит попробовать.

Адрес загрузки модели CogVideoX:

В настоящее время все популярные видео AI имеют закрытый исходный код. Существует Open-Sora с открытым исходным кодом, но, честно говоря, эффект неудовлетворительный.

Что касается Qingying, хотя эффект все еще сильно отстает от основной модели с закрытым исходным кодом, ее, по крайней мере, можно использовать, когда дело доходит до запуска некоторого контента.

На этот раз я просмотрел версии с открытым исходным кодом и обнаружил, что те, что с открытым исходным кодом, являются одним из них.Маленькая модель CogVideoX-2B.

Для вывода требуется видеопамять 18 ГБ.То есть при наличии одной карты 3090 или 4090 можно напрямую запускать видео локально, не сжигая деньги. Однако пиковое значение достигнет 36G, что, скорее всего, исчерпает видеопамять.

Но сами сказали, что скоро оптимизируют.

Но у меня всего лишь маленький кусок барахла 4060 с всего 8Г видеопамяти. Даже после оптимизации я его запустить не могу. 4090, честно говоря, у меня реально нет денег его купить ==

Будет здорово, когда видеомодель AI, такая как SD1.5, будет приносить пользу всем живым существам и сможет использоваться всеми.

Эта модель 2B,Длина видео 6 секунд, частота кадров 8 кадров в секунду, разрешение видео 720*480.

По ощущениям эти параметры такие же, как у Dream первого поколения.

Я опубликую несколько их официальных дел (на самом деле, это почти то же самое, если вы поедете в Цинъин и проведете несколько)

Изысканная деревянная игрушечная лодка с искусно вырезанными мачтами и парусами плавно скользит по плюшевому синему ковру, имитирующему океанские волны. Корпус окрашен в насыщенный коричневый цвет и имеет небольшие окна. Ковер мягкий и текстурированный, создавая идеальный фон, подобный огромному океану. Корабль окружен различными игрушками и детскими предметами, создавая детскую атмосферу. Эта сцена отражает невинность и воображение детства: путешествие на игрушечной лодке символизирует бесконечные приключения в причудливой внутренней обстановке.

Камера следует за белым ретро-внедорожником с черной багажной полкой на крыше, внедорожник быстро едет по крутому склону холма по крутой грунтовой дороге, окруженной соснами, пыль летит по шинам, солнце светит на внедорожнике, внедорожнике. Быстрая езда по грунтовой дороге освещает всю сцену теплым светом. Грунтовая дорога медленно уходила вдаль, других машин не было видно. Деревья по обе стороны дороги — секвойи, и повсюду разбросаны зеленые растения. Если смотреть сзади, автомобиль легко проходит повороты, как будто едет по пересеченной местности. Сама грунтовая дорога окружена крутыми холмами и горами, с чистым голубым небом и тонкими белыми облаками над головой.

В раздираемом войной городе, с его руинами и развалинами, рассказывающими историю опустошения, пронзительный крупный план запечатлел молодую девушку на этом душераздирающем фоне. Ее лицо было испачкано пеплом, молчаливым свидетельством окружавшего ее хаоса. Ее глаза сверкают печалью и стойкостью, отражая необузданные эмоции мира, лишенного невинности из-за конфликта.

Аргументация, вероятно, такая, но когда дело доходит до открытого исходного кода, я больше всего жду от него экологии тонкой настройки и плагинов.

Например, AI рисует модель SD 1.5, которую сейчас все используют, базовая модель на самом деле просто кусок дерьма, но ведь исходный код у нее открытый. Куча мастеров сделала очень классные модели на основе SD1. 5, такие как Majic, DreamShaper, Anything и другие.

иCogVideoX также можно настроить.

Я вспомнил видеомодель AI, созданную Stepping Stars and Shadows на WAIC. Они использовали 200 минут материала куклы Calabash для создания большой модели куклы Calabash.

Все, что вы создаете, выполнено в стиле Calabash Baby. Вам не придется усердно работать, чтобы добиться единообразия персонажей. Если я введу Da Wa, то получится Da Wa, я напишу «Дедушка» и «Змеиный дух», вот и все. из них.

И сейчас,Зубчатое видео

Потому что я всегда чувствовал, что верхний предел и динамика производительности видео Вэньшэна намного выше, чем у видео Тушэна, но двумя самыми большими препятствиями являются согласованность стиля и единообразие персонажей. Если это можно точно настроить, есть много путей. . решено.

Для тонкой настройки CogVideoX-2B требуется 40 ГБ видеопамяти. Обычных видеокарт недостаточно, поэтому необходима карта рендеринга типа A6000.

Но ведь это видеомодель. Это не значит, что она принесет пользу широкой публике, но для некоторых стартапов и малого бизнеса порог практически равен 0.

Поскольку это открытый исходный код, им не нужно тратить бесчисленные средства на создание собственной большой модели с нуля. Чтобы преодолеть эту ловушку, им нужно всего лишь купить несколько местных карт, что в сумме составляет десятки тысяч или сотни тысяч. ., а затем можно выполнить тонкую настройку локально.

Я всегда верил, что будущее открытого исходного кода будет лучше, чем закрытого.

В тот вечер, когда Цукерберг некоторое время назад выпустил LLaMa3.1 405B, он разместил в Facebook открытое письмо на 10 000 слов.

Один из отрывков произвел на меня глубокое впечатление.

В переводе есть:

Я твердо верю, что открытый исходный код необходим для позитивного будущего ИИ. ИИ имеет больший потенциал, чем любая современная технология, для повышения производительности, творчества и качества жизни человека, ускорения экономического роста и содействия прогрессу в медицинских и научных исследованиях. Открытый исходный код гарантирует, что больше людей в мире смогут воспользоваться преимуществами и возможностями, предоставляемыми ИИ, предотвратит концентрацию власти в руках нескольких компаний и позволит продвигать эту технологию в обществе более сбалансированным и безопасным образом.

Предотвращение концентрации власти в руках нескольких компаний позволяет технологии стать более эффективными.Продвигайте его среди всего общества сбалансированным и безопасным образом.

Открытый исходный код — лучший метод. Закрытый исходный код не принесет технологического равенства, но открытый исходный код принесет, потому что ИИ — это не инструмент развлечения, а инструмент повышения производительности, и его продвижение в основном исходит от компаний, исследовательских институтов и т. д.

У каждой компании есть три большие проблемы при использовании ИИ:

1. Им необходимо обучать, дорабатывать и совершенствовать свои собственные модели.

2. Им необходимо защитить свои личные данные.

3. Они надеются превратить свой ИИ в долгосрочную стандартную экосистему.
Все это в одном предложении:

Нам нужно иметь возможность контролировать свою судьбу, а не оставлять ее на усмотрение других.

В Китае Zhipu — это компания, которая, на мой взгляд, очень особенная. Она очень похожа на нее.OpenAIи имеет темперамент Меты.

Вы должны знать, что бизнес-модель Meta полностью отличается от бизнес-модели некоторых крупных модельных компаний, таких как OpenAI. Они не собирают деньги, продавая права на использование больших моделей, поэтому открытый исходный код не оказывает большого влияния на Meta.

Но Zhipu – это другая компания.

Но исходя из таких соображений, они все равно решительно открыли исходный код.

Может быть, они подобны Мете, в очень благородной вере: «Чтобы позволить этой технологии продвигаться во всем обществе более сбалансированным и безопасным образом».

КромеПомимо CogVideoX, они также открыли исходный код многих вещей.

Зайдите на их Github и просмотрите, вы найдете много сюрпризов:

Я люблю каждую компанию, желающую открыть исходный код.

Я с нетерпением жду того дня в будущем, когда бесчисленные разработчики разработают множество плагинов и моделей тонкой настройки на основе CogVideoX. Каждая компания в области кино и телевидения, короткометражных драм, рекламы и других отраслей, связанных с видео, тоже это сделает. имеют свои собственные многочисленные модели и различные рабочие процессы создания видео.

Точно так же, как СД процветает в различных компаниях.

Я восхищаюсь спектром мудрости.

Это не только техническое решение, но и передача убеждений.

Огни над океаном постепенно погасли.

И рассвет на нашей стороне.

восходит.

Теперь, когда вы прочитали это, если вы считаете, что это хорошо, не стесняйтесь поставить лайк, посмотреть и трижды ретвитнуть. Если вы хотите получать уведомления как можно скорее, вы также можете поставить мне звездочку ⭐ ~Спасибо, что прочитали мою статью, увидимся в следующий раз.
>/ Автор: Казик