может ли ии «генерировать» все?

2024-08-29

через полгода после рождения sora ее «претенденты» приходили один за другим, и даже nvidia, которая «не дождалась» и «не догнала», оказалась лично.

пока что sora выпустила только демо-версии и не была открыта для использования, в то время как куайшоу келинг, чжипу цинъин и виду взяли на себя инициативу в открытии дверей для опыта и донесения до публики.

хотя первый опыт «генерации в один клик» не идеален, он всколыхнул лужу родниковой воды в индустрии контента. многие короткие драмы, реклама и анимация вокруг нас начали использовать ии в качестве «партнера по эффективности». технологии создания искусственного интеллекта, от фотографий винсента не так давно до сегодняшних видео винсента, видео тушенг и видеороликов, созданных на основе видео, «вселенная aigc» продолжает расширяться.

является ли ии «волшебным пером ма лян» в китайской мифологии? сколько воображения и творчества он может заставить ожить и двигаться?

«вэньшэн видео», как «жить»

«wensheng video — это блокбастер». возрождение sora за последние шесть месяцев из крупных производителей в единорогов иллюстрирует важность, которую отрасль придает «поколению».

короче говоря, при генерации видео используется технология генеративного искусственного интеллекта для преобразования мультимодальных входных данных, таких как текст и изображения, в видеосигналы.

в настоящее время существует два основных технических пути создания видео. одна из них — модель диффузии, которая разделена на две категории. такие как sora от openai, keling ai от kuaishou, vidu от shengshu technology и т. д. другой — авторегрессионный путь, такой как google videopoet, phenaki и т. д.

26 июля 2024 года китайская технологическая компания zhipu ai представила пользователям по всему миру свою собственную разработанную искусственным интеллектом видеомодель qingying (ying). на рисунке показан интерфейс входа пользователя.

в настоящее время модель диффузии, основанная на архитектуре transformer, является основным выбором для моделей генерации видео, также известная как «dit» (di — аббревиатура diffusion, t — аббревиатура transformer).

текст «диффузный» как видео? «диффузия здесь относится к методу моделирования». юань ли, доцент и научный руководитель школы информационной инженерии пекинского университета, привел яркий пример.

когда микеланджело вырезал знаменитую статую давида, он сказал следующее: скульптура изначально была в камне, я просто удалил ненужные части. «это предложение ярко описывает процесс моделирования «диффузии». исходное видео с чистым шумом похоже на необработанный камень. как выбить этот большой камень и отбить лишнюю часть, пока он не выбьется в контур. четкий «давид», это путь — это «распространение», — сказал юань ли.

юань ли далее пояснил: «трансформер — это нейронная сеть, которая следует «правилу масштаба» и выполняет процесс разрушения камней. он может обрабатывать входную пространственно-временную информацию, понимать реальный мир, понимая его внутренние сложные взаимосвязи, и обеспечивать возможность модель обладает способностями к рассуждению. она может не только улавливать тонкие связи между видеокадрами, но также обеспечивать визуальную последовательность и временную плавность».

«партнер по эффективности», как быстро

наивный белый медведь разбудился по будильнику, собрал вещи, сел на вертолет, пересел на скоростной поезд, пересел на такси, сел на корабль, пересек горы, реки, озера и моря, испытал лишения и препятствия и наконец прибыл в антарктику, чтобы встретиться с пингвинами...

этот полутораминутный анимационный короткометражный фильм под названием «всю дорогу на юг» был создан моделью видеогенерации виду. то, что первоначально требовало одного месяца работы, с добавлением ии в качестве «партнера по эффективности», позволило создать отличные работы всего за одну неделю — эффективность была в четыре раза выше, чем в прошлом.

это заставило чэнь люфана, победителя в категории короткометражных фильмов aigc пекинского кинофестиваля и руководителя лаборатории искусственного интеллекта aimate, вздохнуть: технология генерации видео превратила анимацию высокого уровня в «игру, сжигающую деньги», которая просто большие студии осмеливаются играть.

творческая команда ai-анимации «всю дорогу на юг» состоит всего из трёх человек: режиссёра, художника по раскадровке и эксперта по применению технологий aigc. чтобы сделать это с использованием традиционных процессов, необходимо 20 человек. только после расчета себестоимость продукции снижается более чем на 90%.

как сказал ван пэнфэй, руководитель центра визуальной генерации и взаимодействия куайшоу, суть генерации видео заключается в выборке и расчете пикселей из целевого распределения. этот метод позволяет достичь более высокой степени свободы контента при меньших затратах.

зайдя на страницу создания видео виду, автор также ощутил свободу «генерации в один клик». загрузите фотографию и установите ее в качестве «стартового кадра» или «опорного персонажа», введите в диалоговом окне текстовое описание сцены, которую вы хотите сгенерировать, нажмите «создать», и получится умное и захватывающее короткометражное видео. генерируется автоматически. от входа на страницу до завершения загрузки проходит менее 1 минуты.

отправьте изображение в бытовую видеомодель vidu, и автоматически будет создано анимированное видео. на картинке представлен скриншот видео

«наступит эра, когда «каждый становится дизайнером» и «каждый становится режиссером», точно так же, как в прошлом «у каждого есть микрофон», — сказал чжан пэн, генеральный директор zhipu ai.

«симулятор мира», есть ли драма?

будет ли создание видео только подрывать индустрию контента? очевидно, это не было первоначальным намерением openai. «создание видео» — это всего лишь «закуска».

до рождения sora openai позиционировала ее не как инструмент реализации aigc, а как «контейнер» для репликации физического мира — симулятор мира. в этом контейнере действуют физические законы, поведение окружающей среды и логика взаимодействия реального мира, как и в виртуальном мире, изображенном в «матрице», воздействуя на наше воображение и чувства.

однако физический мир трехмерен, а современные модели, такие как сора, основаны только на двумерных операциях и не являются настоящими физическими движками, поэтому глубокого моделирования физического мира не существует.

«в течение многих лет я говорил, что «видеть» мир — это «понимать» мир. но теперь я готов пойти дальше в этой концепции, и «видеть» — это не просто «понимать», но и «делать». ли фейфэй, профессор стэнфордского университета публично заявил, что суть пространственного интеллекта состоит в том, чтобы соединить «видение» и «действие». однажды ии сделает это.

когда «видеть» не равно «делать», создание искусственного интеллекта не может остановиться. в последнее время появились новые технические маршруты. вы гоняетесь друг за другом по разным маршрутам, вместе продвигаясь вперед, чтобы продвигать этот разумный мир, построенный из векторов и моделей.

будущее «мировоззрение» до сих пор остается загадкой, которая до сих пор не раскрыта. как сказал американский физик фейнман: «я не могу создать мир, которого не понимаю». но это не значит, что если вы поймете мир, вы обязательно сможете создать мир.

на данный момент это все еще канун подрывной деятельности. вот почему, когда мы задаем исследователям технологий вопросы о будущем, мы получаем совершенно разные ответы. возможно, «неопределённость» — это благо этой эпохи.

отчет/отзыв

новости

может ли ии «генерировать» все?

введение

моя контактная информация