minimax присоединяется к рукопашному бою по созданию видео. неужели настал конец света для создания видеороликов с большими моделями?
2024-09-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
к числу моделей видеопоколения присоединяется еще один отечественный единорог.
31 августа minimax, один из всегда сдержанных «шести маленьких драконов искусственного интеллекта», официально впервые появился на публике и провел в шанхае мероприятие «minimax link partner day». на встрече основатель minimax ян цзюньцзе объявил о запуске моделей для генерации видео и музыкальных моделей. кроме того, он предсказал, что в ближайшие несколько недель будет выпущена новая версия большой модели abab7, которая сможет конкурировать с gpt-4o по скорости и эффекту.
внешнее название этой модели генерации видео — видео-1, а minimax мало что сообщает о конкретных параметрах. ян цзюньцзе отметил, что по сравнению с видеомоделями, представленными на рынке, video-1 обладает характеристиками высокой степени сжатия, хорошим текстовым откликом и разнообразными стилями, а также может генерировать видео с высоким разрешением и высокой частотой кадров. в настоящее время video-1 предоставляет только видео wensheng. в будущем продукт будет использовать видео wensheng, возможность редактирования, управляемость и другие функции.
в настоящее время все пользователи могут войти на официальный сайт conch ai, чтобы испытать функцию создания видео video-1. репортер испытал это на месте. после ввода простого слова-подсказки и ожидания около 1-2 минут, 6-. второе видео может быть сгенерировано. судя по выходному эффекту, изображение в основном охватывает моменты, упомянутые в подсказках. высокая четкость и цветовые тона эстетически приемлемы. область, которую можно улучшить, — это детали лица персонажей.
во время дискуссионной сессии конференции ян цзюньцзе упомянул, что крупномасштабные модели — это область, которая кажется очень горячей, но есть также много областей, в которых нет консенсуса: «хотим ли мы делать 2b или 2c, хотим ли мы этого. делайте это внутри страны или за границей, может ли закон о масштабировании. продолжение...» и так далее.
несмотря на столь большое количество разногласий, создание видео может стать консенсусом основных производителей моделей в этом году.
с тех пор как openai выпустила большую видеомодель sora в феврале этого года, в отрасли было много релизов с именами. в апреле shengshu technology выпустила большую видеомодель vidu. в июне kuaishou выпустила большую модель искусственного интеллекта keling a. неделю спустя была выпущена видеомодель винсента dream machine, в начале июля runway объявила, что видеомодель винсента gen-3 alpha открыта для всех пользователей. во время всемирной конференции по искусственному интеллекту академия alibaba damo запустила поиск света. в конце июля aishi technology выпустила pixverse v2, а затем zhipu официально выпустила видео qingying, а в начале августа в магазине приложений был запущен bytedream ai...
год назад на рынке было очень мало общедоступных видеомоделей vincent. всего за несколько месяцев мы стали свидетелями появления десятков моделей видеопоколения. инсайдер отрасли посетовал, что прошлый год был беспрецедентным временем. генерация видео с помощью искусственного интеллекта. исторический момент.
в интервью репортер china business news спросил о необходимости создания макета видео minimax. янь цзюньцзе сказал, что основная причина заключается в том, что информация человеческого общества больше отражается в мультимодальном контенте. «большая часть контента, который мы смотрим. каждый день это не текст, это весь динамический контент. когда вы открываете xiaohongshu, это все картинки и тексты, когда вы открываете douyin, это все видео, и даже когда вы открываете pinduoduo, большую часть времени это картинки». текстовое взаимодействие встречается очень часто. меньшая часть больше связана с голосовым и видео-взаимодействием.
поэтому, чтобы иметь очень высокий охват пользователей и более высокую глубину использования, для крупного производителя моделей единственный способ — иметь возможность выводить мультимодальный контент вместо просто вывода чистого текстового контента, объяснил ян цзюньцзе, это основное суждение.
«просто мы очень рано сначала создали текст, затем звук и изображения. теперь, когда технология стала сильнее, мы также можем создавать видео. этот путь последователен, и мы должны иметь возможность создавать многорежимные состояния, ян». - сказал джунджи.
однако процесс создания видео сложен. просто взглянув на выпуск sora, выпущенный openai в начале года, мы видим, что он еще не был официально выпущен для внешнего мира, и мы также можем получить представление о некоторых проблемах в отрасли.
с одной стороны, текущие результаты генерации видео далеки от ожиданий пользователей. модель не понимает физических правил, и процесс генерации сложно контролировать. алгоритмы генерации видео, изображений и трехмерных изображений столкнутся со многими структурными и детальными проблемами. например, одна вещь будет расти больше или одна вещь будет отсутствовать, или рука будет проникать в форму в человеческом теле. видео физических правил в настоящее время создать сложно.
в интервью ян цзюньцзе также сказал, что «этот вопрос довольно сложен», иначе многие компании, заявляющие, что сделали это, уже сделали бы это. сложность работы с видео выше, чем с текстом, поскольку контекстный текст видео, естественно, очень длинный. например, видео имеет десятки миллионов входов и выходов, что, естественно, является сложным процессом. во-вторых, объем видео очень велик. 5-секундное видео может иметь длину в несколько мегабайт, а 5-секундное видео объемом около 100 слов может не составлять даже 1к данных. это разрыв в памяти в несколько тысяч раз.
«проблема здесь в том, что базовая инфраструктура, построенная на основе текста, используется для обработки данных, как очищать данные и как их маркировать, не подходит для видео», — считает ян цзюньцзе. во-вторых, есть много открытых источников для написания текста. если вы сделаете это на основе открытого исходного кода, ваши собственные исследования и разработки пройдут быстрее. если вы сделаете видео, контента с открытым исходным кодом не так много. контент сделан, вы обнаружите, что его нужно переделывать, что требует больше терпения.
практики отрасли ранее говорили журналистам, что нынешнее поколение видео немного похоже на генерацию изображений. накануне 2022 года, после того как в августе 2022 года stable diffusion стал открытым исходным кодом, генерация изображений aigc начала бурно развиваться, но в настоящее время не существует особенно мощного «открытого исходного кода». "в области генерации видео. сора" вышел, всем еще предстоит изучить путь.
в июле компания qiming venture partners опубликовала «десять перспектив генеративного искусственного интеллекта в 2024 году». один из них заключается в том, что через три года генерация видео будет стремительно развиваться. они считают, что в сочетании с возможностями 3d контролируемое создание видео окажет влияние на кино, телевидение и т. д. анимация и короткометражные фильмы. модель производства вносит изменения. в будущем степень сжатия скрытого пространства изображений и видео будет увеличена более чем в пять раз, что приведет к более чем пятикратной ускорению генерации.
(эта статья взята из china business news)