Бесплатная публичная бета-версия заполонила сервер, а Сора заслужил похвалу за свой физический смысл.

Бесплатная общедоступная бета-версия захлестнула сервер, а Сора заслужила похвалу за свою физическую работоспособность.

2024-07-24

Автор丨Zimo

Вслед за Sora, Runway и Pika резко возросла популярность еще одного продукта искусственного интеллекта, основанного на изображениях и видео, — Dream Machine.

За Dream Machine стоит американская компания Luma AI, основанная в 2021 году. За последние три года он успешно провел три раунда финансирования на общую сумму 67,3 миллиона долларов США. Последнее финансирование серии B на сумму 43 миллиона долларов США произошло в январе этого года под руководством известного института венчурного капитала a16z, при этом Nvidia участвовала во второй инвестиции, а оценка после инвестирования достигла 200-300 миллионов долларов США.

В июне этого года Dream Machine запустила бесплатную публичную бета-версию по всему миру. Каждый пользователь имеет 30 возможностей бесплатно создавать видеоролики каждый месяц, длительность каждого видеоролика составляет 5 секунд. Чтобы сравнивать и конкурировать с теми, кто первым вошел в игру, в нем выделяются характеристики «эффективности», «физики» и «зеркального движения». Одной из основных особенностей является то, что он может генерировать 120-кадровое видео всего за 120 секунд (однако в период публичного бета-тестирования стояло слишком много людей в очередях, и пользователи обычно сообщали, что создание видео занимает 10-20 минут). а некоторые даже занимают 2 часа). При моделировании физического мира также уделяется особое внимание последовательности персонажей и можно использовать естественные навыки работы с камерой, чтобы сделать изображение более плавным и реалистичным, гармонируя с выражаемыми эмоциями. Мозговой штурм пользователей наполняет созданные видео творчеством и воображением, а их применение в рекламе, обучении и обучении, создании историй и других областях также сыграло значительную роль в сокращении затрат и повышении эффективности.

Какой продукт для создания видео с помощью искусственного интеллекта лучший?

С точки зрения дизайна страница Dream Machine интуитивно понятна и проста и имеет две функции: Vincent Video и Tusheng Video. В видеороликах Wensheng описания на английском языке будут иметь лучший эффект. Если вы хотите, чтобы создаваемые видеоролики больше соответствовали вашим потребностям, вам необходимо использовать как можно более точные и подробные текстовые описания. Вы также можете добавить к ним несколько слов о выражениях эмоций. сделать эффекты более реалистичными.

Однако для пользователей, которые не так сильны в создании текста, функция видео Tusheng будет более популярной, поскольку она больше похожа на вторичную обработку произведения. Просто загрузите изображение и добавьте текстовое описание на основе сцены в вашей голове, чтобы оживить статическое изображение и рассказать историю в виде видео.

В Твиттере мы можем увидеть различные креативные видеоролики, которыми делятся пользователи, в том числе забавные, которые заставляют Мону Лизу двигаться, используют селфи для восстановления сцены при съемке селфи, а также предлагают «воскресить» важных людей для воссоздания сцены и т. д. Можно сказать, что инструменты создания искусственного интеллекта и богатое воображение пользователей придают произведениям новую жизнь.

В этом плане бенчмаркинг всегда был неотъемлемой темой. С архитектурной точки зрения Dream Machine и Sora используют архитектуру Diffusion Transformer, и с точки зрения генерируемого контента корреляция будет выше, по сравнению с Runway и Pika, дифференциация Dream Machine отражается в большем диапазоне движений и Переключение объективов больше ракурсов и быстрее, а не просто заставляет объекты в видео слегка двигаться, но так как модель еще в зачаточном состоянии, то возникают и проблемы с управляемостью. Например, во время пользовательского тестирования при переключении объективов для животных возникал необоснованный феномен нескольких головок. В целом, в данных и модели можно оптимизировать множество моментов.

Судя по продолжительности одного поколения видео, Dream Machine может генерировать 5-секундное видео за 120 секунд, Runway работает быстрее и может генерировать 10-секундное видео за 90 секунд. В последней версии его можно расширить до 18. секунд, в то время как Pika по-прежнему представляет собой одноразовое видео. Сора, как создатель, нарушил ограничение по времени и может генерировать 1-минутное видео, но рендеринг занимает почти час. . Сравнивая цены на несколько продуктов, после бесплатного пробного периода Dream Machine имеет самую высокую общую цену, в то время как профессиональная версия Pika стоит в 6 раз дороже стандартной версии, а другие продукты — примерно в 2–3,5 раза.

(Сравнение цен на продукты для создания видео с использованием искусственного интеллекта)

Наконец, судя по эффекту генерации видео, один и тот же абзац текста выражается в разных стилях видеороликов, созданных разными продуктами. По сравнению с другими продуктами, кинематографическое ощущение и физический реализм являются одними из распространенных ощущений, которые испытывают пользователи при использовании Dream Machine. Видеоматериалы и ощущение погружения, которые оно создает, сильнее. Подводя итог, можно выделить две возможные причины. Во-первых, во время обучения модели продукт использует большое количество видеороликов, что также делает сгенерированное видео насыщенным воображением. Оно не ограничивается вещами на исходной картинке, но добавляет некоторые дополнительные. сцены, а также обработка анимированных персонажей и добавление движений рта делают их более реалистичными; еще один момент тесно связан с технологиями и накоплением опыта компании в 3D-моделировании;

Трехмерные мини-фигурки Винсента стали возможными благодаря накопленным им технологиям.

Luma AI с момента своего создания сосредоточилась на создании 3D-контента. Ранее выпущенное приложение Vincent для 3D-моделей Genie1.0 однажды стало мировым хитом. Приложение имеет веб-версию для ПК и версию мобильного приложения (под названием Luma AI), а также может использоваться на серверах Discord, которые широко используются за рубежом.

Просто введите текстовое описание, и за 10 секунд можно создать четыре реалистичные 3D-модели, похожие на «маленькую фигурку». После выбора в соответствии с личными предпочтениями вы также можете редактировать текстуру самостоятельно, в том числе оригинальную, гладкую и светоотражающую. Наконец, его можно выводить в нескольких форматах, таких как fbx, gltf, obj и т. д., чтобы обеспечить плавное соединение с другим программным обеспечением для 3D-редактирования (таким как Unity и Blender), что позволяет модели двигаться, идеально подходя к играм, анимации и другим сцены, реальное достижение последующих этапов Обеспечьте расширение возможностей сцены.

Низкий технический порог Genie1.0 также позволяет пользователям реконструировать 3D-сцены, просто снимая видеоклипы. В соответствии с требованиями сделайте снимки объекта на 360° с трех ракурсов: взгляд вверх, взгляд вниз и взгляд вверх. После загрузки подождите несколько минут, пока Genie 1.0 завершит 3D-рендеринг видео.

С точки зрения технологии можно сказать, что Luma AI довела NeRF (нейронное радиационное поле) до предела. Традиционный NeRF требует использования профессионального оборудования для съемки большого количества фотографий и строгого соблюдения координат. В настоящее время, благодаря открытому исходному коду, разрабатываются все более упрощенные модели, а требования к фотографиям и углам съемки значительно снижены. Genie1.0 достиг более высокого уровня и стал руководством, которое можно использовать. используется в любое время и в любом месте.

Накопление 3D-технологий и продуктов помогло компании плавно перейти от генерации 3D к созданию видео, но, наоборот, создание видео также создало высококачественные условия для 3D. В концепции Luma AI целью создания продуктов для генерации видео является добавление 3D и временных измерений для лучшего создания 4D, а видео здесь играет промежуточную роль.

Мы можем объединить два продукта Genie1.0 и Dream Machine. Первый может создавать 3D-модели с помощью видео под разными углами, а второй использует накопление 3D-моделей для лучшего создания видео. А поскольку 3D имеет ограничения по объему данных по сравнению с изображениями и видео, если вы хотите создать 3D лучше, вам потребуются более крупные данные модели для его управления. Для достижения конечной цели 4D из сгенерированного видео собираются многопросмотровые данные, а затем используются для создания 4D-эффектов. Открывается полная цепочка.

Где выход, в конце концов?

С этого года направление создания видео с использованием искусственного интеллекта постепенно становится переполненным, особенно крупные интернет-компании, независимо от того, являются ли они моделями собственной разработки или инвестициями, они приняли определенные меры в этой области. Поскольку число участников продолжает увеличиваться, постепенно выявляются некоторые проблемы, в основном отражающиеся в управляемости и последовательности создаваемых видеороликов.

Эти две проблемы в основном возникают при переключении угла видео, например, в сцене с несколькими головами животных, упомянутой ранее, и в портретной сцене, поскольку выражения лица и детали людей быстро меняются и их трудно уловить, в видео при переключении. ракурс лица, лицо может деформироваться в следующую секунду или даже не то лицо, и это одна из причин, почему длина видео ограничена. Чем больше времени занимает создание видео, тем сложнее обеспечить последовательность.

(В сгенерированном видео появляются животные с несколькими головами)

Эта болевая проблема также беспокоит многих разработчиков. Хотя идеального решения пока не существует, по их действиям по разработке видно, что они уже работают в этом основном направлении. Например, VideoCrafter2, разработанный Tencent AI Lab, использует видео низкого качества, чтобы обеспечить единообразие движения предметов на изображении. Модель генерации персонажей Vimi, запущенная SenseTime, может точно имитировать микровыражения персонажей, уделяя особое внимание двум аспектам: персонажи и управляемость.

Что касается групп аудитории, продукты для создания видео с использованием искусственного интеллекта в настоящее время ориентированы в основном на пользователей C-конца. На этом этапе пользователи тестируют новые возможности, связанные с удобством игры и креативностью. Однако по мере увеличения количества продуктов это увлечение угасает. также будет полагаться на поддержку стороны B. В настоящее время этот тип продуктов также стимулирует рост спроса на API, предоставляя компаниям, занимающимся переработкой, больше возможностей, будь то повторная обработка или прямое использование сгенерированных видео, это значительно сокращает время и стоимость создания.

Кроме того, Куайшоу недавно объединился с Бона, чтобы запустить первую в Китае оригинальную короткометражную драму AIGC, которая также подорвала творческое мышление традиционной кино- и телеиндустрии. Сочетание двух новых горячих направлений также привело к новым прорывам в сценариях применения генерации видео с помощью искусственного интеллекта, и откроются новые возможности. Хотя оба находятся на ранних стадиях разработки, ни технология, ни продукты не являются зрелыми, но Facing. Благодаря двойным тенденциям и двум дивидендам, «совместный брендинг» должен быстро стимулировать процесс развития отрасли.

Инновации продуктов, созданных с помощью искусственного интеллекта, привносят в жизнь людей неограниченный творческий потенциал и сюрпризы, а также снижают сложность и стоимость производства. Судя по текущим продуктам, и Wensheng Video, и Tusheng Video создали очень интересный и новый игровой процесс, в котором личное творчество является ключевым фактором, способствующим улучшению результатов искусственного интеллекта. Хотя некоторые технические проблемы привели к случайным ошибкам, а форма продукта во многом зависит от реальных возможностей модели, благодаря итеративным обновлениям, здоровой рыночной конкуренции и комбинации треков, я считаю, что модель со временем будет становиться все более и более совершенной. В то же время мы с нетерпением ожидаем, что в будущем крупные модели отечественного производства займут свою собственную нишу на мировом рынке.

Новости

Бесплатная общедоступная бета-версия захлестнула сервер, а Сора заслужила похвалу за свою физическую работоспособность.

Введение

моя контактная информация