«король бинбао»: bytedance выпускает две большие модели генерации видео за один день

«король бинбао»: bytedance выпускает две большие модели поколения видео за один день

2024-09-24

bytedance официально объявила о своем вступлении в производство видео с использованием искусственного интеллекта. 24 сентября volcano engine, дочерняя компания bytedance, провела тур по инновациям в области искусственного интеллекта в шэньчжэне и выпустила две большие модели поколения видео doubao — pixeldance и поколения видео doubao — seaweed, а также запустила тестовое приглашение для корпоративного рынка.

видеопоколение, показанное на мероприятии, было ошеломляющим. будь то возможности семантического понимания, сложные интерактивные изображения нескольких движений объекта или согласованность контента при переключении нескольких объективов, крупные модели doubao для генерации видео достигли передового уровня в отрасли. тан дай, президент volcano engine, сказал: «существует множество трудностей в создании видео, которые необходимо преодолеть. две модели doubao будут продолжать развиваться, исследовать больше возможностей в решении ключевых проблем и ускорять расширение творческого пространства и применение видео ai».

фото: президент volcano engine тан дай представил модель видеогенерации мешков с фасолью

инновационная технология для решения проблемы многоагентного взаимодействия и согласованности

большинство предыдущих моделей создания видео могли выполнять только простые инструкции, в то время как модель создания видео doubao могла достигать естественных и последовательных действий из нескольких кадров и сложных взаимодействий между несколькими субъектами. некоторые создатели во время раннего доступа к модели генерации видео doubao обнаружили, что сгенерированные видео могут не только следовать сложным инструкциям и позволять различным персонажам выполнять взаимодействие с несколькими инструкциями действий, но также сохраняются внешний вид персонажей, детали одежды и даже головные уборы. при различных движениях последовательный, близкий к реальному эффект стрельбы.

согласно volcano engine, модель генерации видео doubao основана на архитектуре dit. благодаря эффективному вычислительному блоку dit fusion видео можно свободно переключать между большой динамикой и движущимися объективами, а также поддерживает языковые возможности нескольких линз, такие как масштабирование, объемное изображение. , панорамирование, масштабирование и отслеживание цели. недавно разработанный метод обучения диффузионной модели позволил преодолеть проблему согласованности переключения нескольких кадров и может одновременно поддерживать согласованность объекта, стиля и атмосферы при переключении кадров. это также уникальное технологическое новшество видео doubao. модель поколения.

после доработки и непрерывной итерации бизнес-сценариев, таких как cutting и dream ai, модель генерации видео doubao имеет профессиональную компоновку света и теней, а также координацию цвета, а внешний вид чрезвычайно красив и реалистичен. глубоко оптимизированная структура transformer значительно улучшает способность к обобщению генерации видео doubao, поддерживает 3d-анимацию, 2d-анимацию, китайскую живопись, черно-белую, густую краску и другие стили и подходит для фильмов, телевидения, компьютеров, мобильных телефонов и других устройств. пропорция подходит не только для корпоративных сценариев, таких как маркетинг электронной коммерции, анимационное образование, городской культурный туризм и микросценарии, но также может оказывать творческую помощь профессиональным создателям и художникам.

в настоящее время новая модель создания видео в виде мешков с фасолью тестируется в небольших масштабах во внутренней бета-версии jimeng ai и в будущем будет постепенно открыта для всех пользователей. чэнь синьжань, лидер рынка jianying и jimeng ai, считает, что искусственный интеллект может глубоко взаимодействовать с создателями и творить вместе, принося много сюрпризов и вдохновения. jimeng ai надеется стать самым близким и мудрым творческим партнером пользователей.

doubao big model запускает отраслевой стандарт сверхвысокого одновременного трафика

на этом мероприятии doubao big model не только добавила новую модель генерации видео, но также выпустила музыкальную модель doubao и модель синхронного перевода, которая полностью охватывает все режимы, такие как язык, голос, изображение, видео и т. д., и полностью соответствует потребности различных отраслей и сфер деятельности.

хотя возможности продукта постоянно улучшаются, использование больших моделей мешков с фасолью также быстро растет. по данным volcano engine, по состоянию на сентябрь среднесуточное использование токенов языковой модели doubao превысило 1,3 триллиона, что в десять раз больше, чем в первом выпуске в мае. объем мультимодальной обработки данных также достиг 50 миллионов изображений и 50. миллионов изображений в день соответственно 850 000 часов голоса.

ранее большие модели doubao объявляли о ценах ниже, чем 99% в отрасли, что возглавило тенденцию снижения цен на отечественные большие модели. тан дай считает, что цена крупных моделей больше не является препятствием для инноваций. благодаря крупномасштабному применению на предприятиях крупные модели, поддерживающие больший одновременный трафик, становятся ключевым фактором развития отрасли.

по словам тан дая, многие крупные модели в отрасли в настоящее время поддерживают только до 300 000 или даже 100 000 tpm (токенов в минуту), что затрудняет передачу трафика производственных сред предприятия. например, в сценарии перевода документов научно-исследовательского учреждения пиковый tpm составляет 360 000, пиковый tpm умной кабины определенного автомобиля составляет 420 000, а пиковый tpm компании, занимающейся обучением искусственному интеллекту, достигает 630 000. по этой причине большая модель beanbao по умолчанию поддерживает начальный tpm 800 000, что намного выше, чем в среднем по отрасли. клиенты также могут гибко расширять емкость в соответствии с потребностями.

«благодаря нашим усилиям проблема стоимости применения больших моделей была хорошо решена. большие модели должны перейти от массового ценового сегмента к массовому производству с улучшенными возможностями моделей и услугами».

идань сяофэн

отчет/отзыв

новости

«король бинбао»: bytedance выпускает две большие модели поколения видео за один день

введение

моя контактная информация