byte использует ии, чтобы возродить свой старый бизнес: внедрить крупномасштабные модели генерации видео, близкие к реальным эффектам

2024-09-27

источник этой статьи: times weekly автор: хэ шаньшань

область создания больших моделей видео приветствует важных игроков.

24 сентября volcano engine, дочерняя компания bytedance, провела инновационный тур по искусственному интеллекту в шэньчжэне. она выпустила две большие модели поколения видео-погремушек - pixeldance и поколения видео-погремушек - seaweed, а также открыла приглашение для корпоративного рынка.

для больших моделей генерации видео очень важна продолжительность создаваемого видео. в настоящее время продолжительность генерации видео pixeldanc составляет 5 или 10 секунд, а seaweed — 5 секунд. тан дай, президент volcano engine, рассказал time weekly и другим средствам массовой информации: «существует множество трудностей при создании видео, которые необходимо преодолеть. преимущества volcano engine включают в себя возможность следовать инструкциям, движение камеры (согласованность объекта под несколькими объективами). и т. д., за которыми стоят технологические прорывы и полноценные возможности. кроме того, понимание видео доуинь и цзяньин также являются преимуществами.

тан дай считает, что большие модели генерации видео должны не только учитывать продолжительность, но и учитывать сценарии применения. разные сценарии предъявляют разные требования к продолжительности, и хуошань больше озабочен решениями для разных отраслей. "

стоит отметить, что новая модель генерации видео в виде мешков с фасолью тестируется в небольшом масштабе компанией jimeng ai и в будущем будет постепенно открыта для всех пользователей.

в феврале этого года чжан нань, бывший генеральный директор douyin group, внезапно объявил, что перейдет на монтаж фильмов и будет продвигать применение искусственного интеллекта при монтаже фильмов. всего через неделю после объявления о том, что он отвечает за редактирование, 16 февраля openai запустила sora, которая может генерировать 1-минутные видеоролики, что снова сделало видеофункцию винсента популярной во всем мире. в то же время чжан нань, как человек, отвечающий за монтажный бизнес, объявил о запуске цзи мэн в wechat moments. цзи мэн также стал первым важным обновлением продукта чжан наня после его перевода.

на ai innovation tour чэнь синьжань, руководитель отдела маркетинга ии компаний jianying и jimeng, представил последний статус «ии-изации» двух приложений. она рассказала, что раньше для создания контента подобного качества требовалась команда из 5-10 человек, включая создание сюжетных линий, доработку спецэффектов, упаковку и монтаж и т. д. процесс сотрудничества был сложным, производственный цикл длился 1-2 месяца. и потребовалось большое количество денег и ресурсов. но с помощью ии большинство создателей могут завершить творение в одиночку, а время производства сократилось до 1-2 недель.

тан дай также упомянул в своем выступлении: «в создании видео существует множество трудностей, которые необходимо преодолеть. две модели дубао будут продолжать развиваться, исследовать больше возможностей в решении ключевых проблем и ускорять расширение творческого пространства и приложений. видео с искусственным интеллектом».

в любом случае, рождение большой модели генерации видео doubao и ее использование в jimeng и jianying означает, что bytedance стала на шаг ближе к использованию ии для улучшения «старого бизнеса» видео.

источник: фотография сделана репортером times weekly с сайта.

можно свободно переключать линзы

по сообщениям сайта volcano engine, использование больших моделей мешков с фасолью быстро растет.

по состоянию на сентябрь среднесуточное использование токенов языковой модели doubao превысило 1,3 триллиона, что в десять раз больше, чем при запуске в мае. объем мультимодальной обработки данных также достиг 50 миллионов изображений и 850 000 часов голосовой связи в день соответственно.

благодаря огромному количеству пользователей модель кресла-мешка снова принесла новые изменения. была добавлена не только новая модель генерации видео, но также выпущена музыкальная модель погремушки и модель синхронного перевода, которые полностью охватывают все режимы, такие как язык, речь, изображения и видео.

раньше большинство моделей создания видео могли выполнять только простые инструкции. модель создания видео doubao может достигать естественных и последовательных многокадровых действий и сложных взаимодействий с несколькими объектами — она может не только следовать сложным инструкциям, но и позволять различным персонажам завершать взаимодействие. нескольких инструкций к действию. внешний вид, детали одежды и даже головные уборы остаются неизменными при различных движениях камеры, что близко к эффекту реальных снимков.

модель генерации видео doubao основана на архитектуре dit. благодаря эффективному вычислительному блоку dit fusion видео можно свободно переключать между большой динамикой и движущимися объективами, а также поддерживает языковые возможности нескольких объективов, такие как масштабирование, объемное изображение, панорамирование, масштабирование и т. д. и целевое следование. «это означает, что видео, созданное doubao, решает проблему согласованности при переключении нескольких сцен и может одновременно сохранять согласованность объекта, стиля и атмосферы при переключении кадров. это также уникальная технологическая инновация модель генерации видео doubao», — сказал тан дай.

что касается будущего направления модели, тан дай сказал, что volcano engine уделяет больше внимания лучшему внедрению и ускорению инноваций на основе существующих моделей: «технологии должны отвечать потребностям пользователей, а новые и старые технологии должны постоянно корректироваться и адаптироваться. зрелый стандарт. для больших моделей — это пользователь после инкубации. реальная и хорошая обратная связь, полученная на опыте и имеющая определенный объем, а не обратная связь от лаборатории. например, jimeng и doubao проводят большое количество внутренних тестов, а отзывы пользователей — это отзывы. важный критерий оценки».

ранее doubao big model установила цену токена, которая была ниже 99% отраслевой, и стала первым вулканическим двигателем, запустившим волну снижения цен. в настоящее время цены на использование больших моделей doubao video еще не объявлены. тан дайдай сообщил times weekly и другим средствам массовой информации, что сценарии применения видеомоделей и языковых моделей различны, а также разная логика ценообразования: «необходимо учитывать возможность широкого использования нового опыта и старого опыта». конец зависит от того, насколько увеличится рентабельность инвестиций по сравнению с предыдущим.

источник: официальный сайт джимэна.

изучите нативные продукты искусственного интеллекта

раньше обычные пользователи jimeng могли создавать 3-секундные короткие видеоролики с использованием искусственного интеллекта, а vip-пользователи могли увеличивать время на 3 секунды.

начиная с марта этого года, cutting интенсивно обновляет функции искусственного интеллекта, такие как умные субтитры, перевод видео и другие функции. с douyin также открыта поддержка трафика и денежных вознаграждений за короткие видеоролики, в которых используется функция обрезки ai. например, выдающиеся работы могут получать поддержку трафика в размере dou + 500 юаней за видео. в настоящее время цена vip-членства jianying составляет 218 юаней в течение одного года, средняя ежемесячная плата составляет 18,17 юаней, а ежемесячная плата за vip-членство dream составляет 69 юаней.

в ходе ai innovation tour чэнь синьрань упомянул, что «технология, связанная с большими моделями мешков с фасолью, была применена для вырезов, искусственного интеллекта во сне и изображений наяву», и представил новые функции в рамках применения технологии искусственного интеллекта.

например, в приложениях цифрового клонирования функцию цифрового клонирования человеческого голоса можно настроить онлайн на основе технологии клонирования голоса. цифровым производителям нужно всего лишь записать или загрузить 3-минутное фронтальное видео высокой четкости, а для клонирования тона требуется всего 5 секунд голосового ввода для создания естественного, плавного, непротиворечивого голоса, а также возможность перевода на различные языки. «мы очень обеспокоены вопросами конфиденциальности и безопасности. нам требуется личное подтверждение от пользователей на уровне дизайна продукта и технических характеристиках. мы также будем обращать внимание на новые отраслевые правила для повышения безопасности и надежности услуг», — сказал чэнь синьжань.

кроме того, существуют также инструменты создания «контент-маркетинга» для продавцов электронной коммерции. раньше продавцы могли потратить несколько часов на просмотр douyin и tiktok, чтобы проанализировать популярные видеопрограммы, разобрать их и скопировать копию, а также потратить несколько часов на редактирование. теперь заполнение названия продукта и его отображение занимает всего несколько минут. загрузите его, добавив материалы или вставив ссылки на страницы продукта, вы можете одним щелчком мыши создать несколько различных стилей видеороликов.

чэнь синьрань особо отметил, что помимо применения ии к существующим продуктам, цзяньин также изучает возможность создания собственных продуктов с ии в эпоху gena (генеративного искусственного интеллекта) i: «продукт jimeng ai — это исследование в этом направлении. подключен к двум большим моделям генерации видео для внутреннего тестирования полировки сцен и полировки эффектов. мы считаем, что творчество не должно ограничиваться стоимостью производства, стилем или культурным прошлым. оно должно быть веселым, счастливым и свободным».

тан дай также сказал, что стоимость применения больших моделей хорошо решена: «большие модели должны перейти от массовой цены к объемной производительности, с улучшенными возможностями моделей и услугами».

новости

byte использует ии, чтобы возродить свой старый бизнес: внедрить крупномасштабные модели генерации видео, близкие к реальным эффектам

введение

моя контактная информация