атака beanbao, байтовая версия sora «запоздала, но прибыла» президент volcano engine тан дай: начните рассматривать коммерциализацию, как только она будет запущена

2024-09-26

«путь разработки большой модели byte заключается в том, чтобы сначала перейти к этапу c, чтобы отшлифовать продукт, а затем перейти к этапу b, чтобы расширить рынок после того, как возможности модели обретут конкурентное преимущество». 25 сентября тан дайзай, президент volcano engine, сказал: принял интервью газете «daily economic news» саид во время группового интервью со сми, включая репортеров.

основываясь на этом пути развития, после того, как ранняя версия была применена к платформе создания искусственного интеллекта «ji meng», разработанной командой монтажа в мае этого года, модель создания видео в виде мешков с фасолью была официально представлена на туре инноваций volcano engine ai в 2024 году. 24 сентября и нацелен на корпоративный рынок открыт для бета-тестирования.

с тех пор, как sora положила начало «эре видео chatgpt», отечественные игроки крупных моделей, такие как kuaishou, zhipu ai, minimax и alibaba, последовательно запустили аналогичные продукты. теперь, когда bytedance вступила в игру, может ли она изменить существующую конкурентную среду крупных видеомоделей? ?

демонстрируя на пресс-конференции эффекты двух моделей генерации видео, тан дай считает, что будь то способность семантического понимания, сложные интерактивные изображения нескольких движений объекта или согласованность контента при переключении нескольких объективов, большая генерация видео doubao модель достигла ведущего уровня в отрасли.

в то же время на конференции были представлены «модель генерации музыки» и «модель синхронной интерпретации», что еще больше расширило территорию byte ai.

будучи первым игроком в отрасли, который снизил цены на большие модели, volcano engine значительно ускорил их коммерциализацию. тан дай рассказал репортеру daily economic news, что количество звонков в b быстро растет. «я не совсем понимаю, что касается бизнеса c, но я чувствую, что он идет очень гладко. я думаю, что ии может решать проблемы комплексно, а границы между бизнесом b и c не так очевидны».

репортер daily economic news узнал на пресс-конференции, что по состоянию на сентябрь этого года среднесуточное использование токенов в модели doubao превысило 1,3 триллиона, в среднем каждый день создается 50 миллионов изображений, а средний показатель ежедневная обработка голоса составляет 850 000 часов.

байт входит в видео с искусственным интеллектом, «начиная рассматривать возможность коммерциализации, как только оно появится»

31 августа minimax, один из «шести маленьких драконов искусственного интеллекта», выпустил модель видео-1, 19 сентября keling ai завершила свою 9-ю итерацию и в тот же день выпустила «модель keling 1.5». yunqi на конференции alibaba cloud представила новую модель генерации видео. менее чем через месяц и без того бурная область моделей генерации видео приветствовала нового игрока.

в рамках инновационного тура volcano engine ai 24 сентября были представлены вместе две большие модели doubao video generation-pixeldance и doubao video generation-seaweed.

репортер daily economic news заметил, что максимальная продолжительность генерации видеоконтента, поддерживаемая этими двумя большими моделями, еще не объявлена. приложение jimeng показывает, что оно поддерживает генерацию видеоконтента в 3 секунды, 6 секунд, 9 секунд и 12 секунд. . напротив, keling 21 июня запустил функцию продолжения видео, которая может продлить видео примерно на 5 секунд и создать видео продолжительностью не более 3 минут.

источник фото пресс-конференции: фото ян синьи, репортера daily news.

«различные сценарии предъявляют разные требования к продолжительности видео, и мы уделяем больше внимания решениям для разных отраслей». тан дай заявил в интервью репортеру «daily economic news», что преимущество большой модели генерации видео doubao в промышленность в основном заключается в способности следовать инструкциям, последовательности переключения нескольких объективов и способности к обобщению генерации видео.

на пресс-конференции несколько официальных видеодемонстраций продемонстрировали вышеуказанные возможности: например, в демонстрационном видео мужчины и женщины, скачущих верхом на лошади, на 10-секундном экране у двух людей были разные выражения и движения, но они оба работает хорошо, естественно и гладко.

стоит отметить, что большая модель doubao для генерации видео поддерживает генерацию черно-белого изображения, 3d-анимации, 2d-анимации, китайской живописи, густой краски и других стилей контента.

«для моделей генерации видео сложно создавать разные стили (производства контента). помимо технологий, это в основном зависит от богатства источника данных», — рассказал репортеру «daily economic news» техник по крупным моделям. тан дай объяснил это «преимуществами полнофункциональных возможностей, технологическими прорывами и пониманием видео доуинь и цзяньин».

придерживаясь принципа прагматизма, тан дай сказал, что новая модель создания видео в виде мешков с фасолью «рассматривается на коммерциализацию с момента ее запуска», а области ее применения включают маркетинг электронной коммерции, анимационное образование, городской культурный туризм и микросценарии.

келинг также «обеспокоен» коммерциализацией. на телеконференции по итогам второго квартала вечером 20 августа чэн исяо, соучредитель, председатель и генеральный директор kuaishou, назвал коммерциализацию keling главным приоритетом и «стремится как можно скорее достичь значительного масштаба коммерческой реализации». ."

говоря о стратегии ценообразования, тан дай сообщил, что цена модели видеогенерации doubao еще не определена. «сценарии применения видеомоделей и языковых моделей различны, и логика ценообразования также различна. ценность продукта должна измеряться через новый опыт, затраты на миграцию и т. д. можно ли (продукт) в конечном итоге широко использовать также зависит от того, насколько повысилась производительность, чем раньше».

«цена больше не является порогом для инноваций». выходят ли поставщики облачных технологий на новое поле битвы в эпоху искусственного интеллекта?

помимо новой модели поколения видео, на этом мероприятии также были представлены музыкальные модели погремушек и модели синхронного перевода. на данный момент семейство полномодальных больших моделей doubao охватывает три категории: большие языковые модели, большие визуальные модели и большие речевые модели, всего было выпущено 13 больших моделей.

но одних моделей недостаточно. многие представители отрасли говорят, что нынешняя реализация крупных производителей моделей — это «искание гвоздей молотком». итак, как найти гвозди и как использовать подходящий молоток, чтобы забить гвозди с меньшими усилиями, может стать новой задачей для поставщиков облачных технологий в эпоху искусственного интеллекта.

во-первых, это вопрос стоимости, который лежит между крупными производителями моделей и предприятиями.

на пресс-конференции в мае тан дай объявил, что входная цена основной модели doubao составляет всего 0,0008 юаней/тысячу токенов, что на 99,3% дешевле, чем в отрасли, начав ценовую войну в области больших моделей.

«стоимость является ключевым моментом. если цена упадет на одну десятую, объем может увеличиться в десять раз». по мнению тан дая, в настоящее время основное внимание уделяется объему вызовов моделей и охвату приложений. считаю, что более ценным является открытие новых сценариев, таких как обновление сценариев в чате, общение, повышение производительности и расширение сценариев корпоративных приложений».

однако он также настаивал на том, что бизнес-предпосылка для рынка b-конца должна быть устойчивой: «мы не можем рассматривать возможность зарабатывания денег на рекламе, как в бизнесе c». «продукты b должны приносить положительную валовую прибыль, и у нас есть возможность и». уверенность, что сделаю это».

после того как большая модель doubao стала лидером по снижению цены, alibaba tongyi qianwen, baidu wenxin yiyan и другие модели также последовательно снизили свои цены. на конференции yunqi в этом году цены на три основные модели tongyi qianwen на платформе alibaba cloud bailian были снова снижены. технический директор alibaba cloud чжоу цзинжэнь даже заявил, что «по сравнению с огромными приложениями в будущем, они все еще слишком дороги».

что касается текущей ситуации в этой отрасли, тан дай сказал, что после снижения цен, судя по количеству обращений, стоимость больше не является препятствием для инноваций: «следующее, что нужно сделать, — это улучшить качество и производительность модели. по этой цене. индекс качества. цель — сделать модель более мощной и разнообразной».

после раунда «общих сокращений» крупная модельная индустрия больше не будет слепо «снижать» цены. на этом этапе конкуренция заключается в производительности моделей, которая также поддерживается клиентским спросом.

по наблюдению тана, спрос на реализацию больших моделей на рынке b меняется медленно, и основной спрос заключается в снижении затрат и повышении эффективности. «когда предприятия применяют ии, они раньше планировали сверху вниз, что имеет высокую вероятность провала. теперь им нужно внедрять инновации снизу вверх».

репортер daily economic news отметил, что в процессе оказания помощи предприятиям в цифровой трансформации volcano engine объединила усилия со всеми сторонами для создания альянса больших моделей смарт-терминалов, экологического альянса больших моделей автомобилей и экологического альянса больших моделей розничной торговли. и внешние клиенты уже охватывают более 30 отраслей, таких как мобильные телефоны, автомобили, финансы, потребление и интерактивные развлечения.

теперь у байта в руках еще несколько удобных «молотков». как найти больше «гвоздей», подходящих им во всех сферах жизни, станет следующим испытанием volcano engine.

ежедневные экономические новости

отчет/отзыв

новости