чжан имин опоздал, но ещё позже

чжан имин опоздал, но даже позже.

2024-09-25

с наступлением сентября большие видеомодели стали новым объектом конкуренции ии для крупных производителей. но на этот раз чжан имин снова опоздал.

прошло 5 дней с момента запуска alibaba tongyi qianwen wensheng video и 3 месяца с тех пор, как kuaishou выпустила keling в июне. 24 сентября byte наконец запустила собственную модель генерации видео doubao.

стоит отметить, что чжан имин, который всегда ценил рентабельность инвестиций (roi) и был прагматичным, с самого начала задал тон «коммерциализации» видеомодели doubao.

на мероприятии тан дай, президент volcano engine, сказал:коммерциализация рассматривалась с момента запуска модели создания видео doubao.области применения включают маркетинг электронной коммерции, анимационное образование, городской культурный туризм и микросценарии, такие как музыкальные клипы, микрофильмы и короткометражные пьесы.

легенда: введите «маленькая девочка в шапке санты с котом-рэгдоллом», чтобы создать источник рендеринга: алфавитный список.

при этом тан дай также подчеркнул, что до выхода видеомодели дубао он уже «появлялся» во многих короткометражных драматических проектах на douyin. в прошлом месяце kunlun wanwei выпустила skyreels, платформу для создания коротких драм с использованием искусственного интеллекта, а в июле meitu xiuxiu выпустила moki, инструмент для создания коротких драм с использованием искусственного интеллекта.

«в настоящее время существуют сотни компаний, которые продают короткометражные пьесы за рубежом и стали пользователями крупных моделей искусственного интеллекта». с благословением ии короткие ролики и клипы станут контент-продуктами, похожими на онлайн-статьи и короткие видеоролики с большим участием пользователей. по его мнению, «byte, появившийся поздно, играет в коммерческую игру».

фактически, когда sora взорвалась, вопрос о том, сможет ли она выпустить большую видеомодель, стал «новым стандартом» для измерения того, насколько продвинуты технологии производителей крупных моделей в 2024 году.

в погоне за сорой компания byte «не торопилась» отложила выпуск до конца сентября, чтобы «зарезервировать место» для видеомодели, когда doubao model pro будет обновлена.

когда alphabet открыла jimeng ai, было замечено, что после применения модели видео beanbao пользователи c-конца могут испытать генерацию видео в jimeng ai.

максимальное время генерации в 12 секунд является «справедливым», а эффект генерации ци келинг «не потрясающий, но он опоздал на несколько месяцев, и первая большая видеомодель as не выбила его из технического пробела». первая партия внутренних тестов чжан ян, специалист по искусственному интеллекту видеомодели doubao, рассказал alphabet, что, хотя отечественные видеомодели интенсивно обновляются,уверенность в запоздалом появлении byte может быть связана с тем, что эффекты предыдущего поколения видео ai не «поразили» пользователей.

в то время как отечественные модели гонятся за sora, openai уже продемонстрировала новый путь обучения с подкреплением для крупномасштабных базовых моделей, выпустив gpt-o1, который может открыть новую эру с оценкой, превышающей один триллион. производители, также будут новые матч-пойнты.

искусственный интеллект jimeng, ранее запущенный jianying, поддерживает продолжительность видео только 3 секунды; после загрузки модели большого кресла-мешка jimeng ai может генерировать видеоролики продолжительностью 3–12 секунд;

напротив, keling версии 1.0 может генерировать видео только в течение 5 секунд без членства, в то время как jimeng ai от byte поддерживает бесплатные пробные версии пользователей, начисляя 66 баллов за вход в систему каждый день.

однако, в отличие от модели дубао, которая начала стимулировать «покупку больших моделей за ноль юаней» с ценой ниже 98% отрасли, что вызвало горячие дискуссии, модель дубао, похоже, не соответствует традиции byte: «делать большие дела тихо».

введите ключевое слово «маленькая девочка, держащая кота-рэгдолла». во внутренней бета-версии перед выпуском видеомодели дубао ии, похоже, впервые понимает кота-рэгдолла как куклу, и создается видео. на руках у нее фальшивый кот, лица на видео тоже слегка напряжены.

после того, как 25 сентября он был сгенерирован снова, рэгдолл снова превратился в садового кота. только когда он был сгенерирован в третий раз, большая модель ии точно выполнила инструкции. чжан ян рассказал alphabet, что, будучи одним из первых специалистов по искусственному интеллекту, прошедших внутреннее тестирование, эффект от использования большой видеомодели doubao не является удивительным.

однако большая модель doubao video может переключаться между различными стилями, такими как 3d-анимация, 2d-анимация, китайская живопись, черно-белая краска и густая краска. вы также можете произвольно перемещать камеру или настраивать режимы движения камеры, например увеличение масштаба. и уменьшение масштаба. по сравнению с 16:9, 9:16 и 1:1 доступны три соотношения экрана, очевидно, что doubao больше подходит для разных соотношений экрана, включая 3:4, 2:3, 4:3, 3: 2 и более вариантов соотношения.

по мнению чжан яна, doubao действительно предоставляет больше возможностей для взаимодействия с пользователем. однако, хотя большая модель видео beanbao может осуществлять переключение нескольких объективов в подсказке, «связь общей картины все еще немного негладкая, а выражения персонажей несколько искажены».

однако на этот раз чжан имин, что неудивительно, запечатлел «прагматизм» в днк модели doubao video.

как только была выпущена большая модель doubao video, ее пригласили протестировать на корпоративном рынке. в то же время тан дайген, президент volcano engine, сказал:коммерциализация рассматривалась с момента запуска модели создания видео doubao.области применения включают маркетинг электронной коммерции, анимационное образование, городской культурный туризм и микросценарии, такие как музыкальные клипы, микрофильмы и короткометражные пьесы.

в отличие от других ai-стартапов, которые «ищут гвозди молотком», будь то bytedance или kuaishou, «у него есть собственный контент и платформа, а гвозди под рукой, поэтому создание больших видеомоделей, естественно, имеет больше сценариев применения». чжан ян сказал:

24 июля в официальном сообщении keling ai в wechat сообщалось, что число пользователей, подавших заявки на получение разрешений, превысило 1 миллион, и в тот же день была запущена система платного членства, включающая три категории членства: золото, платину и бриллиант. стоимость годового членства начинается от более 500 юаней и варьируется от более 5000 юаней. для byte, который опоздал в игру, технически он может быть на одном уровне с keling, но на пути коммерциализации keling, который уже начал платить за c-side, похоже, снова на шаг впереди.

в мае, столкнувшись с проблемой «openai выпустила gpt-4o за день до того, как google выпустила ввод-вывод», материнская компания google alphabet и генеральный директор google сундар пичаи прямо заявили: «когда мы находимся на переломном этапе развития ии, то, что я вижу — это возможности, поэтому, если вы расширите эту временную шкалу, то определенное событие, которое произойдет в определенный день, не будет иметь значения».

точно так же, как google, который постоянно проигрывает openai,опоздавший бай держит гвоздь в руке и, кажется, пытается догнать его сзади.

по данным questmobile, по состоянию на июль число активных пользователей ai app в месяц превысило 66,3 миллиона. среди них дубао, вэнь сяоянь, кими, хосино и тонги входят в пятерку лучших с ежемесячными активными пользователями 30,42 миллиона, 10,08 миллиона, 6,25 миллиона, 4,66 миллиона и 4,24 миллиона соответственно.

хотя приложение doubao было выпущено значительно позже, чем tongyi qianwen от alibaba, и даже позже, чем wen xinyyan и kimi от baidu, ежемесячные активные пользователи doubao уже превышают общее количество активных пользователей остальных четырех приложений.

поэтому в области генерации видео с помощью искусственного интеллектастолкнувшись с нынешней ситуацией, когда внутри страны происходят вялые технологические прорывы, byte, похоже, уверена, что опоздает.

будь то keling, вышедший первым из отрасли, или долгожданная видеомодель byte beanbag, похоже, никто не сможет догнать sora среди производителей, запустивших видеомодели в июле и сентябре.

от фильма «странное зеркало гор и морей: разрезание волн» куайшоу до фильма «саньсиндуй: будущий апокалипсис» компании byte — использование искусственного интеллекта для создания коротких пьес стало «алхимическим камнем» для создания эффектов искусственного интеллекта ведущих производителей.

очевидно, что по сравнению с традиционными короткими драмами, которые требуют появления и взаимодействия реальных персонажей, короткие драмы мифологии, научной фантастики и других типов на современном этапе больше подходят для больших моделей ии.

«текущий уровень генерации ии нестабильен, и трудно отличить настоящие эффекты от фальшивых, таких как взрывы бомб и фейерверки, в больших сценах, но все равно требуется, чтобы персонал по отладке вносил коррективы еще 1-2 часа», — чжан ян как сообщил список alphabet, текущая крупная модель искусственного интеллекта, генерирующая видео, более подробные выражения и действия персонажей, по-прежнему имеет проблемы с неестественными выражениями, небольшим диапазоном движений и механическими выражениями.

чжу цзян, платформа искусственного интеллекта для короткометражных драм reel.ai, также прямо заявила в интервью: «ожидается, что неанимационные короткометражные драмы достигнут уровня потребления во второй половине этого года.

робин ли однажды сказал: «неважно, опережаете ли вы на 12 месяцев или отстаете на 18 месяцев. каждая компания находится на рынке совершенной конкуренции. что бы вы ни делали, конкурентов будет много».

с приложением douyin с базой пользователей в 100 миллионов человек нетрудно объяснить простоту byte. даже tencent, которая еще не выпустила большую видеомодель, имеет wechat, крупнейшее социальное приложение, и, похоже, имеет больше выбора для чжан имина и ма хуатэна, которые «держат гвозди».

«независимо от того, видеомодель какой компании вы сейчас используете, все дело в рисовании карт».

«примерно 1 из 10 случаев генерации действительно может соответствовать коммерческим стандартам, но процесс 10-кратной отладки может быть не таким эффективным, как ручная работа». шань шань, опробовав несколько крупных видеомоделей на рынке, стала специалистом по кино и телевидению. прямо скажем, текущая большая модель не соответствует ожиданиям пользователя с точки зрения эффекта генерации.

«ввод генерирует видео с котом рэгдолл. в результате получается либо игрушечный кот, либо садовый кот. когда пользователи не могут получить стабильные и неожиданные результаты после 2-3 попыток, им будет сложно по-настоящему удержать пользователя».по мнению шань шань, это также может объяснить, почему сора до сих пор не выпущена для публичного тестирования спустя более чем полгода после ее выпуска.

в начале года появились сообщения о том, что генеральный директор openai альтман инвестирует 7 триллионов долларов сша в сотрудничество с tsmc в строительство завода по производству пластин, намереваясь отказаться от чипов собственной разработки nvidia. в сентябре openai стало известно, что tsmc работает над ним. «больная видеомодель» «цель разработки специализированного технологического чипа a16 на уровне ангстрема состоит в том, чтобы улучшить его возможности генерации видео.

плотность этого чипа a16 увеличена в 1,10 раза. при том же рабочем напряжении скорость увеличивается на 8–10%, при той же скорости энергопотребление снижается на 15–20%.использование «более низкой цены и энергопотребления для ускорения генерации видео с помощью ии», очевидно, является важной причиной, по которой openai отложила публичную бета-версию sora.

чтобы добиться лучших эффектов генерации видео с помощью искусственного интеллекта, более высокие затраты на вычислительную мощность, более низкие цены и энергопотребление также стали ключевыми факторами, определяющими, могут ли в конечном итоге «исчерпаться» крупные отечественные видеомодели.

недавно выяснилось, что byte планирует сотрудничать с tsmc в области чипов искусственного интеллекта, хотя позже byte ответила, что отчет не соответствует действительности, и заявила, что ее исследования в области чипов больше ориентированы на оптимизацию бизнеса, рекомендаций и рекламы.однако, если вы введете такие ключевые слова, как «чип», на веб-сайте набора персонала byte, вы уже найдете более 200 связанных вакансий, включая инженеров по архитектуре чипов искусственного интеллекта и инженеров по тестированию sil чипов.

но для чжан имина и даже отечественных производителей головок крупных моделей проблемы, стоящие перед ними, могут оказаться более сложными.

19 сентября на конференции yunqi 2024 года основатель dark side of the moon ян чжилинь заявил, что основное значение запуска gpt-o1 — повышение верхнего предела ии. «повышая производительность на 10%, или в 10 раз больше ввп, самый важный вопрос здесь заключается в том, можно ли ее дополнительно масштабировать с помощью обучения с подкреплением».

в эпоху gpt-o1 мгновенный чат дубао, тонги цяньвэня, вэньсиня и кими перешел от 10- или 20-секундного размышления к генерированию ответов к возможности вызывать различные инструменты для выполнения задач на минутном или даже минутном уровне. дневной уровень, форма продукта мгновенного чата с искусственным интеллектом, с которой отечественные пользователи уже знакомы, приведет к огромным изменениям: «похоже, это следующий новый график для тьмы». сторона луны, чтобы догнать openai.

когда снова наступает новый момент конкуренции, большие базовые модели отечественных производителей крупных моделей в то время не видели «новых всплесков», но чжан имин и другие снова оказались перед выбором.

должны ли мы продолжать вкладывать много «людей, денег и вычислительных мощностей» в функциональные сценарии, такие как vincent video, для итерации, или нам следует поучиться у openai и ввести расширенный маршрут итерации? для байта, у которого денег хватает, конечно, может быть «и то, и другое».

и когда пространство для воображения, предоставляемое «обучением с подкреплением», становится достаточно большим и заманчивым, раздается новый стартовый выстрел. сможет ли байт, который не смог встать рано, на этот раз вырваться вперед?

(чжан ян и шань шань — псевдонимы в статье)

новости

чжан имин опоздал, но даже позже.

введение

моя контактная информация