диалог с генеральным директором shengshu technology тан цзяюй: ai-видео достигло точки «популяризации», и увеличение продолжительности не является целью productization

диалог с генеральным директором shengshu technology тан цзяюй: ai-видео достигло точки «популяризации», и увеличение продолжительности не является целью продуктизации

2024-09-13

11 сентября компания shengshu technology провела день открытых дверей для сми и выпустила функцию «согласованность предметов», которая предназначена для решения проблемы «согласованности» при создании предметов из видеомоделей.

на мероприятии тан цзяюй, соучредитель и генеральный директор shengshu technology, в ответ на вопрос репортера о бизнес-модели из «daily economic news» заявил, что в настоящее время существует два типа подписки saas (программное обеспечение как услуга) и maas (модель как услуга) в отрасли с тех пор, как vidu вышла в сеть 30 июля, она получила десятки тысяч приложений доступа к api по всему миру.

что касается базовой архитектуры, тан цзяюй сказал, что «архитектура u-vit», используемая в его продукте «vidu», почти идентична «архитектуре dit», используемой сорой. разница в том, что u-vit стал более ориентированным на реализацию. конструкции. по техническому плану сейчас все находятся в состоянии конвергенции базовой архитектуры, но однородность не означает, что у всех одинаковый прогресс и возможности. тан цзяюй привел пример: «например, в текущей языковой модели (хотя). ) все используют архитектуру transformer, но с этого момента openai по-прежнему явно впереди».

в настоящее время основными пользователями ии-видео по-прежнему являются профессиональные пользователи, например, работники кино, но тан цзяю считает, что ии-видео достигло точки «популяризации».

кроме того, судя по текущему доходу, shengshu technology получила больше доходов от рынка b-стороны, в то время как кривая роста c-стороны была очень «крутой» в течение месяца с момента запуска продукта vidu.

«конечная цель — сделать универсальную большую модель».

тан цзяюй — магистр лаборатории обработки естественного языка университета цинхуа. ранее он занимал должности вице-президента ruilai intelligence и старшего менеджера по продуктам лаборатории tencent youtu. shengshu technology, где в настоящее время работает тан цзяюй, была основана в марте 2023 года и объявила о завершении нового раунда финансирования в начале марта этого года. в конце апреля этого года миру была представлена оригинальная крупномасштабная видеомодель vidu, совместно разработанная компанией и университетом цинхуа. она была официально представлена в конце июля и полностью открыта для использования.

когда виду вышел, его называли «китайской версией соры». с одной стороны, это название связано с тем, что внешний мир полон ожиданий от большой видеомодели китая. с другой стороны, с точки зрения технической архитектуры, у них схожие подходы и схожие цели.

по имеющимся данным, нижний уровень vidu основан на архитектуре u-vit собственной разработки, а sora — на архитектуре dit. что касается разницы между архитектурами u-vit и dit, тан цзяюй сказал: «в двух словах, они почти одинаковы». разница в том, что архитектура u-vit «сделала более ориентированные на реализацию проекты оптимизации». подводя итог, при обучении той же модели u-vit одновременно требует меньше вычислительной мощности.

с точки зрения общего технического маршрута, несколько основных отечественных видеомоделей в настоящее время следуют «маршруту, подобному sora». станут ли они более однородными в будущем?

в связи с этим тан цзяюй заявил, что в настоящее время все находятся в состоянии конвергенции базовой архитектуры, «однако однородность не означает, что все имеют одинаковый прогресс и возможности». на примере языковой модели он проанализировал, что все будут использовать архитектуру transformer, но с практической точки зрения openai по-прежнему явно впереди. это связано с тем, что на основе этой архитектуры еще много связей, требующих технических навыков и практики. опыт, помогающий решать трудности. это приводит к различиям в возможностях разных языковых моделей.

в настоящее время отрасль также изучает новые архитектурные пути, такие как объединение мультимодальной генерации и мультимодального понимания, но особенно хорошего решения до сих пор не существует.

«наша конечная цель — создать универсальную большую модель. генерация видео — это этап в середине мультимодальной генерации больших моделей», — тан цзяюй признался, что стремится разработать универсальную большую модель.

он также сказал: «это не значит, что мы делаем только одно (имеется в виду модель большого видео). помимо видео, у нас также есть возможность генерировать другие модальности».

«в настоящее время рынок b-стороны приносит больший доход»

сближение основополагающей логики технологий более или менее привело к схожим идеям развития рынка.

«бизнес-выборы у всех относительно схожи. даже такие компании, как sora и runway, активно осваивают голливуд или рекламное сотрудничество». двигаться вперед вместе, или «совместно расширять рынок».

взяв в качестве примера технологию shengshu, тан цзяюй делит бизнес-модель на два направления: первое — это модель подписки saas. у vidu есть некоторая бесплатная квота каждый месяц, но если есть дополнительные потребности или вы хотите использовать более расширенные возможности, вам придется заплатить. абонентская плата, и vidu продолжит расширять функции продукта для удовлетворения творческих потребностей пользователей; второй — режим вывода возможностей модели (maas). в настоящее время многим клиентам требуются возможности создания видео в качестве звена в рабочем процессе или для получения интересного игрового процесса. , эти клиенты надеются позвонить модели напрямую.

с точки зрения доходов, рынок b-конца на данном этапе получил больший доход. однако через месяц после запуска vidu кривая роста c-стороны также стала очень «крутой». «исходя из нашего текущего суждения, сторона b (спрос) является относительно ясной, прямой и стабильной, поэтому сторона b является для нас долгосрочным и ключевым направлением. мы также постоянно изучаем сторону c», — сказал тан сказал цзяюй.

в настоящее время отечественные модели и инструменты генерации видео сформировали «волну» и зарекомендовали себя хорошо, но тан цзяю считает: «нельзя сказать, что китай полностью взял на себя инициативу. ведущие отечественные и зарубежные игроки относятся к первому эшелону».

«видео ии достигло узла»

среди аудиторий крупных моделей видео большинство составляют специалисты по кино, телевидению и анимации, и их в основном считают «профессиональной аудиторией». итак, когда же для «обычных людей» ии-видео станет инструментом, которым они смогут управлять?

тан цзяюй привел в качестве примера фотографию: от эпохи пленочных камер до популяризации фотографии на мобильные телефоны — это процесс постоянного снижения порога творческого подхода. «видео с использованием искусственного интеллекта сейчас достигло переломного момента», — сказал тан цзяюй, — функция «справочник по теме», выпущенная компанией shengshu technology 11 сентября, — это попытка снизить порог для создателей или ускорить творческий процесс.

«технологии по-прежнему являются ключевым фактором. нынешнее поколение видео только изначально соответствует законам физики, и все еще существуют высокие потолки, которые необходимо преодолеть, такие как более сильные возможности моделей и совместное создание большего количества модальностей». представил, что «возможность «предметной ссылки» действительно значительно улучшена с точки зрения обеспечения согласованности, но есть еще много областей, которые нуждаются в дальнейшем улучшении. «например, если вы хотите превратить большую модель из продукта в изделие ручной работы, и это изделие ручной работы имеет сложные узоры и полые детали, уровень успеха текущего поколения все еще не высок перед лицом такой сложной структуры. генерация сцены включает в себя многие компоненты, такие как спортивная обувь, я надеюсь, что они смогут лучше работать в более сложных и динамичных сценах, которые требуют постоянного улучшения возможностей модели».

в этом процессе оригинальность и прорыв технологий должны идти рука об руку с хорошей коммерциализацией, поскольку коммерческие компании в конце концов не являются научно-исследовательскими учреждениями.

если взять в качестве примера продолжительность генерации видео, то увеличение продолжительности генерации требует улучшения способности модели абстрактно понимать мир и ее двунаправленных возможностей сжатия и усиления информации. в настоящее время vidu может создавать видеоролики продолжительностью до 32 секунд, и shengshu technology планирует увеличить его длительность. однако эта продолжительность не является той частью shengshu technology, которая в настоящее время сосредоточена на производстве.

«в реальном создании, грубо говоря, более 90% клипов имеют продолжительность в несколько секунд. поэтому с практической точки зрения мы пока не рассматриваем продолжительность как наш приоритет при выпуске, — подчеркнул тан цзяюй, — а с точки зрения перспективы». что касается возможностей модели, компания фактически продолжает совершенствоваться.

репортер |ли шаотин кэ ян

редактировать|дуань лианвендуо ду хэнфэн

корректура |ван юэлун

｜ежедневные экономические новости nbdnews оригинальная статья｜

перепечатка, выдержки, копирование и зеркалирование без разрешения запрещены.

ежедневные экономические новости

отчет/отзыв

новости

диалог с генеральным директором shengshu technology тан цзяюй: ai-видео достигло точки «популяризации», и увеличение продолжительности не является целью продуктизации

введение

моя контактная информация