новости

сора после взрыва дала осечку, и отечественная видеомодель взяла верх и опустила порог

2024-09-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

кажется, вчерашний отраслевой взрыв, вызванный запуском видеомодели sora винсента от openai, еще не был официально открыт для публики. напротив, в 2024 году будут интенсивно выпускаться масштабные отечественные видеомодели. хотя технология постоянно обновляется, большая часть готовой продукции по-прежнему требует ручного редактирования и синтеза на более позднем этапе, что влияет на скорость внедрения технологии на стороне приложения. .
на основании этого 11 сентября компания shengshu technology представила функциональное обновление — первую в мире функцию «согласованность предметов», которая позволяет последовательно генерировать любой объект, делая создание видео более стабильным и управляемым. так называемая «ссылка на предмет» позволяет пользователям загружать изображение любого предмета. ии может блокировать изображение предмета, произвольно переключать сцены с помощью дескрипторов и выводить видео с тем же предметом.
по словам тан цзяюй, генерального директора shengshu technology, короткие видеоролики, анимация, реклама и другие кино- и телевизионные работы требуют, чтобы система повествования имела «последовательные сюжеты, последовательные сцены и последовательные стили» в искусстве повествования. добиться целостности повествования. необходимо добиться всестороннего контроля над этими ключевыми элементами.
создавайте 32-секундное видео одним щелчком мыши
в последний раз shengshu technology делала публичное заявление в апреле этого года, профессор чжу цзюнь, заместитель декана института искусственного интеллекта университета цинхуа, соучредитель и главный научный сотрудник shengshu technology, опубликовал давний и весьма последовательный доклад. и высокодинамическую видеомодель под названием vidu, вы можете создавать видеоролики продолжительностью до 16 секунд одним щелчком мыши. благодаря этому техническому обновлению видео vidu может создаваться продолжительностью до 32 секунд.
в 2024 году весь трек больших моделей постепенно успокоится после безумия предыдущего года, и большие видеомодели рассматриваются как единственный способ перейти к мультимодальным большим моделям или agi. компании, занимающиеся созданием короткометражных видеороликов, представленные kuaishou и byte's douyin, крупные интернет-компании, представленные alibaba и tencent, а также стартапы, представленные shengshu technology, zhipu ai, aishi technology и т. д., последовательно выпустили основные модели видеоконтента.
по статистике debon securities, с момента выпуска sora более десятка компаний в стране и за рубежом выпустили или обновили модели генерации видео. объективно говоря, разрыв между отечественными и зарубежными странами постепенно сокращается. базовые функции, такие как продолжительность и разрешение видео, могут быть воспроизведены. в будущем конкуренция может сместиться в сторону привлечения пользователей и улучшения прилипчивости. с субъективной точки зрения, в debon securities считают, что качество видео, генерируемого большими моделями, значительно улучшилось, но до симулятора физического мира ему все еще далеко. видеоизображения в видеополе винсента в целом четкие, но существуют большие различия в диапазоне движений и физическом восстановлении. это также одно из соображений при обновлении этой функции.
тан цзяю сказал, что текущее время генерации vidu, составляющее 32 секунды, генерируется сквозным образом одним щелчком мыши, а не генерируется путем сращивания и вставки кадров. разница в том, что модель обладает более сильной способностью сжимать долгосрочную информацию, включая представление информации, что на самом деле более тесно связано с пониманием физического мира и взаимосвязью между семантическими входными данными. следовательно, увеличение продолжительности требует улучшения возможностей абстрактного понимания, сжатия и понимания мира модели, включая возможности ее генерации.
художник aigc ши юйсян, создавший короткометражный анимационный фильм «летний подарок», считает, что индустрия в настоящее время относительно терпима к видеороликам с искусственным интеллектом, и детали, которые можно улучшить, включают обработку сложных линз, обработку многосимвольных линз и некоторые другие детали. сцены с мизансценой. имеется обработка сцен, мизансцен и т.п. по сравнению с базовой функцией создания видеоизображения функция «тематическая ссылка» избавляет от ограничений статических изображений, повышает согласованность создания и экономит почти 70% рабочей нагрузки по созданию изображений.
ли нин, основатель light chi matrix и молодой режиссер, использовал виду для предварительного создания видеоклипа с главным героем-мужчиной в фильме, в котором все сцены персонажей были созданы с использованием только трех финальных фотографий главного героя-мужчины с макияжем. вверх, средний план и дальний план. ли нин сказал, что в предыдущем процессе создания фильмов с использованием искусственного интеллекта в основном использовались традиционные процессы рисования текста и видео. было сложно контролировать непрерывность раскадровки. было трудно поддерживать единообразие общей формы персонажей. требовалось много энергии для отладки изображения на ранней стадии. в то же время изображение также подвержено ряду проблем, таких как неконтролируемый свет и тень объектива, размытие изображения и даже деформация длины. видео увеличивается, эти проблемы еще больше усиливаются. функция vidu «справочник по теме» значительно улучшает общую согласованность персонажей. она больше не требует создания большого количества изображений на ранней стадии. движения персонажей и переходы изображений также становятся более естественными, что может помочь в создании длинных повествований.
по сути, обновление функции «предметная ссылка» призвано повысить качество генерации больших видеомоделей, эффективность объединения технологий с конкретными отраслями, а также ускорить внедрение ии в конкретных приложениях. в настоящее время shengshu technology запустила партнерскую программу и приглашает присоединиться к ней организации из сферы рекламы, кино и телевидения, анимации, игр и других организаций.
текущая бизнес-модель видеомодели shengshu technology разделена на модель подписки saas и интерфейс api. это также коммерческий метод тестирования, обычно используемый в области больших моделей. что касается конкретного соотношения распределения между b-концом и c-концом, тан цзяю сказал, что с точки зрения дохода доход от рынка b-конца выше. спустя месяц с момента запуска продуктов c-конца кривая роста оказалась очень высокой. после всестороннего суждения сторона b является относительно ясной и прямой и содержит относительно стабильный спрос, поэтому сторона b будет в центре внимания компании в долгосрочной перспективе. однако продукты c-конца все еще находятся в процессе постоянных исследований.
когда генеральный директор zhipu чжан пэн ранее выпустил zhipu qingying (ying), он говорил об исследовании коммерциализации в отрасли. он сказал, что на данном этапе, будь то toc или tob, еще относительно рано переходить исключительно к крупномасштабным проектам. коммерциализация. так называемая стратегия взимания платы — это скорее ранняя попытка. мы также будем наблюдать за отзывами рынка и пользователей и вносить своевременные корректировки.
что будет с видео-макетами дальше?
помимо обновлений и обновлений на конкретном функциональном уровне, в настоящее время в отрасли существует общее мнение, что мультимодальность — это общий тренд, а большие видеомодели — это поэтапное состояние.
в связи с этим чжан пэн сказал, что создание видео не существует изолированно, а включено в весь маршрут разработки технологий и продуктов. чжипу считает, что это звено на мультимодальном пути или мультимодальном пути agi. с точки зрения продукта, создание видео также станет независимым продуктом для достижения коммерциализации и создания ценности. тан цзяюй также сообщил журналистам, что нижний уровень shengshu представляет собой общую большую модель, а генерация видео — лишь промежуточный этап.
не вызовет ли интенсивный выпуск множества видеомоделей в процессе перехода к мультимодальности проблемы с однородностью? в связи с этим тан цзяюй сообщил журналистам, что на техническом маршруте количество студентов сейчас находится в состоянии сближения, однако однородность не означает, что весь прогресс и возможности одинаковы. например, все текущие языковые модели будут использовать архитектуру transformer, но на самом деле openai по-прежнему явно впереди. потому что в зависимости от архитектуры все еще есть много звеньев посередине, например, как эффективно масштабировать, как эффективно сжимать видео и т. д., а также есть много навыков и практического опыта. навыки работы с алгоритмами и трудности с алгоритмами, включая трудности с разработкой алгоритмов, — все это факторы, которые приводят к различиям в современных больших видеомоделях.
что касается коммерциализации, тан цзяюй считает, что отрасли относительно схожи с точки зрения выбора бизнеса. даже такие компании, как sora и runway, активно осваивают голливуд или участвуют в рекламном сотрудничестве, поскольку эти области являются областями, где технологии, естественно, легко внедрить. вся отрасль использует свои собственные особенности для продвижения вперед. в целом сфера видео, генерируемая искусственным интеллектом, все еще находится на ранних стадиях развития, и ведущие международные игроки вместе продвигаются вперед, чтобы расширить рынок.
что касается ситуации с интенсивным выпуском видеомоделей, чжан пэн считает, что управляемость — это то, для достижения чего отрасли необходимо приложить большие усилия. с одной стороны, на техническом уровне очень большое требование — управляемость самого видео. во-вторых, с точки зрения безопасности, поскольку видеосигнал содержит больше контента и деталей, необходимо обеспечить соответствие сгенерированного контента требованиям, наконец, для того, чтобы сгенерированный контент был коммерчески применимым, необходимым условием также является управляемость – и то, и другое; необходимо точно выразить замысел создателя и позволить всем за это заплатить.
после того, как базовые условия будут выполнены, текущие ожидания отрасли в отношении больших видеомоделей с момента запуска sora будут больше сосредоточены на искусственном интеллекте, заменяющем методы длительной видеосъемки. чжан пэн считает, что с точки зрения технологического развития это важное направление и имеет положительное значение для изменений в кино- и телеиндустрии. но в настоящее время больших видеомоделей недостаточно для непосредственного использования в процессе производства для зрителей, но их можно использовать для вспомогательной работы, даже в мелкомасштабных творениях, и до того, как по-настоящему изменить высокие требования, еще предстоит пройти путь. например, кинопроизводство.
что касается sora, которая достигла кульминации во время своего дебюта и еще не была представлена ​​публике, индустрия по-прежнему рассматривает ее как цель догоняющего развития. однако из-за непрозрачности технических деталей компаниям приходится изучать многие аспекты самостоятельно. . что касается «исчезновения соры», тан цзяюй сообщил журналистам, что причины могут быть в нескольких аспектах: видео не является текущим основным направлением openai, некоторые проблемы с авторскими правами на данные не решены, другие проблемы возникли в процессе генерации, которые требуют определенной суммы; времени и затрат на решение. не соответствует приоритетам компании.
чжан пэн и чжипу всегда объективно сталкивались с разрывом между собой и высшим мировым уровнем. в то же время он считает, что по этому пути нужно идти самостоятельно. во многих случаях китайские компании также догоняют себя по-своему. как снизить затраты вычислительной мощности для видео. снизьте его и увеличьте скорость отклика, чтобы каждый мог его использовать. «хотя мы стремимся к технологическим высотам, мы одновременно стремимся к популяризации технологий», — сказал чжан пэн.
(эта статья взята из china business news)
отчет/отзыв