новости

minimax провела свою первую конференцию partner day и представила модели генерации видео и музыки

2024-09-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

01:55
31 августа в ходе живого выступления, сочетающего в себе технологии и музыку, стартовала первая конференция разработчиков компании-единорога искусственного интеллекта minimax shanghai xiyu technology co., ltd. (далее minimax) — «партнерский день minimaxlink». в тот же день minimax официально выпустила видеомодель-видео-01 и музыкальную модель-музыку-01.
мультимодальные модели стали вопросом, на который необходимо ответить для крупных модельных компаний, среди которых наиболее очевидной является инволюция видеомоделей. многие компании, занимающиеся искусственным интеллектом, ранее выпустили видеоролики с большими моделями, в том числе модель генерации видео «qingying», запущенную zhipu ai, ai pixverse v2. от shi technology, vidu от shengshu technology, «keling ai» от kuaishou и т. д.
01:55
разработка мультимодальных моделей — это только начало
понятно, что видео-01, выпущенное minimax на этот раз, ориентировано на создание собственных видеороликов с высоким разрешением и высокой частотой кадров. ввод подсказки может создать пятисекундное видео. пользователи могут войти на официальный сайт minimax, чтобы. испытать продукт.
minimax официально выпускает видеомодель — видео-01
оценив видеомодель video-01, дизайнер продукта сказал: «общий эффект очень хороший, с правильной физикой, хорошим динамическим диапазоном и стабильностью, а реакция на концепции научной фантастики и фэнтези относительно точна, но ощущение пластика тяжелый. эстетические характеристики относительно плохие, качество изображения и его детализация плохие».
в связи с этим основатель и генеральный директор minimax ян цзюньцзе заявил, что в настоящее время демонстрируется только первая версия продукта, а обновленные версии будут постепенно выпускаться в будущем.
по этой причине видеомодель будет предоставляться пользователям бесплатно в течение определенного периода времени. коммерциализация не будет рассматриваться до тех пор, пока продукт не будет обновлен до удовлетворительного состояния. «будущая коммерциализация в основном разделена на две формы. одна основана на открытой платформе компании и накоплении более 2000 клиентов-партнеров. многие известные пользователи компании также готовы использовать возможности распознавания голоса. в продукты внедрены собственные возможности распознавания. рекламные механизмы».
согласно сообщениям, текущие матричные продукты мультимодальной модели minimax также включают в себя музыку-01, многофункциональную сквозную модель генерации музыки, речь-01, новое поколение модели генеративного синтеза речи и т. д. «это только начало. мы продолжим совершенствовать скорость и эффект модели, а также выпускать соответствующие продукты», — сказал ян цзюньцзе.
ключ к улучшению производительности модели
«как технологическая компания, технология всегда является ключевым элементом», - ян цзюньцзе сказал, что на данном этапе внимание minimax не сосредоточено на коммерциализации.
ян цзюньцзе сказал, что модель minimax в настоящее время обрабатывает более 3 миллиардов взаимодействий с клиентами. год назад время взаимодействия minimax составляло всего 3% от chatgpt, сейчас эта доля выросла до 53%, но даже в этом случае подключенные пользователи не достигли 1% мирового населения, а только 0,8%; для роста с 1% до 100% самое главное — повысить уровень проникновения и глубину использования продуктов ии среди пользователей.
данные о взаимодействии с пользователем minimax
существует множество технических трудностей, которые необходимо преодолеть. среди них три наиболее важных направления оптимизации: как постоянно снижать частоту ошибок модели, бесконечный ввод и вывод и мультимодальность. «нетрудно убедиться из жизни, что текстовое взаимодействие — это лишь малая часть, а большую часть составляет голосовое и видеовзаимодействие. мультимодальный контент, такой как звук, графика, текст и видео, стал основным направлением передачи информации. чтобы улучшить скорость проникновения, мультимодальность - единственный путь». ян цзюньцзе сказал, что для преодоления этих трудностей «скорость» является основной целью технологических исследований и разработок базовой большой модели minimax. «среди двух моделей с одинаковой производительностью та, у которой более быстрое обучение и вывод, может более эффективно использовать вычислительные ресурсы для обработки большего количества данных, тем самым имея лучшие возможности модели».
согласно сообщениям, в прошлом minimax претерпела два ключевых основных технологических изменения, включая moe (смешанная экспертная архитектура) и linear attention (линейное внимание). в апреле этого года компания разработала модель нового поколения на базе moe+ linear attention, которая считается сопоставимой с уровнем gpt-4o. при обработке 100 000 токенов эффективность обработки новой модели может быть повышена до 2-3 раз, а по мере увеличения длины эффективность модели возрастает более явно.
понятно, что текстовые модели серии abab7, использующие технологии нового поколения, будут официально выпущены в ближайшие несколько недель.
публичные отчеты показывают, что minimax, основанная в декабре 2021 года, ранее завершила три раунда финансирования. в число инвесторов входят tencent, mihoyo и т. д., а ее текущая оценка превысила 2,5 миллиарда долларов сша.
репортер the paper юй янь и стажер ван чун
(эта статья взята из the paper. для получения более оригинальной информации загрузите приложение «the paper»).
отчет/отзыв