minimax a tenu sa première conférence partner day et a publié des modèles de génération de vidéo et de musique

2024-09-01

01:55

le 31 août, lors d'une émission en direct combinant technologie et musique, la première conférence des développeurs de la société licorne ia minimax shanghai xiyu technology co., ltd. (ci-après dénommée minimax) - « minimaxlink partner day » a débuté. le même jour, minimax a officiellement publié le modèle vidéo-video-01 et le modèle musical music-01.

les modèles multimodaux sont devenus une question incontournable pour les grandes entreprises de modèles, parmi lesquelles l'involution des modèles vidéo est la plus évidente. de nombreuses entreprises d'ia ont déjà publié des vidéos de grands modèles, notamment le modèle de génération vidéo « qingying » lancé par zhipu ai et ai pixverse. v2 de shi technology, vidu de shengshu technology, « keling ai » de kuaishou, etc.

01:55

la mise en place de modèles multimodaux n’est qu’un début

il est entendu que la vidéo-01 publiée par minimax se concentre cette fois sur la génération de vidéos natives haute résolution et à haute fréquence d'images. la saisie d'un mot d'invite peut générer une vidéo de cinq secondes. les utilisateurs peuvent se connecter au site officiel de minimax pour. découvrez le produit.

minimax publie officiellement le modèle vidéo—video-01

après avoir évalué le modèle vidéo vidéo-01, un concepteur de produit a déclaré : « l'effet global est très bon, avec une physique correcte, une bonne plage dynamique et une bonne stabilité, et la réponse aux concepts de science-fiction et de fantasy est relativement précise, mais la sensation plastique est lourd. les performances esthétiques sont relativement médiocres, la qualité de l'image et les détails de l'image sont médiocres.

à cet égard, le fondateur et pdg de minimax, yan junjie, a déclaré que ce qui est actuellement exposé n'est que la première version du produit et que des versions mises à jour seront progressivement lancées à l'avenir.

pour cette raison, le modèle vidéo sera fourni gratuitement aux utilisateurs pendant une période de temps. la commercialisation ne sera envisagée que lorsque le produit sera mis à jour dans un état satisfaisant. "la commercialisation future est principalement divisée en deux formes. l'une est basée sur la plate-forme ouverte de l'entreprise et les plus de 2 000 clients partenaires accumulés par l'entreprise sont également disposés à utiliser les capacités de reconnaissance vocale. des capacités de reconnaissance à elles seules. des mécanismes publicitaires ont été introduits dans les produits.

selon les rapports, les produits matriciels de modèles multimodaux actuels de minimax incluent également music-01, un grand modèle multifonctionnel de génération de musique de bout en bout, speech-01, une nouvelle génération de grand modèle de synthèse vocale générative, etc. "ce n'est que le début. nous continuerons à améliorer la vitesse et l'effet du modèle, et à lancer davantage de produits correspondants."

la clé pour améliorer les performances du modèle

"en tant qu'entreprise technologique, la technologie est toujours l'élément central." yan junjie a déclaré qu'à ce stade, minimax ne se concentre pas sur la commercialisation.

yan junjie a déclaré que le modèle de minimax gère actuellement plus de 3 milliards d'interactions clients. il y a un an, le temps d'interaction minimax ne représentait que 3 % de chatgpt ; aujourd'hui, cette proportion est passée à 53 % mais malgré cela, les utilisateurs connectés n'ont pas atteint 1 % de la population mondiale, seulement 0,8 % ; pour passer de 1 % à 100 %, le plus important est d’augmenter le taux de pénétration et la profondeur d’utilisation des produits d’ia parmi les utilisateurs.

données d'interaction utilisateur minimax

de nombreuses difficultés techniques doivent être surmontées, parmi lesquelles les trois directions d'optimisation les plus importantes sont : comment réduire continuellement le taux d'erreur du modèle, les entrées et sorties infinies et la multimodalité. "il n'est pas difficile de constater dans la vie que l'interaction textuelle ne représente qu'une petite partie, et que l'interaction vocale et vidéo est plus importante. le contenu multimodal, tel que le son, les graphiques, le texte et la vidéo, est devenu le courant dominant de la transmission de l'information. afin d'améliorer la pénétration, la vitesse et la multimodalité sont la seule voie à suivre. » yan junjie a déclaré que pour surmonter ces difficultés, la « vitesse » est l'objectif principal de recherche et de développement technologique du grand modèle sous-jacent de minimax. "parmi deux modèles aux performances similaires, celui avec une formation et une inférence plus rapides peut utiliser plus efficacement les ressources informatiques pour itérer plus de données, offrant ainsi une meilleure capacité de modèle."

selon les rapports, minimax a connu deux changements technologiques sous-jacents clés dans le passé, notamment moe (mixed expert architecture) et linear attention (linear attention). en avril de cette année, la société a développé un modèle de nouvelle génération basé sur moe+ linear attention, considéré comme comparable au niveau de gpt-4o. lors du traitement de 100 000 jetons, l'efficacité de traitement du nouveau modèle peut être améliorée jusqu'à 2 à 3 fois, et à mesure que la longueur augmente, l'efficacité du modèle augmente de manière plus évidente.

il est entendu que les modèles de texte de la série abab7 utilisant la technologie de nouvelle génération seront officiellement publiés dans les prochaines semaines.

des rapports publics montrent que minimax, fondée en décembre 2021, a déjà réalisé trois tours de financement parmi lesquels tencent, mihoyo, etc., et sa valorisation actuelle a dépassé 2,5 milliards de dollars.

le journaliste du paper yu yan et le stagiaire wang chun

(cet article provient de the paper. pour plus d'informations originales, veuillez télécharger l'application « the paper »)

rapport/commentaires

nouvelles

minimax a tenu sa première conférence partner day et a publié des modèles de génération de vidéo et de musique

introduction

mes coordonnées