un grand modèle audio dévoilé lors de la conférence yunqi 2024

2024-09-22

le 19 septembre, la conférence yunqi 2024 s'est ouverte dans la ville de yunqi, à hangzhou, sur le thème « le saut intelligent de yunqi, la transformation du papillon industriel ». le grand modèle audio multimodal himalayan everest ai a été dévoilé dans le pavillon thématique « intelligence artificielle + », attirant de nombreux citoyens.

à la fin de l'année dernière, ximalaya avait accumulé 488 millions de morceaux audio dans 459 catégories, avec une durée totale de contenu de plus de 3,6 milliards de minutes. le contenu audio en ligne massif et diversifié lui permet de faire évoluer continuellement ses capacités d’ia. au début de sa création, la plateforme a toujours attaché une grande importance au déploiement de l’ia. le « grand modèle multimodal everest ai audio » dévoilé cette fois est son grand modèle de génération audio ai développé indépendamment. il s'appuie sur plus d'un million d'heures de données audio exclusives protégées par le droit d'auteur pour un apprentissage et une formation approfondis, et a une sortie émotionnelle. expression naturelle, il possède des capacités techniques telles que la traduction linguistique et le clonage extrêmement rapide, et a réalisé des percées multidimensionnelles dans le domaine de la génération audio, qui est largement utilisée dans les livres audio et d'autres domaines.

dans la « zone d'expérience interactive de la plate-forme d'intelligence numérique everest ai », les participants peuvent découvrir les changements apportés par l'ia à la création sonore, tels que : une expérience extrêmement rapide de 535 bibliothèques de sons ia dans tous les domaines et de plusieurs catégories pour générer du contenu audio aigc dans toutes les catégories. , 15 secondes personnalisez rapidement des images d'homo sapiens réels, clonez des voix en 10 secondes, etc., et découvrez comment l'ia donne du pouvoir aux créateurs de contenu de manière efficace et pratique.

les données montrent qu'en 2023, le nombre mensuel moyen d'utilisateurs actifs de ximalaya dans tous les scénarios atteindra 303 millions. en décembre de l'année dernière, le contenu aigc de la plateforme atteignait 240 millions de minutes, soit 6,6 % de son contenu audio. dans le même temps, le taux de pénétration de l'aigc parmi les utilisateurs actifs mensuels moyens sur le terminal mobile a atteint 14,8%. le grand modèle audio ximalaya présente les avantages d'un « écosystème de modèle de production intégré et d'un volant écologique en constante évolution ». il a été largement utilisé dans la création de contenu, les avatars d'intelligence numérique, l'interaction vocale et d'autres scénarios, et a été commercialisé. à l’avenir, nous ouvrirons davantage l’imagination sonore et continuerons à utiliser le son au service d’une vie meilleure.

auteur : fu xinxin

texte : fu xinxin images : fournies par la personne interrogée editeur : shen zhushi editeur : fan bing

veuillez indiquer la source lors de la réimpression de cet article.

rapport/commentaires

nouvelles

un grand modèle audio dévoilé lors de la conférence yunqi 2024

introduction

mes coordonnées