notizia

il primo modello cinese di generazione audio su larga scala ha superato la domanda

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, 20 settembre, di recente, la shanghai cyberspace administration of china ha pubblicato l'ultimo elenco di elenchi di approvazione della registrazione di modelli generativi di grandi dimensioni di shanghai. al modello di grandi dimensioni audio dell'himalaya si sono aggiunti modelli di testo come mihoyo e dream island the di china literature il modello ha superato congiuntamente il processo di registrazione ed è diventato il primo modello di generazione audio su larga scala nel paese a ricevere servizi di intelligenza artificiale generativa dall'amministrazione del cyberspazio cinese.

il modello audio himalayano è il primo modello di generazione audio di quarta generazione al mondo con interpretazione multi-emotiva ed espressione soprannaturale.questo modello guiderà l’evoluzione dell’aigc nell’intero settore audio dal modello di generazione audio di terza generazione al modello di grandi dimensioni di generazione audio di quarta generazione.

il modello audio himalayano è un framework llm basato sulla modellazione congiunta di testo e audio autosviluppata dal team everest ai. realizza formazione di modellazione congiunta di audio e testo con la stessa rappresentazione vettoriale spaziale.questo metodo di modellazione congiunta dota pienamente il compito di generazione audio di potenti informazioni semantiche e sfrutta appieno le connessioni intrinseche e le informazioni complementari tra di loro., migliorando notevolmente le prestazioni e le capacità di generalizzazione del modello. questa è anche la svolta tecnologica fondamentale affinché la quarta generazione di modelli audio di grandi dimensioni superi la generazione precedente.

durante il processo di addestramento, himalayan everest ai preelabora rispettivamente i dati audio e i dati di testo, li converte in forme token adatte per l'input del modello e mappa i token audio e i token di testo nella stessa rappresentazione vettoriale spaziale in modo che il modello possa comprendere ed elaborare meglio i dati. rapporto tra audio e testo. il processo di formazione complessivo comprende diversi processi principali: pre-formazione (pretraining), messa a punto supervisionata (sft), messa a punto supervisionata del dominio (domain sft), messa a punto supervisionata del relatore (speaker sft) e apprendimento per rinforzo (rl). attraverso la formazione di questi processi, ilil modello ha le seguenti caratteristiche: (1) capacità di clonazione del tono 15s e capacità di conversione del suono. (2) generazione vocale iperantropomorfa, multi-emotiva e allineata alle preferenze umane. (3) stile altamente controllabile e abilità paralinguistiche.

il team di ricerca e sviluppo ai dell'himalayan everest ha valutato il modello addestrato e ha scoperto che nel contesto di contenuti audio lunghi come gli audioromanzi, la controllabilità dello stile di interpretazione dei personaggi, la stabilità delle prestazioni dei fonemi e la naturalezza del flusso del parlato e delle pause ritmiche erano significativamente superiore il modello di generazione audio di terza generazione in patria e all'estero.

il grande modello audio dell'himalaya implementa il paradigma della "combinazione di produzione e modello", combinando il settore con il modello per formare un ciclo di feedback positivo di business, dati e algoritmi. è ampiamente utilizzato in scenari aziendali come gli audiolibri aigc e l'interazione conversazionale in chat. ad esempio, l'audiolibro recentemente popolare "my altay" è stato generato dal modello audio di grandi dimensioni dell'himalaya. himalaya everest ai ha dichiarato che la funzionalità audio del modello di grandi dimensioni può essere sperimentata direttamente sul sito web ufficiale di everest ai e gli utenti possono creare direttamente i propri contenuti audio.