Le mie informazioni di contatto
Posta[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];
Dall'emergere di GPT-4o nel 2024, le aziende del settore hanno investito ingenti risorse nella ricerca e nello sviluppo di modelli TTS di grandi dimensioni. Negli ultimi mesi sono sorti grandi modelli di sintesi vocale cinese, come chattts, seedtts, cosyvoice, ecc.
Sebbene l'attuale modello di sintesi vocale su larga scala abbia quasi lo stesso effetto delle persone reali in cinese mandarino, a fronte dei complicati dialetti cinesi, i modelli TTS su larga scala sono stati raramente coinvolti nella formazione di un modello di sintesi vocale cinese unificato su larga scala vari dialetti è un compito difficile.
Punti critici del settore e colli di bottiglia tecnici
Attualmente, la tecnologia del modello di sintesi vocale ha fatto progressi significativi nel campo del mandarino, ma il suo sviluppo nel campo dei dialetti è molto lento. La Cina ha dozzine di dialetti principali, ciascuno con caratteristiche fonetiche e strutture grammaticali uniche, il che rende estremamente complesso l’addestramento di un ampio modello TTS che copra vari dialetti.
La maggior parte dei grandi modelli TTS esistenti si concentrano sul mandarino e non possono soddisfare le diverse esigenze di sintesi vocale. Inoltre, la scarsità di corpora dialettali e la mancanza di dati di annotazione di alta qualità aumentano ulteriormente la difficoltà tecnica.
Innovazione tecnologica e scoperte di Giant Network AI Lab
Per risolvere i problemi di cui sopra, gli esperti di algoritmi e i linguisti del team Giant Network AI Lab hanno lavorato insieme per costruire un set di dati sul mandarino e sui dialetti che coprivano 20 dialetti e più di 200.000 ore basati sul sistema dialettale cinese. Con questo enorme set di dati, ci siamo formatiIl primo modello TTS su larga scala che supporta più dialetti mandarino: Bailing-TTS. Bailing-TTS non solo può generare discorsi in mandarino di alta qualità, ma anche generare una varietà di discorsi dialettali tra cui henanese, shanghainese, cantonese, ecc.
Fonte: https://arxiv.org/pdf/2408.00284
Pagina iniziale: https://giantailab.github.io/bailingtts_tech_report/index.html
Titolo dell'articolo: Bailing-TTS: sintesi del discorso dialettale cinese verso la rappresentazione spontanea di tipo umano
Il seguente link per l'ascolto audio: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d 46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd
Quello che segue è l'effetto di sintesi di Bailing-TTS nel dialetto dell'Henan:
Fammi ascoltare l'effetto della clonazione a campione zero in mandarino:
Per raggiungere questo obiettivo abbiamo adottato una serie di tecnologie innovative:
1.Specifiche del token dialettale unificato: Abbiamo unificato le specifiche dei token di vari dialetti e parzialmente sovrapposto i token del mandarino e di vari dialetti per utilizzare il mandarino per fornire funzionalità di pronuncia di base. Ciò ci consente di ottenere una sintesi vocale dialettale di alta qualità in condizioni di dati limitati.
2.Raffinata tecnologia di allineamento dei token: Proponiamo una raffinata tecnologia di allineamento token-wise basata sulla pre-formazione multimodale su larga scala.
3.Struttura gerarchica ibrida degli esperti: Progettiamo un'architettura esperta ibrida gerarchica per l'apprendimento di rappresentazioni unificate per più dialetti cinesi e rappresentazioni specifiche per ciascun dialetto.
4.Strategia di miglioramento dell'apprendimento con rinforzo gerarchico: Abbiamo proposto una strategia di apprendimento con rinforzo gerarchico per migliorare ulteriormente la capacità di espressione dialettale del modello TTS combinando strategie di formazione di base e strategie di formazione avanzate.
Dettagli di implementazione
Figura 1 Architettura complessiva di Bailing-TTS
1. Allineamento dei token perfezionato basato sulla pre-formazione multimodale su larga scala
Al fine di ottenere un allineamento raffinato dei token di testo e parlato, proponiamo un quadro di apprendimento pre-formazione multifase e multimodale.
Nella prima fase, utilizziamo una strategia di campionamento non supervisionato per eseguire un addestramento approssimativo su un set di dati su larga scala. Nella seconda fase, adottiamo una strategia di campionamento raffinata per condurre una formazione approfondita su set di dati dialettali di alta qualità. Questo metodo può catturare efficacemente la correlazione a grana fine tra testo e parlato e promuovere l'allineamento delle due modalità.
2. Basato sulla struttura di rete gerarchica del trasformatore esperto ibrido
Per addestrare un modello TTS unificato adatto a più dialetti cinesi, abbiamo progettato una struttura di rete di esperti ibrida gerarchica e una strategia di apprendimento di token multi-dialetto multistadio.
Innanzitutto, proponiamo un'architettura ibrida esperta progettata specificamente per apprendere rappresentazioni unificate per più dialetti cinesi e rappresentazioni specifiche per ciascun dialetto. Quindi, inseriamo token dialettali in diversi livelli del modello TTS attraverso un meccanismo di fusione basato sull'attenzione incrociata per migliorare le capacità di espressione multi-dialettale del modello.
3. Strategia di miglioramento dell'apprendimento con rinforzo gerarchico
Proponiamo una strategia di apprendimento con rinforzo gerarchico per migliorare ulteriormente la capacità di espressione dialettale del modello TTS combinando la formazione strategica di base e le strategie di formazione avanzata. La strategia di formazione di base supporta l'esplorazione di espressioni linguistiche dialettali di alta qualità, mentre la strategia di formazione avanzata rafforza su questa base le caratteristiche linguistiche dei diversi dialetti, ottenendo così una sintesi vocale di alta qualità in più dialetti.
Figura 2 Struttura del dialetto MoE
Risultati sperimentali
Bailing-TTS ha raggiunto un livello più vicino alle persone reali in termini di robustezza, qualità della generazione e naturalezza in mandarino e in più dialetti.
Tabella 1 Risultati del test di Bailing-TTS sul cinese mandarino e sui dialetti
Nella valutazione dello scenario applicativo reale, Baling-TTS ha ottenuto buoni risultati.
Tabella 2 Risultati del test di Bailing-TTS sulla messa a punto degli altoparlanti e sulla clonazione a campione zero su cinese mandarino e dialetti
Implementazione tecnologica e prospettive future
Attualmente, questo ampio modello TTS multidialettale è stato applicato in molteplici scenari pratici. Ad esempio, doppiare gli NPC nei giochi, doppiare i dialetti nella creazione di video, ecc. Attraverso questa tecnologia, i contenuti di giochi e video possono essere più vicini alla cultura regionale, migliorando il senso di immersione e di esperienza degli utenti.
In futuro, con l’ulteriore sviluppo di grandi modelli di interazione vocale end-to-end, questa tecnologia mostrerà un potenziale maggiore in aree come la protezione della cultura dialettale e l’interazione dialettale degli NPC AI nei giochi. Nello scenario di protezione dei dialetti, supportando l’interazione vocale in più dialetti, la prossima generazione potrà facilmente apprendere, ereditare e proteggere i dialetti cinesi, consentendo alla cultura dialettale cinese di avere una lunga storia. Nella scena del gioco, NPC intelligenti che possono parlare dialetti e interagire con la voce miglioreranno ulteriormente l'espressività dei contenuti del gioco.
Giant Network AI Lab continuerà a impegnarsi a promuovere l'innovazione e l'applicazione di questa tecnologia per offrire agli utenti un'esperienza di interazione vocale più intelligente e conveniente.
Presentazione della squadra
Fondato nel 2022, Giant AI Laboratory è un'applicazione tecnologica di intelligenza artificiale e un istituto di ricerca affiliato a Giant Network. Impegnato nel campo della generazione di contenuti AIGC (immagini/testo/audio/video/modello 3D, ecc.), realizzando una produzione e creazione completa di contenuti intelligenti e promuovendo l'innovazione del gioco. Allo stato attuale, il laboratorio ha costruito una pipeline di produzione industriale AI full-link all'interno di Giant. Allo stesso tempo, ha completato la registrazione del primo grande modello verticale (GiantGPT) nel settore dei giochi ed è il primo ad essere messo in commercio. applicazione.