Le mie informazioni di contatto
Posta[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Con il lancio di modelli di grandi dimensioni e la pressione del pulsante dell'acceleratore, i diagrammi vincenziani sono senza dubbio una delle direzioni applicative più calde.
Dalla nascita di Stable Diffusion, c'è stato un flusso infinito di grandi modelli di figure vincenziane in patria e all'estero, e per un po' ci è sembrato di "combattere tra dei". In pochi mesi il titolo di "The Strongest AI Artist" è passato di mano più volte. Ogni iterazione tecnologica continua a spingere il limite superiore della qualità e della velocità di generazione delle immagini AI.
Quindi ora possiamo ottenere qualsiasi immagine desideriamo inserendo poche parole. Che si tratti di un poster commerciale di livello professionale o di una foto iperrealistica, la fedeltà della mappatura AI ci ha stupito. L’intelligenza artificiale ha persino vinto il Sony World Photography Award 2023. Prima che fosse annunciato il primo premio, questa "foto" era stata esposta alla Somerset House di Londra: se l'autore non l'avesse resa pubblica, nessuno avrebbe potuto scoprire che la foto è stata effettivamente creata da AI.
Eldagse e il suo lavoro generato dall'intelligenza artificiale "Elettricista"
Come rendere più belle le immagini disegnate dall'intelligenza artificiale non può essere separato dagli sforzi persistenti dei tecnici dell'intelligenza artificiale.Il sesto numero di "AIGC Experience School" ha invitato l'esperto tecnico di Doubao Vincent Chart Li Liang e l'architetto di soluzioni NVIDIA Zhao Yijia a fornirci un'analisi approfondita della tecnologia alla base del modello Vincent Chart per produrre immagini più belle, più veloci, e comprendere meglio la mente dell'utente.
All'inizio della trasmissione in diretta, Li Liang ha prima analizzato in dettaglio l'aggiornamento tecnico del modello del diagramma Vincent del recente modello di grandi dimensioni domestico "di alto livello": il modello di grandi dimensioni ByteDance Doubao.
Li Liang ha affermato che i problemi che il team di Doubao vuole risolvere includono principalmente tre aspetti: in primo luogo, come ottenere una corrispondenza più forte di immagini e testo per soddisfare l'idea progettuale dell'utente, in secondo luogo, come generare immagini più belle per fornire agli utenti un'esperienza migliore; il terzo è come produrre grafici più rapidamente per soddisfare richieste di servizio su larga scala.
In termini di corrispondenza di immagini e testo, il team di Doubao ha iniziato con i dati, ha perfezionato e filtrato gli enormi dati di immagini e testo e infine ha archiviato centinaia di miliardi di immagini di alta qualità nel database. Inoltre, il team ha anche addestrato appositamente un modello linguistico multimodale di grandi dimensioni per l'attività di ricapitolazione. Questo modello descriverà in modo più completo e oggettivo le relazioni fisiche delle immagini nelle immagini.
Dopo aver ottenuto dati di testo e immagini di alta qualità e altamente dettagliati, se si desidera sfruttare meglio la forza del modello, è necessario migliorare la capacità del modulo di comprensione del testo. Il team utilizza un modello linguistico bilingue nativo come codificatore di testo, che migliora significativamente la capacità del modello di comprendere il cinese. Pertanto, a fronte di elementi nazionali come la "Dinastia Tang" e il "Festival delle Lanterne", i modelli dei diagrammi di Doubao e Vincent. mostrano anche una comprensione più profonda.
Per l'architettura del modello Diffsuion, il team di Doubao ha anche inserito segreti unici. Hanno utilizzato UNet per un ridimensionamento efficace. Aumentando il numero di parametri, il modello grafico Doubao-Vensen ha ulteriormente migliorato la comprensione delle coppie immagine-testo e le capacità di generazione ad alta fedeltà. .
Per lo stile estetico più evidente che gli utenti percepiscono intuitivamente, il team Doubao ha introdotto una guida estetica professionale e presta sempre attenzione alle preferenze estetiche degli utenti e del pubblico. Allo stesso tempo, il team ha lavorato duramente anche sui dati e sull’architettura del modello. Molte volte, il confronto tra le immagini ricevute dall'utente e la visualizzazione demo è come uno "spettacolo dell'acquirente" e uno "spettacolo del venditore". In effetti, la richiesta fornita non è sufficientemente dettagliata e chiara per il modello e il diagramma di Doubao Vincent il modello introduce un "Riformulatore", mentre segue l'intenzione originale dell'utente, aggiunge descrizioni più dettagliate alle parole richieste, in modo che tutti gli utenti sperimenteranno un effetto di generazione più perfetto.
Per fare in modo che il modello produca immagini più velocemente e consumi meno denaro per immagine, il team di Doubao ha anche fornito nuove idee per la risoluzione dei problemi nel metodo di distillazione del modello. Un risultato rappresentativo è Hyber-SD, che è un nuovo modello di distillazione di diffusione framework che mantiene prestazioni quasi senza perdite comprimendo il numero di passaggi di denoising.
Successivamente, Zhao Yijia, Solution Architect di NVIDIA, è partito dalla tecnologia di base e ha spiegato le due architetture di modelli SD e DIT più diffuse basate su Unet di Vincent Graph e le loro caratteristiche corrispondenti, e ha introdotto gli strumenti Tensorrt, Tensorrt-LLM, Triton e How di NVIDIA come Nemo Megatron fornisce supporto per la distribuzione dei modelli e aiuta i modelli di grandi dimensioni a ragionare in modo più efficiente.
Zhao Yijia ha innanzitutto condiviso una spiegazione dettagliata dei principi del modello alla base di Stable Diffusion e ha elaborato i principi di funzionamento di componenti chiave come Clip, VAE e Unet. Quando Sora divenne popolare, lo divenne anche grazie all'architettura DiT (Diffusion Transformer) dietro di esso. Zhao Yijia ha inoltre effettuato un confronto completo dei vantaggi di SD e DiT sotto tre aspetti: struttura del modello, caratteristiche e consumo di potenza di calcolo.
Quando si utilizza la diffusione stabile per generare immagini, spesso si ha la sensazione che il contenuto delle parole richieste sia presentato nei risultati generati, ma l'immagine non è quella desiderata. Questo perché la diffusione stabile basata sul rendering del testo non è efficace nel controllo dei dettagli dell'immagine, come composizione, movimenti, caratteristiche del viso, relazioni spaziali, ecc. Pertanto, basandosi sul principio di funzionamento della diffusione stabile, i ricercatori hanno progettato molti moduli di controllo per compensare le carenze della diffusione stabile. Zhao Yijia ha aggiunto l'adattatore IP rappresentativo e ControlNet.
Per accelerare l'inferenza del modello a grafo vincenziano ad alta intensità computazionale, il supporto tecnico di NVIDIA gioca un ruolo chiave. Zhao Yijia ha introdotto gli strumenti Nvidia TensorRT e TensorRT-LLM, che ottimizzano il processo di inferenza dei modelli di generazione di immagini e testo attraverso convoluzione ad alte prestazioni, pianificazione efficiente e tecnologie di distribuzione distribuita. Allo stesso tempo, Ada, Hopper di NVIDIA e l'imminente architettura hardware BlackWell supportano già l'addestramento e l'inferenza dell'8° PQ, che offriranno un'esperienza più fluida all'addestramento dei modelli.
Dopo sei meravigliose trasmissioni dal vivo, l'"AIGC Experience Party" lanciato congiuntamente da Volcano Engine, NVIDIA e CMO CLUB si è concluso con successo. Attraverso questi sei programmi, credo che tutti abbiano una comprensione più profonda di come l'AIGC passa da "interessante" a "utile". Ci auguriamo inoltre che la "AIGC Experience School" non solo rimanga nella discussione del programma, ma acceleri anche nella pratica il processo di aggiornamento intelligente nel campo del marketing.
Indirizzo di revisione di tutti e sei i numeri di "AIGC Experience School":https://vtizr.xetlk.com/s/7CjTy