nvidia lancia il nuovo modello di parlato visivo nveagle, che può chattare mentre guarda immagini

nvidia lancia il nuovo modello di parlato visivo nveagle, che può chattare guardando le immagini

2024-09-02

pinwan ha riferito il 2 settembre che, secondo le notizie ufficiali di nvidia, nvidia ha collaborato con i team di ricerca di georgia tech, umd e hkpu per lanciare un nuovo modello di linguaggio visivo: nveagle.

è stato riferito che nveagle è in grado di comprendere scene complesse della vita reale e fornire una migliore interpretazione e risposta attraverso input visivi.il nucleo del suo design è convertire le immagini in markup visivi e quindi combinarle con incorporamenti di testo per migliorare la comprensione delle informazioni visive. nveagle include tre versioni: eagle-x5-7b, eagle-x5-13b e eagle-x5-13b-chat. tra questi, le versioni 7b e 13b vengono utilizzate principalmente per attività generali di linguaggio visivo, mentre la versione 13b-chat è specificatamente ottimizzata per l'intelligenza artificiale conversazionale e può interagire meglio in base all'input visivo.

un punto di forza di nveagle è l'adozione di un meccanismo mixed expert (moe), che può selezionare dinamicamente il codificatore visivo più appropriato in base a diversi compiti, migliorando notevolmente le capacità di elaborazione di informazioni visive complesse.il modello è stato pubblicato su hugging face per un facile utilizzo da parte di ricercatori e sviluppatori.

notizia

nvidia lancia il nuovo modello di parlato visivo nveagle, che può chattare guardando le immagini

introduzione

le mie informazioni di contatto