notizia

nvidia lancia il nuovo modello di parlato visivo nveagle, che può chattare guardando le immagini

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

pinwan ha riferito il 2 settembre che, secondo le notizie ufficiali di nvidia, nvidia ha collaborato con i team di ricerca di georgia tech, umd e hkpu per lanciare un nuovo modello di linguaggio visivo: nveagle.

è stato riferito che nveagle è in grado di comprendere scene complesse della vita reale e fornire una migliore interpretazione e risposta attraverso input visivi.il nucleo del suo design è convertire le immagini in markup visivi e quindi combinarle con incorporamenti di testo per migliorare la comprensione delle informazioni visive. nveagle include tre versioni: eagle-x5-7b, eagle-x5-13b e eagle-x5-13b-chat. tra questi, le versioni 7b e 13b vengono utilizzate principalmente per attività generali di linguaggio visivo, mentre la versione 13b-chat è specificatamente ottimizzata per l'intelligenza artificiale conversazionale e può interagire meglio in base all'input visivo.

un punto di forza di nveagle è l'adozione di un meccanismo mixed expert (moe), che può selezionare dinamicamente il codificatore visivo più appropriato in base a diversi compiti, migliorando notevolmente le capacità di elaborazione di informazioni visive complesse.il modello è stato pubblicato su hugging face per un facile utilizzo da parte di ricercatori e sviluppatori.