uutiset

nvidia lanseeraa uuden visuaalisen puhemallin nveagle, joka pystyy keskustelemaan katsellen kuvia

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

pinwan raportoi 2. syyskuuta, että nvidian virallisten uutisten mukaan nvidia teki yhteistyötä georgia techin, umd:n ja hkpu:n tutkimusryhmien kanssa lanseeratakseen uuden visuaalisen kielimallin - nveagle.

on raportoitu, että nveagle voi ymmärtää monimutkaisia ​​tosielämän kohtauksia ja tarjota paremman tulkinnan ja vastauksen visuaalisen syötteen avulla.sen suunnittelun ydin on muuntaa kuvat visuaalisiksi merkinnöiksi ja yhdistää ne sitten tekstin upotuksiin visuaalisen tiedon ymmärtämisen parantamiseksi. nveagle sisältää kolme versiota: eagle-x5-7b, eagle-x5-13b ja eagle-x5-13b-chat. niiden joukossa 7b- ja 13b-versioita käytetään pääasiassa yleisiin visuaalisen kielen tehtäviin, kun taas 13b-chat-versio on erityisesti hienosäädetty keskustelullista tekoälyä varten, ja se voi olla paremmin vuorovaikutuksessa visuaalisen syötteen perusteella.

nveaglen kohokohta on mixed expert (moe) -mekanismin käyttöönotto, joka voi dynaamisesti valita sopivimman visuaalisen kooderin eri tehtävien perusteella, mikä parantaa huomattavasti monimutkaisen visuaalisen tiedon käsittelykykyä.malli on julkaistu hugging facessa, jotta tutkijat ja kehittäjät voivat käyttää sitä helposti.