nachricht

nvidia bringt das neue visuelle sprachmodell nveagle auf den markt, das beim betrachten von bildern chatten kann

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

pinwan berichtete am 2. september, dass nvidia laut offiziellen nachrichten von nvidia mit den forschungsteams von georgia tech, umd und hkpu zusammengearbeitet habe, um ein neues visuelles sprachmodell – nveagle – auf den markt zu bringen.

berichten zufolge kann nveagle komplexe reale szenen verstehen und durch visuelle eingaben eine bessere interpretation und reaktion ermöglichen.der kern seines designs besteht darin, bilder in visuelle markierungen umzuwandeln und sie dann mit texteinbettungen zu kombinieren, um das verständnis visueller informationen zu verbessern. nveagle umfasst drei versionen: eagle-x5-7b, eagle-x5-13b und eagle-x5-13b-chat. unter ihnen werden die versionen 7b und 13b hauptsächlich für allgemeine visuelle sprachaufgaben verwendet, während die version 13b-chat speziell auf konversations-ki abgestimmt ist und besser auf der grundlage visueller eingaben interagieren kann.

ein highlight von nveagle ist die einführung eines mixed expert (moe)-mechanismus, der basierend auf verschiedenen aufgaben dynamisch den am besten geeigneten visuellen encoder auswählen kann, was die verarbeitungsfähigkeiten komplexer visueller informationen erheblich verbessert.das modell wurde zur einfachen verwendung durch forscher und entwickler auf hugging face veröffentlicht.