nouvelles

nvidia lance un nouveau modèle de parole visuelle nveagle, qui peut discuter tout en regardant des images

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

pinwan a rapporté le 2 septembre que, selon les informations officielles de nvidia, nvidia s'était associé aux équipes de recherche de georgia tech, umd et hkpu pour lancer un nouveau modèle de langage visuel, nveagle.

il est rapporté que nveagle peut comprendre des scènes complexes de la vie réelle et fournir une meilleure interprétation et réponse grâce à une entrée visuelle.le cœur de sa conception est de convertir des images en balises visuelles, puis de les combiner avec des intégrations de texte pour améliorer la compréhension des informations visuelles. nveagle comprend trois versions : eagle-x5-7b, eagle-x5-13b et eagle-x5-13b-chat. parmi elles, les versions 7b et 13b sont principalement utilisées pour des tâches générales de langage visuel, tandis que la version 13b-chat est spécifiquement adaptée à l'ia conversationnelle et peut mieux interagir en fonction de la saisie visuelle.

l'un des points forts de nveagle est l'adoption d'un mécanisme mixed expert (moe), capable de sélectionner dynamiquement l'encodeur visuel le plus approprié en fonction de différentes tâches, ce qui améliore considérablement les capacités de traitement d'informations visuelles complexes.le modèle a été publié sur hugging face pour une utilisation facile par les chercheurs et les développeurs.