nvidia lanza el nuevo modelo de voz visual nveagle, que puede chatear mientras mira imágenes

2024-09-02

pinwan informó el 2 de septiembre que, según las noticias oficiales de nvidia, nvidia se asoció con los equipos de investigación de georgia tech, umd y hkpu para lanzar un nuevo modelo de lenguaje visual: nveagle.

se informa que nveagle puede comprender escenas complejas de la vida real y proporcionar una mejor interpretación y respuesta a través de información visual.el núcleo de su diseño es convertir imágenes en marcas visuales y luego combinarlas con incrustaciones de texto para mejorar la comprensión de la información visual. nveagle incluye tres versiones: eagle-x5-7b, eagle-x5-13b y eagle-x5-13b-chat. entre ellas, las versiones 7b y 13b se utilizan principalmente para tareas generales de lenguaje visual, mientras que la versión 13b-chat está específicamente ajustada para la ia conversacional y puede interactuar mejor en función de la información visual.

lo más destacado de nveagle es la adopción de un mecanismo mixed expert (moe), que puede seleccionar dinámicamente el codificador visual más apropiado en función de diferentes tareas, lo que mejora en gran medida las capacidades de procesamiento de información visual compleja.el modelo ha sido publicado en hugging face para que los investigadores y desarrolladores lo utilicen fácilmente.

noticias

nvidia lanza el nuevo modelo de voz visual nveagle, que puede chatear mientras mira imágenes

introducción

mi información de contacto