notícias

nvidia lança novo modelo de fala visual nveagle, que pode conversar enquanto olha fotos

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

pinwan informou em 2 de setembro que, de acordo com notícias oficiais da nvidia, a nvidia se uniu às equipes de pesquisa da georgia tech, umd e hkpu para lançar um novo modelo de linguagem visual – nveagle.

é relatado que o nveagle pode compreender cenas complexas da vida real e fornecer melhor interpretação e resposta por meio de informações visuais.o núcleo de seu design é converter imagens em marcações visuais e depois combiná-las com incorporações de texto para melhorar a compreensão das informações visuais. nveagle inclui três versões: eagle-x5-7b, eagle-x5-13b e eagle-x5-13b-chat. entre eles, as versões 7b e 13b são usadas principalmente para tarefas gerais de linguagem visual, enquanto a versão 13b-chat é especificamente ajustada para ia de conversação e pode interagir melhor com base em informações visuais.

um destaque do nveagle é a adoção de um mecanismo mixed expert (moe), que pode selecionar dinamicamente o codificador visual mais apropriado com base em diferentes tarefas, o que melhora muito as capacidades de processamento de informações visuais complexas.o modelo foi publicado no hugging face para facilitar o uso por pesquisadores e desenvolvedores.