소식

엔비디아, 사진을 보면서 채팅할 수 있는 새로운 시각적 음성 모델 nveagle 출시

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

pinwan은 9월 2일 nvidia 공식 뉴스에 따르면 nvidia가 georgia tech, umd 및 hkpu의 연구팀과 협력하여 새로운 시각적 언어 모델인 nveagle을 출시했다고 보도했습니다.

nveagle은 시각적 입력을 통해 복잡한 실제 장면을 이해하고 더 나은 해석과 반응을 제공할 수 있는 것으로 알려졌습니다.이미지를 시각적 마크업으로 변환한 후 이를 텍스트 임베딩과 결합하여 시각적 정보에 대한 이해도를 높이는 것이 디자인의 핵심입니다. nveagle에는 eagle-x5-7b, eagle-x5-13b 및 eagle-x5-13b-chat의 세 가지 버전이 포함되어 있습니다. 그중 7b와 13b 버전은 주로 일반적인 시각적 언어 작업에 사용되는 반면, 13b-chat 버전은 특히 대화형 ai에 맞게 미세 조정되어 시각적 입력을 기반으로 더 나은 상호 작용이 가능합니다.

nveagle의 하이라이트는 다양한 작업에 따라 가장 적합한 시각적 인코더를 동적으로 선택할 수 있는 moe(혼합 전문가) 메커니즘을 채택하여 복잡한 시각적 정보의 처리 기능을 크게 향상시킨다는 것입니다.이 모델은 연구원과 개발자가 쉽게 사용할 수 있도록 hugging face에 게시되었습니다.