η nvidia λανσάρει το νέο μοντέλο οπτικής ομιλίας nveagle, το οποίο μπορεί να συνομιλεί ενώ βλέπει φωτογραφίες

2024-09-02

η pinwan ανέφερε στις 2 σεπτεμβρίου ότι σύμφωνα με τις επίσημες ειδήσεις της nvidia, η nvidia συνεργάστηκε με τις ερευνητικές ομάδες της georgia tech, umd και hkpu για να λανσάρει ένα νέο μοντέλο οπτικής γλώσσας-nveagle.

αναφέρεται ότι το nveagle μπορεί να κατανοήσει πολύπλοκες σκηνές της πραγματικής ζωής και να παρέχει καλύτερη ερμηνεία και απόκριση μέσω οπτικής εισαγωγής.ο πυρήνας του σχεδιασμού του είναι να μετατρέπει τις εικόνες σε οπτικές σημάνσεις και στη συνέχεια να τις συνδυάζει με ενσωματώσεις κειμένου για τη βελτίωση της κατανόησης των οπτικών πληροφοριών. το nveagle περιλαμβάνει τρεις εκδόσεις: eagle-x5-7b, eagle-x5-13b και eagle-x5-13b-chat. μεταξύ αυτών, οι εκδόσεις 7b και 13b χρησιμοποιούνται κυρίως για εργασίες γενικής οπτικής γλώσσας, ενώ η έκδοση 13b-chat είναι ειδικά ρυθμισμένη για συνομιλία ai και μπορεί να αλληλεπιδράσει καλύτερα με βάση την οπτική εισαγωγή.

κορυφαίο σημείο του nveagle είναι η υιοθέτηση ενός μηχανισμού mixed expert (moe), ο οποίος μπορεί να επιλέξει δυναμικά τον καταλληλότερο οπτικό κωδικοποιητή βάσει διαφορετικών εργασιών, ο οποίος βελτιώνει σημαντικά τις δυνατότητες επεξεργασίας σύνθετων οπτικών πληροφοριών.το μοντέλο έχει δημοσιευτεί στο hugging face για εύκολη χρήση από ερευνητές και προγραμματιστές.

νέα

η nvidia λανσάρει το νέο μοντέλο οπτικής ομιλίας nveagle, το οποίο μπορεί να συνομιλεί ενώ βλέπει φωτογραφίες

εισαγωγή

τα στοιχεία επικοινωνίας μου