Κυκλοφορεί το πολυτροπικό πλαίσιο αξιολόγησης μοντέλων lmms-eval! Ολοκληρωμένη κάλυψη, χαμηλό κόστος, μηδενική pollution

Κυκλοφορεί το πολυτροπικό πλαίσιο αξιολόγησης μοντέλων lmms-eval! Ολοκληρωμένη κάλυψη, χαμηλό κόστος, μηδενική ρύπανση

2024-08-21

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά.Email υποβολής: [email protected], [email protected]

μαζί μεμεγάλο μοντέλοΜε την εμβάθυνση της έρευνας, το πώς να επεκταθεί σε περισσότερες μεθόδους έχει γίνει ένα καυτό θέμα στον ακαδημαϊκό κόσμο και τη βιομηχανία. Πρόσφατα κυκλοφόρησαν μεγάλα μοντέλα κλειστού κώδικα όπως π.χ GPT-4o、Ο Κλοντ Το 3.5 και άλλα έχουν ήδη δυνατότητες κατανόησης σούπερ εικόνων και μοντέλα τομέα ανοιχτού κώδικα όπως το LLaVA-NeXT, το MiniCPM και το InternVL έχουν επίσης δείξει απόδοση που πλησιάζει όλο και περισσότερο στην κλειστή πηγή.

Σε αυτήν την εποχή των "80.000 kg ανά mu" και "ένα SoTA κάθε 10 ημέρες", τα πολυτροπικά πλαίσια αξιολόγησης που είναι εύκολα στη χρήση, έχουν διαφανή πρότυπα και είναι αναπαραγώγιμα γίνονται όλο και πιο σημαντικά και αυτό δεν είναι εύκολο.

Προκειμένου να λυθούν τα παραπάνω προβλήματα, ερευνητές από το LMMs-Lab του Τεχνολογικού Πανεπιστημίου Nanyang από κοινού ανοιχτού κώδικα LMMs-Eval, το οποίο είναι ένα πλαίσιο αξιολόγησης ειδικά σχεδιασμένο για πολυτροπικά μοντέλα μεγάλης κλίμακας και παρέχει μια μέθοδο για την αξιολόγηση πολυτροπικών μοντέλων (LMMs Μια ενιαία, αποτελεσματική λύση).

Αποθετήριο κώδικα: https://github.com/EvolvingLMMs-Lab/lmms-eval
Επίσημη αρχική σελίδα: https://lmms-lab.github.io/
Διεύθυνση χαρτιού: https://arxiv.org/abs/2407.12772
Διεύθυνση λίστας: https://huggingface.co/spaces/lmms-lab/LiveBench

Από την κυκλοφορία του τον Μάρτιο του 2024, το πλαίσιο LMMs-Eval έχει λάβει συνεργατικές συνεισφορές από πολλά μέρη, συμπεριλαμβανομένης της κοινότητας ανοιχτού κώδικα, εταιρειών και πανεπιστημίων. Τώρα έχει αποκτήσει 1,1 χιλιάδες αστέρια στο Github, με περισσότερους από 30+ συνεισφέροντες, συμπεριλαμβανομένων συνολικά περισσότερων από 80 συνόλων δεδομένων και περισσότερων από 10 μοντέλων, και εξακολουθεί να αυξάνεται.

Τυποποιημένο πλαίσιο αξιολόγησης

Προκειμένου να παρέχει μια τυποποιημένη πλατφόρμα αξιολόγησης, το LMMs-Eval περιλαμβάνει τα ακόλουθα χαρακτηριστικά:

Ενοποιημένη διεπαφή: Το LMMs-Eval βελτιώνεται και επεκτείνεται με βάση το πλαίσιο αξιολόγησης κειμένου lm-evaluation-harness Ορίζοντας μια ενοποιημένη διεπαφή για μοντέλα, σύνολα δεδομένων και δείκτες αξιολόγησης, είναι βολικό για τους χρήστες να προσθέτουν νέα πολυτροπικά μοντέλα και δεδομένα. σειρά.
Εκκίνηση με ένα κλικ: Το LMMs-Eval φιλοξενεί πάνω από 80 (και αυξανόμενα) σύνολα δεδομένων στο HuggingFace, μετασχηματισμένα προσεκτικά από τις αρχικές πηγές, συμπεριλαμβανομένων όλων των παραλλαγών, των εκδόσεων και των διαχωρισμών. Οι χρήστες δεν χρειάζεται να κάνουν καμία προετοιμασία Με μία μόνο εντολή, θα ληφθούν και θα δοκιμαστούν αυτόματα πολλά σύνολα δεδομένων και τα αποτελέσματα θα είναι διαθέσιμα σε λίγα λεπτά.
Διαφανές και αναπαραγώγιμο: Το LMMs-Eval έχει ενσωματωμένο εργαλείο ενοποιημένης καταγραφής Κάθε ερώτηση που απαντά το μοντέλο και εάν είναι σωστή ή όχι, θα καταγράφεται, διασφαλίζοντας την αναπαραγωγιμότητα και τη διαφάνεια. Διευκολύνει επίσης τη σύγκριση των πλεονεκτημάτων και των μειονεκτημάτων διαφορετικών μοντέλων.

Το όραμα του LMMs-Eval είναι ότι τα μελλοντικά πολυτροπικά μοντέλα δεν απαιτούν πλέον τη σύνταξη του δικού τους κώδικα επεξεργασίας δεδομένων, συμπερασμάτων και υποβολής. Στο σημερινό περιβάλλον όπου τα σύνολα δοκιμών πολλαπλών τρόπων είναι εξαιρετικά συγκεντρωμένα, αυτή η προσέγγιση δεν είναι ρεαλιστική και οι βαθμολογίες που μετρώνται είναι δύσκολο να συγκριθούν άμεσα με άλλα μοντέλα. Με την πρόσβαση στο LMMs-Eval, οι εκπαιδευτές μοντέλων μπορούν να επικεντρωθούν περισσότερο στη βελτίωση και τη βελτιστοποίηση του ίδιου του μοντέλου, αντί να ξοδεύουν χρόνο για τα αποτελέσματα αξιολόγησης και ευθυγράμμισης.

Το «Αδύνατο Τρίγωνο» της Αξιολόγησης

Ο απώτερος στόχος του LMMs-Eval είναι να βρει μια μέθοδο αξιολόγησης LMM με 1. ευρεία κάλυψη, 2. χαμηλό κόστος και 3. μηδενική διαρροή δεδομένων. Ωστόσο, ακόμη και με το LMMs-Eval, η ομάδα συγγραφέων διαπίστωσε ότι είναι δύσκολο ή και αδύνατο να επιτευχθούν αυτοί οι τρεις πόντους ταυτόχρονα.

Όπως φαίνεται στο παρακάτω σχήμα, όταν επέκτεισαν το σύνολο δεδομένων αξιολόγησης σε πάνω από 50, κατέστη πολύ χρονοβόρο η διεξαγωγή ολοκληρωμένης αξιολόγησης αυτών των συνόλων δεδομένων. Επιπλέον, αυτά τα σημεία αναφοράς είναι επίσης επιρρεπή σε μόλυνση κατά τη διάρκεια της εκπαίδευσης. Για το σκοπό αυτό, το LMMs-Eval πρότεινε το LMMs-Eval-Lite να λαμβάνει υπόψη την ευρεία κάλυψη και το χαμηλό κόστος. Επίσης σχεδίασαν το LiveBench να είναι χαμηλού κόστους και να έχει μηδενική διαρροή δεδομένων.

LMMs-Eval-Lite: Ελαφριά αξιολόγηση με ευρεία κάλυψη

Κατά την αξιολόγηση μεγάλων μοντέλων, ο μεγάλος αριθμός παραμέτρων και εργασιών δοκιμής συχνά αυξάνει απότομα το χρόνο και το κόστος της εργασίας αξιολόγησης. Επομένως, οι άνθρωποι συχνά επιλέγουν να χρησιμοποιούν μικρότερα σύνολα δεδομένων ή να χρησιμοποιούν συγκεκριμένα σύνολα δεδομένων για αξιολόγηση. Ωστόσο, η περιορισμένη αξιολόγηση οδηγεί συχνά σε έλλειψη κατανόησης των δυνατοτήτων του μοντέλου Προκειμένου να ληφθεί υπόψη τόσο η ποικιλομορφία της αξιολόγησης όσο και το κόστος της αξιολόγησης, το LMMs-Eval κυκλοφόρησε το LMMs-Eval-Lite.

Το LMMs-Eval-Lite στοχεύει στη δημιουργία ενός απλοποιημένου σετ σημείων αναφοράς για την παροχή χρήσιμων και γρήγορων σημάτων κατά την ανάπτυξη του μοντέλου, αποφεύγοντας έτσι το πρόβλημα φουσκώματος των σημερινών δοκιμών. Εάν μπορέσουμε να βρούμε ένα υποσύνολο του υπάρχοντος συνόλου δοκιμών στο οποίο οι απόλυτες βαθμολογίες και οι σχετικές βαθμολογίες μεταξύ των μοντέλων παραμένουν παρόμοιες με το πλήρες σύνολο, τότε μπορούμε να θεωρήσουμε ασφαλές να περικόψουμε αυτά τα σύνολα δεδομένων.

Προκειμένου να βρεθούν τα κύρια σημεία δεδομένων στο σύνολο δεδομένων, το LMMs-Eval χρησιμοποιεί πρώτα μοντέλα CLIP και BGE για να μετατρέψει το σύνολο δεδομένων αξιολόγησης πολλαπλών τρόπων σε μορφή ενσωμάτωσης διανυσμάτων και χρησιμοποιεί τη μέθοδο ομαδοποίησης k-greedy για να βρει τα σημαντικά δεδομένα σημεία. Κατά τη δοκιμή, αυτά τα μικρότερα σύνολα δεδομένων επέδειξαν ακόμα παρόμοιες δυνατότητες αξιολόγησης στο πλήρες σύνολο.

Στη συνέχεια, το LMMs-Eval χρησιμοποίησε την ίδια μέθοδο για να παράγει μια έκδοση Lite που καλύπτει περισσότερα σύνολα δεδομένων.

LiveBench: Δυναμική δοκιμή LMM

Τα παραδοσιακά σημεία αναφοράς επικεντρώνονται στη στατική αξιολόγηση χρησιμοποιώντας σταθερές ερωτήσεις και απαντήσεις. Με την πρόοδο της πολυτροπικής έρευνας, τα μοντέλα ανοιχτού κώδικα είναι συχνά καλύτερα από τα εμπορικά μοντέλα, όπως το GPT-4V, σε σύγκριση με τη βαθμολογία, αλλά υστερούν στην πραγματική εμπειρία χρήστη. Οι δυναμικές, προσανατολισμένες στο χρήστη Chatbot Arenas και WildVision είναι όλο και πιο δημοφιλείς για την αξιολόγηση μοντέλων, αλλά απαιτούν τη συλλογή χιλιάδων προτιμήσεων των χρηστών, καθιστώντας την αξιολόγηση εξαιρετικά δαπανηρή.

Η βασική ιδέα του LiveBench είναι να αξιολογήσει την απόδοση του μοντέλου σε ένα συνεχώς ενημερωμένο σύνολο δεδομένων για να επιτευχθεί μηδενική μόλυνση και να διατηρηθεί το κόστος σε χαμηλά επίπεδα. Η ομάδα συγγραφέων συνέλεξε δεδομένα αξιολόγησης από τον Ιστό και κατασκεύασε έναν αγωγό για να συλλέγει αυτόματα τις πιο πρόσφατες παγκόσμιες πληροφορίες από ιστότοπους, όπως ειδήσεις και φόρουμ κοινότητας. Προκειμένου να διασφαλιστεί η επικαιρότητα και η αυθεντικότητα των πληροφοριών, η ομάδα συγγραφέων επέλεξε πηγές από περισσότερα από 60 μέσα ενημέρωσης, όπως το CNN, το BBC, το ιαπωνικό Asahi Shimbun και το κινεζικό πρακτορείο ειδήσεων Xinhua, καθώς και φόρουμ όπως το Reddit. Τα συγκεκριμένα βήματα είναι τα εξής:

Τραβήξτε ένα στιγμιότυπο οθόνης της αρχικής σας σελίδας και αφαιρέστε διαφημίσεις και στοιχεία που δεν είναι ειδήσεις.
Σχεδιάστε σύνολα ερωτήσεων και απαντήσεων χρησιμοποιώντας τα πιο ισχυρά μοντέλα πολλαπλών τρόπων που είναι διαθέσιμα αυτήν τη στιγμή, όπως τα GPT4-V, Claude-3-Opus και Gemini-1.5-Pro. Αναθεωρήθηκε και αναθεωρήθηκε από άλλο μοντέλο
ερωτήσεις για τη διασφάλιση της ακρίβειας και της συνάφειας.
Το τελικό σύνολο ερωτήσεων και απαντήσεων ελέγχεται με μη αυτόματο τρόπο και συλλέγονται περίπου 500 ερωτήσεις κάθε μήνα και 100-300 διατηρούνται ως το τελικό σύνολο ερωτήσεων livebench.
Χρησιμοποιούνται τα πρότυπα βαθμολόγησης των LLaVA-Wilder και Vibe-Eval -- οι βαθμολογίες του μοντέλου βαθμολόγησης βασίζονται στις τυπικές απαντήσεις που παρέχονται και το εύρος βαθμολογίας είναι [1, 10]. Το προεπιλεγμένο μοντέλο βαθμολογίας είναι το GPT-4o, με τα Claude-3-Opus και Gemini 1.5 Pro να περιλαμβάνονται επίσης ως εναλλακτικές. Τα τελικά αναφερόμενα αποτελέσματα θα βασίζονται στη βαθμολογία που μετατρέπεται σε μέτρηση ακρίβειας που κυμαίνεται από 0 έως 100.

Στο μέλλον, μπορείτε επίσης να δείτε τα πιο πρόσφατα δεδομένα αξιολόγησης μοντέλων πολλαπλών μεταφορών που ενημερώνονται δυναμικά κάθε μήνα στη δυναμικά ενημερωμένη λίστα μας, καθώς και τα αποτελέσματα των πιο πρόσφατων αξιολογήσεων στη λίστα.

νέα

Κυκλοφορεί το πολυτροπικό πλαίσιο αξιολόγησης μοντέλων lmms-eval! Ολοκληρωμένη κάλυψη, χαμηλό κόστος, μηδενική ρύπανση

Εισαγωγή

Τα στοιχεία επικοινωνίας μου