Νέα

Το VLM είναι συλλογικά «τυφλό»;Το τεστ όρασης απέτυχε παταγωδώς, το GPT-4o και το Claude 3.5 απέτυχαν και τα δύο

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία]Οπτικά μεγάλα μοντέλα γλώσσας συλλογικά «αναποδογυρίζονται» στις πιο βασικές οπτικές εργασίες.

Ο πιο πρόσφατος γύρος μοντέλων γλώσσας, όπως το GPT-4o και το Gemini 1.5 Pro, ορίστηκαν ως "εγγενή πολυτροπικά" όταν κυκλοφόρησαν, ικανά να κατανοούν πολλαπλές μορφές εισαγωγής, όπως εικόνες, ήχος και κείμενο.

Αυτά τα πολυτροπικά LLM χρησιμοποιούν εκφράσεις όπως "οπτική ικανότητα" και "οπτική κατανόηση" σε σχετικές εισαγωγές, μάρκετινγκ, ακόμη και ακαδημαϊκές εργασίες.

Αυτό φαίνεται να σημαίνει ότι το μοντέλο μπορεί να δει και να κατανοήσει τα πράγματα με μια έννοια, και αυτή η ικανότητα ταιριάζει ήδη με αυτή των ανθρώπων.

Ας κάνουμε λοιπόν μια ιδέα: Εάν το μοντέλο οπτικής γλώσσας δοκιμαστεί για όραση, θα έχουν τυπική όραση 5.2 ή σοβαρή μυωπία ή δεν θα μπορούν να δουν τίποτα απολύτως;

Μια νέα μελέτη δείχνει ότι τα μεγάλα γλωσσικά μοντέλα δεν έχουν στην πραγματικότητα τις αναμενόμενες οπτικές δυνατότητες που μοιάζουν με τον άνθρωπο. Η αλήθεια είναι ότι είναι απλώς «τυφλοί».

Ερευνητές στο Πανεπιστήμιο Auburn και στο Πανεπιστήμιο της Αλμπέρτα δοκίμασαν τέσσερα από τα σημερινά πολυτροπικά μοντέλα τελευταίας τεχνολογίας σε μια σειρά από πολύ απλές εργασίες όρασης και διαπίστωσαν ότι τα αποτελέσματα δεν ήταν ικανοποιητικά.

Αυτές οι εργασίες είναι εξαιρετικά απλές για τον άνθρωπο, όπως εάν επικαλύπτονται δύο σχήματα, πόσα πεντάγωνα υπάρχουν σε μια εικόνα ή ποια γράμματα σε μια λέξη είναι κυκλωμένα.

Ωστόσο, το όραμα αυτών των προηγμένων μοντέλων είναι «μυωπικό» στην καλύτερη περίπτωση και οι λεπτομέρειες που φαίνονται είναι πολύ θολές. Στη χειρότερη περίπτωση, το μοντέλο λειτουργεί σαν «έξυπνος τυφλός» κάνοντας κάποιες μορφωμένες εικασίες.


Διεύθυνση χαρτιού: https://arxiv.org/pdf/2407.06581

7 μεγάλες εργασίες

Τώρα, το τεστ όρασης ξεκινά επίσημα και το VLM πρέπει να ολοκληρώσει 7 μικρές εργασίες.


Ο Anh Nguye, συν-συγγραφέας της εργασίας, τόνισε ιδιαίτερα, «Οι επτά εργασίες μας είναι πολύ απλές και η ακρίβεια της ανθρώπινης απόδοσης μπορεί να φτάσει το 100%.

Λοιπόν, πώς θα αποδώσει το μοντέλο AI όταν αντιμετωπίσει αυτές τις ερωτήσεις που ακόμη και οι μαθητές της πρώτης τάξης μπορούν να κάνουν σωστά;


Εργασία 1: Πόσα σημεία τομής έχουν οι δύο πολύγραμμες;

Δεδομένου ότι η VLM είχε απίστευτη απόδοση σε προηγούμενες δοκιμές αναφοράς σε γραφήματα, όπως η βαθμολογία του Claude 3.5 Sonnet 94,7% στο AI2D και 90,8% στο ChartQA, μπορούμε εύλογα να υποθέσουμε ότι αυτό το είδος προβλήματος δεν θα πρέπει να αποτελεί πρόβλημα για αυτούς.

Όπως φαίνεται στην παρακάτω εικόνα, συνολικά 150 γραμμικά γραφήματα σχεδιάζονται στον λευκό καμβά, όλα αποτελούνται από δύο πολύγραμμες, καθεμία από τις οποίες ορίζεται από τρία σημεία.

Οι συντεταγμένες x αυτών των τριών σημείων είναι σταθερές και ισαπέχουσες και οι συντεταγμένες y λαμβάνονται με τυχαία δειγματοληψία, δημιουργώντας έτσι δύο πολύγραμμες με αριθμούς τομής 0, 1 ή 2.


Το πείραμα χρησιμοποίησε δύο διαφορετικές φράσεις για να ρωτήσει το μεγάλο μοντέλο, όπως, "Πόσες φορές διασταυρώνονται οι μπλε και οι κόκκινες γραμμές μεταξύ τους;"

Υπολογίζοντας τη μέση ακρίβεια κάθε μοντέλου που απαντά σε αυτές τις δύο ερωτήσεις, μπορούμε να εξαλείψουμε ορισμένα άμεσα αποτελέσματα και να επιτύχουμε πιο ακριβή αποτελέσματα.


Συγκριτικά, το Sonnet-3.5 αποδίδει ελαφρώς καλύτερα σε αυτήν την εργασία, με μέση ακρίβεια 77,33%, ενώ άλλα μοντέλα έχουν χειρότερη απόδοση.

Αν και το 77,33% ακούγεται καλό αποτέλεσμα, καθώς υπάρχουν μόνο τρεις πιθανές απαντήσεις: 0, 1 και 2, το σωστό ποσοστό τυχαίας εικασίας είναι 33%.

Αξίζει να σημειωθεί ότι το VLM τείνει να έχει χειρότερη απόδοση όταν η απόσταση μεταξύ δύο πολυγραμμών γίνεται στενότερη. Συνοπτικά, το VLM δεν μπορεί να αναγνωρίσει και να υπολογίσει αξιόπιστα τις τομές γραμμών.


Εργασία 2: Προβλήματα τομής, εφαπτομένης και διαχωρισμού κύκλων


Αυτό το πρόβλημα ανήκει στην κατηγορία της γεωμετρίας του Γυμνασίου: η τομή, η εφαπτόμενη και ο διαχωρισμός των κύκλων (κανείς δεν θα θυμάται το πίσω μέρος του δασκάλου να σχεδιάζει κύκλους με ελεύθερο χέρι).

Ωστόσο, δεν θα εξετάσουμε το VLM με αυτούς τους όρους, αλλά θα του δώσουμε μια απλή δοκιμή επικαλυπτόμενων σχημάτων, η οποία είναι αναμφισβήτητα μία από τις απλούστερες εργασίες οπτικής συλλογιστικής που μπορούμε να φανταστούμε.

Δυστυχώς, ανεξάρτητα από το αν οι δύο κύκλοι επικαλύπτονται ελαφρώς, απλώς αγγίζουν ή βρίσκονται σε μια συγκεκριμένη απόσταση, ανεξάρτητα από την κατάσταση, το μοντέλο δεν είναι ποτέ σε θέση να κάνει σωστή κρίση.


Σε σύγκριση, όταν οι δύο κύκλοι απέχουν πολύ μεταξύ τους, το GPT-4o είναι σωστό περισσότερο από το 95% των περιπτώσεων, αλλά σε μηδενικές ή πολύ μικρές αποστάσεις, είναι σωστό μόνο το 18% των περιπτώσεων, που είναι λιγότερο από το σωστό 50%. βαθμολογήστε κατά την τυχαία εικασία.


Το Gemini Pro 1.5 είχε την καλύτερη απόδοση, με μέσο ποσοστό ακρίβειας 92,78, αλλά το ποσοστό ακρίβειας ήταν μόνο 70% όταν η απόσταση μεταξύ των δύο κύκλων ήταν κοντά.


Εργασία 3: Προσδιορίστε τα κυκλωμένα γράμματα

Χρησιμοποιήστε τον κόκκινο κύκλο ⭕ για να κυκλώσετε τα γράμματα της λέξης, ένα κάθε φορά, και η εργασία απαιτεί από το VLM να αναγνωρίσει τα κυκλωμένα γράμματα.

Προφανώς αυτό το έργο είναι εύκολο για τους ανθρώπους, αλλά η υπόθεση των συγγραφέων είναι ότι εάν η όραση του VLM είναι θολή, μπορεί να μην μπορεί να αναγνωρίσει το ακριβές γράμμα που κυκλώνεται λόγω της μικρής απόστασης μεταξύ των διπλανών γραμμάτων.


Οι λέξεις Acknowledgement, Subdermatoglyphic και η συμβολοσειρά tHyUiKaRbNqWeOpXcZvM επιλέχθηκαν επειδή περιέχουν χαρακτήρες με διαφορετικά πλάτη και ύψη. (Trivia, υποδερματογλυφικά είναι η μεγαλύτερη λέξη χωρίς επαναλαμβανόμενα γράμματα)

Το πείραμα διαπίστωσε ότι παρόλο που το VLM μπορεί να αναγνωρίσει με ακρίβεια το σχήμα ενός κόκκινου κύκλου και να συλλαβίσει τέλεια τις λέξεις, η «ανάγνωση των κυκλικών γραμμάτων» παραβιάζει όλα τα μοντέλα. Για παράδειγμα, η αναγνώριση VLM τείνει να κάνει λάθη όταν τα γράμματα είναι ελαφρώς μερικώς καλυμμένα από κόκκινα οβάλ.


Όταν συμβαίνουν σφάλματα, το VLM συνήθως προβλέπει γράμματα δίπλα στο κυκλωμένο γράμμα.

Μερικές φορές το μοντέλο έχει παραισθήσεις και, παρόλο που μπορεί να γράψει τη λέξη με ακρίβεια, θα εμφανίζονται χαρακτήρες που δεν υπάρχουν στο υποδερματογλυφικό (π.χ. 9, n, ©).


Όλα τα μοντέλα εκτός από το GPT-4o είχαν ελαφρώς καλύτερη απόδοση στις δύο αγγλικές λέξεις από ό,τι στις τυχαίες συμβολοσειρές (2 έως 6 βαθμούς καλύτερα), γεγονός που υποδηλώνει ότι η εξοικείωση με τις ίδιες τις λέξεις μπορεί να βοηθήσει το VLM να κάνει πιο μορφωμένες εικασίες.

Τα Gemini-1.5 και Sonnet-3.5 είναι τα δύο κορυφαία μοντέλα (92,81% και 89,22%), σχεδόν 20 μονάδες υψηλότερα από τα GPT-4o και Sonnet-3.

Συνολικά, το VLM μπορεί να μπορεί να μαντέψει ποια είναι τα κυκλωμένα γράμματα με βάση την ορθογραφία της λέξης, βελτιώνοντας ελαφρώς την ακρίβεια, αλλά αυτό δεν σημαίνει ότι το VLM μπορεί να δει τα γράμματα στον κόκκινο κύκλο.

Εργασία 4: Προβλήματα διασύνδεσης

Στη συνέχεια, το VLM πρέπει να αντιμετωπίσει ένα πρόβλημα «αλληλασφάλισης», δηλαδή να υπολογίσει πόσοι κύκλοι συμπλέκονται στην εικόνα.

Το BGM θα πρέπει να ακούγεται εδώ: Ahhhhh~ Five Rings, έχετε ένα περισσότερο κουδούνισμα από Four Rings~


Τα αποτελέσματα αυτής της δοκιμής είναι κάπως περίεργα: όταν υπάρχουν πέντε δακτύλιοι στην εικόνα, το μοντέλο είναι 100% σωστό όταν υπάρχει ακόμη ένας δακτύλιος, το VLM είναι εντελώς μπερδεμένο.


Ο Δίδυμος αποπροσανατολίστηκε και απάντησε λανθασμένα ακόμη και μία φορά, το Sonnet-3.5 το έκανε σωστά το ένα τρίτο των φορών και το GPT-4o το έκανε σωστά σχεδόν τις μισές φορές.


Ο συγγραφέας πρότεινε ότι η ακρίβεια αναγνώρισης των "πέντε δακτυλίων" είναι τόσο υψηλή και σχετίζεται στενά με το κοινό σύμβολο "πέντε δακτυλίων" των Ολυμπιακών Αγώνων.

Όπως φαίνεται στον Πίνακα 5, και τα τέσσερα μοντέλα τείνουν να μετρούν 5 κύκλους, που είναι πολύ μεγαλύτερος από τη συχνότητα μέτρησης 5 πενταγώνων.


Αυτό το τεστ δείχνει ότι ό,τι κι αν κάνουν αυτά τα μοντέλα, δεν έχει «όραση» όπως το καταλαβαίνουμε εμείς οι άνθρωποι. Το κύριο πρόβλημα είναι ότι η απόδοσή τους είναι πολύ ασταθής, με τεράστιες διαφορές στα ποσοστά επιτυχίας αναγνώρισης μεταξύ εικόνων που αποτελούνται από διαφορετικούς αριθμούς και σχήματα.


Εργασία 5: Ένθετα τετράγωνα

Η εργασία 2 δείχνει ότι το VLM έχει δυσκολία στον υπολογισμό των κύκλων που τέμνονται, λοιπόν, τι θα συμβεί με την απόδοση του VLM εάν τα τετράγωνα είναι εντελώς φωλιασμένα μέσα σε ένα άλλο μεγαλύτερο τετράγωνο έτσι ώστε οι άκρες τους να μην τέμνονται;

Όπως φαίνεται στο παρακάτω σχήμα, σε έναν καμβά μεγέθους C×C, ο συγγραφέας αποδίδει N∈{2,3,4,5} ένθετα τετράγωνα.


Πρώτα αποδώστε το εξώτατο τετράγωνο χρησιμοποιώντας ένα τυχαίο μήκος πλευράς d∈{2,3,4}px. Τα υπόλοιπα τετράγωνα N-1 σχεδιάζονται με συντελεστή μείωσης 0,75×d και τοποθετούνται σε τυχαίες συντεταγμένες για να διασφαλιστεί ότι δεν αγγίζουν τα εξωτερικά τετράγωνα.

Δημιουργήστε 10 εικόνες για καθεμία από τις 3 ρυθμίσεις πάχους γραμμής (όπου τα τετράγωνα έχουν διαφορετικές τυχαίες θέσεις) και επαναλάβετε τη διαδικασία για όλες τις τιμές N, με αποτέλεσμα συνολικά 120 εικόνες.

Μπορεί να βρεθεί ότι ο υπολογισμός του αριθμού των ένθετων τετραγώνων είναι ένα δύσκολο έργο για το VLM να ολοκληρώσει με ακρίβεια.


Η ακρίβεια του μοντέλου ποικίλλει πολύ, με τα GPT-4o (48,33%) και Gemini-1,5 (55,00%) να υστερούν τουλάχιστον κατά 30 μονάδες έναντι των Gemini-1,5 (80,00%) και Claude3,5 (87,50%).


Εργασία 6: Πόσες στήλες και σειρές έχει ο πίνακας;

Τα αποτελέσματα των προηγούμενων εργασιών έδειξαν ότι το VLM δεν ήταν σε θέση να αντιμετωπίσει προβλήματα όπως η επικάλυψη (εργασία 4) ή η ένθεση (εργασία 5).

Ο συγγραφέας έβαλε τα τετράγωνα σε ένα πλέγμα και ζήτησε από το VLM να τα μετρήσει. Αυτά τα VLM έχουν καλή απόδοση στο DocVQA (ακρίβεια ≥ 90%), το οποίο περιέχει πολλές ερωτήσεις με πίνακες, επομένως αυτή η εργασία θα πρέπει να είναι απλή για VLM.

Για να απλοποιηθεί η εργασία, οι συγγραφείς ζήτησαν μόνο από το μοντέλο να μετρήσει τον αριθμό των γραμμών και στηλών σε έναν δεδομένο πίνακα.


Διαπιστώθηκε ότι το μοντέλο δεν μπόρεσε ποτέ να υπολογίσει σωστά τον αριθμό των γραμμών και στηλών του κενού πλέγματος.


Ωστόσο, η απόδοση όλων των VLM βελτιώνεται όταν τα κελιά πλέγματος περιέχουν κείμενο, ειδικά το Sonnet-3.5.


Εργασία 7: Προσδιορίστε τον οδικό χάρτη

Αυτή η εργασία ελέγχει την ικανότητα του VLM να αναγνωρίζει ειδικά χρωματιστά μονοπάτια και να ακολουθεί μια δεδομένη έγχρωμη γραμμή από ένα δεδομένο σημείο εκκίνησης σε έναν προορισμό, μια σημαντική ικανότητα που απαιτείται για την ανάγνωση και την κατανόηση χαρτών.

Όπως φαίνεται στο παρακάτω σχήμα, δημιουργήστε έναν χάρτη του μετρό σε μια εικόνα μεγέθους C×C, όπου C∈{512, 1024}px.

Γράψτε 4 ονόματα σταθμών (A, B, C, D) σε 4 σταθερές συντεταγμένες. Διαχωρίστε τον καμβά σε ένα αόρατο πλέγμα 18×18 κελιών και αρχικοποιήστε 3 σημεία εκκίνησης διαδρομής C/18 px μακριά από κάθε σταθμό.

Σχεδιάστε μια διαδρομή που ξεκινά από έναν τυχαίο σταθμό και ένα τυχαίο σημείο εκκίνησης χρησιμοποιώντας έναν αλγόριθμο αναζήτησης πρώτα στο βάθος, όπου κάθε βήμα μπορεί να μετακινήσει ένα κελί προς οποιαδήποτε κατεύθυνση. Αυτή η διαδικασία επαναλαμβάνεται έτσι ώστε κάθε σταθμός να έχει N∈{1,2,3} διαδρομές εξόδου και να σχεδιάζονται συνολικά 180 χάρτες.


Λαμβάνοντας υπόψη δύο καθορισμένους σταθμούς, η εργασία απαιτεί από το VLM να υπολογίσει πόσα μονοπάτια διαφορετικού χρώματος υπάρχουν μεταξύ των δύο σταθμών.

Τα πειραματικά αποτελέσματα διαπίστωσαν ότι ακόμη και αν υπάρχει μόνο μία διαδρομή χρώματος μεταξύ δύο σταθμών, κανένα μοντέλο δεν μπορεί να επιτύχει 100% ακρίβεια.


Η υψηλότερη ακρίβεια είναι το Sonnet-3,5, το οποίο μπορεί να φτάσει το 95% όταν υπάρχει μόνο ένας δρόμος, ωστόσο, όταν υπάρχουν δύο δρόμοι, η ακρίβεια πέφτει γρήγορα μόνο στο 50,18%.


Καθώς η πολυπλοκότητα της διαδρομής αυξάνεται, από 1 διαδρομή σε 3 μονοπάτια, τα περισσότερα VLM θα εμφανίσουν σημαντική υποβάθμιση της απόδοσης.

Η «τυφλότητα» του VLM

Γιατί το VLM αποδίδει εξαιρετικά ασταθή στο παραπάνω τεστ οπτικής ικανότητας;

Ίσως μπορούμε να βρούμε ενδείξεις από την προτίμηση του μοντέλου για τους "Olympic Rings" στο Task 4. Η πιο κοινή λογική εξήγηση είναι:

Στα προπονητικά δεδομένα του VLM, η εικόνα των «Olympic Rings» εμφανίζεται επανειλημμένα και περιγράφεται λεπτομερώς σε πολλά υλικά κειμένου.

Ωστόσο, στα δεδομένα προπόνησης VLM, δεν μπορούν να βρεθούν 6 ή 7 συμπλεκόμενοι δακτύλιοι, γι' αυτό και οι απαντήσεις τους δεν είναι ικανοποιητικές.

Επειδή το VLM μπορεί να μην γνωρίζει καθόλου τι «βλέπει» ούτε να καταλαβαίνει πραγματικά τι είναι βρόχος, επικάλυψη ή οποιαδήποτε άλλη έννοια.

Ωστόσο, ακόμα κι αν χρησιμοποιήσουμε τυφλό για να περιγράψουμε αυτή την απόδοση του μοντέλου, εξακολουθούμε να ανθρωπομορφοποιούμε το μοντέλο, όπως μια μεγάλη εταιρεία μοντέλων που προωθεί την «οπτική ικανότητα» της.

Ο ερευνητής Nguyen είπε επίσης ότι η «τυφλότητα» έχει πολλούς ορισμούς ακόμη και για τους ανθρώπους, και προς το παρόν δεν υπάρχει λέξη που να περιγράψει την τύφλωση/ανααισθησία της τεχνητής νοημοσύνης στις εικόνες που δείχνουμε.

Η συμπεριφορά ενός VLM είναι μια σύνθετη συνάρτηση προτροπών κειμένου εισαγωγής, εικόνων εισαγωγής και δισεκατομμυρίων βαρών, και αυτή τη στιγμή δεν υπάρχει τεχνολογία που να μπορεί να απεικονίσει με ακρίβεια αυτό που βλέπει το μοντέλο.

Εικάζει ότι αυτά τα μοντέλα δεν είναι εντελώς «τυφλά».

Ο Nguyen χρησιμοποίησε ένα παράδειγμα για να υποστηρίξει καλά την παραπάνω υπόθεση:


Χρήστης: Τι χρώμα έχει η περιοχή όπου επικαλύπτονται οι δύο κύκλοι; GPT-4o: Η επικαλυπτόμενη περιοχή δύο κύκλων είναι τιρκουάζ χρώματος (κυανό σκιασμένο). Δίδυμοι-1,5: Η επικαλυπτόμενη περιοχή του πράσινου κύκλου και του μπλε κύκλου θα είναι κυανό. Sonnet-3.5: Λυπάμαι, αλλά υπάρχουν μόνο δύο ξεχωριστοί κύκλοι στην εικόνα, ένας πράσινος και ένας μπλε, και δεν υπάρχει περιοχή επικάλυψης.

Προφανώς, εκτός από το Sonnet-3.5, το GPT-4o και το Gemini-1.5 απλώς «φαντάζουν» την εικόνα αντί να «βλέπουν» πραγματικά την εικόνα.

Λοιπόν, σημαίνει αυτή η έρευνα ότι αυτά τα «οπτικά» μοντέλα AI είναι άχρηστα;

Αλλά στην πραγματικότητα, δεν είναι. Κάθε ένα από αυτά τα μοντέλα έχει επιδείξει υψηλή ακρίβεια σε ένα ευρύ φάσμα εργασιών, όπως η αναγνώριση ανθρώπινων ενεργειών και εκφράσεων, καθημερινών αντικειμένων και περιβαλλοντικών φωτογραφιών.

Η σημασία αυτής της έρευνας είναι να μας απογοητεύσει με την υπερβολικά «ανθρωπόμορφη» στρατηγική μάρκετινγκ της VLM.

Αν ακούσουμε τη ρητορική μάρκετινγκ των τεχνολογικών κολοσσών, μπορεί πραγματικά να σκεφτούμε ότι τα μεγάλα οπτικά μοντέλα μπορούν να «βλέπουν».

Αλλά με μερικές μικρές δοκιμές, μπορούμε εύκολα να ανακαλύψουμε την ουσιαστική διαφορά μεταξύ του VLM και του ανθρώπου. Είναι «ανθρωπομορφοποιημένο», γεγονός που αναδεικνύει ουσιαστικά την απάνθρωπη φύση του.

Βιβλιογραφικές αναφορές:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/