νέα

ACL 2024 Oral| Πόσο μακριά απέχουμε από την αληθινή πολυτροπική συλλογιστική αλυσίδας σκέψης;

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Ο Chen Qiguang, ο πρώτος συγγραφέας του άρθρου, σπουδάζει επί του παρόντος στο εργαστήριο Sier του Ινστιτούτου Τεχνολογίας του Χαρμπίν. Οι κύριες ερευνητικές του κατευθύνσεις περιλαμβάνουν μεγάλες αλυσίδες σκέψης μοντέλων, διαγλωσσικά μεγάλα μοντέλα κ.λπ.

Τα τελευταία χρόνια, τα μοντέλα μεγάλων γλωσσών (LLM) έχουν σημειώσει σημαντική πρόοδο στον τομέα της επεξεργασίας φυσικής γλώσσας (NLP). Αυτά τα μοντέλα όχι μόνο μπορούν να κατανοήσουν πολύπλοκα πλαίσια, αλλά και να δημιουργήσουν συνεκτικό και λογικά αυστηρό κείμενο.

Ωστόσο, με την ανάπτυξη της επιστήμης και της τεχνολογίας και τη διαφοροποίηση των σεναρίων εφαρμογών, η ικανότητα ενός ενιαίου τρόπου κειμένου δεν είναι προφανώς πλέον ικανή να καλύψει τις σύγχρονες ανάγκες. Οι άνθρωποι προσβλέπουν όλο και περισσότερο σε έξυπνα συστήματα που μπορούν να επεξεργάζονται και να κατανοούν πολλαπλές πληροφορίες (όπως εικόνες, βίντεο, ήχος κ.λπ.) για να αντιμετωπίσουν πιο σύνθετες εργασίες και σενάρια. Οι ερευνητές άρχισαν να προσπαθούν να επεκτείνουν τις δυνατότητες του κειμένου CoT στο πεδίο της συλλογιστικής αλυσίδας πολλαπλών τρόπων σκέψης για να αντιμετωπίσουν πιο περίπλοκες και διαφορετικές απαιτήσεις εργασιών.

Μία από τις πρώτες μελέτες σχετικά με την πολυτροπική αλυσίδα σκέψης είναι το σημείο αναφοράς ScienceQA που εισήχθη από τον Lu et al [1], το οποίο συνδυάζει οπτικές και γλωσσικές πληροφορίες για την προώθηση της πολυτροπικής αλυσίδας σκέψης (MCoT). Η εμφάνιση του συνόλου δεδομένων ScienceQA δίνει τη δυνατότητα στους ερευνητές να αξιολογήσουν τις συλλογιστικές ικανότητες της αλυσίδας σκέψης των πολυτροπικών μοντέλων κάτω από ένα ενοποιημένο πλαίσιο.

Επιπλέον, η έρευνα των Zhang et al [2] ώθησε την απόδοση του MCoT σε νέο υψηλό, κάνοντας την απόδοση του μοντέλου στο σύνολο δεδομένων ScienceQA να υπερβαίνει το ανθρώπινο επίπεδο (93%>88%). Ωστόσο, η τρέχουσα έρευνα αλυσίδας πολυτροπικής σκέψης αντιμετωπίζει πραγματικά όλες τις προκλήσεις; Καθώς τα αποτελέσματα των δοκιμών αναφοράς όπως το ScienceQA συνεχίζουν να ανανεώνονται, μπορούμε να πιστεύουμε ότι το πρόβλημα της πολυτροπικής συλλογιστικής έχει λυθεί;

Μέσα από εις βάθος ανάλυση, οι ερευνητές διαπίστωσαν ότι το τρέχον σημείο αναφοράς της αλυσίδας πολυτροπικής σκέψης εξακολουθεί να έχει σοβαρά προβλήματα, οδηγώντας σε υπερεκτίμηση των πραγματικών δυνατοτήτων του μοντέλου. Το τρέχον σημείο αναφοράς της αλυσίδας πολυτροπικής σκέψης εξακολουθεί να αντιμετωπίζει τα ακόλουθα τρία σοβαρά προβλήματα:Λείπει ο οπτικός τροπικός συλλογισμόςΜόνο οπτικός τροπικός συλλογισμός ενός βήματοςκαθώς καιΑνεπαρκής κάλυψη περιοχής

Αυτά τα προβλήματα περιορίζουν σοβαρά την ανάπτυξη του τομέα της πολυτροπικής αλυσίδας σκέψης. Ως εκ τούτου, οι ερευνητές πρότειναν ένα νέο σημείο αναφοράς



(Multi-Domain Multi-step Multi-modal Chain-of-Thought), στοχεύει στην επίλυση των παραπάνω προβλημάτων και στην προώθηση της προόδου των αλυσίδων σκέψης πολλαπλών τομέων, πολλαπλών βημάτων και πολλαπλών τρόπων. Οι ερευνητές διεξήγαγαν επίσης μια ολοκληρωμένη αξιολόγηση που περιελάμβανε πλούσιες ρυθμίσεις και μεθόδους πολυτροπικών συμπερασμάτων.

Οι ερευνητές διαπίστωσαν επίσης ότι τα σημερινά μεγάλα πολυτροπικά μοντέλα έχουν



Υπάρχουν τεράστιες ατέλειες απόδοσης στην απόδοσή τους, παρόλο που είχαν καλή απόδοση σε προηγούμενα παραδοσιακά σημεία αναφοράς της αλυσίδας σκέψης πολλαπλών τρόπων. Τελικά, η ερευνητική ομάδα ελπίζει



Μπορεί να γίνει πολύτιμος πόρος και να αποτελέσει μια πρωτοποριακή βάση για έρευνα σε αλυσίδες σκέψης πολλαπλών πεδίων, πολλαπλών βημάτων και πολλαπλών τρόπων.



Διεύθυνση λίστας: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

Διεύθυνση χαρτιού: https://arxiv.org/abs/2405.16473

Διεύθυνση κωδικού: https://github.com/LightChen233/M3CoT

κίνητρο

Παρά τη σημαντική πρόοδο στον τομέα της έρευνας MCoT, τα υπάρχοντα σημεία αναφοράς εξακολουθούν να έχουν πολλές ελλείψεις:

1.Λείπει ο οπτικός τροπικός συλλογισμός: Τα μοντέλα μπορούν συχνά να δημιουργήσουν συλλογισμούς και απαντήσεις που βασίζονται μόνο σε τρόπους κειμένου, κάτι που δεν αντικατοπτρίζει πραγματικά τις δυνατότητες των πολυτροπικών μοντέλων CoT.

2.Οπτικός τροπικός συλλογισμός ενός βήματος: Για παράδειγμα, χρειάζεται να δείτε το «φτερό» στην εικόνα μόνο μία φορά για να λάβετε απευθείας την απάντηση. Σε πρακτικές εφαρμογές, ο συλλογισμός πολλαπλών βημάτων είναι πιο συνηθισμένος και απαραίτητος, απαιτώντας από το μοντέλο να συνδυάζει δυναμικά πολυτροπικές πληροφορίες πολλές φορές κατά τη διάρκεια της συλλογιστικής διαδικασίας για να εκτελέσει ολοκληρωμένη συλλογιστική.

3.Λείπει ο τομέας: Για την αλυσίδα σκέψης, ο συλλογισμός κοινής λογικής και ο μαθηματικός συλλογισμός είναι σημαντικά στοιχεία σε αυτόν τον τομέα, αλλά τα υπάρχοντα σημεία αναφοράς δεν καλύπτουν σημαντικούς τομείς όπως η κοινή λογική και τα μαθηματικά, περιορίζοντας τη συνολική αξιολόγηση των δυνατοτήτων CoT πολλαπλών μέσων.



Για την αντιμετώπιση των παραπάνω ζητημάτων, οι ερευνητές ανέπτυξαν ένα νέο σημείο αναφοράς



, και ελπίζει να προωθήσει την έρευνα και την ανάπτυξη αλυσίδων σκέψης πολλαπλών πεδίων, πολλαπλών βημάτων και πολλαπλών τρόπων σκέψης.



Διαδικασία κατασκευής δεδομένων





Η κατασκευή του περιλαμβάνει τα ακόλουθα τέσσερα βασικά στάδια:



Μετάδοση αποτελεσμάτων αξιολόγησης πολυτροπικών μεγάλων γλωσσικών μοντέλων

Οι ερευνητές έχουν πραγματοποιήσει εκτεταμένα πειράματα σε πολλαπλά μοντέλα οπτικής γλώσσας μεγάλης κλίμακας (VLLM), συμπεριλαμβανομένων των Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini και GPT4V. Οι ερευνητές έχουν επίσης εξερευνήσει ορισμένες στρατηγικές προτροπής, όπως η άμεση υποβολή δείγματος, η προτροπή αλυσίδας σκέψης (CoT) [3] και η περιγραφική προτροπή (Desp-CoT) [4] και η στρατηγική προτροπής αλυσίδας σκέψης διάγραμμα σκηνής (CCoT) [5 ].





αναλύω







εξερευνώ

Σε αυτή τη βάση, οι ερευνητές διερεύνησαν περαιτέρω διάφορες πολυτροπικές μεθόδους και ρυθμίσεις που χρησιμοποιούνται σήμερα για να διερευνήσουν εάν μπορούν να λύσουν αποτελεσματικά



προβλήματα σε.

Εξερεύνηση χρήσης εργαλείου

Στο πολυτροπικό συμπέρασμα, η χρήση εργαλείου θεωρείται μια αποτελεσματική στρατηγική για τη βελτίωση της απόδοσης του μοντέλου. Οι ερευνητές αξιολόγησαν τη χρήση πολλαπλών εργαλείων σε πειράματα, συμπεριλαμβανομένων μοντέλων όπως τα HuggingGPT, VisualChatGPT, IdealGPT και Chameleon.

Στείλτε κείμενο σε μεγάλα μοντέλα χρησιμοποιώντας πολυτροπικά εργαλεία



Κακή απόδοση σε: Πειραματικά αποτελέσματα δείχνουν ότι παρόλο που αυτά τα εργαλεία έχουν καλή απόδοση σε εργασίες μεμονωμένων τρόπων, έχουν



Υπάρχει ακόμη ένα σημαντικό κενό στην απόδοση στο σημείο αναφοράς. Για παράδειγμα, όταν το HuggingGPT χειρίζεται σύνθετες εργασίες συλλογιστικής πολλαπλών βημάτων, η απόδοσή του είναι σχετικά κατώτερη λόγω της έλλειψης αποτελεσματικής χρήσης οπτικών πληροφοριών. Επιπλέον, το VisualChatGPT και το IdealGPT απέτυχαν επίσης να ανταποκριθούν στις προσδοκίες κατά το χειρισμό εργασιών που απαιτούν πολυτροπική αλληλεπίδραση. Αυτά τα αποτελέσματα υποδηλώνουν ότι τα τρέχοντα πλαίσια χρήσης εργαλείων χρειάζονται περαιτέρω βελτίωση για την καλύτερη ενσωμάτωση και χρήση πολυτροπικών πληροφοριών.



Διερεύνηση μάθησης με βάση τα συμφραζόμενα





Εξερεύνηση τελειοποίησης με εντολή



Συμπέρασμα και προοπτική



Παραπομπές:

[1] Lu et al. Μάθετε να εξηγείτε: Πολυτροπικός συλλογισμός μέσω

Απάντηση σε ερωτήσεις Thought Chains for Science. Στο Proc. του NeurIPS 2022.

[2] Zhang et al. Πολυτροπικός συλλογισμός με πολυτροπικό γράφημα γνώσης. ACL 2024.

[3] Kojima et al. Τα μοντέλα μεγάλων γλωσσών είναι μηδενικοί λογικοί. Στο Proc. του NeurIPS 2022.

[4] Wu et al. Ο ρόλος της αλυσίδας σκέψης σε σύνθετη εργασία συλλογιστικής όρασης-γλώσσας. Arxiv 2023.

[5] Mitra et al. Συνθετική αλυσίδα σκέψης που προτρέπει για μεγάλα πολυτροπικά μοντέλα. CVPR 2024.