Νέα αποτελέσματα του μεγάλου μοντέλου της Apple: επιθεώρηση σκηνής κλήση εργαλείου μεγάλου μοντέλου, netizen: Η Siri πρέπει επίσης να εργαστεί σκληρά

Νέα αποτελέσματα του μεγάλου μοντέλου της Apple: επιθεώρηση σκηνής κλήση εργαλείου μεγάλου μοντέλου, netizen: Η Siri πρέπει επίσης να δουλέψει σκληρά

2024-08-14

Το Crecy προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Η ομάδα της Apple κυκλοφόρησε ένα νέο επίτευγμα ανοιχτού κώδικα - ένα σύνολο σημείων αναφοράς σχετικά με την ικανότητα κλήσης εργαλείων μεγάλων μοντέλων.

Αυτό το σημείο αναφοράς χρησιμοποιεί καινοτόμαΜέθοδος αξιολόγησης βάσει σεναρίων, το οποίο μπορεί να αντικατοπτρίζει καλύτερα το επίπεδο του μοντέλου στο πραγματικό περιβάλλον.

Εισάγει επίσης σημαντικά σενάρια που δεν δίνονται προσοχή στα παραδοσιακά πρότυπα, όπως η αλληλεπίδραση διαλόγου και η κρατική εξάρτηση.

Αυτό το σύνολο δοκιμαστικών σημείων αναφοράς ονομάζεται ToolSandbox και ο Pang Ruoming, επικεφαλής της ομάδας βασικών μοντέλων της Apple, συμμετείχε επίσης στην ερευνητική εργασία.

Το ToolSandbox αντισταθμίζει την έλλειψη αξιολόγησης βάσει σεναρίων των υφιστάμενων προτύπων δοκιμών και μειώνει το χάσμα μεταξύ των συνθηκών δοκιμής και των πραγματικών εφαρμογών.

Και όσον αφορά την αλληλεπίδραση, ο συγγραφέας αφήνει το GPT-4o να ενεργεί ως χρήστης και να συνομιλεί με το υπό δοκιμή μοντέλο, προσομοιώνοντας έτσι σενάρια πραγματικού κόσμου.

Για παράδειγμα, πείτε στο GPT-4o ότι δεν είστε πλέον βοηθός, αλλά θέλετε να παίξετε τον χρήστη Α που μιλά με τον χρήστη Β και, στη συνέχεια, κάντε μια σειρά από συγκεκριμένα αιτήματα.

Επιπλέον, ο συγγραφέας χρησιμοποίησε επίσης το ToolSandbox για να δοκιμάσει ορισμένα βασικά μοντέλα και τα αποτελέσματα συνολικάΤα μοντέλα κλειστού κώδικα έχουν υψηλότερη βαθμολογία από τα μοντέλα ανοιχτού κώδικα, το ισχυρότερο από τα οποία είναι το GPT-4o.

Ο προγραμματιστής εφαρμογών iOS Nick Dobos είπε ότι το σύνολο προτύπων της Apple είναι συνοπτικό και σαφές.

Ταυτόχρονα, επεσήμανε ότι το ChatGPT είναι ήδη κάπως τεντωμένο όταν αντιμετωπίζει τρία εργαλεία, εάν η Siri θέλει να διαχειριστεί δεκάδες ή εκατοντάδες εφαρμογές σε κινητά τηλέφωνα, πρέπει επίσης να βελτιώσει τις δυνατότητες κλήσης εργαλείων.

Το συμπέρασμα είναι ότι η έρευνα του ToolSandbox μπορεί να αποσαφηνίσει την κατεύθυνση της μελλοντικής έρευνας και ανάπτυξης της Siri.

Δοκιμάστε το μοντέλο σε ένα σενάριο

Όπως αναφέρθηκε παραπάνω, το ToolSandbox υιοθετεί μια μέθοδο δοκιμής που βασίζεται σε σενάρια και διαδραστική.

Συγκεκριμένα, το ToolSandbox περιλαμβάνει συνολικά σχεδόν 2.000 σενάρια σε επτά τύπους, συμπεριλαμβανομένης της επίκλησης ενός/πολλαπλού εργαλείου, ενός/πολλαπλού γύρου διαλόγου, εξάρτηση από την κατάσταση, τυποποίηση και ανεπαρκείς πληροφορίες.

Τα πρώτα είναι σχετικά εύκολα κατανοητά Ακολουθούν μερικές εξηγήσεις για τους ακόλουθους τρεις τύπους σκηνών:

Εξάρτηση κατάστασης: Η εκτέλεση ενός εργαλείου εξαρτάται από ορισμένες παγκόσμιες καταστάσεις και αυτή η κατάσταση πρέπει πρώτα να τροποποιηθεί από άλλα εργαλεία.
Τυποποίηση: Μετατροπή εκφράσεων φυσικής γλώσσας στην τυπική μορφή που απαιτείται από το εργαλείο, η οποία μπορεί να απαιτεί τη βοήθεια άλλων εργαλείων.
Ανεπαρκείς πληροφορίες: Τα βασικά εργαλεία που απαιτούνται για την ολοκλήρωση της εργασίας λείπουν εσκεμμένα. Ελέγξτε εάν το μοντέλο μπορεί να εντοπίσει καταστάσεις όπου δεν μπορεί να ολοκληρωθεί.

Σε αυτά τα σενάρια, το ToolSandbox θα επικεντρωθεί σε τρεις δείκτες του μοντέλου:

Η συνολική απόδοση, δηλαδή η μέση ομοιότητα με τις προκαθορισμένες απαντήσεις σε διάφορα σενάρια
Ανθεκτικότητα, χρησιμοποιήστε διάφορες μεθόδους για να τροποποιήσετε και να παρεμποδίσετε το εργαλείο και να παρατηρήσετε την απόδοση του μοντέλου σε αυτό το περιβάλλον
Αποδοτικότητα, δηλαδή ο μέσος αριθμός γύρων ολοκλήρωσης εργασιών

Όσον αφορά τα εργαλεία, ο συγγραφέας επέλεξε 34 συνδυαστικές συναρτήσεις Python ως εργαλεία, τα οποία είναι συγκρίσιμα με την πολυπλοκότητα των πραγματικών σεναρίων.

Περιλαμβάνει τόσο εγγενή εργαλεία Python όσο και ορισμένα ενσωματωμένα εργαλεία RapidAPI, με λειτουργίες που καλύπτουν πολλούς κοινούς τομείς όπως αναζήτηση, διάλογος, πλοήγηση, καιρός και επεξεργασία εικόνας.

Όσον αφορά τη διαδικασία, το πρώτο βήμα είναι η προετοιμασία του σεναρίου δοκιμής. Οι ερευνητές θα ορίσουν και θα αποθηκεύσουν την αρχική κατάσταση του κόσμου και ταυτόχρονα θα χρησιμοποιήσουν το βαθμονομημένο μοντέλο GPT-4o για να δημιουργήσουν το αρχικό μήνυμα χρήστη.

Στη συνέχεια, μπαίνοντας στο στάδιο της διαδραστικής εκτέλεσης, το σύστημα αρχικοποιεί πρώτα τον Δίαυλο μηνυμάτων ως κανάλι επικοινωνίας μεταξύ των ρόλων και διαμορφώνει το μοντέλο που παίζει τον χρήστη και το υπό δοκιμή μοντέλο.

Όταν ξεκινά ο βρόχος συνομιλίας, το μοντέλο που προσομοιώνει τον χρήστη στέλνει ένα αρχικό μήνυμα και το υπό δοκιμή μοντέλο λαμβάνει το μήνυμα και αποφασίζει για την επόμενη ενέργεια—είτε απαντά απευθείας στον χρήστη είτε καλώντας ένα εργαλείο για να αλληλεπιδράσει με το περιβάλλον.

Εάν το μοντέλο επιλέξει να καλέσει το εργαλείο, παρέχει τις απαραίτητες παραμέτρους σε μορφή JSON και στη συνέχεια το περιβάλλον εκτέλεσης ερμηνεύει και εκτελεί αυτήν την κλήση, ενδεχομένως ενημερώνοντας την παγκόσμια κατάσταση και χειρίζεται πιθανές συνθήκες παράλληλης κλήσης.

Αφού επιστραφούν τα αποτελέσματα της εκτέλεσης στο υπό δοκιμή μοντέλο, το υπό δοκιμή μοντέλο καθορίζει ξανά την επόμενη ενέργεια Αυτή η διαδικασία συνεχίζεται μέχρι ο προσομοιωτής χρήστη να πιστέψει ότι η εργασία έχει ολοκληρωθεί (ή δεν μπορεί να ολοκληρωθεί), οπότε και θα καλέσει το end_conversation. εργαλείο για τον τερματισμό της συνομιλίας.

Κατά τη διάρκεια ολόκληρης της διαδικασίας αλληλεπίδρασης, το σύστημα καταγράφει όλα τα μηνύματα και τις αλλαγές κατάστασης για να σχηματίσει ένα πλήρες «κομμάτι διαλόγου», το οποίο στη συνέχεια εισέρχεται στο στάδιο αξιολόγησης.

Η αξιολόγηση χρησιμοποιεί προκαθορισμένα «ορόσημα» και «ναρκοπέδια» για τη μέτρηση της απόδοσης του μοντέλου πράκτορα.

ορόσημοΤα βασικά συμβάντα για την ολοκλήρωση της εργασίας ορίζονται, σχηματίζοντας ένα κατευθυνόμενο άκυκλο γράφημα για να αντικατοπτρίζει τις χρονικές εξαρτήσεις.

Το σύστημα αναζητά την καλύτερη αντιστοιχία μεταξύ γεγονότων και ορόσημων στην τροχιά, διατηρώντας παράλληλα την τοπολογική σειρά των ορόσημων.

ναρκοπέδιοΟρίζει απαγορευμένα συμβάντα και χρησιμοποιείται κυρίως για να ανιχνεύσει εάν το μοντέλο έχει παραισθήσεις λόγω ανεπαρκών πληροφοριών.

Για παράδειγμα, το παρακάτω σχήμα δείχνει ένα παράδειγμα αξιολόγησης ναρκοπεδίου υπό το σενάριο "ανεπαρκείς πληροφορίες".

Σε αυτήν την εργασία, καθώς η τρέχουσα χρονική σήμανση δεν είναι διαθέσιμη, το μοντέλο δεν πρέπει να καλεί το εργαλείο timestamp_diff, αλλά το μοντέλο μαντεύει εσφαλμένα την τρέχουσα χρονική σήμανση και καλεί το εργαλείο, με αποτέλεσμα τη βαθμολογία 0 για αυτόν τον γύρο.

Τελικά, το σύστημα υπολογίζει μια σύνθετη βαθμολογία που είναι το γινόμενο της μέσης βαθμολογίας αγώνα ορόσημο και της ποινής του ναρκοπεδίου.

Επιπλέον, το σύστημα θα μετρήσει επίσης τον μέσο αριθμό γύρων που απαιτούνται για την ολοκλήρωση της εργασίας ως συμπληρωματικό δείκτη για την αξιολόγηση της αποτελεσματικότητας του μοντέλου.

Τα πολύπλοκα σενάρια αλληλεπίδρασης εξακολουθούν να αποτελούν πρόκληση

Σε γενικές γραμμές,Τα μοντέλα κλειστού κώδικα αποδίδουν καλύτερα από τα μοντέλα ανοιχτού κώδικα όσον αφορά τις κλήσεις εργαλείων。

Αυτό με την υψηλότερη μέση βαθμολογία είναι το GPT-4o, με βαθμολογία 73,0 Είναι το μόνο που ξεπερνά το 70 και πέτυχε την υψηλότερη βαθμολογία σε τέσσερα από τα επτά σενάρια που έθεσε ο συγγραφέας.

Επιπλέον, το GPT-4o είναι επίσης εξαιρετικά ισχυρό. Ο συγγραφέας χρησιμοποίησε 8 μεθόδους για να τροποποιήσει το εργαλείο και το GPT-4o είχε την υψηλότερη βαθμολογία ευρωστίας μεταξύ τους.

Ακολουθεί στενά το Claude 3-Opus, με μέσο όρο βαθμολογίας 69,2, που ξεπερνά το GPT-4o σε σκηνές με ανεπαρκείς πληροφορίες, και στη συνέχεια κάποιες άλλες εκδόσεις του GPT και του Claude.

Το Gemini της Google υστερεί σχετικά.

Η υψηλότερη μέση βαθμολογία του μοντέλου ανοιχτού κώδικα είναι μόνο 31,4 Μεταξύ αυτών, η διάσημη βαθμολογία Mistral-7B είναι 29,8, αλλά πέτυχε την καλύτερη βαθμολογία 76,8 στο μεμονωμένο στοιχείο ανεπαρκούς πληροφόρησης.

Ακόμη και μερικά από τα μοντέλα ανοιχτού κώδικα, όπως το Gorilla και το Command-R, δεν μπορούν να χειριστούν καθόλου τις αποκρίσεις εργαλείων ή μπορούν να ολοκληρώσουν μόλις έναν γύρο κλήσεων εργαλείων.

Περαιτέρω ανάλυση έδειξε ότιΤα μοντέλα ανοιχτού κώδικα δεν μπορούν να προσδιορίσουν πότε είναι ώρα να καλέσετε εργαλεία, προτιμώντας να αντιμετωπίζεται το πρόβλημα ως μια εργασία δημιουργίας καθαρού κειμένου.

Από τη διάσταση της εργασίας, το μεγάλο μοντέλο έχει καλή απόδοση σε κλήσεις μεμονωμένων/πολλαπλών εργαλείων και αιτήματα χρήστη ενός γύρου, αλλάΤο πλεονέκτημα εξασθενεί σε συνομιλίες πολλαπλών στροφών και εργασίες που εξαρτώνται από την κατάσταση。

Σε GPT, Claude, Gemini και άλλες οικογένειες,Τα μεγαλύτερα μοντέλα έχουν πιο εμφανή πλεονεκτήματα στις εργασίες επίκλησης πολλαπλών εργαλείων και διαλόγου πολλαπλών στροφών.;αλλάΣε εργασίες που εξαρτώνται από το κράτος, μοντέλα μικρού και μεσαίου μεγέθους(如GPT-3.5, Claude-3-Sonnet)Αντιθέτως, είναι καλύτερο από το μεγάλο μοντέλο(GPT-4, Claude-3-Opus)αποδίδουν καλύτερα。

Επιπλέον, η κανονικοποίηση είναι μια σημαντική πρόκληση για όλα τα μοντέλα, ειδικά για σενάρια που απαιτούν εργαλεία για κανονικοποίηση, και η κανονικοποίηση των παραμέτρων που σχετίζονται με το χρόνο είναι επίσης πολύ δύσκολη.

Η έρευνα για την ευρωστία δείχνει ότι η ευαισθησία του μοντέλου στις αλλαγές στην περιγραφή του εργαλείου, στις πληροφορίες παραμέτρων κ.λπ. ποικίλλει πολύ και δεν υπάρχουν προφανείς κανόνες.

Όσον αφορά την απόδοση, τα ισχυρότερα μοντέλα είναι συνήθως πιο αποδοτικά, αλλά υπάρχουν εξαιρέσεις, για παράδειγμα, η απόδοση των μοντέλων της σειράς Claude είναι γενικά καλύτερη από το GPT.

Εν ολίγοις, τα μεγάλα μοντέλα εξακολουθούν να αντιμετωπίζουν πολλές προκλήσεις όταν χρησιμοποιούν εργαλεία για την αντιμετώπιση πολύπλοκων σεναρίων αλληλεπίδρασης στον πραγματικό κόσμο.

Σχετικά με τον συγγραφέα

Τα μέλη της ομάδας ToolSandbox προέρχονται από τις ομάδες μηχανικής εκμάθησης, επιστήμης δεδομένων, βασικών μεγάλων μοντέλων και άλλων ομάδων της Apple.

Ο πρώτος συγγραφέας είναι ένας Κινέζος μηχανικός μηχανικής εκμάθησηςΤζιαρούι Λου, αποφοίτησε από το Πανεπιστήμιο Tsinghua με πτυχίο κατά τη διάρκεια των σπουδών του, υπηρέτησε επίσης ως βοηθός ερευνητής στο εργαστήριο του καθηγητή Zhu Jun.

Στη συνέχεια, ο Lu απέκτησε μεταπτυχιακό στη μηχανική μάθηση από το Πανεπιστήμιο Carnegie Mellon και εντάχθηκε στην Apple το 2020 μετά την αποφοίτησή του.

Συμπεριλαμβανομένου του Λου, υπογεγραμμένοΟι 10 από τους 12 συγγραφείς είναι Κινέζοι, και όλοι έχουν υπόβαθρο σε σχολές κύρους.

Αυτό περιλαμβάνει επίσης τον επικεφαλής της βασικής ομάδας μεγάλων μοντέλωνPang Ruoming(Ruoming Pang).

Επιπλέον, ένας διευθυντής μηχανικός που έχει εργαστεί στην Apple για 8 χρόνιαBernhard Aumayerσυμμετείχε επίσης σε αυτό το έργο.

Διεύθυνση χαρτιού:
https://arxiv.org/abs/2408.04682

νέα

Νέα αποτελέσματα του μεγάλου μοντέλου της Apple: επιθεώρηση σκηνής κλήση εργαλείου μεγάλου μοντέλου, netizen: Η Siri πρέπει επίσης να δουλέψει σκληρά

Δοκιμάστε το μοντέλο σε ένα σενάριο

Τα πολύπλοκα σενάρια αλληλεπίδρασης εξακολουθούν να αποτελούν πρόκληση

Σχετικά με τον συγγραφέα

Εισαγωγή

Τα στοιχεία επικοινωνίας μου