νέα

Κυκλοφορεί ο πιο ισχυρός πράκτορας Agent Q! Το ποσοστό επιτυχίας του Llama 3 αυξήθηκε τρεις φορές και η μυστηριώδης «φράουλα» του OpenAI αναχαιτίστηκε

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Εκδότης: Ο Qiao Yang είναι τόσο νυσταγμένος

[Εισαγωγή στη Νέα Σοφία]Η νεοσύστατη εταιρεία MultiOn κυκλοφόρησε πρόσφατα το Agent Q, το οποίο ισχυρίζεται ότι είναι «προς το παρόν το πιο ισχυρό» και μπορεί να επιτύχει ποσοστό επιτυχίας 95,4% σε πραγματικές εργασίες κράτησης. Οι χρήστες του Διαδικτύου εικάζουν ότι το μυστηριώδες έργο Q* του OpenAI βρίσκεται πίσω από αυτό.

Χωρίς να περιμένει την κυκλοφορία του έργου Q*/Strawberry του OpenAI, μια start-up εταιρεία που ονομάζεται MultiOn κυκλοφόρησε πρώτα έναν πράκτορα με το όνομα Q.


Είμαστε πολύ ενθουσιασμένοι που ανακοινώνουμε ότι το Agent Q, η δουλειά μας τους τελευταίους 6 μήνες, είναι τώρα ζωντανή! Αυτό είναι ένα πλαίσιο αυτοεποπτευόμενου πράκτορα που μπορεί να συλλογιστεί και να αναζητήσει και να εκτελέσει αυτο-παιχνίδι και ενισχυτική μάθηση μέσω πραγματικών εργασιών στο Διαδίκτυο για να επιτύχει αυτοδιόρθωση και αυτόνομη βελτίωση!

Αυτό που τράβηξε ακόμη μεγαλύτερη προσοχή ήταν ότι όταν ο MultiOn Lianchuang/CEO Div Garg ανέφερε τον Agent Q στο Twitter, δεν ξέχασε ποτέ να φέρει αυτό το εμφανές.


Αυτό προσέλκυσε συνεχείς θεατές από όλα τα κοινωνικά στρώματα Μερικοί άνθρωποι υπέθεσαν ότι το μεγάλο αφεντικό πίσω από το Agent Q ήταν το έργο Q* του OpenAI.

Όχι μόνο αυτό, το MultiOn άνοιξε επίσης έναν ανεξάρτητο λογαριασμό Twitter για τον πράκτορα Q, ο οποίος συχνά βγάζει διάφορες περίεργες παρατηρήσεις που είναι «δύσκολο να διακρίνεις μεταξύ ανθρώπων και μηχανών».

Η εικόνα φόντου και οι βασικές πληροφορίες του λογαριασμού είναι γεμάτες φράουλες και οι φωτογραφίες με φράουλες στον κήπο του που είχε δημοσιεύσει ο Ultraman στο παρελθόν επικολλήθηκαν απευθείας.



Αλλά το εκπληκτικό είναι ότι αυτός ο μυστηριώδης λογαριασμός έχει πολλούς οπαδούς και KOL, όπως ο Διευθύνων Σύμβουλος του Y-Combinator Garry Tan, ο διευθύνων σύμβουλος της Quora Adam D'Angelo, ο αρθρογράφος των New York Times Kevin Roose, ο καθηγητής Wharton AI Ethan Mollick και πολλά μέλη του προσωπικού του OpenAI.

Ακόμη και ο Ultraman ανέλαβε πρόσφατα την πρωτοβουλία να αλληλεπιδράσει με αυτόν τον μυστηριώδη λογαριασμό και σχολίασε την ανάρτησή του που κορόιδευε το "AGI φτάνει στο επίπεδο 2".


Είτε αυτό το κύμα λειτουργιών του MultiOn είναι καθαρά διαφημιστική εκστρατεία ή εάν είναι σε συνδυασμό με την προώθηση του Q* από το OpenAI, εξαρτάται από τη γνώμη του κόσμου.


Είτε αυτός θα είναι ένας από τους καλύτερους πράκτορες AI που έχουν κυκλοφορήσει ποτέ, είτε ο Div Garg θα καταστρέψει τη φήμη της εταιρείας εμπλακώντας στη χειρότερη δυνατή διαφημιστική εκστρατεία. Στην κοινότητα AI, αυτό είναι αντιπαραγωγικό.

Παραμερίζοντας όλες τις διαμάχες, ας ρίξουμε πρώτα μια ματιά στο πόσο τεχνικό περιεχόμενο έχει αυτό το Agent Q.

Σύμφωνα με τον CEO Div Garg, ο Agent Q δεν έχει μόνο δυνατότητες σχεδιασμού και συλλογισμού, αλλά και ικανότητες αυτοίασης. Σε μία μόνο ημέρα εκπαίδευσης, βελτίωσαν την απόδοση μηδενικού δείγματος του Llama 3 κατά 340%, επιτυγχάνοντας ποσοστό επιτυχίας 95,4% σε εργασίες κράτησης πραγματικού κόσμου.


Αυτό είναι ένα σημαντικό βήμα προς τα εμπρός για τους αυτόνομους πράκτορες τεχνητής νοημοσύνης να λαμβάνουν περίπλοκες και αξιόπιστες αποφάσεις σε περιβάλλοντα πραγματικού κόσμου.

Στο επίσημο βίντεο επίδειξης, ο πράκτορας Q μπορεί να εκτελέσει εργασίες όπως κρατήσεις εστιατορίων, συσκέψεων και αεροπορικών εισιτηρίων, που περιλαμβάνουν σχεδιασμό πολλαπλών βημάτων, συλλογισμό, λήψη αποφάσεων και αλληλεπίδραση με διάφορες εφαρμογές.

Παρόλο που η ερευνητική ομάδα του MultiOn έχει ανεβάσει την εργασία στον επίσημο ιστότοπο, το Agent Q δεν είναι ακόμη ανοιχτό για δοκιμή και πρέπει να εγγραφείτε στη λίστα αναμονής για να υποβάλετε αίτηση για ευκαιρίες εσωτερικών δοκιμών.


Διεύθυνση χαρτιού: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

Ο επίσημος ιστότοπος ισχυρίζεται ότι το Agent Q θα είναι ανοιχτό σε προγραμματιστές και χρήστες MultiOn αργότερα φέτος.

Τεχνική ερμηνεία

Τα τελευταία χρόνια, παρόλο που το LLM έχει ανατρέψει πλήρως τον τομέα του NLP και έχει επιτύχει αξιοσημείωτα επιτεύγματα, εξακολουθεί να αντιμετωπίζει μεγάλες προκλήσεις σε διαδραστικά περιβάλλοντα, ειδικά σε εργασίες συλλογισμού πολλαπλών βημάτων, όπως η πλοήγηση ιστοσελίδων.

Οι τρέχουσες μέθοδοι εκπαίδευσης που βασίζονται σε στατικά σύνολα δεδομένων γλώσσας είναι ανεπαρκείς για την προσαρμογή αυτών των μοντέλων σε δυναμικές αλληλεπιδράσεις στον πραγματικό κόσμο.

Η εμφάνιση του Agent Q είναι ένα σημαντικό ορόσημο στον τομέα των πρακτόρων τεχνητής νοημοσύνης, ο οποίος συνδυάζει την αναζήτηση, τον αυτοστοχασμό και την ενίσχυση της εκμάθησης για να είναι σε θέση να σχεδιάζει και να επισκευάζει τον εαυτό του.

Με την εισαγωγή ενός νέου πλαισίου μάθησης και συμπερασμάτων, το Agent Q αντιμετωπίζει τους περιορισμούς των προηγούμενων τεχνικών εκπαίδευσης LLM, επιτρέποντας την αυτόνομη πλοήγηση στον ιστό.


Ανάλυση των βημάτων του Agent Q κατά την εκτέλεση προγραμματισμένων εργασιών

Προβλήματα με τις τρέχουσες μεθόδους

Οι τρέχουσες μέθοδοι, όπως η εποπτευόμενη λεπτομέρεια σε προσεκτικά σχεδιασμένες επιδείξεις εμπειρογνωμόνων, συχνά αποδίδουν ανεπαρκώς σε εργασίες πολλαπλών βημάτων agent λόγω συσσωρευμένων σφαλμάτων και περιορισμένων δεδομένων εξερεύνησης, απαιτώντας έτσι περίπλοκη λήψη αποφάσεων και προσαρμογή σε δυναμικά περιβάλλοντα Όπως μαθαίνετε, οι μη βέλτιστες στρατηγικές αναδύομαι.

Μέθοδοι και εξαρτήματα του Agent Q

Το Agent Q συνδυάζει την καθοδηγούμενη αναζήτηση δέντρου Monte Carlo (MCTS) και τον αυτοαναστοχασμό AI και τις επαναληπτικές μεθόδους λεπτομέρειας, ενώ χρησιμοποιεί αλγόριθμους RLHF όπως το Direct Preference Optimization (DPO) για να επιτρέψει στους πράκτορες LLM να μάθουν από επιτυχημένες και αποτυχημένες τροχιές και να βελτιώσουν την πολλαπλή γενίκευση ικανότητα σε συλλογιστικές εργασίες βήμα προς βήμα.

Τα βασικά στοιχεία του Agent Q περιλαμβάνουν:

1. Καθοδηγούμενη αναζήτηση με βάση το MCTS: αυτόνομα δημιουργεί δεδομένα εξερευνώντας διαφορετικές συμπεριφορές και ιστοσελίδες και επιτυγχάνει μια ισορροπία μεταξύ εξερεύνησης και εκμετάλλευσης.

Το MCTS χρησιμοποιεί υψηλότερες θερμοκρασίες δειγματοληψίας και διαφορετικές προτροπικές λέξεις για να επεκτείνει τον χώρο συμπεριφοράς και να διασφαλίσει ότι μπορούν να συλλεχθούν διαφορετικές και βέλτιστες τροχιές.

2. Αυτοκριτική με τεχνητή νοημοσύνη: Σε κάθε βήμα, η αυτοκριτική βάσει τεχνητής νοημοσύνης μπορεί να παρέχει πολύτιμη ανατροφοδότηση για τη βελτιστοποίηση της λήψης αποφάσεων του εκπροσώπου. Αυτή η ανατροφοδότηση σε επίπεδο βήματος είναι ζωτικής σημασίας για μακροπρόθεσμες εργασίες, επειδή τα αραιά σήματα συχνά οδηγούν σε μαθησιακές δυσκολίες.


3. Βελτιστοποίηση απευθείας προτιμήσεων: Ο αλγόριθμος DPO προσαρμόζει το μοντέλο κατασκευάζοντας ζεύγη προτιμήσεων δεδομένων που δημιουργούνται από το MCTS. Αυτή η μέθοδος εκπαίδευσης εκτός πολιτικής επιτρέπει στο μοντέλο να μαθαίνει αποτελεσματικά από το συγκεντρωτικό σύνολο δεδομένων, συμπεριλαμβανομένων των υποβέλτιστων κλάδων που εξερευνήθηκαν κατά τη διαδικασία αναζήτησης, βελτιώνοντας έτσι το ποσοστό επιτυχίας σε πολύπλοκα περιβάλλοντα.

Πείραμα αξιολόγησης

Στο έργο της προσομοίωσης ενός ηλεκτρονικού καταστήματος που έχει δημιουργηθεί με βάση το μοντέλο xLAM-v0.1-r, ο πράκτορας πρέπει να ψάξει για να βρει συγκεκριμένα προϊόντα.

Αν και μέθοδοι όπως RFT, DPO και αναζήτηση δέσμης μπορούν επίσης να επιτύχουν ορισμένες βελτιώσεις, το μέγεθος δεν είναι τόσο υψηλό όσο το AgentQ.

Εάν οι μέθοδοι Agent Q και MCTS χρησιμοποιούνται ταυτόχρονα, το ποσοστό επιτυχίας της εργασίας μπορεί να αυξηθεί από 28,6% σε 50,5%, που ισοδυναμεί με το μέσο ανθρώπινο επίπεδο 50%.


Στην πραγματική εργασία κράτησης του Open Table, ο πράκτορας πρέπει να εκτελέσει πολλά βήματα, όπως εύρεση της αντίστοιχης σελίδας εστιατορίου, επιλογή της κατάλληλης ημερομηνίας και ώρας, επιλογή της κατάλληλης θέσης σύμφωνα με τις προτιμήσεις του χρήστη, υποβολή των στοιχείων επικοινωνίας του χρήστη και, τέλος, συμπλήρωση το έργο.

Αυτή η πολυπλοκότητα είναι προφανώς ένα βήμα παραπάνω από το Webshop. Σύμφωνα με στατιστικά στοιχεία μετά το πείραμα, ο μέσος αριθμός βημάτων για την ολοκλήρωση εργασιών στο Webshop είναι 6,8, ενώ το Open Table έχει διπλασιαστεί σε 13,9.

Δεδομένου ότι το Open Table δεν είναι ένα προσομοιωμένο σύνολο δεδομένων, αλλά ένα πραγματικό διαδικτυακό περιβάλλον, είναι δύσκολο να πραγματοποιηθεί αυτοματοποιημένη αξιολόγηση, επομένως, το έγγραφο χρησιμοποιεί το GPT-4-V ως αξιολογητή για να ανταμείψει τον πράκτορα για κάθε βήμα της λειτουργίας με βάση προκαθορισμένα. δείκτες και σημειώστε εάν η εργασία έχει ολοκληρωθεί.


Ο παράγοντας Q αύξησε το ποσοστό επιτυχίας μηδενικού δείγματος του LLaMa-3 από 18,6% σε 81,7%, με αύξηση βαθμολογίας 340%, μετά από μόνο μία ημέρα αυτόνομης συλλογής δεδομένων.

Μετά την προσθήκη διαδικτυακής αναζήτησης δέντρων Monte Carlo, το ποσοστό επιτυχίας μπορεί να αυξηθεί περαιτέρω στο 95,4%.


Παρόλο που ο Agent Q έχει επιδείξει ισχυρές δυνατότητες πλοήγησης στον ιστό, αναζήτησης, συλλογισμού και σχεδιασμού στα παραπάνω πειράματα αξιολόγησης, υπάρχει ακόμη πολύς χώρος για συζήτηση και βελτίωση στις μεθόδους που χρησιμοποιούνται επί του παρόντος:

- Σχεδιασμός συλλογιστικού αλγόριθμου: Η βασική πρόκληση του Agent Q έγκειται επί του παρόντος στην αδύναμη συλλογιστική του ικανότητα, η οποία περιορίζει τις στρατηγικές εξερεύνησης και αναζήτησης Ενδέχεται να υπάρχουν κέρδη απόδοσης από τη λεπτομέρεια.

- Ο πράκτορας Q προτιμά το MCTS για αναζήτηση λόγω της προηγούμενης επιτυχημένης εμπειρίας του MCTS με εργασίες μαθηματικών και κωδικοποίησης, αλλά μπορεί να προκαλέσει σημαντικό αριθμό επικίνδυνων αλληλεπιδράσεων σε πραγματικό περιβάλλον. Η αλλαγή της στρατηγικής αναζήτησής σας μπορεί να είναι μια πιο κατάλληλη επιλογή.

- Διαδικτυακή ασφάλεια και αλληλεπίδραση: Επί του παρόντος, ο Πράκτορας Q επιτρέπει στην πραγματικότητα μεγάλο βαθμό αυτόνομης εξερεύνησης και αυτοαξιολόγησης, με περιορισμένη ανθρώπινη παρέμβαση. Ωστόσο, ενδέχεται να παρουσιαστούν πολλά σφάλματα στη λειτουργία του πράκτορα, ειδικά σε κρίσιμες εργασίες όπως το ηλεκτρονικό ταχυδρομείο, η πληρωμή και η αρχειοθέτηση.

Εάν δεν αντιμετωπιστούν ζητήματα ασφάλειας, τα πραγματικά σενάρια εργασιών με δυνατότητα ανάπτυξης του Agent Q θα είναι πολύ περιορισμένα και ενδέχεται να απαιτηθούν στο μέλλον πρόσθετα μοντέλα κριτικής ασφάλειας και ρυθμίσεις εκπαίδευσης ανθρώπινου δυναμικού.

Παραπομπές:

https://x.com/rm_rafailov/status/1823462897751875701

https://x.com/ai_for_success/status/1823447309008490730

https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities