νέα

Ταυτόχρονος έλεγχος κινητών τηλεφώνων και υπολογιστών, 100 εργασίες, συγκριτικά σημεία αξιολόγησης πρακτόρων μεταξύ συστημάτων είναι διαθέσιμα

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η στήλη Ixiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Το CRAB, ένα σημείο αναφοράς πολλαπλών μέσων πολλαπλών μέσων, καθοδηγείται από την κοινότητα CAMEL AI και αναπτύσσεται από κοινού από ερευνητές από την Οξφόρδη, το Στάνφορντ, το Χάρβαρντ, το KAUST, το Eigent AI και άλλα ιδρύματα. Το πλαίσιο CAMEL που αναπτύχθηκε από την κοινότητα CAMEL AI είναι το πρώτο έργο ανοιχτού κώδικα πολλαπλών πρακτόρων που βασίζεται σε μεγάλα γλωσσικά μοντέλα. Ως εκ τούτου, τα περισσότερα από τα μέλη της κοινότητας είναι ερευνητές και μηχανικοί με πλούσια επιστημονική έρευνα και πρακτική εμπειρία στον τομέα των ευφυών πρακτόρων.

Οι πράκτορες τεχνητής νοημοσύνης είναι μία από τις πιο ελκυστικές κατευθύνσεις έρευνας στη μεγάλη κοινότητα γλωσσικών μοντέλων.Το πλαίσιο πρακτόρων μπορεί να προγραμματίσει πολλαπλά LLM και να υποστηρίξει πολλούς πράκτορες για την ολοκλήρωση εργασιών που δίνονται από τον χρήστη με συνεργατικό ή ανταγωνιστικό τρόπο.

Επί του παρόντος, οι πράκτορες συνδυάζονται όλο και περισσότερο με πολυτροπικά μοντέλα μεγάλης κλίμακας (MLM).Υποστηρίζει την εκτέλεση εργασιών σε περιβάλλοντα γραφικής διεπαφής χρήστη (GUI) σε διάφορα λειτουργικά συστήματα, συμπεριλαμβανομένου του ιστού, των επιτραπέζιων υπολογιστών και των smartphone. Ωστόσο, τα τρέχοντα σημεία αναφοράς για αυτό το είδος αξιολόγησης απόδοσης παράγοντα εξακολουθούν να έχουν πολλούς περιορισμούς, όπως η πολυπλοκότητα των εργασιών κατασκευής και των περιβαλλόντων δοκιμών και η μοναδικότητα των δεικτών αξιολόγησης.

Ως απάντηση σε αυτά τα προβλήματα, αυτό το έγγραφο προτείνει ένα νέο πλαίσιο αναφοράς CRAB για έναν παράγοντα διασταυρούμενου περιβάλλοντος.Το CRAB υιοθετεί μια λεπτομερή προσέγγιση αξιολόγησης με βάση το γράφημα και παρέχει αποτελεσματικά εργαλεία κατασκευής εργασιών και αξιολογητών. Η ερευνητική ομάδα αυτού του άρθρου ανέπτυξε επίσης ένα σύνολο δεδομένων δοκιμών πολλαπλών πλατφορμών CRAB Benchmark-v0 με βάση το πλαίσιο CRAB, το οποίο καλύπτει 100 εργασίες που μπορούν να εκτελεστούν σε περιβάλλοντα υπολογιστή και smartphone, συμπεριλαμβανομένων τόσο των παραδοσιακών εργασιών μιας πλατφόρμας όσο και των σύνθετων εργασιών πολλαπλής πλατφόρμας. εργασίες πλατφόρμας που πρέπει να ολοκληρωθούν με τη λειτουργία πολλών συσκευών ταυτόχρονα.



  • Τίτλος διατριβής: CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents
  • Διεύθυνση χαρτιού: https://arxiv.org/abs/2407.01511
  • Αποθετήριο κώδικα: https://github.com/camel-ai/crab

Ο συγγραφέας επέλεξε τέσσερα επί του παρόντος δημοφιλή πολυτροπικά μοντέλα για τη διεξαγωγή προκαταρκτικών πειραμάτων.

εισαγωγή

Ως νέο πλαίσιο αναφοράς αξιολόγησης πρακτόρων, το CRAB (Cross-environment Agent Benchmark) χρησιμοποιείται κυρίως για την αξιολόγηση της απόδοσης πρακτόρων που βασίζονται σε πολυτροπικά γλωσσικά μοντέλα (MLM) σε εργασίες πολλαπλού περιβάλλοντος.Το CRAB μπορεί να προσομοιώσει σενάρια πραγματικού κόσμου όπου οι άνθρωποι χρησιμοποιούν πολλαπλές συσκευές ταυτόχρονα για να ολοκληρώσουν πολύπλοκες εργασίες., Όπως φαίνεται στην επίδειξη, το CRAB μπορεί να χρησιμοποιηθεί για την αξιολόγηση της διαδικασίας ενός πράκτορα που χειρίζεται ταυτόχρονα ένα επιτραπέζιο σύστημα Ubuntu και ένα σύστημα κινητού τηλεφώνου Android για να ολοκληρώσει την αποστολή πληροφοριών.



Επικοινωνήστε μαζί μας 5e150392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Φανταστείτε ότι εάν ένας έξυπνος πράκτορας έχει τη δυνατότητα να χειρίζεται με ακρίβεια υπολογιστές και κινητά τηλέφωνα ταυτόχρονα σύμφωνα με ανθρώπινες οδηγίες, πολλές πολύπλοκες λειτουργίες λογισμικού μπορούν να ολοκληρωθούν από τον έξυπνο πράκτορα, βελτιώνοντας έτσι τη συνολική απόδοση εργασίας.Προκειμένου να επιτευχθεί αυτός ο στόχος, πρέπει να δημιουργήσουμε ένα πιο ολοκληρωμένο και ρεαλιστικό περιβάλλον δοκιμών πολλαπλών πλατφορμών για πράκτορες, ιδιαίτερα την ανάγκη υποστήριξης της ταυτόχρονης λειτουργίας πολλαπλών συσκευών και την παροχή επαρκών μηχανισμών αξιολόγησης ανάδρασης.. Το πλαίσιο CRAB σε αυτό το άρθρο επιχειρεί να λύσει τα ακόλουθα πρακτικά προβλήματα:

  • Διαπεριβαλλοντική αξιολόγηση εργασιών:Τα υπάρχοντα σημεία αναφοράς συνήθως εστιάζουν μόνο σε ένα μεμονωμένο περιβάλλον (όπως λειτουργικό σύστημα ιστού, Android ή επιτραπέζιου υπολογιστή) [1][2][3][4], ενώ αγνοούν την πολυπλοκότητα των σεναρίων συνεργασίας μεταξύ συσκευών στον πραγματικό κόσμο. Το πλαίσιο CRAB υποστηρίζει την ενθυλάκωση της αλληλεπίδρασης μιας συσκευής ή μιας εφαρμογής σε ένα περιβάλλον Υποστηρίζοντας εργασίες πολλαπλού περιβάλλοντος, παρέχει στους πράκτορες έναν πλουσιότερο χώρο λειτουργίας και είναι πιο κοντά στα πραγματικά σενάρια εφαρμογής.
  • Λεπτομερείς μέθοδοι αξιολόγησης:Οι παραδοσιακές μέθοδοι αξιολόγησης είτε εστιάζουν μόνο στην ολοκλήρωση του τελικού στόχου (προσανατολισμένη στον στόχο), είτε συγκρίνουν αυστηρά την τροχιά λειτουργίας (προσανατολισμένη στην τροχιά) [1][2][3]. Και οι δύο μέθοδοι έχουν περιορισμούς και δεν μπορούν να αντικατοπτρίζουν πλήρως την απόδοση του πράκτορα.Το CRAB προτείνει μια μέθοδο αξιολόγησης που βασίζεται σε γράφημα, η οποία μπορεί όχι μόνο να παρέχει λεπτομερείς δείκτες αξιολόγησης, αλλά και να προσαρμοστεί σε μια ποικιλία αποτελεσματικών διαδρομών ολοκλήρωσης εργασιών.
  • Πολυπλοκότητα κατασκευής εργασιών: Καθώς αυξάνεται η πολυπλοκότητα των εργασιών, γίνεται ολοένα και πιο δύσκολη η μη αυτόματη δημιουργία εργασιών και αξιολογητών.Το CRAB προτείνει μια μέθοδο που βασίζεται σε συνδυασμό υποεργασιών για την απλοποίηση της διαδικασίας κατασκευής διαπεριβαλλοντικών εργασιών
  • Αξιολόγηση δομής συστήματος πράκτορα:Αυτό το άρθρο διερευνά επίσης τον αντίκτυπο των διαφορετικών δομών συστημάτων πρακτόρων (μονός πράκτορας, πολλαπλός παράγοντας με βάση τον λειτουργικό καταμερισμό εργασίας, πολλαπλός παράγοντας με βάση τον περιβαλλοντικό καταμερισμό εργασίας) στα αποτελέσματα ολοκλήρωσης εργασιών, το οποίο παρέχει μια εμπειρική βάση για το σχεδιασμό πιο αποτελεσματικών συστημάτων πρακτόρων.



Ο παραπάνω πίνακας δείχνει τη σύγκριση μεταξύ του πλαισίου CRAB που προτείνεται σε αυτό το άρθρο και άλλων υφιστάμενων πλαισίων συγκριτικής αξιολόγησης πρακτόρων σε σύγκριση με άλλα σημεία αναφοράς,Το CRAB μπορεί να υποστηρίξει λειτουργικά περιβάλλοντα πολλαπλών πλατφορμών, όπως υπολογιστές και κινητά τηλέφωνα ταυτόχρονα, και μπορεί να προσομοιώσει πιο ρεαλιστικά σενάρια χρήσης.

Για το CRAB, πολλοί χρήστες του Διαδικτύου έχουν δώσει υψηλούς επαίνους.

Μερικοί λένε ότι το AGI έχει επιτευχθεί επειδή ένα μεγάλο μοντέλο γλώσσας (αναφερόμενος στο CRAB) έχει μάθει πώς να βγαίνει από το Vim.



"Μπορείτε να βγείτε από το Vim;" (Συμβάλετε ένα emoticon εδώ)



Μερικοί άνθρωποι λένε ότι είναι δύσκολο να πιστέψουμε ότι ένας πράκτορας μπορεί να ολοκληρώσει τη σειρά εργασιών "ελέγξτε το ημερολόγιο, ανοίξτε το Vim, εισέλθετε στη λειτουργία εισαγωγής, εισέλθετε στη λίστα συμβάντων, εξέλθετε από τη λειτουργία εισαγωγής και χρησιμοποιήστε το :wq για αποθήκευση".

Ορισμένοι χρήστες του Διαδικτύου κατέληξαν επίσης στο συμπέρασμα ότι η επόμενη γενιά ρομποτικού αυτοματισμού διεργασιών (RPA) θα μοιάζει περισσότερο με "παρακαλώ βοηθήστε με να ολοκληρώσω τις ακόλουθες εργασίες" χωρίς να χρειάζεται να καταγράφω κάθε βήμα και στη συνέχεια να κολλάει όταν εκτελείται μέσα σε λίγες ημέρες.





Κάποιος ανέφερε επίσης ότι ο Graph Evaluator στο CRAB είναι ένας πολύ έξυπνος τρόπος χειρισμού της κατάστασης του παράγοντα στο περιβάλλον.



Μερικοί άνθρωποι επαίνεσαν ακόμη και το CRAB ως το μέλλον των υπολογιστών τεχνητής νοημοσύνης, πιστεύοντας ότι είναι ο τέλειος συνδυασμός LLM με υπολογιστές και φορητές συσκευές «Είναι μια τεχνητή νοημοσύνη που μοιάζει με RabbitOS που επιτρέπει στους υπάρχοντες υπολογιστές και τις κινητές συσκευές να έχουν τις λειτουργίες αναφοράς του CRAB Επιτρέπει τη δοκιμή της αποτελεσματικότητας και της χρησιμότητας των πρακτόρων πολυτροπικών γλωσσικών μοντέλων στον πραγματικό κόσμο."







Κάθε κόμβος στο GDT μπορεί να αντιπροσωπεύει μια δευτερεύουσα εργασία (m,i,r), όπου m είναι το περιβάλλον στο οποίο εκτελείται η δευτερεύουσα εργασία, i είναι η εντολή φυσικής γλώσσας και r είναι η συνάρτηση ανταμοιβής.Χρησιμοποιείται για την αξιολόγηση της κατάστασης του περιβάλλοντος m και την έξοδο μιας Boolean τιμής για να προσδιοριστεί εάν η δευτερεύουσα εργασία έχει ολοκληρωθεί. Οι άκρες στο GDT αντιπροσωπεύουν τη διαδοχική σχέση μεταξύ των δευτερευουσών εργασιών.

πλαίσιο ΚΑΒΟΥΡΟΥ

Διαπεριβαλλοντική αλληλεπίδραση πρακτόρων

Το CRAB εισάγει την έννοια των εργασιών πολλαπλού περιβάλλοντος για πρώτη φορά, συνδυάζοντας πολλαπλά περιβάλλοντα (όπως smartphone και επιτραπέζιους υπολογιστές) σε ένα σύνολο περιβαλλόντων, επιτρέποντας στους πράκτορες να συντονίζουν λειτουργίες μεταξύ πολλών συσκευών για να ολοκληρώσουν πολύπλοκες εργασίες.



Η διαδικασία λειτουργίας της χρήσης ενός συστήματος πολλαπλών παραγόντων που βασίζεται στον περιβαλλοντικό καταμερισμό εργασίας στο πλαίσιο CRAB φαίνεται στο παραπάνω σχήμα.Η ροή εργασίας προχωρά μέσω ενός βρόχου Πρώτα, ο κύριος πράκτορας παρατηρεί το περιβάλλον και καθορίζει ένα σχέδιο για τους δευτερεύοντες πράκτορες.. Στη συνέχεια, ένας αξιολογητής γραφήματος παρακολουθεί την κατάσταση κάθε δευτερεύουσας εργασίας στο περιβάλλον και ενημερώνει συνεχώς την ολοκλήρωση της εργασίας σε όλη τη ροή εργασίας.Αυτή η μέθοδος αξιολόγησης μπορεί να είναι κοντά στην πραγματική σκηνή για να ελέγξει τη συλλογιστική ικανότητα του πράκτορα., το οποίο απαιτεί από τον πράκτορα να είναι σε θέση να χειρίζεται πολύπλοκα μηνύματα και μια βαθιά κατανόηση των πραγματικών καταστάσεων.

Αξιολογητής γραφήματος

Ο ενσωματωμένος αξιολογητής γραφημάτων του CRAB λαμβάνει υπόψη τα πλεονεκτήματα της αξιολόγησης τόσο με γνώμονα τον στόχο όσο και με την τροχιά., το οποίο αρχικά αποσυνθέτει σύνθετες εργασίες σε πολλαπλές υποεργασίες για να σχηματίσει μια κατευθυνόμενη άκυκλη δομή γραφήματος.Στη συνέχεια ορίζεται ένας μηχανισμός ενεργοποίησης κόμβου, δηλαδή οι κόμβοι (subtasks) στο γράφημα πρέπει να ενεργοποιηθούν σταδιακά με βάση την ολοκλήρωση των προηγούμενων εργασιών., διασφαλίζοντας τη διαδοχική εκτέλεση των εργασιών. Κάθε κόμβος συσχετίζεται με μια συνάρτηση επαλήθευσης για τον έλεγχο βασικών ενδιάμεσων καταστάσεων στο περιβάλλον.Σε σύγκριση με προηγούμενα κριτήρια αξιολόγησης, ο αξιολογητής γραφημάτων CRAB εισάγει καινοτόμα μια σειρά νέων δεικτών αξιολόγησης

  • Αναλογία ολοκλήρωσης (CR): Ο λόγος του αριθμού των ολοκληρωμένων κόμβων δευτερεύουσας εργασίας προς τον συνολικό αριθμό κόμβων, CR = C / N.
  • Execution Efficiency (EE): ο λόγος του ρυθμού ολοκλήρωσης προς τον αριθμό των ενεργειών που εκτελέστηκαν, EE = CR / A, A είναι ο αριθμός των καθορισμένων ενεργειών.
  • Κόστους αποδοτικότητας (CE): Ο λόγος του ποσοστού ολοκλήρωσης προς τον αριθμό των μοντέλων που χρησιμοποιούνται, CE = CR / T, T είναι ο αριθμός των διακριτικών μοντέλων που χρησιμοποιούνται.

Αυτές οι μετρήσεις παρέχουν μια πιο λεπτομερή και πολυδιάστατη εστίαση αξιολόγησης για τα κριτήρια αξιολόγησης αντιπροσώπων.

CRAB Benchmark-v0

Λεπτομέρειες κατασκευής βασικής γραμμής

Με βάση το προτεινόμενο πλαίσιο ΚΑΒΟΥΡΟΥ,Αυτό το άρθρο δημιουργεί ένα συγκεκριμένο σύνολο δοκιμών αναφοράς CRAB Benchmark-v0 για περαιτέρω έρευνα από την κοινότητα.. Το CRAB Benchmark-v0 υποστηρίζει τόσο κινητά τηλέφωνα Android όσο και περιβάλλοντα επιτραπέζιου υπολογιστή Ubuntu Linux. Και διαφορετικά σύνολα ενεργειών έχουν οριστεί για το Ubuntu και το Android για την προσομοίωση κοινών αλληλεπιδράσεων στην πραγματική ζωή.Ο χώρος παρατήρησής του αποτελείται από τις διεπαφές συστήματος των δύο περιβαλλόντων και η κατάσταση περιβάλλοντος λαμβάνεται με τη μορφή στιγμιότυπων οθόνης. Προκειμένου να διευκολυνθεί η λειτουργία του πράκτορα στο GUI, ο συγγραφέας χρησιμοποιεί το GroundingDINO [7] για να εντοπίσει διαδραστικά εικονίδια, χρησιμοποιεί το EasyOCR για τον εντοπισμό και τον σχολιασμό διαδραστικού κειμένου και εκχωρεί ένα αναγνωριστικό σε κάθε στοιχείο ανίχνευσης για να διευκολύνει την επακόλουθη αναφορά στον χώρο λειτουργίας .

Ας πάρουμε μια συγκεκριμένη εργασία ως παράδειγμα, για παράδειγμα, ολοκληρώστε την ακόλουθη εργασία στο σύστημα Ubuntu: Δημιουργήστε έναν νέο κατάλογο "/home/crab/assets_copy" και αντιγράψτε όλα τα αρχεία με την καθορισμένη επέκταση "txt" από το "/home/crab. /assets" Αντιγράψτε στον κατάλογο "/home/crab/assets_copy".

Αυτή η εργασία απαιτεί πολλά βήματα για να ολοκληρωθεί Η παρακάτω εικόνα δείχνει πώς να χρησιμοποιήσετε το GPT-4 TurboΠειραματικές λεπτομέρειες όταν χρησιμοποιούνται ως μοντέλο συμπερασμάτων και χρησιμοποιώντας μια δομή ενός παράγοντα. Ο πράκτορας χρησιμοποιεί πρώτα την εντολή search_application για να βρει το τερματικό και να το ανοίξει.



Στη συνέχεια, χρησιμοποιήστε την εντολή Linux "mkdir -p /home/crab/assets_copy" για να δημιουργήσετε έναν νέο κατάλογο προορισμού.



Μετά τη δημιουργία του καταλόγου προορισμού, ο πράκτορας εκτέλεσε απευθείας την εντολή αντιγραφής στο τερματικό:

"cp /home/crab/assets/*.txt/home/crab/assets_copy" για να ολοκληρώσετε την εργασία, η όλη διαδικασία είναι ομαλή και ομαλή, χωρίς λάθη.



Πειραματικό αποτέλεσμα

Στη συνέχεια, ο συγγραφέας διεξήγαγε ένα πείραμα βασικής γραμμής στο CRAB Benchmark-v0.Ο πυρήνας του πράκτορα είναι το μοντέλο πολυτροπικής γλώσσας back-end, το οποίο χρησιμοποιείται για την παροχή κατανόησης φυσικής γλώσσας και εικόνας, βασικών γνώσεων συσκευών, σχεδιασμού εργασιών και ικανότητας λογικής συλλογιστικής,Ανάγκη υποστήριξης μικτής εισαγωγής πολλαπλών τρόπων και χειρισμός πολλαπλών γύρων διαλόγου ταυτόχρονα, έτσι ο συγγραφέας επέλεξε GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (έκδοση Μαΐου 2024) και Claude 3 Opus (claude-3-opus-20240229) χρησιμοποιείται ως βασικό μοντέλο.



Τα πειραματικά αποτελέσματα φαίνονται στον παραπάνω πίνακα, στον οποίο τα μοντέλα GPT-4o και GPT-4 Turbo πέτυχαν τον υψηλότερο μέσο ρυθμό ολοκλήρωσης σημείου δοκιμής (CR) μεταξύ των μοντέλων δοκιμής.Όσον αφορά την αποδοτικότητα εκτέλεσης (EE) και την αποδοτικότητα κόστους (CE), η σειρά GPT-4 είναι επίσης καλύτερη από τα μοντέλα της σειράς Gemini και Claude.

, διάρκεια 02:37

Συνοψίζω

Αυτό το έγγραφο εισάγει ένα νέο συγκριτικό CRAB αξιολόγησης πολλαπλών παραγόντων μεταξύ περιβάλλοντος.Το πλαίσιο CRAB παρέχει μια πιο ολοκληρωμένη, ευέλικτη και ρεαλιστική πλατφόρμα συγκριτικής αξιολόγησης για την αξιολόγηση αυτόνομων παραγόντων, εισάγοντας εργασίες πολλαπλού περιβάλλοντος, αξιολογητές γραφημάτων και μεθόδους κατασκευής εργασιών που βασίζονται σε συνδυασμούς επιμέρους εργασιών.. Σε σύγκριση με προηγούμενα σημεία αναφοράς αντιπροσώπων, το CRAB μειώνει το χειροκίνητο φόρτο εργασίας στα βήματα εργασιών και βελτιώνει σημαντικά την αποτελεσματικότητα της κατασκευής σημείων αναφοράς. Με βάση το CRAB, αυτό το άρθρο προτείνει το Crab Benchmark-v0, το οποίο υποστηρίζει ταυτόχρονα τους πράκτορες για την εκτέλεση μιας ποικιλίας σύνθετων εργασιών πολλαπλού περιβάλλοντος σε συστήματα Ubuntu και Android.Μπορεί όχι μόνο να προωθήσει την ανάπτυξη αυτόνομων συστημάτων αξιολόγησης πρακτόρων, αλλά και να προσφέρει νέα έμπνευση για το σχεδιασμό πιο αποτελεσματικών συστημάτων πρακτόρων στο μέλλον.

παραπέμπω:

[1] Shuyan Zhou et al. WebArena: Ένα Ρεαλιστικό Web Environment για τη δημιουργία αυτόνομων πρακτόρων. Οκτ. 24, 2023. URL: http://arxiv.org/abs/2307.13854. προεκτύπωση.

[2] Chi Zhang et al. AppAgent: Πολυτροπικοί πράκτορες ως χρήστες Smartphone. 21 Δεκεμβρίου 2023. URL: http://arxiv.org/abs/2312.13771. προεκτύπωση.

[3] Shunyu Yao et al. «Webshop: Προς κλιμακούμενη αλληλεπίδραση ιστού στον πραγματικό κόσμο με πράκτορες γειωμένης γλώσσας». Στο: Advances in Neural Information Processing Systems 35 (2022), σελ. 20744–20757.

[4] Tianbao Xie et al. OSWorld: Συγκριτική αξιολόγηση πολυτροπικών πρακτόρων για εργασίες ανοιχτού τύπου σε πραγματικά περιβάλλοντα υπολογιστών. 11 Απριλίου 2024. URL: http://arxiv.org/abs/2404.07972. προεκτύπωση.

[5] Lin, Fangru, et al. "Μοντέλα μεγάλων γλωσσών με βελτιωμένα γραφήματα σε συλλογιστική ασύγχρονης σχεδίασης." arXiv προεκτύπωση arXiv:2402.02805 (2024).

[6] Tushar Khot et al. «Αποσυντεθειμένη προτροπή: Μια αρθρωτή προσέγγιση για την επίλυση σύνθετων εργασιών». Στο: Το Ενδέκατο Διεθνές Συνέδριο για τις Μαθησιακές Αναπαραστάσεις. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et al. Grounding DINO: Παντρεύοντας τον DINO με γειωμένη προ-εκπαίδευση για ανίχνευση αντικειμένων ανοιχτού σετ. arXiv.org. 9 Μαρτίου 2023.