Νέα

Το Nanyang Polytechnic δημιουργεί σύνολα δεδομένων εργασιών και δοκιμές αναφοράς για τη βελτίωση των δυνατοτήτων ολοκλήρωσης εργασιών του πράκτορα Ιστού

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Πρόσφατα, χρησιμοποιώντας μεγάλα μοντέλα όπως το GPT-4v και το Gemini-pro, ο Zhang Ziniu, ασκούμενος στο Τεχνολογικό Πανεπιστήμιο Nanyang, και η ομάδα του ανακάλυψαν ότι οι τρέχουσες δυνατότητες των πρακτόρων ιστοσελίδων εξακολουθούν να λείπουν, ειδικά όταν ολοκληρώνουν εργασίες που περιλαμβάνουν συνδυασμό πολλαπλών δευτερευουσών εργασιών.

Προκειμένου να βελτιωθεί η ικανότητα του πράκτορα να λειτουργεί σε ιστοσελίδες, η ερευνητική ομάδα δημιούργησε ένα σύνολο δεδομένων εργασιών και πραγματοποίησε δοκιμές αναφοράς.

Με τη βοήθεια αυτού του συνόλου δεδομένων, ο πράκτορας πρέπει να επεξεργάζεται πολλαπλές πληροφορίες ιστοσελίδων και να ολοκληρώσει εργασίες μέσω λειτουργιών σε διαφορετικές ιστοσελίδες, ώστε να είναι πιο κοντά στις λειτουργίες των ατόμων σε ιστοσελίδες σε πραγματικές καταστάσεις.

Ταυτόχρονα, η ομάδα ανακάλυψε ότι ο πράκτορας είχε μεγάλα ελαττώματα μνήμης, τα οποία επηρέασαν σοβαρά την ακρίβεια των προβλημάτων πολλαπλών πηδημάτων Σε απάντηση, πρότειναν μια μονάδα μνήμης για τη βελτίωση των παραπάνω προβλημάτων.

Συνολικά, αυτό το αποτέλεσμα θα βελτιώσει τις δυνατότητες ολοκλήρωσης εργασιών του πράκτορα και θα παρέχει ένα δοκιμαστικό σημείο αναφοράς για τις επόμενες εργασίες.

Σύμφωνα με αναφορές, αυτό το επίτευγμα είναι ένα από μια σειρά έργων. Αρχικά, οι Zhang Ziniu, Tian Shulin, Chen Liangyu και άλλοι αναπαρήγαγαν το single-hop single-modal test benchmark Webarena που δημιουργήθηκε από την ομάδα του Πανεπιστημίου Carnegie Mellon στις Ηνωμένες Πολιτείες.

Αργότερα, μέσω προσεκτικής ανάλυσης των δυνατοτήτων εργασιών του Webarena και της ολοκλήρωσης των εργασιών από τον πράκτορα, διαπίστωσαν ότι υπήρχαν ακόμα πολλά που άξιζαν να εξερευνηθούν.

Για παράδειγμα, γιατί η εργασία δεν είναι αρκετά κοντά στην πραγματικότητα; Γιατί λείπει σχετικά η ικανότητα του ευφυούς πράκτορα;

Διαβάζοντας άλλες εργασίες που σχετίζονται με πράκτορες Ιστού. Η ομάδα εξέτασε το ενδεχόμενο να επεκτείνει την εργασία από απλή μέθοδο σε πολυτροπικότητα.

Παλαιότερα, όταν οι πράκτορες Ιστού επεξεργάζονταν πληροφορίες σε ιστοσελίδες, συνήθως δεν έβλεπαν μόνο το κείμενο. Για το σκοπό αυτό, προσπάθησαν να εξάγουν πληροφορίες εικόνας από ορισμένες διαδικτυακές ιστοσελίδες που περιέχουν εικόνες, όπως οι επίσημες ιστοσελίδες ορισμένων μουσείων τέχνης.

Ωστόσο, λόγω των δικών τους μέτρων προστασίας, πολλές ιστοσελίδες δεν μπορούν να εξαγάγουν πληροφορίες εικόνας από τα αρχεία HTML τους.

Αργότερα, στράφηκαν στην εξαγωγή πληροφοριών εικόνας από ιστοτόπους αγορών και τη Wikipedia και δημιούργησαν ορισμένες πολυτροπικές εργασίες για πράκτορες Ιστού.

Στη συνέχεια, η ομάδα επέκτεινε την εργασία σε εργασίες πολλαπλών βημάτων και αποφάσισε να χρησιμοποιήσει την εργασία ταξιδιού ως παράδειγμα για τη διεξαγωγή έρευνας. Στη συνέχεια δοκίμασαν τον πράκτορα στο σύνολο δεδομένων.

Όσον αφορά την επεξεργασία οπτικών πληροφοριών, χρησιμοποιούν επίσης μια ποικιλία μεθόδων: για παράδειγμα, παρέχουν απευθείας εικόνες ως προτροπές στον πράκτορα ή παρέχουν πρώτα εικόνες σε πολυτροπικά μεγάλα μοντέλα για επεξεργασία και στη συνέχεια συγχώνευση των αποτελεσμάτων επεξεργασίας στον πράκτορα, και τα λοιπά.

Κατά τη διάρκεια αυτής της περιόδου, ανακάλυψαν ότι η μέθοδος αξιολόγησης που χρησιμοποιήθηκε προηγουμένως για τη συνολική εργασία δεν ήταν κατάλληλη για εργασίες πολλαπλών βημάτων. Ως εκ τούτου, πρότειναν μια νέα μέθοδο αξιολόγησης για εργασίες multi-hop.

Κατά την ανάλυση των πειραματικών αποτελεσμάτων του παράγοντα, διαπιστώθηκε ότι η ικανότητα μνήμης του παράγοντα ήταν πολύ φτωχή, επομένως προτάθηκε μια μονάδα βελτίωσης μνήμης για τη βελτίωση της ικανότητας του παράγοντα και διεξήχθη ένα πείραμα κατάλυσης σε αυτό.

Πρόσφατα, μια σχετική εργασία δημοσιεύτηκε στο arXiv με τίτλο "MMInA: Συγκριτική αξιολόγηση Multihop Multimodal Internet Agents".


Σχήμα |. Σχετικές εργασίες (Πηγή: arXiv)

Ταυτόχρονα, η ομάδα δίνει επίσης προσοχή στις τελευταίες εξελίξεις στους διαδικτυακούς πράκτορες. Στο μέλλον, η ερευνητική ομάδα μπορεί να σχεδιάσει να παρέχει στιγμιότυπα οθόνης ολόκληρης της ιστοσελίδας ως είσοδο στον πράκτορα.