Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Νέα Έκθεση Σοφίας
Επιμέλεια: Taozi
[Εισαγωγή στη Νέα Σοφία]Έχετε σκεφτεί ποτέ ότι ίσως μια μέρα στο μέλλον, ο στρατός της τεχνητής νοημοσύνης θα μπορέσει να αναλάβει τα σημαντικά καθήκοντα της εταιρείας και οι άνθρωποι θα μειωθούν σε βοηθητικούς ρόλους;
Ο Xiao Zha πιστεύει ακράδαντα ότι «στο μέλλον, θα υπάρχουν περισσότεροι πράκτορες AI παρά άνθρωποι στον κόσμο».
Λοιπόν, τι θα συμβεί εάν αυτά τα AI έχουν επίσης εταιρική κουλτούρα;
Είναι σαν τους ανθρώπους Υπάρχουν AI που κατέχουν την εξουσία λήψης αποφάσεων και AI που εργάζονται σκληρά.
Πριν από λίγους μήνες, αποκαλύφθηκε ότι το OpenAI είχε ορίσει εσωτερικά μια διαδρομή AGI πέντε επιπέδων, L5 - Organizer: AI που μπορεί να ολοκληρώσει το οργανωτικό έργο.
Αυτό για το οποίο μιλάμε μπορεί να είναι το οργανόγραμμα της μελλοντικής εταιρείας.
Γιατί η συνεργασία πολλαπλών ευφυών πρακτόρων βρίσκεται σε άνοδο.
Προηγουμένως, μια μελέτη έδειξε ότι ένα σύστημα με 30+ πράκτορες τεχνητής νοημοσύνης ξεπέρασε τις απλές κλήσεις LLM σε σχεδόν κάθε εργασία, ενώ παράλληλα μείωνε τις παραισθήσεις και βελτίωνε την ακρίβεια.
Διεύθυνση χαρτιού: https://arxiv.org/pdf/2402.05120
Ωστόσο, πώς θα πρέπει πραγματικά να συνεργάζονται πολλοί πράκτορες;
Ενώ διερευνούσε τρόπους βελτίωσης της απόδοσης της τεχνητής νοημοσύνης σε εργασίες μηχανικής λογισμικού, ο Alex Sima είχε μια θεομηνία:
Τι θα συνέβαινε αν η αλληλεπίδραση μεταξύ των πρακτόρων της τεχνητής νοημοσύνης θεσμοθετηθεί και έγινε παρόμοια με το «οργανόγραμμα» ενός τεχνολογικού κολοσσού;
Στη συνέχεια, ο Alex άφησε την τεχνητή νοημοσύνη να αναλάβει τους έξι μεγάλους τεχνολογικούς γίγαντες —Amazon, Google, Microsoft, Apple, Meta και Oracle—για να δει πώς συνεργάζονται.
Ας τραβήξουμε πρώτα μια φωτογραφία για να το καταλάβουμε.
Βασικά φαγητά
Ακολουθούν ορισμένα βασικά σημεία που κέρδισε ο Alex αφού οργάνωσε πράκτορες AI σε εταιρικές δομές παρόμοιες με αυτές της Apple, της Microsoft και της Google:
- Οι εταιρείες με πολλές «ανταγωνιζόμενες» ομάδες (δηλαδή που ανταγωνίζονται για την παραγωγή του καλύτερου τελικού προϊόντος), όπως η Microsoft και η Apple, ξεπερνούν τις κεντρικές ιεραρχίες.
- Συστήματα με μεμονωμένα σημεία αποτυχίας (όπως ένας ηγέτης που παίρνει σημαντικές αποφάσεις), όπως η Google, η Amazon και η Oracle, έχουν κακή απόδοση.
- Η οργανωτική δομή των μεγάλων εταιρειών τεχνολογίας έχει μέτριο αλλά σημαντικό αντίκτυπο στις δυνατότητες επίλυσης προβλημάτων.
Πράκτορες AI και Γίγαντες Οργανισμοί Τεχνολογίας
Προηγούμενες μέθοδοι βελτίωσης της απόδοσης με απλή αύξηση του αριθμού των πρακτόρων AI, όπως το SWE-bench, δεν έχουν επιτύχει σημαντικά αποτελέσματα.
Αυτό δείχνει ότι το να βασίζεσαι αποκλειστικά σε αυξανόμενους αριθμούς δεν θα λύσει το πρόβλημα.
Λοιπόν, ποιοι άλλοι τρόποι για να κάνετε τους πράκτορες AI καλύτερους στη μηχανική λογισμικού;
Πριν από τρεις εβδομάδες, ο Alex συνάντησε ένα άρθρο του James Huckle σχετικά με τον "νόμο του Conway" - η αρχιτεκτονική λογισμικού και προϊόντων προορίζεται να αντικατοπτρίζει την οργανωτική δομή που το δημιούργησε.
Ο Τζέιμς έδειξε μια εικόνα που αποκάλυπτε τις δραματικές οργανωτικές δομές των Amazon, Google, Facebook, Microsoft, Apple και Oracle και πρότεινε μια ιδέα:
Όπως οι άνθρωποι σε μεγάλες εταιρείες τεχνολογίας, οι δομές επικοινωνίας πολλαπλών πρακτόρων μπορεί να διαμορφώσουν προσεγγίσεις επίλυσης προβλημάτων.
Ο Alex εμπνεύστηκε για να δοκιμάσει την υπόθεση του James σε ένα παράδειγμα SWE-bench.
Πειραματική ρύθμιση
Οι συγγραφείς οργανώνουν πράκτορες AI σε διαφορετικές εταιρικές δομές και αξιολογούν έξι διαφορετικές οργανωτικές δομές στο υποσύνολο "μίνι" 13 περιπτώσεων του SWE-bench-lite.
Κατά την οικοδόμηση αυτών των έξι οργανισμών, σχεδίασε την οργανωτική δομή πολλών πρακτόρων με βάση μερικές βασικές παρατηρήσεις:
Αμαζόνα
Υπάρχει ένα δυαδικό δέντρο «διευθυντών» στο ανώτατο επίπεδο.
Για την αναπαραγωγή αυτής της δομής, ο Alex χρησιμοποιεί έναν μεγάλο αριθμό πρακτόρων που εκτελούν αναζητήσεις βάσης κώδικα και έναν μεμονωμένο πράκτορα που εκτελεί τελικά ενημερώσεις βάσης κώδικα.
Παρόμοια με τη δομή δέντρων του Amazon, αλλά με περισσότερες συνδέσεις μεταξύ των μεσαίων στρωμάτων.
Ο Alex αντιγράφει όλα τα αποτελέσματα των πρακτόρων με συνάθροιση σε ένα μόνο επίπεδο και τα μεταβιβάζει στο επόμενο επίπεδο πρακτόρων.
Meta (Facebook)
Δεν διαθέτει ιεραρχική δομή, αλλά εξακολουθεί να είναι ένας οργανισμός δικτύου με πολλές συνδέσεις μεταξύ πρακτόρων.
Ο Alex τροποποίησε τον αρχικό σχεδιασμό του πράκτορα αυξάνοντας τη δυνατότητα μετατροπής μεταξύ διαφορετικών πρακτόρων.
Microsoft
Έμφαση στις ανταγωνιστικές ομάδες, η καθεμία με τη δική της βαθμίδα.
Ουσιαστικά, ο Alex αναδιάρθρωσε την Amazon (μειώνοντας τον αριθμό των πρακτόρων) και χρησιμοποίησε μια μέθοδο ψηφοφορίας ομοιότητας διανυσμάτων για να επιλέξει την «καλύτερη» λύση από τρεις ξεχωριστές σειρές (με μικρές προσαρμογές στην ιεραρχία σε κάθε εκτέλεση).
μήλο
Πολλές μικρές ανταγωνιστικές ομάδες, η καθεμία με τη δική της minimal δομή.
Ο Alex χρησιμοποίησε την ίδια προσέγγιση "καλύτερης λύσης" με τη Microsoft, αλλά έκανε περισσότερες εκτελέσεις χωρίς επίπεδο πράκτορα (κάθε εκτέλεση είχε διαφορετικούς μετασχηματισμούς).
Μαντείο
Υπάρχουν δύο διαφορετικές ομάδες, ένα μεγαλύτερο «νόμιμο» δυαδικό δέντρο και ένα μικρότερο δέντρο μηχανικής.
Ο Alex εξήγησε τη νομική ομάδα ως τους πράκτορες που αναζητούν τη βάση κώδικα και ανακτούν το βασικό πλαίσιο, ενώ η ομάδα μηχανικών αποτελείται από τους πράκτορες που γράφουν πραγματικά τον κώδικα.
Η δομή των δύο ομάδων είναι παρόμοια με την Amazon, με έναν μόνο πράκτορα στην κορυφή να συντονίζει τη ροή των πληροφοριών μεταξύ του "Legal" και του "Engineering".
Αποτελέσματα αξιολόγησης
Προκειμένου να αξιολογηθεί κάθε σύνολο επιδιορθώσεων στο SWE-bench, ο συγγραφέας χρησιμοποιεί αξιολόγηση SWE-bench.
Το αποτέλεσμα είναι το εξής:
Ανάλυση απόδοσης οργανογράμματος
Ακολουθούν μερικές από τις παρατηρήσεις του συγγραφέα σχετικά με το πώς οι διαφορετικές δομές της εταιρείας επηρεάζουν την απόδοση:
- Οι ανταγωνιστικές ομάδες αυξάνουν τις πιθανότητες επιτυχίας.
Οι δύο κορυφαίες επιδόσεις (Microsoft και Apple) έχουν πολλές ομάδες που ανταγωνίζονται για την επίλυση του προβλήματος, ενώ άλλες εταιρείες φαίνεται να έχουν μόνο μια τεράστια ομάδα που παράγει ένα μόνο patch.
Οι πολλαπλές ομάδες επιτρέπουν αυξημένη ποικιλία προσεγγίσεων επίλυσης προβλημάτων, αυξάνοντας την πιθανότητα επίλυσης προβλημάτων.
- Οι κατασκευές με μεμονωμένα σημεία αστοχίας έχουν κακή απόδοση.
Όταν αναφερόμαστε σε μεμονωμένα σημεία αποτυχίας, αναφερόμαστε σε εταιρείες (όπως η Google, η Amazon και η Oracle) που διαθέτουν διευθυντές/πράκτορες υψηλού επιπέδου που μπορούν να αλλάξουν εντελώς τα αποτελέσματα των εργασιών.
Κατά τον συντονισμό των αλληλεπιδράσεων μεταξύ πολλών πρακτόρων, ένα κοινό πρόβλημα είναι ότι ένας πράκτορας αποτυγχάνει - που οδηγεί στην πιθανότητα ένας πράκτορας να αλλάξει την κατεύθυνση της στρατηγικής επίλυσης προβλημάτων της ομάδας.
Οι εταιρείες με μεμονωμένα σημεία αποτυχίας είναι ευάλωτες σε αυτά τα ζητήματα.
Επιπλέον, οι δύο κορυφαίες επιδόσεις, η Microsoft και η Apple, τυγχάνει να είναι οι δύο μεγαλύτερες εταιρείες τεχνολογίας στον κόσμο με βάση την κεφαλαιοποίηση.
Αποδεικνύεται ότι οι οργανωτικές δομές που φαίνεται να λειτουργούν καλύτερα στον πραγματικό κόσμο λειτουργούν καλά και για πράκτορες AI.
Στιγμιότυπο από το CompaniesMarketCap, 25 Ιουλίου 2024
Σκέψεις για την πρόοδο του SWE-bench
Εξετάζοντας τα αποτελέσματα για διαφορετικές εταιρικές δομές, αυτό είναι αναμενόμενο σε αυτό το Mini σημείο αναφοράς.
Συνολικά, φαίνεται ότι σε μια εργασία τόσο περίπλοκη όσο η μηχανική λογισμικού, η προσθήκη περισσότερων πρακτόρων ή η αλλαγή του τρόπου οργάνωσης αυτών των πρακτόρων, θα οδηγήσει μόνο σε οριακές βελτιώσεις απόδοσης.
Αν και η εργασία More Agents Is All You Need βρήκε σημαντική βελτίωση στην ακρίβεια (περίπου 20%), στο τεστ GSM8K (μαθηματικά δημοτικού σχολείου), η απόδοση μειώθηκε σημαντικά μετά από 30 πράκτορες.
Η μελέτη διαπίστωσε επίσης ότι οι υπερβολικά πολύπλοκες εργασίες (όπως αυτές στο SWE-bench) μπορεί να υπερβαίνουν τις συλλογιστικές δυνατότητες του μοντέλου, με αποτέλεσμα τη μείωση των κερδών απόδοσης.
Το να κάθεσαι στο SIMA επιβεβαίωσε επίσης αυτό το εύρημα, με το πολύ 2-3% βελτίωση σε σχέση με τη βασική αρχιτεκτονική (χρησιμοποιώντας περισσότερους από 40 πράκτορες).
Αναμένει ότι αυτή η μικρή βελτίωση θα είναι συνεπής σε άλλες αρχιτεκτονικές που δεν περιλαμβάνουν πολλούς πράκτορες.
Οι συγγραφείς υποστηρίζουν ότι η επίτευξη μεγαλύτερης προόδου στα σημεία αναφοράς απαιτεί αλλαγή των πραγματικών λογικών ικανοτήτων συλλογιστικής των πρακτόρων ή των στρατηγικών και των μεθόδων που μπορούν να υιοθετήσουν (ή να δοθούν) για την επίλυση προβλημάτων λογισμικού.
Αυτό μπορεί να επιτευχθεί μέσω ενός πιο ισχυρού βασικού μοντέλου (GPT-5) ή παρέχοντας στον πράκτορα ευρύτερα εργαλεία.
Είναι το ίδιο πράγμα με τις εταιρικές λειτουργίες.
Η ουσία είναι ότι εάν δεν προσλάβετε εξυπνότερους υπαλλήλους ή δεν τους δώσετε καλύτερους πόρους, η παραγωγή τους δεν πρόκειται να βελτιωθεί ανεξάρτητα από το πώς τους οργανώνετε ή πόσους ανθρώπους έχετε.
Ομολογουμένως, η απόδοση 13 περιπτώσεων απέχει πιθανώς πολύ από την πραγματική απόδοση του πλήρους σημείου αναφοράς.
Η διαφορά μόνο σε αυτό το μίνι υποσύνολο είναι αρκετά σημαντική για να αξίζει να προσέξουμε (~50% βελτίωση από την Google στην Apple).
Το υποκείμενο μοντέλο/εργαλεία μπορεί να είναι ένας περιοριστικός παράγοντας στη μηχανική λογισμικού αντιπροσώπων, αλλά καθώς το υποκείμενο μοντέλο βελτιώνεται, οι δομές επικοινωνίας των πρακτόρων (είτε σε εταιρικό οργανισμό είτε όχι) θα πρέπει οπωσδήποτε να δοκιμαστούν.
Όπως είπε ο James Huckle, αυτή η ιδέα μπορεί να γίνει μια «βασική υπερπαράμετρος» στο σχεδιασμό των πρακτόρων AI και διαφορετικές οργανωτικές δομές μπορεί να είναι πιο κατάλληλες για διαφορετικές εργασίες.
Παραπομπές:
https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures