notizia

L'esercito dell'IA ha preso il controllo dei sei principali giganti della tecnologia e i capi e i lavoratori sono tutti AI! Imita la struttura organizzativa di Microsoft e ottieni un'efficienza lavorativa straordinaria

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: Taozi

[Introduzione alla Nuova Saggezza]Hai mai pensato che forse un giorno, in futuro, l'esercito dell'intelligenza artificiale sarà in grado di assumersi i compiti importanti dell'azienda e gli esseri umani saranno ridotti a ruoli secondari?

Xiao Zha crede fermamente che "in futuro ci saranno più agenti IA che esseri umani nel mondo".


Quindi, cosa succede se queste IA hanno anche una cultura aziendale?

Sono come gli esseri umani? Ci sono IA che detengono il potere decisionale e IA che lavorano sodo.

Qualche mese fa è stato rivelato che OpenAI aveva definito internamente un percorso AGI su cinque livelli, L5 - Organizer: AI in grado di completare il lavoro organizzativo.

Ciò di cui si parla potrebbe essere l'organigramma della futura azienda.


Perché la cooperazione di più agenti intelligenti è in aumento.

In precedenza, uno studio aveva dimostrato che un sistema con oltre 30 agenti IA superava le semplici chiamate LLM in quasi tutte le attività, riducendo al tempo stesso le allucinazioni e migliorando la precisione.


Indirizzo del documento: https://arxiv.org/pdf/2402.05120

Tuttavia, come dovrebbero effettivamente collaborare più agenti?

Mentre esplorava modi per migliorare le prestazioni dell'intelligenza artificiale nelle attività di ingegneria del software, Alex Sima ha avuto un'illuminazione:

Cosa accadrebbe se l’interazione tra agenti AI fosse istituzionalizzata e resa simile all’“organigramma” di un colosso tecnologico?


Successivamente, Alex ha lasciato che l’intelligenza artificiale prendesse il controllo dei sei principali giganti della tecnologia – Amazon, Google, Microsoft, Apple, Meta e Oracle – per vedere come collaborano.

Facciamo prima una foto per farci un'idea.


Punti chiave

Di seguito sono riportati alcuni punti chiave che Alex ha acquisito dopo aver organizzato gli agenti AI in strutture aziendali simili a quelle di Apple, Microsoft e Google:

- Le aziende con più team “concorrenti” (cioè in competizione per produrre il miglior prodotto finale), come Microsoft e Apple, superano le gerarchie centralizzate.

- I sistemi con singoli punti di errore (come un leader che prende decisioni importanti), come Google, Amazon e Oracle, hanno prestazioni scarse.

- La struttura organizzativa delle grandi aziende tecnologiche ha un impatto modesto ma significativo sulle capacità di problem solving.


Agenti di intelligenza artificiale e organizzazioni di giganti della tecnologia

I metodi precedenti per migliorare le prestazioni semplicemente aumentando il numero di agenti AI, come SWE-bench, non hanno ottenuto risultati significativi.

Ciò dimostra che fare affidamento esclusivamente su numeri crescenti non risolverà il problema.


Quindi, quali sono altri modi per migliorare gli agenti IA nell’ingegneria del software?

Tre settimane fa, Alex si è imbattuto in un articolo di James Huckle sulla "Legge di Conway": l'architettura del software e del prodotto è destinata a riflettere la struttura organizzativa che l'ha creata.

James ha mostrato un'illustrazione che rivelava le drammatiche strutture organizzative di Amazon, Google, Facebook, Microsoft, Apple e Oracle e ha suggerito un'idea:

Come gli esseri umani nelle grandi aziende tecnologiche, le strutture di comunicazione multi-agente possono modellare approcci alla risoluzione dei problemi.


Alex è stato ispirato a testare l'ipotesi di James su un'istanza del banco SWE.

Configurazione sperimentale

Gli autori organizzano gli agenti AI in diverse strutture aziendali e valutano sei diverse strutture organizzative sul sottoinsieme "mini" di 13 istanze di SWE-bench-lite.

Nel costruire queste sei organizzazioni, ha progettato la struttura organizzativa multi-agente sulla base di alcune osservazioni fondamentali:

Amazzonia

C'è un albero binario di "manager" al livello più alto.

Per replicare questa struttura, Alex utilizza un gran numero di agenti che eseguono ricerche nella codebase e un singolo agente che alla fine esegue gli aggiornamenti della codebase.


Google

Simile alla struttura ad albero di Amazon, ma con più connessioni tra gli strati intermedi.

Alex copia tutti i risultati degli agenti mediante aggregazione all'interno di un singolo livello e li passa al livello successivo di agenti.


Meta(Facebook)

Manca di una struttura gerarchica, ma è pur sempre un'organizzazione di rete con molte connessioni tra agenti.

Alex ha modificato il design originale dell'agente aumentando la possibilità di conversione tra diversi agenti.


Microsoft

Enfasi sulle squadre competitive, ciascuna con il proprio livello.

In sostanza, Alex ha ristrutturato Amazon (riducendo il numero di agenti) e ha utilizzato un metodo di voto per somiglianza vettoriale per selezionare la soluzione “migliore” da tre esecuzioni separate (con lievi modifiche alla gerarchia in ciascuna esecuzione).


mela

Tante piccole squadre competitive, ognuna con la propria struttura minima.

Alex ha utilizzato lo stesso approccio della "soluzione migliore" di Microsoft, ma ha eseguito più esecuzioni senza un livello di agente (ogni esecuzione aveva trasformazioni diverse).


Oracolo

Esistono due team diversi, un albero binario "legale" più grande e un albero di ingegneria più piccolo.

Alex ha spiegato che il team legale è composto dagli agenti che ricercano il codice base e recuperano il contesto chiave, mentre il team tecnico è composto dagli agenti che effettivamente scrivono il codice.

La struttura dei due team è simile a quella di Amazon, con un unico agente al vertice che coordina il flusso di informazioni tra "Legal" e "Engineering".


Risultati della valutazione

Per valutare ogni serie di patch su SWE-bench, l'autore utilizza la valutazione SWE-bench.

Il risultato è il seguente:


Analisi delle prestazioni dell'organigramma

Ecco alcune delle osservazioni dell’autore su come le diverse strutture aziendali influiscono sulle prestazioni:

- I team competitivi aumentano le possibilità di successo.

Le due società con le migliori prestazioni (Microsoft e Apple) hanno più team in competizione per risolvere il problema, mentre le altre società sembrano avere solo un grande team che produce una singola patch.

Team multipli consentono una maggiore diversità di approcci alla risoluzione dei problemi, aumentando la probabilità di risoluzione del problema.

- Le strutture con singoli punti di guasto hanno prestazioni scarse.

Quando ci riferiamo a singoli punti di fallimento, ci riferiamo ad aziende (come Google, Amazon e Oracle) che dispongono di manager/agenti di alto livello in grado di cambiare completamente i risultati delle operazioni.

Quando si coordinano le interazioni tra più agenti, un problema comune è che un agente fallisce, il che porta alla possibilità che un agente cambi la direzione della strategia di risoluzione dei problemi del team.

Le aziende con singoli punti di fallimento sono vulnerabili a questi problemi.

Inoltre, le due aziende con le migliori performance, Microsoft e Apple, sono le due più grandi aziende tecnologiche al mondo per capitalizzazione di mercato.

Si scopre che le strutture organizzative che sembrano funzionare meglio nel mondo reale funzionano bene anche per gli agenti IA.


Screenshot da CompaniesMarketCap, 25 luglio 2024

Pensieri sullo stato di avanzamento del banco SWE

Osservando i risultati per le diverse strutture aziendali, questo è prevedibile per questo benchmark Mini.

Nel complesso, sembra che in un compito complesso come l'ingegneria del software, l'aggiunta di più agenti o la modifica del modo in cui tali agenti sono organizzati porterà solo a miglioramenti marginali delle prestazioni.

Sebbene lo studio More Agents Is All You Need abbia rilevato un notevole miglioramento della precisione (circa il 20%), nel test GSM8K (matematica della scuola elementare), le prestazioni si sono notevolmente appiattite dopo 30 agenti.

Lo studio ha inoltre scoperto che compiti eccessivamente complessi (come quelli del banco SWE) possono superare le capacità di ragionamento del modello, con conseguente diminuzione dei guadagni in termini di prestazioni.

Anche la seduta in SIMA ha confermato questo risultato, con al massimo solo un miglioramento del 2-3% rispetto all'architettura di base (utilizzando più di 40 agenti).

Si aspetta che questo piccolo miglioramento sia coerente con altre architetture non multi-agente.

Gli autori sostengono che per ottenere maggiori progressi sui benchmark è necessario modificare le effettive capacità di ragionamento logico degli agenti, o le strategie e i metodi che possono adottare (o ricevere) per risolvere i problemi software.

Ciò può essere ottenuto attraverso un modello base più potente (GPT-5) o fornendo all’agente strumenti più ampi.

È la stessa cosa con le operazioni aziendali.

La conclusione è che, se non assumi dipendenti più intelligenti o non fornisci loro risorse migliori, il loro rendimento non migliorerà, non importa come li organizzi o quante persone hai.

A dire il vero, le prestazioni di 13 istanze sono probabilmente lontane dalle prestazioni effettive dell'intero benchmark.

La differenza solo in questo mini sottoinsieme è abbastanza significativa da meritare attenzione (miglioramento di circa il 50% da Google ad Apple).

Il modello/gli strumenti sottostanti possono rappresentare un fattore limitante nell'ingegneria del software degli agenti, ma man mano che il modello sottostante migliora, l'esplorazione delle strutture di comunicazione degli agenti (in un'organizzazione aziendale o meno) dovrebbe essere sicuramente testata.

Come ha affermato James Huckle, questo concetto potrebbe diventare un “iperparametro chiave” nella progettazione degli agenti di intelligenza artificiale e diverse strutture organizzative potrebbero essere più adatte a compiti diversi.

Riferimenti:

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures