Le mie informazioni di contatto
Posta[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nuovo rapporto sulla saggezza
Redattore: Qiao Yang è così assonnato
[Introduzione alla Nuova Saggezza]La start-up MultiOn ha recentemente lanciato sul mercato Agent Q, che secondo lei è "attualmente il più potente" e può raggiungere una percentuale di successo del 95,4% nelle attività di prenotazione reali. Gli utenti della rete hanno ipotizzato che dietro a tutto ciò ci sia il misterioso progetto Q* di OpenAI.
Senza aspettare il rilascio del progetto Q*/Strawberry di OpenAI, una società start-up chiamata MultiOn ha rilasciato prima un agente chiamato Q.
Siamo molto entusiasti di annunciare che l'Agente Q, il nostro lavoro degli ultimi 6 mesi, è ora disponibile! Si tratta di una struttura di agenti auto-supervisionati in grado di ragionare e ricercare e di eseguire giochi autonomi e apprendimento di rinforzo attraverso compiti reali su Internet per ottenere l'autocorrezione e il miglioramento autonomo!
Ciò che ha attirato ancora più attenzione è stato il fatto che quando MultiOn Lianchuang/CEO Div Garg ha menzionato l'Agente Q su Twitter, non ha mai dimenticato di portare questo vistoso.
Ciò ha attirato continui spettatori da tutti i ceti sociali. Alcune persone hanno ipotizzato che il grande capo dietro l’Agente Q fosse il progetto Q* di OpenAI.
Non solo, MultiOn ha anche aperto un account Twitter indipendente per l'Agente Q, che spesso produce varie strane osservazioni che sono "difficili da distinguere tra esseri umani e macchine".
L'immagine di sfondo e le informazioni di base dell'account sono piene di fragole e le foto delle fragole nel suo giardino che Ultraman aveva pubblicato in precedenza sono state incollate direttamente.
Ma la cosa sorprendente è che questo account misterioso ha molti follower e KOL, tra cui il CEO di Y-Combinator Garry Tan, il CEO di Quora Adam D'Angelo, l'editorialista del New York Times Kevin Roose, il professore di Wharton AI Ethan Mollick e diversi membri dello staff di OpenAI.
Anche Ultraman ha recentemente preso l'iniziativa di interagire con questo misterioso account e ha commentato il suo post che prendeva in giro "L'AGI raggiunge il livello 2".
Se questa ondata di operazioni di MultiOn sia puramente pubblicitaria o se sia in concomitanza con la promozione di Q* da parte di OpenAI, dipende dall'opinione delle persone.
O questo sarà uno dei migliori agenti IA mai rilasciati, oppure Div Garg rovinerà la reputazione dell'azienda lasciandosi coinvolgere nella peggiore campagna pubblicitaria possibile. Nella comunità dell’intelligenza artificiale, questo è controproducente.
Mettendo da parte tutte le polemiche, diamo prima un'occhiata a quanti contenuti tecnici ha questo Agente Q.
Secondo il CEO Div Garg, l'Agente Q non ha solo capacità di pianificazione e ragionamento, ma anche capacità di auto-guarigione. In un solo giorno di formazione, hanno migliorato le prestazioni a campione zero di Llama 3 del 340%, raggiungendo una percentuale di successo del 95,4% nelle attività di prenotazione nel mondo reale.
Si tratta di un importante passo avanti affinché gli agenti IA autonomi possano prendere decisioni complesse e affidabili in ambienti reali.
Nel video dimostrativo ufficiale, l'Agente Q può eseguire attività tra cui la prenotazione di ristoranti, riunioni e biglietti aerei, che implicano tutte pianificazione in più fasi, ragionamento, processo decisionale e interazione con varie applicazioni.
Sebbene il team di ricerca di MultiOn abbia caricato l'articolo sul sito ufficiale, la prova di Agent Q non è ancora aperta ed è necessario registrarsi nella lista d'attesa per richiedere opportunità di test interni.
Indirizzo del documento: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
Il sito web ufficiale afferma che l'Agente Q sarà aperto agli sviluppatori e agli utenti di MultiOn entro la fine dell'anno.
Interpretazione tecnica
Negli ultimi anni, sebbene il LLM abbia completamente sovvertito il campo della PNL e ottenuto risultati notevoli, deve ancora affrontare sfide importanti negli ambienti interattivi, in particolare nei compiti di ragionamento in più fasi, come la navigazione delle pagine web.
Gli attuali metodi di formazione che si basano su set di dati linguistici statici non sono sufficienti per adattare questi modelli alle interazioni dinamiche del mondo reale.
L'emergere dell'Agente Q rappresenta un'importante pietra miliare nel campo degli agenti IA, che combina ricerca, autoriflessione e apprendimento per rinforzo per essere in grado di pianificare e autoripararsi.
Introducendo un nuovo framework di apprendimento e inferenza, Agent Q affronta i limiti delle precedenti tecniche di formazione LLM, consentendo la navigazione web autonoma.
Suddivisione dei passaggi dell'Agente Q durante l'esecuzione delle attività pianificate
Problemi con i metodi attuali
I metodi attuali, come la messa a punto supervisionata su dimostrazioni di esperti attentamente pianificate, spesso funzionano male sui compiti multi-fase degli agenti a causa di errori accumulati e dati di esplorazione limitati, richiedendo quindi un processo decisionale complesso e un adattamento in ambienti dinamici. emergere.
Metodi e componenti dell'Agente Q
L'Agente Q combina Guided Monte Carlo Tree Search (MCTS) e metodi di auto-riflessione e ottimizzazione iterativi dell'intelligenza artificiale, utilizzando algoritmi RLHF come Direct Preference Optimization (DPO) per consentire agli agenti LLM di apprendere da traiettorie riuscite e fallite e migliorare la generalizzazione multipla capacità di svolgere compiti di ragionamento passo passo.
I componenti chiave dell'Agente Q includono:
1. Ricerca guidata basata su MCTS: generare autonomamente dati esplorando diversi comportamenti e pagine web e trovare un equilibrio tra esplorazione e sfruttamento.
MCTS utilizza temperature di campionamento più elevate e diverse parole di richiesta per espandere lo spazio comportamentale e garantire che possano essere raccolte traiettorie diverse e ottimali.
2. Autocritica basata sull’intelligenza artificiale: in ogni fase, l’autocritica basata sull’intelligenza artificiale può fornire un feedback prezioso per ottimizzare il processo decisionale dell’agente. Questo feedback a livello di gradini è cruciale per le attività a lungo termine perché i segnali sparsi spesso portano a difficoltà di apprendimento.
3. Ottimizzazione delle preferenze dirette: l'algoritmo DPO perfeziona il modello costruendo coppie di preferenze di dati generati da MCTS. Questo metodo di formazione fuori policy consente al modello di apprendere in modo efficace dal set di dati aggregati, compresi i rami non ottimali esplorati durante il processo di ricerca, migliorando così il tasso di successo in ambienti complessi.
Esperimento di valutazione
Nel compito di simulare un negozio online costruito sulla base del modello xLAM-v0.1-r, l'agente deve cercare prodotti specifici.
Sebbene anche metodi come RFT, DPO e beam search possano ottenere alcuni miglioramenti, la grandezza non è così elevata come AgentQ.
Se si utilizzano contemporaneamente i metodi Agent Q e MCTS, la percentuale di successo dell'attività può aumentare dal 28,6% al 50,5%, che equivale al livello umano medio del 50%.
Nell'attività di prenotazione reale di Open Table, l'agente deve eseguire più passaggi, tra cui trovare la pagina del ristorante corrispondente, selezionare la data e l'ora appropriate, selezionare il posto appropriato in base alle preferenze dell'utente, inviare le informazioni di contatto dell'utente e infine completare il compito.
Questa complessità è ovviamente un gradino sopra Webshop. Secondo le statistiche dopo l'esperimento, il numero medio di passaggi per completare le attività del Webshop è 6,8, mentre Open Table è raddoppiato arrivando a 13,9.
Poiché Open Table non è un set di dati simulato, ma un reale ambiente online, è difficile eseguire una valutazione automatizzata. Pertanto, il documento utilizza GPT-4-V come valutatore per premiare l'agente per ogni fase dell'operazione in base a criteri predefiniti. indicatori e contrassegnare se l'attività è stata completata.
L'Agente Q ha aumentato il tasso di successo a campione zero di LLaMa-3 dal 18,6% all'81,7%, con un aumento del punteggio del 340%, dopo solo un giorno di raccolta dati autonoma.
Dopo aver aggiunto la ricerca online degli alberi Monte Carlo, la percentuale di successo può essere ulteriormente aumentata al 95,4%.
Sebbene l'Agente Q abbia dimostrato forti capacità di navigazione web, ricerca, ragionamento e pianificazione negli esperimenti di valutazione di cui sopra, c'è ancora molto spazio per la discussione e il miglioramento dei metodi attualmente utilizzati:
- Progettazione dell'algoritmo di ragionamento: la sfida principale dell'Agente Q risiede attualmente nella sua debole capacità di ragionamento, che limita le strategie di esplorazione e ricerca, inoltre, durante l'addestramento della strategia dell'agente, il modello critico è attualmente in uno stato congelato, che ne introduce ulteriori Potrebbero esserci miglioramenti in termini di prestazioni dalla messa a punto.
- L'agente Q preferisce MCTS per la ricerca a causa della precedente esperienza di successo di MCTS con compiti di matematica e codifica, ma può causare un numero considerevole di interazioni rischiose in un ambiente reale. Cambiare la tua strategia di ricerca potrebbe essere un’opzione più appropriata.
- Sicurezza e interazione online: attualmente, l'Agente Q consente effettivamente un ampio grado di esplorazione e autovalutazione autonoma, con un intervento umano limitato. Tuttavia, potrebbero verificarsi ancora molti errori nel funzionamento dell'agente, soprattutto in attività critiche come la posta elettronica, il pagamento e l'archiviazione.
Se i problemi di sicurezza non vengono affrontati, gli scenari effettivi delle attività implementabili dell'Agente Q saranno notevolmente limitati e in futuro potrebbero essere necessari ulteriori modelli critici di sicurezza e impostazioni di formazione human-in-the-loop.
Riferimenti:
https://x.com/rm_rafailov/status/1823462897751875701
https://x.com/ai_for_success/status/1823447309008490730
https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next- generation-of-ai-agents-with-planning-and-self-healing-capabilities