2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nouveau rapport de sagesse
Editeur : Qiao Yang a tellement sommeil
[Introduction à la nouvelle sagesse]La start-up MultiOn a récemment lancé l'Agent Q, qui, selon elle, est "actuellement le plus puissant" et peut atteindre un taux de réussite de 95,4 % dans des tâches de réservation réelles. Les internautes ont spéculé que le mystérieux projet Q* d’OpenAI était derrière tout cela.
Sans attendre la sortie du projet Q*/Strawberry d'OpenAI, une start-up appelée MultiOn a d'abord publié un agent nommé Q.
Nous sommes très heureux d'annoncer que Agent Q, notre travail des 6 derniers mois, est désormais en ligne ! Il s'agit d'un cadre d'agent auto-supervisé qui peut raisonner et rechercher, et peut effectuer un apprentissage par jeu personnel et par renforcement à travers des tâches réelles sur Internet pour parvenir à une auto-correction et une amélioration autonome !
Ce qui a attiré encore plus l'attention, c'est que lorsque MultiOn Lianchuang/PDG Div Garg a mentionné l'agent Q sur Twitter, il n'a jamais oublié d'apporter celui-ci bien en vue.
Cela a attiré des spectateurs constants de tous horizons. Certaines personnes ont émis l’hypothèse que le grand patron derrière l’Agent Q était le projet Q* d’OpenAI.
De plus, MultiOn a également ouvert un compte Twitter indépendant pour l'agent Q, qui publie souvent diverses remarques étranges « difficiles à distinguer entre les humains et les machines ».
L'image d'arrière-plan et les informations de base du compte sont pleines de fraises, et les photos de fraises dans son propre jardin qu'Ultraman avait publiées auparavant ont été directement collées.
Mais ce qui est étonnant, c'est que ce compte mystérieux compte de nombreux adeptes et KOL, dont Garry Tan, PDG de Y-Combinator, Adam D'Angelo, PDG de Quora, Kevin Roose, chroniqueur du New York Times, Ethan Mollick, professeur d'IA à Wharton, et plusieurs membres du personnel d'OpenAI.
Même Ultraman a récemment pris l'initiative d'interagir avec ce mystérieux compte et a commenté son post qui se moquait de "AGI atteint le niveau 2".
Que cette vague d'opérations de MultiOn soit purement hype ou qu'elle soit associée à la promotion de Q* par OpenAI, cela dépend de l'opinion des gens.
Soit ce sera l'un des meilleurs agents d'IA jamais publiés, soit Div Garg ruinera la réputation de l'entreprise en s'impliquant dans le pire battage médiatique possible. Dans la communauté de l’IA, c’est contre-productif.
Laissant de côté toutes les controverses, examinons d’abord le contenu technique de cet Agent Q.
Selon le PDG Div Garg, l'agent Q possède non seulement des capacités de planification et de raisonnement, mais également des capacités d'auto-guérison. En une seule journée de formation, ils ont amélioré les performances sans échantillon de Llama 3 de 340 %, atteignant un taux de réussite de 95,4 % dans les tâches de réservation réelles.
Il s’agit d’une avancée majeure permettant aux agents d’IA autonomes de prendre des décisions complexes et fiables dans des environnements réels.
Dans la vidéo de démonstration officielle, l'agent Q peut effectuer des tâches telles que la réservation de restaurants, de réunions et de billets d'avion, qui impliquent toutes une planification, un raisonnement, une prise de décision et une interaction en plusieurs étapes avec diverses applications.
Bien que l'équipe de recherche de MultiOn ait téléchargé l'article sur le site officiel, l'agent Q n'est pas encore ouvert au procès et vous devez vous inscrire sur la liste d'attente pour postuler à l'opportunité d'être testé en interne.
Adresse papier : https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
Le site officiel affirme que l'Agent Q sera ouvert aux développeurs et utilisateurs de MultiOn plus tard cette année.
Interprétation technique
Ces dernières années, bien que le LLM ait complètement bouleversé le domaine de la PNL et obtenu des résultats remarquables, il reste confronté à des défis majeurs dans les environnements interactifs, en particulier les tâches de raisonnement en plusieurs étapes, telles que la navigation sur des pages Web.
Les méthodes de formation actuelles qui s'appuient sur des ensembles de données linguistiques statiques sont insuffisantes pour adapter ces modèles aux interactions dynamiques du monde réel.
L'émergence de l'Agent Q constitue une étape majeure dans le domaine des agents d'IA, qui combine la recherche, l'auto-réflexion et l'apprentissage par renforcement pour permettre la planification et l'auto-guérison.
En introduisant un nouveau cadre d'apprentissage et d'inférence, Agent Q répond aux limites des techniques de formation LLM précédentes, permettant une navigation autonome sur les pages Web.
Répartition des étapes de l'agent Q lors de l'exécution des tâches planifiées
Problèmes avec les méthodes actuelles
Les méthodes actuelles, telles que le réglage fin supervisé sur des démonstrations d'experts soigneusement planifiées, fonctionnent souvent mal sur les tâches multi-étapes des agents en raison d'erreurs accumulées et de données d'exploration limitées, nécessitant ainsi une prise de décision complexe et une adaptation dans des environnements dynamiques. À mesure que vous apprenez, des stratégies sous-optimales émerger.
Méthodes et composants de l'agent Q
L'agent Q combine la recherche guidée par arbre de Monte Carlo (MCTS) et les méthodes d'auto-réflexion et de réglage itératif de l'IA, tout en utilisant des algorithmes RLHF tels que l'optimisation des préférences directes (DPO) pour permettre aux agents LLM d'apprendre des trajectoires réussies et échouées et d'améliorer plusieurs généralisations. capacité à effectuer des tâches de raisonnement étape par étape.
Les composants clés de l'Agent Q incluent :
1. Recherche guidée basée sur MCTS : générer de manière autonome des données en explorant différents comportements et pages Web, et trouver un équilibre entre exploration et exploitation.
MCTS utilise des températures d'échantillonnage plus élevées et divers mots d'invite pour élargir l'espace de comportement et garantir que des trajectoires diverses et optimales peuvent être collectées.
2. Autocritique de l’IA : à chaque étape, l’autocritique basée sur l’IA peut fournir des commentaires précieux pour optimiser la prise de décision de l’agent. Cette rétroaction par étapes est cruciale pour les tâches à long terme, car des signaux clairsemés entraînent souvent des difficultés d'apprentissage.
3. Optimisation directe des préférences : l'algorithme DPO affine le modèle en construisant des paires de préférences de données générées par MCTS. Cette méthode de formation hors politique permet au modèle d'apprendre efficacement à partir de l'ensemble de données agrégées, y compris les branches sous-optimales explorées au cours du processus de recherche, améliorant ainsi le taux de réussite dans des environnements complexes.
Expérience d'évaluation
Dans la tâche de simulation d'une boutique en ligne construite sur la base du modèle xLAM-v0.1-r, l'agent doit effectuer une recherche pour trouver des produits spécifiques.
Bien que des méthodes telles que RFT, DPO et la recherche de faisceaux puissent également apporter certaines améliorations, leur ampleur n'est pas aussi élevée que celle d'AgentQ.
Si les méthodes Agent Q et MCTS sont utilisées en même temps, le taux de réussite des tâches peut être augmenté de 28,6 % à 50,5 %, ce qui équivaut au niveau humain moyen de 50 %.
Dans la véritable tâche de réservation d'Open Table, l'agent doit effectuer plusieurs étapes, notamment trouver la page du restaurant correspondant, sélectionner la date et l'heure appropriées, sélectionner le siège approprié en fonction des préférences de l'utilisateur, soumettre les informations de contact de l'utilisateur et enfin terminer la tâche.
Cette complexité est évidemment un cran au-dessus du Webshop. Selon les statistiques issues de l'expérience, le nombre moyen d'étapes pour effectuer les tâches de la boutique en ligne est de 6,8, tandis qu'Open Table a doublé pour atteindre 13,9.
Étant donné qu'Open Table n'est pas un ensemble de données simulées, mais un véritable environnement en ligne, il est difficile d'effectuer une évaluation automatisée. Par conséquent, le document utilise GPT-4-V comme évaluateur pour récompenser l'agent pour chaque étape de l'opération sur la base de données prédéfinies. indicateurs et indiquer si la tâche est terminée.
L'agent Q a augmenté le taux de réussite sans échantillon de LLaMa-3 de 18,6 % à 81,7 %, avec une augmentation du score de 340 %, après seulement une journée de collecte de données autonome.
Après avoir ajouté la recherche arborescente Monte Carlo en ligne, le taux de réussite peut encore être augmenté jusqu'à 95,4 %.
Bien que l'agent Q ait démontré de solides capacités de navigation, de recherche, de raisonnement et de planification sur le Web dans les expériences d'évaluation ci-dessus, il reste encore beaucoup de place à la discussion et à l'amélioration des méthodes actuellement utilisées :
- Conception d'un algorithme de raisonnement : le principal défi de l'Agent Q réside actuellement dans sa faible capacité de raisonnement, ce qui limite les stratégies d'exploration et de recherche. De plus, lors de l'entraînement de la stratégie de l'agent, le modèle critique est actuellement dans un état gelé, ce qui introduit des éléments supplémentaires ; Un réglage fin peut entraîner des gains de performances.
- L'agent Q préfère MCTS pour la recherche en raison de l'expérience réussie de MCTS dans les tâches de mathématiques et de codage, mais peut entraîner un nombre considérable d'interactions risquées dans un environnement réel. Changer votre stratégie de recherche peut être une option plus appropriée.
- Sécurité et interaction en ligne : actuellement, l'Agent Q permet en réalité un large degré d'exploration et d'auto-évaluation autonomes, avec une intervention humaine limitée. Cependant, de nombreuses erreurs peuvent encore survenir dans le fonctionnement de l'agent, notamment dans les tâches critiques telles que l'email, le paiement et l'archivage.
Si les problèmes de sécurité ne sont pas résolus, les scénarios de tâches réellement déployables de l'agent Q seront considérablement limités, et des modèles de critique de sécurité supplémentaires et des paramètres de formation humaine dans la boucle pourraient être nécessaires à l'avenir.
Références :
https://x.com/rm_rafailov/status/1823462897751875701
https://x.com/ai_for_success/status/1823447309008490730
https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-Generation-of-ai-agents-with-planning-and-self-healing-capabilities