Lorsque les Agents commenceront à se créer eux-mêmes, l’explosion des produits d’IA ne sera-t-elle encore qu’un rêve lointain ?

2024-08-21

TencentHao Boyang, rédacteur technologique

Éditeur Zheng Kejun

2024,IA Le sujet le plus brûlant dans le domaine est sans aucun doute Agent.

“grand modèleCool, mais qu'est-ce que je peux en faire ? « C’est la question annuelle de l’application de l’IA en 2023. D’ici 2024, les agents sont devenus l’antidote le plus prometteur à ce problème.

Les agents intelligents peuvent être utilisés via des processus et des outils complexes, permettant à de grands modèles de gérer des tâches plus complexes et personnalisées, produisant finalement des entités logicielles ou des entités physiques dotées d'autonomie, de perception, de prise de décision et de capacités d'action. Ng Enda, Jim Fan et d'autres grands noms de l'industrie se sont joints à eux pour prouver l'efficacité de l'agent intelligent.

Le professeur Ng Enda a proposé sur son blog en mars de cette année qu'il soit utilisé dans l'ensemble de données HumanEval. GPT-3.5La précision du test (Zero-shot) est de 48,1 %. GPT-4(Zéro tir) est de 67,0 %. En coopérant avec le workflow de l'agent, GPT-3.5 a atteint un taux de précision de 95,1 %.

(Note photo : les expériences de Ng Enda, dans le cadre de la technologie des agents intelligents,GPT Les performances 3.5 dépassent de loin le GPT4 d'origine)

C’est pourquoi, au cours de l’année écoulée, tout le monde, des grandes entreprises aux experts privés, a construit des corps intelligents. assez grandMicrosoftCopilit, une divination absurde de l'IA, des outils pour créer des cadres d'agents intelligents tels que Langchain, Coze et Dify ont également poussé comme des champignons après la pluie, et leur popularité continue d'augmenter.

(Note photo : entreprises liées aux agents et aux processus d'automatisation de l'IA compilés par INSIGHT)

Andrew Karpathy, ancien scientifique d'OpenAI, a déclaré un jour que les gens ordinaires, les entrepreneurs et les geeks sont moins susceptibles de créer des agents d'IA queOpenAICes entreprises ont même un avantage.

Une nouvelle ère de chefs de produit basée sur le workflow des agents IA arrive-t-elle ? Pas nécessairement, car l’IA pourrait être plus efficace que les humains pour créer des agents intelligents.

Logique de boucle automatisée

Le 19 août, trois chercheurs de l'Université de la Colombie-Britannique ont publié un article intitulé « Conception automatisée de systèmes d'agents ». Dans cet article, il a conçu un système qui permet à l’IA de découvrir et de créer des agents par elle-même, et de procéder à des itérations par elle-même.

Rappelez-vous la définition classique d'OpenAI d'un agent. Un agent est un produit qui peut stocker des connaissances, planifier et appliquer des outils.

Lorsque nous utilisons un workflow pour créer des agents, nous utilisons également les connaissances existantes (connaissances sur la forme des agents) pour planifier nous-mêmes (créer des processus) et utiliser des outils (API d'accès) pour finalement exécuter le résultat. Il n'y a rien au-delà des capacités du. agent lui-même.

Alors pourquoi ne pas créer un agent capable de découvrir et de concevoir automatiquement des agents ?

L'auteur de l'article suit cette idée et qualifie le concepteur de méta-agent, à qui il demande de concevoir de nouveaux agents. Ajoutez l'agent conçu à la base de données en tant que données et itérez continuellement de nouvelles versions plus puissantes de l'agent.

Ils appellent tout cet ensemble de méthodes ADAS (Automated Design of Intelligent Systems).

Alors, comment ce système entre-t-il exactement en vigueur ?

Laisse la chaîne tourner

Le processus de génération de nouveaux agents dans les systèmes ADAS peut être divisé en trois parties :

La première partie établit l’espace de recherche, qui peut être compris comme l’utilisation de quelques outils et règles de base pour concevoir de nouveaux agents potentiels.

La deuxième partie consiste à lancer la recherchealgorithme, qui stipule comment le méta-agent utilise l'espace de recherche et utilise ses éléments pour créer spécifiquement de nouveaux agents.

La dernière partie consiste à exécuter la fonction d'évaluation, qui évaluera l'agent construit en fonction des performances et d'autres objectifs.

Les chercheurs expliquent étape par étape comment construire les trois parties principales ci-dessus dans le document.

Premièrement, les éléments de base pour construire l’espace de recherche doivent être déterminés. Les chercheurs estiment que la meilleure méthode est le code.

En effet, le code est Turing complet et peut exprimer toutes les possibilités. Ainsi, en théorie, les méta-agents peuvent découvrir tous les éléments de base possibles (tels que les astuces, l'utilisation des outils, les flux de contrôle) et les systèmes d'agents qui combinent ces éléments de base de quelque manière que ce soit.

Plus important encore, les différents flux de travail qui existent déjà sur des sites Web comme Langchain pour les agents du bâtiment ont été codifiés. Par conséquent, les données pertinentes sont à portée de main et il n’est pas nécessaire de les convertir à nouveau. Les appels d'outils, tels que RAG (retrieval augmenté génération) et d'autres composants de capacités disposent déjà d'une base de code très suffisante.

L'utilisation de code pour créer l'espace de recherche signifie également que les agents générés par ADAS peuvent être exécutés directement pour corriger les erreurs et exécuter des scores sans intervention manuelle.

Après avoir défini l’espace de recherche, les chercheurs commencent à concevoir des algorithmes de recherche, qui permettent au méta-agent d’explorer les moyens possibles d’accomplir la tâche. Ce processus est essentiellement complété en s'appuyant sur le mot d'invite projet.

La première consiste à lui donner une série de mots d’invite du système.

Ensuite, mettez la baseRapideLes informations mentionnées sont fournies au méta-agent, notamment

1. Description de base de la tâche.

2. Le code-cadre le plus basique, tel que les invites de formatage, l'encapsulation et d'autres noms d'opérations, ainsi que la possibilité d'appeler d'autres modèles de base (FM) et API.

(Note photo : une partie du code-cadre)

3. Format et exemples d'entrée et de sortie de tâches.

4. Une bibliothèque d'échantillons constituée de certains agents générés lors de l'itération d'origine, y compris leurs résultats de tests de base.

(Note illustrée : un exemple dans une bibliothèque d'agents intelligents)

Sur la base de ces conseils de base, ADAS peut commencer à fonctionner et générer un agent intelligent pour résoudre un problème spécifique.

Dans ce processus, le méta-agent mènera deux cycles de réflexion pour s'assurer que l'agent généré est nouveau et correct. Il vérifie si le cadre de code nouvellement généré contient des erreurs et s'il est suffisamment innovant par rapport aux résultats antérieurs de la bibliothèque d'exemples d'agent.

Le méta-agent doit également effectuer une évaluation préliminaire de l'agent généré sur la base de sa « compréhension » des capacités de performance pratiques afin de déterminer s'il fonctionne mieux que l'agent précédent.

Lorsque certaines de ces conditions ne sont pas remplies, le méta-agent doit soit modifier l'agent généré, soit simplement le recréer.

(Invite au premier tour de réflexion)

Après deux cycles de réflexion et de modification, le méta-agent enverra l'agent nouvellement généré qu'il juge nouveau et bon au système d'évaluation lors de la troisième étape.

Le système d'évaluation attribuera un score objectif à la capacité de l'agent sur la base du test de base, puis le renverra à la bibliothèque d'exemples d'agent.

Le méta-agent continuera à optimiser l'itération suivante en fonction des résultats de notation précédents et des exemples passés dans la bibliothèque d'exemples pour obtenir un score de performance de tâche plus élevé.

De ce processus est née toute une chaîne entièrement automatisée. Pour générer un agent hautement efficace, cela peut prendre plus de deux chiffres d’itérations.

Au-delà de l’intelligence du frottement des mains

Quelle peut être la complexité des agents intelligents obtenus en automatisant les processus via les méthodes ADAS ? L'image ci-dessous est un framework d'agent généré après 14 itérations.

Il y a cinq chaînes de pensée dans la structure de cet agent qui donnent des réponses préliminaires. Après les retours de trois modèles experts et d'un modèle imitant l'évaluation humaine, les réponses sont modifiées et améliorées trois fois au cours de la phase du processus d'optimisation. Finalement, trois résultats ont été éliminés après évaluation et combinés pour donner la réponse finale.

Si un humain devait gérer ce niveau de complexité, cela prendrait probablement une semaine. C'est juste le moment d'écrire des invites et de concevoir une architecture, sans parler des tests et des comparaisons horizontales.

Bien entendu, cela est aussi le résultat d’itérations continues dans la conception du méta-agent.

Au cours du processus itératif, sa capacité à générer des agents intelligents augmente également rapidement avec le nombre d'itérations. Dans la troisième itération, le méta-agent a appris par lui-même la stratégie de la chaîne de réflexion multiple, et dans la quatrième itération, il a appris à utiliser la mémoire dynamique pour optimiser les réponses. À la 14ème fois, l'agent généré a atteint la complexité mentionnée ci-dessus.

En fin de compte, la capacité de sa solution optimale peut être améliorée de plus de 250 % par rapport au modèle de langage simple et volumineux d'origine, et elle est améliorée de 75 % par rapport à l'agent manuel le plus performant COT-SC (chaîne de pensées multiples réponse) méthode.

Non seulement ARC, les agents générés en mode ADAS sont nettement plus puissants à tous égards que tous les agents de base actuels les plus puissants, tels que COT, LLM Debate et Self-Refine. Et plus les tâches complexes et les applications inter-domaines sont traitées, plus les agents intelligents générés par ADAS sont puissants.

De plus, ces agents générés ont eux-mêmes certaines capacités de migration. Par exemple, les agents capables de résoudre des problèmes scientifiques peuvent également obtenir de bons résultats en mathématiques. Par conséquent, un cadre optimal sera probablement capable de résoudre des problèmes connexes dans de nombreux domaines.

Même si l’ère des agents frottant les mains touche à sa fin, l’ère de la découverte de paradigmes d’agents pourrait se poursuivre. Dans le test global, ADAS n'a pas découvert de nouvelles méthodes de construction en dehors du paradigme actuel de construction d'agents intelligents, mais a plutôt réorganisé et utilisé ces méthodes.

Cependant, pour le développeur moyen d’agents IA, cela suffit à remplacer son travail.

Cependant, la popularité des ADAS devra peut-être encore surmonter un obstacle, à savoir le problème du coût.

Selon les chercheurs, l'API OpenAI coûte environ 500 dollars pour une recherche et une évaluation sur ARC, et environ 300 dollars pour une seule exécution dans le domaine du raisonnement et de la résolution de problèmes. Cela représente environ 20 $ par itération. Par rapport à des coûts aussi élevés, la main-d’œuvre présente encore certains avantages à ce stade.

Mais les chercheurs ont également déclaré que parce qu’ils l’avaient étudié très tôt, ils avaient utilisé le modèle « gpt-3.5-turbo-0125 ». Le dernier modèle GPT-4 « gpt-4o-mini » coûte moins d'un tiers du prix du « gpt-3.5-turbo-0125 » et offre de meilleures performances. De plus, des expériences montrent qu'un agent itéré avec les capacités GPT 3.5 entrera dans un goulot d'étranglement en termes de performances après un certain nombre d'itérations, et que toutes les itérations après quatorze fois sont un gaspillage. Par conséquent, des conceptions avec une meilleure évaluation et une meilleure gestion des ressources peuvent également réduire considérablement les coûts.

De toute évidence, l’avantage du prix du travail ne peut pas être maintenu longtemps.

L’explosion de l’intelligence a-t-elle vraiment commencé ?

Pourquoi cette technologie automatisée est-elle si importante ?

À l’ère de l’Internet mobile, diverses applications pour différents domaines fleurissent, qui créent ensemble une ère de prospérité technologique. Cependant, comme les nouveaux outils nécessitaient à l’époque un apprentissage, le développement d’applications mobiles a également traversé une longue phase de pénétration avant qu’un nombre suffisant de développeurs ne soient finalement accueillis.

Dans les époques antérieures, cela était plus lent. Selon la théorie du « franchissement du gouffre » proposée par Geoffrey Moore, basée sur l'expérience des ordinateurs personnels dans les années 1990, dans les premières années de l'émergence de la technologie, seulement 13,5 % environ des premiers utilisateurs utiliseraient cette technologie. .

Par conséquent, la pénurie de développeurs peut constituer un obstacle important à la promotion de la technologie.

Bien entendu, le développement et la pénétration de la construction d’agents intelligents pourraient être beaucoup plus rapides. Parce que c'est beaucoup plus simple que le développement logiciel précédent. Par exemple, Wordware, devenu populaire il y a quelque temps, permet aux utilisateurs ordinaires de compléter la construction d'agents intelligents en utilisant le langage naturel, ce qui abaisse le seuil.

Cependant, les conceptions telles que les chaînes de réflexion et les boucles à plusieurs étapes restent très complexes et de plus en plus d’outils sont nécessaires dans le processus. Par conséquent, peu de gens peuvent réellement se consacrer au développement d’agents intelligents et faire bon usage de cet outil.

Zuckerberg a déclaré un jour lors d'une conversation avec Huang Renxun que même si la technologie des modèles à grande échelle ne se développe plus, il faudra cinq ans pour comprendre pleinement le potentiel des agents intelligents.

Par conséquent, par rapport à la technologie, les développeurs pourraient constituer le principal goulot d’étranglement pour les agents intelligents qui n’ont pas encore explosé. Il y a encore trop peu de gens capables de le faire.

Cependant, il existe de nombreux agents.

Si cette technologie de génération automatique d'agents de réglage est adoptée et optimisée par davantage d'entreprises commerciales, le goulot d'étranglement du premier personnel technique n'existera naturellement plus. La vitesse à laquelle les agents peuvent explorer la couverture et la profondeur des capacités dans divers domaines sera considérablement augmentée.

Peut-être que l’année prochaine, la première application Killer AI de l’histoire de l’humanité sera lancée, et l’auteur est une IA.

nouvelles