2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nouveau rapport de sagesse
Editeur : Taozi
[Introduction à la nouvelle sagesse]Avez-vous déjà pensé que peut-être un jour dans le futur, l'armée de l'IA sera en mesure d'assumer les tâches importantes de l'entreprise et que les humains seront-ils réduits à des rôles de soutien ?
Xiao Zha croit fermement que « dans le futur, il y aura plus d'agents d'IA que d'humains dans le monde ».
Alors, que se passe-t-il si ces IA ont aussi une culture d’entreprise ?
Sont-ils comme les humains ? Il existe des IA qui détiennent le pouvoir de décision et des IA qui travaillent dur.
Il y a quelques mois, il a été révélé qu'OpenAI avait défini en interne une route AGI à cinq niveaux, L5 - Organisateur : une IA capable d'accomplir le travail d'organisation.
Il s’agit peut-être de l’organigramme de la future entreprise.
Parce que la coopération de plusieurs agents intelligents est en plein essor.
Auparavant, une étude avait montré qu'un système doté de plus de 30 agents d'IA surpassait les simples appels LLM dans presque toutes les tâches, tout en réduisant les hallucinations et en améliorant la précision.
Adresse papier : https://arxiv.org/pdf/2402.05120
Cependant, comment plusieurs agents devraient-ils réellement collaborer ?
En explorant les moyens d'améliorer les performances de l'IA dans les tâches de génie logiciel, Alex Sima a eu une révélation :
Que se passerait-il si l’interaction entre les agents d’IA était institutionnalisée et assimilée à « l’organigramme » d’un géant de la technologie ?
Ensuite, Alex a laissé l’IA prendre le contrôle des six grands géants de la technologie – Amazon, Google, Microsoft, Apple, Meta et Oracle – pour voir comment ils collaborent.
Prenons d'abord une photo pour avoir une idée.
Points clés à retenir
Voici quelques points clés qu'Alex a acquis après avoir organisé les agents d'IA dans des structures d'entreprise similaires à celles d'Apple, Microsoft et Google :
- Les entreprises comptant plusieurs équipes « concurrentes » (c'est-à-dire rivalisant pour produire le meilleur produit final), telles que Microsoft et Apple, surpassent les hiérarchies centralisées.
- Les systèmes comportant des points de défaillance uniques (par exemple, un dirigeant prenant des décisions importantes), comme Google, Amazon et Oracle, fonctionnent mal.
- La structure organisationnelle des grandes entreprises technologiques a un impact modeste mais significatif sur les capacités de résolution de problèmes.
Agents d’IA et organisations géantes de la technologie
Les méthodes précédentes visant à améliorer les performances en augmentant simplement le nombre d'agents d'IA, telles que SWE-bench, n'ont pas donné de résultats significatifs.
Cela montre que compter uniquement sur un nombre croissant ne résoudra pas le problème.
Alors, quelles sont les autres façons d’améliorer les agents d’IA en génie logiciel ?
Il y a trois semaines, Alex est tombé sur un article de James Huckle sur la « loi de Conway » : l'architecture des logiciels et des produits est destinée à refléter la structure organisationnelle qui les a créés.
James a montré une illustration révélant les structures organisationnelles dramatiques d'Amazon, Google, Facebook, Microsoft, Apple et Oracle et a suggéré une idée :
Comme les humains dans les grandes entreprises technologiques, les structures de communication multi-agents peuvent façonner les approches de résolution de problèmes.
Alex a eu l'idée de tester l'hypothèse de James sur une instance de banc SWE.
Configuration expérimentale
Les auteurs organisent les agents d'IA dans différentes structures d'entreprise et évaluent six structures organisationnelles différentes sur le sous-ensemble « mini » de 13 instances de SWE-bench-lite.
En construisant ces six organisations, il a conçu la structure organisationnelle multi-agents sur la base de quelques observations fondamentales :
Amazone
Il existe un arbre binaire de « managers » au niveau supérieur.
Pour reproduire cette structure, Alex utilise un grand nombre d'agents qui effectuent des recherches dans la base de code, ainsi qu'un seul agent qui effectue finalement les mises à jour de la base de code.
Semblable à la structure arborescente d'Amazon, mais avec plus de connexions entre les couches intermédiaires.
Alex copie tous les résultats des agents par agrégation au sein d'une seule couche et les transmet à la couche d'agents suivante.
Méta (Facebook)
Il lui manque une structure hiérarchique, mais il s’agit néanmoins d’une organisation en réseau avec de nombreuses connexions entre agents.
Alex a modifié la conception originale de l'agent en augmentant la possibilité de conversion entre différents agents.
Microsoft
L'accent est mis sur les équipes compétitives, chacune avec son propre niveau.
Essentiellement, Alex a restructuré Amazon (en réduisant le nombre d'agents) et a utilisé une méthode de vote par similarité vectorielle pour sélectionner la « meilleure » solution parmi trois exécutions distinctes (avec de légers ajustements de la hiérarchie à chaque exécution).
pomme
De nombreuses petites équipes compétitives, chacune avec sa propre structure minimale.
Alex a utilisé la même approche de « meilleure solution » que Microsoft, mais a effectué davantage d'exécutions sans niveau d'agent (chaque exécution avait des transformations différentes).
Oracle
Il existe deux équipes différentes, un arbre binaire « légal » plus grand et un arbre d'ingénierie plus petit.
Alex a expliqué que l'équipe juridique est composée d'agents qui recherchent dans la base de code et récupèrent le contexte clé, tandis que l'équipe d'ingénierie est constituée des agents qui écrivent réellement le code.
La structure des deux équipes est similaire à celle d'Amazon, avec un seul agent au sommet qui coordonne le flux d'informations entre le « Juridique » et le « Ingénierie ».
Résultats de l'évaluation
Afin d'évaluer chaque ensemble de correctifs sur SWE-bench, l'auteur utilise l'évaluation de SWE-bench.
Le résultat est le suivant :
Analyse des performances de l'organigramme
Voici quelques-unes des observations de l’auteur sur la manière dont les différentes structures d’entreprise affectent la performance :
- Des équipes compétitives augmentent les chances de succès.
Les deux entreprises les plus performantes (Microsoft et Apple) disposent de plusieurs équipes en compétition pour résoudre le problème, tandis que d'autres sociétés semblent n'avoir qu'une seule grande équipe produisant un seul correctif.
Plusieurs équipes permettent une plus grande diversité d'approches de résolution de problèmes, augmentant ainsi la probabilité de résolution du problème.
- Les structures comportant des points de défaillance uniques fonctionnent mal.
Lorsque nous parlons de points de défaillance uniques, nous faisons référence à des entreprises (telles que Google, Amazon et Oracle) qui disposent de gestionnaires/agents de haut niveau capables de modifier complètement les résultats des opérations.
Lors de la coordination des interactions entre plusieurs agents, un problème courant est qu'un agent échoue, ce qui entraîne la possibilité qu'un agent change la direction de la stratégie de résolution de problèmes de l'équipe.
Les entreprises présentant des points de défaillance uniques sont vulnérables à ces problèmes.
De plus, les deux sociétés les plus performantes, Microsoft et Apple, se trouvent être les deux plus grandes entreprises technologiques au monde en termes de capitalisation boursière.
Il s’avère que les structures organisationnelles qui semblent fonctionner le mieux dans le monde réel fonctionnent également bien pour les agents IA.
Capture d'écran de CompaniesMarketCap, 25 juillet 2024
Réflexions sur les progrès du banc SWE
Si l’on considère les résultats pour différentes structures d’entreprise, c’est à prévoir sur ce benchmark Mini.
Dans l’ensemble, il semble que dans une tâche aussi complexe que l’ingénierie logicielle, l’ajout de plus d’agents ou la modification de la façon dont ces agents sont organisés n’entraînera qu’une amélioration marginale des performances.
Bien que l'article More Agents Is All You Need ait constaté une amélioration considérable de la précision (environ 20 %), dans le test GSM8K (mathématiques à l'école primaire), les performances se sont considérablement aplaties après 30 agents.
L'étude a également révélé que des tâches trop complexes (telles que celles du banc SWE) peuvent dépasser les capacités de raisonnement du modèle, entraînant une diminution des gains de performances.
L'étude SIMA a également confirmé ce résultat, avec au maximum une amélioration de seulement 2 à 3 % par rapport à l'architecture de base (utilisant plus de 40 agents).
Il s'attend à ce que cette petite amélioration soit cohérente dans d'autres architectures non multi-agents.
Les auteurs soutiennent que pour réaliser de plus grands progrès sur les benchmarks, il faut modifier les capacités réelles de raisonnement logique des agents, ou les stratégies et méthodes qu'ils peuvent adopter (ou leur donner) pour résoudre des problèmes logiciels.
Ceci peut être réalisé grâce à un modèle de base plus puissant (GPT-5) ou en donnant à l'agent des outils plus larges.
C'est la même chose avec les opérations d'entreprise.
En fin de compte, si vous n'embauchez pas d'employés plus intelligents ou ne leur donnez pas de meilleures ressources, leur rendement ne s'améliorera pas, quelle que soit la façon dont vous les organisez ou le nombre de personnes dont vous disposez.
Certes, les performances de 13 instances sont probablement loin des performances réelles du benchmark complet.
La différence dans ce mini-sous-ensemble à elle seule est suffisamment importante pour mériter qu’on y prête attention (amélioration d’environ 50 % de Google à Apple).
Le modèle/les outils sous-jacents peuvent être un facteur limitant dans l'ingénierie logicielle des agents, mais à mesure que le modèle sous-jacent s'améliore, l'exploration des structures de communication des agents (que ce soit dans une organisation d'entreprise ou non) doit absolument être testée.
Comme l'a dit James Huckle, ce concept pourrait devenir un « hyperparamètre clé » dans la conception des agents d'IA, et différentes structures organisationnelles pourraient être plus adaptées à différentes tâches.
Références :
https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures