noticias

El ejército de IA se ha apoderado de los seis principales gigantes tecnológicos, ¡y los jefes y trabajadores son todos IA! Imita la estructura organizativa de Microsoft y consigue una eficiencia laboral asombrosa

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: Taozi

[Introducción a la Nueva Sabiduría]¿Alguna vez has pensado que tal vez algún día en el futuro, el ejército de IA podrá asumir las tareas importantes de la empresa y los humanos quedarán reducidos a roles de apoyo?

Xiao Zha cree firmemente que "en el futuro, habrá más agentes de IA que humanos en el mundo".


Entonces, ¿qué pasa si estas IA también tienen cultura corporativa?

¿Son como los humanos? Hay IA que tienen poder de toma de decisiones y otras que trabajan duro.

Hace unos meses, se reveló que OpenAI había definido internamente una ruta AGI de cinco niveles, L5 - Organizador: IA que puede completar el trabajo organizacional.

De lo que esto está hablando puede ser del organigrama de la futura empresa.


Porque la cooperación de múltiples agentes inteligentes va en aumento.

Anteriormente, un estudio demostró que un sistema con más de 30 agentes de IA superaba las llamadas simples de LLM en casi cualquier tarea, al tiempo que reducía las alucinaciones y mejoraba la precisión.


Dirección del artículo: https://arxiv.org/pdf/2402.05120

Sin embargo, ¿cómo deberían colaborar realmente varios agentes?

Mientras exploraba formas de mejorar el rendimiento de la IA en tareas de ingeniería de software, Alex Sima tuvo una epifanía:

¿Qué pasaría si la interacción entre los agentes de IA se institucionalizara y se asemejara al "organigrama" de un gigante tecnológico?


A continuación, Alex dejó que la IA se hiciera cargo de los seis gigantes tecnológicos más importantes (Amazon, Google, Microsoft, Apple, Meta y Oracle) para ver cómo colaboraban.

Primero tomemos una fotografía para tener una idea.


Conclusiones clave

Los siguientes son algunos puntos clave que Alex obtuvo después de organizar a los agentes de IA en estructuras corporativas similares a las de Apple, Microsoft y Google:

- Las empresas con múltiples equipos "competidores" (es decir, que compiten para producir el mejor producto final), como Microsoft y Apple, superan a las jerarquías centralizadas.

- Los sistemas con puntos únicos de falla (como un líder que toma decisiones importantes), como Google, Amazon y Oracle, tienen un desempeño deficiente.

- La estructura organizativa de las grandes empresas tecnológicas tiene un impacto modesto pero significativo en las capacidades de resolución de problemas.


Agentes de IA y organizaciones gigantes tecnológicas

Los métodos anteriores para mejorar el rendimiento simplemente aumentando el número de agentes de IA, como SWE-bench, no han logrado resultados significativos.

Esto demuestra que depender únicamente de números cada vez mayores no resolverá el problema.


Entonces, ¿cuáles son otras formas de mejorar los agentes de IA en ingeniería de software?

Hace tres semanas, Alex se topó con un artículo de James Huckle sobre la "Ley de Conway": la arquitectura del software y del producto está destinada a reflejar la estructura organizacional que lo creó.

James mostró una ilustración que revelaba las dramáticas estructuras organizativas de Amazon, Google, Facebook, Microsoft, Apple y Oracle y sugirió una idea:

Al igual que los humanos en las grandes empresas tecnológicas, las estructuras de comunicación de múltiples agentes pueden dar forma a los enfoques de resolución de problemas.


Alex se inspiró para probar la hipótesis de James en una instancia del banco SWE.

Configuración experimental

Los autores organizan a los agentes de IA en diferentes estructuras empresariales y evalúan seis estructuras organizativas diferentes en el subconjunto "mini" de 13 instancias de SWE-bench-lite.

Al construir estas seis organizaciones, diseñó la estructura organizacional de múltiples agentes basándose en algunas observaciones centrales:

Amazonas

Hay un árbol binario de "administradores" en el nivel superior.

Para replicar esta estructura, Alex utiliza una gran cantidad de agentes que realizan búsquedas de base de código y un único agente que, en última instancia, realiza actualizaciones de base de código.


Google

Similar a la estructura de árbol de Amazon, pero con más conexiones entre las capas intermedias.

Alex copia todos los resultados de los agentes mediante agregación dentro de una sola capa y los pasa a la siguiente capa de agentes.


Meta (Facebook)

Carece de una estructura jerárquica, pero sigue siendo una organización en red con muchas conexiones entre agentes.

Alex modificó el diseño original del agente aumentando la posibilidad de conversión entre diferentes agentes.


microsoft

Énfasis en equipos competitivos, cada uno con su propio nivel.

Básicamente, Alex reestructuró Amazon (reduciendo la cantidad de agentes) y utilizó un método de votación de similitud vectorial para seleccionar la "mejor" solución de tres ejecuciones separadas (con ligeros ajustes a la jerarquía en cada ejecución).


manzana

Muchos equipos competitivos pequeños, cada uno con su propia estructura mínima.

Alex utilizó el mismo enfoque de "mejor solución" que Microsoft, pero realizó más ejecuciones sin un nivel de agente (cada ejecución tuvo transformaciones diferentes).


Oráculo

Hay dos equipos diferentes, un árbol binario "legal" más grande y un árbol de ingeniería más pequeño.

Alex explicó que el equipo legal son los agentes que buscan en la base del código y recuperan el contexto clave, mientras que el equipo de ingeniería está formado por los agentes que realmente escriben el código.

La estructura de los dos equipos es similar a la de Amazon, con un único agente en la cima que coordina el flujo de información entre "Legal" e "Ingeniería".


Resultados de la evaluación

Para evaluar cada conjunto de parches en SWE-bench, el autor utiliza la evaluación SWE-bench.

El resultado es el siguiente:


Análisis de rendimiento del organigrama

Estas son algunas de las observaciones del autor sobre cómo las diferentes estructuras empresariales afectan el desempeño:

- Los equipos competitivos aumentan las posibilidades de éxito.

Las dos empresas con mejor desempeño (Microsoft y Apple) tienen múltiples equipos compitiendo para resolver el problema, mientras que otras compañías parecen tener un solo equipo enorme que produce un solo parche.

Múltiples equipos permiten una mayor diversidad de enfoques de resolución de problemas, lo que aumenta la probabilidad de resolución del problema.

- Las estructuras con puntos únicos de falla funcionan mal.

Cuando nos referimos a puntos únicos de falla, nos referimos a empresas (como Google, Amazon y Oracle) que tienen gerentes/agentes de alto nivel que pueden cambiar completamente los resultados de las operaciones.

Al coordinar interacciones entre múltiples agentes, un problema común es que un agente falla, lo que genera la posibilidad de que un agente cambie la dirección de la estrategia de resolución de problemas del equipo.

Las empresas con puntos únicos de falla son vulnerables a estos problemas.

Además, las dos empresas con mejor desempeño, Microsoft y Apple, son las dos empresas de tecnología más grandes del mundo por capitalización de mercado.

Resulta que las estructuras organizativas que parecen funcionar mejor en el mundo real también funcionan bien para los agentes de IA.


Captura de pantalla de CompaniesMarketCap, 25 de julio de 2024

Reflexiones sobre el progreso del SWE-bench

Si observamos los resultados de las diferentes estructuras empresariales, esto es de esperar en este benchmark Mini.

En general, parece que en una tarea tan compleja como la ingeniería de software, agregar más agentes o cambiar la forma en que están organizados esos agentes sólo conducirá a mejoras marginales en el rendimiento.

Aunque el artículo More Agents Is All You Need encontró una mejora considerable en la precisión (alrededor del 20%), en la prueba GSM8K (matemáticas de escuela primaria), el rendimiento se estabilizó significativamente después de 30 agentes.

El estudio también encontró que las tareas demasiado complejas (como las del banco SWE) pueden exceder las capacidades de razonamiento del modelo, lo que resulta en una disminución de las ganancias de rendimiento.

Estar sentado en SIMA también confirmó este hallazgo, con como máximo solo una mejora del 2 al 3 % con respecto a la arquitectura base (utilizando más de 40 agentes).

Espera que esta pequeña mejora sea consistente en otras arquitecturas que no son de múltiples agentes.

Los autores sostienen que lograr un mayor progreso en los puntos de referencia requiere cambiar las capacidades reales de razonamiento lógico de los agentes, o las estrategias y métodos que pueden adoptar (o recibir) para resolver problemas de software.

Esto se puede lograr mediante un modelo base más potente (GPT-5) o brindando al agente herramientas más amplias.

Lo mismo ocurre con las operaciones corporativas.

La conclusión es que si no contratas empleados más inteligentes o les das mejores recursos, su producción no mejorará sin importar cómo los organices o cuántas personas tengas.

Es cierto que el rendimiento de 13 instancias probablemente esté lejos del rendimiento real del punto de referencia completo.

La diferencia en este mini subconjunto por sí sola es lo suficientemente significativa como para que valga la pena prestarle atención (~50% de mejora de Google a Apple).

El modelo/las herramientas subyacentes pueden ser un factor limitante en la ingeniería de software de agentes, pero a medida que el modelo subyacente mejora, definitivamente se debe probar la exploración de las estructuras de comunicación de los agentes (ya sea en una organización corporativa o no).

Como dijo James Huckle, este concepto puede convertirse en un "hiperparámetro clave" en el diseño de agentes de IA, y diferentes estructuras organizativas pueden ser más adecuadas para diferentes tareas.

Referencias:

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures