O exército de IA assumiu o controle dos seis maiores gigantes da tecnologia, e os chefes e trabalhadores são todos IA! Imitando a estrutura organizacional da Microsoft, a eficiência do trabalho é incrível

O exército de IA assumiu o controle dos seis maiores gigantes da tecnologia, e os chefes e trabalhadores são todos IA! Imite a estrutura organizacional da Microsoft e alcance uma eficiência de trabalho incrível

2024-08-12

Novo Relatório de Sabedoria

Editor: Taozi

[Introdução à Nova Sabedoria]Você já pensou que talvez um dia, no futuro, o exército de IA será capaz de assumir as tarefas importantes da empresa e os humanos serão reduzidos a funções de apoio?

Xiao Zha acredita firmemente que “no futuro, haverá mais agentes de IA do que humanos no mundo”.

Então, o que acontece se essas IAs também tiverem cultura corporativa?

Eles são como os humanos? Existem IAs que detêm o poder de tomada de decisão e IAs que trabalham duro.

Há alguns meses, foi revelado que a OpenAI definiu internamente uma rota AGI de cinco níveis, L5 - Organizador: IA que pode completar o trabalho organizacional.

O que isto está falando pode ser o organograma da futura empresa.

Porque a cooperação de múltiplos agentes inteligentes está aumentando.

Anteriormente, um estudo mostrou que um sistema com mais de 30 agentes de IA superava chamadas simples de LLM em quase todas as tarefas, ao mesmo tempo que reduzia as alucinações e melhorava a precisão.

Endereço do artigo: https://arxiv.org/pdf/2402.05120

No entanto, como os vários agentes deveriam realmente colaborar?

Ao explorar formas de melhorar o desempenho da IA em tarefas de engenharia de software, Alex Sima teve uma epifania:

O que aconteceria se a interação entre os agentes de IA fosse institucionalizada e tornada semelhante ao “organograma” de um gigante tecnológico?

Em seguida, Alex deixou a IA assumir o controle dos seis maiores gigantes da tecnologia – Amazon, Google, Microsoft, Apple, Meta e Oracle – para ver como eles colaboram.

Vamos tirar uma foto primeiro para ter uma ideia.

Principais conclusões

A seguir estão alguns pontos-chave que Alex ganhou depois de organizar os agentes de IA em estruturas corporativas semelhantes às da Apple, Microsoft e Google:

- Empresas com múltiplas equipes “concorrentes” (ou seja, competindo para produzir o melhor produto final), como a Microsoft e a Apple, superam as hierarquias centralizadas.

- Sistemas com pontos únicos de falha (como um líder tomando decisões importantes), como Google, Amazon e Oracle, apresentam desempenho insatisfatório.

- A estrutura organizacional das grandes empresas tecnológicas tem um impacto modesto mas significativo nas capacidades de resolução de problemas.

Agentes de IA e organizações gigantes da tecnologia

Os métodos anteriores de melhorar o desempenho simplesmente aumentando o número de agentes de IA, como o SWE-bench, não alcançaram resultados significativos.

Isto mostra que confiar apenas no aumento dos números não resolverá o problema.

Então, quais são algumas outras maneiras de tornar os agentes de IA melhores em engenharia de software?

Há três semanas, Alex leu um artigo de James Huckle sobre a "Lei de Conway" - a arquitetura de software e produto está destinada a refletir a estrutura organizacional que a criou.

James mostrou uma ilustração que revelou as dramáticas estruturas organizacionais da Amazon, Google, Facebook, Microsoft, Apple e Oracle e sugeriu uma ideia:

Tal como os humanos nas grandes empresas tecnológicas, as estruturas de comunicação multiagentes podem moldar abordagens de resolução de problemas.

Alex foi inspirado a testar a hipótese de James em uma instância do banco SWE.

Configuração experimental

Os autores organizam os agentes de IA em diferentes estruturas empresariais e avaliam seis estruturas organizacionais diferentes no subconjunto "mini" de 13 instâncias do SWE-bench-lite.

Ao construir essas seis organizações, ele projetou a estrutura organizacional multiagente com base em algumas observações centrais:

Amazônia

Existe uma árvore binária de “gerentes” no nível superior.

Para replicar essa estrutura, Alex usa um grande número de agentes que realizam pesquisas na base de código e um único agente que executa atualizações na base de código.

Google

Semelhante à estrutura em árvore da Amazon, mas com mais conexões entre as camadas intermediárias.

Alex copia todos os resultados dos agentes por agregação em uma única camada e os passa para a próxima camada de agentes.

Meta（Facebook）

Falta uma estrutura hierárquica, mas ainda é uma organização em rede com muitas conexões entre agentes.

Alex modificou o design original do agente aumentando a possibilidade de conversão entre diferentes agentes.

Microsoft

Ênfase em equipes competitivas, cada uma com seu nível.

Essencialmente, Alex reestruturou a Amazon (reduzindo o número de agentes) e usou um método de votação por similaridade vetorial para selecionar a “melhor” solução entre três execuções separadas (com pequenos ajustes na hierarquia em cada execução).

maçã

Muitas pequenas equipes competitivas, cada uma com sua estrutura mínima.

Alex usou a mesma abordagem de "melhor solução" da Microsoft, mas fez mais execuções sem nível de agente (cada execução teve transformações diferentes).

Oráculo

Existem duas equipes diferentes, uma árvore binária “legal” maior e uma árvore de engenharia menor.

Alex explicou que a equipe jurídica é composta pelos agentes que pesquisam a base do código e recuperam o contexto principal, enquanto a equipe de engenharia consiste nos agentes que realmente escrevem o código.

A estrutura das duas equipes é semelhante à da Amazon, com um único agente no topo coordenando o fluxo de informações entre “Jurídico” e “Engenharia”.

Resultados da avaliação

Para avaliar cada conjunto de patches no banco SWE, o autor usa a avaliação do banco SWE.

O resultado é o seguinte:

Análise de desempenho do organograma

Aqui estão algumas das observações do autor sobre como as diferentes estruturas da empresa afetam o desempenho:

- Equipes competitivas aumentam as chances de sucesso.

As duas empresas com melhor desempenho (Microsoft e Apple) têm várias equipes competindo para resolver o problema, enquanto outras empresas parecem ter apenas uma grande equipe produzindo um único patch.

Várias equipes permitem maior diversidade de abordagens de resolução de problemas, aumentando a probabilidade de resolução de problemas.

- Estruturas com pontos únicos de falha apresentam mau desempenho.

Ao nos referirmos a pontos únicos de falha, referimo-nos a empresas (como Google, Amazon e Oracle) que possuem gerentes/agentes de alto nível que podem mudar completamente os resultados das operações.

Ao coordenar interações entre vários agentes, um problema comum é que um agente falhe – levando à possibilidade de um agente mudar a direção da estratégia de resolução de problemas da equipe.

Empresas com pontos únicos de falha são vulneráveis a esses problemas.

Além disso, as duas maiores empresas, Microsoft e Apple, são as duas maiores empresas de tecnologia do mundo em capitalização de mercado.

Acontece que as estruturas organizacionais que parecem funcionar melhor no mundo real também funcionam bem para os agentes de IA.

Captura de tela do CompaniesMarketCap, 25 de julho de 2024

Reflexões sobre o progresso do banco SWE

Olhando para os resultados para diferentes estruturas empresariais, isso é esperado neste benchmark Mini.

No geral, parece que numa tarefa tão complexa como a engenharia de software, adicionar mais agentes ou alterar a forma como esses agentes são organizados só levará a melhorias marginais no desempenho.

Embora o artigo More Agents Is All You Need tenha encontrado uma melhoria considerável na precisão (cerca de 20%), no teste GSM8K (matemática do ensino fundamental), o desempenho diminuiu significativamente após 30 agentes.

O estudo também descobriu que tarefas excessivamente complexas (como as do SWE-bench) podem exceder as capacidades de raciocínio do modelo, resultando na diminuição dos ganhos de desempenho.

Estar no SIMA também confirmou esta descoberta, com no máximo apenas uma melhoria de 2-3% em relação à arquitetura base (usando mais de 40 agentes).

Ele espera que esta pequena melhoria seja consistente em outras arquiteturas não multiagentes.

Os autores argumentam que alcançar um maior progresso nos benchmarks requer mudar as capacidades reais de raciocínio lógico dos agentes, ou as estratégias e métodos que eles podem adotar (ou receber) para resolver problemas de software.

Isto pode ser conseguido através de um modelo base mais poderoso (GPT-5) ou dando ao agente ferramentas mais amplas.

É a mesma coisa com as operações corporativas.

O resultado final é que, se você não contratar funcionários mais inteligentes ou não lhes der melhores recursos, o resultado deles não melhorará, não importa como você os organize ou quantas pessoas você tenha.

É certo que o desempenho de 13 instâncias está provavelmente longe do desempenho real do benchmark completo.

A diferença neste mini subconjunto por si só é significativa o suficiente para valer a pena prestar atenção (melhoria de aproximadamente 50% do Google para a Apple).

O modelo/ferramentas subjacentes podem ser um fator limitante na engenharia de software do agente, mas à medida que o modelo subjacente melhora, a exploração das estruturas de comunicação do agente (seja em uma organização corporativa ou não) deve definitivamente ser testada.

Como disse James Huckle, este conceito pode se tornar um "hiperparâmetro chave" no design de agentes de IA, e diferentes estruturas organizacionais podem ser mais adequadas para diferentes tarefas.

Referências:

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures

notícias

O exército de IA assumiu o controle dos seis maiores gigantes da tecnologia, e os chefes e trabalhadores são todos IA! Imite a estrutura organizacional da Microsoft e alcance uma eficiência de trabalho incrível

Introdução

Minhas informações de contato