Quando os Agentes começarem a se criar, a explosão dos produtos de IA ainda será um sonho distante?

2024-08-21

TencentEscritor de tecnologia Hao Boyang

Editor Zheng Kejun

2024,IA O assunto mais quente na área é, sem dúvida, Agente.

“modelo grandeLegal, mas o que posso fazer com isso? “Esta é a questão anual da aplicação da IA em 2023. Em 2024, os agentes tornar-se-ão o antídoto mais promissor para este problema.

Agentes inteligentes podem ser usados através de processos e ferramentas complexas, permitindo que grandes modelos lidem com tarefas mais complexas e customizadas, produzindo, em última análise, entidades de software ou entidades físicas com autonomia, percepção, tomada de decisão e capacidade de ação. Ng Enda, Jim Fan e outros grandes nomes da indústria juntaram-se para provar a eficácia do agente inteligente.

O professor Ng Enda propôs em seu blog em março deste ano que deveria ser usado no conjunto de dados HumanEval GPT-3.5A precisão do teste (disparo zero) é de 48,1%. GPT-4(Tiro zero) é 67,0%. Ao cooperar com o fluxo de trabalho do Agente, o GPT-3.5 alcançou uma taxa de precisão de 95,1%.

(Nota da imagem: os experimentos de Ng Enda, sob a tecnologia de agente inteligente,GPT O desempenho 3.5 excede em muito o GPT4 original)

Portanto, durante o ano passado, todos, desde grandes empresas até especialistas privados, construíram corpos inteligentes. grande o suficienteMicrosoftCopilit, adivinhação absurda de IA, ferramentas para construir estruturas de agentes inteligentes, como Langchain, Coze e Dify, também surgiram como cogumelos depois da chuva, e sua popularidade continua a aumentar.

(Nota da imagem: Empresas relacionadas a agentes e processos de automação de IA compiladas pelo INSIGHT)

Andrew Karpathy, ex-cientista da OpenAI, disse certa vez que pessoas comuns, empreendedores e geeks têm menos probabilidade de construir agentes de IA do queIA abertaEssas empresas ainda têm uma vantagem.

Estará chegando uma nova era de gerentes de produto baseados no fluxo de trabalho dos agentes de IA? Não necessariamente, porque a IA pode ser melhor na construção de agentes inteligentes do que os humanos.

Lógica de loop automatizada

Em 19 de agosto, três pesquisadores da Universidade da Colúmbia Britânica publicaram um artigo chamado “Projeto Automatizado de Sistemas de Agentes”. Neste artigo, ele projetou um sistema que permite que a IA descubra e construa agentes por conta própria e possa iterar por conta própria.

Lembre-se da definição clássica de agente da OpenAI. Um agente é um produto que pode armazenar conhecimento, planejar e aplicar ferramentas.

Quando usamos fluxo de trabalho para construir agentes, também usamos o conhecimento existente (conhecimento sobre a forma dos agentes) para planejar por nós mesmos (construir processos) e usar ferramentas (APIs de acesso) para finalmente executar a saída. próprio agente.

Então, por que não criar um agente que possa descobrir e projetar agentes automaticamente?

O autor do artigo segue essa ideia e chama o designer de metaagente, a quem ele pede para projetar novos agentes. Adicione o agente projetado ao banco de dados como dados e itere continuamente versões novas e mais fortes do agente.

Todo esse conjunto de métodos eles chamam de ADAS (Projeto Automatizado de Sistemas Inteligentes).

Então, como exatamente esse sistema entra em vigor?

Deixe a corrente girar

O processo de geração de novos agentes em sistemas ADAS pode ser dividido em três partes:

A primeira parte estabelece o espaço de busca, que pode ser entendido como o uso de algumas ferramentas e regras básicas para projetar potenciais novos agentes.

A segunda parte é executar a pesquisaalgoritmo, que estipula como o metaagente utiliza o espaço de busca e utiliza seus elementos para construir especificamente novos agentes.

A última parte é executar a função de avaliação, que avaliará o agente construído com base no desempenho e outros objetivos.

Os pesquisadores explicam passo a passo como construir as três partes principais acima no artigo.

Primeiro, os elementos básicos para a construção do espaço de busca devem ser determinados. Os pesquisadores acreditam que o melhor método é o código.

Isso ocorre porque o código é Turing completo e pode expressar todas as possibilidades. Portanto, em teoria, os metaagentes podem descobrir quaisquer blocos de construção possíveis (como dicas, uso de ferramentas, fluxos de controle) e sistemas de agentes que combinem esses blocos de construção de alguma forma.

Mais importante ainda, os vários fluxos de trabalho que já existem em sites como o Langchain para agentes de construção foram codificados. Portanto, os dados relevantes estão ao seu alcance e não há necessidade de convertê-los novamente. Chamadas de ferramentas, como RAG (geração aumentada de recuperação) e outros componentes de capacidade já possuem uma base de código suficiente.

Usar código para construir o espaço de busca também significa que os agentes gerados pelo ADAS podem ser executados diretamente para corrigir erros e executar pontuações sem intervenção manual.

Depois de definir o espaço de busca, os pesquisadores começam a projetar algoritmos de busca, que permitem ao metaagente explorar possíveis formas de completar a tarefa. Este processo é basicamente concluído com base no prompt word project.

A primeira é fornecer uma série de palavras de prompt do sistema.

Depois coloque o básicoIncitarAs informações mencionadas são fornecidas ao metaagente, incluindo

1. Descrição básica da tarefa.

2. O código de estrutura mais básico, como prompts de formatação, encapsulamento e outros nomes de operações, bem como a capacidade de chamar outros modelos básicos (FM) e APIs.

(Nota da imagem: parte do código da estrutura)

3. Formato e exemplos de entrada e saída de tarefas.

4. Uma biblioteca de amostras formada por alguns agentes gerados na iteração original, incluindo os resultados dos seus testes de linha de base.

(Nota da imagem: um exemplo em uma biblioteca de agente inteligente)

Com base nessas dicas básicas, o ADAS pode começar a operar e gerar um agente inteligente para resolver um problema específico.

Neste processo, o metaagente conduzirá duas rodadas de reflexão para garantir que o agente gerado seja novo e correto. Ele verifica se a estrutura de código recém-gerada contém erros e se é inovadora o suficiente em comparação com resultados anteriores na biblioteca de exemplos de agentes.

O metaagente também precisa realizar uma avaliação preliminar do agente gerado com base na sua “compreensão” das capacidades práticas de desempenho para determinar se ele tem um desempenho melhor que o agente anterior.

Quando algumas dessas condições não são atendidas, o metaagente deve modificar o agente gerado ou simplesmente recriá-lo.

(Solicitação para a primeira rodada de reflexão)

Após duas rodadas de reflexão e modificação, o metaagente enviará o agente recém-gerado que considera novo e bom para o sistema de avaliação na terceira etapa.

O sistema de avaliação dará uma pontuação objetiva à habilidade do agente com base no teste de linha de base e, em seguida, a retornará à biblioteca de exemplos de agentes.

O metaagente continuará a otimizar a próxima iteração com base nos resultados de pontuação anteriores e nos exemplos anteriores na biblioteca de exemplos para obter uma pontuação de desempenho de tarefa mais alta.

Nesse processo nasceu toda uma cadeia totalmente automatizada. Para gerar um agente altamente eficaz, podem ser necessários mais de dois dígitos de iterações.

Além da inteligência para esfregar as mãos

Quão complexos podem ser os agentes inteligentes obtidos pela automatização de processos através de métodos ADAS? A imagem abaixo é uma estrutura de agente gerada após 14 iterações.

Existem cinco cadeias de pensamento na estrutura deste agente que dão respostas preliminares. Após feedback de três modelos especialistas e um modelo que imita a avaliação humana, as respostas são modificadas e aprimoradas três vezes durante a fase do processo de otimização. Por fim, três resultados foram selecionados após avaliação e combinados para dar a resposta final.

Se um humano operasse nesse nível de complexidade, provavelmente levaria uma semana. Este é o momento certo para escrever prompts e projetar arquitetura, sem mencionar testes e comparação horizontal.

Claro, isso também é o resultado da iteração contínua no design do metaagente.

Durante o processo iterativo, a sua capacidade de gerar agentes inteligentes também aumenta rapidamente com o número de iterações. Na terceira iteração, o metaagente aprendeu sozinho a estratégia da cadeia de pensamento múltiplo e, na quarta iteração, aprendeu a usar a memória dinâmica para otimizar as respostas. Na 14ª vez, o agente gerado atingiu a complexidade mencionada acima.

No final, a capacidade de sua solução ideal pode ser melhorada em mais de 250% em comparação com o modelo original de linguagem simples e grande, e é melhorada em 75% em comparação com o agente manual de melhor desempenho COT-SC (cadeia de pensamento múltiplo). resposta) método.

Não apenas o ARC, os agentes gerados no modo ADAS são significativamente mais poderosos em todos os aspectos do que todos os agentes atuais mais fortes para esfregar as mãos, como COT, LLM Debate e Self-Refine. E quanto mais tarefas complexas e aplicações entre domínios são processadas, mais fortes são os agentes inteligentes gerados pelo ADAS.

Além disso, estes próprios agentes gerados têm certas capacidades de migração. Por exemplo, os agentes que podem resolver problemas científicos também podem alcançar bons resultados em matemática. Portanto, é provável que uma estrutura ideal seja capaz de resolver problemas relacionados em muitos campos.

Embora a era dos agentes para esfregar as mãos esteja chegando ao fim, a era da descoberta dos paradigmas dos agentes pode continuar. No teste geral, o ADAS não descobriu novos métodos de construção fora do atual paradigma de construção de agentes inteligentes, mas sim reorganizou e utilizou esses métodos.

No entanto, para o desenvolvedor médio do AI Agent, isso é suficiente para substituir seu trabalho.

No entanto, a popularidade do ADAS ainda pode precisar superar um obstáculo, e essa é a questão do custo.

De acordo com os pesquisadores, a API OpenAI custa cerca de US$ 500 para uma pesquisa e avaliação no ARC, e cerca de US$ 300 para uma única execução no domínio do raciocínio e resolução de problemas. Isso é cerca de US$ 20 por iteração. Comparada com custos tão elevados, a mão de obra ainda apresenta certas vantagens nesta fase.

Mas os pesquisadores também disseram que, por terem estudado cedo, usaram o modelo “gpt-3.5-turbo-0125”. O mais recente modelo GPT-4 "gpt-4o-mini" custa menos de um terço do preço de "gpt-3.5-turbo-0125" e tem melhor desempenho. Além disso, os experimentos mostram que um agente iterado com recursos do GPT 3.5 entrará em um gargalo de desempenho após um certo número de iterações, e todas as iterações após quatorze vezes serão um desperdício. Portanto, projetos com melhor avaliação e gestão de recursos também podem reduzir custos significativamente.

Obviamente, a vantagem de preço do trabalho não pode ser mantida por muito tempo.

A explosão da inteligência realmente começou?

Por que essa tecnologia automatizada é tão importante?

Na era da Internet móvel, vários aplicativos para diversas faixas estão florescendo, que juntos criam uma era de prosperidade tecnológica. No entanto, como as novas ferramentas da época exigiam aprendizado, o desenvolvimento de aplicativos móveis também passou por um longo estágio de penetração antes que um número suficiente de desenvolvedores fosse finalmente acomodado.

Em épocas anteriores, isso era mais lento. De acordo com a teoria de "atravessar o abismo" proposta por Geoffrey Moore com base na experiência com computadores pessoais na década de 1990, nos primeiros anos do surgimento da tecnologia, apenas cerca de 13,5% dos primeiros adotantes usariam essa tecnologia. .

Portanto, a escassez de desenvolvedores pode ser um importante gargalo na promoção tecnológica.

É claro que a velocidade de desenvolvimento e penetração da construção de agentes inteligentes pode ser muito mais rápida. Porque é muito mais simples que o desenvolvimento de software anterior. Por exemplo, o Wordware, que se tornou popular há algum tempo, permite que usuários comuns concluam a construção de agentes inteligentes usando linguagem natural, o que diminui o limite.

No entanto, projetos como cadeias de pensamento e ciclos de várias etapas ainda são muito complexos e são necessárias cada vez mais ferramentas no processo. Portanto, não há muitas pessoas que possam realmente se dedicar ao desenvolvimento de agentes inteligentes e fazer bom uso desta ferramenta.

Zuckerberg disse certa vez em uma conversa com Huang Renxun que mesmo que a tecnologia de modelos em grande escala não se desenvolva mais, levará cinco anos para compreender completamente o potencial dos agentes inteligentes.

Portanto, em comparação com a tecnologia, os desenvolvedores podem ser o principal gargalo para agentes inteligentes que ainda não explodiram. Ainda há muito poucas pessoas que conseguem fazer isso.

No entanto, existem muitos agentes.

Se esta tecnologia de geração automática de agentes de sintonia for adotada e otimizada por mais empresas comerciais, o gargalo de pessoal técnico inicial naturalmente não existirá mais. A velocidade com que os agentes podem explorar a cobertura e a profundidade das capacidades em vários campos aumentará consideravelmente.

Talvez no próximo ano, o primeiro aplicativo Killer AI da história da humanidade seja lançado, e o autor seja uma IA.

notícias