O agente mais poderoso, Agente Q, é lançado! A taxa de sucesso do Llama 3 disparou três vezes e o misterioso “morango” da OpenAI foi interceptado

2024-08-14

Novo Relatório de Sabedoria

Editor: Qiao Yang está com tanto sono

[Introdução à Nova Sabedoria]A empresa iniciante MultiOn lançou recentemente o Agent Q, que afirma ser “atualmente o mais poderoso” e pode atingir uma taxa de sucesso de 95,4% em tarefas reais de reserva. Os internautas especularam que o misterioso projeto Q* da OpenAI está por trás disso.

Sem esperar pelo lançamento do projeto Q*/Strawberry da OpenAI, uma empresa iniciante chamada MultiOn lançou primeiro um agente chamado Q.

Estamos muito entusiasmados em anunciar que o Agente Q, nosso trabalho nos últimos 6 meses, já está no ar! Esta é uma estrutura de agente auto-supervisionada que pode raciocinar e pesquisar, e pode realizar auto-jogo e aprendizagem por reforço por meio de tarefas reais na Internet para alcançar autocorreção e melhoria autônoma!

O que atraiu ainda mais atenção foi que quando MultiOn Lianchuang/CEO Div Garg mencionou o Agente Q no Twitter, ele nunca se esqueceu de trazer este nome notável.

Isso atraiu espectadores contínuos de todas as esferas da vida. Algumas pessoas especularam que o chefão por trás do Agente Q era o projeto Q* da OpenAI.

Além disso, a MultiOn também abriu uma conta independente no Twitter para o Agente Q, que muitas vezes produz vários comentários estranhos que são “difíceis de distinguir entre humanos e máquinas”.

A imagem de fundo e as informações básicas da conta estão repletas de morangos, e as fotos de morangos em seu próprio jardim que Ultraman postou antes foram coladas diretamente.

Mas o mais incrível é que essa conta misteriosa tem muitos seguidores e KOLs, incluindo o CEO do Y-Combinator, Garry Tan, o CEO do Quora, Adam D'Angelo, o colunista do New York Times, Kevin Roose, o professor de IA da Wharton, Ethan Mollick, e vários membros da equipe da OpenAI.

Até o Ultraman recentemente tomou a iniciativa de interagir com essa conta misteriosa e comentou em seu post que zombava de “AGI atinge o nível 2”.

Se esta onda de operações da MultiOn é puramente exagerada ou se está em conjunto com a promoção do Q* da OpenAI, depende da opinião das pessoas.

Ou este será um dos melhores agentes de IA já lançados, ou Div Garg arruinará a reputação da empresa ao se envolver no pior hype possível. Na comunidade de IA, isso é contraproducente.

Deixando de lado todas as polêmicas, vamos primeiro dar uma olhada em quanto conteúdo técnico esse Agente Q possui.

De acordo com o CEO Div Garg, o Agente Q não possui apenas capacidades de planejamento e raciocínio, mas também capacidades de autocura. Em apenas um dia de treinamento, eles melhoraram o desempenho de amostra zero do Llama 3 em 340%, alcançando uma taxa de sucesso de 95,4% em tarefas de reserva no mundo real.

Este é um grande avanço para que agentes autônomos de IA tomem decisões complexas e confiáveis em ambientes do mundo real.

No vídeo de demonstração oficial, o Agente Q pode realizar tarefas, incluindo reserva de restaurantes, reuniões e passagens aéreas, que envolvem planejamento em várias etapas, raciocínio, tomada de decisão e interação com vários aplicativos.

Embora a equipe de pesquisa da MultiOn tenha carregado o artigo no site oficial, o Agente Q ainda não está aberto para teste e você precisa se registrar na lista de espera para se inscrever em oportunidades de testes internos.

Endereço do artigo: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

O site oficial afirma que o Agente Q estará aberto aos desenvolvedores e usuários do MultiOn ainda este ano.

Interpretação técnica

Nos últimos anos, embora o LLM tenha subvertido completamente o campo da PNL e alcançado conquistas notáveis, ainda enfrenta grandes desafios em ambientes interativos, especialmente tarefas de raciocínio em várias etapas, como a navegação em páginas da web.

Os métodos de treinamento atuais que dependem de conjuntos de dados de linguagem estática são insuficientes para adaptar esses modelos às interações dinâmicas do mundo real.

O surgimento do Agente Q é um marco importante no campo dos agentes de IA, que combina busca, autorreflexão e aprendizagem por reforço para poder planejar e autorreparar.

Ao introduzir uma nova estrutura de aprendizagem e inferência, o Agente Q aborda as limitações das técnicas anteriores de treinamento LLM, permitindo navegação autônoma na web.

Detalhamento das etapas do Agente Q ao executar tarefas agendadas

Problemas com métodos atuais

Os métodos atuais, como o ajuste fino supervisionado em demonstrações de especialistas cuidadosamente planejadas, muitas vezes apresentam desempenho insatisfatório em tarefas de múltiplas etapas do agente devido a erros acumulados e dados de exploração limitados, exigindo, portanto, tomadas de decisões complexas e adaptação em ambientes dinâmicos. À medida que você aprende, estratégias abaixo do ideal surgir.

Métodos e componentes do Agente Q

O Agente Q combina pesquisa guiada de árvore de Monte Carlo (MCTS) e auto-reflexão de IA e métodos iterativos de ajuste fino, enquanto usa algoritmos RLHF, como Direct Preference Optimization (DPO) para permitir que agentes LLM aprendam com trajetórias bem-sucedidas e fracassadas e melhorem múltiplas generalizações habilidade em tarefas de raciocínio passo a passo.

Os principais componentes do Agente Q incluem:

1. Pesquisa guiada baseada em MCTS: gerar dados de forma autônoma, explorando diferentes comportamentos e páginas da web, e encontrar um equilíbrio entre exploração e exploração.

O MCTS usa temperaturas de amostragem mais altas e diversas palavras de alerta para expandir o espaço de comportamento e garantir que trajetórias diversas e ideais possam ser coletadas.

2. Autocrítica da IA: Em cada etapa, a autocrítica baseada na IA pode fornecer feedback valioso para otimizar a tomada de decisão do agente. Este feedback passo a passo é crucial para tarefas de longo prazo porque sinais esparsos geralmente levam a dificuldades de aprendizagem.

3. Otimização de preferência direta: O algoritmo DPO ajusta o modelo construindo pares de preferência de dados gerados pelo MCTS. Este método de treinamento fora da política permite que o modelo aprenda efetivamente com o conjunto de dados agregados, incluindo ramificações subótimas exploradas durante o processo de pesquisa, melhorando assim a taxa de sucesso em ambientes complexos.

Experimento de avaliação

Na tarefa de simular uma loja online construída com base no modelo xLAM-v0.1-r, o agente precisa pesquisar para encontrar produtos específicos.

Embora métodos como RFT, DPO e busca de feixe também possam alcançar certas melhorias, a magnitude não é tão alta quanto a do AgentQ.

Se os métodos Agente Q e MCTS forem usados ao mesmo tempo, a taxa de sucesso da tarefa pode aumentar de 28,6% para 50,5%, o que equivale ao nível humano médio de 50%.

Na tarefa real de reserva do Open Table, o agente precisa realizar várias etapas, incluindo encontrar a página do restaurante correspondente, selecionar a data e hora apropriadas, selecionar o assento apropriado de acordo com a preferência do usuário, enviar as informações de contato do usuário e, finalmente, preencher a tarefa.

Esta complexidade está obviamente um passo acima da Webshop. De acordo com as estatísticas após o experimento, o número médio de etapas para concluir as tarefas da loja virtual é de 6,8, enquanto a Open Table dobrou para 13,9.

Como o Open Table não é um conjunto de dados simulado, mas sim um ambiente online real, é difícil realizar avaliação automatizada. Portanto, o artigo utiliza GPT-4-V como avaliador para recompensar o agente por cada etapa da operação com base em valores pré-definidos. indicadores e marque se a tarefa foi concluída.

O Agente Q aumentou a taxa de sucesso de amostra zero do LLaMa-3 de 18,6% para 81,7%, com um aumento de pontuação de 340%, após apenas um dia de coleta autônoma de dados.

Depois de adicionar a pesquisa on-line da árvore de Monte Carlo, a taxa de sucesso pode aumentar ainda mais para 95,4%.

Embora o Agente Q tenha demonstrado fortes capacidades de navegação na web, pesquisa, raciocínio e planejamento nos experimentos de avaliação acima, ainda há muito espaço para discussão e melhoria nos métodos usados atualmente:

- Projeto de algoritmo de raciocínio: O principal desafio do Agente Q atualmente reside em sua fraca capacidade de raciocínio, o que limita as estratégias de exploração e busca. Além disso, ao treinar a estratégia do agente, o modelo crítico está atualmente em estado congelado, o que introduz adicionais; Pode haver ganhos de desempenho com o ajuste fino.

- O Agente Q prefere MCTS para pesquisa devido à experiência anterior bem-sucedida do MCTS com tarefas matemáticas e de codificação, mas pode causar um número considerável de interações arriscadas em um ambiente real. Mudar sua estratégia de busca pode ser uma opção mais apropriada.

- Segurança e interação online: Atualmente, o Agente Q permite, na verdade, um grande grau de exploração autônoma e autoavaliação, com intervenção humana limitada. Porém, muitos erros ainda podem ocorrer na operação do agente, principalmente em tarefas críticas como email, pagamento e arquivamento.

Se os problemas de segurança não forem resolvidos, os cenários reais de tarefas implantáveis do Agente Q serão bastante limitados, e modelos adicionais de crítica de segurança e configurações de treinamento humano no circuito poderão ser necessários no futuro.

Referências:

https://x.com/rm_rafailov/status/1823462897751875701

https://x.com/ai_for_success/status/1823447309008490730

https://www.multion.ai/blog/introduzindo-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities

notícias

O agente mais poderoso, Agente Q, é lançado! A taxa de sucesso do Llama 3 disparou três vezes e o misterioso “morango” da OpenAI foi interceptado

Introdução

Minhas informações de contato