Mi información de contacto
Correo[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nuevo informe de sabiduría
Editor: Qiao Yang tiene mucho sueño
[Introducción a la Nueva Sabiduría]La nueva empresa MultiOn lanzó recientemente el Agente Q, que según afirma es "actualmente el más potente" y puede alcanzar una tasa de éxito del 95,4% en tareas de reserva reales. Los internautas han especulado que el misterioso proyecto Q* de OpenAI está detrás de esto.
Sin esperar el lanzamiento del proyecto Q*/Strawberry de OpenAI, una nueva empresa llamada MultiOn lanzó primero un agente llamado Q.
¡Estamos muy emocionados de anunciar que Agente Q, nuestro trabajo durante los últimos 6 meses, ya está disponible! Este es un marco de agente autosupervisado que puede razonar y buscar, y puede realizar autojuego y aprendizaje por refuerzo a través de tareas reales en Internet para lograr la autocorrección y la mejora autónoma.
Lo que atrajo aún más la atención fue que cuando MultiOn Lianchuang/CEO Div Garg mencionó al Agente Q en Twitter, nunca olvidó mencionar este llamativo.
Esto atrajo continuamente a espectadores de todos los ámbitos de la vida. Algunas personas especularon que el gran jefe detrás del Agente Q era el proyecto Q* de OpenAI.
No solo eso, MultiOn también abrió una cuenta de Twitter independiente para el Agente Q, que a menudo genera varios comentarios extraños que son "difíciles de distinguir entre humanos y máquinas".
La imagen de fondo y la información básica de la cuenta están llenas de fresas, y las fotos de fresas en su propio jardín que Ultraman había publicado antes fueron pegadas directamente.
Pero lo sorprendente es que esta misteriosa cuenta tiene muchos seguidores y KOL, incluido el director ejecutivo de Y-Combinator, Garry Tan, el director ejecutivo de Quora, Adam D'Angelo, el columnista del New York Times, Kevin Roose, el profesor de IA de Wharton, Ethan Mollick, y varios miembros del personal de OpenAI.
Incluso Ultraman recientemente tomó la iniciativa de interactuar con esta misteriosa cuenta y comentó en su publicación que se burlaba de "AGI alcanza el nivel 2".
Si esta ola de operaciones de MultiOn es pura exageración o si es en conjunto con la promoción de Q* por parte de OpenAI, depende de la opinión de la gente.
O este será uno de los mejores agentes de IA jamás lanzados, o Div Garg arruinará la reputación de la compañía al involucrarse en la peor publicidad posible. En la comunidad de la IA, esto es contraproducente.
Dejando de lado todas las controversias, primero echemos un vistazo a cuánto contenido técnico tiene este Agente Q.
Según el director ejecutivo Div Garg, el Agente Q no sólo tiene capacidades de planificación y razonamiento, sino también capacidades de autocuración. En solo un día de capacitación, mejoraron el rendimiento de muestra cero de Llama 3 en un 340 %, logrando una tasa de éxito del 95,4 % en tareas de reserva del mundo real.
Este es un gran paso adelante para que los agentes autónomos de IA tomen decisiones complejas y confiables en entornos del mundo real.
En el vídeo de demostración oficial, el Agente Q puede realizar tareas que incluyen reservar restaurantes, reuniones y boletos de avión, todas las cuales implican planificación, razonamiento, toma de decisiones e interacción de varios pasos con varias aplicaciones.
Aunque el equipo de investigación de MultiOn ha subido el documento al sitio web oficial, el Agente Q aún no está abierto para pruebas y debe registrarse en la lista de espera para solicitar oportunidades de pruebas internas.
Dirección del artículo: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
El sitio web oficial afirma que Agent Q estará abierto a los desarrolladores y usuarios de MultiOn a finales de este año.
Interpretación técnica
En los últimos años, aunque LLM ha subvertido por completo el campo de la PNL y ha logrado logros notables, todavía enfrenta grandes desafíos en entornos interactivos, especialmente tareas de razonamiento de varios pasos, como la navegación de páginas web.
Los métodos de entrenamiento actuales que se basan en conjuntos de datos de lenguaje estático son insuficientes para adaptar estos modelos a interacciones dinámicas del mundo real.
La aparición del Agente Q es un hito importante en el campo de los agentes de IA, que combina búsqueda, autorreflexión y aprendizaje por refuerzo para poder planificar y autorrepararse.
Al introducir un nuevo marco de aprendizaje e inferencia, Agent Q aborda las limitaciones de las técnicas de formación LLM anteriores, permitiendo la navegación web autónoma.
Desglose de los pasos del Agente Q al ejecutar tareas programadas
Problemas con los métodos actuales.
Los métodos actuales, como el ajuste supervisado en demostraciones de expertos cuidadosamente planificadas, a menudo funcionan mal en tareas de varios pasos del agente debido a errores acumulados y datos de exploración limitados, lo que requiere una toma de decisiones compleja y adaptación en entornos dinámicos. A medida que aprende, estrategias subóptimas surgir.
Métodos y componentes del Agente Q.
El Agente Q combina la búsqueda guiada de árboles de Monte Carlo (MCTS) y la autorreflexión de IA y métodos iterativos de ajuste fino, mientras utiliza algoritmos RLHF como la optimización de preferencias directas (DPO) para permitir que los agentes de LLM aprendan de trayectorias exitosas y fallidas y mejoren múltiples generalizaciones. Capacidad en tareas de razonamiento paso a paso.
Los componentes clave del Agente Q incluyen:
1. Búsqueda guiada basada en MCTS: generar datos de forma autónoma explorando diferentes comportamientos y páginas web, y lograr un equilibrio entre exploración y explotación.
MCTS utiliza temperaturas de muestreo más altas y diversas palabras clave para ampliar el espacio de comportamiento y garantizar que se puedan recopilar trayectorias diversas y óptimas.
2. Autocrítica con IA: en cada paso, la autocrítica basada en IA puede proporcionar retroalimentación valiosa para optimizar la toma de decisiones del agente. Esta retroalimentación a nivel de paso es crucial para tareas a largo plazo porque las señales escasas a menudo conducen a dificultades de aprendizaje.
3. Optimización de preferencias directas: el algoritmo DPO afina el modelo mediante la construcción de pares de preferencias de datos generados por MCTS. Este método de entrenamiento fuera de políticas permite que el modelo aprenda efectivamente del conjunto de datos agregados, incluidas las ramas subóptimas exploradas durante el proceso de búsqueda, mejorando así la tasa de éxito en entornos complejos.
Experimento de evaluación
En la tarea de simular una tienda online construida en base al modelo xLAM-v0.1-r, el agente necesita realizar una búsqueda para encontrar productos específicos.
Aunque métodos como RFT, DPO y búsqueda de haz también pueden lograr ciertas mejoras, la magnitud no es tan alta como la de AgentQ.
Si se utilizan los métodos Agent Q y MCTS al mismo tiempo, la tasa de éxito de la tarea se puede aumentar del 28,6% al 50,5%, lo que equivale al nivel humano promedio del 50%.
En la tarea de reserva real de Open Table, el agente debe realizar varios pasos, incluida la búsqueda de la página del restaurante correspondiente, la selección de la fecha y hora apropiadas, la selección del asiento apropiado según las preferencias del usuario, el envío de la información de contacto del usuario y, finalmente, completar la tarea.
Esta complejidad es obviamente un paso por encima de la tienda web. Según las estadísticas posteriores al experimento, el número promedio de pasos para completar las tareas de la tienda web es 6,8, mientras que Open Table se ha duplicado a 13,9.
Dado que Open Table no es un conjunto de datos simulado, sino un entorno real en línea, es difícil realizar una evaluación automatizada. Por lo tanto, el documento utiliza GPT-4-V como evaluador para recompensar al agente por cada paso de la operación en función de valores predefinidos. indicadores y marcar si la tarea se ha completado.
El Agente Q aumentó la tasa de éxito de muestra cero de LLaMa-3 del 18,6 % al 81,7 %, con un aumento de puntuación del 340 %, después de solo un día de recopilación de datos autónoma.
Después de agregar la búsqueda de árboles de Monte Carlo en línea, la tasa de éxito puede aumentar aún más hasta el 95,4%.
Aunque el Agente Q ha demostrado sólidas capacidades de navegación web, búsqueda, razonamiento y planificación en los experimentos de evaluación anteriores, todavía hay mucho margen de discusión y mejora en los métodos utilizados actualmente:
- Diseño del algoritmo de razonamiento: el desafío principal del Agente Q actualmente radica en su débil capacidad de razonamiento, lo que limita las estrategias de exploración y búsqueda; además, al entrenar la estrategia del agente, el modelo crítico se encuentra actualmente en un estado congelado, lo que introduce adicionales; Es posible que se obtengan mejoras en el rendimiento mediante el ajuste.
- El Agente Q prefiere MCTS para la búsqueda debido a la experiencia exitosa previa de MCTS con tareas matemáticas y de codificación, pero puede causar una cantidad considerable de interacciones riesgosas en un entorno real. Cambiar tu estrategia de búsqueda puede ser una opción más adecuada.
- Seguridad e interacción en línea: actualmente, el Agente Q permite un alto grado de exploración y autoevaluación autónomas, con intervención humana limitada. Sin embargo, aún pueden ocurrir muchos errores en el funcionamiento del agente, especialmente en tareas críticas como correo electrónico, pago y archivo.
Si no se abordan los problemas de seguridad, los escenarios reales de tareas implementables del Agente Q serán muy limitados y es posible que en el futuro se requieran modelos de crítica de seguridad adicionales y configuraciones de capacitación humana en el circuito.
Referencias:
https://x.com/rm_rafailov/status/1823462897751875701
https://x.com/ai_for_success/status/1823447309008490730
https://www.multion.ai/blog/introduciendo-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities