Cuando los agentes comiencen a crearse a sí mismos, ¿la explosión de productos de IA seguirá siendo un sueño lejano?

2024-08-21

TencentEl escritor de tecnología Hao Boyang

Editor Zheng Kejun

2024,AI El tema más candente en este campo es, sin duda, el Agente.

“modelo grandeGenial, pero ¿qué puedo hacer con él? “Esta es la pregunta anual sobre la aplicación de la IA en 2023. Para 2024, los agentes se convertirán en el antídoto más prometedor contra este problema.

Los agentes inteligentes se pueden utilizar a través de procesos y herramientas complejos, lo que permite que modelos grandes manejen tareas más complejas y personalizadas, produciendo en última instancia entidades de software o entidades físicas con autonomía, percepción, toma de decisiones y capacidades de acción. Ng Enda, Jim Fan y otros grandes nombres de la industria se han unido para demostrar la eficacia del agente inteligente.

El profesor Ng Enda propuso en su blog en marzo de este año que debería usarse en el conjunto de datos HumanEval. GPT-3.5La precisión de la prueba (disparo cero) es del 48,1%. GPT-4(Tiro cero) es 67,0%. Al cooperar con el flujo de trabajo del Agente, GPT-3.5 logró una tasa de precisión del 95,1 %.

(Nota de la imagen: experimentos de Ng Enda, bajo la tecnología de agentes inteligentes,GPT 3.5 el rendimiento supera con creces al GPT4 original)

Por lo tanto, durante el año pasado, todos, desde grandes empresas hasta expertos privados, han estado construyendo cuerpos inteligentes. lo suficientemente grandemicrosoftCopilit, la adivinación sin sentido de la IA y las herramientas para construir marcos de agentes inteligentes como Langchain, Coze y Dify también han surgido como hongos después de una lluvia, y su popularidad continúa aumentando.

(Nota de la imagen: Empresas relacionadas con agentes y procesos de automatización de IA compiladas por INSIGHT)

Andrew Karpathy, ex científico de OpenAI, dijo una vez que la gente corriente, los empresarios y los geeks tienen menos probabilidades de crear agentes de IA queIA abiertaEstas empresas incluso tienen una ventaja.

¿Se acerca una nueva era de gerentes de producto basada en el flujo de trabajo de los agentes de IA? No necesariamente, porque la IA puede ser mejor que los humanos para crear agentes inteligentes.

Lógica de bucle automatizada

El 19 de agosto, tres investigadores de la Universidad de Columbia Británica publicaron un artículo titulado "Diseño automatizado de sistemas de agentes". En este artículo, diseñó un sistema que permite a la IA descubrir y crear agentes por sí sola, y puede iterar por sí sola.

Recuerde la definición clásica de agente de OpenAI. Un agente es un producto que puede almacenar conocimientos, planificar y aplicar herramientas.

Cuando utilizamos el flujo de trabajo para crear agentes, también utilizamos el conocimiento existente (conocimiento sobre la forma de los agentes) para planificar nosotros mismos (crear procesos) y utilizar herramientas (acceso a API) para finalmente ejecutar el resultado. No hay nada más allá de las capacidades del. agente mismo.

Entonces, ¿por qué no crear un agente que pueda descubrir y diseñar agentes automáticamente?

El autor del artículo sigue esta idea y llama al diseñador meta-agente, al que le pide que diseñe nuevos agentes. Agregue el agente diseñado a la base de datos como datos y repita continuamente versiones nuevas y más potentes del agente.

A todo este conjunto de métodos lo llaman ADAS (Diseño Automatizado de Sistemas Inteligentes).

Entonces, ¿cómo entra en vigor exactamente este sistema?

Deja que la cadena gire

El proceso de generación de nuevos agentes en sistemas ADAS se puede dividir en tres partes:

La primera parte establece el espacio de búsqueda, que puede entenderse como el uso de algunas herramientas y reglas básicas para diseñar nuevos agentes potenciales.

La segunda parte es ejecutar la búsqueda.algoritmo, que estipula cómo el metaagente usa el espacio de búsqueda y usa sus elementos para construir específicamente nuevos agentes.

La última parte es ejecutar la función de evaluación, que evaluará el agente creado en función del rendimiento y otros objetivos.

Los investigadores explican paso a paso cómo construir las tres partes centrales anteriores en el artículo.

Primero, se deben determinar los elementos básicos para construir el espacio de búsqueda. Los investigadores creen que el mejor método es el código.

Esto se debe a que el código es Turing completo y puede expresar todas las posibilidades. Entonces, en teoría, los metaagentes pueden descubrir cualquier posible componente básico (como sugerencias, uso de herramientas, flujos de control) y sistemas de agentes que combinen estos componentes básicos de cualquier manera.

Más importante aún, se han codificado los diversos flujos de trabajo que ya existen en sitios web como Langchain para agentes de creación. Por lo tanto, los datos relevantes están a su alcance y no es necesario volver a convertirlos. Las llamadas a herramientas, como RAG (generación aumentada de recuperación) y otros componentes de capacidad, ya tienen una base de código muy suficiente.

Usar código para construir el espacio de búsqueda también significa que los agentes generados por ADAS se pueden ejecutar directamente para corregir errores y ejecutar puntuaciones sin intervención manual.

Después de definir el espacio de búsqueda, los investigadores comienzan a diseñar algoritmos de búsqueda que permiten al metaagente explorar posibles formas de completar la tarea. Este proceso se completa básicamente confiando en la palabra clave proyecto.

La primera es darle una serie de palabras de aviso del sistema.

Luego, pon lo básico.InmediatoLa información mencionada se proporciona al metaagente, incluida

1. Descripción básica de la tarea.

2. El código de marco más básico, como indicaciones de formato, encapsulación y otros nombres de operaciones, así como la capacidad de llamar a otros modelos básicos (FM) y API.

(Nota de imagen: parte del código marco)

3. Formato y ejemplos de entrada y salida de tareas.

4. Una biblioteca de muestra formada por algunos agentes generados en la iteración original, incluidos los resultados de sus pruebas de referencia.

(Nota de la imagen: un ejemplo en una biblioteca de agentes inteligentes)

Con base en estos consejos básicos, ADAS puede comenzar a operar y generar un agente inteligente para resolver un problema específico.

En este proceso, el metaagente realizará dos rondas de reflexión para garantizar que el agente generado sea novedoso y correcto. Comprueba si el marco de código recién generado tiene errores y si es lo suficientemente innovador en comparación con los resultados anteriores en la biblioteca de ejemplo del agente.

El metaagente también necesita realizar una evaluación preliminar del agente generado basándose en su "comprensión" de las capacidades prácticas de desempeño para determinar si se desempeña mejor que el agente anterior.

Cuando algunas de estas condiciones no se cumplen, el metaagente debe modificar el agente generado o simplemente recrearlo.

(Solicita la primera ronda de reflexión)

Después de dos rondas de reflexión y modificación, el metaagente enviará el agente recién generado que considere nuevo y bueno al sistema de evaluación en el tercer paso.

El sistema de evaluación otorgará una puntuación objetiva a la capacidad del agente según la prueba de referencia y luego la devolverá a la biblioteca de ejemplos del agente.

El metaagente continuará optimizando la siguiente iteración en función de los resultados de puntuación anteriores y los ejemplos anteriores de la biblioteca de ejemplos para lograr una puntuación de rendimiento de tarea más alta.

De este proceso nació toda una cadena totalmente automatizada. Para generar un agente altamente eficaz, pueden ser necesarias más de dos dígitos de iteraciones.

Más allá de la inteligencia para frotarse las manos

¿Qué tan complejos pueden ser los agentes inteligentes que se obtienen al automatizar procesos mediante métodos ADAS? La siguiente imagen es un marco de agente generado después de 14 iteraciones.

Hay cinco cadenas de pensamiento en la estructura de este agente que dan respuestas preliminares. Después de la retroalimentación de tres modelos expertos y un modelo que imita la evaluación humana, las respuestas se modifican y mejoran tres veces durante la etapa del proceso de optimización. Finalmente, se descartaron tres resultados después de la evaluación y se combinaron para dar la respuesta final.

Si un humano tuviera que operar este nivel de complejidad, probablemente le llevaría una semana. Este es el momento justo para escribir indicaciones y diseñar la arquitectura, sin mencionar las pruebas y la comparación horizontal.

Por supuesto, esto también es el resultado de la iteración continua en el diseño del metaagente.

Durante el proceso iterativo, su capacidad para generar agentes inteligentes también aumenta rápidamente con el número de iteraciones. En la tercera iteración, el metaagente aprendió por sí solo la estrategia de la cadena de pensamiento múltiple y, en la cuarta iteración, aprendió a utilizar la memoria dinámica para optimizar las respuestas. La decimocuarta vez, el agente que generó alcanzó la complejidad mencionada anteriormente.

Al final, la capacidad de su solución óptima se puede mejorar en más del 250% en comparación con el modelo original de lenguaje grande simple, y se mejora en un 75% en comparación con el agente manual COT-SC (cadena de pensamiento múltiple) de mejor rendimiento. respuesta) método.

No solo ARC, los agentes generados en modo ADAS son significativamente más poderosos en todos los aspectos que todos los agentes básicos actuales más potentes, como COT, LLM Debate y Self-Refine. Y cuanto más complejas se procesan las tareas y las aplicaciones entre dominios, más fuertes son los agentes inteligentes generados por ADAS.

Además, estos agentes generados tienen ciertas capacidades de migración. Por ejemplo, los agentes que pueden resolver problemas científicos también pueden lograr buenos resultados en matemáticas. Por lo tanto, es probable que un marco óptimo pueda resolver problemas relacionados en muchos campos.

Aunque la era de los agentes para frotarse las manos está llegando a su fin, la era del descubrimiento de paradigmas de agentes puede continuar. En la prueba general, ADAS no descubrió nuevos métodos de construcción fuera del paradigma actual de construcción de agentes inteligentes, sino que reorganizó y utilizó estos métodos.

Sin embargo, para el desarrollador promedio de AI Agent, esto es suficiente para reemplazar su trabajo.

Sin embargo, es posible que la popularidad de ADAS aún deba superar un obstáculo, y ese es el tema del costo.

Según los investigadores, la API OpenAI cuesta alrededor de $500 por una búsqueda y evaluación en ARC, y alrededor de $300 por una sola ejecución en el ámbito del razonamiento y la resolución de problemas. Eso es alrededor de $20 por iteración. En comparación con costos tan elevados, la mano de obra todavía tiene ciertas ventajas en esta etapa.

Pero los investigadores también dijeron que debido a que lo estudiaron temprano, utilizaron el modelo "gpt-3.5-turbo-0125". El último modelo GPT-4 "gpt-4o-mini" cuesta menos de un tercio del precio de "gpt-3.5-turbo-0125" y tiene mejor rendimiento. Además, los experimentos muestran que un agente iterado con capacidades GPT 3.5 entrará en un cuello de botella de rendimiento después de un cierto número de iteraciones, y todas las iteraciones después de catorce veces son un desperdicio. Por lo tanto, los diseños con una mejor evaluación y gestión de recursos también pueden reducir significativamente los costos.

Obviamente, la ventaja de precio de la mano de obra no puede mantenerse por mucho tiempo.

¿Ha comenzado realmente la explosión de la inteligencia?

¿Por qué es tan importante esta tecnología automatizada?

En la era de Internet móvil, están floreciendo diversas aplicaciones para diversos temas, que en conjunto crean una era de prosperidad tecnológica. Sin embargo, debido a que las nuevas herramientas en ese momento requerían aprendizaje, el desarrollo de aplicaciones móviles también pasó por una larga etapa de penetración antes de que finalmente se incorporaran suficientes desarrolladores.

En épocas anteriores, esto era más lento. Según la teoría de "cruzar el abismo" propuesta por Geoffrey Moore basada en la experiencia con computadoras personales en la década de 1990, en los primeros años del surgimiento de la tecnología, solo alrededor del 13,5% de los primeros en adoptarla usarían esta tecnología. .

Por tanto, la escasez de desarrolladores puede ser un obstáculo importante en la promoción de la tecnología.

Por supuesto, la velocidad de desarrollo y penetración de la construcción de agentes inteligentes puede ser mucho más rápida. Porque es mucho más sencillo que el desarrollo de software anterior. Por ejemplo, Wordware, que se hizo popular hace algún tiempo, permite a los usuarios comunes completar la construcción de agentes inteligentes utilizando lenguaje natural, lo que reduce el umbral.

Sin embargo, diseños como cadenas de pensamiento y bucles de varios pasos siguen siendo muy complejos y cada vez se necesitan más herramientas en el proceso. Por tanto, no hay mucha gente que realmente pueda dedicarse al desarrollo de agentes inteligentes y hacer un buen uso de esta herramienta.

Zuckerberg dijo una vez en una conversación con Huang Renxun que incluso si la tecnología de modelos a gran escala ya no se desarrolla, se necesitarán cinco años para comprender completamente el potencial de los agentes inteligentes.

Por lo tanto, en comparación con la tecnología, los desarrolladores pueden ser el principal cuello de botella para los agentes inteligentes que aún no han explotado. Todavía hay muy pocas personas que puedan hacer esto.

Sin embargo, hay muchos Agentes.

Si esta tecnología de generación automática de agentes de sintonización es adoptada y optimizada por más empresas comerciales, el cuello de botella del personal técnico inicial, naturalmente, ya no existirá. La velocidad a la que los agentes pueden explorar la cobertura y profundidad de las capacidades en diversos campos aumentará considerablemente.

Quizás el próximo año se lance la primera aplicación Killer AI en la historia de la humanidad, y el autor es una IA.

noticias