noticias

Nuevos resultados del modelo grande de Apple: llamada a la herramienta de modelo grande de inspección de escenas, internauta: Siri también necesita trabajar duro

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crecy proviene del templo de Aofei.
    Qubits | Cuenta pública QbitAI

El equipo de Apple ha lanzado un nuevo logro de código abierto: un conjunto de puntos de referencia sobre la capacidad de llamar a herramientas de modelos grandes.

Este punto de referencia utiliza de forma innovadoraMétodo de evaluación basado en escenarios, que puede reflejar mejor el nivel del modelo en el entorno real.

También introduce escenarios importantes a los que no se les presta atención en los estándares tradicionales, como la interacción del diálogo y la dependencia del Estado.



Este conjunto de pruebas comparativas se llama ToolSandbox, y Pang Ruoming, jefe del equipo de modelos básicos de Apple, también participó en el trabajo de investigación.

ToolSandbox compensa la falta de evaluación basada en escenarios de los estándares de prueba existentes y reduce la brecha entre las condiciones de prueba y las aplicaciones reales.



Y en términos de interacción, el autor permite que GPT-4o actúe como usuario y hable con el modelo bajo prueba, simulando así escenarios del mundo real.

Por ejemplo, dígale a GPT-4o que ya no es un asistente, pero desea interpretar al usuario A que está hablando con el usuario B, y luego realice una serie de solicitudes específicas.



Además, el autor también utilizó ToolSandbox para probar algunos modelos convencionales y los resultados generales.Los modelos de código cerrado obtienen puntuaciones más altas que los modelos de código abierto, el más fuerte de los cuales es GPT-4o.

El desarrollador de aplicaciones iOS, Nick Dobos, dijo que el conjunto de estándares de Apple es conciso y claro.

Al mismo tiempo, señaló que ChatGPT ya está algo sobrecargado cuando se enfrenta a tres herramientas. Si Siri quiere administrar docenas o cientos de aplicaciones en teléfonos móviles, también necesita mejorar sus capacidades de llamada de herramientas.

La implicación es que la investigación de ToolSandbox puede aclarar la dirección de la investigación y el desarrollo futuros de Siri.



Probar el modelo en un escenario.

Como se mencionó anteriormente, ToolSandbox adopta un método de prueba interactivo y basado en escenarios.

Específicamente, ToolSandbox incluye un total de casi 2000 escenarios en siete tipos, incluida la invocación de una o varias herramientas, rondas de diálogo únicas o múltiples, dependencia del estado, estandarización e información insuficiente.

Los primeros son relativamente fáciles de entender. Aquí hay algunas explicaciones para los siguientes tres tipos de escenas:

  • Dependencia del estado: la ejecución de una herramienta depende de ciertos estados globales, y este estado debe ser modificado primero por otras herramientas;
  • Estandarización: convertir expresiones de lenguaje natural al formato estándar requerido por la herramienta, lo que puede requerir la ayuda de otras herramientas;
  • Información insuficiente: faltan intencionalmente las herramientas clave necesarias para completar la tarea. Compruebe si el modelo puede identificar situaciones en las que no se puede completar.



En estos escenarios, ToolSandbox se centrará en tres indicadores del modelo:

  • Rendimiento general, es decir, la similitud promedio con las respuestas preestablecidas en varios escenarios.
  • Robustez, utilice varios métodos para modificar e interferir con la herramienta y observar el rendimiento del modelo en este entorno.
  • Eficiencia, es decir, el número promedio de rondas de finalización de tareas.

En términos de herramientas, el autor seleccionó 34 funciones de Python combinables como herramientas, que son comparables en complejidad a escenarios reales.

Incluye herramientas nativas de Python y algunas herramientas RapidAPI integradas, con funciones que cubren muchas áreas comunes como búsqueda, diálogo, navegación, clima y procesamiento de imágenes.

En términos del proceso, el primer paso es preparar el escenario de prueba. Los investigadores definirán y almacenarán el estado mundial inicial y, al mismo tiempo, utilizarán el modelo GPT-4o calibrado para generar el mensaje de usuario inicial.

Luego, al ingresar a la etapa de ejecución interactiva, el sistema primero inicializa el bus de mensajes como un canal de comunicación entre roles y configura el modelo que interpreta al usuario y el modelo bajo prueba.

Cuando comienza el ciclo de conversación, el modelo que simula al usuario envía un mensaje inicial y el modelo bajo prueba recibe el mensaje y decide la siguiente acción: responder directamente al usuario o llamar a una herramienta para interactuar con el entorno.

Si el modelo elige llamar a la herramienta, proporciona los parámetros necesarios en formato JSON y el entorno de ejecución interpreta y ejecuta esta llamada, posiblemente actualizando el estado mundial y manejando posibles condiciones de llamadas paralelas.

Después de que los resultados de la ejecución se devuelven al modelo bajo prueba, el modelo bajo prueba determina nuevamente la siguiente acción. Este proceso continúa hasta que el simulador de usuario cree que la tarea se completó (o no se puede completar), momento en el que llamará a end_conversation. herramienta para finalizar la conversación.



Durante todo el proceso de interacción, el sistema registra todos los mensajes y cambios de estado para formar una "pista de diálogo" completa, que luego ingresa a la etapa de evaluación.

La evaluación utiliza “hitos” y “campos minados” predefinidos para medir el desempeño del modelo de agente.

hitoSe definen los eventos clave para completar la tarea, formando un gráfico acíclico dirigido para reflejar las dependencias del tiempo.

El sistema busca la mejor coincidencia entre eventos e hitos en la trayectoria manteniendo el orden topológico de los hitos.

campo de minasDefine eventos prohibidos y se utiliza principalmente para detectar si el modelo está alucinando debido a información insuficiente.

Por ejemplo, la siguiente figura muestra un ejemplo de una evaluación de un campo minado en el escenario de "información insuficiente".

En esta tarea, dado que la marca de tiempo actual no está disponible, el modelo no debe llamar a la herramienta timestamp_diff, pero el modelo adivina incorrectamente la marca de tiempo actual y llama a la herramienta, lo que genera una puntuación de 0 para esta ronda.



En última instancia, el sistema calcula una puntuación compuesta que es el producto de la puntuación media del partido por hito y la penalización del campo minado.

Además, el sistema también contará el número promedio de rondas necesarias para completar la tarea como indicador complementario para evaluar la eficiencia del modelo.

Los escenarios de interacción complejos siguen siendo un desafío

En general,Los modelos de código cerrado funcionan mejor que los modelos de código abierto en términos de llamadas a herramientas

El que tiene mayor puntuación media es GPT-4o, con una puntuación de 73,0. Es el único que supera los 70 y logró la puntuación más alta en cuatro de los siete escenarios planteados por el autor.

Además, GPT-4o también es extremadamente robusto. El autor utilizó 8 métodos para modificar la herramienta, y GPT-4o obtuvo la puntuación de robustez más alta entre ellos.

Le sigue de cerca Claude 3-Opus, con una puntuación media de 69,2, que supera a GPT-4o en escenas con información insuficiente, y luego algunas otras versiones de GPT y Claude.

Gemini de Google está relativamente rezagado. La puntuación de 1.5 Pro es 60.4, que es apenas pasajera y no tan buena como la de GPT-3.5. Sin embargo, se desempeña bien en el único elemento de información insuficiente.

La puntuación media más alta del modelo de código abierto es de sólo 31,4. Entre ellos, el famoso Mistral-7B es de 29,8, pero logró la mejor puntuación de 76,8 en el ítem de información insuficiente.

Incluso algunos de los modelos de código abierto, como Gorilla y Command-R, no pueden manejar respuestas de herramientas en absoluto, o apenas pueden completar una ronda de llamadas de herramientas.



Un análisis más detallado demostró queLos modelos de código abierto no logran identificar cuándo es el momento de recurrir a las herramientas, prefiriendo tratar el problema como una tarea pura de generación de texto.

Desde la dimensión de la tarea, el modelo grande funciona bien en llamadas de herramientas únicas o múltiples y solicitudes de usuarios de una sola ronda, peroLa ventaja se debilita en conversaciones de varios turnos y tareas dependientes del estado.

En GPT, Claude, Gemini y otras familias,Los modelos más grandes tienen ventajas más obvias en la invocación de múltiples herramientas y en tareas de diálogo de múltiples turnos.;peroSobre tareas dependientes del Estado, modelos pequeños y medianos.(如GPT-3.5、Claude-3-Soneto)Al contrario, es mejor que el modelo grande.(GPT-4, Claude-3-Opus)desempeñarse mejor

Además, la normalización es un desafío importante para todos los modelos, especialmente los escenarios que requieren herramientas para la normalización, y la normalización de parámetros relacionados con el tiempo también es muy difícil.

La investigación sobre robustez muestra que la sensibilidad del modelo a los cambios en la descripción de la herramienta, la información de los parámetros, etc. varía mucho y no se encuentran reglas obvias.

En términos de eficiencia, los modelos más fuertes suelen ser más eficientes, pero hay excepciones. Por ejemplo, la eficiencia de los modelos de la serie Claude es generalmente mejor que la de GPT.

En resumen, los modelos grandes todavía enfrentan muchos desafíos cuando utilizan herramientas para abordar escenarios de interacción complejos en el mundo real.

Sobre el autor

Los miembros del equipo ToolSandbox provienen de los equipos de aprendizaje automático, ciencia de datos, modelos grandes básicos y otros de Apple.

El primer autor es un ingeniero chino de aprendizaje automático.Jia Rui Lu, se graduó de la Universidad de Tsinghua con una licenciatura. Durante sus estudios, también se desempeñó como asistente de investigación en el laboratorio del profesor Zhu Jun.

Posteriormente, Lu obtuvo una maestría en aprendizaje automático de la Universidad Carnegie Mellon y se unió a Apple en 2020 después de graduarse.



Incluyendo a Lu, firmado10 de los 12 autores son chinosy todos tienen experiencia en escuelas prestigiosas.

Esto también incluye al jefe del equipo básico de modelos grandes.Pang Ruoming(Ruidos de angustia).



Además, un director de ingeniería que ha trabajado en Apple durante 8 añosBernhard AumayerTambién participó en este proyecto.



Dirección del papel:
https://arxiv.org/abs/2408.04682