2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Crécy vient du temple Aofei
Qubits | Compte public QbitAI
L'équipe Apple a publié une nouvelle réalisation open source : un ensemble de benchmarks sur la capacité d'appeler des outils de grands modèles.
Ce benchmark utilise de manière innovanteMéthode d'évaluation basée sur des scénarios, qui peut mieux refléter le niveau du modèle dans l'environnement réel.
Il introduit également des scénarios importants qui ne sont pas pris en compte dans les normes traditionnelles, tels que l'interaction par le dialogue et la dépendance à l'égard de l'État.
Cet ensemble de tests de référence s’appelle ToolSandbox, et Pang Ruoming, chef de l’équipe des modèles de base d’Apple, a également participé aux travaux de recherche.
ToolSandbox compense le manque d'évaluation basée sur des scénarios dans les normes de test existantes et réduit l'écart entre les conditions de test et les applications réelles.
Et en termes d'interaction, l'auteur laisse GPT-4o agir en tant qu'utilisateur et parler au modèle testé, simulant ainsi des scénarios du monde réel.
Par exemple, dites à GPT-4o que vous n'êtes plus un assistant, mais que vous souhaitez incarner l'utilisateur A qui parle à l'utilisateur B, puis effectuez une série de requêtes spécifiques.
En outre, l'auteur a également utilisé ToolSandbox pour tester certains modèles courants, ainsi que les résultats globaux.Les modèles fermés obtiennent de meilleurs résultats que les modèles open source, dont le plus puissant est GPT-4o.
Le développeur d'applications iOS, Nick Dobos, a déclaré que l'ensemble des normes d'Apple était concis et clair.
Dans le même temps, il a souligné que ChatGPT est déjà quelque peu dépassé face à trois outils. Si Siri souhaite gérer des dizaines ou des centaines d'applications sur les téléphones mobiles, il doit également améliorer ses capacités d'appel d'outils.
L'implication est que les recherches de ToolSandbox pourraient viser à clarifier l'orientation de la recherche et du développement futurs de Siri.
Comme mentionné ci-dessus, ToolSandbox adopte une méthode de test interactive basée sur des scénarios.
Plus précisément, ToolSandbox comprend un total de près de 2 000 scénarios répartis en sept types, notamment l'invocation d'un outil unique/multiple, les cycles de dialogue uniques/multiples, la dépendance à l'état, la standardisation et les informations insuffisantes.
Les premiers sont relativement faciles à comprendre. Voici quelques explications pour les trois types de scènes suivants :
Dans ces scénarios, ToolSandbox se concentrera sur trois indicateurs du modèle :
En termes d'outils, l'auteur a sélectionné 34 fonctions Python combinables comme outils, comparables à la complexité des scénarios réels.
Il comprend à la fois des outils Python natifs et certains outils RapidAPI intégrés, avec des fonctions couvrant de nombreux domaines communs tels que la recherche, le dialogue, la navigation, la météo et le traitement d'images.
En termes de processus, la première étape consiste à préparer le scénario de test. Les chercheurs définiront et stockeront l'état initial du monde, tout en utilisant le modèle GPT-4o calibré pour générer le message utilisateur initial.
En entrant ensuite dans la phase d'exécution interactive, le système initialise d'abord le bus de messages en tant que canal de communication entre les rôles, et configure le modèle qui joue l'utilisateur et le modèle testé.
Lorsque la boucle de conversation commence, le modèle simulant l'utilisateur envoie un message initial, et le modèle testé reçoit le message et décide de l'action suivante, soit en répondant directement à l'utilisateur, soit en appelant un outil pour interagir avec l'environnement.
Si le modèle choisit d'appeler l'outil, il fournit les paramètres nécessaires au format JSON, et l'environnement d'exécution interprète et exécute ensuite cet appel, mettant éventuellement à jour l'état du monde et gérant les conditions d'appel parallèle potentielles.
Une fois les résultats de l'exécution renvoyés au modèle testé, le modèle testé détermine à nouveau l'action suivante. Ce processus se poursuit jusqu'à ce que le simulateur utilisateur estime que la tâche est terminée (ou ne peut pas être terminée), moment auquel il appellera end_conversation. outil pour mettre fin à la conversation.
Pendant tout le processus d'interaction, le système enregistre tous les messages et changements de statut pour former une « piste de dialogue » complète, qui entre ensuite dans la phase d'évaluation.
L'évaluation utilise des « jalons » et des « champs de mines » prédéfinis pour mesurer les performances du modèle d'agent.
jalonLes événements clés pour accomplir la tâche sont définis, formant un graphique acyclique orienté pour refléter les dépendances temporelles.
Le système recherche la meilleure correspondance entre les événements et les jalons de la trajectoire tout en conservant l'ordre topologique des jalons.
champ de minesIl définit les événements interdits et est principalement utilisé pour détecter si le modèle hallucine en raison d'informations insuffisantes.
Par exemple, la figure ci-dessous montre un exemple d'évaluation d'un champ de mines dans le cadre du scénario « informations insuffisantes ».
Dans cette tâche, étant donné que l'horodatage actuel n'est pas disponible, le modèle ne doit pas appeler l'outil timestamp_diff, mais le modèle devine de manière incorrecte l'horodatage actuel et appelle l'outil, ce qui entraîne un score de 0 pour ce tour.
En fin de compte, le système calcule un score composite qui est le produit du score moyen de correspondance des jalons et de la pénalité du champ de mines.
De plus, le système comptera également le nombre moyen de tours nécessaires pour accomplir la tâche comme indicateur supplémentaire pour évaluer l'efficacité du modèle.
Dans l'ensemble,Les modèles fermés fonctionnent mieux que les modèles open source en termes d'appels d'outils。
Celui avec le score moyen le plus élevé est GPT-4o, avec un score de 73,0. C'est le seul qui dépasse 70 et a obtenu le score le plus élevé dans quatre des sept scénarios définis par l'auteur.
De plus, GPT-4o est également extrêmement robuste. L'auteur a utilisé 8 méthodes pour modifier l'outil, et GPT-4o a obtenu le score de robustesse le plus élevé parmi elles.
Il est suivi de près par Claude 3-Opus, avec un score moyen de 69,2, qui surpasse GPT-4o dans les scènes avec des informations insuffisantes, puis par quelques autres versions de GPT et Claude.
Le Gemini de Google est relativement en retard. Le score de 1,5 Pro est de 60,4, ce qui est juste passable et pas aussi bon que GPT-3.5. Cependant, il fonctionne bien dans le seul élément d'information insuffisante.
Le score moyen le plus élevé du modèle open source n'est que de 31,4. Parmi eux, le célèbre score Mistral-7B est de 29,8, mais il a obtenu le meilleur score de 76,8 pour le seul élément d'information insuffisante.
Même certains modèles open source tels que Gorilla et Command-R ne peuvent pas du tout gérer les réponses des outils, ou peuvent à peine effectuer une seule série d'appels d'outils.
Une analyse plus approfondie a montré queLes modèles open source ne parviennent pas à identifier quand il est temps de faire appel à des outils, préférant traiter le problème comme une pure tâche de génération de texte.
Du point de vue de la dimension tâche, le grand modèle fonctionne bien dans les appels d'outils simples/multiples et les demandes utilisateur à un seul tour, maisL'avantage s'affaiblit dans les dialogues à plusieurs tours et les tâches dépendant de l'État。
Dans les familles telles que GPT, Claude et Gemini,Les modèles plus grands présentent des avantages plus évidents dans les tâches d'invocation multi-outils et de dialogue multi-tours.;maisSur les tâches dépendantes de l'état, modèles de petite et moyenne taille(GPT-3.5、Claude-3-Sonnet)Au contraire, c'est mieux que le grand modèle(GPT-4, Claude-3-Opus)mieux performer。
De plus, la normalisation constitue un défi majeur pour tous les modèles, en particulier pour les scénarios qui nécessitent des outils de normalisation, et la normalisation des paramètres liés au temps est également très difficile.
Les recherches sur la robustesse montrent que la sensibilité du modèle aux changements dans la description de l'outil, les informations sur les paramètres, etc. varie considérablement et qu'aucune règle évidente n'est trouvée.
En termes d'efficacité, les modèles plus puissants sont généralement plus efficaces, mais il existe des exceptions. Par exemple, l'efficacité des modèles de la série Claude est généralement meilleure que celle du GPT.
En bref, les grands modèles sont encore confrontés à de nombreux défis lorsqu’ils utilisent des outils pour gérer des scénarios d’interaction complexes dans le monde réel.
Les membres de l'équipe ToolSandbox proviennent des équipes d'apprentissage automatique, de science des données, de grand modèle de base et d'autres équipes d'Apple.
Le premier auteur est un ingénieur chinois en apprentissage automatiqueJiarui Lu, est diplômé d'un baccalauréat de l'Université Tsinghua. Au cours de ses études, il a également été assistant de recherche dans le laboratoire du professeur Zhu Jun.
Par la suite, Lu a obtenu une maîtrise en apprentissage automatique de l'Université Carnegie Mellon et a rejoint Apple en 2020 après avoir obtenu son diplôme.
Y compris Lu, signé10 des 12 auteurs sont chinois, et tous sont issus d’écoles prestigieuses.
Cela inclut également le chef de l’équipe de base des grands modèlesPang Ruoming(Ruoming Pang)。
De plus, un directeur de l'ingénierie qui travaille chez Apple depuis 8 ansBernhard Aumayera également participé à ce projet.
Adresse papier :
https://arxiv.org/abs/2408.04682