Neue Ergebnisse von Apples großem Modell: Szeneninspektion großer Modell-Tool-Aufruf, Netizen: Auch Siri muss hart arbeiten

2024-08-14

Crecy stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Das Apple-Team hat eine neue Open-Source-Errungenschaft veröffentlicht – eine Reihe von Benchmarks für die Fähigkeit, Tools für große Modelle aufzurufen.

Dieser Benchmark nutzt innovativSzenariobasierte Bewertungsmethode, was das Niveau des Modells in der realen Umgebung besser widerspiegeln kann.

Es führt auch wichtige Szenarien ein, die in traditionellen Standards nicht berücksichtigt werden, wie z. B. Dialoginteraktion und staatliche Abhängigkeit.

Dieser Satz von Testbenchmarks heißt ToolSandbox, und Pang Ruoming, Leiter des Basismodellteams von Apple, war ebenfalls an der Forschungsarbeit beteiligt.

ToolSandbox gleicht den Mangel an szenariobasierter Bewertung bestehender Teststandards aus und verringert die Lücke zwischen Testbedingungen und tatsächlichen Anwendungen.

Und was die Interaktion betrifft, lässt der Autor GPT-4o als Benutzer fungieren und mit dem zu testenden Modell sprechen und so reale Szenarien simulieren.

Teilen Sie GPT-4o beispielsweise mit, dass Sie kein Assistent mehr sind, aber Benutzer A spielen möchten, der mit Benutzer B spricht, und stellen Sie dann eine Reihe spezifischer Anfragen.

Darüber hinaus nutzte der Autor ToolSandbox, um einige Mainstream-Modelle und die Gesamtergebnisse zu testenClosed-Source-Modelle schneiden besser ab als Open-Source-Modelle, das stärkste davon ist GPT-4o.

Nick Dobos, Entwickler von iOS-Anwendungen, sagte, dass die Standards von Apple prägnant und klar seien.

Gleichzeitig wies er darauf hin, dass ChatGPT angesichts der drei Tools bereits etwas überfordert ist. Wenn Siri Dutzende oder Hunderte von Anwendungen auf Mobiltelefonen verwalten möchte, muss es auch seine Tool-Aufruffunktionen verbessern.

Die Implikation ist, dass die Forschung von ToolSandbox dazu dienen könnte, die Richtung der zukünftigen Forschung und Entwicklung von Siri zu klären.

Testen Sie das Modell in einem Szenario

Wie oben erwähnt, verwendet ToolSandbox eine szenariobasierte und interaktive Testmethode.

Konkret umfasst ToolSandbox insgesamt fast 2.000 Szenarien in sieben Typen, darunter einzelner/mehrfacher Tool-Aufruf, einzelne/mehrere Dialogrunden, Zustandsabhängigkeit, Standardisierung und unzureichende Informationen.

Erstere sind relativ einfach zu verstehen. Hier einige Erklärungen für die folgenden drei Szenentypen:

Zustandsabhängigkeit: Die Ausführung eines Tools hängt von bestimmten globalen Zuständen ab, und dieser Zustand muss zuerst von anderen Werkzeugen geändert werden;
Standardisierung: Konvertieren Sie Ausdrücke in natürlicher Sprache in die vom Tool benötigte Standardform, was möglicherweise die Hilfe anderer Tools erfordert.
Unzureichende Informationen: Es fehlen absichtlich wichtige Werkzeuge, die zur Erledigung der Aufgabe erforderlich sind. Überprüfen Sie, ob das Modell Situationen identifizieren kann, in denen die Aufgabe nicht erledigt werden kann.

In diesen Szenarien konzentriert sich ToolSandbox auf drei Indikatoren des Modells:

Gesamtleistung, also die durchschnittliche Ähnlichkeit mit den voreingestellten Antworten in verschiedenen Szenarien
Robustheit: Verwenden Sie verschiedene Methoden zum Ändern und Eingreifen in das Tool und beobachten Sie die Leistung des Modells in dieser Umgebung
Effizienz, also die durchschnittliche Anzahl der Aufgabenerledigungsrunden

In Bezug auf die Werkzeuge wählte der Autor 34 kombinierbare Python-Funktionen als Werkzeuge aus, die mit der Komplexität realer Szenarien vergleichbar sind.

Es umfasst sowohl native Python-Tools als auch einige integrierte RapidAPI-Tools mit Funktionen, die viele gängige Bereiche wie Suche, Dialog, Navigation, Wetter und Bildverarbeitung abdecken.

Was den Prozess betrifft, besteht der erste Schritt darin, das Testszenario vorzubereiten. Die Forscher werden den anfänglichen Weltzustand definieren und speichern und gleichzeitig das kalibrierte GPT-4o-Modell verwenden, um die anfängliche Benutzernachricht zu generieren.

Beim Eintritt in die interaktive Ausführungsphase initialisiert das System zunächst den Nachrichtenbus als Kommunikationskanal zwischen Rollen und konfiguriert das Modell, das den Benutzer spielt, und das zu testende Modell.

Wenn die Konversationsschleife beginnt, sendet das Modell, das den Benutzer simuliert, eine erste Nachricht, und das getestete Modell empfängt die Nachricht und entscheidet über die nächste Aktion – entweder eine direkte Antwort an den Benutzer oder den Aufruf eines Tools zur Interaktion mit der Umgebung.

Wenn sich das Modell dafür entscheidet, das Tool aufzurufen, stellt es die erforderlichen Parameter im JSON-Format bereit, und die Ausführungsumgebung interpretiert und führt diesen Aufruf aus, aktualisiert möglicherweise den Weltstatus und verarbeitet potenzielle Bedingungen für parallele Aufrufe.

Nachdem die Ausführungsergebnisse an das zu testende Modell zurückgegeben wurden, bestimmt das zu testende Modell erneut die nächste Aktion, bis der Benutzersimulator glaubt, dass die Aufgabe abgeschlossen ist (oder nicht abgeschlossen werden kann). Zu diesem Zeitpunkt ruft er end_conversation auf Tool zum Beenden des Gesprächs.

Während des gesamten Interaktionsprozesses erfasst das System alle Nachrichten und Statusänderungen zu einem vollständigen „Dialogtrack“, der dann in die Auswertungsphase übergeht.

Die Bewertung verwendet vordefinierte „Meilensteine“ und „Minenfelder“, um die Leistung des Agentenmodells zu messen.

MeilensteinDie Schlüsselereignisse zur Erledigung der Aufgabe werden definiert und bilden einen gerichteten azyklischen Graphen, der Zeitabhängigkeiten widerspiegelt.

Das System sucht nach der besten Übereinstimmung zwischen Ereignissen und Meilensteinen in der Flugbahn und behält dabei die topologische Reihenfolge der Meilensteine bei.

MinenfeldEs definiert verbotene Ereignisse und wird hauptsächlich verwendet, um zu erkennen, ob das Modell aufgrund unzureichender Informationen halluziniert.

Die folgende Abbildung zeigt beispielsweise ein Beispiel für eine Minenfeldbewertung im Szenario „unzureichende Informationen“.

Da in dieser Aufgabe der aktuelle Zeitstempel nicht verfügbar ist, sollte das Modell das Werkzeug timestamp_diff nicht aufrufen, aber das Modell errät fälschlicherweise den aktuellen Zeitstempel und ruft das Werkzeug auf, was zu einer Punktzahl von 0 für diese Runde führt.

Letztendlich berechnet das System eine zusammengesetzte Punktzahl, die das Produkt aus der durchschnittlichen Meilenstein-Match-Punktzahl und der Minenfeldstrafe ist.

Darüber hinaus zählt das System auch die durchschnittliche Anzahl der Runden, die zur Erledigung der Aufgabe erforderlich sind, als ergänzenden Indikator zur Bewertung der Effizienz des Modells.

Komplexe Interaktionsszenarien sind immer noch eine Herausforderung

Im Großen und Ganzen,Closed-Source-Modelle schneiden in Bezug auf Toolaufrufe besser ab als Open-Source-Modelle。

Die höchste durchschnittliche Punktzahl ist GPT-4o mit einer Punktzahl von 73,0. Es ist die einzige, die 70 überschreitet und in vier der sieben vom Autor festgelegten Szenarien die höchste Punktzahl erreicht.

Darüber hinaus ist GPT-4o auch äußerst robust. Der Autor hat 8 Methoden verwendet, um das Tool zu modifizieren, und GPT-4o hatte unter ihnen den höchsten Robustheitswert.

Dicht gefolgt von Claude 3-Opus mit einer durchschnittlichen Punktzahl von 69,2, das GPT-4o in Szenen mit unzureichenden Informationen übertrifft, und dann einigen anderen Versionen von GPT und Claude.

Googles Gemini liegt mit 60,4 relativ zurück, was nur knapp und nicht so gut wie GPT-3.5 ist. Allerdings schneidet es bei der Einzelpunktzahl unzureichender Informationen gut ab.

Die höchste durchschnittliche Punktzahl des Open-Source-Modells beträgt nur 31,4. Unter ihnen liegt die berühmte Mistral-7B-Punktzahl bei 29,8, die beste Punktzahl liegt jedoch bei 76,8 bei der Einzelpunktzahl unzureichender Informationen.

Sogar einige der Open-Source-Modelle wie Gorilla und Command-R können Tool-Antworten überhaupt nicht verarbeiten oder können nur eine einzige Runde von Tool-Aufrufen ausführen.

Weitere Analysen zeigten dasOpen-Source-Modelle sind schlecht darin, zu erkennen, wann es Zeit ist, Tools einzusetzenund behandelt das Problem lieber als reine Textgenerierungsaufgabe.

Was die Aufgabendimension betrifft, schneidet das große Modell gut bei einzelnen/mehrfachen Werkzeugaufrufen und Einzelrunden-Benutzeranfragen ab, aberDer Vorteil schwächt sich bei Gesprächen mit mehreren Runden und zustandsabhängigen Aufgaben ab。

In GPT, Claude, Gemini und anderen Familien,Größere Modelle bieten offensichtlichere Vorteile bei Multi-Tool-Aufrufen und Multi-Turn-Dialogaufgaben.;AberZu zustandsabhängigen Aufgaben, kleinen und mittleren Modellen(如GPT-3.5, Claude-3-Sonnet)Im Gegenteil, es ist besser als das große Modell(GPT-4, Claude-3-Opus)eine bessere Leistung erbringen。

Darüber hinaus stellt die Normalisierung eine große Herausforderung für alle Modelle dar, insbesondere für Szenarien, die Werkzeuge zur Normalisierung erfordern, und die Normalisierung zeitbezogener Parameter ist ebenfalls sehr schwierig.

Untersuchungen zur Robustheit zeigen, dass die Empfindlichkeit des Modells gegenüber Änderungen in der Werkzeugbeschreibung, den Parameterinformationen usw. stark variiert und keine offensichtlichen Regeln gefunden werden können.

In Bezug auf die Effizienz sind stärkere Modelle in der Regel effizienter, es gibt jedoch Ausnahmen. Beispielsweise ist die Effizienz der Modelle der Claude-Serie im Allgemeinen besser als die der GPT.

Kurz gesagt, große Modelle stehen immer noch vor vielen Herausforderungen, wenn sie Werkzeuge zur Bewältigung komplexer Interaktionsszenarien in der realen Welt einsetzen.

Über den Autor

Die Teammitglieder von ToolSandbox stammen aus Apples Teams für maschinelles Lernen, Datenwissenschaft, grundlegendes großes Modell und anderen Teams.

Der Erstautor ist ein chinesischer Ingenieur für maschinelles LernenLu-Jia-Wu, schloss sein Studium an der Tsinghua-Universität mit einem Bachelor ab. Während seines Studiums war er auch als wissenschaftlicher Mitarbeiter im Labor von Professor Zhu Jun tätig.

Anschließend erwarb Lu einen Master-Abschluss in maschinellem Lernen an der Carnegie Mellon University und kam nach seinem Abschluss 2020 zu Apple.

Darunter Lu, signiert10 der 12 Autoren sind Chinesen, und alle haben einen Hintergrund in renommierten Schulen.

Dazu gehört auch der Leiter des Basis-GroßmodellteamsPang Ruoming(Ruoming Pang)。

Darüber hinaus ein technischer Leiter, der seit 8 Jahren bei Apple arbeitetBernhard Aumayerbeteiligte sich ebenfalls an diesem Projekt.

Papieradresse:
https://arxiv.org/abs/2408.04682

Nachricht