Der mächtigste Agent Agent Q wird veröffentlicht! Die Erfolgsquote von Llama 3 stieg um das Dreifache und die mysteriöse „Erdbeere“ von OpenAI wurde abgefangen

2024-08-14

Neuer Weisheitsbericht

Herausgeber: Qiao Yang ist so schläfrig

[Einführung in die neue Weisheit]Das Start-up-Unternehmen MultiOn hat kürzlich Agent Q herausgebracht, der nach eigenen Angaben „derzeit der leistungsstärkste“ ist und bei realen Buchungsaufgaben eine Erfolgsquote von 95,4 % erreichen kann. Internetnutzer haben spekuliert, dass das mysteriöse Q*-Projekt von OpenAI dahinter steckt.

Ohne auf die Veröffentlichung des Q*/Strawberry-Projekts von OpenAI zu warten, veröffentlichte ein Start-up-Unternehmen namens MultiOn zunächst einen Agenten namens Q.

Wir freuen uns sehr, Ihnen mitteilen zu können, dass Agent Q, unsere Arbeit der letzten 6 Monate, jetzt live ist! Dies ist ein selbstüberwachtes Agenten-Framework, das schlussfolgern und suchen kann und durch reale Aufgaben im Internet Selbstspiel und Verstärkungslernen durchführen kann, um Selbstkorrektur und autonome Verbesserung zu erreichen!

Was noch mehr Aufmerksamkeit erregte, war, dass MultiOn Lianchuang/CEO Div Garg, als er Agent Q auf Twitter erwähnte, nie vergaß, diesen auffälligen Agenten mitzubringen.

Dies zog ständige Zuschauer aus allen Gesellschaftsschichten an. Einige Leute spekulierten, dass der große Chef hinter Agent Q das Q*-Projekt von OpenAI sei.

Darüber hinaus hat MultiOn auch einen unabhängigen Twitter-Account für Agent Q eröffnet, der häufig verschiedene seltsame Bemerkungen macht, die „schwer zwischen Menschen und Maschinen zu unterscheiden“ seien.

Das Hintergrundbild und die grundlegenden Informationen des Kontos sind voller Erdbeeren, und die Fotos von Erdbeeren in seinem eigenen Garten, die Ultraman zuvor gepostet hatte, wurden direkt eingefügt.

Aber das Erstaunliche ist, dass dieser mysteriöse Account viele Follower und KOLs hat, darunter Y-Combinator-CEO Garry Tan, Quora-CEO Adam D'Angelo, New York Times-Kolumnist Kevin Roose, Wharton AI-Professor Ethan Mollick und mehrere OpenAI-Mitarbeiter.

Sogar Ultraman ergriff kürzlich die Initiative, mit diesem mysteriösen Account zu interagieren und kommentierte seinen Beitrag, in dem er sich über „AGI erreicht Level 2“ lustig machte.

Ob diese Operationswelle von MultiOn ein reiner Hype ist oder ob sie im Zusammenhang mit der Förderung von Q* durch OpenAI steht, hängt von der Meinung der Menschen ab.

Entweder wird dies einer der besten KI-Agenten sein, die jemals veröffentlicht wurden, oder Div Garg wird den Ruf des Unternehmens ruinieren, indem er sich auf den schlimmsten Hype einlässt. In der KI-Community ist das kontraproduktiv.

Abgesehen von allen Kontroversen werfen wir zunächst einen Blick darauf, wie viel technischen Inhalt dieser Agent Q hat.

Laut CEO Div Garg verfügt Agent Q nicht nur über Planungs- und Argumentationsfähigkeiten, sondern auch über Selbstheilungsfähigkeiten. In nur einem Schulungstag verbesserten sie die Zero-Sample-Leistung von Llama 3 um 340 % und erreichten eine Erfolgsquote von 95,4 % bei realen Buchungsaufgaben.

Dies ist ein großer Fortschritt für autonome KI-Agenten, um komplexe und zuverlässige Entscheidungen in realen Umgebungen zu treffen.

Im offiziellen Demovideo kann Agent Q Aufgaben ausführen, darunter die Buchung von Restaurants, Besprechungen und Flugtickets, die alle mehrstufige Planung, Argumentation, Entscheidungsfindung und Interaktion mit verschiedenen Anwendungen erfordern.

Obwohl das Forschungsteam von MultiOn das Papier auf der offiziellen Website hochgeladen hat, ist Agent Q noch nicht für die Testversion geöffnet und Sie müssen sich auf der Warteliste registrieren, um sich für interne Testmöglichkeiten zu bewerben.

Papieradresse: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

Die offizielle Website behauptet, dass Agent Q noch in diesem Jahr für MultiOn-Entwickler und -Benutzer zugänglich sein wird.

Technische Interpretation

Obwohl LLM in den letzten Jahren den Bereich des NLP völlig unterwandert und bemerkenswerte Erfolge erzielt hat, steht es in interaktiven Umgebungen immer noch vor großen Herausforderungen, insbesondere bei mehrstufigen Argumentationsaufgaben wie der Webseitennavigation.

Aktuelle Trainingsmethoden, die auf statischen Sprachdatensätzen basieren, reichen nicht aus, um diese Modelle an dynamische Interaktionen in der realen Welt anzupassen.

Die Entstehung von Agent Q ist ein wichtiger Meilenstein auf dem Gebiet der KI-Agenten, die Suche, Selbstreflexion und verstärkendes Lernen kombinieren, um planen und selbst reparieren zu können.

Durch die Einführung eines neuen Lern- und Inferenz-Frameworks beseitigt Agent Q die Einschränkungen früherer LLM-Trainingstechniken und ermöglicht eine autonome Webnavigation.

Aufschlüsselung der Schritte von Agent Q bei der Ausführung geplanter Aufgaben

Probleme mit aktuellen Methoden

Aktuelle Methoden, wie etwa die überwachte Feinabstimmung bei sorgfältig geplanten Expertendemonstrationen, erbringen bei Agenten-Mehrschrittaufgaben aufgrund angehäufter Fehler und begrenzter Erkundungsdaten häufig eine schlechte Leistung und erfordern daher eine komplexe Entscheidungsfindung und Anpassung in dynamischen Umgebungen. Wie Sie lernen, suboptimale Strategien auftauchen.

Methoden und Komponenten von Agent Q

Agent Q kombiniert Guided Monte Carlo Tree Search (MCTS) und KI-Selbstreflexion sowie iterative Feinabstimmungsmethoden und verwendet gleichzeitig RLHF-Algorithmen wie Direct Preference Optimization (DPO), um LLM-Agenten in die Lage zu versetzen, aus erfolgreichen und fehlgeschlagenen Trajektorien zu lernen und die mehrfache Generalisierung zu verbessern Fähigkeit, schrittweise Denkaufgaben zu lösen.

Zu den Hauptkomponenten von Agent Q gehören:

1. Geführte Suche basierend auf MCTS: Generieren Sie autonom Daten durch Erkundung verschiedener Verhaltensweisen und Webseiten und stellen Sie ein Gleichgewicht zwischen Erkundung und Ausbeutung her.

MCTS verwendet höhere Probentemperaturen und unterschiedliche Aufforderungswörter, um den Verhaltensraum zu erweitern und sicherzustellen, dass unterschiedliche und optimale Flugbahnen erfasst werden können.

2. KI-Selbstkritik: In jedem Schritt kann KI-basierte Selbstkritik wertvolles Feedback liefern, um die Entscheidungsfindung des Agenten zu optimieren. Dieses Feedback auf Schrittebene ist für Langzeitaufgaben von entscheidender Bedeutung, da spärliche Signale häufig zu Lernschwierigkeiten führen.

3. Direkte Präferenzoptimierung: Der DPO-Algorithmus optimiert das Modell, indem er von MCTS generierte Präferenzpaare aus Daten erstellt. Diese Off-Policy-Trainingsmethode ermöglicht es dem Modell, effektiv aus dem aggregierten Datensatz zu lernen, einschließlich suboptimaler Zweige, die während des Suchprozesses untersucht wurden, wodurch die Erfolgsquote in komplexen Umgebungen verbessert wird.

Bewertungsexperiment

Bei der Simulation eines Online-Shops, der auf dem Modell xLAM-v0.1-r basiert, muss der Agent nach bestimmten Produkten suchen.

Obwohl auch Methoden wie RFT, DPO und Beam Search gewisse Verbesserungen erzielen können, ist das Ausmaß nicht so hoch wie bei AgentQ.

Bei gleichzeitiger Anwendung der Agent Q- und MCTS-Methoden kann die Aufgabenerfolgsquote von 28,6 % auf 50,5 % gesteigert werden, was dem durchschnittlichen menschlichen Niveau von 50 % entspricht.

Bei der eigentlichen Buchungsaufgabe von Open Table muss der Agent mehrere Schritte ausführen, darunter das Auffinden der entsprechenden Restaurantseite, die Auswahl des entsprechenden Datums und der entsprechenden Uhrzeit, die Auswahl des geeigneten Sitzplatzes entsprechend den Vorlieben des Benutzers, die Übermittlung der Kontaktinformationen des Benutzers und schließlich den Abschluss die Aufgabe.

Diese Komplexität liegt offensichtlich einen Schritt über dem Webshop. Laut Statistiken nach dem Experiment beträgt die durchschnittliche Anzahl der Schritte zur Erledigung von Webshop-Aufgaben 6,8, während Open Table sich auf 13,9 verdoppelt hat.

Da es sich bei Open Table nicht um einen simulierten Datensatz, sondern um eine echte Online-Umgebung handelt, ist es schwierig, eine automatisierte Bewertung durchzuführen. Daher verwendet das Papier GPT-4-V als Evaluator, um den Agenten für jeden Schritt des Vorgangs auf der Grundlage vordefinierter Werte zu belohnen Indikatoren und markieren Sie, ob die Aufgabe erledigt ist.

Agent Q steigerte die Null-Probe-Erfolgsquote von LLaMa-3 von 18,6 % auf 81,7 %, mit einer Punktesteigerung von 340 %, nach nur einem Tag autonomer Datenerfassung.

Durch die Hinzufügung der Online-Monte-Carlo-Baumsuche kann die Erfolgsquote weiter auf 95,4 % gesteigert werden.

Obwohl Agent Q in den oben genannten Evaluierungsexperimenten starke Fähigkeiten in den Bereichen Webnavigation, Suche, Argumentation und Planung unter Beweis gestellt hat, gibt es bei den derzeit verwendeten Methoden noch viel Raum für Diskussionen und Verbesserungen:

- Design des Argumentationsalgorithmus: Die zentrale Herausforderung von Agent Q liegt derzeit in seiner schwachen Argumentationsfähigkeit, die die Erkundungs- und Suchstrategien einschränkt. Darüber hinaus befindet sich das Kritikermodell beim Training der Agentenstrategie derzeit in einem eingefrorenen Zustand, was zusätzliche Probleme mit sich bringt Durch die Feinabstimmung kann es zu Leistungssteigerungen kommen.

- Agent Q bevorzugt MCTS für die Suche, da MCTS bereits über erfolgreiche Erfahrungen mit Mathematik- und Codierungsaufgaben verfügt, kann jedoch in einer realen Umgebung zu einer beträchtlichen Anzahl riskanter Interaktionen führen. Eine Änderung Ihrer Suchstrategie könnte eine geeignetere Option sein.

- Online-Sicherheit und Interaktion: Derzeit ermöglicht Agent Q tatsächlich ein hohes Maß an autonomer Erkundung und Selbsteinschätzung mit begrenztem menschlichem Eingreifen. Allerdings können beim Betrieb des Agents immer noch viele Fehler auftreten, insbesondere bei kritischen Aufgaben wie E-Mail, Zahlung und Archivierung.

Wenn Sicherheitsprobleme nicht angegangen werden, werden die tatsächlich einsetzbaren Aufgabenszenarien von Agent Q stark eingeschränkt sein, und in Zukunft könnten zusätzliche Sicherheitskritikmodelle und Human-in-the-Loop-Trainingseinstellungen erforderlich sein.

Referenzen:

https://x.com/rm_rafailov/status/1823462897751875701

https://x.com/ai_for_success/status/1823447309008490730

https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities

Nachricht

Der mächtigste Agent Agent Q wird veröffentlicht! Die Erfolgsquote von Llama 3 stieg um das Dreifache und die mysteriöse „Erdbeere“ von OpenAI wurde abgefangen

Einführung

Meine Kontaktdaten