Wenn Agenten beginnen, sich selbst zu erschaffen, wird die Explosion von KI-Produkten dann noch ein ferner Traum sein?

2024-08-21

TencentTechnologieautor Hao Boyang

Herausgeber Zheng Kejun

2024,KI Das heißeste Thema auf diesem Gebiet ist zweifellos Agent.

“großes ModellCool, aber was kann ich damit machen? „Das ist die jährliche KI-Anwendungsfrage im Jahr 2023. Bis 2024 sind Agenten das vielversprechendste Gegenmittel für dieses Problem.“

Intelligente Agenten können durch komplexe Prozesse und Werkzeuge eingesetzt werden, wodurch große Modelle komplexere und individuellere Aufgaben bewältigen können und letztendlich Software-Entitäten oder physische Einheiten mit Autonomie-, Wahrnehmungs-, Entscheidungs- und Handlungsfähigkeiten entstehen. Ng Enda, Jim Fan und andere große Namen der Branche haben sich zusammengeschlossen, um die Wirksamkeit des intelligenten Agenten zu beweisen.

Professor Ng Enda schlug in seinem Blog im März dieses Jahres vor, es im HumanEval-Datensatz zu verwenden GPT-3.5Die Testgenauigkeit (Zero-Shot) beträgt 48,1 %. GPT-4(Zero-Shot) beträgt 67,0 %. Durch die Zusammenarbeit mit dem Agent-Workflow erreichte GPT-3.5 eine Genauigkeitsrate von 95,1 %.

(Bildhinweis: Ng Endas Experimente unter der Technologie intelligenter Agenten,GPT 3.5-Leistung übertrifft die ursprüngliche GPT4) bei weitem

Daher haben im vergangenen Jahr alle, von großen Unternehmen bis hin zu privaten Experten, intelligente Körper gebaut. groß genugMicrosoftCopilit, unsinnige KI-Wahrsagerei, Tools zum Aufbau intelligenter Agenten-Frameworks wie Langchain, Coze und Dify sind ebenfalls wie Pilze nach einem Regenguss aus dem Boden geschossen, und ihre Popularität steigt weiter.

(Bildhinweis: Von INSIGHT zusammengestellte Unternehmen rund um Agenten und KI-Automatisierungsprozesse)

Andrew Karpathy, ein ehemaliger Wissenschaftler bei OpenAI, sagte einmal, dass normale Menschen, Unternehmer und Geeks weniger dazu neigen, KI-Agenten zu entwickelnOpenAISolche Unternehmen haben sogar einen Vorteil.

Kommt eine neue Ära von Produktmanagern, die auf KI-Agenten-Workflows basieren? Nicht unbedingt, denn KI ist möglicherweise besser darin, intelligente Agenten zu entwickeln als Menschen.

Automatisierte Schleifenlogik

Am 19. August veröffentlichten drei Forscher der University of British Columbia einen Artikel mit dem Titel „Automated Design of Agent Systems“. In diesem Artikel entwarf er ein System, das es der KI ermöglicht, Agenten selbst zu entdecken und zu erstellen, und das sie selbstständig iterieren kann.

Erinnern Sie sich an die klassische Definition eines Agenten durch OpenAI. Ein Agent ist ein Produkt, das Wissen speichern, planen und Tools anwenden kann.

Wenn wir Workflows zum Erstellen von Agenten verwenden, nutzen wir auch vorhandenes Wissen (Wissen über die Form von Agenten), um selbst zu planen (Build-Prozesse) und Tools (Zugriff auf APIs) zu verwenden, um die Ausgabe schließlich auszuführen Agent selbst.

Warum also nicht einen Agenten entwickeln, der Agenten automatisch erkennen und entwerfen kann?

Der Autor des Artikels folgt dieser Idee und bezeichnet den Designer als Meta-Agenten, den er auffordert, neue Agenten zu entwerfen. Fügen Sie den entworfenen Agenten als Daten zur Datenbank hinzu und entwickeln Sie kontinuierlich neue und stärkere Versionen des Agenten.

Diese ganze Reihe von Methoden nennen sie ADAS (Automated Design of Intelligent Systems).

Wie genau kommt dieses System nun zum Tragen?

Lassen Sie die Kette drehen

Der Prozess der Generierung neuer Agenten in ADAS-Systemen kann in drei Teile unterteilt werden:

Der erste Teil legt den Suchraum fest, der als Verwendung einiger grundlegender Werkzeuge und Regeln zum Entwerfen potenzieller neuer Agenten verstanden werden kann.

Der zweite Teil besteht darin, die Suche durchzuführenAlgorithmus, die festlegt, wie der Meta-Agent den Suchraum nutzt und seine Elemente verwendet, um gezielt neue Agenten zu erstellen.

Der letzte Teil besteht darin, die Bewertungsfunktion auszuführen, die den erstellten Agenten anhand der Leistung und anderer Ziele bewertet.

Die Forscher erklären Schritt für Schritt, wie die oben genannten drei Kernteile in der Arbeit aufgebaut werden.

Zunächst müssen die Grundelemente für den Aufbau des Suchraums ermittelt werden. Forscher glauben, dass Code die beste Methode ist.

Dies liegt daran, dass der Code Turing-vollständig ist und alle Möglichkeiten ausdrücken kann. Theoretisch können Meta-Agenten also alle möglichen Bausteine (wie Hinweise, Werkzeugnutzung, Kontrollflüsse) und Agentensysteme entdecken, die diese Bausteine auf beliebige Weise kombinieren.

Noch wichtiger ist, dass die verschiedenen Arbeitsabläufe, die bereits auf Websites wie Langchain für Baumakler vorhanden sind, kodifiziert wurden. Dadurch stehen Ihnen die relevanten Daten zur Verfügung und es ist keine erneute Konvertierung erforderlich. Werkzeugaufrufe wie RAG (Retrieval Augmented Generation) und andere Funktionskomponenten verfügen bereits über eine sehr ausreichende Codebasis.

Die Verwendung von Code zum Aufbau des Suchraums bedeutet auch, dass die von ADAS generierten Agenten direkt ausgeführt werden können, um Fehler zu korrigieren und Bewertungen ohne manuelles Eingreifen durchzuführen.

Nach der Definition des Suchraums beginnen die Forscher mit der Entwicklung von Suchalgorithmen, die es dem Metaagenten ermöglichen, mögliche Wege zur Erledigung der Aufgabe zu erkunden. Dieser Prozess wird im Wesentlichen durch die Verwendung des Prompt-Word-Projekts abgeschlossen.

Die erste besteht darin, ihm eine Reihe von Systemaufforderungswörtern zu geben.

Dann legen Sie das Basic einPromptDie genannten Informationen werden an den Meta-Agenten weitergegeben, einschließlich

1. Grundlegende Beschreibung der Aufgabe.

2. Der grundlegendste Framework-Code, z. B. Formatierungsaufforderungen, Kapselung und andere Operationsnamen, sowie die Möglichkeit, andere Basismodelle (FM) und APIs aufzurufen.

(Bildhinweis: Teil des Framework-Codes)

3. Format und Beispiele für die Aufgabeneingabe und -ausgabe.

4. Eine Beispielbibliothek, die aus einigen in der ursprünglichen Iteration generierten Agenten besteht, einschließlich ihrer Basistestergebnisse.

(Bildhinweis: Ein Beispiel in einer intelligenten Agentenbibliothek)

Basierend auf diesen grundlegenden Hinweisen kann ADAS den Betrieb aufnehmen und einen intelligenten Agenten zur Lösung eines bestimmten Problems generieren.

In diesem Prozess führt der Meta-Agent zwei Reflexionsrunden durch, um sicherzustellen, dass der generierte Agent neu und korrekt ist. Es prüft, ob das neu generierte Code-Framework Fehler aufweist und im Vergleich zu früheren Ergebnissen in der Agent-Beispielbibliothek innovativ genug ist.

Der Meta-Agent muss außerdem eine vorläufige Bewertung des generierten Agenten auf der Grundlage seines „Verständnisses“ der praktischen Leistungsfähigkeiten durchführen, um festzustellen, ob er eine bessere Leistung als der vorherige Agent erbringt.

Wenn einige dieser Bedingungen nicht erfüllt sind, muss der Meta-Agent entweder den generierten Agenten ändern oder ihn einfach neu erstellen.

(Aufforderung zur ersten Reflexionsrunde)

Nach zwei Reflexions- und Änderungsrunden sendet der Meta-Agent im dritten Schritt den neu generierten Agenten, den er für neu und gut hält, an das Bewertungssystem.

Das Bewertungssystem vergibt auf Grundlage des Basistests eine objektive Bewertung der Fähigkeiten des Agenten und gibt diese dann an die Beispielbibliothek des Agenten zurück.

Der Meta-Agent optimiert die nächste Iteration weiterhin basierend auf den vorherigen Bewertungsergebnissen und früheren Beispielen in der Beispielbibliothek, um eine höhere Aufgabenleistungsbewertung zu erzielen.

Dabei entstand eine ganze vollautomatische Kette. Um einen hochwirksamen Wirkstoff zu generieren, sind möglicherweise mehr als zweistellige Iterationen erforderlich.

Jenseits der Händereiben-Intelligenz

Wie komplex können die intelligenten Agenten sein, die durch die Automatisierung von Prozessen durch ADAS-Methoden gewonnen werden? Das Bild unten zeigt ein Agent-Framework, das nach 14 Iterationen generiert wurde.

In der Struktur dieses Agenten gibt es fünf Gedankenketten, die vorläufige Antworten geben. Nach dem Feedback von drei Expertenmodellen und einem Modell, das die menschliche Bewertung nachahmt, werden die Antworten während der Optimierungsprozessphase dreimal modifiziert und verbessert. Abschließend wurden drei Ergebnisse nach der Auswertung herausgefiltert und zur endgültigen Antwort zusammengefasst.

Wenn ein Mensch diese Komplexität bedienen würde, würde es wahrscheinlich eine Woche dauern. Dies ist genau der richtige Zeitpunkt, um Eingabeaufforderungen zu schreiben und Architektur zu entwerfen, ganz zu schweigen von Tests und horizontalen Vergleichen.

Dies ist natürlich auch das Ergebnis einer kontinuierlichen Iteration im Design des Metaagenten.

Während des iterativen Prozesses steigt auch seine Fähigkeit, intelligente Agenten zu generieren, mit der Anzahl der Iterationen rapide an. In der dritten Iteration lernte der Meta-Agent selbstständig die Multi-Thinking-Chain-Strategie und in der vierten Iteration lernte er, dynamisches Gedächtnis zur Optimierung von Antworten zu nutzen. Beim 14. Mal erreichte der generierte Agent die oben genannte Komplexität.

Letztendlich wurde die Leistungsfähigkeit der optimalen Lösung im Vergleich zum ursprünglichen einfachen großen Sprachmodell um mehr als 250 % und im Vergleich zum leistungsstärksten manuellen Agenten COT-SC (Multi-Thought-Chain-Antwort) um 75 % verbessert. Verfahren.

Nicht nur ARC, die im ADAS-Modus generierten Agenten sind in allen Aspekten deutlich leistungsfähiger als alle derzeit stärksten handgeribten Baseline-Agenten, wie COT, LLM Debate und Self-Refine. Und je komplexere Aufgaben und domänenübergreifende Anwendungen bearbeitet werden, desto leistungsfähiger sind die von ADAS generierten intelligenten Agenten.

Darüber hinaus verfügen diese generierten Agenten selbst über bestimmte Migrationsfähigkeiten. Beispielsweise können Agenten, die wissenschaftliche Probleme lösen können, auch in der Mathematik gute Ergebnisse erzielen. Daher ist es wahrscheinlich, dass ein optimaler Rahmen in der Lage ist, verwandte Probleme in vielen Bereichen zu lösen.

Obwohl die Ära der Handreibemittel zu Ende geht, könnte die Ära der Entdeckung von Agentenparadigmen weitergehen. Im Gesamttest hat ADAS keine neuen Konstruktionsmethoden außerhalb des aktuellen Paradigmas der intelligenten Agentenkonstruktion entdeckt, sondern diese Methoden neu organisiert und verwendet.

Für den durchschnittlichen AI-Agent-Entwickler reicht dies jedoch aus, um seine Arbeit zu ersetzen.

Für die Popularität von ADAS muss jedoch möglicherweise noch eine Hürde überwunden werden, und zwar das Kostenproblem.

Nach Angaben der Forscher kostet die OpenAI-API etwa 500 US-Dollar für eine Suche und Auswertung auf ARC und etwa 300 US-Dollar für einen einzelnen Lauf im Bereich Argumentation und Problemlösung. Das sind etwa 20 US-Dollar pro Iteration. Im Vergleich zu solch hohen Kosten hat die Arbeitskraft in dieser Phase noch gewisse Vorteile.

Aber die Forscher sagten auch, dass sie das Modell „gpt-3.5-turbo-0125“ verwendeten, weil sie es früh untersucht hatten. Das neueste GPT-4-Modell „gpt-4o-mini“ kostet weniger als ein Drittel des Preises von „gpt-3.5-turbo-0125“ und bietet eine bessere Leistung. Darüber hinaus zeigen Experimente, dass ein mit GPT 3.5-Funktionen iterierter Agent nach einer bestimmten Anzahl von Iterationen in einen Leistungsengpass gerät und alle Iterationen nach vierzehn Malen eine Verschwendung sind. Daher können Entwürfe mit besserer Bewertung und Ressourcenverwaltung auch die Kosten erheblich senken.

Offensichtlich kann der Preisvorteil der Arbeit nicht lange aufrechterhalten werden.

Hat die Explosion der Intelligenz wirklich begonnen?

Warum ist diese automatisierte Technologie so wichtig?

Im Zeitalter des mobilen Internets blühen verschiedene Apps für verschiedene Titel auf, die zusammen eine Ära des technologischen Wohlstands schaffen. Da die neuen Tools damals jedoch Lernaufwand erforderten, durchlief auch die Entwicklung mobiler Apps eine lange Durchdringungsphase, bis endlich genügend Entwickler aufgenommen wurden.

In früheren Epochen war dies langsamer. Nach der von Geoffrey Moore vorgeschlagenen „Crossing the Chasm“-Theorie, die auf PC-Erfahrungen in den 1990er Jahren basiert, würden in den ersten Jahren der Entstehung der Technologie nur etwa 13,5 % der Early Adopters diese Technologie nutzen. Dabei handelt es sich nicht um Entwicklung, sondern um Nutzung .

Daher kann der Mangel an Entwicklern ein wichtiger Engpass bei der Technologieförderung sein.

Natürlich kann die Entwicklungs- und Durchdringungsgeschwindigkeit der intelligenten Agentenkonstruktion viel schneller sein. Weil es viel einfacher ist als die bisherige Softwareentwicklung. Wordware beispielsweise, das vor einiger Zeit populär wurde, ermöglicht es normalen Benutzern, die Konstruktion intelligenter Agenten mithilfe natürlicher Sprache abzuschließen, was die Schwelle senkt.

Allerdings sind Designs wie Denkketten und Mehrschrittschleifen immer noch sehr komplex und es werden immer mehr Werkzeuge im Prozess benötigt. Daher gibt es nicht viele Menschen, die sich wirklich der Entwicklung intelligenter Agenten widmen und dieses Tool sinnvoll nutzen können.

Zuckerberg sagte einmal in einem Gespräch mit Huang Renxun, dass es fünf Jahre dauern wird, das Potenzial intelligenter Agenten vollständig zu verstehen, selbst wenn sich die Technologie für groß angelegte Modelle nicht mehr entwickelt.

Daher könnten Entwickler im Vergleich zur Technologie der größte Engpass für intelligente Agenten sein, der noch nicht explodiert ist. Es gibt immer noch zu wenige Menschen, die das können.

Es gibt jedoch viele Agenten.

Wenn diese Technologie der automatischen Generierung von Tuning-Agenten von mehr kommerziellen Unternehmen übernommen und optimiert wird, wird der Engpass des frühen technischen Personals natürlich nicht mehr bestehen. Die Geschwindigkeit, mit der Agenten die Abdeckung und Tiefe der Fähigkeiten in verschiedenen Bereichen erkunden können, wird deutlich erhöht.

Vielleicht wird nächstes Jahr die erste Killer-KI-App in der Geschichte der Menschheit auf den Markt kommen, und der Autor ist eine KI.

Nachricht