OpenAIs „letztes“ superausgerichtetes Papier: Spiel mit großen und kleinen Modellen, Ausgabelesbarkeit up

OpenAIs „letztes“ Super-Alignment-Papier: Spiel mit großen und kleinen Modellen, bessere Lesbarkeit der Ausgabe

2024-07-18

Crecy stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

lassenGroße und kleine Modelle konkurrieren miteinander, können Sie die Lesbarkeit der generierten Inhalte verbessern!

Dies ist eine ernsthafte Forschung von OpenAI. Ziel ist es, die Modellausgabe leichter verständlich zu machen und gleichzeitig die Genauigkeit sicherzustellen.

Nach dem Training mit dieser Methode hat sich die Genauigkeit der menschlichen Beurteilung der Modellausgabe deutlich erhöht und auch die Geschwindigkeit ist schneller geworden.

Die Forschung des nicht mehr existierenden „Hyper-Alignment“-Teams von OpenAI ahmt eine Studie von Wissenschaftlern der University of Toronto aus dem Jahr 2021 nach.„Prover-Verifier“-Spiel。

Während des Trainingsprozesses lässt OpenAI das große Modell als „Beweiser“ und das kleine Modell als „Verifizierer“ fungieren, sodass diese beiden Identitäten miteinander konkurrieren können.

Am Ende sind die Ausgabeergebnisse des großen Modells nicht nurEs ist einfacher zu verstehen und es gibt keinen offensichtlichen Verlust an Genauigkeit.Auch das Urteilsvermögen des kleinen Modells hat sich verbessert.

Sogar einer der Autoren des Papiers, der OpenAI-Forscher Yining Chen, sagte, dass dieser Ansatz „das Potenzial hat, zukünftige Modelle intelligenter als Menschen zu machen“.

Erwähnenswert ist, dass der ehemalige Leiter des Super Alignment Teams und Autor von RLHFJan LeikeEr beteiligte sich auch an dieser Forschung. Als er seinen Job aufgab, kritisierte er OpenAI dafür, dass es nicht auf Sicherheit achtete.

Am Ende von Jan Leikes Tweet zur Einführung dieses Papiers machte er jedoch Werbung für Anthropic (Hersteller Claude), wo er nun Leute rekrutieren soll.

Ein anderer Autor des Papiers, der OpenAI-Forscher Nat McAleese, gab in einem Tweet bekannt, dass dies das letzte (endgültige) Super-Alignment-Papier von OpenAI sein wird.

Diese Nachricht hat einige Internetnutzer sehr aufgeregt und gesagt, dass dies nicht der letzte Artikel sein darf, Nat, Sie werden weiterhin Super-Alignment machen, oder?

Lassen Sie die Modelle gegeneinander spielen

OpenAI-Untersuchungen ergaben, dass die von großen Modellen generierten Inhalte einige Kontrollen und Abwägungen in den beiden Dimensionen Genauigkeit und Lesbarkeit aufweisen –

Wenn Sie die eigene Genauigkeit als Ziel optimieren, verringert sich die Lesbarkeit. Wenn Sie die Lesbarkeit als Ziel festlegen, geht Ihre eigene Genauigkeit verloren.

Selbst bei einfachen Aufgaben auf Mathematikniveau in der Grundschule ist die Lücke leicht zu erkennen, die OpenAI als „Verständlichkeitssteuer“ bezeichnet.

Ob Menschen jedoch die durch das Modell generierten Inhalte verstehen können, ist eine wichtige Voraussetzung für genaue Urteile und hat daher auch einen wichtigen Einfluss auf die Sicherheit.

Abgesehen davon entscheidet die Verständlichkeit des Inhalts direkt darüber, ob das Modell dem Menschen eine nützliche Hilfe sein kann.

Diese Forschung wurde durch das „Certifier-Verifier“-Spiel inspiriert, das 2021 von Wissenschaftlern der University of Toronto vorgeschlagen wurde, und trainierte das Modell durch das Spiel.

PrüferDie Aufgabe besteht darin, den Prüfer davon zu überzeugen, dass eine bestimmte Aussage korrekt ist, da er über eine leistungsstarke Rechenleistung und die Fähigkeit verfügt, komplexe Berechnungen durchzuführen und Beweise zu generieren.

ValidatorDann können nur relativ einfache Berechnungen durchgeführt werden und es ist ein interaktiver Prozess erforderlich, um festzustellen, ob der vom Beweiser vorgelegte Beweis glaubwürdig ist.

Beispielsweise gibt es ein mathematisches Problem, das die Lösung des Ausdrucks einer Funktion erfordert. Der Prüfer kennt den Ausdruck (aber nicht unbedingt korrekt) und möchte, dass der Prüfer glaubt, dass seine Antwort korrekt ist.

Der Prüfer kennt die Funktionswerte, die einigen unabhängigen Variablen entsprechen, und kann diese Informationen verwenden, um den Prüfer zu testen und anhand der Richtigkeit seiner Antwort zu beurteilen, ob er die richtige Funktion kennt.

Auf diese Weise strebt OpenAI ein Gleichgewicht zwischen Genauigkeit und Lesbarkeit an und tauscht einen relativ geringen Genauigkeitsverlust gegen eine bessere Lesbarkeit ein.

In diesem Projekt verwendete das OpenAI-Team einen Datensatz mit mathematischen Problemen, Lösungen und richtigen Antworten für die Grundschule.

Für das Modell wurden Modelle der GPT-4-Serie unterschiedlicher Größe ausgewählt, wobei die größeren als Prüfer und die kleineren als Prüfer dienten.

Der Datensatz wird zufällig in zwei gleich große Teilmengen aufgeteilt, die für das Training des Prüfers bzw. des Verifizierers verwendet werden.

Dem Prüfer werden zwei Rollen zugewiesen: hilfreich bzw. hinterlistig, indem er richtige bzw. falsche Lösungen generiert.

Gemeinsam ist ihnen jedoch, dass ihre Lösungen vom Prüfer eine hohe Punktzahl erhalten müssen.

△Die Entwicklung des schlauen Prüfers in mehreren Trainingsrunden

Diese beiden Rollen sind nicht festgelegt und werden vom Prüfer benötigtWechseln Sie sich abwerden belohnt, wenn ihr Verhalten mit der gespielten Rolle übereinstimmt.

Das Training ist in mehrere Runden unterteilt. In jeder Runde extrahiert das Team eine Reihe richtiger und falscher Proben aus den von den beiden Prüfern in der vorherigen Runde generierten Lösungen.

Diese Proben werden als Validator-Trainingsdaten für die aktuelle Runde verwendet. Der Validator wird durch überwachtes Lernen trainiert, um die Richtigkeit seiner Beurteilung zu verbessern und es dem Validator zu ermöglichen, richtige Lösungen besser zu bewerten als falsche Lösungen.

In diesem Prozess drängt der schlaue Prüfer den Prüfer ständig dazu, seine Beurteilungsgenauigkeit zu verbessern, und der Prüfer sorgt auch dafür, dass der vom Prüfer generierte Inhalt besser mit den Bewertungspräferenzen übereinstimmt. Durch gegenseitiges Spielen erzielen die beiden gemeinsame Fortschritte.

Eine wichtige Voraussetzung für die Erzielung hoher Punktzahlen ist, dass der generierte Inhalt vom Verifizierer verstanden werden kann. Solange menschliche Präferenzen in den Verifizierer einfließen, kann die Interpretierbarkeit des Modellausgabeinhalts verbessert werden.

Balance zwischen Genauigkeit und Lesbarkeit

Letztlich erreicht eine solche spielbasierte Trainingsmethode eine gute Balance zwischen hoher Genauigkeit und hoher Verständlichkeit.

Die traditionelle Trainingsmethode konzentriert sich nur auf die Genauigkeit des Modells selbst. Mit fortschreitendem Trainingsprozess nimmt die Genauigkeit der Antworten zu, aber die Urteile des Menschen werden zunehmend ungenauer und langsamer.

Da das OpenAI-Team menschliche Präferenzen in den Verifizierer eingeführt hat, hängt die Beurteilungsgenauigkeit des Verifizierers in gewissem Maße vom Menschen ab.

Die Endergebnisse bestätigten auch, dass das mit dieser Spielmethode trainierte Modell (Prüfer) es Menschen ermöglicht, schnellere und genauere Urteile zu fällen, wenn die Anzahl der Trainingsrunden zunimmt, ohne dass es zu nennenswerten Genauigkeitsverlusten kommt.

Nach dem Vergleich der Basislinienmethode ist es nicht schwer festzustellen, dass die menschliche Beurteilungsgenauigkeit nach 5 Runden 82 % übersteigt, die Basislinie jedoch nach 7.000 Trainingsschritten weniger als 75 % beträgt.

In Bezug auf die Zeit liegt die grundlegende menschliche Beurteilungszeit bei nahezu 27 Sekunden, und die neue Methode beträgt nur etwas mehr als 26 Sekunden.

Darüber hinaus nimmt die Robustheit des Verifizierers mit fortschreitendem Training allmählich zu und er kann falsche Antworten genauer identifizieren.

Neben der Bewertung der Wirksamkeit dieser spielbasierten Trainingsmethode hat das OpenAI-Team im Rahmen des Forschungsprozesses auch einige weitere Erkenntnisse gewonnen:

Die Auswirkung der Größe des Prüfers: Zu klein führt zu einem instabilen Training, und zu groß macht es schwierig, die Robustheit in mehreren Trainingsrunden zu verbessern. Ein Tausendstel bis ein Hundertstel des Prüfers hat den besten Effekt.
Fehler in bösartigen Lösungen werden mit dem Training immer subtiler und lokalisierter, was darauf hindeutet, dass der Validator den betrügerischen Prüfer dazu drängt, gegnerische Beispiele zu generieren, die der wahren Lösung näher kommen.
Mit zunehmender Anzahl der Trainingsepochen nimmt die Genauigkeit menschlicher Bewerter hinsichtlich des tückischen Prüfers ab.

Eine Sache noch

Seitdem das Super Alignment-Team, das diese Forschung erstellt hat, aufgelöst wurde und nun für Sicherheitsfragen verantwortlich ist, hat die Sicherheitsstrategie von OpenAI erneut große Aufmerksamkeit erhalten.

Zu diesem Thema nahm OpenAI-CTO Mira Murati Anfang dieses Monats ein Exklusivinterview an der Johns Hopkins University entgegen.

Mira sagte in dieser Zeit, dass OpenAI „das Produkt (die Priorität) nicht vor die Sicherheit gestellt habe“, wie Jan Leike, der frühere Leiter des Super Alignment Teams, vorgeworfen hatte.

Gleichzeitig sagte sie auch, dass Super Alignment zwar aufgelöst wurde, Super Alignment jedoch nur eines der zahlreichen Sicherheitsteams von OpenAI ist und viele Mitarbeiter des Unternehmens immer noch mit Sicherheitsarbeit beschäftigt sind.

Referenzlinks:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542

Nachricht

OpenAIs „letztes“ Super-Alignment-Papier: Spiel mit großen und kleinen Modellen, bessere Lesbarkeit der Ausgabe

Lassen Sie die Modelle gegeneinander spielen

Balance zwischen Genauigkeit und Lesbarkeit

Eine Sache noch

Einführung

meine Kontaktdaten