In der neuesten Veröffentlichung von OpenAI können sich superleistungsfähige Modelle selbst erklären

Text/AI Future Guide Autor Hao Boyang

Herausgeber/Zhou Xiaoyan

Heute hat OpenAI ein neues Papier veröffentlicht, das die „posthume Arbeit“ des nicht mehr existierenden OpenAI Super Alignment-Teams darstellt. Es schlägt einen neuen Weg zur Verbesserung der Modellinterpretierbarkeit vor, der darin besteht, das Modell seine eigene Logik erklären zu lassen. Je einfacher sie zu erklären ist, desto besser.

Diese Idee ist eigentlich nicht neu, aber jeder hat zuvor das Prompt-Word-Projekt verwendet, um dies zu tun. Nutzen Sie Aufforderungen wie Gedankenketten, um die KI zu zwingen, ihre Antworten zu erklären. Aber wäre es nicht besser, wenn das Modell von vornherein besser erklären könnte? Dann müssen Sie während des Modelltrainingsprozesses einige Anpassungen vornehmen. Um dieses Ziel zu erreichen, schlug OpenAI eine Methode namens „Inspectability Training“ vor. Um die Selbsterklärungsfähigkeit des Modells zu verbessern, wird eine Methode namens „Zertifizierer-Verifizierer-Spiel“ eingesetzt. Schließlich wurde festgestellt, dass diese Methode tatsächlich nützlich ist.

Wie genau haben sie es gemacht?

Wir wollen eine sehr intelligente KI (nennen wir sie einen „Prüfer“) trainieren, um mathematische Probleme zu lösen. Wir hoffen, dass diese KI nicht nur die richtige Antwort geben, sondern sie auch klar erklären und für die Menschen leicht verständlich machen kann. Wenn wir die KI jedoch einfach nach der richtigen Antwort suchen lassen, könnte sie eine sehr komplexe und schwer verständliche Art der Problemlösung entwickeln.

Im folgenden Beispiel ist beispielsweise die vom Modell gegebene Antwort richtig, aber die Beweismethode ist sehr unaussprechlich. Dies macht es für normale Benutzer, einschließlich Kunden in Branchen, die hohe Präzision erfordern, schwierig zu beurteilen, ob ihre Ideen richtig sind.

Um diese Situation zu vermeiden, haben Forscher eine clevere Methode entwickelt:

1. Sie erstellen eine „Schiedsrichter“-KI (genannt „Validator“). Dieser Schiedsrichter ist nicht so schlau wie die problemlösende KI, aber seine Aufgabe besteht darin, zu beurteilen, ob die Antwort der problemlösenden KI richtig und klar ist.

2. Dann forderten sie die problemlösende KI auf, zwei Rollen zu spielen: ein „guter Schüler“ (hilfsbereite KI), der versucht, richtige und klare Antworten zu geben, und ein „ungezogener Schüler“ (gerissene KI), der versucht, Antworten zu geben; scheinen richtig zu sein, sind aber tatsächlich auf subtile Weise falsch.

3. Beide „Schüler“ versuchen die Schiedsrichter-KI davon zu überzeugen, dass ihre Antwort richtig ist.

4. Mit der Zeit wird die Schiedsrichter-KI immer besser darin, richtige und falsche Antworten zu erkennen. Gleichzeitig lernte die KI des „guten Schülers“, Probleme klarer zu erklären, während die KI des „ungezogenen Schülers“ lernte, subtilere Fehler zu machen.

5. Der Vorgang wiederholt sich wie ein laufendes Spiel.

Dieser Prozess ist das „Zertifizierer-Verifizierer-Spiel“. Auf diese Weise werden die Erklärungen des Modells nach mehreren Trainingsrunden immer klarer. Beispielsweise ist die Interpretation des Modells nach einer Runde dieser Art von Training viel besser.

(Die Ergebnisse der ersten Trainingsrunde sind bereits detailliert)

Nach fünf Runden kann Ihnen das Model das Thema grundsätzlich im Ton eines Grundschullehrers erklären.

(Ergebnisse der fünften Trainingsrunde)

Und dieser „Verifizierer“ der Schiedsrichter-KI hat sich auch unter dem Druck der schlauen KI weiterentwickelt. Sie können besser erkennen, ob Antworten wahr oder falsch sind. Selbst wenn die schlaue KI fantastische Behauptungen aufstellt, wird es einfacher sein, darin Lücken zu finden.

(Dies ist die Antwort von Cunning AI, sie sieht ganz anständig aus)

(Mit der Zeit verbessert sich auch das Niveau der raffinierten KI.)

Dabei entdeckten OpenAI-Forscher auch eine Methode namensDas Phänomen der „Verständlichkeitssteuer“: Je verständlicher die KI-Ausgabe ist, desto wahrscheinlicher ist es, dass sie ein bestimmtes Maß an Leistung oder Genauigkeit opfert.

Sie erstellten ein Diagramm, um dieses Phänomen darzustellen.

In dem Bild, X-Achse: stellt die Genauigkeit des Modellgenerators dar, Y-Achse: stellt die Genauigkeit menschlicher Bewerter dar, hier als Maß für die Lesbarkeit verwendet. Ein Modell, das Reinforcement Learning (RL) direkt ohne „Inspectability-Training“ durchführt, verfügt über starke Fähigkeiten, aber eine schlechte Interpretierbarkeit. Modelle, die einem „Inspectability-Training“ unterzogen wurden, können die Genauigkeit verbessern und gleichzeitig die gleiche Interpretierbarkeit beibehalten. Es gibt jedoch eine Grenze: Die in der Abbildung mit einem roten Pfeil markierte „Verständlichkeitssteuer“ ist die Leistung, die geopfert werden muss, ohne dass die Interpretierbarkeit verloren geht.

Was genau macht diese Forschung? Wir können an den obigen Beispielen auch erkennen, dass eine Erklärungsmethode, die für die Schiedsrichter-KI einfacher zu verstehen ist, auch für uns Menschen einfacher zu verstehen ist.Das Es zeigt, dass wir kleinere, einfacher zu trainierende Modelle verwenden können, um menschliches Anmerkungsfeedback (wie RHLF) zu ersetzen und die Verständlichkeit großer Modellausgaben zu verbessern. Der Artikel stellt hohe Erwartungen an diese Methode. Sie argumentieren, dass „eine solche Autonomie besonders wichtig für die Ausrichtung zukünftiger superintelligenter KI-Systeme sein wird, mit dem Ziel sicherzustellen, dass KI-Systeme ohne direkte menschliche Aufsicht zuverlässig an menschlichen Werten und Erwartungen ausgerichtet sind.“

Denken Sie daran, dass die Pionierarbeit des Super Alignment-Teams die Idee war, schwache Modelle zur Überwachung starker Modelle zu verwenden. Es scheint, dass sie angesichts des ursprünglichen Ideals der Superausrichtung tatsächlich versuchen, verschiedene Methoden anzuwenden, um dieses zu erreichen. Schade, dass sich die Dinge geändert haben, das Team gegangen ist und wir jetzt nur noch den letzten Nachhall hören können.

Nachricht

In der neuesten Veröffentlichung von OpenAI können sich superleistungsfähige Modelle selbst erklären

In der neuesten Veröffentlichung von OpenAI können sich superleistungsfähige Modelle selbst erklären

Einführung

meine Kontaktdaten