Nachricht

Wie wichtig ist die Nachschulung? Der lange Artikel des AI2-Forschers erklärt ausführlich die Post-Training-Geheimnisse modernster Modelle

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Qiao Yang

[Einführung in die neue Weisheit]Immer mehr Studien haben herausgefunden, dass die Zeit nach dem Training ebenso wichtig für die Modellleistung ist. Nathan Lambert, ein Forscher für maschinelles Lernen bei Allen AI, hat kürzlich einen technischen Blogbeitrag veröffentlicht, in dem er die von Technologiegiganten verwendeten Post-Model-Trainingsrezepte zusammenfasst.

Mit der rasanten Entwicklung akademischer und industrieller LLM-Kreise werden nicht nur die Rechenleistung und die Daten, die für die Vorschulung verwendet werden, rasant eingesetzt, sondern auch die Ausrichtungs- und Feinabstimmungsmethoden für die Nachschulung werden ständig aktualisiert.

Früher veröffentlichte Modelle wie InstructGPT und WebGPT verwenden standardmäßige RLHF-Methoden, und der Stil und die Skalierung der Datenverwaltung scheinen veraltet zu sein.

In den letzten Monaten haben KI-Giganten wie Meta, Google und NVIDIA Open-Source-Modelle veröffentlicht, begleitet von detaillierten Artikeln oder Berichten, darunter , , , und der grundlegende Modellbericht von Apple Intellegence.

Anhand dieser offengelegten Informationen können wir einige hochmoderne Trends bei Methoden nach dem Training erkennen. Der Allen-KI-Forscher Nathan Lambert hat kürzlich einen Artikel zu diesem Thema veröffentlicht.


Ursprüngliche Adresse: https://www.interconnects.ai/p/frontier-model-post-training


Dr. Nathan Lambert schloss sein Studium an der UC Berkeley ab, leitete das RLHF-Team bei HuggingFace und ist derzeit Forscher für maschinelles Lernen bei Allen AI.

In seinem Artikel weist er darauf hin, dass synthetische Daten, iteratives Training, Etiketten menschlicher Präferenzen und umfassende Filterung gemeinsame Merkmale der in diesen Modellen verwendeten Post-Training-Methoden sind. Konkret basiert das neue Post-Workout-Rezept auf den folgenden Voreinstellungen:

-Synthetische Daten können von höherer Qualität sein als menschliche Daten, insbesondere bei anspruchsvollen Aufgaben

- RLHF kann auf größere Maßstäbe skaliert werden als die Feinabstimmung von Anweisungen

– Um das beste Modell zu erhalten, sind mehrere Trainings- und Generierungsrunden erforderlich

- Datenfilterung ist der wichtigste Teil des Trainings

Diese Annahmen sind weitgehend miteinander verflochten, um ein Trainingsprogramm zu bilden, das auf große Teams skaliert werden kann und sich somit ideal für Technologiegiganten eignet. Der spezifische Inhalt des Artikels bietet eine detaillierte Erläuterung der oben genannten vier Punkte.

Die neue Standard-Pipeline

Wenn wir bedenken, dass der ChatBot Arena-Score die Leistung des Modells nach dem Training misst, die größtenteils mit Stil und Robustheit zusammenhängt, haben fast alle großen Labore durch iteratives Training erhebliche Fortschritte erzielt.

Wir müssen noch die Veröffentlichung von Gemini 2 oder GPT-5 sehen, die das aktuelle Post-Training-Paradigma zurücksetzen und möglicherweise eine tiefere Kontrolle über unsere Modelle ermöglichen könnte.

Doch aus heutiger Sicht gibt es offensichtlich eine Annäherung der Methoden verschiedener Spitzenlabore, und dieser Trend ist viel deutlicher als erwartet.

Menschliche Präferenzdaten

Die anfängliche RLHF-Pipeline konzentriert sich auf menschliche Daten, die in zwei Hauptformen vorliegen: 1) menschliche Daten zur Feinabstimmung von Anweisungen für spezielle Aufgaben, 2) menschliche Präferenzdaten zur Aufgabenerledigung.

Solche Feinabstimmungsdatensätze sind teuer und streng geschützt. Soweit ich weiß, ist der einzige öffentliche Datensatz No Robots, den Lambert veröffentlichte, als er im HuggingFace-Team war.


Lageradresse: https://huggingface.co/datasets/HuggingFaceH4/no_robots

Daten über menschliche Präferenzen hängen größtenteils mit Verbesserungen in bestimmten Modellen zusammen. Aber selbst wenn Daten offengelegt werden können, gibt es keine Sicherheit, dass Präferenzen von einem Modell auf ein anderes übertragen werden können.

Lambert und sein Team unternahmen bei HuggingFace einen ähnlichen Versuch, scheiterten jedoch an einem kleinen kostenpflichtigen Datenvertrag.

Der einzige Aspekt, bei dem menschliche Daten derzeit verwendet werden, sind Präferenzdaten. Den von „Llama 2“ und anderen Gerüchten enthüllten Daten zufolge hat Meta möglicherweise 10 bis 20 Millionen US-Dollar oder sogar mehr für Präferenzdaten ausgegeben. Dies ist ebenfalls auf das endgültig veröffentlichte Modell beschränkt und umfasst keine umfassenderen Experimente und Bewertungen.

Nemotron verwendet eine große Menge synthetischer Daten, um menschliche Daten zu ersetzen, aber relativ gesehen ist die Feinabstimmung dieses Modells nicht so gut.

Für die offene Gemeinschaft besteht eine dringende Herausforderung, aber auch eine Chance: herauszufinden, wie groß der menschliche Eingriff in diese Art von Daten ist und ob er durch Methoden wie LLM-as-a-Judge oder Belohnungsmodelle ersetzt werden kann.

ExtendedRLHF

Thomas Scialom, Leiter der Ausrichtung bei Llama 3, sagte im Podcast Latent Space:

RLHF ist viel skalierbarer. Es ist kostengünstiger, einfacher zu bedienen und führt im Allgemeinen zu einer besseren Leistung.


Er sagte auch, dass er „100 % des Ausrichtungsdatenbudgets für die in der RL-Phase erforderlichen Ausrichtungsdaten verwenden würde, anstatt mehr Zeit für Anweisungen aufzuwenden.“

Die meisten Open-Source-Ausrichtungsbemühungen konzentrieren sich auf die erweiterte Befehlsfeinabstimmung (IFT oder SFT). IFT ist einfach zu bedienen, für eine Vielzahl von Aufgaben geeignet und mit synthetischen Daten einfach zu verwenden.

Es ist jedoch klar, dass die Branche IFT nur als Ausgangspunkt für den Ausbau von RLHF nutzt. SFT-Daten konzentrieren sich hauptsächlich auf bestimmte Bereiche, die frühere Modelle nicht abdecken konnten, und erweitern dann RLHF auf dieser Grundlage.

RLHF ist ein iterativer Prozess und der Modellgenerierungsprozess ermöglicht eine kontinuierliche Verbesserung. Das 5-Runden-Training wird in den Dokumenten zu Llama 2 und Nemotron detailliert beschrieben, wir wissen jedoch nicht, ob es eine Obergrenze für diese Zahl gibt.

Lama 3.1 wurde mit 6 Runden Präferenzdaten trainiert, Lama 2 wurde mit 5 Runden trainiert, Nemotron wurde mit 4 Runden trainiert und zuvor gab es mehrere Runden zur Feinabstimmung der Anweisungen.

Bei menschlichen Präferenzdaten können mehrere Iterationen in erster Linie auf Machbarkeitsüberlegungen beruhen:

1. Die Daten werden stapelweise vom Annotationsunternehmen an das Labor übertragen

2. Die Durchführung mehrerer kleiner Schulungsrunden kann das Risiko der Lieferung des Endprodukts verringern. Anstatt zu warten, bis alle Daten verfügbar sind, bevor Sie mit dem Training beginnen, lassen Sie das Modell nach und nach auf den richtigen Weg kommen

Solche praktischen Faktoren mögen unbedeutend erscheinen, lösen aber häufig bestimmte Branchennormen aus.

Das Bild unten stammt aus dem Llama 2-Papier, in dem Daten zu 5 Runden der Ablehnungsstichprobe und des PPO aufgezeichnet werden.


Nemotron führt auch die SFT-Trimmung an zwei Rädern und die Ausrichtung an vier Rädern durch. Unter diesen ist RPO ein mit dem DPO-Optimierer gewichtetes Belohnungsmodell.


Ähnliche iterative RLHF-Methoden lassen sich auf die von Anthropic vorgeschlagene „Constitutional Artificial Intelligence“ zurückführen, die Open-Source-Community scheint dieses Ergebnis jedoch nicht in großem Maßstab reproduziert zu haben.


Derzeit widmet sich die akademische Gemeinschaft dem „Online-DPO-Training“, das in eine ähnliche Richtung geht, den Daten zwischen den Runden jedoch nicht so viel Aufmerksamkeit schenkt. Dieser Ansatz erfordert derzeit noch viel manuelle Arbeit, aber sobald der Prozess automatisiert ist, wird Online-DPO die Zukunft sein.

Tatsächlich sollte die Auswahl der Algorithmen jedes Teams für die Phase nach dem Training nicht so streng sein. DPO und PPO haben jeweils ihre eigenen Vor- und Nachteile. Ersteres ist einfacher zu skalieren, aber PPO-inspirierte Methoden (wie Online-RL) haben eine höhere Leistungsobergrenze.

Diese Ansätze sind derzeit hauptsächlich durch Einfachheit motiviert, da diese Teams noch relativ neu sind und modulare Systeme aufbauen, und ein Mitglied des Llama 3-Post-Training-Teams bestätigte diesen Ansatz zur technischen Einfachheit.


Llama 3 verfügt über eine einfache Post-Training-Schleife: Ablehnungsstichprobe, SFT und DPO. Dies führt nicht nur zu einer optimalen Leistung auf empirischer Ebene, sondern ermöglicht auch die Reproduzierbarkeit. Darüber hinaus können Teams viele verschiedene Arbeitsabläufe (z. B. Codierung, Mathematik) asynchron erkunden und so Daten in derselben einfachen Schleife zusammenführen.
synthetische Daten

Ein wichtiger Teil dieses neuen RLHF-Zyklus sind synthetische Befehlsdaten, die bei den meisten Aufgaben die menschlichen Fähigkeiten übersteigen.

Wenn Sie das Modell ein wenig verbessern und bessere Anweisungen generieren können, dann „fangen Sie von vorne an“ und aktualisieren Sie die Prüfpunkte.

Meta gibt in dem Papier ausdrücklich an, dass sie „das 405B-Modell verwenden, um die Post-Training-Qualität unserer kleineren Modelle zu verbessern“; Google tut dies durch Destillieren von Gemini Flash, aber tatsächlich beinhalten die meisten hochmodernen Modelle wahrscheinlich einige ähnliche Schritte.

Ich habe gehört, dass OpenAI 50 Billionen Datentoken verwendet, um das Modell der nächsten Generation zu trainieren, wobei es sich bei den meisten davon um synthetische Daten handelt. Letztes Jahr gab es das Gerücht, dass Anthropic über ein „Constitution AI-Korpus im Pre-Training-Maßstab“ verfüge, was nun vernünftig erscheint.

Diese KI-Unternehmen erkannten die Bedeutung synthetischer Daten vor 12 bis 18 Monaten, als sie die Modellausgabe nicht mehr für das Selbstiterationstraining verwendeten. Aber Meta ist anders, weil es von anderen besseren offenen Modellen profitiert.

Ein Blick auf das heutige Post-Training macht deutlich, dass das Problem der Modellabstürze bei synthetischen Daten stark übertrieben ist. Ein Modellkollaps tritt nur auf, wenn die Originaldaten verworfen werden und nur die generierten neuen Daten in einer künstlich eingerichteten Umgebung verbleiben.

Datenqualität ist Trumpf

Ein Großteil des Llama 3.1-Berichts befasst sich mit den Details der Datenverwaltung, wobei jeder relevante Teilbereich umfassende und spezifische Verwaltungsanweisungen erfordert.

Dies steht im Einklang mit dem, was ich über das Post-Training-Team unter der Leitung von John Schulman bei OpenAI und anderen ähnlichen Teams weiß: Geben Sie eine bestimmte Domäne an, erhalten Sie relevante Daten, und das Modell wird besser.

Aber ohne umfassende Datenfilterung und -verwaltung funktioniert keine der oben genannten RLHF-Methoden.

Bei Allen AI haben wir damit begonnen, Daten im Post-Training-Prozess stärker zu priorisieren, und Sie können die Veränderung in der Geschwindigkeit der Modellverbesserung sofort spüren.

Fallstudie – Nemotron und Lama

Der Post-Training-Prozess für Lama ist wie folgt:


Dieses Bild von Nemotron ist relativ einfach:


Zusammengenommen können wir sehen, was die meisten Methoden gemeinsam haben.

Aber das Diagramm unten und die meisten Forschungsarbeiten der Branche ignorieren Daten.


Modelle wie Llama 3.1 haben im Bericht viele Details erwähnt, wie z. B. Regularisierung, Anpassung der Verlustfunktion, Modellmittelung usw., aber dies sind marginale Zuwächse bei der Modellleistung und liegen weitgehend außerhalb des Rahmens des Kern-Feinabstimmungszyklus . .

Ab einem bestimmten Zeitpunkt werden diese Details unbedeutend sein.

Referenzen:

https://www.interconnects.ai/p/frontier-model-post-training