Nachricht

LLM-Ausrichtungsdaten werden vollautomatisch synthetisiert! Chinesischer UW-Doktorand schlägt Magpie-Methode vor, MacBook Air kann sie ausführen

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Qiao Yang

[Einführung in die neue Weisheit] Eine aktuelle Arbeit der University of Washington und Allen AI schlägt einen neuartigen und interessanten Ansatz zur Datensynthese vor. Sie fanden heraus, dass die vollständige Nutzung der autoregressiven Eigenschaften von LLM dazu führen kann, dass das Modell automatisch hochwertige Daten zur Befehlsfeinabstimmung generiert.

Daten sind für das LLM-Training von entscheidender Bedeutung, aber unser Fokus liegt oft auf Trainings- und Bewertungsdaten, während Feinabstimmungsdaten ignoriert werden.

Obwohl die Modelle der Llama-Serie beispielsweise offene Gewichte haben (z. B. Llama-3-Instruct), ist der Feinabstimmungsdatensatz immer noch privat.

Ein großer Teil des Erfolgs von LLM hängt von der Feinabstimmung der Anweisungen ab, einem Prozess, der es dem Modell ermöglicht, sich besser auf Aufgaben zu verallgemeinern, denen es während des Trainings nicht ausgesetzt war.

So wie die Wirksamkeit des Trainings von der Qualität des Trainingskorpus abhängt, hängt die Wirksamkeit der Feinabstimmung des Unterrichts auch von der Verfügbarkeit hochwertiger Unterrichtsdatensätze ab.

Allerdings sind hochwertige Feinabstimmungs- und Ausrichtungsdatensätze im Vergleich zu unbeschrifteten, selbstüberwachten Trainingskorpus schwieriger zu erstellen und zu erweitern, da mehr manuelle Anmerkungen erforderlich sind und es vordefinierte Hinweisbereiche gibt.

Selbst Unternehmen, die sich auf die Bereitstellung von Daten für KI-Technologiegiganten spezialisiert haben, sind derzeit nicht in der Lage, eine automatisierte Annotation zu erreichen, und müssen sogar hochbezahlte Fachkräfte einstellen, die an der Feinabstimmung und Erstellung abgestimmter Datensätze beteiligt sind.

Alexandr Wang, CEO von Scale AI, sagte einmal:

Ein kürzlich von der University of Washington und der Forschungseinrichtung Allen AI gemeinsam veröffentlichter Artikel konzentriert sich auf die Synthese hochwertiger Feinabstimmungsdaten mit abgestimmtem LLM.


Papieradresse: https://arxiv.org/abs/2406.08464

Die in der Arbeit vorgeschlagene Methode realisiert die Automatisierung des gesamten Prozesses und erfordert keine Saatprobleme. Noch erstaunlicher ist, dass der Code nicht nur lokal ausgeführt werden kann, sondern mithilfe von LLM automatisch sehr zuverlässige und qualitativ hochwertige Daten generiert.

Nachdem sie das Basismodell von Llama-3-8B zur Feinabstimmung des von ihnen generierten SFT-Datensatzes verwendet hatten, erhielten sie ein Modell mit stärkerer Leistung als die offizielle feinabgestimmte Version Llama-3-Instruct.


Das Papier wurde von Sebastian Raschka, einer großen Persönlichkeit im KI-Kreis, weitergeleitet und unterstützt.


Zuerst glaubte er nicht, dass diese Methode wirklich lokal auf dem MacBook Air laufen könnte, aber nachdem er es selbst ausprobiert hatte, war er angenehm überrascht, dass sie es tatsächlich konnte.


Raschka ist Autor mehrerer technischer Bestseller, darunter „Building Large Language Models from Scratch“, „Python Machine Learning“ usw. Derzeit ist er als Forschungsingenieur bei Lightning AI tätig.



Der Erstautor des Artikels, Zhangchen Xu, ist Doktorand im zweiten Jahr am Network Security Laboratory der University of Washington und studiert bei Professor Radha Poovendran Der Schwerpunkt liegt auf dem Aufbau eines vertrauenswürdigen LLM.


Schauen wir uns also genauer an, wie diese effiziente Datensynthesemethode implementiert wird.

Methodenübersicht

Eine typische LLM-Eingabe besteht im Allgemeinen aus drei Teilen:

- Vorabfragevorlage

- Inhalt abfragen (Query)

- Post-Query-Vorlage

Zwei der Vorlagen werden im Allgemeinen vom Modellentwickler vordefiniert, um sicherzustellen, dass das Modell korrekt aufgefordert wird.

Das Eingabeformular von Llama-2-chat lautet beispielsweise:

[INST] Hallo! [/INST]

In früheren Studien gibt es normalerweise zwei Methoden zur Erstellung von Feinabstimmungsdatensätzen. Eine davon besteht darin, es direkt von Menschen manuell herstellen zu lassen, was offensichtlich Zeit und Ressourcen kostet. Die zweite besteht darin, mit einer kleinen Anzahl manuell kommentierter Seed-Anweisungen zu beginnen und LLM über Eingabeaufforderungen aufzurufen, um weitere Anweisungen zu synthetisieren.

Obwohl die zweite Methode Arbeitskräfte spart, stellt sie den Grad der schnellen Entwicklung und Auswahl der anfänglichen Saatgutprobleme stark auf die Probe. Mit anderen Worten: Es ist schwierig, eine kontrollierbare großflächige Expansion zu erreichen.

Ein schwerwiegenderes Problem besteht darin, dass die synthetisierten Anweisungen häufig sehr nahe an den Startanweisungen liegen, was die Vielfalt großer Datensätze erheblich beeinträchtigt. Die skalierbare Erstellung hochwertiger und vielfältiger Befehlsdatensätze bleibt im LLM-Bereich ein herausforderndes Problem.

In frühen Experimenten machte der Autor jedoch eine interessante Entdeckung: Aufgrund der autoregressiven Eigenschaften von LLM synthetisiert das Modell die Abfrage automatisch, wenn nur die Vorabfragevorlage eingegeben wird, und aus inhaltlicher Sicht scheint dies auch der Fall zu sein gute Qualität und Vielfalt. Dies zeigt, dass die während des Ausrichtungsprozesses erlernten Fähigkeiten effektiv genutzt werden können.

Davon inspiriert schlug der Autor die folgende Idee zum Erstellen eines Befehlsdatensatzes vor: Verwenden Sie die Vorlage vor der Abfrage als Eingabeaufforderung, geben Sie sie in das ausgerichtete LLM ein und generieren Sie automatisch Befehlsdaten.

Wie in der folgenden Abbildung dargestellt, enthält jede Anweisungsdateninstanz ein oder mehrere Anweisungs-Antwort-Paare und die Rollen des Anweisungsanbieters und -folgers sind angegeben.


Abbildung 1 beschreibt die automatisch generierte Pipeline für die gesamten Daten, die grob in zwei Schritte unterteilt ist.

Die erste ist die Befehlsgenerierung. Die MAGPIE-Methode erstellt den Abfrageinhalt im Format der vordefinierten LLM-Anweisungsvorlage, umfasst jedoch nur den Anweisungsanbieter (z. B. Benutzer) und nicht den spezifischen Anweisungsinhalt.

Wenn das Modell dies als LLM-Eingabe verwendet, generiert es Anweisungen auf autoregressive Weise. Dieser Prozess stellt die Vielfalt der generierten Anweisungen sicher, da keine spezifischen Kenntnisse im Hint-Engineering erforderlich sind und keine Seeding-Fragen verwendet werden.

Im zweiten Schritt gibt MAGPIE die zuvor generierten Anweisungen in LLM ein, um den Antwortinhalt zu erhalten.

Durch wiederholtes Durchlaufen der beiden oben genannten Schritte können mehrere Runden von Befehlsdaten erhalten werden. Wenn Sie Daten für ein bestimmtes Feld generieren möchten, können Sie dies tun, indem Sie entsprechende Eingabeaufforderungen hinzufügen.


Nachdem der Autor die ursprünglichen Generierungsergebnisse erhalten hatte, filterte er sie auch nach Textlänge, Aufgabenkategorie, Eingabequalität, Eingabeschwierigkeit und anderen Indikatoren.


Das Papier verwendet zwei Modelle, Llama-3-8B-Instruct bzw. Llama-3-70B-Instruct, um zwei Datensätze MAGPIE-Air und MAGPIE-Pro zu erstellen, und enthält Beispiele für generierte Anweisungen im Anhang:


Wie Sie sehen, ist die Textqualität tatsächlich gut und völlig vergleichbar mit Anweisungen, die von Menschen geschrieben wurden.

Um die Qualität solch umfangreicher Daten zu bewerten, können wir uns jedoch nicht ausschließlich auf subjektive Gefühle verlassen. Daher führte der Autor eine quantitative Analyse des generierten Befehlsdatensatzes MAGPIE-Pro durch.

Datensatzanalyse

Abdeckung

Um die Vielfalt von Anleitungstexten zu berücksichtigen, ist die Abdeckung von Texteinbettungen im semantischen Raum eine wirksame Metrik.

Der Autor hat den Anweisungstext von MAGPIE-Pro zufällig ausgewählt, ihn in Einbettungsvektoren codiert und ihn mithilfe der t-SNE-Methode in einen zweidimensionalen Raum projiziert. Zum Vergleich wurden drei Basisdatensätze verwendet, darunter Alpaca, Evol Instruct und UltraChat.

Jeder t-SNE-Projektionspunkt in der Abbildung unten repräsentiert 10.000 zufällig ausgewählte Anweisungen. Es ist ersichtlich, dass die Projektion von MAGPIE-Pro im Wesentlichen den Umfang der anderen drei Datensätze abdeckt, was zeigt, dass es sich um ein breiteres und vielfältigeres Thema handelt.


Befehlsattribute

Der Artikel verwendet das Llama-3-8B-Instruct-Modell, um verschiedene Attribute von MAGPIE-Anweisungsdaten zu bewerten, wie z. B. die Aufgabenkategorie, Qualität, Schwierigkeit, Ähnlichkeit und Antwortqualität der Anweisung.

Die Aufgabenkategorien für die Generierung von Anweisungen umfassen hauptsächlich das Abrufen von Informationen, die mehr als die Hälfte ausmachen, und umfassen auch kreatives Schreiben, Rat suchen, Planung, Mathematik, Argumentation, Brainstorming und Bearbeitung usw., die im Wesentlichen den Mainstream-Bedürfnissen menschlicher Benutzer entsprechen .


Auch die Qualität und Schwierigkeit von Anweisungen werden mithilfe des Llama-3-8B-Instruct-Modells automatisch bewertet.

Es ist ersichtlich, dass in beiden Datensätzen die meisten Fälle als durchschnittlich und darüber beurteilt werden und die Gesamtqualität von MAGPIE-Pro besser ist als die von MAGPIE-Air.

Die Verteilung der Anweisungsschwierigkeit des Datensatzes ist im Wesentlichen ähnlich, wobei sich mehr als 60 % auf das „einfache“ Niveau konzentrieren, und der Pro-Datensatz ist etwas anspruchsvoller als Air.


Durch die Berechnung der Unterrichtsähnlichkeit kann der Grad der Diversifizierung unter einem anderen Aspekt beurteilt werden. Der Artikel verwendet FAISS, um nach den nächsten Nachbarn jeder Texteinbettung zu suchen und den Abstand zwischen ihnen zu berechnen, um den Grad der Ähnlichkeit zu messen.

In Bezug auf die Antwortqualität wird FsfairX-LLaMA3-RM-v0.1 als Belohnungsbewertungsmodell und URIAL als Basismodell zum Vergleich verwendet. Eine positive Belohnungsdifferenz weist auf eine höhere Qualität hin, was sich positiv auf den Feinabstimmungsprozess der Anweisungen auswirkt.

Wie in Abbildung 5b zu sehen ist, ist die Datenverteilung von MAGPIE insgesamt nach rechts verschoben und weist einen niedrigeren Spitzenwert als das Basismodell auf, was darauf hinweist, dass die Antwortqualität insgesamt besser ist.


Sicherheit

Darüber hinaus verwendete der Autor im Hinblick auf die Befehlssicherheit Llama-Guard-2 zur automatischen Auswertung und stellte fest, dass der größte Teil des MAGPIE-Datensatzes sicher ist, aber immer noch weniger als 1 % schädlicher Befehle oder Antwortergebnisse enthält.


Ergebnisbewertung

Eines der größten Highlights dieser Forschung sind die effizienten Betriebskosten und die vollständig automatisierte Pipeline ohne manuelle Eingriffe.

Bei der Erstellung des 3M MAGPIE-Air-Datensatzes wurden vier A100-GPUs verwendet, um die Befehls-/Antwortgenerierung in 1,55 Stunden bzw. 50 Stunden abzuschließen. Die Generierung des 1M MAGPIE-Pro-Datensatzes dauert 3,5 Stunden bzw. 150 Stunden.

Bei der Ausführung auf einem Cloud-Server sind die Kosten ebenfalls sehr hoch. Je nach Air- oder Pro-Datensatz kostet es 0,12 oder 1,10 US-Dollar pro 1.000 generierten Instanzen.

Um die Vorteile der MAGPIE-Methode wirklich darzustellen, wendet das Papier den Datensatz tatsächlich auf die Feinabstimmung des Basismodells an und vergleicht ihn mit der offiziell veröffentlichten Feinabstimmungsversion.

Der Autor wählte die sechs fortschrittlichsten Open-Source-Datensätze zur Feinabstimmung von Anweisungen wie ShareGPT und Evol Instruct als Basislinien aus. Unter diesen werden ShareGPT und WildChat von Menschen geschrieben, während Evol Instruct und UltraChat synthetische Datensätze sind.

Zu den fein abgestimmten Basismodellen gehören Llama-3 und Qwen-1.5, und zwei weit verbreitete Indikatoren, AlpacaEval und Arena-Hard, werden zur Leistungsbewertung ausgewählt.

Aus dem detaillierten Datenvergleich zwischen den beiden Tabellen kann festgestellt werden, dass der von der MAGPIE-Methode generierte Datensatz unabhängig vom verwendeten Basismodell eine höhere Qualität aufweist, besser ist als alle Basisdatensätze und besser als die offiziellen Daten In den meisten Indikatoren eingestellt. Fein abgestimmtes Modell veröffentlicht.



Während das Skalierungsgesetz des LLM allmählich die Datenwand berührt, öffnet die Methode dieser Arbeit eine weitere Tür der Hoffnung für synthetische Daten. Mithilfe sorgfältig entwickelter Algorithmen und Techniken können synthetische LLM-Daten möglicherweise nach und nach zur „Hauptstütze“ öffentlicher Datensätze werden.

Verweise:

https://arxiv.org/abs/2406.08464