Nachricht

Hochbewerteter Beitrag von COLM, der ersten großen Modellkonferenz: Der Präferenzsuchalgorithmus macht die Bewertung großer Modelle effizienter

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Die Autoren des Artikels stammen alle vom Language Technology Laboratory der University of Cambridge. Einer ist ein Doktorand im dritten Jahr, Liu Yinhong, und seine Betreuer sind die Professoren Nigel Collier und Ehsan Shareghi. Seine Forschungsinteressen sind große Modell- und Textauswertung, Datengenerierung usw. Zhou Han, ein Doktorand im zweiten Jahr in Tongyi, wird von den Professoren Anna Korhonen und Ivan Vulić betreut. Sein Forschungsinteresse gilt effizienten großen Modellen.

Große Modelle weisen hervorragende Fähigkeiten zur Befehlsverfolgung und Aufgabenverallgemeinerung auf. Diese einzigartige Fähigkeit beruht auf der Verwendung von Befehlsverfolgungsdaten und Verstärkungslernen mit menschlichem Feedback (RLHF) im Training. Im RLHF-Trainingsparadigma ist das Belohnungsmodell auf der Grundlage von Ranking-Vergleichsdaten an menschlichen Präferenzen ausgerichtet. Dies verbessert die Ausrichtung von LLMs auf menschliche Werte und führt dadurch zu Reaktionen, die den Menschen besser helfen und sich an menschliche Werte halten.

Kürzlich hat die erste große Modellkonferenz COLM gerade die Akzeptanzergebnisse bekannt gegeben. Eine der hoch bewerteten Arbeiten analysierte das Score-Bias-Problem, das bei der Verwendung von LLM als Textbewerter schwer zu vermeiden und zu korrigieren ist, und schlug vor, das Bewertungsproblem umzuwandeln Daher wurde der PairS-Algorithmus entwickelt, ein Algorithmus, der nach paarweisen Präferenzen suchen und sortieren kann. Durch die Nutzung der Annahmen der Unsicherheit und der LLM-Transitivität kann PairS effiziente und genaue Präferenzrankings erstellen und bei mehreren Testsätzen eine höhere Konsistenz mit der menschlichen Beurteilung zeigen.



Link zum Papier: https://arxiv.org/abs/2403.16950

Hauptthema: Ausrichtung am menschlichen Urteilsvermögen: Die Rolle der paarweisen Präferenz bei der Bewertung großer Sprachmodelle

Github-Adresse: https://github.com/cambridgeltl/PairS

Welche Probleme gibt es bei der Verwendung großer Modelle zur Bewertung?

Zahlreiche neuere Arbeiten haben die hervorragende Leistung von LLMs bei der Bewertung der Textqualität gezeigt und ein neues Paradigma für die referenzfreie Bewertung generativer Aufgaben geschaffen, wodurch teure menschliche Annotationskosten vermieden werden. Allerdings reagieren LLM-Evaluatoren sehr empfindlich auf das Prompt-Design und können sogar von mehreren Voreingenommenheiten betroffen sein, einschließlich Positions-Voreingenommenheit, Ausführlichkeits-Voreingenommenheit und Kontext-Voreingenommenheit. Diese Vorurteile verhindern, dass LLM-Gutachter fair und vertrauenswürdig sind, was zu Inkonsistenzen und Abweichungen vom menschlichen Urteilsvermögen führt.



Um verzerrte Vorhersagen von LLMs zu reduzieren, wurden in früheren Arbeiten Kalibrierungstechniken entwickelt, um Verzerrungen bei LLM-Vorhersagen zu reduzieren. Wir führen zunächst eine systematische Analyse der Wirksamkeit von Kalibrierungstechniken bei der Ausrichtung punktueller LLM-Schätzer durch. Wie in Abbildung 2 oben dargestellt, können bestehende Kalibrierungsmethoden den LLM-Schätzer immer noch nicht gut ausrichten, selbst wenn Überwachungsdaten bereitgestellt werden.

Wie in Gleichung 1 gezeigt, glauben wir, dass der Hauptgrund für die Fehlausrichtung der Bewertung nicht die voreingenommene Priorisierung der Bewertungspunktverteilung von LLM ist, sondern die Fehlausrichtung des Bewertungsstandards, d. h. die Ähnlichkeit der LLM-Bewerter. Wir glauben, dass LLM-Evaluatoren konsistentere Bewertungskriterien als Menschen haben werden, wenn sie paarweise Bewertungen durchführen. Daher erforschen wir ein neues LLM-Bewertungsparadigma, um besser abgestimmte Urteile zu fördern.



Inspiriert von RLHF

Wie in Abbildung 1 unten dargestellt, glauben wir, dass der LLM-Evaluator durch die Generierung von Präferenzrankings Vorhersagen erhalten kann, die besser auf den Menschen abgestimmt sind. Inspiriert durch die Ausrichtung von Belohnungsmodellen anhand von Präferenzdaten in RLHF. Vor Kurzem wurde damit begonnen, Präferenzrankings zu erhalten, indem man LLM paarweise Vergleiche durchführen ließ. Die Bewertung der Komplexität und Skalierbarkeit von Präferenzrankings wurde jedoch weitgehend übersehen. Sie ignorieren die Transitivitätsannahme, was die Komplexität der Anzahl der Vergleiche auf O (N^2) erhöht und den Bewertungsprozess teuer und undurchführbar macht.

PairS: Effizienter Präferenzsuchalgorithmus

In dieser Arbeit schlagen wir zwei paarweise Präferenzsuchalgorithmen vor (PairS-greedy und PairS-beam). PairS-greedy ist ein Algorithmus, der auf der Annahme einer vollständigen Transitivität und einer Zusammenführungssortierung basiert und eine globale Präferenzsortierung mit nur einer Komplexität von O (NlogN) erhalten kann. Die Transitivitätsannahme bedeutet, dass LLM beispielsweise für drei Kandidaten immer gilt, wenn A≻B und B≻C, dann A≻C. Unter dieser Annahme können wir traditionelle Ranking-Algorithmen direkt verwenden, um Präferenzrankings aus paarweisen Präferenzen zu erhalten.

Da LLM jedoch keine perfekte Transitivität aufweist, haben wir den PairS-Beam-Algorithmus entwickelt. Unter der lockereren Transitivitätsannahme leiten und vereinfachen wir die Wahrscheinlichkeitsfunktion für das Präferenzranking. PairS-Beam ist eine Suchmethode, die eine Strahlsuche basierend auf dem Wahrscheinlichkeitswert in jeder Zusammenführungsoperation des Zusammenführungssortierungsalgorithmus durchführt und den paarweisen Vergleichsraum durch die Unsicherheit der Präferenzen reduziert. PairS-beam kann die Kontrastkomplexität und die Rankingqualität anpassen und effizient die Maximum-Likelihood-Schätzung (MLE) des Präferenzrankings bereitstellen. In Abbildung 3 unten zeigen wir ein Beispiel dafür, wie PairS-beam einen Zusammenführungsvorgang durchführt.



Experimentelle Ergebnisse

Wir haben mehrere repräsentative Datensätze getestet, darunter die geschlossenen Abkürzungsaufgaben NewsRoom und SummEval sowie die offene Story-Generierungsaufgabe HANNA, und mehrere Basismethoden der LLM-Einzelpunktbewertung verglichen, darunter None Supervised Direct Scoring, G-Eval und GPTScore und betreute geschultes UniEval und BARTScore. Wie in Tabelle 1 unten gezeigt, weist PairS bei jeder Aufgabe eine höhere Übereinstimmung mit menschlichen Bewertungen auf als sie. GPT-4-Turbo kann sogar SOTA-Effekte erzielen.

In dem Artikel vergleichen wir auch zwei Basismethoden für das Präferenzranking, die Gewinnrate und die ELO-Bewertung. PairS kann mit nur etwa 30 % der Anzahl der Vergleiche ihr Präferenzranking gleicher Qualität erreichen. Das Papier bietet außerdem weitere Einblicke, wie paarweise Präferenzen zur quantitativen Berechnung der Transitivität von LLM-Schätzern verwendet werden können und wie paarweise Schätzer von der Kalibrierung profitieren können.

Weitere Forschungsdetails finden Sie im Originalpapier.