Nachricht

Llama 8B sucht 100 Mal und übertrifft GPT-4o! Inferenzsuche kann die Leistung verbessern, neues „Skalierungsgesetz“

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Qiao Yang

[Einführung in die neue Weisheit]Aktuelle Arbeiten haben gezeigt, dass generative Modelle wie LLM mit der Suche skaliert werden können und sehr deutliche Leistungsverbesserungen erzielen. Ein weiteres Wiederholungsexperiment ergab außerdem, dass das Llama 3.1-Modell mit nur 8B-Parametern, wenn es 100 Mal durchsucht wird, in der Python-Codegenerierungsaufgabe das gleiche Niveau wie GPT-4o erreichen kann.

Rich Sutton, ein Pionier des Reinforcement Learning und Professor am CS-Department der University of Alberta in Kanada, schrieb 2019 einen Blogbeitrag mit dem Titel „The Bitter Lesson“, der zu einer der klassischen Diskussionen im Bereich KI wurde.

Tatsächlich ist Rich Suttons Intuition, die sich zwischen den Zeilen widerspiegelt, dem Scaling Law ziemlich ähnlich.


Ursprüngliche Adresse: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

Der Artikel gibt einen kurzen Überblick über den Entwicklungspfad der KI in den Bereichen Schach, Go, Spracherkennung und Vision und vertritt folgende Ansicht:


Eine der schwierigen Lektionen, die wir lernen sollten, besteht darin, die Kraft eines universellen Ansatzes zu erkennen. Dieser Ansatz kann weiter skaliert werden, wenn der Rechenaufwand aufgrund eines Anstiegs der verfügbaren Rechenleistung zunimmt. Die beiden Methoden, die sich auf diese Weise scheinbar willkürlich skalieren lassen, sind Suche und Lernen.

Diese Sichtweise ist jedoch nicht genau dasselbe wie das Skalierungsgesetz, und wir können sie nicht als Grundlage für die Annahme verwenden, dass kleine Modelle dazu bestimmt sind, irrelevant zu sein.

Wie Sutton beschreibt, gibt es auf dem Weg zur Skalierung zwei große Herausforderungen: Lernen und Suchen.

Das von OpenAI vorgeschlagene Skalierungsgesetz betont Ersteres. Ceteris paribus: Größere Modelle schneiden besser ab, da mehr Wissen und Muster aus dem Trainingssatz gelernt werden können.

Aber was wir oft übersehen, ist Letzteres. Suchmethoden können auch reibungslos skaliert werden, wenn die Rechenleistung während der Inferenzphase zunimmt, um mehr oder qualitativ hochwertigere Kandidatenantworten zu generieren.

Ein kürzlich von Wissenschaftlern aus Stanford, Oxford, DeepMind und anderen Institutionen veröffentlichter Artikel konzentrierte sich auf diesen Punkt.


Papieradresse: https://arxiv.org/abs/2407.21787

Mit der Erhöhung der Anzahl wiederholter Stichproben in der Inferenzphase steigt die Leistung (d. h. die Problemabdeckung) des Modells in den Bereichen Mathematik, Argumentation und Code wie GSM8K, MATH, MiniF2F-Math und SWE-bench Lite wurde deutlich verbessert.

Es scheint sogar eine exponentielle lineare Beziehung zwischen den beiden zu geben, die durch ein Exponentialpotenzgesetz modelliert werden kann, das die Existenz des Skalierungsgesetzes in der Argumentationsphase zu erklären scheint.


Inspiriert durch dieses Papier begannen die beiden Ingenieure zu versuchen, es zu reproduzieren – das Ergebnis war, dass sie durch die Suche mit 100 kleinen Llama-Modellen GPT-4o bei Python-Programmieraufgaben einholen oder sogar übertreffen konnten.


Die beiden Autoren verwendeten eine anschauliche Metapher: Früher brauchte man eine pferdegroße Ente, um Grenzfähigkeiten zu erreichen, aber jetzt können wir uns dafür entscheiden, 100 entengroße Pferde (oder genauer gesagt Alpakas-Lama) zu verwenden.

Der im Experiment verwendete Quellcode wurde auf GitHub hochgeladen und die Reproduktionskosten sind recht niedrig.


https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Um eine höhere Leistung zu erzielen, verwendete der Autor die vLLM-Bibliothek zur Implementierung der Batch-Inferenz und erweiterte die Hardwarebedingungen auf 10 A100-40GB-GPUs, wobei die Ausgabegeschwindigkeit 40.000 Token/s erreichte.

Bewertungsmetriken und -ergebnisse

Der Autor wählte einen Benchmark-Test, der im oben erwähnten Large Language Monkeys-Artikel nicht behandelt wird: HumanEval.

Der Vorteil dieses Datensatzes besteht darin, dass der generierte Code mithilfe laufender Tests bewertet werden kann, ohne dass ein LLM-as-Judge oder eine menschliche Bewertung erforderlich ist, was eine objektivere Messung der Korrektheit ermöglicht.

Die Leistung des Modells wird anhand von zwei Indikatoren gemessen: pass@k und fail@k. Den Berichtsergebnissen von PapersWithCode zufolge beträgt der pass@1-Score von GPT-4o bei Null-Stichproben-Inferenz 90,2 %.


https://paperswithcode.com/sota/code-generation-on-humaneval

Mit der im obigen Artikel vorgeschlagenen Methode und einem Mindestmaß an sofortiger Feinabstimmung (ohne Anpassung anderer Hyperparameter) wurde der pass@k-Score von Llama 3.1 8B erheblich verbessert.

Wenn die Anzahl der wiederholten Proben k 100 beträgt, entspricht die Leistung der von GPT-4o (90,5 % gegenüber 90,2 %); wenn k 1000 erreicht, beträgt die Punktzahl 95,1 %, was deutlich besser ist als bei GPT-4o.


Wenn Sie den fail@k-Indikator (entspricht 1-pass@k) verwenden und die beiden Koordinatenachsen in der obigen Abbildung logarithmisch transformieren, können Sie die in der folgenden Abbildung gezeigte Kurve sehen, die dem „Skalierungsgesetz“ perfekt zu entsprechen scheint ".


Es ist erwähnenswert, dass dieses kleine Experiment keine strikte Reproduktion des Papiers ist, sondern nur die Kernmethode extrahiert.

Diese Ergebnisse unterstreichen jedoch weiter, dass kleinere Modelle vorhersehbar „Big Mac“-Modelle wie GPT-4o übertreffen können, wenn Suchmethoden zur Erweiterung der Inferenzstufe verwendet werden.

Die Zukunft der Suche

Der Grund, warum die Suchmethode leistungsstark ist, besteht darin, dass sie mit zunehmendem Rechenaufwand „transparent“ erweitert werden kann und auch den Ressourcenverbrauch vom Speicher auf die Berechnung verlagern kann, um ein besseres Ressourcengleichgewicht zu erreichen.

Die jüngsten großen Errungenschaften der KI in der Mathematik, wie z. B. das Niveau der KI und die KI, sind untrennbar mit der darin verwendeten Suche verbunden.

Allerdings erfordert die Umsetzung der Suche zunächst eine qualitativ hochwertige Auswertung der Ergebnisse. Das Modell von DeepMind übersetzt in natürlicher Sprache ausgedrückte mathematische Probleme in formale Ausdrücke und erhält dabei eine detaillierte Betreuung durch einen Compiler/Verifizierer wie Lean.

, was den Grad der Parallelität und Automatisierung erheblich verbessern kann.

Laut der Curry-Howard-Lambek-Korrespondenz wäre es relativ einfach, Computerprogramme zu verwenden, um die Identifizierung und Bewertung mathematischer Beweise und Ergebnisse der Codegenerierung zu automatisieren.

Aber ähnliche Ansätze können in anderen Bereichen als Mathematik und Programmierung scheitern. Beispielsweise ist es bei offenen NLP-Aufgaben wie „E-Mails zusammenfassen“ schwierig, effektive Suchvorgänge durchzuführen.

Aus dieser Perspektive ist die Suche der Bewertung nachgeordnet. Wir können grob davon ausgehen, dass die Leistungsverbesserung generativer Modelle in bestimmten Bereichen direkt proportional zu den Auswertungs- und Suchfunktionen ist.

Um dieses Ziel zu erreichen, scheinen Agenten in wiederholbaren digitalen Umgebungen eine vielversprechende Richtung zu sein.

Referenzen:

https://modal.com/blog/llama-human-eval