Nachricht

Das iPhone kann 2B kleine Stahlkanonen betreiben!Google Gemma 2 kommt, das leistungsstärkste Mikroskop, das das Gehirn von LLM sezieren kann

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit] Das kleine Atombombenmodell von Google DeepMind hat GPT-3.5 und Mixtral 8x7B, die mehrere Größenordnungen größere Parameter hatten, direkt besiegt! Das gleichzeitig veröffentlichte Gemma Scope durchbricht die LLM-Blackbox wie ein Mikroskop und ermöglicht es uns, klar zu sehen, wie Gemma 2 Entscheidungen trifft.

Das kleine Modell von Google DeepMind ist wieder neu!

Gerade hat Google DeepMind Gemma 2 2B veröffentlicht.



Es wird aus Gemma 2 27B destilliert.

Obwohl seine Parameter nur 2,6B betragen, hat seine Punktzahl im LMSYS-Bereich GPT-3,5 und Mixtral 8x7B übertroffen!


In den MMLU- und MBPP-Benchmarks erzielte es hervorragende Ergebnisse von 56,1 bzw. 36,6; seine Leistung übertraf das Vorgängermodell Gemma 1 2B um mehr als 10 %.

Das kleine Modell besiegte das große Modell, das mehrere Größenordnungen größer war, und bestätigte damit einmal mehr die Richtung der kleinen Modelle, der die Branche in letzter Zeit sehr optimistisch gegenübersteht.


Heute hat Google insgesamt drei neue Mitglieder der Gemma-2-Familie angekündigt:

  • Gemma 2 2B:Das leichte 2B-Modell erreicht die beste Balance zwischen Leistung und Effizienz

  • SchildGemma:Ein sicheres Inhaltsklassifizierungsmodell, das auf Gemma 2 basiert, um die Eingabe und Ausgabe des KI-Modells zu filtern und so die Benutzersicherheit zu gewährleisten

  • Gemma-Umfang:Ein Interpretierbarkeitstool, das beispiellose Einblicke in das Innenleben Ihres Modells bietet

Im Juni wurden die Modelle 27B und 9B Gemma 2 geboren.

Seit seiner Veröffentlichung hat sich das 27B-Modell schnell zu einem der besten Open-Source-Modelle in den großen Modellrankings entwickelt und übertrifft in tatsächlichen Gesprächen sogar beliebte Modelle mit der doppelten Anzahl an Parametern.


Gemma 2 2B: sofort auf Ihrem Gerät verfügbar

Das leichte kleine Modell Gemma 2 2B ist eine Weiterentwicklung des großen Modells und steht in seiner Leistung in nichts nach.

Auf der großen Modellarena LMSYS erreichte das neue Modell eine beeindruckende Punktzahl von 1130, was mit Modellen mit 10-fachen Parametern vergleichbar ist.

GPT-3.5-Turbo-0613 erzielte 1117 und Mixtral-8x7b 1114.


Dies zeigt, dass Gemma 2 2B das beste End-to-Side-Modell ist.


Einige Internetnutzer ließen das quantisierte Gemma 2 2B auf MLX Swift auf dem iPhone 15 Pro laufen, und die Geschwindigkeit war erstaunlich hoch.



Konkret kann es mit Vertex AI und Google Kubernetes Engine (GKE) auf verschiedenen Endgeräten bereitgestellt werden, darunter Mobiltelefone, Laptops und sogar in der leistungsstarken Cloud.

Um das Modell zu beschleunigen, wird es durch NVIDIA TensorRT-LLM optimiert, das auch auf der NVIDIA NIM-Plattform verfügbar ist.


Das optimierte Modell funktioniert auf einer Vielzahl von Plattformbereitstellungen, einschließlich Rechenzentren, Clouds, lokalen Workstations, PCs und Edge-Geräten.

Es kann auch RTX-, RTX-GPU- und Jetson-Module unterstützen, um eine marginale KI-Bereitstellung durchzuführen.

Darüber hinaus integriert Gemma 2 2B nahtlos Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp usw. und wird bald in MediaPipe integriert, um die Entwicklung zu vereinfachen.


Natürlich kann das 2B-Modell wie Gemma 2 auch für Forschungs- und kommerzielle Zwecke eingesetzt werden.

Auch wenn das Parametervolumen niedrig genug ist, kann es auf der kostenlosen T4-GPU-Ebene von Google Colab ausgeführt werden, wodurch die Entwicklungsschwelle gesenkt wird.

Derzeit kann jeder Entwickler die Modellgewichte von Gemma 2 von Kaggle, Hugging Face und Vertex AI Model Garden herunterladen und seine Funktionen auch in Google AI Studio ausprobieren.


Lageradresse: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: der hochmoderne Sicherheitsklassifikator

Wie der Name schon sagt, ist ShieldGemma der fortschrittlichste Sicherheitsklassifizierer, der sicherstellt, dass KI-Ausgabeinhalte attraktiv, sicher und inklusiv sind, und schädliche Inhaltsausgaben erkennt und reduziert.

ShieldGemma wurde speziell für die Bekämpfung von vier wichtigen schädlichen Bereichen entwickelt:

- Hassrede

- Belästigungsinhalte

- Explizite Inhalte

- Gefährlicher Inhalt


Diese Open-Source-Klassifikatoren ergänzen die bestehende Suite von Sicherheitsklassifikatoren von Google im Responsible AI-Toolkit.

Das Toolkit umfasst eine Methode zum Erstellen richtlinienspezifischer Klassifikatoren auf der Grundlage begrenzter Datenpunkte sowie handelsübliche Google Cloud-Klassifikatoren, die über die API bereitgestellt werden.

ShieldGemma basiert auf Gemma 2, dem branchenführenden Sicherheitsklassifikator.

Es bietet verschiedene Modellparametergrößen, darunter 2B, 9B und 27B, die alle für NVIDIA-Geschwindigkeit optimiert sind und auf verschiedener Hardware effizient laufen können.

Unter diesen eignet sich 2B sehr gut für Online-Klassifizierungsaufgaben, während die Versionen 9B und 27B eine höhere Leistung für Offline-Anwendungen mit geringeren Latenzanforderungen bieten.


Gemma Scope: Offenlegung des KI-Entscheidungsprozesses durch Open-Source-Autoencoder mit geringer Dichte

Ein weiteres gleichzeitig veröffentlichtes Highlight ist der Open-Source-Sparse-Autoencoder Gemma Scope.

Was passiert im Sprachmodell? Dieses Problem gibt Forschern und Entwicklern schon seit langem Rätsel auf.

Das Innenleben von Sprachmodellen ist oft ein Rätsel, selbst für die Forscher, die sie trainieren.


Das Gemma Scope ist wie ein leistungsstarkes Mikroskop, das bestimmte Punkte im Modell durch Sparse Autoencoder (SAEs) vergrößert und so die Interpretation des Innenlebens des Modells erleichtert.

Mit Gemma Scope erhalten Forscher und Entwickler beispiellose Transparenz in den Entscheidungsprozess des Gemma-2-Modells.

Gemma Scope ist eine Sammlung Hunderter kostenloser und offener Sparse-Autoencoder (SAE) für Gemma 2 9B und Gemma 2 2B.

Bei diesen SAEs handelt es sich um speziell entwickelte neuronale Netze, die uns dabei helfen, die von Gemma 2 verarbeiteten dichten, komplexen Informationen zu interpretieren und sie in eine Form zu bringen, die leichter zu analysieren und zu verstehen ist.

Durch die Untersuchung dieser erweiterten Ansichten können Forscher wertvolle Informationen darüber gewinnen, wie Gemma 2 Muster erkennt, Informationen verarbeitet und Vorhersagen trifft.

Mit Gemma Scope kann die KI-Community einfacher KI-Systeme aufbauen, die verständlicher, verantwortungsvoller und zuverlässiger sind.

Gleichzeitig veröffentlichte Google DeepMind auch einen 20-seitigen technischen Bericht.


Technischer Bericht: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

Zusammenfassend verfügt Gemma Scope über die folgenden drei Innovationen:

  • Open-Source-SAEs: Über 400 frei verfügbare SAEs, die alle Ebenen von Gemma 2 2B und 9B abdecken

  • Interaktive Demo: Entdecken Sie SAE-Funktionen und analysieren Sie das Modellverhalten auf Neuronpedia, ohne Code schreiben zu müssen

  • Benutzerfreundliche Ressourcenbibliothek: Bietet Code und Beispiele für die Interaktion mit SAEs und Gemma 2

Interpretieren Sie das Innenleben von Sprachmodellen

Warum ist das Interpretierbarkeitsproblem von Sprachmodellen so schwierig?

Dies beginnt mit dem Funktionsprinzip von LLM.

Wenn Sie LLM eine Frage stellen, wandelt es Ihre Texteingabe in eine Reihe von „Aktivierungen“ um. Diese Aktivierungen bilden die Beziehungen zwischen den von Ihnen eingegebenen Wörtern ab und helfen dem Modell, Verbindungen zwischen verschiedenen Wörtern herzustellen und entsprechende Antworten zu generieren.

Während das Modell Texteingaben verarbeitet, stellen die Aktivierungen verschiedener Schichten im neuronalen Netzwerk des Modells mehrere zunehmend übergeordnete Konzepte dar, die als „Merkmale“ bezeichnet werden.


Beispielsweise könnten frühe Schichten des Modells Fakten wie das Basketballspielen von Jordan lernen, während spätere Schichten komplexere Konzepte identifizieren könnten, etwa die Authentizität eines Textes.


Beispiel für die Interpretation von Modellaktivierungen mithilfe von Sparse-Autoencodern – wie das Modell an die Tatsache erinnert, dass „die Stadt des Lichts Paris ist“.Es ist ersichtlich, dass es Konzepte gibt, die mit dem Französischen in Zusammenhang stehen, nicht jedoch verwandte Konzepte

Allerdings stehen Interpretierbarkeitsforscher vor einem zentralen Problem: Die Modellaktivierung ist eine Mischung aus vielen verschiedenen Merkmalen.

In den frühen Stadien der Forschung hofften die Forscher, dass Merkmale bei der Aktivierung neuronaler Netzwerke auf einzelne Neuronen oder Informationsknoten ausgerichtet werden könnten.

Aber leider sind Neuronen in der Praxis für viele irrelevante Funktionen aktiv.

Das bedeutet, dass es keine eindeutige Möglichkeit gibt, zu erkennen, welche Funktionen Teil der Aktivierung sind.

Und genau hier kommen Sparse-Autoencoder ins Spiel.

Beachten Sie, dass es sich bei einer bestimmten Aktivierung nur um eine Mischung einiger weniger Features handelt, obwohl ein Sprachmodell möglicherweise Millionen oder sogar Milliarden von Features erkennen kann (d. h. das Modell verwendet Features spärlich).

Beispielsweise könnte ein Sprachmodell bei der Beantwortung einer Frage über Einstein an Relativität denken, beim Schreiben über ein Omelett jedoch möglicherweise nicht an Relativität.


Sparse-Autoencoder nutzen diese Tatsache aus, um eine Reihe latenter Merkmale zu entdecken und jede Aktivierung in eine Handvoll Merkmale zu zerlegen.

Forscher hoffen, dass Sparse-Autoencoder diese Aufgabe am besten dadurch bewältigen können, dass sie die wesentlichen Funktionen finden, die Sprachmodelle tatsächlich nutzen.

Wichtig ist, dass die Forscher dem Sparse-Autoencoder während dieses Prozesses nicht mitteilten, nach welchen Funktionen er suchen soll.

Dadurch konnten sie reiche Strukturen entdecken, die zuvor nicht erwartet worden waren.


Da sie jedoch nicht sofort die genaue Bedeutung dieser entdeckten Features kennen, suchen sie in den Textbeispielen nach sinnvollen Mustern, die der Sparse-Autoencoder als „auslösend“ für die Features ansieht.


Hier ist ein Beispiel, bei dem durch eine Funktion ausgelöste Token mit einem blauen Farbverlauf hervorgehoben werden, der auf der Stärke des Funktionsauslösers basiert:


Beispiel für die Erkennung von Funktionsaktivierungen mit Sparse-Autoencodern. Jede Blase stellt ein Token (Wort oder Wortfragment) dar und die variable blaue Farbe veranschaulicht die Stärke dieser Funktion.In diesem Fall hängt das Merkmal eindeutig mit der Redewendung zusammen

Was ist das Besondere an Gemma Scope?

Im Vergleich zu früheren Sparse-Autoencodern verfügt Gemma Scope über viele einzigartige Funktionen.

Ersteres konzentriert sich hauptsächlich auf die Untersuchung des Innenlebens kleiner Modelle oder einzelner Schichten großer Modelle.


Wenn Sie jedoch tiefer in die Interpretierbarkeitsforschung einsteigen möchten, müssen Sie die geschichteten komplexen Algorithmen in großen Modellen dekodieren.

Diesmal haben Forscher von Google DeepMind spärliche Autoencoder auf die Ausgabe jeder Schicht und Unterschicht von Gemma 2 2B und 9B trainiert.

Das auf diese Weise konstruierte Gemma Scope generierte insgesamt mehr als 400 spärliche Autoencoder und erhielt mehr als 30 Millionen Features (obwohl sich viele Features überschneiden können).

Dadurch können Forscher untersuchen, wie sich Merkmale im gesamten Modell entwickeln und wie sie interagieren und sich zu komplexeren Merkmalen kombinieren.

Darüber hinaus wird Gemma Scope mit der neuesten und fortschrittlichsten JumpReLU SAE-Architektur trainiert.

Die ursprüngliche Autoencoder-Architektur mit geringer Dichte weist häufig ein schwieriges Gleichgewicht zwischen den beiden Zielen der Erkennung des Vorhandenseins von Merkmalen und der Schätzung der Intensität auf. Die JumpReLU-Architektur kann leichter ein Gleichgewicht zwischen beiden erreichen und Fehler deutlich reduzieren.


Natürlich ist das Training so vieler Autoencoder mit geringer Dichte auch eine große technische Herausforderung und erfordert viele Rechenressourcen.

In diesem Prozess nutzten die Forscher etwa 15 % der Gemma 2 9B-Trainingsberechnungen (ohne die Berechnungen, die zum Generieren destillierter Etiketten erforderlich sind) und speicherten etwa 20 PiB an Aktivierungen auf der Festplatte (entspricht in etwa einer Million Kopien des Inhalts der englischen Wiki-Enzyklopädie). , wodurch insgesamt Hunderte Milliarden spärlicher Autoencoder-Parameter generiert werden.

Verweise:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/