ニュース

iPhone は 2B 小型鋼鉄砲を実行できます!Google Gemma 2 が登場、LLM の脳を解剖できる最強の顕微鏡

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】 Google DeepMind の小型核爆弾 Gemma 2 2B が、数桁大きいパラメータを持つ GPT-3.5 と Mixtral 8x7B を直接打ち負かしました。同時にリリースされた Gemma Scope は、LLM のブラックボックスを顕微鏡のように突破し、Gemma 2 がどのように意思決定を行っているかをはっきりと見ることができます。

Google DeepMind の小型モデルがまた新しくなりました。

たった今、Google DeepMind が Gemma 2 2B をリリースしました。



ジェンマ 2 27B から蒸留されます。

パラメータはわずか 2.6B ですが、LMSYS アリーナでのスコアは GPT-3.5 と Mixtral 8x7B を上回っています。


MMLU および MBPP ベンチマークでは、それぞれ 56.1 および 36.6 という優れた結果を達成し、そのパフォーマンスは前モデルの Gemma 1 2B を 10% 以上上回りました。

小型モデルは数桁大きい大型モデルを破り、最近業界が非常に楽観的である小型モデルの方向性を改めて裏付けた。


本日、Google は、Gemma 2 ファミリーの合計 3 つの新しいメンバーを発表しました。

  • ジェマ2 2B:パフォーマンスと効率の最高のバランスを実現する軽量 2B モデル

  • シールドジェマ:Gemma 2 に基づいて構築された安全なコンテンツ分類子モデルは、AI モデルの入力と出力をフィルタリングしてユーザーの安全を確保します

  • ジェマスコープ:モデルの内部動作について比類のない洞察を提供する解釈ツール

6月には27Bと9BのGemma 2モデルが誕生した。

27B モデルはリリース以来、すぐに大規模モデル ランキングのトップ オープン ソース モデルの 1 つとなり、実際の会話では 2 倍のパラメータ数を持つ人気モデルをも上回りました。


Gemma 2 2B: デバイスですぐに利用可能

Gemma 2 2Bは大型モデルを引き継いだ軽量小型モデルで、性能も遜色ありません。

大型モデル アリーナ LMSYS では、新しいモデルは 1130 という素晴らしいスコアを達成しました。これは、10 倍のパラメータを持つモデルと同等です。

GPT-3.5-Turbo-0613 のスコアは 1117、Mixtral-8x7b のスコアは 1114 でした。


これは、Gemma 2 2B が最良のエンドツーサイド モデルであることを示しています。


一部のネチズンは量子化された Gemma 2 2B を iPhone 15 Pro の MLX Swift で実行させましたが、その速度は驚くほど速かったです。



具体的には、携帯電話、ラップトップ、さらには Vertex AI と Google Kubernetes Engine (GKE) を使用した強力なクラウドを含むさまざまな端末デバイスにデプロイできます。

モデルを高速化するために、NVIDIA NIM プラットフォームでも利用できる NVIDIA TensorRT-LLM を通じて最適化されています。


最適化されたモデルは、データセンター、クラウド、オンプレミスのワークステーション、PC、エッジ デバイスなど、さまざまなプラットフォーム展開で機能します。

また、RTX、RTX GPU、Jetson モジュールをサポートして、最小限の AI 導入を完了することもできます。

さらに、Gemma 2 2B は Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp などをシームレスに統合しており、開発を簡素化するために間もなく MediaPipe と統合される予定です。


もちろん、Gemma 2と同様に、2Bモデルも研究用や商用利用が可能です。

さらに、パラメーターの量が十分に少ないため、Google Colab の無料の T4 GPU レイヤーで実行でき、開発の敷居が低くなります。

現在、すべての開発者は Kaggle、Hugging Face、Vertex AI Model Garden から Gemma 2 のモデル重みをダウンロードでき、Google AI Studio でその機能を試すこともできます。


倉庫のアドレス: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: 最先端のセキュリティ分類子

その名前が示すように、ShieldGemma は最先端のセキュリティ分類器であり、AI 出力コンテンツが魅力的、安全、包括的であることを保証し、有害なコンテンツ出力を検出して削減します。

ShieldGemma は、次の 4 つの主要な有害領域を特にターゲットにするように設計されています。

- ヘイトスピーチ

- ハラスメントコンテンツ

- 露骨なコンテンツ

- 危険な内容


これらのオープンソース分類器は、Responsible AI ツールキットに含まれる Google の既存の安全性分類器スイートを補完します。

このツールキットには、限られたデータポイントに基づいてポリシー固有の分類子を構築するメソッドと、API 経由で提供される既製の Google Cloud 分類子が含まれています。

ShieldGemma は、業界をリードするセキュリティ分類子である Gemma 2 に基づいて構築されています。

2B、9B、27B などのさまざまなモデル パラメーター サイズが提供されており、それらはすべて NVIDIA の速度に合わせて最適化されており、さまざまなハードウェアで効率的に実行できます。

その中で、2B はオンライン分類タスクに非常に適しており、バージョン 9B と 27B は、より低い遅延要件でオフライン アプリケーションに高いパフォーマンスを提供します。


Gemma Scope: オープンソースのスパース オートエンコーダーを通じて AI の意思決定プロセスを明らかにする

同時にリリースされたもう 1 つのハイライトは、オープンソースのスパース オートエンコーダーである Gemma Scope です。

言語モデルの内部で何が起こっているのでしょうか?この問題は研究者や開発者を長い間悩ませてきました。

言語モデルの内部動作は、それを訓練する研究者にとってさえ謎であることがよくあります。


Gemma Scope は、スパース オートエンコーダー (SAE) を通じてモデル内の特定の点を拡大する強力な顕微鏡のようなもので、モデルの内部動作を解釈しやすくします。

Gemma Scope を使用すると、研究者や開発者は Gemma 2 モデルの意思決定プロセスに対する前例のない透明性を得ることができます。

Gemma Scope は、Gemma 2 9B および Gemma 2 2B 用の何百もの無料でオープンなスパース オートエンコーダー (SAE) のコレクションです。

これらの SAE は、Gemma 2 によって処理された高密度で複雑な情報を解釈し、分析し理解しやすい形式に拡張するのに役立つ特別に設計されたニューラル ネットワークです。

これらの拡張されたビューを研究することで、研究者は Gemma 2 がどのようにパターンを認識し、情報を処理し、予測を行うかについて貴重な情報を得ることができます。

Gemma Scope を使用すると、AI コミュニティは、より理解しやすく、責任があり、信頼性の高い AI システムをより簡単に構築できます。

同時に、Google DeepMind は 20 ページの技術レポートもリリースしました。


技術レポート: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

要約すると、Gemma Scope には次の 3 つの革新があります。

  • オープンソース SAE: Gemma 2 2B および 9B のすべての層をカバーする 400 以上の無料で利用できる SAE

  • インタラクティブなデモ: コードを記述せずに SAE 機能を探索し、Neuronpedia でモデルの動作を分析します

  • 使いやすいリソース ライブラリ: SAE および Gemma 2 と対話するためのコードと例を提供します。

言語モデルの内部動作を解釈する

言語モデルの解釈可能性の問題はなぜこれほど難しいのでしょうか?

これは LLM の動作原理から始まります。

LLM に質問すると、テキスト入力が一連の「アクティベーション」に変換されます。これらのアクティベーションは、入力した単語間の関係をマッピングし、モデルが異なる単語間の関係を作成し、それに応じて回答を生成するのに役立ちます。

モデルがテキスト入力を処理するとき、モデルのニューラル ネットワーク内のさまざまなレイヤーのアクティブ化は、「機能」と呼ばれる、複数の段階的により高いレベルの概念を表します。


たとえば、モデルの初期の層はジョーダンがバスケットボールをするなどの事実を学習する可能性があり、その後の層はテキストの信頼性など、より複雑な概念を識別する場合があります。


スパースオートエンコーダを使用したモデルのアクティベーションの解釈の例 - モデルが「光の都市はパリである」という事実をどのように思い出すか。フランス語に関連する概念は存在しますが、無関係な概念は存在しないことがわかります。

しかし、解釈可能性の研究者は、モデルのアクティブ化にはさまざまな機能が混在しているという重要な問題に直面しています。

研究の初期段階では、研究者らはニューラル ネットワークの活性化の特徴が個々のニューロン、つまり情報ノードと一致することを期待していました。

しかし、残念なことに、実際には、ニューロンは多くの無関係な機能に対してアクティブです。

これは、どの機能がアクティベーションの一部であるかを明確に知る方法がないことを意味します。

そして、まさにここがスパース オートエンコーダの出番です。

言語モデルは数百万、さらには数十億の機能を検出できる場合がありますが、特定のアクティベーションは少数の機能の組み合わせにすぎないことに注意してください (つまり、モデルは機能をまばらに使用します)。

たとえば、言語モデルは、アインシュタインに関する質問に答えるときは相対性理論を考えるかもしれませんが、オムレツについて書くときは相対性理論を考えないかもしれません。


スパース オートエンコーダーはこの事実を利用して、一連の潜在的な機能を発見し、各アクティベーションを少数の機能に分解します。

研究者らは、スパースオートエンコーダーがこのタスクを達成するための最良の方法は、言語モデルが実際に使用する重要な機能を見つけることであると期待しています。

重要なのは、このプロセス中、研究者はスパース オートエンコーダーにどの特徴を探すべきかを指示しなかったことです。

その結果、これまで予想されていなかった豊富な構造を発見することができました。


ただし、これらの発見された特徴の正確な意味はすぐには分からないため、スパース オートエンコーダーが特徴を「トリガー」していると見なす、テキスト例の中で意味のあるパターンを探します。


以下は、機能によってトリガーされたトークンが、機能トリガーの強度に基づいて青のグラデーションで強調表示される例です。


スパース オートエンコーダーを使用して機能アクティベーションを検出する例。各バブルはトークン (単語または単語の断片) を表し、可変の青色はこの機能の強さを示します。この場合、その特徴は明らかにイディオムに関連しています。

Gemma Scope のユニークな点は何ですか?

以前のスパース オートエンコーダと比較して、Gemma Scope には多くの独自の機能があります。

前者は主に、小さなモデルまたは大きなモデルの単一レイヤーの内部動作を研究することに焦点を当てています。


しかし、解釈可能性の研究をさらに深く掘り下げたい場合は、大規模なモデルの階層化された複雑なアルゴリズムをデコードする必要があります。

今回、Google DeepMind の研究者は、Gemma 2 2B および 9B の各レイヤーとサブレイヤーの出力でスパース オートエンコーダーをトレーニングしました。

この方法で構築された Gemma Scope は、合計 400 を超えるスパース オートエンコーダーを生成し、3,000 万を超える特徴を取得しました (ただし、多くの特徴は重複する可能性があります)。

これにより、研究者はモデル全体で特徴がどのように進化するか、またそれらがどのように相互作用して結合してより複雑な特徴を形成するかを研究することができます。

さらに、Gemma Scope は、最新かつ最先端の JumpReLU SAE アーキテクチャを使用してトレーニングされています。

オリジナルのスパース オートエンコーダ アーキテクチャでは、特徴の存在の検出と強度の推定という 2 つの目標の間のバランスが難しいことがよくあります。 JumpReLU アーキテクチャでは、この 2 つのバランスをより簡単に実現し、エラーを大幅に減らすことができます。


もちろん、非常に多くのスパース オートエンコーダーをトレーニングすることはエンジニアリング上の大きな課題でもあり、多くのコンピューティング リソースが必要になります。

このプロセスで、研究者らは Gemma 2 9B トレーニング計算の約 15% (蒸留ラベルの生成に必要な計算を除く) を使用し、約 20 PiB のアクティベーションをディスクに保存しました (英語の Wiki Encyclopedia コンテンツの 100 万コピーにほぼ相当) 、合計数千億のスパース オートエンコーダー パラメーターを生成します。

参考文献:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/