ニュース

Apple は 7B モデルをオープンソース化し、トレーニング プロセス全体のデータセットを一度に提供したとネチズンは次のように述べています。

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Apple はオープンソースの大型モデルの戦場に最も遅れて参入しており、他の企業よりもオープンです。

ロールアウトする7Bモデル、効果が同じだけではありません。ラマ3 8Bこれは非常に優れており、一気にオープンソース化されています。すべてのトレーニング プロセスとリソース



ご存知のように、少し前に、ネイチャー誌の編集者エリザベス・ギブニーがこう言いました。批評を書く

  • オープンソースであると主張する AI モデルの多くは、実際にはデータやトレーニング方法の点で透明性がなく、実際の科学研究のニーズを満たすことができません。

そして今回、Apple は本当にやって来たのです! !

NLP の科学者であり AutoAWQ の作成者でさえ、次のように叫びました。

  • Apple は Mistral 7B を超えるモデルをリリースしましたが、さらに優れているのは、すべてを完全にオープンソース化したことです。事前トレーニングデータセットが含まれています



また、これはネットユーザーをオンラインで嘲笑するきっかけにもなりました。



このオープンソースの重要性については、一部の熱心なネチズンも要約に協力してくれました。

  • モデルを最初からトレーニングしたい人、または既存のモデルを微調整したい人は、データ管理プロセスそれは勉強しなければなりません。



もちろん、OpenAIとAppleに加えて、Mistral AIとNvidiaも先週12Bパラメータの小型モデルをリリースしました。

ハギングフェイスの創設者はこう言いました。「スモールモデルウィーク」到来!



ロール!転がり続けてください!では、今回Appleが発売した小型モデルはどれほどの効果があるのでしょうか?

効果はラマ3 8Bに近い

それがどれほど強力であるかについては話さないで、Hugging Face のテクニカル ディレクターが「開梱」したものを見てみましょう。モデル基本構成

要約すると次のようになります。

  • 7B 基本モデル、オープン データ セットで使用2.5Tトークン訓練を実施する
  • 主に英語データが含まれており、2048トークンコンテキストウィンドウ
  • データセットには DCLM-BASELINE、StarCoder、ProofPile2 が含まれます
  • MMLU スコアは Llama 3 8B に近い
  • PyTorch と OpenLM フレームワークを使用したトレーニング



具体的には、研究チームは最初に言語モデルを提案しました。データ比較のための新しいベンチマーク——DCLM。

このベンチマークは、チームが次のことを発見したために提案されました。

  • 機械学習 (ML) モデルによる大規模なデータセットからの抽出高品質のデータを自動的にフィルタリングして選択します、高品質のトレーニングセットを構築するための鍵となる可能性があります。

したがって、チームは DCLM を使用して高品質のデータ セットを設計し、特にマルチモーダル ドメインにおけるモデルのパフォーマンスを向上させています。

それアイデアそれは簡単です。標準化されたフレームワークを使用して、固定モデル アーキテクチャ、トレーニング コード、ハイパーパラメータ、評価などの実験を実施し、最終的にはどのデータ ラングリング戦略が高性能モデルのトレーニングに最適かを見つけます。



上記のアイデアに基づいて、チームは高品質データセット DCLM-BASELINEを使用し、7B パラメーター モデル DCLM-7B を最初からトレーニングするために使用しました。



DCLM-7Bの具体的な性能はどのようなものですか?

結果は、MMLU ベンチマークで 5 ショットであることを示しています正解率は64%に達するMistral-7B-v0.3 (63%) および Llama 3 8B (66%) に匹敵し、53 の自然言語理解タスクの平均パフォーマンスも Llama 3 8B に匹敵しますが、必要な計算量はわずか 1 です。後者の /6。



同じサイズの他のモデルと比較した場合、DCLM-7B の MMLU スコアは Mistral-7B を上回り、Llama 3 8B に近づきます。



最後に、新しいデータセットの効果をテストする、一部の内部関係者は、Kapasi の llm.c を使用して GPT-2 1.5B をトレーニングし、DCLM-Baseline と FineWeb-Edu の 2 つのデータ セットを比較しました。



結果は、DCLM-Baseline が達成したことを示しています。平均スコアが高い、ARC (小学生の科学的問題の推論)、HellaSwag (常識的な推論)、MMLU などのタスクのパフォーマンスが向上します。



「小型」モデルが新たなトレンドに

話の原点に戻りますが、最近は「小さい」モデルがトレンドになっています。

まず、HuggingFace は小型モデルのファミリーを発売しました。「スモルLM」、135M、360M、1.7B モデルが含まれます。



これらは、幅広い推論および常識ベンチマークにおいて、同様のサイズのモデルよりも優れたパフォーマンスを発揮します。



そして突然OpenAIがリリースされましたGPT-4oミニ、性能が GPT-4 に近いだけでなく、価格も大幅に下がりました。



GPT-4o miniだけで同日発売, Mistral AIとNVIDIAが12Bパラメータの小型モデルをリリース——ミストラル・ネモ

全体的なパフォーマンスの点では、Mistral NeMo は複数のベンチマーク テストで Gemma 2 9B および Llama 3 8B を破りました。



では、なぜ誰もが小さなモデルを作り始めているのでしょうか?

その理由は、smol AI の創設者が思い出したように、モデルは小さくなりましたが、機能が同じであれば、小さいモデルが最適であると考えられます。大幅なコスト削減



彼が提供した写真のように、GPT-4o mini に代表される小型モデルは一般に右のものよりも安価です。



この点において、私はメロンを食べる人が次のようになることを待っています。



それで、どちらが好きですか?