Apple は 7B モデルをオープンソース化し、トレーニングプロセス全体のデータセットを一度に提供したとネチズンは次のように述べています。

2024-07-22

Apple はオープンソースの大型モデルの戦場に最も遅れて参入しており、他の企業よりもオープンです。

ロールアウトする7Bモデル、効果が同じだけではありません。ラマ3 8Bこれは非常に優れており、一気にオープンソース化されています。すべてのトレーニングプロセスとリソース。

ご存知のように、少し前に、ネイチャー誌の編集者エリザベス・ギブニーがこう言いました。批評を書く：

オープンソースであると主張する AI モデルの多くは、実際にはデータやトレーニング方法の点で透明性がなく、実際の科学研究のニーズを満たすことができません。

そして今回、Apple は本当にやって来たのです! ！

NLP の科学者であり AutoAWQ の作成者でさえ、次のように叫びました。

Apple は Mistral 7B を超えるモデルをリリースしましたが、さらに優れているのは、すべてを完全にオープンソース化したことです。事前トレーニングデータセットが含まれています

また、これはネットユーザーをオンラインで嘲笑するきっかけにもなりました。

このオープンソースの重要性については、一部の熱心なネチズンも要約に協力してくれました。

モデルを最初からトレーニングしたい人、または既存のモデルを微調整したい人は、データ管理プロセスそれは勉強しなければなりません。

もちろん、OpenAIとAppleに加えて、Mistral AIとNvidiaも先週12Bパラメータの小型モデルをリリースしました。

ハギングフェイスの創設者はこう言いました。「スモールモデルウィーク」到来！

ロール！転がり続けてください！では、今回Appleが発売した小型モデルはどれほどの効果があるのでしょうか？

効果はラマ3 8Bに近い

それがどれほど強力であるかについては話さないで、Hugging Face のテクニカルディレクターが「開梱」したものを見てみましょう。モデル基本構成。

要約すると次のようになります。

7B 基本モデル、オープンデータセットで使用2.5Tトークン訓練を実施する
主に英語データが含まれており、2048トークンコンテキストウィンドウ
データセットには DCLM-BASELINE、StarCoder、ProofPile2 が含まれます
MMLU スコアは Llama 3 8B に近い
PyTorch と OpenLM フレームワークを使用したトレーニング

具体的には、研究チームは最初に言語モデルを提案しました。データ比較のための新しいベンチマーク——DCLM。

このベンチマークは、チームが次のことを発見したために提案されました。

機械学習 (ML) モデルによる大規模なデータセットからの抽出高品質のデータを自動的にフィルタリングして選択します、高品質のトレーニングセットを構築するための鍵となる可能性があります。

したがって、チームは DCLM を使用して高品質のデータセットを設計し、特にマルチモーダルドメインにおけるモデルのパフォーマンスを向上させています。

それアイデアそれは簡単です。標準化されたフレームワークを使用して、固定モデルアーキテクチャ、トレーニングコード、ハイパーパラメータ、評価などの実験を実施し、最終的にはどのデータラングリング戦略が高性能モデルのトレーニングに最適かを見つけます。

上記のアイデアに基づいて、チームは高品質データセット DCLM-BASELINEを使用し、7B パラメーターモデル DCLM-7B を最初からトレーニングするために使用しました。

DCLM-7Bの具体的な性能はどのようなものですか？

結果は、MMLU ベンチマークで 5 ショットであることを示しています正解率は64%に達するMistral-7B-v0.3 (63%) および Llama 3 8B (66%) に匹敵し、53 の自然言語理解タスクの平均パフォーマンスも Llama 3 8B に匹敵しますが、必要な計算量はわずか 1 です。後者の /6。

同じサイズの他のモデルと比較した場合、DCLM-7B の MMLU スコアは Mistral-7B を上回り、Llama 3 8B に近づきます。

最後に、新しいデータセットの効果をテストする、一部の内部関係者は、Kapasi の llm.c を使用して GPT-2 1.5B をトレーニングし、DCLM-Baseline と FineWeb-Edu の 2 つのデータセットを比較しました。

結果は、DCLM-Baseline が達成したことを示しています。平均スコアが高い、ARC (小学生の科学的問題の推論)、HellaSwag (常識的な推論)、MMLU などのタスクのパフォーマンスが向上します。

「小型」モデルが新たなトレンドに

話の原点に戻りますが、最近は「小さい」モデルがトレンドになっています。

まず、HuggingFace は小型モデルのファミリーを発売しました。「スモルLM」、135M、360M、1.7B モデルが含まれます。

これらは、幅広い推論および常識ベンチマークにおいて、同様のサイズのモデルよりも優れたパフォーマンスを発揮します。

そして突然OpenAIがリリースされましたGPT-4oミニ、性能が GPT-4 に近いだけでなく、価格も大幅に下がりました。

GPT-4o miniだけで同日発売, Mistral AIとNVIDIAが12Bパラメータの小型モデルをリリース——ミストラル・ネモ。

全体的なパフォーマンスの点では、Mistral NeMo は複数のベンチマークテストで Gemma 2 9B および Llama 3 8B を破りました。

では、なぜ誰もが小さなモデルを作り始めているのでしょうか?

その理由は、smol AI の創設者が思い出したように、モデルは小さくなりましたが、機能が同じであれば、小さいモデルが最適であると考えられます。大幅なコスト削減。

彼が提供した写真のように、GPT-4o mini に代表される小型モデルは一般に右のものよりも安価です。

この点において、私はメロンを食べる人が次のようになることを待っています。

それで、どちらが好きですか？

ニュース