ニュース

小さなモデルが立ち上がり、SOTA がブラウザから走り出して私の顔を抱きしめた: 合成データは未来ではない

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

メンチェンはアオフェイ寺院の出身です
パブリックアカウント QbitAI

ブラウザで直接実行できる SOTA 小型モデルが登場し、それぞれ 2 億、5 億、20 億レベルで優勝し、Huahuanlian によって制作されました。



秘密は 2 つだけです。

  • データを積極的にフィルタリングする
  • 高度にフィルタリングされたデータセットでハードにトレーニングする

華強市の主任科学者トーマス・ウルフ、小規模モデルの開発、新しい視点の投入、業界の注目を集めたチームの経験を要約します。

合成データは現在、特定の領域でのみ役に立ちますネットワークは非常に大規模かつ多様であるため、実際のデータの可能性はまだ完全に実現されていません。



現在、360Mモデル版がデモ版として公開されており、オンラインでプレイ可能です(通信量に注意)。



ローカル GPU を呼び出して、モデルの重みと Web フロントエンド UI を含めてブラウザーで実行します。これは 400 MB で実行されます。



ネットワークデータを厳密にフィルタリングし、パフォーマンスを飛躍的に向上させます。

Microsoft Phi シリーズの小型モデルでは、合成データの半分が使用されており、効果が非常に高いとされていますが、データは公開されていません。

オープンソース コミュニティはこれ以上耐えられません。耐えるのが非常に難しいからです。

ベンチマーク用の大規模な合成データセットを作成し、それをオープンソースにします。

さらにチームは、この動きがマイクロソフトがテストセットで不正を行っているという噂と、それが考慮されているかどうかを検証することにもなると漠然とほのめかした。



Hugshuang は、当時最高のオープンソース モデルである Mixtral-8-7B を使用して構築されました。25B合成データ。

トレーニングされたモデルは良好なパフォーマンスを示しますが、それでも Phi-1 や Phi-1.5 のレベルには若干劣ります。

彼らは、大きなモデルに中学校レベルのさまざまなトピックを説明させようとしましたが、MMLU は博士レベルの問題であるため、最終的には MMLU テストで悪い結果しか得られませんでした。



本当のパフォーマンスのブレークスルーは、次のようなサイドタスクから生まれました。

大規模なモデルを使用して合成データを最初から生成することに加えて、次のことを試してください。大規模モデルのフィルタリングでネットワーク データをフィルタリングする

具体的には、Llama3-70B-Struct によって生成されたアノテーションを使用して分類器が開発されました。FineWeb データセットには最も教育的な Web ページのみを保持します

厳密にフィルタリングされたネットワーク データを使用すると、パフォーマンスが飛躍的に向上し、Phi-1.5 を含むほとんどのベンチマークで他の同様のサイズのモデルを上回ります。



華黄連チームは、この実験の結果は次のようになったと述べた。"ほろ苦い"’s: モデルのパフォーマンスは前例のないほど高いですが、合成データがまだ実際のデータほど優れていないことも示しています。

その後、同じアイデアを使用して自然言語からコードに拡張し、フィルター処理されたコード データ セットも非常に強力であることが判明しました。

HumanEval ベンチマーク スコアが約 13% から 20% 以上に直接向上します。

彼らが構築した最終的な混合データ セットでは、重複排除を使用してフィルタリングされたデータ セットが大部分を占め、純粋な合成データ Cosmopedia v2 は 15% のみを占めました。



要約すると、合成データは依然として有用なのでしょうか?

研究チームは、推論や数学など、実際のデータが実際に不足している分野でのみ、この方法がより意味をなす可能性があると考えています。



小規模なモデルでもトレーニングには数兆個のトークンが必要です

彼らがこれらの新しい発見と結果に興奮していたちょうどそのとき、新しいインターンのエリー・バクーシュが加わりました。

当時はまだインターンだったが、彼はまさにさまざまなトレーニング技術のエキスパートだった。



Elie の助けにより、チームはモデル サイズを 1.7B から 360M、さらには標準モデル GPT-1、GPT-2、BERT である 170M まで縮小しました。

このプロセス中に 2 番目の重要な発見が行われました。過去のコンセンサスとは異なり、小規模なモデルでも数兆のトークンでトレーニングする必要がある、長ければ長いほど良いです。

またデータアニーリング(データのアニーリング) も効果的であることが示されています。つまり、トレーニングの最後の部分で高品質のデータの特別なセットを保持します。

リリースされた最終シリーズのモデルは、スマートフォンからラップトップまで、さまざまなデバイスへの展開に適しています。最大の 1.7B モデルである BF16 は、正確に 3G のメモリしか占有しません。

参考までに、iPhone 15 のエントリーレベルバージョンにも 6G があり、Android スマートフォンにはさらに多くの機能があります。



今回トレーニングされた基本モデルは十分に優れていましたが、チームはまだ問題を発見しました。

SFT、DPO、PPO などのこれまでの位置合わせおよび微調整テクノロジーは、大型モデルには非常に効果的ですが、小型モデルには理想的ではありません。

チームは、位置合わせデータセットには、小規模モデルには複雑すぎる多くの概念が含まれており、適切に設計された単純なタスクが欠けていると分析しました。

次の新しいピットが掘られており、興味のあるチームはそれに取り組み始めることができ、彼らは小型モデルの救世主となるかもしれません。

オンライントライアル:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm

参考リンク:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857