コンピュータータブレットが AI クラスターを形成し、自宅で 400B の大きなモデルを実行できるようになります。GitHub は 2.5K の star

コンピュータータブレットが AI クラスターを形成し、自宅で 400B の大きなモデルを実行できるようになり、GitHub は 2.5,000 個のスターを集めました

2024-07-22

クレシーはアオフェイ寺院から来ています
パブリックアカウント QbitAI

H100 がなければ、3 台の Apple コンピュータで 400B 大型モデルを駆動できます。

その背後にある主役は、GitHub 上のオープンソースの分散型 AI 推論フレームワークであり、すでに 2.5,000 個の星を獲得しています。

このフレームワークを使用すると、iPhone や iPad などの日常的なデバイスを使用して、わずか数分で独自の AI コンピューティングクラスターを構築できます。

このフレームワークは exo と呼ばれ、他の分散推論フレームワークとは異なり、p2p 接続方式を採用しており、デバイスがネットワークに接続されると自動的にクラスターに参加できます。

開発者は exo フレームワークを使用して 2 台の MacBook Pro と Mac Studio を接続し、コンピューティング速度は 110TFLOPS に達しました。

同時に、開発者は、今後のLlama3-405Bを歓迎する準備ができていると述べました。

exo関係者はまた、できるだけ早く（0日目）Llama3-405Bへのサポートを提供すると述べた。

そして、それはコンピューターだけではなく、exo を使用すると iPhone、iPad、その他のデバイスがローカルコンピューティングネットワークに参加できるようになり、Apple Watch さえもそれを吸収できるようになります。

バージョンが繰り返されるにつれて、exo フレームワークは Apple に限定されなくなり (当初は MLX のみをサポートしていました)、Android フォンや 4090 グラフィックスカードをクラスターに持ち込む人もいます。

わずか 60 秒で設定を完了

他の分散推論フレームワークとは異なり、exo はマスターワーカーアーキテクチャを使用しませんが、ピアツーピア (p2p)デバイスを接続します。

デバイスが同じ LAN に接続されている限り、exo のコンピューティングネットワークに自動的に参加してモデルを実行できます。

モデルをデバイス間で分割する場合、exo はさまざまなパーティショニング戦略をサポートします。デフォルトはリングメモリの重み付けパーティショニングです。

これは、デバイスのメモリに比例して、デバイスごとに複数のモデル層を使用してリング内で推論を実行します。

そしてそのプロセス全体が手動構成はほとんど必要ありません, インストールして起動すると、システムは LAN 内で実行されているデバイスに自動的に接続し、将来的には Bluetooth 接続もサポートする予定です。

著者のビデオの 1 つでは、2 台の新しい MacBook の構成を完了するのにわずか約 60 秒しかかかりませんでした。

60 秒あたりで、プログラムがバックグラウンドで実行を開始していることがわかります。

さらに、上の画像から、exo はタイニーチャットもサポートしていることがわかりますグラフィカルインターフェース、OpenAIとも互換性があります翻訳。

ただし、このような操作はクラスター内の末尾ノードでのみ実装できます。

現在、exo は Apple MLX フレームワークとオープンソースの機械学習フレームワークをサポートしていますちっちゃいグラッド、llama.cpp の適応作業も進行中です。

唯一の問題は、iOS 実装のアップデートが Python に追いついていないため、プログラムに多くの問題が発生していることです。本当に試してみたい場合は、exo の携帯電話と iPad を一時的にオフラインにしました。著者にメールでリクエストしてください。

ネチズン：本当に便利ですか？

ローカルデバイスを使用して大規模なモデルを実行するこの方法は、HakerNews でも広範な議論を引き起こしました。

ローカライズされた操作の利点は、プライバシーがより保証される一方で、モデルにオフラインでアクセスでき、パーソナライズされたカスタマイズもサポートされることです。

また、既存の設備を利用して大規模モデル計算用のクラスターを構築する場合の長期的なコストが、クラウドサービスよりも低いとの指摘もある。

しかし、exoの具体的なプロジェクトに関しては、多くの人が疑問を表明している。

まず、一部のネチズンは、既存の古い機器のコンピューティング能力レベルは、プロのサービスプロバイダーのコンピューティング能力レベルとは桁違いであると指摘しました。興味本位でプレイするだけなら問題ありませんが、切断を達成したい場合は、エッジのパフォーマンスに優れ、コストは大規模なプラットフォームとは比べものになりません。

また、著者がデモに使用した機器はハイエンドのハードウェアであり、32GB メモリを搭載した Mac 機器は 2,000 ドル以上かかる可能性があるため、この価格では 3090 を 2 台購入した方が良いとの意見もありました。

Appleが関わっている以上、基本的に「安さ」とは関係ないとさえ言えるとさえ考えている。

これにより、別の質問が生じます。exo フレームワークはどのデバイスと互換性があるのでしょうか? Appleのみをサポートしていますか?

ネチズンの質問はより直接的で、Raspberry Pi がサポートされているかどうかを単刀直入に尋ねていました。

著者は、理論的には可能ですが、まだテストされていないため、次に試してみると答えました。

デバイス自体の計算能力に加えて、ネットワーク伝送速度のボトルネックもクラスターのパフォーマンスを制限する可能性があると付け加えた人もいます。

これに関して、フレームワークの作成者は個人的に次のように説明しました。

exo で送信する必要があるのは、モデルの重み全体ではなく、小さなアクティベーションベクトルです。
Llama-3-8B モデルの場合、アクティベーションベクターは約 10KB で、Llama-3-70B は約 32KB です。
ローカルネットワークの遅延は通常低く (5ms 未満)、パフォーマンスに大きな影響を与えません。

著者は、フレームワークは現在 tinygrad をサポートしているため、テストは主に Mac デバイスで実行されていますが、(理論的には) tinygrad を実行できるすべてのデバイスをサポートしていると述べています。

現在、このフレームワークはまだ実験段階にあり、将来の目標は、このフレームワークを Dropbox (ネットワークディスク) と同じくらいシンプルにすることです。

ところで、exo関係者は現在解決が予定されているいくつかの欠点もリストアップしており、これらの問題を解決した人には100〜500ドルのボーナスが与えられると発表した。

GitHub：
https://github.com/exo-explore/exo
参考リンク:
https://x.com/ac_crypto/status/1814912615946330473

ニュース

コンピュータータブレットが AI クラスターを形成し、自宅で 400B の大きなモデルを実行できるようになり、GitHub は 2.5,000 個のスターを集めました

わずか 60 秒で設定を完了

ネチズン：本当に便利ですか？

導入

私の連絡先情報

ニュース

コンピューター タブレットが AI クラスターを形成し、自宅で 400B の大きなモデルを実行できるようになり、GitHub は 2.5,000 個のスターを集めました

わずか 60 秒で設定を完了

ネチズン：本当に便利ですか？

導入

私の連絡先情報

コンピュータータブレットが AI クラスターを形成し、自宅で 400B の大きなモデルを実行できるようになり、GitHub は 2.5,000 個のスターを集めました