Les tablettes informatiques forment un cluster d'IA et vous pouvez exécuter un grand modèle de 400 milliards à la maison. GitHub capture 2,5 000 étoiles

Les tablettes informatiques forment un cluster d'IA, et vous pouvez exécuter un grand modèle de 400 milliards à la maison, et GitHub a collecté 2,5 000 étoiles

2024-07-22

Crécy vient du temple Aofei
Qubits | Compte public QbitAI

Sans le H100, trois ordinateurs Apple peuvent piloter le grand modèle 400B.

Le héros derrière tout cela est un framework de raisonnement d’IA distribué open source sur GitHub, qui a déjà reçu 2,5 000 étoiles.

Grâce à ce framework, vous pouvez créer votre propre cluster informatique d'IA en utilisant des appareils quotidiens tels que l'iPhone et l'iPad en quelques minutes seulement.

Ce framework s'appelle exo. Différent des autres frameworks de raisonnement distribués, il adopte une méthode de connexion p2p et l'appareil peut automatiquement rejoindre le cluster lorsqu'il est connecté au réseau.

Le développeur a utilisé le framework exo pour connecter deux MacBook Pro et un Mac Studio, et la vitesse de calcul a atteint 110TFLOPS.

Dans le même temps, le développeur s'est dit prêt à accueillir le prochain Llama3-405B.

Les responsables d'exo ont également déclaré qu'ils fourniraient un soutien à Llama3-405B dès que possible (jour 0).

Et il ne s’agit pas seulement d’ordinateurs, exo peut permettre aux iPhones, iPads et autres appareils de rejoindre le réseau informatique local, et même l’Apple Watch peut également l’absorber.

Avec l'itération de la version, le framework exo n'est plus limité à Apple (prenant initialement en charge uniquement MLX), et certaines personnes ont également introduit des téléphones Android et des cartes graphiques 4090 dans le cluster.

Configuration complète en 60 secondes seulement

Contrairement à d'autres frameworks d'inférence distribués, exo n'utilise pas une architecture maître-travailleur, maisPoste à poste (p2p)Connectez l'appareil.

Tant que l'appareil est connecté au même réseau local, il peut automatiquement rejoindre le réseau informatique d'exo pour exécuter le modèle.

Lors de la division d'un modèle sur plusieurs appareils, exo prend en charge différentes stratégies de partitionnement. La valeur par défaut est le partitionnement pondéré en mémoire annulaire.

Cela exécute l'inférence dans un anneau, avec plusieurs couches de modèle par appareil, proportionnelles à la mémoire de l'appareil.

Et tout le processusPresque aucune configuration manuelle requise, après l'installation et le démarrage, le système se connectera automatiquement aux appareils fonctionnant sur le réseau local et prendra également en charge les connexions Bluetooth à l'avenir.

Dans l'une des vidéos de l'auteur, il n'a fallu qu'environ 60 secondes pour terminer la configuration sur deux nouveaux MacBook.

Vous pouvez voir qu'au bout d'environ 60 secondes, le programme a commencé à s'exécuter en arrière-plan.

De plus, vous pouvez voir sur l'image ci-dessus qu'exo prend également en charge les petits chats.Interface graphique, et sont également compatibles avec OpenAIAPI。

Cependant, une telle opération ne peut être implémentée que sur le nœud de queue du cluster.

Actuellement, exo prend en charge le framework Apple MLX et le framework d'apprentissage automatique open sourcePetit-Grad, le travail d'adaptation de lama.cpp est également en cours.

Le seul problème est que la mise à jour de l'implémentation iOS ne peut pas suivre Python, ce qui entraîne de nombreux problèmes avec le programme. L'auteur a temporairement déconnecté le téléphone mobile exo et l'iPad. Si vous voulez vraiment l'essayer, vous pouvez envoyer un. envoyer un email à l'auteur pour en faire la demande.

Internaute : Est-ce vraiment si utile ?

Cette méthode consistant à utiliser des appareils locaux pour exécuter de grands modèles a également déclenché de nombreuses discussions sur HakerNews.

Les avantages du fonctionnement localisé sont que, d'une part, la confidentialité est mieux garantie, d'autre part, le modèle est accessible hors ligne et prend également en charge la personnalisation personnalisée.

Certaines personnes ont également souligné que le coût à long terme de l’utilisation des équipements existants pour créer un cluster destiné aux calculs de grands modèles est inférieur à celui des services cloud.

Mais concernant le projet spécifique d’exo, de nombreuses personnes ont exprimé leurs doutes.

Tout d'abord, certains internautes ont souligné que le niveau de puissance de calcul des anciens équipements existants est d'un ordre de grandeur différent de celui des prestataires de services professionnels. Si vous y jouez simplement par curiosité, ce n'est pas grave, mais si vous voulez réaliser des coupes. performances de pointe, le coût est tout simplement incomparable avec les grandes plates-formes.

Et certaines personnes ont dit que l'équipement utilisé par l'auteur pour la démonstration est du matériel haut de gamme. Un équipement Mac avec 32 Go de mémoire peut coûter plus de 2 000 dollars américains. À ce prix, il vaut mieux acheter deux 3090.

Il estime même que puisque Apple est impliqué, on peut dire que cela n'a fondamentalement rien à voir avec le « bon marché ».

Cela nous amène à une autre question : avec quels appareils le framework exo est-il compatible ? Est-ce qu'il supporte uniquement Apple ?

Les questions des internautes étaient plus directes, demandant directement si le Raspberry Pi est pris en charge.

L'auteur a répondu que c'était théoriquement possible, mais que cela n'avait pas encore été testé et qu'il le serait prochainement.

En plus de la puissance de calcul de l'appareil lui-même, certaines personnes ont également ajouté que le goulot d'étranglement de la vitesse de transmission du réseau limiterait également les performances du cluster.

À cet égard, l’auteur du cadre a personnellement expliqué :

Ce qui doit être transmis dans exo, c'est un petit vecteur d'activation, pas le poids total du modèle.
Pour le modèle Llama-3-8B, le vecteur d'activation est d'environ 10 Ko ; Llama-3-70B est d'environ 32 Ko.
La latence du réseau local est généralement faible (<5 ms) et n'a pas d'impact significatif sur les performances.

L'auteur a déclaré que le framework prend actuellement en charge Tinygrad, donc bien que le test soit principalement effectué sur des appareils Mac, il prend (théoriquement) en charge tous les appareils pouvant exécuter Tinygrad.

À l'heure actuelle, le framework est encore au stade expérimental et l'objectif futur est de rendre ce framework aussi simple que Dropbox (un disque réseau).

Par ailleurs, les responsables d'exo ont également répertorié certaines lacunes qu'il est actuellement prévu de résoudre et ont lancé une récompense publique. Ceux qui résolvent ces problèmes recevront des bonus allant de 100 à 500 dollars américains.

GitHub :
https://github.com/exo-explore/exo
Liens de référence :
https://x.com/ac_crypto/status/1814912615946330473

nouvelles

Les tablettes informatiques forment un cluster d'IA, et vous pouvez exécuter un grand modèle de 400 milliards à la maison, et GitHub a collecté 2,5 000 étoiles

Configuration complète en 60 secondes seulement

Internaute : Est-ce vraiment si utile ?

Introduction

mes coordonnées