notizia

I tablet per computer formano un cluster AI e puoi eseguire un modello di grandi dimensioni da 400 miliardi a casa e GitHub ha raccolto 2,5K stelle

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crecy proviene dal Tempio Aofei
    Qubit |. Account pubblico QbitAI

Senza H100, tre computer Apple possono pilotare il modello grande 400B.

L'eroe dietro di esso è un framework di ragionamento AI distribuito open source su GitHub, che ha già ricevuto 2,5k stelle.



Utilizzando questo framework, puoi creare il tuo cluster di elaborazione AI utilizzando dispositivi di uso quotidiano come iPhone e iPad in pochi minuti.



Questo framework si chiama exo. Diversamente da altri framework di ragionamento distribuito, adotta un metodo di connessione p2p e il dispositivo può unirsi automaticamente al cluster quando è connesso alla rete.

Lo sviluppatore ha utilizzato il framework exo per connettere due MacBook Pro e un Mac Studio e la velocità di elaborazione ha raggiunto 110 TFLOPS.

Allo stesso tempo, lo sviluppatore ha affermato di essere pronto ad accogliere il prossimo Llama3-405B.



I funzionari exo hanno anche affermato che forniranno supporto per Llama3-405B il prima possibile (giorno 0).



E non si tratta solo di computer, exo può consentire a iPhone, iPad e altri dispositivi di unirsi alla rete informatica locale e persino Apple Watch può assorbirla.



Con l'iterazione della versione, il framework exo non è più limitato ad Apple (inizialmente supportava solo MLX), e alcune persone hanno portato nel cluster anche telefoni Android e schede grafiche 4090.



Configurazione completa in soli 60 secondi

A differenza di altri framework di inferenza distribuita, exo non utilizza un'architettura master-worker, maPeer-to-peer (p2p)Collega il dispositivo.

Finché il dispositivo è connesso alla stessa LAN, può unirsi automaticamente alla rete informatica di exo per eseguire il modello.

Quando si suddivide un modello tra dispositivi, exo supporta diverse strategie di partizionamento. L'impostazione predefinita è il partizionamento ponderato della memoria ad anello.

Viene eseguita l'inferenza in un anello, con più livelli di modello per dispositivo, proporzionali alla memoria del dispositivo.



E l'intero processoQuasi nessuna configurazione manuale richiesta, dopo l'installazione e l'avvio, il sistema si connetterà automaticamente ai dispositivi in ​​esecuzione nella LAN e in futuro supporterà anche le connessioni Bluetooth.

In uno dei video dell'autore ci sono voluti solo circa 60 secondi per completare la configurazione su due nuovi MacBook.

Puoi vedere che circa 60 secondi, il programma ha iniziato a funzionare in background.



Inoltre, dall'immagine sopra puoi vedere che exo supporta anche la chat minuscolaInterfaccia graficae sono anche compatibili con OpenAIAPI

Tuttavia, tale operazione può essere implementata solo sul nodo di coda del cluster.



Attualmente, exo supporta il framework Apple MLX e il framework di apprendimento automatico open sourceminuscologrado, sono in corso anche i lavori di adattamento di llama.cpp.

L'unico neo è che l'aggiornamento dell'implementazione iOS non riesce a tenere il passo con Python, causando molti problemi con il programma. L'autore ha temporaneamente offline il cellulare exo e l'iPad. Se vuoi davvero provarlo, puoi inviare un e-mail all'autore per richiederlo.



Netizen: È davvero così utile?

Questo metodo di utilizzo di dispositivi locali per eseguire modelli di grandi dimensioni ha anche innescato ampie discussioni su HakerNews.

I vantaggi del funzionamento localizzato sono che da un lato la privacy è più garantita, dall'altro è possibile accedere al modello offline e supporta anche la personalizzazione personalizzata.



Alcuni hanno anche sottolineato che il costo a lungo termine dell’utilizzo delle apparecchiature esistenti per costruire un cluster per i calcoli di modelli di grandi dimensioni è inferiore a quello dei servizi cloud.



Ma riguardo allo specifico progetto di exo, molte persone hanno espresso i loro dubbi.

Prima di tutto, alcuni netizen hanno sottolineato che il livello di potenza di calcolo delle vecchie apparecchiature esistenti è diverso da quello dei fornitori di servizi professionali. Se giochi solo per curiosità, va bene, ma se vuoi ottenere risultati eccellenti. prestazioni all'avanguardia, il costo è semplicemente incomparabile con le piattaforme di grandi dimensioni.



E alcune persone hanno detto che l'attrezzatura utilizzata dall'autore per la dimostrazione è un hardware di fascia alta. Un Mac con 32GB di memoria può costare più di 2.000 dollari USA. A questo prezzo, è meglio comprare due 3090.

Crede addirittura che, dal momento che è coinvolta Apple, si può dire che non abbia praticamente nulla a che fare con il "economicità".



Ciò porta a un'altra domanda: con quali dispositivi è compatibile l'exo framework? Supporta solo Apple?

Le domande dei netizen erano più dirette e chiedevano direttamente al punto se il Raspberry Pi fosse supportato.

L'autore ha risposto che è teoricamente possibile, ma non è stato ancora testato e lo sarà in seguito.



Oltre alla potenza di calcolo del dispositivo stesso, alcuni hanno anche aggiunto che il collo di bottiglia nella velocità di trasmissione della rete limiterà anche le prestazioni del cluster.

A questo proposito, l’autore del framework ha spiegato personalmente:

Ciò che deve essere trasmesso in exo è un piccolo vettore di attivazione, non l'intero peso del modello.
Per il modello Llama-3-8B, il vettore di attivazione è di circa 10 KB; Llama-3-70B è di circa 32 KB;
La latenza della rete locale è generalmente bassa (<5 ms) e non influisce in modo significativo sulle prestazioni.



L'autore ha affermato che il framework attualmente supporta tinygrad, quindi sebbene il test venga eseguito principalmente su dispositivi Mac, supporta (in teoria) tutti i dispositivi che possono eseguire tinygrad.

Al momento, il framework è ancora in fase sperimentale e l'obiettivo futuro è renderlo semplice come Dropbox (un disco di rete).



A proposito, i funzionari exo hanno anche elencato alcune carenze che attualmente dovrebbero essere risolte e hanno lanciato una ricompensa pubblica Coloro che risolveranno questi problemi riceveranno bonus che vanno da 100 a 500 dollari USA.



Da GitHub:
https://github.com/exo-explore/exo
Link di riferimento:
https://x.com/ac_crypto/status/1814912615946330473