Os tablets de computador formam um cluster de IA e você pode executar um modelo grande de 400B em casa. O GitHub captura 2,5 mil stars

Tablets de computador formam um cluster de IA, e você pode executar um modelo grande de 400B em casa, e o GitHub coletou 2,5 mil estrelas

2024-07-22

Crecy vem do Templo Aofei
Qubits | Conta pública QbitAI

Sem o H100, três computadores Apple podem controlar o modelo grande de 400B.

O herói por trás disso é uma estrutura de raciocínio de IA distribuída de código aberto no GitHub, que já recebeu 2,5 mil estrelas.

Usando esta estrutura, você pode construir seu próprio cluster de computação de IA usando dispositivos comuns, como iPhone e iPad, em apenas alguns minutos.

Essa estrutura é chamada de exo. Diferente de outras estruturas de raciocínio distribuído, ela adota um método de conexão p2p e o dispositivo pode ingressar automaticamente no cluster quando estiver conectado à rede.

O desenvolvedor usou a estrutura exo para conectar dois MacBook Pros e um Mac Studio, e a velocidade de computação atingiu 110TFLOPS.

Ao mesmo tempo, o desenvolvedor disse que está pronto para receber o próximo Llama3-405B.

Oficiais do exo também disseram que fornecerão suporte ao Llama3-405B o mais rápido possível (dia 0).

E não são apenas computadores, o exo pode permitir que iPhones, iPads e outros dispositivos se juntem à rede de computação local, e até mesmo o Apple Watch também pode absorvê-lo.

Com a iteração da versão, o framework exo não está mais limitado à Apple (inicialmente suportando apenas MLX), e algumas pessoas também trouxeram telefones Android e placas gráficas 4090 para o cluster.

Conclua a configuração em apenas 60 segundos

Ao contrário de outras estruturas de inferência distribuída, o exo não usa uma arquitetura master-worker, masPonto a ponto (p2p)Conecte o dispositivo.

Desde que o dispositivo esteja conectado à mesma LAN, ele pode ingressar automaticamente na rede de computação do exo para executar o modelo.

Ao dividir um modelo entre dispositivos, o exo oferece suporte a diferentes estratégias de particionamento. O padrão é o particionamento ponderado pela memória em anel.

Isso executa a inferência em um anel, com múltiplas camadas de modelo por dispositivo, proporcionais à memória do dispositivo.

E todo o processoQuase nenhuma configuração manual necessária, após a instalação e inicialização, o sistema se conectará automaticamente aos dispositivos em execução na LAN e também suportará conexões Bluetooth no futuro.

Em um dos vídeos do autor, foram necessários apenas cerca de 60 segundos para concluir a configuração em dois novos MacBooks.

Você pode ver que por volta de 60 segundos o programa começou a ser executado em segundo plano.

Além disso, você pode ver na imagem acima que exo também suporta chat minúsculoInterface gráfica, e também são compatíveis com OpenAIAPI。

No entanto, tal operação só pode ser implementada no nó final do cluster.

Atualmente, exo oferece suporte à estrutura Apple MLX e à estrutura de aprendizado de máquina de código abertopequeno graduado, o trabalho de adaptação do llama.cpp também está em andamento.

O único problema é que a atualização da implementação do iOS não consegue acompanhar o Python, resultando em muitos problemas com o programa. O autor desativou temporariamente o celular exo e o iPad. Se você realmente quiser experimentar, pode enviar um. e-mail ao autor para solicitá-lo.

Internauta: É realmente tão útil?

Este método de usar dispositivos locais para executar modelos grandes também desencadeou extensas discussões no HakerNews.

As vantagens da operação localizada são que, por um lado, a privacidade é mais garantida, por outro, o modelo pode ser acessado offline e também suporta customização personalizada.

Algumas pessoas também apontaram que o custo a longo prazo do uso de equipamentos existentes para construir um cluster para cálculos de grandes modelos é menor do que o dos serviços em nuvem.

Mas em relação ao projeto específico do exo, muitas pessoas expressaram suas dúvidas.

Em primeiro lugar, alguns internautas apontaram que o nível de poder de computação dos equipamentos antigos existentes é muito diferente daquele dos prestadores de serviços profissionais. Se você jogar apenas por curiosidade, tudo bem, mas se você quiser conseguir o corte-. desempenho de ponta, o custo é simplesmente incomparável com grandes plataformas.

E algumas pessoas disseram que o equipamento utilizado pelo autor para demonstração é hardware de última geração. Um equipamento Mac com 32 GB de memória pode custar mais de 2.000 dólares. Por esse preço, é melhor comprar dois 3090.

Ele até acredita que, como a Apple está envolvida, pode-se dizer que basicamente não tem nada a ver com “barato”.

Isso leva a outra questão: com quais dispositivos a estrutura exo é compatível? Suporta apenas Apple?

As perguntas dos internautas foram mais diretas, perguntando direto se o Raspberry Pi é compatível.

O autor respondeu que é teoricamente possível, mas ainda não foi testado e será tentado a seguir.

Além do poder computacional do próprio dispositivo, algumas pessoas também acrescentaram que o gargalo na velocidade de transmissão da rede também limitará o desempenho do cluster.

A este respeito, o autor da estrutura explicou pessoalmente:

O que precisa ser transmitido no exo é um pequeno vetor de ativação, não todo o peso do modelo.
Para o modelo Llama-3-8B, o vetor de ativação é de aproximadamente 10 KB;
A latência da rede local normalmente é baixa (<5 ms) e não afeta significativamente o desempenho.

O autor afirmou que o framework atualmente suporta o tinygrad, portanto, embora o teste seja realizado principalmente em dispositivos Mac, ele (teoricamente) suporta todos os dispositivos que podem rodar o tinygrad.

Atualmente, o framework ainda está em fase experimental e o objetivo futuro é torná-lo tão simples quanto o Dropbox (um disco de rede).

A propósito, os funcionários do exo também listaram algumas deficiências que estão atualmente planejadas para serem resolvidas e lançaram uma recompensa pública. Aqueles que resolverem esses problemas receberão bônus que variam de 100 a 500 dólares americanos.

GitHub：
https://github.com/exo-explore/exo
Links de referência:
https://x.com/ac_crypto/status/1814912615946330473

notícias

Tablets de computador formam um cluster de IA, e você pode executar um modelo grande de 400B em casa, e o GitHub coletou 2,5 mil estrelas

Conclua a configuração em apenas 60 segundos

Internauta: É realmente tão útil?

Introdução

minhas informações de contato