cerebras lança solução de inferência de ia mais rápida do mundo, 20 vezes mais rápida que a solução da nvidia

2024-08-28

cerebras lança solução de inferência de ia mais rápida do mundo, 20 vezes mais rápida que solução da nvidia

2024/8/28 9:51:23 fonte: it house autor: yuanyang editor: yuanyang

comentários: 2

a it house informou em 28 de agosto que a cerebras systems anunciou hoje o lançamento do cerebras inference, que as autoridades dizem ser a solução de inferência de ia mais rápida do mundo. a nova solução fornece 1.800 tokens por segundo para llama 3.1 8b e 450 tokens por segundo para llama 3.1 70b, o que é 20 vezes mais rápido do que as soluções de inferência de ia baseadas em gpu nvidia disponíveis em nuvens de hiperescala, como o microsoft azure.

além do desempenho incrível, esta nova solução de inferência tem um preço significativamente mais baixo do que as nuvens gpu populares, começando em apenas 10 centavos por milhão de tokens, oferecendo desempenho 100 vezes melhor para cargas de trabalho de ia com boa relação custo-benefício.

este programa permitirá que os desenvolvedores de aplicativos de ia criem a próxima geração de aplicativos de ia sem comprometer a velocidade ou o custo. esta solução usa o sistema cerebras cs-3 e seu processador ai wafer scale engine 3 (wse-3). a largura de banda de memória do cs-3 é 7.000 vezes maior que a da nvidia h100, resolvendo os desafios técnicos de largura de banda de memória da ia generativa.

de acordo com a it house, o cerebras inference oferece os três níveis a seguir:

o nível gratuito oferece acesso gratuito à api e limites de uso generosos para qualquer pessoa que fizer login.

a camada de desenvolvedor foi projetada para implantações flexíveis sem servidor, fornecendo aos usuários um endpoint de api por uma fração do custo das alternativas no mercado, com o llama 3.1 custando 10 centavos por milhão de tokens para modelos 8b e 70b, respectivamente.

a camada empresarial fornece modelos ajustados, acordos de nível de serviço personalizados e suporte dedicado. as empresas podem acessar o cerebras inference por meio de uma nuvem privada gerenciada pela cerebras ou nas instalações do cliente, tornando-o ideal para cargas de trabalho contínuas.

a equipe da cerebras disse: "com desempenho recorde, preços líderes do setor e acesso aberto à api, o cerebras inference estabelece um novo padrão para o desenvolvimento e implantação de llm aberto. como a única solução que pode fornecer treinamento e inferência de alta velocidade simultaneamente, o cerebras opens up possibilidades totalmente novas para ia.”

o campo da ia está evoluindo rapidamente e, embora a nvidia domine atualmente o mercado de ia, o surgimento de empresas como cerebras e groq é um sinal de que a dinâmica da indústria pode mudar. à medida que a demanda por soluções de inferência de ia mais rápidas e econômicas continua a aumentar, esses desafiantes estão derrubando o domínio da nvidia, especialmente na área de inferência.

notícias

cerebras lança solução de inferência de ia mais rápida do mundo, 20 vezes mais rápida que a solução da nvidia

introdução

minhas informações de contato