cerebras lance la solution d'inférence d'ia la plus rapide au monde, 20 fois plus rapide que la solution nvidia

cerebras lance la solution d'inférence d'ia la plus rapide au monde, 20 fois plus rapide que la solution de nvidia

2024-08-28

cerebras lance la solution d'inférence d'ia la plus rapide au monde, 20 fois plus rapide que la solution de nvidia

2024/8/28 9:51:23 source : it house auteur : yuanyang éditeur : yuanyang

commentaires : 2

it house a rapporté le 28 août que cerebras systems avait annoncé aujourd'hui le lancement de cerebras inference, qui, selon les responsables, est la solution d'inférence d'ia la plus rapide au monde. la nouvelle solution fournit 1 800 jetons par seconde pour llama 3.1 8b et 450 jetons par seconde pour llama 3.1 70b, ce qui est 20 fois plus rapide que les solutions d'inférence d'ia basées sur gpu nvidia disponibles dans les cloud hyperscale tels que microsoft azure.

en plus de performances incroyables, cette nouvelle solution d'inférence est proposée à un prix nettement inférieur à celui des cloud gpu populaires, à partir de seulement 10 cents par million de jetons, offrant des performances 100 fois supérieures pour les charges de travail d'ia avec un bon rapport qualité-prix.

ce programme permettra aux développeurs d'applications d'ia de créer la prochaine génération d'applications d'ia sans compromettre la vitesse ou le coût. cette solution utilise le système cerebras cs-3 et son processeur ai wafer scale engine 3 (wse-3). la bande passante mémoire du cs-3 est 7 000 fois supérieure à celle du nvidia h100, résolvant ainsi les défis techniques de bande passante mémoire de l'ia générative.

selon it house, cerebras inference propose les trois niveaux suivants :

le niveau gratuit offre un accès gratuit à l'api et des limites d'utilisation généreuses à toute personne qui se connecte.

le niveau développeur est conçu pour des déploiements flexibles sans serveur, offrant aux utilisateurs un point de terminaison api à une fraction du coût des alternatives sur le marché, avec llama 3.1 au prix de 10 cents par million de jetons pour les modèles 8b et 70b respectivement.

le niveau entreprise propose des modèles affinés, des accords de niveau de service personnalisés et une assistance dédiée. les entreprises peuvent accéder à cerebras inference via un cloud privé géré par cerebras ou dans les locaux du client, ce qui le rend idéal pour les charges de travail en cours.

l'équipe de cerebras a déclaré : « avec des performances record, des prix de pointe et un accès api ouvert, cerebras inference établit une nouvelle norme pour le développement et le déploiement de llm ouverts. en tant que seule solution capable de fournir simultanément une formation et une inférence à grande vitesse, cerebras opens up de toutes nouvelles possibilités pour l’ia.

le domaine de l'ia évolue rapidement et, même si nvidia domine actuellement le marché de l'ia, l'émergence d'entreprises telles que cerebras et groq est le signe que la dynamique du secteur pourrait changer. alors que la demande de solutions d'inférence d'ia plus rapides et plus rentables continue d'augmenter, ces challengers bouleversent la domination de nvidia, en particulier dans le domaine de l'inférence.

nouvelles

cerebras lance la solution d'inférence d'ia la plus rapide au monde, 20 fois plus rapide que la solution de nvidia

introduction

mes coordonnées