nachricht

cerebras bringt die weltweit schnellste ki-inferenzlösung auf den markt, 20-mal schneller als die lösung von nvidia

2024-08-28

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

cerebras bringt die weltweit schnellste ki-inferenzlösung auf den markt, 20-mal schneller als die lösung von nvidia

28.08.2024 9:51:23 quelle: it house autor: yuanyang herausgeber: yuanyang

kommentare: 2

it house berichtete am 28. august, dass cerebras systems heute die einführung von cerebras inference angekündigt hat, bei dem es sich laut offiziellen angaben um die weltweit schnellste ki-inferenzlösung handelt. die neue lösung bietet 1800 token pro sekunde für llama 3.1 8b und 450 token pro sekunde für llama 3.1 70b, was 20-mal schneller ist als nvidia gpu-basierte ki-inferenzlösungen, die in hyperscale-clouds wie microsoft azure verfügbar sind.

neben der unglaublichen leistung ist diese neue inferenzlösung auch preislich deutlich günstiger als gängige gpu-clouds, beginnend bei nur 10 cent pro million token, und bietet eine 100-mal bessere leistung für ki-workloads zu einem guten preis-leistungs-verhältnis.

dieses programm wird es ki-anwendungsentwicklern ermöglichen, die nächste generation von ki-anwendungen zu entwickeln, ohne kompromisse bei geschwindigkeit oder kosten einzugehen. diese lösung nutzt das cerebras cs-3-system und seinen wafer scale engine 3 (wse-3) ki-prozessor. die speicherbandbreite von cs-3 ist 7.000-mal so hoch wie die von nvidia h100 und löst damit die technischen herausforderungen der generativen ki bei der speicherbandbreite.

laut it house bietet cerebras inference die folgenden drei ebenen:

das kostenlose kontingent bietet kostenlosen api-zugriff und großzügige nutzungsbeschränkungen für jeden, der sich anmeldet.

die entwicklerstufe ist für flexible serverlose bereitstellungen konzipiert und bietet benutzern einen api-endpunkt zu einem bruchteil der kosten von alternativen auf dem markt. der preis für llama 3.1 beträgt 10 cent pro million token für 8b- bzw. 70b-modelle.

die enterprise-ebene bietet fein abgestimmte modelle, individuelle service-level-agreements und dedizierten support. unternehmen können über eine von cerebras verwaltete private cloud oder kundenstandorte auf cerebras inference zugreifen, was es ideal für laufende arbeitslasten macht.

das cerebras-team sagte: „mit rekordleistung, branchenführenden preisen und offenem api-zugriff setzt cerebras inference einen neuen standard für die offene llm-entwicklung und -bereitstellung. als einzige lösung, die gleichzeitig hochgeschwindigkeitstraining und inferenz bieten kann, öffnet sich cerebras.“ völlig neue möglichkeiten für ki.“

der bereich der ki entwickelt sich rasant weiter, und während nvidia derzeit den ki-markt dominiert, ist das aufkommen von unternehmen wie cerebras und groq ein zeichen dafür, dass sich die branchendynamik ändern könnte. da die nachfrage nach schnelleren und kostengünstigeren ki-inferenzlösungen weiter steigt, stellen diese herausforderer die dominanz von nvidia auf den kopf, insbesondere im bereich der inferenz.