Nachricht

Microsoft und NVIDIA setzen auf kleine Modelle. Sind große Modelle nicht mehr beliebt?

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Bei der Entwicklung der künstlichen Intelligenz konkurrierten einst Technologiegiganten um die Entwicklung groß angelegter Sprachmodelle, doch nun zeichnet sich ein neuer Trend ab: Nach und nach entstehen kleine Sprachmodelle (SLM), die das bisherige Konzept „Größer ist besser“ in Frage stellen.

Visuelles China

Am 21. August Ortszeit veröffentlichten Microsoft und NVIDIA nacheinander die neuesten kleinen Sprachmodelle – Phi-3.5-mini-instruct und Mistral-NeMo-Minitron8B. Das Hauptverkaufsargument beider Modelle ist ihr gutes Gleichgewicht zwischen Rechenressourcenverbrauch und funktionaler Leistung. In mancher Hinsicht kann ihre Leistung sogar mit größeren Modellen mithalten.

Clem Delangue, CEO des Startups Hugging Face für künstliche Intelligenz, wies darauf hin, dass bis zu 99 % der Nutzungsszenarien durch SLM gelöst werden können, und prognostizierte, dass 2024 das Jahr von SLM sein wird. Unvollständigen Statistiken zufolge haben Technologiegiganten wie Meta, Microsoft und Google in diesem Jahr neun kleine Modelle herausgebracht.

Die Kosten für die Ausbildung großer Modelle steigen

Der Aufstieg von SLM ist kein Zufall, sondern hängt eng mit den Herausforderungen großer Modelle (LLM) hinsichtlich Leistungsverbesserung und Ressourcenverbrauch zusammen.

Ein im April von den KI-Startups Vellum und Hugging Face veröffentlichter Leistungsvergleich zeigte, dass sich die Leistungslücke zwischen LLMs schnell schließt, insbesondere bei spezifischen Aufgaben wie Multiple-Choice-Fragen, Argumentations- und mathematischen Problemen, bei denen die Unterschiede zwischen den Topmodellen extrem groß sind . Klein. Beispielsweise erreichten Claude 3 Opus, GPT-4 und Gemini Ultra bei Multiple-Choice-Fragen alle eine Genauigkeit von über 83 %, während Claude3 Opus, GPT-4 und Gemini 1.5Pro bei Inferenzaufgaben jeweils eine Genauigkeit von über 83 % erreichten über 92 %.

Gary Marcus, ehemaliger Leiter von Uber AI, betonte: „Ich denke, jeder würde sagen, dass GPT-4 GPT-3.5 einen Schritt voraus ist, aber seitdem hat es seit mehr als einem Jahr keinen qualitativen Sprung mehr gegeben.“

Verglichen mit der begrenzten Leistungsverbesserung steigen die Schulungskosten von LLM ständig. Das Training dieser Modelle erfordert riesige Datenmengen und Hunderte Millionen oder sogar Billionen Parameter, was zu einem extrem hohen Ressourcenverbrauch führt. Die Rechenleistung und der Energieverbrauch, die zum Trainieren und Betreiben von LLM erforderlich sind, sind enorm und erschweren es kleinen Organisationen oder Einzelpersonen, sich an der Kernentwicklung von LLM zu beteiligen.

Die Internationale Energieagentur schätzt, dass der Stromverbrauch im Zusammenhang mit Rechenzentren, Kryptowährung und künstlicher Intelligenz bis 2026 in etwa dem gesamten Stromverbrauch Japans entsprechen wird.

Altman, CEO von OpenAI, sagte einmal auf einer MIT-Veranstaltung, dass das Training von GPT-4 mindestens 100 Millionen US-Dollar kosten würde, während Anthropic-CEO Dario Amodei vorhersagte, dass die Kosten für das Training des Modells in Zukunft 100 Milliarden US-Dollar erreichen könnten.

Darüber hinaus erhöht die Komplexität der für die Verwendung von LLM erforderlichen Tools und Techniken auch die Lernkurve der Entwickler. Der gesamte Prozess von der Schulung bis zur Bereitstellung dauert lange und verlangsamt die Entwicklung. Eine Studie der Universität Cambridge zeigt, dass Unternehmen 90 Tage oder länger brauchen können, um ein Modell für maschinelles Lernen bereitzustellen.

Ein weiteres großes Problem bei LLM besteht darin, dass es anfällig für „Illusionen“ ist – das heißt, die vom Modell generierte Ausgabe erscheint vernünftig, ist aber nicht wirklich korrekt. Dies liegt daran, dass LLM darauf trainiert ist, das nächstwahrscheinlichste Wort anhand von Mustern in den Daten vorherzusagen, anstatt die Informationen wirklich zu verstehen. Infolgedessen kann es vorkommen, dass LLM selbstbewusst falsche Aussagen macht, Fakten fabriziert oder unzusammenhängende Konzepte auf absurde Weise kombiniert. Die Erkennung und Reduzierung dieser „Illusionen“ ist eine ständige Herausforderung bei der Entwicklung zuverlässiger und vertrauenswürdiger Sprachmodelle.

Kleine Modelle senken die Kosten

Bedenken hinsichtlich des enormen Energiebedarfs von LLM sowie der Marktchancen, Unternehmen vielfältigere KI-Optionen anzubieten, haben dazu geführt, dass Technologieunternehmen ihre Aufmerksamkeit schrittweise auf SLM richten.

„Daily Economic News“-Reportern fiel auf, dass sowohl KI-Startups wie Arcee, Sakana AI und Hugging Face als auch Technologiegiganten durch SLM und wirtschaftlichere Methoden Investoren und Kunden anlocken.

Zuvor haben Google, Meta, OpenAI und Anthropic allesamt kleine Modelle herausgebracht, die kompakter und flexibler sind als das Flaggschiff-LLM. Dies reduziert nicht nur die Entwicklungs- und Bereitstellungskosten, sondern bietet auch gewerblichen Kunden eine günstigere Lösung. Angesichts der wachsenden Besorgnis der Anleger über die hohen Kosten und unsicheren Renditen von KI-Unternehmen könnten sich mehr Technologieunternehmen für diesen Weg entscheiden. Sogar Microsoft und NVIDIA haben inzwischen eigene kleine Modelle (SLM) auf den Markt gebracht.

SLMs sind optimierte Versionen von LLMs mit weniger Parametern und einfacheren Designs und erfordern weniger Daten und Trainingszeit – nur wenige Minuten oder Stunden. Dadurch wird SLM effizienter und einfacher auf kleinen Geräten bereitzustellen. Sie können beispielsweise in Mobiltelefone integriert werden, ohne Supercomputing-Ressourcen zu beanspruchen, wodurch die Kosten gesenkt und die Reaktionsfähigkeit erheblich verbessert werden.

Ein weiterer großer Vorteil von SLM ist die Spezialisierung auf bestimmte Anwendungen. SLMs konzentrieren sich auf bestimmte Aufgaben oder Domänen, was sie in praktischen Anwendungen effizienter macht. Beispielsweise übertreffen SLMs häufig Allzweckmodelle bei der Stimmungsanalyse, der Erkennung benannter Entitäten oder der Beantwortung domänenspezifischer Fragen. Diese Anpassung ermöglicht es Unternehmen, Modelle zu erstellen, die ihre spezifischen Anforderungen effizient erfüllen.

SLMs sind auch weniger anfällig für „Halluzinationen“ innerhalb einer bestimmten Domäne, da sie typischerweise auf engere, gezieltere Datensätze trainiert werden, was dem Modell hilft, die Muster und Informationen zu lernen, die für seine Aufgabe am relevantesten sind. Durch die Fokussierung von SLM verringert sich die Wahrscheinlichkeit, dass irrelevante, unerwartete oder inkonsistente Ergebnisse generiert werden.

Trotz seiner geringeren Größe ist die Leistung des SLM den größeren Modellen in mancher Hinsicht nicht unterlegen. Der neueste Phi-3.5-Mini-Instruct von Microsoft verfügt nur über 3,8 Milliarden Parameter, ist aber leistungsstärker als Modelle mit viel höheren Parametern als Llama3.18B und Mistral7B. Aaron Mueller, Experte für Sprachmodellforschung an der Northeastern University (einer führenden privaten Forschungsuniversität in Boston, Massachusetts, USA), wies darauf hin, dass die Erweiterung der Anzahl der Parameter nicht die einzige Möglichkeit ist, die Modellleistung durch höherwertige Daten zu verbessern führen auch zu ähnlichen Ergebnissen.

Altman, CEO von OpenAI, sagte bei einer Veranstaltung im April, er glaube, wir seien am Ende der Ära der Riesenmodelle und „wir werden ihre Leistung auf andere Weise verbessern.“

Es ist jedoch zu beachten, dass die Spezialisierung von SLM zwar einen großen Vorteil darstellt, aber auch Einschränkungen mit sich bringt. Außerhalb ihres spezifischen Ausbildungsbereichs können diese Modelle eine schlechte Leistung erbringen, ihnen fehlt eine breite Wissensbasis und sie sind im Vergleich zu LLM nicht in der Lage, relevante Inhalte zu einem breiten Themenspektrum zu generieren. Diese Einschränkung erfordert, dass Benutzer möglicherweise mehrere SLMs bereitstellen müssen, um unterschiedliche Nachfragebereiche abzudecken, was die KI-Infrastruktur verkompliziert.

Mit der rasanten Entwicklung des KI-Bereichs können sich die Standards für kleine Modelle weiter ändern. David Ha, Mitbegründer und CEO des in Tokio ansässigen Kleinmodell-Startups Sakana, sagte, dass KI-Modelle, die vor ein paar Jahren riesig erschienen, heute „bescheiden“ wirken. „Größe ist immer relativ“, sagte David Ha.

Tägliche Wirtschaftsnachrichten

Bericht/Feedback