Nachricht

Generative KI könnte den nächsten Trend einläuten: das TTT-Modell

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Der Fokus der nächsten Generation generativer künstlicher Intelligenz (KI) könnte auf Testzeit-Trainingsmodellen, kurz TTT, liegen.

Die Transformers-Architektur ist die Grundlage des OpenAI-Videomodells Sora und der Kern von Textgenerierungsmodellen wie Claude von Anthropic, Gemini von Google und OpenAIs Flaggschiffmodell GPT-4o. Doch nun stößt die Weiterentwicklung dieser Modelle auf technische Hürden, insbesondere im Zusammenhang mit der Datenverarbeitung. Denn Transformer sind bei der Verarbeitung und Analyse großer Datenmengen nicht besonders effizient, zumindest wenn sie auf handelsüblicher Hardware laufen. Unternehmen bauen und erweitern Infrastruktur, um den Anforderungen von Transformatoren gerecht zu werden, was zu einem dramatischen Anstieg des Strombedarfs führt, der möglicherweise nicht in der Lage ist, den Bedarf nachhaltig zu decken.

Diesen Monat gaben Forscher der Stanford University, der UC San Diego, der UC Berkeley und Meta gemeinsam bekannt, dass sie anderthalb Jahre damit verbracht haben, die TTT-Architektur zu entwickeln. Das Forschungsteam behauptet, dass das TTT-Modell nicht nur viel mehr Daten verarbeiten kann als Transformers, sondern auch nicht so viel Rechenleistung verbraucht wie Transformers.

Warum halten Außenstehende das TTT-Modell für vielversprechender als Transformers? Das erste, was Sie verstehen müssen, ist, dass eine Grundkomponente von Transformers der „verborgene Zustand“ ist, bei dem es sich im Wesentlichen um eine lange Liste von Daten handelt. Wenn der Transformer etwas verarbeitet, fügt er dem verborgenen Status Einträge hinzu, um sich zu „merken“, was er gerade verarbeitet hat. Wenn das Modell beispielsweise ein Buch verarbeitet, ist der verborgene Zustandswert die Darstellung eines Wortes (oder eines Teils eines Wortes).

Yu Sun, ein Postdoktorand an der Stanford University, der an der oben genannten TTT-Forschung beteiligt war, erklärte kürzlich den Medien, dass, wenn der Transformer als intelligentes Wesen betrachtet wird, die Nachschlagetabelle und ihr verborgener Zustand das Gehirn des Transformers sind. Dieses Gehirn implementiert einige der bekannten Funktionen von Transformer, wie zum Beispiel kontextuelles Lernen.

Der verborgene Zustand hilft Transformers, mächtig zu werden, behindert aber auch die Entwicklung von Transformers. Beispielsweise hat Transformers gerade ein Buch gelesen. Um auch nur ein Wort in diesem Buch zu „sagen“, muss das Transformers-Modell die gesamte Nachschlagetabelle scannen. Diese Rechenanforderung entspricht dem erneuten Lesen des gesamten Buchs.

Also dachten Sun und andere Forscher am TTT darüber nach, verborgene Zustände durch Modelle für maschinelles Lernen zu ersetzen – wie die Nistpuppen der KI, ein Modell innerhalb eines Modells. Im Gegensatz zu den Nachschlagetabellen von Transformers wächst das interne maschinelle Lernmodell des TTT-Modells nicht, wenn mehr Daten verarbeitet werden. Stattdessen kodiert es die verarbeiteten Daten in repräsentative Variablen, sogenannte Gewichte, weshalb das TTT-Modell eine hohe Leistung aufweist. Unabhängig davon, wie viele Daten ein TTT-Modell verarbeitet, ändert sich die Größe seines internen Modells nicht.

Sun glaubt, dass zukünftige TTT-Modelle Milliarden von Daten effizient verarbeiten können, von Wörtern bis zu Bildern, von Aufzeichnungen bis zu Videos. Dies liegt weit über den Möglichkeiten vorhandener Modelle. Das System von TTT kann X Wörter zu einem Buch sagen, ohne dass die komplizierte Berechnung durchgeführt werden muss, das Buch X-mal erneut zu lesen. „Großformatige Videomodelle, die auf Transformers basieren, wie Sora, können nur 10-Sekunden-Videos verarbeiten, da sie nur über ein Nachschlagetabellen-‚Gehirn‘ verfügen. Unser oberstes Ziel ist es, ein System zu entwickeln, das lange Videos verarbeiten kann, die dem visuellen Erlebnis ähneln.“ im menschlichen Leben“

Werden TTT-Modelle irgendwann Transformatoren ersetzen? Die Medien glauben, dass dies möglich ist, aber es ist noch zu früh, um jetzt Schlussfolgerungen zu ziehen. Das TTT-Modell ist derzeit kein direkter Ersatz für Transformers. Die Forscher haben für die Studie nur zwei kleine Modelle entwickelt, daher ist es derzeit schwierig, TTT mit den Ergebnissen einiger größerer Transformers-Modelle zu vergleichen.

Mike Cook, Dozent am Institut für Informatik des King's College London, der nicht an der oben genannten TTT-Studie beteiligt war, meinte, dass TTT eine sehr interessante Innovation sei. Wenn die Daten die Idee stützen, dass es die Effizienz verbessern kann, sind das gute Nachrichten , aber er kann nicht sagen, ob TTT besser ist als die bestehende Architektur? Cook erzählte, dass ein alter Professor während seines Studiums oft einen Witz erzählte: „Wie löst man ein Problem in der Informatik?“ Fügen Sie eine weitere Abstraktionsebene hinzu. Das Hinzufügen eines neuronalen Netzwerks zu einem neuronalen Netzwerk erinnerte ihn an die Lösung dieses Witzes.