L'IA générative pourrait ouvrir la voie à la prochaine tendance : TTT model

L'IA générative pourrait ouvrir la voie à la prochaine tendance : le modèle TTT

2024-07-18

La prochaine génération d’intelligence artificielle (IA) générative pourrait se concentrer sur les modèles de formation au moment des tests, ou TTT en abrégé.

L'architecture Transformers est le fondement du modèle vidéo Sora d'OpenAI et le cœur des modèles de génération de texte tels que Claude d'Anthropic, Gemini de Google et le modèle phare d'OpenAI GPT-4o. Mais aujourd’hui, l’évolution de ces modèles commence à se heurter à des obstacles techniques, notamment ceux liés à l’informatique. Parce que les Transformers ne sont pas particulièrement efficaces pour traiter et analyser de grandes quantités de données, du moins lorsqu'ils fonctionnent sur du matériel disponible dans le commerce. Les entreprises construisent et développent des infrastructures pour répondre aux besoins des transformateurs, ce qui entraîne une augmentation spectaculaire de la demande d'énergie qui pourrait ne pas être en mesure de répondre durablement à la demande.

Ce mois-ci, des chercheurs de l'Université de Stanford, de l'UC San Diego, de l'UC Berkeley et de Meta ont annoncé conjointement avoir passé un an et demi à développer l'architecture TTT. L'équipe de recherche affirme que le modèle TTT peut non seulement gérer beaucoup plus de données que les Transformers, mais ne consomme pas non plus autant de puissance de calcul que les Transformers.

Pourquoi les étrangers pensent-ils que le modèle TTT est plus prometteur que Transformers ? La première chose à comprendre est qu'un composant de base de Transformers est « l'état caché », qui est essentiellement une longue liste de données. Lorsque le Transformer traite quelque chose, il ajoute des entrées à l'état caché afin de « se souvenir » de ce qu'il vient de traiter. Par exemple, si le modèle traite un livre, la valeur de l'état caché sera la représentation d'un mot (ou d'une partie d'un mot).

Yu Sun, chercheur postdoctoral à l'Université de Stanford qui a participé à la recherche TTT susmentionnée, a récemment expliqué aux médias que si le Transformateur est considéré comme une entité intelligente, alors la table de recherche et son état caché sont le cerveau du Transformateur. Ce cerveau implémente certaines des fonctionnalités bien connues de Transformer, telles que l'apprentissage contextuel.

L'état caché aide les Transformers à devenir puissants, mais il entrave également le développement des Transformers. Par exemple, Transformers vient de lire un livre. Afin de « dire » ne serait-ce qu'un mot dans ce livre, le modèle Transformers doit analyser l'intégralité de la table de recherche. Cette exigence de calcul équivaut à relire l'intégralité du livre.

Sun et d’autres chercheurs de TTT ont donc pensé à remplacer les états cachés par des modèles d’apprentissage automatique, comme les poupées gigognes de l’IA, un modèle dans un modèle. Contrairement aux tables de recherche de Transformers, le modèle d'apprentissage automatique interne du modèle TTT ne se développe pas à mesure que davantage de données sont traitées. Au lieu de cela, il code les données traitées dans des variables représentatives appelées poids, c'est pourquoi le modèle TTT est très performant. Quelle que soit la quantité de données traitée par un modèle TTT, la taille de son modèle interne ne change pas.

Sun estime que les futurs modèles TTT pourront traiter efficacement des milliards de données, des mots aux images, des enregistrements aux vidéos. Cela dépasse largement les capacités des modèles existants. Le système de TTT peut dire X mots à un livre sans avoir à effectuer le calcul compliqué de relire le livre X fois. « Les modèles vidéo à grande échelle basés sur Transformers, tels que Sora, ne peuvent gérer que des vidéos de 10 secondes car ils n'ont qu'un « cerveau » de table de recherche. Notre objectif ultime est de développer un système capable de gérer de longues vidéos similaires à l'expérience visuelle. dans la vie humaine »

Les modèles TTT remplaceront-ils à terme les transformateurs ? Les médias estiment que cela est possible, mais il est trop tôt pour tirer des conclusions. Le modèle TTT ne remplace pas directement les Transformers pour le moment. Les chercheurs n'ont développé que deux petits modèles pour l'étude. Il est donc actuellement difficile de comparer le TTT avec les résultats obtenus par certains des plus grands modèles de Transformers.

Mike Cook, maître de conférences au département d'informatique du King's College de Londres qui n'a pas participé à l'étude TTT susmentionnée, a déclaré que TTT est une innovation très intéressante. Si les données soutiennent l'idée qu'elle peut améliorer l'efficacité, c'est une bonne nouvelle. , mais il ne peut pas le dire. TTT est-il meilleur que l'architecture existante ? Cook a déclaré que lorsqu'il était étudiant, un vieux professeur racontait souvent une blague : comment résoudre un problème en informatique ? Ajoutez une autre couche d'abstraction. L'ajout d'un réseau de neurones à un réseau de neurones lui a rappelé la solution à cette blague.

nouvelles

L'IA générative pourrait ouvrir la voie à la prochaine tendance : le modèle TTT

Introduction

mes coordonnées