2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
rapport sur le cœur de la machine
département éditorial de machine heart
nouvelle architecture inspirée de c. elegans, les trois « formes de coupe » peuvent atteindre des performances sota et peuvent être déployées dans des environnements à ressources fortement limitées. les robots mobiles peuvent avoir besoin du cerveau d'un bug.
à l’ère des grands modèles, le transformer proposé dans l’article fondateur de google de 2017 « attention is all you need » est devenu une architecture grand public.
cependant, liquid ai, une startup qui vient d'être cofondée par d'anciens chercheurs du laboratoire d'informatique et d'intelligence artificielle (csail) du mit, a emprunté une voie différente.
liquid ai affirme que son objectif est « d’explorer des moyens de créer des modèles au-delà du transformateur génératif pré-entraîné (gpt) de base ».
pour atteindre cet objectif, liquid ai a lancé ses premiers modèles d'ia multimodaux : liquid foundation models (lfm). il s'agit d'une nouvelle génération de modèles d'ia génératifs construits à partir des premiers principes, avec des lfm 1b, 3b et 40b atteignant des performances sota à toutes les échelles tout en conservant une empreinte mémoire plus petite et une inférence plus efficace.
le directeur post-formation de liquid ai, maxime labonne, a déclaré sur x que lfm est la version dont il est le plus fier dans sa carrière. le principal avantage de lfm est qu'ils peuvent surpasser les modèles basés sur transformer tout en utilisant moins de mémoire.
certaines personnes disent que lfm est le terminateur de transformer.
certains internautes ont salué le fait que lfm ait changé la donne.
certains internautes estiment qu '"il est peut-être temps d'abandonner transformers. cette nouvelle architecture semble très prometteuse".
liquid ai lance trois modèles
la gamme lfm est disponible en trois tailles et variantes différentes :
lfm intensif 1,3b (minimum), idéal pour les environnements à ressources fortement limitées.
lfm 3b dense, optimisé pour le déploiement en périphérie.
modèle lfm 40.3b moe (le plus grand modèle hybride expert de type mistral), conçu pour gérer des tâches plus complexes.
performances sota
comparaison du lfm-1b avec des modèles réduits équivalents. le lfm-1b a obtenu les meilleurs scores à chaque test de référence, ce qui en fait le modèle le plus avancé de sa catégorie. c'est la première fois qu'une architecture non gpt surpasse significativement les modèles basés sur transformer. par exemple, lfm 1.3b a surpassé le llama 3.2-1.2b de meta et le phi-1.5 de microsoft dans des benchmarks tiers.
le lfm-3b atteint des performances incroyables, se classant au premier rang en comparaison avec les modèles de transformateur 3b, les modèles hybrides et les modèles rnn. il est également comparable au phi-3.5-mini dans plusieurs tests de référence, tout en étant 18,4 % plus petit. on peut voir que le lfm-3b est idéal pour les applications mobiles et autres applications de texte de pointe.
le lfm-40b atteint un nouvel équilibre entre la taille du modèle et la qualité de sortie. il peut activer des paramètres 12b au moment de l'exécution, avec des performances comparables à celles des modèles plus grands, tandis que l'architecture moe permet un débit plus élevé et peut être déployée sur du matériel plus rentable.
mémoire efficace
lfm occupe moins de mémoire par rapport à l'architecture transformer. cela est particulièrement vrai pour les entrées longues, puisque le cache kv dans llm basé sur transformer augmente de manière linéaire avec la longueur de la séquence. en compressant efficacement l'entrée, lfm peut traiter des séquences plus longues sur le même matériel. le lfm occupe le moins de mémoire par rapport aux autres modèles de classe 3b. par exemple, le lfm-3b ne nécessite que 16 go de mémoire, tandis que le llama-3.2-3b de meta nécessite plus de 48 go de mémoire.
lfm profite vraiment de la longueur du contexte
le tableau ci-dessous compare les performances de plusieurs modèles dans différentes longueurs de contexte.
cette fenêtre contextuelle efficace permet pour la première fois de réaliser des tâches contextuelles longues sur les appareils edge. pour les développeurs, il ouvre de nouvelles applications, notamment l'analyse et la synthèse de documents, des interactions plus significatives avec des chatbots contextuels et des performances améliorées de génération augmentée par récupération (rag).
ces modèles sont compétitifs non seulement en termes de performances brutes, mais également en termes d'efficacité opérationnelle, ce qui les rend idéaux pour une variété de cas d'utilisation, depuis les applications d'entreprise jusqu'au déploiement d'équipements de pointe dans les services financiers, la biotechnologie et l'électronique grand public.
les utilisateurs peuvent y accéder via lambda chat ou perplexity ai, etc.
comment liquid va au-delà du transformateur génératif pré-entraîné (gpt)
liquid utilise un hybride d'unités de calcul profondément enracinées dans les théories de la théorie des systèmes dynamiques, du traitement du signal et de l'algèbre linéaire numérique. le résultat a été le développement de modèles d’ia à usage général qui peuvent être utilisés pour simuler tout type de données de séquence, y compris la vidéo, l’audio, le texte, les séries chronologiques et les signaux, afin de former son nouveau lfm.
dès l'année dernière, liquid ai a utilisé une méthode appelée lnn (liquid neural networks). contrairement aux modèles d'apprentissage profond traditionnels qui nécessitent des milliers de neurones pour effectuer des tâches complexes, lnn montre que moins de neurones (combinés avec des formules mathématiques innovantes) peuvent réaliser la même chose. résultats.
les nouveaux modèles de liquid ai conservent l’avantage principal de cette adaptabilité, permettant des ajustements en temps réel pendant l’inférence sans la surcharge de calcul associée aux modèles traditionnels. peut gérer efficacement jusqu'à 1 million de jetons tout en minimisant l'utilisation de la mémoire.
par exemple, en termes d'empreinte mémoire d'inférence, le modèle lfm-3b surpasse les modèles populaires tels que le gemma-2 de google, le phi-3 de microsoft et le llama-3.2 de meta, en particulier lorsque la longueur du jeton est étendue.
alors que d'autres modèles connaissent une augmentation spectaculaire de l'utilisation de la mémoire lors du traitement de contextes longs, le lfm-3b occupe beaucoup moins d'espace, ce qui le rend idéal pour les applications nécessitant un traitement de données séquentiel lourd, telles que l'analyse de documents ou les chatbots.
liquid ai a construit son modèle fondamental en tant que modèle universel couvrant plusieurs modalités de données, notamment l'audio, la vidéo et le texte.
grâce à cette capacité multimodale, liquid vise à résoudre une variété de défis spécifiques à l'industrie, allant des services financiers à la biotechnologie et à l'électronique grand public.
liquid ai optimise ses modèles pour les produits de plusieurs fabricants de matériel, notamment nvidia, amd, apple, qualcomm et cerebras.
liquid ai invite les premiers utilisateurs et développeurs à tester leurs nouveaux modèles et à faire part de leurs commentaires. bien que le modèle ne soit pas encore parfait, l'entreprise prévoit d'utiliser les commentaires pour améliorer le produit. ils organiseront un événement de lancement officiel le 23 octobre 2024 au mit.
dans un effort de maintenir la transparence et de faire progresser la science, la société prévoit de publier une série d'articles de blog techniques avant le lancement. ils encouragent également les utilisateurs à effectuer des tests en équipe rouge pour explorer les limites du modèle afin de contribuer à améliorer les futures versions.
lfm introduit par liquid ai combine hautes performances et utilisation efficace de la mémoire, offrant une alternative puissante aux modèles traditionnels basés sur transformer. cela fait que liquid ai devrait devenir un acteur important dans le domaine des modèles de base.
liquid ai : commencer par un petit bug
cette startup, qui concurrence ouvertement openai et d'autres grandes sociétés de modèles linguistiques, a été incubée par le laboratoire d'informatique et d'intelligence artificielle csail du mit et a été fondée en mars 2023.
en décembre 2023, la société a reçu 37,5 millions de dollars de financement d'amorçage, avec une valorisation atteignant 300 millions.
les investisseurs incluent tom preston werner, co-fondateur de github, tobias lütke, co-fondateur de shopify, bob young, co-fondateur de red hat, etc.
daniela rus, directrice du mit csail, est l'une des fondatrices de l'entreprise. cette célèbre roboticienne et informaticienne est également la première femme directrice du laboratoire.
outre daniela rus, les trois autres cofondateurs de liquid ai étaient tous des chercheurs postdoctoraux au mit csail.
le co-fondateur et pdg ramin hasani était le scientifique en chef en intelligence artificielle chez vanguard, l'une des plus grandes sociétés de gestion de fonds aux états-unis, avant de s'engager dans des recherches postdoctorales au mit csail.
le co-fondateur et directeur technique mathias lechner avait étudié la structure neuronale des nématodes avec hasani dès qu'ils étaient étudiants à l'université technique de vienne.
le co-fondateur et directeur scientifique, alexander amini, était doctorant auprès de daniela rus.
les quatre fondateurs (de gauche à droite) le pdg ramin hasani, daniela rus, le directeur scientifique alexander amini et le cto mathias lechner
en 2017, daniela rus a « creusé » hasani et lechner au mit csail, et rus et son doctorant amini ont également rejoint la recherche sur les réseaux de neurones liquides.
daniela rus a souligné que l'ia générative présente des limites évidentes en termes de sécurité, d'interprétabilité et de puissance de calcul, ce qui rend difficile son utilisation pour résoudre les problèmes des robots, en particulier des robots mobiles.
inspiré par la structure neuronale du nématode caenorhabditis elegans, un « invité fréquent » dans la communauté de la recherche scientifique, daniela rus et des chercheurs postdoctoraux de son laboratoire ont développé un nouveau type de réseau neuronal flexible, également connu sous le nom de réseau neuronal liquide.
caenorhabditis elegans est également le seul organisme pour lequel la détermination du connectome a été achevée (en 2019). bien que le cerveau soit simple, il est également bien meilleur pour apprendre et s’adapter à l’environnement que n’importe quel système d’intelligence artificielle actuel.
caenorhabditis elegans ne mesure que 1 mm de long, ne possède que 302 neurones et 96 muscles, mais il est capable de comportements intelligents complexes tels que la détection, la fuite, la recherche de nourriture et l'accouplement.
il s'agit de l'agent intelligent vivant le plus simple et du plus petit support permettant de réaliser une intelligence artificielle générale grâce à la simulation de mécanismes neuronaux biologiques.
ces dernières années, les chercheurs scientifiques ont également utilisé les résultats de recherches sur les nerfs de c. elegans pour effectuer des simulations biologiques informatiques. en étudiant le fonctionnement du cerveau de c. elegans, daniela rus et d'autres ont conçu des « réseaux liquides à temps constant » :
un modèle en temps continu composé de plusieurs systèmes dynamiques simples qui se régulent mutuellement via des portes non linéaires.
si nous disons qu'un réseau neuronal standard est comme une couche de barrages régulièrement espacés, avec de nombreuses vannes (poids) installées sur chaque couche de barrages, le torrent calculé doit passer par ces vannes à chaque fois qu'il traverse une couche de barrages, puis précipitez-vous vers le niveau suivant.
eh bien, les réseaux de neurones liquides n'ont pas besoin de barrages car chaque neurone est contrôlé par une équation différentielle (ode).
ce type de réseau est caractérisé par des constantes de temps variables et le résultat est obtenu en résolvant des équations différentielles. la recherche montre qu'il surpasse les modèles traditionnels en termes de stabilité, d'expressivité et de prédiction de séries chronologiques.
plus tard, daniela rus et d'autres ont proposé une méthode d'approximation qui peut utiliser des solutions de forme fermée pour simuler efficacement l'interaction entre les neurones et les synapses (réseaux de neurones à temps continu de forme fermée), ce qui a non seulement grandement amélioré le calcul de la vitesse du modèle, mais également montre une meilleure évolutivité et fonctionne bien dans la modélisation de séries chronologiques, surpassant de nombreux modèles avancés de réseaux neuronaux récurrents.
les membres de l'équipe liquid ai ont affirmé que l'architecture était adaptée à l'analyse de tout phénomène fluctuant dans le temps, notamment le traitement vidéo, la conduite autonome, la surveillance cérébrale et cardiaque, les transactions financières (cotations boursières) et les prévisions météorologiques.
en plus d’être flexibles comme un liquide, une autre caractéristique des réseaux de neurones liquides est qu’ils sont beaucoup plus petits que les modèles d’ia génératifs qui comportent souvent des milliards de paramètres.
par exemple, lfm 1.3b, qui peut être déployé dans des environnements à ressources fortement limitées, ne comporte que 1,3 b de paramètres (similaires à la version maximale 1,5b de gpt-2), tout en conservant une empreinte mémoire plus petite et une inférence plus efficace, et peut être utilisé dans diverses exécutions sur la plate-forme matérielle du robot.
de plus, les réseaux de neurones liquides présentent également l’avantage de l’interprétabilité en raison de leur petite taille et de leur architecture simple.
cependant, il reste à voir comment la nouvelle architecture rivalisera avec les modèles traditionnels de concurrents tels qu'openai.
hasani a déclaré que liquid ai n'avait actuellement pas l'intention de développer des applications comme chatgpt pour les consommateurs. la société se concentre d’abord sur les entreprises clientes qui cherchent à modéliser la recherche financière et médicale.
liens de référence :
https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/
https://arxiv.org/abs/2106.13898
https://arxiv.org/abs/2006.04439
https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai