ACL2024 : le moteur Yuntian Lifei SPACE dévoilé, le raisonnement sur grands modèles pourrait entrer dans une nouvelle étape

2024-08-14

Du 11 au 16 août, la 62e réunion annuelle de l'Association for Computational Linguistics (ACL) s'est tenue à Bangkok, en Thaïlande.

L'article « Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding » rédigé par l'équipe de grands modèles de Yuntian Lifei a été accepté comme article long sur les résultats de l'ACL24. Il s'agit d'une présentation progressive de certains des résultats de recherche du grand modèle de Yuntian Lifei.

La conférence annuelle de l'ACL est la première conférence universitaire au monde dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. Elle est répertoriée comme conférence de classe A dans la conférence recommandée. liste de la Fédération informatique chinoise (CCF).

L'article sélectionné par Yuntian Lifei proposait le moteur SPACE, une solution innovante permettant d'accélérer sans perte l'inférence de grands modèles. Les résultats des tests sur différents types de grands modèles montrent queAprès avoir utilisé le moteur SPACE, la vitesse d'inférence du modèle sur l'ensemble de test HumanEval a augmenté de 270 à 400 %., la qualité des résultats d'inférence reste inchangée et permet d'obtenir à la fois un « calcul rapide » et un « calcul précis ».

Articles sélectionnés de l'équipe des grands modèles de Yuntian Lifei

Il est difficile pour les solutions de raisonnement traditionnelles de répondre « à la fois aux besoins et aux désirs ».

L'ESPACE estSmarchéParallèleUNuto-Ccorrect DetL'abréviation de coding signifie « décodage intelligent parallèle automatique avec correction d'erreurs ».

Ce schéma de raisonnement présente deux caractéristiques majeures : premièrement, il adoptesemi-autorégressifmodèle de raisonnement, qui accélère considérablement le raisonnement ;vérifierCette méthode peut améliorer la vitesse de raisonnement tout en garantissant la précision du raisonnement.

Qu'est-ce que le « semi-autorégressif » ? Pourquoi devrions-nous ajouter la vérification ? Avant d'expliquer ces problèmes, nous devons d'abord comprendre comment « fonctionne » le grand modèle actuel ?

Ouvrez l'application du grand modèle de langage, nous entrons "Qu'est-ce que le grand modèle ?" dans la boîte de dialogue, et le grand modèle affichera sa réponse mot pour mot : "Le grand modèle est un modèle d'apprentissage en profondeur avec des dizaines de millions de paramètres." Le processus de cette réponse peut être vu semble très simple. Mais en réalité, les grands modèles ont connu en coulisses de multiples cycles « autorégressifs ».

Tout d'abord, le grand modèle prédira d'abord le premier mot de la sortie - « grand » en fonction du contenu que nous avons saisi, puis ramènera le mot « grand » à l'extrémité d'entrée et prédira quel sera le mot suivant en fonction du mot "grand". Bien sûr, cette « prédiction » n'est pas une « supposition aveugle » à partir de rien, mais le modèle effectuera un jugement complet basé sur les données vues lors du processus de formation précédent et sélectionnera le mot avec la probabilité la plus élevée comme prochain mot de sortie. .

Dans ce cas, le deuxième mot de sortie est « module ». Après avoir sorti le deuxième mot, le grand modèle ramènera à nouveau les mots « grand module » au terminal d'entrée et prédira le troisième mot généré. Ce cycle continue jusqu'à la fin de la phrase complète.

Ce processus est une « autorégression ».

Actuellement, l’autorégression est la solution principale utilisée pour l’inférence de grands modèles.Qu'il s'agisse de ChatGPT, de l'open source Llama ou de nombreux grands modèles domestiques, ils utilisent principalement des solutions d'inférence autorégressive.

Diagramme schématique du schéma autorégressif

Les avantages et les inconvénients du système autorégressif sont également très évidents. L’avantage est que cela garantit que le contenu généré est précis, significatif et contextuellement cohérent. Les inconvénients sont un coût de calcul élevé et un long délai d'inférence.

Pour surmonter ces problèmes, les solutions proposées par l'industrie sont"Semi-autorégressif"et"Décodage de la spéculation"。

« Semi-autorégressif » est un compromis entre « autorégressif » et « non autorégressif ». mentionné ci-dessus,"Autorégressif"Il utilise les mots générés pour prédire le mot suivant ;"Non autorégressif"C'est le contraire de « autorégressif », prédisant la phrase entière d'un coup."Non autorégressif"La solution peut améliorer l’efficacité du raisonnement, mais la précision du résultat est considérablement réduite. La solution « semi-autorégressive » considère de manière exhaustive les avantages et les inconvénients des méthodes « autorégressives » et « non autorégressives » pour équilibrer les exigences de rapidité et de précision du raisonnement sur grand modèle.

Cependant, l'utilisation de la solution « semi-autorégressive » a posé de nouveaux problèmes : premièrement, la plupart des grands modèles ne peuvent pas être utilisés, et deuxièmement, la précision ne peut pas répondre aux exigences de l'industrie.Les grands modèles traditionnels sont construits selon le mode d'inférence autorégressive. Si vous souhaitez utiliser une solution semi-autorégressive, vous devez recycler le grand modèle à partir de zéro. La formation d'un grand modèle nécessite beaucoup d'électricité, de puissance de calcul et de main-d'œuvre. Presque personne ne renversera le grand modèle qui a finalement été formé et recommencera afin de modifier le schéma d'inférence.

Une autre option est le « décodage spéculatif ».Ce plan est basé sur"Brouillon - Valider"Pour le travail de processus, vous devez d'abord introduire un modèle auxiliaire avec un nombre relativement petit de paramètres. Le petit modèle « rédige » d'abord les réponses des candidats, puis le grand modèle vérifie si les réponses des candidats sont correctes ou non. Grâce au fait que les petits modèles raisonnent plus rapidement que les grands modèles, et que les grands modèles peuvent vérifier plusieurs réponses candidates en même temps, cette méthode de décodage peut non seulement garantir l'exactitude des résultats de sortie, mais également accélérer le raisonnement.

Mais cette solution présente aussi des inconvénients. Premièrement, il faut d'abord réaliser un petit modèle très « fiable », et être capable de « rédiger » la réponse rapidement et précisément, ce qui en soi est difficile. Deuxièmement, les deux modèles doivent avoir « le même texte, la même piste et le même système » entre les deux modèles. Ce n'est qu'en atteignant un haut degré de cohérence en termes de segmenteurs de mots et de listes de mots que les résultats de la vérification peuvent être garantis.

Moteur d'inférence SPACE - petites modifications, grande accélération

Puisque plusieurs solutions ne peuvent pas répondre « à la fois aux besoins et aux désirs », existe-t-il une solution qui ne peut que conserver leurs avantages et éviter leurs défauts ? Il s'agit du moteur d'inférence SPACE proposé par l'équipe des grands modèles Yuntian Lifei ? SPACE combine les deux solutions de « réglage fin supervisé semi-autorégressif » et de « décodage de correction automatique » pour permettre aux grands modèles de générer plusieurs résultats en une seule inférence et de vérifier simultanément les résultats pour garantir la qualité des résultats générés. en même temps,Ce moteur d'inférence convient à tout grand modèle. Grâce au réglage fin et à l'optimisation du modèle, lorsqu'un grand modèle adopte ce moteur d'inférence, non seulement il n'a pas besoin de former de modèles auxiliaires supplémentaires, mais il améliore également l'efficacité de l'inférence, utilise pleinement les ressources informatiques parallèles telles que le GPU et atteint une utilisation élevée de la puissance de calcul.

La différence entre le schéma autorégressif (à gauche) et le schéma SPACE (à droite)

Comme mentionné ci-dessus, la plupart des grands modèles de langage ont leurs propres propriétés « autorégressives » et ne peuvent pas appliquer directement la solution « semi-autorégressive ». À cet égard, SPACE adopte la méthode de « réglage fin supervisé semi-autorégressif ». Grâce à un entraînement supervisé, le modèle apprend à proposer une série de mots candidats possibles lorsqu'il rencontre la marque spéciale [MASK] (comme le montre la figure ci-dessus). . Cela permet au modèle d'effectuer des opérations similaires à « deviner » pendant le raisonnement et de produire plusieurs mots candidats les plus probablement corrects, ayant ainsi la capacité d'un raisonnement semi-autorégressif.

Pour le dire simplement, avec le soutien du système de « réglage fin supervisé semi-autorégressif », le grand modèle peut faire des « suppositions » par lui-même pendant le raisonnement et produire plusieurs mots susceptibles d'être corrects comme réponses candidates.

Cependant, tout comme pour l'examen, une grande quantité de contenu peut être répertoriée dans le brouillon, mais les réponses correctes doivent être remplies dans la copie d'examen. Comment s'assurer de son exactitude ? Cela nécessite une vérification des résultats, et c'est ce que fait le « décodage à correction automatique ».

Plus précisément, pendant le raisonnement, nous saisissons également les mots candidats générés par le grand modèle lors de l'étape précédente de raisonnement dans le modèle, permettant au modèle de s'auto-vérifier et de déterminer si ces réponses candidates sont correctes.

La méthode de jugement est également très simple. Si le mot généré par le modèle correspond à la réponse candidate précédente, le mot candidat est considéré comme correct. Pour vérifier, dans le raisonnement autorégressif traditionnel, si un mot est correct, alors le mot doit être réintégré dans le modèle linguistique pour en déduire le mot suivant.

Mais cela n’est pas obligatoire ici au SPACE. Puisque nous avons saisi le mot candidat dans le modèle à l'avance et que le mot candidat a été vérifié comme étant correct, nous pouvons obtenir directement la nouvelle réponse à partir du mot candidat correct à ce moment-là, évitant ainsi d'avoir à ressaisir la réponse. dans le modèle puis procédez à un temps de raisonnement. Par conséquent, l’avantage de ce mécanisme est que lorsqu’il est vérifié qu’un mot candidat est correct, il n’est pas nécessaire de le renvoyer au modèle pour générer la réponse suivante, réduisant ainsi le temps de raisonnement.

Par analogie, le raisonnement autorégressif traditionnel peut être comparé à une course de relais 4×100 mètres : dans une compétition régulière, quatre athlètes doivent prendre le relais un par un pour terminer la course entière. et nécessite un raisonnement textuel. Dans le plan de SPACE, les quatre athlètes ont commencé à courir simultanément. Lorsque le premier athlète a sprinté sur 100 mètres et atteint le point final, les autres athlètes ont également atteint le point final de leur étape respective de 100 mètres. Cependant, le premier athlète doit être vérifié après avoir atteint la ligne d'arrivée. Si la vérification est réussie, le score du deuxième athlète peut être confirmé, puis le deuxième athlète peut être vérifié, et ainsi de suite.

Si un athlète ne réussit pas la vérification, il doit revenir à sa ligne de départ des 100 mètres et recommencer pour terminer la course. Dans le meilleur des cas, si chacun des quatre athlètes réussit la vérification, alors ce groupe n'a besoin que de passer 1/4 du temps dans un jeu régulier pour terminer le jeu, obtenant ainsi un effet d'accélération dans le pire des cas, Si ; chaque athlète ne réussit pas la vérification, le temps requis sera alors le même que dans une compétition régulière. La réussite de la vérification dépend principalement de l'exactitude des réponses du candidat.

Dans le même temps, pendant le processus d'inférence du modèle SPACE, nous insérons également un identifiant spécial [MASK] dans l'entrée pour guider le grand modèle afin de générer une version mise à jour de la réponse candidate. Dans le cadre de ce mécanisme, chaque cycle de modèle de raisonnement vérifie non seulement l'exactitude des mots candidats générés lors du cycle précédent, mais fournit également de nouveaux mots candidats pour le raisonnement suivant.

Cette conception est destinée àAméliorer la précision des mots candidats, car chaque fois qu'une nouvelle réponse apparaît, les mots candidats d'origine deviendront plus précis grâce à la mise à jour. Ce processus est comme les prévisions météorologiques : nous faisons chaque jour des prévisions sur les conditions météorologiques pour la semaine à venir, et au fil du temps, la précision des prévisions météorologiques pour un jour spécifique dans le futur augmente progressivement. En effet, nous accumulons davantage de données de capteurs au fil du temps, ce qui nous permet de fournir des prévisions météorologiques plus précises.

La méthode traditionnelle de vérification et de correction est le « décodage spéculatif » mentionné ci-dessus, ce qui signifie que vous devez d'abord former un petit modèle fiable, puis utiliser un grand modèle pour le vérifier. La qualité de génération du petit modèle affecte grandement le résultat final.

Cependant, SPACE a proposé une nouvelle solution qui peut atteindre l'objectif de génération et de vérification sans utiliser de petits modèles, et les travaux de vérification et de génération peuvent être effectués simultanément. De cette manière, l’efficacité et la précision du raisonnement peuvent être grandement améliorées.

Reprenons l'exemple initial. Lorsqu'on saisit "Qu'est-ce qu'un grand modèle ?", en mode d'inférence SPACE, le grand modèle va d'abord générer les mots "Les grands modèles ont des dizaines de millions de paramètres" en même temps, et automatiquement. corrigez-les en même temps. L'algorithme de décodage vérifiera immédiatement les mots générés un par un et ne conservera que les mots avec des résultats de vérification corrects comme réponse finale, obtenant ainsi l'effet de générer plusieurs mots dans le processus de raisonnement avancé d'un grand modèle, atteignant l'objectif d'accélération.

Enfin, jetons un coup d'œil aux effets de SPACE.

Nous avons mené des expériences sur un certain nombre de grands modèles de langage open source, couvrant les grands modèles de langage traditionnels avec différentes tailles de paramètres allant de 6 milliards à 70 milliards.Comme le montre le tableau ci-dessous, SPACE a des effets d'accélération plus évidents sur les modèles avec des paramètres plus grands.。

De plus, SPACE peut également être utilisé en conjonction avec d'autres technologies d'accélération d'inférence, telles que le traitement par lots continu, l'attention flash, le cache KV, la quantification, etc., pour accélérer la vitesse d'inférence.

Afin de vérifier ce point de vue, nous avons implémenté SPACE sur un cadre d'inférence traditionnel TGI. Des expériences ont prouvé que lorsqu'il est combiné avec d'autres technologies d'accélération d'inférence, l'effet d'accélération apporté par SPACE est également exceptionnel.

Les grands modèles sont entrés dans des milliers d'industries, et le « raisonnement » est crucial

La formation et l'inférence sont les deux étapes essentielles du cycle de vie des grands modèles.La formation résout le problème de la « création d'un grand modèle à partir de zéro », tandis que l'inférence résout le problème de l'application des grands modèles à des milliers d'industries.

Si l'année dernière est définie comme la première année de l'explosion des grands modèles, alors cette année est la première année de mise en œuvre d'applications de grands modèles. Par conséquent, les capacités de raisonnement des grands modèles ont fait l'objet d'une attention croissante.

Yuntian Lifei a déployé de nombreux efforts pour accélérer l'application des grands modèles. En termes de puissance de calcul, la société a lancé l'année dernière DeepEdge10, une puce d'inférence de pointe de grand modèle, et a récemment lancé la carte accélératrice IPU-X6000, qui peut être appliquée à l'accélération d'inférence de divers grands modèles tels que le langage, la vision et le multi- modalité.

En termes d'algorithmes, Yuntian Lifei a proposé le moteur d'inférence SPACE, qui améliore considérablement la vitesse d'inférence de grands modèles. En termes d'application, le modèle à grande échelle auto-développé par Yuntian Lifei, Yuntian Tianshu, a été appliqué dans de nombreux secteurs tels que les affaires gouvernementales intelligentes, la gouvernance urbaine, la sécurité intelligente, les transports intelligents, les entreprises intelligentes, l'éducation intelligente, etc., explorant et créant une industrie. des repères.

À l'avenir, Yuntian Lifei continuera à travailler dur et à apporter de plus grandes contributions à la recherche et au développement, à l'application et à la promotion des technologies liées aux grands modèles.

Rapport/Commentaires

nouvelles

ACL2024 : le moteur Yuntian Lifei SPACE dévoilé, le raisonnement sur grands modèles pourrait entrer dans une nouvelle étape

Introduction

Mes coordonnées