2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapport sur le cœur de la machine
Département éditorial de Machine Heart
Il y a encore de bonnes nouvelles dans le domaine de l'open source.
Les grands modèles de langage (LLM) ont connu une évolution significative et, récemment, nous avons également assisté à un boom des grands modèles de langage multimodaux (MLLM), qui présentent des capacités multimodales surprenantes.
En particulier, l’émergence de GPT-4o a considérablement favorisé le développement du domaine MLLM. Cependant, les modèles open source correspondant à ces modèles sont nettement insuffisants. Le besoin urgent pour la communauté open source de promouvoir davantage le développement de ce domaine ne peut être surestimé.
Dans cet article, des chercheurs de Tencent Youtu Lab et d'autres institutions proposent VITA, qui est le premier modèle de langage multimodal (MLLM) open source, capable de traiter et d'analyser simultanément les modalités vidéo, image, texte et audio. en même temps, il offre une expérience interactive multimodale avancée.
Les chercheurs ont utilisé Mixtral 8×7B comme base linguistique, puis ont élargi son vocabulaire chinois et affiné les instructions bilingues. En outre, les chercheurs ont doté le modèle linguistique de capacités visuelles et audio grâce à un apprentissage multitâche en deux étapes d’alignement multimodal et de réglage fin des instructions.
VITA démontre de solides capacités de compréhension multilingue, visuelle et audio, comme en témoignent ses excellentes performances sur des benchmarks monomodaux et multimodaux.
Outre les capacités de base, cette recherche a également permis de réaliser de grands progrès dans l’amélioration de l’expérience d’interaction homme-machine multimodale naturelle. Au meilleur de nos connaissances, il s'agit de la première étude à exploiter les interactions hors réveil et les interruptions audio dans MLLM. Les chercheurs ont également conçu des jetons de statut supplémentaires ainsi que des données et des stratégies de formation correspondantes pour percevoir divers scénarios d'interaction.
VITA est déployé en utilisant une approche duplex, avec un modèle chargé de générer des réponses aux requêtes des utilisateurs et un autre modèle suivant en permanence les entrées environnementales. Cela confère à VITA des capacités impressionnantes d’interaction homme-machine.
VITA est la première étape permettant à la communauté open source d'explorer l'intégration transparente de la compréhension et de l'interaction multimodales. Bien qu'il reste encore beaucoup de travail à faire sur VITA pour se rapprocher de ses homologues à source fermée, l'étude espère que le rôle de pionnier de VITA pourra servir de pierre angulaire pour les recherches ultérieures.
Description du produit :https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b 21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Dans la vidéo ci-dessus, les utilisateurs peuvent communiquer sans obstacle avec VITA. Après avoir vu le T-shirt blanc que l'utilisateur porte, il lui sera indiqué la couleur du pantalon à assortir lorsqu'on lui posera une question mathématique, il pourra voir le type de question ; en temps réel et faites des déductions, puis donnez des réponses précises ; lorsque vous parlez à d'autres personnes, VITA ne l'interrompra pas, car il sait que l'utilisateur ne communique pas avec lui lorsqu'il voyage, VITA donnera également quelques suggestions pendant le processus ; de sortie VITA, vous pouvez également interrompre une conversation en temps réel et démarrer un autre sujet.
Description du produit :https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b 21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Dans cette vidéo, l'utilisateur tient un biscuit et demande à VITA ce qu'il mange. VITA lui dit qu'il mange des biscuits et suggère que les biscuits ont meilleur goût avec du lait ou du thé.
Lorsque vous vous entraînez, soyez votre partenaire de discussion :
Description du produit :https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b 21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Remarque : les vidéos ci-dessus sont lues en temps réel à une vitesse 1x et n'ont pas été accélérées.
Sur la base de l'organigramme fourni par l'utilisateur, VITA peut écrire du code :
Fournissez une image, et VITA peut également répondre aux questions basées sur le contenu de l'image :
Vous pouvez également regarder des vidéos et répondre aux questions Lorsque les utilisateurs posent la question « Décrire les mouvements du chien en détail », VITA peut également donner des réponses précises :
Présentation de la méthode
Comme le montre la figure 3, le processus de formation global de VITA comprend trois étapes : le réglage fin de l'instruction LLM, l'alignement multimodal et le réglage précis de l'instruction multimodale.
Mise au point des enseignements LLM
Les performances de Mixtral 8x7B font partie des meilleurs LLM open source, elles ont donc été utilisées comme base pour cette étude. Cependant, les chercheurs ont observé que le modèle officiel Mistral a une capacité limitée à comprendre le chinois. Pour injecter des capacités de compréhension bilingues (chinois et anglais), l'étude a élargi le vocabulaire chinois au modèle de base, augmentant le vocabulaire de 32 000 à 51 747. Après avoir élargi le vocabulaire, les chercheurs ont utilisé un corpus synthétique bilingue de 5 millions de personnes pour affiner les instructions en texte brut.
Alignement multimodal
Combler le fossé de représentation entre le texte et d’autres modalités, jetant ainsi les bases d’une compréhension multimodale. Les connecteurs visuels sont formés uniquement pendant la phase d’alignement visuel. Le tableau 1 résume les données de formation utilisées, à l'exception de la partie en texte brut.
modalité visuelle
Le premier est l’encodeur visuel. Les chercheurs ont utilisé InternViT-300M-448px comme encodeur visuel, qui a pris une image avec une résolution de 448 × 448 en entrée et a généré 256 jetons après avoir utilisé un connecteur visuel comme simple MLP à deux couches. Pour l’entrée d’images haute résolution, les chercheurs utilisent des stratégies de correction dynamique pour capturer les détails locaux.
La vidéo est considérée comme un cas d’utilisation particulier pour les images. Si la durée de la vidéo est inférieure à 4 secondes, 4 images par seconde seront échantillonnées uniformément. Si la durée de la vidéo est comprise entre 4 et 16 secondes, une image est échantillonnée chaque seconde. Pour les vidéos de plus de 16 secondes, 16 images sont uniformément échantillonnées.
Deuxièmement, l’alignement visuel. Nous avons formé le connecteur visuel uniquement pendant la phase d'alignement visuel et n'avons pas utilisé de questions audio pendant cette phase.
Enfin, il y a la mise en cascade des données. Pour les données en texte brut et les données d'image, cette recherche vise à concaténer la longueur du contexte à des jetons de 6 Ko, comme le montre la figure 4. Il convient de noter que les données vidéo ne sont pas concaténées.
La mise en cascade de données disparates présente deux avantages :
En outre, l’étude a révélé que les modèles formés à l’aide de données en cascade fonctionnaient de manière comparable aux modèles formés à l’aide de données brutes.
modalité audio
D'un côté se trouve l'encodeur audio. L'audio d'entrée est initialement traité via un bloc de filtre Mel, qui décompose le signal audio en bandes de fréquences individuelles dans la plage de fréquences Mel, imitant la perception humaine non linéaire du son. Par la suite, les chercheurs ont utilisé une couche de sous-échantillonnage 4 × CNN et un transformateur à 24 couches, avec un total de 341 millions de paramètres, pour traiter les caractéristiques d'entrée. Ils utilisent également un simple MLP à deux couches comme connecteur modal audio-texte. Enfin, toutes les 2 secondes d'entrée audio sont codées en 25 jetons.
Un autre aspect est l’alignement audio. Pour la tâche d’alignement, les chercheurs ont utilisé la reconnaissance automatique de la parole (ASR). Les ensembles de données comprennent Wenetspeech (avec plus de 10 000 heures de données de reconnaissance vocale multi-domaines, principalement axées sur les tâches en chinois) et Gigaspeech (avec 10 000 heures de données audio de haute qualité, dont la plupart sont orientées vers des tâches de reconnaissance vocale en anglais). Pour la tâche de sous-titres audio, les chercheurs ont utilisé le sous-ensemble AudioSet SL de Wavcaps, qui contient 400 000 clips audio avec les sous-titres audio correspondants. Pendant le processus d’alignement, les encodeurs et connecteurs audio sont formés.
Mise au point de l'enseignement multimodal
L'étude a adapté le modèle pour améliorer sa capacité à suivre des instructions, qu'elles soient textuelles ou audio.
Construction de données. Les sources de données pour la phase de réglage des instructions sont les mêmes que celles pour la phase d'alignement dans le tableau 1, mais cette étude a apporté les améliorations suivantes :
Les questions sont remplacées de manière aléatoire (environ la moitié) par leurs versions audio (en utilisant la technologie TTS, telle que GPT-SoVITS6), dans le but d'améliorer la compréhension du modèle des requêtes audio et sa capacité à suivre les instructions.
Définissez différentes invites système pour éviter les conflits entre différents types de données, comme indiqué dans le tableau 2. Par exemple, certaines questions peuvent recevoir une réponse basée sur des informations visuelles ou sur la base des propres connaissances du modèle, ce qui entraîne des conflits. De plus, les données d'image ont été corrigées, comme les données vidéo multi-images, ce qui peut perturber le modèle. L'invite du système distingue explicitement différents types de données, ce qui permet une compréhension plus intuitive.
Afin de réaliser deux fonctions interactives, à savoir l'interaction sans réveil et l'interaction avec interruption audio, cette étude propose un cadre de déploiement duplex, c'est-à-dire que deux modèles VITA sont déployés en même temps, comme le montre la figure 1.
Généralement, un modèle de génération répond aux requêtes des utilisateurs. Dans le même temps, le modèle de surveillance détecte les sons environnementaux pendant le processus de génération. Il ignore les voix des utilisateurs non liées aux requêtes, mais arrête la progression de la génération du modèle lorsque l'audio de la requête est reconnu. Le modèle de surveillance intègre ensuite le contexte historique et répond aux dernières requêtes des utilisateurs, et les identités des modèles de génération et de surveillance sont commutées.
Évaluation expérimentale
performances linguistiques. Afin de vérifier l'efficacité du processus de formation du modèle linguistique, les chercheurs ont utilisé quatre ensembles de données, à savoir C-EVAL, AGIEVAL, MMLU et GSM8K. Ces ensembles de données couvrent une variété de scénarios, notamment des questions générales à choix multiples, des questions de quiz multidisciplinaires et des tâches de raisonnement mathématique et logique, couvrant à la fois les contextes chinois et anglais.
Les résultats du tableau 3 ci-dessous montrent que la formation présentée dans cet article améliore considérablement la capacité du modèle linguistique sur l'ensemble d'évaluation chinois (C-EVAL et AGIEVAL), tout en maintenant le niveau de performance d'origine sur le benchmark lié à l'anglais (MMLU) et amélioration du raisonnement mathématique. Une amélioration significative a été obtenue sur la tâche (GSM8K).
performances audio. Afin de vérifier la robustesse de la représentation vocale apprise par le modèle, les chercheurs ont mené des tests sur deux ensembles de données : Wenetspeech et Librispeech.
Parmi eux, Wenetspeech a deux indicateurs d'évaluation, à savoir test_net et test_meeting. La première source de données est plus cohérente avec les données de formation, la seconde pose donc un plus grand défi. En tant qu'ensemble de données conservé du modèle, Librispeech évalue la capacité de généralisation du modèle sur des ensembles de données invisibles. Il comporte quatre ensembles d'évaluation. Celui commençant par « dev » est l'ensemble de vérification et celui commençant par « test ». est l'ensemble de test, "Clean" représente un ensemble moins difficile et "autre" représente un ensemble plus difficile.
Comme le montrent les résultats du tableau 4 ci-dessous, VITA a obtenu de très bons résultats au test de référence ASR.
Performance multimodale. Pour évaluer les capacités multimodales, l'étude a évalué VITA sur quatre critères, notamment MME, OCRBench, HallusionBench et Video-MME. Les résultats sont présentés dans la figure 5.
En termes de compréhension des images, VITA est meilleur que le modèle open source spécifique à l'image LLaVA-Next et proche du modèle fermé Gemini 1.5 Pro.
En termes de compréhension vidéo, VITA surpasse Video-CCAM, un modèle vidéo open source. Bien qu'il existe un écart entre VITA et LLaVA-Next-Video spécifique à la vidéo, cela est acceptable étant donné que VITA prend en charge un plus large éventail de modalités et donne la priorité à l'interactivité.
Enfin, il convient de noter qu’il existe encore un écart important dans les capacités de compréhension vidéo entre les modèles open source et les modèles propriétaires.