2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Contribution du groupe de recherche de Wang Dequan à l'Université Jiao Tong de Shanghai
Qubits | Compte public QbitAI
Le groupe de recherche du professeur Wang Dequan de l’Université Jiao Tong de Shanghai a soulevé cette question dans ses dernières recherches.
Imaginez ce scénario : un enfant de la maternelle tient une photo d'un tigre et vous demande : « Ce chaton est très mignon. Est-ce une chatte ? » Que répondriez-vous ?
Vous ne pouvez pas répondre directement « oui » ou « non », mais soulignez d'abord la « contradiction » dans cette question——Cette photo représente un tigre, pas un chat。
Mais il y a eu peu de recherches systématiques antérieures sur la réaction des grands modèles.
Vous devez savoir qu'un modèle d'IA qui ne peut pas détecter les « conflits d'instructions » générera des résultats pour des « questions qui ne devraient pas avoir de réponses », et quel que soit le côté du conflit vers lequel les résultats générés sont biaisés, cela provoquera des désastres potentiels et affectera l'IA. sécurité et Superalignement (Super Alignement).
Dans cette dernière étude, l'équipe a proposéBenchmarks multimodaux——ensemble d'instructions contradictoires, et a conçu un système innovantCadre de création automatique d'ensembles de données, nomméCréation automatique。
L’équipe a constaté que le grand modèle multimodal était très incapable de détecter les instructions utilisateur contradictoires. Elle a donc proposéMéthode d'incitation à l'éveil cognitif(CAP), qui injecte des capacités cognitives du monde extérieur, améliorant ainsi la capacité à détecter les contradictions.
L'article sera publié lors de la 18e Conférence européenne sur la vision par ordinateur (ECCV) en octobre de cette année.
À l'heure actuelle, les grands modèles multimodaux ont fait de grands progrès dans la recherche scientifique et dans les domaines d'application. Ils peuvent traiter divers types de données, notamment du texte et des images, montrant des capacités similaires à la cognition humaine.
L'équipe estime que le succès de ces modèles est dû au travail approfondi de recherche et développement qui leur permet de suivre de près les instructions humaines, même quelque peu « soumises ».
De plus, ces modèles sont particulièrement efficaces dans les contextes longs. Les grands modèles multimodaux tels que Claude 3 et Gemini 1.5 Pro ont démontré de puissantes capacités. Les modèles de la série Claude 3 offrent une fenêtre contextuelle de 200 000 jetons, la taille de la fenêtre contextuelle standard de Gemini 1.5 Pro est de 128 Ko et peut même atteindre 1 million de jetons pendant la phase de prévisualisation privée.
Ces avancées permettent aux grands modèles multimodaux de bien gérer des tâches complexes et de répondre aux besoins des humains en matière d'interactions à long terme.
Cependant, avec l’approfondissement de l’interaction multimodale et l’augmentation de la longueur du contexte, le problème des instructions utilisateur contradictoires devient de plus en plus important.
Comme indiqué ci-dessous, lorsque les utilisateurs (tels que les enfants ou les débutants en langues) utilisent ces modèles, ils ignorent souvent les conflits multimodaux potentiels.
Dans le même temps, à mesure que le nombre de tours de dialogue augmente et que la fenêtre contextuelle s'agrandit, il devient difficile pour les utilisateurs de se souvenir de tous les détails, ce qui entraîne des conflits entre les instructions.
En outre, à mesure que le nombre de modalités augmente, des conflits entre modalités peuvent également survenir. Lorsque ces modèles manquent de conscience de soi et de capacité à discerner les contradictions, leurs performances en pâtissent.
Afin de relever ces défis, l'équipe de recherche de cet article a proposé un test de référence multimodal - "ensemble d'instructions contradictoires» (Self-Contradictory Instructions, SCI), utilisé pour évaluer la capacité des grands modèles multimodaux à détecter des instructions contradictoires.
SCI contient20 000 instructions contradictoireset8 tâches, uniformément réparti danslangue - langueetvisuel-verbaldans deux paradigmes.
Dans la partie supérieure du diagramme, le paradigme langage-linguistique implique des conflits entre contextes et directives, tels que des règles de conception contradictoires, des propriétés d'objet contradictoires, des directives exclusives et un vocabulaire interdit.
Dans la partie inférieure de la figure : le paradigme visuo-linguistique couvre les conflits multimodaux, tels que les conflits de reconnaissance de texte OCR, les conflits de diagrammes, les conflits géométriques et les conflits sémantiques. Parmi les huit tâches, seuls les conflits sémantiques impliquent d'autres jeux de données (ImageNet).
Pour donner un exemple spécifique, lors de la construction de conflits sémantiques, les chercheurs généreront d’abord le texte correspondant basé sur des images, puis remplaceront les informations sémantiques clés du texte par une nouvelle sémantique similaire mais différente.
Dans l'image ci-dessous, l'image contient une autruche (Autruche). L'auteur ajoute la question « L'image représente-t-elle la taille de l'autruche ? » pour la signification sémantique de l'image « autruche ».
Par la suite, la sémantique clé de ce texte de question « autruche » a été remplacée par « Kiwi ». De cette manière, une paire contradictoire d’instructions multimodales est construite.
Tout au long du processus de construction du SCI, l'auteur a conçu un cadre innovant de création automatique d'ensembles de données——Création automatique。
Il construit une boucle multimodale à travers des programmes et de grands modèles de langage. Le framework exploite des programmes et de grands modèles de langage pour permettre la création automatisée d'ensembles de données.
AutoCreate démarre avec plusieurs données de départ liées aux tâches et gère un pool de départ. Au sein de chaque cycle, AutoCreate comprend deux branches :branche linguistique(à gauche) etbranche visuelle(droite). Chaque branche est composée de générateurs et de décorateurs.
Enfin, le nettoyeur exclura les données qui ne répondent pas aux critères. Après avoir passé avec succès les contrôles de qualité effectués par des experts humains, ces données seront réinjectées dans le pool de semences pour être utilisées lors du prochain cycle.
AutoCreate améliore considérablement la vitesse de construction et l'étendue du contenu des ensembles de données SCI.
À l’aide de l’ensemble de données SCI, les chercheurs ont évalué de manière exhaustive les performances de grands modèles dans le traitement d’instructions contradictoires.
Les résultats expérimentaux montrent que les grands modèles actuels présentent souvent certaines déficiences face à des instructions contradictoires.
Ils peuvent traiter des informations et des connaissances, maisManque de capacité à évaluer le caractère raisonnable des instructions, ce que l'équipe de recherche appelle une capacité « cognitive ».
Cette déficience provient d’un manque de conscience de soi et d’une incapacité à reconnaître les incohérences dans les instructions.
Par conséquent, les chercheurs ont proposé une méthode simple d'invite appelée «Conseils d’éveil cognitif« (Invitation à l'éveil cognitif, CAP)
CAP passe en entréeAjouter un simple rappel, les capacités cognitives peuvent être injectées à partir du monde extérieur, améliorant ainsi la capacité de détection des contradictions du grand modèle, et fondamentalement, il n'y aura aucun impact négatif.
Cette découverte suggère que les grands modèles multimodaux actuels nécessitent davantage de conscience de soi et de capacités cognitives pour mieux gérer les conflits d’instructions complexes.
Pour plus de détails, les enfants intéressés peuvent consulter l’article original.
Le premier auteur de l'article est doctorant à l'Université Jiao Tong de Shanghai.Gao Jin。
Ses intérêts de recherche incluent la vision par ordinateur, les grands modèles multimodaux, les sciences de la vie basées sur l'intelligence artificielle, etc.
L'auteur correspondant de l'article est professeur adjoint titulaire et directeur de doctorat à l'Université Jiao Tong de Shanghai.Wang Dequan, il est diplômé de l'Université Fudan avec un baccalauréat et un doctorat de l'Université de Californie à Berkeley, où il a étudié sous la direction du professeur Trevor Darrell.
Ses travaux de recherche ont été publiés dans les plus grandes conférences internationales telles que CVPR, ICCV, ECCV, ICLR, ICML, ICRA, IROS, etc. Ses articles ont été cités plus de 10 000 fois dans Google Scholar au cours des cinq dernières années, avec une note H- indice de 20.
Lien papier : https://arxiv.org/abs/2408.01091
Lien du projet : https://selfcontradiction.github.io/