nouvelles

Conversation de Miss A avec Serge Belongie : Donnez-vous une « balle » falsifiable |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


La falsifiabilité est à la fois un ange et un diable. En fin de compte, la falsifiabilité est une poignée de main qui aligne le monde.

Auteur|Zhang Yijia Sukhoi‍‍

Il y a dix ans, un académicien européen me disait : «Il n’existe pas moins d’une centaine de filières subdivisées en intelligence artificielle, et les États-Unis définiront une ou deux filières populaires. , puis les entrepreneurs et les investisseurs mondiaux se sont précipités pour rattraper ces deux pistes. "

Au cours des dix années suivantes, la tendance de l'intelligence artificielle a changé, et l'intelligence artificielle est passée du non-consensus au petit consensus, et du petit consensus au grand consensus, mais cette phrase n'a jamais sauté aux yeux.

Cette conversation avec Serge a commencé par la critique d'un article qu'il a co-écrit il y a deux ans."À la recherche d'une structure dans des affirmations infalsifiables" intérêt de. C'est dommage que cet article n'ait presque pas retenu l'attention jusqu'à présent, Google ScholarCité seulement 2 fois

C'est surprenant.

"Jiazi Guangnian" pense que,cet essailargement sous-estimé

Raison 1 : le problème auquel est confronté cet article est extrêmement critique (le récit sous-jacent de données non falsifiables dans les médias sociaux) ;

Deuxième raison, cet article propose des innovations théoriques importantes (méthode d'annotation ternaire et ensemble SNaCK) ;

Troisième raison : cet article donne des résultats d'ingénierie pratiques (construction d'un ensemble de données et comparaison expérimentale détaillée).


Auteurs de l'article Peter Ebert Christensen, Frederik Warburg, Menglin Jia et Serge Belongie ARXIV2022 ;

Cet article n’est pas difficile à comprendre.FalsifiabilitéLe concept commence à être introduit.

La falsifiabilité est également appelée réfutabilité.Les philosophies des sciences utilisent souvent desméthode de falsificationDéterminer si une théorie est scientifique, c'est-à-dire"Ces conclusions doivent permettrelogiqueL’existence de contre-exemples

Karl Popper a proposé en 1934 que si une théorie ou une hypothèse peut être logiquement contredite par des tests empiriques de techniques existantes, alors c'estFalsifiable de. Et si une expression est si impeccable que le monde n’a pas de place pour le commentaire, elle ne fera souvent que maintenir tout le monde à distance, ce qui ne contribue pas à promouvoir le progrès scientifique.

Les problèmes que les scientifiques peuvent ou devraient étudier doivent être plus ou moins contrôlés, donnant ainsi à d’autres la possibilité de les attaquer, voire de les renverser. Le but de la falsifiabilité est de rendre la théorie prédictive et testable.donc utile en pratique

Le papier de Serge"À la recherche d'une structure dans des affirmations infalsifiables"discutéLa complexité d’interpréter des affirmations infalsifiables sur les réseaux sociaux

L'idée principale de l'article :

Les plateformes de médias sociaux sont inondées de publications et de commentaires, et de nombreuses affirmations ne peuvent être réfutées. Cependant,Outils de vérification des faits insuffisants, manque de structure dans les discussions sur les réseaux sociaux, difficultés à identifier les récits et manque de qualité dans les discussions publiquesetc., causant beaucoup de problèmes.

L'article examine comment identifier et comprendre ceux qui sont sur les réseaux sociauxaffirmations infalsifiables, et résumez ces affirmations commeUn nombre limité de récits, pour mieux faciliter les échanges et les débats sur les réseaux sociaux.

Il est intéressant de noter que l'auteur a construit un outil appeléPAPIERUn ensemble de données contenant des débats sur les méthodes de séchage des mains dans les toilettes publiques (serviettes en papier ou sèche-linge), 600 courts extraits de texte, 31 récits et 4 supercatégories pour comprendre et découvrir les récits dominants dans les discussions en ligne.

Cet article présenteUne nouvelle approche qui va au-delà des capacités des technologies de vérification des faits existantes, apporte une contribution importante à la gestion et à la compréhension de l'impact des affirmations infalsifiables dans les environnements de communication numérique - en utilisant ce processus pour découvrir les récits dominants et en montrant que ce processus surpasse les récents modèles de transformation à grande échelle et les sujets non supervisés de pointe. .

à travers des expériences,L'auteur a trouvéUtiliser un convertisseur de phrases moderne(comme le modèle T5)Intégration de la phrase initialeC'est la clé .Ils ont également constaté que la stratégie d'échantillonnage est cruciale pour générer des intégrations de haute qualité, en particulierStratégie "Distance-Rnd"Meilleure performance.

Les résultats expérimentaux montrent que la combinaison d'annotations humainestripléspeut révéler la conformitérécit cristalliséregroupement intéressant.

Seulement 2 citations

"Jiazi Guangnian" estime que les raisons possibles pour lesquelles ce document a manqué d'attention dans l'industrie jusqu'à présent incluent, sans s'y limiter :

(1) L'analyse théorique est relativement faible, et l'analyse des résultats expérimentaux reste qualitative (le texte de 11 pages ne comporte qu'une demi-page de formules) ;

(2) Il n'y a presque aucune introduction à plusieurs algorithmes utilisés à des fins de comparaison ;

(3) Il se peut qu'il n'existe pas encore d'ensemble de données unifiées dans la communauté universitaire dans ce domaine, ce qui entraîne l'absence de « sortie du cercle » au sein de la communauté universitaire ;

(4) L'auteur a souligné la criticité de T5, mais n'a pas décrit clairement la supériorité de son algorithme.


Partage académique de Serge Belongie au CVPR2024, source : Photographié par "Jiazi Guangnian"

Bien que les articles mentionnés ci-dessus soient peu connus, Serge lui-même est un scientifique très influent dans le domaine de la vision par ordinateur et de l'apprentissage automatique. Il étudie principalement la reconnaissance d'objets et la segmentation d'images. Ses différents articles ont été cités au total 1 789,71 millions de fois.

Serge Belongie est professeur d'informatique à l'Université de Copenhague et directeur du Danish Pioneer Center for Artificial Intelligence. Auparavant, il a été doyen associé et professeur d'informatique Andrew H. et Ann R. Tisch à Cornell Tech.

Le plus digne d’être présenté estSerge est l'auteur principal de MSCOCO

L'ensemble de données MSCOCO est l'un des ensembles de données à grande échelle les plus connus pour la vision par ordinateur.En 2000, Serge et Jitendra Malik (aujourd'hui professeur d'informatique à l'Université de Californie à Berkeley et célèbre chercheur dans le domaine de la vision par ordinateur)proposé conjointement le concept de « Shape Context »,Il s’agit d’une méthode de description de caractéristiques de forme largement utilisée dans les domaines de la vision par ordinateur et de la reconnaissance d’objets.

En 2004, Serge a été nommé Jeune Innovateur Technologique de moins de 35 ans par le MIT Technology Review ; en 2007, lui et Jitendra Malik ont ​​reçu une mention honorable pour le Prix Marr ; en 2015, Serge a reçu le Prix ICCV Helmholtz, ce prix est principalement décerné aux auteurs ; d'articles qui ont apporté des contributions fondamentales dans le domaine de la vision par ordinateur.

Serge est également co-fondateur de plusieurs sociétés, dont Digital Persona (fusionnée avec CrossMatch en 2014), CarCode (acquise par Transport Data Systems), Anchovi Labs (acquise par Dropbox en 2012) et Orpix.

Actuellement, l'équipe SergeOuvrir de nouvelles dimensions dans l'analyse des réseaux sociaux——Partant d'un grand nombre de remarques triviales auxquelles on n'a pas prêté attention auparavant et qui ne conviennent pas à la vérification traditionnelle des faits,Analyser la configuration du problème etmanipulation narrative

Ceci revêt une importance particulière en ce moment :

Après la guerre mondiale antifasciste, peu importe si les avancées technologiques ou les goulots d'étranglement ont alterné, ils ont tous connu des hauts et des bas dans le tableau historique au fil du temps. Tout comme "Le long de la rivière pendant le festival de Qingming" qui s'est déroulé dans le système de coordonnées temporelles et spatiales, il regorge de milliers de scènes et d'apparitions d'êtres anciens et modernes.

Ce qui suit est la conversation de Miss A avec Serge.

Suivez le compte public "Jiazi Guangnian" et répondez "peut être falsifié" en arrière-plan pour obtenir les informations mentionnées dans l'article"À la recherche d'une structure dans des affirmations infalsifiables"etEnsemble de données MSCOCODeux papiers.

1. La falsifiabilité est remise en question

Dans la pratique, les chercheurs sont souvent influencés par les récits qu’ils aiment ou n’aiment pas – un peu comme les sujets d’actualité sur Instagram.

Manquer un: « Si cela ne peut être falsifié, cela ne peut pas être scientifique » est devenu un consensus général au sein de la communauté scientifique. Mais de nombreux philosophes ont remis cela en question, arguant que le principe de falsifiabilité pourrait donner lieu à des débats scientifiques sans fin.La falsifiabilité est-elle une condition nécessaire au progrès scientifique ?

SergeSelon l’opinion populaire, une théorie scientifique doit être réfutable.

Manquer un:C’est l’opinion populaire, mais la falsifiabilité est-elle le paradigme dominant ?

Serge: La littérature sur l’apprentissage automatique a explosé au cours des 15 dernières années, avec un grand nombre d’articles publiés et cités chaque jour. Dans ces articles, les sections de travaux concernées citent souvent d’autres publications, mais les citations ne constituent pas nécessairement la littérature la plus pertinente pour leur travail. C’est parce que la quantité de littérature est énorme ;Les chercheurs réagissent en fait au discours dominant dans le domaine.

Nous nous considérons souvent comme des scientifiques dans la tradition de Karl Popper, soumis uniquement à des affirmations falsifiables. Cependant, il existe également des tendances dans la recherche scientifique, telles que des technologies telles que les réseaux génératifs contradictoires et les transformateurs. Bien que ces articles visent à suivre la tradition scientifique,Les chercheurs sont souvent influencés dans la pratique par les récits qu’ils aiment ou n’aiment pas——Un peu comme les sujets tendances sur Instagram

Manquer un:Vous voulez dire que depuis l’apprentissage automatique, les scientifiques ont commencé à s’écarter de la norme de falsifiabilité ?

Serge:Les scientifiques prétendent souvent être immunisés contre ces influences et se considèrent objectifs, mais ils sont après tout des êtres humains et seront influencés par ces opinions populaires.C’est quelque chose que nous considérons comme non scientifique et qui relève davantage d’une intuition et d’une opinion.

Manquer un:Comment définissez-vous les affirmations infalsifiables sur les réseaux sociaux ?

Serge: Nous devons d’abord discuter de la littérature sur la vérification des faits. Le professeur Isabelle Augenstein de l'Université de Copenhague, par exemple, a développé une méthode qui commence par déterminer la valeur de vérification d'une déclaration. Nous vérifierons une déclaration,et déterminer sa valeur de vérification dans la plage de 0 à 1

Par exemple, l’affirmation selon laquelle la capitale de la Californie est Sacramento est idéale pour la vérification de la grammaire et de la syntaxe, car elle peut être trouvée dans plusieurs bases de connaissances structurées. Nous pourrions examiner une affirmation telle que : « La capitale de la Californie est Sacramento » et lui attribuer un score de testabilité probablement proche de 0,99. Nous le soumettons ensuite à une base de connaissances structurée pour confirmer la réponse. Ce système de testabilité basé sur l'apprentissage profond traite de grandes quantités de réclamations et de données de formation pour évaluer la valeur de vérification de différentes affirmations.

Mais certaines déclarations,Par exemple, « Immigrer en Californie, c’est mal » reflète des opinions plus personnelles et ne convient pas à la vérification des faits.En revanche, des déclarations telles que « Depuis 2020, le nombre d’immigrants en Californie n’a cessé d’augmenter » ont une grande valeur de vérification.

doncNous accordons une attention particulière aux affirmations difficiles à vérifier——Ces affirmations ne peuvent pas être directement vérifiées, mais la discussion qu’elles ont suscitée sur les réseaux sociaux est significative.Plusieurs vérifications peuvent nous aider à prendre de meilleures décisions.

Manquer un:Dans vos recherches, quelles techniques ou outils spécifiques sont utilisés pour identifier et analyser les allégations infalsifiables ?

Serge:Nous utilisons des techniques de traitement du langage naturel (NLP), des algorithmes de clustering et de regroupement ainsi que des méthodes d'apprentissage automatique.

notre objectif estCréation d'un système mondial d'information narrative (GNIF), pour rechercher et organiser du contenu sur les réseaux sociaux

La combinaison de ces technologies et outils nous permet de mieux comprendre et traiter de grandes quantités de contenu narratif,Aide indirectement à identifier les allégations infalsifiables

Nous sommes capables d'analyser diverses formes de texte.Qu'il s'agisse d'un tweet ou d'un commentaire Reddit, nous utilisons la technologie PNL pour extraire et comprendre les récits et les thèmes de ce contenu.

Deuxièmement, nous avons utiliséAlgorithmes de clustering et de regroupement . Ces algorithmes nous aident à organiser de grandes quantités de contenu de médias sociaux en différents thèmes ou récits.

Par exemple,Nous pouvons trouver des milliers de tweets parmi des millions de tweets qui sont très similaires car ils abordent tous le même récit sous-jacent.

passerRegroupement narratif et regroupement d'assertions , nous organisons de grandes quantités de contenu en clusters plus petits, permettant aux vérificateurs de faits de le traiter plus efficacement sans avoir à vérifier chaque élément individuellement. De cette manière, même les allégations infalsifiables peuvent être identifiées et classées grâce au regroupement et au regroupement pour faciliter une analyse et un traitement ultérieurs.

Nous considérons deux entrées, disons deux tweets, et mesurons leur similarité en fonction de différents aspects narratifs :Ceux-ci pourraient couvrir des sujets tels que le débat entre le nucléaire et l'énergie verte, ou les discussions entre les préparations pour nourrissons et le lait de vache.

Il existe de nombreux sujets très débattus en ligne, souvent le résultat de campagnes de désinformation. Ces activités peuvent être très vagues. Ce que nous essayons de comprendre, c'est comment ces différentes déclarations se manifestent sous forme de langage ou de mèmes, qui peuvent contenir des images, du texte, des déclarations audio, etc.Cela ressemble à un contenu complètement différent . Vous pouvez collecter des millions de discussions sur un sujet sur une plateforme de médias sociaux, mais toutes les données peuvent ne représenter que quelques dizaines d’opinions. Nous essayons de comprendre ces phénomènes grâce à des technologies telles que les grands modèles de langage et l'apprentissage métrique approfondi.


Visualisation de paires annotées humaines, la sous-figure (a) montre des paires positives, c'est-à-dire des paires narratives similaires ou cohérentes annotées par des humains. La sous-figure (b) montre des paires négatives, c'est-à-dire des paires narratives différentes ou incohérentes étiquetées par les humains. Source : « À la recherche d'une structure dans des affirmations infalsifiables »


2. Au-delà du « vrai et du faux »

Toutes les affirmations ne méritent pas une vérification des faits, et toutes les vérifications des faits ne donnent pas des résultats vrais ou faux.

Manquer un: L'ensemble de données MSCOCO que vous avez créé est l'un des ensembles de données de vision par ordinateur à grande échelle les plus connus. Comment cela a-t-il commencé?

Serge: Nous avons commencé nos recherches sur la détection d'objets il y a 15 ans, en commençant par un petit ensemble de données CUB200 contenant plus de 200 espèces d'oiseaux. L'ensemble de données COCO était à l'origine un projet de stage d'été de mon doctorant Tsung-Yi Lin chez Microsoft Research. Son mentor à l'époque était un autre de mes doctorants, Piotr Dollá. Le projet s'est transformé en un consortium de chercheurs issus du monde universitaire et de l'industrie. Ils espèrent créer un ensemble de données qui détaille les objets du quotidien dans l’environnement naturel et annote avec précision leurs noms et emplacements spatiaux.

Manquer un: Vous avez nommé l'ensemble de données MSCOCO. J'aime beaucoup "Coco", et son nom anglais est aussi Coco.

Serge:Oui, nous aimons tous le nom « COCO », il est amusant et facile à retenir.

Manquer un:Après l’émergence de l’ensemble de données MSCOCO, le développement du domaine de la vision par ordinateur s’est déroulé comme sur une fusée.

Serge:Eh bien, nous avons organisé de plus en plus de communautés de connaissances autour de lui, et COCO a été utilisé par des millions de personnes.Nous avons commencé modestement et avons finalement développé un domaine de recherche qui a eu un impact profond.

La première conférence sur la vision par ordinateur à laquelle j'ai assisté a eu lieu au CVPR 1994, également à Seattle. C'était il y a trente ans et il y avait environ 300 personnes présentes. Aujourd’hui, au CVPR de Seattle en 2024, 12 000 personnes assisteront à la conférence.

Manquer un:Cela fait 30 ans, qu’est-ce qui motive votre passion constante pour la recherche en vision par ordinateur et en intelligence artificielle ?

Serge: D'aussi loin que je me souvienne, je m'intéresse aux modèles et à la catégorisation des choses. Au collège, j'ai réalisé un projet de classe sur la classification des vis, boulons et autres fixations. Pendant mes études universitaires, je me suis intéressé aux modèles audio, en particulier à la bioacoustique, comme les sons des oiseaux ou des baleines.Côté images, ce sont les empreintes digitales et les visages qui m'ont attiré.

J'ai recherché comment lire les lèvres à partir de vidéos. Tous les aspects de ce problème me fascinent : la fusion de l’audio et de la vision, les différences entre les différents locuteurs et les défis informatiques. Au début des années 1990, les appareils photo numériques faisaient tout juste leur apparition, mais ils ne disposaient pas encore d’une quelconque forme de compréhension informatique. De nos jours, vous considérez peut-être comme acquis que vous disposez de cadres de détection de visage dans votre viseur ou d’un logiciel d’album photo qui organise intelligemment les photos de toute votre famille, mais cela n’existait pas à l’époque.

Je sentais à l'époque que la demande pour cette technologie serait très forte, et en même tempsJ'aime aussi les mathématiques derrière la technologie . J'aimais la technologie utilisée dans ces domaines, mais je ne voulais pas me spécialiser en mathématiques ou en physique. Comme utiliser des méthodes mathématiques complexes pour résoudre des problèmes de traitement du son, de la vidéo et de l’image.

J'ai toujours le sentiment que ma mission dans ce monde est de faire ce genre de travail.

Manquer un:Quel partage académique avez-vous fait au CVPR cette année ?

Serge: Mon équipe a soumis plusieurs articles lors de la conférence principale CVPR, et je les ai également partagés lors de deux séminaires. L'un des rapports porte sur l'histoire de la recherche en vision par ordinateur, principalement pour aider les jeunes chercheurs à comprendre la technologie classique de vision par ordinateur, c'est-à-dire la technologie avant l'apprentissage profond et les transformateurs. J'ai également présenté le projet Visipedia, qui a débuté avec la publication d'une version étendue de l'ensemble de données CUB200 en 2011. À l'heure actuelle, le contenu de recherche de Visipedia s'est étendu à des dizaines de milliers de plantes, d'animaux et de champignons, fournissant ainsi une base de recherche importante pour la reconnaissance d'objets dans la nature.

Un autre rapport est celui sur lequel je souhaite me concentrer dans l’interview d’aujourd’hui, qui concerne le récit, l’opinion publique et les fausses informations, en particulier dans le contexte du développement des médias sociaux.

Manquer un:Quelles innovations votre travail a-t-il apporté sur le terrain ?

Serge : Le problème classique dans le monde de la désinformation et des réseaux sociaux est la vérification des faits Par exemple, l’Université de Copenhague réalise de nombreux travaux connexes. L’approche générale est que pour certaines remarques qui doivent être vérifiées, nous utilisons des systèmes d’intelligence artificielle pour rechercher des faits pertinents et prédire un score d’authenticité compris entre 0 et 1 en fonction des faits.

Manquer un:Quels sont les défis de cette approche ?

Serge:Il n’y a pas beaucoup de problème avec cette méthode en elle-même, le défi vient du problème lui-même.Toutes les affirmations ne méritent pas une vérification des faits, et toutes les vérifications des faits ne donnent pas des résultats vrais ou faux. Par exemple, « Les pandas sont le trésor national de la Chine » est une déclaration qui peut être utilisée pour former des modèles et vérifier leur authenticité grâce à une base de connaissances structurée et de grandes quantités de données. Ce n’est pas le cas de la phrase « déménager en Californie ».

Manquer un:Vous voyez donc un potentiel de recherche dans des déclarations comme celle-ci ?

Serge : Ce dernier type d'énoncé n'a pas été étudié de manière approfondie, mais il s'agit d'une question tout aussi importante. Ces déclarations n’ont peut-être pas de définition stricte du vrai/faux, mais elles suscitent de nombreuses discussions sur les réseaux sociaux. Ce défi n'existait pas à l'époque où seuls les médias d'information devaient être vérifiés. Cependant, dans les médias sociaux très développés d'aujourd'hui, un type de sujet qui déclenche des discussions animées, est difficile à caractériser scientifiquement ou ne peut être falsifié. digne de recherche.

Manquer un:Pouvez-vous me citer un cas qui a eu un réel impact voire provoqué un conflit grave ?

Serge: Je suis heureux que vous ayez posé cette question, donnons un exemple intéressant. Après vous être lavé les mains dans les toilettes publiques, vous disposez de deux options pour les sécher. Je ne sais pas quelle méthode est couramment utilisée en Chine, en Europe, vous pouvez soit retirer des serviettes en papier, soit utiliser un sèche-linge à air chaud.

Manquer un:Ces deux méthodes sont également les plus courantes en Chine.

Serge: Les fabricants de sèche-linge et de serviettes en papier peuvent gagner beaucoup d’argent en signant des contrats avec n’importe quelle chaîne hôtelière, et l’ensemble du marché générera probablement des milliards de dollars de revenus. Mais de nombreuses personnes en Europe ont désormais des opinions très arrêtées sur la différence entre les deux méthodes. Beaucoup de gens disent que l’une de ces méthodes pourrait propager des maladies, tandis que d’autres affirment qu’utiliser beaucoup d’électricité ou fabriquer du papier causerait des dommages environnementaux en gaspillant des arbres. La plupart des personnes qui partagent ces opinions ne sont pas des experts en santé publique ou en environnement.

Manquer un:Les affirmations elles-mêmes sont-elles vraies ?

Serge : En fait, nous ne nous soucions pas de l’authenticité de nos déclarations, car de nombreux sujets sur les réseaux sociaux ne peuvent être strictement prouvés ou falsifiés. Mais le sujet est évoqué parce qu’un petit groupe de personnes veut convaincre les masses qu’une voie est meilleure qu’une autre. Ils ont probablement créé des centaines de milliers de contenus générés par des robots. Si vous recherchez ces jours-ci des discussions sur les serviettes en papier et les sèche-air sur les réseaux sociaux, vous trouverez des millions de commentaires. Notre étude ne se concentre pas sur une comparaison rigoureuse des avantages et des inconvénients des deux approches ni sur la présentation des résultats de la vérification des faits.Nous sommes plus préoccupés par la détection de ces problèmes conçus.

3. Ensemble de données « COCO » dans les médias sociaux

Évitez de prendre des décisions hâtives.

Mme A : Vos recherches ont ouvert une autre dimension.La vérification traditionnelle des faits se concentre sur la vérité de la sémantique, tandis que votre recherche se concentre sur la vérité des déclarations ou des affirmations.clairpragmatique——L'objectif de la prédiction ne se limite pas à savoir si cela est vrai ou non, mais s'étend aux discussions thématiques créées par certains utilisateurs ou par un grand nombre de robots sur les réseaux sociaux pour atteindre des objectifs spécifiques.Savez-vous ce que signifie cette étude?

Serge: Oui, nous créons quelque chose de complètement nouveau. La plupart des études pertinentes dont nous avons connaissance se concentrent uniquement sur la vérification des faits. Mais nous essayons d'utiliser la technologie du langage naturel liée à un sujet pour regrouper et regrouper les discussions sur les réseaux sociaux afin d'aider les individus, les entreprises et les décideurs stratégiques à comprendre ce qui se passe sur les réseaux sociaux.Nous ne portons pas de jugement de valeur sur ces sujets et contenus de discussion, mais nous affichons uniquement objectivement la forme sous laquelle chaque question est soulevée.

Manquer un: Pour atteindre cet objectif, nous avons d’abord besoin d’un ensemble de données. Construire cet ensemble de données devrait être un grand défi. Lorsque vous avez été pionnier dans la recherche sur la vision par ordinateur, vous êtes passé d'un ensemble de données sur les petits oiseaux à COCO. Comment avez-vous abordé cette période ?

Serge: Ce type de comportement sur les réseaux sociaux est souvent caractérisé par une caractéristique. Il peut y avoir un million de tweets sur un sujet, avec apparemment des milliers de comptes participant à la discussion.Mais grâce à l’analyse, nous pourrions découvrir que cent mille de ces tweets publient en réalité exactement la même chose, avec des récits très similaires, voire identiques. Gardez néanmoins à l’esprit que cela ne signifie pas que ces discussions sont bonnes ou mauvaises. Nous permettons aux utilisateurs de voir des groupes et des regroupements de différentes déclarations, ce qui permet aux vérificateurs de faits et aux analystes des réseaux sociaux de traiter et de comprendre plus facilement de grandes quantités de contenu sans avoir à faire face à un afflux soudain de millions de tweets.

Manquer un:Ce système peut-il gérer en temps réel divers sujets controversés sur les réseaux sociaux ?

Serge:Je pense que c’est possible, et je l’espère. Supposons qu’en Méditerranée, deux navires, russe et américain, se rencontrent. Les discussions démarrent sur les réseaux sociaux et un récit naît. De nouvelles informations apparaissent toutes les quelques heures, notamment une déclaration d'un capitaine ou un enregistrement de téléphone portable. Dans ce cas, certains récits et certaines questions retiennent l’attention tandis que d’autres peuvent perdre leur pertinence.

Mademoiselle A : Vous espéreztemps réelSaisir les problèmes

Serge:et d'autres informations.Pour aider les diplomates professionnels, nous aimerions créer untableau de bord(Tableau de bord) , fournit des informations complètes et pertinentes et place également ces événements dans un contexte mondial.Ce système peutEmpêchez les gens de prendre des décisions hâtives . Je voudrais souligner que le système lui-même ne décide pas quel côté a raison, mais organise plutôt l'information de manière globale.

Manquer un:Quels problèmes doivent être résolus pour obtenir une fonctionnalité fiable ?

Serge : Il y a à la fois des défis traditionnels et de nouveaux défis . Les défis traditionnels incluent l’impact de la langue, de la culture et des préjugés émotionnels.

Par exemple, "La Petite Sirène" et "Le Vilain Petit Canard" sont tous deux des œuvres d'écrivains danois, mais leurs versions cinématographiques Disney ont été adaptées à la culture américaine. En raison de la plus grande domination du récit américain sur le récit danois sur les réseaux sociaux, la version originale de l'histoire d'Andersen est presque inconnue des internautes de nombreux autres pays.

Dans le processus d'annotation des données, en particulier l'annotation des données des réseaux sociaux, la langue et la culture seront affectées. Un autre exemple est que l'analyse des sentiments est déjà une partie importante de la vérification des faits, et le modèle de prédiction des sentiments lui-même peut comporter de nombreux biais et stéréotypes dans la formation.La formation du modèle d'IA est un processus d'entrée et de sortie de déchets. Il est difficile de résoudre les problèmes causés par les données de formation. Par conséquent, nous devons comprendre quelles données de formation le modèle utilise.Nous pouvons dire que la vérification des faits sans implication humaine est inexistante (peu fiable).

Manquer un:Quels sont les nouveaux défis ?

Serge : Les faux contenus générés par les modèles de langage sont un nouveau défi auquel nous sommes confrontés. Les faux comptes de réseaux sociaux précédents avaient souvent des schémas très simples à suivre. Mais avec les modèles GPT et de génération d’images, les créateurs de faux comptes peuvent générer de faux profils plus complexes et plus naturels, puis de faux comptes de réseaux sociaux qui semblent réels. Ces comptes ne sont pas faciles à trouver par les modèles traditionnels d’identification de faux comptes. Ces modèles d’IA générative posent également des défis correspondants aux tâches traditionnelles de vérification des faits. donc,L’IA générative crée et identifie les fausses informations, ce qui sera le jeu du chat et de la souris de cette époque.

4.L'avenir de l'IA

Ils (OpenAI) ne connaissent peut-être pas encore nos projets.

Manquer un:Il semble que ces défis ne peuvent pas être résolus simplement par des modèles, mais peuvent atteindre la dimension de la coopération entre l’IA et les humains.toisemblerDécouvrez toujours de nouveaux problèmes dans de nouvelles dimensions, puis résolvez-les dans une perspective simple.

Serge:Oui.Notre nouvelle idée peut être comparée à Wikipédia. Les gens pensaient autrefois qu'un même nœud Wikipédia n'avait besoin que de pages dans différentes langues avec la même sémantique. La réalité est que ce n’est pas seulement la langue qui est différente.

Langue, culture, valeurs, traditions, tous les facteurs sont mélangés sur les différentes pages d'une même entrée. L’énergie atomique et les combustibles fossiles, par exemple, sont abordés de manière très différente selon les langues et selon les régions du monde. Cela nous rappelle donc que le système d’IA que nous essayons de construire n’est pas purement automatisé, ni un modèle autonome. Il s’agit d’un système impliquant l’être humain, ce qui signifie que vous avez besoin de nombreuses communautés humaines différentes à travers le monde pour étiqueter et organiser les données et rendre compte de tous les différents éléments.Il s’agit d’un problème important et profond car les préjugés existeront toujours.

Manquer un:Ainsi, à l’instar de MSCOCO, organiser des données aussi complètes et équitables que possible est en soi l’ambition de cette recherche.

Serge: Il s’agit du processus d’organisation de tous les différents types de communautés. Dans différentes parties du monde, des personnes d’âges différents étudient différentes disciplines telles que la littérature, l’histoire, les sciences, etc., et chaque domaine a sa propre histoire. Pour que la recherche que je décris réussisse,Nous avons besoin de beaucoup d'annotations qui comprennent une variété de sujetsPar Il n’est pas nécessaire qu’ils soient des experts, mais ils doivent avoir une certaine connaissance du contenu à baliser, comme l’énergie nucléaire, l’entrepreneuriat ou la crypto-monnaie, pour connaître les similitudes entre les récits et les problèmes. Par conséquent, le plus grand défi réside dans l’organisation de la communauté, et non dans les installations de base de calcul et de stockage de l’IA.

Manquer un:Sam Altman ou Yann Lecun ont-ils commenté votre réflexion ?

Serge : Ils ne connaissent peut-être pas encore nos projets.

Manquer un:Il me semble assister aux premières étapes d’une initiative :Découvrez les problèmes dans une dimension supérieure et trouvez le point d’entrée le plus direct.

Serge : Si nous développons cette infrastructure de détection des problèmes, comme de nombreuses technologies, elle pourrait être utilisée pour le meilleur ou pour le pire.Par conséquent, contrairement à de nombreuses IA commerciales,Nous essayons de développer des systèmes de gestion ouverts, transparents et auditables . Par conséquent, nous disposerons d’une base de connaissances totalement transparente et les utilisateurs pourront voir l’historique d’édition des données, y compris quand les données ont été incluses et par quels annotateurs elles ont été annotées.

Manquer un:Comment garantir l’exactitude et l’objectivité des données ?

Serge:La réponse simple est :nous ne pouvons pas garantir

Mais le mieux que nous puissions faire est de créer un système qui attire des dizaines de milliers de personnes intéressées par différents domaines de discussion pour annoter le système. Avoir autant d’annotateurs que possible peut nous aider à apporter une objectivité statistique. Wikipédia dispose également de mécanismes conçus pour la transparence et la responsabilité, et nous ferons de même.

Manquer un:Quel impact cette recherche aura-t-elle sur les décideurs politiques, les éducateurs et les technologues ?

Serge : Pensez à ce que nous faisons comme un complément au raisonnement logique ou factuel.

Disons qu'une entreprise souhaite améliorer sa diversité, son équité et son inclusion. Leur conseil d’administration a donc tenu une réunion pour discuter de l’embauche de davantage de femmes ou de minorités. Ce type de discussion est courant dans de nombreuses entreprises et, dans une université, par exemple, il n'y a peut-être pas beaucoup de femmes qui étudient en génie électrique, et le département souhaite prendre des mesures pour changer cela. Lors de ces réunions, il peut y avoir de nombreuses discussions qui ne sont étayées par aucune connaissance ou information.

Certaines personnes expriment des opinions biaisées selon lesquelles les femmes ne sont pas douées en mathématiques. Ce qu’il faut, c’est un système qui puisse aider le directeur du département, le PDG ou l’enseignant qui doit diriger ces discussions, et qui puisse extraire un ensemble de récits du système pour structurer la discussion. De plus, une fois que le système commence à fonctionner, il indexe et analyse les déclarations dans des récits préexistants. De cette façon, un PDG, un enseignant ou un animateur de réunion peut éviter les conversations de mauvaise qualité ou déroutantes et disposer d'une structure et d'un système de classification efficaces qui guident les discussions et évitent les conversations redondantes.

Manquer un:Pour les futurs récits et analyses des enjeux sur les réseaux sociaux, quelles sont, selon vous, les orientations potentielles de la recherche en matière de développement technologique ?

Serge: Différents domaines ont leurs propres défis. Certains d’entre eux sont des problèmes classiques tels que le traitement de grandes quantités de données et comment les étiqueter, comment atténuer les biais, etc. Mais nous sommes également confrontés à de grands défis en matière de visualisation.

Nous venons d'évoquer les différences auxquelles sont confrontées les différentes langues et cultures. Chaque sujet spécifique a de nombreuses perspectives différentes, et différents annotateurs fourniront des annotations différentes en raison de leurs propres préjugés. Du point de vue de la théorie de l’information, tenter de compresser ces divers récits peut entraîner la perte ou la corruption d’informations. Ce type de questions se posera tout au long du projet et nous les rencontrerons fréquemment.

Manquer un: Selon vous, quels sont les derniers développements en matière de technologie visuelle qui auront un impact profond sur l'avenir ?

Serge: Aujourd'hui, de plus en plus de chercheurs commencent à s'intéresser aux données multimodales, traitant simultanément plusieurs types de données tels que des images, du texte et de l'audio dans un seul modèle. Cette méthode utilise généralement des architectures de modèles telles que Transformer pour résoudre des problèmes pratiques complexes. . Je pense que cette tendance va se poursuivre et que les futurs nouveaux venus dans le domaine de l’intelligence artificielle trouveront plus naturel de maîtriser plusieurs compétences professionnelles en même temps que de se plonger dans un seul domaine, comme le traitement du langage naturel ou la vision par ordinateur.

Personnellement, je pense que même si certains prétendent que l’intelligence artificielle remplacera complètement les médecins, cette affirmation est exagérée. Mais je suis convaincu que dans des domaines comme la radiologie, la dermatologie et l’histopathologie, les systèmes assistés par l’IA se généraliseront et profiteront à tous.

En ce qui concerne les voitures autonomes, même si certains ont prédit dans le passé que les progrès de la technologie de la vision et de l’intelligence artificielle permettraient une adoption généralisée des voitures autonomes, je pense qu’il est peu probable que cela se produise. À moins que le gouvernement ne prenne des mesures pour restreindre la circulation des voitures conventionnelles dans certaines voies ou les interdire complètement, il est très peu probable que les voitures autonomes deviennent la norme aux États-Unis.

Manquer un : J'aime votre article. Mes pensées sont similaires.Le développement technologique ouvre simultanément de nouvelles dimensions cognitives. La méthodologie la plus précieuse est celle qui a un point d’entrée minimaliste mais qui peut rayonner la situation globale.

Serge:Quelle méthodologie vous intéresse le plus ?

Manquer un:Donnez un petit exemple.Sur la voie de la falsifiabilité, la science s’engagera sur la voie itérative de la négation de la négation… pour revenir à la structure de la révolution scientifique que nous connaissons tous.

*Hang Zhou a également contribué à cet article.

Puisque cet article implique des discussions académiques, voici une brève introduction à l’auteur :

  • Zhang Yijia, le fondateur de Jiazi Guangnian, est diplômé de l'École des sciences mathématiques de l'Université de Pékin en 2013 et a obtenu un double diplôme en économie de l'Institut national de développement ; équipe nationale de formation ; ses intérêts de recherche sont les mathématiques financières et la théorie des jeux, et il est simultanément directeur de l'École des sciences mathématiques de l'Université de Pékin.

  • Zhou Hang, responsable de Jiazi Brain, est diplômé de l'École des sciences mathématiques de l'Université de Pékin en 2019 ; son domaine de recherche est l'optimisation clairsemée et l'optimisation non convexe ;


*Les références
  • À la recherche de la structure dans les affirmations infalsifiables.pdf

  • 978-3-319-10602-1_48.pdf "Microsoft COCO : Common Objects in Context" Ensemble de données MSCOCO : l'article le plus cité de Serge.

  • Thomas Samuel Kuhn « La structure des révolutions scientifiques »


Suivez le compte public "Jiazi Guangnian" et répondez "peut être falsifié" en arrière-plan pour obtenir les informations mentionnées dans l'article"À la recherche d'une structure dans des affirmations infalsifiables"etEnsemble de données MSCOCODeux papiers.

|Manquer unRevue de la série de dialogues|