Hassabis : Google veut créer un deuxième Transformer, AlphaGo et Gemini unissent leurs forces

Hassabis : Google veut créer un deuxième Transformer, une combinaison d'AlphaGo et Gemini

2024-08-20

Rapport sur le cœur de la machine

Département éditorial de Machine Heart

"Je me sens plus à l'aise lorsque le PDG d'une entreprise d'IA ressemble plus à un informaticien qu'à un vendeur."

Pour DeepMind, 2023 est une année pleine de changements. En avril de cette année, Google a annoncé la fusion de Google Brain et DeepMind pour former un nouveau département appelé Google DeepMind. Le nouveau département dirigera la recherche et l’avancement des produits d’IA révolutionnaires tout en maintenant les normes éthiques.

Google Brain et DeepMind - l'un a créé Transformer, l'autre a créé AlphaGo, AlphaFold... Les deux départements ont uni leurs forces pour créer Gemini fin 2023 pour benchmarker ChatGPT. Aujourd’hui, Gemini se classe régulièrement parmi les trois premiers du classement des grands modèles LMSYS Chatbot Arena. On voit que la fusion des deux donne certains résultats.

Alors, où va Google DeepMind à partir de maintenant ? Lors d'une récente conversation avec Hannah Fry, professeure agrégée de mathématiques urbaines au Centre d'analyse spatiale avancée de l'University College de Londres, Demis Hassabis, PDG et co-fondateur de Google DeepMind, a révélé qu'il avait également exprimé son point de vue sur certains des projets de l'entreprise et quelques problématiques actuelles dans le domaine de l’IA.

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930939&idx=2&sn=00d72f97f26fc7acc3b2a2fd39434048&chksm=84e43a85b393b393d7a 9bd7caeafce2fcd71b6299e195df3e5a716cb840a401c85dc9efff669&token=899618486&lang=zh_CN#rd

Les principales opinions de Hassabis sont les suivantes :

À court terme, l’IA est surfaite, mais à long terme, elle est sous-évaluée. Quant à la manière de distinguer ce qui est à la mode et ce qui est réalisable dans le domaine de l'IA, Hassabis a déclaré qu'en plus de faire des recherches, il faut également examiner les antécédents de la personne qui fait les remarques, ses connaissances en matière de technologie et s'ils ont juste étudié dans d'autres domaines l'année dernière. La direction va à l'IA. Si la personne qui fait le commentaire ne fait que suivre la tendance, la probabilité qu’elle ait une bonne idée est comme un tirage au sort.
La fusion de DeepMind et de Google Brain apporte de nombreuses opportunités d'innovation, et leur objectif est d'inventer la prochaine architecture capable de repousser les frontières de l'IA, tout comme Google Brain a inventé l'architecture Transformer.
Les références académiques existantes sont devenues saturées et incapables de distinguer les différences subtiles entre les top modèles. Hassabis estime que le domaine de l’IA a besoin de meilleures références, notamment dans des domaines tels que la compréhension multimodale, la mémoire à long terme et les capacités de raisonnement.
De nombreux modèles actuels sont issus de technologies inventées il y a cinq ou six ans. Ainsi, ces modèles manquent encore de beaucoup de choses et sont hallucinants, peu doués pour la planification à long terme et incapables d’accomplir de manière proactive des tâches complexes. En réponse à ces problèmes, Google entend développer des systèmes avec un comportement d'agent plus fort en combinant son expertise en matière d'agents de jeu et de grands modèles de langage, par exemple en combinant les avantages d'AlphaGo en matière de planification et de prise de décision avec des modèles multimodaux tels que Gemini.
En parlant d'open source, Hassabis a déclaré qu'ils disposaient de nombreuses technologies open source, telles que Transformer et AlphaFold. Mais il estime que les modèles de pointe doivent faire l'objet d'un examen plus approfondi et être open source un à deux ans après leur sortie, un modèle que Google suit également. Google proposera des modèles open source, mais ils auront environ un an de retard sur les modèles de pointe. Hassabis a ajouté que le principal problème de l'open source est que c'est comme franchir une porte à sens unique. Une fois publié, il ne peut pas être retiré. Vous devez donc être très prudent avant l’open source.
L’IA peut conduire à des percées dans des problèmes mathématiques complexes, par exemple en aidant à résoudre des conjectures mathématiques célèbres ou en obtenant de bons résultats dans des concours internationaux de mathématiques. Cependant, les systèmes d’IA actuels ne sont pas encore capables de proposer à eux seuls de nouvelles hypothèses mathématiques ou des théories originales. Hassabis estime qu'un test important de l'AGI sera sa capacité à générer de manière autonome des hypothèses et des théories entièrement nouvelles comme la relativité générale.
Concernant la manière de garantir que l'AGI puisse bénéficier à tout le monde, Hassabis estime qu'il est impossible d'inclure toutes les préférences dans un seul système, mais qu'une architecture sécurisée peut être construite, et que les utilisateurs peuvent ensuite l'utiliser en fonction de leurs préférences, de leurs objectifs d'utilisation et de leur déploiement. Décidez à quoi le système d’IA peut et ne peut pas être utilisé.

Après avoir regardé l'interview, une personne a déclaré que cela le mettait à l'aise car Hassabis ressemblait plus à un informaticien qu'à un vendeur. D'autres disent qu'acquérir DeepMind et les laisser se développer librement est la meilleure décision en matière d'intelligence artificielle que Google ait jamais prise, et ils espèrent que Google les laissera poursuivre leur travail sans interruption autant que possible.

Voici le contenu de l'interview compilé par Machine Heart.

Le développement de l’IA est inattendu

Frye : En y repensant, lorsque nous avons commencé à planifier ce podcast en 2017, DeepMind était un laboratoire de recherche sur l'IA relativement petit et spécialisé qui venait d'être acquis par Google et qui avait le pouvoir de mener ses propres recherches à distance sûre à Londres. . Mais les choses ont radicalement changé depuis. Depuis l’année dernière, Google a réorganisé toute son architecture, plaçant les équipes IA et DeepMind au cœur de sa stratégie.

Google DeepMind poursuit sa quête visant à doter l'IA d'une intelligence de niveau humain, appelée intelligence générale artificielle (AGI). Il a lancé une série de nouveaux modèles d'IA puissants appelés Gemini, ainsi qu'un agent d'IA appelé Project Astra, capable de traiter l'audio, la vidéo, les images et le code. Le laboratoire fait également des pas de géant dans l’application de l’IA à plusieurs domaines scientifiques, notamment la prédiction de la structure de toutes les molécules du corps humain, et pas seulement des protéines. En 2021, ils ont également créé une nouvelle société, Isomorphic Labs, dédiée à la découverte de nouveaux médicaments pour traiter les maladies. Google DeepMind recherche également de puissants agents d'IA capables d'apprendre à effectuer des tâches par eux-mêmes grâce à l'apprentissage par renforcement, et perpétue la légende d'Alpha Go battant les humains dans le jeu de Go.

Aujourd'hui, nous avons invité Demis Hassabis, co-fondateur et PDG de DeepMind.

Je me demande si votre travail est devenu plus facile ou plus difficile depuis le regain d'intérêt du public pour l'IA ?

Hassabis: Je pense que c’est une arme à double tranchant. Ce qui est difficile, c'est qu'il y a actuellement tellement de surveillance, d'attention et beaucoup de bruit dans tout le domaine. Je préfère quand il y a moins de monde et que nous pouvons nous concentrer davantage sur la science. Mais le bon côté des choses, c'est que cela montre que la technologie est prête à avoir un impact sur le monde réel de différentes manières et à avoir un impact positif sur la vie quotidienne des gens. Je pense donc que c'est également passionnant.

Frye : Avez-vous déjà été surpris par la rapidité avec laquelle l'imagination du public a été captivée ? Je suppose que vous vous attendiez à ce que ça finisse comme ça, n'est-ce pas ?

Hassabis: En effet. Ceux d’entre nous qui étudient ce domaine depuis des décennies finiront par comprendre, à un moment donné, à quel point l’IA va devenir importante. Mais cela semble quand même un peu surréaliste de voir tout cela se concrétiser et se dérouler de cette manière. Je pense que cela est vraiment dû à l'émergence des chatbots et au développement de modèles de langage, car tout le monde utilise le langage et tout le monde peut comprendre le langage, c'est donc un moyen simple pour le public de comprendre et de mesurer le niveau de développement de l'IA.

Frye : Je vous ai entendu décrire ces chatbots comme étant « extraordinairement efficaces ».

Hassabis: Je veux dire, si vous regardez en arrière il y a 5 à 10 ans, les gens auraient pu penser que pour parvenir au développement de l'IA, vous deviez construire une architecture étonnante et l'étendre par-dessus, sans avoir à résoudre spécifiquement des concepts abstraits. questions spécifiques. Dans de nombreuses discussions il y a 5 à 10 ans, les gens pensaient qu'il fallait une manière particulière de traiter les concepts abstraits, car c'est apparemment ainsi que fonctionne le cerveau. Mais si les systèmes d’IA reçoivent suffisamment de données, telles que les données provenant de l’ensemble d’Internet, ils semblent être capables d’en tirer des leçons et de généraliser des modèles, non seulement par apprentissage par cœur, mais aussi de comprendre dans une certaine mesure ce qu’ils traitent. contenu. C'est en quelque sorte « extraordinairement efficace » parce que je pense que personne n'aurait pensé il y a 5 ans que ce serait aussi efficace qu'aujourd'hui.

Frye : Donc, c'était une surprise...

Hassabis: Oui, nous avons parlé du concept et de ses fondements plus tôt : situer le langage dans des expériences du monde réel, peut-être dans des simulations ou dans l'intelligence robotique incarnée. Bien sûr, ces systèmes n’en sont pas encore à ce niveau-là, ils font beaucoup d’erreurs, ils n’ont pas encore de véritable modèle du monde. maisRien qu’en apprenant la langue, ils sont allés plus loin que prévu。

Frye : Je pense que nous devons expliquer le concept de mise à la terre.

Hassabis:Le problème de Grounding est un problème rencontré dans les systèmes d'IA classiques construits dans des endroits comme le MIT dans les années 1980 et 1990. Vous pouvez considérer ces systèmes comme d’énormes bases de données logiques, avec des mots connectés les uns aux autres. Le problème est que vous pouvez dire "le chien a des pattes" et cela sera dans la base de données, mais lorsque vous montrez au système l'image d'un chien, il ne sait pas comment ce groupe de pixels est lié à ce symbole. C’est le problème fondamental : vous avez ces représentations symboliques et abstraites, mais que signifient-elles réellement dans le monde réel, en particulier dans le monde réel désordonné ? Ils ont essayé de résoudre le problème, mais n’y sont jamais parvenus.

Et les systèmes d'aujourd'hui apprennent directement à partir des données, donc dans un sens, ils établissent cette connexion dès le début, mais ce qui est intéressant, c'est que s'il s'agit simplement d'apprendre à partir du langage, il devrait théoriquement manquer une grande partie de ce dont vous avez besoin. , mais le résultat est que de nombreuses informations fondamentales peuvent être déduites d'une manière ou d'une autre.

Frye : Pourquoi tu dis ça ?

Hassabis: Théoriquement, parce que ces grands modèles de langage initiaux n'existaient pas dans le monde réel, ils n'étaient pas connectés au simulateur, ils n'étaient pas connectés au robot, ils n'étaient même pas initialement multimodaux -- ils n'étaient pas exposés à la vision ou à toute autre chose, ils n'existent que dans l'espace du langage. Ils s’apprennent donc dans le domaine abstrait. Il est donc surprenant qu'ils puissent déduire quelque chose sur le monde réel à partir de ce domaine.

Frye : Il est logique de dire que l’ancrage s’acquiert grâce à l’interaction des gens avec le système…

Hassabis:vraiment. Donc, bien sûr, s'ils font des erreurs en répondant à certaines questions, par exemple, les premières versions répondaient incorrectement aux questions lorsqu'elles traitaient des aboiements de chiens dans le monde réel en raison du manque de mise à la terre. Les gens les corrigent grâce aux commentaires. Une partie de ces retours provient de notre propre connaissance de la réalité. C’est ainsi que les bases se sont infiltrées.

Frye : Je me souviens avoir vu un exemple très frappant de la différence entre « traverser la Manche » et « traverser la Manche à pied ».

Hassabis: Cet exemple fonctionne. S'il répond mal, vous lui dites que c'est faux, et ensuite il doit comprendre : vous ne pouvez pas traverser la Manche à pied.

L’IA est-elle trop ou pas assez médiatisée ?

Frye : Je vais vous poser quelques questions sur le battage médiatique. Pensez-vous qu'à l'heure actuelle, l'IA est-elle surfaite ou sous-faite, ou simplement dans la mauvaise direction ?

Hassabis: D’une part, à court terme, l’IA est surfaite. Les gens prétendent qu'il peut faire beaucoup de choses, mais ce n'est vraiment pas le cas, et il y a beaucoup de startups et de sociétés de capital-risque qui poursuivent des idées folles qui ne sont pas encore assez matures.

D’un autre côté, je pense que l’IA est encore sous-évaluée. Peut-être que les gens ne comprennent pas pleinement ce qui se passe lorsque nous atteignons l’AGI et à quel point la responsabilité est grande.

Frye : Vous êtes dans ce domaine depuis des décennies, et il est facile de voir quels sont les objectifs réalistes pour ce que ces startups et ces sociétés de capital-risque poursuivent et ce qui ne le sont pas. Mais comment les autres peuvent-ils faire la différence ?

Hassabis: Évidemment, vous devez faire preuve de diligence technique et avoir une certaine compréhension de la technologie et des dernières tendances.Dans le même temps, vous devez également examiner les antécédents de la personne qui a fait le commentaire. Dans quelle mesure connaissent-ils la technologie ? Est-ce qu'ils sont passés à l'IA d'une autre direction l'année dernière ? Faisaient-ils de la crypto-monnaie l’année dernière ? Cela pourrait indiquer qu'ils pourraient prendre le train en marche, cela ne signifie pas qu'ils vont avoir de bonnes idées, et même s'ils le font, ce sera probablement une loterie.

Je pense que cela se produit toujours lorsqu'un domaine suscite soudainement beaucoup d'attention, puis que le financement arrive et que tout le monde a le sentiment de ne pas pouvoir le manquer.

Cela crée un environnement qui est, disons, opportuniste, ce qui est un peu contraire à ceux qui travaillent sur la technologie et la science profondes depuis des décennies, ce qui, je pense, est la façon dont nous devrions continuer à rester à l'approche de l'AGI.

Gemini : le premier projet phare après la fusion de Google Brain et DeepMind

Frye : Parlons ensuite des Gémeaux. En quoi Gemini diffère-t-il des autres grands modèles de langage publiés par d’autres laboratoires ?

Hassabis: Dès le début, nous voulions que Gemini soit capable de gérer plusieurs modalités, afin qu'il puisse gérer non seulement le langage, mais également diverses modalités telles que l'audio, la vidéo, les images, le code, etc. La raison pour laquelle nous voulons faire cela, tout d'abord, est que je pense que c'est un moyen pour ces systèmes de vraiment comprendre le monde qui les entoure et de construire de meilleurs modèles du monde, ce qui nous ramène à la question de base d'avant.

Nous avons également la vision d’avoir un assistant universel. Nous avons créé un prototype appelé Astra qui comprend non seulement ce que vous tapez, mais également l'environnement dans lequel vous vous trouvez. Un tel assistant intelligent serait plus utile. Nous avons donc intégré la multimodalité dès le début. C'est une autre chose que seul notre modèle faisait à l'époque, et maintenant d'autres modèles rattrapent leur retard.

Nos autres grandes innovations en matière de mémoire, comme les contextes longs, peuvent en réalité mémoriser environ un million ou deux millions de jetons. Vous pouvez donc lui donner Guerre et Paix ou le film en entier et lui demander de répondre à des questions ou de trouver des éléments dans le flux vidéo.

Frye : Sur Google I/O, vous avez utilisé un exemple de la façon dont Astra vous aide à vous rappeler où vous mettez vos lunettes, n'est-ce pas ? Mais je me demande s'il ne s'agit que d'une version avancée de ces anciennes lunettes Google.

Hassabis: Bien sûr, Google a une longue histoire de développement d'appareils Glass, remontant en fait à environ 2012, ce qui était bien en avance sur son temps. Mais il leur manque peut-être simplement la technologie nécessaire à un agent ou à un assistant intelligent pour réellement comprendre ce que vous dites. Nous sommes donc très enthousiasmés par les assistants numériques qui peuvent vous accompagner à tout moment et comprendre le monde qui vous entoure. Lorsque vous l’utilisez, cela semble vraiment être un cas d’utilisation naturel.

Frye : Je voudrais ensuite revenir un peu sur les origines de Gemini, après tout, il provient de deux départements de recherche différents de Google.

Hassabis: Oui, l'année dernière, nous avons fusionné les deux départements de recherche d'Alphabet, intégrant Google Brain et DeepMind dans Google DeepMind. Nous appelons cela une super unité, qui rassemble les meilleurs talents de toute l’entreprise en un seul département. Cela signifie que nous combinons les meilleures connaissances acquises dans toutes les recherches, notamment en matière de modèles linguistiques.

C'est pourquoi nous avons lancé des modèles tels que Chinchilla et Gopher, et construit PaLM, LaMDA et d'autres premiers modèles. Chacun de ces modèles a ses propres avantages et inconvénients, nous les avons donc intégrés dans Gemini et sommes devenus le premier projet Lighthouse lancé après la fusion des départements. Ensuite, l’autre chose importante est de rassembler toutes les ressources informatiques afin que vous puissiez effectuer de très grandes séries de formation. Je pense que ceux-ci sont géniaux.

Frye : À bien des égards, Google Brain et DeepMind ont des objectifs légèrement différents. Puis-je dire cela ?

Hassabis: Les différentes divisions de Google se concentrent clairement sur la pointe de l'intelligence artificielle, et il existe déjà beaucoup de collaboration au niveau de la recherche individuelle, mais c'est différent au niveau stratégique. Avec l'intégration de Google DeepMind, que j'aime décrire comme la salle des machines de Google, il fonctionne extrêmement bien. Je pense qu’il existe bien plus de similitudes que de différences dans notre façon de travailler, et nous continuerons à maintenir et à renforcer nos atouts dans des domaines tels que la recherche fondamentale.

Par exemple,D’où viendra la prochaine architecture Transformer ?Nous voulons l'inventer. Les chercheurs de Google Brain ont inventé la désormais populaire architecture Transformer. Nous avons combiné cette architecture avec l'apprentissage par renforcement profond, dont nous avons été les pionniers. Je pense que davantage d’innovation est encore nécessaire. Je soutiens cette démarche, tout comme les équipes de Google Brain et DeepMind le font depuis 10 ans. C'est excitant.

Orientation future : combiner AlphaGo avec Gemini

Frye : Je veux parler des Gémeaux, comment se comporte-t-il ? Comment se compare-t-il aux autres modèles ?

Hassabis: Cette question implique des benchmarks,Je pense que l’ensemble du domaine a besoin de meilleurs repères. Il existe quelques benchmarks académiques bien connus, mais ils sont désormais saturés et ne distinguent pas vraiment les nuances entre les différents top modèles.。

À mon avis,Il existe actuellement trois types de modèles au top et à la pointe, notre Gemini, le GPT d'OpenAI et le Claude d'Anthropic.. De plus, il existe de nombreux modèles qui fonctionnent bien, comme les modèles de la série Llama et de la série Mistral lancés par Meta, Mistral, etc. Cela dépend du type de tâches que vous souhaitez effectuer, choisissez Claude pour l'encodage, GPT pour le raisonnement et Gemini pour la mémoire, le contexte long et la compréhension multimodale.

Bien entendu, les entreprises continueront d’améliorer leurs modèles. Le Gemini, par exemple, n'est qu'un modèle vieux de moins d'un an. Je pense que nous sommes sur une très bonne trajectoire et j'espère que la prochaine fois que nous parlerons, les Gémeaux seront au premier plan.

Frye : Oui, les grands mannequins ont encore un long chemin à parcourir. Cela signifie-t-il également que ces modèles ne sont pas très bons à certains égards.

Hassabis:certainement. En fait, c’est le plus grand débat du moment. De nombreux modèles actuels sont issus de technologies inventées il y a cinq ou six ans. Donc, ces modèles manquent encore de beaucoup de choses, sont hallucinants et mauvais en planification.

Frye : Quel est le plan ?

Hassabis: Par exemple, dans certaines planifications à long terme, le modèle ne peut pas résoudre le problème à long terme. Vous lui donnez un objectif et ils ne peuvent pas vraiment agir à votre place. donc,Le modèle ressemble beaucoup à un système de questions-réponses passif. Vous posez une question et ils vous donnent une sorte de réponse, mais ils ne résolvent pas le problème à votre place. Par exemple, vous souhaitez qu'un assistant numérique vous aide à réserver toutes vos vacances en Italie, ainsi que tous les restaurants, musées et bien plus encore. Malheureusement, il ne peut pas faire ces choses.

Je pense que c'est un sujet pour la prochaine ère de recherche, que nous appelons (dans une plus grande mesure) les systèmes basés sur des agents ou les systèmes intelligents qui ont un comportement de type agent. Bien sûr, c’est dans ce domaine que Google excelle. Google a créé l'agent de jeu AlphaGo et d'autres agents dans le passé. donc,Une grande partie de ce que nous faisons consiste à combiner des projets célèbres avec de nouveaux modèles multimodaux à grande échelle et à devenir des systèmes de nouvelle génération, comme la combinaison d'AlphaGo et de Gemini.。

Frye : Je pense qu'AlphaGo est très bon en planification.

Hassabis: Oui, AlphaGo est très bon en planification. Bien sûr, cela ne concerne que le domaine des jeux. Nous devons donc le généraliser à des domaines généraux tels que le travail quotidien et la langue.

Frye : Vous venez de mentionner que Google DeepMind est désormais devenu la salle des machines de Google. C'est tout un changement. Alors, Google fait-il un gros pari sur l’IA ?

Hassabis: Je pense que oui. Je pense que Google a toujours compris l'importance de l'IA. Lorsque Sundar a pris ses fonctions de PDG, il a déclaré que Google était une entreprise axée sur l'IA. Nous avons discuté de cette question au début de son mandat, et il estime que l’IA a le potentiel de devenir le prochain grand changement de paradigme après l’Internet mobile et qu’elle a un potentiel plus grand qu’auparavant.

Peut-être qu'au cours des deux dernières années, nous avons vraiment commencé à avoir une idée de ce que cela signifie, non seulement du point de vue de la recherche, mais également en termes de produits et d'autres aspects. C'est très excitant, donc je pense que c'est la bonne chose pour nous de rassembler tous les talents et de faire de notre mieux pour faire avancer l'IA.

Frye : Nous savons que Google DeepMind prend la recherche et la science très au sérieux. Mais à mesure qu’elle devient la salle des machines de Google, cela signifie-t-elle qu’elle doit se préoccuper davantage des intérêts commerciaux et non plus des choses les plus pures ?

Hassabis: Oui, nous sommes nettement plus préoccupés par les intérêts commerciaux dans le cadre des termes de référence. Mais en réalité, voici quelques choses que je dois dire. Tout d’abord, nous allons poursuivre nos travaux scientifiques sur AlphaFold, dont nous avons sorti AlphaFold 3 il y a quelques mois. Nous doublons également nos investissements dans ce domaine. Je pense qu'il s'agit d'un travail unique réalisé par Google DeepMind.

Vous savez, même nos concurrents pensent qu’il s’agira d’un produit général d’IA. Nous avons créé une nouvelle société, Isomorphic Labs, pour mener le développement de médicaments. C'est très excitant et tout se passe très bien. Nous allons donc continuer à le faire. Dans le même temps, nous avons également réalisé beaucoup de travail en matière de prévision climatique et d’autres aspects.

Nous disposons d'une grande équipe, ce qui nous permet d'effectuer plusieurs tâches en même temps. Nous construisons notre modèle à grande échelle Gemini et al. Nous constituons une équipe produit pour apporter toutes ces technologies étonnantes à tous les domaines où Google existe. Donc d'une certaine manière, c'est un avantage pour nous, de pouvoir brancher toute notre technologie à tout moment. C’est vraiment inspirant de pouvoir inventer quelque chose qu’un milliard de personnes peuvent utiliser immédiatement.

Une autre chose est,Nous avons désormais besoin d'un degré d'intégration beaucoup plus élevé entre les technologies d'IA développées pour les produits et les travaux effectués à des fins de recherche pure en AGI.. Il y a cinq ans, il fallait créer une IA spéciale pour un produit. Vous pouvez désormais séparer la recherche principale et, bien sûr, vous devez encore effectuer un travail spécifique au produit, mais cela ne représente probablement que 10 % de tout le travail.

donc,En fait, il n’y a plus de contradiction entre développer des produits d’IA et construire de l’AGI.. Je dirais que 90 % est le même plan de recherche. Ainsi, si vous lancez des produits et les diffusez dans le monde, vous en apprendrez beaucoup. Les gens l'utilisent également, donc vous en apprenez beaucoup sur, par exemple, que vos mesures internes ne correspondent pas tout à fait à ce que disent les gens, et vous pouvez ensuite effectuer des mises à jour. Ceci est très utile pour vos recherches.

Comment tester la technologie GenAI

Frye : Je me demande s'il y a une tension entre les avancées qui appliquent l'IA à la science et le bon moment pour rendre ces choses au public. Au sein de Google DeepMind, des outils tels que les grands modèles de langage sont utilisés à des fins de recherche plutôt que considérés comme des produits commerciaux potentiels.

Hassabis: Nous avons pris la responsabilité et la sécurité très au sérieux depuis le début. Même avant 2010, Google avait intégré certaines règles d’éthique de base dans ses directives en matière d’IA. Nous sommes alignés sur l'ensemble de Google et souhaitons nous déployer de manière responsable en tant que l'un des leaders dans ce domaine.

Il est donc intéressant maintenant de commencer à lancer de vrais produits dotés des capacités GenAI. Il y a en fait beaucoup à apprendre, et nous apprenons rapidement, ce qui est une bonne chose. Notre risque est relativement faible avec les technologies actuelles, qui ne sont pas encore si puissantes. Mais à mesure que la technologie devient plus puissante, nous devons être plus prudents.

Les équipes produit et d'autres équipes apprennent à tester la technologie GenAI. Ces techniques sont différentes des techniques ordinaires dans la mesure où elles ne font pas toujours la même chose. C'est presque comme tester un jeu en monde ouvert, les choses que vous pouvez essayer de faire avec sont presque illimitées. Il était donc intéressant de comprendre comment l'équiper en rouge.

Frye : Alors, le test de l'équipe rouge ici, c'est vous en compétition les uns contre les autres ?

Hassabis:Oui. Les tests en équipe rouge consistent à recruter une équipe dédiée de l'équipe technique de développement pour tester la technologie et essayer de la casser de toutes les manières possibles. En fait, vous devez utiliser des outils pour automatiser les tests, et même si des milliers de personnes le font, ce n'est pas suffisant par rapport à des milliards d'utilisateurs.

De plus, je pense que nous devons le faire par phases, y compris une phase expérimentale, une phase bêta fermée, puis une réédition, tout comme nous l'avons fait avec les jeux dans le passé. Vous apprenez donc à chaque étape. Je pense que ce que nous devons faire davantage, c'est utiliser l'IA elle-même pour nous aider dans les tests de l'équipe rouge en interne et trouver automatiquement certains bugs ou effectuer un triple dépistage. De cette façon, nos développeurs et testeurs peuvent vraiment se concentrer sur ces situations délicates.

Frye : Il y a quelque chose de très intéressant ici, vous êtes dans un espace de probabilités plus élevées. Ainsi, même si quelque chose a une petite chance de se produire, si vous l’essayez suffisamment, cela finira par mal tourner. Je pense qu'il y a eu des erreurs publiques.

Hassabis: Comme je l'ai mentionné, je pense que les équipes produit sont habituées aux tests de toutes sortes. Ils savent qu'ils ont testé ce genre de choses, mais c'est aléatoire et probabiliste. En fait, dans de nombreux cas, s'il ne s'agit que d'un logiciel courant, vous pouvez dire que vous en avez testé 99,999 %. Alors déduisez que cela suffit.

Cependant, ce n’est pas le cas des systèmes génératifs. Ils peuvent faire toutes sortes de choses qui sortent un peu de la norme, un peu en dehors de ce que vous avez vu auparavant. Si une personne intelligente ou un adversaire décide de tester ces systèmes d’une manière ou d’une autre, comme le ferait un pirate informatique.

Ces systèmes peuvent exister dans des combinaisons qui incluent tout ce que vous avez dit à leur sujet auparavant. Ensuite, il se trouve dans un état spécial, ou la mémoire est remplie de données spéciales, et c'est pourquoi ils doivent générer quelque chose. C'est compliqué ici, et ce n'est pas infini. Il existe donc des moyens de résoudre ce problème, mais le déploiement d’une technologie normale comporte de nombreuses nuances.

Frye : Je me souviens que vous aviez dit, je pense que c'était la première fois que je vous interviewais, vous avez mentionné qu'en fait nous devons reconnaître qu'il s'agit d'une manière complètement différente de calculer. Vous devez vous éloigner des choses déterministes que nous comprenons parfaitement et évoluer vers quelque chose de plus compliqué, comme le probabiliste. Pensez-vous que le public doit également changer un peu son point de vue sur les types d’informatique ?

Hassabis: Oui, je suis d'accord. C'est peut-être une autre chose à laquelle nous devons réfléchir, et c'est intéressant,Avant de publier un système, vous pouvez publier un document de principes ou quelque chose comme ça, pour démontrer clairement l'utilisation prévue de ce système, pour quoi est-il conçu ? A quoi sert-il ? Qu'est-ce qu'il ne peut pas faire ? Je pense qu'il y a vraiment besoin d'une sorte de prise de conscience ici, par exemple, si vous l'utilisez de cette manière, vous le trouverez utile, mais n'essayez pas de faire autre chose avec parce que cela ne fonctionnera tout simplement pas.

Je pense que c'est quelque chose que nous devons faire dans certains domaines, et les utilisateurs peuvent également avoir besoin d'expérience dans ce domaine. C'est en fait assez intéressant, c'est probablement pourquoi les chatbots eux-mêmes sont quelque peu surprenants, même pour OpenAI, y compris ChatGPT. Nous avons également nos propres chatbots, et nous avons remarqué que ces robots ont encore des défauts, comme des hallucinations et d'autres problèmes.

Mais ce que nous ne réalisons pas, c’est que malgré ces défauts, il existe en réalité de nombreux cas d’utilisation intéressants pour les chatbots. De nos jours, les gens trouvent des utilisations très utiles, comme résumer des fichiers et des documents longs, rédiger des e-mails, remplir des formulaires, etc. En raison du large éventail de scénarios d'utilisation, même s'il y a quelques petites erreurs, cela ne dérange pas les humains. Les humains peuvent facilement corriger ces erreurs et gagner beaucoup de temps. Je suppose que c'est la chose surprenante que les gens trouvent, lorsqu'ils les utilisent, ils trouvent ces cas d'utilisation précieux, même si ces systèmes sont défectueux à tous points de vue que nous connaissons.

À propos de l'Open Source : une fois publié, il ne peut pas être retiré

Frye : Cela m'amène à la question suivante que je souhaite poser, qui concerne l'open source. Comme vous l'avez mentionné, lorsque les choses sont entre les mains des gens, des choses vraiment extraordinaires se produisent. Je comprends que DeepMind a réalisé de nombreux projets open source dans le passé, mais cela semble avoir changé au fil du temps.

Hassabis: Oui, nous sommes très favorables à l’open source et à la science ouverte. Comme vous le savez, nous rendons public presque tout ce que nous faisons, comme Transformer, et les recherches sur AlphaGo et AlphaFold sont publiées dans Nature et dans d'autres revues, et AlphaFold est également open source. En partageant l’information, la technologie et la science peuvent progresser rapidement. Nous le faisons donc presque toujours, et nous pensons que c’est une chose très bénéfique à faire, et c’est ainsi que fonctionne la science.

La seule exception est que l’IA, l’AGI et l’IA puissante ont les deux côtés. La question est de savoir qui l’utilise, les scientifiques et les technologues qui agissent réellement avec de bonnes intentions et peuvent faire des suggestions constructives et critiques, ce qui constitue le moyen le plus rapide pour faire progresser la société. Mais la question est de savoir comment limiter également l'accès aux personnes mal intentionnées qui peuvent utiliser les mêmes systèmes à de mauvaises fins, en faire un mauvais usage, comme les systèmes d'armes, mais nous ne pouvons pas prédire cela à l'avance. De plus, le système universel lui-même peut être réutilisé de cette manière. Nous pouvons encore le conserver aujourd’hui car je ne pense pas que les systèmes soient encore aussi puissants.

Au cours des deux à quatre prochaines années, surtout à mesure que nous commençons à développer des systèmes basés sur le comportement des agents, si ces systèmes sont mal utilisés par quelqu'un, de graves dommages pourraient être causés. Même si nous n’avons pas de solutions concrètes, en tant que communauté, nous devons réfléchir à ce que cela signifie pour l’open source.

Peut-être que les modèles de pointe doivent faire l'objet d'un examen plus approfondi avant d'être open source un an ou deux après leur sortie.. Ce modèle est celui que nous suivons car nous avons notre propre modèle open source appelé Gemma. Ces modèles sont plus petits et peu avant-gardistes, leurs fonctionnalités restent donc très utiles aux développeurs et sont faciles à exécuter sur un ordinateur portable avec moins de paramètres. Ces fonctions sont désormais bien comprises. Cependant, les performances de ces modèles ne sont pas aussi bonnes que celles des derniers modèles de pointe, comme le Gemini 1.5. La dernière approche que nous pourrions adopter est la suivante :Nous aurons des modèles open source, mais ils auront environ un an de retard sur les modèles de pointe, afin que nous puissions réellement évaluer l'utilisation publique de ces modèles par les utilisateurs et comprendre les capacités des modèles de pointe.

Le principal problème de l’open source est qu’une fois publié, il ne peut pas être retiré. Contrairement aux modèles propriétaires, les développeurs ne peuvent pas simplement arrêter un modèle open source s'il est utilisé de manière inappropriée.Une fois open source, c'est comme franchir une porte à sens unique, vous devez donc être très prudent avant l'open source.

Frye : Est-il possible de limiter l’intelligence artificielle générale (AGI) à un fossé au sein d’une organisation ?

Hassabis: C'est encore une question non résolue. Nous ne savons pas encore comment procéder, car c’est une chose à laquelle nous devons penser lorsque nous commençons à parler d’IA de haut niveau, de type humain.

Frye : Et la couche intermédiaire ?

Hassabis: Au niveau intermédiaire, nous avons de meilleures idées pour résoudre ces problèmes. Par exemple, il peut être testé via un environnement sandbox sécurisé. Cela signifie tester le comportement de l'agent dans un environnement de jeu ou une version partiellement connectée d'Internet. De nombreux travaux de sécurité sont déjà réalisés dans ce domaine, ainsi que dans d’autres domaines tels que la fintech. Nous pourrions prendre ces idées et construire des systèmes en conséquence, c'est ainsi que nous testons les premiers prototypes de systèmes. Mais nous savons aussi que ces mesures pourraient ne pas suffire à limiter l’AGI, un système qui pourrait être plus intelligent que nous. Par conséquent, nous devons mieux comprendre ces systèmes afin de concevoir des protocoles pour l’AGI. D’ici là, nous disposerons de meilleurs moyens de le contrôler et éventuellement d’exploiter les systèmes et outils d’IA pour surveiller la prochaine génération de systèmes d’IA.

Comment réguler l'IA

Frye : En matière de sécurité, beaucoup de gens semblent penser que le mot réglementation résout tous les problèmes. Comment pensez-vous que la réglementation devrait être structurée ?

Hassabis: Le gouvernement accélère sa compréhension et son implication dans la technologie de l’IA, ce qui est un phénomène positif.Je pense qu'une coopération internationale est nécessaire, notamment dans des domaines tels que la réglementation, les mesures de sécurité et les spécifications de déploiement.。

À l'approche de l'AGI, nous devons reconnaître que la technologie progressant rapidement,Notre approche réglementaire doit également être flexible et s'adapter rapidement aux dernières évolutions technologiques.. Si vous aviez réglementé l’IA il y a cinq ans, vous auriez réglementé quelque chose de complètement différent. Ce que nous voyons aujourd’hui est une IA générative, mais dans cinq ans, ce sera peut-être différent.

Actuellement, les systèmes basés sur des agents peuvent présenter le risque le plus élevé. Je recommande donc de renforcer les réglementations existantes dans des domaines déjà réglementés (comme la santé, les transports, etc.) pour les adapter à l'ère de l'IA, tout comme les réglementations ont été précédemment mises à jour pour le mobile et Internet.

La première chose que je ferais serait de rester concentré et de m’assurer que nous comprenons et testons les systèmes de pointe. À mesure que la situation deviendra plus claire et qu’il faudra commencer à élaborer des réglementations autour de ces situations, il pourrait être plus logique de le faire dans quelques années. Ce qui nous manque à l'heure actuelle, c'est une analyse comparative, des tests de compétences appropriés, y compris, comme l'industrie veut le savoir, à quel point nos capacités pourraient présenter un risque important. Il n’y a actuellement aucune réponse à cette question, et les capacités basées sur les agents que je viens de mentionner pourraient constituer le prochain seuil, mais il n’existe actuellement aucune méthode de test acceptée.

Un test possible consiste à détecter si le système possède des capacités trompeuses. S’il y a tromperie dans le système, alors rien d’autre qu’il rapporte ne peut être fiable. donc,Tester la tromperie devrait être une priorité absolue pour les capacités émergentes. En outre, de nombreuses autres capacités méritent d'être testées, telles que la capacité à atteindre des objectifs spécifiques, les capacités de réplication, etc., et de nombreux travaux connexes sont actuellement en cours. Je pense que c’est essentiellement là que les agences gouvernementales entrent en jeu. Je pense que ce serait formidable pour eux de faire de gros efforts dans ce domaine, et bien sûr, les laboratoires devraient apporter ce qu'ils savent.

Frye : Quelle est la place des institutions dans le monde que vous décrivez ? Même si nous arrivons au stade où nous disposons d’AGI capables de soutenir toutes les recherches scientifiques, les institutions auront-elles encore leur place ?

Hassabis: Je pense que oui. Pour arriver à AGI, je pense que ce sera une collaboration entre la communauté, le monde universitaire, le gouvernement et les laboratoires industriels. Je crois sincèrement que c'est la seule façon pour nous d'arriver à cette étape finale.

Normes de test du Kazakhstan pour l'AGI

Hassabis: Si vous demandez ce qui se passe après l'AGI, l'une des raisons pour lesquelles j'ai toujours voulu créer l'AGI est que nous puissions l'utiliser pour commencer à répondre à certaines des questions les plus importantes et les plus fondamentales sur la nature, la réalité, la physique et la conscience. . Selon la forme qu’il prend, il pourrait s’agir d’une combinaison d’experts humains et d’IA. Je pense que cela continuera à être le cas pendant un certain temps en termes d’exploration de la prochaine frontière.

Actuellement, ces systèmes ne peuvent pas émettre de conjectures ou d'hypothèses par eux-mêmes.. Dans l’état actuel des choses, ils peuvent vous aider à prouver certains problèmes, à remporter des médailles d’or aux Olympiades mathématiques internationales et peut-être même à résoudre de célèbres conjectures mathématiques, mais ils ne sont pas encore capables de formuler des hypothèses comme l’hypothèse de Riemann ou la relativité générale.Cela a été ma norme de test pour la véritable intelligence artificielle générale- Il pourra le faire et même inventer de nouvelles théories. Nous n’avons pas encore de système, et nous ne savons peut-être même pas comment concevoir théoriquement un système qui fasse cela.

Frye : L'informaticien Stuart Russell m'a fait part de son inquiétude quant au fait qu'une fois que nous aurons atteint le stade de développement de l'AGI, nous pourrions tous finir par profiter d'une vie de luxe effréné sans aucun but dans la vie. Bien que ce genre de vie soit plein de confort matériel, il manque de sens et de but profonds.

Hassabis: C'est en effet une question intéressante. Cela va probablement au-delà de l'AGI et ressemble davantage à ce que les gens appellent parfois ASI. D’ici là, nous devrions disposer d’énormes ressources, et en supposant que nous puissions assurer une répartition juste et équitable de ces ressources, nous serons dans une position où nous pourrons choisir librement comment agir, et le « sens » deviendra une grande question philosophique. Je pense que nous aurons besoin de philosophes, peut-être même de théologiens et de spécialistes des sciences sociales, pour commencer à réfléchir à cela dès maintenant. Qu'est-ce qui apporte du sens ? Je pense toujours que la réalisation de soi est importante et je ne pense pas que nous nous plongerons tous dans la méditation, peut-être que nous jouerons à des jeux informatiques. Mais quand même, est-ce vraiment une mauvaise chose ? C’est une question qui mérite d’être explorée.

Même si l’AGI entraînera d’énormes changements, tels que la guérison d’un grand nombre ou de la totalité des maladies et la résolution des problèmes énergétiques et climatiques, elle pourrait également nous confronter à une question plus profonde : quel est le sens de la vie ? Tout comme les personnes escaladant le mont Everest ou pratiquant des sports extrêmes, ces activités peuvent sembler dénuées de sens en surface, mais elles sont en réalité une quête de dépassement de soi. Avec le développement de l’AGI, nous avons peut-être tout sur le plan matériel, mais cela implique de repenser le sens de la vie. Ce problème est sous-estimé tant au début qu’à la fin du développement technologique, et nous devons réévaluer ce que l’on appelle le battage médiatique et son impact réel sur notre avenir.

Frye : Revenons à la question sur l'AGI. Je sais que votre grande mission est de créer une IA qui profite à tout le monde. Mais comment s’assurer que cela profite réellement à tout le monde ? Comment prendre en compte les préférences de chacun et pas seulement des designers ?

Hassabis: Je ne pense pas qu’il soit possible d’inclure toutes les préférences dans un seul système parce que les gens ne peuvent pas s’entendre sur de nombreuses questions. Je pense que nous pouvons avoir une architecture sécurisée sur laquelle une intelligence artificielle personnalisée peut être construite, et ensuite les gens décident à quoi le système d'IA peut et ne peut pas être utilisé en fonction de leurs propres préférences, objectifs d'utilisation et objectifs de déploiement. En général, l'architecture doit garantir la sécurité, et les utilisateurs peuvent ensuite apporter des variations et des incréments en fonction de l'architecture.

Je pense donc qu'à mesure que nous nous rapprochons de l'AGI, nous devrons probablement collaborer de manière plus idéale au niveau international et ensuite nous assurer que nous construisons l'AGI dans un environnement sûr.

Une fois cette tâche terminée, chacun peut disposer de sa propre API de poche personnalisée s'il le souhaite.

Frye : D'accord. Mais ce que je veux dire, c’est que l’IA peut présenter de mauvais comportements.

Hassabis: Oui, de mauvais comportements émergents, des capacités. La tromperie en est un exemple. Il faut mieux comprendre tous ces enjeux.

Il y a deux choses dont il faut s'inquiéter : les humains pourraient abuser de l'IA, et l'IA elle-même (à mesure qu'elle se rapproche de l'AGI, ses performances déraillent). Je pense que ces deux problèmes nécessitent des solutions différentes. Oui, c’est ce à quoi nous devons faire face à mesure que nous nous rapprochons de plus en plus de la construction de l’AGI.

Pour en revenir à votre point sur le bénéfice de tout le monde, en utilisant AlphaFold comme exemple, je pense que nous pouvons guérir la plupart des maladies d’ici un an ou deux si la conception de médicaments basés sur l’IA fonctionne. Ils peuvent ensuite être transformés en médicaments personnalisés afin de minimiser les effets secondaires pour l'individu, liés entre autres à sa maladie et à son métabolisme individuel. Ce sont donc des choses étonnantes, vous savez, l’énergie propre, l’énergie renouvelable, la technologie va apporter d’énormes avantages, mais nous devons aussi atténuer les risques.

Frye : Vous avez dit que vous vouliez atténuer les risques en faisant un jour une version scientifique de "Avengers Assemble" ?

Hassabis:certainement.

Frye : Alors, comment savoir quand le moment est venu ?

Hassabis: Eh bien, c'est une grande question. Vous ne pouvez pas le faire trop tôt car vous n’obtiendrez jamais le soutien de certains opposants. Aujourd’hui, on voit des personnes très célèbres dire que l’IA est sans risque. Et puis des gens comme Geoffrey Hinton disent qu'il y a beaucoup de risques.

Frye : Je veux vous parler davantage des neurosciences. Dans quelle mesure cela inspire-t-il encore ce que vous faites ? Parce que j’ai remarqué qu’il y a quelques jours DeepMind a dévoilé une souris virtuelle dotée d’un cerveau artificiel, qui contribue à changer notre compréhension de la façon dont le cerveau contrôle le mouvement. Je me souviens que nous avions beaucoup parlé de s’inspirer directement des systèmes biologiques, est-ce toujours au cœur de votre démarche ?

Hassabis: Non, cela a évolué maintenant et je pense que nous sommes entrés dans la phase d'ingénierie, comme les systèmes à grande échelle, l'architecture de formation à grande échelle. Les neurosciences ont un peu moins d’influence là-dessus. Les neurosciences sont une source d’idées, mais lorsque le volume d’ingénierie est important, les neurosciences passent au second plan. Il s’agit désormais probablement davantage d’appliquer l’intelligence artificielle aux neurosciences. Je pense qu'à mesure que nous nous rapprochons de l'AGI, la compréhension du cerveau sera l'un des cas d'utilisation les plus intéressants de l'AGI.

Frye : Je me demande si vous imaginez également qu'il y aura des choses qui dépassent la compréhension humaine et que l'AGI nous aidera à découvrir et à comprendre ?

Hassabis: Je pense qu'il est possible pour les systèmes AGI de comprendre des niveaux d'abstraction plus élevés que nous. Je pense qu'un système d'IA pourrait effectivement avoir n'importe quel type de cortex préfrontal, ce qui lui permettrait d'imaginer des niveaux d'abstraction et de modèles plus élevés, et de voir l'univers dont nous ne pouvons pas vraiment comprendre ou nous souvenir tout de suite.

Et puis je pense que, du point de vue de l'interprétabilité, nous ne pouvons pas faire évoluer notre propre cerveau à l'infini, mais en théorie, avec suffisamment de temps, de SPE et de mémoire, l'AGI peut comprendre tout ce qui est calculable.

Frye : Vous avez dit que DeepMind était un projet de 20 ans. Êtes-vous près d’être sur la bonne voie ?

Hassabis: Nous sommes sur la bonne voie.

Frye : AGI sera-t-il disponible en 2030 ?

Hassabis: Je ne serais pas surpris qu’il sorte dans les dix prochaines années.

nouvelles

Hassabis : Google veut créer un deuxième Transformer, une combinaison d'AlphaGo et Gemini

Introduction

Mes coordonnées