Hassabis: Google quiere crear un segundo Transformer, AlphaGo y Gemini unen fuerzas

Hassabis: Google quiere crear un segundo Transformer, una combinación de AlphaGo y Gemini

2024-08-20

Informe del corazón de la máquina

Departamento editorial de Machine Heart

"Me siento más cómodo cuando el director ejecutivo de una empresa de inteligencia artificial se parece más a un informático que a un vendedor".

Para DeepMind, 2023 es un año lleno de cambios. En abril de este año, Google anunció que fusionaría Google Brain y DeepMind para formar un nuevo departamento llamado Google DeepMind. El nuevo departamento liderará la investigación y el avance de productos innovadores de IA manteniendo al mismo tiempo estándares éticos.

Google Brain y DeepMind: uno creó Transformer, el otro creó AlphaGo, AlphaFold... Los dos departamentos unieron fuerzas para crear Gemini a finales de 2023 para comparar ChatGPT. Hoy en día, Gemini se sitúa regularmente entre los tres primeros en el ranking de modelos grandes LMSYS Chatbot Arena. Se puede ver que la fusión de los dos tiene ciertos resultados.

Entonces, ¿hacia dónde va Google DeepMind desde aquí? En una conversación reciente con Hannah Fry, profesora asociada de matemáticas urbanas en el Centro de Análisis Espacial Avanzado del University College de Londres, Demis Hassabis, director ejecutivo y cofundador de Google DeepMind, reveló que también expresó sus puntos de vista sobre algunos de los planes de la compañía y algunos problemas actuales en el campo de la IA.

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930939&idx=2&sn=00d72f97f26fc7acc3b2a2fd39434048&chksm=84e43a85b393b393d 7a9bd7caeafce2fcd71b6299e195df3e5a716cb840a401c85dc9efff669&token=899618486&lang=zh_CN#rd

Las opiniones principales de Hassabis son las siguientes:

A corto plazo, la IA está sobrevalorada, pero a largo plazo está infravalorada. En cuanto a cómo distinguir lo que es exageración y lo que se puede lograr en el campo de la IA, Hassabis dijo que además de investigar, también hay que observar los antecedentes de la persona que hace los comentarios, qué conocimientos tiene sobre la tecnología y si acaban de estudiar en otros campos el año pasado. La dirección va hacia la IA. Si la persona que hace el comentario simplemente sigue la tendencia, la probabilidad de que tenga una buena idea es como un sorteo de lotería.
La fusión de DeepMind y Google Brain brinda muchas oportunidades de innovación y su objetivo es inventar la próxima arquitectura que pueda traspasar la frontera de la IA, tal como Google Brain inventó la arquitectura Transformer.
Los puntos de referencia académicos existentes se han saturado y son incapaces de distinguir diferencias sutiles entre los mejores modelos. Hassabis cree que el campo de la IA necesita mejores puntos de referencia, especialmente en áreas como la comprensión multimodal, la memoria a largo plazo y las capacidades de razonamiento.
Muchos de los modelos actuales se derivan de tecnologías que se inventaron hace cinco o seis años. Por lo tanto, a estos modelos todavía les faltan muchas cosas y son alucinantes, no son buenos para la planificación a largo plazo y no pueden completar tareas complejas de manera proactiva. En respuesta a estos problemas, Google tiene la intención de desarrollar sistemas con un comportamiento de agente más sólido combinando su experiencia en agentes de juegos y grandes modelos de lenguaje, como combinar las ventajas de AlphaGo en planificación y toma de decisiones con modelos multimodales como Gemini.
Cuando habla de código abierto, Hassabis dijo que tienen muchas tecnologías de código abierto, como Transformer y AlphaFold. Pero cree que los modelos de vanguardia deben someterse a más revisiones y ser de código abierto uno o dos años después de su lanzamiento, un modelo que Google también está siguiendo. Google abrirá modelos de código abierto, pero estarán aproximadamente un año por detrás de los modelos de última generación. Hassabis dijo además que el principal problema del código abierto es que es como atravesar una puerta de un solo sentido. Una vez liberado, no se puede retirar. Por lo tanto, debes tener mucho cuidado antes del código abierto.
La IA puede conducir a avances en problemas matemáticos complejos, como ayudar a resolver conjeturas matemáticas famosas o obtener buenos resultados en competencias internacionales de matemáticas. Sin embargo, los sistemas de IA actuales aún no son capaces de generar por sí solos nuevas hipótesis matemáticas o teorías originales. Hassabis cree que una prueba importante de AGI será su capacidad para generar de forma autónoma hipótesis y teorías completamente nuevas como la relatividad general.
Con respecto a cómo garantizar que AGI pueda beneficiar a todos, Hassabis cree que es imposible incluir todas las preferencias en un sistema, pero se puede construir una arquitectura segura y luego las personas pueden usarla de acuerdo con sus preferencias, propósitos de uso y propósitos de implementación. Decida para qué se puede y para qué no se puede utilizar el sistema de IA.

Después de ver la entrevista, una persona comentó que lo hizo sentir cómodo porque Hassabis sonaba más como un informático que como un vendedor. Otros dicen que adquirir DeepMind y permitirles desarrollarse libremente es la mejor decisión que Google haya tomado en materia de inteligencia artificial, y esperan que Google les permita continuar su trabajo sin interrupciones tanto como sea posible.

El siguiente es el contenido de la entrevista compilado por Machine Heart.

El desarrollo de la IA es inesperado

Frye: Pensando en retrospectiva, cuando comenzamos a planificar este podcast en 2017, DeepMind era un laboratorio de investigación de inteligencia artificial relativamente pequeño y enfocado que acababa de ser adquirido por Google y al que se le había otorgado el poder de realizar su propia investigación única desde una distancia segura en Londres. . Pero las cosas han cambiado drásticamente desde entonces. Desde el año pasado, Google ha reorganizado toda su arquitectura, situando a los equipos de IA y DeepMind en el centro de su estrategia.

Google DeepMind continúa su búsqueda de dotar a la IA de inteligencia a nivel humano, la llamada inteligencia artificial general (AGI). Lanzó una serie de nuevos y potentes modelos de IA llamados Gemini, así como un agente de IA llamado Proyecto Astra que puede procesar audio, video, imágenes y código. El laboratorio también está dando grandes pasos en la aplicación de la IA a múltiples campos científicos, incluida la predicción de la estructura de todas las moléculas del cuerpo humano, no solo de las proteínas. En 2021, también crearon una nueva empresa, Isomorphic Labs, dedicada a descubrir nuevos medicamentos para tratar enfermedades. Google DeepMind también está investigando potentes agentes de inteligencia artificial que puedan aprender a realizar tareas por sí solos mediante el aprendizaje por refuerzo, y continúa la leyenda de Alpha Go derrotando a los humanos en el juego de Go.

Hoy invitamos a Demis Hassabis, cofundador y director ejecutivo de DeepMind.

Me pregunto: ¿su trabajo se ha vuelto más fácil o más difícil desde el aumento del interés público en la IA?

hassabis: Creo que es un arma de doble filo. Lo difícil es que ahora mismo hay tanto escrutinio, atención y mucho ruido en todo el campo. Prefiero que haya menos gente y podamos centrarnos más en la ciencia. Pero el lado positivo es que muestra que la tecnología está lista para impactar el mundo real de muchas maneras diferentes e impactar la vida diaria de las personas de manera positiva, así que creo que eso también es emocionante.

Frye: ¿Alguna vez te ha sorprendido la rapidez con la que se ha capturado la imaginación del público? Supongo que esperabas que esto terminara así, ¿no?

hassabis: En efecto. Aquellos de nosotros que hemos estado estudiando este campo durante décadas eventualmente, en algún momento, nos daremos cuenta de lo importante que va a ser la IA. Pero todavía parece un poco surrealista ver que todo se haga realidad y suceda de esta manera. Creo que esto se debe realmente a la aparición de los chatbots y al desarrollo de modelos de lenguaje, porque todos usan el lenguaje y todos pueden entenderlo, por lo que esta es una manera fácil para que el público comprenda y mida el nivel de desarrollo de la IA.

Frye: Te escuché describir estos chatbots como "extraordinariamente efectivos".

hassabis: Quiero decir, si miras hacia atrás, hace 5 o 10 años, la gente podría haber pensado que para lograr el desarrollo de la IA, es necesario construir una arquitectura asombrosa y ampliarla, sin tener que resolver específicamente conceptos abstractos. preguntas específicas. En muchas discusiones hace entre 5 y 10 años, la gente pensaba que se necesitaba una forma especial de abordar los conceptos abstractos, porque aparentemente así es como funciona el cerebro. Pero si los sistemas de IA reciben suficientes datos, como los datos de todo Internet, parecen ser capaces de aprender de ellos y generalizar patrones, no sólo mediante el aprendizaje de memoria, sino que realmente entienden hasta cierto punto lo que están procesando. contenido. Es algo "extraordinariamente eficaz" porque no creo que nadie hubiera pensado hace 5 años que sería tan eficaz como lo es ahora.

Frye: Entonces, eso fue una sorpresa...

hassabis: Sí, hablamos antes sobre el concepto y su fundamento: situar el lenguaje en experiencias del mundo real, tal vez en simulaciones o inteligencia robótica encarnada. Por supuesto, estos sistemas aún no están en ese nivel, cometen muchos errores, todavía no tienen un verdadero modelo del mundo. peroSólo con aprender del idioma han llegado más lejos de lo que esperaban。

Frye: Creo que necesitamos explicar el concepto de conexión a tierra.

hassabis:El problema de conexión a tierra es un problema que se encuentra en los sistemas de IA clásicos construidos en lugares como el MIT en las décadas de 1980 y 1990. Puedes pensar en estos sistemas como enormes bases de datos lógicas, con palabras conectadas entre sí. El problema es que puedes decir "el perro tiene patas" y estará en la base de datos, pero cuando le muestras al sistema una imagen de un perro, no sabe cómo se relaciona ese montón de píxeles con ese símbolo. Ése es el problema fundamental: tenemos estas representaciones simbólicas y abstractas, pero ¿qué significan realmente en el mundo real, especialmente en el desordenado mundo real? Intentaron resolver el problema pero nunca lo consiguieron.

Y los sistemas actuales aprenden directamente de los datos, por lo que en cierto sentido están formando esa conexión desde el principio, pero lo interesante es que si solo se aprende del lenguaje, en teoría debería faltar mucho de lo que se requiere. , pero el resultado es que de alguna manera se puede inferir mucha información fundamental.

Frye: ¿Por qué dices eso?

hassabis: En teoría, debido a que estos grandes modelos de lenguaje iniciales no existían en el mundo real, no estaban conectados al simulador, no estaban conectados al robot, ni siquiera eran inicialmente multimodales, no estaban expuestos. Para la visión o cualquier otra cosa, existen sólo en el espacio del lenguaje. Por tanto, se aprenden en el dominio abstracto. Por eso es sorprendente que puedan inferir algo sobre el mundo real a partir de ese dominio.

Frye: Tiene sentido decir que la conexión a tierra se adquiere a través de la interacción de las personas con el sistema...

hassabis:en realidad. Entonces, con seguridad, si cometen errores al responder ciertas preguntas, por ejemplo, las primeras versiones respondieron incorrectamente las preguntas cuando se trataba de los ladridos de los perros en el mundo real debido a la falta de conexión a tierra. La gente los corrige mediante comentarios. Parte de esta retroalimentación proviene de nuestro propio conocimiento de la realidad. Así es como surgió algo de conexión a tierra.

Frye: Recuerdo haber visto un ejemplo muy vívido de la diferencia entre "cruzar el Canal de la Mancha" y "cruzar el Canal de la Mancha a pie".

hassabis: Este ejemplo funciona. Si responde mal, le dices que está mal y luego tiene que resolverlo: no puedes cruzar el Canal de la Mancha.

¿Está la IA sobrevalorada o poco promocionada?

Frye: Voy a preguntarte un poco sobre la publicidad, ¿crees que, en este momento, la IA está sobrevalorada o subvalorada o simplemente está promocionada en la dirección equivocada?

hassabis: Por un lado, a corto plazo se sobrevalora la IA. La gente afirma que puede hacer muchas cosas, pero en realidad no es así, y hay muchas nuevas empresas y capitalistas de riesgo que persiguen algunas ideas locas que aún no están lo suficientemente maduras.

Por otro lado, creo que la IA todavía está infravalorada. Quizás la gente no comprenda del todo lo que sucede cuando llegamos a AGI y cuán grande es la responsabilidad.

Frye: Usted ha estado en este espacio durante décadas y es fácil ver cuáles son objetivos realistas para lo que estas nuevas empresas y capitalistas de riesgo persiguen y cuáles no. Pero ¿cómo pueden otros notar la diferencia?

hassabis: Obviamente hay que hacer cierta diligencia técnica y tener cierto conocimiento de la tecnología y las últimas tendencias.Al mismo tiempo, también hay que mirar los antecedentes de la persona que hizo el comentario. ¿Qué conocimiento tiene sobre la tecnología? ¿Cambió a la IA desde otra dirección el año pasado? ¿Estaban haciendo criptomonedas el año pasado? Estas podrían ser algunas pistas de que podrían estar subiéndose al tren, no significa que vayan a tener grandes ideas, e incluso si las tienen, probablemente será una lotería.

Creo que esto siempre sucede cuando un campo de repente recibe mucha atención y luego llega la financiación y todos sienten que no se lo pueden perder.

Eso crea un entorno que es, digamos, oportunista, lo cual es un poco contrario a aquellos que han estado trabajando en tecnología profunda, ciencia profunda durante décadas, que creo que es la forma en que debemos continuar a medida que nos acercamos a AGI.

Gemini: el primer proyecto faro tras la fusión de Google Brain y DeepMind

Frye: Hablemos a continuación de Géminis. ¿En qué se diferencia Gemini de otros grandes modelos de lenguaje lanzados por otros laboratorios?

hassabis: Desde el principio, queríamos que Gemini pudiera manejar múltiples modalidades, por lo que pudiera manejar no solo el lenguaje, sino también varias modalidades como audio, video, imágenes, código, etc. La razón por la que queremos hacer esto, en primer lugar, es porque creo que es una manera de que estos sistemas comprendan realmente el mundo que los rodea y construyan mejores modelos del mundo, lo que se remonta a la cuestión fundamental anterior.

También tenemos la visión de tener un asistente universal. Hicimos un prototipo llamado Astra que no sólo entiende lo que estás escribiendo, sino que también comprende el entorno en el que te encuentras. Un asistente tan inteligente sería más útil. Así que incorporamos la multimodalidad desde el principio. Esta es otra cosa que solo nuestro modelo hacía en ese momento, y ahora otros modelos se están poniendo al día.

Nuestras otras grandes innovaciones en la memoria, como los contextos largos, en realidad pueden recordar alrededor de un millón o dos millones de tokens. Entonces podrías darle Guerra y Paz o la película completa y hacer que responda preguntas o encuentre cosas en la transmisión de video.

Frye: En Google I/O, usaste un ejemplo de cómo Astra te ayuda a recordar dónde dejaste tus lentes, ¿verdad? Pero me pregunto si esto es sólo una versión avanzada de esas viejas Google Glasses.

hassabis: Por supuesto, Google tiene una larga historia en el desarrollo de dispositivos Glass, que en realidad se remonta aproximadamente a 2012, lo que estaba muy adelantado a su tiempo. Pero es posible que simplemente carezcan de la tecnología necesaria para que un agente o asistente inteligente entienda realmente lo que usted está diciendo. Por eso, estamos muy entusiasmados con los asistentes digitales que pueden estar con usted en todo momento y comprender el mundo que lo rodea. Cuando lo usas, realmente parece un caso de uso natural.

Frye: A continuación quiero retroceder un poco sobre los orígenes de Gemini; después de todo, proviene de dos departamentos de investigación diferentes de Google.

hassabis: Sí, el año pasado fusionamos los dos departamentos de investigación de Alphabet, integrando Google Brain y DeepMind en Google DeepMind. Lo llamamos una súper unidad, que reúne a los mejores talentos de toda la empresa en un solo departamento. Esto significa que combinamos los mejores conocimientos adquiridos en todas las investigaciones, especialmente en modelos de lenguaje.

Por lo tanto, lanzamos modelos como Chinchilla y Gopher, y construimos PaLM, LaMDA y otros modelos iniciales. Cada uno de estos modelos tiene sus propias ventajas y desventajas, por eso los integramos en Gemini y nos convertimos en el primer Proyecto Lighthouse lanzado después de la fusión de los departamentos. Luego, la otra cosa importante es reunir todos los recursos informáticos para poder realizar ejecuciones de entrenamiento muy grandes. Creo que son geniales.

Frye: En muchos sentidos, Google Brain y DeepMind tienen enfoques ligeramente diferentes. ¿Puedo decir esto?

hassabis: Las distintas divisiones de Google están claramente centradas en la vanguardia de la inteligencia artificial y ya existe mucha colaboración a nivel de investigación individual, pero es diferente a nivel estratégico. Con la incorporación de Google DeepMind, me gusta describirlo como la Sala de Máquinas de Google, está funcionando muy bien. Creo que hay muchas más similitudes que diferencias en la forma en que trabajamos, y continuaremos manteniendo y fortaleciendo nuestras fortalezas en áreas como la investigación básica.

Por ejemplo,¿De dónde vendrá la próxima arquitectura Transformer?Queremos inventarlo. Los investigadores de Google Brain inventaron la ahora popular arquitectura Transformer. Combinamos esta arquitectura con el aprendizaje por refuerzo profundo, del que fuimos pioneros. Creo que todavía se necesita más innovación. Apoyo esto, tal como lo han hecho los equipos de Google Brain y DeepMind durante los últimos 10 años. Es emocionante.

Dirección futura: combinar AlphaGo con Gemini

Frye: Quiero hablar de Géminis, ¿cómo se desempeña? ¿Cómo se compara con otros modelos?

hassabis: Esta pregunta involucra puntos de referencia,Creo que todo el campo necesita mejores puntos de referencia. Existen algunos puntos de referencia académicos bien conocidos, pero ahora están saturados y realmente no distinguen los matices entre los diferentes modelos superiores.。

En mi opinión,Actualmente existen tres tipos de modelos top y vanguardistas, nuestro Gemini, el GPT de OpenAI y el Claude de Anthropic.. Además, hay muchos modelos que funcionan bien, como los modelos de la serie Llama y la serie Mistral lanzados por Meta, Mistral, etc. Son buenos en diferentes tareas. Depende del tipo de tareas que desee realizar, elija Claude para codificación, GPT para razonamiento y Gemini para memoria, contexto extenso y comprensión multimodal.

Por supuesto, las empresas seguirán mejorando sus modelos. El Gemini, por ejemplo, es sólo un modelo que tiene menos de un año. Creo que estamos en una muy buena trayectoria y espero que la próxima vez que hablemos, Géminis esté a la vanguardia.

Frye: Sí, a los grandes modelos todavía les queda un largo camino por recorrer. ¿Significa esto también que estos modelos no son muy buenos en algunos aspectos?

hassabis:ciertamente. De hecho, este es el mayor debate en este momento. Muchos de los modelos actuales se derivan de tecnologías que se inventaron hace cinco o seis años. Así que a estos modelos todavía les faltan muchas cosas, son alucinantes y no planifican bien.

Frye: ¿Cuál es el plan?

hassabis: Por ejemplo, en alguna planificación a largo plazo, el modelo no puede resolver el problema a largo plazo. Le asignas un objetivo y ellos realmente no pueden actuar por ti. entonces,El modelo se parece mucho a un sistema pasivo de respuesta a preguntas.. Haces una pregunta y te dan algún tipo de respuesta, pero no te resuelven el problema. Por ejemplo, desea un asistente digital que lo ayude a reservar todas sus vacaciones en Italia, así como a reservar todos los restaurantes, museos y más. Desafortunadamente, no puede hacer estas cosas.

Creo que este es un tema para la próxima era de investigación, que llamamos (en mayor medida) sistemas basados en agentes o sistemas inteligentes que tienen un comportamiento similar al de un agente. Por supuesto, esto es en lo que Google es bueno. Google ha creado el agente de juegos AlphaGo y otros agentes en el pasado. entonces,Gran parte de lo que estamos haciendo es combinar proyectos famosos con nuevos modelos multimodales a gran escala y convertirnos en sistemas de próxima generación, como la combinación de AlphaGo y Gemini.。

Frye: Creo que AlphaGo es muy bueno planificando.

hassabis: Sí, AlphaGo es muy bueno planificando. Por supuesto, es sólo en el ámbito de los juegos. Por tanto, necesitamos generalizarlo a áreas generales como el trabajo diario y el lenguaje.

Frye: Acabas de mencionar que Google DeepMind se ha convertido ahora en la sala de máquinas de Google. Eso es un gran cambio. Entonces, ¿Google está haciendo una gran apuesta por la IA?

hassabis: Creo que sí. Creo que Google siempre ha entendido la importancia de la IA. Cuando Sundar asumió el cargo de director ejecutivo, dijo que Google era una empresa que priorizaba la inteligencia artificial. Discutimos este tema al principio de su mandato y él cree que la IA tiene el potencial de ser el próximo gran cambio de paradigma después de Internet móvil y tiene mayor potencial que antes.

Quizás en el último año o dos, realmente hemos comenzado a tener una idea de lo que eso significa, no solo desde una perspectiva de investigación, sino también en términos de productos y otros aspectos. Es muy emocionante, así que creo que es lo correcto para nosotros reunir todo el talento y hacer todo lo posible para impulsar la IA.

Frye: Sabemos que Google DeepMind se toma muy en serio la investigación y la ciencia. Pero al convertirse en la sala de máquinas de Google, ¿significa eso que tiene que preocuparse más por los intereses comerciales y ya no por las cosas más puras?

hassabis: Sí, definitivamente nos preocupan más los intereses comerciales dentro de los términos de referencia. Pero en realidad, aquí hay algunas cosas que tengo que decir. Primero, continuaremos nuestro trabajo científico en AlphaFold, que lanzamos AlphaFold 3 hace unos meses. También estamos duplicando nuestra inversión en esto. Creo que este es un trabajo único que realiza Google DeepMind.

Ya sabes, incluso nuestros competidores piensan que este será un producto de IA general. Formamos una nueva empresa, Isomorphic Labs, para llevar a cabo el desarrollo de fármacos. Es todo muy emocionante y todo va muy bien. Entonces continuaremos haciendo eso. Al mismo tiempo, también hemos trabajado mucho en la predicción del clima y otros aspectos.

Contamos con un gran equipo por lo que podemos realizar varios trabajos al mismo tiempo. Estamos construyendo nuestro modelo a gran escala Gemini et al. Estamos formando un equipo de producto para llevar todas estas increíbles tecnologías a todas las áreas donde existe Google. En cierto modo, es una ventaja para nosotros poder conectar toda nuestra tecnología en cualquier momento. Es realmente inspirador que podamos inventar algo que mil millones de personas puedan utilizar inmediatamente.

Otra cosa es,Ahora necesitamos un grado mucho mayor de integración entre las tecnologías de IA desarrolladas para productos y el trabajo realizado con fines de investigación puramente AGI.. Hace cinco años, había que crear una IA especial para un producto. Ahora puede separar la investigación principal y, por supuesto, todavía necesita hacer algún trabajo específico del producto, pero eso probablemente sea solo el 10% de todo el trabajo.

por lo tanto,De hecho, ya no existe una contradicción entre desarrollar productos de IA y construir AGI.. Yo diría que el 90% es el mismo plan de investigación. Entonces, si lanza productos y los lleva al mundo, aprenderá mucho de ellos. La gente también lo usa, por lo que aprendes mucho sobre, por ejemplo, que tus métricas internas no coinciden con lo que dice la gente, y luego puedes hacer actualizaciones. Esto es muy útil para su investigación.

Cómo probar la tecnología GenAI

Frye: Me pregunto si existe una tensión entre los avances que aplican la IA a la ciencia y el momento adecuado para hacer públicas estas cosas. Dentro de Google DeepMind, herramientas como los grandes modelos de lenguaje se utilizan para la investigación en lugar de considerarse productos comerciales potenciales.

hassabis: Nos hemos tomado muy en serio la responsabilidad y la seguridad desde el principio. Incluso antes de 2010, Google incorporó cierta ética básica en sus directrices sobre IA. Hemos estado alineados en todo Google y queremos desplegarnos de manera responsable como uno de los líderes en este espacio.

Por eso es interesante ahora comenzar a lanzar productos reales con capacidades GenAI. En realidad, hay mucho que aprender y estamos aprendiendo rápidamente, lo cual es bueno. Nuestro riesgo es relativamente bajo con las tecnologías actuales, que aún no son tan potentes. Pero a medida que la tecnología se vuelve más poderosa, debemos ser más cuidadosos.

Los equipos de producto y otros equipos están aprendiendo cómo probar la tecnología GenAI. Estas técnicas se diferencian de las técnicas ordinarias en que no siempre hacen lo mismo. Es casi como probar un juego de mundo abierto, las cosas que puedes intentar hacer con él son casi ilimitadas. Así que fue interesante descubrir cómo formar parte del equipo rojo.

Frye: Entonces, en la prueba del equipo rojo, ¿compiten entre sí?

hassabis:Sí. La prueba del equipo rojo es cuando se reúne un equipo dedicado del equipo técnico de desarrollo para probar la tecnología e intentar romperla de cualquier manera posible. En realidad, es necesario utilizar herramientas para automatizar las pruebas, e incluso si hay miles de personas haciéndolo, eso no es suficiente en comparación con miles de millones de usuarios.

Además, creo que tenemos que hacerlo en fases, incluida una fase experimental, una fase beta cerrada y luego un relanzamiento, tal como lo hemos hecho con los juegos en el pasado. Entonces estás aprendiendo cada paso del camino. Creo que lo que debemos hacer más es usar la propia IA para ayudarnos con las pruebas del equipo rojo internamente y, de hecho, encontrar automáticamente algunos errores o realizar una detección triple. De esta manera, nuestros desarrolladores y evaluadores pueden concentrarse realmente en esas situaciones difíciles.

Frye: Hay algo muy interesante aquí: estás en un espacio de mayores probabilidades. Entonces, incluso si algo tiene una pequeña posibilidad de suceder, si lo intentas lo suficiente, eventualmente saldrá mal. Creo que ha habido algunos errores públicos.

hassabis: Como mencioné, creo que los equipos de productos están acostumbrados a realizar pruebas de todo tipo. Saben que han probado esto, pero es aleatorio y probabilístico. De hecho, en muchos casos, si se trata sólo de un software común, se puede decir que se ha probado el 99,999 % del mismo. Entonces infiere que esto es suficiente.

Sin embargo, este no es el caso de los sistemas generativos. Pueden hacer todo tipo de cosas que están un poco fuera de la norma, un poco fuera de lo que has visto antes. Si alguna persona inteligente o adversario decide probar estos sistemas de alguna manera, como lo haría un hacker.

Estos sistemas pueden existir en combinaciones que incluyan todo lo que has dicho sobre ellos antes. Entonces está en algún estado especial, o la memoria está llena de cosas especiales, y es por eso que necesitan generar algo. Aquí es complicado y no es infinito. Así que hay maneras de resolver este problema, pero hay muchos matices en el despliegue de tecnología normal.

Frye: Recuerdo que dijiste, creo que fue la primera vez que te entrevisté, mencionaste que en realidad tenemos que reconocer que esta es una forma completamente diferente de informática. Hay que alejarse de las cosas deterministas que entendemos completamente y avanzar hacia algo más complicado, como lo probabilístico. ¿Cree que el público también necesita cambiar un poco su perspectiva sobre los tipos de informática?

hassabis: Sí, estoy de acuerdo. Quizás esa sea otra cosa en la que debemos pensar, curiosamente,Antes de lanzar un sistema, puedes publicar un documento de principios o algo así., para demostrar claramente el uso previsto de este sistema, ¿para qué está diseñado? ¿Para qué se utiliza? ¿Qué no puede hacer? Creo que realmente se necesita algún tipo de conciencia aquí, por ejemplo, si lo usas de esta manera, lo encontrarás útil, pero no intentes hacer otras cosas con él porque simplemente no va a funcionar.

Creo que esto es algo que debemos hacer en algunas áreas y es posible que los usuarios también necesiten experiencia en esta área. En realidad, es bastante interesante, por lo que probablemente los chatbots en sí sean algo sorprendentes, incluso para OpenAI, incluido ChatGPT. También tenemos nuestros propios chatbots y hemos notado que estos robots todavía tienen fallas, como alucinaciones y otros problemas.

Pero lo que no nos damos cuenta es que, a pesar de estos defectos, en realidad existen muchos casos de uso excelentes para los chatbots. Hoy en día la gente encuentra usos muy valiosos, como resumir archivos y documentos extensos, escribir correos electrónicos, rellenar formularios, etc. Debido a la amplia gama de escenarios de uso, incluso si hay algunos errores pequeños, a las personas en realidad no les importa. Los humanos pueden corregirlos fácilmente y ahorrar mucho tiempo. Supongo que eso es lo sorprendente que la gente encuentra: cuando se usan, la gente encuentra estos casos de uso valiosos, a pesar de que estos sistemas tienen fallas en todos los aspectos que conocemos.

Acerca del Código Abierto: Una vez publicado, no se puede retirar

Frye: Eso me lleva a la siguiente pregunta que quiero hacer, que trata sobre el código abierto. Como mencionaste, cuando las cosas están en manos de la gente, suceden cosas realmente extraordinarias. Entiendo que DeepMind ha abierto muchos proyectos de código abierto en el pasado, pero esto parece haber cambiado con el tiempo.

hassabis: Sí, apoyamos mucho el código abierto y la ciencia abierta. Como usted sabe, hacemos público casi todo lo que hacemos, como Transformer, y las investigaciones sobre AlphaGo y AlphaFold se publican en Nature y otras revistas, y AlphaFold también es de código abierto. Al compartir información, la tecnología y la ciencia pueden avanzar rápidamente. Así que casi siempre lo hacemos y creemos que es algo muy beneficioso y así es como funciona la ciencia.

La única excepción es que la IA, la AGI y la IA poderosa tienen ambos lados. La pregunta es quién lo está utilizando, los científicos y tecnólogos que realmente actúan con buenas intenciones y pueden hacer sugerencias constructivas y críticas, que es la forma más rápida para que la sociedad progrese. Pero la pregunta es, ¿cómo se puede limitar también el acceso a personas con malas intenciones que pueden usar los mismos sistemas para malos propósitos, hacer un mal uso de ellos, como sistemas de armas, pero no podemos predecir eso de antemano? Además, de esta manera se puede reutilizar el propio sistema universal. Todavía podemos conservarlo hoy porque no creo que los sistemas sean tan poderosos todavía.

Durante los próximos dos a cuatro años, especialmente cuando comencemos a desarrollar sistemas con comportamiento de agentes, si alguien hace un mal uso de estos sistemas, se podrían causar daños graves. Si bien no tenemos soluciones concretas, como comunidad debemos pensar en lo que esto significa para el código abierto.

Tal vez los modelos de vanguardia necesiten pasar por más revisiones antes de ser de código abierto uno o dos años después de su lanzamiento.. Este modelo es el que seguimos porque tenemos nuestro propio modelo de código abierto llamado Gemma. Estos modelos son más pequeños y no son de última generación, por lo que sus funciones siguen siendo muy útiles para los desarrolladores y son fáciles de ejecutar en una computadora portátil con menos parámetros. Estas funciones ahora se comprenden bien. Sin embargo, el rendimiento de estos modelos no es tan bueno como el de los últimos modelos de última generación, como el Gemini 1.5. El enfoque final que podríamos adoptar es,Tendremos modelos de código abierto, pero estarán aproximadamente un año por detrás de los modelos de última generación., para que podamos evaluar realmente el uso de estos modelos por parte de los usuarios en público y comprender las capacidades de los modelos de vanguardia.

El principal problema del código abierto es que una vez publicado, no se puede retirar.. A diferencia de los modelos propietarios, los desarrolladores no pueden simplemente cerrar un modelo de código abierto si se utiliza de manera inapropiada.Una vez que se abre el código fuente, es como atravesar una puerta de un solo sentido, por lo que hay que tener mucho cuidado antes de abrir el código fuente.

Frye: ¿Es posible limitar la inteligencia artificial general (AGI) a un foso dentro de una organización?

hassabis: Esta es todavía una pregunta sin resolver. No sabemos cómo hacerlo todavía, porque es algo en lo que debemos pensar cuando empecemos a hablar de IA de alto nivel similar a la humana.

Frye: ¿Qué pasa con la capa intermedia?

hassabis: En el nivel medio, tenemos algunas ideas mejores para abordar estos problemas. Por ejemplo, se puede probar a través de un entorno de pruebas seguro. Esto significa probar el comportamiento del agente en un entorno de juego o en una versión parcialmente conectada de Internet. Ya se está realizando mucho trabajo de seguridad en este espacio, así como en otros campos como el fintech. Podríamos tomar esas ideas y construir sistemas en consecuencia, que es como probamos los primeros sistemas prototipo. Pero también sabemos que estas medidas pueden no ser suficientes para limitar el AGI, un sistema que puede ser más inteligente que nosotros. Por lo tanto, necesitamos comprender mejor estos sistemas para poder diseñar protocolos para AGI. Para entonces, tendremos mejores formas de controlarlo y posiblemente aprovecharemos los sistemas y herramientas de IA para monitorear la próxima generación de sistemas de IA.

Cómo regular la IA

Frye: En cuanto al tema de la seguridad, mucha gente parece pensar que la palabra regulación resuelve todos los problemas. ¿Cómo cree que debería estructurarse la regulación?

hassabis: El gobierno está acelerando su comprensión y participación en la tecnología de inteligencia artificial, lo cual es un fenómeno positivo.Creo que la cooperación internacional es necesaria, especialmente en áreas como la regulación, las medidas de seguridad y las especificaciones de despliegue.。

Al acercarnos a AGI, debemos reconocer que debido a que la tecnología avanza rápidamente,Nuestro enfoque regulatorio también debe ser flexible y adaptarse rápidamente a los últimos avances tecnológicos.. Si hubieras regulado la IA hace cinco años, habrías estado regulando algo completamente diferente. Lo que vemos hoy es IA generativa, pero dentro de cinco años puede ser diferente.

Actualmente, los sistemas basados en agentes pueden representar el mayor riesgo. Por lo tanto, recomiendo fortalecer las regulaciones existentes en áreas ya reguladas (como salud, transporte, etc.) para adaptarlas a la era de la IA, tal como anteriormente se actualizaron las regulaciones para móviles e Internet.

Lo primero que haría es mantener la concentración y asegurarme de que comprendemos y probamos los sistemas de vanguardia. A medida que la situación se aclare y sea necesario empezar a desarrollar regulaciones en torno a estas situaciones, puede que tenga más sentido hacerlo dentro de unos años. Lo que nos falta en este momento es una evaluación comparativa, pruebas de competencia adecuadas que incluyan, como la industria quiere saber, en qué punto nuestras capacidades podrían representar un riesgo significativo. Actualmente no hay respuesta a esto, y las capacidades basadas en agentes que acabo de mencionar pueden ser el siguiente umbral, pero actualmente no existe ningún método de prueba aceptado.

Una posible prueba es detectar si el sistema tiene capacidades engañosas. Si hay engaño en el sistema, entonces no se puede confiar en nada más que informe. por lo tanto,Probar el engaño debería ser una prioridad absoluta para las capacidades emergentes. Además, hay muchas otras habilidades que vale la pena probar, como la capacidad de lograr objetivos específicos, capacidades de replicación, etc., y actualmente se están realizando muchos trabajos relacionados. Creo que aquí es básicamente donde entran en juego las agencias gubernamentales. Creo que sería fantástico para ellos presionar con fuerza en esto y, por supuesto, los laboratorios deberían aportar lo que saben.

Frye: ¿Dónde encajan las instituciones en el mundo que usted describe? Incluso si llegamos a la etapa en la que tengamos AGI capaz de respaldar toda la investigación científica, ¿seguirán teniendo un lugar las instituciones?

hassabis: Creo que sí. Para llegar a AGI, creo que será una colaboración entre la comunidad, la academia, el gobierno y los laboratorios industriales. Realmente creo que esta es la única manera de llegar a esta etapa final.

Estándares de prueba de Kazajstán para AGI

hassabis: Si te preguntas qué sucede después de AGI, una de las razones por las que siempre quise construir AGI es para que podamos usarlo para comenzar a responder algunas de las preguntas más importantes y fundamentales sobre la naturaleza, la realidad, la física y la conciencia. . Dependiendo de la forma que adopte, podría ser una combinación de expertos humanos e IA. Creo que esto seguirá siendo así durante un tiempo en términos de exploración de la próxima frontera.

Actualmente estos sistemas no pueden generar conjeturas o hipótesis por sí solos.. Tal como están las cosas, pueden ayudarte a demostrar ciertos problemas, ganar medallas de oro en Olimpíadas Internacionales de Matemáticas y tal vez incluso resolver conjeturas matemáticas famosas, pero aún no son capaces de formular hipótesis como la hipótesis de Riemann o la relatividad general.Este ha sido mi estándar de prueba para la verdadera inteligencia artificial general.- Podrá hacer esto e incluso inventar nuevas teorías. Todavía no tenemos ningún sistema y es posible que ni siquiera sepamos cómo diseñar teóricamente un sistema que haga esto.

Frye: El científico informático Stuart Russell me expresó su preocupación de que una vez que alcancemos la etapa de desarrollo AGI, todos podríamos terminar disfrutando de una vida de lujo desenfrenado sin ningún propósito en la vida. Aunque este tipo de vida está llena de comodidades materiales, carece de significado y propósito profundos.

hassabis: Esta es realmente una pregunta interesante. Esto probablemente va más allá del AGI y se parece más a lo que la gente a veces llama ASI. Para entonces deberíamos contar con tremendos recursos y, suponiendo que podamos garantizar una distribución justa y equitativa de esos recursos, estaremos en una posición en la que podremos elegir libremente cómo actuar, y el "significado" se convertirá en una gran cuestión filosófica. Creo que vamos a necesitar filósofos, tal vez incluso teólogos y científicos sociales, para empezar a pensar en esto ahora. ¿Qué aporta significado? Sigo pensando que la autorrealización es importante y no creo que todos nos sumerjamos en la meditación, tal vez juguemos juegos de computadora. Pero aun así, ¿es esto realmente algo malo? Ésta es una cuestión que vale la pena explorar.

Aunque la AGI provocará enormes cambios, como curar muchas o todas las enfermedades y resolver problemas energéticos y climáticos, también puede hacernos enfrentar una pregunta más profunda: ¿Cuál es el significado de la vida? Al igual que las personas que escalan el Monte Everest o participan en deportes extremos, estas actividades pueden parecer sin sentido en la superficie, pero en realidad son el objetivo de las personas de desafiarse a sí mismas. Con el desarrollo de AGI, podemos tenerlo todo en el nivel material, pero con ello viene un replanteamiento del significado de la vida. Este problema se subestima tanto en las primeras como en las últimas etapas del desarrollo tecnológico, y necesitamos reevaluar el llamado revuelo y su impacto real en nuestro futuro.

Frye: Volvamos a la pregunta sobre AGI. Sé que su gran misión es crear una IA que beneficie a todos. Pero, ¿cómo se puede asegurar que realmente beneficie a todos? ¿Cómo tener en cuenta las preferencias de todos y no sólo de los diseñadores?

hassabis: No creo que sea posible incluir todas las preferencias en un solo sistema porque la gente no puede ponerse de acuerdo en muchos temas. Creo que podemos tener una arquitectura segura sobre la cual se puede construir inteligencia artificial personalizada, y luego las personas deciden para qué se puede y para qué no se puede usar el sistema de IA en función de sus propias preferencias, propósitos de uso y propósitos de implementación. En general, la arquitectura debe garantizar la seguridad y luego las personas pueden realizar algunas variaciones e incrementos según la arquitectura.

Entonces, creo que a medida que nos acerquemos a AGI, probablemente tendremos que colaborar de manera más ideal a nivel internacional y luego asegurarnos de que estamos construyendo AGI en un entorno seguro.

Una vez que completemos esta tarea, todos podrán tener su propia API de bolsillo personalizada si lo desean.

Frye: Está bien. Pero lo que quiero decir es que la IA puede mostrar algún mal comportamiento.

hassabis: Sí, malos comportamientos emergentes, habilidades. El engaño es un ejemplo. Debemos comprender mejor todas estas cuestiones.

Hay dos cosas de qué preocuparse: los humanos podrían hacer un mal uso de la IA y la propia IA (a medida que se acerca a AGI, su rendimiento se descarrila). Creo que estos dos problemas requieren soluciones diferentes. Sí, esto es con lo que tenemos que lidiar a medida que nos acercamos cada vez más a la construcción de AGI.

Volviendo a su punto de beneficiar a todos, usando AlphaFold como ejemplo, creo que podemos curar la mayoría de las enfermedades en los próximos uno o dos años si el diseño de fármacos de IA funciona. Luego se pueden convertir en medicamentos personalizados para minimizar los efectos secundarios para el individuo, que están relacionados con la enfermedad individual y el metabolismo individual de la persona, entre otras cosas. Estas son cosas asombrosas, ya sabes, la energía limpia, la energía renovable, la tecnología traerá enormes beneficios, pero también tenemos que mitigar los riesgos.

Frye: ¿Dijiste que una forma de mitigar el riesgo era que algún día básicamente hicieras una versión científica de "Avengers Assemble"?

hassabis:ciertamente.

Frye: Entonces, ¿cómo sabes cuándo es el momento adecuado?

hassabis: Bueno, esta es una gran pregunta. No puedes hacerlo demasiado pronto porque nunca obtendrás el apoyo de algunos de los detractores. Hoy en día, se ve a algunas personas muy famosas decir que la IA no tiene riesgos. Y luego gente como Geoffrey Hinton dice que hay mucho riesgo.

Frye: Quiero hablarte más sobre neurociencia. ¿Cuánto inspira todavía lo que estás haciendo? Porque me di cuenta de que hace unos días DeepMind presentó un ratón virtual con un cerebro artificial, que ayuda a cambiar nuestra comprensión de cómo el cerebro controla el movimiento. Recuerdo que hablamos mucho sobre inspirarnos directamente en los sistemas biológicos. ¿Sigue siendo esto el núcleo de su enfoque?

hassabis: No, ha evolucionado ahora y creo que hemos entrado en la etapa de ingeniería, como sistemas a gran escala, arquitectura de capacitación a gran escala. La neurociencia tiene un poco menos de influencia en esto. La neurociencia es una fuente de ideas, pero cuando la cantidad de ingeniería es grande, la neurociencia pasa a un segundo plano. Así que ahora probablemente se trate más de aplicar la inteligencia artificial a la neurociencia. Creo que a medida que nos acerquemos a la AGI, comprender el cerebro será uno de los mejores casos de uso de la AGI.

Frye: Me pregunto si también estás imaginando que habrá cosas que están más allá de la comprensión humana que AGI nos ayudará a descubrir y comprender.

hassabis: Creo que es posible que los sistemas AGI comprendan niveles más altos de abstracción mejor que nosotros. Creo que un sistema de IA podría tener efectivamente cualquier tipo de corteza prefrontal, por lo que podría imaginar niveles más altos de abstracción y patrones, y podría ver el universo que realmente no podemos entender o recordar de inmediato.

Y luego creo que, desde una perspectiva de interpretabilidad, no podemos escalar nuestros propios cerebros infinitamente, pero en teoría, con suficiente tiempo, SPE y memoria, AGI puede entender cualquier cosa que sea computable.

Frye: Dijiste que DeepMind es un proyecto de 20 años. ¿Qué tan cerca estás de encaminarte?

hassabis: Vamos por buen camino.

Frye: ¿AGI estará disponible en 2030?

hassabis: No me sorprendería que salga en los próximos diez años.

noticias

Hassabis: Google quiere crear un segundo Transformer, una combinación de AlphaGo y Gemini

Introducción

Mi información de contacto