sergey brin: google no se atrevió a utilizar transformer y todos los autores huyeron. ahora escribo código todos los días

sergey brin: google no se atrevió a utilizar transformer y todos los autores se escaparon. ahora escribo código todos los días.

2024-09-12

informe del corazón de la máquina

editor: jiaqi

con el negocio de búsqueda más grande del mundo, google siempre ha sido único en silicon valley. los enormes ingresos publicitarios generados por las búsquedas permiten a los dos fundadores, sergey brin y larry page, dar un paso atrás y disfrutar de la vida en paz.

el 15 de septiembre de 1997, sergey brin y larry page registraron un sitio web llamado "google".

no fue hasta finales de 2022 que chatgpt se hizo popular en todo el mundo, y google, el líder original de la ola de ia, pareció darse cuenta de que su estatus había cambiado. el año pasado, parece que nos hemos acostumbrado a que este gigante tecnológico aparezca como un "ponerse al día".

desde el año pasado, los medios han revelado que sergey brin ha vuelto al frente y escribe código él mismo. el ex director general eric schmidt incluso atacó directamente el sistema desorganizado de "trabajar sólo un día a la semana" en una conferencia en la universidad de stanford: "si perdemos contra openai, perderemos contra las startups si continuamos".

schmidt habla en stanford

al mismo tiempo, a medida que google se hace cada vez más grande, algunos síntomas de las "enfermedades de las grandes empresas" se han vuelto cada vez más evidentes. muchos "ensayos" sobre la renuncia de google muestran que la raíz de los problemas de google no es la "tecnología" sino la "cultura". por ejemplo, los empleados carecen de sentido de misión y la empresa ha establecido sistemas y procesos engorrosos para evitar riesgos.

el fundador de appsheet, praveen seshadri, anunció su salida de google. su blog decía que la empresa había perdido el rumbo y los empleados estaban atrapados en el sistema.

¿qué le pasa a google? "lo que realmente obstaculiza la productividad diaria de los empleados de google es la falta de personal, el cambio de prioridades, los despidos frecuentes, los salarios estancados y la falta de seguimiento de los proyectos por parte de la dirección", dijo el sindicato de trabajadores de alphabet.

aunque google se está poniendo al día en el "contraataque de chatgpt", es algo diferente del estilo de esperar con ansias el lanzamiento de gpt-5 en el área de comentarios de openai. cuando se presenta gemini, siempre se "volcará" sin darse cuenta. el fraude de demostración ocurrió cuando se lanzó por primera vez. desde entonces, gemini ha recibido muchas críticas por generar retratos con prejuicios raciales, sugiriendo que todos coman una piedra al día y usen pegamento para pegar queso en la pizza.

el mes pasado, google lanzó una versión mejorada de gemini y también lanzó gemini live, un asistente de voz basado en gpt-4o. sin embargo, durante la demostración, gemini live todavía salió mal.

en el evento made by google celebrado en agosto, las dos primeras pruebas de las funciones de toma de fotografías y reconocimiento de imágenes de gemini live fallaron, y no fue hasta la tercera vez que cambié mi teléfono que lo logró.

¿por qué deberíamos volver a la vanguardia de la tecnología cuando ya tenemos libertad financiera? ¿cómo ve google a géminis, que con frecuencia se ha "volcado"? ¿qué le pasa a google en medio de la competencia de los gigantes tecnológicos? ¿qué papel jugará en esta competición? en la cumbre all-in celebrada ayer, serguéi brin, que hacía mucho tiempo que no aparecía ante los medios de comunicación, expresó sus puntos de vista en una entrevista.

los puntos principales de brin son:

decidió volver a la vanguardia de la tecnología porque el progreso en el campo de la ia era muy emocionante y, como informático, no estaba dispuesto a perderse esta ola.

la tecnología de inteligencia artificial no es solo una extensión de la búsqueda, sino que afectará a una gama más amplia de cambios.

en comparación con los "modelos expertos" que se especializan en un determinado campo, brin es más optimista sobre los modelos generales. google ganó con éxito el modelo de medalla de plata de la omi. esto se debe a que google comenzó a integrar ciertos conocimientos y habilidades en modelos de prueba formales. modelo de lenguaje universal.

actualmente existe una demanda constante de potencia informática, pero es difícil ver un aumento de la demanda "de 100 megavatios a 1 gigavatio, 10 gigavatios o incluso 100 gigavatios".

en el campo de las aplicaciones de inteligencia artificial, brin cree que la biología ha implementado relativamente bien la aplicación de la tecnología de inteligencia artificial, mientras que el campo de la robótica aún se encuentra en una etapa en la que la gente lo encuentra mágico después de ver demostraciones y aún no ha alcanzado un nivel que pueda ser alcanzado. utilizado en la vida diaria.

aunque la ia ocasionalmente comete grandes errores, debe publicarse de manera oportuna. la ia no es una tecnología que guardas cerca de tu pecho y escondes hasta que es perfecta. lo que es aún más aterrador que la ia sea "estúpida" es que en ese momento, google era demasiado tímido para implementar transformer y todos los autores del artículo renunciaron.

la competencia entre los gigantes tecnológicos en el campo de la ia es en realidad algo bueno, pero brin seguirá prestando mucha atención a las clasificaciones de modelos grandes.

el siguiente es el texto completo de la entrevista:

brin: originalmente pensé que solo estaba aquí para participar en un podcast, pero no esperaba que hubiera tantos espectadores. felicitaciones por su exitosa carrera. me hizo sentir un poco tímido.

moderador: gracias por tomarse el tiempo de charlar conmigo. hoy en día, la ia se encuentra en el punto de inflexión para cambiar el mundo. en 1998, usted y larry page fundaron google. escuché que recientemente participó en la investigación de ia en google. los grandes modelos de lenguaje y las herramientas de inteligencia artificial conversacional son una amenaza para la búsqueda de google, un tema de debate entre muchos analistas y expertos de la industria. entonces, ¿cuánto tiempo pasas sentado en google todos los días? ¿qué estás haciendo?

brin: para ser honesto, voy a trabajar casi todos los días, pero hoy me perdí un día porque tenía que aparecer en tu programa. como informático, nunca había visto avances tan apasionantes en la ia como en los últimos años. ¡el progreso de la ia es realmente impactante!

en la década de 1990, cuando yo era estudiante de posgrado, la ia era casi insignificante en el plan de estudios y no era más que una nota a pie de página en los libros de texto. de lo que habla el libro de texto es de que personas anteriores han realizado varios experimentos, pero la ia realmente no funciona, y trabajar en ia es un "callejón sin salida". eso es todo lo que necesitas saber sobre la ia.

y entonces, de alguna manera, milagrosamente, estas personas que trabajaban en redes neuronales comenzaron a hacer progresos en métodos de ia que habían sido abandonados en los años 1960 y 1970: más cálculos, más datos, algoritmos más inteligentes... lo que ha sucedido en los últimos diez años es simplemente asombroso. las herramientas de inteligencia artificial actuales pueden demostrar nuevas capacidades casi todos los meses, y estas capacidades pueden duplicarse rápidamente. las capacidades de las computadoras son realmente asombrosas. por eso, decidí volver a la primera línea de la tecnología porque no quería perderme todo lo que podía experimentar como informático.

moderador: ¿cree que la ia es una extensión de la búsqueda o redefinirá la forma en que las personas recuperan información?

brin: creo que la ia afecta todos los aspectos de la vida diaria y la búsqueda es uno de ellos. el impacto de la ia está en casi todas partes, incluida la programación. ahora tengo una perspectiva diferente sobre la programación de ia. escribir código desde cero es realmente difícil, especialmente en comparación con dirigir la programación de ia, ¿verdad?

anfitrión: ¿qué has programado usando ia?

brin: de hecho, yo mismo escribo un poco de código, sólo por diversión. a veces dejo que ai escriba código por mí y la experiencia es muy interesante. por ejemplo, quiero saber qué tan bien el modelo de inteligencia artificial de google juega al sudoku. entonces, le pedí al modelo de ia que escribiera una gran cantidad de código por sí solo, que puede generar automáticamente sudokus y luego enviar estas preguntas a la ia para que las califique. la ia está más que a la altura de la tarea de escribir estos códigos.

pero cuando estaba hablando con los ingenieros sobre esto, hubo muchas idas y venidas, y regresé media hora después y la ia estaba lista. quedaron impresionados y estaba claro que no estaban utilizando herramientas de inteligencia artificial para ayudar con la codificación tanto como pensaba.

sudokus

anfitrión: esto es muy divertido. algunos modelos son buenos para resolver sudokus, algunos pueden responder información objetiva sobre mi mundo y algunos están especializados en diseñar casas. al mismo tiempo, muchos investigadores están trabajando en el desarrollo de modelos lingüísticos generales a gran escala. ¿qué camino crees que tomará el futuro?

no sé de dónde viene esta afirmación de que habrá un "modelo de dios". es por eso que los inversores están invirtiendo dinero en la ia. una vez que se desarrolle el "modelo dios", podrás "llegar al mundo en un solo paso". o hay muchos pequeños modelos basados en una aplicación concreta, colaborando en un agente. ¿cómo cree que evolucionará el desarrollo y la aplicación de modelos en el futuro?

brin: si miramos atrás, hace 10 o 15 años, se utilizaban diferentes tecnologías de ia para resolver problemas completamente diferentes. por ejemplo, la ia para jugar ajedrez y la tecnología de generación de imágenes son muy diferentes, y cada una de ellas es muy diferente.

moderador: al igual que google lanzó recientemente un modelo gnn, que funciona mejor que todos los modelos de predicción física. no estoy seguro de que lo sepas, pero fue enviado por google.

brin: eso es increíble, pero no lo sé (incómodo).

moderador: este modelo es una arquitectura completamente diferente.

brin: desde una perspectiva histórica, la ia existe en muchos sistemas diferentes. tomemos como ejemplo la reciente olimpiada internacional de matemáticas (omi), el modelo de google ganó la medalla de plata, a solo un punto de la medalla de oro (para obtener más detalles, consulte los informes anteriores de machine heart: google ai ganó la medalla de plata de la olimpiada de matemáticas de la omi). y su modelo de razonamiento matemático alphaproof advenimiento, el aprendizaje por refuerzo ha vuelto).

de hecho, utilizamos tres modelos de ia: uno responsable de la demostración de teoremas, otro centrado en problemas geométricos y el tercero es un modelo de lenguaje general. sin embargo, hace apenas unos meses comenzamos a intentar aprender de nuestro trabajo anterior y a incorporar algunos de los conocimientos y capacidades del modelo de prueba formal en un modelo de lenguaje general.

este es un trabajo en progreso, pero creo que la tendencia será hacia la construcción de un modelo más unificado. no estoy seguro de que sea el llamado "modelo de dios", pero ciertamente nos estamos moviendo hacia algún tipo de arquitectura compartida, o incluso un modelo compartido.

moderador: si esta es la dirección futura, entonces, para entrenar y mejorar ese modelo tan grande, inevitablemente se utilizarán enormes recursos informáticos.

brin: la potencia informática es indispensable. he leído artículos que predicen un aumento en la demanda de potencia informática, de 100 megavatios a 1 gigavatio, 10 gigavatios o incluso 100 gigavatios. tengo reservas sobre esto. en los últimos años, la innovación y optimización de algoritmos han generado mejoras de rendimiento más significativas que el aumento de la potencia informática del hardware.

moderador: entonces, ¿es irrazonable la fuerte inversión actual en potencia informática? todo el mundo habla de las ganancias, los beneficios y la capitalización de mercado de nvidia. apoya el crecimiento de la informática y la infraestructura a hiperescala que hacen posible construir estos modelos masivos. ¿tiene realmente sentido esta tendencia? tal vez tenga sentido; de lo contrario, ¿por qué nvidia ganaría tanto?

brin: en primer lugar, permítanme decir que no soy economista ni analista de mercado. mis opiniones se basan únicamente en la perspectiva de un informático. para nosotros, debido a que nos enfrentamos a una demanda enorme, estamos construyendo clústeres informáticos lo más rápido posible. por ejemplo, los clientes de google cloud solo quieren muchas ppu, gpu, todo. tuvimos que rechazar clientes porque no teníamos suficientes tarjetas y dependíamos de estos recursos internamente para entrenar e implementar nuestros propios modelos. por lo tanto, creo que es razonable que las grandes empresas amplíen activamente su potencia informática. simplemente creo que es difícil inferir directamente de la situación actual que la futura demanda de potencia informática aumentará de "100 megavatios a 1 gigavatio, 10 gigavatios o incluso 100 gigavatios".

anfitrión: pero las necesidades empresariales están ahí.

brin: entiendo que los clientes tienen una amplia gama de necesidades. quieren realizar tareas de inferencia en varios modelos de ia y aplicar estos modelos a un flujo interminable de nuevos escenarios. actualmente, sus necesidades son ilimitadas.

moderador: en el campo de aplicación de la ia, ya sea robótica o biología, ¿qué aspectos cree que han logrado los logros más significativos? ¿hay algún caso de uso que te haya hecho pensar: "vaya, esto es muy útil"? ¿qué áreas son más desafiantes y la implementación de las aplicaciones puede llevar más tiempo de lo esperado?

brin: mi respuesta es la biología. alphafold existe desde hace un tiempo. ha estado disponible por un tiempo y, cuando hablo con biólogos, casi todo el mundo lo usa. la última versión de alphafold, alphafold 3, representa un nuevo tipo de tecnología de inteligencia artificial. como mencioné antes, creo que la tendencia de futuro es la unificación de modelos.

con respecto a los robots, estoy en una "etapa de sorpresa", como, "¡guau, el robot realmente puede hacer las tareas del hogar!", pero debes saber que detrás de esto puede haber un modelo de lenguaje general afinado. la mayoría de los en la mayoría de los casos, aún no están listos para el uso diario.

anfitrión: ¿ves el futuro de los robots?

brin: tal vez... pero no vi el detalle...

anfitrión: ¿pero google no tiene también un negocio de robots? aunque posteriormente fue derribado y vendido.

brin: google estaba en el negocio de los robots.

anfitrión: quizás sea el momento equivocado.

brin: francamente, eso probablemente se debió a que nos estábamos adelantando demasiado. boston dynamics tiene tantos productos estrella, pero ni siquiera recuerdo qué hizo google. de todos modos, hemos tenido cinco o seis productos que fueron embarazosos, pero fueron geniales y dejaron una impresión duradera. con solo ver cuán capaz es el modelo de lenguaje universal actual y cómo la tecnología multimodal permite a los robots comprender escenas, todavía era un poco tonto pensar en ello en ese entonces. sin estas tecnologías de ia en ese momento, estábamos como parados en una cinta de correr, incapaces de avanzar.

el plan de google para desarrollar robots alguna vez tuvo buenas cartas: el "padre de android" andy rubin, el famoso fabricante de robots boston dynamics y el famoso robot humanoide atlas... sin embargo, en solo cinco años, en el transcurso del año, fue planeó disolverse y reorganizarse, luego disolverse y reorganizarse nuevamente. los altos ejecutivos han dimitido uno tras otro, los planes de ventas se han suspendido y varias empresas importantes se han vendido...

moderador: invierte mucho tiempo en la investigación y el desarrollo de tecnologías centrales. ¿también has puesto un esfuerzo considerable en el producto? en un mundo futuro donde la ia esté en todas partes, ¿cómo evolucionará la interacción entre humanos y computadoras y cómo cambiará nuestra vida diaria?

brin: este parece un tema para charlar con colegas en el salón de té.

anfitrión: ¿te importaría compartirlo con nosotros?

brin: no importa, me cuesta pensar en algo que no sea vergonzoso.

anfitrión: está bien contar la historia de "tienes un amigo".

brin: lo que sucederá en el futuro es realmente difícil de decir. la tecnología de ia es la base para realizar aplicaciones. por ejemplo, alguien lanzó una demostración explosiva, que fue particularmente sorprendente, pero lleva tiempo pasar de la demostración a la implementación real en producción. no sé si has probado el modelo astra, donde puedes reproducir vídeo en vivo y puede saber lo que sucede en tu entorno.

anfitrión: puedes usarlo, ¿verdad?

brin: definitivamente tendré acceso. a veces puedo ser una de las últimas personas en tener acceso. hemos llegado a una etapa en la que, después de experimentar la ia, la gente podría decir: "dios mío, esto es increíble". y luego piensas: "bueno, funciona el 90 por ciento de las veces. todo funciona correctamente". pero luego puede preguntarse: "si hay errores o respuestas lentas en el 10% de los casos, ¿es esta tecnología realmente lo suficientemente buena?". por lo tanto, debemos trabajar duro para mejorar estos detalles para garantizar que sea rápida y confiable, y más. cuando esto realmente sucede, es realmente un logro sorprendente.

anfitrión: escuché una historia y debería contarte algo antes de subir al escenario. antes de un evento de lanzamiento, un grupo de ingenieros le mostró que la ia se puede usar para escribir código y dijeron: "aún no la hemos implementado en gemini porque queremos asegurarnos de que no se rompa". vacilación en la cultura corporativa de google. en ese momento dijiste: "no, ya que puede escribir código, debería iniciarse". mucha gente me ha contado esta historia. porque creen que "es extremadamente importante escuchar comentarios como este de usted, el fundador, porque muestra que el conservadurismo no se ha apoderado por completo de google y esperamos que google continúe liderando la innovación". ¿de verdad dijiste eso?

brin: no recuerdo los detalles específicos. sinceramente, parece algo que yo haría.

moderador: para mí esto se convierte en un problema porque google es tan grande que si comete un error le costará mucho.

brin: entonces todavía tengo algo que temer. el punto de partida del modelo de lenguaje actual se remonta al artículo de transformer de hace 6 u 8 años. pero todos los autores de estos artículos han dimitido de google. ¡felicitaciones a ellos! en ese momento, éramos demasiado tímidos para implementar transformer.

brin: y no importa cuán poderosa sea la ia, a veces cometerán errores y dirán cosas vergonzosas. pero al mismo tiempo, la ia ya puede ayudarnos con cosas que nunca antes habíamos hecho. por ejemplo, programo con mis hijos y trabajo en algunos problemas extremadamente complejos.

con solo consultar la ia, pueden pasar directamente a la programación y aprender api y herramientas complejas que normalmente tardarían un mes en aprender. esta habilidad es casi mágica. necesitamos estar preparados para cometer algunos errores y correr riesgos. creo que nuestra respuesta en este ámbito ha mejorado. por supuesto, es posible que hayas visto muchos momentos "estúpidos" de la ia, pero...

moderador: esto es aceptable. después de todo, ya tienes riqueza y libertad, gracias a una gran cantidad de acciones. quiero decir, estás dispuesto a aceptar la vergüenza porque es muy importante en esta etapa.

brin: no haré esto por mis acciones, ¿vale? pero piénselo, ¿realmente puedo aceptar estos errores? ¿es esta la magia que presentamos al mundo? creo que lo que debemos transmitir es: "mira, esto es asombroso". en ocasiones, la ia cometerá grandes errores, pero creo que deberíamos publicarla de manera oportuna y dejar que la gente experimente y vea qué nuevas aplicaciones pueden encontrar. la ia no es una tecnología que guardas cerca de tu pecho y escondes hasta que es perfecta.

anfitrión: ¿cree que la ia tendrá un impacto tan profundo en el mundo y creará tanto valor que ya no será una simple competencia entre google, meta y amazon? todo el mundo lo considera una guerra empresarial, pero ¿es posible? el pastel hecho por la ia es tan grande y los campos que se están explorando son tan amplios que van mucho más allá de quién ha construido el modelo con mayor puntuación y cuyo desempeño en llm es el mejor. mejor.excelente? ¿cómo ve las amplias perspectivas que ofrece la ia y qué papel desempeñará google en ellas?

brin: creo que la competencia es muy útil en cierto modo porque todos los grandes actores tecnológicos están compitiendo y, por cierto, en algunas clasificaciones hace unas semanas, google era el número uno y, la última vez que lo comprobé, todavía vencimos al modelo superior. solo......

moderador: hay varios malos indicadores. ¡así que te importan las calificaciones de los modelos!

brin: no dije que no me importara. google estaba muy rezagado cuando apareció chatgpt y ahora hemos recorrido un largo camino. estoy muy contento con todo el progreso que está haciendo google en este momento. así que definitivamente estaremos atentos a la clasificación de los modelos. creo que es bueno que existan tantas empresas de ia, ya sea openai, anthropic o mistral. esto significa que el campo de la ia se está expandiendo rápidamente y está lleno de vitalidad.

en respuesta a su pregunta, creo que la ia tiene un gran valor para los humanos. si recuerdas mis días universitarios, no existía internet como lo conocemos hoy, y obtener información básica y comunicarte con la gente requería un gran esfuerzo. antes de la popularidad de los teléfonos móviles, habíamos logrado enormes mejoras en las capacidades en todo el mundo, y la tecnología de inteligencia artificial actual es sin duda otro gran salto en capacidades. ahora, casi todo el mundo tiene acceso a la ia de alguna manera. creo que es muy emocionante, es asombroso.

noticias

sergey brin: google no se atrevió a utilizar transformer y todos los autores se escaparon. ahora escribo código todos los días.

introducción

mi información de contacto