Hassabis: Google quer criar um segundo Transformer, AlphaGo e Gemini unem forças

Hassabis: Google quer criar um segundo Transformer, uma combinação de AlphaGo e Gemini

2024-08-20

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

“Sinto-me mais confortável quando o CEO de uma empresa de IA se parece mais com um cientista da computação do que com um vendedor.”

Para DeepMind, 2023 é um ano cheio de mudanças. Em abril deste ano, o Google anunciou que iria fundir o Google Brain e o DeepMind para formar um novo departamento chamado Google DeepMind. O novo departamento liderará pesquisas e avanços inovadores em produtos de IA, mantendo os padrões éticos.

Google Brain e DeepMind - um criou o Transformer, o outro criou o AlphaGo, AlphaFold... Os dois departamentos uniram forças para criar o Gemini no final de 2023 para avaliar o ChatGPT. Hoje, Gemini está regularmente classificado entre os três primeiros no ranking de grandes modelos LMSYS Chatbot Arena. Percebe-se que a fusão dos dois traz certos resultados.

Então, para onde vai o Google DeepMind a partir daqui? Em uma conversa recente com Hannah Fry, professora associada de matemática urbana no Centro de Análise Espacial Avançada da University College London, Demis Hassabis, CEO e cofundador do Google DeepMind, revelou Ele também expressou sua opinião sobre alguns dos planos da empresa e algumas questões atuais no campo da IA.

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930939&idx=2&sn=00d72f97f26fc7acc3b2a2fd39434048&chksm=84e43a85b393b393 d7a9bd7caeafce2fcd71b6299e195df3e5a716cb840a401c85dc9efff669&token=899618486&lang=zh_CN#rd

As principais opiniões de Hassabis são as seguintes:

No curto prazo, a IA é exagerada, mas no longo prazo é subvalorizada. Quanto a como distinguir o que é exagero e o que é alcançável no campo da IA, Hassabis disse que, além de fazer pesquisas, também é preciso observar a experiência da pessoa que faz os comentários, o quanto ela conhece a tecnologia e se eles estudaram em outras áreas no ano passado. A direção vai para IA. Se a pessoa que faz o comentário está apenas seguindo a tendência, a probabilidade de ela ter uma boa ideia é como um sorteio de loteria.
A fusão da DeepMind e do Google Brain traz muitas oportunidades de inovação, e seu objetivo é inventar a próxima arquitetura que possa ultrapassar as fronteiras da IA, assim como o Google Brain inventou a arquitetura Transformer.
Os benchmarks acadêmicos existentes tornaram-se saturados e incapazes de distinguir diferenças sutis entre os principais modelos. Hassabis acredita que o campo da IA precisa de melhores referências, especialmente em áreas como compreensão multimodal, memória de longo prazo e capacidades de raciocínio.
Muitos dos modelos atuais são derivados de tecnologias inventadas há cinco ou seis anos. Portanto, esses modelos ainda carecem de muitas coisas e são alucinantes, não são bons no planejamento de longo prazo e são incapazes de concluir tarefas complexas de forma proativa. Em resposta a estes problemas, o Google pretende desenvolver sistemas com comportamento de agente mais forte, combinando sua experiência em agentes de jogos e grandes modelos de linguagem, como combinar as vantagens do AlphaGo no planejamento e na tomada de decisões com modelos multimodais como o Gemini.
Ao falar sobre código aberto, Hassabis disse que eles abriram o código de muitas tecnologias, como Transformer e AlphaFold. Mas ele acredita que os modelos de ponta precisam passar por mais revisões e ter código aberto um ou dois anos após o lançamento, modelo que o Google também está seguindo. O Google abrirá modelos de código-fonte, mas eles estarão cerca de um ano atrás dos modelos de última geração. Hassabis disse ainda que o principal problema do código aberto é que é como passar por uma porta de mão única. Uma vez liberado, não pode ser retirado. Portanto, você precisa ter muito cuidado antes de abrir o código.
A IA pode levar a avanços em problemas matemáticos complexos, como ajudar a resolver conjecturas matemáticas famosas ou ter um bom desempenho em competições internacionais de matemática. No entanto, os atuais sistemas de IA ainda não são capazes de apresentar novas hipóteses matemáticas ou teorias originais por si próprios. Hassabis acredita que um teste importante da AGI será a sua capacidade de gerar autonomamente hipóteses e teorias inteiramente novas, como a da relatividade geral.
Sobre como garantir que a AGI possa beneficiar a todos, Hassabis acredita que é impossível incluir todas as preferências em um sistema, mas uma arquitetura segura pode ser construída e então as pessoas podem usá-la de acordo com suas preferências, finalidades de uso e finalidades de implantação. Decida para que o sistema de IA pode ou não ser usado.

Depois de assistir à entrevista, uma pessoa comentou que isso o deixou confortável porque Hassabis parecia mais um cientista da computação do que um vendedor. Outros dizem que adquirir a DeepMind e deixá-los desenvolver-se livremente é a melhor decisão de inteligência artificial que o Google já tomou, e esperam que o Google os deixe continuar seu trabalho sem interrupção, tanto quanto possível.

A seguir está o conteúdo da entrevista compilado por Machine Heart.

O desenvolvimento da IA é inesperado

Frye: Pensando bem, quando começamos a planejar este podcast em 2017, DeepMind era um laboratório de pesquisa de IA relativamente pequeno e focado que tinha acabado de ser adquirido pelo Google e recebeu o poder de conduzir sua própria pesquisa exclusiva a uma distância segura na liberdade do Projeto Londres. . Mas as coisas mudaram dramaticamente desde então. Desde o ano passado, o Google reorganizou toda a sua arquitetura, colocando as equipes de IA e DeepMind no centro de sua estratégia.

O Google DeepMind continua sua busca por fornecer inteligência de nível humano à IA, a chamada inteligência artificial geral (AGI). Ela lançou uma série de novos e poderosos modelos de IA chamados Gemini, bem como um agente de IA chamado Projeto Astra que pode processar áudio, vídeo, imagens e código. O laboratório também está dando passos gigantescos na aplicação da IA em vários campos científicos, incluindo a previsão da estrutura de todas as moléculas do corpo humano, não apenas das proteínas. Em 2021, também criaram uma nova empresa, a Isommorphic Labs, dedicada à descoberta de novos medicamentos para tratar doenças. O Google DeepMind também está pesquisando agentes de IA poderosos que podem aprender a realizar tarefas por conta própria por meio de aprendizado por reforço e continua a lenda de Alpha Go derrotando humanos no jogo Go.

Hoje convidamos Demis Hassabis, cofundador e CEO da DeepMind.

Pergunto-me se o seu trabalho se tornou mais fácil ou mais difícil desde o aumento do interesse público pela IA?

Hassabis: Acho que é uma faca de dois gumes. O que é difícil é que há muito escrutínio, atenção e muito barulho em todo o campo neste momento. Prefiro quando há menos pessoas e podemos focar mais na ciência. Mas pelo lado positivo, mostra que a tecnologia está pronta para impactar o mundo real de muitas maneiras diferentes e impactar a vida diária das pessoas de uma forma positiva, então acho que isso também é emocionante.

Frye: Você já ficou surpreso com a rapidez com que a imaginação do público foi capturada? Acho que você esperava que isso acabasse assim, não é?

Hassabis: De fato. Aqueles de nós que estudam esse campo há décadas acabarão, em algum momento, percebendo o quão importante a IA se tornará. Mas ainda parece um pouco surreal ver tudo se concretizando e acontecendo dessa forma. Acho que isso se deve realmente ao surgimento dos chatbots e ao desenvolvimento de modelos de linguagem, porque todos usam a linguagem e todos podem entender a linguagem, então esta é uma maneira fácil para o público entender e medir o nível de desenvolvimento da IA.

Frye: Ouvi dizer que você descreveu esses chatbots como “extraordinariamente eficazes”.

Hassabis: Quero dizer, se você olhar para trás, de 5 a 10 anos atrás, as pessoas podem ter pensado que para alcançar o desenvolvimento da IA, você precisa construir uma arquitetura incrível e estender sobre isso, sem ter que resolver especificamente tais conceitos abstratos. perguntas específicas. Em muitas discussões de 5 a 10 anos atrás, as pessoas pensavam que era necessária uma maneira especial de lidar com conceitos abstratos porque aparentemente é assim que o cérebro funciona. Mas se os sistemas de IA receberem dados suficientes, como os dados de toda a Internet, eles parecem ser capazes de aprender com eles e generalizar padrões, não apenas por aprendizagem mecânica, mas realmente compreender, até certo ponto, o que estão a processar. contente. É meio “extraordinariamente eficaz” porque não acho que alguém teria pensado, há 5 anos, que seria tão eficaz como é agora.

Frye: Então, isso foi uma surpresa...

Hassabis: Sim, falamos anteriormente sobre o conceito e os fundamentos - situando a linguagem em experiências do mundo real, talvez em simulações ou inteligência robótica incorporada. É claro que estes sistemas ainda não estão nesse nível, cometem muitos erros, ainda não têm um modelo verdadeiro do mundo. masApenas aprendendo com o idioma, eles foram além do que esperavam。

Frye: Acho que precisamos explicar o conceito de aterramento.

Hassabis:O problema de aterramento é um problema encontrado em sistemas clássicos de IA construídos em lugares como o MIT nas décadas de 1980 e 1990. Você pode pensar nesses sistemas como enormes bancos de dados lógicos, com palavras conectadas entre si. O problema é que você pode dizer “cachorro tem pernas” e isso estará no banco de dados, mas quando você mostra ao sistema a imagem de um cachorro, ele não sabe como aquele monte de pixels se relaciona com aquele símbolo. Esse é o problema de base - você tem essas representações simbólicas e abstratas, mas o que elas realmente significam no mundo real, especialmente no confuso mundo real? Eles tentaram resolver o problema, mas nunca tiveram sucesso.

E os sistemas de hoje aprendem diretamente com os dados, então, de certa forma, eles estão formando essa conexão desde o início, mas o que é interessante é que se for apenas aprender com a linguagem, teoricamente deveria estar faltando muito do que você precisa. , mas o resultado é que muitas informações básicas podem de alguma forma ser inferidas.

Frye: Por que você diz isso?

Hassabis: Teoricamente, porque esses grandes modelos iniciais de linguagem não existiam no mundo real, eles não estavam conectados ao simulador, não estavam conectados ao robô, nem sequer eram inicialmente multimodais - não foram expostos para a visão ou qualquer outra coisa, elas existem apenas no espaço da linguagem. Então, eles são aprendidos no domínio abstrato. Portanto, é surpreendente que possam inferir algo sobre o mundo real a partir desse domínio.

Frye: Faz sentido dizer que a base é adquirida através da interação das pessoas com o sistema...

Hassabis:realmente. Então com certeza, se cometerem erros ao responder certas perguntas, por exemplo, as versões anteriores respondiam perguntas incorretamente ao lidar com latidos de cães no mundo real devido à falta de aterramento. As pessoas os corrigem por meio de feedback. Parte desse feedback vem do nosso próprio conhecimento da realidade. Então foi assim que surgiu algum aterramento.

Frye: Lembro-me de ter visto um exemplo muito vívido da diferença entre “atravessar o Canal da Mancha” e “atravessar o Canal da Mancha”.

Hassabis: Este exemplo funciona. Se a resposta for errada, você diz que está errado e então ele tem que descobrir: você não pode atravessar o Canal da Mancha.

A IA é superestimada ou subestimada?

Frye: Vou perguntar um pouco sobre o hype, você acha que, neste momento, a IA está superestimada ou subestimada ou apenas exagerada na direção errada?

Hassabis: Por um lado, no curto prazo, a IA é exagerada. As pessoas afirmam que ele pode fazer muitas coisas, mas realmente não pode, e há muitas startups e VCs perseguindo algumas ideias malucas que ainda não estão maduras o suficiente.

Por outro lado, acho que a IA ainda está subvalorizada. Talvez as pessoas não entendam completamente o que acontece quando alcançamos a AGI e quão grande é a responsabilidade.

Frye: Você está neste espaço há décadas e é fácil ver quais são as metas realistas para o que essas startups e VCs estão perseguindo e quais não são. Mas como os outros podem perceber a diferença?

Hassabis: Obviamente, você precisa fazer alguma diligência técnica e ter algum conhecimento da tecnologia e das últimas tendências.Ao mesmo tempo, você também deve observar o histórico da pessoa que fez o comentário. Qual é o seu conhecimento sobre tecnologia. Ela mudou para IA de outra direção no ano passado? Eles estavam fazendo criptomoeda no ano passado? Essas podem ser algumas pistas de que eles podem estar aderindo ao movimento, isso não significa que terão ótimas ideias e, mesmo que tenham, provavelmente será uma loteria.

Acho que isso sempre acontece quando uma área de repente recebe muita atenção, e então chega o financiamento e todos sentem que não podem perder.

Isso cria um ambiente que é, digamos, oportunista, um pouco contrário àqueles que trabalham em tecnologia profunda e ciência profunda há décadas, que penso ser a forma como devemos continuar a ser à medida que abordamos a AGI.

Gemini: o primeiro projeto farol após a fusão do Google Brain e DeepMind

Frye: A seguir vamos falar sobre Gêmeos. De que forma o Gemini difere de outros grandes modelos de linguagem lançados por outros laboratórios?

Hassabis: Desde o início, queríamos que o Gemini fosse capaz de lidar com múltiplas modalidades, para que pudesse lidar não apenas com a linguagem, mas também com diversas modalidades, como áudio, vídeo, imagens, código, etc. A razão pela qual queremos fazer isto, em primeiro lugar, é porque penso que esta é uma forma de estes sistemas compreenderem realmente o mundo à sua volta e construírem melhores modelos do mundo, o que remonta à questão de base anterior.

Também temos a visão de ter um assistente universal. Fizemos um protótipo chamado Astra que não apenas entende o que você está digitando, mas também entende o ambiente em que você está. Um assistente tão inteligente seria mais útil. Então construímos a multimodalidade desde o início. Isso é outra coisa que só o nosso modelo fazia naquela época, e agora outros modelos estão se atualizando.

Nossas outras grandes inovações em memória, como contextos longos, podem na verdade lembrar cerca de um milhão ou dois milhões de tokens. Então você pode dar Guerra e Paz ou o filme inteiro e fazer com que ele responda a perguntas ou encontre coisas no stream de vídeo.

Frye: No Google I/O, você usou um exemplo de como o Astra ajuda você a lembrar onde coloca os óculos, certo? Mas me pergunto se esta é apenas uma versão avançada daqueles antigos óculos do Google.

Hassabis: É claro que o Google tem uma longa história de desenvolvimento de dispositivos Glass, que remonta a cerca de 2012, o que estava muito à frente de seu tempo. Mas eles podem simplesmente não ter a tecnologia necessária para que um agente ou assistente inteligente realmente entenda o que você está dizendo. Por isso, estamos muito entusiasmados com os assistentes digitais que podem estar com você em todos os momentos e entender o mundo ao seu redor. Quando você o usa, realmente parece um caso de uso natural.

Frye: A seguir quero voltar um pouco sobre as origens do Gemini, afinal ele vem de dois departamentos de pesquisa diferentes do Google.

Hassabis: Sim, no ano passado fundimos os dois departamentos de pesquisa da Alphabet, integrando Google Brain e DeepMind ao Google DeepMind. Chamamos isso de superunidade, que reúne os melhores talentos de toda a empresa em um único departamento. Isto significa que combinamos o melhor conhecimento adquirido em todas as pesquisas, especialmente em modelos de linguagem.

Portanto, lançamos modelos como Chinchilla e Gopher e construímos PaLM, LaMDA e outros modelos iniciais. Cada um desses modelos tem suas vantagens e desvantagens, por isso os integramos ao Gemini e nos tornamos o primeiro Projeto Farol lançado após a fusão dos departamentos. Depois, a outra coisa importante é reunir todos os recursos computacionais para que você possa realizar treinamentos muito grandes. Eu acho que isso é ótimo.

Frye: Em muitos aspectos, o Google Brain e o DeepMind têm focos ligeiramente diferentes. Posso dizer isso?

Hassabis: As várias divisões do Google estão claramente focadas na vanguarda da inteligência artificial e já existe muita colaboração no nível de pesquisa individual, mas é diferente no nível estratégico. Com a incorporação do Google DeepMind, gosto de descrevê-lo como a Engine Room do Google, está funcionando extremamente bem. Penso que há muito mais semelhanças do que diferenças na forma como trabalhamos e continuaremos a manter e a reforçar os nossos pontos fortes em áreas como a investigação básica.

Por exemplo,De onde virá a próxima arquitetura do Transformer?Queremos inventá-lo. Os pesquisadores do Google Brain inventaram a agora popular arquitetura Transformer. Combinamos essa arquitetura com aprendizado por reforço profundo, no qual fomos pioneiros. Acho que ainda é necessária mais inovação. Apoio isso, assim como as equipes do Google Brain e da DeepMind fizeram nos últimos 10 anos. É emocionante.

Direção futura: Combinando AlphaGo com Gemini

Frye: Quero falar sobre Gêmeos, como é seu desempenho? Como ele se compara a outros modelos?

Hassabis: Esta questão envolve benchmarks,Acho que todo o campo precisa de melhores benchmarks. Existem alguns benchmarks acadêmicos bem conhecidos, mas agora estão saturados e não distinguem realmente as nuances entre os diferentes modelos de topo.。

Na minha opinião,Atualmente existem três tipos de modelos de ponta, nosso Gemini, GPT da OpenAI e Claude da Anthropic. Além disso, existem muitos modelos com bom desempenho, como os modelos da série Llama e da série Mistral lançados pela Meta, Mistral, etc. Depende do tipo de tarefa que você deseja realizar, escolha Claude para codificação, GPT para raciocínio e Gemini para memória, contexto longo e compreensão multimodal.

É claro que as empresas continuarão a melhorar os seus modelos. O Gemini, por exemplo, é apenas um modelo com menos de um ano. Acho que estamos em uma trajetória muito boa e espero que na próxima vez que conversarmos, Gêmeos esteja na vanguarda.

Frye: Sim, os grandes modelos ainda têm um longo caminho a percorrer. Isso também significa que esses modelos não são muito bons em alguns aspectos.

Hassabis:certamente. Na verdade, este é o maior debate do momento. Muitos dos modelos atuais são derivados de tecnologias inventadas há cinco ou seis anos. Então, esses modelos ainda carecem de muita coisa, são alucinantes e ruins de planejamento.

Frye: Qual é o plano?

Hassabis: Por exemplo, em alguns planejamentos de longo prazo, o modelo não pode resolver o problema no longo prazo. Você dá uma meta e eles não conseguem agir por você. então,O modelo é muito parecido com um sistema passivo de resposta a perguntas. Você faz uma pergunta e eles te dão algum tipo de resposta, mas não resolvem o problema para você. Por exemplo, você deseja um assistente digital para ajudá-lo a reservar todas as suas férias na Itália, bem como reservar todos os restaurantes, museus e muito mais. Infelizmente, ele não pode fazer essas coisas.

Penso que este é um tema para a próxima era de investigação, que chamamos (em maior medida) de sistemas baseados em agentes ou sistemas inteligentes que têm comportamento semelhante ao de um agente. Claro, é nisso que o Google é bom. O Google construiu o agente de jogos AlphaGo e outros agentes no passado. então,Muito do que estamos fazendo é combinar projetos famosos com novos modelos multimodais de grande escala e nos tornarmos sistemas de próxima geração, como a combinação de AlphaGo e Gemini.。

Frye: Acho que o AlphaGo é muito bom em planejamento.

Hassabis: Sim, AlphaGo é muito bom em planejamento. Claro, é apenas no mundo dos jogos. Portanto, precisamos generalizá-lo para áreas gerais, como trabalho diário e linguagem.

Frye: Você acabou de mencionar que o Google DeepMind agora se tornou a sala de máquinas do Google. Isso é uma grande mudança. Então, o Google está fazendo uma grande aposta na IA?

Hassabis: Eu penso que sim. Acho que o Google sempre entendeu a importância da IA. Quando Sundar assumiu como CEO, ele disse que o Google era uma empresa que priorizava a IA. Discutimos esta questão no início do seu mandato e ele acredita que a IA tem potencial para ser a próxima grande mudança de paradigma depois da Internet móvel e tem um potencial maior do que antes.

Talvez nos últimos dois anos tenhamos realmente começado a ter uma ideia do que isso significa, não apenas do ponto de vista da pesquisa, mas também em termos de produtos e outros aspectos. É muito emocionante, então acho que é a coisa certa reunirmos todos os talentos e fazermos o nosso melhor para impulsionar a IA.

Frye: Sabemos que o Google DeepMind leva a pesquisa e a ciência muito a sério. Mas à medida que se torna a casa de máquinas do Google, isso significa que tem de se preocupar mais com os interesses comerciais e não mais com as coisas mais puras?

Hassabis: Sim, estamos definitivamente mais preocupados com os interesses comerciais dentro dos termos de referência. Mas, na verdade, aqui estão algumas coisas que tenho a dizer. Primeiro, continuaremos nosso trabalho científico no AlphaFold, que lançamos no AlphaFold 3 há alguns meses. Também estamos dobrando nosso investimento nisso. Acho que este é um trabalho único que o Google DeepMind faz.

Você sabe, até mesmo nossos concorrentes acham que este será um produto geral de IA. Formamos uma nova empresa, Isommorphic Labs, para conduzir o desenvolvimento de medicamentos. É tudo muito emocionante e tudo está indo muito bem. Então continuaremos fazendo isso. Ao mesmo tempo, também trabalhámos muito na previsão do clima e noutros aspectos.

Temos uma grande equipe para que possamos realizar vários trabalhos ao mesmo tempo. Estamos construindo nosso modelo em larga escala Gemini et al. Estamos formando uma equipe de produtos para levar todas essas tecnologias incríveis a todas as áreas onde o Google existe. Então, de certa forma, é uma vantagem para nós poder conectar toda a nossa tecnologia a qualquer momento. É realmente inspirador podermos inventar algo que um bilhão de pessoas possam usar imediatamente.

Outra coisa é,Precisamos agora de um grau muito maior de integração entre as tecnologias de IA desenvolvidas para produtos e o trabalho realizado para fins puros de pesquisa de AGI. Cinco anos atrás, era necessário construir uma IA especial para um produto. Agora você pode separar a pesquisa principal e, claro, ainda precisa fazer algum trabalho específico do produto, mas isso provavelmente representa apenas 10% de todo o trabalho.

portanto,Na verdade, não há mais contradição entre o desenvolvimento de produtos de IA e a construção de AGI. Eu diria que 90% é o mesmo plano de pesquisa. Portanto, se você lançar produtos e levá-los ao mundo, aprenderá muito com eles. As pessoas também usam, então você aprende muito sobre suas métricas internas não corresponderem ao que as pessoas estão dizendo e então você pode fazer atualizações. Isso é muito útil para sua pesquisa.

Como testar a tecnologia GenAI

Frye: Eu me pergunto se há uma tensão entre os avanços que aplicam a IA à ciência e o momento certo para divulgar essas coisas ao público. No Google DeepMind, ferramentas como grandes modelos de linguagem são usadas para pesquisa, em vez de serem vistas como produtos comerciais em potencial.

Hassabis: Levamos a responsabilidade e a segurança muito a sério desde o início. Mesmo antes de 2010, o Google incorporou algumas éticas básicas em suas diretrizes de IA. Estamos alinhados com o Google e queremos atuar de forma responsável como um dos líderes neste espaço.

Portanto, é interessante agora começar a lançar produtos reais com capacidades GenAI. Na verdade, há muito o que aprender e estamos aprendendo rapidamente, o que é bom. O nosso risco é relativamente baixo com as tecnologias atuais, que ainda não são tão poderosas. Mas à medida que a tecnologia se torna mais poderosa, devemos ser mais cuidadosos.

As equipes de produto e outras equipes estão aprendendo como testar a tecnologia GenAI. Essas técnicas são diferentes das técnicas comuns porque nem sempre fazem a mesma coisa. É quase como testar um jogo de mundo aberto, as coisas que você pode tentar fazer com ele são quase ilimitadas. Então foi interessante descobrir como formar uma equipe vermelha.

Frye: Então, o teste do time vermelho aqui é vocês competirem entre si?

Hassabis:Sim. O teste da equipe vermelha ocorre quando você puxa uma equipe dedicada da equipe técnica de desenvolvimento para testar a resistência da tecnologia e tentar quebrá-la de todas as maneiras possíveis. Na verdade, você precisa usar ferramentas para automatizar os testes e, mesmo que haja milhares de pessoas fazendo isso, isso não é suficiente em comparação com bilhões de usuários.

Além disso, acho que temos que fazer isso em fases, incluindo uma fase experimental, uma fase beta fechada e depois um relançamento, assim como fizemos com os jogos no passado. Então você está aprendendo cada passo do caminho. Acho que o que precisamos fazer mais é usar a própria IA para nos ajudar com os testes internos da equipe vermelha e encontrar automaticamente alguns bugs ou fazer a triagem tripla. Dessa forma, nossos desenvolvedores e testadores podem realmente se concentrar nessas situações complicadas.

Frye: Há algo muito interessante aqui: você está em um espaço de probabilidades mais altas. Portanto, mesmo que algo tenha uma pequena chance de acontecer, se você tentar o suficiente, acabará dando errado. Acho que houve alguns erros públicos.

Hassabis: Como mencionei, acho que as equipes de produto estão acostumadas a testes de todos os tipos. Eles sabem que testaram essas coisas, mas é aleatório e probabilístico. Na verdade, em muitos casos, se for apenas um software comum, você pode dizer que testou 99,999% dele. Então infira que isso é suficiente.

No entanto, este não é o caso dos sistemas generativos. Eles podem fazer todo tipo de coisa que está um pouco fora do normal, um pouco fora do que você já viu antes. Se alguma pessoa inteligente ou adversário decidir testar esses sistemas de alguma forma, como faria um hacker.

Esses sistemas podem existir em combinações que incluem tudo o que você disse sobre eles antes. Então está em algum estado especial, ou a memória está cheia de coisas especiais, e é por isso que eles precisam gerar alguma coisa. É complicado aqui e não é infinito. Portanto, existem maneiras de resolver esse problema, mas há muitas nuances na implantação da tecnologia normal.

Frye: Lembro-me de você dizer, acho que foi a primeira vez que o entrevistei, você mencionou que, na verdade, temos que reconhecer que esta é uma forma completamente diferente de computação. Você tem que se afastar das coisas determinísticas que entendemos perfeitamente e avançar em direção a algo mais confuso, como o probabilístico. Você acha que o público também precisa mudar um pouco a perspectiva sobre os tipos de computação?

Hassabis: Sim, concordo. Talvez seja outra coisa em que precisamos pensar, curiosamente,Antes de lançar um sistema, você pode lançar um documento de princípios ou algo parecido, para demonstrar claramente o uso pretendido deste sistema, para que ele foi projetado? Para que é usado? O que isso não pode fazer? Acho que há realmente necessidade de algum tipo de conscientização aqui, tipo, se você usar dessa maneira, achará útil, mas não tente fazer outras coisas com ele porque simplesmente não vai funcionar.

Acho que isso é algo que precisamos fazer em algumas áreas, e os usuários também podem precisar de experiência nessa área. Na verdade, é bastante interessante, e é provavelmente por isso que os próprios chatbots são um tanto surpreendentes, até mesmo para o OpenAI, incluindo o ChatGPT. Também temos nossos próprios chatbots e percebemos que esses robôs ainda apresentam falhas, como alucinações e outros problemas.

Mas o que não percebemos é que, apesar dessas falhas, existem muitos casos de uso excelentes para chatbots. Hoje em dia as pessoas encontram algumas utilidades muito valiosas, como resumir arquivos e documentos longos, escrever e-mails, preencher formulários, etc. Devido à ampla variedade de cenários de uso, mesmo que haja alguns pequenos erros, as pessoas realmente não se importam. Os humanos podem corrigir esses erros facilmente e economizar muito tempo. Acho que essa é a coisa surpreendente que as pessoas descobrem que, quando usadas, elas encontram esses casos de uso valiosos, mesmo que esses sistemas apresentem falhas em todos os sentidos que conhecemos.

Sobre Open Source: Uma vez publicado, não pode ser retirado

Frye: Isso me leva à próxima pergunta que quero fazer, que é sobre código aberto. Como você mencionou, quando as coisas estão nas mãos das pessoas, acontecem coisas verdadeiramente extraordinárias. Entendo que a DeepMind abriu o código-fonte de muitos projetos no passado, mas isso parece ter mudado com o tempo.

Hassabis: Sim, apoiamos muito o código aberto e a ciência aberta. Como você sabe, tornamos público quase tudo o que fazemos, como o Transformer, e as pesquisas sobre AlphaGo e AlphaFold são publicadas na Nature e em outras revistas, e AlphaFold também é de código aberto. Ao partilhar informações, a tecnologia e a ciência podem avançar rapidamente. Então, quase sempre fazemos isso, e achamos que é algo muito benéfico de se fazer, e é assim que a ciência funciona.

A única exceção é que IA, AGI e IA poderosa têm ambos os lados. A questão é quem o utiliza, os cientistas e tecnólogos que realmente agem com boas intenções e podem fazer sugestões construtivas e críticas, que é o caminho mais rápido para o progresso da sociedade. Mas a questão é: como limitar também o acesso a pessoas com más intenções que podem utilizar os mesmos sistemas para fins nocivos, utilizá-los indevidamente, como sistemas de armas, mas não podemos prever isso com antecedência. Além disso, o próprio sistema universal pode ser reutilizado desta forma. Ainda podemos mantê-lo hoje porque não creio que os sistemas sejam tão poderosos ainda.

Nos próximos dois a quatro anos, especialmente quando começarmos a desenvolver sistemas com comportamento de agente, se esses sistemas forem mal utilizados por alguém, poderão ser causados danos graves. Embora não tenhamos soluções concretas, como comunidade precisamos pensar sobre o que isso significa para o código aberto.

Talvez os modelos de última geração precisem passar por mais análises antes de serem disponibilizados um ou dois anos após o lançamento. Este modelo é o que estamos seguindo porque temos nosso próprio modelo de código aberto chamado Gemma. Esses modelos são menores e não são de última geração, portanto seus recursos ainda são muito úteis para desenvolvedores e são fáceis de executar em um laptop com menos parâmetros. Essas funções agora são bem compreendidas. No entanto, o desempenho destes modelos não é tão bom quanto o dos modelos mais recentes, como o Gemini 1.5. A abordagem final que podemos adotar é,Teremos modelos de código aberto, mas eles estarão cerca de um ano atrás dos modelos de última geração, para que possamos realmente avaliar o uso desses modelos pelos usuários em público e compreender as capacidades dos modelos de ponta.

O principal problema do código aberto é que, uma vez lançado, não pode ser retirado. Ao contrário dos modelos proprietários, os desenvolvedores não podem simplesmente encerrar um modelo de código aberto se ele for usado de forma inadequada.Uma vez aberto, é como passar por uma porta de mão única, então você precisa ter muito cuidado antes de abrir o código.

Frye: É possível limitar a inteligência artificial geral (AGI) a um fosso dentro de uma organização?

Hassabis: Esta ainda é uma questão não resolvida. Ainda não sabemos como fazer isso, porque é algo em que precisamos pensar quando começarmos a falar sobre IA de alto nível, semelhante à humana.

Frye: E a camada intermediária?

Hassabis: Na camada intermediária, temos algumas ideias melhores para lidar com essas questões. Por exemplo, ele pode ser testado por meio de um ambiente sandbox seguro. Isso significa testar o comportamento do agente em um ambiente de jogo ou em uma versão parcialmente conectada da Internet. Já existe muito trabalho de segurança sendo feito neste espaço, bem como em outras áreas, como fintech. Poderíamos pegar essas ideias e construir sistemas de acordo, e é assim que testamos os primeiros protótipos dos sistemas. Mas também sabemos que estas medidas podem não ser suficientes para limitar a AGI, um sistema que pode ser mais inteligente do que nós. Portanto, precisamos compreender melhor esses sistemas para projetar protocolos para AGI. Até lá, teremos melhores formas de controlá-lo e possivelmente aproveitar os sistemas e ferramentas de IA para monitorizar a próxima geração de sistemas de IA.

Como regular a IA

Frye: Sobre o tema segurança, muitas pessoas parecem pensar que a palavra regulação resolve todos os problemas. Como você acha que a regulamentação deve ser estruturada?

Hassabis: O governo está a acelerar a sua compreensão e envolvimento na tecnologia de IA, o que é um fenómeno positivo.Penso que a cooperação internacional é necessária, especialmente em áreas como a regulamentação, as medidas de segurança e as especificações de implantação。

Ao abordarmos a AGI, precisamos reconhecer que, como a tecnologia está avançando rapidamente,A nossa abordagem regulamentar também precisa de ser flexível e adaptar-se rapidamente aos mais recentes desenvolvimentos tecnológicos. Se você tivesse regulamentado a IA há cinco anos, estaria regulamentando algo completamente diferente. O que vemos hoje é IA generativa, mas daqui a cinco anos poderá ser diferente.

Atualmente, os sistemas baseados em agentes podem representar o maior risco. Portanto, recomendo fortalecer as regulamentações existentes em áreas já regulamentadas (como saúde, transporte, etc.) para adaptá-las à era da IA, assim como as regulamentações foram atualizadas anteriormente para dispositivos móveis e Internet.

A primeira coisa que eu faria é manter o foco e garantir que entendemos e testamos sistemas de ponta. À medida que a situação se torna mais clara e é necessário começar a desenvolver regulamentos em torno destas situações, poderá fazer mais sentido fazê-lo dentro de alguns anos. O que nos falta neste momento é a avaliação comparativa, testes de competências adequados, incluindo, como a indústria quer saber, em que ponto as nossas capacidades podem representar um risco significativo. Atualmente não há resposta para isso, e os recursos baseados em agentes que acabei de mencionar podem ser o próximo limite, mas atualmente não há método de teste aceito.

Um teste possível é detectar se o sistema possui capacidades enganosas. Se houver engano no sistema, então nada mais relatado será confiável. portanto,Testar o engano deve ser uma prioridade máxima para capacidades emergentes. Além disso, existem muitas outras habilidades que valem a pena testar, como a capacidade de atingir objetivos específicos, capacidade de replicação, etc., e muitos trabalhos relacionados estão em andamento. Acho que é basicamente aqui que as agências governamentais entram em ação. Acho que seria ótimo para eles se esforçarem bastante nisso e, claro, os laboratórios deveriam contribuir com o que sabem.

Frye: Onde as instituições se enquadram no mundo que você descreve? Mesmo que cheguemos ao ponto em que tenhamos AGI capaz de apoiar toda a investigação científica, as instituições ainda terão lugar?

Hassabis: Eu penso que sim. Ao chegar à AGI, acho que será uma colaboração entre a comunidade, a academia, o governo e os laboratórios industriais. Acredito verdadeiramente que só assim chegaremos a esta fase final.

Padrões de teste do Cazaquistão para AGI

Hassabis: Se você está perguntando o que acontece depois da AGI, uma das razões pelas quais sempre quis construir a AGI é para que possamos usá-la para começar a responder algumas das maiores e mais fundamentais questões sobre natureza, realidade, física e consciência . Dependendo da forma que assumir, poderá ser uma combinação de especialistas humanos e IA. Penso que este continuará a ser o caso por algum tempo em termos de exploração da próxima fronteira.

Atualmente, esses sistemas não conseguem apresentar conjecturas ou hipóteses por si próprios.. Tal como está, eles podem ajudá-lo a provar certos problemas, ganhar medalhas de ouro em Olimpíadas Internacionais de Matemática e talvez até resolver famosas conjecturas matemáticas, mas ainda não são capazes de formular hipóteses como a hipótese de Riemann ou a relatividade geral.Este tem sido meu padrão de teste para a verdadeira inteligência artificial geral- Poderá fazer isso e até inventar novas teorias. Ainda não temos nenhum sistema e talvez nem saibamos como projetar teoricamente um sistema que faça isso.

Frye: O cientista da computação Stuart Russell expressou-me sua preocupação de que, uma vez alcançado o estágio de desenvolvimento AGI, todos possamos acabar desfrutando de uma vida de luxo desenfreado, sem qualquer propósito na vida. Embora esse tipo de vida seja repleto de confortos materiais, carece de significado e propósito profundos.

Hassabis: Esta é realmente uma questão interessante. Provavelmente isso está além do AGI e é mais parecido com o que as pessoas às vezes chamam de ASI. Nessa altura já deveremos ter enormes recursos e, assumindo que podemos garantir uma distribuição justa e equitativa desses recursos, estaremos numa posição em que poderemos escolher livremente como agir, e o “significado” tornar-se-á uma grande questão filosófica. Acho que precisaremos de filósofos, talvez até de teólogos, e cientistas sociais para começarem a pensar sobre isso agora. O que traz significado? Ainda acho que a autoatualização é importante e não acho que vamos apenas mergulhar na meditação, talvez joguemos no computador. Mas mesmo assim, isso é realmente uma coisa ruim? Esta é uma questão que vale a pena explorar.

Embora a AGI venha a provocar grandes mudanças, como a cura de muitas ou de todas as doenças e a resolução de problemas energéticos e climáticos, também poderá fazer-nos enfrentar uma questão mais profunda: Qual é o sentido da vida? Assim como as pessoas que escalam o Monte Everest ou participam de esportes radicais, essas atividades podem parecer sem sentido superficialmente, mas na verdade são a busca das pessoas por se desafiarem. Com o desenvolvimento da AGI, podemos ter tudo no nível material, mas com ele vem um repensar do significado da vida. Este problema é subestimado tanto nas fases iniciais como nas fases finais do desenvolvimento tecnológico, e precisamos de reavaliar o chamado hype e o seu impacto real no nosso futuro.

Frye: Voltemos à questão sobre AGI. Eu sei que sua grande missão é construir uma IA que beneficie a todos. Mas como você pode ter certeza de que isso realmente beneficiará a todos? Como levar em conta as preferências de todos e não apenas dos designers?

Hassabis: Não creio que seja possível incluir todas as preferências num único sistema porque as pessoas não conseguem chegar a acordo sobre muitas questões. Acho que podemos ter uma arquitetura segura na qual a inteligência artificial personalizada pode ser construída, e então as pessoas decidem para que o sistema de IA pode ou não ser usado com base em suas próprias preferências, propósitos de uso e propósitos de implantação. Em geral, a arquitetura precisa garantir segurança, e então as pessoas podem fazer algumas variações e incrementos com base na arquitetura.

Portanto, penso que à medida que nos aproximamos da AGI, provavelmente teremos de colaborar de forma mais ideal a nível internacional e depois garantir que estamos a construir a AGI num ambiente seguro.

Assim que concluirmos esta tarefa, todos poderão ter sua própria API de bolso personalizada, se desejarem.

Frye: Ok. Mas o que quero dizer é que a IA pode apresentar algum comportamento ruim.

Hassabis: Sim, maus comportamentos e habilidades emergentes. O engano é um exemplo. Devemos entender melhor todas essas questões.

Há duas coisas com que se preocupar: os humanos podem fazer mau uso da IA e a própria IA (à medida que se aproxima da AGI, o seu desempenho sai dos trilhos). Acho que esses dois problemas exigem soluções diferentes. Sim, é com isso que temos que lidar à medida que nos aproximamos cada vez mais da construção da AGI.

Voltando ao seu ponto sobre beneficiar a todos, usando AlphaFold como exemplo, acho que podemos curar a maioria das doenças dentro de um ou dois anos se o design de medicamentos de IA funcionar. Podem então ser convertidos em medicamentos personalizados para minimizar os efeitos secundários para o indivíduo, que estão relacionados com a doença individual e o metabolismo individual, entre outras coisas. Então, essas são coisas incríveis, você sabe, energia limpa, energia renovável, a tecnologia vai trazer enormes benefícios, mas também temos que mitigar os riscos.

Frye: Você disse que uma maneira de mitigar o risco era que um dia você basicamente faria uma versão científica de "Avengers Assemble"?

Hassabis:certamente.

Frye: Então, como saber quando é a hora certa?

Hassabis: Bem, esta é uma grande questão. Você não pode fazer isso tão cedo porque nunca obterá o apoio de alguns dos pessimistas. Hoje, você vê algumas pessoas muito famosas dizendo que a IA é isenta de riscos. E então pessoas como Geoffrey Hinton dizem que há muitos riscos.

Frye: Quero falar mais com você sobre neurociência. Quanto isso ainda inspira o que você está fazendo? Porque percebi que há poucos dias a DeepMind revelou um mouse virtual com cérebro artificial, que ajuda a mudar nossa compreensão de como o cérebro controla o movimento. Lembro que conversamos muito sobre se inspirar diretamente nos sistemas biológicos. Isso ainda está no centro da sua abordagem?

Hassabis: Não, evoluiu agora e acho que entramos na fase de engenharia, como sistemas de grande escala, arquitetura de treinamento em larga escala. A neurociência tem um pouco menos de influência nisso. A neurociência é uma fonte de ideias, mas quando a quantidade de engenharia é grande, a neurociência fica em segundo plano. Então agora provavelmente se trata mais de aplicar a inteligência artificial à neurociência. Acho que à medida que nos aproximamos da AGI, compreender o cérebro será um dos casos de uso mais interessantes da AGI.

Frye: Gostaria de saber se você também está imaginando que haverá coisas que estão além da compreensão humana que a AGI nos ajudará a descobrir e compreender?

Hassabis: Acho que é possível que os sistemas AGI compreendam níveis mais elevados de abstração melhor do que nós. Acho que um sistema de IA poderia efetivamente ter qualquer tipo de córtex pré-frontal, então poderia imaginar níveis mais elevados de abstração e padrões, e poderia ver o universo que não conseguimos entender ou lembrar imediatamente.

E então eu acho que, do ponto de vista da interpretabilidade, não podemos dimensionar nossos próprios cérebros infinitamente, mas em teoria, com tempo, SPE e memória suficientes, a AGI pode entender qualquer coisa que seja computável.

Frye: Você disse que DeepMind é um projeto de 20 anos. Quão perto você está de entrar no caminho certo?

Hassabis: Estamos no caminho certo.

Frye: O AGI estará disponível em 2030?

Hassabis: Eu não ficaria surpreso se fosse lançado nos próximos dez anos.

notícias

Hassabis: Google quer criar um segundo Transformer, uma combinação de AlphaGo e Gemini

Introdução

Minhas informações de contato