notícias

sergey brin: o google não se atreveu a usar o transformer e todos os autores fugiram. agora estou escrevendo código todos os dias.

2024-09-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

relatório do coração da máquina

editor: jiaqi

com o maior negócio de buscas do mundo, o google sempre foi único no vale do silício. a enorme receita publicitária gerada pelas pesquisas permite que os dois fundadores, sergey brin e larry page, dêem um passo atrás e aproveitem a vida em paz.

em 15 de setembro de 1997, sergey brin e larry page registraram um site chamado “google”.

somente no final de 2022 o chatgpt se tornou popular em todo o mundo, e o google, o líder original da onda de ia, pareceu perceber que seu status havia mudado. no ano passado, parece que nos habituámos a que este gigante da tecnologia aparecesse como um “catch-up”.

desde o ano passado, a mídia revelou que sergey brin voltou à linha de frente e escreve ele mesmo o código. o ex-ceo eric schmidt chegou a atacar diretamente o sistema desorganizado de “trabalhar apenas um dia por semana” em palestra na universidade de stanford: “se perdermos para a openai, perderemos para as startups se continuarmos”.

schmidt fala em stanford

ao mesmo tempo, à medida que o google se torna cada vez maior, alguns sintomas de “doenças das grandes empresas” tornam-se cada vez mais óbvios. muitos "ensaios" de demissão do google mostram que a raiz dos problemas do google não é a "tecnologia", mas a "cultura". por exemplo, os funcionários não têm senso de missão e a empresa criou sistemas e processos complicados para evitar riscos.

o fundador do appsheet, praveen seshadri, anunciou sua saída do google. seu blog dizia que a empresa havia se perdido e os funcionários estavam presos no sistema.

o que há de errado com o google? “o que realmente prejudica a produtividade dos funcionários do google todos os dias é a falta de pessoal, a mudança de prioridades, as demissões frequentes, os salários estagnados e a falta de acompanhamento dos projetos por parte da administração”, disse o sindicato dos trabalhadores da alphabet.

embora o google esteja se recuperando no "contra-ataque chatgpt", é um pouco diferente do estilo de esperar pelo lançamento do gpt-5 na área de comentários do openai. quando o gemini for revelado, ele sempre "derrubará" inadvertidamente. a fraude da demonstração ocorreu quando foi lançada. desde então, gemini tem recebido muitas críticas por gerar retratos com preconceito racial, sugerindo que todos comam uma pedra por dia e usem cola para colar queijo na pizza.

no mês passado, o google lançou uma versão aprimorada do gemini e também lançou o gemini live, um assistente de voz baseado no gpt-4o. no entanto, durante a demonstração, o gemini live ainda deu errado.

no evento made by google, realizado em agosto, os dois primeiros testes das funções de tirar fotos e reconhecimento de imagem do gemini live falharam, e só na terceira vez que troquei de telefone é que obtive sucesso.

por que deveríamos voltar à vanguarda da tecnologia quando já temos liberdade financeira? como o google vê o gemini, que frequentemente “camba”? o que há de errado com o google em meio à concorrência dos gigantes da tecnologia? que papel desempenhará nesta competição? no all-in summit realizado ontem, sergey brin, que há muito tempo não aparecia na mídia, falou sobre suas opiniões em uma entrevista.

os principais pontos de brin são:

ele decidiu retornar à vanguarda da tecnologia porque o progresso no campo da ia ​​era muito emocionante e, como cientista da computação, ele não estava disposto a perder essa onda.

a tecnologia de ia não é apenas uma extensão da pesquisa; ela afetará uma gama mais ampla de mudanças.

em comparação com os "modelos especialistas" especializados em um determinado campo, brin é mais otimista em relação aos modelos gerais. o google ganhou com sucesso o modelo da medalha de prata da imo. isso ocorre porque o google começou a integrar certos conhecimentos e habilidades em modelos de prova formais. modelo de linguagem universal.

atualmente existe uma demanda constante por poder de computação, mas é difícil ver um aumento na demanda “de 100 megawatts para 1 gigawatt, 10 gigawatts ou mesmo 100 gigawatts”.

no campo das aplicações de inteligência artificial, brin acredita que a biologia implementou relativamente bem a aplicação da tecnologia de ia, enquanto o campo da robótica ainda está num estágio em que as pessoas acham mágico depois de assistir a demonstrações e ainda não atingiu um nível que possa ser usado na vida diária.

embora a ia ocasionalmente cometa grandes erros, ela deve ser lançada em tempo hábil. ia não é uma tecnologia que você guarda perto do peito e esconde até que esteja perfeita. o que é ainda mais assustador do que a ia ser “estúpida” é que o google era muito tímido na época para implantar o transformer, e todos os autores do artigo renunciaram.

a competição entre gigantes da tecnologia no campo da ia ​​é realmente uma coisa boa, mas brin ainda prestará muita atenção às grandes classificações de modelos.

a seguir está o texto completo da entrevista:

brin: originalmente, pensei que estava aqui apenas para participar de um podcast, mas não esperava que houvesse tantos espectadores. parabéns por sua carreira de sucesso.

moderador: obrigado por reservar um tempo para conversar comigo. hoje, a ia está no ponto crítico para mudar o mundo. em 1998, você e larry page fundaram o google. ouvi dizer que você esteve recentemente envolvido na pesquisa de ia no google. grandes modelos de linguagem e ferramentas de ia de conversação são uma ameaça à pesquisa google, um tema de debate entre muitos analistas e especialistas do setor. então, quanto tempo você fica sentado no google todos os dias? o que você está fazendo?

brin: para ser sincero, vou trabalhar quase todos os dias, mas hoje perdi um dia porque tinha que aparecer no seu programa. como cientista da computação, nunca vi avanços tão emocionantes na ia como nos últimos anos. o progresso da ia ​​é realmente chocante!

na década de 1990, quando eu era estudante de pós-graduação, a ia era quase insignificante no currículo e não passava de uma nota de rodapé nos livros didáticos. o que o livro fala é que pessoas anteriores fizeram vários experimentos, mas a ia realmente não funciona, e trabalhar com ia é um “beco sem saída”. isso é tudo que você precisa saber sobre ia.

e então, de alguma forma, milagrosamente, essas pessoas que trabalham em redes neurais começaram a fazer progressos em métodos de ia que tinham sido abandonados nas décadas de 1960 e 1970 - mais cálculos, mais dados, algoritmos mais inteligentes... o que aconteceu nos últimos dez anos é simplesmente incrível. as ferramentas de ia atuais podem demonstrar novas capacidades quase todos os meses, e essas capacidades podem duplicar rapidamente. as capacidades dos computadores são verdadeiramente surpreendentes. portanto, decidi voltar à linha de frente da tecnologia porque não queria perder tudo o que poderia vivenciar como cientista da computação.

moderador: você acha que a ia é uma extensão da pesquisa ou irá redefinir a forma como as pessoas recuperam informações?

brin: acho que a ia afeta todos os aspectos da vida diária, e a pesquisa é um deles. o impacto da ia ​​está em quase todos os lugares, incluindo na programação. agora tenho uma perspectiva diferente sobre a programação de ia. escrever código do zero é muito difícil, especialmente quando comparado a dirigir a programação de ia, certo?

anfitrião: o que você programou usando ia?

brin: na verdade, eu mesmo escrevo um pouco de código, apenas por diversão. às vezes deixo a ia escrever código para mim e a experiência é muito interessante. por exemplo, quero saber se o modelo de ia do google joga bem o sudoku. então, pedi ao modelo de ia que escrevesse sozinho um monte de código, que pode gerar automaticamente quebra-cabeças de sudoku, e então alimentar essas perguntas para a ia para pontuação. a ia está mais do que à altura da tarefa de escrever esses códigos.

mas quando eu estava conversando com os engenheiros sobre isso, houve muitas idas e vindas, e voltei meia hora depois e a ia estava pronta. eles ficaram impressionados e ficou claro que não estavam usando ferramentas de ia para ajudar na codificação tanto quanto eu pensava.

sudoku

apresentador: isso é tão engraçado. alguns modelos são bons para resolver quebra-cabeças de sudoku, alguns podem responder informações factuais sobre o meu mundo e alguns são especializados em projetar casas. ao mesmo tempo, muitos pesquisadores estão trabalhando no desenvolvimento de modelos linguísticos gerais em larga escala. qual caminho você acha que o futuro seguirá?

não sei de onde vem essa afirmação de que haverá um “modelo de deus”. é por isso que os investidores estão investindo dinheiro na ia. uma vez desenvolvido o “modelo de deus”, você pode “alcançar o mundo em uma única etapa”. ou existem muitos modelos pequenos baseados em uma aplicação específica, colaborando em um agente. como você acha que o desenvolvimento e a aplicação do modelo evoluirão no futuro?

brin: se olharmos para trás, há 10 ou 15 anos, diferentes tecnologias de ia estavam a ser utilizadas para resolver problemas completamente diferentes. por exemplo, a ia do jogo de xadrez e a tecnologia de geração de imagens são muito diferentes, e cada uma delas é muito diferente.

moderador: assim como o google lançou recentemente um modelo gnn, que tem desempenho melhor do que todos os modelos de previsão física. não tenho certeza se você sabe disso, mas foi enviado pelo google.

brin: isso é incrível, mas não sei (estranho).

moderador: este modelo é uma arquitetura completamente diferente.

brin: de uma perspectiva histórica, a ia existe em muitos sistemas diferentes. tomemos como exemplo a recente olimpíada internacional de matemática (imo), o modelo do google ganhou a medalha de prata, a apenas um ponto da medalha de ouro (para obter detalhes, consulte os relatórios anteriores da machine heart: google ai ganhou a medalha de prata da olimpíada de matemática da imo, e seu modelo de raciocínio matemático alphaproof (advento, o aprendizado por reforço está de volta).

na verdade, usamos três modelos de ia: um responsável pela prova de teoremas, um focado em problemas geométricos e um modelo de linguagem geral. no entanto, há apenas alguns meses, começamos a tentar aprender com nosso trabalho anterior e a incorporar alguns dos conhecimentos e capacidades do modelo de prova formal em um modelo de linguagem geral.

este é um trabalho em andamento, mas acredito que a tendência será a construção de um modelo mais unificado. não tenho certeza se é o chamado “modelo de deus”, mas certamente estamos caminhando para algum tipo de arquitetura compartilhada, ou mesmo um modelo compartilhado.

moderador: se esta for a direção futura, então, para treinar e melhorar esse modelo muito grande, serão inevitavelmente utilizados enormes recursos computacionais.

brin: o poder da computação é indispensável. li artigos prevendo um aumento na demanda por poder de computação, de 100 megawatts para 1 gigawatt, 10 gigawatts ou até 100 gigawatts. tenho reservas sobre isso. nos últimos anos, a inovação e a otimização de algoritmos trouxeram melhorias de desempenho mais significativas do que o aumento do poder de computação do hardware.

moderador: então, o atual investimento pesado em poder computacional é irracional? todo mundo está falando sobre os ganhos, lucros e capitalização de mercado da nvidia. apoia o crescimento da computação e da infraestrutura em hiperescala que possibilita a construção desses modelos massivos. essa tendência realmente faz sentido? talvez faça sentido, caso contrário, por que a nvidia ganharia tanto?

brin: deixe-me começar dizendo que não sou economista ou analista de mercado e que minhas opiniões se baseiam exclusivamente na perspectiva de um cientista da computação. para nós, por enfrentarmos uma enorme demanda, estamos construindo clusters de computação o mais rápido possível. por exemplo, os clientes do google cloud querem apenas muitas ppus, gpus, tudo. tivemos que recusar clientes porque não tínhamos cartões suficientes e contamos com esses recursos internamente para treinar e implantar nossos próprios modelos. portanto, penso que é razoável que as grandes empresas expandam activamente o seu poder computacional. só acho que é difícil inferir diretamente da situação atual que a futura demanda por energia computacional aumentará de "100 megawatts para 1 gigawatt, 10 gigawatts ou mesmo 100 gigawatts".

anfitrião: mas as necessidades do negócio existem.

brin: entendo que os clientes têm uma ampla gama de necessidades. eles desejam realizar tarefas de inferência em vários modelos de ia e aplicar esses modelos a um fluxo interminável de novos cenários. suas necessidades são atualmente ilimitadas.

moderador: no campo de aplicação da ia, seja na robótica ou na biologia, quais aspectos você acha que alcançaram conquistas mais significativas? existe algum caso de uso que fez você pensar: “uau, isso é tão útil”? quais áreas são mais desafiadoras e a implementação das aplicações pode demorar mais do que o esperado?

brin: minha resposta é biologia. alphafold já existe há algum tempo. já existe há algum tempo e, quando falo com biólogos, quase todo mundo está usando. a versão mais recente do alphafold, alphafold 3, representa um novo tipo de tecnologia de ia. como mencionei antes, acredito que a tendência futura é a unificação de modelos.

em relação aos robôs, estou em um "estágio de uau", como "uau, o robô pode realmente fazer o trabalho doméstico!" a maioria dos na maioria dos casos, eles ainda não estão prontos para uso diário.

anfitrião: você vê o futuro dos robôs?

brin: talvez... mas não vi o específico...

anfitrião: mas o google também não tem um negócio de robôs? embora posteriormente tenha sido demolido e vendido.

brin: o google estava no negócio de robôs.

anfitrião: talvez seja a hora errada.

brin: francamente, isso provavelmente ocorreu porque estávamos nos adiantando demais. a boston dynamics tem tantos produtos famosos, mas nem me lembro o que o google fez. de qualquer forma, tivemos cinco ou seis produtos que eram constrangedores, mas eram legais e deixavam uma impressão duradoura. só de ver o quão capaz é o atual modelo de linguagem universal e como a tecnologia multimodal permite que os robôs entendam as cenas, ainda era um pouco bobo pensar nisso naquela época. sem estas tecnologias de ia na altura, éramos como se estivéssemos parados numa passadeira, incapazes de avançar.

o plano do google para desenvolver robôs já teve boas cartas: o "pai do android" andy rubin, o famoso fabricante de robôs boston dynamics e o famoso robô humanóide atlas... no entanto, em apenas cinco anos, ao longo do ano, foi planejou dissolver e reorganizar, depois dissolver e reorganizar novamente. altos executivos renunciaram um após o outro, planos de vendas foram suspensos e várias grandes empresas se venderam...

moderador: você investe muito tempo na pesquisa e desenvolvimento de tecnologias essenciais. você também colocou um esforço considerável no produto? num mundo futuro onde a ia está em todo o lado, como evoluirá a forma como a interação humano-computador evoluirá e como mudará a nossa vida quotidiana?

brin: este parece ser um tema para conversar com colegas na sala de chá.

anfitrião: você se importa em compartilhar conosco?

brin: não se preocupe, estou lutando para pensar em algo que não seja constrangedor.

apresentador: não há problema em contar a história de “você tem um amigo”.

brin: o que acontecerá no futuro é realmente difícil de dizer. a tecnologia de ia é a base para a realização de aplicações. por exemplo, alguém lançou uma demonstração explosiva, que foi particularmente incrível, mas leva tempo para passar da demonstração à implementação real na produção. não sei se você já experimentou o modelo astra, onde você pode reproduzir vídeo ao vivo e saber o que está acontecendo em seu ambiente.

anfitrião: você pode usar, certo?

brin: com certeza terei acesso. às vezes, posso ser uma das últimas pessoas a obter acesso. chegamos a um estágio em que, depois de experimentar a ia, as pessoas podem pensar: “meu deus, isso é incrível”. e então você pensa: “bem, 90% das vezes é “tudo funciona corretamente”. você pode questionar: “se houver erros ou respostas lentas em 10% dos casos, esta tecnologia é realmente boa o suficiente?” portanto, devemos trabalhar duro para melhorar esses detalhes para garantir que seja rápida e confiável e muito mais. quando isso realmente acontece, é realmente uma conquista incrível.

apresentador: ouvi uma história e devo contar uma coisa antes de subir no palco. antes de um evento de lançamento, um grupo de engenheiros mostrou como a ia pode ser usada para escrever código e disseram: “ainda não a implantamos no gemini porque queremos ter certeza de que não haverá falhas”. hesitação na cultura corporativa do google. naquela época você disse: “não, já que ele pode escrever código, deveria ser lançado”. muitas pessoas me contaram essa história. porque eles acreditam: “é extremamente importante ouvir comentários como este de você, o fundador, porque isso mostra que o conservadorismo não dominou completamente o google, e estamos ansiosos para ver o google continuar a liderar a inovação”. você realmente disse isso?

brin: não me lembro dos detalhes específicos. honestamente, parece algo que eu faria.

moderador: para mim isso se torna um problema porque o google é tão grande que se cometer um erro vai custar muito caro.

brin: então ainda tenho algo a temer. o ponto de partida do modelo de linguagem atual remonta ao artigo do transformer, de 6 ou 8 anos atrás. mas todos os autores desses artigos pediram demissão do google. parabéns a eles! naquela época, éramos muito tímidos para implantar o transformer.

brin: e não importa quão poderosa seja a ia, às vezes eles ainda cometerão erros e dirão coisas embaraçosas. mas, ao mesmo tempo, a ia já pode nos ajudar em coisas que nunca fizemos antes. por exemplo, eu programo com meus filhos e trabalho em alguns problemas extremamente complexos.

apenas consultando a ia, eles podem começar a programar diretamente e aprender as diversas apis e ferramentas complexas que normalmente levam um mês para serem aprendidas. essa habilidade é quase mágica. precisamos estar preparados para cometer alguns erros e correr riscos. acredito que a nossa resposta nesta área melhorou. claro, você pode ter visto muitos momentos "estúpidos" de ia, mas...

moderador: isso é aceitável. afinal, você já tem riqueza e liberdade, possuindo uma enorme quantidade de ações. quero dizer, você está disposto a aceitar o constrangimento porque é muito importante nesta fase.

brin: não estou fazendo isso por causa do meu estoque, ok? mas pense bem, posso realmente aceitar esses erros? é esta a magia que apresentamos ao mundo? acho que o que precisamos transmitir é: “olha, isso é incrível”. a ia ocasionalmente cometerá grandes erros, mas acho que devemos lançá-la em tempo hábil e permitir que as pessoas experimentem e vejam quais novas aplicações podem encontrar. ia não é uma tecnologia que você guarda perto do peito e esconde até que esteja perfeita.

anfitrião: você acha que a ia terá um impacto tão profundo no mundo e criará tanto valor que não será mais uma simples competição entre google, meta e amazon? todos consideram isso uma guerra de negócios, mas é possível? o bolo feito pela ia é tão grande e os campos que você está explorando são tão amplos que vão muito além de quem construiu o modelo de maior pontuação e cujo desempenho no llm é o melhor. melhor. como você vê as amplas perspectivas trazidas pela ia e que papel o google desempenhará nisso?

brin: acho que a competição é muito útil, de certa forma, porque todos os grandes players de tecnologia estão competindo e, a propósito, em alguns rankings de algumas semanas atrás, o google era o número um e, da última vez que verifiquei, ainda vencemos o modelo top. apenas......

moderador: existem vários indicadores ruins. então você se preocupa com as classificações do modelo!

brin: eu não disse que não me importava. o google estava realmente atrasado quando o chatgpt foi lançado e agora percorremos um longo caminho. estou muito feliz com todo o progresso que o google está fazendo agora. portanto, definitivamente ficaremos de olho nas classificações dos modelos. acho que é bom que existam tantas empresas de ia, sejam elas openai, anthropic ou mistral. isso significa que o campo da ia ​​está em rápida expansão e cheio de vitalidade.

à sua pergunta, acho que a ia tem um enorme valor para a humanidade. se você pensar nos meus tempos de faculdade, não existia internet como a conhecemos hoje, e obter informações básicas e comunicar-se com as pessoas exigia um enorme esforço. antes da popularidade dos telefones celulares, havíamos alcançado enormes melhorias nas capacidades em todo o mundo, e a tecnologia de ia de hoje é, sem dúvida, outro grande salto em capacidades. agora, quase todo mundo tem acesso à ia de alguma forma. eu acho que é muito emocionante, é incrível.