depois que o google passou 7 anos trabalhando no projeto de pouso na lua e fracassou, ceo da alphabet: as máquinas precisam ser como os humanos?

2024-09-16

hans peter brondmo, ex-ceo da alphabet. em 2016, ingressou no google e foi responsável pelo desenvolvimento de robôs. naquela época, as coisas mais populares eram as redes sociais e a internet móvel. a inteligência incorporada era como um castelo no ar: todos ansiavam por isso, mas estava muito longe.

até mesmo o próprio brondmo, a tarefa quando ingressou não era um grande projeto, mas porque o google havia adquirido 9 empresas de robótica uma após a outra, e ele teve que arranjar o pessoal e a tecnologia dessas empresas.

esses engenheiros robôs foram eventualmente integrados ao laboratório google x, conhecido como “moon landing factory”.

a "moon landing factory" está profundamente envolvida no campo da robótica há sete anos. mais tarde, com o surgimento de grandes modelos de linguagem, o futuro da inteligência incorporada nunca foi tão deslumbrante. no entanto, o google decidiu encerrar o projeto everyday robots. , que tinha grandes esperanças neste laboratório.

recentemente, brondmo escreveu um longo artigo para a revista “wired”, revendo sua trajetória no google e uma questão que vem refletindo há muito tempo: as máquinas têm que ser como “pessoas”?

a seguir está o leia-me do brondmo, compilado e resumido.

os robôs são difíceis, difíceis de “pousar na lua”

google

nós nos esforçamos muito para incentivar nossos membros a assumir riscos, experimentar rapidamente e até mesmo “celebrar o fracasso” porqueo fracasso significa apenas que as metas que estabelecemos são extremamente elevadas.

quando entrei, o laboratório já estava incubando waymo, google glass e outros projetos que pareciam ficção científica, como moinhos de vento e balões voadores que alcançariam a estratosfera para levar a internet a áreas carentes.

o que diferencia o project x de outras startups do vale do silício é que os membros do x são incentivados a pensar grande e a longo prazo. na verdade, para que um projeto seja considerado lunar, x tem um conjunto de “fórmulas” para julgá-lo.

primeiro, o projecto precisa de demonstrar que o problema que resolve afecta centenas de milhões ou mesmo milhares de milhões de pessoas. em segundo lugar, deve haver uma tecnologia inovadora que nos proporcione novas formas de resolver problemas. finalmente, é necessário que haja uma solução radical de negócio ou produto que possa parecer à beira da loucura, mas não completamente inviável.

dê um “corpo” à ia

é difícil imaginar alguém mais adequado para comandar o x do que astro teller, cujo título era literalmente “capitão do moonshot”. dentro do prédio do google x – uma loja de departamentos convertida de três andares – você sempre pode encontrar astro usando seus patins exclusivos.

adicione seu rabo de cavalo, sorriso sempre amigável e, claro, o nome “astro”, e você pode se sentir como se tivesse entrado na série da hbo “silicon valley”.

quando astro e eu nos sentamos para discutir o que deveríamos fazer em relação à empresa de robótica adquirida pelo google, concordamos que deveríamos agir, mas o que?

até agora, os robôs mais úteis eram grandes, pouco inteligentes e perigosos, confinados a fábricas e armazéns e obrigados a ser supervisionados de perto ou trancados para proteger as pessoas de perigos.como podemos criar robôs que sejam úteis e seguros nos ambientes cotidianos?isto requer uma nova abordagem.

em outras palavras, estamos dando à ia um corpo no mundo físico, e se há um lugar onde um projeto dessa escala pode ser concebido, tenho certeza que é x.

vai levar muito tempo, muita paciência, tentar ideias malucas e falhar em muitas tentativas,serão necessários grandes avanços em ia e robótica, provavelmente custando bilhões de dólares (sim, bilhões).

a convergência da ia e da robótica é inevitável e sentimos que muitas coisas que até agora só existiam na ficção científica estão prestes a tornar-se realidade.

é muito difícil

quase todas as semanas, converso com minha mãe ao telefone, e ela sempre começa com a mesma pergunta: “quando chegam os robôs?”

ela nem diz olá, só quer saber quando nosso robô virá ajudá-la. eu respondia: “vai demorar um pouco, mãe”, e ela dizia: “é melhor eles se apressarem!”

hans peter brondmo

a minha mãe vive em oslo, na noruega, onde existem excelentes cuidados de saúde pública que vão ao seu apartamento três vezes por dia para a ajudar numa série de tarefas e tarefas domésticas, principalmente relacionadas com a sua doença de parkinson avançada.

embora esses cuidadores lhe permitissem viver sozinha em sua própria casa, minha mãe queria que o robô a ajudasse com as pequenas coisas que agora eram muito embaraçosas de manusear, ou apenas que lhe fornecesse um braço para se apoiar de vez em quando.

“você sabe que a robótica é um problema sistêmico, certo?” jeff me perguntou com um olhar indagador. jeff bingham é um cara enxuto e sensato, com doutorado em bioengenharia. ele cresceu em uma fazenda e era conhecido por saber quase tudo.

um ponto importante que jeff está tentando enfatizar é:um robô é um sistema muito complexo e seu desempenho geral é tão bom quanto seu elo mais fraco。

por exemplo, se o subsistema responsável pela visão tiver dificuldade em detectar objetos à sua frente sob a luz solar direta, o robô pode “ficar cego” repentinamente e parar de funcionar quando a luz solar brilha através da janela.

ou, se o sistema de navegação não compreender escadas, o robô pode cair da escada, ferindo-se e possivelmente ferindo pessoas inocentes. como tal, é difícil construir um robô que possa viver e trabalhar ao nosso lado. realmente, muito difícil.

durante décadas, as pessoas tentaram programar vários tipos de robôs para realizar tarefas até mesmo simples, como pegar um copo na mesa ou abrir uma porta, mas esses programas sempre acabaram sendo extremamente frágeis à menor mudança no ambiente. falhará.

uma vez que você começa a pensar sobre tudo isso, você percebe que, a menos que você bloqueie tudo de forma que fique em uma posição fixa e predefinida, e a luz esteja correta e nunca mude, é apenas uma questão de pegar uma maçã verde, colocar em uma tigela de vidro na mesa da cozinha, torna-se um quebra-cabeça quase impossível de resolver - e é por isso que os robôs nas fábricas são trancados e tudo, desde a iluminação até a colocação dos itens em que trabalham, é previsivelmente solucionável, eles não precisam. preocupe-se em esbarrar nas pessoas.

o mundo real carece de previsibilidade, como aquele raio de sol.e nem sequer tocámos nas partes realmente difíceis, como deslocar-nos pelos espaços desordenados em que vivemos e trabalhamos.

como entender os robôs de aprendizagem

mas, aparentemente, você só precisa de 17 especialistas em aprendizado de máquina.

pelo menos foi isso que larry page me contou, um de seus insights clássicos e difíceis de entender.

estou tentando argumentar que não podemos construir infraestrutura de hardware e software com apenas um pequeno grupo de pesquisadores de aprendizado de máquina.

ele acenou com a mão em desaprovação e disse: “você só precisa de 17”.

estou confuso. por que não 11? ou 23? devo ter perdido alguma coisa.

em última análise, existem duas maneiras principais de aplicar ia na robótica. a primeira é uma abordagem híbrida, onde diferentes partes do sistema são conduzidas pela ia e depois unidas por meio de programação.

nesta abordagem, o subsistema de visão pode usar ia para identificar e classificar o mundo que vê. depois de criar uma lista dos objetos que vê, o robô recebe a lista e usa métodos no código para agir sobre ela.

por exemplo, se o programa for escrito para pegar a maçã da mesa, o sistema de visão baseado em ia detectará a maçã e o programa selecionará "tipo: apple" na lista e, em seguida, usará o software de controle para perguntar o robô para alcançá-lo.

outra abordagem é a aprendizagem ponta a ponta (e2e), que tenta aprender toda a tarefa. coisas como “pegar um objeto” ou esforços ainda mais abrangentes como “arrumar a mesa”. o processo de aprendizagem é alcançado expondo o robô a grandes quantidades de dados de treinamento – muito parecido com o modo como os humanos aprendem a realizar uma tarefa física.

se você pedir a uma criança que pegue um copo, ela pode precisar aprender o que é um copo e que pode conter líquido. enquanto brincava com o copo, ele o derrubava diversas vezes, derramando muito leite no processo. mas através da modelagem, da imitação de outras pessoas e de muita prática lúdica, eles sempre podem aprender a fazer isso – eventualmente, mesmo sem pensar nos passos.

eu gradualmente entendi,a menos que provemos que os robôs podem aprender a executar tarefas de ponta a ponta, nada mais terá importância.só então teremos uma chance real de que os robôs executem essas tarefas de maneira confiável no mundo real caótico e imprevisível, qualificando-nos para sermos verdadeiramente lunares.

não se trata do número “17”, trata-segrandes avanços exigem equipes pequenas, em vez de um exército de engenheiros. obviamente, um robô é mais do que seu cérebro de ia, ainda precisamos projetar e construir um robô físico.

no entanto, é claro que uma missão completa bem-sucedida nos levaria a acreditar (na linguagem do programa de pouso na lua) que podemos escapar da gravidade da terra.

robô de um braço

peter pastor é um roboticista alemão que obteve seu doutorado em robótica pela university of southern california. nos raros momentos em que não precisa trabalhar, peter tenta conversar com a namorada e praticar kitesurf. no laboratório, ele passou a maior parte do tempo controlando 14 braços robóticos proprietários, que mais tarde foram substituídos por sete braços robóticos industriais kuka. chamamos essa configuração de "mecânica".

esses braços robóticos operam 24 horas por dia, tentando constantemente recuperar objetos de uma caixa, como esponjas, peças de lego, patinhos amarelos ou bananas de plástico. inicialmente, eles foram programados para mover uma pinça em forma de garra para dentro da caixa a partir de uma posição aleatória acima dela, fechar a pinça, puxar para cima e ver se pegavam alguma coisa. há uma câmera acima da caixa que captura os objetos dentro da caixa, os movimentos do braço robótico e se houve sucesso.

este treinamento continuou por vários meses. no início, o robô tinha apenas 7% de sucesso. mas sempre que o robô tem sucesso, recebe reforço positivo. para os robôs, isso significa basicamente que os chamados “pesos” na rede neural são ajustados com base em vários resultados para reforçar positivamente os comportamentos desejados e reforçar negativamente os comportamentos indesejáveis. eventualmente, os braços aprenderam a agarrar objetos com sucesso em mais de 70% das vezes.

um dia, peter me mostrou um vídeo de um braço robótico não apenas agarrando com precisão uma peça amarela de lego, mas também empurrando outros objetos para obter um ângulo de apreensão mais claro.

eu sabia que isto marcava um verdadeiro ponto de viragem: o braço robótico não estava explicitamente programado para realizar esta ação utilizando heurísticas tradicionais.é adquirido através do aprendizado。

mas mesmo assim - sete robôs levaram vários meses para aprender como pegar um patinho amarelo? isto está longe de ser suficiente. mesmo centenas de robôs e vários anos de prática não são suficientes para ensiná-los a realizar suas primeiras tarefas úteis no mundo real. por isso, construímos um simulador baseado em nuvem e criamos mais de 240 milhões de instâncias de robôs virtuais em 2021.

pense neste simulador como um videogame gigante, com um modelo físico realista o suficiente para simular o peso de objetos ou o atrito da superfície.

milhares de robôs virtuais usam imagens de câmeras virtuais e corpos virtuais (modelados a partir de robôs reais) para realizar tarefas, como pegar uma xícara na mesa.

eles rodariam simultaneamente, tentando e falhando milhões de vezes, coletando dados para treinar os algoritmos de ia. uma vez que os robôs tenham um bom desempenho nas simulações, esses algoritmos são transferidos para robôs físicos para treinamento final no mundo real, para que possam implementar as ações recém-aprendidas.

sempre penso nesse processo de simulação como um robô sonhando a noite toda e depois acordando tendo aprendido algo novo.

tolo, o problema são os dados

quando acordamos no chatgpt, parecia mágica. um sistema alimentado por ia pode realmente escrever parágrafos completos, responder a perguntas complexas e formar conversas contínuas. mas, ao mesmo tempo, também compreendemos as suas limitações fundamentais: para conseguir isso, precisamos de consumir muitos dados.

os robôs já estão aproveitando grandes modelos de linguagem para entender instruções e modelos visuais para entender o que veem, o que faz com que seus vídeos de demonstração no youtube pareçam incríveis.

mas ensinar os robôs a viver e trabalhar connosco de forma autónoma é um problema de dados igualmente enorme. embora existam treinamento de simulação e outras formas de gerar dados de treinamento,é improvável que um dia um robô “acorde” com um alto grau de capacidade. em vez disso, ele dependerá de um modelo básico que possa controlar todo o sistema.

ainda não temos certeza de quão complexas tarefas podemos ensinar os robôs a realizar com ia. acabei de acreditar que, com exceção daquelas tarefas muito restritas e bem definidas, fazer com que os robôs aprendam qualquer coisa pode exigir milhares ou até milhões de robôs executando repetidamente tarefas no mundo real e coletando dados suficientes para treinar de ponta a ponta. modelos finais. em outras palavras, não espere que os robôs escapem do nosso controle tão cedo e façam coisas para as quais não estão programados.

eles deveriam realmente se parecer conosco?

os cavalos são muito eficientes quando andam e correm sobre quatro patas, mas projetamos carros com rodas; o cérebro humano é um computador biológico extremamente eficiente, e os computadores baseados em chips não chegam nem perto do desempenho do nosso cérebro. por que os carros não têm pernas e por que os computadores não são modelados de acordo com a nossa biologia?

o objetivo de construir um robô não deveria ser apenas imitar.

aprendi isso outro dia, quando estava em uma reunião com os líderes técnicos da everyday robots. sentamo-nos à volta da mesa de conferências, debatendo se o nosso robô deveria ter pernas ou rodas.

tais discussões tendem frequentemente a evoluir para debates religiosos, em vez de discussões científicas ou baseadas em factos. algumas pessoas insistem muito que os robôs devem parecer-se com pessoas, e por uma boa razão: projetamos os nossos ambientes de vida e de trabalho para acomodar os humanos, e temos pernas, por isso talvez os robôs também devessem ter pernas.

após cerca de 30 minutos, vincent dureau, o gerente de engenharia mais graduado na sala, falou. “pensei que, se conseguisse chegar a algum lugar, um robô deveria conseguir chegar lá”, disse ele simplesmente, sentado em sua cadeira de rodas.

a sala ficou em silêncio e a discussão terminou.

na verdade, as pernas dos robôs são complexas tanto mecânica quanto eletronicamente. eles não se movem muito rápido, tendem a tornar o robô instável e não são muito eficientes em termos energéticos em comparação com as rodas.

hoje, quando vejo empresas tentando criar robôs humanóides – robôs que se esforçam para imitar a forma e a função humana – muitas vezes me pergunto se isso é uma limitação da imaginação.

existem tantos designs para explorar que podem complementar as deficiências humanas, por que insistir em imitá-los?as palavras de vicente lembram-nos que devemos priorizar os problemas mais difíceis e impactantes.na everyday robots, tentamos manter nossos robôs o mais simples possível, porque quanto mais cedo um robô puder executar tarefas do mundo real, mais cedo poderemos coletar dados valiosos.

qual é a sensação de estar cercado por robôs?

eu estava sentado à minha mesa quando um robô de um braço só e cabeça arredondada e retangular rolou, chamou meu nome e perguntou se eu queria fazer a limpeza. eu disse que sim e fiquei de lado.

poucos minutos depois, ele pegou vários copos de papel vazios, uma xícara de chá gelado transparente da starbucks e uma embalagem plástica de uma barra energética kind. ele colocou os itens em uma bandeja de lixo presa à base, depois se virou para mim, acenou com a cabeça e foi para a próxima mesa.

este serviço de limpeza de secretárias representa um marco importante: mostra que estamos a fazer bons progressos na resolução de uma peça não resolvida do puzzle da robótica. os robôs estão começando a usar ia de forma confiável para reconhecer pessoas e objetos!

benji holson é engenheiro de software e ex-titereiro que lidera a equipe de desenvolvimento do serviço. ele sempre defendeu uma abordagem híbrida e não se opõe a tarefas de aprendizagem de ponta a ponta, mas prefere uma atitude de “deixe-os fazer algo útil agora”.

estou acostumado com robôs se movimentando fazendo tarefas como limpar minha mesa. ocasionalmente verei novos visitantes ou engenheiros que acabaram de ingressar na equipe, com expressões de surpresa e alegria no rosto, observando a figura ocupada do robô.

da perspectiva deles, percebi como tudo era novo. como disse nosso chefe de design, rhys newman (com seu sotaque galês), quando um dia viu o robô passando: "não é um pouco estranho que isso tenha se tornado a norma?"

tudo acaba, é apenas o começo

no final de 2022, as discussões sobre “ponta a ponta” e “métodos híbridos” ainda estão ativas.

peter e sua equipe, junto com nossos colegas do google brain, têm trabalhado arduamente para aplicar aprendizagem por reforço, aprendizagem por imitação e arquiteturas transformer a múltiplas tarefas robóticas. fizeram progressos significativos ao mostrar como os robôs podem aprender de uma forma geral, robusta e resiliente.

enquanto isso, a equipe de aplicativos liderada por bainji está combinando modelos de ia com programação tradicional para prototipar e construir serviços robóticos que podem ser implantados em ambientes humanos.

enquanto isso, uma colaboração com a dançarina katie em uma instalação multirobótica que ficou conhecida como projeto starling mudou a maneira como eu me sentia em relação a essas máquinas.

percebi que as pessoas eram atraídas por esses robôs com um sentimento de admiração, alegria e curiosidade. isto fez-me compreender como os robôs que se movem entre nós, e os sons que emitem, podem desencadear emoções humanas profundas. este será um dos fatores-chave para os acolhermos nas nossas vidas diárias;

por outras palavras, estamos prestes a cumprir a nossa maior aposta: robôs alimentados por ia. a ia dá-lhes a capacidade de compreender a linguagem que ouvem (falada e escrita) e traduzi-la em ações, ou de compreender o que vêem (imagens de câmara) e traduzi-la em cenas e objetos que podem manipular.

após mais de sete anos de trabalho, temos uma frota de robôs implantados em vários edifícios do google. o mesmo tipo de robô realiza uma série de serviços: limpar automaticamente as mesas do refeitório, inspecionar salas de conferência, separar o lixo e muito mais.

no entanto, em janeiro de 2023, dois meses após o openai lançar o chatgpt, o google fechou o everyday robots, citando problemas gerais de custo.

embora tenha sido realmente caro e demorado, ainda assim foi um choque para todos os envolvidos. eventualmente, o robô e alguns funcionários foram transferidos para o google deepmind para continuar a pesquisa.

o enorme problema que temos de resolver é uma mudança demográfica global – uma população envelhecida, uma força de trabalho cada vez menor e uma escassez de mão-de-obra. e a nossa tecnologia inovadora – sabíamos disso em 2016 – seria a inteligência artificial. a solução radical: robôs totalmente autônomos que podem nos ajudar nas tarefas que surgem no nosso dia a dia.

o robô não apareceu a tempo de ajudar minha mãe e ela faleceu no início de 2021. minhas conversas com ela no final de sua vida reforçaram minha crença de que versões futuras do everyday robots acabariam por chegar. e, quanto antes chegar, melhor.

portanto, a questão é: como acontece essa mudança e esse futuro? estou preocupado e curioso sobre isso.

notícias

depois que o google passou 7 anos trabalhando no projeto de pouso na lua e fracassou, ceo da alphabet: as máquinas precisam ser como os humanos?

introdução

minhas informações de contato