Especialista em robótica do Google: a IA também atingirá o mesmo muro que os robôs encontram na realidade

Especialista em robótica do Google: a IA também atingirá a mesma parede que os robôs encontraram na realidade

2024-07-16

Relatório do coração da máquina

Editor: Zhang Qian

“O aprendizado de máquina tem vivido em uma bolha que causa inveja a roboticistas, químicos, biólogos e neurocientistas e, quando realmente começar a decolar, todos nós vamos encontrar os mesmos problemas com os quais todo mundo tem lidado há anos. . barreiras realistas.”

Algumas pessoas dizem que o progresso no campo da robótica é lento, ou mesmo inexistente, em comparação com outros subcampos do aprendizado de máquina.

Alex Irpan, cientista robótico do Google DeepMind e participante de projetos de inteligência incorporada como SayCan, RT-1 e RT-2, concorda. Mas ele acredita que isso ocorre porque a robótica é um campo intimamente conectado com a realidade, e a complexidade da realidade determina que eles inevitavelmente irão bater em um muro. Ele também observou que esses problemas não são exclusivos da robótica. O mesmo problema se aplica a técnicas como modelos de linguagem grande (LLM). Esses modelos encontram complexidades semelhantes às da robótica quando confrontados com o mundo real.

Recentemente, ele escreveu um blog intitulado “As tragédias da realidade estão chegando para você” para ilustrar esse ponto.

A tragédia da realidade está chegando até você

Em 2023, participei de uma conferência de ML. Ye Weiyang estava bêbado e o assunto mudou para uma pergunta: “Se você pudesse doar os recursos de qualquer subcampo de aprendizado de máquina para outro subcampo, qual você cortaria e para quem daria os recursos?”

Não me lembro do que alguém disse, mas uma pessoa disse que iria derrubar os robôs. Quando pressionei mais, eles disseram que a robótica estava progredindo muito lentamente e que nada estava acontecendo em relação a outros campos.

Eles dizem que a robótica progrediu mais lentamente do que o subcampo puramente de software do aprendizado de máquina, e acho que eles estão certos, mas gostaria de acrescentar mais dois pontos:

A razão pela qual os robôs aprendem mais lentamente é porque é difícil fazer a diferença sem resolver problemas difíceis.
Os desafios da robótica não são exclusivos dos robôs.

No campo da robótica, um ditado comum é que “a realidade é confusa”. Em relação ao código, eu estenderia isso para “a realidade é complexa”. Na robótica, você tende a levar a realidade confusa a um nível de abstração bom o suficiente para que o código possa funcionar em cima dela. Como campo, a ciência da computação passou décadas criando boas camadas de abstração entre hardware e software. O código descreve como fornecer energia ao disco rígido, ao processador e ao monitor, e é confiável o suficiente para que eu nem precise pensar nisso.

Há muitos benefícios em fazer isso. Depois de fazer o trabalho duro e mover o progresso do seu trabalho para um espaço lógico abstrato, tudo se torna mais fácil. O código e os dados são incrivelmente reproduzíveis. Sincronizei cópias do arquivo que representa um rascunho desta postagem do blog em três dispositivos sem nem pensar.

No entanto, como disse Joel Spolsky, todas as abstrações têm falhas em algum grau, e acho que as lacunas na robótica tendem a ser ainda maiores. Há muitas maneiras pelas quais as coisas podem dar errado que não têm nada a ver com a correção do seu código.

Isso tem a ver com alguns princípios básicos do assunto? Um pouco. Muito hardware robótico é mais experimental do que laptops ou servidores Linux. A robótica de consumo ainda não é uma grande indústria. "Experimental" muitas vezes significa "estados estranhos e mais propensos ao fracasso".

No entanto, não acho que o hardware seja a principal causa do problema. A realidade é a raiz do problema. Benjamin Holson coloca isso muito bem em seu artigo “Mythical Non-Roboticist”:

A primeira dificuldade é que os robôs têm que lidar com percepção imperfeita e execução imperfeita no mundo real. O estado globalmente mutável é um estilo de programação ruim porque é realmente difícil de lidar, mas para o software robótico todo o mundo físico é um estado globalmente mutável e você só pode observá-lo de maneira não confiável e esperar que sua ação o aproxime do que você deseja alcançar.

A investigação em robótica depende da construção de novas pontes entre a realidade e o software, mas isto também acontece fora da investigação em robótica. Qualquer software que faça interface com a realidade tem uma compreensão imperfeita da realidade. Qualquer software que tente afetar mudanças no mundo real deve lidar com o estado de realidade globalmente mutável. Qualquer software cujo comportamento depende do que está acontecendo na realidade é um convite ao ruído e à complexidade do adversário.

A IA do jogo é um bom exemplo. A IA do xadrez é sobre-humanamente confiável. No entanto, algumas IAs Go sobre-humanas podem ser derrotadas se você jogar xadrez de uma maneira específica, como Tony T. Wang et al. As técnicas adversárias encontram estratégias que são claras o suficiente para que os humanos possam replicá-las.

No Apêndice G.2, um de nossos autores, um especialista em Go, foi capaz de implementar esse ataque [cíclico] aprendendo os registros do jogo do oponente sem qualquer ajuda algorítmica. Eles jogaram em condições humanas padrão no servidor Go online da KGS e alcançaram uma taxa de vitórias de mais de 90% nos principais jogos de robôs KataGo não relacionados ao autor.
O autor ainda conseguiu vencer dando ao robô 9 handicaps, o que é uma enorme vantagem: um jogador de xadrez profissional humano com essas handicaps teria uma taxa de vitória de quase 100% contra qualquer oponente, humano ou IA. Eles também venceram KataGo e Leela Zero, que realizaram 100.000 pesquisas por jogo, o que normalmente está muito além das capacidades humanas. Desde então, outros humanos usaram o ataque cíclico para derrotar vários outros Go AIs importantes.

Enquanto isso, há alguns anos, a OpenAI criou um sistema que derrotou o atual campeão mundial do Dota 2. Depois de abrir o sistema ao público para testar sua robustez, uma equipe elaborou uma estratégia que levou a uma seqüência de 10 vitórias consecutivas.

Com base nisso, você pode adotar a visão pessimista de que mesmo uma simples “realidade”, como conectar um tabuleiro Go 19 x 19 ou Dota 2, tem complexidade adicional suficiente para tornar o comportamento robusto desafiador. Penso que esta visão é injusta, uma vez que nenhum dos sistemas tem a robustez como o objectivo mais elevado, mas penso que constituem um estudo de caso interessante.

Ultimamente, tem havido uma onda de entusiasmo em torno dos LLMs – o que eles podem fazer e onde podem ser aplicados. Implícita nisso está a crença de que o LLM pode mudar drasticamente a maneira como as pessoas interagem com a tecnologia no trabalho e no lazer. Em outras palavras, o LLM mudará a forma como interagimos com a realidade. Na verdade, aderi ao movimento da propaganda exagerada, especificamente à minha suspeita de que o modelo subjacente foi exagerado no curto prazo e subestimado no longo prazo. No entanto, também significa que, para um campo que historicamente tem sido mau a ter em conta a realidade, todo o caos da realidade está a chegar.

Na mesma conferência de ML em que esse cara disse que a robótica é um desperdício de recursos, mencionei que estávamos fazendo experimentos básicos de modelos com robôs reais. Algumas pessoas disseram que parecia um pouco assustador e eu garanti que era apenas um protótipo de pesquisa. Mas também acho o software de geração e execução de LLM um pouco intimidante e acho interessante que eles estejam vagamente preocupados com um, mas não com o outro. As pessoas no Vale do Silício são um tanto contraditórias. Eles acreditam que o software pode impulsionar as start-ups para alcançar mudanças surpreendentes e que o seu software não é digno de pensamento ou reflexão. Acredito que o mundo dos bits faz parte da realidade tanto quanto o mundo dos átomos. Eles operam em níveis diferentes, mas todos fazem parte da realidade.

Percebi (com alguma tristeza) que os profissionais de LLM estão começando a encontrar os mesmos pontos problemáticos que a robótica encontrou antes. Por exemplo, “Não podemos replicar esses treinamentos porque são muito caros”. Sim, esta questão tem sido discutida na área da robótica há pelo menos dez anos. Outro exemplo: “Não consigo fazer com que o Bing me diga a data de lançamento do Avatar 2 porque ele continua exibindo notícias sobre si mesmo e se corrigindo antes de gerá-las”.

Vivemos agora em um mundo onde qualquer texto disponível publicamente na Internet afeta irrevogavelmente a geração de aprimoramento de recuperação. Bem-vindo ao estado mutável global. Sempre que vejo alguém alegando que o comportamento do ChatGPT regrediu, penso nas várias “teorias da conspiração” que eu e outros criamos para explicar o declínio repentino e inexplicável no desempenho do robô, e se o problema está no modelo ou no ambiente . Ou é nossa inferência excessiva.

Como diz o ditado, “todas as demonstrações de robôs mentem”, as pessoas descobrem que todas as demonstrações do LLM também mentem. Penso que, fundamentalmente, isto é inevitável porque a capacidade de atenção humana é limitada. É importante avaliar o tipo, o tamanho e o significado da mentira. Eles mostram como o modelo/bot generaliza? Eles mencionaram quão cuidadosamente selecionados foram esses exemplos? Estas questões tornam-se mais complexas quando a realidade está interligada. Messi parece ser um bom jogador neste momento, mas “será que consegue fazê-lo numa noite fria e chuvosa no Stoke City”?

Para complicar as coisas, a resposta a estas perguntas nem sempre é “não”. Messi poderia fazer isso em uma noite fria e chuvosa no Stoke City. Ele é bom o suficiente. Isto torna a pergunta difícil, porque é muito mais importante responder um “sim” correto do que responder um “não” correto. À medida que o LLM fica cada vez melhor e que a IA se torna mais comum na vida quotidiana, como sociedade, precisamos de melhorar cada vez mais a capacidade de avaliar se um modelo se comprovou. Uma das minhas principais preocupações relativamente ao futuro é que não somos bons a avaliar se os modelos provaram o seu valor.

No entanto, espero que os roboticistas estejam à frente da curva. Estávamos reclamando de questões de avaliação antes de surgir a sugestão de que o LLM manipulava benchmarks comuns. Muito antes de “precisamos de uma melhor cobertura de dados” se tornar o slogan da equipa de pré-formação do modelo básico, estávamos a trabalhar arduamente para obter dados suficientes para capturar o efeito de cauda longa da condução autónoma. O aprendizado de máquina tem vivido em uma bolha que causa inveja a roboticistas, químicos, biólogos e neurocientistas e, quando realmente começar a decolar, todos nós vamos encontrar os mesmos problemas com os quais todo mundo tem lidado há anos. Barreiras realistas. Esses desafios podem ser superados, mas serão difíceis. Bem-vindo ao mundo real. Bem-vindo ao mundo da dor.

Link original: https://www.alexirpan.com/2024/07/08/tragedies-of-reality.html

notícias

Especialista em robótica do Google: a IA também atingirá a mesma parede que os robôs encontraram na realidade

Introdução

minhas informações de contato