O modelo mundial está se aproximando novamente? Pesquisa incrível do MIT: LLM simulou o mundo real e não é mais um papagaio aleatório!

2024-08-17

Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria]Pesquisadores do MIT CSAIL descobriram que o LLM desenvolveu uma simulação da realidade "no fundo de seu coração", e a compreensão do modelo sobre a linguagem e o mundo é muito mais do que um simples "papagaio". Em outras palavras, no futuro, o LLM compreenderá a linguagem mais profundamente do que hoje.

A que distância está o LLM do modelo mundial?

No ano passado, um artigo do MIT chegou a uma conclusão surpreendente: dentro do LLM existe um modelo mundial.

O LLM não apenas aprende estatísticas de superfície, mas também aprende um modelo mundial, incluindo latitudes básicas, como espaço e tempo.

Além disso, o MIT descobriu recentemente que nas profundezas do LLM, desenvolveu-se uma simulação da realidade e a sua compreensão da linguagem foi muito além da simples imitação!

Endereço do artigo: https://arxiv.org/abs/2305.11169

Especificamente, dois estudiosos do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT descobriram que—

Embora o LLM seja treinado para aprender uma linguagem de programação usando apenas o objetivo de "prever o próximo token", que parece incluir apenas probabilidade estatística pura, o modelo ainda pode aprender a semântica formal do programa.

Isto sugere que os modelos de linguagem podem desenvolver a sua própria compreensão da realidade como forma de melhorar as suas capacidades generativas.

Portanto, o LLM poderá um dia compreender a linguagem em um nível mais profundo do que hoje.

Este artigo foi aceito pelo ICML 2024 e o código usado no experimento foi publicado no GitHub.

Endereço do armazém: https://github.com/charlesjin/emergent-semantics

Sem olhos, o LLM não seria capaz de “ver”?

Peça ao GPT-4 para sentir o cheiro de um acampamento encharcado de chuva e ele recusará educadamente.

Mesmo assim, vai lhe dar uma descrição poética: há um aroma fresco de terra e um cheiro refrescante de chuva, com notas de pinheiro ou folhas molhadas.

O GPT-4 nunca viu chuva e não tem nariz, mas pode imitar textos que existem em grandes quantidades de dados de treinamento.

A falta de um par de olhos significa que o modelo de linguagem nunca poderá entender “um leão é maior que um gato doméstico”?

O LLM consegue entender o mundo real e vários conceitos abstratos? Ou você está apenas “papagaiando” e confiando puramente na probabilidade estatística para prever o próximo token?

O princípio de funcionamento do LLM ainda é um mistério não resolvido. Os grandes nomes do círculo de IA iniciarão um debate sobre esse assunto de tempos em tempos.

LeCun acredita firmemente que a inteligência do LLM está definitivamente superestimada! Sua afirmação mais famosa é que “um modelo de linguagem grande não é tão bom quanto um gato em casa”.

“Os gatos podem lembrar, podem compreender o mundo físico, podem planejar ações complexas e podem raciocinar até certo ponto. Isso é realmente melhor do que os modelos maiores. Isso significa que temos lacunas importantes no nível conceitual e não podemos fazer. máquinas como animais. Tão inteligentes quanto os humanos."

Muitas pessoas explicam isso como um fenômeno puramente estatístico. Ele está apenas "papagaiando" e imitando o texto que existe em uma grande quantidade de corpus de treinamento. Ele não possui o mesmo nível de inteligência ou percepção dos humanos.

Mas agora, a investigação do MIT prova que este não é o caso!

Dentro do LLM, há definitivamente uma compreensão do mundo real.

LLM decifra o quebra-cabeça de Karel, o que isso significa

Para explorar este mistério, pesquisadores do MIT CSAIL desenvolveram um conjunto de pequenos quebra-cabeças Karel.

Uma breve introdução ao que é o quebra-cabeça de Karel?

Isso inclui fazer com que o modelo use instruções para controlar as ações do robô em um ambiente simulado.

Especificação gramatical de Karel

Eles então treinam o LLM para aprender uma solução específica sem demonstrar como ela funciona.

Por fim, o autor propõe uma técnica de aprendizado de máquina chamada “sondagem” para obter uma compreensão aprofundada do “processo de pensamento” quando o modelo gera novas soluções.

O pesquisador constrói exemplos de treinamento amostrando um programa de referência aleatório, depois amostra 5 entradas aleatórias e executa o programa para obter as 5 saídas correspondentes. O LM é treinado para a previsão do próximo token em um corpus de exemplos que consiste em entradas e saídas intercaladas, seguido pelo procedimento de referência. No momento do teste, os pesquisadores fornecem ao LM especificações de entrada e saída invisíveis e usam decodificação gananciosa para prever o programa.

Depois de treinar em mais de 1 milhão de quebra-cabeças aleatórios, os pesquisadores descobriram que o modelo formou espontaneamente um conceito do ambiente simulado subjacente! Embora não tenham sido expostos a essas informações durante o treinamento.

Este resultado não apenas desafia a nossa impressão inerente do LLM, mas também questiona a nossa compreensão da natureza do processo de pensamento——

Que tipos de informações são necessárias no processo de aprendizagem da semântica?

No início do experimento, as instruções aleatórias geradas pelo modelo eram quase impossíveis de serem executadas, mas quando o treinamento foi concluído, a precisão das instruções atingiu 92,4%.

Jin, o primeiro autor do artigo, disse: “Este é um momento muito emocionante porque pensamos que se o modelo de linguagem puder completar a tarefa com essa precisão, também esperamos que ele possa compreender o significado da linguagem”.

"Isso nos deu um ponto de partida para explorar se o LLM pode realmente entender o texto, e agora vemos que o modelo é capaz de muito mais do que unir palavras cegamente."

Abra o cérebro do LLM

Durante este experimento, Jin testemunhou esse progresso em primeira mão.

Por que o LLM acha que essas instruções significam isso?

Ele descobriu que o LLM havia desenvolvido sua própria simulação interna de como o robô se moveria em resposta a cada comando.

À medida que a capacidade do modelo de resolver problemas difíceis aumenta cada vez mais, esses conceitos tornam-se cada vez mais precisos, o que mostra que o LM começa a compreender as instruções.

Em pouco tempo, o LLM estava consistentemente juntando as peças corretamente em instruções de trabalho.

Conteúdo semântico medido por diferentes classificadores de sonda (verde)

sonda de pensamento

A principal contribuição para as descobertas acima mencionadas é uma “sonda pensante”.

Esta é uma ferramenta eficaz para intervir no processo de pensamento do LLM. O artigo chama isso de “sondagem”.

Especificamente, o estado do LM contém registros puramente sintáticos da entrada e dos programas gerados, mas a sonda parece ser capaz de aprender a compreender as interpretações abstratas.

No experimento real, o autor primeiro construiu o conjunto de dados de rastreamento de estado do LLM e, em seguida, usou métodos de aprendizado supervisionado padrão para treinar um pequeno modelo como uma sonda, como um classificador linear ou um MLP de 2 camadas.

Conteúdo semântico do estado atual e dos próximos dois estados abstratos na segunda metade do treinamento (MLP de 1 camada)

No entanto, uma questão importante é que a sonda deve ser separada do processo de pensamento real do modelo ou das instruções geradas.

Embora o único propósito da sonda seja “entrar no cérebro do LLM”, e se ela também refletir sobre o modelo?

O que os pesquisadores precisam garantir é que o LLM possa compreender as instruções independentemente da sonda, em vez de fazer com que a sonda infira as ações do robô com base na compreensão da sintaxe do LLM.

Imagine que há um monte de dados codificando o processo de pensamento do LLM, onde o papel da sonda é como o de um analista forense.

Entregamos essa pilha de dados ao analista e dissemos a ele: “Este é o movimento do robô. Tente descobrir como o robô se move nessa pilha de dados. O analista disse que conhecia o robô nesta pilha de dados”. . O que está acontecendo.

Mas e se essa pilha de dados apenas codificar instruções brutas e os analistas descobrirem uma maneira inteligente de extrair as instruções e agir de acordo com elas?

Neste caso, o LLM realmente não entende o significado destas instruções.

Para isso, os pesquisadores fizeram um design engenhoso: criaram um “mundo estranho” para o modelo.

Neste mundo, o significado do comando da sonda é invertido, como "para cima" na verdade significa "para baixo".

Por exemplo, exec(turnRight,·) na semântica original fará com que o robô gire 90 graus no sentido horário, enquanto exec adversarial(turnRight,·) empurrará o robô para um espaço.

Isso garante que a sonda não seja "oportunista" e aprenda e compreenda diretamente como o LLM codifica as instruções.

Um autor Jin apresentou desta forma——

Se a sonda traduzir instruções para a localização do robô, ela deverá ser igualmente capaz de traduzir instruções com significado estranho.

Mas se a sonda estiver realmente procurando a codificação dos movimentos originais do robô no processo de pensamento do modelo de linguagem, então deverá ter dificuldade em extrair os estranhos movimentos do robô dos processos de pensamento originais.

Verificou-se que a sonda apresentava erros de tradução e não conseguia interpretar modelos de linguagem com diferentes significados de instrução.

Isto significa que a semântica original está incorporada no modelo de linguagem, indicando que o LLM é capaz de compreender as instruções necessárias independentemente do classificador de detecção original.

A primeira metade descreve como as duas condições resultaram em alto conteúdo semântico das medidas antes da intervenção. A parte inferior mostra por que as duas hipóteses estão separadas: se a representação LM contém apenas gramática (canto inferior esquerdo), então deve ser possível treinar a sonda alt para aprender a interpretar registros em termos do estado alternativo prog (resultado em negrito vermelho) ; no entanto, se a representação LM contiver a codificação do estado abstrato original (canto inferior direito), a detecção de alt exigirá a extração do estado alternativo 'prog' do estado original prog, resultando em conteúdo semântico mais baixo (resultado em negrito e cinza)

LLM entende a linguagem, como uma criança

Curiosamente, Jin descobriu que a compreensão da linguagem do LLM se desenvolve em etapas, assim como as crianças aprendem uma língua em várias etapas.

No início ele balbuciará como um bebê, suas palavras serão repetitivas e a maioria delas difíceis de entender.

O LLM então começa a pegar as regras gramaticais ou linguísticas para poder gerar instruções que parecem soluções reais, mas ainda assim não funcionam.

No entanto, as instruções do LLM irão melhorar gradualmente.

Uma vez que o modelo adquire significado, ele começa a gerar instruções para a implementação correta da especificação necessária, de forma semelhante a uma criança construindo sentenças.

Os resultados são mostrados na Figura 2. Pode-se observar que a compreensão da linguagem pelo LLM é dividida em três estágios, assim como as crianças que aprendem a linguagem.

Balbucio (parte cinza): ocupa cerca de 50% de todo o processo de treinamento, gera programas altamente repetitivos e a precisão é estável em torno de 10%
Aquisição de sintaxe (parte laranja): 50% a 75% do processo de treinamento, a diversidade de resultados gerados aumenta acentuadamente, os atributos sintáticos mudam significativamente e o modelo começa a modelar o token do programa, mas a precisão da geração é A a melhoria não é óbvia
Aquisição semântica (parte amarela): 75% do processo de treinamento termina, a diversidade permanece quase inalterada, mas a precisão da geração aumenta significativamente, indicando o surgimento da compreensão semântica

O experimento utilizou três arquiteturas de sonda diferentes para comparação, nomeadamente classificador linear, MLP de camada única e MLP de 2 camadas.

Ao prever 2 passos à frente, o valor absoluto da precisão da previsão MLP de 2 camadas é maior do que o modelo de linha de base previsto com o estado atual. Pode ser possível especular que antes do LLM gerar instruções, seu processo de pensamento e a “intenção” de gerar instruções foram armazenados dentro do modelo.

LLM = modelo mundial?

Este estudo explica como o LLM pensa sobre o significado de cada instrução nos dados de treinamento e simula a resposta do robô às instruções em seu estado interno.

Tudo isto aponta para uma questão central na investigação actual em IA - as capacidades surpreendentes dos LLMs são simplesmente devidas a correlações estatísticas em grande escala, ou resultam numa compreensão significativa da sua realidade?

A pesquisa mostra que o LLM desenvolveu um modelo interno que simulava a realidade, embora nunca tenha sido treinado para desenvolver esse modelo.

Além disso, os modelos linguísticos podem aprofundar ainda mais a compreensão da linguagem.

No entanto, um artigo por si só não pode responder completamente a esta questão.

O autor Jin também admitiu que esta pesquisa tem algumas limitações: eles usaram apenas uma linguagem de programação Karel muito simples e uma arquitetura de modelo de sonda muito simples.

Os trabalhos futuros centrar-se-ão em ambientes experimentais mais gerais e também farão pleno uso dos conhecimentos sobre o "processo de pensamento" do LLM para melhorar os métodos de formação.

Rinard, outro autor deste artigo, disse: "Uma questão em aberto interessante é: ao resolver problemas de navegação de robôs, o LLM está usando um modelo de realidade interna para raciocinar sobre a realidade?"

Embora os resultados apresentados no artigo possam apoiar esta conclusão, o experimento não foi concebido para responder a esta questão.

Ellie Pavlick, professora assistente do Departamento de Ciência da Computação e Linguística da Brown University, elogiou muito a pesquisa.

Ela disse que compreender como funciona o LLM nos permite ter expectativas mais razoáveis sobre as possibilidades e limitações inerentes a esta tecnologia. Este estudo explora exatamente essa questão em um ambiente controlado.

O código de computador, assim como a linguagem natural, possui sintaxe e semântica, mas, diferentemente da linguagem natural, a semântica do código é mais intuitiva e pode ser controlada diretamente de acordo com as necessidades experimentais;

"O desenho experimental é elegante e as suas descobertas são promissoras, sugerindo que talvez o LLM possa fornecer uma compreensão mais profunda do 'significado' da linguagem."

Introdução do autor

O primeiro autor deste artigo, Charles Jin, é doutorando no Departamento EECS e no Laboratório CSAIL do MIT. Seu supervisor, Martin Rinard, é outro autor deste artigo. Sua pesquisa se concentra principalmente em aprendizado de máquina robusto e síntese de programas.

Jin se formou na Universidade de Yale com bacharelado e mestrado em ciência da computação e matemática. Ele já trabalhou como analista na Weiss Asset Management e como estagiário de pesquisa no Google Brain durante seu doutorado.

Referências:

https://the-decoder.com/training-language-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814

notícias

O modelo mundial está se aproximando novamente? Pesquisa incrível do MIT: LLM simulou o mundo real e não é mais um papagaio aleatório!

Introdução

Minhas informações de contato