notícias

Vamos falar sobre como pensar em grandes modelos com o cientista de aprendizagem profunda Yann LeCun

2024-08-09

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Com o avanço e a popularidade da tecnologia generativa de IA nos últimos dois anos, o uso de grandes modelos para gerar conteúdo tornou-se gradualmente parte da vida das pessoas comuns. Este processo parece fácil: quando inserimos uma instrução, o modelo grande pode gerar a resposta diretamente para nós. No entanto, nos bastidores, ninguém conhece os princípios de funcionamento interno e o processo de tomada de decisão do modelo. Esta é a conhecida "caixa preta de aprendizado de máquina".

Devido à inexplicabilidade dos modelos de caixa preta, a segurança da IA ​​sempre foi questionada. Assim, os cientistas começaram a tentar abrir a caixa preta dos grandes modelos, que na indústria é chamada de "pesquisa de caixa branca". Por um lado, o estudo dos modelos de caixa branca pode ajudar as pessoas a compreender os modelos de caixa preta, otimizando assim modelos grandes e melhorando a eficiência. Por outro lado, o objectivo da investigação de caixa branca é empurrar a IA, uma disciplina de engenharia, para a ciência.

Desta vez, convidamosChen Yubei, professor assistente, Departamento de Engenharia Elétrica e de Computação, Universidade da Califórnia, Davis, o conteúdo de sua pesquisa está relacionado ao “modelo caixa branca”. Além disso, ele também é pós-doutorado de Yann LeCun, vencedor do Prêmio Turing e cientista-chefe da Meta. Neste episódio, ele conversou conosco sobre o mais recente progresso da pesquisa de modelos de caixa branca e também compartilhou conosco Yann LeCun, um cientista que ele conhece e que experimentou os altos e baixos da indústria de IA, mas permanece puramente focado .

Gráfico por Violet Dashi. Ilustrações por Nadia e Simple Line

A seguir estão entrevistas selecionadas

01 Cérebro humano e grande modelo

"Vale do Silício 101":Você pode primeiro apresentar brevemente a pesquisa do “modelo caixa branca” que está fazendo? Durante sua pesquisa, você descobriu como explicar os problemas de entrada e saída do GPT?

Chen Yubei:Na verdade, um objectivo relativamente grande nesta direcção é promover a aprendizagem profunda de um assunto puramente empírico para um assunto científico, ou transformar a engenharia em ciência, porque actualmente a engenharia está a desenvolver-se de forma relativamente rápida, mas a ciência é relativamente lenta. Costumava haver um modelo chamado incorporação de palavras, que poderia aprender algumas representações da linguagem.

Na verdade, todos tinham uma pergunta naquele momento: nosso desempenho nas tarefas melhorou, mas o que exatamente fez com que esse desempenho melhorasse? Então fizemos um trabalho bem inicial naquela época, que era tentar abrir essas representações das palavras. Ao abri-lo, você encontrará alguns fenômenos interessantes.

Por exemplo, se você pegar a palavra maçã, poderá encontrar alguns meta-significados nela. Por exemplo, um dos significados pode representar fruta e outro pode representar sobremesa. Se você se aprofundar, encontrará o significado de tecnologia e. produtos, o que obviamente se refere aos produtos Apple. Então você descobrirá que pode encontrar esses meta-significados ao longo de uma palavra e, então, poderá estender esse método para um grande modelo de linguagem.

Em outras palavras, depois de aprendermos um grande modelo de linguagem, podemos procurar alguns meta-significados no modelo e então tentar abri-lo. Você encontrará um grande modelo de linguagem, que na verdade possui muitas camadas.

No nível primário, aparecerá um fenômeno denominado “desambiguação de palavras”. Por exemplo, existe uma palavra em inglês chamada "esquerda". Esta palavra significa virar à esquerda e o pretérito de sair. Então, seu significado específico depende do contexto antes e depois do contexto, então a grande linguagem O modelo completa a desambiguação da palavra. nas primeiras camadas.

No médio prazo, você descobrirá que surgirão alguns novos significados. Naquela época, pensamos que uma coisa muito interessante se chamava "Conversão de Unidades". Assim que você quiser converter quilômetros em milhas, e a temperatura de Fahrenheit para Celsius, esse significado será aberto. desta forma. Muitos níveis semelhantes deste meta-significado.

À medida que você avança, você descobrirá que existe um padrão entre esses meta-significados. Esse padrão é que quando um significado repetido aparece no contexto, ele será ativado. Você pode usar este método para abrir a grande linguagem. modelos e modelos de linguagem pequena. É claro que essas ideias não são completamente novas. Na verdade, elas têm uma história em modelos visuais. Por exemplo, houve algumas explorações semelhantes desde Matthew Zeiler.

"Vale do Silício 101":Seguindo essa linha de pensamento, se soubermos como parte disso funciona, podemos otimizá-lo bastante do ponto de vista da engenharia?

Chen Yubei:Sim, esta é uma pergunta muito boa. Acho que um requisito relativamente alto para qualquer teoria é que ela possa orientar a prática. Então, quando estávamos fazendo modelos de linguagem e representações de vocabulário, um dos objetivos que tínhamos na época era que, depois de entendê-los, poderíamos, por sua vez, otimizar esses modelos. ? Na verdade, é possível.

Por exemplo, se você encontrar um meta-significado em um modelo de linguagem grande, ele será ativado quando vir um determinado meta-significado, então esse neurônio pode ser usado como um discriminador, e você pode usar esse algo para realizar algumas tarefas. Ao alterar esses meta-significados, o viés do modelo é ajustado.

É que se eu conseguir identificar, então posso ajustá-lo. Recentemente, a Anthropic fez um trabalho semelhante, que consiste em encontrar alguns preconceitos que possam existir no modelo de linguagem e, em seguida, fazer algumas alterações para tornar o modelo mais justo e seguro.

"Vale do Silício 101":Vi que a OpenAI também conduziu um estudo no ano passado, que usou o GPT4 para explicar o GPT2 e ver como o GPT2 funciona. Por exemplo, eles descobriram que o neurônio do GPT 2 será ativado ao responder todas as coisas relacionadas à história dos Estados Unidos por volta de 1800. O 12º neurônio da linha 5 será ativado ao responder em chinês, será o 13º neurônio da linha 5. a linha 12. está ativada.

Se o neurônio que responde ao chinês for desligado, sua capacidade de compreender o chinês diminuirá significativamente. Mas quanto mais atrás os neurônios estão, por exemplo, quando atingem cerca de 2.000 linhas, sua credibilidade geral cai muito. Você notou a pesquisa deles?

Pesquisa OpenAI: deixe o GPT4 explicar os neurônios GPT2

Chen Yubei:Ainda não li este artigo, mas esse método é muito semelhante à operação nos neurônios do cérebro. Equivalente a agora, se houver uma rede neural, esta rede significa que, de certa forma, ela pode encontrar uma existência local em vez de ser completamente dispersa, então algumas operações podem ser realizadas nela. Por exemplo, se um determinado neurônio for cortado, você pode pensar que uma certa parte de sua capacidade está relativamente perdida.
Na verdade, o mesmo se aplica às pessoas. Por exemplo, uma pessoa com epilepsia pode ter algumas barreiras linguísticas após a cirurgia, mas isso não afeta outras funções do corpo humano. Isto parece ser semelhante em princípio.

"Vale do Silício 101":OpenAI e Anthropic estão atualmente estudando a interpretabilidade de grandes modelos. Existe alguma diferença entre a sua pesquisa e a deles?

Chen Yubei:Na verdade, ninguém sabe se a pesquisa sobre o modelo de caixa branca terá sucesso no futuro. Já discuti isso com meu supervisor antes, mas todos concordam que vale a pena tentar esse assunto. Se voltarmos a esta área, o que a nossa investigação pretende fazer é realmente compreender a inteligência artificial e reconstruí-la através da nossa compreensão e, em seguida, construir fundamentalmente algo diferente. Então a observação, isto é, a interpretabilidade, acho que é apenas um meio.
Em outras palavras, quer eu abra esse modelo, quer faça esses experimentos, ou faça alguns ajustes no modelo, acho que esses são alguns dos métodos que tentamos no processo de compreensão, mas o que é realmente importante na caixa branca modelo é Ainda tem que voltar para o sinal em si. Porque, quer se trate de um cérebro humano ou de uma máquina, a essência da sua aprendizagem é baseada em sinais.

Existem algumas estruturas no nosso mundo, e eles também têm de aprender através destas estruturas, e são estas estruturas que eles aprendem. Então, podemos encontrar as leis por trás destas estruturas, bem como algumas ferramentas matemáticas para representá-las, e depois reorganizar estas coisas para construir um modelo diferente? Se isto puder ser feito, penso que criará expectativas de melhoria da robustez, segurança e fiabilidade dos nossos sistemas.
Além disso, sua eficiência aumentará. Isto é um pouco como a teoria da termodinâmica que apareceu depois do surgimento da máquina a vapor, apoiando assim a sua transformação de um sujeito artesão completo em uma ciência. Da mesma forma, hoje parece que temos pela primeira vez uma máquina a vapor sobre dados. Por não entendermos nossos dados antes, podemos finalmente começar a desenvolver alguns algoritmos de IA para capturar os padrões nos dados.

"Vale do Silício 101":Portanto, será mais eficiente em termos energéticos.

Chen Yubei:Quando se trata de conservação de energia, posso dar alguns exemplos interessantes. O primeiro ponto é definitivamente a economia de energia, porque o cérebro equivale a uma lâmpada com consumo de energia de 20 watts, e os supercomputadores atuais podem ter mais de um milhão de watts.

O segundo ponto é que se olharmos para a evolução de vários organismos na natureza, a sua eficiência evolutiva é na verdade muito elevada. Por exemplo, existe um tipo especial de aranha chamada Jumping Spider. Ela tem apenas alguns milhões de neurônios, mas pode formar linhas de grupos tridimensionais muito complexas para capturar suas presas.

Aranha saltadora, Wikipédia

E uma das coisas mais interessantes para mim é a eficiência com que as pessoas usam os dados. O volume atual de dados do Llama3 atingiu aproximadamente 13 trilhões de tokens. Mas quantos dados uma pessoa pode receber durante sua vida? Suponha que possamos obter 30 quadros de imagens por segundo, e o tempo de aquisição diário seja de 12 horas, e façamos isso por 20 anos, então provavelmente poderemos obter 10 bilhões de tokens, e o texto pode ser obtido quase na mesma quantidade. os dados são muito menores do que os de um modelo grande.
Então a questão é: como as pessoas obtêm uma capacidade de generalização tão forte através de uma quantidade tão pequena de dados? Isso é o que considero surpreendente na eficiência do cérebro humano.

"Vale do Silício 101":É mais difícil descobrir como funcionam os grandes modelos ou como funciona o cérebro humano? Parece difícil para mim.

Chen Yubei:Ambos têm suas próprias dificuldades, mas são semelhantes em abordagem. Quer seja o cérebro humano ou um grande modelo de linguagem, tentamos observá-lo e ver a que responde.

Na verdade, esse método pode ser observado na pesquisa sobre o córtex visual realizada por David Hubel e Torsten Weisel, que ganhou o Prêmio Nobel de Fisiologia na década de 1980. Eles encontraram uma Célula Simples e tentaram estudar como esses neurônios geram impulsos quando as pessoas veem algo, e analisar os diferentes estados de resposta dos neurônios quando veem coisas diferentes, como quando não respondem nada e quando estão muito excitados. , e então encontraram o campo Receptivo do neurônio.

DH Hubel e TN Wiesel, vencedores do Prêmio Nobel de Fisiologia ou Medicina de 1981

Nosso estudo de grandes modelos de linguagem hoje é na verdade semelhante. Procuramos diferentes entradas e então entendemos quais neurônios dentro do modelo estão interessados ​​em quais entradas. Mas ainda existem diferenças.

A primeira diferença é que existem muitas limitações na observação do cérebro humano, seja por meio de eletrodos plug-in ou de métodos de interface cérebro-computador. No entanto, uma vantagem natural dos grandes modelos de linguagem é que os métodos de observação não são mais limitados. um método melhor, você pode analisá-lo no longo prazo e ainda analisar melhor o modelo por meio de alguns métodos diferenciais.

Mas a sua desvantagem é que a capacidade dos grandes modelos é muito menor do que a do cérebro, especialmente dos grandes modelos de linguagem, porque só aprende o mundo a partir da linguagem, pelo que a sua compreensão do mundo é incompleta, tal como uma pessoa. outros sentidos, exceto a linguagem.

Em contraste, o cérebro pode processar sinais mais dimensionais e os sentidos são muito ricos. Às vezes pensamos numa questão: a linguagem está completa? Se não houver apoio de outros sentidos, todos os conceitos da linguagem podem existir independentemente ou precisam do apoio de outros sentidos para alcançar a verdadeira compreensão.

Por exemplo, se o objeto “geladeira” não estiver relacionado às sensações de calor e frio do mundo real, mas apenas descrever características estatísticas como ter uma porta, esta descrição estará incompleta.

"Vale do Silício 101":Então, na verdade, comparado ao cérebro, o grande modelo atual ainda carece de muito. Mas como podemos desmontá-lo e estudá-lo, você acha que ainda vai um pouco além da ambição de desvendar os segredos do cérebro.

Chen Yubei:A dificuldade de entender um grande modelo de linguagem é que você tem muitas maneiras de observá-lo e pode entendê-lo melhor. Por exemplo, se existem duas máquinas, uma máquina é totalmente observável e a outra é parcialmente observável, então, intuitivamente falando, a máquina que é totalmente observável é mais fácil de entender. É claro que tem algumas capacidades que esta máquina não possui, por isso não pode substituir alguma compreensão do cérebro humano.

"Vale do Silício 101":Deixe-me também apresentar ao público que Yubei estudou neurociência antes. Então você acha que a formação do seu assunto o ajudará em sua pesquisa atual no campo da IA? Existem alguns métodos de pesquisa interdisciplinares que podem ser aprendidos uns com os outros?

Chen Yubei:Na verdade, não sou especialista em neurociência computacional. Minha graduação foi no Departamento de Eletrônica da Universidade de Tsinghua e no Departamento de Engenharia Elétrica e Ciência da Computação de Berkeley. No entanto, o instituto de pesquisa em que eu trabalhava naquela época era um instituto de pesquisa em neurociências, então meu mentor era um especialista em computação. neurociência.

Em relação à pergunta de agora, acho que o estudo da neurociência costuma ser uma inspiração para mim. Porque quando você conhece esses sistemas na natureza e o que eles podem fazer, você pode ter ideias diferentes e analisar novamente o problema em questão.

Por exemplo, uma imagem é um sinal de entrada bidimensional, seus pixels são horizontais e verticais e então forma uma grade. Mas a retina humana não é assim. Em primeiro lugar, é um tipo de receptor com percepções diferentes. Este receptor está disposto de uma forma muito densa, mas não muito regular. É muito denso no meio e torna-se esparso em ambos os lados.
Quando você se depara com tal sinal de entrada, em primeiro lugar, as redes neurais convolucionais com as quais estamos acostumados são inválidas, porque mesmo a convolução não é definida aqui. Portanto, quando virmos esta situação nos sistemas biológicos, reconsideraremos de onde vêm estas chamadas convoluções.

"Vale do Silício 101":Então você vai reconsiderar o método, certo? Tem que ser implementado desta forma?

Chen Yubei:Sim. Suponha que você acorde um dia e todos os seus neurônios estejam perturbados. Você ainda consegue entender o mundo? Porque o que você vê não é mais uma imagem e você não pode mais usar uma rede neural convolucional para fazer isso. Que tipo de método você precisa?

Embora não tenhamos resolvido completamente este problema, na verdade demos um passo em frente. Embora todos os meus neurônios estejam interrompidos, ou seja, os pixels da nossa imagem receptora estejam interrompidos, há alguma relação entre os pixels adjacentes. Por exemplo, quando olhamos para uma imagem, descobriremos que se um pixel for vermelho, é mais provável que os pixels ao redor sejam vermelhos. Então, por meio desse relacionamento, você pode deixar esses pixels encontrarem amigos novamente e, então, colocar semelhantes. pixels juntos. Os pixels se auto-organizam em alguns relacionamentos.

Então, neste momento, adicionando uma estrutura como Transformer no modelo de linguagem grande, podemos representar novamente esta imagem, e o desempenho desta representação é muito bom. Este é um exemplo de reexaminar algumas das nossas práticas atuais de engenharia inspiradas na natureza e, em seguida, propor alguns métodos diferentes.

Modelo de caixa preta, imagem AIGC via Firefly

"Vale do Silício 101":Ainda existem muitas semelhanças entre a pesquisa em grandes modelos de IA e a neurociência do cérebro humano. Haverá neurocientistas que colaborarão com você em pesquisas interdisciplinares a partir da perspectiva deles?

Chen Yubei:Na verdade, existem muitos neurocientistas, estatísticos e matemáticos que desejam compreender algumas estruturas dos sinais naturais, e também prestar atenção em como funcionam os neurônios no cérebro, e então combinar os dois para tentar propor algumas representações minimalistas dos sinais.

Por exemplo, você encontrará um fenômeno no cérebro, ou seja, embora existam muitos neurônios, os neurônios que trabalham ao mesmo tempo são, na verdade, muito esparsos. Por exemplo, se houver 1 milhão de neurônios, apenas alguns milhares poderão estar funcionando.

Com base nisso, um método de codificação esparso foi proposto no campo da neurociência nos primeiros anos. Ou seja, algumas representações esparsas de baixa dimensão podem ser encontradas neste sinal de alto nível? O algoritmo construído com base nessa ideia é muito semelhante à representação dos neurônios que você observa no cérebro, portanto, este é um sucesso não supervisionado nas primeiras neurociências computacionais.

A partir de hoje, todo o nosso campo de pesquisa tem o nome de Estatística de Sinais Naturais. Seu objetivo é revelar algumas estruturas básicas por trás dos sinais. No entanto, em comparação com grandes modelos, não é tão simples quanto o desenvolvimento de pesquisas que combinam a neurociência. como modelos é na verdade relativamente lento. Na verdade, penso que, por um lado, pode ser porque o problema é complicado, mas, por outro lado, também é porque há relativamente poucas pessoas a investir neste sentido.

02 "Ultrapassagem Atual" do Modelo Caixa Preta

"Vale do Silício 101":Simplificando, há muito poucas pessoas estudando modelos de caixa branca atualmente. Mas antes do surgimento de grandes modelos, o aprendizado de máquina tradicional também se enquadra na categoria de pesquisa de modelos de caixa branca?

Chen Yubei:Acho que esta afirmação pode ser considerada correta. Esses modelos anteriores de aprendizado de máquina são relativamente simples e relativamente compreensíveis.

"Vale do Silício 101":Então, por que o progresso atual da pesquisa de todo o modelo de caixa preta é capaz de ultrapassar o modelo de caixa branca nas curvas, muito mais rápido?

Chen Yubei:Quando esta pergunta for feita, ficaremos nervosos por um momento antes de responder.

"Vale do Silício 101":Por que ficar nervoso?


Chen Yubei:Como esta questão é muito incisiva, na verdade estamos perguntando se é um modelo de caixa branca ou um caminho compreensível do qual devemos desistir. A partir da nossa época, deixaremos de estudar ciência no campo da IA ​​e tudo se tornará um assunto empírico no futuro? Mas acho que ainda não.
Voltando à sua pergunta agora há pouco, o que exatamente aconteceu nesse processo? O primeiro ponto é que o modelo caixa preta traz menos bagagem. Se você deseja que esse método funcione e seja explicável, há muitos requisitos, então o modelo de caixa preta abre mão de uma coisa para deixá-lo funcionar primeiro.

A segunda razão é relativamente ignorada por todos, que é o crescimento dos dados contra a tendência ou a expansão da escala.

Richard Sutton escreveu um blog antes e mencionou que há algo que não foi quebrado nos últimos 20 anos: quando tivermos mais dados e mais cálculos, devemos encontrar algoritmos que possam realmente expandir. os dados. Penso que este é um aspecto muito importante do modelo da caixa negra, ou do nosso actual progresso empírico.

Ou seja, quando tivermos dados maiores, dados melhores, mais cálculos e modelos maiores, poderemos aprender mais. Mas se voltarmos a esta questão, todos têm uma busca no modelo de caixa branca, que é que o modelo em si deve ser simples.

Uma comparação entre Black Box ML e White Box ML

"Vale do Silício 101":Por que os modelos de caixa branca deveriam ser simples? Isso significa que, se for muito complexo, será difícil projetá-lo?
Chen Yubei:Sim. Na verdade, apenas coisas concisas podem ser entendidas quando se faz teoria, e isso deve ser simplificado continuamente. No entanto, quando as pessoas buscam a simplicidade do modelo, elas também podem simplificá-lo repetidamente. Uma vez que essa simplificação excessiva ocorre, o modelo não consegue descrever completamente a forma dos dados. Então, quando houver mais dados, o modelo não poderá continuar e suas capacidades serão limitadas.

Então eu acho que essa também é uma dificuldade que todos enfrentaram ao estudar modelos de caixa branca e modelos simples no passado. Não precisamos apenas carregar o modelo com trabalho, mas também precisamos de sua bagagem interpretável, e também preciso que seja simples. Quando você traz todas essas coisas, vai descobrir que essa bagagem é muito pesada. Ao simplificar demais, você introduz erros, e os erros se acumulam, e você não será capaz de avançar mais tarde.
"Vale do Silício 101":Mas agora, com o rápido desenvolvimento dos modelos de caixa preta, estamos começando a tentar resolvê-lo novamente.
Chen Yubei:Sim. E desta vez, quando resolvermos, poderemos revisitar esse problema. Ou seja, não precisamos necessariamente simplificar completamente o modelo a esse nível, ele ainda pode representar o lado mais complexo do mundo.

Mas, ao mesmo tempo, ainda esperamos que seja relativamente compreensível, por isso, se um dia conseguirmos alcançar um modelo de caixa branca, então penso que todas as tentativas anteriores são uma simplificação excessiva, mas esperamos que cada simplificação possa avançar. Nem precisamos fazer um modelo de caixa totalmente branca. Talvez possamos fazer um modelo de caixa branca que não seja tão poderoso quanto o modelo grande, mas é relativamente simples.
É útil compreendermos a essência por trás do aprendizado e esse entendimento pode, por sua vez, nos permitir melhorar a eficiência do treinamento de grandes modelos. Já discuti questões de eficiência com Yann várias vezes, o que significa que se a teoria por trás disso for desenvolvida, poderemos aumentar a eficiência da prática de engenharia em ordens de grandeza.
"Vale do Silício 101":O ponto de vista de Yann é que ele prefere desenvolver um modelo de caixa branca ou um modelo de caixa preta?
Chen Yubei:Yann é um cientista conhecido por suas habilidades de engenharia, então muitas de suas tentativas ainda envolvem fazer essa coisa funcionar primeiro. Mas Yann também apóia a pesquisa de modelos de caixa branca. Durante minha discussão com ele, ele sentiu que valia a pena explorar esse caminho, mas não sabia se seria alcançável para uma meta excessivamente ambiciosa, mas alguém tinha que fazê-lo.
"Vale do Silício 101":Parece que o modelo da caixa preta é um problema de engenharia, enquanto o modelo da caixa branca deve explicá-lo cientificamente. Embora do ponto de vista da comercialização a sua relação insumo-produto não seja tão alta, se isso puder ser finalmente feito, ainda será de grande valor para a segurança da IA ​​e de suas futuras aplicações comerciais.
Chen Yubei:No que diz respeito à comercialização, penso realmente que a intenção original de todos aqueles que fazem investigação básica em IA não é ter qualquer aplicação como intenção original, mas ser movidos por uma curiosidade relativamente pura sobre a questão da inteligência. , o que pode, por sua vez, ajudar na prática da engenharia. A pesquisa em si não foi projetada para nenhuma aplicação específica.

Além disso, quando perseguirmos este modelo de caixa branca e esta eficiência final, também faremos uma pergunta, ou seja, se o grande modelo de linguagem que estamos a construir agora só pode ser alcançado através deste tipo de escala ou Lei de Escala. está tudo bem em simplesmente descer? Eu não acho. Como os humanos não podem aceitar uma quantidade tão grande de dados, como obter uma capacidade de generalização relativamente alta com uma pequena quantidade de dados também é uma questão importante que estamos estudando.


"Vale do Silício 101":Este também deveria ser um problema estudado pelos estudiosos do modelo de caixa preta. Quais estudiosos e escolas estão atualmente estudando o modelo de caixa branca?

Chen Yubei:Atualmente, existem principalmente três forças de IA. A primeira força é parte da experiência que geramos no processo de estudar esses modelos de engenharia e, em seguida, visualizá-los, como o que a Anthropic e a OpenAI estiveram recentemente envolvidas em fazer.

Pesquisa Antrópica: Extraindo Características Interpretáveis ​​da Rede Neural Claude 3 Sonnet

A segunda é a neurociência computacional que tenta compreender o cérebro humano e encontrar maneiras pelas quais algumas memórias podem existir.

Outra escola de pensamento é observar a estrutura básica do sinal de uma perspectiva matemática e estatística. Claro, haverá muitos cruzamentos entre esses três tipos.
"Vale do Silício 101":A qual gênero você pertence?
Chen Yubei:Na verdade, sou mais ou menos influenciado pelos três grupos. Quando eu estava em Berkeley, meu mentor e professor Ma Yi pertencia à escola de neurociências e estatística matemática, e Yann tinha mais formação em engenharia. Penso também que estes três métodos são aceitáveis, porque acabarão por nos levar a avançar na mesma direcção.
"Vale do Silício 101":Qual direção é a mesma? Existem resultados faseados agora?
Chen Yubei:A etapa final é entender o modelo. Houve alguns resultados faseados antes, como se podemos fazer algumas redes com até duas ou três camadas, e podemos ver o que elas aprendem em cada camada. Finalmente, descobri que é realmente possível representar um número. Se você quiser representá-lo, aprenderá todos os seus traços e, em seguida, conectará traços semelhantes e poderá construir o próximo nível de representação, camada por camada. , finalmente encontrei o número.
"Vale do Silício 101":Sua pesquisa atual levará à otimização do modelo de caixa preta?

Chen Yubei:Primeiro, à medida que sua compreensão se aprofunda, você poderá otimizar o modelo de caixa preta e torná-lo mais eficiente. A segunda é unificar diferentes modelos de caixas pretas, reduzindo assim muitos desperdícios desnecessários. Ao mesmo tempo, há outro pilar de trabalho que envolve o meu laboratório, que é estudar não só a percepção, mas também o controle.

Ao dar a esses grandes modelos de linguagem a capacidade de interagir com o mundo, será possível obter a mesma capacidade de generalização no sistema de controle? O que isso significa? Ou seja, no sistema perceptivo, você descobrirá que aprendi maçãs, peras e depois pêssego. Como já aprendi um conceito semelhante de maçãs e peras, posso aprender rapidamente o conceito de pêssego.

Então, no campo do controle, será possível alcançar desempenho semelhante? Por exemplo, se um robô aprende a andar para frente e a pular no mesmo lugar, ele pode ser rapidamente transformado em um robô que salta para frente e anda ao mesmo tempo?


"Vale do Silício 101": Se lhe pedissem para dar uma conclusão, você acha que usar a pesquisa do modelo de caixa branca para desvendar o segredo da operação do modelo grande, onde está a barra de progresso atual?
Chen Yubei:Na verdade, nenhum de nós sabe quanto tempo dura essa barra de progresso. Sinto que ela está realmente longe desse objetivo. Não é necessariamente um desenvolvimento linear, pode ser mais como um salto quântico. Quando surgir um novo entendimento, você poderá dar imediatamente um grande passo à frente.

Se você quiser fazer um ChatGPT de caixa branca, acho que isso ainda está muito longe, mas talvez possamos criar um modelo muito bom e totalmente compreensível que possa reproduzir as capacidades do AlexNet na época. Esse modelo pode fazer o reconhecimento do Imagenet. Podemos entender como ele faz cada etapa, como ele se transforma em gato e cachorro passo a passo, e então qual é a estrutura desse gato e cachorro gerado.

Exemplo de WordNet usado por ImageNet

"Vale do Silício 101":O reconhecimento do ImageNet é uma caixa branca ou uma caixa preta?

Chen Yubei:Ainda não descobrimos como funciona. Houve alguma compreensão de algumas das primeiras visualizações feitas por Matthew Zeiler e Rob Fergus e muitos pesquisadores, mas ninguém foi capaz de criar um modelo onde pudéssemos entender cada etapa e ainda assim funcionar bem.
"Vale do Silício 101":Então talvez o objetivo do modelo de caixa branca seja ser encenado. Por exemplo, o primeiro passo é explicar como funciona o ImageNet. Depois que o mistério for resolvido, podemos explicar como funcionam alguns modelos pequenos, assim como usar o GPT 4 para explicar como funciona o GPT 2, e então explicar lentamente os modelos maiores. modelo funciona.
Chen Yubei:Sim. Acho que esse processo ainda leva bastante tempo e é preciso mais gente para investir nesse sentido. Porque a maioria dos empregos atualmente é na área de engenharia. Se colocarmos nas escolas, então você realmente precisa ter algumas ideias originais, em vez de dizer que você vai para a escala, e eu irei para a escala, então todo mundo é escala, e no final não há distinção, tudo depende de quem Qual máquina é a melhor e quem tem mais dados?

03 O que eu sei sobre Yann LeCun

"Vale do Silício 101":A seguir, quero discutir com você seu orientador de pós-doutorado, Yann LeCun. Deixe-me apresentar primeiro Yann LeCun. Seu nome chinês é Yang Likun. Ele é um cientista da computação francês. Ele fez muitas contribuições nas áreas de aprendizado de máquina, visão computacional, robôs móveis e neurociência computacional. ". "Pai da Internet".

LeCun é atualmente o cientista-chefe de IA da Meta e atua como professor na Universidade de Nova York. Ele foi o pioneiro em redes neurais convolucionais (CNN) na década de 1980, uma tecnologia que se tornou a base da moderna visão computacional. LeCun, juntamente com Geoffrey Hinton e Yoshua Bengio, receberam o Prêmio Turing 2018 por seu trabalho pioneiro em aprendizagem profunda.
Você pode explicar os principais resultados da pesquisa científica de Yann aos nossos amigos não técnicos e por que ele é tão famoso?

Chen Yubei:Yann estuda o campo da IA ​​de redes neurais desde a década de 1980 e experimentou muitos altos e baixos e o declínio de diferentes escolas de pensamento. No entanto, ele sempre insistiu em redes de aprendizagem profunda e é uma pessoa que caminhou na escuridão.

Por exemplo, foi muito difícil publicar artigos relacionados à aprendizagem profunda em 2000. Quão difícil foi? Se existir a palavra Neural ou Rede em seu artigo, sua probabilidade de ser rejeitado é muito alta. Se houver Rede Neural, basicamente será rejeitado.

Portanto, foi um momento sombrio para eles naquela época, e o financiamento também foi afetado. Mas eles foram capazes de perseverar nesta escuridão e nunca desistir, e finalmente saíram desta escuridão. Hoje, as redes neurais profundas mudaram o mundo. Penso que esta é na verdade a conquista do Prémio Turing, uma memória do seu pioneirismo inicial. dias.

Yann LeCun

"Vale do Silício 101":Por que você escolheu o grupo dele quando era estudante de pós-doutorado?
Chen Yubei:Esta é uma aventura bastante interessante. Na verdade, eu estava bastante confuso na época e nem pensei em me formar naquele semestre. Porque minha determinação é fazer um modelo caixa branca durante meu doutorado, e o desempenho deve ser comparável ao AlexNet, mas ainda não está pronto.

Acho que se quiser continuar minha pesquisa, a quem devo recorrer como pós-doutorado? Eu estava em uma reunião na época e conheci Yann no local. Na verdade, não sou uma pessoa particularmente especulativa. Acho que todo mundo quer encontrar Yann como pós-doutorado, então, quando o conheci, queria principalmente falar sobre suas opiniões sobre meu trabalho e sobre o futuro da IA. .

Como resultado, a conversa na reunião foi muito boa. Ele também pensou na minha direção de pesquisa e em algumas das questões que pensei, mas na perspectiva das redes neurais. Então, naquela época, ele me perguntou se eu teria interesse em me candidatar a um pós-doutorado. Claro que me inscrevi, então nos demos bem imediatamente.


"Vale do Silício 101":Que tipo de mentor ele é? Dá aos alunos muito espaço livre para explorar e ajuda muito discutir com todos.
Chen Yubei:primeiroA segunda situação não é mais possível para ele. Muitas pessoas precisam de seu tempo, e o tempo que ele pode alocar para todos é relativamente pequeno.

Na verdade ele é parecido com o meu orientador de doutorado, ele tem um espírito muito livre em algumas direções gerais, mas acho que outra semelhança entre eles é que eles são persistentes naquilo que acreditam, ou seja, ele pode te dar uma direção e um alvo. Mas não importa como você vá, seja de barco ou de carro, ele não controlará esses detalhes.
Na verdade, sua direção geral não mudou ao longo dos anos. Sempre foi um aprendizado autossupervisionado. A aprendizagem auto-supervisionada é, na verdade, dividida em duas partes. Uma parte é a auto-supervisão baseada na percepção. Outra parte mais importante é como fazer a auto-supervisão de forma incorporada, ou estamos agora a fazer um modelo mundial, que é uma direcção em que ele acredita.

Na verdade, dei esse nome a ele porque li um artigo chamado World Model, escrito por David Ha e Jürgen Schmidhuber, e achei o nome muito legal.

Uma arquitetura de sistema para inteligência autônoma, Mata AI

"Vale do Silício 101":Você acha que a direção de pesquisa de Yann é diferente daquela da OpenAI e da Anthropic?
Chen Yubei:Se eu realmente quiser dizer algo diferente, acho que o que o Yann quer é que o modelo precise ter diversas características. A primeira é ter a capacidade de ser incorporado, o que significa que não é apenas uma pilha de dados, mas o modelo pode eventualmente explorar o mundo por conta própria.
"Vale do Silício 101":Qual é a diferença? Parece que todos esperam finalmente alcançar tal resultado.
Chen Yubei:A execução é diferente. Por exemplo, penso que OpenAI é Scaling Law, o que significa mais e melhores dados, depois mais cálculos e modelos maiores. Mas Yann é ainda mais científico. O que ele pensa é que, se quisermos realmente levar a uma inteligência mais semelhante à humana, o que exatamente é necessário? Ele sentirá que apenas acumular dados não é suficiente.
"Vale do Silício 101":Então Yann é, na verdade, equivalente à pesquisa de caixa preta e caixa branca juntas.

Chen Yubei:Acho que Yann realmente não se importa muito se isso pode ser transformado em ciência. No momento, acho que suas opiniões são principalmente empíricas e de engenharia. Ele espera que esse sistema possa funcionar melhor. muito bom em.

"Vale do Silício 101":Quando a OpenAI provou que o Scaling Law pode alcançar bons resultados, você acha que Yann mudou seus métodos e pensamento de pesquisa científica? Ou ele ainda está mantendo sua linha original?

Chen Yubei:Na verdade, ele não se opõe à Lei do Dimensionamento. Não creio que todos tenham conflitos neste assunto. A verdadeira diferença possível é que muito do trabalho da OpenAI ainda é orientado ao produto e executado ao extremo em engenharia, mas Yann está na verdade fazendo pesquisas de uma forma mais científica.

Quando ele pensa sobre essas questões, na verdade ele não tem muito a ver com produtos. Ele só pensa em uma coisa: como alcançar a inteligência. Porque ele está nesta área há muito tempo e está profundamente envolvido nela há mais de oito anos, então ele ainda pode manter seus ideais ao analisar essas questões.

"Vale do Silício 101":Permitir que a inteligência aprenda de forma autônoma é a primeira característica da pesquisa de Yann. Que outras características existem?

Chen Yubei:Há também algo em que Yann sempre acreditou, chamado JEPA, Joint Embedding Predictive Architecture. Ou seja, é claro que o modelo deve ter a capacidade de aprender de forma independente, mas mais importante do que isso é que o modelo também pode aprender algumas regras de nível superior ao aprender dados.

Na verdade, existem atualmente dois grupos. Um grupo espera reconstruir completamente os dados através da aprendizagem, o que pode ser considerado uma ideia de compressão. No entanto, Yann não quer retornar completamente a esta imagem porque a reconstrução desta imagem contém muitos detalhes. os detalhes não são as informações mais importantes ao fazer julgamentos sobre o sistema.

"Vale do Silício 101":Este ponto é diferente do seu mentor Ma Yi em Berkeley?

Chen Yubei:Na verdade, não há conflito essencial entre eles neste ponto de vista, mas a forma de expressá-lo é diferente. O professor Ma sente que as leis deste mundo são simples. Yann acredita que esses detalhes são na verdade prejudiciais para as tarefas posteriores ou alguns julgamentos, por isso é necessário encontrar essas leis de alto nível.

Na verdade, os dois são iguais, porque as regras de alto nível são geralmente simples. O professor Ma costuma dizer que tudo é compactação. Se você olhar do ponto de vista de Yann, descobrirá que a compactação está realmente correta, mas a estrutura hierárquica dos dados é na verdade diferente.

Como o mundo real é complexo, se você se aprofundar nos detalhes do mundo real, descobrirá que muitas coisas são, na verdade, estruturas de baixo nível. Existe estrutura nos dados, e qualquer coisa que tenha estrutura é um reflexo do desvio do ruído. Ou seja, qualquer coisa sem estrutura é ruído, e qualquer coisa que deixe ruído significa que existe estrutura.

Vamos aprender essas estruturas, mas existem diferentes níveis de estrutura. Mas quando você sobe um nível, para uma escala maior, você descobrirá que a estrutura não é mais importante. Se você olhar para ela nesse nível, essas coisas se tornaram como ruído.

Portanto, o ponto de vista de Yann é que a compressão está correta, mas precisamos de um aprendizado hierárquico para aprender todas as estruturas do sinal e aprender estruturas cada vez mais altas. No entanto, a estrutura mais avançada muitas vezes não é responsável por uma grande proporção de toda a compactação e pode ser perdida durante o processo de otimização, porque um grande número de coisas está em níveis baixos e a quantidade de informações como ruído é maior, quanto mais alto, essas estruturas ficam mais difíceis de detectar quanto mais você caminha.

Por que? Como sua função de perda otimizada é sua função objetivo, se você encontrar essa regra ou não, poderá ter pouco impacto em sua perda. Acho que os principais são esses dois pontos, um é o modelo de mundo e o outro é essa representação hierárquica.

Yann LeCun falando na NYU

"Vale do Silício 101":Que qualidades você acha que o impressionam particularmente?

Chen Yubei:O que mais me impressionou foi provavelmente a concentração e a pureza com que faziam as coisas.

Uma vez almocei com Yann e ele disse que tenho tudo o que você queria quando era jovem, mas não tenho mais muito tempo, então ele só pode usar o tempo restante para fazer coisas em que realmente acredita.

Quando você trabalha com esses cientistas, você pode ser afetado pelo temperamento deles, de modo que, mesmo antes de alcançar a posição em que estão agora e as coisas que possuem, você possa ver o mundo um pouco do ponto de vista deles.

Então, quando você faz escolhas ou faz coisas, você pode ir além de sua posição atual e pode pensar no que farei se um dia tiver tudo como ele.

"Vale do Silício 101":Ele mudou alguma de suas decisões?

Chen Yubei:Sim, isso me fará pensar sobre isso ao fazer muitas escolhas. Lembro-me que no primeiro dia do meu doutorado meu orientador me disse duas coisas.

Uma é que ele não precisa que eu publique muitos artigos, mas espero que o tipo de artigos que posso publicar possa viajar no tempo, de modo que mesmo que eu leia este artigo 20 anos depois, ele ainda estará atualizado. Na verdade, isso é muito difícil, porque muito trabalho tem um sentido distinto dos tempos, mas alguns pensamentos verdadeiramente profundos ainda podem durar centenas de anos. Este é um objetivo muito elevado e você poderá alcançá-lo quando estiver por perto. para se aposentar. Mas suscita uma tortura na alma, ou seja, se você consegue persistir em fazer algum trabalho que possa coexistir com o tempo.

A segunda é que ele espera que um estudioso tenha uma atitude própria. Se você acha que algo pode ser feito por A, B ou por você, você não deveria fazê-lo. Ou seja, quando você fizer isso, descobrirá que não é esse trabalho que precisa de você, mas você que precisa desse trabalho. Esta é uma mentalidade especulativa. Na verdade, esse é o temperamento semelhante que vejo neles, ou seja, esperam não seguir a multidão, mas ter uma atitude própria e encontrar uma voz própria.

Portanto, quando escolho uma direção de pesquisa, julgarei de tempos em tempos se o trabalho que estou realizando é especulativo ou um verdadeiro pilar.

Acho que o melhor deles, especialmente do Yann, é que você pode passar por esse momento quase desesperador e inaugurar o amanhecer. Pessoas que nunca experimentaram depressões podem não conseguir se acalmar o suficiente. Quando você passar pelo momento mais sombrio, use sua visão e persistência para passar por esse curto período de tempo e então prove que isso é certo. temperamento muito interessante.

"Vale do Silício 101":Há alguma visão científica sobre Yann da qual você discorda?

Chen Yubei:Às vezes ele era direto. Por exemplo, ele disse recentemente que se você é um pesquisador, não deveria estudar grandes modelos de linguagem. Esta frase tem muitas interpretações se você interpretar literalmente, muitas pessoas discordarão, inclusive eu. Posso sentir que existem algumas estruturas em grandes modelos de linguagem que valem a pena compreender e estudar.

Claro, o que Yann pode realmente querer dizer é o que acabei de mencionar, não faça trabalhos especulativos como A e B. Espero que os pesquisadores tenham alguma persistência e encontrem contribuições mais originais. Se fosse dito desta forma, acho que concordaria mais. Mas como um grande V, às vezes suas palavras irão chocá-lo e desencadear muita discussão. É um lugar que acho muito interessante.

"Vale do Silício 101":Você também trabalhou na Meta. Qual você acha que é a maior contribuição de Yann para a Meta?

Chen Yubei:A primeira coisa deveria ser ajudar a construir o Meta AI. Quando ele estava planejando construir o Meta AI, Mark o encontrou pela primeira vez. Além disso, como ele trabalhou no Bell Labs em seus primeiros anos, ele ansiava pelo estado do Bell Labs naquela época, então ele também tinha um ideal para replicar tal laboratório. em Meta. Seguindo esse conceito, ele também recrutou e treinou um grupo de pessoas muito boas em Meta AI, dando grandes contribuições para esta área e promovendo o desenvolvimento de toda a área.

"Vale do Silício 101":Acho que o código aberto deve ser considerado uma contribuição muito importante dele. Por exemplo, a razão pela qual Meta llama seguiu o caminho do código aberto deve ser muito consistente com a ideia geral do Yarn.

Chen Yubei:Sim, sim, código aberto é de fato o que Yann insiste. Mas não sei se o Meta continuará a ser open source no futuro, porque afinal, o Meta também enfrentará concorrência, mas acho que este é um conceito de Yann, quão bem ele pode ser implementado no final e até que ponto. isso pode acontecer, na verdade, depende de todo o ambiente.

"Vale do Silício 101":Você acha que toda a pesquisa sobre grandes modelos agora deve ser conduzida por cientistas? Ou será que lentamente se tornará algo impulsionado pela engenharia?

Chen Yubei:Sinto que se tornou orientado pela engenharia. No início, era orientado pelos cientistas. Nos últimos dois anos, acho que o principal progresso vem da execução do projeto. A qualidade dos dados aumentou? Os dados aumentaram? Sua distribuição ficou mais rica? Os cálculos podem ser paralelizados? Tudo causado por detalhes muito importantes na área de engenharia. O desenvolvimento de 0 a 1 requer avanços científicos, mas de 1 a 100 requer rigor de engenharia e capacidades de execução são necessárias para promovê-lo em diferentes estágios.

"Vale do Silício 101":Todo mundo está ansioso pelo GPT 5 agora. Você acha que se o GPT 5 for lançado, será mais um problema científico ou de engenharia?

Chen Yubei:Acho que há um longo caminho a percorrer na engenharia. Podemos até pensar que a Lei do Dimensionamento tem um longo caminho a percorrer e não há fim à vista, incluindo a qualidade dos dados e a expansão do poder computacional. Mas, ao mesmo tempo, penso que mesmo que a forma mais robusta que encontrámos agora seja a Lei de Escala, definitivamente não é suficiente.

Então, o que mais precisamos? Acho que o que é necessário é uma alta eficiência como a dos seres humanos. Então, como alcançar tal eficiência? Pode ser desencadeado por dados, mas também pode ser outra coisa, por isso penso que se estivermos a falar do processo de condução da AGI, deverá haver algumas mudanças relativamente grandes de 0 para 1.

"Vale do Silício 101":Mesmo que haja progresso científico, ainda há muito espaço para melhorias na engenharia.