Ma Yi, da Universidade de Hong Kong: Grandes modelos sem teoria há muito tempo são como cegos tentando agarrar um elefante, reunidos para falar sobre o próximo passo da AI

Universidade de Finanças e Economia de Hong Kong, Ma Yi: Grandes modelos sem teoria há muito tempo são como cegos sentindo o elefante se reunir para discutir o próximo passo da IA;

2024-07-24

O vento oeste vem do Templo Aofei
Qubits | Conta pública QbitAI

“Quero fazer uma pergunta. Quer você seja um aluno da Academia Qiuzhen ou da turma júnior de Qiu Chengtong, se você não conhece essa pergunta, então não deveria estar nesta aula!”

Na Conferência Internacional de Ciências Básicas de 2024 "Fórum de Ciência Básica e Inteligência Artificial", CTO do Grupo Lenovo e Acadêmico Estrangeiro da Academia Europeia de CiênciasRui YongAssim que essas palavras foram ditas, todo o público ficou um pouco nervoso.

Mas então, a pergunta que ele fez foi:Qual é maior, 13,11 ou 13,8?

Olá pessoal, é só perguntar para quem ainda não conhece essa piada.

Desta vez, porém, não se trata de zombar da insanidade da modelo. Vários especialistas em IA da academia e da indústria analisaram uma série de problemas como o modelo de "ilusão" e obtiveram suas opiniões sobre "Qual é o próximo passo para a inteligência artificial?"a opinião de.

Em resumo, inclui os seguintes pontos:

O próximo passo no desenvolvimento de grandes modelos é afastar-se do paradigma de busca de “sem habilidade abstrata, sem valor subjetivo e sem conhecimento emocional”.
As aplicações comerciais ficam aquém do crescimento em escala do próprio modelo e falta um superproduto que possa realmente refletir o valor do investimento.
Sob a restrição da ilusão, o próximo passo pode ser pensar em como expandir a generalização e a interatividade do modelo. A multimodalidade é uma opção.
É uma questão muito importante para o agente inteligente conhecer os limites das suas capacidades.

Reitor da Escola de Dados da Universidade de Hong Kong e Presidente do Departamento de Ciência da Computação da Universidade de Hong KongPossoDurante a discussão, foi até levantado um ponto de interrogação sobre a “inteligência artificial” actualmente utilizada pelo mainstream:

O desenvolvimento da tecnologia de inteligência artificial acumulou muita experiência, algumas das quais podemos explicar e outras não. Agora é o momento em que a teoria é muito necessária. Na verdade, pode-se dizer que nossos estudos não fizeram muitos avanços nos últimos dez anos. É provável que o rápido desenvolvimento da indústria e da tecnologia de engenharia tenha afetado o ritmo dos acadêmicos.

Vamos dar uma olhada no que os grandes disseram especificamente.

Qual é a natureza da inteligência?

No local, Reitor da Escola de Dados da Universidade de Hong Kong e Presidente do Departamento de Ciência da Computação da Universidade de Hong KongPosso, fez um discurso intitulado "Retornando aos Fundamentos da Teoria e Explorando a Essência da Inteligência".

As opiniões expressas coincidem com as questões discutidas na mesa redonda.

O tema do discurso do Professor Ma Yi foi "Retornando aos Fundamentos da Teoria e Explorando a Essência da Inteligência". Ele revisou o processo histórico de desenvolvimento da IA e apresentou seus próprios pontos de vista sobre o desenvolvimento atual da IA.

Ele primeiro falou sobre a evolução da vida e da inteligência.

Na sua visão pessoal, a vida é portadora de inteligência, e a capacidade da vida de produzir e evoluir é o resultado da ação de mecanismos inteligentes. e,O mundo não é aleatório, é previsível, no processo de evolução contínua, a vida aprende conhecimentos mais previsíveis sobre o mundo.

A sobrevivência do mais apto através da seleção natural é uma espécie de feedback da inteligência, semelhante ao conceito atual de aprendizagem por reforço.

Das plantas aos animais, aos répteis, às aves e depois aos humanos, a vida tem vindo a melhorar a sua inteligência, mas há um fenómeno que parece ser que quanto mais inteligente for a vida, mais tempo seguirá os seus pais após o nascimento. Por que?

O professor Ma Yi explicou ainda: Como os genes não são suficientes, algumas habilidades precisam ser aprendidas. Quanto mais forte for a capacidade de aprendizagem, mais coisas precisam ser aprendidas. Esta é uma forma mais avançada de inteligência.

Se aprendermos de forma individual, não será suficientemente rápido ou suficientemente bom, por isso as pessoas inventaram a linguagem e a inteligência humana tornou-se uma forma de inteligência de grupo.

A inteligência de grupo foi produzida e ocorreu uma mudança qualitativa.Não aprendemos apenas estes fenómenos previsíveis a partir de observações empíricas;pensamento lógico abstrato, chamamos isso de inteligência humana, ou mais tarde inteligência artificial.

A seguir, ele falou sobre a origem da inteligência das máquinas.

Desde a década de 1940, os humanos começaram a tentar permitir que as máquinas simulassem a inteligência dos seres vivos, especialmente dos animais.

Os humanos começaram a modelar neurônios e a explorar "como funciona a percepção do cérebro". Mais tarde, todos descobriram que a simulação de sistemas nervosos de animais deveria ser construída a partir de redes neurais artificiais, e a pesquisa tornou-se cada vez mais complexa.

Este assunto não tem sido fácil. Depois de dois invernos frios, todos descobriram algumas limitações das redes neurais e algumas pessoas ainda insistem em resolver esses desafios.

Posteriormente, o poder de computação de dados se desenvolveu e tornou-se possível treinar redes neurais cada vez mais profundas, e seu desempenho tornou-se cada vez melhor.

Mas existe o maior problema:Estas redes são concebidas empiricamente. É uma caixa preta, e a caixa está a ficar cada vez maior.

O que há de errado com uma caixa preta? Do ponto de vista técnico, o design da experiência também é possível e a tentativa e erro pode ser continuada. Contudo, o custo é elevado, o ciclo é longo e os resultados são difíceis de controlar. também:

Enquanto existir um fenómeno importante no mundo que ninguém consegue explicar, e muitas pessoas forem mantidas no escuro, isso criará pânico. Isto está a acontecer agora.

Então, como abrir a caixa preta? O professor Ma Yi propôs retornar à questão original: Por que estudar? Por que a vida pode evoluir?

Ele enfatizou particularmente que devemos falar sobre coisas que podem ser realizadas através do cálculo:

Não fale sobre nada abstrato. Este é o meu conselho para todos. Vocês devem falar sobre como calcular e como executar este assunto.

Então, o que aprender?

O professor Ma Yi acredita que devemos aprender coisas previsíveis e regulares.

Por exemplo, se você segurar uma caneta na mão e soltá-la, todos saberão o que vai acontecer e, se você se mover rapidamente, poderá pegá-la. Isso era conhecido antes de Newton. As pessoas e os animais parecem ter bons modelos do mundo externo.

E em matemática,As informações previsíveis são refletidas uniformemente na estrutura de dados de baixa dimensão no espaço de alta dimensão.。

Então, qual é o mecanismo de cálculo unificado? O professor Ma Yi deu a resposta:Coisas semelhantes se juntam e espécies diferentes se repelem., a essência é simples assim.

Como medir se algo é bem feito? Por que compressão?

Ele deu um exemplo, conforme mostrado abaixo. Por exemplo, o mundo é aleatório, nada se sabe e tudo pode acontecer. Se, em vez disso, forem usadas bolas azuis, todas as bolas azuis podem acontecer no próximo segundo.

Mas se você quiser lembrar que uma dessas coisas aconteceu, você tem que codificar todo o espaço, dar um código, e só a área com bolas verdes pode acontecer, e as bolas azuis serão bem menores.

Quando sabemos que as áreas onde as coisas vão acontecer se tornam cada vez mais pequenas, sabemos cada vez menos sobre o mundo. Isto é o que a teoria da informação estava a estabelecer na década de 1940.

Para encontrar melhor essas áreas verdes, devemos organizá-las melhor no cérebro. Portanto, nosso cérebro está organizando esse fenômeno e essa estrutura de baixa dimensão.

Como isso pode ser alcançado computacionalmente?

O professor Ma Yi disse que todas as redes profundas estão realmente fazendo isso. Assim como o Transformer agora, ele faz isso segmentando imagens e classificando-as.

Na verdade, cada camada da rede neural éCompactar dados。

A matemática desempenha um papel muito importante nisso. Você deve medir estritamente o que deseja otimizar e como otimizá-lo. Depois de fazer essas duas coisas, você descobrirá que o operador obtido é o mesmo que você encontrou. experiência actual. Muitos dos operadores são muito semelhantes.
Seja Transformer, ResNet ou CNN, todos eles fazem isso de maneiras diferentes. E pode ser completamente explicado estatisticamente e geometricamente o que está fazendo.

masA solução ótima de otimização em si pode não ser a solução correta , informações importantes podem ser perdidas durante o processo de compactação. Como provar que as dimensões de informação existentes são boas? Como provar que não ocorrerão alucinações?

Voltando ao básico do aprendizado, por que precisamos nos lembrar dessas coisas?É para estar láO cérebro simula o mundo físico,Para melhor desempenho no espaço físicoprever。

Mais tarde, Ma Yi mencionou o conceito de alinhamento:

Então alinhamento não é alinhar com as pessoas, alinhamento é issoO modelo se alinha com o que aprendeu.

Aprender uma autocodificação de dentro para fora não é suficiente. Como os animais na natureza aprendem o modelo físico do mundo externo——

Use constantemente suas próprias observações para prever o mundo externo, desde que seja consistente com as observaçõesconsistente , é isso. Isto envolve o conceito de circuito fechado.

Enquanto existirem criaturas vivas, enquanto existirem criaturas inteligentes, todas elas estarão em circuito fechado.

O professor Ma Yi destacou então que ainda estamos longe da verdadeira inteligência.

O que é inteligência? Muitas vezes as pessoas confundem conhecimento e inteligência. Um sistema tem inteligência se tiver conhecimento? Um sistema inteligente deve ter a base para o autoaperfeiçoamento e o aumento do seu próprio conhecimento.

Finalmente, o professor Ma Yi concluiu.

Olhando para trás na história, na década de 1940 todos queriam que as máquinas imitassem os animais, mas na década de 1950 Turing propôs uma coisa - se as máquinas podem pensar como os humanos. Na Conferência de Dartmouth, em 1956, um grupo de pessoas reuniu-se e o seu propósito era fazer algoA inteligência única que distingue os humanos dos animais：Habilidade abstrata, operações simbólicas, raciocínio lógico, análise causalespere.

Foi para isso que eles definiram a inteligência artificial em 1956. Mais tarde, essas pessoas basicamente ganharam o Prêmio Turing. Então, se você quiser ganhar o Prêmio Turing no futuro, escolha seguir a multidão ou fazer algo único...

Olhando para trás, o que temos feito nos últimos 10 anos?

A atual "inteligência artificial" está fazendo reconhecimento de imagens, geração de imagens, geração de texto, compressão e remoção de ruído e aprendizado por reforço. O professor Ma Yi acredita que,Basicamente o que fazemos é no nível animal., incluindo a previsão do próximo token e da próxima imagem do quadro.

Não é que não tivéssemos pessoas trabalhando nisso mais tarde. Mas não um grande modelo convencional.

Ele explicou ainda que se for investido dinheiro suficiente e dados suficientes, o desempenho de muitos modelos continuará a se desenvolver, mas se não houver teoria por muito tempo, surgirão problemas, assim como um homem cego tentando descobrir saiu um elefante.

O professor Ma Yi disse que compartilhar sua jornada pessoal espera inspirar os jovens.

Assim que tivermos os princípios, poderemos projetar com ousadia e não teremos mais que esperar que a próxima geração invente uma rede aparentemente boa e possamos usá-la juntos. Então, onde estão suas oportunidades?

Vamos dar uma olhada em como outros especialistas em IA responderam à pergunta “Qual é o próximo passo para a inteligência artificial?”

Qual é o próximo passo para a inteligência artificial?

Modelos grandes exigem mudanças de “paradigma”

Membro da Academia Real de Engenharia, da Academia Europeia de Ciências, da Academia de Ciências da Engenharia de Hong Kong e vice-presidente-chefe da Universidade de Ciência e Tecnologia de Hong KongGuo YikeAcho que estamos num momento muito interessante agora -

Como a Lei de Dimensionamento é amplamente aceita, a Guerra dos Cem Modelos tornou-se gradualmente uma guerra de recursos.Parece que só precisamos fazer duas coisas agora. Depois de ter o modelo Transformer, o que precisa ser resolvido é.Grande poder de computaçãoeGrandes dadosO problema.

No entanto, na sua opinião, este não é o caso.O desenvolvimento atual da IA ainda enfrenta muitos problemas.Poder de computação limitado e demanda infinitaO problema.

Neste caso, como devemos construir um modelo grande? O acadêmico Guo compartilhou seus pensamentos através de algumas práticas.

Em primeiro lugar, o Acadêmico Guo mencionou o uso de MOE mais econômico sob a limitação do poder computacional.modelo especialista mistoTambém pode alcançar resultados muito bons.

Além disso, como melhorar continuamente um modelo com novos dados após o treinamento, para que ele possa lembrar o que deve ser lembrado, esquecer o que deve ser esquecido e ser capaz de lembrar coisas que foram esquecidas quando necessário, também é uma questão difícil.

O acadêmico Guo discorda de algumas afirmações da indústria de que “os dados foram esgotados”. “Na verdade, é apenas que o modelo foi compactado e os dados compactados podem ser regenerados em novos dados”, ou seja, usando generativos. modelos para gerar dados.

Além disso, nem todos os modelos precisam ser aprendidos do zero.incorporação de conhecimento no modelo base. Também há muito trabalho a ser feito nesta área.

Além do poder computacional, há outro problema com o algoritmo:O cultivo da inteligência da máquina e da própria inteligência humana tem duas polaridades。

O acadêmico Guo acredita que no treinamento de modelos grandes, a questão mais importante não está na frente, mas atrás.

Conforme mostrado na figura abaixo, o caminho evolutivo do grande modelo vai da autoaprendizagem > conhecimento indireto > valores > bom senso, enquanto o caminho de cultivo da educação humana é o oposto.

Por causa disso, o acadêmico Guo acredita que devemos sair do atual paradigma de busca de grandes modelos com “sem habilidade abstrata, sem valor subjetivo e sem conhecimento emocional”.

Todos nós sabemos que a linguagem humana é ótima. A linguagem humana não é apenas conteúdo, não é apenas informação, mas também a natureza humana e a energia da informação. Então, como essas coisas são classificadas no modelo? Esta é uma direção importante para nossas pesquisas futuras.

Resumindo, quanto ao próximo passo da inteligência artificial, o Acadêmico Guo acredita que existem três estágios de desenvolvimento:

O primeiro estágio é baseado na autenticidade; o segundo estágio é baseado no valor. A máquina deve ser capaz de expressar seu próprio ponto de vista e formar seu próprio valor subjetivo, e esse ponto de vista pode ser alterado de acordo com seu ambiente; estágio Só quando tem valores consegue entender o que é novidade, e só com novidade consegue criar.

Quando se trata de criar este modelo, a chamada ilusão não é um problema, porque a ilusão é apenas um problema no modelo paradigmático. Escrever um romance deve ser uma ilusão. Sem ilusão, você não pode escrever um romance. Ele só precisa manter a consistência e não precisa de autenticidade, portanto, só precisa refletir um valor. Então, nesse sentido, o desenvolvimento do grande modelo, na verdade. requer Há uma mudança de paradigma.

O desenvolvimento de grandes modelos carece de um “superproduto”

Vice-presidente da JD.com, professor adjunto e supervisor de doutorado na Universidade de WashingtonEle XiaodongAcredita-se que a IA enfrentará três problemas na próxima etapa.

Em primeiro lugar, ele acredita que, de certa forma, o desenvolvimento de grandes modelos entrou num período de estagnação.

Devido às limitações de dados e de capacidade computacional, se as melhorias se basearem simplesmente na escala, o limite máximo poderá ser alcançado e os recursos computacionais tornar-se-ão um fardo cada vez mais pesado. Se a última guerra de preços (etiqueta de preços) for seguida, é muito provável que os benefícios económicos gerados pelos grandes modelos não consigam sequer cobrir a conta de electricidade, pelo que é naturalmente insustentável.

Em segundo lugar, o professor He acredita que toda a aplicação comercial fica aquém do crescimento em escala do próprio modelo. No médio e longo prazo, isso acabará por se tornar um problema:

Especialmente quando vemos uma escala tão grande, não é mais apenas um problema científico, mas também se tornará um problema de engenharia. Por exemplo, se os parâmetros atingirem o nível de trilhões, os dados de chamadas atingirão o nível de 10 trilhões de tokens. Então uma questão deve ser levantada: o valor social que isso traz.

A partir disso, o professor He acredita que atualmenteFalta de um super aplicativo e um super produto, pode realmente refletir o valor do investimento.

A terceira questão é relativamente específica, nomeadamentegrande ilusão de modelo。

Se quisermos construir uma indústria de IA baseada em grandes modelos, devemos ter requisitos extremamente elevados para a ilusão básica de grandes modelos. Se a taxa de erro do grande modelo básico for muito alta, é difícil imaginar que mais aplicações comerciais possam ser sobrepostas a ele.
Aplicações industriais sérias precisam resolver a ilusão.

O professor He acredita que sob a restrição da ilusão, o próximo passo pode ser pensar em como expandir a generalização e a interatividade do modelo, emultimodalÉ uma escolha inevitável.

Grandes modelos não têm consciência dos “limites de capacidade”

CTO do Grupo Lenovo, acadêmico estrangeiro da Academia Europeia de CiênciasRui YongDe uma perspectiva industrial, ele deu a sua opinião sobre o próximo passo da IA.

Ele disse que do ponto de vista industrial, o mais importante é como o modelo é implementado. Em termos de implementação, o Dr. Rui Yong falou principalmente sobre dois pontos:

Não basta ter um modelo grande, é preciso desenvolvê-loagente
Não basta ter um grande modelo de medição de nuvem, é preciso ter umestrutura híbrida

Especificamente, o Dr. Rui Yong listou primeiro alguns estudos e apontou que as limitações dos grandes modelos estão se tornando cada vez mais óbvias. Por exemplo, a pergunta “Qual é maior, 13,8 ou 13,11” mencionada no início, mostra que o modelo realmente não entende o problema.

Em sua opinião, os grandes modelos atuais conectam apenas as informações massivas e fragmentadas vistas no espaço semântico de alta dimensão. Não basta construir grandes redes com grande poder computacional para criar grandes modelos generativos. desenvolvimento de agentes inteligentes.

Dr. Rui Yong enfatizou particularmente o grande modeloLimite de capacidadepergunta.

Na verdade, os grandes modelos de hoje não sabem onde estão os limites de suas capacidades.
Por que os modelos grandes têm alucinações e por que falam bobagens sérias? Na verdade, não está tentando nos enganar, mas não sabe o que sabe ou o que não sabe. Essa é uma questão muito importante, então acho que o primeiro passo é fazer com que o agente conheça os limites. suas capacidades.

Além disso, o Dr. Rui Yong disse que a inteligência por si só não é suficiente para a implementação da IA, e os grandes modelos públicos na nuvem precisam ser privatizados para as empresas. Orientado por dados e orientado pelo conhecimento formam um modelo híbrido de IA, e pequenos modelos também são muito úteis em muitas situações. Existem também modelos orientados para o indivíduo que podem conhecer preferências pessoais.

Não será um grande modelo baseado inteiramente em testes em nuvem, mas um grande modelo que combina dispositivo, borda e nuvem.

notícias