grandes modelos estão começando a aprender a pensar como humanos. onde está o caminho para a agi?

2024-09-18

há dois meses, o problema das fracas capacidades matemáticas de grandes modelos atraiu a atenção generalizada. muitos modelos grandes no mercado não conseguem nem responder à simples questão matemática "qual é maior, 9,11 ou 9,9?" dois meses depois, a indústria está gradualmente resolvendo o problema das limitações nas capacidades matemáticas de grandes modelos.

na madrugada de 13 de setembro, horário de pequim, a openai lançou uma nova série de modelos de raciocínio sem aviso prévio, incluindo os modelos o1-preview, o1 e o1-mini. este é o tão falado “projeto strawberry” da openai com recursos avançados de raciocínio. de acordo com a openai, a nova série de modelos teve um bom desempenho em dados e codificação, pontuando 83% no exame de qualificação da olimpíada internacional de matemática (imo).

a openai não está sozinha na tentativa de romper as limitações das capacidades matemáticas. a equipe do google deepmind também lançou anteriormente o sistema alpha alphaproof, que é usado para resolver problemas matemáticos complexos.

romper os limites da capacidade matemática é um novo passo na evolução da tecnologia de ia e no caminho para a agi (inteligência artificial geral). de acordo com simon see, professor da coventry university e diretor global do centro de tecnologia de inteligência artificial da nvidia, os esforços da indústria para melhorar as capacidades matemáticas de ia incluem esforços para combinar llm (modelo de linguagem grande) com outras tecnologias. em direção a agi (inteligência geral artificial).

como resolver limitações de habilidade matemática?

“este é um grande avanço para tarefas de raciocínio complexas e representa um novo nível de capacidades de inteligência artificial.”, escreveu a openai ao apresentar a série de modelos o1. o ceo da openai, sam altman, também disse nas plataformas sociais que o novo modelo é o início de um novo paradigma, ou seja, a ia pode realizar raciocínios complexos gerais.

capacidades matemáticas aprimoradas são uma característica importante desta série de modelos. openai introduziu que o desempenho atualizado da nova série de modelos é semelhante ao de estudantes de doutorado que completam tarefas desafiadoras de referência em física, química e biologia. no exame de qualificação da olimpíada internacional de matemática (imo), o gpt-4o resolveu corretamente apenas 13%. das questões, enquanto o novo modelo obteve 83%.

em relação a como o novo modelo pode alcançar melhores capacidades matemáticas e de programação, a openai introduziu que a empresa usa algoritmos de aprendizagem por reforço em grande escala para “ensinar” o modelo a usar cadeias de pensamento para pensar de forma eficiente ao treinar dados de forma eficiente, semelhante a como os humanos pensam por um muito tempo antes de responder a perguntas difíceis. o tempo, à medida que o aprendizado por reforço aumenta e o tempo de reflexão aumenta, o desempenho do o1 continua a melhorar. o pesquisador da openai, noam brown, disse que o1 abre uma nova dimensão para o dimensionamento de grandes modelos (escala), de modo que grandes modelos não estão mais sujeitos ao gargalo do pré-treinamento e agora também podem expandir os cálculos de inferência. quanto ao papel das capacidades de raciocínio aprimoradas, a openai afirmou que ela pode ser usada para anotar dados de sequenciamento de células na área de assistência médica e gerar fórmulas matemáticas complexas na área de pesquisa física.

o google deepmind aprimora o desempenho final do sistema de ia combinando outras tecnologias além do llm. alphaproof também se baseia na aprendizagem por reforço e é um sistema de raciocínio matemático. o sistema treinou-se para provar a linguagem de programação lean, uma linguagem de programação usada para ajudar a verificar teoremas, e combinou o modelo de linguagem de treinamento com o algoritmo de aprendizagem por reforço alphazero. segundo o google, o lean permite que o sistema verifique a correção quando se trata de provas de raciocínio matemático. quando confrontado com um problema, o alphaproof gera soluções candidatas e então procura no lean possíveis etapas de prova para provar ou refutar.

independentemente de os princípios técnicos serem semelhantes, alphaproof e openai o1 tendem a pensar profundamente em comparação com os modelos anteriores, e não dependem apenas da capacidade do llm de prever e gerar rapidamente o próximo token (elemento de palavra).

como chegar à agi?

anteriormente, um grande desenvolvedor de modelos disse aos repórteres que uma das razões para a fraca capacidade matemática de grandes modelos é que uma grande quantidade de dados matemáticos de alta qualidade não é usada para treinar o modelo. à medida que a qualidade dos dados melhora, o problema da matemática fraca. habilidade pode ser resolvida. no entanto, além das razões para os dados de treinamento, os analistas da indústria dizem que a fraca capacidade matemática do llm também se deve ao fato de o método de previsão do próximo token não ser realmente inteligente. a julgar pelas tendências recentes, a indústria, incluindo openai e google deepmind, está resolvendo o problema da fraca capacidade matemática e de raciocínio do mecanismo operacional dos sistemas de ia. na verdade, está usando várias tecnologias para compensar as deficiências dos métodos operacionais llm. , até certo ponto. faça o llm pensar mais como humanos.

em relação às limitações das capacidades do llm, como resolver problemas como a capacidade matemática e como passar do llm existente para o agi, a indústria ainda está discutindo as causas e soluções. muitos veteranos da indústria realizaram recentemente uma conferência organizada pela saudi data. e autoridade de inteligência artificial discutida na cúpula mundial de inteligência artificial gain summit. na cúpula, simon see disse que a inteligência artificial atual é "estreita". muitas pessoas pensam que o llm se tornará a força motriz para a realização da agi, mas na verdade as pessoas não entendem realmente como funciona e ainda estão no limite do desenvolvimento do llm. ainda há muitos problemas que precisam ser resolvidos, como a impossibilidade de construir modelos cada vez maiores porque não é possível fornecer energia ilimitada.

"agora temos uma grande quantidade de dados. depois que o modelo for treinado o suficiente, surgirão capacidades. na minha opinião, não é viável confiar em uma única tecnologia. a direção em que a indústria está trabalhando atualmente inclui a combinação do llm com outras conhecimento e tecnologias, como novos símbolos, cálculo, etc. para compreensão e raciocínio." simon see disse que a combinação de diferentes tecnologias fez um grande progresso recentemente. o alphaproof da deepmind combina linguagem de programação lean, modelos de linguagem, etc., para que a ia possa ser usado para provas matemáticas. deixe o llm combinar várias tecnologias para dar ao sistema de ia o poder potencial para levar à agi.

antoine blondeau, cofundador e sócio-gerente da alpha intelligence captal, também acredita que é uma conclusão precipitada que as máquinas acabarão por ser melhores que os humanos, mas levará algum tempo para alcançar esse resultado, e ainda há muito conhecimento científico. trabalho a ser feito. ele julgou que a ia não será um modelo único, mas pode ser uma combinação de vários modelos. a máquina acabará aprendendo a observar, provar ou refutar, generalizar e aprender no mundo real como os humanos.

em relação ao atual mecanismo e limitações do llm, antoine blondeau acredita que o ser humano aprende com a vida, 95% da qual aprende com “vídeos com som”. % é de texto, como livros. os humanos aprenderão a semântica com os vídeos. por exemplo, quando cinco dedos aparecem, significa que pode ser um humano ou outro animal. os humanos também compreenderão a sequência de tempo e a causa e o efeito dos eventos. mas quando uma máquina aprende com um vídeo, sua tarefa é prever o próximo pixel, o que não é o método humano. se não conseguirmos fazer com que as máquinas aprendam como os humanos, será difícil para as máquinas atingirem níveis mais elevados de inteligência.

alex smola, um conhecido cientista de aprendizado de máquina e fundador e ceo da grande startup boson ai, apontou que as limitações da operação do llm também estão relacionadas à previsão de tokens. ele disse que a capacidade do llm de prever o próximo token (elemento de palavra) tem sido usada para compreender imagens, sons, produzir sons e, nos últimos 12 meses, tudo parece ter se tornado um token.

"até certo ponto, começamos a esgotar o número de tokens disponíveis. uma estimativa aproximada é que pode haver 100 trilhões de tokens, que podem ser os tokens que os humanos podem usar para construir o llm. ainda existem muitos suprimentos de vídeo e áudio, algum tipo de na medida em que isso entrará em jogo, também depende da nvidia ou de outras empresas que produzam chips que possam lidar com esses modos. alex smola disse que, em um futuro próximo, o núcleo do llm pode ser a modelagem de sequência (modelagem de sequência). , que agora pode ver os dados, a convergência de hardware e os modelos probabilísticos também estão evoluindo para estruturas semelhantes. podemos ver até onde a exploração relacionada pode ir nos próximos anos.

combinando o progresso tecnológico e olhando para o futuro, antoine blondeau acredita que a realização da agi pode ocorrer dentro de 10 ou 20 anos, e a velocidade da evolução é agora muito rápida. simon see acredita que para atingir a agi, 80% deste processo poderá ser alcançado nestes 10 anos, mas avalia que os últimos 20% serão muito desafiadores e levarão mais tempo.

(este artigo vem do china business news)

relatório/comentários

notícias

grandes modelos estão começando a aprender a pensar como humanos. onde está o caminho para a agi?

introdução

minhas informações de contato