notícias

equipar robôs com "cérebros de minhoca"? rede neural líquida não transformadora!

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

relatório do coração da máquina

departamento editorial de coração de máquina

uma nova arquitetura inspirada em c. elegans, todos os três "formatos de xícara" podem atingir desempenho sota e podem ser implantados em ambientes com recursos altamente limitados. os robôs móveis podem precisar do cérebro de um bug.

na era dos modelos grandes, o transformer proposto no artigo seminal do google de 2017 "atenção é tudo que você precisa" tornou-se uma arquitetura convencional.

no entanto, a liquid ai, uma startup co-fundada por ex-pesquisadores do laboratório de ciência da computação e inteligência artificial (csail) do mit, seguiu um caminho diferente.

a liquid ai afirma que seu objetivo é “explorar maneiras de construir modelos além do transformer pré-treinado generativo básico (gpt)”.

para atingir esse objetivo, a liquid ai lançou seus primeiros modelos de ia multimodais: liquid foundation models (lfm). esta é uma nova geração de modelos generativos de ia construídos a partir dos primeiros princípios, com lfms 1b, 3b e 40b alcançando desempenho sota em todas as escalas, mantendo um menor consumo de memória e inferência mais eficiente.

o diretor de pós-treinamento da liquid ai, maxime labonne, disse no x que o lfm é a versão da qual ele mais se orgulha em sua carreira. a principal vantagem do lfm é que eles podem superar os modelos baseados em transformer enquanto ocupam menos memória.

algumas pessoas dizem que o lfm é o terminador do transformer.

alguns internautas elogiaram o lfm como uma virada de jogo.

alguns internautas acreditam que “talvez seja hora de abandonar os transformers. esta nova arquitetura parece muito promissora”.

liquid ai lança três modelos

a linha lfm está disponível em três tamanhos e variantes diferentes:

  • lfm intensivo 1.3b (mínimo), ideal para ambientes com recursos altamente limitados.

  • lfm 3b denso, otimizado para implantação de borda.

  • modelo lfm 40.3b moe (o maior modelo híbrido especializado semelhante ao mistral), projetado para lidar com tarefas mais complexas.

desempenho sota

comparação do lfm-1b com modelos em escala equivalente. o lfm-1b obteve pontuações máximas em todos os testes de benchmark, tornando-o o modelo mais avançado em sua escala. esta é a primeira vez que uma arquitetura não gpt supera significativamente os modelos baseados em transformer. por exemplo, o lfm 1.3b superou o llama 3.2-1.2b da meta e o phi-1.5 da microsoft em benchmarks de terceiros.

o lfm-3b alcança um desempenho incrível, ficando em primeiro lugar em comparações com modelos de transformadores 3b, modelos híbridos e modelos rnn. também é comparável ao phi-3.5-mini em vários testes de benchmark, sendo 18,4% menor. pode-se observar que o lfm-3b é ideal para aplicações móveis e outras aplicações de texto de ponta.

o lfm-40b alcança um novo equilíbrio entre tamanho do modelo e qualidade de saída. ele pode ativar parâmetros de 12b em tempo de execução, com desempenho comparável a modelos maiores, enquanto a arquitetura moe permite maior rendimento e pode ser implantada em hardware mais econômico.

memória eficiente

lfm ocupa menos memória em comparação com a arquitetura transformer. isto é especialmente verdadeiro para entradas longas, uma vez que o cache kv no llm baseado em transformer cresce linearmente com o comprimento da sequência. ao compactar eficientemente a entrada, o lfm pode processar sequências mais longas no mesmo hardware. o lfm ocupa menos memória em comparação com outros modelos da classe 3b. por exemplo, o lfm-3b requer apenas 16 gb de memória, enquanto o llama-3.2-3b da meta requer mais de 48 gb de memória.

lfm realmente aproveita o comprimento do contexto

a tabela abaixo compara o desempenho de vários modelos em diferentes durações de contexto.

esta janela de contexto eficiente permite pela primeira vez tarefas de longo contexto em dispositivos de borda. para os desenvolvedores, ele desbloqueia novos aplicativos, incluindo análise e resumo de documentos, interações mais significativas com chatbots sensíveis ao contexto e desempenho aprimorado de geração aumentada de recuperação (rag).

esses modelos são competitivos não apenas em benchmarks de desempenho bruto, mas também em eficiência operacional, tornando-os ideais para uma variedade de casos de uso, desde aplicações de nível empresarial até a ponta em serviços financeiros, biotecnologia e implantação de equipamentos eletrônicos de consumo.

os usuários podem acessá-lo através do lambda chat ou perplexity ai, etc.

como o liquid vai além do transformer pré-treinado generativo (gpt)

liquid usa um híbrido de unidades computacionais profundamente enraizadas nas teorias da teoria de sistemas dinâmicos, processamento de sinais e álgebra linear numérica. o resultado foi o desenvolvimento de modelos de ia de uso geral que podem ser usados ​​para simular qualquer tipo de dados de sequência, incluindo vídeo, áudio, texto, séries temporais e sinais, para treinar seu novo lfm.

já no ano passado, a liquid ai usou um método chamado lnn (liquid neural networks). ao contrário dos modelos tradicionais de aprendizagem profunda que exigem milhares de neurônios para realizar tarefas complexas, o lnn mostra que menos neurônios (combinados com fórmulas matemáticas inovadoras) podem alcançar o mesmo. resultados.

os novos modelos da liquid ai mantêm o principal benefício dessa adaptabilidade, permitindo ajustes em tempo real durante a inferência sem a sobrecarga computacional associada aos modelos tradicionais. pode lidar com eficiência com até 1 milhão de tokens, minimizando o uso de memória.

por exemplo, em termos de consumo de memória de inferência, o modelo lfm-3b supera modelos populares como gemma-2 do google, phi-3 da microsoft e llama-3.2 da meta, especialmente quando o comprimento do token é estendido.

enquanto outros modelos experimentam um aumento dramático no uso de memória ao processar contextos longos, o lfm-3b ocupa muito menos espaço, tornando-o ideal para aplicações que exigem processamento sequencial pesado de dados, como análise de documentos ou chatbots.

a liquid ai construiu seu modelo fundamental como um modelo universal em diversas modalidades de dados, incluindo áudio, vídeo e texto.

com esta capacidade multimodal, a liquid pretende resolver uma variedade de desafios específicos do setor, que vão desde serviços financeiros até biotecnologia e eletrônicos de consumo.

a liquid ai está otimizando seus modelos para produtos de vários fabricantes de hardware, incluindo nvidia, amd, apple, qualcomm e cerebras.

a liquid ai está convidando os primeiros usuários e desenvolvedores a testar seus novos modelos e fornecer feedback. embora o modelo ainda não esteja perfeito, a empresa planeja usar o feedback para melhorar o produto. eles realizarão um evento oficial de lançamento em 23 de outubro de 2024 no mit.

num esforço para manter a transparência e o avanço da ciência, a empresa planeia publicar uma série de posts técnicos antes do lançamento. eles também incentivam os usuários a realizar testes de equipe vermelha para explorar os limites do modelo e ajudar a melhorar versões futuras.

o lfm introduzido pela liquid ai combina alto desempenho e uso eficiente de memória, fornecendo uma alternativa poderosa aos modelos tradicionais baseados em transformer. isso faz com que se espere que a liquid ai se torne um player importante no campo de modelos básicos.

liquid ai: começando com um pequeno bug

esta startup, que compete abertamente com a openai e outras grandes empresas de modelos de linguagem, foi incubada pelo laboratório de ciência da computação e inteligência artificial do mit, csail, e foi fundada em março de 2023.

em dezembro de 2023, a empresa recebeu us$ 37,5 milhões em financiamento inicial, com avaliação chegando a 300 milhões.

os investidores incluem o cofundador do github, tom preston werner, o cofundador do shopify, tobias lütke, o cofundador da red hat, bob young, etc.

daniela rus, diretora do mit csail, é uma das fundadoras da empresa. esta famosa roboticista e cientista da computação é também a primeira mulher diretora do laboratório.

além de daniela rus, os outros três cofundadores da liquid ai eram todos pesquisadores de pós-doutorado no mit csail.

o cofundador e ceo ramin hasani foi o cientista-chefe de inteligência artificial da vanguard, uma das maiores empresas de gestão de fundos dos estados unidos, antes de iniciar uma pesquisa de pós-doutorado no mit csail.

o cofundador e cto mathias lechner estudou a estrutura neural dos nematóides com hasani desde quando eram estudantes na universidade técnica de viena.

o cofundador e diretor científico alexander amini foi aluno de doutorado de daniela rus.

os quatro fundadores (da esquerda para a direita): ceo ramin hasani, daniela rus, diretor científico alexander amini e cto mathias lechner

em 2017, daniela rus "cavou" hasani e lechner para o mit csail, e rus e seu aluno de doutorado amini também se juntaram à pesquisa em redes neurais líquidas.

daniela rus destacou que a ia generativa tem limitações óbvias em termos de segurança, interpretabilidade e poder computacional, dificultando a sua utilização para resolver problemas de robôs, especialmente robôs móveis.

inspirada na estrutura neural do nemátodo caenorhabditis elegans, “convidado frequente” da comunidade de investigação científica, daniela rus e investigadores de pós-doutoramento no seu laboratório desenvolveram um novo tipo de rede neural flexível, também conhecida como rede neural líquida.

caenorhabditis elegans também é o único organismo para o qual a determinação do conectoma foi concluída (em 2019). embora o cérebro seja simples, ele também é muito melhor em aprender e se adaptar ao ambiente do que qualquer sistema atual de inteligência artificial.

caenorhabditis elegans tem apenas 1 mm de comprimento, 302 neurônios e 96 músculos, mas é capaz de comportamentos inteligentes complexos, como detectar, escapar, forragear e acasalar.

é o agente inteligente vivo mais simples e o menor portador para a realização da inteligência artificial geral através da simulação de mecanismos neurais biológicos.

nos últimos anos, pesquisadores científicos também usaram resultados de pesquisas sobre os nervos de c. elegans para conduzir simulações biológicas computacionais. ao estudar como funciona o cérebro de c. elegans, daniela rus e outros projetaram uma "rede líquida com constante de tempo":

um modelo de tempo contínuo que consiste em múltiplos sistemas dinâmicos simples que se regulam através de portas não lineares.

se dissermos que uma rede neural padrão é como uma camada de barragens uniformemente espaçadas, com muitas válvulas (pesos) instaladas em cada camada de barragens, a torrente calculada deve passar por essas válvulas toda vez que passar por uma camada de barragens, e então correr para o próximo nível.

bem, as redes neurais líquidas não precisam de barragens porque cada neurônio é controlado por uma equação diferencial (edo).

este tipo de rede é caracterizada por constantes de tempo variáveis ​​e a saída é obtida através da resolução de equações diferenciais. a pesquisa mostra que ele supera os modelos tradicionais em termos de estabilidade, expressividade e previsão de séries temporais.

mais tarde, daniela rus e outros propuseram um método de aproximação que pode usar soluções de forma fechada para simular eficientemente a interação entre neurônios e sinapses (redes neurais de tempo contínuo de forma fechada), o que não só melhorou muito o cálculo do modelo velocidade, também mostra melhor escalabilidade e tem bom desempenho na modelagem de séries temporais, superando muitos modelos avançados de redes neurais recorrentes.

os membros da equipe da liquid ai afirmaram que a arquitetura é adequada para analisar qualquer fenômeno que flutue ao longo do tempo, incluindo processamento de vídeo, direção autônoma, monitoramento cerebral e cardíaco, negociação financeira (cotações de ações) e previsões meteorológicas.

além de serem flexíveis como um líquido, outra característica das redes neurais líquidas é que elas são muito menores em escala do que os modelos generativos de ia, que geralmente possuem bilhões de parâmetros.

por exemplo, o lfm 1.3b, que pode ser implantado em ambientes com recursos altamente limitados, possui apenas parâmetros de 1,3b (semelhante à versão máxima do gpt-2 1.5b), mantendo um menor consumo de memória e inferência mais eficiente, e pode ser usado em vários run na plataforma de hardware do robô.

além disso, as redes neurais líquidas também apresentam a vantagem da interpretabilidade devido ao seu pequeno tamanho e arquitetura simples.

no entanto, resta saber como a nova arquitetura irá competir com os modelos convencionais de concorrentes como o openai.

hasani disse que a liquid ai atualmente não tem planos de desenvolver aplicativos como chatgpt para consumidores. a empresa está se concentrando primeiro em clientes corporativos que buscam modelar pesquisas financeiras e médicas.

links de referência:

https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/

https://arxiv.org/abs/2106.13898

https://arxiv.org/abs/2006.04439

https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai