notícias

A IA generativa pode inaugurar a próxima tendência: modelo TTT

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

O foco da próxima geração de inteligência artificial (IA) generativa pode ser modelos de treinamento em tempo de teste, ou TTT, para abreviar.

A arquitetura Transformers é a base do modelo de vídeo Sora da OpenAI e o núcleo dos modelos de geração de texto, como Claude da Anthropic, Gemini do Google e o modelo carro-chefe da OpenAI GPT-4o. Mas agora, a evolução destes modelos começa a encontrar obstáculos técnicos, especialmente aqueles relacionados com a computação. Porque os Transformers não são particularmente eficientes no processamento e análise de grandes quantidades de dados, pelo menos quando executados em hardware disponível no mercado. As empresas constroem e expandem infra-estruturas para satisfazer as necessidades dos transformadores, o que resulta num aumento dramático na procura de energia que pode não ser capaz de satisfazer a procura de forma sustentável.

Este mês, pesquisadores da Universidade de Stanford, UC San Diego, UC Berkeley e Meta anunciaram em conjunto que passaram um ano e meio desenvolvendo a arquitetura TTT. A equipe de pesquisa afirma que o modelo TTT não só pode lidar com muito mais dados do que os Transformers, mas também não consome tanto poder de computação quanto os Transformers.

Por que os estrangeiros pensam que o modelo TTT é mais promissor do que os Transformers? A primeira coisa a entender é que um componente básico dos Transformers é o “estado oculto”, que é essencialmente uma longa lista de dados. Quando o Transformer processa algo, ele adiciona entradas ao estado oculto para "lembrar" o que acabou de processar. Por exemplo, se o modelo estiver processando um livro, o valor do estado oculto será a representação de uma palavra (ou parte de uma palavra).

Yu Sun, pós-doutorado na Universidade de Stanford que participou da pesquisa TTT mencionada, explicou recentemente à mídia que se o Transformer for considerado uma entidade inteligente, então a tabela de consulta e seu estado oculto são o cérebro do Transformer. Este cérebro implementa alguns dos recursos mais conhecidos do Transformer, como o aprendizado contextual.

O estado oculto ajuda os Transformers a se tornarem poderosos, mas também atrapalha o desenvolvimento dos Transformers. Por exemplo, os Transformers acabaram de ler um livro. Para "dizer" pelo menos uma palavra neste livro, o modelo dos Transformers deve digitalizar toda a tabela de pesquisa. Este requisito computacional é equivalente a reler o livro inteiro.

Então, Sun e outros pesquisadores da TTT pensaram em substituir os estados ocultos por modelos de aprendizado de máquina – como os bonecos de nidificação da IA, um modelo dentro de um modelo. Ao contrário das tabelas de pesquisa dos Transformers, o modelo interno de aprendizado de máquina do modelo TTT não cresce à medida que mais dados são processados. Em vez disso, ele codifica os dados processados ​​em variáveis ​​representativas chamadas pesos, razão pela qual o modelo TTT tem alto desempenho. Não importa quantos dados um modelo TTT processe, o tamanho do seu modelo interno não muda.

A Sun acredita que os futuros modelos TTT poderão processar com eficiência bilhões de dados, de palavras a imagens, de gravações a vídeos. Isto está muito além das capacidades dos modelos existentes. O sistema da TTT pode dizer X palavras para um livro sem ter que fazer o complicado cálculo de reler o livro X vezes. "Modelos de vídeo em grande escala baseados em Transformers, como Sora, só podem lidar com vídeos de 10 segundos porque têm apenas um 'cérebro' de tabela de pesquisa. Nosso objetivo final é desenvolver um sistema que possa lidar com vídeos longos semelhantes à experiência visual na vida humana”

Os modelos TTT eventualmente substituirão os transformadores? A mídia acredita que isso é possível, mas ainda é cedo para tirar conclusões. O modelo TTT não é um substituto direto dos Transformers neste momento. Os pesquisadores desenvolveram apenas dois modelos pequenos para o estudo, por isso é atualmente difícil comparar o TTT com os resultados alcançados por alguns dos modelos maiores dos Transformers.

Mike Cook, professor sênior do Departamento de Informática do King's College London que não esteve envolvido no estudo TTT mencionado, comentou que o TTT é uma inovação muito interessante. Se os dados apoiarem a ideia de que pode melhorar a eficiência, isso é uma boa notícia. , mas ele não sabe dizer. O TTT é melhor que a arquitetura existente? Cook disse que, quando era estudante de graduação, um antigo professor costumava contar uma piada: Como resolver qualquer problema de ciência da computação? Adicione outra camada de abstração. Adicionar uma rede neural a uma rede neural o lembrou da solução para essa piada.