notícias

A caixa preta foi aberta! Ferramenta de interpretação visual do Transformer, executando GPT-2 localmente

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Estamos em 2024, tem alguém que ainda não entende como funciona o Transformer? Venha experimentar esta ferramenta interativa.

Em 2017, o Google propôs o Transformer no artigo "Atenção é tudo que você precisa", que se tornou um grande avanço no campo do aprendizado profundo. O número de citações deste artigo atingiu quase 130.000. Todos os modelos subsequentes da família GPT também são baseados na arquitetura Transformer, o que mostra sua ampla influência.

Como uma arquitetura de rede neural, o Transformer é popular em uma variedade de tarefas, de texto a visão, especialmente no campo atualmente quente de chatbots de IA.

No entanto, para muitos não especialistas, o funcionamento interno do Transformer permanece opaco, dificultando a sua compreensão e participação. Portanto, é particularmente necessário desmistificar esta arquitetura. No entanto, muitos blogs, tutoriais em vídeo e visualizações 3D geralmente enfatizam a complexidade da matemática e da implementação de modelos, o que pode confundir os iniciantes. Ao mesmo tempo, o trabalho de visualização concebido para profissionais de IA concentra-se na interpretabilidade neuronal e hierárquica e é um desafio para não especialistas.

Assim, vários pesquisadores da Georgia Tech e da IBM Research desenvolveramUma ferramenta de visualização interativa de código aberto baseada na web "Transformer Explicador" para ajudar não-profissionais a entender a estrutura avançada do modelo do Transformer e as operações matemáticas de baixo nível. Conforme mostrado na Figura 1 abaixo.

Transformer Explicador explica o funcionamento interno do Transformer por meio da geração de texto, usandoDesign de visualização do diagrama Sankey, inspirado em trabalhos recentes que tratam os Transformers como sistemas dinâmicos, enfatizando como os dados de entrada fluem através dos componentes do modelo. A partir dos resultados, o diagrama de Sankey ilustra efetivamente como as informações são transferidas no modelo e mostra como a entrada é processada e transformada por meio de operações do Transformer.

Em termos de conteúdo, o Transformer Explicador integra fortemente uma visão geral do modelo que resume a estrutura do Transformer e permite aos usuários fazer uma transição suave entre vários níveis de abstração para visualizar a interação entre operações matemáticas de baixo nível e estruturas de modelo de alto nível para ajudá-los a compreender completamente Conceitos complexos em Transformador.

Em termos de funcionalidade, o Transformer Explicar não apenas fornece implementação baseada na web, mas também possui recursos de raciocínio em tempo real. Ao contrário de muitas ferramentas existentes que exigem instalação de software personalizado ou não possuem recursos de inferência, ele integra um modelo GPT-2 em tempo real que é executado nativamente no navegador usando uma estrutura front-end moderna. Os usuários podem experimentar interativamente seu texto de entrada e observar em tempo real como os componentes e parâmetros internos do Transformer funcionam juntos para prever o próximo token.

O Transformer Explicador expande o acesso a tecnologias modernas de IA generativa sem exigir recursos avançados de computação, instalação ou habilidades de programação. A razão pela qual o GPT-2 foi escolhido é que o modelo é bem conhecido, tem velocidade de inferência rápida e é semelhante em arquitetura a modelos mais avançados, como GPT-3 e GPT-4.

Endereço do artigo: https://arxiv.org/pdf/2408.04619

Endereço GitHub: http://poloclub.github.io/transformer-explainer/

Endereço de experiência online: https://t.co/jyBlJTMa7m



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c64dda2ea3c6626&chksm=84e43ed9b393b7cf1774 14848deaed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd

Como suporta entrada automática, Machine Heart também tentou "que lindo dia", e os resultados da execução são mostrados na figura abaixo.

Muitos internautas elogiaram muito o Transformer Explicador. Algumas pessoas dizem que esta é uma ferramenta interativa muito legal.

Algumas pessoas dizem que estavam esperando por uma ferramenta intuitiva para explicar a autoatenção e a codificação posicional, que é o Transformer Explicador. Será uma virada de jogo.

Alguém fez uma tradução para o chinês.

Endereço de exibição: http://llm-viz-cn.iiiai.com/llm

Aqui não posso deixar de pensar em Karpathy, outra grande figura da ciência popular. Ele já escreveu muitos tutoriais sobre a reprodução do GPT-2, incluindo "GPT-2 de rolamento manual em linguagem C pura, o novo projeto do antigo OpenAI e Tesla. executivos é popular." ", "O último tutorial em vídeo de quatro horas de Karpathy: Reproduza o GPT-2 do zero, execute-o durante a noite e faça-o", etc. Agora que existe uma ferramenta de visualização dos princípios internos do Transformer, parece que o efeito de aprendizagem será melhor quando os dois forem usados ​​em conjunto.

Projeto e implementação do sistema Transformer Explicador

O Transformer Explicador mostra visualmente como o modelo GPT-2 baseado no Transformer é treinado para processar entrada de texto e prever o próximo token. O front-end usa Svelte e D3 para implementar a visualização interativa, e o back-end usa o tempo de execução ONNX e a biblioteca Transformers do HuggingFace para executar o modelo GPT-2 no navegador.

Um grande desafio ao projetar o Transformer Explicador foi gerenciar a complexidade da arquitetura subjacente, uma vez que mostrar todos os detalhes de uma vez desviaria a atenção do assunto. Para resolver este problema, os pesquisadores prestaram grande atenção a dois princípios fundamentais de design.

Primeiro, os pesquisadores reduzem a complexidade por meio de múltiplos níveis de abstração. Eles estruturam suas ferramentas para apresentar informações em diferentes níveis de abstração. Isso evita a sobrecarga de informações, permitindo que os usuários comecem com uma visão geral de alto nível e avancem até os detalhes conforme necessário. No nível mais alto, a ferramenta mostra o fluxo de processamento completo: desde o recebimento de texto fornecido pelo usuário como entrada (Figura 1A), incorporando-o, processando-o através de vários blocos Transformer e usando os dados processados ​​para prever a próxima previsão de token A mais provável está classificado.

Operações intermediárias, como o cálculo da matriz de atenção (Figura 1C), que são recolhidas por padrão para exibir visualmente a importância dos resultados do cálculo, o usuário pode optar por expandir e visualizar seu processo de derivação através de uma sequência animada. Os pesquisadores adotaram uma linguagem visual consistente, como empilhar cabeças de atenção e recolher blocos repetidos do Transformer, para ajudar os usuários a identificar padrões repetidos na arquitetura, mantendo um fluxo de dados de ponta a ponta.

Em segundo lugar, os investigadores melhoram a compreensão e o envolvimento através da interactividade. O parâmetro de temperatura é crucial no controle da distribuição de probabilidade de saída do Transformador. Ele afetará a certeza (em baixas temperaturas) ou a aleatoriedade (em altas temperaturas) da próxima previsão do token. Mas os recursos educacionais existentes sobre Transformers muitas vezes ignoram este aspecto. Os usuários agora podem usar esta nova ferramenta para ajustar os parâmetros de temperatura em tempo real (Figura 1B) e visualizar seu papel crítico no controle da certeza da previsão (Figura 2).

Além disso, os usuários podem selecionar exemplos fornecidos ou inserir seu próprio texto (Figura 1A). O suporte ao texto de entrada personalizado pode permitir que os usuários participem mais profundamente. Ao analisar o comportamento do modelo sob diferentes condições e testar interativamente suas próprias suposições com base em diferentes entradas de texto, o senso de participação do usuário é aprimorado.

Então, quais são os cenários práticos de aplicação?

O professor Rousseau está modernizando o conteúdo do curso de processamento de linguagem natural para destacar os avanços recentes na IA generativa. Ela percebeu que alguns alunos viam os modelos baseados no Transformer como uma “mágica” indescritível, enquanto outros queriam entender como os modelos funcionavam, mas não sabiam por onde começar.

Para resolver esse problema, ela orientou os alunos a usar o Transformer Explicador, que fornece uma visão geral interativa do Transformer (Figura 1) e incentiva os alunos a experimentar e aprender ativamente. Sua turma tem mais de 300 alunos, e a capacidade do Transformer Explicador de ser executado inteiramente nos navegadores dos alunos, sem necessidade de instalação de software ou hardware especial, é uma vantagem significativa e elimina as preocupações dos alunos com o gerenciamento de configuração de software ou hardware.

Esta ferramenta apresenta aos alunos operações matemáticas complexas, como cálculos de atenção, por meio de abstrações reversíveis animadas e interativas (Figura 1C). Essa abordagem ajuda os alunos a obter uma compreensão de alto nível das operações e uma compreensão profunda dos detalhes subjacentes que produzem esses resultados.

O professor Rousseau também reconheceu que as capacidades e limitações técnicas do Transformer eram às vezes personificadas (por exemplo, ver os parâmetros de temperatura como controles de "criatividade"). Ao incentivar os alunos a experimentarem o controle deslizante de temperatura (Figura 1B), ela mostrou aos alunos como a temperatura realmente modifica a distribuição de probabilidade do próximo token (Figura 2), controlando assim a aleatoriedade das previsões de uma forma determinística e mais criativa, atingindo um equilíbrio entre saídas.

Além disso, quando o sistema visualiza o processo de processamento de tokens, os alunos podem ver que não existe a chamada “mágica” aqui – não importa qual seja o texto de entrada (Figura 1A), o modelo segue uma sequência bem definida de operações, usando a arquitetura do Transformer. Experimente um token por vez e repita o processo.

trabalho futuro

Os pesquisadores estão aprimorando as explicações interativas da ferramenta para melhorar a experiência de aprendizagem. Ao mesmo tempo, eles também estão melhorando a velocidade de inferência por meio de WebGPU e reduzindo o tamanho do modelo por meio de tecnologia de compressão. Eles também planejam realizar pesquisas com usuários para avaliar a eficácia e usabilidade do Transformer Explainer, observar como novatos, estudantes, educadores e profissionais de IA usam a ferramenta e coletar feedback sobre recursos adicionais que gostariam de ver apoiados.

O que você está esperando? Comece e experimente, quebre a ilusão "mágica" sobre o Transformer e entenda verdadeiramente os princípios por trás dele.