notizia

La scatola nera è stata aperta! Strumento di interpretazione visiva del trasformatore, che esegue GPT-2 localmente

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Siamo nel 2024, c’è qualcuno che ancora non ha capito come funziona Transformer? Vieni a provare questo strumento interattivo.

Nel 2017, Google ha proposto Transformer nel documento "L'attenzione è tutto ciò di cui hai bisogno", che è diventato un importante passo avanti nel campo del deep learning. Il numero di citazioni di questo articolo ha raggiunto quasi 130.000. Anche tutti i modelli successivi della famiglia GPT sono basati sull'architettura Transformer, che mostra la sua ampia influenza.

Come architettura di rete neurale, Transformer è popolare in una varietà di attività, dal testo alla visione, soprattutto nel campo attualmente caldo dei chatbot AI.

Tuttavia, per molti non esperti, il funzionamento interno di Transformer rimane opaco, ostacolandone la comprensione e la partecipazione. Pertanto, è particolarmente necessario demistificare questa architettura. Tuttavia, molti blog, tutorial video e visualizzazioni 3D spesso sottolineano la complessità della matematica e dell'implementazione del modello, il che può confondere i principianti. Allo stesso tempo, il lavoro di visualizzazione progettato per i professionisti dell’intelligenza artificiale si concentra sull’interpretabilità neuronale e gerarchica e rappresenta una sfida per i non esperti.

Così si sono sviluppati diversi ricercatori della Georgia Tech e dell'IBM ResearchUno strumento di visualizzazione interattivo open source basato sul web "Transformer Explainer" per aiutare i non professionisti a comprendere la struttura avanzata del modello di Transformer e le operazioni matematiche di basso livello. Come mostrato nella Figura 1 di seguito.

Transformer Explainer spiega il funzionamento interno di Transformer attraverso la generazione di testo, utilizzandoProgettazione della visualizzazione del diagramma di Sankey, ispirato al recente lavoro che tratta i Transformers come sistemi dinamici, enfatizzando il modo in cui i dati di input fluiscono attraverso i componenti del modello. Dai risultati, il diagramma di Sankey illustra efficacemente come le informazioni vengono trasferite nel modello e mostra come l'input viene elaborato e trasformato attraverso le operazioni di Transformer.

In termini di contenuto, Transformer Explainer integra strettamente una panoramica del modello che riassume la struttura del Transformer e consente agli utenti di passare agevolmente tra più livelli di astrazione per visualizzare l'interazione tra operazioni matematiche di basso livello e strutture del modello di alto livello per aiutarli a comprendere appieno concetti complessi nel Trasformatore.

In termini di funzionalità, Transformer Explainer non solo fornisce un'implementazione basata sul web, ma ha anche capacità di ragionamento in tempo reale. A differenza di molti strumenti esistenti che richiedono l'installazione di software personalizzato o mancano di capacità di inferenza, integra un modello GPT-2 in tempo reale che viene eseguito in modo nativo nel browser utilizzando un moderno framework front-end. Gli utenti possono sperimentare in modo interattivo il testo immesso e osservare in tempo reale come i componenti e i parametri interni del Transformer lavorano insieme per prevedere il token successivo.

Transformer Explainer espande l'accesso alle moderne tecnologie di intelligenza artificiale generativa senza richiedere risorse informatiche avanzate, competenze di installazione o programmazione. Il motivo per cui è stato scelto GPT-2 è che il modello è ben noto, ha un'elevata velocità di inferenza ed è simile nell'architettura a modelli più avanzati come GPT-3 e GPT-4.

Indirizzo del documento: https://arxiv.org/pdf/2408.04619

Indirizzo GitHub: http://poloclub.github.io/transformer-explainer/

Indirizzo dell'esperienza online: https://t.co/jyBlJTMa7m



Testo: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c64dda2ea3c6626&chksm=84e43ed9b393b7cf17 7414848deaed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd

Poiché supporta l'autoinput, Machine Heart ha provato anche "che bella giornata" e i risultati della corsa sono mostrati nella figura seguente.

Molti netizen hanno elogiato Transformer Explainer. Alcune persone dicono che questo è uno strumento interattivo molto interessante.

Alcune persone dicono che stavano aspettando uno strumento intuitivo per spiegare l'attenzione al sé e la codifica posizionale, che è Transformer Explainer. Sarà un punto di svolta.

Qualcun altro ha fatto una traduzione cinese.

Indirizzo visualizzato: http://llm-viz-cn.iiiai.com/llm

Qui non posso fare a meno di pensare a Karpathy, un'altra grande figura della scienza popolare. Ha già scritto molti tutorial sulla riproduzione di GPT-2, incluso "GPT-2 in linguaggio Pure C, il nuovo progetto dell'ex OpenAI e Tesla. dirigenti è popolare." ", "L'ultimo tutorial video di quattro ore di Karpathy: riproduci GPT-2 da zero, eseguilo durante la notte e portalo a termine", ecc. Ora che esiste uno strumento di visualizzazione per i principi interni di Transformer, sembra che l'effetto di apprendimento sarà migliore quando i due verranno utilizzati insieme.

Progettazione e implementazione del sistema Transformer Explainer

Transformer Explainer mostra visivamente come il modello GPT-2 basato su Transformer viene addestrato per elaborare l'input di testo e prevedere il token successivo. Il front-end utilizza Svelte e D3 per implementare la visualizzazione interattiva, mentre il back-end utilizza il runtime ONNX e la libreria Transformers di HuggingFace per eseguire il modello GPT-2 nel browser.

Una sfida importante durante la progettazione di Transformer Explainer è stata la gestione della complessità dell'architettura sottostante, poiché mostrare tutti i dettagli contemporaneamente avrebbe distratto dal punto. Per risolvere questo problema, i ricercatori hanno prestato grande attenzione a due principi chiave di progettazione.

Innanzitutto, i ricercatori riducono la complessità attraverso più livelli di astrazione. Strutturano i loro strumenti per presentare le informazioni a diversi livelli di astrazione. Ciò evita il sovraccarico di informazioni consentendo agli utenti di iniziare con una panoramica di alto livello e procedere fino ai dettagli secondo necessità. Al livello più alto, lo strumento mostra il flusso di elaborazione completo: dalla ricezione del testo fornito dall'utente come input (Figura 1A), incorporandolo, elaborandolo attraverso più blocchi Transformer e utilizzando i dati elaborati per prevedere la previsione del token A successivo più probabile è ordinato.

Per le operazioni intermedie, come il calcolo della matrice di attenzione (Figura 1C), che sono compresse per impostazione predefinita per visualizzare visivamente l'importanza dei risultati del calcolo, l'utente può scegliere di espandere e visualizzare il processo di derivazione attraverso una sequenza animata. I ricercatori hanno adottato un linguaggio visivo coerente, come impilare le teste di attenzione e comprimere i blocchi Transformer ripetuti, per aiutare gli utenti a identificare modelli ripetitivi nell'architettura mantenendo un flusso di dati end-to-end.

In secondo luogo, i ricercatori migliorano la comprensione e il coinvolgimento attraverso l’interattività. Il parametro della temperatura è cruciale nel controllare la distribuzione della probabilità di uscita del trasformatore. Influirà sulla certezza (a basse temperature) o sulla casualità (a temperature elevate) della previsione del token successivo. Ma le risorse educative esistenti sui Transformers spesso ignorano questo aspetto. Gli utenti sono ora in grado di utilizzare questo nuovo strumento per regolare i parametri di temperatura in tempo reale (Figura 1B) e visualizzare il loro ruolo fondamentale nel controllare la certezza della previsione (Figura 2).

Inoltre, gli utenti possono selezionare dagli esempi forniti o inserire il proprio testo (Figura 1A). Il supporto di testo di input personalizzato può consentire agli utenti di partecipare più profondamente Analizzando il comportamento del modello in condizioni diverse e testando in modo interattivo le proprie ipotesi basate su diversi input di testo, il senso di partecipazione dell'utente viene migliorato.

Quali sono allora gli scenari applicativi pratici?

Il professor Rousseau sta modernizzando i contenuti del corso sull’elaborazione del linguaggio naturale per evidenziare i recenti progressi nell’intelligenza artificiale generativa. Ha notato che alcuni studenti consideravano i modelli basati su Transformer come una "magia" sfuggente, mentre altri volevano capire come funzionavano i modelli ma non erano sicuri da dove cominciare.

Per risolvere questo problema, ha guidato gli studenti a utilizzare Transformer Explainer, che fornisce una panoramica interattiva di Transformer (Figura 1) e incoraggia gli studenti a sperimentare e apprendere attivamente. La sua classe ha più di 300 studenti e la capacità di Transformer Explainer di funzionare interamente all'interno dei browser degli studenti, senza la necessità di installare software o hardware speciale, rappresenta un vantaggio significativo ed elimina le preoccupazioni degli studenti sulla gestione della configurazione di software o hardware.

Questo strumento introduce gli studenti a operazioni matematiche complesse, come i calcoli attenzionali, attraverso astrazioni reversibili animate e interattive (Figura 1C). Questo approccio aiuta gli studenti ad acquisire sia una comprensione di alto livello delle operazioni sia una comprensione profonda dei dettagli sottostanti che producono questi risultati.

Il professor Rousseau ha anche riconosciuto che le capacità tecniche e i limiti del Trasformatore erano talvolta personificati (ad esempio, considerare i parametri di temperatura come controlli di "creatività"). Incoraggiando gli studenti a sperimentare con il cursore della temperatura (Figura 1B), ha mostrato agli studenti come la temperatura modifica effettivamente la distribuzione di probabilità del token successivo (Figura 2), controllando così la casualità delle previsioni in modo deterministico e più creativo, trovando un equilibrio tra uscite.

Inoltre, quando il sistema visualizza il processo di elaborazione dei token, gli studenti possono vedere che qui non c'è la cosiddetta "magia": non importa quale sia il testo di input (Figura 1A), il modello segue una sequenza ben definita di operazioni, utilizzando l'architettura Transformer. Campiona un token alla volta e ripeti il ​​processo.

lavoro futuro

I ricercatori stanno migliorando le spiegazioni interattive dello strumento per migliorare l'esperienza di apprendimento. Allo stesso tempo, stanno anche migliorando la velocità di inferenza tramite WebGPU e riducendo le dimensioni del modello tramite la tecnologia di compressione. Hanno inoltre in programma di condurre ricerche sugli utenti per valutare l'efficacia e l'usabilità di Transformer Explainer, osservare come i principianti, gli studenti, gli educatori e i professionisti dell'intelligenza artificiale utilizzano lo strumento e raccogliere feedback sulle funzionalità aggiuntive che vorrebbero vedere supportate.

Cosa stai aspettando? Inizia e sperimentalo, rompi l'illusione "magica" di Transformer e comprendi veramente i principi alla base.