2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
On vuosi 2024, onko joku, joka ei vieläkään ymmärrä Transformerin toimintaa? Tule kokeilemaan tätä interaktiivista työkalua.
Vuonna 2017 Google ehdotti Transformeria "Attention is all you need" -paperissa, josta tuli suuri läpimurto syvän oppimisen alalla. Tämän artikkelin lainausten määrä on noussut lähes 130 000:een. Myös kaikki myöhemmät GPT-perheen mallit perustuvat Transformer-arkkitehtuuriin, mikä osoittaa sen laajan vaikutuksen.
Neuraaliverkkoarkkitehtuurina Transformer on suosittu erilaisissa tehtävissä tekstistä visioon, erityisesti tällä hetkellä kuumalla tekoäly-chatbottien alalla.
Kuitenkin monille ei-asiantuntijoille Transformerin sisäinen toiminta jää läpinäkymättömäksi, mikä estää heidän ymmärrystään ja osallistumistaan. Siksi on erityisen tärkeää selvittää tämä arkkitehtuuri. Monet blogit, opetusvideot ja 3D-visualisoinnit kuitenkin usein korostavat matematiikan ja mallien toteutuksen monimutkaisuutta, mikä saattaa saada aloittelijat hämmentyneeksi. Samaan aikaan tekoälyn ammattilaisille suunniteltu visualisointityö keskittyy hermosolujen ja hierarkkisten tulkittavuuteen ja on haastavaa ei-asiantuntijoille.
Niinpä useat Georgia Techin ja IBM Researchin tutkijat kehittivätVerkkopohjainen avoimen lähdekoodin interaktiivinen visualisointityökalu "Transformer Explainer", joka auttaa ei-ammattilaisia ymmärtämään Transformerin kehittynyttä mallirakennetta ja matalan tason matemaattisia operaatioita. Kuten alla olevasta kuvasta 1 näkyy.
Transformer Explainer selittää Transformerin sisäisen toiminnan tekstin luomisen avullaSankey-kaavion visualisoinnin suunnittelu, joka on saanut inspiraationsa viimeaikaisesta työstä, jossa Transformers käsitellään dynaamisina järjestelminä ja korostetaan, kuinka syöttödata kulkee mallikomponenttien läpi. Tuloksista Sankey-diagrammi havainnollistaa tehokkaasti, kuinka tietoa siirretään mallissa ja kuinka syöte käsitellään ja muunnetaan Transformer-operaatioiden kautta.
Sisällön suhteen Transformer Explainer integroi tiiviisti mallin yleiskatsauksen, joka tekee yhteenvedon Transformerin rakenteesta ja antaa käyttäjille mahdollisuuden siirtyä sujuvasti useiden abstraktiotasojen välillä visualisoidakseen matalan tason matemaattisten operaatioiden ja korkean tason mallirakenteiden välistä vuorovaikutusta, mikä auttaa heitä ymmärtämään täysin monimutkaisia käsitteitä. Transformerissa.
Toiminnallisesti Transformer Explainer ei tarjoa vain verkkopohjaista toteutusta, vaan sillä on myös reaaliaikaiset päättelyominaisuudet. Toisin kuin monet olemassa olevat työkalut, jotka vaativat mukautetun ohjelmiston asennuksen tai joista puuttuu päättelykyky, se integroi reaaliaikaisen GPT-2-mallin, joka toimii natiivisti selaimessa modernin käyttöliittymäkehyksen avulla. Käyttäjät voivat kokeilla vuorovaikutteisesti syöttötekstiään ja tarkkailla reaaliajassa, kuinka Transformerin sisäiset komponentit ja parametrit toimivat yhdessä ennustaakseen seuraavan merkin.
Transformer Explainer laajentaa pääsyä nykyaikaisten luovien tekoälytekniikoiden käyttöön ilman edistyneitä laskentaresursseja, asennus- tai ohjelmointitaitoja. GPT-2 valittiin siksi, että malli on hyvin tunnettu, sillä on nopea päättelynopeus ja se on arkkitehtuuriltaan samanlainen kuin kehittyneempiä malleja, kuten GPT-3 ja GPT-4.
Paperiosoite: https://arxiv.org/pdf/2408.04619
GitHub-osoite: http://poloclub.github.io/transformer-explainer/
Verkkokokemuksen osoite: https://t.co/jyBlJTMa7m
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c01537b3bc3bc64c93c62e f177414848deaed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd
Koska se tukee itsesyöttöä, Machine Heart kokeili myös "mikä kaunis päivä", ja juoksutulokset näkyvät alla olevassa kuvassa.
Monet verkkokäyttäjät ovat kiittäneet Transformer Explaineria. Jotkut sanovat, että tämä on erittäin hieno interaktiivinen työkalu.
Jotkut ihmiset sanovat odottaneensa intuitiivista työkalua, joka selittää itsensä huomioimisen ja sijainnin koodauksen, joka on Transformer Explainer. Se tulee olemaan pelin muuttaja.
Joku muu on tehnyt kiinalaisen käännöksen.
Näyttöosoite: http://llm-viz-cn.iiiiai.com/llm
Tässä en voi olla ajattelematta Karpathyä, toista populaaritieteen suurta hahmoa. Hän on kirjoittanut aiemmin monia opetusohjelmia GPT-2:n toistamisesta, mukaan lukien "Pure C-kielen käsin rullaava GPT-2, entisen OpenAI:n ja Teslan uusi projekti. johtajat ovat suosittuja." ", "Karpathyn uusin neljän tunnin video-opetusohjelma: Toista GPT-2 tyhjästä, suorita se yön yli ja tee se" jne. Nyt kun Transformerin sisäisille periaatteille on olemassa visualisointityökalu, näyttää siltä, että oppimisvaikutus on parempi, kun näitä kahta käytetään yhdessä.
Transformer Explainer -järjestelmän suunnittelu ja toteutus
Transformer Explainer näyttää visuaalisesti, kuinka Transformer-pohjainen GPT-2-malli on koulutettu käsittelemään tekstinsyöttöä ja ennustamaan seuraavaa merkkiä. Käyttöliittymä käyttää Svelteä ja D3:a interaktiivisen visualisoinnin toteuttamiseen, ja taustaosa käyttää ONNX-ajoaikaa ja HuggingFacen Transformers-kirjastoa GPT-2-mallin suorittamiseen selaimessa.
Suuri haaste Transformer Explaineria suunniteltaessa oli taustalla olevan arkkitehtuurin monimutkaisuuden hallinta, koska kaikkien yksityiskohtien näyttäminen kerralla häiritsisi asiaa. Tämän ongelman ratkaisemiseksi tutkijat kiinnittivät suurta huomiota kahteen suunnittelun keskeiseen periaatteeseen.
Ensinnäkin tutkijat vähentävät monimutkaisuutta useiden abstraktiotasojen avulla. He jäsentävät työkalunsa esittääkseen tietoa eri abstraktiotasoilla. Tämä välttää tietojen ylikuormituksen antamalla käyttäjille mahdollisuuden aloittaa korkean tason yleiskatsauksesta ja siirtyä tarvittaessa yksityiskohtiin. Korkeimmalla tasolla työkalu näyttää täydellisen käsittelyn kulun: käyttäjän toimittaman tekstin vastaanottamisesta syötteenä (kuva 1A), sen upottamisesta, sen käsittelemisestä useiden muuntajalohkojen läpi ja käsiteltyjen tietojen käyttämisestä todennäköisimmän seuraavan A-tunnuksen ennusteen ennustamiseen. on lajiteltu.
Välioperaatiot, kuten huomiomatriisin laskenta (kuva 1C), jotka on oletusarvoisesti tiivistetty laskentatulosten tärkeyden visuaaliseksi näyttämiseksi, käyttäjä voi halutessaan laajentaa ja tarkastella sen johtamisprosessia animoidun sekvenssin avulla. Tutkijat omaksuivat johdonmukaisen visuaalisen kielen, kuten huomiopäiden pinoamisen ja toistuvien Transformer-lohkojen kokoonkuttamisen, auttamaan käyttäjiä tunnistamaan arkkitehtuurin toistuvia kuvioita ja säilyttämään datavirran päästä päähän.
Toiseksi tutkijat lisäävät ymmärrystä ja sitoutumista interaktiivisuuden kautta. Lämpötilaparametri on ratkaiseva muuntajan lähtötodennäköisyysjakauman ohjaamisessa. Se vaikuttaa seuraavan merkkien ennusteen varmuuteen (alhaisissa lämpötiloissa) tai satunnaisuuteen (korkeissa lämpötiloissa). Mutta Transformersin nykyiset koulutusresurssit jättävät usein tämän näkökohdan huomiotta. Käyttäjät voivat nyt käyttää tätä uutta työkalua säätämään lämpötilaparametreja reaaliajassa (Kuva 1B) ja visualisoida niiden kriittistä roolia ennustevarmuuden säätelyssä (Kuva 2).
Lisäksi käyttäjät voivat valita tarjotuista esimerkeistä tai kirjoittaa oman tekstinsä (kuva 1A). Mukautetun syöttötekstin tukeminen voi antaa käyttäjille mahdollisuuden osallistua syvemmin. Analysoimalla mallin käyttäytymistä erilaisissa olosuhteissa ja testaamalla interaktiivisesti omia oletuksiaan eri tekstisyötteiden perusteella, käyttäjän osallistumisen tunne paranee.
Mitkä ovat käytännön sovellusskenaariot?
Professori Rousseau modernisoi luonnollisen kielen käsittelykurssin kurssisisältöä korostaakseen generatiivisen tekoälyn viimeaikaisia edistysaskeleita. Hän huomasi, että jotkut opiskelijat pitivät Transformer-pohjaisia malleja vaikeana "taikuna", kun taas toiset halusivat ymmärtää mallien toimivuutta, mutta eivät olleet varmoja mistä aloittaa.
Tämän ongelman ratkaisemiseksi hän opasti oppilaita käyttämään Transformer Explaineria, joka tarjoaa interaktiivisen yleiskatsauksen Transformerista (kuva 1) ja rohkaisee opiskelijoita aktiivisesti kokeilemaan ja oppimaan. Hänen luokassaan on yli 300 opiskelijaa, ja Transformer Explainerin kyky toimia kokonaan oppilaiden selaimissa ilman ohjelmiston tai erikoislaitteiston asentamista on merkittävä etu ja poistaa opiskelijoiden huolet ohjelmisto- tai laitteistoasetusten hallinnasta.
Tämä työkalu esittelee opiskelijat monimutkaisiin matemaattisiin operaatioihin, kuten huomiolaskentaan, animoitujen ja interaktiivisten käännettävien abstraktioiden avulla (kuva 1C). Tämä lähestymistapa auttaa opiskelijoita saamaan sekä korkean tason ymmärryksen toiminnoista että syvän ymmärryksen taustalla olevista yksityiskohdista, jotka tuottavat näitä tuloksia.
Professori Rousseau ymmärsi myös, että Transformerin tekniset ominaisuudet ja rajoitukset joskus personoituivat (esim. lämpötilaparametrien katsominen "luovuuden" säätimiksi). Rohkaisemalla opiskelijoita kokeilemaan lämpötilan liukusäädintä (kuva 1B) hän osoitti opiskelijoille, kuinka lämpötila itse asiassa muuttaa seuraavan merkin todennäköisyysjakaumaa (kuva 2), mikä säätelee ennusteiden satunnaisuutta deterministisellä ja luovemmalla tavalla. ulostulot.
Lisäksi, kun järjestelmä visualisoi tunnuksen käsittelyprosessin, opiskelijat näkevät, että tässä ei ole niin sanottua "taikuutta" - olipa syöttöteksti mikä tahansa (kuva 1A), malli noudattaa tarkasti määriteltyä toimintosarjaa käyttämällä Transformer-arkkitehtuuri Ota näyte yksi merkki kerrallaan ja toista prosessi.
tulevaa työtä
Tutkijat parantavat työkalun interaktiivisia selityksiä oppimiskokemuksen parantamiseksi. Samaan aikaan ne myös parantavat päättelynopeutta WebGPU:n avulla ja pienentävät mallin kokoa pakkaustekniikan avulla. He aikovat myös tehdä käyttäjätutkimuksia arvioidakseen Transformer Explainerin tehokkuutta ja käytettävyyttä, tarkkaillakseen, kuinka tekoälyaloittelijat, opiskelijat, opettajat ja harjoittajat käyttävät työkalua, ja kerätä palautetta lisäominaisuuksista, joita he haluaisivat tukea.
Mitä odotat Aloita ja koe se, riko Transformerin "maaginen" illuusio ja ymmärrä sen takana olevat periaatteet.