uutiset

Rajoittamaton videon generointi, suunnittelu ja päätöksenteko, seuraavan tunnuksen ennustamisen pakotettu integrointi ja täysi sekvenssi diffuusio

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Koneen sydänraportti

Toimittaja: Panda W

Tällä hetkellä autoregressiiviset suuren mittakaavan kielimallit, joissa käytetään seuraavaa token-ennustusparadigmaa, ovat tulleet suosituiksi kaikkialla maailmassa. Samaan aikaan suuri määrä synteettisiä kuvia ja videoita Internetissä on jo osoittanut meille diffuusiomallien voiman.

Äskettäin MIT CSAILin tutkimusryhmä (joista yksi on MIT:n tohtoriopiskelija Chen Boyuan) integroi onnistuneesti täyden sekvenssin diffuusiomallin ja seuraavan merkkimallin tehokkaat ominaisuudet ja ehdotti koulutus- ja näytteenottoparadigmaa: Diffuusiopakottaja ( DF).

Paperin otsikko: Diffuusiopakotus: Seuraavan merkkien ennuste täyttää koko sekvenssin diffuusion

Paperiosoite: https://arxiv.org/pdf/2407.01392

Hankkeen verkkosivusto: https://boyuan.space/diffusion-forcing

Koodiosoite: https://github.com/buoyancy99/diffusion-forcing

Kuten alla näkyy, diffuusiopakotus ylittää merkittävästi sekä koko sekvenssin diffuusion että opettajan pakotuksen johdonmukaisuuden ja vakauden suhteen.

Tässä kehyksessä jokainen merkki liitetään satunnaiseen, riippumattomaan kohinatasoon, ja jaettua seuraavan merkin ennustemallia tai seuraavan tunnuksen ennustemallia voidaan käyttää mielivaltaisen, riippumattoman, merkkikohtaisen järjestelmän mukaisesti.

Tämä menetelmä sai inspiraationsa havainnosta, jonka mukaan kohinan lisääminen merkkiin on osittaisen peittämisen muoto - nolla kohina tarkoittaa, että merkkiä ei ole peitetty, kun taas täydellinen kohina peittää tunnuksen kokonaan. Siksi DF pakottaa mallin oppimaan maskin, joka poistaa kaikki muuttuvat meluiset merkit (kuva 2).

Samanaikaisesti parametroimalla ennustusmenetelmä useiden seuraavan merkkien ennustusmallien yhdistelmäksi, järjestelmä voi joustavasti generoida eripituisia sekvenssejä ja yleistää kombinatorisesti uusille liikeradalle (kuva 1).

Tiimi otti käyttöön DF:n sekvenssin luomista varten kausaalisen diffuusiopakottamiseen (CDF), jossa tulevat tunnukset ovat riippuvaisia ​​menneistä tokeneista kausaalisen arkkitehtuurin kautta. He kouluttivat mallin vaimentamaan kaikkia sekvenssin tokeneita kerralla (jossa jokaisella merkillä on itsenäinen kohinataso).

Näytteenoton aikana CDF vaimentaa asteittain Gaussin kohinakehysten sekvenssin puhtaiksi näytteiksi, joissa eri kehyksillä voi olla eri kohinatasot kussakin kohinanpoistovaiheessa. Kuten seuraava merkkien ennustemalli, CDF voi tuottaa vaihtelevan pituisia sekvenssejä, toisin kuin seuraavan merkkien ennuste, CDF:n suorituskyky on erittäin vakaa - onko se ennustava seuraava merkki, tuhansia tokeneita tulevaisuudessa tai jopa jatkuvasti.

Lisäksi, kuten koko sekvenssin diffuusio, se voi myös saada ohjausta, mikä mahdollistaa korkean palkkion tuoton. CDF mahdollistaa uuden ominaisuuden: Monte Carlo Tree Guidance (MCTG) -seuraussuhteen, joustavan laajuuden ja muuttuvan kohinan ajoituksen yhteistyössä hyödyntäen. Verrattuna ei-kausaaliseen täyden sekvenssin diffuusiomalliin, MCTG voi parantaa huomattavasti korkean palkkion generoinnin näytteenottotaajuutta. Kuva 1 antaa yleiskuvan näistä ominaisuuksista.

koe

Ryhmä arvioi diffuusiopakottamisen edut generatiivisena sekvenssimallina useissa sovelluksissa, mukaan lukien video- ja aikasarjojen ennustamisessa, suunnittelussa ja jäljittelyoppimisessa.

Videon ennustaminen: johdonmukainen ja vakaa sekvenssin luominen ja loputon laajennus

Videon generatiivista mallinnusta varten he kouluttivat konvoluutio-RNN-toteutuksen kausaalista diffuusiota varten Minecraft-pelivideoiden ja DMLab-navigointien perusteella.

Kuvassa 3 esitetään diffuusiopakottamisen kvalitatiiviset tulokset verrattuna perusviivaan.

Voidaan nähdä, että diffuusiopakko voi laajentua vakaasti jopa koulutusalueensa ulkopuolelle, kun taas opettajan pakottaminen ja täyden sekvenssin diffuusion vertailuarvot eroavat nopeasti.

Diffuusiosuunnittelu: MCTG, kausaalinen epävarmuus, joustava kauko-ohjaus

Kyky hajottaa pakkoa tuo ainutlaatuisia etuja päätöksentekoon. Ryhmä arvioi äskettäin ehdotetun päätöksentekokehyksen D4RL:n avulla, joka on standardi offline-vahvistusoppimiskehys.

Taulukossa 1 on esitetty laadulliset ja määrälliset arvioinnin tulokset. Kuten voidaan nähdä, diffuusiopakotus on parempi kuin diffuusori ja kaikki perusviivat kaikissa kuudessa ympäristössä.

Ohjattava sekvenssiyhdistelmän luominen

Ryhmä havaitsi, että oli mahdollista yhdistää joustavasti harjoitusaikana havaittuja sekvenssien osasarjoja yksinkertaisesti muokkaamalla näytteenottojärjestelmää.

He suorittivat kokeita 2D-ratatietojoukon avulla: neliötasossa kaikki liikeradat alkavat yhdestä kulmasta ja päätyvät vastakkaiseen kulmaan muodostaen eräänlaisen ristin muodon.

Kuten yllä olevasta kuvasta 1 näkyy, kun yhdistelmäkäyttäytymistä ei vaadita, DF:n voidaan antaa ylläpitää täydellistä muistia ja toistaa ristinmuotoinen jakauma. Kun yhdistelmää tarvitaan, mallia voidaan käyttää lyhyemmän suunnitelman luomiseen ilman muistia MPC:n avulla ja siten ompelemalla ristinmuotoiset aliradat V-muotoisen liikeradan saamiseksi.

Robotiikka: Pitkän kantaman jäljitelmäoppiminen ja vankka visuomotorinen ohjaus

Diffuusiopakko tuo myös uusia mahdollisuuksia todellisten robottien visuaaliseen liikkeenhallintaan.

Jäljitelmäoppiminen on yleisesti käytetty robotin manipulointitekniikka, joka oppii kartoittamaan asiantuntijoiden osoittamia havaittuja toimintoja. Kuitenkin muistin puute vaikeuttaa usein jäljittelyoppimista pitkän kantaman tehtävissä. DF ei vain voi lievittää tätä puutetta, vaan myös tehdä jäljitelmäoppimisesta tehokkaampaa.

Muistin käyttö jäljitelmäoppimiseen. Franka-robotin etäohjauksella tiimi keräsi video- ja liiketietojoukon. Kuten kuvasta 4 näkyy, tehtävänä on käyttää kolmatta asentoa omenoiden ja appelsiinien paikkojen vaihtamiseen. Hedelmän alkusijainti on satunnainen, joten mahdollisia tavoitetiloja on kaksi.

Lisäksi, kun hedelmä on kolmannella paikalla, haluttua tulosta ei voida päätellä nykyisestä havainnosta - politiikan on muistettava alkuperäinen kokoonpano päättääkseen, mitä hedelmää siirtää. Toisin kuin yleisesti käytetyt käyttäytymiskloonausmenetelmät, DF voi luonnollisesti integroida muistoja omaan piilotilaansa. Havaittiin, että DF pystyi saavuttamaan 80 % onnistumisprosentin, kun taas diffuusiostrategia (tällä hetkellä paras muistittoman jäljitelmän oppimisalgoritmi) epäonnistui.

Lisäksi DF voi olla kestävämpi melulle ja helpottaa robotin esikoulutusta.

Aikasarjaennustus: Diffuusiopakko on erinomainen yleinen sekvenssimalli

Monimuuttujien aikasarjaennustetehtävissä ryhmän tutkimus osoittaa, että DF on riittävä vertaamaan suotuisasti aikaisempiin diffuusiomalleihin ja perustuu Muuntaja malli on vertailukelpoinen.

Katso alkuperäisestä paperista lisää teknisiä yksityiskohtia ja kokeellisia tuloksia.