uutiset

Metan uusi tutkimus- ja kehitysmenetelmä: integroimalla kieli- ja diffuusio-AI-malleja laskelmien määrän vähentämiseksi, laskentatehokkuuden parantamiseksi ja kuvanmuodostuksen optimoimiseksi

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House raportoi 24. elokuuta, että Meta AI Company julkaisi äskettäin uuden Transfusion-nimisen menetelmän, jolla voidaan yhdistää kielimalleja ja kuvanluontimalleja ja integroida ne yhtenäiseksi tekoälyjärjestelmäksi.

IT Home lainasi tiimiä sanoneen, että Transfusion yhdistää kielimallien edut erillisten tietojen, kuten tekstin, käsittelyssä ja diffuusiomallien kyvyn tuottaa jatkuvaa dataa, kuten kuvia.

Meta selittää, että nykyiset kuvanmuodostusjärjestelmät käyttävät tyypillisesti esikoulutettuja tekstikoodareita syöttävien vihjesanojen käsittelyyn, jotka sitten yhdistetään erilliseen diffuusiomalliin kuvien luomiseksi.

Monet multimodaaliset kielimallit toimivat samalla tavalla yhdistäen valmiiksi koulutetut tekstimallit erityisiin koodereihin muita modaliteetteja varten.

Transfusion käyttää kuitenkin yhtä yhtenäistä Transformer-arkkitehtuuria, joka soveltuu kaikkiin tiloihin ja harjoittaa teksti- ja kuvadataa päästä päähän. Tekstissä ja kuvissa käytetään erilaisia ​​hävitystoimintoja: teksti käyttää seuraavan merkkien ennustetta ja kuvat diffuusiota.

Tekstin ja kuvien käsittelemiseksi samanaikaisesti kuvat muunnetaan kuvafragmenttien sarjoiksi. Näin malli pystyy käsittelemään tekstitunnisteita ja kuvafragmentteja samanaikaisesti peräkkäin, ja erityisen huomiomaskin avulla malli voi vangita kuvan sisällä olevat suhteet.

Poiketen Metan olemassa olevista menetelmistä, kuten Chameleon (joka muuntaa kuvat erillisiksi markkereiksi ja sitten käsittelee niitä samalla tavalla kuin tekstiä), Transfusion säilyttää kuvien jatkuvan esityksen ja välttää kvantisoinnin aiheuttaman tiedon menetyksen.

Kokeet osoittavat myös, että Fusion skaalautuu tehokkaammin kuin vastaavat menetelmät. Kuvan tuottamisessa se saavuttaa samanlaisia ​​tuloksia kuin erikoismalleissa, mutta huomattavasti pienemmällä laskentateholla, ja yllättäen kuvatietojen integrointi parantaa myös tekstinkäsittelyominaisuuksia.

Tutkijat kouluttivat 7 miljardin parametrin mallin 2 biljoonalle teksti- ja kuvatunnisteelle. Malli saavuttaa samanlaisia ​​tuloksia kuin kypsät järjestelmät, kuten DALL-E 2, kuvien luonnissa, samalla kun se käsittelee tekstiä.