uutiset

Jia Yangqingin kymmenen vuoden klassikko voitti Time Test Award -palkinnon! ICML 2024 kymmenen parhaan paperin arvonta, suosittu SD3, Gu

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: Taozi on niin uninen

[Johdatus uuteen viisauteen] Vuotuinen ICML:n huippupalkinto on vihdoin julkistettu! Tänä vuonna Best Paper Award -palkinnon voitti yhteensä kymmenen paperia, joista kolme on tuttuja nimiä - kuvasukupolvimalli SD3, videosukupolvimalli VideoPoet ja perusmaailmamalli Genie. Lisäksi Time Test Award -palkinnon sai Jia Yangqingin ja hänen tiiminsä kymmenen vuotta sitten ehdottama DeCAF-kehys.

ICML 2024 Awards on juuri julkistettu!

Juuri nyt ICML:n avajaisseremonia pidettiin virallisesti kokouksessa 10 parhaan paperin palkintoa, ja paperi kymmenen vuotta sitten voitti Time Test Awardin.

Parhaiden papereiden joukossa on useita suosittuja tekoälyn kuvien ja videoiden luomisen alalla, mukaan lukien SD3-tekninen raportti, CMU Google AI -videomalli VideoPoet ja Googlen perusmaailmamalli Genie.



On syytä mainita, että tekoälyguru Jia Yangqingin ja muiden lokakuussa 2013 julkaisema DeCAF-paperi voitti Time Test Award -palkinnon.

Hän kirjoitti juuri nyt, että hänellä oli suuri kunnia saada tämä kunnia.


Russ Salakhutdinov, CMU:n professori ja Meta GenAI:n varapresidentti, antoi yhteenvedon ICML 2024:n yleisistä rekrytointituloksista:

Konferenssiin saapui yhteensä 9 473 esitelmää, joista 2 610 hyväksyttiin ja hyväksyntäprosentti oli 27,55 %. 144 artikkelia on suullisia ja 191 artikkelia Spotlight.

Tänä vuonna uusia kannanottoja jätettiin 286 ja hyväksyttiin 75 (26 %). 15 artikkelia on suullisia ja 11 artikkelia Spotlight.

Lisäksi työpajassa oli 145 ehdotusta, joista 30 hyväksyttiin. Opetusohjelmassa oli 55 ehdotusta ja 12 hyväksyttiin.


Tänä vuonna se on ICML 2024:n 41. vuotuinen konferenssi (kerran vuodessa), joka pidetään Wienissä, Itävallassa 21.-27.7.


Kokoukseen saapui peräkkäin 8 675 henkilöä, eikä yleisössä ollut paikkoja.



ICML 2024 -huippukokouksen yleiskatsaus

Ennen palkintojen jakamista järjestelytoimikunta esitteli ensiksi tämän vuoden konferenssin kokonaistilanteen:

· 9 EXPO-keskustelupaneelia

· 12 opetusohjelmaa

· 6 kutsuttua puhujaa

· 2 610 esitystä (pääkonferenssi)

· 30 työpajaa

· 12 345 kirjoittajaa ja puhujaa

· 39 % osallistujista on opiskelijoita

· 10 offline-sosiaalista toimintaa

· 3 affiniteettitapahtumaa

· 52 vapaaehtoista

· 97 Senior Area Chairs (SAC), 492 Area Chairs (AC), 7473 arvostelija

· 9 406 rekisteröityä osallistujaa (joista 8 675 osallistui paikan päällä)


Hyväksyttyjen papereiden perusteella ICML tiivisti esiin tulleet korkean taajuuden sanat, jotka ovat myös tämän vuoden kuumimmat sanat:

Suuret mallit ilmestyvät useimmiten, yli 600 kertaa.

Sitä seuraa vahvistusoppiminen, syväoppiminen, graafisen hermoverkko, koneoppiminen, yhdistetty oppiminen, diffuusiomalli, muuntaja, LLM, esitysoppiminen, generatiivinen malli jne.


Rekisteröityjen maiden/alueiden mukaan Yhdysvalloissa asuu 2 463 ihmistä, ja Kiina on toisella sijalla yli 1 100 asukkaallaan.

Aika testattu palkinto

Yleisesti ottaen Time Test Award myönnetään akateemisille tutkimuksille, joilla on ollut tärkeä ja pysyvä vaikutus yli 10 vuoden ajan.


Tämä artikkeli on myös klassinen teos, jonka on suorittanut Jia Yangqing, Caffen isä, joka opiskeli UC Berkeleyssä ja teki yhteistyötä tiimin kanssa työharjoittelunsa aikana Googlella.

Hän kertoi kerran haastattelussa, että hän joi liikaa kahvia työskennellessään Googlella vuonna 2013, joten hän antoi sille nimeksi DeCAF, joka kehotti itseään lopettamaan kahvin juomisen.


Ylitöitä tehdessään hän julkaisi: "DeCAF:n pitäisi olla perustavanlaatuinen ja syvä näkökenttään upotettu ominaisuus, ja myös antaa tietokonenäkökentälle yleistettävissä oleva ominaisuus..."

DeCAF-tutkimuksen vaikutus on, että se synnytti yleisen objektintunnistuskehyksen R-CNN, korkean suorituskyvyn heterogeenisen laskentakehyksen Caffe, ja vaikutti epäsuorasti Berkeleyn ja NVIDIAn väliseen yhteistyöhön ensimmäisen sukupolven kiihdytyskehyksen CuDNN kirjoittamiseksi. Yahoo Labsin luomisen laajamittainen jakelu Sarja työ, kuten CaffeOnSpark-koulutus, on vakiinnuttanut Berkeleyn johtavan aseman syvän oppimisen aallolla.


题目: DeCAF: Deep Convolutional Activation Feature yleiseen visuaaliseen tunnistamiseen

Näyttelijät: Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Laitos: Kalifornian yliopisto, Berkeley


Paperiosoite: https://arxiv.org/abs/1310.1531

Käyttääkseen parempaa todennäköisyyspohjaista viitekehystä ihmisen käyttäytymisen ilmaisemiseen, tiimi kirjoitti henkilökohtaisesti ensimmäisen DeCAF-kehyksen.

Tässä työssä kirjoittajat arvioivat, voidaanko syvästä konvoluutioverkosta poimittuja ominaisuuksia, jotka on koulutettu täysin valvotulla tavalla suureen joukkoon kiinteiden objektien tunnistustehtäviä, käyttää uudelleen uusiin yleiskäyttöisiin tehtäviin.

Nämä yleiset tehtävät voivat poiketa merkittävästi alkuperäisistä harjoittelutehtävistä, ja niistä voi puuttua riittävästi huomautettua dataa tai ei ollenkaan huomautettua dataa, joten perinteisiä menetelmiä ei voida käyttää syväverkon kouluttamiseen tai hienosäätöön sopeutumaan uuteen tehtävään.

Lisäksi kirjoittaja visualisoi myös syvien konvoluutioominaisuuksien semanttisen klusteroinnin sellaisissa tehtävissä kuin kohtauksen tunnistus, verkkoalueen mukauttaminen ja hienorakeinen tunnistus, ja vertaamalla verkon eri tasoista riippuvien kiinteiden ominaisuuksien määrittelyn vaikutuksia ehdotti useita tärkeä Uusi SOTA saavutettu visuaalisissa haasteissa.

Lopuksi kirjoittajat julkaisevat näiden syvän konvoluutioaktivointiominaisuuksien avoimen lähdekoodin toteutuksen - DeCA:n sekä kaikki niihin liittyvät verkkoparametrit. Tämä auttaa visuaalisia tekijöitä kokeilemaan syviä esityksiä erilaisissa visuaalisen käsitteen oppimisparadigmoissa.


Kymmenen parasta paperia

Tänä vuonna on kymmenen parasta paperia.



Yllä olevat sijoitukset ovat kaikki suullisen näytön järjestyksessä.

论文一: Diskreetti diffuusiomallinnus arvioimalla datan jakautumisen suhteita

Kirjailija: Aaron Lou, Chenlin Meng, Stefano Ermon

Laitos: Stanfordin yliopisto, Pika Labs


Paperiosoite: https://arxiv.org/abs/2310.16834

Tässä tutkimuksessa ehdotetaan uutta koneoppimismallia SEDD (Score Entropy Discrete Diffusion), joka on suunnattu pääasiassa diskreetteihin tiedontuotantotehtäviin.

Tällä hetkellä diffuusiomallit osoittavat läpimurtokykyä monissa generatiivisissa mallinnustehtävissä, mutta ne toimivat huonosti erillisillä tietokentillä, kuten luonnollisella kielellä.

Artikkelissa kirjoittaja ehdotti pisteen entropian käsitettä tämän kuilun kuromiseksi.

Tämä on uusi häviötoiminto, joka luonnollisesti laajentaa tulossovituksen erilliseen tilaan, integroituu saumattomasti erillisten diffuusiomallien rakentamiseen ja parantaa merkittävästi suorituskykyä.

Kokeellisen arviointiprosessin aikana SEDD suoriutui paremmin kuin olemassa olevat kielen diffuusiomallit (hämmennys väheni 25-75 %).

Lisäksi se ylittää joissain asioissa myös autoregressiiviset mallit, kuten GPT-2.


Yhteenvetona SEDD:n edut ovat:

- Laadukasta tekstiä voidaan luoda ilman lämpötilaskaalauksen kaltaisia ​​tekniikoita (hämmennyksen luominen on noin 6-8 kertaa parempi kuin hehkuttamaton GPT-2)

- Joustava kompromissi laskentaresurssien ja tulosteen laadun välillä (käyttää 32 kertaa vähemmän verkkoarviointeja samanlaisen suorituskyvyn saavuttamiseksi)

- Tukee ohjattavaa tekstin täyttöä, mikä lisää joustavuutta. (vastaa ydinnäytteenoton laatua ja tukee muita strategioita kuin vasemmalta oikealle -kehotteita).

Paperi 2: Tasavirtausmuuntajien skaalaus korkearesoluutioiseen kuvasynteesiin

Näyttelijät: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Podellckion, Frederic Boestin yle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach

Organisaatio: Stability AI


Paperiosoite: https://arxiv.org/abs/2403.03206

Kuten alussa mainittiin, tämä paperi on tekninen raportti suositusta Stable Diffusion 3:sta.

Kuten Sora, SD3 käyttää parannettua versiota Diffusion-mallista ja uutta arkkitehtuuria, joka perustuu DiT:n Vincentian-graafiin.

Tarkemmin sanottuna kirjoittajat käyttivät kolmea erilaista tekstikooderia – kahta CLIP-mallia ja T5:tä – tekstitietojen käsittelyyn, kun taas kehittyneempää automaattisen koodausmallin käsittelyä kuvatietojen käsittelyssä.


Äskettäin ehdotettu multimodaalinen diffuusiomuunnin (MMDiT) -arkkitehtuuri käyttää riippumattomia painotusjoukkoja vastaavasti SD3:n varhaiseen versioon verrattuna, mikä parantaa tekstin ymmärtämistä ja tekstin oikeinkirjoitusominaisuuksia.

Arviointitulokset osoittavat, että SD3 saavuttaa tai ylittää Vincentian kaavioiden luontitekniikan nykyisen huipputason kehotteiden seuraamisen tarkkuuden, tekstin selkeän esityksen ja kuvien visuaalisen kauneuden suhteen.


论文三: Todennäköisyyspohjainen päättely kielimalleissa Twisted Sequential Monte Carlon kautta

Näyttelijät: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Laitos: Toronton yliopisto, Vector Institute


Paperiosoite: https://arxiv.org/abs/2404.17546

Tämä tutkimus keskittyy isojen mallien otanta- ja päättelyongelmiin.

Monet LLM:n ominaisuudet ja tietoturvateknologiat, kuten RLHF, automatisoitu punaisen tiimin testaus, nopea suunnittelu ja pehmusteet, voidaan ottaa huomioon:

Kun otetaan huomioon palkkio tai mahdollinen funktio, ota näyte sen määritetystä normalisoimattomasta kohdejakaumasta. Tämä jakauma on määritelty koko sarjalle.

Artikkelissa kirjoittaja ehdottaa peräkkäisen Monte Carlo (SMC) -menetelmän käyttöä näiden otantatodennäköisyysongelmien ratkaisemiseksi.

Tässä suhteessa kirjoittaja ehdottaa kierrefunktioita mahdollisten tulevien arvojen arvioimiseksi jokaisessa aikavaiheessa näytteenottoprosessin optimoimiseksi.

Lisäksi he ehdottivat menetelmää uusien kaksisuuntaisten SMC-rajojen käyttämiseksi LLM-johtopäätöstekniikoiden tarkkuuden arvioimiseksi.

Lopulliset tulokset osoittavat, että Twisted SMC on erittäin tehokas esikoulutettujen mallien huonojen tulosteiden näytteenotossa, erilaisten mielipiteiden luomisessa ja täyttötehtävien suorittamisessa.

Paperi 4: Asema: Mittaa tietojoukon monimuotoisuutta, älä vain vaadi sitä

Näyttelijät: Dora Zhao, Jerone TA Andrews, Orestis Papakyriakopoulos, Alice Xiang

Laitokset: Stanfordin yliopisto, Münchenin tekninen yliopisto, Sony AI


Paperiosoite: https://arxiv.org/abs/2407.08188

Tällä hetkellä monet tietojoukot leimaavat itseään monimuotoisuudeksi, mutta itse asiassa ilmentävät abstrakteja ja kiistanalaisia ​​sosiaalisia käsitteitä.

Tässä työssä kirjoittajat tutkivat tätä kysymystä analysoimalla "monimuotoisuutta" 135 kuva- ja tekstiaineistossa.

Kuten alla näkyy, kirjoittajat hyödyntävät yhteiskuntatieteiden teorian mittausteoriaa huomioon otettavina tekijöinä ja tarjoavat ehdotuksia tietoaineistojen monimuotoisuuden käsitteellistämiseen, operatiivistamiseen ja arviointiin.

Tämän tutkimuksen perimmäisenä tarkoituksena on saada tekoälytutkijat ottamaan käyttöön yksityiskohtaisempia ja tarkempia prosessointimenetelmiä attribuuttidatalle arvoarvioinneilla koneoppimistutkimuksessa, erityisesti tietojoukon rakentamisprosessissa.


Paperi 5: Tuotantokielimallin osan varastaminen

Näyttelijät: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr

Oppilaitokset: ETH Zurich, Washingtonin yliopisto, McGill University, Google DeepMind, OpenAI


Paperiosoite: https://arxiv.org/abs/2403.06634

Tässä työssä kirjoittajat esittelevät ensimmäisen mallivarashyökkäyksen, joka pystyy poimimaan tarkkaa ja monimutkaista tietoa mustista laatikoista, kuten OpenAI:n ChatGPT:stä tai Googlen PaLM-2:sta.

Erityisesti tämä hyökkäys pystyy rekonstruoimaan Transformer-mallin upotetun projektiokerroksen (symmetriaolosuhteissa) säännöllisen API-käytön kautta.

Ja alle 20 dollarilla voit purkaa OpenAI:n Ada- ja Babbage-kielimallien koko projektiomatriisin. Tämä vahvisti ensimmäistä kertaa, että näiden kahden mustan laatikon mallin piilomitat ovat 1024 ja 2048.

Lisäksi kirjoittaja palautti myös gpt-3.5-turbo-mallin tarkan piilomitan koon. Tällä kertaa koko projektiomatriisin poimintakustannukset olivat vain 2 000 US$.

Lopuksi kirjoittajat ehdottavat mahdollisia puolustus- ja lieventämistoimenpiteitä ja keskustelevat vaikutuksista tulevaan työhön.


论文六: Stokastisen konveksin optimoinnin tiedon monimutkaisuus: yleistyksen ja muistamisen sovellukset

Näyttelijät: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy

Oppilaitokset: Ben Gurion University, Northeastern University, Tel Aviv University, University of Toronto, Vector Institute, Google DeepMind


Paperiosoite: https://arxiv.org/abs/2402.09327

Tässä työssä kirjoittajat tutkivat memoisoinnin ja oppimisen välistä vuorovaikutusta stokastisten konveksien optimointiongelmien (SCO) kontekstissa.

Ensinnäkin muistiin kirjoittamisen määrittävät oppimisalgoritmit paljastamaan tietoa koulutusdatapisteistä. Sitten kvantifiointiin käytetään ehdollisen keskinäisen tiedon (CMI) viitekehystä. Siten saavutetaan tarkka kuvaus oppimisalgoritmin tarkkuuden ja sen CMI:n välisestä kompromissista.

Tulokset osoittavat, että L^2 Lipschitz-rajoitetun asetuksen ja vahvan kuperuuden olosuhteissa kunkin oppijan CMI:llä, jolla on ylimääräinen virhe ε, on alemmat rajat arvoilla Ω(1/ε^2) ja Ω(1/ε).

Lisäksi kirjoittajat osoittavat memoisoinnin tärkeän roolin SCO-oppimisongelmissa suunnittelemalla vastustajan, joka voi tarkasti tunnistaa suurimman osan koulutusnäytteistä tietyssä SCO-ongelmassa.

Lopuksi kirjoittajat mainitsevat useita tärkeitä seurauksia, kuten CMI-pohjaisten yleistysrajojen rajoitukset ja näytteen kokoonpuristumattomuus SCO-ongelmassa.

论文七: Asema: Eriytetyn yksityisen oppimisen huomioitavaa laajamittaisessa julkisessa esikoulutuksessa

Tekijät: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Laitokset: ETH Zurich, Waterloon yliopisto, Vector Institute, Google DeepMind


Paperiosoite: https://arxiv.org/abs/2212.06470

Differentiaalisesti yksityisen koneoppimisen suorituskykyä voidaan parantaa merkittävästi hyödyntämällä suurille julkisille tietojoukoille valmiiksi koulutettujen ei-yksityisten mallien siirtooppimiskykyä.

Tässä työssä kirjoittajat kyseenalaistavat, onko suurten verkkoon kaapattujen tietojoukkojen käyttäminen yhdenmukainen erilaisen yksityisyyden suojan kanssa. Se varoitti myös, että näiden verkkotiedoilla esikoulutettujen mallien kutsuminen "yksityisiksi" voi aiheuttaa monia haittoja, kuten heikentää yleisön luottamusta erilaisen yksityisyyden käsitteeseen.

Julkisen tiedon käytön yksityisyysnäkökohtien lisäksi kirjoittajat kyseenalaistavat tämän lähestymistavan käytännöllisyyden.

Esikoulutuksen vaikutus on erityisen havaittavissa malleissa, jotka ovat liian suuria loppukäyttäjien ajamiseen omilla laitteillaan. Koska tämä vaatisi yksityisten tietojen ulkoistamista kolmannelle osapuolelle, jolla on suurempi laskentateho, tällaisen mallin käyttöönotto johtaisi yksityisyyden nettomenetykseen.

Lopuksi kirjoittajat keskustelevat mahdollisista kehityspoluista yksityisyyden oppimisen alalla, kun julkisesta esikoulutuksesta tulee suositumpaa ja tehokkaampaa.

Paperi 8: Keskustelu vakuuttavampien LLM-yritysten kanssa johtaa totuudenmukaisempaan vastaukseen

Pääosissa: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez

Oppilaitokset: University College London, Speechmatics, MATS, Anthropic, FAR AI


Paperiosoite: https://arxiv.org/abs/2402.06782

Tällä hetkellä yleisesti käytetyt LLM-kohdistusmenetelmät perustuvat suuresti manuaalisesti merkittyihin tietoihin.

Mallien monimutkaistuessa ne kuitenkin ylittävät inhimillisen asiantuntemuksen ja inhimillisten arvioijien rooli muuttuu asiantuntijoita ohjaavien ei-asiantuntijoiden rooliksi.

Tämän perusteella kirjoittaja esitti kysymyksen: Voiko heikompi malli arvioida vahvemman mallin oikeellisuutta?

Suunnittelun mukaan vahvemmilla malleilla (asiantuntijoilla) on tarvittavat tiedot kysymykseen vastaamiseksi, kun taas heikommilta malleilta (ei-asiantuntijoilta) tämä tieto puuttuu.

Arviointimenetelmänä on väittely, jossa kaksi LLM-asiantuntijaa puolustaa kukin eri vastauksia sen sijaan, että asiantuntijat valitsevat vastauksia.


Tulokset osoittivat, että keskustelu auttoi jatkuvasti ei-asiantuntijamalleja ja ihmisiä vastaamaan kysymyksiin paremmin, mikä saavutti 76 % ja 88 % tarkkuuden (perustaso oli 48 % ja 60 % vastaavasti).

Lisäksi asiantuntevien väittelijöiden vakuuttamiskyvyn optimointi valvomattomilla keinoilla parantaa ei-asiantuntijoiden kykyä tunnistaa totuus keskusteluissa.


Paperi 9: Genie: Generatiiviset interaktiiviset ympäristöt

Pääosissa: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Beigerrahrahhhan, Chris Apps, Chris Apps. Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Laitos: Columbia University, Google DeepMind


Paperiosoite: https://arxiv.org/pdf/2402.15391

Google DeepMind -tiimin julkaisema perusmaailmamalli - Genie "Elf".

Kuvasta, valokuvasta, luonnoksesta se voi luoda loputtoman maailman.


Hullua Geniessä on se, että se oppi 200 000 tunnilta merkitsemättömistä Internet-videoista ja koulutettiin ilman valvontaa.

Ilman toimintamerkintöjä on mahdollista määrittää, kuka päähenkilö on ja antaa käyttäjälle hallinnan hänestä luodussa maailmassa.

Erityisesti se toteutetaan kolmen ydinkomponentin kautta: piilevä toimintamalli, videosegmentoija ja autoregressiivinen dynaaminen malli.


Tuloksena oleva opittu piilevä toimintatila ei ainoastaan ​​mahdollista käyttäjien vuorovaikutusta, vaan auttaa myös kouluttamaan agentteja matkimaan käyttäytymistä näkymättömissä videoissa.

Kaiken kaikkiaan Genie avaa uuden tavan viljellä tulevaisuuden generalistisia agentteja ja muokkaa vuorovaikutteisten generatiivisten ympäristöjen maisemaa.

Paperi 10: VideoPoet: Suuri kielimalli Zero-Shot -videoiden luomiseen

Näyttelijät: Dan Kondratyuk, Lijun Yu, Xiuye ​​Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Akpalliibara, Ming-Changiilon, HamandeYKrishna. ,Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Aadam, Ming-Hsuan Dasheng, IrangH Seybold, Lu Jiang

Laitos: Carnegie Mellon University, Google


Paperiosoite: https://arxiv.org/pdf/2312.14125

Ennen Soran julkaisua Google ja CMU-tiimi lanseerasivat VideoPoetin, Soran kaltaisen videontuotantoteknologian, tekniselle tiekartalle joulukuussa 2023.

VideoPoet voi luoda 10 sekuntia erittäin pitkää, yhtenäistä suuren toiminnan videota kerrallaan, eikä videon luomiseen tarvita erityisiä tietoja.


Erityisesti VideoPoet sisältää pääasiassa seuraavat komponentit:

- Valmiiksi koulutettu MAGVIT V2 -videotunniste ja SoundStream-äänitunniste voivat muuntaa eripituisia kuvia, videoita ja äänileikkeitä erillisiksi koodisekvensseiksi yhtenäisessä sanastossa. Nämä koodit ovat yhteensopivia tekstikielimallien kanssa, ja ne voidaan helposti yhdistää muihin menetelmiin, kuten tekstiin.

- Autoregressiivinen kielimalli voi suorittaa monimuotoista oppimista videon, kuvan, äänen ja tekstin välillä ja ennustaa sekvenssin seuraavan videon tai äänimerkin autoregressiivisellä tavalla.

- Laajassa kielimallin koulutuskehyksessä on otettu käyttöön useita multimodaalisia sukupolven oppimistavoitteita, mukaan lukien tekstistä videoksi, tekstistä kuvaksi, kuvasta videoksi, videokehyksen jatkaminen, videon korjaus/laajentaminen, videon tyylittäminen ja videosta ääneksi jne. . Lisäksi näitä tehtäviä voidaan yhdistää keskenään, jotta saadaan lisää nollanäyteominaisuuksia (esim. tekstistä ääneksi).


Johtavista malleista poiketen VideoPoet ei perustu diffuusiomalliin, vaan suureen multimodaaliseen malliin, jossa voi olla T2V, V2A ja muita ominaisuuksia.

Lyhyesti sanottuna VideoPoetilla on kolme suurta etua: pidempien videoiden luominen, tarkemman ohjauksen saavuttaminen ja tehokkaat kameran liikkeet.


Parhaan arvioijan palkinto

Mikä parasta, ICML 2024 -konferenssissa julkistettiin myös parhaan arvioijan palkinto.


Viitteet:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211