Jia Yangqing voitti Time Test Award -palkinnon yhdestä paperistaan, eikä ollut Kiinan 10 parhaan paperin joukossa, ICML 2024 Award

Jia Yangqing voitti Time Test Award -palkinnon yhdestä työstään, mutta ei kelpuutettu 10 parhaan paperin joukkoon Kiinassa eikä ICML 2024 -palkintoon

2024-07-23

Koneen sydänraportti

Machine Heart -toimitusosasto

ICML:n koko nimi on International Conference on Machine Learning. Sen järjestää International Machine Learning Society (IMLS) ja se on tietokoneen tekoälyn huippukonferenssi.

Tämän vuoden ICML-konferenssi on 41. ja se pidetään parhaillaan Wienissä, Itävallassa. Juuri pidetyssä avajaisseremoniassa vuosi vuodelta yhä suositumpi ICML julkisti tämän vuoden konferenssitiedot ja palkintotiedot.

Tämä pääkonferenssi vastaanotti yhteensä 9473 kelvollista paperityötä, joista hyväksyttiin 2610 esitelmää. Hyväksymisaste oli 27,5 %, mukaan lukien 144 suullista referaattia ja 191 esittelyä.

Hyväksyttyjen töiden aihesanat ovat: iso kielimalli, vahvistusoppiminen, syväoppiminen, graafisen hermoverkko, koneoppiminen, yhdistetty oppiminen, diffuusiomalli, muuntaja, LLM, esitysoppiminen, generatiivinen malli... Nämä avainsanat edustavat myös nykyistä Suosituin tutkimussuunta tekoälyn alalla.

Näiden tietojen lisäksi konferenssissa julkistettiin myös tämän vuoden Time Test Awards ja Best Papers -palkinnot. DeCAF, paperi, jonka Jia Yangqing suoritti mukana ollessaan Berkeleyssä kymmenen vuotta sitten, voitti tämän vuoden Time Test Award -palkinnon. Verrattuna 6:een viime vuonna, 10 tutkimusta voitti parhaan paperin tänä vuonna, mukaan lukien Google DeepMind -maailmanmalli Genie, videomalli VideoPoet jne., jotka tulivat suosituiksi jokin aika sitten.

Aika testattu palkinto

DeCAF:n palkinnon voittamisesta Jia Yangqing sanoi ystäväpiirissä: "Tämän päivän terminologian mukaan DeCAF:n pitäisi olla näkökentän perusominaisuudet ja syvä upotus, ja se antoi myös tietokonenäön kenttään yleistettävän ominaisuuden. DeCAF:n työ Myöhemmin syntyi General The objektintunnistuskehys R-CNN, korkean suorituskyvyn heterogeeninen laskentakehys Caffe, vaikutti epäsuorasti Berkeleyn ja NVidian yhteistyöhön ensimmäisen sukupolven kiihdytyskehyksen CuDNN, Yahoo Labsin luoman laajan hajautetun koulutuksen CaffeOnSparkin kirjoittamisessa. , ja joukko muita teoksia, jotka vahvistavat Berkeleyn johtavan aseman syvän oppimisen aallossa."

论文：DeCAF: Deep Convolutional Activation Feature yleiseen visuaaliseen tunnistamiseen

Pääosissa: Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Laitos: UC Berkeley & ICSI, Berkeley, CA, USA

Paperilinkki: https://arxiv.org/pdf/1310.1531

Tutkimusryhmä arvioi, voidaanko syväkonvoluutioverkkojen aktivaatioista poimittuja ominaisuuksia, jotka on koulutettu täysin valvotulla tavalla laajamittaisessa kiinteässä objektintunnistustehtävissä, käyttää uusiin yleisiin tehtäviin. Nämä yleiset tehtävät voivat poiketa merkittävästi niistä, joita varten ne on alun perin koulutettu, eikä niissä välttämättä ole tarpeeksi merkittyä tai merkitsemätöntä dataa rutiininomaisesti koulutettavaksi tai mukauttamaan syviä arkkitehtuureja uusiin tehtäviin. He tutkivat ja visualisoivat syvien konvoluutioominaisuuksien semanttista klusterointia erilaisissa tehtävissä, mukaan lukien kohtausten tunnistus, toimialueen mukauttaminen ja hienojakoiset tunnistushaasteet. Tutkijat vertasivat verkon eri kerroksiin luottamuksen vaikutuksia kiinteiden ominaisuuksien määrittämiseen ja raportoivat uusia tuloksia, jotka ylittävät huomattavasti olemassa olevat tekniikat useissa tärkeissä visuaalisissa haasteissa. He julkaisivat DeCAF:n, avoimen lähdekoodin syväkonvoluutioaktivointiominaisuuksien toteutuksen, joka sisältää kaikki asiaankuuluvat verkkoparametrit, jotta näöntutkijat voivat kokeilla syviä esityksiä useissa visuaalisen käsitteen oppimisparadigmoissa.

paras paperi

Paperi 1: Tasavirtausmuuntajien skaalaus korkearesoluutioiseen kuvasynteesiin

Näyttelijät: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach

Organisaatio: Stability AI

Paperin osoite: https://proceedings.mlr.press/v235/esser24a.html

Machine Heart Report: Stable Diffusion 3 -paperi on vihdoin julkaistu, ja arkkitehtuurin yksityiskohdat paljastetaan Auttaako se Soran toistamisessa?

Tämä paperi on täsmälleen Stable Diffusion 3 -paperi. Edelliseen versioon verrattuna Stable Diffusion 3:n luomien kuvien laatu on parantunut huomattavasti, se tukee usean teeman kehotteita ja tekstin kirjoitustehoste on myös parempi.

Stable Diffusion 3 -malliarkkitehtuuri.

Diffuusiomallit, jotka luovat dataa melusta kääntämällä sen eteenpäin suuntautuvan polun meluksi, ovat nousseet tehokkaaksi generatiiviseksi mallinnustekniikaksi korkeaulotteiselle aistitiedolle, kuten kuville ja videoille. Rectified Flow (RF) on uusi generatiivinen malliformulaatio, joka yhdistää datan ja kohinan suorassa linjassa. Paremmista teoreettisista ominaisuuksistaan ja käsitteellisestä yksinkertaisuudestaan huolimatta sitä ei ole vielä selkeästi vakiinnutettu vakiokäytännöksi.

Tämä tutkimus parantaa olemassa olevia kohinan näytteenottotekniikoita harjoittelemalla RF-malleja painottamalla niitä havainnollisesti relevantteja asteikkoja kohti. Laajan mittakaavan tutkimuksen avulla tämä tutkimus osoittaa tämän lähestymistavan paremman suorituskyvyn verrattuna olemassa oleviin diffuusioformulaatioihin korkearesoluutioisessa tekstistä kuvaksi -synteesiin.

Lisäksi tutkimuksessa ehdotetaan myös uutta Transformer-pohjaista arkkitehtuuria tekstistä kuvaksi luomiseen, joka käyttää eri painoja kahdelle moodille ja mahdollistaa kaksisuuntaisen tiedonkulun kuva- ja tekstitunnisteiden välillä, mikä parantaa tekstin ymmärtämistä, ihmisten mieltymysten luokituksia jne. . Tutkimus osoittaa, että arkkitehtuuri seuraa ennustettavaa skaalaustrendiä ja havaitsee, että validointihäviö pienenee tasaisesti mallin koon ja koulutusvaiheiden kasvaessa.

Parannettu multimodaalinen diffuusiomuuntaja: MMDiT-lohko.

Paperi 2: Genie: Generatiiviset interaktiiviset ympäristöt

Pääosissa: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes 等

Laitos: Google DeepMind, University of British Columbia

Paperiosoite: https://arxiv.org/pdf/2402.15391.pdf

Tässä artikkelissa määritellään uusi generatiivisen tekoälyn paradigma - Generative Interactive Environments - Genie (Generative Interactive Environments). Genie on 11 miljardin parametrin perusmaailman malli, joka voi luoda toistettavia interaktiivisia ympäristöjä yhdestä kuvakehotteesta.

Machine Heart -raportti: Google julkaisi juuri nyt perusmaailmamallin: 11B-parametria, jotka voivat luoda interaktiivisen virtuaalimaailman

Useat Genie-arkkitehtuurin komponentit on rakennettu Vision Transformerille (ViT). On syytä huomata, että Transformerin toissijaisten muistikustannusten vuoksi, mikä tuo haasteita videoalalle, videot voivat sisältää jopa (10^4) tokenia. Siksi Google käyttää muistitehokasta ST-muuntaja-arkkitehtuuria kaikissa mallikomponenteissa tasapainottaakseen mallin kapasiteettia ja laskennallisia rajoituksia.

Genie koostuu kolmesta avainkomponentista (kuten alla olevassa kuvassa):

1) Latent Action Model (LAM), jota käytetään pohtimaan mahdollisia toimia kunkin kehysparin välillä;

2) Video tokenizer (Tokenizer), jota käytetään muuttamaan alkuperäiset videokehykset erillisiksi tunnisteiksi;

3) Dynaamista mallia, jossa otetaan huomioon mahdolliset toiminnot ja menneiden kehysten tunnukset, käytetään ennustamaan videon seuraava kuva.

Hallittavan videon luomisen saavuttamiseksi Google käyttää edellisessä kehyksessä tehtyjä toimia tulevien ruutujen ennustamisen edellytyksinä. Tällaisia toimintamerkintöjä on kuitenkin harvoin saatavilla Internetissä olevissa videoissa, ja toimintamerkintöjen hankkiminen voi olla korkea. Sen sijaan Google oppii mahdolliset toimet täysin valvomattomalla tavalla.

Paperi 3: Eriytettyyn yksityiseen oppimiseen liittyviä näkökohtia laajan julkisen esikoulutuksen kanssa

Tekijät: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Oppilaitokset: ETH Zurich, Waterloon yliopisto, Google DeepMind

Paperiosoite: https://arxiv.org/abs/2212.06470

Differentiaalisesti yksityisen koneoppimisen suorituskykyä voidaan parantaa merkittävästi hyödyntämällä suurille julkisille tietojoukoille valmiiksi koulutettujen ei-yksityisten mallien siirtooppimiskykyä. Paperi kyseenalaistaa, pitäisikö suurten verkkokaapattujen tietojoukkojen käyttöä pitää eri tavalla yksityisenä.

Tutkimuksessa uskotaan, että näiden verkkodatalla esiopetettujen mallien asettaminen "yksityisiksi" malleiksi voi vahingoittaa ja heikentää yleisön luottamusta erilaiseen yksityisyyteen. Julkisen datan käytön yksityisyysnäkökohtien lisäksi tutkimus kyseenalaistaa tämän paradigman hyödyllisyyden. Tutkimuksessa selvitetään, ovatko olemassa olevat koneoppimisen vertailuarvot sopivia mittaamaan esikoulutettujen mallien kykyä yleistää arkaluontoisille alueille, joita voi olla vaikea esittää julkisen verkon tiedoissa.

Lisäksi tutkimuksessa todetaan, että suurten mallien käyttöönotto voi johtaa yksityisyyden nettomenetykseen, koska yksityiset tiedot on ulkoistettava kolmansille osapuolille, joilla on suurempi laskentateho.

Paperi 4: Diskreetti diffuusiomallinnus arvioimalla datan jakautumisen suhteita

Kirjailija: Aaron Lou, Chenlin Meng, Stefano Ermon

Laitos: Stanfordin yliopisto, Pika Labs

Paperin osoite: https://proceedings.mlr.press/v235/lou24a.html

Vaikka diffuusiomallit toimivat hyvin monissa generatiivisissa mallinnustehtävissä, ne eivät toimi odotetusti erillisillä data-alueilla, kuten luonnollisella kielellä. Vakio diffuusiomallit perustuvat vakiintuneeseen pistesovitusteoriaan, mutta yritykset yleistää tämä erillisiin rakenteisiin eivät ole johtaneet samoihin empiirisiin hyötyihin.

Tässä työssä tutkimusryhmä kaataa tämän kuilun ehdottamalla uutta menetystä, jota kutsutaan pisteytysentropiaksi. Arvioitu entropia luonnollisesti laajentaa pistemäärän sovituksen erilliseen tilaan, integroituu saumattomasti erillisten diffuusiomallien rakentamiseen ja parantaa merkittävästi suorituskykyä.

Kokeissaan he testasivat Scored Entropy Discrete Diffusion Model (SEDD) -mallia tavallisessa kielimallinnustehtävässä. Vertailukelpoisilla mallikooilla SEDD ylittää olemassa olevat kielen diffuusioparadigmat (25-75 %:n hämmennys vähenee) ja kilpailee autoregressiivisten mallien kanssa, erityisesti GPT-2:ta paremmin. Lisäksi autoregressiivisiin malleihin verrattuna SEDD pystyy luomaan todellista tekstiä (tuottaen hämmennystä noin 6-8 kertaa enemmän kuin hehkuttamaton GPT-2) ilman hajautettua hehkutustekniikoita (kuten lämpötilaskaalausta), ja sitä voidaan käyttää kompromisseissa. laskennallisen työn ja laadun välillä (saavuta samanlainen laatu 32x vähemmällä verkkoarvioinnilla) ja tukee ohjattavaa täyttöä (vastaa ytimen näytteenoton laatua ja sallii muut strategiat kuin vasemmalta oikealle vihjailu).

Paperi 5: Todennäköisyyspohjainen päättely kielimalleissa Twisted Sequential Monte Carlon kautta

Pääosissa: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Laitos: Toronton yliopisto, Vector Institute

Paperin osoite: https://proceedings.mlr.press/v235/zhao24c.html

Suurten kielimallien (LLM) lukuisia ominaisuuksia ja turvallisuustekniikoita, mukaan lukien RLHF, automaattinen punaisen tiimin testaus, vihjesuunnittelu ja täyttö, voidaan pitää näytteenottona tietyn palkkion tai piilevän funktion määrittelemästä denormalisoidusta kohdejakaumasta. Tässä työssä kirjoittajat hyödyntävät rikasta Sequential Monte Carlon (SMC) työkalupakkia käsitelläkseen näitä todennäköisyyspohjaisia päättelyongelmia. Erityisesti ne käyttävät opittua vääntymisfunktiota arvioimaan mahdollisia odotettavissa olevia tulevaisuuden arvoja jokaisessa aikavaiheessa, jolloin laskennalla johtopäätöshetkellä voidaan keskittyä sekvenssin lupaaviin osiin.

Ehdotamme uutta kontrastiivista lähestymistapaa vääntymisfunktioiden oppimiseen ja teemme yhteyksiä rikkaaseen pehmeän vahvistusoppimisen kirjallisuuteen. Kierretyn SMC-kehyksen täydentävänä sovelluksena he ehdottavat menetelmää kielimallin päättelytekniikoiden tarkkuuden arvioimiseksi lokiosiofunktioissa käyttämällä uutta kaksisuuntaista SMC-sidosta. Näitä rajoja voidaan käyttää arvioitaessa kaksisuuntaista KL-divergenttiä päättelyjakauman ja kohdejakauman välillä. Päätelmien arviointitekniikoita käyttämällä ne osoittavat, että Twisted SMC on tehokas näytteenottoon ei-toivottujen tulosteiden ottamisessa valmiiksi koulutetuista malleista (hyödyllinen harmittomassa koulutuksessa ja automatisoidussa punaisen tiimin testauksessa), luomaan erilaisia mielipiteitä sisältäviä arvosteluja ja suorittamaan täytetehtäviä.

Paperi 6: Keskustelu vakuuttavampien LLM-yritysten kanssa johtaa totuudenmukaisempaan vastaukseen

Pääosissa: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel Bowman, Tim Rocktäschel, Ethan Perez

Oppilaitokset: University College London, Speechmatics, MATS, Anthropic, FAR AI

Paperin osoite: https://proceedings.mlr.press/v235/khan24a.html

Yleiset lähestymistavat suurten kielimallien (LLM) mukauttamiseksi haluttuun käyttäytymiseen perustuvat suuresti ihmisen merkitsemiin tietoihin. Mallien monimutkaistuessa ne kuitenkin ylittävät inhimillisen asiantuntemuksen, ja inhimillisten arvioijien rooli kehittyy asiantuntijoita ohjaavien ei-asiantuntijoiden rooliksi. Tämän odotuksen perusteella tutkijat esittivät kysymyksen: Voiko heikompi malli arvioida vahvemman mallin oikeellisuutta? He tutkivat tätä ongelmaa laatimalla samanlaisen skenaarion: sellaisen, jossa vahvemmalla mallilla (asiantuntijalla) oli kysymykseen vastaamiseen tarvittava taustatieto, kun taas heikommalta mallilta (ei-asiantuntija) tämä tieto puuttui. Tutkijat valitsivat testimenetelmäksi väittelyn eli antoivat kaksi LLM-asiantuntijaa puolustaa eri vastauksia ja ei-asiantuntijat valitsevat lopullisen vastauksen.

Tutkimusryhmä havaitsi, että keskustelu auttoi tehokkaasti ei-asiantuntijamalleja ja ihmisiä vastaamaan kysymyksiin, saavuttaen vastaavasti 76 % ja 88 % tarkkuuden (alkuperäinen lähtötaso oli 48 % ja 60 % vastaavasti).

Lisäksi asiantuntevien väittelijöiden vakuuttamiskyvyn optimointi ilman valvontaa parantaa ei-asiantuntijoiden kykyä tunnistaa totuus keskusteluissa. Tämä tulos tarjoaa viitteen keskustelemalla kohdistettujen mallien toteutettavuudesta ilman totuusmerkintöjä.

论文 7: Stokastisen kuperan optimoinnin tiedon monimutkaisuus: yleistämisen, muistamisen ja jäljittämisen sovellukset

Pääosissa: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy

Instituutiot: Ben-Gurion University, University of Toronto, DeepMind jne.

Paperin osoite: https://proceedings.mlr.press/v235/attias24a.html

Tässä työssä kirjoittajat tutkivat muistin ja oppimisen välistä vuorovaikutusta stokastisen konveksin optimoinnin (SCO) kontekstissa. He määrittelevät muistin oppimalla tiedot, joita algoritmi paljastaa harjoitustietopisteistään, ja kvantifioivat tämän tiedon käyttämällä Steinken ja Zakynthinoun (2020) ehdottamaa ehdollista keskinäistä tietoa (CMI) -kehystä.

Tämän tutkimuksen päätulos on luonnehtia tarkasti oppimisalgoritmin tarkkuuden ja sen CMI:n välinen kompromissi, joka vastaa Livnin (2023) esittämään avoimeen kysymykseen. Tämä artikkeli osoittaa, että L² Lipschitz -rajoitetun asetuksen ja vahvan kuperuuden olosuhteissa kunkin oppijan CMI, jolla on liian suuri virhe ϵ, on alempi rajattu Ω(1/ϵ²) ja Ω(1/), vastaavasti. Kirjoittajat osoittavat edelleen muistin välttämättömän roolin SCO-ongelmassa suunnittelemalla vastustajan, joka pystyy tunnistamaan tarkasti suuren määrän harjoitusnäytteitä tietyssä SCO-ongelmassa. Lopuksi he mainitsevat useita tulosten seurauksia, kuten CMI-pohjaisten yleistysrajojen rajoituksia ja näytteiden kokoonpuristumattomuutta SCO-ongelmassa.

Paperi 8: Mittaa tietojoukon monimuotoisuutta, älä vain vaadi sitä

Näyttelijät: Dora Zhao, Jerone Andrews, Orestis Papakyrakopoulos, Alice Xiang

Oppilaitokset: Stanfordin yliopisto, Sony AI (Lontoo, Iso-Britannia), Münchenin tekninen yliopisto, Sony AI (Seattle, USA)

Paperiosoite: https://arxiv.org/html/2407.08188v1

Koneoppimisen (ML) tietojoukkoja pidetään usein neutraaleina, mutta ne sisältävät luonnostaan abstrakteja ja kiistanalaisia sosiaalisia rakenteita. Tietojoukon kuraattorit käyttävät usein arvokuormitettuja termejä, kuten monimuotoisuus, harha ja laatu kuvaillessaan tietojoukkoja. Vaikka näitä termejä käytetään laajasti, niiltä puuttuu selkeä määritelmä ja validointi. Tutkimusryhmän tutkimuksessa selvitettiin tämän ongelman vaikutuksia analysoimalla "monimuotoisuutta" 135 kuva- ja tekstitietojoukossa. Yhteiskuntatieteistä pohjautuen mittausteorian periaatteita sovelletaan huomioiden tunnistamiseen ja suositusten antamiseen tietokokonaisuuksien monimuotoisuuden käsitteellistämiseen, operatiivistamiseen ja arviointiin. Heidän havainnoillaan on laaja vaikutus ML-tutkimukseen, ja ne puoltavat vivahteikkaampaa ja tarkempaa lähestymistapaa arvokuormitettujen attribuuttien käsittelyssä tietojoukon rakentamisessa.

Paperi 9: VideoPoet: Suuri kielimalli Zero-Shot -videoiden luomiseen

Pääosissa: Dan Kondratyuk, Lijun Yu, Xiuye Gu, Jose Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh N Birodkar, Jimmy Yan, Haapallin Bara, Ming-Chang Krishirlon 、Yong Cheng、Joshua V Dillon Pääosissa Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Dahengu Rossanfangh. 、Bryan Seybold, Lu Jiang

Organisaatio: Google, Carnegie Mellon University

Lehden osoite: https://proceedings.mlr.press/v235/kondratyuk24a.html

Linkki projektiin: http://sites.research.google/videopoet/

Machine Heart -raportti: Voiko videoiden luominen olla äärettömän pitkä?Google VideoPoet suuri malli on verkossa, netizens: vallankumouksellinen tekniikka

Tutkimusryhmä julkaisi VideoPoetin, kielimallin, joka pystyy syntetisoimaan korkealaatuisia videoita useista ehdollisista signaaleista. VideoPoet käyttää vain dekooderille tarkoitettua Transformer-arkkitehtuuria käsitelläkseen multimodaalisia syötteitä, kuten kuvia, videoita, tekstiä ja ääntä.

Koulutusprotokolla seuraa suurten kielimallien (LLM) putkilinjaa ja koostuu kahdesta vaiheesta: esikoulutuksesta ja tehtäväkohtaisesta mukauttamisesta. Esiharjoitteluvaiheessa VideoPoet yhdistää multimodaaliset sukupolvitavoitteet autoregressiiviseen Transformer-kehykseen. Valmiiksi koulutettu LLM toimii perustana, ja se voidaan mukauttaa erilaisiin videontuotantotehtäviin. Ne osoittavat mallin huippuluokan kyvyt nollakuvan videon luomisessa, erityisesti kyvyn tuottaa korkealaatuista liikettä.

Paperi 10: Tuotantokielimallin osan varastaminen

Pääosissa: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasresfahani, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramer

Oppilaitokset: OpenAI, Google DeepMind, ETH Zurich, Washingtonin yliopisto, McGill University

Paperiosoite: https://arxiv.org/pdf/2403.06634

Tässä artikkelissa ehdotetaan uutta tapaa hyökätä tekoälymalleja. Se voi poimia tarkasti tietoa OpenAI:n ChatGPT:n tai Googlen PaLM-2:n black-box-generatiivisesta kielimallista. Tämä menetelmä voi murtautua Transformerin upotettuun projektiokerrokseen (joka on keskeinen osa mallin kielen ymmärtämistä), ja se vaatii vain API-pääsyn verkkosivuston tai sovelluksen kautta ja chattailun mallin "päihittämiseksi". Paperin menetelmän perusteella tutkijat mursivat GPT-sarjan kahden perusmallin, Adan ja Babbagen, koko projektiomatriisin. Avaintiedot, kuten piilotetut mitat, murskattiin myös suoraan: toinen oli 1024 ja toinen 2048. He murtautuivat myös gpt-3.5-turbon piilomittojen läpi, ja jos haluat palauttaa mallin koko projektiomatriisin, hinta ei ylitä 2000 dollaria. Tutkijat ovat ehdottaneet useita puolustustoimenpiteitä ja lieventämisstrategioita tällaisten hyökkäysten estämiseksi.

uutiset

Jia Yangqing voitti Time Test Award -palkinnon yhdestä työstään, mutta ei kelpuutettu 10 parhaan paperin joukkoon Kiinassa eikä ICML 2024 -palkintoon

Johdanto

yhteystietoni