uutiset

Pekingin yliopisto Wangxuan: Anna multimodaalisten suurten mallien ymmärtää paremmin, mitä ihmiset tekevät |

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Multimodaalinen suuri malli voi ymmärtää paremmin kohtauksen hahmojen välistä suhdetta käyttämällä vain kehotteita.

Pekingin yliopisto ehdotti äskettäin CMMP (Conditional Multi-Modal Prompt) -menetelmää, joka käyttääNopea sanasuunnittelutekniikkaOpeta multimodaalisia suuria malleja ymmärtämään aluetason hahmojen vuorovaikutussuhteita.



Tässä prosessissa vaikein osa on opettaa malli tunnistamaanNäkemättömät hahmojen vuorovaikutustyypit

Tiedätkö, suurin osa olemassa olevista tutkimuksista keskittyy suljettuihin ympäristöihin, kun siitä tulee avoin ympäristö, joka on lähempänä todellisuutta, malli hämmentyy!

Esimerkiksi alla olevassa kuvassa aiemmilla ilmaisimilla oli vaikeuksia tasapainottaa näkyviä ja näkymättömiä luokkia,tuloksena on pienempi harmoninen keskiarvoja menestyvät huonommin näkymättömissä luokissa.

Sitä vastoin CMMP-menetelmä ratkaisee tehokkaasti tämän tasapainotusongelman, parantaa merkittävästi suorituskykyä ja luo uuden huippuluokan suorituskyvyn näkymättömiin luokkiin.



Mitä tulee siihen, kuinka CMMP-menetelmä ratkaisee näkymättömiä luokkia,sana

Visuaalisia ja spatiaalisia vihjeitä käytetään piirteiden poimintaprosessissa auttamaan näkymättömien henkilö-objektien vuorovaikutuskäsitteiden tunnistamisessa ja parantamaan yleistämistä näkymättömiin luokkiin ehdollisen vihjeoppimisen avulla.



Yhteenvetona voidaan todeta, että CMMP-menetelmä tarjoaa uuden paradigman hienosäätää multimodaalisia suuria malleja niiden tekemiseksi.yleistettyAluetason hahmovuorovaikutussuhteen havaitsemisominaisuudet.

Yllä oleva tutkimus on peräisin Pekingin yliopiston Wangxuan Institute of Computer Technology -instituutista, ja asiaankuuluvat paperit on hyväksytty huippukonferenssissa ECCV 2024.

Uusi kehys ihmisen vuorovaikutuksen nollanäytteen havaitsemiseen

Ryhmä ehdotti uutta kehystä nollanäytteen HOI (Human-Object Interaction) havaitsemiseen CMMP:n avulla.



Erityisesti CMMP havaitsee nollanäytteen ihmisen vuorovaikutuksenJaettu kahteen osatehtävään

  • Visuaalisten piirteiden poimiminen interaktiivisuuden havaitsemiseen
  • Yleistettävä vuorovaikutusluokitus

Sitten jokaiselle osatehtävälleehdotetaan erikseenErilliset visuaaliset ja tekstilliset vihjeet poistamaan riippuvuuksia niiden välillä ja vähentämään virheiden leviämistä.

Ehdollisia visuaalisia vihjeitä (Pv) käytetään syöttämään tietoa tila- ja vuorovaikutteisuushavainnoista kuvakooderiin, jota rajoittavat ilmentymätason visuaaliset priorit (Cins) ja globaalit spatiaaliset vuorovaikutusmallit (Cgsp). Ehdollisia kielen vihjeitä (PL) rajoittavat ihmisen suunnittelemat vihjeet (CL) regularisointihäviön kautta.

Visuaalisten piirteiden poimiminen interaktiivisuuden havaitsemiseen

Ryhmän omaksuman multimodaalisen mallin kuvakooderi koulutettiin alun perin kontrastiivisen oppimisen esikoulutuksella (CLIP) suurissa kuva-teksti-pareissa, ja sen kyky saattaa rajoittua kuvatason ensimmäisen asteen semantiikan ymmärtämiseen.

Jotta kuvakooderi pystyisi erottamaan kaiken ihmisen vuorovaikutteisuuden kuvassa, tiimi ehdotti aiempaa tietämystä erilaisista yksityiskohdista ehdollisiin visuaalisiin vihjeisiin ymmärtääkseen niitä räätälöityinä ihmisvuorovaikutussuhteen havaitsemistehtävää varten.Alueellinen toisen asteen semantiikka

Erityisesti tutkijatKäytä instanssitason tietoja ennakkotietonaSisällytä ehdollisia visuaalisia vihjeitä.

Kun syöttökuva annetaan, esikoulutettua objektin ilmaisinta käytetään ensin kaiken ilmentymän tason aiemman tiedon hankkimiseen, mukaan lukien rajauslaatikot, luottamuspisteet ja havaittujen ilmentymien semanttiset koodaukset.

Lisäksi kannustaakseen jokaista esiintymää olemaan tietoinen mahdollisista vuorovaikutuksessa olevista kohteistaan, tiimi yhdisti koulutussarjan vuorovaikutusten globaalin spatiaalisen kuvion ilmentymätason visuaaliseen ennakkoon.

Tarkemmin sanottuna kunkin huomautuksella varustetun vuorovaikutteisen henkilöparin osalta tutkijatLaske ensin sen yksimuuttujat ja binaariset tilaominaisuudet.

Myöhemmin K-keskiarvojen klusterointialgoritmia käytetään määrittämään klusterikeskukset ja käyttämään niitä vuorovaikutteisten merkkiparien edustavina spatiaalisina kuvioina.

Globaali spatiaalinen vuorovaikutusmalli tarjoaa kategoriasta riippumattoman edustavan tilakonfiguraation siltana nähtyjen ja näkymättömien hahmovuorovaikutuskäsitteiden välisen vuorovaikutuksen ymmärtämiseen.

Lopuksi tutkijat integroivat yhdistetyn tiedon kuvankooderiin kevyen sovittimen kautta.

Yleistettävä vuorovaikutusluokitus

Säilyttääkseen yleisen CLIP-tiedon samalla kun hän oppii tehtäväkohtaisia ​​esityksiä ihmisen vuorovaikutuksen havaitsemiseen, tiimi hyväksyiKielitietoinen nopea oppiminen johdonmukaisuusrajoitteilla

Tämä rajoitus varmistaa, että nähtyjen ja näkymättömien kategorioiden opitut prototyypit säilyttävät kohtuulliset erotusrajat eivätkä poikkea liikaa toisistaan.

Erityisesti kunkin toimintaluokan tutkijatEnsimmäinen käyttökertaKäsin suunnitellut kehotteet muotoilevat sen. Hyödynnä opittavia kontekstisanoja toimiaksesi siltana nähtyjen ja näkymättömien luokkien semantiikan välillä.

Kategorian lopullinen esitys saadaan ketjuttamalla opittavat kontekstisanat yllä olevien lauseiden sanavektoreihin ja viemällä ne sitten tekstikooderin läpi.

Tutkijat ehdottivat, että itse multimodaalisen mallitekstikooderin oppimaa ominaisuusavaruutta voitaisiin hyödyntää edelleen ja parantaa yleistyskykyä näkymättömiin luokkiin.Vinkkejä ihmisen suunnittelun käyttöönohjata opittavien kielivihjeiden ominaisuustilaa.

Tämä rajoitus varmistaa, että nähtyjen ja näkymättömien kategorioiden prototyypit säilyttävät kohtuulliset erotusrajat eivätkä poikkea liikaa toisistaan.

JoukkuehakemusLaillistaminen vs. oppimisen menetysvähentää eroa piirreesitysten ja keinotekoisesti suunniteltujen kielivihjeiden piirreesitysten välillä.

Koulutus CMMP

Vuorovaikutteisuustietoisen ominaisuuskartan ja esiopetetulla objektitunnistimella poimittujen ihmisten ja esineiden rajapintojen perusteella tiimi sovelsi ensin ROI-Pooling-toimintoa poimimaan ominaisuuksia eri alueilla.

Sitten eri alueilta poimitut ominaisuudet sulatetaan yhteen ja lopullinen vuorovaikutusluokan ennuste tehdään vuorovaikutusluokittajan kautta.

Koko malli käyttää polttohäviötä vuorovaikutteisessa luokittelukoulutuksessa ja soveltaa myös kielen säätelyhäviötä.

Kokeelliset tulokset

Tulosten varmistusvaiheessa ryhmä käyttiHICO-DET, yleisesti käytetty tietojoukko ihmisen vuorovaikutuksen havaitsemiseen, 600 merkin vuorovaikutuskategoriat koostuvat 80 objektiluokasta ja 117 verbikategoriasta.

Tutkijat arvioivat mallin nollanäytteen suorituskyvyn HICO-DET:lläViisi nollanäyteasetusta

Saavuttaaksemme oikeudenmukaisen vertailun olemassa oleviin menetelmiin, tutkimmeViT-B/16 on oletuksena käytössärunkoverkkona.

Kuten alla olevasta taulukosta käy ilmi, kokeelliset tulokset osoittavat, että CMMP toimii hyvin kaikissa nollanäytteen asetuksissa.Kaikki saavuttivat parhaan suorituskyvyn ennennäkemättömissä luokissa, joka todistaa ehdollisten multimodaalisten vihjeiden käyttöönoton tehokkuuden.



Kuten kunkin tyypin taulukosta näkyyViimeinen rivi näkyy, hyödyntämällä ViT-L/14-runkoverkkoa CMMP:n laajentamiseksi vastaamaan CLIP4HOI:n FLOP:ita, uusi menetelmä saavuttaa parhaan suorituskyvyn kaikissa osioissa.

Tämä osoittaa, että tiimin mallilla on erinomaiset mahdollisuudet visuaalisten ominaisuuksien avaruudellisten suhteiden poimimiseen ja prototyyppioppimiseen interaktiivista luokittelua varten.

Lisäksi aikaisemmat menetelmät osoittavat vakavia suorituseroja nähtyjen ja näkymättömien luokkien välillä, mikä osoittaa niiden yleistyskyvyn puutteen.

Tämän tutkimuksen malli voi lievittää tätä ongelmaa suuressa määrin jayleistääSuuri potentiaali saavuttaa aiemmin tuntemattomia vuorovaikutuskategorioita vahvistaa multimodaalisten vihjeiden tehokkuuden rajoituksin.

Katso lisätietoja alkuperäisestä paperista.