2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]
Chen Qiguang, artikkelin ensimmäinen kirjoittaja, opiskelee parhaillaan Harbin Institute of Technologyn Sier-laboratoriossa. Hänen tärkeimpiä tutkimussuuntiaan ovat suuret malliajatteluketjut, poikkikieliset suuret mallit jne.
Viime vuosina suuret kielimallit (LLM) ovat saavuttaneet läpimurtoa luonnollisen kielen käsittelyn (NLP) alalla. Nämä mallit eivät voi vain ymmärtää monimutkaisia yhteyksiä, vaan myös luoda johdonmukaista ja loogisesti tiukkaa tekstiä.
Tieteen ja tekniikan kehittyessä ja sovellusskenaarioiden monipuolistuessa yhden tekstimuodon kyky ei kuitenkaan ilmeisesti enää pysty vastaamaan nykyajan tarpeisiin. Ihmiset odottavat yhä enemmän älykkäitä järjestelmiä, jotka voivat käsitellä ja ymmärtää useita modaalisia tietoja (kuten kuvia, videoita, ääntä jne.) selviytyäkseen monimutkaisemmista tehtävistä ja skenaarioista. Tutkijat ovat alkaneet yrittää laajentaa teksti-CoT:n ominaisuuksia multimodaalisen ajatteluketjun päättelyn alalle selviytyäkseen monimutkaisemmista ja monipuolisemmista tehtävävaatimuksista.
Yksi varhaisimmista multimodaalisen ajatteluketjun tutkimuksista on Lu et al. [1], joka yhdistää visuaalisen ja kielellisen tiedon edistämään multimodaalisen ajatteluketjun (MCoT) kehitystä. ScienceQA-aineiston syntyminen antaa tutkijoille mahdollisuuden arvioida multimodaalisten mallien ajatteluketjun päättelykykyä yhtenäisen viitekehyksen puitteissa.
Lisäksi Zhangin et al. [2] tekemä tutkimus nosti MCoT:n suorituskyvyn uudelle huipulle, jolloin mallin suorituskyky ScienceQA-aineistossa ylittää ihmisen tason (93%>88%). Vastaako nykyinen multimodaalinen ajatteluketjututkimus kuitenkin todella kaikkiin haasteisiin? Voimmeko ajatella, että multimodaalisen päättelyn ongelma on ratkaistu, kun benchmark-testien, kuten ScienceQA:n, tulokset päivittyvät jatkuvasti?
Syvällisen analyysin avulla tutkijat havaitsivat, että nykyisessä multimodaalisen ajatteluketjun vertailuarvossa on edelleen vakavia ongelmia, mikä johtaa mallin todellisten kykyjen yliarviointiin. Nykyinen multimodaalinen ajatteluketjun vertailukohta kohtaa edelleen seuraavat kolme vakavaa ongelmaa:Puuttuu visuaalinen modaalinen päättely、Vain yksivaiheinen visuaalinen modaalinen päättelysamoin kuinRiittämätön alueen peitto。
Nämä ongelmat rajoittavat vakavasti multimodaalisen ajatteluketjun alan kehitystä. Siksi tutkijat ehdottivat uutta vertailukohtaa
(Multi-Domain Multi-step Multi-modal Chain-of-Thought) pyrkii ratkaisemaan edellä mainitut ongelmat ja edistämään monitoimialueen, monivaiheisen ja multimodaalisen ajatteluketjun etenemistä. Tutkijat suorittivat myös kattavan arvioinnin, joka sisälsi monipuoliset multimodaaliset päättelyasetukset ja -menetelmät.
Tutkijat havaitsivat myös, että nykyiset suuret multimodaaliset mallit ovat
Niiden suorituskyvyssä on valtavia suorituskykypuutteita, vaikka ne ovat pärjänneet hyvin aikaisemmissa perinteisissä multimodaalisissa ajatusketjuissa. Lopulta tutkimusryhmä toivoo
Siitä voi tulla arvokas resurssi ja se tarjoaa uraauurtavan perustan monialaisten, monivaiheisten ja multimodaalisten ajatteluketjujen tutkimukselle.
Luetteloosoite: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html
Paperiosoite: https://arxiv.org/abs/2405.16473
Koodiosoite: https://github.com/LightChen233/M3CoT
motivaatio
Huolimatta merkittävästä edistymisestä MCoT-tutkimuksen alalla, olemassa olevissa vertailuarvoissa on edelleen monia puutteita:
1.Puuttuu visuaalinen modaalinen päättely: Mallit voivat usein tuottaa päättelyä ja vastauksia vain tekstimodaliteetin perusteella, mikä ei todellakaan heijasta multimodaalisten CoT-mallien kykyjä.
2.Yksivaiheinen visuaalinen modaalinen päättely: Esimerkiksi sinun tarvitsee nähdä "sulka" kuvassa vain kerran saadaksesi vastauksen suoraan. Käytännön sovelluksissa monivaiheinen päättely on yleisempää ja tarpeellisempaa, mikä edellyttää mallin yhdistävän dynaamisesti multimodaalista tietoa useita kertoja päättelyprosessin aikana kattavan päättelyn suorittamiseksi.
3.Verkkotunnus puuttuu: Ajatteluketjun kannalta terve järki ja matemaattinen päättely ovat tärkeitä osia tällä alalla, mutta nykyiset vertailuarvot eivät kata tärkeitä alueita, kuten maalaisjärkeä ja matematiikkaa, mikä rajoittaa multimodaalisen CoT-valmiuksien kattavaa arviointia.
Yllä olevien ongelmien ratkaisemiseksi tutkijat kehittivät uuden vertailuarvon
ja toivoo edistävänsä monialaisten, monivaiheisten ja multimodaalisten ajatteluketjujen tutkimusta ja kehittämistä.
Tietojen rakentamisprosessi
Rakentaminen sisältää seuraavat neljä avainvaihetta:
Multimodaalisen suuren kielimallin arviointitulosten suoratoisto
Tutkijat ovat tehneet laajoja kokeita useilla suuren mittakaavan visuaalisen kielimalleilla (VLLM), mukaan lukien Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini ja GPT4V. Tutkijat ovat myös tutkineet joitain kehotusstrategioita, kuten suoraa näytteen lähettämistä, ajatusketjun kehotusta (CoT) [3] ja kuvailevaa kehotusta (Desp-CoT) [4] ja kohtauskaavion ajatusketjun kehotusta (CCoT) [5]. ].
analysoida
tutkia
Tämän perusteella tutkijat tutkivat edelleen erilaisia tällä hetkellä yleisesti käytettyjä multimodaalisia menetelmiä ja asetuksia selvittääkseen, voivatko ne ratkaista tehokkaasti
ongelmia sisällä.
Työkalun käytön tutkiminen
Multimodaalisessa päättelyssä työkalun käyttöä pidetään tehokkaana strategiana mallin suorituskyvyn parantamiseksi. Tutkijat arvioivat useiden työkalujen käyttöä kokeissa, mukaan lukien mallit, kuten HuggingGPT, VisualChatGPT, IdealGPT ja Chameleon.
Tekstitä suuria malleja käyttämällä multimodaalisia työkaluja
Huono suorituskyky: Kokeelliset tulokset osoittavat, että vaikka nämä työkalut toimivat hyvin yksimuotoisissa tehtävissä, ne
Suorituskyvyssä on edelleen merkittävä ero vertailuindeksissä. Esimerkiksi kun HuggingGPT käsittelee monimutkaisia monivaiheisia päättelytehtäviä, sen suorituskyky on suhteellisen huonompi visuaalisen tiedon tehokkaan käytön puutteen vuoksi. Lisäksi VisualChatGPT ja IdealGPT eivät myöskään täyttäneet odotuksia käsitellessään multimodaalista vuorovaikutusta vaativia tehtäviä. Nämä tulokset viittaavat siihen, että nykyiset työkalujen käyttökehykset tarvitsevat lisäparannuksia multimodaalisen tiedon integroimiseksi ja hyödyntämiseksi paremmin.
Kontekstuaalinen oppimisen tutkiminen
Komento hienosäätötutkimusta
Päätelmät ja näkymät
Viitteet:
[1] Lu et ai. Opi selittämään: Multimodaalinen päättely kautta
Tieteen ajatusketjut kysymyksiin vastaamiseen. Julkaisussa Proc. NeurIPS 2022:sta.
[2] Zhang et ai. Multimodaalinen päättely multimodaalisen tietograafin avulla. ACL 2024.
[3] Kojima et ai. Suuret kielimallit ovat nollasta päätelmiä. Julkaisussa Proc. NeurIPS 2022:sta.
[4] Wu et ai. Ajatusketjun rooli monimutkaisessa visio-kielen päättelytehtävässä. Arxiv 2023.
[5] Mitra et ai. Ajatusketjun koostumuksellinen kehotus suurille multimodaalisille malleille. CVPR 2024.