2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Koneen sydänraportti
Machine Heart -toimitusosasto
Avoimen lähdekoodin alalla on jälleen hyviä uutisia.
Suuret kielimallit (LLM) ovat kokeneet merkittävän kehityksen, ja viime aikoina olemme myös nähneet multimodaalisten suurten kielimallien (MLLM) puomin, joilla on yllättäviä multimodaalisia ominaisuuksia.
Erityisesti GPT-4o:n ilmaantuminen on edistänyt merkittävästi MLLM-alan kehitystä. Näitä malleja vastaavat avoimen lähdekoodin mallit ovat kuitenkin merkittävästi riittämättömiä. Avoimen lähdekoodin yhteisön kiireellistä tarvetta edistää tämän alan kehitystä ei voi liioitella.
Tässä artikkelissa Tencent Youtu Labin ja muiden instituutioiden tutkijat ehdottavat VITAa, joka on ensimmäinen avoimen lähdekoodin multimodaalinen suuri kielimalli (MLLM), joka pystyy käsittelemään ja analysoimaan video-, kuva-, teksti- ja äänimodaaleja samanaikaisesti Samalla siinä on edistynyt multimodaalinen interaktiivinen kokemus.
Tutkijat käyttivät Mixtral 8×7B:tä kielen perustana, laajensivat sitten sen kiinan sanastoa ja hienosääsivät kaksikielisiä ohjeita. Lisäksi tutkijat varustivat kielimallin visuaalisilla ja ääniominaisuuksilla kaksivaiheisen monivaiheisen multimodaalisen kohdistuksen ja ohjeiden hienosäädön avulla.
VITAlla on vahvat monikieliset, visuaaliset ja äänen ymmärtämiskyvyt, mistä on osoituksena sen erinomainen suorituskyky yksi- ja multimodaalisissa vertailuissa.
Perusominaisuuksien lisäksi tämä tutkimus on edistynyt merkittävästi myös luonnollisen multimodaalisen ihmisen ja tietokoneen vuorovaikutuskokemuksen parantamisessa. Tietojemme mukaan tämä on ensimmäinen tutkimus, jossa hyödynnetään ei-wake-vuorovaikutuksia ja äänen keskeytyksiä MLLM:ssä. Tutkijat suunnittelivat myös ylimääräisiä tilatunnuksia ja vastaavia koulutustietoja ja strategioita erilaisten vuorovaikutusskenaarioiden havaitsemiseksi.
VITA on otettu käyttöön käyttämällä kaksisuuntaista lähestymistapaa, jossa yksi malli vastaa vastausten tuottamisesta käyttäjien kyselyihin ja toinen malli seuraa jatkuvasti ympäristön syötteitä. Tämä antaa VITA:lle vaikuttavat ihmisen ja tietokoneen vuorovaikutusominaisuudet.
VITA on ensimmäinen askel avoimen lähdekoodin yhteisölle tutkiakseen multimodaalisen ymmärryksen ja vuorovaikutuksen saumatonta integrointia. Vaikka VITAssa on vielä paljon tehtävää päästäkseen lähemmäksi suljetun lähdekoodin kollegojaan, tutkimuksessa toivotaan, että VITA:n rooli edelläkävijänä voi toimia kulmakivenä myöhempään tutkimukseen.
Lisää 15ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Yllä olevassa videossa käyttäjät voivat kommunikoida VITA:n kanssa esteettömästi Nähtyään valkoisen T-paidan, joka hänellä on yllään, hänelle annetaan matematiikkakysymys, jonka hän voi tarkastella reaaliajassa, ja anna sitten tarkkoja vastauksia, kun puhut muille, koska se tietää, että käyttäjä ei kommunikoi sen kanssa, VITA antaa myös ehdotuksia VITA-tulosta, voit myös keskeyttää keskustelun reaaliajassa ja aloittaa uuden aiheen.
Lisää 15ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Tässä videossa käyttäjä pitää keksiä kädessään ja kysyy VITAlta, mitä hän syö. VITA kertoo syövänsä keksejä ja ehdottaa, että keksit maistuvat paremmin maidon tai teen kanssa.
Kun treenaat, toimi chat-kumppanina:
Lisää 15ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Huomautus: Yllä olevia videoita toistetaan reaaliajassa 1x nopeudella, eikä niitä ole kiihdytetty.
VITA voi kirjoittaa koodin käyttäjän toimittaman vuokaavion perusteella:
Anna kuva, niin VITA voi myös vastata kysymyksiin kuvan sisällön perusteella:
Voit myös katsoa videoita ja vastata kysymyksiin Kun käyttäjät esittävät kysymyksen "Kuvaile koiran liikkeitä yksityiskohtaisesti", VITA voi myös antaa tarkkoja vastauksia:
Menetelmän esittely
Kuten kuvasta 3 näkyy, VITA:n yleinen koulutusprosessi sisältää kolme vaihetta: LLM-ohjeiden hienosäätö, multimodaalinen kohdistus ja multimodaalinen ohjeiden hienosäätö.
LLM-ohjeiden hienosäätö
Mixtral 8x7B:n suorituskyky kuuluu parhaiden avoimen lähdekoodin LLM:ien joukkoon, joten sitä käytettiin tämän tutkimuksen perustana. Tutkijat havaitsivat kuitenkin, että virallisella Mixtral-mallilla on rajallinen kyky ymmärtää kiinaa. Kaksikielisen (kiinan ja englannin) ymmärryksen lisäämiseksi tutkimuksessa laajennettiin kiinan sanastoa perusmalliin, jolloin sanasto kasvoi 32 000:sta 51 747:ään. Laajentuttuaan sanastoa, tutkijat käyttivät 5 miljoonan synteettistä kaksikielistä korpusta hienosäätääkseen tekstiohjeita.
Multimodaalinen linjaus
Tiivistää tekstin ja muiden modaliteettien välistä esitysmuotoa ja siten luoda perusta multimodaaliselle ymmärtämiselle. Visuaalisia liittimiä opetetaan vain visuaalisen kohdistusvaiheen aikana. Taulukossa 1 on yhteenveto käytetyistä harjoitustiedoista, paitsi tekstiosasta.
visuaalinen modaliteetti
Ensimmäinen on visuaalinen kooderi. Tutkijat käyttivät visuaalisena kooderina InternViT-300M-448px, joka otti kuvan, jonka resoluutio oli 448 × 448, ja loi 256 merkkiä visuaalisen liittimen käytön jälkeen yksinkertaisena kaksikerroksisena MLP:nä. Korkean resoluution kuvan syöttämiseen tutkijat käyttävät dynaamisia korjausstrategioita paikallisten yksityiskohtien tallentamiseen.
Videota pidetään kuvien erityisenä käyttötapauksena. Jos videon pituus on alle 4 sekuntia, 4 kuvaa sekunnissa näytteistetään tasaisesti. Jos videon pituus on välillä 4 sekuntia ja 16 sekuntia, yksi ruutu näyte otetaan sekunnissa. Yli 16 sekuntia kestävistä videoista näytteet otetaan tasaisesti 16 kehyksestä.
Toinen on visuaalinen kohdistus. Harjoittelimme visuaalista liitintä vain visuaalisen kohdistusvaiheen aikana, emmekä käyttäneet äänikysymyksiä tässä vaiheessa.
Lopuksi on tietojen peräkkäin. Pelkän tekstin datan ja kuvadatan osalta tämän tutkimuksen tavoitteena on ketjuttaa kontekstin pituus 6K-tunnisteiksi, kuten kuvassa 4 näkyy. On syytä huomata, että videodataa ei ole ketjutettu.
Erilaisten tietojen peräkkäiskäytöllä on kaksi etua:
Lisäksi tutkimuksessa havaittiin, että peräkkäisillä tiedoilla koulutetut mallit suoriutuivat vertailukelpoisesti raakadatalla koulutettujen mallien kanssa.
audio modaliteetti
Toisella puolella on äänikooderi. Tuloääni käsitellään alun perin Mel-suodatinlohkon läpi, joka jakaa äänisignaalin yksittäisiksi taajuuskaistoiksi mel-taajuusalueella jäljitellen epälineaarista ihmisen äänenhavaintoa. Myöhemmin tutkijat käyttivät syöteominaisuuksien käsittelyyn 4×CNN-alasnäytteenottokerrosta ja 24-kerroksista muuntajaa, jossa oli yhteensä 341 miljoonaa parametria. Lisäksi he käyttävät yksinkertaista kaksikerroksista MLP:tä äänitekstimodaaliliittimenä. Lopuksi joka 2. sekunti äänitulo koodataan 25 merkkiin.
Toinen näkökohta on äänen kohdistus. Kohdistustehtävässä tutkijat käyttivät automaattista puheentunnistusta (ASR). Tietojoukkoja ovat Wenetspeech (yli 10 000 tuntia usean alueen puheentunnistusdataa, joka keskittyy pääasiassa kiinalaisiin tehtäviin) ja Gigaspeech (10 000 tuntia korkealaatuista äänidataa, joista suurin osa on suunnattu englanninkielisiin puheentunnistustehtäviin). Äänitekstitystehtävään tutkijat käyttivät Wavcapsin AudioSet SL -osajoukkoa, joka sisältää 400 000 äänileikettä vastaavilla äänitekstityksellä. Kohdistusprosessin aikana äänikooderit ja liittimet koulutetaan.
Multimodaalinen opetuksen hienosäätö
Tutkimus mukautti mallia parantamaan sen kykyä seurata ohjeita, oli se sitten tekstiä tai ääntä.
Tietojen rakentaminen. Ohjeiden viritysvaiheen tietolähteet ovat samat kuin taulukon 1 kohdistusvaiheen tietolähteet, mutta tässä tutkimuksessa tehtiin seuraavat parannukset:
Kysymykset korvataan satunnaisesti (noin puolet) niiden ääniversioilla (käyttäen TTS-tekniikkaa, kuten GPT-SoVITS6), tavoitteena parantaa mallin ymmärtämistä äänikyselyistä ja sen kykyä noudattaa ohjeita.
Aseta eri järjestelmäkehotteet välttääksesi ristiriidat erityyppisten tietojen välillä taulukon 2 mukaisesti. Esimerkiksi joihinkin kysymyksiin voidaan vastata visuaalisen tiedon tai mallin oman tiedon perusteella, mikä johtaa konflikteihin. Lisäksi kuvadataa on korjattu, kuten monikehysvideodataa, mikä saattaa hämmentää mallia. Järjestelmäkehote erottaa selkeästi eri tietotyypit, mikä auttaa ymmärtämään intuitiivisemmin.
Kahden interaktiivisen toiminnon toteuttamiseksi, nimittäin ei-herätysvuorovaikutuksen ja äänen keskeytyksen, tässä tutkimuksessa ehdotetaan kaksisuuntaista käyttöönottokehystä, eli kahta VITA-mallia otetaan käyttöön samanaikaisesti, kuten kuvassa 1.
Tyypillisesti sukupolvimalli vastaa käyttäjien kyselyihin. Samalla Monitoring-malli havaitsee ympäristöäänet tuotantoprosessin aikana. Se jättää huomioimatta kyselyn ulkopuoliset käyttäjien äänet, mutta pysäyttää mallin luomisen, kun kyselyn ääni tunnistetaan. Valvontamalli integroi sitten historiallisen kontekstin ja vastaa viimeisimpiin käyttäjien kyselyihin, ja luovien ja valvontamallien identiteetit vaihdetaan.
Kokeellinen arviointi
kielen suoritus. Kielimallin koulutusprosessin tehokkuuden tarkistamiseksi tutkijat käyttivät neljää tietojoukkoa, joita ovat C-EVAL, AGIEVAL, MMLU ja GSM8K. Nämä tietojoukot kattavat erilaisia skenaarioita, mukaan lukien yleiset monivalintakysymykset, monialaiset tietokilpailukysymykset sekä matemaattiset ja loogiset päättelytehtävät, jotka kattavat sekä kiinan että englannin kontekstit.
Alla olevan taulukon 3 tulokset osoittavat, että tämän artikkelin koulutus parantaa merkittävästi kielimallin kykyä kiinalaisessa arviointijoukossa (C-EVAL ja AGIEVAL), säilyttäen samalla alkuperäisen suoritustason englanninkielisessä vertailussa (MMLU) ja matemaattisen päättelyn parantaminen Tehtävässä on saavutettu merkittävä parannus (GSM8K).
ääniesitys. Varmistaakseen mallin oppiman puheesityksen kestävyyden tutkijat suorittivat testejä kahdella tietojoukolla: Wenetspeech ja Librispeech.
Niistä Wenetspeechillä on kaksi arviointiindikaattoria, nimittäin test_net ja test_meeting. Ensimmäinen tietolähde on yhdenmukaisempi harjoitustietojen kanssa, joten jälkimmäinen on suurempi haaste. Mallin pidennettynä tietojoukona Librispeech arvioi mallin yleistyskyvyn näkymättömissä tietojoukoissa. Se sisältää "dev":llä alkavan varmistusjoukon ja se, joka alkaa "testillä". on testisarja, "Puhdas" edustaa vähemmän haastavaa sarjaa ja "muut" edustaa haastavampaa sarjaa.
Kuten alla olevan taulukon 4 tuloksista näkyy, VITA saavutti erittäin hyviä tuloksia ASR-benchmark-testissä.
Multimodaalinen suorituskyky. Multimodaalisten ominaisuuksien arvioimiseksi tutkimuksessa arvioitiin VITA neljällä vertailuarvolla, mukaan lukien MME, OCRBench, HallusionBench ja Video-MME. Tulokset näkyvät kuvassa 5.
Kuvan ymmärtämisessä VITA on parempi kuin kuvakohtainen avoimen lähdekoodin malli LLaVA-Next ja lähellä suljetun lähdekoodin mallia Gemini 1.5 Pro.
Videon ymmärtämisessä VITA ohittaa avoimen lähdekoodin videomallin Video-CCAM:n. Vaikka VITA:n ja videokohtaisen LLaVA-Next-Videon välillä on kuilu, tämä on hyväksyttävää, koska VITA tukee laajempaa modaliteettivalikoimaa ja priorisoi interaktiivisuutta.
Lopuksi on syytä huomata, että avoimen lähdekoodin mallien ja patentoitujen mallien välillä on edelleen suuri ero videon ymmärtämisessä.