uutiset

alibaba cloud tongyi qianwen qwen2-vl toisen sukupolven visuaalinen kielimalli avoimen lähdekoodin

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house raportoi 2. syyskuuta, että alibaba cloud tongyi qianwen julkisti tänään toisen sukupolven visuaalisen kielimallin qwen2-vl avoimen lähdekoodin ja julkaisi kaksi kokoa 2b ja 7b sekä sen kvantifioitu versiomalli. samaan aikaan lippulaivamallin qwen2-vl-72b api on lanseerattu alibaba cloud bailian -alustalle, ja käyttäjät voivat soittaa siihen suoraan.

alibaba cloudin virallisen esittelyn mukaan qwen2-vl:n perussuorituskykyä on parannettu kattavasti edellisen sukupolven malliin verrattuna:

se voi ymmärtää kuvia eri resoluutioista ja kuvasuhteista ja saavuttaa maailman johtavan suorituskyvyn vertailutesteissä, kuten docvqa, realworldqa ja mtvqa;

ymmärrä pitkiä yli 20 minuutin videoita ja tukee videopohjaisia ​​kysymyksiä ja vastauksia, dialogia, sisällön luomista ja muita sovelluksia.

sillä on vahvat visuaaliset älykkyysominaisuudet ja se pystyy ohjaamaan matkapuhelimia ja robotteja itsenäisesti. monimutkaisilla päättely- ja päätöksentekoominaisuuksilla qwen2-vl voidaan integroida matkapuhelimiin, robotteihin ja muihin laitteisiin suorittamaan automaattisia toimintoja visuaalisen ympäristön ja tekstiohjeiden perusteella. ;

ymmärrä kuvien ja videoiden monikielistä tekstiä, mukaan lukien kiina, englanti, useimmat eurooppalaiset kielet, japani, korea, arabia, vietnami ja paljon muuta.

qwen2-vl jatkaa vit plus qwen2 -sarjan rakennetta. kaikki kolme kokoa käyttävät vit-mittakaavaa tukemaan kuvien ja videoiden yhtenäistä syöttöä.

mutta jotta malli voisi havaita visuaalista tietoa ja ymmärtää videoita selkeämmin, tiimi teki joitain päivityksiä arkkitehtuuriin:

ensinnäkin saavutetaan täysi tuki alkuperäiselle dynaamiselle resoluutiolle. edellisestä sukupolvesta poiketen qwen2-vl pystyy käsittelemään minkä tahansa resoluution kuvasyöttöä erikokoisista kuvista, jotka muunnetaan dynaamiseksi määräksi tokeneita, joissa on vähintään 4 merkkiä. tämä malli simuloi ihmisen luonnollista visuaalisen havainnoinnin tapaa, varmistaa korkean johdonmukaisuuden mallin syöttämisen ja alkuperäisen kuvainformaation välillä ja antaa mallille tehokkaan kyvyn käsitellä minkä tahansa kokoisia kuvia, jolloin se voi suorittaa kuvankäsittelyn joustavammin ja joustavammin. tehokkaasti.

toinen on multimodaalisen kiertoasennon upottamisen (m-rope) käyttö. perinteinen rotaatioaseman upottaminen voi kaapata vain yksiulotteisten sekvenssien sijaintitiedot. m-rope mahdollistaa laajamittaisten kielimallien kaapamisen ja integroimisen samanaikaisesti yksiulotteisten tekstisekvenssien, kaksiulotteisten visuaalisten kuvien ja kolmiulotteisten kuvien paikkatiedon avulla. videoita, jotka antavat kielimallille tehokkaat multimodaaliset käsittely- ja päättelyominaisuudet, joiden avulla mallit voivat paremmin ymmärtää ja mallintaa monimutkaisia ​​multimodaalisia tietoja.

lippulaivamallin qwen2-vl-72b sovellusliittymä useiden qwen2-vl:n avoimen lähdekoodin mallien joukossa on tällä kertaa lanseerattu alibaba cloud bailian -alustalla, ja käyttäjät voivat kutsua api:ta suoraan alibaba cloud bailian -alustan kautta.

samaan aikaan tongyi qianwen -tiimillä on avoimen lähdekoodin qwen2-vl-2b ja qwen2-vl-7b apache 2.0 -protokollan alla. avoin lähdekoodi on integroitu hugging face transformers-, vllm- ja muihin kolmansien osapuolien kehyksiin. kehittäjät voivat ladata ja käyttää mallia hugging facen ja moda modelscopen kautta tai käyttää mallia tongyin virallisen verkkosivuston ja tongyi-sovelluksen päädialogisivun kautta.