Kiinan multimodaalisen ymmärryksen lista julkaistiin, Tencent Hunyuan sijoittuu ensimmäiseksi China

Kiinan multimodaalisen ymmärryksen lista julkaistiin, Tencent Hunyuan on ensimmäisellä sijalla Kiinassa

2024-08-03

Multimodaalinen ymmärrys on yksi suurten mallien avainominaisuuksista ymmärtää monimutkaista todellista maailmaa.

2. elokuuta julkaistiin kiinalainen multimodaalinen suurmalli SuperCLUE-V Elokuun lista. Sen erinomainen suorituskyky multimodaalisen ymmärryksen suhteen, Tencent Hunyuan suuri malli erottui monien osallistuvien mallien joukosta ja voitti kotimaisen suuren mallin Erinomaisten johtajien neljännes.

Multimodaalinen ymmärrys, joka tunnetaan yleisesti nimellä "kuvat ja teksti", edellyttää, että malli tunnistaa tarkasti kuvaelementit, ymmärtää niiden suhteet ja luo luonnollisen kielen kuvauksia. Tämä ei vain testaa kuvantunnistuksen tarkkuutta, vaan heijastaa myös kokonaisvaltaista ymmärrystä kohtauksesta, syvällistä näkemystä yksityiskohdista ja testaa mallin ymmärrystä monimutkaisesta todellisesta maailmasta.

Tämä arviointi kattaa 12 edustavinta multimodaalista ymmärrysmallia kotimaassa ja ulkomailla, mukaan lukien 4 ulkomaista mallia ja 8 kotimaista edustavaa multimodaalista mallia isot mallit. Tencentin Hunyuan-suurmalli sai korkean pistemäärän 71,95 multimodaalisten perusominaisuuksien ja sovellusominaisuuksien osalta, mikä osoittaa sen kattavat edut tekniikassa ja sovellustasoissa.

SuperCLUE:n virkamiesten mukaan arviointikriteerit kattavat muun muassa ymmärryksen tarkkuuden, vastausten merkityksen ja perustelun syvyyden. Pisteytyssäännöt yhdistävät automaattisen kvantitatiivisen pisteytyksen ja asiantuntija-arvioinnin varmistamaan arvioinnin tieteellisyyden ja oikeudenmukaisuuden.

Arviointitulokset osoittavat, että kotimaiset suuret mallit ovat lähestyneet ulkomaisia huippumalleja multimodaalisen ymmärryksen perusominaisuuksien suhteen. Niistä Tencent Hunyuanin suuren mallin kokonaispistemäärä on vain hieman pienempi kuin GPT-4o ja sen suorituskyky on parempi. kuin CLaude3.5-Sonnet ja Gemini-1.5-Pro näyttää kotimaisten mallien nopean iteroinnin perusominaisuuksissa. Sovellusominaisuuksien osalta Tencentin Hunyuan-suurmalli tarjoaa suuria mahdollisuuksia käytännön sovelluksiin, sillä se tuntee syvästi Kiinan kontekstin ja sen kattavat ominaisuudet yleisesti, maalaisjärkeä, kuvia ja muita aloja.

Tencent Hunyuanin suuren mallin tekniseen perustaan tukeutuvalla tekoälysovelluksella Tencent Yuanbao on monimuotoinen ymmärryskyky sen julkaisun alusta lähtien, olipa kyseessä sitten dokumenttien kuvakaappaukset, muotokuvia ja maisemia, kassakuitit tai mikä tahansa satunnainen valokuva, Yuanbao He kaikki voivat antaa oman ymmärryksensä ja analyysinsä kuvan sisällön perusteella.

Tencentin varapuheenjohtaja Jiang Jie sanoi aiemmin, että multimodaalisuus on "pakollinen vastaus" Tencentin Hunyuan-malliin. Tällä hetkellä Hunyuan-malli ottaa aktiivisesti käyttöön tekniikoita multimodaalisista täysmodaalisiin, ja käyttäjät voivat pian kokea Kuain Tencent Yuanbaossa. App, Tencentin sisäinen liiketoiminta ja skenaariot, ja se on avoinna ulkoisille sovelluksille Tencent Cloudin kautta.

Tällä hetkellä Tencentin suuri hybridimalli on laajentunut biljoonan tason mittakaavaan. Se on ensimmäinen Kiinassa, joka ottaa käyttöön hybridiasiantuntijamallin (MoE) -rakenteen, joka perustuu Tencentin suuren kielimallin kykyihin on jatkuvasti parannettu saavuttaen johtavan kotimaisen tason.

leifeng.com

uutiset

Kiinan multimodaalisen ymmärryksen lista julkaistiin, Tencent Hunyuan on ensimmäisellä sijalla Kiinassa

Johdanto

yhteystietoni