notizia

Pubblicato l'elenco di comprensione multimodale cinese, Tencent Hunyuan è al primo posto in Cina

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La comprensione multimodale è una delle capacità chiave dei modelli di grandi dimensioni per comprendere il complesso mondo reale.

Il 2 agosto è stata pubblicata la lista dei benchmark di agosto del modello multimodale cinese SuperCLUE-V. Con le sue eccellenti prestazioni nella comprensione multimodale, il modello di grandi dimensioni Tencent Hunyuan si è distinto tra molti modelli partecipanti e ha vinto la classifica dei modelli di grandi dimensioni nazionali Quadrante dei leader eccezionali.


La comprensione multimodale, comunemente nota come "immagini e testo", richiede che il modello identifichi accuratamente gli elementi dell'immagine, ne comprenda le relazioni e generi descrizioni in linguaggio naturale. Ciò non solo mette alla prova l'accuratezza del riconoscimento delle immagini, ma riflette anche una comprensione completa della scena, una visione approfondita dei dettagli e verifica la comprensione del modello del complesso mondo reale.

Questa valutazione copre i 12 modelli di comprensione multimodali più rappresentativi in ​​patria e all'estero, inclusi 4 modelli esteri e 8 modelli multimodali rappresentativi nazionali. Il contenuto della valutazione copre due direzioni principali: abilità di base e capacità applicativa modelli di grandi dimensioni. Il grande modello Hunyuan di Tencent ha ricevuto un punteggio elevato di 71,95 in termini di capacità di base multimodali e capacità applicative, mostrando i suoi vantaggi completi a livello tecnologico e applicativo.


Secondo i funzionari di SuperCLUE, i criteri di valutazione coprono aspetti quali l’accuratezza della comprensione, la pertinenza delle risposte e la profondità del ragionamento. Le regole di punteggio combinano punteggi quantitativi automatizzati e revisione di esperti per garantire la scientificità e l’equità della valutazione.

I risultati della valutazione mostrano che i grandi modelli nazionali si sono avvicinati ai migliori modelli esteri in termini di capacità di base di comprensione multimodale. Tra questi, il punteggio totale del grande modello Tencent Hunyuan è solo leggermente inferiore a GPT-4o e le sue prestazioni sono migliori. rispetto a CLaude3.5-Sonnet e Gemini-1.5-Pro ​​mostra la rapida iterazione dei modelli domestici nelle capacità di base. In termini di capacità applicative, il grande modello Hunyuan di Tencent mostra un grande potenziale per applicazioni pratiche con la sua profonda comprensione del contesto cinese e le sue capacità complete in generale, buon senso, immagini e altri campi.


Basandosi sulla base tecnica del modello di grandi dimensioni Tencent Hunyuan, l'applicazione nativa AI Tencent Yuanbao ha capacità di comprensione multimodale fin dall'inizio del suo rilascio, che si tratti di screenshot di documenti, ritratti e paesaggi, ricevute di cassa o qualsiasi foto casuale, Yuanbao Tutti possono fornire la propria comprensione e analisi in base al contenuto dell'immagine.


Jiang Jie, vicepresidente di Tencent, ha affermato in precedenza che la multimodalità è una "risposta obbligata" per il modello Hunyuan di Tencent Attualmente, il modello Hunyuan sta implementando attivamente tecnologie dal multimodale al full-modale e gli utenti presto potranno sperimentare Kuai in Tencent Yuanbao. App, attività e scenari interni di Tencent e sarà aperta ad applicazioni esterne tramite Tencent Cloud.

Allo stato attuale, il grande modello ibrido di Tencent si è espanso fino a raggiungere una scala di parametri di trilioni. È il primo in Cina ad adottare la struttura del modello esperto ibrido (MoE) basandosi sulle capacità del grande modello linguistico di Tencent, sulle sue capacità di comprensione multimodale sono stati continuamente migliorati, raggiungendo il livello nazionale leader.

leifeng.com