notizia

alibaba cloud tongyi qianwen qwen2-vl modello di linguaggio visivo di seconda generazione open source

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house ha riferito il 2 settembre che alibaba cloud tongyi qianwen ha annunciato oggi l'open source del modello di linguaggio visivo di seconda generazione qwen2-vl e ha lanciato due dimensioni di 2b e 7b e il suo modello di versione quantificata. allo stesso tempo, l'api del modello di punta qwen2-vl-72b è stata lanciata sulla piattaforma alibaba cloud bailian e gli utenti possono chiamarla direttamente.

secondo l'introduzione ufficiale di alibaba cloud, rispetto al modello della generazione precedente, le prestazioni di base di qwen2-vl sono state completamente migliorate:

è in grado di comprendere immagini di diverse risoluzioni e proporzioni, ottenendo prestazioni leader a livello mondiale nei test benchmark come docvqa, realworldqa e mtvqa;

comprendere video lunghi di oltre 20 minuti e supportare domande e risposte, dialoghi, creazione di contenuti e altre applicazioni basati su video;

ha forti capacità di intelligenza visiva e può gestire telefoni cellulari e robot in modo autonomo. con capacità decisionali e di ragionamento complesse, qwen2-vl può essere integrato in telefoni cellulari, robot e altri dispositivi per eseguire operazioni automatiche basate sull'ambiente visivo e sulle istruzioni di testo. ;

comprendi il testo multilingue presente in immagini e video, tra cui cinese, inglese, la maggior parte delle lingue europee, giapponese, coreano, arabo, vietnamita e altre ancora.

qwen2-vl continua la struttura della serie vit più qwen2. tutti i modelli di tre dimensioni utilizzano vit su scala 600m per supportare l'input unificato di immagini e video.

ma per consentire al modello di percepire le informazioni visive e comprendere i video in modo più chiaro, il team ha apportato alcuni aggiornamenti all'architettura:

innanzitutto, viene raggiunto il supporto completo per la risoluzione dinamica nativa. diversamente dal modello della generazione precedente, qwen2-vl può gestire l'input di immagini di qualsiasi risoluzione. immagini di diverse dimensioni verranno convertite in un numero dinamico di token, con un minimo di soli 4 token. questo design simula il modo naturale della percezione visiva umana, garantisce un elevato grado di coerenza tra l'input del modello e le informazioni sull'immagine originale e conferisce al modello la potente capacità di elaborare immagini di qualsiasi dimensione, consentendogli di eseguire l'elaborazione delle immagini in modo più flessibile e in modo efficiente.

il secondo consiste nell'utilizzare il metodo di incorporamento della posizione di rotazione multimodale (m-rope). l'incorporamento tradizionale della posizione rotazionale può acquisire solo le informazioni sulla posizione di sequenze unidimensionali. m-rope consente ai modelli linguistici su larga scala di acquisire e integrare simultaneamente le informazioni sulla posizione di sequenze di testo unidimensionali, immagini visive bidimensionali e tridimensionali. video, che conferiscono al modello linguistico potenti funzionalità di elaborazione e ragionamento multimodale, consentono ai modelli di comprendere e modellare meglio dati multimodali complessi.

l'api del modello di punta qwen2-vl-72b tra i molteplici modelli qwen2-vl è open source, questa volta è stata lanciata sulla piattaforma alibaba cloud bailian e gli utenti possono chiamare direttamente l'api tramite la piattaforma alibaba cloud bailian.

allo stesso tempo, il team tongyi qianwen ha reso open source qwen2-vl-2b e qwen2-vl-7b con il protocollo apache 2.0. il codice open source è stato integrato in hugging face transformers, vllm e altri framework di terze parti. gli sviluppatori possono scaricare e utilizzare il modello tramite hugging face e moda modelscope, oppure utilizzare il modello tramite la pagina di dialogo principale del sito web ufficiale tongyi e l'app tongyi.