minimax ha tenuto la sua prima conferenza partner day e ha pubblicato models_news per la generazione di video e musica

minimax ha tenuto la sua prima conferenza partner day e ha rilasciato modelli di generazione di video e musica

2024-09-01

01:55

in uno spettacolo dal vivo che unisce tecnologia e musica, il 31 agosto è iniziata la prima conferenza degli sviluppatori della società di unicorni ai minimax shanghai xiyu technology co., ltd. (di seguito denominata minimax) - "minimaxlink partner day". lo stesso giorno, minimax ha rilasciato ufficialmente il modello video-video-01 e il modello musicale music-01.

i modelli multimodali sono diventati una domanda a cui è necessario rispondere per le grandi aziende di modelli, tra cui l'involuzione dei modelli video è la più evidente. molte aziende di intelligenza artificiale hanno rilasciato in precedenza video di modelli di grandi dimensioni, incluso il modello di generazione video "qingying" lanciato da zhipu ai, ai pixverse v2. da shi technology, vidu da shengshu technology, "keling ai" da kuaishou, ecc.

01:55

la definizione di modelli multimodali è solo l’inizio

resta inteso che il video-01 rilasciato da minimax questa volta si concentra sulla generazione di video nativi ad alta risoluzione e con frame rate elevato. l'inserimento di una parola rapida può generare un video di cinque secondi. gli utenti possono accedere al sito web ufficiale di minimax provare il prodotto.

minimax rilascia ufficialmente il modello video: video-01

dopo aver valutato il modello video video-01, un designer del prodotto ha dichiarato: "l'effetto complessivo è molto buono, con fisica corretta, buona gamma dinamica e stabilità, e la risposta ai concetti di fantascienza e fantasy è relativamente accurata, ma la sensazione plastica è pesante. la resa estetica è relativamente scarsa, la qualità dell'immagine e i dettagli dell'immagine sono scadenti.

a questo proposito, il fondatore e ceo di minimax yan junjie ha affermato che quella attualmente in mostra è solo la prima versione del prodotto e che le versioni aggiornate verranno gradualmente lanciate in futuro.

per questo motivo, il modello video verrà fornito agli utenti gratuitamente per un periodo di tempo. la commercializzazione non verrà presa in considerazione fino a quando il prodotto non verrà aggiornato a uno stato soddisfacente. “la futura commercializzazione è principalmente divisa in due forme: una si basa sulla piattaforma aperta dell'azienda e sugli oltre 2.000 partner clienti dell'azienda che sono disposti a utilizzare le funzionalità di riconoscimento vocale nei prodotti sono state introdotte capacità di riconoscimento proprie.

secondo i rapporti, gli attuali prodotti a matrice di modelli multimodali di minimax includono anche music-01, un modello multifunzionale di generazione musicale end-to-end, speech-01, una nuova generazione di modelli di sintesi vocale generativa, ecc. "questo è solo l'inizio. continueremo a migliorare la velocità e l'effetto del modello e a rilasciare ulteriormente i prodotti corrispondenti", ha affermato yan junjie.

la chiave per migliorare le prestazioni del modello

"come azienda tecnologica, la tecnologia è sempre l'elemento centrale." yan junjie ha affermato che in questa fase l'attenzione di minimax non è rivolta alla commercializzazione.

yan junjie ha affermato che il modello di minimax attualmente gestisce più di 3 miliardi di interazioni con i clienti. un anno fa il tempo di interazione di minimax era solo il 3% di chatgpt, ora questa percentuale è salita al 53%, ma anche così gli utenti connessi non hanno raggiunto l'1% della popolazione mondiale, solo lo 0,8%; per crescere dall’1% al 100%, la cosa più importante è aumentare il tasso di penetrazione e la profondità di utilizzo dei prodotti ai tra gli utenti.

dati di interazione dell'utente minimax

ci sono molte difficoltà tecniche che devono essere superate. tra queste, le tre direzioni di ottimizzazione più importanti sono: come ridurre continuamente il tasso di errore del modello, input e output infiniti e multimodalità. "non è difficile scoprire dalla vita che l'interazione testuale è solo una piccola parte, e di più è l'interazione vocale e video. i contenuti multimodali, come suono, grafica, testo e video, sono diventati la corrente principale della trasmissione delle informazioni. in per migliorare la velocità di penetrazione, la multimodalità è l'unica strada da percorrere." yan junjie ha affermato che per superare queste difficoltà, la "velocità" è l'obiettivo principale della ricerca e dello sviluppo tecnologico del grande modello sottostante di minimax. "tra due modelli con prestazioni simili, quello con addestramento e inferenza più rapidi può utilizzare in modo più efficace le risorse di calcolo per iterare più dati, avendo così una migliore capacità del modello."

secondo i rapporti, minimax ha sperimentato in passato due cambiamenti tecnologici fondamentali, tra cui moe (mixed expert architecture) e linear attention (linear attention). nell'aprile di quest'anno, l'azienda ha sviluppato un modello di nuova generazione basato su moe+ linear attention, considerato paragonabile al livello di gpt-4o. quando si elaborano 100.000 token, l'efficienza di elaborazione del nuovo modello può essere migliorata fino a 2-3 volte e, all'aumentare della lunghezza, l'efficienza del modello aumenta in modo più evidente.

resta inteso che i modelli di testo della serie abab7 che utilizzano la tecnologia di nuova generazione saranno ufficialmente rilasciati nelle prossime settimane.

i rapporti pubblici mostrano che minimax, fondata nel dicembre 2021, ha precedentemente completato tre round di finanziamento tra cui tencent, mihoyo, ecc., e la sua valutazione attuale ha superato i 2,5 miliardi di dollari.

il giornalista del giornale yu yan e lo stagista wang chun

(questo articolo è tratto da the paper. per informazioni più originali, scarica l'app “the paper”)

segnalazione/feedback

notizia

minimax ha tenuto la sua prima conferenza partner day e ha rilasciato modelli di generazione di video e musica

introduzione

le mie informazioni di contatto