Zhipu AI ha reso ufficialmente open source la sua Sora "Qingying"

Zhipu AI ha ufficialmente reso open source il suo Sora "Qingying"

2024-08-06

Nel cuore della notte, dall'altra parte dell'oceano non si muoveva, ma si muovevano le compagnie nazionali.

Voglio davvero dormire, davvero.

Il motivo è che prima di andare a letto, mentre guardavo Github, ho visto per sbaglio l'account THUKEG e ho aggiornato un progetto.

CogVideoX。

THUKEG è il titolo ufficiale di Zhipu eCogVideoX è il modello base del clearing video AI di seconda generazione di Zhipu che è stato molto popolare nelle ultime due settimane.

Nei termini più popolari, CogVideoX è uguale a GPT4o e Qingying è uguale aChatGPT, puoi semplicemente capire che uno è un modello e l'altro è un prodotto basato sul modello, quindi puoi effettivamente disegnare un segno di uguale.

Nelle ultime due settimane, nella battaglia video AI di seconda generazione, basata sulle tre divinità fantasy esistenti Runway, Ke Ling e Luma, Pixverse ha lanciato la versione V2 ed è stato rilasciato anche il modello di Vidu.

Essendo l'azienda di intelligenza artificiale più famosa nel campo dei modelli di grandi dimensioni, anche Zhipu si è unita a questo corpo a corpo di video AI e ha rilasciato il suo prodotto video DiT, Qingying.

Questo prodotto può essere utilizzato sul loro assistente AI Zhipu Qingyan.

Ma ad essere sincero, non l’ho scritto perché penso che ci sia ancora un certo divario tra Keling e Runway in termini di effetti di generazione.

E oggi, due settimane dopo aver rilasciato Qingying, hanno deciso di farloCogVideoX,È open source.

Vale la pena provarlo.

Indirizzo di download del modello CogVideoX:

Al giorno d'oggi, i video AI tradizionali sono tutti closed source. Esiste Open-Sora open source, ma ad essere onesti, l'effetto non è soddisfacente.

Per quanto riguarda Qingying, sebbene l'effetto sia ancora molto indietro rispetto al modello closed source tradizionale, è almeno utilizzabile quando si tratta di eseguire alcuni contenuti.

Questa volta ho sfogliato quelli open source e ho scoperto che quelli open source erano uno di essiPiccolo modello di CogVideoX-2B.

L'inferenza richiede memoria video da 18 GB, vale a dire che quando si dispone di una sola scheda 3090 o 4090, è possibile eseguire direttamente i video in locale senza spendere soldi. Tuttavia, il valore di picco raggiungerà i 36G, che molto probabilmente esaurirà la memoria video.

Ma loro stessi hanno detto che lo ottimizzeranno presto.

Ma ho solo un piccolo pezzo di spazzatura 4060 e la memoria video è solo 8G. Anche dopo averlo ottimizzato, non riesco a eseguirlo. 4090, a dire il vero, non ho davvero i soldi per comprarlo = =

Sarà fantastico quando il modello video AI, come SD1.5, avvantaggerà tutti gli esseri viventi e potrà essere utilizzato da tutti.

Questo modello 2B,La durata del video è di 6 secondi, la frequenza fotogrammi è di 8 fotogrammi/secondo e la risoluzione video è 720*480。

Questi parametri hanno lo stesso feeling della prima generazione di Dream.

Pubblicherò alcuni dei loro casi ufficiali (in realtà, è quasi lo stesso se vai a Qingying e ne esegui alcuni)

Una squisita barca giocattolo in legno, con alberi e vele finemente intagliati, scivola dolcemente su un lussuoso tappeto blu che simula le onde dell'oceano. Lo scafo è dipinto di un marrone intenso e ha piccole finestre. Il tappeto è morbido e strutturato e fornisce uno sfondo perfetto, come un vasto oceano. La nave è circondata da vari giocattoli e oggetti per bambini, suggerendo un ambiente infantile. Questa scena cattura l'innocenza e l'immaginazione dell'infanzia, con il viaggio della barca giocattolo che simboleggia un'avventura senza fine in un ambiente interno stravagante.

La telecamera segue un fuoristrada retrò bianco con un portabagagli nero sul tetto, il fuoristrada sta guidando velocemente su una ripida collina lungo una ripida strada sterrata circondata da pini, la polvere vola sui pneumatici, il sole splende sul fuoristrada, il fuoristrada La guida veloce su una strada sterrata proietta una calda luce sull'intera scena. La strada sterrata curvava lentamente in lontananza, senza altri veicoli in vista. Gli alberi su entrambi i lati della strada sono sequoie e ci sono piante verdi sparse. Vista da dietro, l'auto segue le curve con disinvoltura, come se stesse guidando su un terreno accidentato. La strada sterrata stessa è circondata da ripide colline e montagne, con cieli azzurri e limpidi e sottili nuvole bianche in alto.

In una città devastata dalla guerra, dove rovine e rovine parlano della devastazione, un toccante primo piano cattura una giovane ragazza in questo scenario straziante. Il suo viso era macchiato di cenere, una silenziosa testimonianza del caos che la circondava. I suoi occhi brillano di tristezza e resilienza, catturando la cruda emozione di un mondo privato dell'innocenza a causa del conflitto.

Probabilmente il ragionamento è questo, ma quello che mi aspetto di più quando si parla di open source è in realtà l'ecologia della messa a punto e dei plug-in.

Ad esempio, il modello SD 1.5 di disegno AI che tutti usano adesso, il modello base è in realtà proprio come un pezzo di merda, ma dopotutto è open source e un gruppo di maestri ha realizzato modelli davvero fantastici basati su SD1 .5, come Majic, DreamShaper, Anything e altro ancora.

ECogVideoX può anche essere ottimizzato.

Mi sono ricordato del modello video AI realizzato da Stepping Stars and Shadows al WAIC. Hanno utilizzato 200 minuti di materiale per bambole Calabash per creare un grande modello di bambola Calabash.

Tutto ciò che produci è in stile Calabashwa e non devi lavorare duro per ottenere la coerenza del personaggio. Se inserisco Dawa, quello che viene fuori è Dawa: scrivo Grandpa e Snake Spirit insieme.

E adesso,CogVideoX è open source e, se riusciamo a perfezionarlo, alcune persone che usano l'intelligenza artificiale per realizzare brevi spettacoli e lunghe serie possono provare a mettere a punto i propri modelli video di grandi dimensioni per personalizzare i propri stili e personaggi.

Perché ho sempre pensato che il limite massimo e la dinamica della performance dei video di Wensheng fossero molto più alti di quelli dei video di Tusheng, ma i due ostacoli maggiori sono la coerenza dello stile e la coerenza del personaggio. Se può essere messo a punto, ci sono molte strade da percorrere risolto.

La messa a punto di CogVideoX-2B richiede 40G di memoria video non sono sufficienti, quindi è necessaria una scheda di rendering come A6000.

Ma dopotutto si tratta di un modello video. Ciò non significa che andrà a vantaggio del grande pubblico, ma per alcune start-up e piccole imprese la soglia è quasi pari a 0.

Poiché si tratta di un sistema open source, non hanno bisogno di spendere innumerevoli fondi per costruire il proprio modello di grandi dimensioni da zero. Per superare questa trappola, hanno solo bisogno di acquistare alcune carte locali, che ammontano a decine di migliaia o centinaia di migliaia ., quindi la regolazione fine può essere eseguita localmente.

Ho sempre creduto che il futuro dell'open source sarà migliore di quello del closed source.

La notte in cui Zuckerberg ha rilasciato LLaMa3.1 405B qualche tempo fa, ha pubblicato una lettera aperta di 10.000 parole su Facebook.

Uno dei passaggi mi ha colpito profondamente.

Tradotto è:

Credo fermamente che l’open source sia una necessità per un futuro positivo dell’IA. L’intelligenza artificiale ha un potenziale maggiore di qualsiasi tecnologia moderna per migliorare la produttività umana, la creatività e la qualità della vita, accelerare la crescita economica e promuovere il progresso nella ricerca medica e scientifica. L’open source garantirà che più persone nel mondo possano godere dei vantaggi e delle opportunità offerte dall’intelligenza artificiale, preverrà la concentrazione del potere nelle mani di poche aziende e consentirà a questa tecnologia di essere promossa in tutta la società in modo più equilibrato e sicuro.

Evitare la concentrazione del potere nelle mani di poche aziende permette alla tecnologia di essere maggiorePromuoverlo presso l’intera società in modo equilibrato e sicuro。

L’open source è il metodo migliore. Il closed source non porterà l’uguaglianza tecnologica, ma l’open source lo farà, perché l’intelligenza artificiale non è uno strumento di intrattenimento, è uno strumento di produttività e la sua promozione proviene principalmente da aziende, istituti di ricerca, ecc.

Ogni azienda ha tre grossi problemi quando utilizza l’intelligenza artificiale:

1. Hanno bisogno di formare, mettere a punto e perfezionare i propri modelli.

2. Devono proteggere i propri dati privati.

3. Sperano di trasformare la loro intelligenza artificiale in un ecosistema standard a lungo termine.

Tutto questo riassunto in una frase:

Dobbiamo essere in grado di controllare il nostro destino invece di lasciarlo agli altri.

In Cina, Zhipu è un'azienda a cui penso sia molto simileIA aperta, e ha il temperamento di Meta.

Devi sapere che il modello di business di Meta è completamente diverso da quello di alcune grandi società di modelli come OpenAI. Non raccolgono denaro vendendo i diritti d'uso di modelli di grandi dimensioni, quindi l'open source non ha molto impatto su Meta.

Ma Zhipu è diverso.

Ma alla luce di tali considerazioni, lo hanno ancora decisamente reso open source.

Forse sono come Meta, per quella nobilissima convinzione: "Permettere a questa tecnologia di essere promossa in tutta la società in modo più equilibrato e sicuro".

A parteOltre a CogVideoX, hanno anche reso open source molte cose.

Vai sul loro Github e naviga, troverai tante sorprese:

Adoro ogni azienda disposta all'open source.

Non vedo l'ora che arrivi il giorno in cui innumerevoli sviluppatori svilupperanno una varietà di plug-in e modelli di perfezionamento basati su CogVideoX. Lo faranno anche tutte le aziende del settore cinematografico e televisivo, dei cortometraggi, della pubblicità e di altri settori legati ai video hanno i propri numerosi modelli e vari flussi di lavoro per la generazione di video.

Proprio come SD sta prosperando in varie aziende.

Ammiro lo spettro della saggezza.

Questa non è solo una decisione tecnica, ma anche una trasmissione di convinzioni.

Le luci sull'oceano si spensero gradualmente.

E l'alba dalla nostra parte.

è in aumento.

Ora che l'hai letto, se pensi che sia bello, sentiti libero di mettergli un mi piace, guardarlo e ritwittarlo tre volte. Se vuoi ricevere notifiche il prima possibile, puoi anche darmi una stella⭐ ~Grazie per aver letto il mio articolo, alla prossima.

>> Autore: Kazik

notizia

Zhipu AI ha ufficialmente reso open source il suo Sora "Qingying"

introduzione

le mie informazioni di contatto