nuntium

Zhipu AI magnum exemplar video generationis dimittit, Bilibili investigationem et progressionem participat, et Yizhuang vim computandi praebet |

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Magna exempla video in pugnam centena exempla.

Author|Zhao Jian‍‍‍

Hic annus est primus annus explosionis exempla magnarum "video generationis". Praeteritis duobus mensibus vidimus Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technologia Pixverse, Runway Gen-3 et alia magna exempla video inter se persequentes.

Sed in primo dimidium anni, magnae video generationis exemplar societates tendebant ad umbilicum solum ad munus videndi generationis.

In secundo dimidium anni, maior linguarum exemplar societates paulatim vestigia OpenAI sequentur et forum magnarum video exemplorum ad unitatem linguae exempla et exempla video.

Inter summus profile "sex Big exemplum" velocissimus movens est Zhipu AI.

Hoc mane, hoc Tsinghua-substructio magnum exemplar unicornis immisit video generationis magnum exemplar productum "Qingying", quod directe patet omnibus usoribus et subsidiis Wensheng Video et Tusheng Video.

Post inposita particula textus vel picturae (i.e. promptae) in Zhipu Qingyan PC vel App, utentes eligere possunt stilum generare volunt, inter viverra 3D, nigrum et album, oleum picturae, stilum pellicularum etc., cum Qingying proprio musica, video clips generans imaginationis AI plenas; praeterea "AI Dynamic Photo Mini Program" sustinet Tusheng videos.

Ad hodiernam condicionem in campo magnarum exemplorum video, Zhang Peng credit probabiliter condicionem ingredi ubi centum scholae cogitationis contendunt, sicut magna exempla linguae.

Secundum mercaturam belli, Qingying monetae solutionis consilium est: in initiali test periodo, omnes users uti possunt gratis; summus celeritatis accessum solvit per unum annum Channel iura. Zhang Peng, CEO of Zhipu AI dixit: "Praesens mercatura adhuc in praematuro statu est, et sumptus est actu altissimus. Paulatim iteramus in foro opiniones".

Qingying API simul etiam in Zhipu magnum exemplar aperta suggestum immissa est. Conatibus et tincidunt experiri ac uti potest exemplar facultatum Wensheng Video et Tusheng Video appellando API.

Qingying inquisitio et progressio validum auxilium a Beijing accepit. Districtus Haidian est ubi sedes Zhipu AI sita est. Subsidia comprehensa praebet ut collocationem industrialem, subsidia virtutis computantes, demonstrationes missionis applicationes, et talenta pro Zhipu AI ut magnarum formarum investigationis et progressionis exsequatur summus perficientur botrum computandi in Beijing. Nativitas potentiae computandi Yizhuang botrum etiam applicabitur ad ingens summus praecisio botrus industrialis in Yizhuang, Beijing in futuro, novas formans res formans in quibus magna exempla praebent oeconomiam realem.


Secundum cooperationem oecologicam, bilibili etiam particeps investigationis technologiae et progressionis in Qingying participata est et creditum est explorare possibiles missiones futuras applicationes. Eodem tempore, particeps Huace pellicula et televisifica, exemplum co-constructionis etiam participavit.

Generare video ex aliquo textu in 1.30 seconds

Quid est specifica effectus Qingying? Primum inspice paucos casus video publice emissos (omnes comitante musica).

  • Vincentium video;

Verba prompta: sursum deorsum trude, caput tuum lente attolle, et draco repente in glaciem apparet.Hollywood movie style

Promptum verbum: In cyberpunk-style urbis scaena nocturna cum lucibus neononicis coruscantibus, camera manutenens zooms lente incedit, et stilus mechanicus parva simia eam reficit instrumentis altis technicis, electronicis instrumentis et ornamentis futuristicis materiis circumdatus. Cyberpunk stilus, atmosphaera arcana, 4K alta definitio.

Promptum verbum: Prospectum figens vendo, color flavus, mensa alba, annuum dejicitur et in portionem frictae gallicae vertitur.

  • tusheng video

Promptus verbum: Classical pulchritudo

Sermo promptus: Draco de ore eius ignem mittit et viculum exurit.

Promptum verbum: Capybara segniter bibit Coke per paleas, caput vertens versus cameram

Tempus generationis video Qingying circiter VI secundis, et expectans tempus post ingressum promptum verbum est de 30 secundis. Zhang Peng dixit quod generatio celeritas iam velocissima industria.

Zhang Peng credit explorationem exemplorum multi-modalium adhuc in primo stadio esse. Iudicans ex effectu videos generatae, multum spatii est ad emendationem intellectus legum rerum naturalium, alta resolutio, continuitas motus camerae, et duratio. Ex ipso exemplaris prospectu, nova architecturae exemplaris cum innovatione magis rupto opus est. Comprimere debet informationes video efficacius, textum plene integrare et contentum video, et generata contenta melioris reddere, dum usorum instructionibus conformantur.

2. sui developed DiT architectura

Exemplar generationis video Qingying Base est CogVideoX, quod tres dimensiones textus, temporis et spatii integrat, et ad Soram algorithmum designatur. CogVideoX est etiam architectura DiT. Per optimizationem, CogVideoX consecutio celeritas augetur per 6 tempora cum generatione praecedenti (CogVideo).

Zhipu maxime tres notas technicas CogVideoX communicavit: cohaerentiam, moderabilitatem, structuram exemplar.


Primo, ad solvendum quaestionem continentiae continentiae;Zhipu se evolvit efficacem structuram autoencoder-trimensionalem variationalem (3D VAE), quae comprimit originale spatium video ad 2% magnitudinis, inde reducendo costam et exercitationem difficultatem disciplinae exemplar generationis video diffusionis.

Secundum structuram exemplaris, Sapientia Spectrum Causalis 3D convolutionis tamquam exemplar principale utitur, et moduli attentionem in autoencoders communiter adhibet aufert, ut exemplar migrationis capax et in diversis resolutionibus utatur.

Eodem tempore, forma convolutionis causalis in tempore dimensio, etiam exemplar praebet ut ante-ad-retro independentiam independentiam consequendam pro videndi modum translitterandi et decoctionis, faciliorem reddens ad superiores tabulas et longiora tempora per bene-tuning generare.

Ex prospectu machinalis instruere, Zhipu melodiam et variationem autoencoder fundatam in tempore dimensionis Parallelae temporalis disponit, ita ut delatam altissimarum tabularum ratem sustineat cum minori vestigium memoriae graphicae .

Secundum est moderabilitas.Pleraque hodiernae notitiae notitiae descriptive textui respondente vel descriptione qualitatis infimae carent. Quam ob rem, Zhipu evolvit finem ut-finem exemplar intelligendi video generare accurata et contenta amicae descriptiones pro ingentis videi notitiae, ut augeam. exemplar textus intellectus et instructio sequentes facultates efficiunt, ut video generata magis consentanea cum usore initus et intellegere posse instructiones ultra-longas et multiplices promptum.

haec quoque ratio Sora. OpenAI exemplar subtilissimum descriptivum generantis utens DALL·E 3 in "re-captione" technicae disciplinae usus est et postea subtitulis generandis textibus pro visis in dataset disciplinarum generandis usus est. Accedit, OpenAI leverages GPT ut brevi user converti suadet in longiora subtilia subtilia, quae tunc ad exemplar video missae sunt.

Denique architectura transformator est a Zhipu evoluta, quae tres dimensiones textus, temporis et spatii integrat.Traditionalis crux attentionem moduli deserit, sed concatenatis textum inhaerens ac video in scaena in inputatione implicare ut plenius correspondeat duobus modalibus.

Sed pluma spatia duorum modalium valde diversa sunt. Zhipu peritus adaptivorum layernorm utitur ad processum textus et modalitates video distincte ad hanc differentiam componendam, ut temporis gradus notitiae in exemplo diffusionis efficacius adhiberi possint dat exemplar ad parametris efficaciter utendum ad informationes visuales meliores align cum semanticis informationibus.

Modulus attentionem 3D plenam mechanismi attentionem adhibet. Studia superiora plerumque utantur attentione locali et temporali separati, vel spatiotemporali attentione obstruuntur. Magnam quantitatem postulant notitiarum visualium implicitae transmissionis, quae difficultatem exemplaris valde auget non potest accommodare ad existentium efficient disciplinam frameworks.

Positionem moduli delatam 3D RoPE designati, quae plus confert ad necessitudinem capiendam inter tabulas in dimensione temporis et de dependentiis diuturnis in video constituendis.

3. Lex Scaling adhuc in fabula

Principio AI in magnae exemplaris itinere, Zhipu in agro multi- modali propositas cognatas ponere coepit. Ex textu ad picturas ad videos, magna exempla' intellectus mundi magis magisque multiplex et multi-dimensionalis fit. Per varias modos discendas, magna exempla emergunt cum facultate cognoscendi, cognoscendi et operandi varia opera.

Zhipu investigationis in magna exempla multi-modalibus ad 2021 reduci possunt. Incipiens ab 2021, Zhipu evolvit CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Nullam diffusionem (ICLR'24), et CogView3 (2024).


Ex CogView, turma CogVideo exculta, magna-exemplar substructio textus-ad-video generationis exemplar. Propositum est a multi- ratis hierarchicis rationibus consilium ad generandum genus video clips, et proposuit methodum secundum interpolationem recursivam ad modum. paulatim generare textum cuivis sub-descriptioni respondens. Hoc opus magnam attentionem ab Facebook, Google, et Microsoft attraxit, et in subsequenti video generationis exemplari opere adhibita ut Facebook Fac-A-Video, Google Phenaki et MAGVIT, Microsoft DragNUWA, et NVIDIA's Vide LDMs.

Mense Maio 2024, GLM magnum exemplar technicae turmae comprehense elaborata in tribus maioribus technicis trends GLM magnarum exemplorum pro AGI per notam orationem ICLR 2024, in qua nativi multimodales magna exemplaria magni ponderis partes agunt: Globus GLM magnum exemplar credit quod Textus construitur Fundamentum clavis amplis exemplaribus, proximus gradus est miscere textum, imagines, video, auditiones aliasque modos simul ad formandum exemplar vere indigenum multi-modalis aedificandi.


Zhipu comprehensivam extensionem magnarum exemplarium seriei productorum habet, et multi-modalis exempla semper magni ponderis partes agunt. Zhipu comprobavit efficaciam scalae legis in generatione video. In futuro, dum persevero ut scalam et exemplar scalae conscendas, novas architecturas exemplaris innovationis magis rupto explorabimus, notitias video efficacius comprimentes, et textum plenius Blendium. et vide contentus.

Zhang Peng credit unum technologicum breakthrough directiones pro magnis exemplaribus in futuro esse indigenas multi-modales magnarum exempla, et Lex Scaling in utraque algorithms et notitia partes agere perget.

"Signa curvae technologiae retardationem adhuc non vidimus," Zhang Peng dixit.

(Cover imaginem et textum comitantium imaginum fontem: Zhipu)