kann ki alle dinge „generieren“?

2024-08-29

ein halbes jahr nach der geburt von sora kamen seine „herausforderer“ einer nach dem anderen, und sogar nvidia, das „nicht warten konnte“ und „nicht aufholen konnte“, endete persönlich.

bisher hat sora nur demoversionen veröffentlicht und war nicht zur nutzung geöffnet, während kuaishou keling, zhipu qingying und vidu die führung übernommen haben, indem sie die tür zum erleben geöffnet und die öffentlichkeit erreicht haben.

obwohl die erste erfahrung mit der „one-click-generierung“ nicht perfekt ist, hat sie in der content-branche eine quelle von quellwasser aufgewühlt. viele kurzfilme, werbespots und animationsfilme um uns herum haben begonnen, ki als „effizienzpartner“ zu nutzen. technologie zur erzeugung künstlicher intelligenz, von den vinzentinischen bildern vor nicht allzu langer zeit bis zu den heutigen vinzentinischen videos, tusheng-videos und videogenerierten videos, das „aigc-universum“ wächst weiter.

ist ki der „zauberstift ma liang“ in der chinesischen mythologie? wie viel fantasie und kreativität kann es zum leben erwecken und bewegen?

„wensheng video“, wie man „lebt“

„wensheng video ist ein blockbuster.“ der wiederaufstieg von sora von großen herstellern zu einhörnern verdeutlicht die bedeutung, die die branche der „generation“ beimisst.

kurz gesagt, bei der videogenerierung wird generative künstliche intelligenz verwendet, um multimodale eingaben wie text und bilder in videosignale umzuwandeln.

derzeit gibt es zwei technische hauptwege für die videogenerierung. eines ist das diffusionsmodell, das in zwei kategorien unterteilt ist. das eine ist das diffusionsmodell, das auf dem faltungs-neuronalen netzwerk basiert, wie z. b. emuvideo von meta, videocrafter usw., das andere ist das diffusionsmodell, das auf der transformer-architektur basiert. wie sora von openai, keling ai von kuaishous, vidu von shengshu technology usw. die andere ist die autoregressive route, wie z. b. videopoet, phenaki usw. von google.

am 26. juli 2024 veröffentlichte das chinesische technologieunternehmen zhipu ai sein selbst entwickeltes, durch künstliche intelligenz generiertes videomodell qingying (ying) für weltweite nutzer. das bild zeigt die benutzer-login-schnittstelle

derzeit ist das auf der transformer-architektur basierende diffusionsmodell die gängige wahl für videogenerierungsmodelle, auch bekannt als „dit“ (di ist die abkürzung für diffusion, t ist die abkürzung für transformer).

text als video „diffundieren“? „diffusion bezieht sich hier auf eine modellierungsmethode.“ yuan li, assistenzprofessor und doktorvater an der school of information engineering der universität peking, gab ein anschauliches beispiel:

als michelangelo die berühmte davidstatue schnitzte, sagte er folgendes: die skulptur war ursprünglich aus stein, ich habe nur die unnötigen teile entfernt. „dieser satz beschreibt anschaulich den modellierungsprozess der ‚diffusion‘. das ursprüngliche video mit reinem rauschen ist wie ein unbehauener stein. wie man diesen großen stein klopft und den überschüssigen teil abschlägt, bis er in eine kontur geschlagen wird. der klare ‚david‘, das.“ „der weg ist ‚diffusion‘“, sagte yuan li.

yuan li erklärte weiter: „transformer ist ein neuronales netzwerk, das der ‚skalenregel‘ folgt und den prozess des steinebrechens durchführt. es kann die eingegebenen räumlich-zeitlichen informationen verarbeiten, die reale welt durch das verständnis ihrer internen komplexen beziehungen verstehen und das ermöglichen.“ das modell verfügt über argumentationsfähigkeiten und kann nicht nur die subtilen zusammenhänge zwischen videobildern erfassen, sondern auch visuelle kohärenz und zeitliche glätte gewährleisten.“

„effizienzpartner“, wie schnell

ein naiver eisbär wurde vom wecker geweckt, packte sein gepäck, nahm einen hubschrauber, stieg in einen hochgeschwindigkeitszug um, stieg in ein taxi um, bestieg ein schiff, überquerte berge, flüsse, seen und meere, erlebte strapazen und hindernisse überwinden und schließlich in der antarktis ankommen, um pinguine zu treffen ...

dieser eineinhalbminütige animierte kurzfilm mit dem titel „all the way south“ wurde vom videoproduktionsmodell vidu fertiggestellt. was ursprünglich einen arbeitsaufwand von einem monat erforderte, dauerte mit der hinzufügung von ki als „effizienzpartner“ nur eine woche, um hervorragende arbeiten zu produzieren – die effizienz war viermal so hoch wie in der vergangenheit.

dies ließ chen liufang, gewinner des besten films in der aigc-kurzfilmsektion des pekinger filmfestivals und leiter des ainimate lab ai, seufzen: die videogenerierungstechnologie hat dazu geführt, dass animationen auf hohem niveau nicht mehr nur ein „geldverbrennendes spiel“ sind große studios trauen sich zu spielen.

das kreativteam der ki-animation „all the way south“ besteht nur aus drei personen: einem regisseur, einem storyboard-künstler und einem experten für aigc-technologieanwendungen. um es mit traditionellen verfahren herzustellen, werden 20 personen benötigt. nach der berechnung reduzieren sich allein die produktionskosten um mehr als 90 %.

wie wan pengfei, leiter des visual generation and interaction center in kuaishou, sagte, besteht der kern der videogenerierung darin, pixel aus der zielverteilung abzutasten und zu berechnen. mit dieser methode kann ein höherer grad an inhaltlicher freiheit bei geringeren kosten erreicht werden.

als der autor die videogenerierungsseite von vidu betrat, erlebte er auch die freiheit der „ein-klick-generierung“. laden sie ein foto hoch und legen sie es als „startbild“ oder als „referenzfigur“ fest, geben sie im dialogfeld die textbeschreibung der szene ein, die sie generieren möchten, klicken sie auf „generieren“ und schon entsteht ein intelligentes und spannendes kurzvideo automatisch generiert. vom aufrufen der seite bis zum abschluss des downloads dauert es weniger als 1 minute.

senden sie ein bild an das inländische videomodell vidu, und ein animiertes video wird automatisch generiert. das bild zeigt einen screenshot des videos

„die ära ‚jeder wird designer‘ und ‚jeder wird regisseur‘ wird kommen, genau wie in der vergangenheit ‚jeder hat ein mikrofon‘“, sagte zhang peng, ceo von zhipu ai.

gibt es bei „world simulator“ ein drama?

wird die videogenerierung nur die content-branche untergraben? dies ist offensichtlich nicht die ursprüngliche absicht von openai. „video generieren“ ist nur ein „vorgeschmack“.

vor der geburt von sora positionierte openai es nicht als aigc-implementierungstool, sondern als „container“ zur replikation der physischen welt – als weltsimulator. in diesem container laufen die physikalischen gesetze, das umweltverhalten und die interaktionslogik der realen welt ab, genau wie die in „the matrix“ dargestellte virtuelle welt, und wirken sich auf unsere vorstellungskraft und sinne aus.

allerdings ist die physische welt dreidimensional und aktuelle modelle wie sora basieren nur auf zweidimensionalen operationen und sind keine echten physik-engines, sodass es keine tiefgreifende simulation der physischen welt gibt.

„seit jahren sage ich, dass das ‚sehen‘ der welt ein ‚verstehen‘ der welt bedeutet. aber jetzt bin ich bereit, dieses konzept einen schritt weiter zu verfolgen und bei ‚sehen‘ geht es nicht nur um ‚verstehen‘, sondern um ‚tun‘.“ li feifei, ein lehrstuhlinhaber an der stanford university erklärte öffentlich, dass die quintessenz der räumlichen intelligenz darin besteht, „sehen“ und „tun“ zu verbinden. eines tages wird dies durch ki geschehen.

wenn „sehen“ nicht gleichbedeutend mit „tun“ ist, kann die entwicklung künstlicher intelligenz nicht aufhören. in letzter zeit sind neue technische wege entstanden. sie verfolgen einander auf verschiedenen wegen und schreiten gemeinsam voran, um diese intelligente welt, die aus vektoren und modellen besteht, voranzutreiben.

die zukünftige „weltanschauung“ ist immer noch ein rätsel, das noch nicht gelüftet wurde. wie der amerikanische physiker feynman sagte: „ich kann keine welt erschaffen, die ich nicht verstehe.“ aber das bedeutet nicht, dass man, wenn man eine welt versteht, definitiv in der lage sein wird, eine welt zu erschaffen.

derzeit ist es noch der vorabend der subversion. deshalb erhalten wir völlig unterschiedliche antworten, wenn wir technologieforschern fragen zur zukunft stellen. vielleicht ist „unsicherheit“ der segen dieser ära.

bericht/feedback

nachricht

kann ki alle dinge „generieren“?

einführung

meine kontaktdaten