μπορεί το ai να «δημιουργήσει» τα πάντα;

2024-08-29

μισό χρόνο μετά τη γέννηση του sora, οι «αμφισβητίες» του ήρθαν ο ένας μετά τον άλλον και ακόμη και η nvidia, που «δεν μπορούσε να περιμένει» και «δεν μπορούσε να προλάβει», κατέληξε προσωπικά.

μέχρι στιγμής, η sora έχει κυκλοφορήσει μόνο demo και δεν έχει ανοίξει για χρήση, ενώ οι kuaishou keling, zhipu qingying και vidu έχουν πρωτοστατήσει στο άνοιγμα της πόρτας στην εμπειρία και στην προσέγγιση του κοινού.

παρόλο που η πρώτη εμπειρία της «γενιάς με ένα κλικ» δεν είναι τέλεια, έχει ξεσηκώσει μια δεξαμενή νερού πηγής στη βιομηχανία περιεχομένου. πολλά μικρά δράματα, διαφημίσεις και κινούμενα σχέδια γύρω μας έχουν αρχίσει να χρησιμοποιούν την τεχνητή νοημοσύνη ως «συνεργάτη αποτελεσματικότητας». τεχνολογία παραγωγής τεχνητής νοημοσύνης, από τις εικόνες του vincentian πριν από λίγο καιρό μέχρι τα σημερινά βίντεο του vincentian, τα βίντεο tusheng και τα βίντεο που δημιουργούνται από βίντεο, το "σύμπαν aigc" συνεχίζει να επεκτείνεται.

είναι το ai το «μαγικό στυλό ma liang» στην κινεζική μυθολογία; πόση φαντασία και δημιουργικότητα μπορεί να ζωντανέψει και να συγκινήσει;

"wensheng video", πώς να "ζήσεις"

το wensheng video είναι μια υπερπαραγωγή τους τελευταίους έξι μήνες, η αναβίωση του sora από μεγάλους κατασκευαστές σε μονόκερους δείχνει τη σημασία που αποδίδει η βιομηχανία στη «γενιά».

η παραγωγή βίντεο, εν ολίγοις, χρησιμοποιεί τεχνολογία παραγωγής τεχνητής νοημοσύνης για να μετατρέψει εισόδους πολλαπλών τρόπων, όπως κείμενο και εικόνες σε σήματα βίντεο.

επί του παρόντος, υπάρχουν δύο κύριες τεχνικές διαδρομές για τη δημιουργία βίντεο. το ένα είναι το μοντέλο διάχυσης, το οποίο χωρίζεται σε δύο κατηγορίες. όπως το sora του openai, το keling ai του kuaishou, το vidu της shengshu technology κ.λπ. η άλλη είναι η αυτοπαλινδρομική διαδρομή, όπως το videopoet της google, το phenaki κ.λπ.

στις 26 ιουλίου 2024, η κινεζική εταιρεία τεχνολογίας zhipu ai κυκλοφόρησε το μοντέλο βίντεο qingying (ying) που δημιουργήθηκε από την τεχνητή νοημοσύνη που δημιούργησε η ίδια σε παγκόσμιους χρήστες. η εικόνα δείχνει τη διεπαφή σύνδεσης χρήστη

επί του παρόντος, το μοντέλο διάχυσης που βασίζεται στην αρχιτεκτονική του transformer είναι η κύρια επιλογή για τα μοντέλα παραγωγής βίντεο, γνωστό και ως "dit" (το di είναι η συντομογραφία του diffusion, το t είναι η συντομογραφία του transformer).

κείμενο "διάχυτο" ως βίντεο; «η διάχυση εδώ αναφέρεται σε μια μέθοδο μοντελοποίησης, ο γιουάν λι, επίκουρος καθηγητής και διδάκτορας στη σχολή μηχανικών πληροφοριών στο πανεπιστήμιο του πεκίνου, έδωσε ένα ζωντανό παράδειγμα».

όταν ο μιχαήλ άγγελος σκάλιζε το διάσημο άγαλμα του δαβίδ, είπε το εξής: το γλυπτό ήταν αρχικά στην πέτρα, μόλις αφαίρεσα τα περιττά μέρη. "αυτή η πρόταση περιγράφει με σαφήνεια τη διαδικασία μοντελοποίησης της "διάχυσης". το αυθεντικό βίντεο καθαρού θορύβου είναι σαν μια άσκαπτη πέτρα. πώς να χτυπήσετε αυτή τη μεγάλη πέτρα και να χτυπήσετε το πλεονάζον μέρος μέχρι να χτυπηθεί σε ένα περίγραμμα. το σαφές "david", αυτό τρόπος είναι η «διάχυση»», είπε ο yuan li.

ο yuan li εξήγησε περαιτέρω: "ο μετασχηματιστής είναι ένα νευρωνικό δίκτυο που ακολουθεί τον "κανόνα της κλίμακας" και εκτελεί τη διαδικασία του σπάσιμου λίθων. μπορεί να επεξεργαστεί τις εισερχόμενες χωροχρονικές πληροφορίες, να κατανοήσει τον πραγματικό κόσμο κατανοώντας τις εσωτερικές πολύπλοκες σχέσεις του και να επιτρέψει την μοντέλο για να έχει δυνατότητες συλλογισμού δεν μπορεί μόνο να αποτυπώσει τις λεπτές συνδέσεις μεταξύ των καρέ βίντεο, αλλά και να εξασφαλίσει οπτική συνοχή και χρονική ομαλότητα.

«εργάτης αποτελεσματικότητας», πόσο γρήγορα

μια αφελής πολική αρκούδα ξύπνησε από το ξυπνητήρι, μάζεψε τις αποσκευές της, πήρε ένα ελικόπτερο, μεταφέρθηκε σε τρένο υψηλής ταχύτητας, μεταφέρθηκε σε ταξί, επιβιβάστηκε σε πλοίο, διέσχισε βουνά, ποτάμια, λίμνες και θάλασσες, πέρασε από πολλά κακουχίες και εμπόδια, και τελικά έφτασε στην ανταρκτική και συνάντησε τους πιγκουίνους...

αυτή η μικρού μήκους ταινία κινουμένων σχεδίων διάρκειας ενάμιση λεπτού με τίτλο «all the way south» ολοκληρώθηκε από το μοντέλο της γενιάς βίντεο vidu. αυτό που αρχικά χρειάστηκε φόρτο εργασίας ενός μήνα, με την προσθήκη της τεχνητής νοημοσύνης ως "συνεργάτη αποτελεσματικότητας", χρειάστηκε μόνο μία εβδομάδα για να παραχθούν εξαιρετικά έργα - η απόδοση ήταν τετραπλάσια από αυτή του παρελθόντος.

αυτό έκανε τον chen liufang, νικητή της καλύτερης ταινίας στο τμήμα ταινιών μικρού μήκους aigc του φεστιβάλ κινηματογράφου του πεκίνου και επικεφαλής του ainimate lab ai, να αναστενάζει: η τεχνολογία παραγωγής βίντεο έχει κάνει τα κινούμενα σχέδια υψηλού επιπέδου να μην είναι πλέον «παιχνίδι που καίει χρήματα» μεγάλα στούντιο τολμούν να παίξουν.

η δημιουργική ομάδα του κινουμένου σχεδίου ai "all the way south" αποτελείται από μόνο τρία άτομα: έναν σκηνοθέτη, έναν καλλιτέχνη του storyboard και έναν ειδικό σε εφαρμογές τεχνολογίας aigc. για να γίνει με παραδοσιακές διαδικασίες, χρειάζονται 20 άτομα. μετά τον υπολογισμό, μόνο το κόστος παραγωγής μειώνεται περισσότερο από 90%.

όπως είπε ο wan pengfei, επικεφαλής του visual generation and interaction center του kuaishou, η ουσία της δημιουργίας βίντεο είναι η δειγματοληψία και ο υπολογισμός των pixel από τη διανομή στόχου. αυτή η μέθοδος μπορεί να επιτύχει υψηλότερο βαθμό ελευθερίας περιεχομένου με χαμηλότερο κόστος.

μπαίνοντας στη σελίδα δημιουργίας βίντεο του vidu, ο συγγραφέας γνώρισε επίσης την ελευθερία της «γενιάς με ένα κλικ». ανεβάστε μια φωτογραφία και ορίστε την ως "αρχικό πλαίσιο" ή ως "χαρακτήρα αναφοράς", εισαγάγετε την περιγραφή κειμένου της σκηνής που θέλετε να δημιουργήσετε στο παράθυρο διαλόγου, κάντε κλικ στο "δημιουργία" και θα είναι ένα έξυπνο και συναρπαστικό σύντομο βίντεο δημιουργείται αυτόματα. από την είσοδο στη σελίδα μέχρι την ολοκλήρωση της λήψης, διαρκεί λιγότερο από 1 λεπτό.

στείλτε μια εικόνα στο εγχώριο μοντέλο βίντεο vidu και θα δημιουργηθεί αυτόματα ένα κινούμενο βίντεο. η εικόνα δείχνει στιγμιότυπο οθόνης του βίντεο

«η εποχή του «όλοι γίνονται σχεδιαστές» και «όλοι γίνονται σκηνοθέτες» θα έρθει, όπως «όλοι έχουν ένα μικρόφωνο» στο παρελθόν», δήλωσε ο zhang peng, διευθύνων σύμβουλος της zhipu ai.

"world simulator", υπάρχει κάποιο δράμα;

η παραγωγή βίντεο θα ανατρέψει μόνο τη βιομηχανία περιεχομένου; προφανώς δεν είναι αυτή η αρχική πρόθεση του openai. το "δημιουργία βίντεο" είναι απλώς ένα "ορεκτικό".

πριν από τη γέννηση του sora, το openai δεν το τοποθέτησε ως εργαλείο υλοποίησης του aigc, αλλά ως "δοχείο" για την αναπαραγωγή του φυσικού κόσμου - έναν προσομοιωτή κόσμου. σε αυτό το δοχείο, οι φυσικοί νόμοι, οι περιβαλλοντικές συμπεριφορές και η λογική αλληλεπίδρασης του πραγματικού κόσμου τρέχουν, ακριβώς όπως ο εικονικός κόσμος που απεικονίζεται στο "the matrix", επηρεάζοντας τη φαντασία και τις αισθήσεις μας.

ωστόσο, ο φυσικός κόσμος είναι τρισδιάστατος και τα τρέχοντα μοντέλα όπως το sora βασίζονται μόνο σε δισδιάστατες λειτουργίες και δεν είναι πραγματικές μηχανές φυσικής, επομένως δεν υπάρχει βαθιά προσομοίωση του φυσικού κόσμου.

«επί χρόνια έλεγα ότι το να «βλέπεις» τον κόσμο σημαίνει «κατανόηση» του κόσμου. αλλά τώρα είμαι διατεθειμένος να πάω αυτή την ιδέα ένα βήμα παραπέρα και το «βλέπω» δεν είναι απλώς «κατανόηση» αλλά «κάνω». li feifei, ένας καθηγητής έδρας στο πανεπιστήμιο του στάνφορντ, δήλωσε δημόσια ότι η ουσία της χωρικής νοημοσύνης είναι να συνδέσει το «βλέποντας» και το «κάνω».

όταν το «βλέποντας» δεν ισοδυναμεί με το «κάνω», η δημιουργία τεχνητής νοημοσύνης δεν μπορεί να σταματήσει. πρόσφατα, έχουν προκύψει νέες τεχνικές διαδρομές. κυνηγάτε ο ένας τον άλλον σε διαφορετικές διαδρομές, προχωρώντας μαζί για να προωθήσετε αυτόν τον έξυπνο κόσμο που είναι κατασκευασμένος από διανύσματα και μοντέλα.

η μελλοντική «κοσμοθεωρία» εξακολουθεί να είναι ένα μυστήριο που δεν έχει ακόμη αποκαλυφθεί. όπως είπε ο αμερικανός φυσικός φάινμαν: «δεν μπορώ να δημιουργήσω έναν κόσμο που δεν καταλαβαίνω, αλλά αυτό δεν σημαίνει ότι αν καταλαβαίνεις έναν κόσμο, σίγουρα θα μπορείς να δημιουργήσεις έναν κόσμο».

αυτή τη στιγμή είναι ακόμα η παραμονή της ανατροπής. αυτός είναι ο λόγος για τον οποίο όταν κάνουμε ερωτήσεις στους εξερευνητές τεχνολογίας για το μέλλον, λαμβάνουμε τρελά διαφορετικές απαντήσεις. ίσως η «αβεβαιότητα» να είναι η ευλογία αυτής της εποχής.

αναφορά/σχόλια

νέα

μπορεί το ai να «δημιουργήσει» τα πάντα;

εισαγωγή

τα στοιχεία επικοινωνίας μου