Νέα

Το Zhipu AI έχει επίσημα ανοιχτό κώδικα Sora "Qingying"

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Στη μέση της νύχτας, η άλλη πλευρά του ωκεανού δεν κυλούσε, αλλά οι εγχώριες εταιρείες κυλούσαν.

Θέλω πολύ να κοιμηθώ, πραγματικά.

Ο λόγος είναι ότι πριν πάω για ύπνο, όταν κοιτούσα το Github, είδα κατά λάθος τον λογαριασμό THUKEG και ενημέρωσα ένα έργο.

CogVideoX

Το THUKEG είναι ο επίσημος τίτλος του Zhipu, καιΤο CogVideoX είναι το βασικό μοντέλο της δεύτερης γενιάς εκκαθάρισης βίντεο AI της Zhipu που ήταν πολύ δημοφιλές τις τελευταίες δύο εβδομάδες.

Με τους πιο δημοφιλείς όρους, το CogVideoX είναι ίσο με GPT4o και το Qingying είναι ίσο μεChatGPT, μπορείτε απλά να καταλάβετε ότι το ένα είναι μοντέλο και το άλλο είναι ένα προϊόν που βασίζεται στο μοντέλο, ώστε να μπορείτε να σχεδιάσετε ένα σύμβολο ίσου.

Τις τελευταίες δύο εβδομάδες, στη μάχη βίντεο δεύτερης γενιάς AI, η Pixverse κυκλοφόρησε την έκδοση V2 που βασίζεται στους υπάρχοντες τρεις θεούς της φαντασίας Runway, Ke Ling και Luma, ενώ κυκλοφόρησε και το πολυαναμενόμενο μοντέλο Vidu.

Ως η πιο σταρ εταιρεία τεχνητής νοημοσύνης στον τομέα των μεγάλων μοντέλων, η Zhipu εντάχθηκε επίσης σε αυτό το video melee με AI και κυκλοφόρησε το προϊόν βίντεο DiT, Qingying.

Αυτό το προϊόν μπορεί να χρησιμοποιηθεί στον βοηθό AI Zhipu Qingyan.

Αλλά για να είμαι πολύ ειλικρινής, δεν το έγραψα γιατί νομίζω ότι υπάρχει ακόμα ένα κενό μεταξύ του και του Keling και του Runway όσον αφορά τα εφέ γενιάς.

Και σήμερα, δύο εβδομάδες μετά την κυκλοφορία του Qingying, το αποφάσισανCogVideoX,Είναι ανοιχτού κώδικα.

Αξίζει να το δοκιμάσετε.

Διεύθυνση λήψης μοντέλου CogVideoX:

Σήμερα, τα κύρια βίντεο τεχνητής νοημοσύνης είναι όλα κλειστού κώδικα Υπάρχει ένα Open-Sora ανοιχτού κώδικα, αλλά για να είμαστε ειλικρινείς, το αποτέλεσμα δεν είναι ικανοποιητικό.

Όσο για το Qingying, αν και το εφέ είναι ακόμα πολύ πίσω από το βασικό μοντέλο κλειστού κώδικα, είναι τουλάχιστον χρησιμοποιήσιμο όταν πρόκειται για την εκτέλεση κάποιου περιεχομένου.

Αυτή τη φορά, περιηγήθηκα στα ανοιχτού κώδικα και διαπίστωσα ότι τα ανοιχτού κώδικα ήταν έναΜικρό μοντέλο του CogVideoX-2B.

Το συμπέρασμα απαιτεί μνήμη βίντεο 18G, δηλαδή, όταν έχετε μια μεμονωμένη κάρτα 3090 ή 4090, μπορείτε να εκτελέσετε απευθείας βίντεο τοπικά χωρίς να καίτε χρήματα, ωστόσο, η μέγιστη τιμή θα φτάσει τα 36G, κάτι που πιθανότατα θα εξαντλήσει τη μνήμη βίντεο.

Αλλά οι ίδιοι είπαν ότι θα το βελτιστοποιήσουν σύντομα.

Αλλά έχω μόνο ένα μικρό κομμάτι σκουπιδιών 4060 με μόνο 8G μνήμης βίντεο, ακόμα και αφού το βελτιστοποιήσετε, δεν μπορώ να το εκτελέσω. 4090, για να είμαι ειλικρινής, πραγματικά δεν έχω τα χρήματα να το αγοράσω = =

Θα είναι υπέροχο όταν το μοντέλο βίντεο AI, όπως το SD1.5, ωφελεί όλα τα ζωντανά όντα και μπορεί να χρησιμοποιηθεί από όλους.

Αυτό το μοντέλο 2Β,Η διάρκεια του βίντεο είναι 6 δευτερόλεπτα, ο ρυθμός καρέ είναι 8 καρέ/δευτερόλεπτο και η ανάλυση βίντεο είναι 720*480

Αυτές οι παράμετροι έχουν την ίδια αίσθηση με την πρώτη γενιά του Dream.

Θα δημοσιεύσω μερικές από τις επίσημες υποθέσεις τους (στην πραγματικότητα, είναι σχεδόν το ίδιο αν πάτε στο Qingying και εκτελέσετε μερικές)

Ένα εξαίσιο ξύλινο σκάφος-παιχνίδι, με περίτεχνα σκαλισμένα κατάρτια και πανιά, γλιστράει ομαλά σε ένα βελούδινο μπλε χαλί που προσομοιώνει τα κύματα του ωκεανού. Η γάστρα είναι βαμμένη σε πλούσιο καφέ και έχει μικρά παράθυρα. Το χαλί είναι απαλό και ανάγλυφο, παρέχοντας ένα τέλειο σκηνικό, σαν ένας απέραντος ωκεανός. Το πλοίο περιβάλλεται από διάφορα παιχνίδια και παιδικά είδη, υποδηλώνοντας ένα παιδικό περιβάλλον. Αυτή η σκηνή αιχμαλωτίζει την αθωότητα και τη φαντασία της παιδικής ηλικίας, με το ταξίδι του καράβι-παιχνίδι να συμβολίζει την ατελείωτη περιπέτεια σε ένα ιδιότροπο εσωτερικό περιβάλλον.

Η κάμερα ακολουθεί ένα λευκό ρετρό όχημα εκτός δρόμου με μια μαύρη σχάρα αποσκευών στην οροφή, το όχημα εκτός δρόμου οδηγεί γρήγορα σε μια απότομη πλαγιά κατά μήκος ενός απότομου χωματόδρομου που περιβάλλεται από πεύκα, η σκόνη πετάει στα λάστιχα, ο ήλιος λάμπει στο όχημα εκτός δρόμου, όχημα εκτός δρόμου Η γρήγορη οδήγηση σε χωματόδρομο δίνει μια ζεστή λάμψη σε ολόκληρο το σκηνικό. Ο χωματόδρομος έστριψε αργά στην απόσταση, χωρίς άλλα οχήματα να φαίνονται. Τα δέντρα και στις δύο πλευρές του δρόμου είναι κοκκινόξυλα, και υπάρχουν διάσπαρτα πράσινα φυτά. Βλέποντας από πίσω, το αυτοκίνητο ακολουθεί τις στροφές με ευκολία, σαν να οδηγεί σε ανώμαλο έδαφος. Ο ίδιος ο χωματόδρομος περιβάλλεται από απότομους λόφους και βουνά, με καταγάλανους ουρανούς και λευκά σύννεφα από πάνω.

Σε μια κατεστραμμένη από τον πόλεμο πόλη, με τα ερείπια και τα ερείπιά της να αφηγούνται την ιστορία της καταστροφής, ένα συγκλονιστικό κοντινό πλάνο απαθανατίζει ένα νεαρό κορίτσι σε αυτό το σπαραχτικό σκηνικό. Το πρόσωπό της ήταν βαμμένο με στάχτη, μια σιωπηλή απόδειξη του χάους που την περιβάλλει. Τα μάτια της αστράφτουν από θλίψη και ανθεκτικότητα, αποτυπώνοντας το ακατέργαστο συναίσθημα ενός κόσμου χωρίς αθωότητα λόγω σύγκρουσης.

Το σκεπτικό είναι μάλλον αυτό, αλλά αυτό που περιμένω περισσότερο όταν πρόκειται για ανοιχτό κώδικα είναι στην πραγματικότητα η οικολογία της λεπτομέρειας και των προσθηκών.

Για παράδειγμα, το μοντέλο σχεδίασης τεχνητής νοημοσύνης SD 1.5 που χρησιμοποιούν όλοι τώρα, το βασικό μοντέλο είναι στην πραγματικότητα σαν ένα σκατά, αλλά τελικά είναι ανοιχτού κώδικα. 5, όπως Majic, DreamShaper, Anything και άλλα.

καιΤο CogVideoX μπορεί επίσης να βελτιωθεί.

Θυμήθηκα το μοντέλο βίντεο AI που έφτιαξαν οι Stepping Stars και οι Shadows στο WAIC χρησιμοποίησαν 200 λεπτά κούκλας Calabash για να δημιουργήσουν ένα μεγάλο μοντέλο κούκλας Calabash.

Όλα όσα παράγετε είναι στο στυλ του Calabash Baby από αυτούς.

Και τώρα,Βίντεο Cog

Επειδή πάντα ένιωθα ότι το ανώτατο όριο και η δυναμική απόδοσης των βίντεο του Wensheng είναι πολύ υψηλότερα από εκείνα των βίντεο του Tusheng, αλλά τα δύο μεγαλύτερα εμπόδια είναι η συνέπεια του στυλ και η συνέπεια του χαρακτήρα, αν μπορεί να βελτιωθεί, υπάρχουν πολλοί τρόποι λυθεί.

Η λεπτομέρεια του CogVideoX-2B απαιτεί 40G μνήμης βίντεο Οι συνηθισμένες κάρτες γραφικών δεν είναι αρκετές, επομένως χρειάζεται μια κάρτα απόδοσης όπως η A6000.

Αλλά τελικά, είναι ένα μοντέλο βίντεο Δεν σημαίνει ότι θα ωφελήσει το ευρύ κοινό, αλλά για ορισμένες νεοφυείς και μικρές επιχειρήσεις, το όριο είναι σχεδόν ίσο με 0.

Επειδή αυτό είναι ανοιχτού κώδικα, δεν χρειάζεται να ξοδέψουν αμέτρητα κεφάλαια για να φτιάξουν το δικό τους μεγάλο μοντέλο από την αρχή Για να ξεπεράσουν αυτήν την παγίδα, χρειάζεται μόνο να αγοράσουν μερικές τοπικές κάρτες, οι οποίες αθροίζονται σε δεκάδες χιλιάδες ή εκατοντάδες χιλιάδες. , και στη συνέχεια η λεπτομέρεια μπορεί να γίνει τοπικά.

Πάντα πίστευα ότι το μέλλον του ανοιχτού κώδικα θα είναι καλύτερο από το κλειστό.

Το βράδυ που ο Zuckerberg κυκλοφόρησε το LLaMa3.1 405B πριν από λίγο καιρό, δημοσίευσε μια ανοιχτή επιστολή 10.000 λέξεων στο Facebook.

Ένα από τα αποσπάσματα με εντυπωσίασε βαθιά.

Μεταφρασμένο είναι:

Πιστεύω ακράδαντα ότι ο ανοιχτός κώδικας είναι μια αναγκαιότητα για ένα θετικό μέλλον AI. Η τεχνητή νοημοσύνη έχει περισσότερες δυνατότητες από οποιαδήποτε σύγχρονη τεχνολογία να βελτιώσει την ανθρώπινη παραγωγικότητα, τη δημιουργικότητα και την ποιότητα ζωής, να επιταχύνει την οικονομική ανάπτυξη και να προωθήσει την πρόοδο στην ιατρική και επιστημονική έρευνα. Το ανοιχτό κώδικα θα διασφαλίσει ότι περισσότεροι άνθρωποι στον κόσμο μπορούν να απολαμβάνουν τα οφέλη και τις ευκαιρίες που προσφέρει η τεχνητή νοημοσύνη, θα αποτρέψει τη συγκέντρωση ισχύος στα χέρια λίγων εταιρειών και θα επιτρέψει την προώθηση αυτής της τεχνολογίας σε ολόκληρη την κοινωνία με πιο ισορροπημένο και ασφαλή τρόπο.

Η αποτροπή της συγκέντρωσης ισχύος στα χέρια λίγων εταιρειών επιτρέπει στην τεχνολογία να είναι μεγαλύτερηΠροωθήστε το σε ολόκληρη την κοινωνία με ισορροπημένο και ασφαλή τρόπο

Ο ανοιχτός κώδικας είναι η καλύτερη μέθοδος Η κλειστή πηγή δεν θα φέρει τεχνολογική ισότητα, αλλά η τεχνητή νοημοσύνη δεν είναι εργαλείο ψυχαγωγίας, είναι εργαλείο παραγωγικότητας και η προώθησή της προέρχεται κυρίως από εταιρείες, ερευνητικά ιδρύματα κ.λπ.

Κάθε εταιρεία έχει τρία μεγάλα προβλήματα όταν χρησιμοποιεί AI:

1. Πρέπει να εκπαιδεύσουν, να τελειοποιήσουν και να τελειοποιήσουν τα δικά τους μοντέλα.

2. Πρέπει να προστατεύουν τα προσωπικά τους δεδομένα.

3. Ελπίζουν να μετατρέψουν την τεχνητή νοημοσύνη τους σε ένα μακροπρόθεσμο πρότυπο οικοσύστημα.
Όλα αυτά συνοψίζονται σε μια φράση:

Πρέπει να μπορούμε να ελέγχουμε τη μοίρα μας αντί να την αφήνουμε στους άλλους.

Στην Κίνα, η Zhipu είναι μια εταιρεία που νομίζω ότι είναι πολύ ιδιαίτερηOpenAI, και έχει το ταμπεραμέντο του Μέτα.

Πρέπει να γνωρίζετε ότι το επιχειρηματικό μοντέλο της Meta είναι τελείως διαφορετικό από αυτό ορισμένων μεγάλων εταιρειών μοντέλων όπως η OpenAI Δεν συλλέγουν χρήματα πουλώντας το δικαίωμα χρήσης μεγάλων μοντέλων, επομένως ο ανοιχτός κώδικας δεν έχει μεγάλη επίδραση στη Meta.

Αλλά η Zhipu είναι διαφορετική.

Αλλά κάτω από τέτοιες σκέψεις, εξακολουθούσαν να το έβγαζαν αποφασιστικά ανοιχτού κώδικα.

Ίσως είναι σαν τον Μέτα, για αυτήν την πολύ ευγενή πεποίθηση: «Για να μπορέσει αυτή η τεχνολογία να προωθηθεί σε ολόκληρη την κοινωνία με πιο ισορροπημένο και ασφαλή τρόπο».

Εκτός απόΕκτός από το CogVideoX, έχουν επίσης πολλά πράγματα ανοιχτού κώδικα.

Πηγαίνετε στο Github τους και περιηγηθείτε, θα βρείτε πολλές εκπλήξεις:

Λατρεύω κάθε εταιρεία που θέλει να ανοίξει κώδικα.

Ανυπομονώ για την ημέρα στο μέλλον, όταν αμέτρητοι προγραμματιστές θα αναπτύξουν μια ποικιλία από προσθήκες και βελτιστοποιημένα μοντέλα με βάση το CogVideoX έχουν τα δικά τους πολυάριθμα μοντέλα και διάφορες ροές εργασίας δημιουργίας βίντεο.

Ακριβώς όπως η SD ευημερεί σε διάφορες εταιρείες.

Θαυμάζω το φάσμα της σοφίας.

Αυτή δεν είναι μόνο μια τεχνική απόφαση, αλλά και μια μετάδοση πεποιθήσεων.

Τα φώτα πέρα ​​από τον ωκεανό έσβησαν σταδιακά.

Και η αυγή με το μέρος μας.

αυξάνεται.

Τώρα που το διαβάσατε, αν πιστεύετε ότι είναι καλό, μην διστάσετε να κάνετε ένα like, να το παρακολουθήσετε και να το κάνετε retweet τρεις φορές, αν θέλετε να λαμβάνετε ειδοποιήσεις το συντομότερο δυνατό, μπορείτε επίσης να μου δώσετε ένα αστέρι⭐ ~Σας ευχαριστώ που διαβάσατε το άρθρο μου, τα λέμε την επόμενη φορά.
>/ Συγγραφέας: Kazik