νέα

Η τεχνητή νοημοσύνη παράγει εικόνες πιο γρήγορα και καταλαβαίνει καλύτερα τις σκέψεις σας Ποια τεχνικά μυστικά έχει καλλιεργήσει το μοντέλο εικόνας υψηλής ομορφιάς του Vincent;

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Με την κυκλοφορία μεγάλων μοντέλων και το πάτημα του κουμπιού επιτάχυνσης, τα διαγράμματα Vincentian είναι αναμφίβολα μία από τις πιο καυτές οδηγίες εφαρμογής.

Από τη γέννηση του Stable Diffusion, υπήρξε μια ατελείωτη ροή μεγάλων μοντέλων μορφών του Βινσεντίου στο εσωτερικό και στο εξωτερικό, και ένιωθε σαν να «μάχομαι μεταξύ θεών» για λίγο. Μέσα σε λίγους μόνο μήνες, ο τίτλος του «The Strongest AI Artist» άλλαξε πολλές φορές χέρια. Κάθε τεχνολογική επανάληψη συνεχίζει να ωθεί το ανώτερο όριο ποιότητας και ταχύτητας παραγωγής εικόνας AI.

Τώρα λοιπόν, μπορούμε να πάρουμε όποια εικόνα θέλουμε εισάγοντας λίγες λέξεις. Είτε πρόκειται για μια εμπορική αφίσα επαγγελματικού επιπέδου είτε για μια υπερρεαλιστική φωτογραφία, η πιστότητα της χαρτογράφησης AI μας έχει καταπλήξει. Η τεχνητή νοημοσύνη κέρδισε ακόμη και το Sony World Photography Award για το 2023. Πριν ανακοινωθεί το μεγάλο βραβείο, αυτή η «φωτογραφία» είχε εκτεθεί στο Somerset House στο Λονδίνο - αν ο συγγραφέας δεν την αποκάλυπτε δημόσια, κανείς δεν θα μπορούσε να ανακαλύψει ότι η φωτογραφία δημιουργήθηκε από AI.



Ο Eldagse και το έργο του "Ηλεκτρολόγος" που δημιουργήθηκε από την τεχνητή νοημοσύνη

Το πώς να κάνετε τις εικόνες που σχεδιάζονται από την τεχνητή νοημοσύνη πιο όμορφες δεν μπορεί να διαχωριστεί από τις επίμονες προσπάθειες των τεχνικών τεχνητής νοημοσύνης.Το έκτο τεύχος του "AIGC Experience School" προσκάλεσε τον τεχνικό εμπειρογνώμονα του Doubao Vincent Chart Li Liang και τον αρχιτέκτονα λύσεων της NVIDIA Zhao Yijia να μας παράσχουν μια εις βάθος ανάλυση της τεχνολογίας πίσω από το μοντέλο Vincent Chart για να παράγουμε εικόνες πιο όμορφες, πιο γρήγορες. και κατανοήστε καλύτερα τη σύνδεση του μυαλού του χρήστη.

Στην αρχή της ζωντανής μετάδοσης, ο Li Liang ανατέμνεψε αρχικά λεπτομερώς την τεχνική αναβάθμιση του μοντέλου διαγράμματος Vincent του πρόσφατου εγχώριου μεγάλου μοντέλου "top-tier" - μεγάλου μοντέλου ByteDance Doubao.

Ο Li Liang είπε ότι τα προβλήματα που θέλει να λύσει η ομάδα του Doubao περιλαμβάνουν κυρίως τρεις πτυχές: πρώτον, πώς να επιτύχετε ισχυρότερη αντιστοίχιση εικόνας και κειμένου για να ανταποκριθεί στον σχεδιασμό ιδεών του χρήστη, δεύτερον, πώς να δημιουργήσετε πιο όμορφες εικόνες για να παρέχετε πιο απόλυτη εμπειρία στους χρήστες. Το τρίτο είναι πώς να παράγετε γραφήματα πιο γρήγορα για να ανταποκριθείτε σε κλήσεις υπηρεσιών εξαιρετικά μεγάλης κλίμακας.

Όσον αφορά την αντιστοίχιση εικόνας και κειμένου, η ομάδα του Doubao ξεκίνησε με δεδομένα, βελτίωσε και φιλτράρισε τα τεράστια δεδομένα εικόνας και κειμένου και τελικά αποθήκευσε εκατοντάδες δισεκατομμύρια εικόνες υψηλής ποιότητας στη βάση δεδομένων. Επιπλέον, η ομάδα εκπαίδευσε επίσης ειδικά ένα πολυτροπικό μεγάλο γλωσσικό μοντέλο για την εργασία ανακεφαλαίωσης. Αυτό το μοντέλο θα περιγράψει πιο ολοκληρωμένα και αντικειμενικά τις φυσικές σχέσεις των εικόνων σε εικόνες.



Αφού έχετε δεδομένα εικόνας και κειμένου υψηλής ποιότητας και υψηλής λεπτομέρειας, εάν θέλετε να αξιοποιήσετε καλύτερα την ισχύ του μοντέλου, πρέπει να βελτιώσετε την ικανότητα της ενότητας κατανόησης κειμένου. Η ομάδα χρησιμοποιεί ένα εγγενές μοντέλο δίγλωσσης μεγάλης γλώσσας ως κωδικοποιητή κειμένου, το οποίο βελτιώνει σημαντικά την ικανότητα του μοντέλου να κατανοεί τα κινέζικα, επομένως, ενόψει των εθνικών στοιχείων όπως η «Δυναστεία των Τανγκ» και το «Φεστιβάλ Φαναριών», τα μοντέλα διαγραμμάτων Doubao και Vincent. δείχνουν επίσης μια βαθύτερη κατανόηση.



Για την αρχιτεκτονική του μοντέλου Diffsuion, η ομάδα του Doubao χρησιμοποίησε το UNet για αποτελεσματική κλιμάκωση, αυξάνοντας τον αριθμό των παραμέτρων, το μοντέλο γραφήματος Doubao-Vensen βελτίωσε περαιτέρω την κατανόηση των ζευγών εικόνας-κειμένου και τις δυνατότητες παραγωγής υψηλής πιστότητας. .



Για το πιο προφανές αισθητικό στυλ που αισθάνονται διαισθητικά οι χρήστες, η ομάδα του Doubao έχει εισαγάγει την επαγγελματική αισθητική καθοδήγηση και δίνει πάντα προσοχή στις αισθητικές προτιμήσεις των χρηστών και του κοινού. Ταυτόχρονα, η ομάδα εργάστηκε επίσης σκληρά για την αρχιτεκτονική δεδομένων και μοντέλων. Πολλές φορές, η σύγκριση μεταξύ των εικόνων που λαμβάνει ο χρήστης και της επίδειξης είναι σαν μια "επίδειξη αγοραστή" και μια "επίδειξη πωλητή" Στην πραγματικότητα, η προτροπή που δίνεται δεν είναι αρκετά λεπτομερής και σαφής για το μοντέλο και το διάγραμμα Doubao Vincent. Το μοντέλο εισάγει έναν "Rephraser", ενώ ακολουθεί την αρχική πρόθεση του χρήστη, προσθέτει πιο λεπτομερείς περιγραφές στις προτρεπτικές λέξεις, ώστε όλοι οι χρήστες να βιώσουν ένα πιο τέλειο εφέ παραγωγής.



Για να κάνει το μοντέλο να παράγει φωτογραφίες πιο γρήγορα και να καταναλώνει λιγότερα χρήματα ανά φωτογραφία, η ομάδα του Doubao έδωσε επίσης νέες ιδέες επίλυσης προβλημάτων στη μέθοδο απόσταξης του μοντέλου Ένα αντιπροσωπευτικό επίτευγμα είναι το Hyber-SD, το οποίο είναι μια νέα απόσταξη μοντέλου διάχυσης πλαίσιο που διατηρεί την απόδοση σχεδόν χωρίς απώλειες ενώ συμπιέζει τον αριθμό των βημάτων απενεργοποίησης θορύβου.



Στη συνέχεια, ο αρχιτέκτονας λύσεων της NVIDIA Zhao Yijia ξεκίνησε από την υποκείμενη τεχνολογία και εξήγησε τις δύο πιο κλασικές αρχιτεκτονικές μοντέλων SD και DIT του Vincent Graph που βασίζονται σε Unet και τα αντίστοιχα χαρακτηριστικά τους και παρουσίασε τα εργαλεία Tensorrt, Tensorrt-LLM, Triton, How της NVIDIA, όπως το Nemo. Η Megatron παρέχει υποστήριξη για την ανάπτυξη μοντέλων και βοηθά τα μεγάλα μοντέλα να συλλογίζονται πιο αποτελεσματικά.

Ο Zhao Yijia μοιράστηκε αρχικά μια λεπτομερή εξήγηση των αρχών του μοντέλου πίσω από το Stable Diffusion και ανέπτυξε τις αρχές λειτουργίας βασικών στοιχείων όπως Clip, VAE και Unet. Καθώς το Sora έγινε δημοφιλές, έγινε επίσης δημοφιλές με την αρχιτεκτονική DiT (Diffusion Transformer) πίσω από αυτό. Ο Zhao Yijia έκανε περαιτέρω μια ολοκληρωμένη σύγκριση των πλεονεκτημάτων του SD και του DiT από τρεις πτυχές: δομή μοντέλου, χαρακτηριστικά και κατανάλωση υπολογιστικής ισχύος.



Όταν χρησιμοποιείτε τη Σταθερή διάχυση για τη δημιουργία εικόνων, συχνά αισθάνεστε ότι το περιεχόμενο των προτρεπόμενων λέξεων παρουσιάζεται στα αποτελέσματα που δημιουργούνται, αλλά η εικόνα δεν είναι αυτό που θέλετε, επειδή η σταθερή διάχυση που βασίζεται στην απόδοση κειμένου δεν είναι καλή στον έλεγχο των λεπτομερειών της εικόνας, όπως η σύνθεση, οι κινήσεις, τα χαρακτηριστικά του προσώπου, οι χωρικές σχέσεις κ.λπ. Επομένως, με βάση την αρχή λειτουργίας της σταθερής διάχυσης, οι ερευνητές έχουν σχεδιάσει πολλές μονάδες ελέγχου για να καλύψουν τις ελλείψεις της σταθερής διάχυσης. Ο Zhao Yijia πρόσθεσε τον αντιπροσωπευτικό προσαρμογέα IP και το ControlNet.



Για να επιταχυνθεί το συμπέρασμα του υπολογιστικά εντατικού μοντέλου γραφήματος Vincentian, η τεχνική υποστήριξη της NVIDIA διαδραματίζει βασικό ρόλο. Ο Zhao Yijia παρουσίασε τα εργαλεία Nvidia TensorRT και TensorRT-LLM, τα οποία βελτιστοποιούν τη διαδικασία εξαγωγής συμπερασμάτων των μοντέλων δημιουργίας εικόνας και κειμένου μέσω συνέλιξης υψηλής απόδοσης, αποτελεσματικού προγραμματισμού και τεχνολογιών κατανεμημένης ανάπτυξης. Ταυτόχρονα, τα Ada, Hopper της NVIDIA και η επερχόμενη αρχιτεκτονική υλικού BlackWell υποστηρίζουν ήδη την εκπαίδευση και την εξαγωγή συμπερασμάτων FP8, κάτι που θα προσφέρει μια πιο ομαλή εμπειρία στην εκπαίδευση μοντέλων.



Μετά από έξι υπέροχες ζωντανές μεταδόσεις, το "AIGC Experience Party" που ξεκίνησε από κοινού η Volcano Engine, η NVIDIA και η CMO CLUB ολοκληρώθηκε με επιτυχία. Μέσα από αυτά τα έξι προγράμματα, πιστεύω ότι όλοι έχουν μια βαθύτερη κατανόηση του τρόπου με τον οποίο η AIGC αλλάζει από "ενδιαφέρον" σε "χρήσιμο". Ανυπομονούμε επίσης το «AIGC Experience School» όχι μόνο να παραμείνει στη συζήτηση του προγράμματος, αλλά και να επιταχύνει τη διαδικασία έξυπνης αναβάθμισης στον τομέα του μάρκετινγκ στην πράξη.

Εξετάστε τη διεύθυνση και των έξι τευχών του "AIGC Experience School":https://vtizr.xetlk.com/s/7CjTy