Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Machine Heart Original
Τμήμα Σύνταξης Machine Heart
Γινόμαστε μάρτυρες ενός ακόμη γύρου τεχνολογικής καινοτομίας Αυτή τη φορά, η AIGC παρέχει στα άτομα εργαλεία για να εκφραστούν, κάνοντας τη δημιουργία ευκολότερη και πιο δημοφιλής, αλλά η κινητήρια δύναμη πίσω από αυτό δεν είναι το «μεγάλο» μοντέλο.
Τα τελευταία δύο χρόνια, η τεχνολογία AIGC αναπτύχθηκε πιο γρήγορα από ό,τι φανταζόταν οποιοσδήποτε, σαρώνοντας κάθε τομέα, από κείμενο σε εικόνες και βίντεο. Οι συζητήσεις για την εμπορευματοποίηση της AIGC δεν σταμάτησαν ποτέ μεταξύ τους, υπάρχει συναίνεση και αποκλίσεις δρομολογίων.
Από τη μία πλευρά, οι ισχυρές δυνατότητες των γενικών μοντέλων είναι εκπληκτικές και δείχνουν δυνατότητες εφαρμογής σε διάφορους κλάδους. Συγκεκριμένα, η εισαγωγή αρχιτεκτονικών όπως το DiT και το VAR επέτρεψε στο Scaling Law να μεταπηδήσει από τη δημιουργία κειμένου σε οπτική. Υπό την καθοδήγηση αυτού του κανόνα, πολλοί μεγάλοι κατασκευαστές μοντέλων συνεχίζουν να προχωρούν προς την κατεύθυνση της αύξησης των δεδομένων εκπαίδευσης, της επένδυσης υπολογιστικής ισχύος και της συσσώρευσης παραμέτρων.
Από την άλλη πλευρά, έχουμε δει επίσης ότι ένα καθολικό μοντέλο δεν σημαίνει "σκοτώστε όλους".
Καθώς η τεχνολογία μεγάλων μοντέλων εισέρχεται σε μια περίοδο επιταχυνόμενης υλοποίησης, η τελευταία διαδρομή εμπορευματοποίησης έχει λάβει ταχεία αύξηση της προσοχής.
Κατά τη διάρκεια αυτής της εξέλιξης, η FancyTech, μια startup εταιρεία από την Κίνα, ξεχώρισε:Έχει επεκτείνει γρήγορα την αγορά με τυποποιημένα προϊόντα για εμπορική παραγωγή οπτικού περιεχομένου και έχει επαληθεύσει την ανωτερότητα του «κάθετου μοντέλου» σε επίπεδο βιομηχανικής υλοποίησης νωρίτερα από τους ομολόγους του.
Κοιτάζοντας γύρω από τον εγχώριο επιχειρηματικό κύκλο των μεγάλων μοντέλων, το ιστορικό εμπορευματοποίησης της FancyTech είναι προφανές σε όλους. Αυτό όμως που είναι λιγότερο γνωστό είναι το κάθετο μοντέλο και τα τεχνολογικά πλεονεκτήματα που αυτή η εταιρεία, που γεννήθηκε μόλις πριν από λίγα χρόνια, βρίσκεται στην πρώτη γραμμή της πίστας.
Σε μια αποκλειστική συνέντευξη, η Machine Heart μίλησε με την FancyTech για την τεχνολογική εξερεύνηση που κάνουν.
Η FancyTech κυκλοφόρησε το βίντεο κατακόρυφο μοντέλο DeepVideo
Πώς να ξεπεράσετε τα εμπόδια της βιομηχανίας;
Σε γενικές γραμμές, αφού η ικανότητα γενίκευσης μηδενικής βολής ενός γενικού μοντέλου φτάσει σε ένα ορισμένο επίπεδο, μπορεί να χρησιμοποιηθεί για εργασίες κατάντη βελτιστοποιώντας το. Αυτός είναι και ο τρόπος με τον οποίο κυκλοφορούν σήμερα πολλά προϊόντα μεγάλων μοντέλων. Αλλά από το πραγματικό αποτέλεσμα, μόνο η "λεπτή ρύθμιση" δεν μπορεί να καλύψει τις ανάγκες των βιομηχανικών εφαρμογών, επειδή οι εργασίες παραγωγής περιεχομένου κάθε κλάδου έχουν το δικό τους συγκεκριμένο και πολύπλοκο σύνολο προτύπων.
Ένα γενικό μοντέλο μπορεί να είναι σε θέση να ολοκληρώσει το 70% των εργασιών ρουτίνας, αλλά αυτό που πραγματικά χρειάζονται οι πελάτες είναι ένα «κάθετο μοντέλο» που μπορεί να καλύψει το 100% των αναγκών τους. Πάρτε για παράδειγμα το εμπορικό οπτικό σχέδιο Στο παρελθόν, οι σχετικές εργασίες ολοκληρώθηκαν από επαγγελματίες με μακροχρόνια συσσώρευση και χρειαζόταν να σχεδιαστεί και να προσαρμοστεί σύμφωνα με τις συγκεκριμένες ανάγκες της μάρκας, κάτι που περιελάμβανε μεγάλη χειρωνακτική εμπειρία. Σε σύγκριση με δείκτες όπως η αισθητική και η συμμόρφωση με τις οδηγίες, η "αποκατάσταση προϊόντος" είναι ένα σημείο στο οποίο οι επωνυμίες δίνουν μεγαλύτερη προσοχή σε αυτήν την εργασία και είναι επίσης ο καθοριστικός παράγοντας για το εάν οι επωνυμίες είναι πρόθυμες να πληρώσουν.
Στη διαδικασία αυτο-ανάπτυξης ενός κάθετου μοντέλου για εμπορικές εικόνες/βίντεο, η FancyTech αποσυναρμολόγησε τη βασική πρόκληση: πώς να κάνετε το προϊόν επαρκώς αποκαταστημένο και ενσωματωμένο στο φόντο, ειδικά στο παραγόμενο βίντεο, για να επιτύχετε ελεγχόμενη κίνηση του προϊόντος χωρίς παραμόρφωση .
视频链接: https: //mp.weixin.qq.com/s? __Biz = mza3mzi4mjgzmw == & mid = 2650930567 & idx = 1 & sn = b5fc3170aa4c3be6701f2a21fb898120 & chksm = 84e439b39b3 59A9DCE6205478FEEA33A68B6A594D400CD0AC1B62E037F & TOKEN = 2065772502 & lang = zh_cn#rd
Με την ανάπτυξη της τεχνολογίας μεγάλων μοντέλων σήμερα, για το επίπεδο εφαρμογής, η λήψη της διαδρομής ανοιχτού κώδικα ή κλειστού κώδικα δεν είναι πλέον το βασικό ζήτημα. Το κάθετο μοντέλο της FancyTech βασίζεται στο υποκείμενο πλαίσιο αλγορίθμου ανοιχτού κώδικα, που επικαλύπτεται με τον δικό του σχολιασμό δεδομένων και έχει επανεκπαιδευτεί και απαιτεί μόνο μερικές εκατοντάδες GPU για συνεχείς επαναλήψεις εκπαίδευσης για την επίτευξη καλών αποτελεσμάτων παραγωγής. Αντίθετα, οι δύο παράγοντες «δεδομένα προϊόντος» και «μέθοδοι εκπαίδευσης» είναι πιο κρίσιμοι για το τελικό αποτέλεσμα υλοποίησης.
Με την προϋπόθεση της συσσώρευσης τεράστιων δεδομένων τρισδιάστατης εκπαίδευσης, η FancyTech εισήγαγε την ιδέα της χωρικής νοημοσύνης για να καθοδηγήσει τη δημιουργία 2D περιεχομένου του μοντέλου.Συγκεκριμένα, για τη δημιουργία περιεχομένου εικόνας, η ομάδα πρότεινε μια «συσκευή πολλαπλών χαρακτηριστικών» για τη διασφάλιση της αποκατάστασης των προϊόντων και χρησιμοποίησε ειδική συλλογή δεδομένων για να εξασφαλίσει τη φυσική ενοποίηση των προϊόντων και του φόντου για τη δημιουργία περιεχομένου βίντεο από τους υποκείμενους συνδέσμους, το πλαίσιο σχεδίασης κατεύθυνσης και τη μηχανική δεδομένων για την επίτευξη δημιουργίας βίντεο με επίκεντρο το προϊόν.
True Dimensionality Reduction Strike: Πώς καθοδηγεί η «χωρική νοημοσύνη» τη δημιουργία 2D περιεχομένου;
Ο βασικός λόγος για τον οποίο τα αποτελέσματα πολλών προϊόντων οπτικής παραγωγής δεν είναι ικανοποιητικά είναι ότι τα τρέχοντα μοντέλα δημιουργίας εικόνων και βίντεο συχνά μαθαίνουν με βάση δεδομένα εκπαίδευσης 2D και δεν κατανοούν τον πραγματικό φυσικό κόσμο.
Αυτό το σημείο έχει επιτύχει συναίνεση στο πεδίο, και ορισμένοι ερευνητές πιστεύουν ακόμη και ότι κάτω από το παράδειγμα της αυτοπαλινδρομικής μάθησης, η κατανόηση του κόσμου από το μοντέλο είναι πάντα ρηχή.
Ωστόσο, στο έργο υποδιαίρεσης της εμπορικής οπτικής παραγωγής, δεν είναι εντελώς άλυτο να βελτιωθεί η κατανόηση του τρισδιάστατου φυσικού κόσμου του μοντέλου και να δημιουργηθεί καλύτερα δισδιάστατο περιεχόμενο.
Η FancyTech έχει μεταφέρει ερευνητικές ιδέες στον τομέα της «χωρικής νοημοσύνης» στην κατασκευή οπτικών μοντέλων παραγωγής. Διαφορετικά από τα γενικά μοντέλα παραγωγής, η ιδέα της χωρικής νοημοσύνης είναι να μαθαίνει από τα αρχικά σήματα που λαμβάνονται από μεγάλο αριθμό αισθητήρων και να βαθμονομεί με ακρίβεια τα αρχικά σήματα που λαμβάνονται από τους αισθητήρες για να δώσει στο μοντέλο την ικανότητα να αντιλαμβάνεται και να κατανοεί πραγματικό κόσμο.
Επομένως, το FancyTech χρησιμοποιεί σάρωση lidar αντί για παραδοσιακή λήψη στούντιο και έχει συγκεντρώσει μεγάλο αριθμό ζευγών δεδομένων 3D υψηλής ποιότητας που αντικατοπτρίζουν τις διαφορές πριν και μετά την ενσωμάτωση του προϊόντος να ενισχύσει την κατανόηση της πραγματικότητας από το μοντέλο.
Γνωρίζουμε ότι στη δημιουργία οποιουδήποτε οπτικού περιεχομένου, η διαμόρφωση των εφέ φωτός και σκιάς είναι ένα πολύ δύσκολο έργο. Στοιχεία όπως ο φωτισμός, τα φωτεινά σώματα, ο οπίσθιος φωτισμός και τα φωτεινά σημεία μπορούν να κάνουν πιο ισχυρή τη χωρική διαστρωμάτωση της εικόνας, αλλά αυτό είναι ένα "σημείο γνώσης" που είναι δύσκολο να γίνει κατανοητό για τα μοντέλα παραγωγής.
Προκειμένου να συλλέξει όσο το δυνατόν περισσότερα δεδομένα φυσικού φωτός και σκιάς, η FancyTech κατασκεύασε δεκάδες φώτα με ρυθμιζόμενη φωτεινότητα και θερμοκρασία χρώματος σε κάθε περιβάλλον, πράγμα που σημαίνει ότι κάθε ζεύγος στα ογκώδη δεδομένα μπορεί να υπερτεθεί με πολλαπλά φώτα και διαφορετική φωτεινότητα και θερμοκρασίες χρώματος αλλαγές.
Αυτή η συλλογή δεδομένων υψηλής έντασης προσομοιώνει τον φωτισμό πραγματικών σκηνών λήψης, καθιστώντας τον πιο σύμφωνο με τα χαρακτηριστικά των σκηνών ηλεκτρονικού εμπορίου.
Συνδυάζοντας υψηλής ποιότητας 3D συσσώρευση δεδομένων, η FancyTech έχει κάνει μια σειρά από καινοτομίες στο πλαίσιο αλγορίθμων, συνδυάζοντας οργανικά χωρικούς αλγόριθμους με αλγόριθμους εικόνας και βίντεο, επιτρέποντας στο μοντέλο να κατανοήσει καλύτερα την αλληλεπίδραση μεταξύ αντικειμένων πυρήνα και περιβάλλοντος.
Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το μοντέλο μπορεί να «αναδυθεί» μια κατανόηση του φυσικού κόσμου σε κάποιο βαθμό και να κατανοήσει βαθύτερα τον τρισδιάστατο χώρο, το βάθος, την ανάκλαση και τη διάθλαση του φωτός και τα αποτελέσματα του φωτός που λειτουργεί σε διαφορετικά μέσα και διαφορετικά υλικά Γνωρίζοντας αυτό, επιτύχαμε τελικά «ισχυρή μείωση» και «υπερσύντηξη» των προϊόντων στα παραγόμενα αποτελέσματα.
Ποιες είναι οι καινοτομίες αλγορίθμων πίσω από την «ισχυρή μείωση» και την «υπερ-σύντηξη»;
Για κοινές εργασίες δημιουργίας εικόνων σκηνής προϊόντος, η τρέχουσα κύρια μέθοδος χρησιμοποιεί κυρίως υφές για να εξασφαλίσει την αποκατάσταση του τμήματος του προϊόντος και, στη συνέχεια, εφαρμόζει την επεξεργασία σκηνών εικόνας με βάση την τεχνολογία Inpainting. Ο χρήστης επιλέγει την περιοχή που πρέπει να αλλάξει, εισάγει το Prompt ή παρέχει μια εικόνα αναφοράς για να καθοδηγήσει τη δημιουργία σκηνής του προϊόντος. Το φαινόμενο σύντηξης αυτής της μεθόδου είναι καλύτερο, αλλά το μειονέκτημα είναι ότι η δυνατότητα ελέγχου των αποτελεσμάτων δημιουργίας σκηνής δεν είναι υψηλή, για παράδειγμα, δεν είναι αρκετά σαφής ή πολύ απλή και δεν μπορεί να εγγυηθεί τον υψηλό ρυθμό διαθεσιμότητας μιας μόνο εξόδου.
Ως απάντηση σε προβλήματα που δεν μπορούν να επιλυθούν με τις τρέχουσες μεθόδους, η FancyTech πρότεινε μια ιδιόκτητη "γεννήτρια πολλαπλών χαρακτηριστικών" για εξαγωγή χαρακτηριστικών προϊόντων σε πολλαπλές διαστάσεις και στη συνέχεια χρήση αυτών των χαρακτηριστικών για τη δημιουργία ολοκληρωμένων γραφημάτων σκηνής.
Η εργασία εξαγωγής χαρακτηριστικών μπορεί να χωριστεί σε "καθολικά χαρακτηριστικά" και τα "τοπικά χαρακτηριστικά" περιλαμβάνουν το περίγραμμα, το χρώμα και άλλα στοιχεία του προϊόντος, τα οποία εξάγονται χρησιμοποιώντας τοπικούς κωδικοποιητές VAE, τα οποία εξάγονται παντού χρησιμοποιώντας νευρωνικά δίκτυα γραφημάτων. Ένα από τα μεγάλα πλεονεκτήματα του νευρωνικού δικτύου γραφημάτων είναι ότι μπορεί να εξάγει τις πληροφορίες κάθε βασικού εικονοστοιχείου στο προϊόν και τη σχέση μεταξύ των βασικών εικονοστοιχείων και να βελτιώσει την επαναφορά των λεπτομερειών μέσα στο προϊόν.
Στη δημιουργία περιεχομένου προϊόντων εύκαμπτου υλικού, το αποτέλεσμα που επιτυγχάνεται με αυτή τη μέθοδο βελτιώνεται σημαντικά:
视频链接: https: //mp.weixin.qq.com/s? __Biz = mza3mzi4mjgzmw == & mid = 2650930567 & idx = 1 & sn = b5fc3170aa4c3be6701f2a21fb898120 & chksm = 84e439b39b3 59A9DCE6205478FEEA33A68B6A594D400CD0AC1B62E037F & TOKEN = 2065772502 & lang = zh_cn#rd
Σε σύγκριση με τις εικόνες, η δημιουργία βίντεο περιλαμβάνει επίσης τον έλεγχο της κίνησης του ίδιου του προϊόντος και τις αλλαγές στο φως και τη σκιά που επιφέρει. Για τα γενικά μοντέλα παραγωγής βίντεο, η δυσκολία έγκειται στην αδυναμία ανεξάρτητης προστασίας ενός συγκεκριμένου τμήματος του βίντεο. Για να λύσει αυτό το πρόβλημα, η FancyTech χώρισε την εργασία σε δύο κλάδους: "δημιουργία κίνησης προϊόντων" και "ενσωμάτωση σκηνής βίντεο".
Σε επίπεδο δεδομένων, εκτός από τη χρήση των μοναδικών πόρων δεδομένων προϊόντων της FancyTech για την παροχή εκπαίδευσης ελέγχου και προστασίας προϊόντων, προστίθενται επίσης πολλαπλά σύνολα δεδομένων ανοιχτού κώδικα για να διασφαλιστούν δυνατότητες γενίκευσης σκηνών. Το σχέδιο κατάρτισης συνδυάζει τη συγκριτική μάθηση και την εκμάθηση μαθημάτων και τελικά επιτυγχάνει το αποτέλεσμα προστασίας των αγαθών.
Αφήστε τα μερίσματα της εποχής AIGC
Ξεκινώντας από το κάθετο μοντέλο μέχρι πιο απλούς ανθρώπους
Είτε είναι «καθολική» είτε «κάθετη», το τελικό σημείο και των δύο διαδρομών είναι η εμπορευματοποίηση.
Ο πιο άμεσος επωφελούμενος του κάθετου μοντέλου της FancyTech είναι η επωνυμία Στο παρελθόν, ο κύκλος παραγωγής ενός διαφημιστικού βίντεο μπορούσε να διαρκέσει αρκετές εβδομάδες από το σχεδιασμό, τη λήψη και την επεξεργασία. Αλλά στην εποχή του AIGC, χρειάζονται μόνο δέκα λεπτά για να δημιουργηθεί ένα τέτοιο διαφημιστικό βίντεο και το κόστος είναι μόνο το ένα πέμπτο του αρχικού κόστους.
Με τα πλεονεκτήματα των τεράστιων μοναδικών δεδομένων και της τεχνογνωσίας του κλάδου, η FancyTech έχει κερδίσει ευρεία αναγνώριση στο εσωτερικό και στο εξωτερικό μέσω των πλεονεκτημάτων του κάθετου μοντέλου. Έχει υπογράψει συμβόλαια με τη Samsung και την LG με κορεάτες συνεργάτες. Γνωστή πλατφόρμα ηλεκτρονικού εμπορίου στη Νοτιοανατολική Ασία, στις Ηνωμένες Πολιτείες, έχει ευνοηθεί από τοπικές μάρκες όπως η Kate Sommerville και η Solawave στην Ευρώπη, έχει κερδίσει το Βραβείο Καινοτομίας LVMH και συνεργάζεται σε βάθος με ευρωπαίους πελάτες.
Εκτός από το βασικό κάθετο μοντέλο, το FancyTech παρέχει επίσης δυνατότητες αυτόματης δημοσίευσης πλήρους συνδέσμου και ανατροφοδότησης δεδομένων για σύντομα βίντεο με τεχνητή νοημοσύνη, οδηγώντας σε συνεχή ανάπτυξη στις πωλήσεις προϊόντων.
Το πιο σημαντικό,Το κάθετο μοντέλο απεικονίζει τη διαδρομή για το ευρύ κοινό να χρησιμοποιήσει την τεχνολογία AIGC για τη βελτίωση της παραγωγικότητας.Για παράδειγμα, ένα παραδοσιακό στούντιο φωτογραφίας στο δρόμο μπορεί να ολοκληρώσει τον επιχειρηματικό μετασχηματισμό από απλή λήψη πορτρέτου σε εμπορική παραγωγή οπτικού υλικού επαγγελματικού επιπέδου χωρίς να προσθέσει επαγγελματικό εξοπλισμό και επαγγελματίες με τη βοήθεια των προϊόντων της FancyTech.
视频链接: https: //mp.weixin.qq.com/s? __Biz = mza3mzi4mjgzmw == & mid = 2650930567 & idx = 1 & sn = b5fc3170aa4c3be6701f2a21fb898120 & chksm = 84e439b39b3 59A9DCE6205478FEEA33A68B6A594D400CD0AC1B62E037F & TOKEN = 2065772502 & lang = zh_cn#rd
Τώρα, απλώς σηκώνοντας ένα κινητό τηλέφωνο, σχεδόν όλοι μπορούν να τραβήξουν βίντεο, να ηχογραφήσουν μουσική και να μοιραστούν τις δημιουργίες τους με τον κόσμο. Φανταστείτε ένα μέλλον όπου η AIGC για άλλη μια φορά απελευθερώνει ατομική δημιουργικότητα——
Επιτρέποντας στους απλούς ανθρώπους να ξεπεράσουν τα επαγγελματικά κατώφλια και να μετατρέψουν πιο εύκολα τις ιδέες σε πραγματικότητα, επιτρέποντας έτσι στην παραγωγικότητα κάθε κλάδου να πηδήξει προς τα εμπρός και να δημιουργήσει περισσότερες αναδυόμενες βιομηχανίες Από αυτή τη στιγμή και μετά, τα μερίσματα των καιρών που έφερε η τεχνολογία AIGC θα γίνουν πραγματικά συνηθισμένα. άνθρωποι.