Διάλογος με την ομάδα Qi Peng του Chongqing AI Research Institute του Shanghai Jiao Tong University: Το τρέχον επίπεδο των μεγάλων μοντέλων είναι μόνο ισοδύναμο με αυτό ενός πεντάχρονου παιδιού

Μια συνομιλία με την ομάδα του Qi Peng στο Chongqing AI Research Institute του Shanghai Jiao Tong University: Το τρέχον επίπεδο των μεγάλων μοντέλων είναι μόνο ισοδύναμο με αυτό ενός πεντάχρονου παιδιού |

2024-07-21

(Πηγή εικόνας: unsplash)

Πρόσφατα, μια είδηση σχετικά με το «Το μεγάλο μοντέλο δεν μπορεί να καθορίσει εάν το 9.11 ή το 9.9 είναι μεγαλύτερο» πυροδότησε συζήτηση.

Όταν ένας χρήστης ρώτησε 12 μεγάλα μοντέλα τεχνητής νοημοσύνης στο εσωτερικό και στο εξωτερικό, συμπεριλαμβανομένου του GPT-4o, μιας μαθηματικής ερώτησης που είναι δύσκολη για μαθητές δημοτικού σχολείου, «Ποιο είναι μεγαλύτερο, 9,11 ή 9,9;», το τελικό αποτέλεσμα ήταν μόνο η Alibaba Tongyi Οι Qianwen και Baidu Wenxin , Minimax και Tencent Yuanbao έδωσαν 4 σωστές απαντήσεις, ενώ 8 μεγάλα μοντέλα συμπεριλαμβανομένου του ChatGPT-4o έδωσαν λάθος απαντήσεις.

Αυτό σημαίνει ότι οι μαθηματικές δυνατότητες των μεγάλων μοντέλων είναι φτωχές και υπάρχουν πολλά προβλήματα που πρέπει να λυθούν.

Σε μια προηγούμενη αποκλειστική συνομιλία με το TMTpost AGI, ο Δρ Qi Peng, διευθυντής του Κέντρου Τεχνητής Νοημοσύνης του Πανεπιστημίου της Σαγκάης Jiao Tong Chongqing University of Shanghai Jiao Tong (Ινστιτούτο Τεχνητής Νοημοσύνης Shanghai-Chongqing), αν και τα μεγάλα μοντέλα έχουν εξαιρετική μπορεί να χειριστεί πολύπλοκα προβλήματα και να έχει την ικανότητα να μάθει γενική ικανότητα. Ωστόσο, τα μεγάλα γλωσσικά μοντέλα μπορεί να μοιάζουν περισσότερο με «φοιτητές φιλελεύθερων τεχνών» λόγω περιορισμών αρχιτεκτονικής μοντέλων και έλλειψης επιστημονικών ικανοτήτων. Επιπλέον, η τρέχουσα περιορισμένη υπολογιστική ισχύς είναι ανεπαρκής, τα δεδομένα κειμένου είναι ανεπαρκή, η ακρίβεια και η αξιοπιστία είναι προκατειλημμένες και η κλίμακα του μοντέλου δεν είναι αρκετά μεγάλη ", και είναι δύσκολο να χειριστείς πολύπλοκες εργασίες. , η "ψευδαίσθηση" υπάρχει εδώ και πολύ καιρό.

Ο Qi Peng αποφοίτησε από το Πανεπιστήμιο Tsinghua με πτυχίο και ολοκλήρωσε διδακτορικό στο Πανεπιστήμιο του Ουισκόνσιν στις Ηνωμένες Πολιτείες. Ο Qi Peng έχει εμπλακεί βαθιά στην επιστήμη των δεδομένων, την τεχνητή νοημοσύνη και άλλους τομείς για πολλά χρόνια, συμμετείχε σε πολλά εθνικά επιστημονικά και τεχνολογικά έργα και κατέχει μια σειρά από δικαιώματα πνευματικής ιδιοκτησίας.

Καθώς το ChatGPT γίνεται δημοφιλές σε όλο τον κόσμο, τον τελευταίο χρόνο περίπου, ο Qi Peng οδήγησε την ομάδα του κέντρου μοντέλων AI του Ερευνητικού Ινστιτούτου Τεχνητής Νοημοσύνης Chongqing του Πανεπιστημίου Shanghai Jiao Tong για να αναπτύξει ανεξάρτητα το μοντέλο μεγάλης γλώσσας "Zhaoyan". και αξιολόγησε τον κινεζικό πράκτορα μεγάλου μοντέλου τον Μάρτιο του τρέχοντος έτους Κατατάχθηκε τρίτος παγκοσμίως και δεύτερος σε εγχώρια κριτήρια.

Ταυτόχρονα, τον Ιούλιο του τρέχοντος έτους, ο Qi Peng οδήγησε τον Zhuang Shaobin, έναν διδακτορικό στο Πανεπιστήμιο Shanghai Jiao Tong, και άλλους να συμμετάσχουν σε ένα κοινοτικό έργο ανοιχτού κώδικα και αναπαρήγαγαν με επιτυχία ένα μοντέλο βίντεο Wensheng που μοιάζει με Sora, χρησιμοποιώντας το προηγμένο Latte χωροχρονική αρχιτεκτονική προσοχής, μετά από προσεκτική εκπαίδευση, μπόρεσε να δημιουργήσει ένα βίντεο 16 δευτερολέπτων (128 καρέ) στο σύνολο δεδομένων βίντεο InternVid σε σύγκριση με το προηγούμενο μοντέλο ανοιχτού κώδικα, το οποίο μπορεί να δημιουργήσει μόνο 3 δευτερόλεπτα (24 -κάδρο) βίντεο, η απόδοση βελτιώνεται κατά 5 φορές (500%).

Στις 12 Ιουλίου, ο Qi Peng και ο Zhuang Shaobin είχαν μια αποκλειστική συνομιλία με το TMTpost για περίπου δύο ώρες, εστιάζοντας στην τρέχουσα κατάσταση ανάπτυξης του Sora και στις προκλήσεις που αντιμετωπίζει η ανάπτυξη μεγάλων μοντέλων, την εφαρμογή της βιομηχανίας και τις μελλοντικές κατευθύνσεις ανάπτυξης.

Μιλώντας για τον αντίκτυπο της τεχνολογίας Sora, Ο Qi Peng είπε στο TMTpost AGI ότι ο Sora μοιάζει περισσότερο με ένα νέο «σφυρί» που μπορεί να λύσει μια ποικιλία προβλημάτων. Εκτός από τη δημιουργία βίντεο, το μοντέλο βίντεο Sora Vincent μπορεί επίσης να παίξει ρόλο σε πολλούς τομείς όπως η αυτόνομη οδήγηση και η προσομοίωση φυσικού κόσμου. Η πιο διαισθητική εφαρμογή είναι η δημιουργία βίντεο Οι χρήστες χρειάζεται μόνο να εισάγουν μια περιγραφή κειμένου για να δημιουργήσουν γρήγορα περιεχόμενο βίντεο που πληροί τις απαιτήσεις, βελτιώνοντας την αποτελεσματικότητα και την ευκολία της παραγωγής βίντεο.

Όταν πρόκειται για την εφαρμογή του κλάδου, Ο Qi Peng επεσήμανε ότι τα μεγάλα μοντέλα χρησιμοποιούνται ευρέως σε πολλαπλές κάθετες βιομηχανίες, αλλά υπάρχουν σχετικά λίγες πραγματικές περιπτώσεις εφαρμογής. Υπάρχουν δύο κύριοι λόγοι: πρώτον, η έλλειψη μαθηματικών ικανοτήτων και μηχανικών ικανοτήτων μεγάλων μοντέλων, δεύτερον, ως μέρος της κατηγορίας της μηχανικής μάθησης, η φύση των μεγάλων μοντέλων που βασίζονται σε στατιστικές μεθόδους καθορίζει ότι δεν μπορούν να επιτύχουν ακρίβεια 100%.

Προσβλέποντας στη μελλοντική ανάπτυξη του AGI, Ο Qi Peng τόνισε ότι η ανθρώπινη κοινωνία βρίσκεται σε μια κρίσιμη περίοδο που οδηγεί σε AGI. Αν και οι τρέχουσες δυνατότητες του μοντέλου δεν πληρούν τα πρότυπα AGI, μια μέρα στο μέλλον, όταν οι άνθρωποι ανατρέξουν σε αυτήν την περίοδο της ιστορίας, μπορεί να συνειδητοποιήσουν ότι το ChatGPT μας έχει βάλει σε έναν σημαντικό ιστορικό κόμβο.

"Ένας σημαντικός στόχος του ινστιτούτου είναι να πραγματοποιήσει την εμπορευματοποίηση της τεχνολογίας. Το Large Model Center εστιάζει επί του παρόντος στην εφαρμογή του AIGC, ειδικά στο θέμα "τελευταίο μίλι", πώς να μετατρέψει τα αποτελέσματα της έρευνας σε πραγματικά προϊόντα ή υπηρεσίες για να ικανοποιήσει την αγορά Ζήτηση Αν και η ευφυΐα των μεγάλων μοντέλων μπορεί να συνεχίσει να βελτιώνεται, από πέντε έως δέκα ετών έως και δεκαοκτώ ετών, ακόμη και να φτάσει στο επίπεδο των κορυφαίων ειδικών, τέτοια συστήματα θα απαιτούν πάντα υποστηρικτικές εγκαταστάσεις και εργαλεία για την υποστήριξη της λειτουργίας και της εφαρμογής τους Το κόστος ανάπτυξης μπορεί να είναι σχετικά χαμηλό, αλλά διαδραματίζει κρίσιμο ρόλο στην προώθηση της πρακτικής εφαρμογής και της κοινωνικής αξίας των μεγάλων μοντέλων», δήλωσε ο Qi Peng.

Δρ Qi Peng, Διευθυντής του Κέντρου Μεγάλου Μοντέλου AI του Ινστιτούτου Τεχνητής Νοημοσύνης Chongqing, Shanghai Jiao Tong University

Ακολουθεί μια περίληψη της συνομιλίας μεταξύ του TMTpost Media AGI και των Qi Peng και Zhuang Shaobin:TMTpost Media AGI: Σε σύγκριση με άλλα μοντέλα βίντεο, ποιες είναι οι βασικές διαφορές του επαναλαμβανόμενου μοντέλου βίντεο Sora Vincent που αναπτύχθηκε από κοινού από το Ερευνητικό Ινστιτούτο Τεχνητής Νοημοσύνης Chongqing του Πανεπιστημίου Shanghai Jiao Tong;

Qi Peng: Αυτό το έργο αναπτύχθηκε από μια ομάδα με επικεφαλής τον Δρ. Zhuang Shaobin. Η ομάδα επέλεξε να χρησιμοποιήσει όλα τα δεδομένα ανοιχτού κώδικα για εκπαίδευση μοντέλων. Η ομάδα όχι μόνο άνοιξε τα δεδομένα, αλλά δημοσιοποίησε και την εκπαιδευτική διαδικασία. Με αυτόν τον τρόπο, άλλοι ερευνητές ή προγραμματιστές μπορούν να αναπαράγουν τη διαδικασία εκπαίδευσης του μοντέλου στο δικό τους περιβάλλον με βάση τα ίδια βήματα και ρυθμίσεις παραμέτρων και να επαληθεύσουν την αποτελεσματικότητα και τη σταθερότητα του μοντέλου.

Οι βασικές διαφορές αντικατοπτρίζονται κυρίως σε τρεις πτυχές:

Πρώτον, η ομάδα χρησιμοποιεί όλα τα δεδομένα ανοιχτού κώδικα για εκπαίδευση μοντέλων, πράγμα που σημαίνει ότι ολόκληρη η εκπαιδευτική διαδικασία βασίζεται σε σύνολα δεδομένων προσβάσιμα από το κοινό. Αυτή η προσέγγιση διασφαλίζει τη διαφάνεια και την επαναληψιμότητα της εκπαιδευτικής διαδικασίας και οποιοσδήποτε ενδιαφέρεται μπορεί να χρησιμοποιήσει το ίδιο σύνολο δεδομένων για την αναπαραγωγή ή τη βελτίωση του μοντέλου.

Δεύτερον, η ομάδα υιοθέτησε μια έμμεση μέθοδο εκπαίδευσης, η οποία μπορεί να εκπαιδεύσει αποτελεσματικά το μοντέλο με χαμηλότερο υπολογιστικό κόστος. Αυτή η προσέγγιση είναι κατάλληλη για σύνολα δεδομένων μεγάλης κλίμακας και πολύπλοκα μοντέλα, καθώς απαιτούν μεγαλύτερους χρόνους εκπαίδευσης και υψηλότερους υπολογιστικούς πόρους. Με τη χρήση έμμεσης εκπαίδευσης, ο χρόνος εκπαίδευσης μπορεί να μειωθεί αυξάνοντας τον αριθμό των υπολογιστικών κόμβων χωρίς να αυξηθεί το κόστος υπολογιστικής ισχύος ενός μεμονωμένου υπολογιστικού κόμβου.

Τρίτον, η ομάδα πραγματοποίησε επίσης κάποιες υποκείμενες εργασίες βελτιστοποίησης, ειδικά τη βελτιστοποίηση της συνολικής μνήμης βίντεο. Αυτές οι βελτιστοποιήσεις επιτρέπουν στο μοντέλο να εκπαιδεύει σταθερά μεγάλα βίντεο σε ένα σύμπλεγμα ή διακομιστή, βελτιώνοντας την απόδοση εκπαίδευσης και την επεκτασιμότητα του μοντέλου.

TMTpost AGI: Ποια είναι η λογική και οι λόγοι πίσω από την επιλογή του μοντέλου ανοιχτού κώδικα;

Qi Peng: Σε αντίθεση με τα εμπορικά έργα, το πλεονέκτημα της χρήσης του μοντέλου ανοιχτού κώδικα για ερευνητικά έργα που συνεργάζονται από ομάδες και κοινότητες ανοιχτού κώδικα είναι ότι μπορούν να προσελκύσουν περισσότερο προσωπικό Ε&Α για συμμετοχή. Δεδομένου ότι δεν υπάρχουν περιορισμοί πνευματικών δικαιωμάτων ή εμπορευματοποίησης, όποιος ενδιαφέρεται για αυτό το έργο μπορεί εύκολα να αποκτήσει και να χρησιμοποιήσει το μοντέλο, να προτείνει τις δικές του προτάσεις για βελτιώσεις ή να συνεισφέρει νέο κώδικα. Αυτό το μοντέλο μπορεί να βοηθήσει στη συνεχή βελτίωση και βελτιστοποίηση των μοντέλων και μπορεί επίσης να ενισχύσει τη διεπιστημονική και διεπιστημονική επικοινωνία και συνεργασία.

TMTpost AGI: Αυτό το επαναλαμβανόμενο μοντέλο βίντεο που μοιάζει με Sora χρησιμοποιεί την αρχιτεκτονική προσοχής χωροχρονικής σύζευξης Latte. Ποιος είναι ο λόγος για τον οποίο δεν συνδέεται με την αρχιτεκτονική DiT;

Qi Peng: Η αρχιτεκτονική μοντέλων τύπου Sora που αναπτύχθηκε από την ομάδα δεν εγκαταλείπει εντελώς το Transformer ή άλλα παραδοσιακά μοντέλα, επεκτείνεται με βάση το DiT και προσθέτει τη διάσταση του χρόνου για την υποστήριξη της επεξεργασίας βίντεο. Η σκέψη αυτής της νέας αρχιτεκτονικής μπορεί να είναι η καλύτερη προσαρμογή στα χαρακτηριστικά των δεδομένων βίντεο και η βελτίωση της απόδοσης του μοντέλου σε εργασίες παραγωγής ή επεξεργασίας βίντεο.

Titanium Media AGI: Η αρχιτεκτονική DiT έχει περιορισμούς στη δημιουργία μεγάλων βίντεο Μπορεί η χωροχρονική αρχιτεκτονική σύζευξης προσοχής να λύσει αυτά τα προβλήματα;

Zhuang Shaobin: Το καλύτερο μοντέλο που εκπαιδεύεται αυτή τη στιγμή από την ομάδα μπορεί να δημιουργήσει βίντεο διάρκειας έως και 16 δευτερολέπτων. Αυτή είναι μια τεράστια βελτίωση σε σχέση με τα προηγούμενα μοντέλα που βασίζονται στην αρχιτεκτονική unet, η οποία συνήθως μπορούσε να δημιουργήσει μόνο δύο έως τρία δευτερόλεπτα βίντεο. Τα 16 δευτερόλεπτα δεν είναι ιδιαίτερα μεγάλο χρονικό διάστημα, αλλά είναι ένα σχετικά μεγάλο ρεκόρ στον τομέα της παραγωγής βίντεο.

Ζητήματα συνέχειας και συνοχής στη δημιουργία βίντεο, τα οποία επηρεάζονται κυρίως από την ποιότητα των δεδομένων. Εάν υπάρχουν ασυνάρτητες καταστάσεις, όπως άλματα καρέ στα δεδομένα βίντεο, το εκπαιδευμένο μοντέλο είναι επίσης πιθανό να δημιουργήσει ασυνάρτητα βίντεο. Επιπλέον, ο ρυθμός καρέ και η ανάλυση κατά την εκπαίδευση του μοντέλου έχουν αντίκτυπο στην ποιότητα της παραγωγής βίντεο. Εάν το μοντέλο έχει εκπαιδευτεί μόνο σε δεδομένα χαμηλότερης ανάλυσης και ρυθμού καρέ, τότε ενδέχεται να μην μπορεί να δημιουργήσει βίντεο υψηλής ανάλυσης και ομαλά.

Γιατί δεν μπορώ να δημιουργήσω βίντεο διάρκειας ενός λεπτού ή δύο λεπτών; Ένα βίντεο από άκρο σε άκρο ενός ή δύο λεπτών σημαίνει χιλιάδες καρέ ή ακόμα και δύο ή τρεις χιλιάδες καρέ δεδομένων, κάτι που απαιτεί εκατοντάδες ή χιλιάδες φορές την κατανάλωση υπολογιστικών πόρων. Αν και η αρχιτεκτονική της χωροχρονικής συζευγμένης προσοχής Latte μπορεί θεωρητικά να επεκταθεί σε τέτοια διάρκεια, κανένα ίδρυμα δεν έχει επί του παρόντος αρκετή υπολογιστική ισχύ και δεδομένα για να υποστηρίξει μια τέτοια εκπαίδευση.

TMTpost AGI: Επί του παρόντος, ποιος χρησιμοποιεί το Sora; Ποια προβλήματα λύνονται; Τι αξία φέρνει;

Zhuang Shaobin: Από την πλευρά C, για μη επαγγελματίες παραγωγούς βίντεο, όπως οι απλοί οικικοί χρήστες, τα μοντέλα παραγωγής βίντεο όπως το Sora μπορούν να μειώσουν σημαντικά τη δυσκολία παραγωγής βίντεο. Οι χρήστες χρειάζεται απλώς να εισάγουν περιγραφές κειμένου για να δημιουργήσουν όμορφο περιεχόμενο βίντεο, διευκολύνοντας τη συμμετοχή στη δημιουργία βίντεο.

Στην πλευρά Β, για επαγγελματίες επεξεργαστές βίντεο και δημιουργικά, το Sora μπορεί να δημιουργήσει πολύπλοκο ή ευφάνταστο υλικό βίντεο. Οι επαγγελματίες μπορούν να βελτιστοποιήσουν και να βελτιστοποιήσουν με βάση τα υλικά που παρέχει το μοντέλο, βελτιώνοντας έτσι την αποδοτικότητα της εργασίας και την ποιότητα δημιουργίας.

Το Sora δεν χρησιμοποιείται μόνο στην παραγωγή βίντεο, αλλά έχει επίσης μια σειρά εξερευνήσεων σε πολλαπλούς τομείς όπως η αυτόνομη οδήγηση, η παραγωγή και η μοντελοποίηση 3D και η έρευνα στη φυσική. Το σύστημα αυτόνομης οδήγησης πρέπει να προβλέπει με ακρίβεια τις δυναμικές αλλαγές των γύρω αντικειμένων και ο Sora, ως "κοσμικός προσομοιωτής", μπορεί να προσομοιώσει και να προβλέψει τις τροχιές κίνησης των αντικειμένων, παρέχοντας πιο ακριβή περιβαλλοντική μοντελοποίηση για το σύστημα αυτόνομης οδήγησης.

Για παράδειγμα, στον τομέα της αυτόνομης οδήγησης, η λύση αυτόνομης οδήγησης της Tesla και παρόμοια προηγμένα συστήματα υποβοήθησης οδήγησης έχουν σημειώσει σημαντική τεχνολογική πρόοδο. Μπορούν να αντιληφθούν το περιβάλλον σε πραγματικό χρόνο, συμπεριλαμβανομένων των οχημάτων, των πεζών, των εμποδίων κ.λπ. για την πραγματοποίηση της αυτόνομης οδήγησης Τα βασικά της οδήγησης. Το Sora βοηθά τα συστήματα αυτόνομης οδήγησης να λαμβάνουν αποφάσεις εκ των προτέρων για την αποφυγή δυνητικά επικίνδυνων καταστάσεων, όπως συγκρούσεις και συγκρούσεις από πίσω. Ταυτόχρονα, προβλέποντας την κίνηση των αντικειμένων, το σύστημα μπορεί επίσης να βελτιστοποιήσει τις διαδρομές και τις ταχύτητες οδήγησης, να βελτιώσει την απόδοση της κυκλοφορίας και να μειώσει τη συμφόρηση και τις εκπομπές ρύπων.

Γενικά, το Sora μειώνει το όριο για την παραγωγή βίντεο και δίνει τη δυνατότητα σε περισσότερα άτομα να συμμετέχουν στη δημιουργία βίντεο Τόσο οι μη επαγγελματίες χρήστες στην πλευρά C όσο και οι επαγγελματίες παραγωγοί βίντεο από την πλευρά Β μπορούν να επωφεληθούν από αυτό.

Qi Peng: Το Sora μοιάζει περισσότερο με ένα «σφυρί», ένα νέο εργαλείο που μπορεί να λύσει μια ποικιλία προβλημάτων. Εκτός από τη δημιουργία βίντεο, το μοντέλο βίντεο Sora Vincent μπορεί επίσης να παίξει ρόλο σε πολλούς τομείς όπως η αυτόνομη οδήγηση και η προσομοίωση φυσικού κόσμου. Η πιο διαισθητική εφαρμογή είναι η δημιουργία βίντεο Οι χρήστες χρειάζεται μόνο να εισάγουν μια περιγραφή κειμένου για να δημιουργήσουν γρήγορα περιεχόμενο βίντεο που πληροί τις απαιτήσεις, βελτιώνοντας την αποτελεσματικότητα και την ευκολία της παραγωγής βίντεο.

Πολλές φορές, η τεχνολογία δεν αναπτύσσεται για να λύσει ένα συγκεκριμένο πρόβλημα, αλλά ισχυρές λύσεις ανακαλύπτονται κατά λάθος κατά τη διάρκεια της ερευνητικής διαδικασίας. Μόλις ωριμάσει αυτή η μέθοδος, μπορεί να χρησιμοποιηθεί ευρέως σε πολλούς τομείς για την επίλυση μιας σειράς προβλημάτων.

Επί του παρόντος, το Sora είναι ακόμα σε beta και δεν είναι ευρέως διαθέσιμο στο κοινό. Στην Κίνα, μπορεί να υπάρχουν κάποιες περιπτώσεις εφαρμογών για εσωτερικές ή εξωτερικές εκδόσεις beta, αλλά ο αριθμός είναι σχετικά μικρός και περιορίζεται κυρίως στη δημιουργία σύντομων βίντεο ή κλιπ ταινιών. Δεδομένου ότι πρόκειται για έκδοση beta, μπορεί να είναι διαθέσιμη δωρεάν σε πολλές περιπτώσεις. Εάν η χρέωση ξεκινήσει στο μέλλον, το κόστος θα είναι ένα πολύ μικρό μέρος του τρέχοντος κόστους παραγωγής βίντεο, όπως μερικές εκατοντάδες γιουάν, μειώνοντας έτσι σημαντικά το κόστος παραγωγής βίντεο.

TMTpost AGI: Ποιες προκλήσεις αντιμετώπισε η ομάδα κατά την ανάπτυξη του μοντέλου Sora; Πώς να ξεπεράσετε αυτές τις προκλήσεις;

Qi Peng : Αυτό το έργο συνεργάζεται κυρίως με την κοινότητα ανοιχτού κώδικα Το κύριο έργο έρευνας και ανάπτυξης διεξάγεται από τον Δρ. Zhuang Shaobin και ένα ή δύο προσωπικό έρευνας και ανάπτυξης. Το έργο στο σύνολό του χωρίζεται σε τέσσερις ομάδες, οι οποίες είναι υπεύθυνες για τη συλλογή δεδομένων και την επισήμανση, την εκπαίδευση μοντέλων, την αξιολόγηση μοντέλων, την επιτάχυνση της εκπαίδευσης και τη βελτιστοποίηση μηχανών.

Zhuang Shaobin: Κατά τη διάρκεια της διαδικασίας εκπαίδευσης του μοντέλου, η μεγαλύτερη πρόκληση που αντιμετωπίζει η ομάδα είναι οι ανεπαρκείς υπολογιστικοί πόροι. Ειδικά κατά την επεξεργασία δεδομένων μεγάλης κλίμακας και πολύπλοκων μοντέλων, η ζήτηση για υπολογιστικούς πόρους είναι πολύ υψηλή. Προκειμένου να χρησιμοποιηθούν οι περιορισμένοι πόροι του μηχανήματος πιο αποτελεσματικά, η ομάδα αλγορίθμων της ομάδας έργου πραγματοποίησε πολλές εργασίες βελτιστοποίησης.

Αυτές οι βελτιστοποιήσεις περιλαμβάνουν προηγμένες στρατηγικές βελτιστοποίησης, όπως παραλληλισμό μοντέλων και παραλληλισμό αγωγών, καθώς και βελτιστοποίηση μνήμης βίντεο για μεμονωμένα μοντέλα.

Επιπλέον, η ομάδα βελτιστοποίησε επίσης το πεδίο βίντεο, έτσι ώστε το έργο να μπορεί να έχει ξεκάθαρα σενάρια εφαρμογών και περιοχές-στόχους για να καλύψει καλύτερα τις πραγματικές ανάγκες εφαρμογής του έργου.

TMTpost Media AGI: Το Ερευνητικό Ινστιτούτο Τεχνητής Νοημοσύνης του Πανεπιστημίου της Σαγκάης Jiao Tong και το Ερευνητικό Ινστιτούτο Αγροτικής Αναζωογόνησης (Chongqing) κυκλοφόρησαν προηγουμένως ένα μεγάλο μοντέλο αγροτικής αναζωογόνησης που ονομάζεται "Zhaoyan·Zhaofeng".

Qi Peng: Ως ο μόνος δήμος με αγροτικές σκηνές, το Chongqing παρέχει πλούσιες σκηνές και ευρύ χώρο για την εφαρμογή γεωργικών μοντέλων μεγάλης κλίμακας. Το μεγάλης κλίμακας μοντέλο αγροτικής αναζωογόνησης χρησιμοποιεί τεράστια διαδικτυακά δεδομένα και γεωργικά δεδομένα από την Ακαδημία Γεωργικών Επιστημών. Επί του παρόντος, αυτό το έργο αναπτύσσεται από κοινού με κυβερνητικούς φορείς, το Ερευνητικό Ινστιτούτο Αγροτικής Αναζωογόνησης (Chongqing) και άλλα μέρη. Αυτό το μοντέλο συνεργασίας βοηθά στην ενοποίηση πόρων, τεχνολογίας και κονδυλίων για την από κοινού προώθηση της έρευνας και ανάπτυξης και εφαρμογής γεωργικών μοντέλων μεγάλης κλίμακας.

Υπάρχουν 14 μεγάλα μοντέλα αναζωογόνησης της υπαίθρου και επί του παρόντος υπάρχουν 3-4 σχετικά προϊόντα Μέσω μεγάλων μοντέλων, η γνώση των ειδικών μετατρέπεται σε δημοφιλείς και κατανοητές πληροφορίες για την επίλυση προβλημάτων στη γεωργική παραγωγή, τη διαχείριση και τη διαβίωση των ανθρώπων. να βοηθήσει τη γεωργική βιομηχανία Οι εργαζόμενοι μπορούν να έχουν πρόσβαση και να χρησιμοποιούν τη γεωργική γνώση τόσο εύκολα όσο οι κάτοικοι των πόλεων, γεγονός που θα συμβάλει στη μείωση του χάσματος πληροφοριών μεταξύ των αστικών και αγροτικών περιοχών και θα βελτιώσει την αποδοτικότητα και την αποτελεσματικότητα της γεωργικής παραγωγής.

TMTpost AGI: Σε αυτό το στάδιο, ποια είναι τα εμπόδια στην ανάπτυξη της τεχνολογίας μεγάλων μοντέλων;

Qi Peng: Πρώτα απ 'όλα, είναι σαφές τι ορίζει η ομάδα ως ένα μεγάλο μοντέλο, το οποίο είναι ένα μεγάλο γλωσσικό μοντέλο. Το μεγάλο γλωσσικό μοντέλο είναι το κυρίαρχο ρεύμα και ο πυρήνας του βρίσκεται στη γνώση και τη λογική. Καθώς τα μεγάλα γλωσσικά μοντέλα συνεχίζουν να αναπτύσσονται, το επίπεδο νοημοσύνης τους μπορεί σταδιακά να αυξηθεί από το IQ ενός πεντάχρονου παιδιού στο επίπεδο ενός δεκάχρονου, ενός δεκαοκτάχρονου ή ακόμα και ενός υπεράνθρωπου. Αυτή η διαδικασία βασίζεται κυρίως στην κυριαρχία του μοντέλου και στην εφαρμογή της γνώσης και της λογικής.

Διαφορετικό από το μοντέλο της μεγάλης γλώσσας, το μοντέλο βίντεο Vincent είναι μια άλλη γραμμή του μεγάλου μοντέλου Δεν περιλαμβάνει πολύπλοκη γνώση και λογική, αλλά εστιάζει περισσότερο στην κατανόηση και την προσομοίωση των νόμων του φυσικού κόσμου. Μοντέλα όπως το Vincent Video Modeling μπορούν να προβλέψουν και να ανταποκριθούν σε αλλαγές στον φυσικό κόσμο με βάση την αντίληψη και την εμπειρία, αλλά δεν διαθέτουν υψηλού επιπέδου δυνατότητες λογικής κατανόησης και σύνοψης γνώσεων.

Επιπλέον, υπάρχουν πολυτροπικά μοντέλα, τα οποία μπορούν να κωδικοποιήσουν και να επεξεργαστούν πολλαπλές φόρμες πληροφοριών όπως κείμενο, εικόνες, ήχους κ.λπ. με ενιαίο τρόπο. Τα πολυτροπικά μοντέλα είναι μία από τις μελλοντικές κατευθύνσεις ανάπτυξης, οι οποίες μπορούν να κατανοήσουν και να επεξεργαστούν πιο ολοκληρωμένα σύνθετες πληροφορίες στον πραγματικό κόσμο.

Προς το παρόν, τα μεγάλα μοντέλα εισέρχονται σε μια περίοδο οροπεδίου και φαίνεται δύσκολο να επιτευχθεί ένα ποιοτικό άλμα όσον αφορά την ευφυΐα. Εξακολουθούμε να πιστεύουμε ότι τα μεγαλύτερα μοντέλα τείνουν να είναι σε θέση να χειρίζονται πιο σύνθετα προβλήματα και να έχουν ισχυρότερες δυνατότητες μάθησης και γενίκευσης. Μόλις ένα μοντέλο μπορεί να επιτύχει ακρίβεια 99,9%, αυτό το μεγάλο μοντέλο θα γίνει ένα νέο εργαλείο παραγωγικότητας ικανό να εκτελεί διάφορες εργασίες.

Η ανάπτυξη μεγάλων μοντέλων έχει προβλήματα όπως ανεπαρκή υπολογιστική ισχύ, ανεπαρκή δεδομένα κειμένου, αποκλίσεις στην ακρίβεια και αξιοπιστία και ανεπαρκή κλίμακα μοντέλου. Με αυτόν τον τρόπο, το "IQ" του μεγάλου μοντέλου δεν είναι αρκετά υψηλό, περισσότερο σαν το επίπεδο IQ ενός παιδιού πέντε ή έξι ετών Η ικανότητα του μεγάλου μοντέλου να χειρίζεται πολύπλοκες εργασίες είναι περιορισμένη και δεν μπορεί να ανταποκριθεί στις προσδοκίες των ανθρώπων.

Δεύτερον, λόγω των περιορισμών της αρχιτεκτονικής του μεγάλου γλωσσικού μοντέλου, το μεγάλο μοντέλο μοιάζει λίγο με έναν «φιλελεύθερο μαθητή τεχνών» Χειρίζεται πολύ καλά τη γλώσσα, αλλά δεν είναι καλός στα μαθηματικά και τη μηχανική. Το μεγάλο μοντέλο μπορεί να συγκριθεί με τον «CEO ή COO» της επιχείρησης. Αν και αυτός ο «CEO ή COO» μπορεί να μην γνωρίζει πολλά για την τεχνολογία, μπορεί να κινητοποιήσει διάφορα εξαρτήματα υψηλής τεχνολογίας.

Ταυτόχρονα, οι εγχώριοι μεγάλοι κατασκευαστές και οι νεοφυείς επιχειρήσεις αντιμετωπίζουν δυσκολίες στην ανάπτυξη μεγάλων μοντέλων, κυρίως επειδή το επενδυτικό κόστος είναι τεράστιο και η εμπορευματοποίηση δεν αρκεί για να υποστηρίξει τη συνεχή επένδυση σε υπολογιστική ισχύ και δεδομένα.

Εάν το επίπεδο νοημοσύνης μεγάλων μοντέλων δεν μπορεί να βελτιωθεί σημαντικά σε σύντομο χρονικό διάστημα, τότε η ανάπτυξη εφαρμογών γίνεται μια εφικτή επιλογή. Στο τρέχον στάδιο ανάπτυξης μεγάλων μοντέλων, οι πελάτες πρέπει να εξερευνήσουν και να βελτιώσουν στην πράξη σε διαφορετικά σενάρια εφαρμογών. Μέσω της εμπορευματοποίησης εφαρμογών, μπορούν να δημιουργηθούν έσοδα για την υποστήριξη της συνεχούς ανάπτυξης και βελτιστοποίησης μεγάλων μοντέλων. Αυτό όχι μόνο διασφαλίζει την οικονομική βιωσιμότητα του έργου, αλλά παρέχει επίσης τη δυνατότητα για μελλοντική τεχνολογική καινοτομία.

Επιπλέον, μεγάλες εταιρείες-μοντέλες μπορούν επίσης να υποστηρίξουν την ανάπτυξη έργων μέσω χρηματοδότησης. Ωστόσο, η χρηματοδότηση δεν είναι εύκολη. Εξαρτάται από το αν η αγορά αναγνωρίζει τις δυνατότητες και την αξία του έργου.

TMTpost Media AGI: Η αγορά είναι πολύ ενθουσιώδης με τα μεγάλα μοντέλα, αλλά η εφαρμογή μεγάλων μοντέλων προχωρά σιγά-σιγά, κάτι που υστερεί σε σχέση με τις προσδοκίες της αγοράς Γιατί η εφαρμογή των μεγάλων μοντέλων προχωρά σιγά-σιγά;

Qi Peng: Υπάρχουν δύο λόγοι:

Πρώτον, η τρέχουσα έλλειψη τεχνικών δυνατοτήτων οδηγεί σε περιορισμένη βελτίωση, η οποία μειώνει τον ενθουσιασμό για προληπτικές αναβαθμίσεις.

Δεύτερον, η εφαρμογή νέων τεχνολογιών απαιτεί νέο υλικό και υποστήριξη υπολογιστικής ισχύος, αλλά διάφορες επιχειρήσεις δεν είναι καλά προετοιμασμένες και δεν διαθέτουν επαρκείς αίθουσες υπολογιστών και ευφυείς υπολογιστικούς πόρους για την ανάπτυξη και εκτέλεση μεγάλων μοντέλων, γεγονός που καθιστά δύσκολη την εφαρμογή μεγάλων μοντέλων σε κάθετες βιομηχανίες. Το δεύτερο πρόβλημα μπορεί πραγματικά να λυθεί μέσω αντίστοιχων πολιτικών Εάν οι επιχειρήσεις μπορούν να εμπιστευτούν την εγγύηση ασφάλειας δεδομένων των κρατικών ερευνητικών ινστιτούτων ή κέντρων υπολογιστικής ισχύος, μπορούν να αρχίσουν να αναπτύσσουν λύσεις μοντέλων μεγάλης κλίμακας πριν δημιουργήσουν τις δικές τους έξυπνες αίθουσες υπολογιστών.

Τα μεγάλα μοντέλα, ειδικά εκείνα που είναι ικανά να δημιουργούν κείμενο, εικόνες κ.λπ. υψηλής ποιότητας, απαιτούν συχνά σημαντικούς υπολογιστικούς πόρους για να λειτουργήσουν. Για παράδειγμα, όταν 1 εκατομμύριο χρήστες χρησιμοποιούν ένα μεγάλο μοντέλο ταυτόχρονα, το ετήσιο κόστος υπολογιστικής ισχύος μπορεί να υπερβαίνει τις εκατοντάδες εκατομμύρια, καθιστώντας δύσκολη την εμπορευματοποίηση. Για τους απλούς χρήστες, τέτοια προϊόντα εφαρμογών μεγάλου μοντέλου υψηλού κόστους μπορεί να μην είναι προσιτά, γεγονός που περιορίζει επίσης την προώθηση εφαρμογών C-end.

Σε αυτό το στάδιο, οι λύσεις μπορεί να περιλαμβάνουν την υιοθέτηση πιο αποτελεσματικών αλγορίθμων, τη βελτιστοποίηση δομών μοντέλων για τη μείωση του όγκου των υπολογισμών ή τη χρήση κατανεμημένων υπολογιστικών πόρων όπως το cloud computing για την κατανομή του κόστους.

Από ορισμένες απόψεις, ο τρέχων ευφυής πράκτορας μεγάλου μοντέλου εξακολουθεί να είναι σαν ένα "πεντάχρονο παιδί". Αυτά τα προβλήματα είναι απαράδεκτα σε σενάρια εφαρμογών που απαιτούν υψηλή ακρίβεια, όπως κυβερνητικά ή οικονομικά σενάρια εξυπηρέτησης πελατών. Ακόμη και σε ορισμένους τομείς συμβουλευτικής ή λειτουργίας και συντήρησης όπου οι απαιτήσεις ακρίβειας δεν είναι τόσο υψηλές, το τρέχον ποσοστό ακρίβειας 80% ή 60% δεν έχει φτάσει ακόμη στο κρίσιμο σημείο για ευρεία εφαρμογή.

Η βελτίωση της απόδοσης και της σταθερότητας των πρακτόρων απαιτεί συνεχή βελτιστοποίηση αλγορίθμων, αύξηση της ποικιλομορφίας και της ποσότητας των δεδομένων εκπαίδευσης και την εισαγωγή πιο σύνθετων αρχιτεκτονικών μοντέλων. Ταυτόχρονα, οι μηχανισμοί παρακολούθησης και διαχείρισης σφαλμάτων σε πραγματικό χρόνο πρέπει επίσης να ενισχυθούν για να διασφαλιστεί η σταθερότητα των μεγάλων μοντέλων σε πολύπλοκα περιβάλλοντα.

Η αναγνώριση εικόνας είναι ένας πολύ σημαντικός τομέας στην εφαρμογή πολυτροπικών μεγάλων μοντέλων Με βάση το εκ των προτέρων εκπαιδευμένο μοντέλο, μπορούν να αναπτυχθούν νέα μοντέλα αναγνώρισης εικόνας με πολύ χαμηλό κόστος, καλύπτοντας πολλά σενάρια μακράς ουράς και έχουν μεγάλες δυνατότητες στην αγορά. Αν και η αναγνώριση εικόνας έχει πολλά σενάρια εφαρμογών, τα τρέχοντα μεγάλα μοντέλα αναγνώρισης εικόνας εξακολουθούν να έχουν το πρόβλημα της χαμηλής ακρίβειας και των σχετικά υψηλών απαιτήσεων υπολογιστικής ισχύος.

Επιπλέον, επειδή η προηγούμενη γενιά τεχνητής νοημοσύνης ήταν σχετικά ώριμη στην κατανόηση της εικόνας, οι άνθρωποι δεν έχουν αποδεχτεί πλήρως την πρόσθετη αξία που μπορούν να παράγουν τα μεγάλα μοντέλα, γεγονός που επηρεάζει επίσης την ταχύτητα της προώθησής της.

TMTpost AGI: Πώς βλέπετε την τρέχουσα βιομηχανική καινοτομία των μεγάλων κάθετων βιομηχανικών μοντέλων Γιατί υπάρχουν τόσο λίγες κάθετες βιομηχανικές περιπτώσεις που έχουν εφαρμοστεί;

Qi Peng: Όσον αφορά την εφαρμογή της κάθετης βιομηχανίας, λαμβάνοντας ως παράδειγμα τα ανθρωποειδή ρομπότ στη βιομηχανία κατασκευής, μπορεί να χρειαστούν πέντε έως δέκα χρόνια για να μπορούν να χρησιμοποιηθούν σε οικογένειες τα ανθρωποειδή ρομπότ. Δεν είναι αρκετό, και το υλικό χρειάζεται επίσης περαιτέρω έρευνα και ανάπτυξη και βελτίωση.

Μια πιο πρακτική κατεύθυνση έρευνας είναι η εστίαση στο πρόβλημα γενίκευσης των ρομποτικών βραχιόνων σε σενάρια κατασκευής. Αν και οι ίδιοι οι ρομποτικοί βραχίονες είναι πολύ ώριμοι και καταλαμβάνονται από μεγάλους εγχώριους και ξένους κατασκευαστές στην αγορά, οι υπάρχοντες ρομποτικοί βραχίονες δεν διαθέτουν επαρκείς δυνατότητες γενίκευσης και δεν μπορούν να προσαρμοστούν ευέλικτα σε μια ποικιλία διαφορετικών εργασιακών εργασιών. Αυτό έχει ως αποτέλεσμα την ανάγκη επαναπρογραμματισμού κάθε φορά που απαιτείται ο ρομποτικός βραχίονας να εκτελέσει μια νέα εργασία σε πρακτικές εφαρμογές, κάτι που δεν είναι πρακτικό όταν οι εργασίες αλλάζουν συχνά.

Το κλειδί για την επίλυση του προβλήματος της γενίκευσης του ρομποτικού βραχίονα βρίσκεται στην ανάπτυξη λογισμικού, ειδικά εκείνων που επιτρέπουν στον ρομποτικό βραχίονα να χειρίζεται ένα ευρύτερο φάσμα σεναρίων. Αναμένεται ότι μέσα σε ένα ή δύο χρόνια, μέσω της βελτιστοποίησης και ανάπτυξης λογισμικού, οι δυνατότητες γενίκευσης του ρομποτικού βραχίονα θα βελτιωθούν σημαντικά.

Φυσικά, υπάρχουν ορισμένες προκλήσεις για την επίτευξη του στόχου των δυνατοτήτων γενίκευσης του ρομποτικού βραχίονα, δηλαδή η έλλειψη δεδομένων. Προκειμένου να εκπαιδευτεί ένας ρομποτικός βραχίονας που μπορεί να χειριστεί διάφορα σενάρια, απαιτείται μεγάλος όγκος δεδομένων υψηλής ποιότητας για την υποστήριξη της εκμάθησης και της βελτιστοποίησης αλγορίθμων.

Στην πραγματικότητα, τα μεγάλα μοντέλα μπορούν να χρησιμοποιηθούν ως έξυπνοι πράκτορες στη μεταποιητική βιομηχανία και μπορούν να καλέσουν διαφορετικό λογισμικό ως σύνολο. Αυτό σημαίνει ότι σε πολύπλοκα συστήματα στη μεταποιητική βιομηχανία, διάφορα λογισμικά που αρχικά απαιτούσαν χειροκίνητη λειτουργία ή σύνδεση προγραμματισμού μπορούν πλέον να αυτοματοποιηθούν θεωρητικά και να ενσωματωθούν μέσω μεγάλων μοντέλων.

Οι χρήστες χρειάζεται μόνο να αλληλεπιδράσουν με το μεγάλο μοντέλο μέσω γλώσσας ή ιδεών και το μεγάλο μοντέλο μπορεί να εκτελέσει αυτόματα αντίστοιχα προγράμματα και να ολοκληρώσει διάφορες εργασίες. Ωστόσο, επειδή διαφορετικές κατασκευαστικές εταιρείες έχουν διαφορετικά περιβάλλοντα παραγωγής, συστήματα και API, η προσαρμοστικότητα μεγάλων μοντέλων σε διαφορετικά σενάρια έχει γίνει μια μεγάλη πρόκληση. Ακόμη και ένα μεγάλο μοντέλο που είναι καλά συντονισμένο σε μια σκηνή μπορεί να μην λειτουργεί σωστά σε άλλο περιβάλλον. Ως εκ τούτου, οι προγραμματιστές επιχειρήσεων πρέπει να τελειοποιήσουν συγκεκριμένα σενάρια για να βελτιώσουν την απόδοση και την ακρίβεια μεγάλων μοντέλων.

Αυτός ο περιορισμός επηρεάζει άμεσα την ευρεία εφαρμογή και τη σε βάθος ανάπτυξη μεγάλων μοντέλων στην κατασκευή. Επειδή η κατασκευή συχνά περιλαμβάνει εξαιρετικά πολύπλοκες και εκλεπτυσμένες λειτουργίες, που απαιτούν υπολογισμούς και έλεγχο υψηλής ακρίβειας. Εάν ένα μεγάλο μοντέλο δεν ανταποκρίνεται σε αυτά τα καθήκοντα, δεν θα αξιοποιήσει τις δυνατότητές του στην κατασκευή.

Εκτός από τους περιορισμούς χωρητικότητας των ίδιων των μεγάλων μοντέλων, τα ζητήματα συμβατότητας μεταξύ συστημάτων είναι επίσης ένας σημαντικός παράγοντας που περιορίζει την εφαρμογή μεγάλων μοντέλων στην κατασκευή. Διαφορετικές εταιρείες ή μονάδες παραγωγής ενδέχεται να χρησιμοποιούν τελείως διαφορετικά συστήματα, συμπεριλαμβανομένων διαφορετικού λογισμικού, υλικού και API. Αυτό καθιστά δύσκολη την άμεση εφαρμογή ενός μεγάλου μοντέλου συντονισμένου σε ένα σενάριο σε ένα άλλο σενάριο, επειδή τα περιβάλλοντα συστήματος των δύο σεναρίων μπορεί να είναι εντελώς διαφορετικά. Αυτή η μεταβλητότητα μεταξύ των συστημάτων αυξάνει την πολυπλοκότητα και το κόστος εφαρμογής μεγάλων μοντέλων στην κατασκευή.

Βασικά υπάρχει λύση. Για κάθετες βιομηχανίες όπως η μεταποίηση ή η χρηματοδότηση και το λιανικό εμπόριο, μπορούν να οριστούν διεπαφές για τυποποιημένα μεγάλα μοντέλα. Αυτές οι διεπαφές θα αποσαφηνίσουν τις συγκεκριμένες δυνατότητες που μπορεί να παρέχει το μεγάλο μοντέλο, έτσι ώστε όλα τα συστήματα να μπορούν να καλούν τις λειτουργίες του μεγάλου μοντέλου μέσω αυτών των διεπαφών. Το πλεονέκτημα αυτού είναι ότι ανεξάρτητα από το πώς αλλάζει το περιβάλλον του συστήματος, εφόσον ακολουθούν αυτές τις τυποποιημένες προδιαγραφές διεπαφής, μπορούν να συνδεθούν απρόσκοπτα με μεγάλα μοντέλα.

Επομένως, ορίζοντας τυποποιημένες διεπαφές, οι προγραμματιστές επιχειρήσεων μπορούν να μειώσουν σημαντικά τη δυσκολία αντιστοίχισης μεγάλων μοντέλων με διαφορετικά συστήματα, επιτρέποντας στα μεγάλα μοντέλα να προσαρμόζονται πιο γρήγορα σε διαφορετικά περιβάλλοντα παραγωγής. Οι τυποποιημένες διεπαφές διασφαλίζουν ότι τα μεγάλα μοντέλα μπορούν να λειτουργούν σταθερά σε διάφορα συστήματα και μειώνουν τα προβλήματα συμβατότητας που προκαλούνται από διαφορές στο σύστημα.

Γενικά, τα μεγάλα μοντέλα χρησιμοποιούνται ευρέως σε πολλαπλές κάθετες βιομηχανίες, αλλά υπάρχουν σχετικά λίγες πραγματικές περιπτώσεις υλοποίησης. Υπάρχουν δύο βασικοί λόγοι: Πρώτον, οι ανεπαρκείς μαθηματικές και μηχανικές δυνατότητες δυσκολεύουν τα μεγάλα μοντέλα να επιτύχουν επαρκή ακρίβεια και σταθερότητα σε πρακτικές εφαρμογές. Δεύτερον, το ίδιο το μεγάλο μοντέλο είναι μέρος της κατηγορίας μηχανικής μάθησης και η φύση του που βασίζεται σε στατιστικές μεθόδους καθορίζει ότι δεν μπορεί να είναι 100% σωστό.

Στην πραγματικότητα, η δομή του ανθρώπινου εγκεφάλου δεν είναι 100% ακριβής, αλλά η ανθρώπινη κρίση είναι συχνά αρκετά ακριβής για να καλύψει τις ανάγκες των περισσότερων πραγματικών σεναρίων. Αντίθετα, ακόμη και μετά την εκπαίδευση, η ακρίβεια ενός μεγάλου μοντέλου μπορεί να παραμείνει γύρω στο 95%, κάτι που μπορεί να μην είναι αρκετό σε ορισμένα σενάρια που απαιτούν εξαιρετικά υψηλή ακρίβεια. Επιπλέον, οι μαθηματικές δυνατότητες των μεγάλων μοντέλων είναι σχετικά φτωχές, γεγονός που περιορίζει επίσης την εφαρμογή τους σε ορισμένα πεδία.

Εάν θέλετε να ξεπεράσετε αυτούς τους περιορισμούς, πρέπει να συνειδητοποιήσετε τη σημασία της υποστήριξης εγκαταστάσεων για μεγάλα μοντέλα. Παρέχοντας τις απαραίτητες υποστηρικτικές εγκαταστάσεις και εργαλεία για μεγάλα μοντέλα, μπορεί να αναπληρώσει την έλλειψη μαθηματικών και μηχανικών ικανοτήτων, ώστε να μπορεί να προσαρμοστεί καλύτερα στις ανάγκες των πραγματικών σεναρίων εφαρμογής. Τέτοιες υποστηρικτικές εγκαταστάσεις μπορεί να περιλαμβάνουν πιο ακριβή σύνολα δεδομένων, πιο αποτελεσματικούς αλγόριθμους, πιο σταθερές πλατφόρμες υλικού κ.λπ.

TMTpost AGI: Γιατί τα μεγάλα μοντέλα δημιουργούν παραισθήσεις;

Qi Peng: Μερικές φορές συμβαίνει επειδή τα ίδια τα αρχικά δεδομένα λείπουν ή έχουν προβλήματα, το μοντέλο της μεγάλης γλώσσας δεν μπορεί να μάθει τη σωστή γνώση κατά τη διάρκεια της εκπαιδευτικής διαδικασίας και επομένως δεν μπορεί να βγάλει σωστά συμπεράσματα. Αυτό το σφάλμα δεν προκαλείται από ελαττώματα στο ίδιο το μοντέλο της μεγάλης γλώσσας, αλλά από ανακρίβειες στα δεδομένα εισόδου.

Εάν ένα μεγάλο μοντέλο εκπαιδεύεται σε ένα υποθετικό περιβάλλον όπου όλες οι πληροφορίες οδηγούν σε λάθος συμπεράσματα, τότε το μεγάλο μοντέλο θα κάνει επίσης λανθασμένες κρίσεις με βάση αυτές τις λανθασμένες πληροφορίες. Αυτό τονίζει τη σημαντική επίδραση των δεδομένων και του περιβάλλοντος στην απόδοση των πρακτόρων και των μεγάλων μοντέλων.

Μερικές φορές τα μεγάλα μοντέλα μπορούν να δημιουργήσουν απαντήσεις που φαίνονται λογικές και στοχαστικές αλλά στην πραγματικότητα δεν είναι αληθινές ή ακριβείς. Αυτό είναι παρόμοιο με τον τρόπο που τα 5χρονα παιδιά συχνά περιγράφουν τις ψεύτικες αναμνήσεις με σιγουριά.

Οι ενήλικες παρουσιάζουν επίσης συχνά παραισθήσεις ή σφάλματα μνήμης κατά την επεξεργασία πληροφοριών και μνήμης. Για παράδειγμα, κατά τη διάρκεια των αρχείων ακροαματικής διαδικασίας και της ανάλυσης υποθέσεων, τα μέρη που εμπλέκονται σε πολύ σοβαρές και σημαντικές καταστάσεις μπορεί επίσης να έχουν ψευδείς αναμνήσεις ή ψευδαισθήσεις λόγω διαφόρων πιέσεων, παραπλανητικών πληροφοριών κ.λπ.

TMTpost AGI: Πώς αντικατοπτρίζονται οι διαφορές στο περιβάλλον της αγοράς μεγάλων μοντέλων στο εσωτερικό και στο εξωτερικό;

Qi Peng: Επί του παρόντος, οι ξένες χώρες εξακολουθούν να διατηρούν ισχυρή εμπιστοσύνη στη βελτίωση της τεχνολογίας και δεν έχουν στραφεί πλήρως στην ανάπτυξη εφαρμογών. Αυτό μπορεί να σχετίζεται με το γεγονός ότι οι ξένες αγορές είναι σχετικά ώριμες και σταθερές, επιτρέποντας στις εταιρείες να έχουν περισσότερους πόρους και χώρο για να επικεντρωθούν στην τεχνολογική έρευνα και ανάπτυξη και καινοτομία. Αντίθετα, η εγχώρια αγορά αντιμετωπίζει ένα πιο έντονο ανταγωνιστικό περιβάλλον και οι περισσότερες μεγάλες εταιρείες έρευνας και ανάπτυξης βασικών μοντέλων έχουν στραφεί σε εφαρμογές σε μεγάλη κλίμακα.

Ο ανταγωνισμός στην εγχώρια αγορά δεν αντανακλάται μόνο στον αριθμό των εταιρειών, αλλά και στους πολέμους τιμών. Καθώς πολλές εταιρείες προσφέρουν παρόμοιες υπηρεσίες ταυτόχρονα, η τιμή των μεγάλων μοντέλων πέφτει ραγδαία, καθιστώντας δύσκολο για τις εταιρείες να ανακτήσουν το κόστος παρέχοντας υπηρεσίες. Σε ξένες χώρες, οι εταιρείες που εκπροσωπούνται από το ChatGPT μπορούν να συνεχίσουν να αποκτούν εισόδημα και να το χρησιμοποιούν για περαιτέρω έρευνα και ανάπτυξη και καινοτομία λόγω της ηγετικής τους θέσης στην τεχνολογία και την αναγνώριση της αγοράς.

Στην εγχώρια αγορά, λόγω του σκληρού πολέμου τιμών και της σχετικά αδύναμης προθυμίας πληρωμής, οι εταιρείες μπορεί να χρειαστεί να επικεντρωθούν περισσότερο στην ανάπτυξη νέων εφαρμογών προκειμένου να αναζητήσουν εμπορικές ανακαλύψεις. Αν και αυτή η στρατηγική μπορεί να μετριάσει σε κάποιο βαθμό την οικονομική πίεση των επιχειρήσεων, μπορεί επίσης να οδηγήσει σε ανεπαρκείς επενδύσεις στην τεχνολογική έρευνα και ανάπτυξη, επηρεάζοντας έτσι τη μακροπρόθεσμη ανταγωνιστικότητά τους.

TMTpost AGI: Ποιες είναι οι μελλοντικές κατευθύνσεις ανάπτυξης του AGI;

Qi Peng: Πιστεύω ότι η ανθρώπινη κοινωνία βρίσκεται σε μια κρίσιμη περίοδο που οδηγεί στο AGI. Παρόλο που ο κλάδος πιστεύει επί του παρόντος ότι ορισμένες τεχνολογίες ή μοντέλα δεν βρίσκονται στο σωστό δρόμο για την AGI, πιστεύει ότι αυτές οι τεχνολογίες ή μοντέλα δεν ανήκουν στην AGI.Αλλά μια μέρα στο μέλλον, όταν κοιτάξουμε πίσω σε αυτήν την περίοδο της ιστορίας, μπορεί να συνειδητοποιήσουμε ότι βρισκόμαστε σε μια σημαντική ιστορική καμπή.

Πάρτε για παράδειγμα την τεχνολογία αυτόνομης οδήγησης της Tesla Πριν από πέντε χρόνια, οι άνθρωποι μπορεί να πίστευαν ότι η τεχνολογία αυτόνομης οδήγησης επιπέδου L4 θα χρειαζόταν δέκα έως είκοσι χρόνια για να επιτευχθεί, αλλά τώρα αυτή η τεχνολογία έχει σημειώσει σημαντική πρόοδο. Αυτή η τρελή πρόοδος επιτρέπει στη βιομηχανία να πιστέψει ότι η πραγματική AGI μπορεί να πραγματοποιηθεί ακούσια.

Zhuang Shaobin: Ποια είναι η ιδανική κατάσταση του AGI; Το AGI δεν θα πρέπει μόνο να διαθέτει ικανότητες σκέψης υψηλού επιπέδου, αλλά το πιο σημαντικό, να μπορεί να εφαρμοστεί στην πραγματική ζωή, ειδικά στον κλάδο.

Επί του παρόντος, οι άνθρωποι έχουν δει πολλές εφαρμογές ρομπότ και τεχνολογίας AI σε φυσικές συσκευές, γεγονός που δείχνει ότι οι άνθρωποι εργάζονται σκληρά για να απελευθερώσουν την τεχνολογία AI από τους υπολογιστές και να τη μετατρέψουν σε απτές και ενεργές οντότητες. Αυτό το άλμα είναι πολύ σημαντικό για την τεχνολογία AI Μόνο σε πρακτικές εφαρμογές μπορεί να δημιουργήσει μεγαλύτερη αξία.

TMTpost AGI: Εκτός από τη διαδρομή DiT, υπάρχουν άλλες πιθανές διαδρομές ή στρατηγικές για την ανάπτυξη του AGI; Ποια είναι η πορεία υλοποίησης του AGI;

Qi Peng: Στη διαδικασία ανάπτυξης του AGI, οι άνθρωποι πρέπει να έχουν μια διαφορετική και περιεκτική στάση. Εάν το AGI συγκριθεί με την εργασία μαθητών με διαφορετικούς βαθμούς σε μια τάξη, παρόλο που οι μαθητές έχουν διαφορετικές ικανότητες, μπορούν όλοι να ολοκληρώσουν κάποια βασικά πράγματα. Ομοίως, ακόμη και αν υπάρχουν διαφορές στην απόδοση μεταξύ των αρχιτεκτονικών, μπορούν όλες να ολοκληρώσουν κάποιες βασικές εργασίες, αλλά έχουν διαφορετικές ικανότητες σε πιο δύσκολες εργασίες.

Συγκεκριμένα, με την υποστήριξη μεγάλων ποσοτήτων δεδομένων και υπολογιστικής ισχύος, διαφορετικές αρχιτεκτονικές μπορούν να βελτιώσουν τις βασικές τους δυνατότητες αυξάνοντας τον αριθμό των παραμέτρων, ώστε να μπορούν όλες να αποδίδουν σε ένα ορισμένο επίπεδο.Ταυτόχρονα, υπάρχουν και ορισμένες νέες τάσεις στον τομέα των μεγάλων μοντέλων, όπως οι μέθοδοι βελτιστοποίησης, όπως οι μηχανισμοί γραμμικής προσοχής.

Όσον αφορά την τελική διαδρομή υλοποίησης του AGI, στην πραγματικότητα δεν υπάρχει σταθερή διαδρομή. Διάφορα τρέχοντα μοντέλα και τεχνολογίες έχουν τα πλεονεκτήματα και τους περιορισμούς τους. Στη διαδικασία ανάπτυξης του AGI απαιτείται συνεχής εξερεύνηση και ενοποίηση πολλαπλών αρχιτεκτονικών και τεχνολογιών. Διαφορετικές αρχιτεκτονικές και τεχνολογίες θα παρέχουν σημαντικές αναφορές και αναφορές για το AGI σε αυτή τη διαδικασία, προωθώντας τη συνεχή ανάπτυξή του. Ταυτόχρονα, πρέπει να δοθεί προσοχή στην πρακτικότητα και τις δυνατότητες αυτοδιόρθωσης του μοντέλου.

TMTpost AGI: Πώς να επιτύχετε μια ισορροπία μεταξύ της ερευνητικής καινοτομίας και της εμπορευματοποίησης στον εγχώριο τομέα μεγάλων μοντέλων;

Qi Peng: Όσον αφορά την καινοτόμο έρευνα, λόγω περιορισμένων κεφαλαίων, το ινστιτούτο πρέπει να αποσαφηνίσει τους στόχους που μπορεί να προσπαθήσει να επιτύχει, αντί να επιδιώκει τυφλά έργα που απαιτούν μεγάλο όγκο πόρων, όπως μεγάλα γλωσσικά μοντέλα που μπορούν να αναληφθούν μόνο από μεγάλες εταιρείες όπως η Baidu.

Δεύτερον, η ομάδα του ινστιτούτου πρέπει να επιλέξει ερευνητικά έργα που μπορούν να υλοποιηθούν με ορισμένες προσπάθειες και έχουν πρακτική αξία. Για παράδειγμα, το μοντέλο τύπου Sora που βασίζεται στην αρχιτεκτονική της χωροχρονικής σύζευξης Latte που αναπτύχθηκε από την ομάδα, παίρνει ως παράδειγμα τη δημιουργία βίντεο υψηλής ευκρίνειας διάρκειας 16 δευτερολέπτων. Αυτός είναι ένας στόχος που το ινστιτούτο μπορεί να προσπαθήσει να επιτύχει με τους υπάρχοντες πόρους. Ταυτόχρονα, το ινστιτούτο πρέπει επίσης να επιλέξει κάποιες κατευθύνσεις έρευνας που μπορεί να απαιτούν λιγότερους πόρους, όπως βελτιστοποίηση μοντέλων ή υποστήριξη εφαρμογών.

Σε ό,τι αφορά την εμπορευματοποίηση, το ινστιτούτο θα πρέπει να επικεντρωθεί στην εφαρμογή του AIGC, ιδιαίτερα στο θέμα του «τελευταίου μιλίου». Αυτό σημαίνει ότι τα ερευνητικά ιδρύματα πρέπει να επικεντρωθούν στον τρόπο μετατροπής των ερευνητικών αποτελεσμάτων σε πραγματικά προϊόντα ή υπηρεσίες για να καλύψουν τη ζήτηση της αγοράς και να επιτύχουν την εμπορευματοποίηση.

Αν και το IQ των μεγάλων μοντέλων μπορεί να συνεχίσει να αυξάνεται, από πέντε σε δέκα έως δεκαοκτώ ετών, ακόμη και να φτάσει στο επίπεδο των κορυφαίων ειδικών, ένα τέτοιο σύστημα θα απαιτεί πάντα υποστηρικτικές εγκαταστάσεις ή εργαλεία για την υποστήριξη της λειτουργίας και της εφαρμογής του. Το κόστος Ε&Α αυτών των υποστηρικτικών εγκαταστάσεων μπορεί να είναι σχετικά χαμηλό, αλλά διαδραματίζουν κρίσιμο ρόλο στην προώθηση της πρακτικής εφαρμογής και της κοινωνικής αξίας μεγάλων μοντέλων.

Ως εκ τούτου, οι ομάδες εγχώριων ερευνητικών ιδρυμάτων στον τομέα της τεχνητής νοημοσύνης θα πρέπει να επικεντρωθούν κυρίως στην έρευνα και ανάπτυξη αυτών των υποστηρικτικών εγκαταστάσεων για την υποστήριξη της λειτουργίας και της εφαρμογής μεγάλων μοντέλων.

(Αυτό το άρθρο δημοσιεύτηκε για πρώτη φορά στην εφαρμογή Titanium Media App, συγγραφέας｜Dou Yueyi, Lin Zhijia, συντάκτης｜Lin Zhijia)

Νέα

Εισαγωγή

τα στοιχεία επικοινωνίας μου