ο robin li αποκαλύπτει την ψευδαίσθηση της «τρέχουσας βαθμολογίας» μεγάλων μοντέλων: η λίστα δεν αντιπροσωπεύει όλα τα δυνατά σημεία και το χάσμα μεταξύ των μοντέλων θα διευρυνθεί στο μέλλον

ο robin li εκθέτει την ψευδαίσθηση της «τρέχουσας βαθμολογίας» μεγάλων μοντέλων: η λίστα δεν αντιπροσωπεύει όλα τα δυνατά σημεία και το χάσμα μεταξύ των μοντέλων θα διευρυνθεί στο μέλλον

2024-09-12

κάθε φορά που κυκλοφορεί μια νέα έκδοση ενός μεγάλου μοντέλου, η βιομηχανία είναι πάντα πρόθυμη να αναφέρει δεδομένα λίστας τρίτων, να "τρέξει μια βαθμολογία" με το δικό της μεγάλο μοντέλο και το gpt-4, υποστηρίζοντας ότι έχει ξεπεράσει ορισμένους δείκτες αποδεικνύουν την τεχνική τους δύναμη σε μεγάλα μοντέλα.

αλλά σε μια πρόσφατη ανταλλαγή απόψεων μεταξύ του προέδρου της baidu, robin li και εσωτερικών υπαλλήλων, τρύπησε το "χαρτί παραθύρου" που εμποδίζει τη συγκριτική αξιολόγηση στη βιομηχανία μεγάλων μοντέλων. "κάθε φορά που κυκλοφορεί ένα νέο μοντέλο, πρέπει να συγκρίνεται με το gpt-4o. λέγεται ότι η βαθμολογία μου είναι σχεδόν ίδια με αυτό, και μάλιστα την υπερβαίνει σε ορισμένα μεμονωμένα στοιχεία, αλλά αυτό δεν σημαίνει ότι δεν υπάρχει κενό με τα πιο προηγμένα μοντέλα».

εξήγησε περαιτέρω ότι τα κενά μεταξύ των μοντέλων είναι πολυδιάστατα. η μία διάσταση είναι η πτυχή της ικανότητας, είτε πρόκειται για το κενό σε βασικές ικανότητες, όπως η ικανότητα κατανόησης, η ικανότητα δημιουργίας, η ικανότητα λογικής συλλογιστικής ή η ικανότητα μνήμης, η άλλη διάσταση είναι η πτυχή του κόστους, αν και ορισμένα μοντέλα μπορούν να επιτύχουν το ίδιο αποτέλεσμα υψηλή και η ταχύτητα συλλογισμού είναι αργή, στην πραγματικότητα, εξακολουθεί να είναι κατώτερη από τα προηγμένα μοντέλα.

"υπάρχει επίσης η υπερβολική εφαρμογή του σετ δοκιμών. κάθε μοντέλο που θέλει να αποδείξει την ικανότητά του θα πάει στην κατάταξη. όταν κάνει την κατάταξη, θα πρέπει να μαντέψει τι δοκιμάζουν οι άλλοι και ποιες τεχνικές μπορώ να χρησιμοποιήσω για να το αποκτήσω σωστά , επομένως, κρίνοντας από τη λίστα ή το σετ δοκιμών, πιστεύετε ότι οι δυνατότητες είναι πολύ κοντά, αλλά εξακολουθεί να υπάρχει ένα σαφές κενό στις πραγματικές εφαρμογές», είπε ο robin li.

ένας μεγάλος επαγγελματίας μοντέλο είπε στους δημοσιογράφους ότι η υπερβολική προσαρμογή (over-fitting) του σετ δοκιμής που αναφέρεται από τον robin li αναφέρεται κυρίως στο γεγονός ότι κατά τη διαδικασία εκπαίδευσης του μοντέλου, το μοντέλο μαθαίνει τα δεδομένα εκπαίδευσης πολύ προσεκτικά, έτσι ώστε το μοντέλο να δεν αποδίδει καλά στα δεδομένα προπόνησης η απόδοση είναι πολύ καλή, αλλά η απόδοση είναι κακή σε αόρατα δεδομένα δοκιμής. αυτό συνήθως σημαίνει ότι το μοντέλο είναι τόσο περίπλοκο που μπορεί να "θυμάται" τον θόρυβο και τις λεπτομέρειες στα δεδομένα εκπαίδευσης, αλλά αυτές οι λεπτομέρειες και ο θόρυβος δεν είναι γενικοί και επομένως το μοντέλο δεν γενικεύεται καλά σε περισσότερα νέα δεδομένα.

τα προαναφερθέντα άτομα πιστεύουν ότι υπάρχουν πράγματι περιορισμοί στην κατάταξη και τις βαθμολογίες λειτουργίας. για παράδειγμα, λόγω του ανοιχτού συνόλου δεδομένων αξιολόγησης, το μοντέλο μπορεί να εκπαιδευτεί με στοχευμένο τρόπο για τη βελτίωση της κατάταξης, με αποτέλεσμα το φαινόμενο ". ολίσθηση της κατάταξης". ωστόσο, δεν είναι εντελώς άσκοπο. η κατάταξη εξακολουθεί να είναι σχετικά παρέχει ένα πρότυπο ποσοτικής αξιολόγησης που βοηθά τους ανθρώπους να κατανοήσουν γρήγορα την απόδοση διαφορετικών μεγάλων μοντέλων, προτρέπει όλους να βελτιστοποιούν συνεχώς το τεχνικό επίπεδο μεγάλων μοντέλων μέσω του ανταγωνισμού, και επίσης παίζει κάποιο ρόλο στη δημοσιότητα και την προβολή.

κατά την άποψη του robin li, "μέρος της διαφημιστικής εκστρατείας από τα αυτομέσα, σε συνδυασμό με το κίνητρο για δημοσιότητα όταν κυκλοφορεί κάθε νέο μοντέλο, δίνει σε όλους την εντύπωση ότι η διαφορά στις δυνατότητες μεταξύ των μοντέλων είναι σχετικά μικρή. στην πραγματικότητα, αυτό δεν ισχύει ο robin li είπε ότι στην πραγματική χρήση, η baidu δεν επιτρέπει στο τεχνικό προσωπικό να κάνει ταξινομήσεις. η πραγματική μέτρηση των δυνατοτήτων των μεγάλων μοντέλων θα πρέπει να γίνεται σε συγκεκριμένα σενάρια εφαρμογών για να δούμε αν μπορούν να καλύψουν τις ανάγκες των χρηστών και να δημιουργήσουν κέρδη.

όσο για το «12 μήνες μπροστά ή 18 μήνες πίσω» που αναφέρεται συχνά στη βιομηχανία των μεγάλων μοντέλων, πιστεύει ότι δεν είναι τόσο σημαντικό. επειδή κάθε εταιρεία βρίσκεται σε ένα απόλυτα ανταγωνιστικό περιβάλλον αγοράς, υπάρχουν πολλοί ανταγωνιστές ανεξάρτητα από την κατεύθυνση που παίρνει. "αν μπορείς πάντα να εγγυηθείς ότι θα είσαι 12 με 18 μήνες μπροστά από τους ανταγωνιστές σου, θα είσαι ανίκητος. μην νομίζεις ότι 12 με 18 μήνες είναι σύντομο χρονικό διάστημα. ακόμα κι αν μπορείς να εγγυηθείς ότι θα είσαι πάντα 6 μήνες μπροστά από τους ανταγωνιστές σας, θα κερδίσετε το μερίδιο αγοράς σας μπορεί να είναι 70%, ενώ ο αντίπαλός σας μπορεί να έχει μόνο 20% ή ακόμα και 10%.

εκτίμησε ότι το χάσμα μεταξύ μεγάλων μοντέλων μπορεί να διευρυνθεί στο μέλλον. επειδή το ανώτατο όριο των μεγάλων μοντέλων είναι πολύ ψηλό, απέχει πολύ από την ιδανική κατάσταση. επομένως, το μοντέλο πρέπει να επαναλαμβάνεται, να ενημερώνεται και να αναβαθμίζεται γρήγορα, για να μπορεί να επενδύει συνεχώς για αρκετά χρόνια ή περισσότερα από δέκα χρόνια για τη συνεχή κάλυψη των αναγκών των χρηστών, τη μείωση του κόστους και την αύξηση της αποτελεσματικότητας.

εκτός από τη συζήτηση για το εάν υπάρχουν εμπόδια στον ανταγωνισμό σε μεγάλα μοντέλα, κατά τη διάρκεια της ανταλλαγής, ο robin li ανέφερε επίσης ότι υπάρχουν αρκετές παρεξηγήσεις σχετικά με τα μεγάλα μοντέλα, συμπεριλαμβανομένων θεμάτων όπως η αποτελεσματικότητα των μοντέλων ανοιχτού και κλειστού κώδικα και η τεχνητή νοημοσύνη μέσο.

ο robin li είναι ένθερμος υποστηρικτής των μεγάλων μοντέλων κλειστού κώδικα «πριν από την εποχή των μεγάλων μοντέλων, όλοι ήταν συνηθισμένοι στο ανοιχτό κώδικα που σημαίνει δωρεάν και χαμηλό κόστος. εξήγησε ότι για παράδειγμα, το linux υπάρχουν ήδη χρησιμοποιείται linux είναι δωρεάν. αλλά αυτά δεν ισχύουν στην εποχή των μεγάλων μοντέλων. το συμπέρασμα των μεγάλων μοντέλων είναι πολύ ακριβό και τα μοντέλα ανοιχτού κώδικα δεν παρέχουν υπολογιστική ισχύ.

"το μοντέλο ανοιχτού κώδικα δεν είναι αποτελεσματικό από άποψη απόδοσης, είπε, "για την ακρίβεια, το μοντέλο κλειστού κώδικα θα πρέπει να ονομάζεται επιχειρηματικό μοντέλο. επιτρέπει σε αμέτρητους χρήστες να μοιράζονται το κόστος ε&α και τους πόρους του μηχανήματος και τις gpu που χρησιμοποιούνται για." η απόδοση της gpu είναι η υψηλότερη.

ο robin li ανέλυσε ότι σε τομείς όπως η διδασκαλία και η επιστημονική έρευνα, το μοντέλο ανοιχτού κώδικα είναι πολύτιμο, αλλά στον εμπορικό τομέα, όταν η επιδίωξη της αποδοτικότητας, της αποτελεσματικότητας και του χαμηλότερου κόστους, το μοντέλο ανοιχτού κώδικα δεν έχει πλεονεκτήματα.

εξέφρασε επίσης τις απόψεις του για την εξέλιξη της εφαρμογής των μεγάλων μοντέλων. εάν αυτό το επίπεδο αυτοματισμού αναπτυχθεί περαιτέρω, θα γίνει ένας εργάτης ai που μπορεί να ολοκληρώσει όλες τις πτυχές της εργασίας ανεξάρτητα.

επί του παρόντος, οι ευφυείς πράκτορες έχουν προσελκύσει όλο και περισσότερο την προσοχή από μεγάλες εταιρείες μοντέλων και πελάτες, αν και πολλοί άνθρωποι είναι αισιόδοξοι για αυτήν την κατεύθυνση ανάπτυξης, από σήμερα, οι ευφυείς πράκτορες δεν αποτελούν συναίνεση.

"το όριο για έξυπνους πράκτορες είναι πράγματι πολύ χαμηλό." πράκτορες πάνω από μοντέλα.

(αυτό το άρθρο προέρχεται από το china business news)

αναφορά/σχόλια

νέα

εισαγωγή

τα στοιχεία επικοινωνίας μου