τα δεδομένα τεχνητής νοημοσύνης είναι ελλιπή, οι μεγάλοι κατασκευαστές κοιτάζουν τους φθηνούς νέους

2024-09-03

προκειμένου να αποκτήσουν νέα δεδομένα και να εκπαιδεύσουν μεγάλα μοντέλα τεχνητής νοημοσύνης, μεγάλες εταιρείες του διαδικτύου, όπως η bytedance, παίρνουν την κατάσταση στα χέρια τους και στρατολογούν "καταγραφείς ai" σε τιμές που κυμαίνονται από 300 γιουάν ανά φορά για να προσαρμόσουν το σώμα.

το κτίριο γραφείων byte που βρίσκεται στο ναό dazhong στο πεκίνο φιλοξενεί την επιχειρηματική ομάδα της byte douyin και την επιχειρηματική ομάδα της volcano engine από την αρχή του έτους, στρατολογούν ερασιτέχνες για να ηχογραφήσουν το μοντέλο doubao. δύο άτομα σχηματίζουν μια ομάδα, κάθε φορά είναι 3 ώρες, συμπεριλαμβανομένων 80 λεπτών δωρεάν συνομιλίας και 60 ομάδων συνομιλιών με άμεσες λέξεις, και το ποσό ενιαίου διακανονισμού είναι 300 γιουάν.

η 3ωρη ηχογράφηση συνοδευόταν από τουλάχιστον 2 υπαλλήλους της name καθ' όλη τη διάρκεια της διαδικασίας. «η συζήτηση δεν πρέπει να είναι πολύ μεγάλη, πρέπει να έχει περιεχόμενο και πληροφορίες, εάν η ποιότητα είναι πολύ κακή, τα χρήματα θα αφαιρεθούν ανάλογα με τις ανάγκες. από τις 6 το απόγευμα έως τις 9 το βράδυ, οι οδηγίες που δόθηκαν από τους υπαλλήλους της byte κατά τη διαδικασία της ηχογράφησης αποκάλυψαν περισσότερο την ανησυχία τους για την ποιότητα της ηχογράφησης.

λεζάντα: εσωτερική άποψη του στούντιο ηχογράφησης του ναού dazhong

στην πραγματικότητα, πόλεις δεύτερης βαθμίδας όπως το chengdu, το taiyuan και το guizhou έχουν ήδη γίνει πόλεις εξωτερικής ανάθεσης δεδομένων ai για μεγάλες εταιρείες όπως η bytedance, η baidu και η alibaba. "πέρυσι, οι κατώτεροι φοιτητές μπόρεσαν να κάνουν σχολιασμό δεδομένων και ανάγνωση διαλέκτων. τώρα προσλαμβάνουμε ασκούμενους από το 211 και το 985 για να ηγηθούν της εξωτερικής ανάθεσης."

το minimax, το οποίο μόλις κυκλοφόρησε ένα μεγάλο μοντέλο βίντεο τον σεπτέμβριο, ο ιδρυτής του yan junjie είπε στην alphabet ότι στη σαγκάη, εκτός από δεδομένα υψηλής ποιότητας από εταιρείες corpus, το minimax θα αγοράσει επίσης ορισμένα δεδομένα που βασίζονται σε πλατφόρμα.

τα δεδομένα, οι αλγόριθμοι και η υπολογιστική ισχύς είναι οι τρεις πυλώνες των μεγάλων μοντέλων τεχνητής νοημοσύνης, μεταξύ των οποίων τα δεδομένα αποτελούν τη βάση για την εκπαίδευση μεγάλων μοντέλων. ωστόσο, επειδή τα δεδομένα του διαδικτύου είναι διάσπαρτα σε διαφορετικές πλατφόρμες και περιβάλλονται από εμπόδια, τα δημόσια δεδομένα που μπορούν να χρησιμοποιηθούν για την εκπαίδευση μεγάλων μοντέλων τεχνητής νοημοσύνης στερεύουν.

τον ιούνιο, το ερευνητικό ινστιτούτο epoch ai δημοσίευσε μια νέα μελέτη που προβλέπει ότι τα διαθέσιμα δεδομένα για τη δημόσια εκπαίδευση μοντέλων γλώσσας ai θα εξαντληθούν από τις εταιρείες τεχνολογίας μεταξύ 2026 και 2032. ήδη από τον μάιο του 2023, ο διευθύνων σύμβουλος της openai, άλτμαν, παραδέχτηκε δημόσια ότι οι εταιρείες τεχνητής νοημοσύνης θα εξαντλήσουν όλα τα δεδομένα στο διαδίκτυο στο εγγύς μέλλον.

ο τρόπος εύρεσης νέων δεδομένων υψηλής ποιότητας για την «τροφοδοσία» μεγάλων μοντέλων έχει γίνει κοινό πρόβλημα για όλες τις μεγάλες ομάδες μοντέλων τεχνητής νοημοσύνης.

ορισμένες μεγάλες εταιρείες έχουν επανειλημμένα εμπλακεί σε διαφορές λόγω υποψιών για μη εξουσιοδοτημένη χρήση δεδομένων τρίτων. τον αύγουστο, το openai υποβλήθηκε σε μήνυση από περισσότερους από 100 παρουσιαστές του youtube, κατηγορώντας το ότι μετέγραψε παράνομα εκατομμύρια βίντεο του youtube για να εκπαιδεύσει μεγάλα μοντέλα. συμμετέχουν επίσης γίγαντες όπως η nvidia, η apple και η anthropic.

για τους μεγάλους κατασκευαστές, μόνο με τα δικά τους δεδομένα υψηλής ποιότητας κλειστής πηγής μπορεί να διασφαλιστεί η επικαιρότητα και η ποιότητα των δεδομένων που τροφοδοτούν μεγάλα μοντέλα. η παράλειψη πλατφορμών τρίτων με ασταθή ποιοτικό έλεγχο και η προσπάθεια να γράψετε προσωπικά «σενάρια» για τεχνητή νοημοσύνη μπορεί να είναι μια νέα προσέγγιση για τους μεγάλους κατασκευαστές μοντέλων.

στις αρχές του τρέχοντος έτους, η τεχνητή νοημοσύνη που καταγράφει θέσεις μερικής απασχόλησης με τιμή 300 γιουάν ανά συνεδρία εμφανίστηκε αθόρυβα σε πλατφόρμες όπως το xiaohongshu.

σε σύγκριση με τη μερική απασχόληση ηχογράφησης ai σε πλατφόρμες όπως το boss direct employment, το οποίο πληρώνει 30-55 γιουάν την ώρα, το λεγόμενο «στούντιο ηχογράφησης μερικής απασχόλησης στο κορυφαίο στούντιο» που πληρώνει 300 γιουάν ανά ώρα και που ηχογραφήθηκε στο ναό dazhong στο πεκίνο είναι αρκετά δελεαστικό.

τον αύγουστο, όταν με τράβηξαν στην ομάδα ηχογράφησης μέσω του wechat, η alphabet list (id: wujicaijing) διαπίστωσε ότι υπήρχαν ήδη περισσότερα από 200 άτομα που περίμεναν για ηχογράφηση στην ομάδα. δεδομένου ότι ορίζεται ότι μια ομάδα δύο ατόμων μπορεί να ηχογραφήσει μια συνομιλία για έως και τρεις ώρες, μετά την ένταξή της στην ομάδα, εμφανίζονται τα περισσότερα μηνύματα του wechat όπως "αναζήτηση συνεργάτη" και "μπορεί κάποιος να ηχογραφήσει μαζί μου;"

στην πραγματικότητα, δεν είναι εύκολο να είσαι καταγραφέας τεχνητής νοημοσύνης και να "γράφεις σενάρια για τεχνητή νοημοσύνη" για 300 γιουάν τη φορά.

πρώτα απ 'όλα, πριν από την ηχογράφηση, όλοι πρέπει να ανεβάσουν μια ηχογράφηση συνομιλίας 2-3 λεπτών ως "δείγμα" οι αναθεωρητές του byte πρέπει να χρησιμοποιήσουν το αποτέλεσμα του δείγματος για να αποφασίσουν εάν θα ειδοποιήσουν την ηχογράφηση μερικής απασχόλησης. καιαυτή η διαδικασία θα ελεγχθεί από 3 υπαλλήλους μόνο εάν 2 από αυτούς περάσουν την αναθεώρηση, ο χρόνος ηχογράφησης θα γίνει απευθείας κράτηση.

μετά τη δεύτερη ανασκόπηση του δείγματος, ο zhang xue έκλεισε ραντεβού για ώρα ηχογράφησης 6-9 μ.μ. τη δεύτερη εβδομάδα μετά την υποβολή του δείγματος. στην ομαδική συνομιλία, πολλά άτομα είχαν κολλήσει στη συνεδρία του δείγματος.

σημείωση: dazhong temple recording group πηγή: στιγμιότυπο οθόνης της λίστας αλφαβήτου

το βράδυ της ηχογράφησης, ο zhang xue κάθισε σε μια καρέκλα μέσα από το διαφανές γυαλί του στούντιο ηχογράφησης, προσαρμόστηκε στην καλύτερη θέση όπου η φωνή μπορούσε να ηχογραφηθεί καθαρά και άκουγε τις οδηγίες των υπαλλήλων της byte μέσω ακουστικών.

η πρώτη συνεδρία ήταν μια δωρεάν συνομιλία 80 λεπτών μεταξύ των δύο τους χωρίς κανένα θέμα. οι απαιτήσεις του προσωπικού byte είναι ότι η συνομιλία δεν μπορεί να είναι «μικρή συζήτηση» και πρέπει να είναι περιεχόμενο.

η zhang xue και ο σύντροφός της μίλησαν στην αίθουσα ηχογράφησης μέσα από ένα τεράστιο ακουστικό, προσπαθώντας να μην σταματήσουν για 80 λεπτά. ταυτόχρονα, θα πρέπει επίσης να προσπαθήσετε να συγκρατήσετε το σώμα σας από το να κινείται και να βγάζει βήχα, γέλιο και άλλους ήχους που διαταράσσουν την ποιότητα εγγραφής.

προκειμένου να διασφαλιστεί η ποιότητα της φωνής, το προσωπικό της byte συνδέει τα ακουστικά κατά διαστήματα, προτρέποντάς τους να ηχογραφήσουν ξανά εάν υπάρχει θόρυβος ή εάν η συνομιλία είναι "αφύσικη και έχει πάρα πολλά ίχνη καθοδήγησης", πρέπει επίσης να επανεγγραφεί -εγγεγραμμένος. το πρότυπο για τη φωνή υψηλής ποιότητας είναι ότι η συνομιλία είναι φυσική, τα θέματα είναι συνεχή, η διάθεση είναι θετική, αλλά δεν μπορεί να βιαστεί η συνομιλία και πρέπει να είναι ικανοποιητική και όχι περιεκτική. μετά από επανειλημμένες αναπροσαρμογές, η πρώτη συνεδρία κράτησε σχεδόν 2 ώρες.

στο δεύτερο στάδιο, ηχογραφήθηκαν 60 σετ διαλόγων με προτρεπτικές λέξεις. παρόλο που υπάρχει ένα σενάριο αναφοράς, ως καταγραφέας ai, ο zhang xue όχι μόνο πρέπει να συντάσσει διαλόγους ανάλογα με την κατάσταση, αλλά διασφαλίζει επίσης ένα αυστηρό μοτίβο διαλόγου, δηλαδή το τελευταίο σύνολο διαλόγων τελειώνει με α και μετά το επόμενο σετ των διαλόγων πρέπει να ξεκινάει με β .

ταυτόχρονα, για να καλυφθούν οι ανάγκες εντοπισμού σφαλμάτων μεγάλων μοντέλων, κάθε οδηγία πρέπει να αναφέρει ξεκάθαρα τις προτρεπτικές λέξεις, "μπορεί να είναι πιο λεπτομερές; μπορεί να είναι πιο λεπτομερές; μπορεί να είναι πιο λεπτομερές;" byte το προσωπικό κατέστησε επίσης σαφές ότι το σενάριο μπορεί να αλλάξει, αλλά μόνο οι προτρεπτικές λέξεις δεν μπορούν να αλλάξουν. με άλλα λόγια, μπορεί να είναι δύσκολο για το ai να το αναγνωρίσει.

προκειμένου να διασφαλιστεί η ποιότητα της εγγραφής, εάν η εγγραφή δεν είναι καθαρή, οι λέξεις καταπίνονται ή η διάθεση είναι ανεπαρκής, η εγγραφή θα επανεγγραφεί. όταν τελείωσε η ηχογράφηση, ο zhang xue έφυγε από τον ναό dazhong. ήταν σχεδόν 10 το βράδυ. για μια τρίωρη συνεδρία ηχογράφησης, το προσωπικό της byte πρέπει να ηχογραφεί τρεις φορές την ημέρα και το εβδομαδιαίο πρόγραμμα είναι σχεδόν γεμάτο.

εκτός από το πεκίνο, η byte έχει ήδη στρατολογήσει καταγραφείς στη σαγκάη, το χανγκζού, το τσονγκκίνγκ, το ναντζίνγκ, το τσενγκντού, την τιαντζίν και άλλες πόλεις.

για τους μεγάλους κατασκευαστές μοντέλων που διψούν για νέα δεδομένα, η λειτουργία «ξοδέψτε χρήματα για να λάβετε δεδομένα» δεν είναι νέα.

το 2023, καθώς τα μεγάλα μοντέλα τεχνητής νοημοσύνης γίνονται μια νέα τάση, οι μεγάλοι κατασκευαστές όχι μόνο αγοράζουν δεδομένα απευθείας μέσω τρίτων εταιρειών, αλλά δημιουργούν επίσης θέσεις εξωτερικής ανάθεσης, όπως "σχολιαστής μεγάλων δεδομένων" και "επεξεργαστής ai".

το 2023, η arlene, που ειδικεύτηκε στις δευτερεύουσες γλώσσες, άρχισε να «εργάζεται» για μεγάλα μοντέλα μέσω ιστοσελίδων όπως το boss direct recruitment κατά τη διάρκεια των μεταπτυχιακών εισαγωγικών εξετάσεων.

μέσω μιας εταιρείας που ονομάζεται "x data", η alin πραγματοποιεί επιθεώρηση αποδοχής για το περιεχόμενο κειμένου που αναγνωρίζεται από τη μεγάλη εικόνα μοντέλου, δηλαδή, ελέγχει εάν το κείμενο σε μικρή γλώσσα μετά την αναγνώριση εικόνας μεγάλου μοντέλου είναι συνεπές με την εικόνα. σύμφωνα με την τιμή "μία λέξη ή πρόταση μετράει ως ένα κουτί υπολογισμού και κάθε κουτί μετράει ως 1 σεντ", ο a lin μπορεί να κερδίσει δεκάδες γιουάν τη φορά υπολογίζοντας εκατοντάδες αντικείμενα.

φέτος, η a lin έλαβε επίσης παραγγελίες μέσω μιας τρίτης εταιρείας δεδομένων για να κάνει σχολιασμούς δεδομένων τεχνητής νοημοσύνης που σχετίζονται με τη μετάφραση και η τιμή αυξήθηκε σε περισσότερο από 1 γιουάν ανά τεμάχιο. ωστόσο, για να κρίνουμε με μη αυτόματο τρόπο εάν οι μικρές γλώσσες, όπως τα γαλλικά που μεταφράζονται από το μεγάλο μοντέλο είναι ακριβείς, οι σχολιαστές πρέπει όχι μόνο να βρουν τα λάθη, αλλά και να χρησιμοποιήσουν διαφορετικά χρώματα για να σχολιάσουν το περιεχόμενο μετάφρασης 5-6 μεγάλων μοντέλα. «μερικές φορές χρειάζονται 10-15 λεπτά για να δεις ένα κομμάτι».

αφού εργάστηκε για την τεχνητή νοημοσύνη, ο alin ανακάλυψε επίσης ότι όταν αυτά τα μεγάλα μοντέλα διαχωρίστηκαν από το αρχικό σώμα των μικρών γλωσσών, νέες λέξεις που χρησιμοποιούνται σε κοινωνικές πλατφόρμες ή λέξεις που χρησιμοποιούνται συνήθως από εξειδικευμένες ομάδες δεν συμπεριλήφθηκαν στις δικές τους βάσεις δεδομένων αυτό, "περιορισμένος από πνευματικά δικαιώματα, δεν μπορούσα να μάθω νέο περιεχόμενο κειμένου και επηρεάστηκε επίσης το μεταφραστικό αποτέλεσμα."

εκτός από τρίτες εταιρείες εξωτερικής ανάθεσης, μεγάλοι κατασκευαστές έχουν επίσης δημιουργήσει τις δικές τους βάσεις δεδομένων.

για παράδειγμα, οι βάσεις δεδομένων της baidu διανέμονται σε πόλεις μη πρώτης βαθμίδας όπως η nanchang, η yangquan, η taiyuan, η guizhou κ.λπ., και για να ολοκληρωθεί η συλλογή σχολιασμών δεδομένων, ανάγνωσης διαλέκτων και άλλων δεδομένων σε αυτές τις πόλεις, χρειάζεται μόνο να στρατολογήστε μερικούς τοπικούς φοιτητές που μπορούν να χειριστούν υπολογιστές. ο μηνιαίος μισθός είναι συνήθως μεταξύ 3.000 και 5.000 γιουάν.

ωστόσο, σε σύγκριση με τους μεγάλους κατασκευαστές που είναι πρόθυμοι να ξοδέψουν χρήματα, είναι πολύ πιο δύσκολο για τα μεγάλα μοντέλα τίγρεις να αποκτήσουν δεδομένα υψηλής ποιότητας.

"τα βασικά δεδομένα υψηλής ποιότητας κλειστού κώδικα έχουν συχνά μονοπωληθεί από μεγάλες εταιρείες. οι νεοσύστατες εταιρείες τεχνητής νοημοσύνης, ακόμη και οι τέσσερις τίγρεις της τεχνητής νοημοσύνης, ενδέχεται να έχουν πρόσβαση μόνο σε οριακά δεδομένα."ο leo, υπάλληλος αλγορίθμων από έναν μεγάλο κατασκευαστή μοντέλων, είπε στην alphabet.

δεδομένου ότι τα δεδομένα υψηλής ποιότητας μπορούν να βελτιώσουν σημαντικά την απόδοση του μοντέλου, εκτός από τα δημόσια δεδομένα ανοιχτού κώδικα, οι μεγάλοι κατασκευαστές μοντέλων χρειάζονται δεδομένα υψηλότερης ποιότητας για να ολοκληρώσουν την εκπαίδευση προκειμένου να επιτύχουν επανάληψη τεχνολογίας. ωστόσο, αυτά τα δεδομένα ελέγχονται συχνά από μεγάλες εταιρείες. για παράδειγμα, τα εγχώρια δεδομένα ειδήσεων ελέγχονται από μεγάλες εταιρείες όπως η tencent και η byte, ενώ στο εξωτερικό ελέγχονται από την common crawl, την gdelt, την the pile κ.λπ.

στο εξωτερικό, ακόμη και το youtube ανακοίνωσε στα τέλη ιουνίου ότι θα παράσχει συμφωνίες αδειοδότησης σε κορυφαίες δισκογραφικές εταιρείες με αντάλλαγμα τη μουσική που προστατεύεται από πνευματικά δικαιώματα που θα χρησιμοποιείται για εκπαίδευση. το openai έχει συνάψει συμφωνίες επί πληρωμή με εκδότες ειδήσεων όπως οι politico, the atlantic, time και financial times για να χρησιμοποιεί και να παραθέτει το ειδησεογραφικό τους υλικό.

όταν τα βασικά δεδομένα ελέγχονται κυρίως εντός των «κομμάτων του καναλιού», όπως οι εταιρείες όπως η tencent, η byte και η meta, τα βασικά δεδομένα χρηστών έχουν διαιρεθεί ήδη από την εποχή του διαδικτύου για κινητά οι τίγρεις της τεχνητής νοημοσύνης πρέπει πρώτα να πληρώσουν ένα τεράστιο χρηματικό ποσό.

για τους κατασκευαστές, στο δεύτερο μισό της επιχειρηματικότητας των μεγάλων μοντέλων, η «ψευδαίσθηση των μεγάλων δεδομένων» είναι επίσης ένας από τους λόγους για τους οποίους τα μεγάλα μοντέλα αποτυγχάνουν συλλογικά να προσδιορίσουν εάν το 9.11 ή το 9.9 είναι μεγαλύτερο.

όταν η alphabet εισήγαγε "ένα μικρό κορίτσι που κρατούσε μια γάτα στην αγκαλιά της" στο conch ai του minimax, χρειάστηκαν 2 λεπτά για να δημιουργηθεί ένα βίντεο 6 δευτερολέπτων τα δάχτυλα του μικρού κοριτσιού που κρατούσε τη γάτα ήταν πλούσια σε λεπτομέρειες μια γάτα ragdoll.

αντιμέτωπος με τα αποτελέσματα που δημιουργήθηκαν, ο υπάλληλος μοντέλων βίντεο της minimax εξήγησε: «αυτό συμβαίνει επειδή τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση του μεγάλου μοντέλου δεν περιλαμβάνουν γάτες ragdoll στις εικόνες δέσμευσης γάτας».

όταν το περιεχόμενο που δημιουργείται από το μοντέλο δεν συνάδει με τα πραγματικά γεγονότα ή τα στοιχεία του χρήστη, δηλαδή, το μεγάλο μοντέλο αποκτά παραισθήσεις και αρχίζει να "μιλάει ανοησίες".για μεγάλους κατασκευαστές μοντέλων που είναι πρόθυμοι για νέους χρήστες, το φαινόμενο παραγωγής προφανώς καθορίζει εάν το προϊόν έχει την ευκαιρία να βγει από τον κύκλο.

"η εντολή εισαγωγής ήταν η εξαγωγή όλων των ψυχαγωγικών ειδήσεων τον αύγουστο. ως αποτέλεσμα, η τεχνητή νοημοσύνη δημιούργησε το περιεχόμενο ψυχαγωγικών ειδήσεων τον αύγουστο του 2019, όταν χρησιμοποιούσε ένα προϊόν μοντέλου μεγάλου κεφαλιού, ο πιστός χρήστης kong fang έπιασε το ai." ανοησίες" αρκετές φορές. τη στιγμή της "ομιλίας", είτε συνέταξε παραπομπές που δεν υπήρχαν καθόλου, είτε δεν μπόρεσε να κατανοήσει νέες έννοιες τα τελευταία δύο χρόνια, γεγονός που έκανε τον kong fang να έχει κρίση εμπιστοσύνης στα μεγάλα μοντέλα .

τώρα, ο kong fang θα χρησιμοποιήσει 2-3 μεγάλα μοντέλα από διαφορετικούς κατασκευαστές για να "τρέξει" το ίδιο πρόβλημα ταυτόχρονα, και στη συνέχεια θα συγκρίνει βασικές πληροφορίες όπως ο χρόνος, η ποσότητα, τα έγγραφα κ.λπ., και θα το επιβεβαιώσει επίσης δύο φορές μέσω των μηχανών αναζήτησης, «τώρα το ai δημιουργεί είναι σαν να τραβάς κάρτες, το αποτέλεσμα είναι ανεξέλεγκτη και είναι εύκολο να είσαι διανοητικά καθυστερημένος», είπε αβοήθητα ο κονγκ φανγκ.

τα δεδομένα υψηλής ποιότητας μπορεί σταδιακά να εξαντληθούν για να λυθεί το πρόβλημα της «ψευδής του μεγάλου μοντέλου», είναι προφανώς κρίσιμο να χρησιμοποιήσουμε ποια δεδομένα θα «τροφοδοτήσουμε» το μεγάλο μοντέλο.

ένα άτομο κοντά στην baidu είπε στην alphabet ότι οι μεγάλοι κατασκευαστές μοντέλων θα αγοράζουν δεδομένα απευθείας μέσω τρίτων εταιρειών, κάτι που εξοικονομεί χρόνο και προσπάθεια, αλλά δεν είναι "εύκολο", επειδή η ποιότητα των αγορασμένων δεδομένων, είτε πρόκειται για κείμενο, εγγραφή ή βίντεο, είναι άψογος.

για όσους αναπτύσσουν ενεργά μοντέλα μεγάλων κεφαλών για πελάτες b-end, η πιο εξατομικευμένη προσαρμογή μεγάλων μοντέλων για έναν συγκεκριμένο πελάτη έχει γίνει η κύρια πηγή εισοδήματος για την επιχείρηση ai των μεγάλων κατασκευαστών σήμερα. αλλά αν θέλετε να εκπαιδεύσετε ένα τέτοιο εξατομικευμένο μοντέλο, πρέπει να το "τροφοδοτήσετε" με δεδομένα φιλτραρισμένα σύμφωνα με υψηλά πρότυπα και ακόμη και να προσαρμόσετε τη ζήτηση δεδομένων με βάση το αποτέλεσμα εκμάθησης του μεγάλου μοντέλου σε διαφορετικά στάδια αγοράζοντας ένα σωρό φωνές μπορείτε να το μάθετε με ένα μεγάλο μοντέλο».

η lin, η οποία έχει εργαστεί ως μεταφραστής τεχνητής νοημοσύνης σε μια εταιρεία δεδομένων τρίτου μέρους, διαπίστωσε επίσης ότι «ως το μέρος που παρέχει τα δεδομένα, η εταιρεία της δεν φαίνεται να ενδιαφέρεται πραγματικά για την ποιότητα της ομιλίας που παράγεται από το μεγάλο μοντέλο».

για την alin, η οποία ειδικεύεται στα γαλλικά, τα ισπανικά και άλλες δευτερεύουσες γλώσσες, χρειάζεται να συγκρίνει τα εφέ παραγωγής 5-6 μεγάλων μοντέλων για τη μετάφραση του δευτερεύοντος γλωσσικού λόγου σε κείμενο για το party a ταυτόχρονα, αλλά χρειάζεται μόνο μια πρόχειρη βαθμολογία τα δημιουργημένα 5 - 6 κείμενα ποιες είναι οι αναλυτικές γλωσσικές διαφορές και πώς μπορούν να βελτιωθούν.

η έλλειψη δεδομένων υψηλής ποιότητας μπορεί να είναι ο λόγος για τον οποίο πολλοί χρήστες λένε ότι "το περιεχόμενο που δημιουργείται από οποιοδήποτε μεγάλο μοντέλο είναι σχεδόν το ίδιο" και είναι επίσης ο βασικός λόγος για τον οποίο οι χρήστες "απλώς μεταβαίνουν σε άλλο μεγάλο μοντέλο μόλις χρεώσουν αυτό".

για τους χρήστες, τα εγχώρια μεγάλα μοντέλα που ισχυρίζονται ότι φτάνουν στο openai και συνεχίζουν να επαναλαμβάνονται τεχνικά μπορεί να μην έχουν ουσιαστικές διαφορές, ούτε μπορούν να γίνουν πιστοί χρήστες .

επομένως, ακόμα κι αν είναι χρονοβόρο, επίπονο και δαπανηρό να «γράψετε σενάρια για τεχνητή νοημοσύνη» αυτοπροσώπως, το byte έχει επίσης ακολουθήσει μια νέα πορεία. είναι προβλεπόμενο ότι για να λυθούν τα βασικά ζητήματα της εμπορευματοποίησης και της απόκτησης χρηστών, η «αγορά δεδομένων» με μεγάλο προϋπολογισμό μπορεί να γίνει το νέο σημείο ανταγωνισμού για τους μεγάλους κατασκευαστές μοντέλων.

(alin, kong fang και zhang xue είναι ψευδώνυμα στο άρθρο)

νέα

τα δεδομένα τεχνητής νοημοσύνης είναι ελλιπή, οι μεγάλοι κατασκευαστές κοιτάζουν τους φθηνούς νέους

εισαγωγή

τα στοιχεία επικοινωνίας μου