τα στοιχεία επικοινωνίας μου
ταχυδρομείο[email protected]
2024-09-30
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
πηγή丨chuangyebang (αναγνωριστικό: ichuangyebang)
συγγραφέας 丨juny
συντάκτης |
πηγή εικόνας 丨bloomberg
στο showplace plaza του σαν φρανσίσκο, ένα εμπορικό κτίριο που κάποτε ανήκε στην airbnb καλωσόρισε πρόσφατα έναν νέο ιδιοκτήτη. σε μια εποχή που οι περισσότερες εταιρείες τεχνολογίας συρρικνώνουν τις δραστηριότητές τους, η scale ai, μια εταιρεία σχολιασμού δεδομένων τεχνητής νοημοσύνης που ιδρύθηκε από κινέζους γεννημένους μετά το 1995, νοίκιασε ένα γραφείο περίπου 180.000 τετραγωνικών ποδιών στο κέντρο του σαν φρανσίσκο με ένα κύμα χεριών.
πριν από λίγο καιρό, η scale ai ολοκλήρωσε τον τελευταίο γύρο χρηματοδότησης 1 δισεκατομμυρίου δολαρίων ηπα, με αποτίμηση 13,8 δισεκατομμυρίων δολαρίων, η οποία διπλασιάστηκε από τον προηγούμενο γύρο των 7,3 δισεκατομμυρίων δολαρίων ηπα. σε αυτόν τον γύρο χρηματοδότησης f με επικεφαλής το κορυφαίο ταμείο της silicon valley accel, εκτός από τους υπάρχοντες επενδυτές όπως η yc και η nvidia, προστέθηκε επίσης μια μακρά λίστα νέων επενδυτών, όπως: amazon, meta, amd, qualcomm, cisco, intel, qualcomm, κ.λπ., με έως και 22 συμμετέχοντες φορείς.
τα περισσότερα από τα σημεία εκκίνησης αυτών των γιγάντων για επενδύσεις στο scale ai είναι παρόμοια – είναι βασικά οι πελάτες του scale ai. με την ταχεία ανάπτυξη της τεχνητής νοημοσύνης, η επισήμανση δεδομένων, μια φαινομενικά απλή, βαρετή, έντασης εργασίας και χαμηλού ορίου επιχείρησης, έχει μετατραπεί σε μια μεγάλη επιχείρηση βήμα προς βήμα από την scale ai.
ai "blue collar factory"
την περασμένη χρονική περίοδο, η nvidia είναι αναμφίβολα η εταιρεία που αναφέρθηκε περισσότερο σε ό,τι αφορά τα «φτυάρια πώλησης ai». αλλά αυτό που πολλοί άνθρωποι δεν γνωρίζουν είναι ότι η scale ai παίζει τον ίδιο ρόλο. όπως όλοι γνωρίζουμε, η υπολογιστική ισχύς, οι αλγόριθμοι και τα δεδομένα αποτελούν τους τρεις πυλώνες της τεχνητής νοημοσύνης η nvidia καταλαμβάνει την κορυφή της υπολογιστικής ισχύος της τεχνητής νοημοσύνης και η scale ai είναι επί του παρόντος ο κύριος πάροχος υπηρεσιών που παρέχει υποστήριξη δεδομένων για την τεχνητή νοημοσύνη.
η scale ai ιδρύθηκε το 2016. ιδρυτής της είναι ο κινέζος alexandr wang, ο οποίος γεννήθηκε το 1997. ήταν μόλις 19 ετών όταν ίδρυσε την εταιρεία και μόλις είχε ολοκληρώσει την πρώτη του χρονιά στο mit. όταν ιδρύθηκε η scale, επικεντρώθηκε κυρίως στον σχολιασμό δεδομένων τεχνητής νοημοσύνης η βασική της δραστηριότητα είναι να βοηθά τις επιχειρήσεις να συλλέγουν, να καθαρίζουν, να σχολιάζουν και να διαχειρίζονται μεγάλης κλίμακας δεδομένα υψηλής ποιότητας, προκειμένου να εκπαιδεύουν και να βελτιστοποιούν μοντέλα μηχανικής εκμάθησης.
μάλιστα, πριν από την άνοδο του scale ai, ο σχολιασμός δεδομένων βρισκόταν στην πραγματικότητα σε «οριακή» θέση στον τομέα της τεχνητής νοημοσύνης για μεγάλο χρονικό διάστημα. ο λεγόμενος σχολιασμός δεδομένων αναφέρεται στη διαδικασία προσθήκης δομημένων πληροφοριών σε ακατέργαστα δεδομένα όπως εικόνες, κείμενο, βίντεο ή ήχος, έτσι ώστε τα μοντέλα μηχανικής εκμάθησης να μπορούν να κατανοήσουν και να μάθουν από αυτά τα δεδομένα. ακούγεται περίπλοκο; στην πραγματικότητα, αυτό είναι κάτι που μπορεί να κάνει ακόμη και ένας μαθητής του δημοτικού σχολείου, για παράδειγμα, σας δίνω μια εικόνα και σας ζητώ να σημειώσετε τους πεζούς, τα οχήματα, τα κτίρια κ.λπ. στην εικόνα και σας ζητά να σημειώσετε ποια θαυμαστικά και ποια είναι ερωτήσεις.
πηγή: shaip
αν και η αρχή είναι απλή, αυτά τα σχολιασμένα δεδομένα είναι απαραίτητα για την ανάπτυξη της τεχνητής νοημοσύνης. τα μοντέλα τεχνητής νοημοσύνης απαιτούν μεγάλο αριθμό σχολιασμένων δεδομένων για εκμάθηση, προκειμένου να έχουν λειτουργίες όπως η αναγνώριση, η ταξινόμηση και η πρόβλεψη.
ωστόσο, ο πονοκέφαλος για πολλές εταιρείες τεχνητής νοημοσύνης είναι ότι, παρόλο που ορισμένα αυτοματοποιημένα εργαλεία μπορούν να επιταχύνουν μέρος της διαδικασίας σχολιασμού, προκειμένου να ληφθούν δεδομένα σχολιασμού υψηλής ποιότητας, υψηλής ακρίβειας, απαιτείται ακόμη μεγάλος όγκος χειρωνακτικής εργασίας για την επεξεργασία, την επισήμανση και την επισήμανση και επαληθεύστε τα δεδομένα. ειδικά σε τομείς με υψηλές απαιτήσεις ακρίβειας, όπως ιατρική απεικόνιση, αυτόνομη οδήγηση ή στρατιωτικές εφαρμογές, η εσφαλμένη επισήμανση μπορεί να οδηγήσει σε σοβαρές συνέπειες. εξαιτίας αυτού, ο σχολιασμός δεδομένων θεωρείται επιχείρηση έντασης εργασίας και πολλές εταιρείες δεν επιθυμούν και δεν έχουν την ενέργεια να το διαχειριστούν μόνες τους, με αποτέλεσμα η διαδικασία λήψης σχολιασμένων δεδομένων να είναι χρονοβόρα και δαπανηρή.
η scale ai ανέλαβε αυτή τη «σκληρή δουλειά». η πρώιμη τοποθέτηση της scale ai είναι να δημιουργήσει μια αποτελεσματική και ακριβή πλατφόρμα σχολιασμού συνδυάζοντας την αυτοματοποιημένη τεχνολογία και τον ανθρώπινο έλεγχο για να βοηθήσει τις επιχειρήσεις να επεξεργάζονται γρήγορα και να σχολιάζουν σύνολα δεδομένων μεγάλης κλίμακας. το επιχειρηματικό της μοντέλο είναι πολύ απλό: έρχεται σε επαφή με εταιρείες με ανάγκες επισήμανσης, εκτελεί απλή προεπεξεργασία και καθαρισμό των δεδομένων και, στη συνέχεια, τα αναθέτει σε εξωτερικούς εργαζόμενους στην αφρική, τη νοτιοανατολική ασία κ.λπ. για την επισήμανση των δεδομένων.
το 2017, η scale ai ίδρυσε την remotasks ως εσωτερική εξωτερική ανάθεση σε βάση κομμάτι-κομμάτι, και το εισόδημα για μια μόνο κλήση είναι τόσο χαμηλό όσο μερικά σεντς. κάτω από ένα τέτοιο μοντέλο «παγκόσμιου εργοστασίου», το μικτό περιθώριο κέρδους της scale ai μπορεί να παραμείνει πάνω από το 65% για μεγάλο χρονικό διάστημα.
χτύπησε κάθε ευκαιρία
αν και ο σχολιασμός δεδομένων φαίνεται να είναι μια επιχείρηση χαμηλού ορίου, ήταν σχεδόν κενό στην αγορά κατά τη διάρκεια της "ai silent period" γύρω στο 2016. μόνο ορισμένες μεγάλες εταιρείες όπως η google και η amazon είχαν τα δικά τους τμήματα σχολιασμού δεδομένων. η επιτυχία της scale ai οφείλεται σε μεγάλο βαθμό στην ακριβή γνώση αυτής της ευκαιρίας και στην ικανότητά της να εκμεταλλεύεται διάφορες τάσεις στην ανάπτυξη της βιομηχανίας τεχνητής νοημοσύνης τα τελευταία 10 χρόνια.
το πρώτο είναι η αυτόνομη οδήγηση. λίγους μήνες μετά την ίδρυση της scale ai, ανακάλυψαν τη μεγάλης κλίμακας και άκαμπτη ζήτηση για σχολιασμό δεδομένων στον τομέα της αυτόνομης οδήγησης. η ανάπτυξη της τεχνολογίας αυτόνομης οδήγησης βασίζεται σε μεγάλο αριθμό δεδομένων σχολιασμού υψηλής ακρίβειας, όπως δεδομένα εικόνας σκηνών, πεζών και άλλων αντικειμένων για ολόκληρη την αυτόνομη οδήγηση από την άποψη του κλάδου, περισσότερο από το 90% των σχολιασμών δεδομένων εκείνη την εποχή ήταν κυρίως χειροκίνητα. η scale ai χρησιμοποιεί μια αποτελεσματική πλατφόρμα σχολιασμού δεδομένων και χρησιμοποιεί σχολιασμούς με τη βοήθεια μοντέλου και προεπεξεργασία δεδομένων για να επιταχύνει τη διαδικασία επεξεργασίας δεδομένων, μειώνοντας έτσι σημαντικά το κόστος και τον χρόνο σχολιασμού, προσελκύοντας εταιρείες όπως η waymo και η cruise, που ήταν στο προσκήνιο εκείνη την εποχή, γίνονται πελάτες της και στη συνέχεια αποκτούν σταδιακά ερείσματα στον τομέα του σχολιασμού δεδομένων αυτόνομης οδήγησης.
πηγή εικόνας: scale ai
αφού γνώρισε αρχικά επιτυχία στον τομέα της αυτόνομης οδήγησης, η scale ai άρχισε να εισέρχεται πλήρως στην αγορά aiaas (ai ως υπηρεσία). επεκτείνεται από την απλή επισήμανση δεδομένων έως τις υπηρεσίες δεδομένων, παρέχοντας λύσεις πλήρους διαδικασίας από την επισήμανση και τη διαχείριση δεδομένων, την εκπαίδευση και αξιολόγηση μοντέλων έως την ανάπτυξη και ανάπτυξη εφαρμογών τεχνητής νοημοσύνης.
επιπλέον, για να αντιμετωπίσει την πρόκληση των ανεπαρκών δεδομένων σε ορισμένους κλάδους, το scale ai επεκτείνεται επίσης προς τα κάτω στη δημιουργία συνθετικών δεδομένων για να βοηθήσει στην εκπαίδευση μοντέλων δημιουργώντας νέα σύνολα δεδομένων από υπάρχοντα δεδομένα. έτσι, τα επόμενα χρόνια, η scale ai αυξήθηκε γρήγορα στον τομέα των δεδομένων και οι πελάτες της επεκτάθηκαν στον ιατρικό τομέα, την εθνική άμυνα, το ηλεκτρονικό εμπόριο, τις κρατικές υπηρεσίες και άλλους τομείς. πάνω από δύο χρόνια μετά την ίδρυσή της, τα έσοδα της scale ai πλησιάζουν τα 50 εκατομμύρια δολάρια.
η scale ai εκμεταλλεύτηκε επίσης με ακρίβεια την ευκαιρία της έκρηξης της γενετικής τεχνητής νοημοσύνης. ήδη από το gpt-2, η scale διεξήγαγε το πρώτο συνεργατικό πείραμα για την ενίσχυση της μάθησης με ανθρώπινη ανατροφοδότηση με το openai και στη συνέχεια επέκτεινε αυτές τις τεχνολογίες στο instructgpt και σε άλλα πεδία. δεδομένου ότι τα μοντέλα παραγωγής τεχνητής νοημοσύνης απαιτούν τεράστια δεδομένα εκπαίδευσης για τη βελτίωση της ακρίβειας και της ποικιλομορφίας του περιεχομένου που δημιουργούν, η εκρηκτική ανάπτυξη των μεγάλων μοντέλων γλώσσας έχει προωθήσει σημαντικά τη ζήτηση ολόκληρης της βιομηχανίας για υψηλής ποιότητας σχολιασμένα δεδομένα άλλες υπηρεσίες παρέχουν την απαραίτητη υποστήριξη δεδομένων για τη δημιουργία τεχνητής νοημοσύνης. επιπλέον, το scale ai βοηθά επίσης τις επιχειρήσεις να δημιουργήσουν γρήγορα προσαρμοσμένα api για να μειώσουν από μόνες τους την πολυπλοκότητα και το κόστος των μοντέλων εκπαίδευσης.
πηγή εικόνας: scale ai
για τη γενετική τεχνητή νοημοσύνη, η scale έχει κυκλοφορήσει επί του παρόντος μια υπηρεσία πλατφόρμας πλήρους διαδικασίας, συμπεριλαμβανομένης της πλατφόρμας εργαλείων προγραμματιστών scale spellbook, του προϊόντος συνθετικών δεδομένων scale synthetic, της πλατφόρμας genai σε επίπεδο επιχείρησης κ.λπ. ο στόχος είναι να επιτραπεί στις επιχειρήσεις να έχουν αρκετά δεδομένα στο κάθε σενάριο για να υποστηρίξει την εκπαίδευση μοντέλων, με τα μοναδικά πλεονεκτήματά της στον τομέα των δεδομένων, το scale ai έχει σημειώσει αύξηση πελατών τα τελευταία δύο χρόνια, συμπεριλαμβανομένων κολοσσών όπως το openai, το meta, το aws και η nvidia, καθώς και οι αναδυόμενοι μονόκεροι όπως cohere και adept. και πολλοί από αυτούς έγιναν επίσης επενδυτές στο scale ai σε αυτόν τον γύρο χρηματοδότησης.
γιατί η scale ai διαπερνά
σχετικά με την άνοδο της τεχνητής νοημοσύνης της κλίμακας, πολλοί άνθρωποι έχουν ερωτήσεις για μια τέτοια βιομηχανία έντασης εργασίας στην τεχνητή νοημοσύνη, η κίνα φαίνεται να έχει ένα έμφυτο πλεονέκτημα. σε γενικές γραμμές, υπάρχουν δύο κύριοι παράγοντες πίσω από αυτό, ο ένας είναι ο κλάδος και ο άλλος η χρηματοδότηση.
πριν από τη γενετική έκρηξη της τεχνητής νοημοσύνης, η εγχώρια ανάπτυξη τεχνητής νοημοσύνης ήταν κάποτε ηγετική στις εφαρμογές σκηνών η επιχείρηση σχολιασμού δεδομένων άρχισε να αναπτύσσεται πολύ νωρίς, αλλά δεν διαμορφώθηκε σε μεγάλη κλίμακα. αν και πολλές κορυφαίες εταιρείες έχουν δημιουργήσει τμήματα σχολιασμού δεδομένων, εξυπηρετούν κυρίως τη δική τους επιχείρηση αντί να επιδιώκουν να αντιστοιχίσουν δεδομένα με πόρους σε διάφορους κλάδους. ταυτόχρονα, ακριβώς λόγω του δημογραφικού μερίσματος της χώρας, το κόστος απόκτησης δεδομένων με ετικέτα είναι χαμηλό και οι εταιρείες δεν έχουν κανένα κίνητρο να υιοθετήσουν τεχνολογικές πλατφόρμες. είναι κατανοητό ότι για μεγάλο χρονικό διάστημα, οι τιμές στον εγχώριο κλάδο σχολιασμού δεδομένων ήταν πολύ διαφανείς. οι ωρομίσθιοι είναι γενικά γύρω στα 10-25 rmb και οι περισσότεροι δεν έχουν ακαδημαϊκά προσόντα.
πηγή: απευθείας πρόσληψη από τον boss
συγκριτικά, το κόστος εργασίας στις ηνωμένες πολιτείες είναι υψηλό στο linkedin, στο indeed και σε άλλες πλατφόρμες, οι περισσότερες από τις ωριαίες αμοιβές που επισημαίνονται με δεδομένα είναι μεταξύ 30 και 200 δολαρίων ηπα ζητήματα παραγωγής δεδομένων ή προμήθεια σχετικών υπηρεσιών.
από την άποψη του περιβάλλοντος χρηματοδότησης, η εγχώρια αγορά σχολιασμών δεδομένων βρισκόταν πάντα στην άκρη της χρηματοδότησης στον τομέα της τεχνητής νοημοσύνης. γύρω στο 2021, η έρευνα εκτιμά ότι το μέγεθος ολόκληρης της αγοράς σχολιασμών δεδομένων της κίνας είναι μόνο 4,3 δισεκατομμύρια γιουάν και θα αυξηθεί στα 5,1 δισεκατομμύρια γιουάν το 2022. αυτός ο αριθμός αναμφίβολα δεν αξίζει να αναφερθεί σε σύγκριση με τα τρισεκατομμύρια κλίμακας ολόκληρης της αγοράς τεχνητής νοημοσύνης και έχει επίσης προκαλέσει δυσκολίες χρηματοδότησης για τις εταιρείες σχολιασμού δεδομένων. το 2021, όταν η scale ai ολοκλήρωσε τη χρηματοδότηση της series e ύψους 325 εκατομμυρίων δολαρίων ηπα και η αποτίμησή της έφτασε τα 7,3 δισεκατομμύρια δολάρια, οι περισσότερες παρόμοιες νεοφυείς επιχειρήσεις στην κίνα εξακολουθούν να βρίσκονται στο γύρο της σειράς α.
ο λόγος για τον οποίο η εγχώρια κλίμακα ήταν τόσο μικρή πριν ήταν επειδή απλώς ελήφθη υπόψη μόνο η πτυχή της επισήμανσης. στην πραγματικότητα, οι υπηρεσίες δεδομένων πλήρους διεργασίας, όπως η διαχείριση δεδομένων, η αξιολόγηση δεδομένων και η σύνθεση δεδομένων που προέρχονται από τον σχολιασμό δεδομένων είναι το μέρος προστιθέμενης αξίας αυτού του κλάδου.
όσον αφορά τη σημασία των δεδομένων για την ανάπτυξη μεγάλων γλωσσικών μοντέλων, ο alex wang, ο ιδρυτής της scale ai, είπε σε μια πρόσφατη συνέντευξη ότι οι άνθρωποι έχουν εξαντλήσει όλα τα δεδομένα στο διαδίκτυο και θέλουν να αναπτύξουν τεχνητή νοημοσύνη πιο ισχυρή από το gpt-4.5. τότε πρέπει να κατασκευαστούν δεδομένα αιχμής. τα λεγόμενα "δεδομένα αιχμής" αναφέρονται σε δεδομένα που σχετίζονται στενά με σενάρια εφαρμογών και μπορούν να αντικατοπτρίζουν τις τελευταίες τάσεις και αλλαγές έγκαιρα. συχνά περιέχει μεγάλο αριθμό μακροχρόνιων ή σπάνιων σεναρίων βελτίωση της απόδοσης της τεχνητής νοημοσύνης σε άτυπες καταστάσεις και προώθηση της τεχνητής νοημοσύνης.
καθώς η τεχνητή νοημοσύνη αναπτύσσεται σε βάθος, η μελλοντική εκπαίδευση δεδομένων πρέπει να συνδυάζεται περισσότερο με συγκεκριμένες εργασίες και συγκεκριμένα σενάρια εφαρμογών, επομένως, είναι επίσης απαραίτητο να εξορύξουμε και να παράγουμε περισσότερα νέα και διαφοροποιημένα δεδομένα η εστίαση της εργασίας μετά τη χρηματοδότηση σε δολάρια ηπα έχει ανοίξει περαιτέρω τα φανταστικά όρια του σχολιασμού των δεδομένων.