nouvelles

travaillant pour des sociétés d'ia, les chinois post-95 ont atteint une valorisation de 13,8 milliards de dollars

2024-09-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

source 丨chuangyebang (id: ichuangyebang)

auteur 丨juny

editeur | hai yao

source de l’image : bloomberg

au showplace plaza de san francisco, un immeuble commercial ayant appartenu à airbnb a récemment accueilli un nouveau propriétaire. à une époque où la plupart des entreprises technologiques réduisent leurs activités, scale ai, une société d'annotation de données d'intelligence artificielle fondée par des chinois nés après 1995, a loué d'un geste de la main un bureau d'environ 180 000 pieds carrés au centre-ville de san francisco.

il n'y a pas si longtemps, scale ai a finalisé sa dernière ronde de financement de 1 milliard de dollars, avec une valorisation de 13,8 milliards de dollars, soit le double par rapport au cycle précédent de 7,3 milliards de dollars. dans ce cycle de financement f mené par accel, le principal fonds de la silicon valley, en plus des investisseurs existants tels que yc et nvidia, une longue liste de nouveaux investisseurs a également été ajoutée, notamment : amazon, meta, amd, qualcomm, cisco, intel, qualcomm, etc., avec jusqu'à 22 institutions participantes.

la plupart des points de départ de ces géants pour investir dans scale ai sont similaires : ils sont essentiellement les clients de scale ai. avec le développement rapide de l'ia, l'étiquetage des données, une activité apparemment simple, ennuyeuse, à forte intensité de main-d'œuvre et à bas seuil, est progressivement transformée en une grande entreprise par scale ai.

ia « usine de cols bleus »

au cours de la dernière période, nvidia est sans aucun doute l'entreprise la plus mentionnée en matière de « pelles de vente d'ia ». mais ce que beaucoup de gens ne savent pas, c’est que scale ai joue le même rôle. comme nous le savons tous, la puissance de calcul, les algorithmes et les données constituent les trois piliers de l'intelligence artificielle. nvidia occupe le sommet de la puissance de calcul de l'ia, et scale ai est actuellement le principal fournisseur de services fournissant un support de données pour l'ia.

scale ai a été fondée en 2016. son fondateur est le chinois alexandr wang, né en 1997. il n'avait que 19 ans lorsqu'il a fondé l'entreprise et venait de terminer sa première année au mit. lorsque scale a été fondée, elle se concentrait principalement sur l'annotation de données d'intelligence artificielle. son activité principale est d'aider les entreprises à collecter, nettoyer, annoter et gérer des données à grande échelle de haute qualité afin de former et d'optimiser des modèles d'apprentissage automatique.

en fait, avant l’essor de scale ai, l’annotation des données occupait depuis longtemps une position « marginale » dans le domaine de l’ia. ce que l'on appelle l'annotation de données fait référence au processus d'ajout d'informations structurées à des données brutes telles que des images, du texte, des vidéos ou de l'audio afin que les modèles d'apprentissage automatique puissent comprendre et apprendre de ces données. cela semble compliqué ? mais en fait, c'est quelque chose que même un élève du primaire peut faire. par exemple, je vous donne une image et je vous demande de marquer les piétons, les véhicules, les bâtiments, etc. vous demande de marquer quelles exclamations et lesquelles sont des questions. un morceau de votre voix peut être étiqueté avec une émotion ou l'identité du locuteur, etc.

source : shaip

bien que le principe soit simple, ces données annotées sont indispensables au développement de l’intelligence artificielle. les modèles d'ia nécessitent une grande quantité de données annotées pour l'apprentissage afin de disposer de fonctions telles que la reconnaissance, la classification et la prédiction.

mais le casse-tête pour de nombreuses entreprises d'ia est que, même si certains outils automatisés peuvent accélérer une partie du processus d'annotation, afin d'obtenir des données d'annotation de haute qualité et de haute précision, une grande quantité de travail manuel est encore nécessaire pour traiter, étiqueter et vérifier les données. en particulier dans les domaines exigeant une grande précision, comme l'imagerie médicale, la conduite autonome ou les applications militaires, un étiquetage incorrect peut entraîner de graves conséquences. pour cette raison, l'annotation des données est considérée comme une activité à forte intensité de main-d'œuvre, et de nombreuses entreprises ne souhaitent pas et n'ont pas l'énergie nécessaire pour la gérer elles-mêmes, ce qui rend le processus d'obtention de données annotées long et coûteux.

scale ai a repris ce « dur travail ». le premier positionnement de scale ai est de créer une plateforme d'étiquetage efficace et précise en combinant technologie automatisée et examen humain pour aider les entreprises à traiter et étiqueter rapidement des ensembles de données à grande échelle. son modèle économique est très simple : il contacte les entreprises ayant des besoins d'étiquetage, effectue un prétraitement et un nettoyage simples des données, puis les sous-traite à des travailleurs en afrique, en asie du sud-est, etc. pour étiqueter les données.

en 2017, scale ai a créé remotasks comme agence d'externalisation interne. elle a créé des dizaines d'institutions au kenya, aux philippines, au venezuela et ailleurs, et a formé des milliers d'annotateurs de données partout dans le monde. la plupart du travail de ces annotateurs est rémunéré. à la pièce, avec des gains aussi bas que quelques centimes par appel, et de nombreux travailleurs contractuels gagnent même moins de 1 dollar de l'heure. dans le cadre d'un tel modèle d'« usine mondiale », la marge bénéficiaire brute de scale ai peut rester longtemps supérieure à 65 %.

saisissez chaque opportunité

bien que l'annotation de données semble être une activité à bas seuil, elle était presque vide sur le marché pendant la « période silencieuse de l'ia » vers 2016. seules certaines grandes entreprises telles que google et amazon disposaient de leur propre service d'annotation de données. le succès de scale ai est en grande partie dû à sa connaissance précise de cette opportunité et à sa capacité à saisir plusieurs tendances du développement de l’industrie de l’intelligence artificielle au cours des 10 dernières années.

le premier est la conduite autonome. quelques mois après la création de scale ai, ils ont découvert la demande rigide et à grande échelle d’annotation de données dans le domaine de la conduite autonome. le développement de la technologie de conduite autonome repose sur une grande quantité de données d'annotation de haute précision, telles que des données d'images de scènes de route, de piétons et d'autres objets. les constructeurs automobiles ont besoin de dizaines de milliers d'heures de données vidéo d'annotation pour entraîner et vérifier leurs algorithmes. quant à l'ensemble de la conduite autonome, du point de vue de l'industrie, plus de 90 % des annotations de données à l'époque étaient principalement manuelles. scale ai utilise une plate-forme d'annotation de données efficace et utilise l'annotation et le prétraitement des données assistés par modèle pour accélérer le processus de traitement des données, réduisant ainsi considérablement les coûts et le temps d'annotation, attirant des entreprises telles que waymo et cruise, qui étaient à l'honneur à l'époque, à devenir ses clients, puis prendre progressivement pied dans le domaine de l'annotation des données de conduite autonome.

source de l'image : échelle ai

après avoir connu un premier succès dans le domaine de la conduite autonome, scale ai a commencé à pénétrer pleinement le marché de l'aiaas (ai as a service). il s'étend du simple étiquetage des données aux services de données, fournissant des solutions complètes depuis l'étiquetage et la gestion des données, la formation et l'évaluation des modèles, jusqu'au développement et au déploiement d'applications d'ia.

en outre, pour relever le défi de l'insuffisance des données dans certains secteurs, scale ai s'étend également en aval à la génération de données synthétiques pour aider à former des modèles en créant de nouveaux ensembles de données à partir de données existantes. ainsi, au cours des années suivantes, scale ai s'est rapidement développé dans le domaine des données et ses clients se sont étendus aux domaines médical, de la défense nationale, du commerce électronique, des services gouvernementaux et d'autres domaines. plus de deux ans après sa création, le chiffre d’affaires de scale ai approche les 50 millions de dollars.

scale ai a également saisi avec précision l’opportunité de l’explosion de l’ia générative. dès gpt-2, scale a mené la première expérience collaborative sur l’apprentissage par renforcement avec feedback humain avec openai, puis a étendu ces technologies à instructgpt et à d’autres domaines. étant donné que les modèles d'ia génératifs nécessitent d'énormes quantités de données de formation pour améliorer la précision et la diversité du contenu généré, la croissance explosive des grands modèles de langage a grandement favorisé la demande de l'industrie pour des données annotées de haute qualité. scale ai intègre l'annotation des données, la synthèse des données et autres. les services fournissent le support de données nécessaire à l’ia générative. en outre, scale ai aide également les entreprises à générer rapidement des api personnalisées afin de réduire elles-mêmes la complexité et le coût des modèles de formation.

source de l'image : échelle ai

pour l'ia générative, scale a lancé des services de plate-forme complets, notamment la plate-forme d'outils de développement scale spellbook, le produit de données synthétiques scale synthetic, la plate-forme genai au niveau de l'entreprise, etc. l'objectif est de permettre aux entreprises de disposer de suffisamment de données dans chaque scénario. pour prendre en charge le modèle formation, avec ses avantages uniques dans le domaine des données, scale ai a connu une augmentation du nombre de clients au cours des deux dernières années, notamment des géants tels que openai, meta, aws et nvidia, ainsi que des licornes émergentes telles que cohere et adept. et nombre d’entre eux sont également devenus investisseurs dans scale ai lors de ce cycle de financement.

pourquoi scale ai perce

concernant l’essor de scale ai, beaucoup de gens se demandent pourquoi la chine semble avoir un avantage inné pour une industrie de l’ia aussi en amont et à forte intensité de main-d’œuvre. d’une manière générale, il y a deux facteurs principaux à l’origine de cela : l’un est l’industrie et l’autre le financement.

avant le boom de l'ia générative, le développement de l'intelligence artificielle nationale était autrefois leader dans les applications de scène. le secteur de l'annotation de données a en fait commencé à se développer très tôt, mais il n'a pas pris une ampleur considérable. bien que de nombreuses entreprises de premier plan aient créé des départements d’annotation de données, elles servent principalement leur propre entreprise plutôt que de chercher à faire correspondre les données avec les ressources de divers secteurs. dans le même temps, précisément en raison du dividende démographique du pays, le coût d’acquisition des données labellisées est faible et les entreprises ne sont pas incitées à adopter des plateformes technologiques. il est entendu que depuis longtemps, les prix dans le secteur national de l'annotation de données sont très transparents. les salaires horaires se situent généralement autour de 10 à 25 rmb et la plupart n'ont aucun diplôme universitaire.

source : directement embauché par boss

en comparaison, le coût du travail aux états-unis est élevé. sur linkedin, indeed et d'autres plateformes, la plupart des salaires horaires à temps partiel indiqués se situent entre 30 et 200 dollars américains. cela oblige objectivement les entreprises à réfléchir à des solutions d'un point de vue technique. perspective.

du point de vue de l'environnement financier, le marché national de l'annotation des données a toujours été à la pointe du financement dans le domaine de l'ia. vers 2021, des recherches estiment que la taille de l'ensemble du marché chinois de l'annotation de données n'est que de 4,3 milliards de yuans et qu'elle n'atteindra que 5,1 milliards de yuans en 2022. ce chiffre ne vaut sans doute pas la peine d’être mentionné par rapport aux milliards de dollars que représente l’ensemble du marché de l’ia, et il a également causé des difficultés de financement pour les sociétés d’annotation de données. en 2021, lorsque scale ai a finalisé un financement de série e de 325 millions de dollars américains et que sa valorisation a atteint 7,3 milliards de dollars américains, la plupart des startups similaires en chine sont toujours dans le cycle de série a.

la raison pour laquelle l'échelle nationale était si petite auparavant était que seul l'aspect étiquetage était simplement pris en compte. en fait, les services de données complets tels que la gestion des données, l'évaluation des données et la synthèse des données dérivées de l'annotation des données constituent la partie à valeur ajoutée de cette industrie.

concernant l'importance des données pour le développement de grands modèles de langage, alex wang, le fondateur de scale ai, a déclaré dans une récente interview que les gens ont épuisé toutes les données sur internet et souhaitent développer une intelligence artificielle plus puissante que gpt-4.5. il faut alors construire des données de pointe. les « données de pointe » font référence à des données étroitement liées aux scénarios d'application et peuvent refléter les dernières tendances et changements en temps opportun. elles contiennent souvent un grand nombre de scénarios à longue traîne ou rares, ce qui contribue à. améliorer les performances de l'ia dans des situations atypiques et promouvoir l'intelligence artificielle. les limites des capacités intelligentes évoluent dans des directions telles que le raisonnement complexe et la multimodalité.

à mesure que l'ia se développe en profondeur, la future formation sur les données doit être davantage adaptée à des tâches spécifiques et à des scénarios d'application spécifiques. par conséquent, il est également nécessaire d'exploiter et de produire davantage de données nouvelles et différenciées. c'est la raison pour laquelle scale ai compte actuellement un milliard de dollars. l'orientation des travaux après le financement en dollars américains a encore ouvert les limites imaginaires de l'annotation des données.