nachricht

chinesische nach-95-jährige arbeiten für ki-unternehmen und haben einen wert von 13,8 milliarden us-dollar erreicht

2024-09-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

quelle丨chuangyebang (id: ichuangyebang)

autor: june

herausgeber |. hai yao

bildquelle: bloomberg

im showplace plaza in san francisco begrüßte ein geschäftsgebäude, das einst airbnb gehörte, kürzlich einen neuen eigentümer. in einer zeit, in der die meisten technologieunternehmen ihr geschäft verkleinern, mietete scale ai, ein von nach 1995 geborenen chinesen gegründetes datenanmerkungsunternehmen für künstliche intelligenz, mit einer handbewegung ein büro von etwa 180.000 quadratmetern in der innenstadt von san francisco.

vor nicht allzu langer zeit hat scale ai seine jüngste finanzierungsrunde in höhe von 1 milliarde us-dollar abgeschlossen, mit einer bewertung von 13,8 milliarden us-dollar, was einer verdoppelung gegenüber der vorherigen runde von 7,3 milliarden us-dollar entspricht. in dieser f-finanzierungsrunde unter der leitung des führenden silicon-valley-fonds accel kam neben bestehenden investoren wie yc und nvidia auch eine lange liste neuer investoren hinzu, darunter: amazon, meta, amd, qualcomm, cisco, intel, qualcomm usw. mit bis zu 22 teilnehmenden institutionen.

die meisten dieser giganten haben ähnliche ausgangspunkte für investitionen in scale ai – sie sind im grunde die kunden von scale ai. mit der rasanten entwicklung der ki wurde die datenkennzeichnung, ein scheinbar einfaches, langweiliges, arbeitsintensives und niederschwelliges geschäft, durch scale ai schritt für schritt zu einem großen geschäft gemacht.

ki „blue collar factory“

in der vergangenen zeit war nvidia zweifellos das am häufigsten genannte unternehmen, wenn es um „ki, die schaufeln verkauft“ geht. was viele jedoch nicht wissen, ist, dass scale ai die gleiche rolle spielt. wie wir alle wissen, bilden rechenleistung, algorithmen und daten die drei säulen der künstlichen intelligenz. nvidia steht an der spitze der ki-rechenleistung, und scale ai ist derzeit der hauptdienstleister, der datenunterstützung für ki bereitstellt.

scale ai wurde 2016 gegründet. gründer ist der 1997 geborene chinese alexandr wang. er war erst 19 jahre alt, als er das unternehmen gründete, und hatte gerade sein erstes studienjahr am mit abgeschlossen. bei der gründung konzentrierte sich scale hauptsächlich auf die annotation von daten mit künstlicher intelligenz. sein kerngeschäft besteht darin, unternehmen bei der erfassung, bereinigung, kommentierung und verwaltung umfangreicher, hochwertiger daten zu unterstützen, um modelle für maschinelles lernen zu trainieren und zu optimieren.

tatsächlich hatte die datenannotation vor dem aufkommen der scale ai lange zeit eine „marginale“ position im bereich der ki inne. unter der sogenannten datenannotation versteht man den prozess des hinzufügens strukturierter informationen zu rohdaten wie bildern, texten, videos oder audio, damit modelle für maschinelles lernen diese daten verstehen und daraus lernen können. klingt kompliziert? tatsächlich ist dies jedoch etwas, was sogar ein grundschüler tun kann. ich gebe ihnen zum beispiel ein bild und bitte sie, die fußgänger, fahrzeuge, gebäude usw. auf dem bild zu markieren bitten sie sie, zu markieren, welche ausrufe und welche fragen sind. ein teil ihrer stimme kann mit emotionen oder sprecheridentität usw. markiert werden.

quelle: shaip

obwohl das prinzip einfach ist, sind diese annotierten daten für die entwicklung künstlicher intelligenz unverzichtbar. ki-modelle benötigen zum lernen eine große menge annotierter daten, um funktionen wie erkennung, klassifizierung und vorhersage zu erfüllen.

das problem für viele ki-unternehmen besteht jedoch darin, dass einige automatisierte tools zwar einen teil des annotationsprozesses beschleunigen können, für den erhalt qualitativ hochwertiger und hochpräziser annotationsdaten jedoch immer noch ein großer manueller arbeitsaufwand für die verarbeitung, beschriftung und kennzeichnung erforderlich ist überprüfen sie die daten. insbesondere in bereichen mit hohen genauigkeitsanforderungen, wie etwa in der medizinischen bildgebung, beim autonomen fahren oder bei militärischen anwendungen, kann eine falsche kennzeichnung schwerwiegende folgen haben. aus diesem grund gilt die datenannotation als arbeitsintensives geschäft, und viele unternehmen sind nicht bereit und haben nicht die energie, sie selbst zu verwalten, was dazu führt, dass der prozess der beschaffung annotierter daten zeitaufwändig und teuer ist.

scale ai hat diese „harte arbeit“ übernommen. die frühe positionierung von scale ai besteht darin, durch die kombination automatisierter technologie und menschlicher überprüfung eine effiziente und genaue kennzeichnungsplattform zu schaffen, um unternehmen dabei zu helfen, große datensätze schnell zu verarbeiten und zu kennzeichnen. das geschäftsmodell ist sehr einfach: es kontaktiert unternehmen mit kennzeichnungsbedarf, führt eine einfache vorverarbeitung und bereinigung der daten durch und übergibt diese dann an mitarbeiter in afrika, südostasien usw., um die daten zu kennzeichnen.

im jahr 2017 gründete scale ai remotasks als seine interne outsourcing-agentur. das unternehmen hat dutzende institutionen in kenia, auf den philippinen, in venezuela und an anderen orten gegründet und überall dort tausende von datenannotatoren ausgebildet stück für stück, und das einkommen für einen einzelnen anruf beträgt nur ein paar cent. viele vertragsarbeiter verdienen sogar weniger als 1 dollar pro stunde. unter einem solchen „globalen fabrik“-modell kann die bruttogewinnmarge von scale ai für lange zeit über 65 % bleiben.

ergreifen sie jede gelegenheit

obwohl es sich bei der datenannotation offenbar um ein niederschwelliges geschäft handelt, war sie während der „ai silent period“ um 2016 nahezu leer auf dem markt. nur einige große unternehmen wie google und amazon verfügten über eigene abteilungen für datenannotationen. der erfolg von scale ai beruht größtenteils auf der genauen einsicht in diese chance und seiner fähigkeit, mehrere trends in der entwicklung der branche der künstlichen intelligenz in den letzten 10 jahren zu nutzen.

das erste ist das autonome fahren. wenige monate nach der gründung von scale ai entdeckten sie den großen und starren bedarf an datenannotation im bereich des autonomen fahrens. die entwicklung der autonomen fahrtechnologie ist auf eine große menge hochpräziser annotationsdaten angewiesen, beispielsweise bilddaten von straßenszenen, fußgängern und anderen objekten. automobilunternehmen benötigen zehntausende stunden videodaten für die annotation, um ihre algorithmen zu trainieren und zu überprüfen was das gesamte autonome fahren betrifft, so erfolgte aus branchensicht zu diesem zeitpunkt mehr als 90 % der datenannotation hauptsächlich manuell. scale ai nutzt eine effiziente datenannotationsplattform und nutzt modellgestützte annotation und datenvorverarbeitung, um den datenverarbeitungsprozess zu beschleunigen, wodurch annotationskosten und -zeit erheblich reduziert werden, was unternehmen wie waymo und cruise, die damals im rampenlicht standen, anzog zu seinen kunden werden und dann nach und nach im bereich der autonomen fahrdatenannotation fuß fassen.

bildquelle: scale ai

nach anfänglichen erfolgen im bereich des autonomen fahrens hat scale ai damit begonnen, vollständig in den aiaas-markt (ai as a service) einzusteigen. es reicht von der einfachen datenkennzeichnung bis hin zu datendiensten und bietet umfassende prozesslösungen von der datenkennzeichnung und -verwaltung über modellschulung und -bewertung bis hin zur entwicklung und bereitstellung von ki-anwendungen.

um dem problem unzureichender daten in einigen branchen zu begegnen, erstreckt sich scale ai außerdem nachgelagert auf die generierung synthetischer daten, um das trainieren von modellen durch die erstellung neuer datensätze aus vorhandenen daten zu unterstützen. in den folgenden jahren stieg scale ai im datenbereich rasch an und seine kunden expandierten in die bereiche medizin, landesverteidigung, e-commerce, regierungsdienste und andere bereiche. mehr als zwei jahre nach seiner gründung beläuft sich der umsatz von scale ai auf fast 50 millionen us-dollar.

scale ai hat auch die chance der explosionsartigen entwicklung generativer ki genau erkannt. bereits mit gpt-2 führte scale mit openai das erste gemeinsame experiment zum verstärkenden lernen mit menschlichem feedback durch und erweiterte diese technologien dann auf instructgpt und andere bereiche. da generative ki-modelle riesige mengen an trainingsdaten erfordern, um die genauigkeit und vielfalt der generierten inhalte zu verbessern, hat das explosionsartige wachstum großer sprachmodelle die nachfrage der branche nach hochwertigen annotierten daten, die datenannotation, datensynthese und andere integrieren, erheblich gesteigert dienste stellen die notwendige datenunterstützung für generative ki bereit. darüber hinaus unterstützt scale ai unternehmen auch dabei, schnell maßgeschneiderte apis zu generieren, um die komplexität und kosten für das eigene training von modellen zu reduzieren.

bildquelle: scale ai

für generative ki hat scale umfassende plattformdienste eingeführt, darunter die entwicklertoolplattform scale spellbook, das synthetische datenprodukt scale synthetic, die genai-plattform auf unternehmensebene usw. ziel ist es, unternehmen in jedem szenario über genügend daten zu verfügen, um das modell zu unterstützen aufgrund seiner einzigartigen vorteile im datenbereich hat scale ai in den letzten zwei jahren einen anstieg der kundenzahlen verzeichnet, darunter giganten wie openai, meta, aws und nvidia sowie aufstrebende einhörner wie cohere und adept. und viele von ihnen wurden in dieser finanzierungsrunde auch zu investoren von scale ai.

warum scale ai den durchbruch schafft

im hinblick auf den aufstieg der scale-ki fragen sich viele menschen, warum china in einer so vorgelagerten und arbeitsintensiven branche einen angeborenen vorteil hat. im allgemeinen gibt es zwei hauptfaktoren dafür: zum einen die branche und zum anderen die finanzierung.

vor dem boom der generativen ki war die entwicklung der künstlichen intelligenz im inland einst führend bei szenenanwendungen. das datenanmerkungsgeschäft begann sich tatsächlich sehr früh zu entwickeln, bildete jedoch keinen großen umfang. obwohl viele führende unternehmen über eingerichtete abteilungen für datenanmerkungen verfügen, dienen diese hauptsächlich ihrem eigenen geschäft und nicht dem versuch, daten mit ressourcen in verschiedenen branchen abzugleichen. gleichzeitig sind gerade aufgrund der inländischen demografischen dividende die kosten für die beschaffung gekennzeichneter daten niedrig und unternehmen haben keinen anreiz, technologieplattformen einzuführen. es versteht sich, dass die preise in der inländischen datenanmerkungsbranche seit langem sehr transparent sind. die stundenlöhne liegen im allgemeinen bei etwa 10 bis 25 rmb und die meisten verfügen über keinen akademischen abschluss.

quelle: direkt bei boss angestellt

im vergleich dazu sind die arbeitskosten in den usa hoch. auf linkedin, indeed und anderen plattformen liegen die meisten laut daten angegebenen teilzeitlöhne zwischen 30 und 200 us-dollar. dies erfordert objektiv, dass unternehmen über technische lösungen nachdenken perspektive. datenproduktionsprobleme oder beschaffung damit verbundener dienstleistungen.

aus sicht des finanzierungsumfelds stand der inländische datenannotationsmarkt schon immer am rande der finanzierung im ki-bereich. schätzungen zufolge beträgt die größe des gesamten datenanmerkungsmarktes in china im jahr 2021 lediglich 4,3 milliarden yuan und wird bis 2022 lediglich auf 5,1 milliarden yuan anwachsen. diese zahl ist im vergleich zum billionenumfang des gesamten ki-marktes zweifellos nicht der rede wert und hat auch zu finanzierungsschwierigkeiten für datenannotationsunternehmen geführt. im jahr 2021, als scale ai die serie-e-finanzierung in höhe von 325 millionen us-dollar abgeschlossen hat und deren bewertung 7,3 milliarden us-dollar erreicht, befinden sich die meisten ähnlichen startups in china immer noch in der serie-a-runde.

der grund dafür, dass der inländische maßstab früher so klein war, lag darin, dass einfach nur der kennzeichnungsaspekt berücksichtigt wurde. tatsächlich sind prozessübergreifende datendienste wie datenverwaltung, datenauswertung und aus datenannotationen abgeleitete datensynthese der wertschöpfende teil dieser branche.

in bezug auf die bedeutung von daten für die entwicklung großer sprachmodelle sagte alex wang, der gründer von scale ai, kürzlich in einem interview, dass die menschen alle daten im internet erschöpft hätten und eine künstliche intelligenz entwickeln wollten, die leistungsfähiger als gpt-4.5 sei. dann müssen modernste daten erstellt werden. die sogenannten „aktuellen daten“ beziehen sich auf daten, die in engem zusammenhang mit anwendungsszenarien stehen und die neuesten trends und änderungen zeitnah widerspiegeln können. sie enthalten häufig eine große anzahl langfristiger oder seltener szenarien verbesserung der leistung von ki in atypischen situationen und förderung künstlicher intelligenz. die grenzen intelligenter fähigkeiten entwickeln sich in richtungen wie komplexes denken und multimodalität.

da sich die ki immer weiter entwickelt, muss das zukünftige datentraining stärker auf bestimmte aufgaben und anwendungsszenarien abgestimmt werden. daher ist es auch notwendig, mehr neue und differenzierte daten zu gewinnen und zu produzieren. dies ist der grund für die aktuelle runde von 1 milliarde der schwerpunkt der arbeit nach der us-dollar-finanzierung hat die fantasievollen grenzen der datenannotation weiter geöffnet.