2024-09-30
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
lähde丨chuangyebang (id: ichuangyebang)
kirjailija丨juny
toimittaja hai yao
kuvan lähde 丨 bloomberg
san franciscon showplace plazassa kerran airbnb:lle kuulunut liikerakennus sai äskettäin uuden omistajan tervetulleeksi. aikana, jolloin useimmat teknologiayritykset supistavat liiketoimintaansa, vuoden 1995 jälkeen syntyneiden kiinalaisten perustama tekoälyn datamerkintäyritys scale ai vuokrasi noin 180 000 neliömetrin toimiston san franciscon keskustasta käsien aaltoilulla.
ei kauan sitten scale ai sai päätökseen viimeisimmän 1 miljardin dollarin rahoituskierroksensa, jonka arvo oli 13,8 miljardia dollaria, mikä kaksinkertaistui edellisestä 7,3 miljardin dollarin kierroksesta. tähän piilaakson huippurahaston accelin johtamaan f-rahoituskierrokseen on lisätty olemassa olevien sijoittajien, kuten yc:n ja nvidian, lisäksi pitkä lista uusia sijoittajia, mukaan lukien: amazon, meta, amd, qualcomm, cisco, intel, qualcomm jne., jossa on jopa 22 osallistuvaa laitosta.
suurin osa näistä jättiläisistä scale ai:hen sijoittamisen lähtökohdista on samankaltainen – he ovat pohjimmiltaan scale ai:n asiakkaita. tekoälyn nopean kehityksen myötä scale ai on askel askeleelta muuttanut datamerkinnästä, joka on näennäisesti yksinkertainen, tylsä, työvoimavaltainen ja matalan kynnyksen liiketoiminta, suureksi liiketoiminnaksi.
ai "blue collar factory"
viime aikoina nvidia on epäilemättä eniten mainittu yritys, kun kyse on "ai-myynnin ai". mutta monet ihmiset eivät tiedä, että scale ai näyttelee samaa roolia. kuten me kaikki tiedämme, laskentateho, algoritmit ja data muodostavat tekoälyn kolme pilaria nvidialla on tekoälyn laskentatehon huippu, ja scale ai on tällä hetkellä tärkein palveluntarjoaja, joka tarjoaa tekoälyä.
scale ai perustettiin vuonna 2016. sen perustaja on kiinalainen alexandr wang, joka syntyi vuonna 1997. hän oli vain 19-vuotias perustaessaan yrityksen ja oli juuri suorittanut fuksivuoden mit:ssä. kun scale perustettiin, se keskittyi pääasiassa tekoälyn datamerkintöihin. sen ydinliiketoimintana on auttaa yrityksiä keräämään, puhdistamaan, merkitsemään ja hallitsemaan suuren mittakaavan korkealaatuista dataa koneoppimismallien kouluttamiseksi ja optimoimiseksi.
itse asiassa ennen scale ai:n nousua datamerkinnät olivat itse asiassa olleet "marginaalissa" tekoälyn alalla pitkään. ns. datamerkintä viittaa prosessiin, jossa strukturoitua tietoa lisätään raakadataan, kuten kuviin, tekstiin, videoihin tai ääneen, jotta koneoppimismallit voivat ymmärtää näitä tietoja ja oppia niistä. kuulostaako monimutkaiselta? mutta itse asiassa tämä on jotain, mitä jopa peruskoulun oppilas voi tehdä esim. annan sinulle kuvan ja pyydän sinua merkitsemään kuvaan jalankulkijat, ajoneuvot, rakennukset jne. annan sinulle palan tekstiä ja pyydä sinua merkitsemään, mitkä huudahdukset ja mitkä ovat kysymyksiä. osa äänestäsi voidaan merkitä tunteella tai puhujan identiteetillä.
lähde: shaip
vaikka periaate on yksinkertainen, nämä selostetut tiedot ovat välttämättömiä tekoälyn kehittämiselle. ai-mallit vaativat paljon annotoitua dataa oppimiseen, jotta niillä on toimintoja, kuten tunnistus, luokittelu ja ennustaminen.
mutta monien tekoälyyritysten päänsärky on se, että vaikka jotkin automatisoidut työkalut voivat nopeuttaa osaa merkintäprosessista, korkealaatuisen ja erittäin tarkan merkintädatan saamiseksi tarvitaan silti paljon manuaalista työtä käsittelyyn, merkitsemiseen ja merkitsemiseen. tarkista tiedot. etenkin aloilla, joilla on korkeat tarkkuusvaatimukset, kuten lääketieteellisessä kuvantamisessa, autonomisessa ajamisessa tai sotilaallisissa sovelluksissa, väärä merkintä voi johtaa vakaviin seurauksiin. tämän vuoksi tietojen annotointia pidetään työvoimavaltaisena liiketoimintana, ja monet yritykset eivät halua eikä heillä ole energiaa hallita sitä itse, minkä seurauksena huomautusten tietojen hankkiminen on aikaa vievää ja kallista.
scale ai otti tämän "kovan työn" haltuun. scale ai:n varhainen paikannus on luoda tehokas ja tarkka merkintäalusta yhdistämällä automatisoitu tekniikka ja ihmisen tarkastelu auttaakseen yrityksiä nopeasti käsittelemään ja merkitsemään suuria tietojoukkoja. sen liiketoimintamalli on hyvin yksinkertainen: se ottaa yhteyttä merkintätarpeisiin liittyviin yrityksiin, suorittaa tietojen yksinkertaisen esikäsittelyn ja puhdistuksen ja ulkoistaa sen sitten afrikassa, kaakkois-aasiassa jne. oleville työntekijöille tietojen merkitsemiseksi.
vuonna 2017 scale ai perusti remotasksin sisäiseksi ulkoistustoimistokseen. se on perustanut kymmeniä instituutioita keniaan, filippiineille, venezuelaan ja muualle ja kouluttanut tuhansia datan kirjoittajia kaikkialla kappaleittain, ja yhden puhelun tulot ovat vain muutama sentti. monet sopimustyöntekijät ansaitsevat jopa alle 1 dollarin tunnissa. tällaisessa "globaalin tehtaan" mallissa scale ai:n bruttokate voi pysyä yli 65 prosentissa pitkään.
tartu jokaiseen tilaisuuteen
vaikka datamerkintä näyttää olevan matalan kynnyksen liiketoimintaa, se oli melkein tyhjä markkinoilla "ai-hiljaisen ajanjakson" aikana noin 2016. vain joillakin suurilla yrityksillä, kuten googlella ja amazonilla, oli omat datamerkintäosastonsa. scale ai:n menestys johtuu suurelta osin sen tarkasta näkemyksestä tästä mahdollisuudesta ja sen kyvystä tarttua useisiin trendeihin tekoälyteollisuuden kehityksessä viimeisen 10 vuoden aikana.
ensimmäinen on autonominen ajo. muutama kuukausi scale ai:n perustamisen jälkeen he havaitsivat laajamittaisen ja jäykän kysynnän datamerkinnöille autonomisen ajamisen alalla. autonomisen ajotekniikan kehitys perustuu suureen määrään erittäin tarkkaa merkintätietoa, kuten kuvadataa tiekohtauksista, jalankulkijoista ja muista kohteista. autoyritykset tarvitsevat kymmeniä tuhansia tunteja videodataa annotointia varten harjoittaakseen ja tarkistaakseen algoritmejaan mitä tulee koko autonomiseen ajamiseen. toimialan näkökulmasta yli 90 % datamerkinnöistä oli tuolloin pääasiassa manuaalista. scale ai käyttää tehokasta tietojen merkintäalustaa ja malli-avusteista merkintää ja tietojen esikäsittelyä nopeuttaakseen tietojenkäsittelyprosessia, mikä vähentää merkittävästi merkintöjen kustannuksia ja aikaa ja houkuttelee yrityksiä, kuten waymo ja cruise, jotka olivat tuolloin parrasvaloissa. tulee sen asiakkaiksi ja saa sitten vähitellen jalansijaa autonomisten ajotietojen merkintöjen alalla.
kuvan lähde: scale ai
nautittuaan alun perin menestyksestä autonomisen ajamisen alalla, scale ai on alkanut tulla täysimääräisesti aiaas (ai as a service) -markkinoille. se ulottuu yksinkertaisesta datamerkinnästä tietopalveluihin ja tarjoaa täyden prosessin ratkaisuja tiedon merkitsemisestä ja hallinnasta, mallin koulutuksesta ja arvioinnista tekoälysovellusten kehittämiseen ja käyttöönottoon.
lisäksi joidenkin teollisuudenalojen riittämättömän datan aiheuttaman haasteen ratkaisemiseksi scale ai ulottuu myös synteettisen datan luomiseen auttamaan malleja luomalla uusia tietojoukkoja olemassa olevista tiedoista. joten seuraavina vuosina scale ai nousi nopeasti datakentässä, ja sen asiakkaat laajenivat lääketieteen, maanpuolustuksen, sähköisen kaupan, valtion palveluihin ja muille aloille. yli kaksi vuotta perustamisen jälkeen scale ai:n liikevaihto lähestyy 50 miljoonaa dollaria.
scale ai myös tarttui tarkasti generatiivisen tekoälyn räjähdysmäiseen mahdollisuuteen. jo gpt-2:ssa scale suoritti ensimmäisen yhteistyökokeen, joka koski vahvistavaa oppimista ihmisen palautteen avulla openai:n avulla, ja laajensi sitten nämä tekniikat instructgpt:hen ja muille aloille. koska generatiiviset tekoälymallit vaativat valtavia määriä harjoitustietoa luodun sisällön tarkkuuden ja monimuotoisuuden parantamiseksi, suurten kielimallien räjähdysmäinen kasvu on edistänyt suuresti alan kysyntää korkealaatuisille annotoiduille tiedoille palvelut tarjoavat tarvittavan datatuen generatiiviselle tekoälylle. lisäksi scale ai auttaa yrityksiä luomaan nopeasti räätälöityjä sovellusliittymiä, jotka vähentävät koulutusmallien monimutkaisuutta ja kustannuksia.
kuvan lähde: scale ai
generatiivista tekoälyä varten scale on lanseerannut koko prosessin alustapalvelut, mukaan lukien kehittäjätyökalualustan scale spellbook, synteettinen tietotuote scale synthetic, yritystason genai-alusta jne. tavoitteena on, että yrityksillä on riittävästi dataa jokaisessa skenaariossa. tukea mallia scale ai -koulutus, jolla on ainutlaatuisia etuja data-alalla, on nähnyt asiakkaiden määrän kasvun viimeisen kahden vuoden aikana, mukaan lukien jättiläiset, kuten openai, meta, aws ja nvidia, sekä nousevat yksisarviset, kuten cohere ja adept. ja monista heistä tuli myös scale ai:n sijoittajia tällä rahoituskierroksella.
miksi scale ai murtautuu
mitä tulee scale ai: n nousuun, monet ihmiset ihmettelevät, että kiinalla on luontainen etu niin alkuvaiheen ja työvoimavaltaisessa tekoälyssä. yleisesti ottaen tämän taustalla on kaksi päätekijää, toinen on teollisuus ja toinen rahoitus.
ennen generatiivista ai-buumia kotimainen tekoälykehitys oli aikoinaan kärjessä kohtaussovelluksissa datan annotaatioliiketoiminta alkoi kehittyä hyvin varhain, mutta se ei muodostunut laajasti. vaikka monet johtavat yritykset ovat perustaneet tietojen annotaatioosastoja, ne palvelevat pääasiassa omaa liiketoimintaansa sen sijaan, että yrittäisivät sovittaa tietoja eri toimialojen resursseihin. samaan aikaan nimenomaan kotimaisen demografisen osingon vuoksi leimatun tiedon hankintakustannukset ovat alhaiset, eikä yrityksillä ole kannustimia teknologia-alustojen käyttöönotolle. on selvää, että kotimaisen datamerkintäalan hinnat ovat pitkään olleet hyvin läpinäkyviä.
lähde: bossin suoraan palveluksessa
vertailun vuoksi työvoimakustannukset ovat yhdysvalloissa korkeat. linkedinissä, indeedissä ja muilla alustoilla suurin osa osa-aikaisista tuntipalkoista on 30–200 dollaria tietojen tuotantoon liittyvät asiat tai niihin liittyvien palvelujen hankinta.
rahoitusympäristön näkökulmasta kotimainen datamerkintämarkkina on aina ollut tekoälyn rahoituksen reunalla. vuoden 2021 tienoilla kiinan koko datamerkintämarkkinoiden koko on tutkimusten mukaan vain 4,3 miljardia yuania, ja se kasvaa vain 5,1 miljardiin juaniin vuonna 2022. tämä luku on epäilemättä mainitsemisen arvoinen verrattuna koko tekoälymarkkinoiden biljoonien mittakaavaan, ja se on aiheuttanut myös rahoitusvaikeuksia datan annotaatioyrityksille. vuonna 2021, kun scale ai on saanut päätökseen 325 miljoonan dollarin series e -rahoituksen ja sen arvo oli 7,3 miljardia dollaria, useimmat vastaavat startup-yritykset kiinassa ovat edelleen series a -kierroksella.
syy siihen, miksi kotimainen mittakaava oli aiemmin niin pieni, johtui siitä, että vain merkintänäkökohta otettiin huomioon. itse asiassa täyden prosessin datapalvelut, kuten tiedonhallinta, tietojen arviointi ja datamerkinnöistä johdettu datasynteesi, ovat tämän alan lisäarvoa tuottava osa.
mitä tulee datan tärkeyteen suurten kielimallien kehittämisessä, scale ai:n perustaja alex wang sanoi tuoreessa haastattelussa, että ihmiset ovat käyttäneet loppuun kaiken internetin datan ja haluavat kehittää tekoälyä, joka on tehokkaampi kuin gpt-4.5. sitten on rakennettava huippuluokan dataa. ns. "huipputason data" viittaa tietoihin, jotka liittyvät läheisesti sovellusskenaarioihin ja voivat heijastaa viimeisimmät trendit ja muutokset oikea-aikaisesti parantaa tekoälyn suorituskykyä epätyypillisissä tilanteissa ja edistää tekoälyä älykkäiden kykyjen rajat kehittyvät sellaisiin suuntiin kuin monimutkainen päättely ja multimodaalisuus.
tekoälyn kehittyessä tulevaa datakoulutusta on sovitettava paremmin tiettyihin tehtäviin ja erityisiin sovellusskenaarioihin. siksi on myös tarpeen louhia ja tuottaa enemmän uutta ja eriytettyä dataa. tämä on syy scale ai:n nykyiselle kierrokselle yhdysvaltain dollarirahoituksen jälkeisen työn painopiste on avannut edelleen mielikuvituksellisia rajoja datan annotaatiolle.