le mie informazioni di contatto
posta[email protected]
2024-09-30
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
fonte丨chuangyebang (id: ichuangyebang)
autore丨juny
editore |.hai yao
fonte immagine丨bloomberg
nella showplace plaza di san francisco, un edificio commerciale che un tempo apparteneva a airbnb ha recentemente accolto un nuovo proprietario. in un momento in cui la maggior parte delle aziende tecnologiche stanno riducendo la propria attività, scale ai, una società di annotazione di dati di intelligenza artificiale fondata da cinesi nati dopo il 1995, ha affittato un ufficio di circa 180.000 piedi quadrati nel centro di san francisco con un gesto di mano.
non molto tempo fa, scale ai ha completato il suo ultimo round di finanziamento da 1 miliardo di dollari, con una valutazione di 13,8 miliardi di dollari, raddoppiata rispetto al round precedente di 7,3 miliardi di dollari. in questo round di finanziamenti f guidato dal principale fondo della silicon valley accel, oltre agli investitori esistenti come yc e nvidia, si è aggiunto anche un lungo elenco di nuovi investitori, tra cui: amazon, meta, amd, qualcomm, cisco, intel, qualcomm, ecc., con un massimo di 22 istituzioni partecipanti.
la maggior parte dei punti di partenza di questi giganti per investire in scale ai sono simili: sono fondamentalmente clienti di scale ai. con il rapido sviluppo dell’intelligenza artificiale, l’etichettatura dei dati, un’attività apparentemente semplice, noiosa, ad alta intensità di manodopera e a bassa soglia, è stata trasformata passo dopo passo in un grande business da scale ai.
ia “fabbrica di colletti blu”
negli ultimi tempi, nvidia è senza dubbio l'azienda più menzionata quando si tratta di "pale che vendono intelligenza artificiale". ma ciò che molte persone non sanno è che l’intelligenza artificiale su scala svolge lo stesso ruolo. come tutti sappiamo, la potenza di calcolo, gli algoritmi e i dati costituiscono i tre pilastri dell’intelligenza artificiale. nvidia occupa il picco della potenza di calcolo dell’intelligenza artificiale e scale ai è attualmente il principale fornitore di servizi che fornisce supporto dati per l’intelligenza artificiale.
scale ai è stata fondata nel 2016. il suo fondatore è il cinese alexandr wang, nato nel 1997. aveva solo 19 anni quando fondò l'azienda e aveva appena completato il suo primo anno al mit. quando è stata fondata scale, si concentrava principalmente sull'annotazione dei dati dell'intelligenza artificiale. il suo core business era aiutare le aziende a raccogliere, pulire, annotare e gestire dati di alta qualità su larga scala al fine di addestrare e ottimizzare i modelli di machine learning.
infatti, prima dell’avvento dell’intelligenza artificiale su scala, l’annotazione dei dati aveva avuto per molto tempo una posizione “marginale” nel campo dell’intelligenza artificiale. la cosiddetta annotazione dei dati si riferisce al processo di aggiunta di informazioni strutturate a dati grezzi come immagini, testo, video o audio in modo che i modelli di machine learning possano comprendere e imparare da questi dati. sembra complicato? ma in realtà questo è qualcosa che può fare anche uno studente delle scuole elementari. ad esempio, ti do un'immagine e ti chiedo di contrassegnare i pedoni, i veicoli, gli edifici, ecc. nell'immagine ti do un pezzo di testo e chiederti di contrassegnare quali esclamazioni e quali sono domande. un pezzo della tua voce può essere etichettato con un'emozione o l'identità di chi parla, ecc.
fonte: shaip
sebbene il principio sia semplice, questi dati annotati sono indispensabili per lo sviluppo dell’intelligenza artificiale. i modelli di intelligenza artificiale richiedono una grande quantità di dati annotati per l'apprendimento per avere funzioni come riconoscimento, classificazione e previsione.
ma il problema di molte aziende di intelligenza artificiale è che, sebbene alcuni strumenti automatizzati possano accelerare parte del processo di annotazione, per ottenere dati di annotazione di alta qualità e precisione, è ancora necessaria una grande quantità di lavoro manuale per elaborare, etichettare e verificare i dati. soprattutto in campi con elevati requisiti di precisione, come l’imaging medico, la guida autonoma o le applicazioni militari, un’etichettatura errata può portare a gravi conseguenze. per questo motivo, l'annotazione dei dati è considerata un'attività ad alta intensità di manodopera e molte aziende non sono disposte e non hanno l'energia per gestirla da sole, con il risultato che il processo di acquisizione dei dati annotati risulta dispendioso in termini di tempo e denaro.
l’intelligenza artificiale su scala ha preso il sopravvento su questo “duro lavoro”. il posizionamento iniziale di scale ai è quello di creare una piattaforma di etichettatura efficiente e accurata combinando tecnologia automatizzata e revisione umana per aiutare le aziende a elaborare ed etichettare rapidamente set di dati su larga scala. il suo modello di business è molto semplice: contatta le aziende con esigenze di etichettatura, esegue una semplice preelaborazione e pulizia dei dati, quindi esternalizza il compito a lavoratori in africa, sud-est asiatico, ecc. per etichettare i dati.
nel 2017, scale ai ha fondato remotasks come agenzia di outsourcing interna. ha creato dozzine di istituzioni in kenya, filippine, venezuela e altri luoghi e ha formato migliaia di annotatori di dati ovunque. la maggior parte del lavoro di questi annotatori è pagato pezzo per pezzo, e il reddito per una singola chiamata è pari a pochi centesimi. molti lavoratori a contratto guadagnano addirittura meno di 1 dollaro l’ora. con questo modello di “fabbrica globale”, il margine di profitto lordo di scale ai può rimanere superiore al 65% per un lungo periodo.
colpisci ogni opportunità
anche se l'annotazione dei dati sembra essere un'attività a bassa soglia, era quasi vuota nel mercato durante il "periodo di silenzio dell'intelligenza artificiale" intorno al 2016. solo alcune grandi aziende come google e amazon avevano i propri dipartimenti di annotazione dei dati. il successo di scale ai è in gran parte dovuto alla sua visione accurata di questa opportunità e alla sua capacità di cogliere diverse tendenze nello sviluppo del settore dell’intelligenza artificiale negli ultimi 10 anni.
il primo è la guida autonoma. pochi mesi dopo la fondazione di scale ai, hanno scoperto la domanda rigida e su larga scala di annotazione dei dati nel campo della guida autonoma. lo sviluppo della tecnologia di guida autonoma si basa su una grande quantità di dati di annotazione ad alta precisione, come dati di immagini di scene stradali, pedoni e altri oggetti. le aziende automobilistiche necessitano di decine di migliaia di ore di dati video per l'annotazione per addestrare e verificare i propri algoritmi per quanto riguarda l'intera guida autonoma dal punto di vista del settore, oltre il 90% dell'annotazione dei dati in quel momento era principalmente manuale. scale ai utilizza un'efficiente piattaforma di annotazione dei dati e utilizza l'annotazione assistita da modello e la preelaborazione dei dati per accelerare il processo di elaborazione dei dati, riducendo così in modo significativo i costi e i tempi di annotazione, attirando aziende come waymo e cruise, che all'epoca erano alla ribalta, a diventare suoi clienti, per poi affermarsi gradualmente nel campo dell'annotazione dei dati di guida autonoma.
fonte immagine: scala ai
dopo aver riscosso inizialmente successo nel campo della guida autonoma, scale ai ha iniziato ad entrare a pieno titolo nel mercato aiaas (ai as a service). si estende dalla semplice etichettatura dei dati ai servizi dati, fornendo soluzioni complete di processo dall'etichettatura e gestione dei dati, formazione e valutazione dei modelli, allo sviluppo e all'implementazione di applicazioni ai.
inoltre, per affrontare il problema dell’insufficienza dei dati in alcuni settori, l’intelligenza artificiale su scala si estende anche a valle, fino alla generazione di dati sintetici per aiutare ad addestrare i modelli creando nuovi set di dati da dati esistenti. pertanto, negli anni successivi, scale ai è cresciuta rapidamente nel campo dei dati e i suoi clienti si sono estesi alla medicina, alla difesa nazionale, all'e-commerce, ai servizi governativi e ad altri campi. a più di due anni dalla sua fondazione, le entrate di scale ai si avvicinano ai 50 milioni di dollari.
l’intelligenza artificiale su scala ha inoltre colto accuratamente l’opportunità dell’esplosione dell’intelligenza artificiale generativa. già nel gpt-2, scale ha condotto il primo esperimento collaborativo sull’apprendimento per rinforzo con feedback umano con openai, per poi estendere queste tecnologie a instructgpt e altri campi. poiché i modelli di intelligenza artificiale generativa richiedono enormi quantità di dati di addestramento per migliorare l'accuratezza e la diversità dei contenuti generati, la crescita esplosiva di modelli linguistici di grandi dimensioni ha notevolmente promosso la domanda del settore di dati annotati di alta qualità. l'intelligenza artificiale in scala integra l'annotazione dei dati, la sintesi dei dati e altro i servizi forniscono il supporto dati necessario per l’intelligenza artificiale generativa. inoltre, scale ai aiuta anche le aziende a generare rapidamente api personalizzate per ridurre la complessità e i costi dei propri modelli di formazione.
fonte immagine: scala ai
per l'intelligenza artificiale generativa, scale ha lanciato servizi di piattaforma a processo completo, inclusa la piattaforma di strumenti per sviluppatori scale spellbook, il prodotto di dati sintetici scale synthetic, la piattaforma genai a livello aziendale, ecc. l'obiettivo è consentire alle aziende di disporre di dati sufficienti in ogni scenario per supportare il modello training, con i suoi vantaggi unici nel campo dei dati, scale ai ha visto un aumento dei clienti negli ultimi due anni, inclusi giganti come openai, meta, aws e nvidia, nonché unicorni emergenti come cohere e adept. e molti di loro sono diventati anche investitori in scale ai in questo round di finanziamento.
perché l’intelligenza artificiale su scala sta sfondando
per quanto riguarda l’ascesa dell’intelligenza artificiale su scala, molte persone si chiedono. per un settore così avanzato e ad alta intensità di manodopera, la cina sembra avere un vantaggio innato. perché nessuna azienda simile si distingue? in generale, ci sono due fattori principali alla base di questo, uno è l’industria e l’altro sono i finanziamenti.
prima del boom dell’intelligenza artificiale generativa, lo sviluppo dell’intelligenza artificiale domestica era leader nelle applicazioni sceniche. il business dell’annotazione dei dati in realtà ha iniziato a svilupparsi molto presto, ma non si è sviluppato su larga scala. sebbene molte aziende leader abbiano istituito dipartimenti di annotazione dei dati, servono principalmente la propria attività piuttosto che cercare di abbinare i dati con le risorse di vari settori. allo stesso tempo, proprio a causa del dividendo demografico interno, il costo per ottenere dati etichettati è basso e le aziende non hanno alcun incentivo ad adottare piattaforme tecnologiche. resta inteso che per molto tempo i prezzi nel settore dell’annotazione dei dati nazionali sono stati molto trasparenti, i salari orari sono generalmente intorno ai 10-25 rmb e la maggior parte non ha qualifiche accademiche.
fonte: impiegato direttamente da boss
in confronto, il costo del lavoro negli stati uniti è elevato. su linkedin, indeed e altre piattaforme, la maggior parte dei salari orari part-time indicati dai dati sono compresi tra 30 e 200 dollari usa. ciò richiede oggettivamente alle aziende di pensare a soluzioni dal punto di vista tecnico prospettiva. problemi di produzione dei dati o approvvigionamento di servizi correlati.
dal punto di vista dell’ambiente finanziario, il mercato nazionale dell’annotazione dei dati è sempre stato ai margini dei finanziamenti nel campo dell’intelligenza artificiale. intorno al 2021, la ricerca stima che la dimensione dell’intero mercato cinese dell’annotazione dei dati sia di soli 4,3 miliardi di yuan e crescerà solo fino a 5,1 miliardi di yuan nel 2022. questo numero senza dubbio non è degno di nota rispetto alle trilioni di scala dell’intero mercato dell’intelligenza artificiale e ha anche causato difficoltà di finanziamento alle società di annotazione dei dati. nel 2021, quando scale ai avrà completato il finanziamento di serie e di 325 milioni di dollari e la sua valutazione avrà raggiunto i 7,3 miliardi di dollari, la maggior parte delle startup simili in cina si trovano ancora nel round di serie a.
il motivo per cui prima la scala nazionale era così piccola era perché veniva semplicemente preso in considerazione solo l’aspetto dell’etichettatura. in effetti, i servizi dati a processo completo come la gestione dei dati, la valutazione dei dati e la sintesi dei dati derivati dall'annotazione dei dati rappresentano la parte a valore aggiunto di questo settore.
per quanto riguarda l'importanza dei dati per lo sviluppo di grandi modelli linguistici, alex wang, il fondatore di scale ai, ha affermato in una recente intervista che le persone hanno esaurito tutti i dati su internet e vogliono sviluppare un'intelligenza artificiale più potente di gpt-4.5, quindi è necessario costruire dati all’avanguardia. i cosiddetti "dati all'avanguardia" si riferiscono a dati che sono strettamente correlati agli scenari applicativi e possono riflettere le tendenze e i cambiamenti più recenti in modo tempestivo. spesso contengono un gran numero di scenari a coda lunga o rari, il che aiuta migliorare le prestazioni dell’intelligenza artificiale in situazioni atipiche e promuovere l’intelligenza artificiale. i confini delle capacità intelligenti si stanno sviluppando in direzioni come il ragionamento complesso e la multimodalità.
man mano che l'intelligenza artificiale si sviluppa in profondità, la futura formazione dei dati deve essere maggiormente adattata a compiti specifici e scenari applicativi specifici. pertanto, è anche necessario estrarre e produrre più dati nuovi e differenziati. questo è il motivo dell'attuale round di 1 miliardo di scale ai il focus del lavoro dopo il finanziamento in dollari usa ha ulteriormente ampliato i confini fantasiosi dell’annotazione dei dati.