i dati dell’intelligenza artificiale scarseggiano, i grandi produttori guardano ai giovani a buon mercato

2024-09-03

per ottenere nuovi dati e addestrare grandi modelli di intelligenza artificiale, le principali società internet come bytedance stanno prendendo in mano la situazione e reclutando "registratori di intelligenza artificiale" a prezzi che vanno da 300 yuan a volta per personalizzare il corpus.

l'edificio per uffici byte situato nel tempio dazhong a pechino ospita il team aziendale douyin di byte e il team aziendale volcano engine. dall'inizio dell'anno, hanno reclutato dilettanti per registrare il modello doubao. due persone formano una squadra, ogni volta dura 3 ore, inclusi 80 minuti di chat gratuita e 60 gruppi di conversazioni con parole immediate, e l'importo della transazione singola è di 300 yuan.

la registrazione di 3 ore è stata accompagnata da almeno 2 dipendenti di name durante tutto il processo. "la conversazione non dovrebbe essere troppo lunga, deve avere contenuti e informazioni. se la qualità è troppo scarsa, i soldi verranno detratti in modo appropriato." dalle 18:00 alle 21:00 le istruzioni fornite dai dipendenti byte durante il processo di registrazione hanno rivelato maggiormente la loro preoccupazione per la qualità della registrazione.

didascalia: vista interna dello studio di registrazione del tempio dazhong

in effetti, città di secondo livello come chengdu, taiyuan e guizhou sono già diventate città di outsourcing dei dati ai per grandi aziende come bytedance, baidu e alibaba. "l'anno scorso, gli studenti delle scuole medie potevano annotare i dati e leggere i dialetti. ora stiamo reclutando stagisti da 211 e 985 per guidare l'outsourcing", ha affermato un product manager di un modello di grandi dimensioni.

minimax, che ha appena lanciato un modello video di grandi dimensioni a settembre, il suo fondatore yan junjie ha detto ad alphabet che a shanghai, oltre ai dati di alta qualità delle società corpus, minimax acquisterà anche alcuni dati basati sulla piattaforma.

dati, algoritmi e potenza di calcolo sono i tre pilastri dei grandi modelli di intelligenza artificiale, tra cui i dati costituiscono la base per l’addestramento di modelli di grandi dimensioni. tuttavia, poiché i dati internet sono sparsi su diverse piattaforme e circondati da barriere, i dati pubblici che possono essere utilizzati per addestrare grandi modelli di intelligenza artificiale si stanno esaurendo.

a giugno l’organizzazione di ricerca epoch ai ha pubblicato un nuovo studio in cui prevede che i dati disponibili per la formazione pubblica sui modelli linguistici dell’intelligenza artificiale saranno esauriti dalle aziende tecnologiche tra il 2026 e il 2032. già nel maggio 2023, il ceo di openai altman ha ammesso pubblicamente che le società di intelligenza artificiale esauriranno tutti i dati su internet nel prossimo futuro.

come trovare nuovi dati di alta qualità per "alimentare" modelli di grandi dimensioni è diventato un problema comune per tutti i grandi team di modelli di intelligenza artificiale.

alcune grandi aziende sono state più volte coinvolte in controversie dovute al sospetto di utilizzo non autorizzato di dati di terzi. ad agosto, openai è stata citata in giudizio da oltre 100 conduttori di youtube, accusandola di trascrivere illegalmente milioni di video di youtube per addestrare modelli di grandi dimensioni. sono coinvolti anche giganti come nvidia, apple e anthropic.

per i grandi produttori, solo disporre di dati di alta qualità a fonte chiusa può garantire la tempestività e la qualità dei dati che alimentano modelli di grandi dimensioni. saltare piattaforme di terze parti con controllo di qualità instabile e provare a scrivere personalmente "script" per l'intelligenza artificiale potrebbe essere un nuovo approccio per i grandi produttori di modelli.

all'inizio di quest'anno, l'intelligenza artificiale che registra lavori part-time al prezzo di 300 yuan a sessione è apparsa silenziosamente su piattaforme come xiaohongshu.

rispetto al lavoro part-time di registrazione ai su piattaforme come boss direct employment, che paga 30-55 yuan l'ora, il cosiddetto "studio di registrazione part-time presso lo studio migliore" che paga 300 yuan l'ora e registrato al tempio dazhong di pechino è piuttosto allettante.

ad agosto, quando sono stato inserito nel gruppo di registrazione tramite wechat, alphabet list (id: wujicaijing) ha scoperto che c'erano già più di 200 persone in attesa di registrare nel gruppo. poiché è stabilito che un gruppo di due persone possa registrare una conversazione per un massimo di tre ore, dopo essersi uniti al gruppo, messaggi di wechat come "cerco un partner" e "qualcuno può registrare con me?"

in effetti, non è facile essere un registratore ai e "scrivere script per l'ia" per 300 yuan alla volta.

prima di tutto, prima di registrare, tutti devono caricare una registrazione di conversazione di 2-3 minuti come "campione". i revisori di byte decideranno se avvisare gli utenti della registrazione part-time in base all'effetto del campione. equesto processo verrà rivisto da 3 dipendenti solo se 2 di loro superano la revisione sarà possibile prenotare direttamente il tempo di registrazione. in caso contrario, verrà effettuata una revisione incrociata.

dopo la seconda revisione del campione, zhang xue ha fissato un appuntamento per un orario di registrazione dalle 18:00 alle 21:00 nella seconda settimana dopo aver inviato il campione. nella chat di gruppo, molte persone sono rimaste bloccate nella sessione campione: "l'insegnante di revisione ama coloro che sanno chattare e amano chattare." le conversazioni emotive e i contenuti tematici hanno bloccato più persone nel processo di screening.

nota: fonte del gruppo di registrazione del tempio dazhong: schermata dell'elenco alfabetico

la notte della registrazione, zhang xue si è seduto su una sedia attraverso il vetro trasparente dello studio di registrazione, si è sistemato nella posizione migliore in cui la voce poteva essere registrata chiaramente e ha ascoltato le istruzioni dei dipendenti byte tramite le cuffie.

la prima sessione è stata una chiacchierata gratuita di 80 minuti tra loro due senza alcun argomento. i requisiti dello staff di byte sono che la chat non può essere "chiacchiere" e deve essere contenuto. allo stesso tempo, ogni argomento non può superare i 10 minuti e non devono esserci lunghi monologhi.

zhang xue e il suo partner hanno parlato nella sala di registrazione attraverso un enorme auricolare, cercando di non fare pause per 80 minuti. allo stesso tempo, dovresti anche cercare di impedire al tuo corpo di muoversi e di emettere tosse, risate e altri suoni che interrompono la qualità della registrazione.

per garantire la qualità della voce, il personale byte collega di tanto in tanto le cuffie, chiedendo loro di registrare nuovamente se c'è rumore o se la chat è "innaturale e presenta troppi segni di guida", inoltre deve essere ri -registrato. lo standard per una voce di alta qualità è che la chat sia naturale, gli argomenti siano continui, l'umore sia positivo ma non si possa affrettare la conversazione, che sia contenuta e non prolissa. dopo ripetuti aggiustamenti, la prima sessione è durata quasi 2 ore.

nella seconda fase sono state registrate 60 serie di dialoghi con parole immediate. sebbene esista una sceneggiatura di riferimento, come registratore ai, zhang xue non solo deve compilare i dialoghi in base alla situazione, ma garantisce anche uno schema di dialogo rigoroso, ovvero l'ultima serie di dialoghi termina con a, quindi la serie successiva dei dialoghi devono iniziare con b .

allo stesso tempo, per soddisfare le esigenze di debug dei modelli di grandi dimensioni, ogni istruzione deve indicare chiaramente le parole "può essere più dettagliato? può essere più dettagliato? può essere più dettagliato?" byte lo staff ha anche chiarito che la sceneggiatura può essere modificata, ma solo le parole del prompt non possono essere modificate. in altre parole, potrebbe essere difficile per l'ia riconoscerlo.

per garantire la qualità della registrazione, se la registrazione non è chiara, le parole vengono inghiottite o l'atmosfera è insufficiente, la registrazione verrà registrata nuovamente. quando la registrazione finì, zhang xue lasciò il tempio dazhong. erano quasi le 22 di sera. per una sessione di registrazione di tre ore, lo staff di byte deve registrare tre volte al giorno e il programma settimanale è quasi pieno.

oltre a pechino, byte ha già reclutato registratori a shanghai, hangzhou, chongqing, nanchino, chengdu, tianjin e in altre città.

per i grandi produttori di modelli affamati di nuovi dati, l'operazione di "spendere soldi per ottenere dati" non è nuova.

nel 2023, man mano che i grandi modelli di intelligenza artificiale diventano una nuova tendenza, i principali produttori non solo acquistano i dati direttamente tramite società terze, ma creano anche posizioni in outsourcing come "annotatori di big data" e "editor di intelligenza artificiale".

nel 2023, arlene, laureata in lingue minori, ha iniziato a "lavorare" per grandi modelli attraverso siti web come boss direct recruitment durante l'esame di ammissione post-laurea.

attraverso una società chiamata "x data", alin esegue l'ispezione di accettazione del contenuto testuale riconosciuto dall'immagine del modello grande, ovvero controlla se il testo in lingua piccola dopo il riconoscimento dell'immagine del modello grande è coerente con l'immagine. secondo il prezzo di "una parola o frase conta come una casella di calcolo e ogni casella conta come 1 centesimo", a lin può guadagnare dozzine di yuan alla volta calcolando centinaia di articoli.

quest'anno, a lin ha anche ricevuto ordini tramite una società di dati di terze parti per eseguire annotazioni di dati ai relativi alla traduzione e il prezzo è salito a più di 1 yuan per pezzo. tuttavia, per giudicare manualmente se le lingue piccole, come il francese, tradotte dal modello grande, sono accurate, gli annotatori non devono solo trovare gli errori, ma anche utilizzare colori diversi per annotare il contenuto della traduzione di 5-6 lingue grandi. modelli. "a volte ci vogliono 10-15 minuti per guardare un pezzo."

dopo aver lavorato per ai, alin ha anche scoperto che una volta separati questi grandi modelli dal corpus originale dei libri di testo delle piccole lingue, le nuove parole utilizzate dalle piattaforme social o le parole abituali di piccoli gruppi non venivano incluse nei loro database a riguardo, "limitato dal copyright, non ho potuto apprendere nuovi contenuti testuali e anche l'effetto della traduzione ne è stato influenzato."

oltre alle società di outsourcing di terze parti, anche i principali produttori hanno creato le proprie banche dati.

ad esempio, le banche dati di baidu sono distribuite in città non di primo livello come nanchang, yangquan, taiyuan, guizhou, ecc. e per completare la raccolta di annotazioni di dati, lettura dei dialetti e altri dati in queste città, è sufficiente "reclutare alcuni studenti universitari locali in grado di utilizzare i computer." . lo stipendio mensile è solitamente compreso tra 3.000 e 5.000 yuan "meituan ha già i propri istruttori di intelligenza artificiale in fabbrica.

tuttavia, rispetto ai grandi produttori disposti a spendere soldi, per i grandi modelli tigri è molto più difficile ottenere dati di alta qualità.

"i dati core di alta qualità a fonte chiusa sono stati spesso monopolizzati dalle grandi aziende. le startup dell'intelligenza artificiale, anche le quattro tigri dell'intelligenza artificiale, potrebbero avere accesso solo a dati marginali."leo, un membro dello staff di algoritmi di un grande produttore di modelli, ha detto ad alphabet.

poiché i dati di alta qualità possono migliorare significativamente le prestazioni del modello, oltre ai dati pubblici open source, i grandi produttori di modelli necessitano di dati di qualità superiore per completare la formazione e ottenere l’iterazione tecnologica. tuttavia, questi dati sono spesso controllati da grandi aziende. ad esempio, i dati delle notizie nazionali sono controllati da grandi aziende come tencent e byte, mentre all'estero sono controllati da common crawl, gdelt, the pile, ecc.

all'estero, anche youtube ha annunciato a fine giugno che fornirà accordi di licenza alle più importanti case discografiche in cambio di musica protetta da copyright da utilizzare per la formazione. openai ha stipulato accordi retribuiti con editori di notizie come politico, the atlantic, time e financial times per utilizzare e citare il loro materiale informativo.

quando i dati chiave sono controllati principalmente all'interno dei "parti del canale", come aziende come tencent, byte e meta, i dati chiave degli utenti sono stati divisi già nell'era di internet mobile se vogliono raggiungere una svolta tecnologica, i quattro le tigri ai devono prima pagare un'enorme somma di denaro.

per i produttori, nella seconda metà dell’imprenditorialità del grande modello, l’“illusione dei big data” è anche uno dei motivi per cui i grandi modelli collettivamente non riescono a determinare se il 9.11 o il 9.9 sia più grande.

quando alphabet ha inserito "una bambina che tiene in braccio un gatto di pezza" nell'intelligenza artificiale di conch di minimax, ci sono voluti 2 minuti per generare un video di 6 secondi. le dita della bambina che teneva in braccio il gatto erano ricche di dettagli, ma lei teneva in braccio il gatto tra le sue braccia. quello che lo indossa non è un gatto di pezza.

di fronte ai risultati generati, il dipendente del modello di grandi dimensioni del video di minimax ha spiegato: "questo perché i dati utilizzati per addestrare il modello di grandi dimensioni non includono i gatti ragdoll nelle immagini di legatura dei gatti".

quando il contenuto generato dal modello non è coerente con i fatti del mondo reale o con l'input dell'utente, il modello di grandi dimensioni diventa allucinante e inizia a "dire senza senso".per i grandi produttori di modelli desiderosi di nuovi utenti, l’effetto generazione determina ovviamente se il prodotto ha la possibilità di uscire dal cerchio.

"il comando di input era quello di estrarre tutte le notizie di intrattenimento in agosto. di conseguenza, l'intelligenza artificiale ha generato il contenuto delle notizie di intrattenimento nell'agosto 2019. utilizzando un prodotto con un modello a testa grande, l'utente fedele kong fang ha catturato l'intelligenza artificiale." sciocchezze" più volte. al momento del "discorso", o ha compilato citazioni che non esistevano affatto, oppure non è stato in grado di comprendere nuovi concetti negli ultimi due anni, il che ha causato a kong fang una crisi di fiducia nei modelli di grandi dimensioni .

ora, kong fang utilizzerà 2-3 modelli di grandi dimensioni di diversi produttori per "eseguire" lo stesso problema contemporaneamente, quindi confronterà le informazioni chiave come tempo, quantità, documenti, ecc. e lo confermerà anche due volte attraverso i motori di ricerca, "ora l'intelligenza artificiale genera è come pescare carte, l'effetto è incontrollabile ed è facile essere ritardati mentali", ha detto impotente kong fang.

i dati di alta qualità potrebbero gradualmente esaurirsi. per risolvere il problema dell'"illusione del modello di grandi dimensioni", è ovviamente fondamentale utilizzare i dati per "alimentare" il modello di grandi dimensioni.

una persona vicina a baidu ha detto ad alphabet che i grandi produttori di modelli acquisteranno i dati direttamente tramite società terze, il che fa risparmiare tempo e fatica ma non è "facile" perché la qualità dei dati acquistati, siano essi testo, registrazione o video, è impeccabile.

per coloro che stanno sviluppando attivamente modelli a testa grande per i clienti di fascia b, la personalizzazione più personalizzata di modelli di grandi dimensioni per un determinato cliente è diventata oggi la principale fonte di reddito per il business dell'intelligenza artificiale dei principali produttori. ma se si vuole addestrare un modello così personalizzato, è necessario “nutrirlo” con dati filtrati secondo standard elevati e persino adattare la richiesta di dati in base all’effetto di apprendimento del modello di grandi dimensioni nelle diverse fasi comprando un sacco di voci, puoi impararlo con un modello di grandi dimensioni."

anche a lin, che ha lavorato come traduttrice di intelligenza artificiale in una società di dati di terze parti, ha scoperto che “come parte che fornisce i dati, la sua azienda non sembra preoccuparsi veramente della qualità del discorso generato dal modello di grandi dimensioni”.

alin, specializzata in francese, spagnolo e altre lingue minori, deve confrontare contemporaneamente gli effetti di generazione di 5-6 modelli di grandi dimensioni per tradurre il parlato in lingue minori in testo per la parte a, ma ha bisogno solo di un punteggio approssimativo i 5 - 6 testi generati. quali sono le differenze linguistiche dettagliate e come possono essere migliorate? l'azienda terza non chiede nulla ed è "indifferente".

la mancanza di dati di alta qualità potrebbe essere la ragione per cui molti utenti affermano che "il contenuto generato da qualsiasi modello di grandi dimensioni è quasi lo stesso", ed è anche la ragione principale per cui gli utenti "passano a un altro modello di grandi dimensioni una volta pagato il prezzo". esso" .

per gli utenti, i grandi modelli domestici che affermano di mettersi al passo con openai e continuare a iterare tecnicamente potrebbero non presentare differenze sostanziali, né diventare utenti fedeli. ciò getta anche uno strato di confusione sui grandi produttori di modelli che sono ansiosi di commercializzare .

pertanto, anche se "scrivere script per l'intelligenza artificiale" di persona è dispendioso in termini di tempo, fatica e denaro, anche byte ha intrapreso una nuova strada. è prevedibile che per risolvere i problemi chiave della commercializzazione e dell'acquisizione di utenti, "l'acquisto di dati" con un budget elevato potrebbe diventare il nuovo punto di concorrenza per i grandi produttori di modelli.

(alin, kong fang e zhang xue sono pseudonimi nell'articolo)

notizia

i dati dell’intelligenza artificiale scarseggiano, i grandi produttori guardano ai giovani a buon mercato

introduzione

le mie informazioni di contatto