ki-daten sind mangelware, große hersteller haben ein auge auf billige junge menschen

ki-daten sind mangelware, große hersteller haben ein auge auf billige junge menschen geworfen

2024-09-03

um neue daten zu erhalten und große ki-modelle zu trainieren, nehmen große internetunternehmen wie bytedance die sache selbst in die hand und rekrutieren „ki-recorder“ zu preisen ab 300 yuan pro zeit, um den korpus anzupassen.

das byte-bürogebäude im dazhong-tempel in peking ist die heimat des douyin-geschäftsteams und des volcano engine-geschäftsteams. seit anfang des jahres rekrutieren sie amateure für die aufnahme des doubao-modells. zwei personen bilden ein team, das jeweils 3 stunden dauert, darunter 80 minuten kostenloses chatten und 60 gesprächsgruppen mit schnellen worten, und der einzelabrechnungsbetrag beträgt 300 yuan.

die 3-stündige aufnahme wurde während des gesamten prozesses von mindestens 2 name-mitarbeitern begleitet. „das gespräch sollte nicht zu lang sein, es muss inhalt und information enthalten, wenn die qualität zu schlecht ist, wird das geld entsprechend abgezogen, und das große modell kann es nicht verstehen.“ von 18.00 bis 21.00 uhr ließen die anweisungen der byte-mitarbeiter während des aufnahmevorgangs deutlicher erkennen, dass sie sich sorgen um die qualität der aufnahme machten.

bildunterschrift: innenansicht des aufnahmestudios des dazhong-tempels

tatsächlich sind zweitrangige städte wie chengdu, taiyuan und guizhou bereits zu ki-daten-outsourcing-städten für große unternehmen wie bytedance, baidu und alibaba geworden. „letztes jahr konnten junior-college-studenten datenannotationen und dialektlesen durchführen. jetzt rekrutieren wir praktikanten von 211 und 985, um das outsourcing zu leiten, sagte ein produktmanager eines großen modells.“

minimax, das gerade im september ein großes videomodell auf den markt gebracht hat, sagte sein gründer yan junjie gegenüber alphabet, dass minimax in shanghai neben hochwertigen daten von korpusunternehmen auch einige plattformbasierte daten kaufen werde.

daten, algorithmen und rechenleistung sind die drei säulen großer ki-modelle, wobei daten die grundlage für das training großer modelle bilden. da internetdaten jedoch über verschiedene plattformen verstreut und von barrieren umgeben sind, versiegen die öffentlichen daten, die zum trainieren großer ki-modelle verwendet werden können.

im juni veröffentlichte die forschungsorganisation epoch ai eine neue studie, die voraussagt, dass die für das öffentliche training von ki-sprachmodellen verfügbaren daten von technologieunternehmen zwischen 2026 und 2032 erschöpft sein werden. bereits im mai 2023 gab openai-ceo altman öffentlich zu, dass ki-unternehmen in naher zukunft alle daten im internet erschöpfen werden.

wie man hochwertige neue daten findet, um große modelle zu „füttern“, ist für alle großen ki-modellteams zu einem häufigen problem geworden.

einige große unternehmen waren immer wieder in streitigkeiten wegen des verdachts der unbefugten nutzung von daten dritter verwickelt. im august wurde openai von mehr als 100 youtube-moderatoren verklagt und beschuldigt, millionen von youtube-videos illegal transkribiert zu haben, um große modelle zu trainieren. auch giganten wie nvidia, apple und anthropic sind beteiligt.

für große hersteller kann nur die verfügbarkeit eigener hochwertiger closed-source-daten die aktualität und qualität der dateneinspeisung in große modelle gewährleisten. der verzicht auf plattformen von drittanbietern mit instabiler qualitätskontrolle und der versuch, selbst „skripte“ für ki zu schreiben, könnte für große modellhersteller ein neuer ansatz sein.

zu beginn dieses jahres tauchten still und leise ki-aufzeichnungen für teilzeitjobs mit einem preis von 300 yuan pro sitzung auf plattformen wie xiaohongshu auf.

verglichen mit dem ki-aufnahme-teilzeitjob auf plattformen wie boss direct employment, der 30-55 yuan pro stunde zahlt, dem sogenannten „teilzeit-aufnahmestudio im top-studio“, das 300 yuan pro zeit bezahlt im dazhong-tempel in peking aufgenommen wird, ist ziemlich verlockend.

als ich im august über wechat in die aufnahmegruppe aufgenommen wurde, stellte alphabet list (id: wujicaijing) fest, dass in der gruppe bereits mehr als 200 personen auf die aufnahme warteten. da festgelegt ist, dass eine gruppe von zwei personen bis zu drei stunden lang ein gespräch aufzeichnen kann, tauchen nach dem beitritt zur gruppe am häufigsten wechat-nachrichten wie „suche einen partner“ und „kann jemand mit mir aufnehmen?“ auf.

tatsächlich ist es nicht einfach, ein ki-rekorder zu sein und für 300 yuan pro stück „skripte für ki zu schreiben“.

zunächst muss jeder vor der aufzeichnung eine 2-3-minütige gesprächsaufzeichnung als „beispiel“ hochladen. die prüfer von byte entscheiden anhand der wirkung des beispiels, ob teilzeitaufzeichnungsbenutzer benachrichtigt werden. unddieser vorgang wird von 3 mitarbeitern überprüft. nur wenn 2 von ihnen die überprüfung bestehen, kann die aufnahmezeit direkt reserviert werden.

nach der zweiten überprüfung der probe vereinbarte zhang xue einen termin für eine aufnahmezeit von 18 bis 21 uhr in der zweiten woche nach einsendung der probe. im gruppenchat steckten viele leute in der probesitzung fest: „der review-lehrer mag diejenigen, die chatten können und gerne chatten.“ die emotionalen gespräche und thematischen inhalte führten dazu, dass mehr leute im screening-prozess stecken blieben.

hinweis: aufnahmegruppe des dazhong-tempels. quelle: screenshot der alphabetliste

am abend der aufnahme saß zhang

die erste sitzung war ein 80-minütiger kostenloser chat zwischen den beiden ohne thema. die anforderungen der byte-mitarbeiter sind, dass der chat kein „kleines gespräch“ sein darf und dass jedes thema nicht länger als 10 minuten sein darf. es darf kein relativ gleichmäßiges gespräch stattfinden.

zhang xue und ihr partner unterhielten sich im aufnahmeraum über ein riesiges headset und versuchten, 80 minuten lang keine pause einzulegen. gleichzeitig sollten sie versuchen, ihren körper davon abzuhalten, sich zu bewegen und husten, lachen und andere geräusche von sich zu geben, die die aufnahmequalität beeinträchtigen.

um die sprachqualität zu gewährleisten, schließen die byte-mitarbeiter von zeit zu zeit kopfhörer an und fordern sie auf, die aufnahme erneut aufzuzeichnen, wenn es geräusche gibt oder wenn der chat „unnatürlich ist und zu viele führungsmarkierungen aufweist“, auch er muss neu aufgenommen werden -aufgezeichnet. der standard für eine hochwertige stimme ist, dass der chat natürlich ist, die themen fortlaufend sind, die stimmung positiv ist, das gespräch aber nicht überstürzen darf und dass der chat inhaltlich und nicht wortreich sein muss. nach wiederholten anpassungen dauerte die erste sitzung fast 2 stunden.

im zweiten schritt wurden 60 sätze dialoge mit aufforderungsworten aufgezeichnet. obwohl es ein skript als referenz gibt, muss zhang der dialoge müssen mit b beginnen.

um gleichzeitig den debugging-anforderungen großer modelle gerecht zu werden, muss jede anweisung klar die aufforderungswörter angeben: „kann es detaillierter sein? kann es detaillierter sein? kann es im headset detaillierter sein?“ byte das personal machte auch deutlich, dass das skript geändert werden kann, aber nur die eingabeaufforderungswörter können nicht geändert werden. mit anderen worten, es kann für die ki schwierig sein, es zu erkennen.

um die qualität der aufnahme zu gewährleisten, wird die aufnahme neu aufgenommen, wenn sie nicht klar ist, die worte verschluckt werden oder die stimmung nicht ausreicht. als die aufnahme beendet war, verließ zhang xue den dazhong-tempel. es war fast 10 uhr abends. für eine dreistündige aufnahmesitzung müssen die mitarbeiter von byte dreimal am tag aufnehmen, und der wochenplan ist fast voll.

neben peking hat byte bereits rekorder in shanghai, hangzhou, chongqing, nanjing, chengdu, tianjin und anderen städten rekrutiert.

für große modellhersteller, die auf der suche nach neuen daten sind, ist die vorgehensweise, „geld auszugeben, um daten zu erhalten“, nichts neues.

im jahr 2023, da große ki-modelle zu einem neuen trend werden, kaufen große hersteller daten nicht nur direkt über drittunternehmen, sondern schaffen auch outsourcing-positionen wie „big data annotator“ und „ai editor“.

im jahr 2023 begann arlene, die nebensprachen als hauptfach studierte, während der postgradualen aufnahmeprüfung über websites wie boss direct recruitment für große models zu „arbeiten“.

über ein unternehmen namens „x data“ führt alin eine akzeptanzprüfung für den vom großen modellbild erkannten textinhalt durch, d. h. prüft, ob der kleine sprachtext nach der erkennung des großen modellbilds mit dem bild übereinstimmt. entsprechend dem preis „ein wort oder satz zählt als ein berechnungsfeld und jedes feld zählt als 1 cent“ kann a lin durch die berechnung von hunderten von artikeln dutzende yuan auf einmal verdienen.

in diesem jahr erhielt a lin über ein externes datenunternehmen auch aufträge für die annotation von ki-daten im zusammenhang mit der übersetzung, und der preis stieg auf über 1 yuan pro stück. um jedoch manuell beurteilen zu können, ob die vom großen modell übersetzten kleinen sprachen wie französisch korrekt sind, müssen die annotatoren nicht nur die fehler finden, sondern auch unterschiedliche farben verwenden, um den übersetzungsinhalt von 5 bis 6 großen sprachen zu kommentieren modelle. „manchmal dauert es 10 bis 15 minuten, ein stück anzusehen.“

nachdem ich für ai gearbeitet hatte, entdeckte alin auch, dass nach der trennung dieser großen modelle vom ursprünglichen lehrbuchkorpus kleiner sprachen die neuen wörter, die von sozialen plattformen verwendet wurden, oder die üblichen wörter kleiner gruppen nicht in ihre eigenen datenbanken aufgenommen wurden dazu: „aufgrund der urheberrechtsbeschränkung konnte ich keine neuen textinhalte lernen und auch der übersetzungseffekt wurde beeinträchtigt.“

neben externen outsourcing-unternehmen haben auch große hersteller eigene datenbanken aufgebaut.

beispielsweise werden die datenbanken von baidu in nicht erstklassigen städten wie nanchang, yangquan, taiyuan, guizhou usw. verteilt, und um die sammlung von datenanmerkungen, dialektlesungen und anderen daten in diesen städten abzuschließen, ist dies lediglich erforderlich „rekrutieren sie einige lokale college-studenten, die computer bedienen können.“ das monatsgehalt liegt normalerweise zwischen 3.000 und 5.000 yuan. „meituan hat bereits eigene ki-trainer.

allerdings ist es für die großen modelltiger im vergleich zu den großen herstellern, die bereit sind, geld auszugeben, deutlich schwieriger, an qualitativ hochwertige daten zu kommen.

„kerne hochwertige closed-source-daten wurden oft von großen unternehmen monopolisiert. ki-startups, selbst die vier ki-tiger, haben möglicherweise nur zugang zu randdaten.“leo, ein algorithmusmitarbeiter bei einem großen modellhersteller, sagte gegenüber alphabet.

da hochwertige daten die modellleistung erheblich verbessern können, benötigen große modellhersteller zusätzlich zu öffentlichen open-source-daten qualitativ hochwertigere daten, um das training abzuschließen und eine technologieiteration zu erreichen. diese daten werden jedoch häufig von großen unternehmen kontrolliert. beispielsweise werden inländische nachrichtendaten von großen unternehmen wie tencent und byte kontrolliert, während sie im ausland von common crawl, gdelt, the pile usw. kontrolliert werden.

im ausland kündigte sogar youtube ende juni an, lizenzvereinbarungen mit führenden plattenfirmen im austausch für urheberrechtlich geschützte musik zur nutzung für schulungen anzubieten. openai hat mit nachrichtenverlagen wie politico, the atlantic, time und der financial times kostenpflichtige vereinbarungen zur nutzung und zitierung ihrer nachrichtenmaterialien getroffen.

wenn schlüsseldaten hauptsächlich innerhalb der „kanalparteien“ wie unternehmen wie tencent, byte und meta kontrolliert werden, wurden wichtige benutzerdaten bereits im zeitalter des mobilen internets aufgeteilt, wenn sie einen technologischen durchbruch erzielen wollten ki-tiger müssen zunächst eine riesige summe geld zahlen.

für hersteller ist in der zweiten hälfte des unternehmertums großer modelle die „big-data-illusion“ auch einer der gründe, warum die großen modelle kollektiv nicht feststellen können, ob 9.11 oder 9.9 größer ist.

als alphabet „ein kleines mädchen, das eine ragdoll-katze in ihren armen hält“ in die conch-ki von minimax eingab, dauerte es 2 minuten, um ein 6-sekunden-video zu erstellen. die finger des kleinen mädchens, das die katze hielt, waren reich an details, aber sie hielt die katze in ihren armen. diejenige, die es trägt, ist keine ragdoll-katze.

angesichts der generierten ergebnisse erklärte der mitarbeiter des video-großmodells von minimax: „das liegt daran, dass die zum training des großmodells verwendeten daten keine ragdoll-katzen in den katzenbindungsbildern enthalten.“

wenn der vom modell generierte inhalt nicht mit realen fakten oder benutzereingaben übereinstimmt, wird das große modell halluziniert und beginnt, „unsinn zu reden“.für große modellbauer, die auf der suche nach neuen nutzern sind, entscheidet offenbar der generationseffekt darüber, ob das produkt eine chance hat, aus dem kreislauf herauszukommen.

„der eingabebefehl bestand darin, alle unterhaltungsnachrichten im august zu extrahieren. als ergebnis generierte die ki die unterhaltungsnachrichteninhalte im august 2019, als der treue benutzer kong fang die ki erwischte.“ „unsinn“ mehrmals. im moment der „rede“ stellte er entweder zitate zusammen, die überhaupt nicht existierten, oder war in den letzten zwei jahren nicht in der lage, neue konzepte zu verstehen, was zu einer vertrauenskrise von kong fang in große modelle führte .

jetzt wird kong fang 2-3 große modelle verschiedener hersteller verwenden, um dasselbe problem gleichzeitig zu „bearbeiten“, und dann wichtige informationen wie zeit, menge, dokumente usw. vergleichen und auch zweimal bestätigen über suchmaschinen: „jetzt generiert ki es ist wie das ziehen von karten, der effekt ist unkontrollierbar und es ist leicht, geistig zurückgeblieben zu sein“, sagte kong fang hilflos.

hochwertige daten können nach und nach erschöpft sein. um das problem der „illusion großer modelle“ zu lösen, ist es offensichtlich entscheidend, welche daten zur „fütterung“ des großen modells verwendet werden.

eine baidu-nahe person sagte gegenüber alphabet, dass große modellhersteller daten direkt über drittunternehmen kaufen würden, was zeit und mühe spart, aber nicht „einfach“ ist, da die qualität der gekauften daten, sei es text, aufzeichnung oder video, hoch ist einwandfrei.

für diejenigen, die aktiv großkopfmodelle für b-end-kunden entwickeln, ist die stärker personalisierte anpassung großer modelle für einen bestimmten kunden heute zur haupteinnahmequelle für das ki-geschäft großer hersteller geworden. wenn sie jedoch ein solches personalisiertes modell trainieren möchten, müssen sie es mit nach hohen standards gefilterten daten „füttern“ und sogar den datenbedarf entsprechend dem lerneffekt des großen modells in verschiedenen phasen anpassen wenn man eine menge stimmen kauft, kann man es mit einem großen modell lernen.

a lin, die als ki-übersetzerin in einem externen datenunternehmen gearbeitet hat, stellte außerdem fest, dass „ihr unternehmen als anbieter der daten anscheinend nicht wirklich auf die qualität der vom großen modell generierten sprache bedacht ist.“

für alin, die sich auf französisch, spanisch und andere nebensprachen spezialisiert hat, muss sie die generierungseffekte von 5–6 großen modellen für die gleichzeitige übersetzung von nebensprachensprache in text für partei a vergleichen, benötigt aber nur eine grobe bewertung für was sind die detaillierten sprachunterschiede und wie können diese verbessert werden? das drittunternehmen wird nicht nachfragen und ist „gleichgültig“.

der mangel an qualitativ hochwertigen daten könnte der grund dafür sein, dass viele benutzer sagen, dass „die von jedem großen modell generierten inhalte fast gleich sind“, und es ist auch der hauptgrund dafür, dass benutzer „einfach zu einem anderen großen modell wechseln, sobald sie dafür eine gebühr zahlen“. es" .

für benutzer weisen inländische große modelle, die behaupten, mit openai mitzuhalten und sich technisch weiterzuentwickeln, möglicherweise keine wesentlichen unterschiede auf, noch können sie zu treuen benutzern werden. dies führt auch zu verwirrung bei großen modellherstellern, die gerne kommerzialisieren .

auch wenn es zeitaufwändig, mühsam und teuer ist, persönlich „skripte für ki zu schreiben“, hat byte daher auch einen neuen weg eingeschlagen. es ist absehbar, dass der „datenkauf“ mit großem budget zur lösung der zentralen probleme der kommerzialisierung und nutzerakquise zum neuen wettbewerbsfaktor für große modellhersteller werden könnte.

(alin, kong fang und zhang xue sind pseudonyme im artikel)

nachricht

ki-daten sind mangelware, große hersteller haben ein auge auf billige junge menschen geworfen

einführung

meine kontaktdaten