tekoälytiedoista on pulaa, suuret valmistajat katselevat halpoja nuoria

2024-09-03

saadakseen uutta dataa ja kouluttaakseen suuria tekoälymalleja, suuret internet-yritykset, kuten bytedance, ottavat asiat omiin käsiinsä ja rekrytoivat "ai-tallentimia" hinnoilla, jotka vaihtelevat 300 yuanista per kerta korpuksen mukauttamiseen.

pekingin dazhong-temppelissä sijaitseva byte-toimistorakennus on byten douyin-yritystiimin ja volcano engine -liiketoiminnan kotipaikka vuoden alusta lähtien. kaksi ihmistä muodostaa joukkueen, joka kerta on 3 tuntia, sisältäen 80 minuuttia ilmaista chattailua ja 60 ryhmää keskusteluja nopealla sanalla, ja yksittäinen selvityssumma on 300 yuania.

kolmen tunnin nauhoituksen mukana oli vähintään 2 namen työntekijää koko prosessin ajan. "keskustelu ei saa olla liian pitkä, siinä on oltava sisältöä ja tietoa, jos laatu on liian huono, rahat vähennetään sopivasti." klo 18-21 byten työntekijöiden äänitysprosessin aikana antamat ohjeet paljastivat enemmän heidän huolenpitonsa tallennuksen laadusta.

kuvateksti: dazhong templen äänitysstudion sisäkuva

itse asiassa toisen tason kaupungeista, kuten chengdu, taiyuan ja guizhou, on jo tullut tekoälyn datan ulkoistamiskaupunkeja suurille yrityksille, kuten bytedance, baidu ja alibaba. "viime vuonna nuoremmat opiskelijat saattoivat tehdä datamerkintöjä ja murteen lukemista. nyt rekrytoimme harjoittelijoita 211:stä ja 985:stä johtamaan ulkoistamista."

juuri syyskuussa suuren videomallin lanseerannut minimaxin perustaja yan junjie kertoi alphabetille, että shanghaissa minimax ostaa korpusyritysten korkealaatuisen datan lisäksi myös alustapohjaista dataa.

data, algoritmit ja laskentateho ovat suurten tekoälymallien kolme pilaria, joista data on perusta suurten mallien koulutukselle. koska internet-data on kuitenkin hajallaan eri alustoilla ja esteiden ympäröimä, julkinen data, jota voidaan käyttää suurten tekoälymallien kouluttamiseen, on kuivumassa.

tutkimusorganisaatio epoch ai julkaisi kesäkuussa uuden tutkimuksen, jossa ennustetaan, että teknologiayritykset käyttävät tekoälyn kielimallien julkiseen koulutukseen käytettävissä olevan datan loppuun vuosina 2026-2032. openai:n toimitusjohtaja altman myönsi jo toukokuussa 2023 julkisesti, että tekoälyyritykset tyhjentävät kaiken internetin datan lähitulevaisuudessa.

laadukkaan uuden datan löytämisestä suurten mallien "syöttämistä" varten on tullut yleinen ongelma kaikille suurille tekoälymallitiimeille.

jotkut suuret yritykset ovat toistuvasti olleet riita-asioissa epäiltyjen kolmansien osapuolten tietojen luvattomasta käytöstä. elokuussa yli 100 youtube-ankkuria haastoi openai:n oikeuteen ja syytti sitä miljoonien youtube-videoiden laittomasta kopioinnista suurten mallien kouluttamiseksi. mukana ovat myös jättiläiset, kuten nvidia, apple ja anthropic.

suurille valmistajille vain oma suljetun lähdekoodin korkealaatuinen data voi varmistaa suurten mallien tiedon syöttämisen ajantasaisuuden ja laadun. kolmannen osapuolen alustojen ohittaminen, joissa on epävakaa laadunvalvonta, ja yrittää henkilökohtaisesti kirjoittaa "komentosarjoja" tekoälylle voi olla uusi lähestymistapa suurille mallinvalmistajille.

tämän vuoden alussa osa-aikatöitä tallentavia tekoälyjä, joiden hinta oli 300 yuania per istunto, ilmestyi hiljaa xiaohongshun kaltaisille alustoille.

verrattuna osa-aikaiseen tekoälytyöhön sellaisilla alustoilla kuin boss direct employment, joka maksaa 30-55 yuania tunnissa, niin sanottu "osa-aikatallennusstudio huippustudiossa", joka maksaa 300 yuania per tunti ja on tallennettu dazhong temple pekingissä on melko houkutteleva.

elokuussa, kun minut vedettiin äänitysryhmään wechatin kautta, alphabet list (id: wujicaijing) havaitsi, että ryhmässä oli jo yli 200 henkilöä odottamassa äänitystä. koska on määrätty, että kahden hengen ryhmä voi nauhoittaa keskustelua enintään kolme tuntia, ryhmään liittymisen jälkeen ilmestyy eniten wechat-viestejä, kuten "etsitään kumppania" ja "voiko joku nauhoittaa kanssani?"

itse asiassa ei ole helppoa olla ai-tallennin ja "kirjoittaa skriptejä tekoälylle" 300 yuanilla kerrallaan.

ensinnäkin, ennen tallennusta, jokaisen on ladattava "näytteeksi" 2-3 minuutin keskustelunauhoitus. jatämän prosessin tarkistaa kolme työntekijää. vain jos 2 heistä läpäisee tarkistuksen, tallennusaika voidaan varata suoraan.

näytteen toisen tarkastelun jälkeen zhang xue varasi ajan nauhoitusajaksi kello 18–21 toisella viikolla näytteen lähettämisen jälkeen. ryhmäkeskustelussa monet ihmiset jäivät kiinni esimerkkiistuntoon: "arvosteluopettaja pitää niistä, jotka voivat jutella ja rakastaa chattailua."

huomautus: dazhong temple recording group lähde: alphabet list screenshot

nauhoitusyönä zhang xue istui tuolilla äänitysstudion läpinäkyvän lasin läpi, säädettynä parhaaseen asentoon, jossa ääni voitiin tallentaa selkeästi, ja kuunteli byten työntekijöiden ohjeita kuulokkeilla.

ensimmäinen istunto oli 80 minuutin ilmainen chat heidän kahden välillä ilman aihetta. byte-henkilökunnan vaatimukset ovat, että chat ei saa olla "pientä puhetta" ja olla tyytyväisiä. samanaikaisesti jokainen aihe ei saa olla pitempi kuin 10 minuuttia, eikä se saa olla suhteellisen tasaista.

zhang xue ja hänen kumppaninsa puhuivat äänityshuoneessa valtavan kuulokemikrofonin kautta yrittäen olla tauottamatta 80 minuuttia. samalla kannattaa myös yrittää estää kehoasi liikkumasta ja yskimästä, nauramasta ja muista äänitteen laatua häiritsevistä äänistä.

äänenlaadun varmistamiseksi byte-henkilökunta kytkee kuulokkeet ajoittain ja kehottaa nauhoittamaan uudelleen, jos on melua tai jos chat on "luonnoton ja siinä on liikaa ohjausmerkkejä", se on myös -nauhoitettu. laadukkaan äänen standardi on, että chat on luonnollista, aiheet jatkuvat, tunnelma on positiivinen, mutta ei saa kiirehtiä keskustelua, ja sen tulee olla tyytyväistä, ei runsasta. toistuvien uudelleensäätöjen jälkeen ensimmäinen istunto kesti lähes 2 tuntia.

toisessa vaiheessa nauhoitettiin 60 sarjaa dialogeja, joissa oli kehotteita. vaikka viiteteksti on olemassa, zhang xuen tekoälynauhurina ei tarvitse vain koota dialogeja tilanteen mukaan, vaan myös varmistaa tiukan dialogimallin, eli viimeinen dialogisarja päättyy a:een, sitten seuraava sarja. dialogien tulee alkaa b:llä.

samaan aikaan, jotta suurten mallien virheenkorjaustarpeet voidaan täyttää, jokaisessa ohjeessa on selkeästi sanottava: "voiko se olla yksityiskohtaisempi? voiko se olla yksityiskohtaisempi? voiko se olla yksityiskohtaisempaa?" tavu henkilökunta teki myös selväksi, että komentosarjaa voidaan muuttaa, mutta vain kehotussanoja ei voi muuttaa. toisin sanoen tekoälyn voi olla vaikea tunnistaa sitä.

tallenteen laadun varmistamiseksi, jos tallenne on epäselvä, sanoja nielty tai mieliala on riittämätön, tallenne nauhoitetaan uudelleen. kun äänitys oli ohi, zhang xue lähti dazhongin temppelistä. kello oli melkein 10 illalla. kolmen tunnin nauhoitusistunnon aikana byten henkilökunnan on äänitettävä kolme kertaa päivässä, ja viikoittainen aikataulu on melkein täynnä.

pekingin lisäksi byte on jo rekrytoinut tallentajia shanghaissa, hangzhoussa, chongqingissa, nanjingissa, chengdussa, tianjinissa ja muissa kaupungeissa.

suurille mallinvalmistajille, jotka kaipaavat uutta dataa, "rahan kuluttaminen tietojen hankkimiseen" ei ole uutta.

vuonna 2023, kun suurista tekoälymalleista tulee uusi trendi, suuret valmistajat eivät vain osta tietoja suoraan kolmansien osapuolien kautta, vaan luovat myös ulkoistustehtäviä, kuten "big data annotator" ja "ai editor".

vuonna 2023 arlene, joka opiskeli sivukielistä, alkoi "työskennellä" suurille malleille verkkosivustojen, kuten boss direct recruitment, kautta jatkotutkintojen pääsykokeen aikana.

alin tekee "x data" -nimisen yrityksen kautta hyväksymistarkastuksen suuren mallikuvan tunnistaman tekstisisällön osalta, eli tarkistaa, onko suuren mallikuvan tunnistuksen jälkeen oleva pienikielinen teksti yhdenmukainen kuvan kanssa. "yksi sana tai lause lasketaan yhdeksi laskentalaatikoksi ja jokainen laatikko 1 senttiin" hinnan mukaan lin voi ansaita kymmeniä juaneja kerrallaan laskemalla satoja kohteita.

tänä vuonna a lin sai myös tilauksia kolmannen osapuolen tietoyhtiön kautta tehdä käännöksiin liittyviä tekoälytietomerkintöjä, ja hinta nousi yli 1 juaniin kappaleelta. kuitenkin voidakseen arvioida manuaalisesti, ovatko suurella mallilla käännetyt pienet kielet, kuten ranska, tarkkoja, annotaattoreiden on paitsi löydettävä virheet, myös käytettävä eri värejä 5-6 suuren käännössisällön merkitsemiseen. mallit. "joskus yhden kappaleen katsominen kestää 10-15 minuuttia."

tekoälyn parissa työskenneltyään alin huomasi myös, että kun nämä suuret mallit erotettiin alkuperäisestä pienten kielten oppikirjakorpuksesta, niin sosiaalisten alustojen käyttämät uudet sanat tai pienten ryhmien tavanomaiset sanat eivät sisälly omiin tietokantoihinsa siitä: "tekijänoikeuden rajoittama, en voinut oppia uutta tekstisisältöä, ja myös käännösvaikutus vaikutti."

kolmannen osapuolen ulkoistamisyritysten lisäksi suuret valmistajat ovat perustaneet omat tietokantansa.

esimerkiksi baidun tietokannat on jaettu muihin kuin ensimmäisen tason kaupunkeihin, kuten nanchang, yangquan, taiyuan, guizhou jne., ja tietojen merkintöjen, murteiden lukemisen ja muiden tietojen keräämiseksi näissä kaupungeissa tarvitsee vain "rekrytoi joitain paikallisia korkeakouluopiskelijoita, jotka osaavat käyttää tietokoneita."

kuitenkin verrattuna suuriin valmistajiin, jotka ovat valmiita käyttämään rahaa, suurten mallitiikereiden on paljon vaikeampaa saada laadukasta tietoa.

"suuret yritykset ovat usein monopolisoineet korkealaatuisen suljetun lähdekoodin datan. tekoälyn startup-yritykset, jopa neljä tekoälytiikeriä, voivat saada vain marginaalista dataa."leo, algoritmihenkilöstö suurelta mallivalmistajalta, kertoi alphabetille.

koska korkealaatuinen data voi merkittävästi parantaa mallin suorituskykyä, avoimen lähdekoodin julkisen datan lisäksi suuret mallien valmistajat tarvitsevat korkealaatuisempia tietoja koulutuksen suorittamiseksi teknologian iteroinnin saavuttamiseksi. näitä tietoja hallitsevat kuitenkin usein suuret yritykset. esimerkiksi kotimaisia uutistietoja hallitsevat suuret yritykset, kuten tencent ja byte, kun taas ulkomailla niitä hallitsevat common crawl, gdelt, the pile jne.

ulkomailla jopa youtube ilmoitti kesäkuun lopussa tarjoavansa lisenssisopimuksia parhaille levy-yhtiöille vastineeksi tekijänoikeudella suojatusta musiikista, jota käytetään koulutukseen. openai on solminut maksullisia sopimuksia uutisjulkaisijoiden, kuten politicon, the atlanticin, timen ja financial timesin, kanssa heidän uutismateriaaliensa käyttämisestä ja lainaamisesta.

kun avaintietoja ohjataan pääasiassa "kanavan osapuolien" sisällä, kuten tencent, byte ja meta, tärkeimmät käyttäjätiedot on jaettu jo langattoman internetin aikakaudella, jos he haluavat saavuttaa teknologisen läpimurron tekoälytiikereiden on ensin maksettava valtava summa rahaa.

valmistajille suuren malliyrittäjyyden jälkipuoliskolla "big data illuusio" on myös yksi syy siihen, miksi suuret mallit eivät yhdessä pysty määrittämään, onko 9.11 vai 9.9 suurempi.

kun alphabet syötti "pienen tytön, joka piti ragdoll-kissaa sylissään" minimaxin kotilo ai:hen, 6 sekunnin videon luominen kesti 2 minuuttia. kissaa pitelevän tytön sormet olivat täynnä yksityiskohtia, mutta hän piti kissaa sylissään se, joka käyttää sitä, ei ole ragdoll-kissa.

tuotujen tulosten edessä minimaxin videosuuren mallin työntekijä selitti: "tämä johtuu siitä, että suuren mallin kouluttamiseen käytetyt tiedot eivät sisällä ragdoll-kissoja kissansidontakuvissa."

kun mallin tuottama sisältö on ristiriidassa todellisten tosiasioiden tai käyttäjän syötteen kanssa, eli suuri malli muuttuu hallusinoivaksi ja alkaa "puhua hölynpölyä".uusia käyttäjiä kaipaaville suurille mallivalmistajille sukupolvivaikutelma ratkaisee luonnollisesti sen, onko tuotteella mahdollisuus päästä ulos ympyrästä.

"syötekomento oli poimia kaikki viihdeuutiset elokuussa. tämän seurauksena tekoäly loi viihdeuutisten sisällön elokuussa 2019, kun uskollinen käyttäjä kong fang on saanut tekoälyn kiinni." hölynpölyä" useita kertoja. "puheen" hetkellä hän joko kokosi lainauksia, joita ei ollut olemassa, tai ei kyennyt ymmärtämään uusia käsitteitä viimeisen kahden vuoden aikana, mikä aiheutti kong fangin luottamuskriisin suuria malleja kohtaan .

nyt kong fang käyttää 2-3 suurta mallia eri valmistajilta saman ongelman "ajamiseen" samaan aikaan ja vertailee sitten keskeisiä tietoja, kuten aika, määrä, asiakirjat jne., ja vahvistaa sen myös kahdesti. hakukoneiden kautta: "nyt tekoäly tuottaa se on kuin korttien piirtämistä, vaikutus on hallitsematon ja on helppo olla henkisesti jälkeenjäänyt", kong fang sanoi avuttomasti.

laadukas data saattaa vähitellen loppua "suuren mallin illuusion" ongelman ratkaisemiseksi on luonnollisesti kriittistä käyttää mitä dataa "syöttää" suuri malli.

baidua lähellä oleva henkilö kertoi alphabetille, että suuret mallinvalmistajat ostavat tietoja suoraan kolmansien osapuolien kautta, mikä säästää aikaa ja vaivaa, mutta ei ole "helppoa", koska ostettujen tietojen laatu, oli se sitten tekstiä, tallennusta tai videota, on moitteeton.

niille, jotka kehittävät aktiivisesti suuria päämalleja b-pään asiakkaille, suurten mallien yksilöllisemmistä räätälöinnistä tietylle asiakkaalle on tullut suurin tulonlähde suurten valmistajien tekoälyliiketoiminnalle nykyään. mutta jos haluat kouluttaa tällaisen henkilökohtaisen mallin, sinun on "syötettävä" sitä korkeiden standardien mukaan suodatetuilla tiedoilla ja jopa säädettävä tiedon kysyntää suuren mallin oppimisvaikutuksen mukaan eri vaiheissa. "se ei ole kuin vain ostamalla joukon ääniä, voit oppia sen suurella mallilla."

kolmannen osapuolen tietoyhtiössä tekoälykääntäjänä työskennellyt lin havaitsi myös, että "tiedot toimittavana osapuolena hänen yrityksensä ei näytä todella välittävän suuren mallin tuottaman puheen laadusta."

ranskaan, espanjaan ja muihin sivukieliin erikoistuneen alinin on verrattava 5–6 suuren mallin sukupolvivaikutuksia, joilla hän voi kääntää sivukielisen puheen tekstiksi samanaikaisesti, mutta tarvitsee vain karkean tuloksen luodut 5 - 6 tekstiä mitkä ovat yksityiskohtaiset kielierot ja kuinka niitä voidaan parantaa? kolmannen osapuolen yritys ei kysy ja on "välinpitämätön".

laadukkaan tiedon puute voi olla syy siihen, miksi monet käyttäjät sanovat, että "millä tahansa suurella mallilla luoma sisältö on lähes sama", ja se on myös perimmäinen syy siihen, miksi käyttäjät "vaihtuvat vain toiseen suureen malliin, kun he maksavat se".

käyttäjille, kotimaisilla suurilla malleilla, jotka väittävät saavuttavansa openai:n ja jatkavansa toistamista, ei välttämättä ole merkittäviä eroja, eikä niistä voi tulla uskollisia käyttäjiä. tämä aiheuttaa myös hämmennystä suurille mallien valmistajille, jotka haluavat kaupallistaa .

siksi, vaikka "käsikirjoituksen kirjoittaminen tekoälylle" henkilökohtaisesti on aikaa vievää, työlästä ja kallista, byte on myös valinnut uuden polun. on ennakoitavissa, että kaupallistamisen ja käyttäjähankinnan keskeisten ongelmien ratkaisemiseksi suuren budjetin "ostaminen datasta" voi muodostua suurten mallivalmistajien uudeksi kilpailupisteeksi.

(alin, kong fang ja zhang xue ovat nimimerkkejä artikkelissa)

uutiset

tekoälytiedoista on pulaa, suuret valmistajat katselevat halpoja nuoria

johdanto

yhteystietoni