"Kaikki Internetin korkealaatuinen tekstidata otetaan käyttöön vuoteen 2028 mennessä"

2024-08-01

Tutkimusyhtiö Epoch AI ennustaa, että kaikkea Internetin korkealaatuista tekstidataa käytetään vuoteen 2028 mennessä, ja koneoppimistietojoukot voivat tyhjentää kaiken "korkealaatuisen kielidatan" vuoteen 2026 mennessä.

Tutkijat huomauttavat, että tulevien sukupolvien koneoppimismallien kouluttaminen tekoälyn (AI) tuottamiin tietosarjoihin voi johtaa "mallin romahtamiseen". Aiheesta, onko suurille tekoälymalleille pulaa harjoitustiedoista, on viime aikoina tullut jälleen kuuma aihe mediassa.

Äskettäin The Economist -lehti julkaisi artikkelin "Tekoälyyritykset kuluttavat pian suurimman osan Internetin tiedoista", ja huomautti, että kun Internetin korkealaatuinen data kuivuu, tekoälyyritykset kuluttavat pian suurimman osan Internetin tiedoista "tietoseinä". Tekoälyn suurten malliyritysten haasteena on nyt löytää uusia tietolähteitä tai kestäviä vaihtoehtoja.

Artikkelissa viitattiin tutkimusyhtiö Epoch AI:n ennusteeseen, jonka mukaan kaikkea Internetin korkealaatuista tekstidataa käytetään vuoteen 2028 mennessä, ja koneoppimistietojoukot voivat tyhjentää kaiken "korkealaatuisen kielidatan" vuoteen 2026 mennessä. Tämä ilmiö tunnetaan teollisuudessa "tietomuurina". Tietomuurin käsittely on yksi tekoälyyritysten nykyisistä suurimmista ongelmista, ja se voi myös todennäköisimmin hidastaa niiden koulutuksen edistymistä. Artikkelissa korostetaan, että koulutusta edeltävien tietojen kuivuessa Internetissä koulutuksen jälkeinen merkitys korostuu. Merkintäyritykset, kuten Scale AI ja Surge AI, tienaavat satoja miljoonia dollareita vuosittain kerääessään koulutuksen jälkeisiä tietoja.

The Economist -lehti lainaa Epoch AI -kaaviota

Itse asiassa alalla on jo pitkään ollut ääniä "tietojen ehtymisestä". Paperi on huomannut, että heinäkuun 2023 alussa Kalifornian Berkeleyn yliopiston tietojenkäsittelytieteen professori ja "Artificial Intelligence - Modern Approaches" -kirjan kirjoittaja Stuart Russell varoitti, että ChatGPT:n kaltaiset tekoälyyn perustuvat robotit voivat pian "uuputtaa teksti maailmankaikkeudessa", teknologia robottien kouluttamiseen keräämällä suuria määriä tekstiä "alkaa joutua vaikeuksiin."

Mutta alalla on myös erilaisia ääniä. Haastattelussa Bloombergin teknologiatoimittajan Emily Changin kanssa toukokuussa 2024 Li Feifei, kuuluisa tietojenkäsittelytieteilijä, Stanfordin yliopiston tekoälylaboratorion johtaja ja Stanfordin yliopiston professori, teki selväksi, ettei hän ollut samaa mieltä "meidän kanssamme". "Tekoälymalleista on loppumassa koulutusta varten tarvittavat tiedot" on pessimistisempi näkemys. Li Feifei uskoo, että tämä näkemys on liian kapea. Pelkästään kielimallien näkökulmasta katsottuna on vielä suuri määrä eriytettyä dataa, joka odottaa louhimista räätälöityjen mallien rakentamiseksi.

Nykyään yksi ratkaisu rajoitetun harjoitusdatan ongelmaan on käyttää synteettistä dataa, joka on koneella valmistettua ja siksi rajatonta. Mutta synteettinen data sisältää myös synteettisen datan riskin Kansainvälisessä akateemisessa lehdessä Nature 24. heinäkuuta julkaistu tietojenkäsittelytieteellinen artikkeli huomautti, että tulevien sukupolvien koneoppimismallien kouluttaminen tekoälyn (AI) luomilla tietosarjoilla voi saastuttaa heidän datansa. Tuotos, tätä käsitettä kutsutaan "mallin romahtamiseksi". Koska mallit on koulutettu saastuneelle datalle, ne päätyvät tulkitsemaan todellisuutta väärin.

Tutkimusryhmä osoitti tutkimuksessa, että suuressa kielimallin oppimistehtävässä taustalla olevan jakauman häntää on tärkeä käyttää suurten kielimallien laajamittainen käyttö sisällön julkaisemiseen Internetissä saastuttaa tiedonkeruun seuraajiensa kouluttamiseksi. Tulevaisuudessa ihmiset Todellinen data suurten kielimallien vuorovaikutuksista on yhä arvokkaampaa. Tutkimusryhmä kuitenkin mainitsi myös, että tekoälyn tuottama data ei ole täysin ei-toivottavaa, vaan tiedot on suodatettava tarkasti. Esimerkiksi kunkin sukupolven mallin harjoitustiedoissa säilytetään 10 % tai 20 % alkuperäisestä tiedosta, voit myös käyttää monipuolista dataa, kuten ihmisten tuottamaa dataa, tai tutkia tehokkaampia harjoitusalgoritmeja.

uutiset

"Kaikki Internetin korkealaatuinen tekstidata otetaan käyttöön vuoteen 2028 mennessä"

Johdanto

yhteystietoni