Keskustele siitä, kuinka ajatella suuria malleja syväoppimisen tutkijan Yann LeCun

Keskustellaan siitä, kuinka ajatella suuria malleja syväoppimisen tutkijan Yann LeCunin kanssa

2024-08-09

Generatiivisen tekoälytekniikan edistymisen ja suosion myötä viimeisen kahden vuoden aikana suurten mallien käyttäminen sisällön tuottamiseen on vähitellen tullut osa tavallisten ihmisten elämää. Tämä prosessi näyttää helpolta: kun syötämme käskyn, suuri malli voi suoraan tulostaa vastauksen puolestamme. Kulissien takana kukaan ei kuitenkaan tiedä mallin sisäisiä toimintaperiaatteita ja mallin päätöksentekoprosessia. Tämä on tuttu "koneoppimisen musta laatikko".

Mustan laatikon mallien selittämättömyyden vuoksi tekoälyn turvallisuus on aina kyseenalaistettu. Joten tutkijat alkoivat yrittää avata suurten mallien mustaa laatikkoa, jota teollisuudessa kutsutaan "valkoisen laatikon tutkimukseksi". Yhtäältä white-box-mallien tutkiminen voi auttaa ihmisiä ymmärtämään black-box-malleja, mikä optimoi suuria malleja ja parantaa tehokkuutta. Toisaalta valkoisen laatikon tutkimuksen tavoitteena on työntää tekoäly, insinööriaine, tieteeseen.

Tällä kertaa kutsuttiinChen Yubei, apulaisprofessori, sähkö- ja tietokonetekniikan laitos, Kalifornian yliopisto, Davis, hänen tutkimussisältönsä liittyy "valkoisen laatikon malliin". Lisäksi hän on myös Turing-palkinnon voittajan ja Metan päätutkijan Yann LeCunin tutkijatohtori. Tässä jaksossa hän keskusteli kanssamme valkoisten laatikkomallien uusimmasta tutkimuksen edistymisestä ja jakoi meille myös Yann LeCunin, joka on hänelle tuttu tiedemies, joka on kokenut tekoälyteollisuuden ylä- ja alamäkiä, mutta joka on edelleen keskittynyt puhtaasti. .

Grafiikka Violet Dashi. Kuvitukset Nadia ja Simple Line

Seuraavat ovat valikoituja haastatteluja

01 Ihmisen aivot ja iso malli

"Silicon Valley 101":Voitko ensin esitellä lyhyesti tekemäsi "valkoisen laatikon malli" -tutkimuksen? Oletko tutkimuksesi aikana havainnut kuinka selittää GPT:n syöttö- ja tulosongelmia?

Chen Yubei:Itse asiassa suhteellisen suuri tavoite tähän suuntaan on edistää syvällistä oppimista puhtaasti empiirisesta aineesta tieteelliseksi aineeksi tai muuttaa tekniikka tieteeksi, koska tällä hetkellä tekniikka kehittyy suhteellisen nopeasti, mutta tiede on suhteellisen hidasta. Aiemmin oli malli nimeltä sanan upottaminen, joka voisi oppia joitain kielen esityksiä.

Kaikilla oli itse asiassa kysymys tuolloin: Tehtävämme suorituskyky on parantunut, mutta mikä tarkalleen sai tämän suorituskyvyn parantumaan? Joten teimme tuolloin hyvin varhaisen työn, jonka tarkoituksena oli avata nämä sanaesitykset. Kun avaat sen, löydät mielenkiintoisia ilmiöitä.

Esimerkiksi, jos otat sanan omena, voit löytää siitä joitakin metamerkityksiä. Esimerkiksi yksi merkityksistä voi edustaa hedelmää ja toinen voi edustaa jälkiruokaa tuotteita, mikä tietysti viittaa Applen tuotteisiin. Joten tulet huomaamaan, että voit löytää nämä metamerkityksiä sanan varrelta, ja sitten voit laajentaa tämän menetelmän suureen kielimalliin.

Toisin sanoen, kun olemme oppineet suuren kielimallin, voimme etsiä mallista joitain metamerkityksiä ja yrittää sitten avata sitä. Löydät suuren kielimallin, jossa on itse asiassa monia kerroksia.

Perustasolla se ilmestyy ilmiöksi nimeltä "sanan yksiselitteisyys". Esimerkiksi englanniksi on sana "left" Tämä sana tarkoittaa sekä vasemmalle kääntymistä että lähtemisen menneisyyttä. Sitten sen erityinen merkitys riippuu kontekstista ennen ja jälkeen, joten iso kieli Malli täydentää sanan yksiselitteistä ensimmäisissä kerroksissa.

Keskipitkällä aikavälillä huomaat, että uusia merkityksiä ilmaantuu. Tuolloin ajattelimme, että erittäin mielenkiintoinen asia oli nimeltään "Yksikkömuunnos". tällä tavalla monia samanlaisia tämän metamerkityksen tasoja.

Kun menet pidemmälle, huomaat jopa, että näiden metamerkitysten joukossa on kaava. Tämä kaava on se, että kun kontekstissa esiintyy toistuva merkitys, se aktivoituu. Voit käyttää tätä menetelmää suuren kielen avaamiseen malleja ja pieniä kielimalleja. Nämä ideat eivät tietenkään ole täysin uusia Niillä on historiaa esimerkiksi Matthew Zeilerin jälkeen.

"Silicon Valley 101":Voimmeko tätä ajattelutapaa noudattaen optimoida paljon insinöörin näkökulmasta, jos tiedämme, miten osa siitä toimii?

Chen Yubei:Kyllä, tämä on erittäin hyvä kysymys. Mielestäni suhteellisen korkea vaatimus mille tahansa teorialle on, että se voi ohjata käytäntöä. Joten kun teimme kielimalleja ja sanaston esityksiä, yksi tavoitteistamme oli tuolloin, että voimmeko sen ymmärtämisen jälkeen optimoida nämä mallit. ? Itse asiassa se on mahdollista.

Esimerkiksi, jos löydät metamerkityksen suuresta kielimallista, se aktivoituu, kun se näkee tietyn metamerkityksen, niin tätä hermosolua voidaan käyttää erottelijana ja voit käyttää tätä jotain tiettyjen tehtävien suorittamiseen. Näitä metamerkityksiä muuttamalla mallin harhaa säädetään.

Jos huomaan sen, voin säätää sitä. Äskettäin Anthropic on tehnyt samanlaista työtä, joka on löytää kielimallissa mahdollisesti esiintyviä harhoja ja tehdä siihen joitain muutoksia tehdäkseen mallista oikeudenmukaisemman ja turvallisemman.

"Silicon Valley 101":Huomasin, että OpenAI teki myös viime vuonna tutkimuksen, jossa GPT4:llä selitettiin GPT2 ja miten GPT2 toimii. He esimerkiksi havaitsivat, että GPT 2:n neuroni aktivoituu, kun vastataan kaikkiin Yhdysvaltojen historiaan liittyviin asioihin noin vuoden 1800 tienoilla. Linjan 5 12. neuroni aktivoituu Kun vastataan kiinaksi, se on 13. neuroni päällä rivi 12. on aktivoitu.

Jos neuroni, joka vastaa kiinaa, sammutetaan, sen kyky ymmärtää kiinaa heikkenee merkittävästi. Mutta mitä kauempana neuronit ovat esimerkiksi, kun neuronit saavuttavat noin 2000 riviä, niiden yleinen uskottavuus on laskenut paljon. Oletko huomannut heidän tutkimuksensa?

OpenAI-tutkimus: Anna GPT4:n selittää GPT2-hermosolut

Chen Yubei:En ole vielä lukenut tätä artikkelia, mutta tämä menetelmä on hyvin samanlainen kuin aivojen neuronien leikkaus. Vastaavasti kuin nyt, jos on neuroverkko, tämä verkko tarkoittaa, että se voi tietyssä mielessä löytää paikallisen olemassaolon sen sijaan, että se olisi täysin hajallaan, jolloin sille voidaan suorittaa joitain toimintoja. Esimerkiksi jos tietty neuroni katkeaa, voit ajatella, että tietty osa sen kyvystä on suhteellisen menetetty.
Itse asiassa sama koskee ihmisiä. Esimerkiksi epilepsiaa sairastavalla henkilöllä voi olla kielimuuria leikkauksen jälkeen, mutta se ei vaikuta muihin ihmiskehon toimintoihin.

"Silicon Valley 101":OpenAI ja Anthropic tutkivat parhaillaan suurten mallien tulkittavuutta. Onko tutkimuksessasi eroa?

Chen Yubei:Itse asiassa kukaan ei tiedä onnistuuko tutkimus valkoisen laatikon mallista tulevaisuudessa. Olen keskustellut siitä ohjaajani kanssa, mutta kaikki ovat yhtä mieltä siitä, että tätä asiaa kannattaa kokeilla. Jos palaamme tälle alueelle, tutkimuksemme haluaa itse asiassa ymmärtää tekoälyä ja rekonstruoida sen ymmärryksemme avulla ja rakentaa sitten pohjimmiltaan jotain erilaista. Joten havainto, eli tulkittavuus, on mielestäni vain keino.
Toisin sanoen, avaanko tämän mallin, teenkö näitä kokeita tai teenkö muutoksia malliin, luulen, että nämä ovat joitain menetelmiä, joita yritämme ymmärtää, mutta mikä on todella tärkeää valkoisessa laatikossa malli on Vielä täytyy palata itse signaaliin. Sillä olipa kyseessä ihmisen aivot tai kone, heidän oppimisensa olemus perustuu signaaleihin.

Maailmassamme on joitain rakenteita, ja heidän on myös opittava näiden rakenteiden kautta, ja juuri näitä rakenteita he oppivat. Joten voimmeko löytää näiden rakenteiden takana olevat lait sekä joitain matemaattisia työkaluja niiden edustamiseen, ja sitten järjestää nämä asiat uudelleen rakentamaan erilainen malli? Jos tämä voidaan tehdä, uskon, että se herättää odotuksia järjestelmiemme kestävyyden, turvallisuuden ja luotettavuuden parantamisesta.
Lisäksi sen tehokkuus kasvaa. Tämä on vähän kuin termodynamiikan teoria, joka syntyi sen jälkeen, kun höyrykone ilmestyi ensimmäisenä, mikä tukee sen muuttumista täydellisestä käsityöläisestä tieteeksi. Samalla tavalla näyttää siltä, että meillä on nyt ensimmäistä kertaa höyrykone datassa, koska emme ymmärtäneet tietojamme aiemmin, voimme vihdoin alkaa kehittää tekoälyalgoritmeja tietojen kaappaamiseksi.

"Silicon Valley 101":Siitä tulee siis energiatehokkaampi.

Chen Yubei:Mitä tulee energiansäästöön, voin antaa muutaman mielenkiintoisen esimerkin. Ensimmäinen kohta on ehdottomasti energiansäästö, koska aivot vastaavat hehkulamppua, jonka virrankulutus on 20 wattia, ja nykyisissä supertietokoneissa voi olla yli miljoona wattia.

Toinen seikka on, että jos tarkastelemme eri organismien kehitystä luonnossa, niiden evoluutiotehokkuus on itse asiassa erittäin korkea. Esimerkiksi on olemassa erityinen hämähäkki nimeltä Jumping Spider. Sillä on vain muutama miljoona hermosolua, mutta se voi tehdä hyvin monimutkaisia kolmiulotteisia ryhmälinjoja vangitakseen saaliinsa.

Hyppyhämähäkki, Wikipedia

Ja yksi mielenkiintoisimmista asioista minulle on se, kuinka tehokkaasti ihmiset käyttävät dataa. Llama3:n nykyinen datamäärä on saavuttanut noin 13 biljoonaa Tokenia. Mutta kuinka paljon tietoa ihminen voi saada elämänsä aikana? Oletetaan, että voimme saada 30 kuvaa sekunnissa, ja päivittäinen kuvausaika on 12 tuntia, ja teemme sitä 20 vuotta, niin voimme todennäköisesti saada 10 miljardia merkkiä ja tekstiä voidaan saada melkein saman verran data on paljon pienempi kuin suuren mallin.
Joten kysymys kuuluu, kuinka ihmiset saavat niin vahvan yleistyskyvyn niin pienellä datamäärällä? Tämä on mielestäni hämmästyttävää ihmisaivojen tehokkuudessa.

"Silicon Valley 101":Onko vaikeampi paljastaa, kuinka suuret mallit toimivat, vai paljastaa kuinka ihmisaivot toimivat? Se kuulostaa minusta vaikealta.

Chen Yubei:Molemmilla on omat vaikeutensa, mutta lähestymistapa on samanlainen. Olipa kyseessä ihmisaivot tai suuri kielimalli, yritämme tarkkailla sitä ja nähdä, mihin se reagoi.

Tämä menetelmä näkyy itse asiassa 1980-luvulla Nobelin fysiologian palkinnon saaneiden David Hubelin ja Torsten Weiselin visuaalisen aivokuoren tutkimuksesta. He löysivät yksinkertaisen solun ja yrittivät tutkia, kuinka nämä hermosolut synnyttävät impulsseja, kun ihmiset näkevät jotain, ja analysoida hermosolujen erilaisia vastetiloja, kun he näkevät erilaisia asioita, kuten silloin, kun ne eivät reagoi lainkaan ja kun he ovat hyvin innoissaan. , ja sitten he löysivät neuronin vastaanottokentän.

DH Hubel ja TN Wiesel, vuoden 1981 fysiologian tai lääketieteen Nobelin palkinnon saajat

Tutkimuksemme suurista kielimalleista on itse asiassa samanlainen. Etsimme erilaisia syötteitä ja ymmärrämme sitten, mitkä mallin sisällä olevat neuronit ovat kiinnostuneita mistäkin syötteistä. Mutta eroja on silti.

Ensimmäinen ero on, että ihmisen aivojen havainnointiin liittyy monia rajoituksia joko plug-in-elektrodien tai aivo-tietokoneliitäntämenetelmien avulla. Suurien kielimallien luonnollinen etu on kuitenkin se, että havainnointimenetelmät eivät ole enää rajoitettuja Parempi menetelmä, voit analysoida sitä pitkällä aikavälillä ja voit jopa analysoida mallia tarkemmin joillakin differentiaalisilla menetelmillä.

Mutta sen haittapuoli on, että suurten mallien kyky on paljon heikompi kuin aivojen, etenkin suurten kielimallien, koska se oppii maailman vain kielestä, joten sen ymmärrys maailmasta on puutteellinen, aivan kuten ihmisiä ei ole muita aisteja paitsi kieltä.

Sitä vastoin aivot voivat käsitellä enemmän ulottuvuuksia, ja aistit ovat erittäin rikkaat. Joskus mietimme kysymystä, onko kieli valmis? Jos muut aistit eivät tue, voivatko kaikki kielen käsitteet olla olemassa itsenäisesti vai tarvitsevatko ne muiden aistien tukea todellisen ymmärtämisen saavuttamiseksi.

Esimerkiksi, jos objekti "jääkaappi" ei liity kuuman ja kylmän tunteisiin todellisessa maailmassa, vaan kuvaa vain tilastollisia ominaisuuksia, kuten oven olemassaoloa, tämä kuvaus on epätäydellinen.

"Silicon Valley 101":Joten itse asiassa nykyisestä suuresta mallista puuttuu vielä paljon aivoihin verrattuna. Mutta koska voimme purkaa sen osiin ja tutkia sitä, luulet sen silti menevän hieman pidemmälle kuin pyrkimys avata aivojen salaisuudet.

Chen Yubei:Suuren kielimallin ymmärtämisen vaikeus on se, että sinulla on monia tapoja tarkkailla sitä, ja voit ymmärtää sitä enemmän. Esimerkiksi jos konetta on kaksi, joista toinen on täysin havainnoitavissa ja toinen osittain havainnoitavissa, niin intuitiivisesti tarkasteltuna täysin tarkkailtava kone on helpompi ymmärtää. Tietysti siinä on joitain ominaisuuksia, joita tällä koneella ei ole, joten se ei voi korvata jonkinlaista ymmärrystä ihmisaivoista.

"Silicon Valley 101":Haluan myös esitellä yleisölle, että Yubei opiskeli aiemmin neurotiedettä. Joten luuletko, että aiheesi taustasi auttaa sinua nykyisessä tutkimuksessasi tekoälyn alalla? Onko olemassa monia tieteidenvälisiä tutkimusmenetelmiä, joita voidaan oppia toisiltaan?

Chen Yubei:En todellakaan ole laskennallisen neurotieteen pääaine. Perustutkintoni oli Tsinghuan yliopiston elektroniikan osastolla ja Berkeleyn sähkötekniikan ja tietojenkäsittelytieteen laitoksella. Tuolloin työskennellyt tutkimuslaitos oli kuitenkin neurotieteen tutkimuslaitos, joten mentorini oli laskennan asiantuntija. neurotiede.

Mitä tulee juuri nyt esitettyyn kysymykseen, uskon, että neurotieteen opiskelu on minulle yleensä inspiraation lähteenä. Koska kun tiedät nämä järjestelmät luonnossa ja mitä ne voivat tehdä, sinulla voi olla erilaisia ajatuksia ja tarkastella ongelmaa uudelleen.

Esimerkiksi kuva on kaksiulotteinen tulosignaali, sen pikselit ovat vaaka- ja pystysuorat, ja sitten se muodostaa ruudukon. Mutta ihmisen verkkokalvo ei näytä tältä. Ensinnäkin se on eräänlainen reseptori, jolla on erilaiset havainnot. Tämä reseptori on järjestetty hyvin tiheästi, mutta ei kovin säännöllisesti.
Kun kohtaat tällaisen tulosignaalin, ensinnäkin konvoluutiohermoverkot, joihin olemme tottuneet, ovat virheellisiä, koska edes konvoluutiota ei määritellä tässä. Joten kun näemme tämän tilanteen biologisissa järjestelmissä, harkitsemme uudelleen, mistä nämä niin kutsutut kierteet tulevat.

"Silicon Valley 101":Joten harkitset menetelmää uudelleen, onko se oikein? Pitääkö se toteuttaa tällä tavalla?

Chen Yubei:Kyllä. Oletetaan, että heräät eräänä päivänä ja kaikki neuronisi ovat häiriintyneet. Pystytkö silti ymmärtämään maailmaa? Koska näkemäsi ei ole enää kuva, etkä voi enää käyttää konvoluutiohermoverkkoa tähän. Millaista menetelmää tarvitset?

Vaikka emme ole täysin ratkaisseet tätä ongelmaa, olemme itse asiassa ottaneet askeleen eteenpäin. Vaikka kaikki neuronini ovat häiriintyneet, toisin sanoen reseptorikuvamme pikselit ovat häiriintyneet, viereisten pikselien välillä on jonkinlainen suhde. Esimerkiksi kun katsomme kuvaa, huomaamme, että jos pikseli on punainen, ympäröivät pikselit ovat todennäköisemmin punaisia. Tämän suhteen avulla voit antaa näiden pikseleiden löytää ystäviä uudelleen, ja sitten voit laittaa samanlaisia Pikselit järjestäytyvät itse joihinkin suhteisiin.

Sitten tällä hetkellä lisäämällä Transformerin kaltaisen rakenteen suureen kielimalliin, voimme esittää tämän kuvan uudelleen, ja tämän esityksen suorituskyky on melko hyvä. Tämä on esimerkki siitä, että tutkimme uudelleen joitain nykyisiä luonnon inspiroimia suunnittelukäytäntöjämme ja sitten ehdotamme erilaisia menetelmiä.

Black Box -malli, AIGC-kuva Fireflyn kautta

"Silicon Valley 101":Suuria tekoälymalleja koskevan tutkimuksen ja ihmisen aivojen neurotieteen välillä on edelleen monia yhtäläisyyksiä. Tuleeko olemaan neurotieteilijöitä, jotka tekevät yhteistyötä kanssasi poikkitieteellisessä tutkimuksessa heidän näkökulmastaan?

Chen Yubei:Itse asiassa on monia neurotieteilijöitä, tilastotieteilijöitä ja matemaatikoita, jotka haluavat ymmärtää joitain luonnollisten signaalien rakenteita ja kiinnittää myös huomiota aivojen neuronien toimintaan ja sitten yhdistää nämä kaksi yrittääkseen ehdottaa joitain minimalistisia esityksiä signaaleista.

Esimerkiksi aivoista löytyy ilmiö, eli vaikka hermosoluja on paljon, samaan aikaan toimivat hermosolut ovat itse asiassa hyvin harvassa. Esimerkiksi jos hermosoluja on miljoona, vain muutama tuhat voi toimia.

Tämän perusteella neurotieteen alalla ehdotettiin jo alkuvuosina harvaa koodausmenetelmää, eli löytyykö tästä korkean tason signaalista joitain harvaa matalaulotteisia esityksiä? Tämän idean pohjalta rakennettu algoritmi on hyvin samanlainen kuin aivoissa havaitsemasi neuronien esitys, joten tämä on valvomaton menestys varhaisessa laskennallisessa neurotieteessä.

Nykyään koko tutkimusalamme on nimeltään Natural Signal Statistics. Sen tavoitteena on paljastaa signaalien taustalla olevia perusrakenteita. Kuitenkin suuriin malleihin verrattuna se ei ole yhtä yksinkertaista kuin neurotieteitä yhdistävä tutkimus kuten mallit on itse asiassa suhteellisen hidas. Itse asiassa luulen, että se voi toisaalta johtua ongelman monimutkaisuudesta, mutta toisaalta myös siitä, että tähän suuntaan sijoittajia on suhteellisen vähän.

02 Black Box -mallin "nykyinen ohitus".

"Silicon Valley 101":Yksinkertaisesti sanottuna on liian vähän ihmisiä, jotka opiskelevat valkoisten laatikoiden malleja. Mutta ennen suurten mallien syntyä, kuuluuko myös perinteinen koneoppiminen valkoisen laatikon mallitutkimuksen kategoriaan?

Chen Yubei:Mielestäni tätä väitettä voidaan pitää oikeana Nämä aikaisemmat koneoppimismallit ovat suhteellisen yksinkertaisia ja suhteellisen ymmärrettäviä.

"Silicon Valley 101":Joten miksi nykyinen koko musta laatikko -mallin tutkimusten edistyminen pystyy ohittamaan valkoisen laatikon mallin kulmissa niin paljon nopeammin?

Chen Yubei:Kun tämä kysymys esitetään, jännitämme hetken ennen kuin vastaamme.

"Silicon Valley 101":Miksi olla hermostunut?

Chen Yubei:Koska tämä kysymys on erittäin terävä, se itse asiassa kysyy, onko kyseessä valkoinen laatikkomalli vai ymmärrettävä polku, josta meidän pitäisi luopua. Emmekö aikakauttamme lähtien enää opiskele tieteitä tekoälyn alalla, ja tuleeko kaikesta tulevaisuudessa empiiristä aihetta? Mutta en usko vielä.
Palatakseni äsken kysymykseesi, mitä tässä prosessissa oikein tapahtui? Ensimmäinen seikka on, että mustan laatikon mallissa on vähemmän matkatavaroita. Jos haluat tämän menetelmän toimivan ja tämän menetelmän olevan selitettävissä, vaatimuksia on liikaa. Sitten musta laatikko -malli luopuu yhdestä asiasta antaakseen sen toimia ensin.

Toinen syy jää suhteellisen huomiotta kaikille, mikä on tiedon kasvu trendiä vastaan tai mittakaavan laajentuminen.

Richard Sutton kirjoitti aiemmin blogin ja mainitsi, että on jotain, mikä ei ole rikki viimeisten 20 vuoden aikana, eli kun meillä on enemmän tietoja ja enemmän laskelmia, meidän pitäisi löytää algoritmeja, jotka voivat todella laajentaa tiedot. Mielestäni tämä on erittäin tärkeä osa mustaa laatikkoa -mallia tai nykyistä empiiristä edistymistämme.

Toisin sanoen, kun meillä on suurempi data, parempi data, enemmän laskelmia ja suurempia malleja, voimme oppia enemmän. Mutta jos palataan tähän asiaan, kaikilla on pyrkimys valkoisen laatikon malliin eli siihen, että itse mallin on oltava yksinkertainen.

Vertailu Black Box ML:n ja White Box ML:n välillä

"Silicon Valley 101":Miksi valkoisten laatikoiden mallien pitäisi olla yksinkertaisia? Tarkoittaako se, että jos se on liian monimutkainen, sitä on vaikea suunnitella?
Chen Yubei:Kyllä. Itse asiassa teoriaa tehdessä voidaan ymmärtää vain ytimekkäitä asioita, ja sitä on yksinkertaistettava uudestaan ja uudestaan. Kuitenkin, kun ihmiset tavoittelevat mallin yksinkertaisuutta, he voivat myös yksinkertaistaa liikaa uudelleen ja uudelleen. Sitten kun dataa on enemmän, malli ei voi jatkaa ja sen ominaisuudet ovat rajalliset.

Joten luulen, että tämä on myös vaikeus, jonka jokainen kohtasi tutkiessaan aiemmin valkoisia laatikkomalleja ja yksinkertaisia malleja. Meidän ei tarvitse kantaa vain mallia työn kanssa, vaan tarvitsemme myös sen tulkittavissa olevat matkatavarat, ja minun on myös oltava yksinkertainen Kun tuot kaikki nämä tavarat, huomaat, että tämä matkatavara on liian painava. Kun yksinkertaistat liikaa, teet virheitä, ja virheet kerääntyvät, etkä voi siirtyä eteenpäin myöhemmin.
"Silicon Valley 101":Mutta nyt black box -mallien nopean kehityksen myötä alamme yrittää ratkaista sitä uudelleen.
Chen Yubei:Kyllä. Ja tällä kertaa kun ratkaisemme sen, voimme palata tähän asiaan. Eli mallia ei välttämättä tarvitse yksinkertaistaa kokonaan tälle tasolle, se voi silti edustaa maailman monimutkaisempaa puolta.

Mutta samalla toivomme silti, että se on suhteellisen ymmärrettävää, joten jos jonain päivänä voimme saavuttaa valkoisen laatikon mallin, niin mielestäni jokainen yritys ennen sitä on liiallista yksinkertaistamista, mutta toivomme, että jokainen yksinkertaistaminen voi viedä eteenpäin. Meidän ei tarvitse tehdä edes täysin valkoista laatikkomallia. Ehkä voimme tehdä valkoisen laatikkomallin, joka ei ole yhtä tehokas kuin iso malli, mutta se on suhteellisen yksinkertainen.
Meidän on hyödyllistä ymmärtää oppimisen ydin, ja tämä ymmärrys voi puolestaan auttaa meitä parantamaan suurten mallien koulutuksen tehokkuutta. Olen keskustellut tehokkuusasioista Yannin kanssa useaan otteeseen aiemmin, mikä tarkoittaa, että jos tämän taustalla oleva teoria kehittyy, voimme ehkä lisätä suunnittelun tehokkuutta suuruusluokkaa.
"Silicon Valley 101":Yannin näkemys on, että hän kehittää mieluummin valkoisen laatikon mallia vai mustaa laatikkomallia?
Chen Yubei:Yann on tiedemies, joka tunnetaan insinööritaidoistaan, joten monet hänen yrityksistään liittyvät edelleen siihen, että tämä asia toimisi ensin. Mutta Yann tukee myös valkoisen laatikon mallitutkimusta Keskustelussani hänen kanssaan hän koki, että tämä tie oli tutkimisen arvoinen, mutta hän ei tiennyt, olisiko se saavutettavissa liian kunnianhimoisella tavoitteella, mutta jonkun oli tehtävä se.
"Silicon Valley 101":Mustan laatikon malli tuntuu olevan tekninen ongelma, kun taas valkoisen laatikon mallin täytyy selittää se tieteellisesti. Vaikka kaupallistamisen näkökulmasta sen panos-tuotossuhde ei ole niin korkea, jos tämä asia saadaan vihdoin tehtyä, sillä on silti suuri arvo tekoälyn ja sen tulevien kaupallisten sovellusten turvallisuudelle.
Chen Yubei:Mitä tulee kaupallistamiseen, uskon itse asiassa, että kaikkien tekoälyn perustutkimusta tekevien alkuperäinen tarkoitus ei ole olla sovelluksen alkuperäinen tarkoitus, vaan suhteellisen puhdas uteliaisuus älykkyyttä kohtaan. Sitten voidaan havaita joitain malleja , joka voi puolestaan auttaa insinöörikäytännössä. Itse tutkimusta ei ole suunniteltu yhteenkään sovellukseen.

Lisäksi, kun tavoittelemme tätä valkoisen laatikon mallia ja tätä äärimmäistä tehokkuutta, esitämme myös kysymyksen, eli voidaanko nyt rakentamamme suuri kielimalli saavuttaa vain tällaisen mittakaavan tai skaalauslain avulla sopiiko vain kävellä alas? En usko niin. Koska ihmiset eivät voi hyväksyä näin suurta datamäärää, on myös tärkeä kysymys, jota tutkimme, kuinka saada suhteellisen korkea yleistyskyky pienellä tietomäärällä.

"Silicon Valley 101":Tämän pitäisi olla myös black box -mallitutkijoiden tutkima ongelma. Mitkä tutkijat ja koulut tutkivat tällä hetkellä valkoisen laatikon mallia?

Chen Yubei:Tällä hetkellä tekoälyllä on pääasiassa kolme voimaa. Ensimmäinen voima on kokemus, jonka olemme saaneet tutkiessamme näitä suunnittelumalleja ja sitten visualisoimalla niitä, kuten mitä Anthropic ja OpenAI ovat viime aikoina olleet mukana tekemässä.

Antrooppinen tutkimus: tulkittavien piirteiden erottaminen hermoverkon Claude 3 -sonetista

Toinen on laskennallinen neurotiede, joka yrittää ymmärtää ihmisen aivoja ja löytää tapoja, joilla joitain muistoja voi esiintyä.

Toinen ajatuskoulu on tarkastella signaalin perusrakennetta matemaattisesta ja tilastollisesta näkökulmasta. Tietenkin näiden kolmen tyypin välillä tulee olemaan paljon ristikkäisyyksiä.
"Silicon Valley 101":Mihin genreen kuulut?
Chen Yubei:Itse asiassa kaikki kolme ryhmää vaikuttavat minuun enemmän tai vähemmän. Kun olin Berkeleyssä, mentorini ja opettajani Ma Yi kuuluivat kaikki neurotieteiden ja matemaattisten tilastojen kouluun, ja Yann oli enemmän insinöörikoulutettu. Mielestäni nämä kolme menetelmää ovat myös hyväksyttäviä, koska ne johtavat lopulta samaan suuntaan.
"Silicon Valley 101":Kumpi suunta on sama? Onko nyt mitään vaiheittaisia tuloksia?
Chen Yubei:Viimeinen vaihe on mallin ymmärtäminen. Joitakin vaiheittaisia tuloksia on ollut aiemminkin, kuten voimmeko tehdä joitakin verkkoja edes kahdella tai kolmella kerroksella, ja voimme nähdä, mitä ne oppivat jokaisessa kerroksessa. Lopuksi huomasin, että numeron esittäminen on todella mahdollista. Jos haluat esittää sen, opit sen kaikki vedot ja yhdistät sitten samanlaiset vedot yhteen, ja sitten voit rakentaa seuraavan tason esityksen kerros kerrokselta. , vihdoin löytyi numero.
"Silicon Valley 101":Johtaako nykyinen tutkimuksesi mustan laatikon mallin optimointiin?

Chen Yubei:Ensinnäkin, kun ymmärryksesi siitä syvenee, saatat pystyä optimoimaan mustan laatikon mallin ja tekemään siitä tehokkaamman. Toinen on erilaisten mustien laatikoiden mallien yhdistäminen, mikä vähentää paljon turhaa jätettä. Samaan aikaan laboratorioni työssä on toinen pilari, jonka tarkoituksena on tutkia havaintojen lisäksi myös ohjausta.

Kun annat näille suurille kielimalleille mahdollisuuden olla vuorovaikutuksessa maailman kanssa, voitko saada saman yleistyskyvyn ohjausjärjestelmään? Mitä se tarkoittaa? Toisin sanoen havaintojärjestelmässä huomaat, että opin omenat, päärynät ja sitten persikan. Koska olen oppinut samanlaisen käsitteen omenoista ja päärynöistä, opin nopeasti persikan käsitteen.

Voidaanko valvonta-alalla saavuttaa vastaava suorituskyky? Jos robotti esimerkiksi oppii kävelemään eteenpäin ja hyppäämään paikalleen, voidaanko siitä nopeasti tehdä robotti, joka hyppää eteenpäin ja kävelee samanaikaisesti?

"Silicon Valley 101": Jos sinua pyydettiin tekemään johtopäätös, luuletko, että käytät valkoisen laatikon mallitutkimusta suuren mallin toiminnan salaisuuden avaamiseen, missä on nykyinen edistymispalkki?
Chen Yubei:Itse asiassa kukaan meistä ei tiedä kuinka pitkä tämä edistymispalkki on minusta todella kaukana tästä tavoitteesta. Se ei välttämättä ole lineaarista kehitystä, se voi olla enemmän kuin kvanttihyppy. Kun uusi ymmärrys ilmaantuu, voit heti ottaa suuren askeleen eteenpäin.

Jos haluat tehdä valkoisen laatikon ChatGPT:n, tämä on mielestäni vielä melko kaukana, mutta voimme ehkä tehdä melko hyvän, täysin ymmärrettävän mallin, joka pystyy toistamaan AlexNetin silloiset ominaisuudet. Tämä malli voi tehdä Imagenet-tunnistuksen. Ymmärrämme, kuinka se tekee jokaisessa vaiheessa, kuinka se muuttuu kissaksi ja koiraksi askel askeleelta, ja mikä on tämän kissan ja koiran rakenne.

Esimerkki ImageNetin käyttämästä WordNetistä

"Silicon Valley 101":Onko ImageNet-tunnistus valkoinen vai musta laatikko?

Chen Yubei:Emme ole vielä täysin selvittäneet, kuinka se toimii. Matthew Zeilerin ja Rob Fergusin ja monien tutkijoiden tekemät varhaiset visualisoinnit ymmärsivät jonkin verran, mutta kukaan ei ollut kyennyt luomaan mallia, jossa voisimme ymmärtää jokaisen vaiheen ja silti toimia hyvin.
"Silicon Valley 101":Joten ehkä valkoisen laatikon mallin tavoitteena on olla lavastettu. Esimerkiksi ensimmäinen askel on selittää, miten ImageNet toimii malli toimii.
Chen Yubei:Kyllä. Uskon, että tämä prosessi kestää vielä melko kauan, ja tähän suuntaan tarvitaan lisää ihmisiä. Koska suurin osa työpaikoista on tällä hetkellä insinöörialalla. Jos laitamme sen kouluihin, sinulla on itse asiassa oltava alkuperäisiä ideoita sen sijaan, että sanot, että menet mittakaavaan, ja minä menen mittakaavaan, silloin kaikki ovat mittakaavassa, ja loppujen lopuksi ei ole mitään eroa, kaikki riippuu kuka Mikä kone on paras ja kenellä on eniten tietoja?

03 Mitä tiedän Yann LeCunista

"Silicon Valley 101":Seuraavaksi haluan keskustella kanssasi neuvonantajasi Yann LeCunista. Esittelen ensin Yann LeCunin. Hän on ranskalainen tietotekniikan tutkija ". "Internetin isä".

LeCun on tällä hetkellä Metan johtava tekoälytutkija ja toimii professorina New Yorkin yliopistossa. Hän kehitti konvoluutiohermoverkkoja (CNN) 1980-luvulla, teknologiaa, josta tuli nykyaikaisen tietokonenäön perusta. LeCun sai yhdessä Geoffrey Hintonin ja Yoshua Bengion kanssa vuoden 2018 Turing Award -palkinnon uraauurtavasta työstään syvän oppimisen parissa.
Voitko selittää Yannin tärkeimmät tieteelliset tutkimustulokset ei-teknisille ystävillemme ja miksi hän on niin kuuluisa?

Chen Yubei:Yann on opiskellut neuroverkon tekoälyn alaa 1980-luvulta lähtien ja kokenut monia huippuja ja aaltoja sekä eri koulukuntien rappeutumista. Hän on kuitenkin aina vaatinut syvällisiä oppimisverkostoja ja hän on kävellyt pimeyden läpi.

Esimerkiksi syväoppimiseen liittyvien artikkeleiden julkaiseminen vuonna 2000 oli erittäin vaikeaa. Kuinka vaikeaa se oli? Jos artikkelissasi on sana Neural tai Network, todennäköisyys tulla hylätyksi on erittäin suuri. Jos hermoverkko on olemassa, se hylätään.

Heille se oli siis synkkä hetki tuolloin, ja se vaikutti myös rahoitukseen. Mutta he pystyivät pysymään tässä pimeydessä eivätkä koskaan antaneet periksi, ja lopulta kävelivät ulos tästä pimeydestä. Nykyään hermoverkot ovat muuttaneet maailmaa, mikä on heidän Turing-palkinnon, muisto heidän varhaisesta uranuurtamisestaan päivää.

Yann LeCun

"Silicon Valley 101":Miksi valitsit hänen ryhmänsä, kun olit jatko-opiskelija?
Chen Yubei:Tämä on melko mielenkiintoinen seikkailu. Olin itse asiassa aika hämmentynyt tuolloin enkä edes ajatellut valmistuvani sillä lukukaudella. Koska päättäväisyyteni on tehdä tohtorintutkintoni aikana valkolaatikkomalli, jonka suorituskyvyn pitäisi olla verrattavissa AlexNetiin, mutta se ei ole vielä valmis.

Ajattelen, että jos haluan jatkaa tutkimusta, kenen puoleen minun pitäisi mennä postdociksi? Olin kokouksessa tuolloin, ja sitten tapasin Yannin tapahtumapaikalla. En itse asiassa ole erityisen spekulatiivinen henkilö. Luulen, että kaikki haluavat löytää Yannin postdocina, joten kun tapasin hänet, halusin lähinnä puhua hänen näkemyksistään työstäni ja tekoälyn tulevaisuudesta .

Tämän seurauksena keskustelu kokouksessa oli erittäin hyvä. Hän oli pohtinut myös tutkimussuuntaani ja joitain asioita, joita mietin, mutta hermoverkkojen näkökulmasta. Joten tuolloin hän kysyi minulta, olisinko kiinnostunut hakemaan tohtorin paikkaa Tietenkin hain, joten lähdimme heti.

"Silicon Valley 101":Millainen mentori hän on? Se antaa opiskelijoille paljon vapaata tilaa tutkia, ja se auttaa paljon keskustelemaan kaikkien kanssa.
Chen Yubei:ensimmäinen，Toinen tilanne ei ole enää hänelle mahdollinen.

Hän on itse asiassa samanlainen kuin tohtoriohjaajani, hän on hyvin vapaamielinen joissakin yleisissä suunnissa, mutta mielestäni toinen samankaltaisuus heidän välillä on se, että he ovat sitkeitä siinä, mihin uskovat, eli hän voi antaa sinulle suunnan ja Target. Mutta sillä ei ole väliä miten kuljet, joko veneellä tai autolla, hän ei hallitse näitä yksityiskohtia.
Itse asiassa hänen yleinen suuntansa ei ole muuttunut vuosien varrella. Se on aina ollut itseohjattua oppimista. Itseohjattu oppiminen on itse asiassa jaettu kahteen osaan. Yksi osa on havaintoon perustuva itsevalvonta. Toinen tärkeämpi osa on se, miten itsevalvontaa tehdään ruumiillistuvasti, tai teemme nyt maailmanmallia, johon hän uskoo.

Itse asiassa annoin hänelle tämän nimen, koska luin artikkelin World Model, jonka ovat kirjoittaneet David Ha ja Jürgen Schmidhuber, ja mielestäni nimi oli aika siisti.

Järjestelmäarkkitehtuuri autonomista älykkyyttä varten, Mata AI

"Silicon Valley 101":Onko Yannin tutkimussuunta mielestäsi erilainen kuin OpenAI:n ja Anthropicin?
Chen Yubei:Jos todella haluan sanoa jotain muuta, luulen, että Yann haluaa, että mallilla on oltava useita ominaisuuksia. Ensimmäinen on kyky ruumiillistua, mikä tarkoittaa, että se ei ole vain kasa tietoa, vaan malli voi lopulta tutkia maailmaa itsekseen.
"Silicon Valley 101":Mitä eroa sillä on? Näyttää siltä, että kaikki toivovat lopulta saavuttavansa tällaisen tuloksen.
Chen Yubei:Toteutus on erilainen. Esimerkiksi OpenAI on mielestäni skaalauslaki, joka tarkoittaa enemmän ja parempaa dataa, sitten enemmän laskelmia ja suurempia malleja. Mutta Yann on edelleen tieteellisempi. Mitä hän ajattelee, jos haluamme todella johtaa enemmän ihmisen kaltaiseen älykkyyteen? Hänestä tuntuu, että pelkkä tietojen kerääminen ei riitä.
"Silicon Valley 101":Joten Yann vastaa itse asiassa mustan laatikon ja valkoisen laatikon tutkimusta yhdessä.

Chen Yubei:Luulen, että Yann ei todellakaan välitä siitä, voidaanko tästä kehittää tiede. Tällä hetkellä hän toivoo, että tämä järjestelmä voi toimia paremmin erittäin hyvä asia.

"Silicon Valley 101":Kun OpenAI osoitti, että Scaling Law voi saavuttaa hyviä tuloksia, onko Yann mielestäsi muuttunut tieteellisissä tutkimusmenetelmissään ja ajattelussaan? Vai pitääkö hän edelleen kovasti kiinni alkuperäisestä linjastaan?

Chen Yubei:Itse asiassa hän ei vastusta skaalauslakia, en usko, että kaikilla on ristiriita tästä asiasta. Todellinen mahdollinen ero on se, että suuri osa OpenAI:n työstä on itse asiassa edelleen tuotelähtöistä ja toteutettu äärimmäisyyksien suunnittelussa, mutta Yann itse asiassa tekee tutkimusta tieteellisemmässä muodossa.

Kun hän ajattelee näitä asioita, hänellä ei itse asiassa ole paljon tekemistä tuotteiden kanssa. Hän ajattelee vain yhtä asiaa, eli kuinka saavuttaa älykkyys. Koska hän on ollut tällä alalla liian kauan ja on ollut syvästi mukana tällä alalla yli kahdeksan vuotta, joten hän saattaa silti pitää kiinni ihanteistaan näitä asioita tarkastellessaan.

"Silicon Valley 101":Älykkyyden oppiminen itsenäisesti on Yannin tutkimuksen ensimmäinen piirre. Mitä muita ominaisuuksia siellä on?

Chen Yubei:On myös jotain, johon Yann on aina uskonut, nimeltään JEPA, Joint Embedding Predictive Architecture. Toisin sanoen mallilla on tietysti oltava itsenäisen oppimisen kyky, mutta tätä tärkeämpää on, että malli voi oppia myös joitain korkeamman tason sääntöjä dataa oppiessaan.

Itse asiassa tällä hetkellä on kaksi ryhmää, jotka haluavat rekonstruoida tiedot kokonaan oppimisen kautta, mitä voidaan pitää pakkausideana yksityiskohdat eivät ole tärkein tieto järjestelmää arvioitaessa.

"Silicon Valley 101":Onko tämä kohta erilainen kuin mentorisi Ma Yi Berkeleyssä?

Chen Yubei:Itse asiassa heidän välillään ei ole olennaista ristiriitaa tästä näkökulmasta, mutta tapa ilmaista se on erilainen. Opettaja Ma katsoo, että tämän maailman lait ovat yksinkertaisia. Yann uskoo, että nämä yksityiskohdat ovat haitallisia loppupään tehtäville tai joillekin tuomioille, joten on välttämätöntä löytää ne korkean tason lait.

Itse asiassa nämä kaksi ovat samoja, koska korkean tason säännöt ovat yleensä yksinkertaisia. Opettaja Ma sanoo usein, että kaikki on pakkausta.

Koska todellinen maailma on monimutkainen, jos perehdyt todellisen maailman yksityiskohtiin, huomaat, että monet asiat ovat itse asiassa matalan tason rakenteita. Datassa on rakennetta, ja kaikki, jolla on rakenne, heijastaa poikkeamaa melusta, toisin sanoen kaikki ilman rakennetta on kohinaa, ja kaikki, mikä jättää kohinan, tarkoittaa, että on rakennetta.

Aiomme oppia nämä rakenteet, mutta rakenteet ovat eri tasoja. Mutta kun nouset tasolle, suurempaan mittakaavaan, huomaat, että rakenne ei itse asiassa ole enää tärkeä, jos katsot sitä sillä tasolla, näistä asioista on tullut kuin melua.

Yannin näkemys on siis, että pakkaus on oikein, mutta tarvitsemme tällaista hierarkkista oppimista oppiaksemme kaikki signaalin rakenteet ja oppiaksemme yhä korkeampia rakenteita. Edistyksellisin rakenne ei kuitenkaan usein edusta suurta osaa koko pakkauksesta, ja se voi kadota optimointiprosessin aikana, koska monet asiat ovat matalalla tasolla ja tiedon, kuten kohinan, määrä on suurin, mitä korkeammalle rakennukset ovat sitä vaikeampi havaita, mitä pidemmälle kävelet.

Miksi? Koska optimoitu tappiofunktiosi on tavoitefunktiosi, löytyykö tämä sääntö tai et löydä tätä sääntöä, sillä voi olla vain vähän vaikutusta tappiousi. Mielestäni tärkeimmät ovat nämä kaksi pistettä, toinen on maailmanmalli ja toinen tämä hierarkkinen esitys.

Yann LeCun puhumassa NYU:ssa

"Silicon Valley 101":Mitkä ominaisuudet tekevät sinuun erityisen vaikutuksen?

Chen Yubei:Erityisen vaikutuksen minuun teki luultavasti keskittyminen ja puhtaus, jolla he tekivät asioita.

Kerran lounasin Yannin kanssa, ja hän sanoi, että minulla on kaikki, mitä halusit nuorena, mutta minulla ei ole enää paljon aikaa, joten hän voi käyttää jäljellä olevan ajan vain sellaisiin asioihin, joihin hän todella uskoo.

Kun työskentelet tällaisten tiedemiesten kanssa, heidän luonne saattaa vaikuttaa sinuun, joten jo ennen kuin saavutat aseman, jossa he ovat nyt ja mitä heillä on, voit nähdä maailmaa hieman heidän näkökulmastaan.

Joten kun teet valintoja tai teet asioita, saatat mennä nykyistä asemaasi pidemmälle ja voit ajatella, mitä teen, jos jonain päivänä minulla on kaikki kuten hän.

"Silicon Valley 101":Muuttiko hän päätöksiäsi?

Chen Yubei:Kyllä, se saa minut ajattelemaan tätä, kun teen monia valintoja. Muistan tohtorintutkintoni ensimmäisenä päivänä, kun ohjaajani sanoi minulle kaksi asiaa.

Yksi on, että hän ei tarvitse minua julkaisemaan monia artikkeleita, mutta toivon, että sellaiset artikkelit, joita voin julkaista, voivat matkustaa ajassa, jotta vaikka lukisin tämän artikkelin 20 vuotta myöhemmin, se on edelleen tuore. Tämä on itse asiassa erittäin vaikeaa, koska monilla töillä on selkeä ajantaju, mutta jotkut todella syvälliset ajatukset voivat silti kestää satoja vuosia. Tämä on erittäin korkea tavoite, ja saatat pystyä saavuttamaan sen, kun olet noin jäädä eläkkeelle. Mutta se herättää sielun kidutusta, eli voitko sinnikkäästi tehdä työtä, joka voi jatkua ajan kanssa.

Toinen on, että hän toivoo, että tutkijalla olisi oma asenne. Jos luulet, että a, b tai sinä voi tehdä jotain, sinun ei pitäisi tehdä sitä. Toisin sanoen, kun teet tämän asian, huomaat, että tämä työ ei tarvitse sinua, vaan sinä, joka tarvitset tätä työtä. Tämä on spekulatiivista mentaliteettia. Tämä on itse asiassa se samanlainen temperamentti, jonka näen heissä, eli he eivät halua seurata väkijoukkoja, vaan omaavansa asenteensa ja löytävänsä oman äänen.

Joten kun valitsen tutkimussuunnan, arvioin aika ajoin, onko tekemäni työ spekulatiivista vai todellinen tukipilari.

Mielestäni hieno asia heissä, erityisesti Yannissa, on se, että voit käydä läpi tämän melkein epätoivoisen ajan ja tuoda aamunkoittoon. Ihmiset, jotka eivät ole koskaan kokeneet aaltoja, eivät ehkä pysty rauhoittumaan tarpeeksi erittäin mielenkiintoinen temperamentti.

"Silicon Valley 101":Onko Yannista tieteellisiä näkemyksiä, joiden kanssa olet eri mieltä?

Chen Yubei:Joskus hän oli suorapuheinen. Hän esimerkiksi sanoi hiljattain, että jos olet tutkija, sinun ei pitäisi tutkia suuria kielimalleja. Tällä lauseella on monia tulkintoja, jos otat sen kirjaimellisesti, monet ihmiset, myös minä, ovat eri mieltä. Minusta saattaa tuntua, että suurissa kielimalleissa on rakenteita, joita kannattaa ymmärtää ja tutkia.

Tietenkin, mitä Yann saattaa todella haluta sanoa, on se, mitä juuri mainitsin: älkää tehkö A:n ja B:n kaltaista spekulatiivista työtä. Toivon, että tutkijat ovat sinnikkisiä ja löytävät lisää omaperäisempiä panoksia. Jos se sanottaisiin näin, olisin itse asiassa enemmän samaa mieltä. Mutta isona V:nä hänen sanansa järkyttävät sinua ja herättävät paljon keskustelua. Se on paikka, joka on mielestäni erittäin mielenkiintoinen.

"Silicon Valley 101":Olet myös työskennellyt Metassa. Mikä on mielestäsi Yannin suurin panos Metassa?

Chen Yubei:Ensimmäinen asia on auttaa Meta AI: n rakentamisessa. Kun hän suunnitteli Meta AI:n rakentamista, Mark löysi hänet ensin. Koska hän työskenteli varhaisvuosinaan Bell Labsissa, hän kaipasi silloin Bell Labsin osavaltiota, joten hänellä oli myös ideaali kopioida tällainen laboratorio. Metassa. Tätä konseptia noudattaen hän myös rekrytoi ja koulutti joukon erittäin hyviä ihmisiä Meta AI:hen, mikä teki suuren panoksen tälle alalle ja edisti koko alan kehitystä.

"Silicon Valley 101":Mielestäni avointa lähdekoodia pitäisi pitää hänen erittäin tärkeänä panoksensa. Esimerkiksi syyn siihen, miksi Meta lama valitsi avoimen lähdekoodin, pitäisi olla hyvin johdonmukainen Yarnin yleisidean kanssa.

Chen Yubei:Kyllä, kyllä, avoin lähdekoodi on todellakin se, mitä Yann vaatii. Mutta en tiedä jatkaako Meta avoimena lähdekoodina, koska loppujen lopuksi Meta kohtaa myös kilpailua, mutta mielestäni tämä on Yannin käsite, kuinka hyvin se voidaan lopulta toteuttaa ja kuinka pitkälle se voi mennä itse asiassa koko ympäristön kehityksestä.

"Silicon Valley 101":Luuletko, että koko suurten mallien tutkimus on nyt tiedemiesten ohjaama? Vai tuleeko siitä hitaasti insinöörivetoinen asia?

Chen Yubei:Minusta siitä on tullut insinöörivetoinen Alkuaikoina se oli tiedemiesvetoinen. Kahden viime vuoden aikana suurin edistys on mielestäni tullut projektin toteuttamisesta. Onko tietojen laatu parantunut? Onko data lisääntynyt? Onko sen jakelu rikastunut? Voidaanko laskelmia rinnastaa? Kaikki johtuu erittäin tärkeistä yksityiskohdista tekniikan alalla. Kehitys 0-1 vaatii tieteellisiä läpimurtoja, mutta 1-100 vaatii insinööritarkkuutta ja suorituskyvyn eri rooleissa olevia ihmisiä vaaditaan edistämään sitä eri vaiheissa.

"Silicon Valley 101":Kaikki odottavat nyt innolla GPT 5:tä. Luuletko, että jos GPT 5 julkaistaan, se on enemmän tieteellinen vai tekninen ongelma?

Chen Yubei:Mielestäni suunnittelussa on vielä paljon kuljettavana. Voimme jopa ajatella, että skaalauslakilla on pitkä matka kuljettavana, eikä loppua näy, mukaan lukien tietojen laatu ja laskentatehon kasvu. Mutta samaan aikaan olen sitä mieltä, että vaikka tehokkain tapa, jonka olemme nyt löytäneet, on skaalauslaki, se ei todellakaan riitä.

Mitä muuta siis tarvitsemme? Luulen, että tarvitaan korkeaa tehokkuutta, kuten ihmisillä. Sen voi laukaista data, mutta se voi olla myös jotain muuta, joten luulen, että jos puhumme AGI:hen johtavasta prosessista, siinä pitäisi olla joitain suhteellisen suuria muutoksia nollasta 1:een.

"Silicon Valley 101":Vaikka tieteellistä edistystä tapahtuu, tekniikassa on edelleen paljon parantamisen varaa.

uutiset

Keskustellaan siitä, kuinka ajatella suuria malleja syväoppimisen tutkijan Yann LeCunin kanssa

Johdanto

Yhteystietoni