2024-09-27
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
tämän artikkelin sisältö on"mitä sijoittaa agixiin"-lta 6 artikkeleita.se on yhdistelmä 40 "korkean tekoälypuhtauden" yritystä, jotka on valittu tuhansien teknologiayhtiöiden joukosta ympäri maailmaa. agix-indeksi on koordinaatti agi-prosessin paikannuksessa, ja se tarjoaa myös arvokkaan työkalun sijoittajille ai-alfan tallentamiseen. "mitä sijoittaa agixiin" -osiossa teemme perusteellisen analyysin agix-indeksin salkkuyrityksistä ja tarjoamme kattavan ai-sijoitusreferenssin markkinoille.
tesla se on yksi agix index -salkun 10 suurimmasta holdingyhtiöstä. yhtiön viimeisten 10 vuoden aikana tekemä laaja investointi autonomiseen ajamiseen ja robotteihin on antanut sille mahdollisuuden tulla fyysisen maailman vahvimmaksi agi-toimijaksi.äskettäin tesla aloitti osakekurssien nousun toisen aallon vuonna 2024. se ei vain saavuttanut korkeinta tasoa viimeisten kahden kuukauden aikana, vaan myös pyyhkii pois kaikki tämän vuoden laskut ja kääntyi korkeammalle tekijänä tällä kierroksella kasvusta.
lokakuun 10. päivänä tesla julkaisee virallisesti robotaxin ark:n analyysin mukaan. vuoteen 2029 mennessä lähes 90 % teslan yrityksen arvosta ja tuloista lasketaan itseajavien taksiliiketoiminnan ansioksi.tällä viikolla tesla alensi myös fsd-optioiden hintoja lisätäkseen uusien autojen myyntiä. samalla fsd-optioiden hintojen nousu auttaa teslaa keräämään lisää tietoa fsd-suorituskyvyn parantamiseksi. vaikka optimus-robotti on vielä kaukana laajamittaisesta kaupallistamisesta, jos optimusta käytetään teslan tehtaan työntekijöiden korvaamiseen ja ihmisten tehokkuuden parantamiseen, voitot voivat parantua huomattavasti ark:n teslan mallintamiseen viitaten, jos optimus otetaan käyttöön teslan tehtaalla. seuraavat viisi vuotta käyttöönotto voi säästää jopa 3–4 miljardia dollaria kustannuksissa.
01.
autonominen ajo on hyvin samanlainen kuin agi
sarah guo:mitä mieltä olet autonomisen ajamisen kehityksestä nykyään? kuinka kauan, kunnes näemme autonomisen ajamisen yleistyvän?
andrej karpathy: olen työskennellyt autonomisen ajon parissa 5 vuotta ja pidän tätä alaa erittäin mielenkiintoisena. tämän alan nykykehityksestä päätellen autonominen ajaminen ja agi ovat hyvin samankaltaisia. se voi johtua myös siitä, että tunnen autonomisen ajon, mutta mielestäni olemme lähellä agi:tä autonomisen ajamisen alalla esimerkiksi, on olemassa jo formed-tuotteita, joita käyttäjät voivat käyttää maksua vastaan. waymo on nyt hyvin yleinen, ja monet ihmiset ovat kokeneet sen usein ja siitä on tullut kaupallinen tuote.
ensimmäinen kokemukseni waymosta oli melkein 10 vuotta sitten. ystävä työskenteli waymolla ja hän vei minut waymo-ajelulle koko korttelin ympärille se on jo erittäin hyvä, mutta prosessi esittelystä suuressa mittakaavassa kaupungeissa käytettäväksi tuotteeksi kesti 10 vuotta. tietenkin waymo laajenee edelleen.
elad gil:demosta onnistuneeseen maksulliseen tuotteeseen meni 10 vuotta. missä määrin se johtuu sääntelystä? milloin uskot autonomisen ajotekniikan olevan valmis?
andrej karpathy:luulen, että autonominen ajaminen on saavuttanut melko kypsän tason 10 vuotta sitten, mutta 30 minuutin demo ei voi täysin osoittaa kaikkia haasteita, joita he ovat kohdanneet viimeisen 10 vuoden aikana. demon ja todellisen tuotteen välillä on suuri ero tietenkin tulee olemaan joitakin sääntelysyitä.
mutta luulen, että olemme saavuttaneet agi:n autonomisen ajamisen alalla jossain määrin. samaan aikaan demon ja maailmanlaajuisesti mainostamisen välillä on suuri kuilu.vaikka waymo voi jo toimia san franciscossa, sillä ei ole vielä ollut kovin suurta vaikutusta ja se on seurausta popularisoinnin näkökulmasta globaaleilla markkinoilla. tässä mielestäni agi ja autonominen ajaminen ovat samanlaisia.
takaisin autonomisen ajamisen alalle,monet ihmiset ajattelevat, että waymo on teknisesti edellä teslaa, mutta minä henkilökohtaisesti ajattelen, että tesla on itse asiassa waymoa edellä. tämä näkemys ei ehkä ole sama kuin nykyinen valtavirran ääni, mutta luotan teslan autonomiseen ajamiseen.
tesla kohtaa ohjelmistotason ongelmia, kun taas waymon haasteet tulevat laitteistosta. vertailun vuoksi ohjelmisto-ongelmat ovat helpompia ratkaista. tesla on ottanut käyttöön ajoneuvoja suuressa mittakaavassa ympäri maailmaa, kun taas waymo ei ole vielä saavuttanut tätä mittakaavaa. siksi uskon, että kun teslan järjestelmä voidaan ottaa käyttöön suuressa mittakaavassa ja toimia tehokkaasti, tulokset ovat hämmästyttäviä. testailin juuri eilen fsd:n uusinta versiota ja ajokokemus oli erittäin tasainen. teslan autonomisen ajojärjestelmän toiminnot saavat minut tuntemaan, että tesla on saavuttanut melko hyviä tuloksia autonomisessa ajamisessa tänään.
kaiken kaikkiaan uskon, että teslan autonomisen ajamisen suurin haaste on ohjelmistonäkökulmasta, kun taas waymon haasteet tulevat enemmän laitteistonäkökulmasta. tämän päivän näkökulmasta waymo näyttää olevan vahvassa asemassa, mutta uskon, että jos tarkastellaan sitä 10 vuoden ajanjaksolla, tesla on pidemmällä mittakaavassa ja tulomallissa.
elad gil:kuinka kauan arvelet ohjelmisto-ongelman ratkaisemisen kestävän? mainitsit juuri, että waymon ajoneuvoissa on monia kalliita lidareita ja antureita. jos se, kuten tesla, luottaa vain kamerajärjestelmään, ei ainoastaan vähennä kustannuksia, vaan myös vähentää järjestelmän monimutkaisuutta. järjestelmä, ja se soveltuu useisiin malleihin. milloin tämä muutos todennäköisesti toteutuu?
andrej karpathy: itse toivon, että se ratkeaa muutaman seuraavan vuoden aikana. itse asiassa tesla käytti harjoitusvaiheessa myös paljon kalliita antureita ja teki myös monia teknologioita, joita ei voida edistää suuressa mittakaavassa, kuten langatonta.viivaantureiden luottamusmallien tutkimus ja karttakartoitus jne.testausvaiheessa tesla virtaviivaisti nämä tiedot testipaketiksi, joka perustui vain näköjärjestelmään ja käytti sitä tuotantoajoneuvoissa. monet ihmiset eivät ehkä ymmärrä, että tämä on itse asiassa erittäin älykäs "arbitraasi" antureiden ja kustannusten välillä. koska kamera pystyy kaappaamaan tarpeeksi tietoa, hermoverkko pystyy myös käsittelemään tätä tietoa. harjoitteluvaiheessa nämä anturit ovat erittäin hyödyllisiä, mutta testausvaiheessa niiden rooli ei ole niin tärkeä. joten mielestäni pelkkä kameraan luottaminen riittää.
elad gil: viimeaikainen trendi autonomisen ajamisen alalla on siirtyä asteittain reunatapauksiin perustuvista heuristisista algoritmeista päästä päähän syväoppimiseen. mitkä ovat syyt ja logiikka sen takana?
andrej karpathy: päästä loppuun on itse asiassa se, mitä halusimme tehdä alusta asti. kun liityin teslaan, keskustelimme siitä, että neuroverkot korvaisivat lopulta koko teknologiapinon. järjestelmässä oli tuolloin paljon c++-koodia, mutta nykyään testipaketissa on hyvin vähän c++-koodia käynnissä. neuraaliverkot korvasivat ne asteittain. aluksi neuroverkkoja käytettiin vain kuvantunnistuksen käsittelyyn, ja myöhemmin niitä laajennettiin käsittelemään useita kuvia ja tuottamaan ennustetuloksia ajan myötä c++-koodit korvattiin. lopulta järjestelmän tarvitsee vain antaa ajo-ohjeita, ja neuroverkko voi tulostaa tulokset.
joten se, mitä tesla tekee, on päästä päähän ai-ajoa, mutta waymo ei luultavasti valinnut tätä teknistä reittiä. vaikka he ovat yrittäneet, tulokset eivät ole tyydyttäviä.
itse uskon, että päästä päähän -reitti on oikea ja väistämätön suunta tulevalle kehitykselle.tästä näkökulmasta katsottuna tesla-järjestelmästä kehittyy kymmenessä vuodessa end-to-end neuroverkko, joka lähettää suoraan ajo-ohjeet videovirran syöttämisen jälkeen. tietenkin tämä prosessi vaatii järjestelmän jokaisen moduulin asteittaista parantamista. en usko, että kaikki nykyiset väliennusteet ovat kehitysprosessissa harhaanjohtavia, päinvastoin, ne ovat tärkeä osa järjestelmää. koska opetettaessa täysin päästä päähän -hermoverkkoa, valvontasignaalit ihmisen ajamisen simuloimiseksi ovat hyvin rajallisia eivätkä pysty tukemaan niin suuren verkon koulutusta. keskitason ennusteet voivat auttaa kehittämään ominaisuuksia ja ilmaisimia, mikä tekee päästä päähän -ongelman toteuttamiskelpoisemmaksi. joten veikkaukseni on, että he tekevät paljon esikoulutusta mahdollistaakseen päästä-päähän hienosäädön tulevaisuudessa.
kaiken kaikkiaan mielestäni neuroverkkojen prosessi, joka korvaa koko teknologiapinon, on välttämätön, mutta prosessin on oltava asteittainen. teslan nykyiset yritykset ovat osoittaneet ensimmäisiä tuloksia, ja ihmiset ovat täynnä tulevaisuuden odotuksia.
💡
keskitason ennusteet:mallin harjoittelun tai päättelyn aikana luodut ei-lopulliset tulokset. nämä ennusteet toimivat välivaiheina monivaiheisessa laskentaprosessissa, mikä auttaa mallia vähitellen lähestymään lopputulosta. ne ovat hyödyllisiä monimutkaisissa tehtävissä, kuten hierarkkisessa päätöksenteossa, konekääntämisessä tai useiden tehtävien oppimisessa, joissa näitä välituloksia voidaan arvioida mallin suorituskyvyn optimoimiseksi, harhojen korjaamiseksi tai mallikoulutuksen parantamiseksi. lisäksi väliennusteet auttavat selittämään mallin sisäistä toimintaa ja voivat tarjota viitteen mallin virittämiseen.
02.
tesla on myös robotiikkayritys
sarah guo: ennen lähtöäsi teslasta osallistuit myös teslan humanoidirobottiprojektiin. mitä tekniikoita voidaan siirtää autonomisesta ajamisesta robotteihin?
andrej karpathy: periaatteessa kaikki tekniikat voidaan siirtää. mutta luulen, että ihmiset eivät ehkä vielä tajua tätä.robottien ja autojen välillä ei ole paljon eroa. luulen, että teslan ymmärtäminen autoyhtiönä on itse asiassa sen väärinymmärrys.
tesla on itse asiassa suuri robotiikkayritys, joka ei vain valmista autoja, vaan myös valmistaa automatisoituja koneita. massatuotanto on hyvin erilainen ala, ja mielestäni tesla on laajamittaiseen robotiikkaan erikoistunut yritys.
siirtyminen autotekniikasta humanoidirobotiikkaan ei itse asiassa vaadi paljon ylimääräistä työtä. itse asiassa varhainen optimus-robotti piti sitä jopa autona, koska se käytti täsmälleen samaa tietokonetta ja kameroita kuin auto. mielenkiintoista on, että käytimme robotissa autoille suunniteltua neuroverkkoa, ja kun robotti käveli ympäri toimistoa, sen tunnistamasta "ajotilasta" tuli itse asiassa "käveltävä tila". vaikka hienosäätöä tarvitaan, tämä osoittaa tekniikan monipuolisuuden.
sarah guo: tietystä näkökulmasta teslaa voidaan todellakin pitää robotiikkayrityksenä, ja monia ydintekniikoita voidaan siirtää alustojen välillä. keskeinen osa, joka tuotantoroboteista puuttuu, on itse asiassa suoritusmekanismi ja siihen liittyvät toimintatiedot.
andrej karpathy: kyllä, vaikka jotkut paikat eivät ole vielä täydellisiä, haluan korostaa, että monet tekniikat voidaan siirtää suoraan. esimerkiksi optimus-projekti käynnistyi hyvin nopeasti elon muskin julkistuksen jälkeen asiaankuuluvat tiimit ja työkalut otettiin käyttöön nopeasti. resurssit, kuten cad-mallit, toimitusketjut jne., valmisteltiin nopeasti. tuolloin minusta tuntui, että teslalla oli itse asiassa jo varsin runsaasti robottivalmistusresursseja sisäisesti, jotka kaikki otettiin tesla-autoista. tämä tunne on jossain määrin samanlainen kuin "transformersissa", kun auto muuttuu robotiksi, kaikki on ennallaan, mutta joitain asioita on hieman säädettävä ja konfiguroitava. laitteiston lisäksi koko ajattelutapa, merkintätiimit, eri komponenttiosien välinen koordinointi jne. muuttuvat. mutta yleensä jonkin verran kokemusta ja resursseja voidaan siirtää.
elad gil:millainen arvelet humanoidirobottien ensimmäisen sovellusskenaarion olevan?
andrej karpathy: monet ihmiset luulevat, että robotit voivat auttaa meitä päivittäisissä tehtävissä, kuten pyykinpesussa. mutta uskon, että saattaa kestää kauan ennen kuin nämä tekniikat otetaan käyttöön. en usko, että suorat kuluttajat ovat hyvä lähtökohta humanoidiroboteille, koska emme vieläkään pysty täysin varmistamaan robottien turvallisuutta ollessamme vuorovaikutuksessa ihmisten, kuten vanhusten kanssa, kuten välttämään onnettomuuksia, kuten "kaappauksen kaataminen". vanha rouva", tällainen tilanne tuo valtavia juridisia riskejä, joten mielestäni tämä suunta ei ole sopiva. jopa monissa yksinkertaisissa vuorovaikutusskenaarioissa robotit todennäköisesti kaatavat ihmiset suoraan.
mutta tämän päivän tekniikka ei ole tarpeeksi kypsä ja vaatii lisäparannuksia. siksi uskon, että robottikehittäjille paras asiakas ensimmäisessä vaiheessa on robotti itse. jos robottikehittäjät ymmärtävät tämän, on ensin käytettävä näitä teknologioita sisäisesti inkubaatioon ja sitten sitä voidaan soveltaa tehtaissa. , kuten materiaalinkäsittely jne., jotta sinun ei tarvitse allekirjoittaa sopimusta kolmannen osapuolen kanssa, jolloin vältetään vaivalloinen prosessi, johon liittyy asianajajia ja sopimuksia.
sisäisen hautomisen ja menestyksen jälkeen voit astua b-markkinoille ja tehdä yhteistyötä joidenkin yritysten kanssa, joilla on suuria varastoliiketoimintoja suorittaaksesi tehtäviä, kuten materiaalinkäsittelyä. näissä yhteistyössä robotiikkayritykset voivat rakentaa markkinoiden turvajärjestelmän ja useiden yritysten onnistuneen toteutuksen jälkeen siirtyä vähitellen kuluttajalähtöisiin sovelluksiin. uskon, että tulemme näkemään monia kuluttajille kehitettyjä robotteja. esimerkiksi unitreen kehittämiä tuotteita haluaisin ostaa itsekin.
kun robotit ovat suosittuja eri skenaarioissa, syntyy täydellinen ekosysteemi, eli jokainen kehittää erilaisia robotteja robottialustan pohjalta. mutta mittakaavan näkökulmasta katson, että asteittaisen etenemisen polku on järkevin.
se voi alkaa käsittelemällä joitain materiaalinkäsittelyyn (materiaalinkäsittelyyn) liittyviä töitä ja sitten vähitellen laajenee markkinaraon ja korkean kysynnän alueille. yksi esine, josta olen erityisen kiinnostunut henkilökohtaisesti, on "lehtipuhallin". esimerkiksi jonain päivänä voimme nähdä optimus-robottien kävelevän kaduilla ja poimivan hellästi jokaisen pudonneen lehden, jotta meidän ei enää tarvitse käyttää lehtipuhaltimia. mielestäni tämä on hieno projekti, ja toivon, että tästä voi tulla varhainen sovellusskenaario.
sarah guo: robottimuodon suhteen jotkut ajattelevat, että humanoidirobotit ovat parempi valinta, koska monet nykypäivän fyysisen maailman mallit perustuvat ihmisen käyttäytymistottumuksiin, joten humanoidiroboteihin perustuva yhtenäinen laitteistomuotokehitysmalli voi suorittaa yhä enemmän tehtäviä. toinen näkemys on, että humanoidirobotit eivät välttämättä ole ainoa vastaus universaaleihin robotteihin. mitä mieltä olet tästä asiasta?
andrej karpathy: luulen, että monet ihmiset aliarvioivat erilaisten robottialustojen kiinteiden kustannusten monimutkaisuuden, joten universaalin robotin reitti on järkevämpi yrittää.
joten uskon, että humanoidiroboteissa on todella paljon potentiaalia, ja ihmiset voivat helposti ohjata niitä etäältä kerätäkseen tietoja. samaan aikaan, aivan kuten yksi mainitsemistasi näkökulmista, koko maailma pyörii ihmisten käyttäytymisen ja tapojen ympärillä, mikä on toinen syy, miksi humanoidirobotit ovat tärkeitä.
tietysti humanoidiroboteissa saattaa tapahtua erilaisia muutoksia tulevaisuudessa, mutta minkä tahansa uuden robottialustan kohdalla kiinteät kustannukset ovat tärkeä asia, joka on otettava huomioon.
haluan myös korostaa, että saat enemmän jakamalla tietoa ja oppimalla toisiltaan eri tehtävien välillä.
tekoälyn alalla haluamme rakentaa hermoverkon, joka pystyy käsittelemään useita tehtäviä ja oppimaan toisiltaan useiden tehtävien kautta yleisen älykkyystason parantamiseksi. kielimallien mielenkiintoista on, että ne toimivat tekstinkäsittelyn monitehtävämalleina, jotka pystyvät käsittelemään monenlaisia ongelmia ja samalla jakamaan tietoa näiden tehtävien välillä. mutta kaikki nämä tehtävät suoritetaan itse asiassa yhden hermoverkon kautta.
samoin toivomme, että lehtien poimintatehtävän aikana kerätyt tiedot auttavat sinua muiden tehtävien suorittamisessa, mutta jos kehität järjestelmän nimenomaan tiettyyn tehtävään, voittomarginaalisi voi kavettua.
sarah guo: unitree g1:n kaltaisten robottien hinta on tällä hetkellä noin 300 000 dollaria. näyttää siltä, että humanoidirobotit ovat saavuttaneet alhaiset kustannukset., erittäin toimiva tasainentasapainottaminen on vaikeaa, mutta jos otamme käyttöön pyörillä varustetun rakenteen ja lisäämme robottikäden tiettyjen tehtävien suorittamiseen, eikö meillä olisi paremmat mahdollisuudet toteuttaa kustannustehokkaampi yleiskäyttöinen robotti?
unitree g1 robotti
andrej karpathy:laitteiston näkökulmasta on järkevää etsiä halvempia yleiskäyttöisiä alustoja. joissakin olosuhteissa voi olla tehokkaampi valinta käyttää pyöriä ja muita rakenteita jalkojen sijaan tehtävien suorittamiseen, mutta mielestäni tämä voi olla paikallisen optimaalisen ratkaisun etsiminen. pitkällä aikavälillä mielestäni on luultavasti viisaampaa valita yksi muoto ja hioa se täydelliseksi. ja ihmisen psykologisesta näkökulmasta humanoidirobottien edut ovat ilmeisempiä. ne tuntuvat tutuilta ja saavat ihmiset haluamaan olla vuorovaikutuksessa heidän kanssaan.
tietenkin, kun otetaan huomioon outo laaksoefekti, abstraktit muodot ovat ehkä suositumpia käyttäjien keskuudessa. koska en itse asiassa ole varma, kuinka ihmiset reagoivat erilaisiin robottien muotoihin. jos päädymme tekemään työmme kahdeksanpyöräisen hirviön kanssa, en ole varma, pitävätkö ihmiset siitä tai pelkäävätkö ne enemmän.
elad gil: mekaaniset koirat ovat myös muotoreitti, ja koirat ovat myös ihmiselle tutumpia muotoja.
andrej karpathy:kyllä, mutta monet "black mirrorin" katsoneet saattavat yhdistää mekaanisia koiria tiettyihin kauhukohtauksiin, joten kaikkien psykologinen hyväksyntä voi olla myös helpompi hyväksyä sen toimintoja ja käyttäytymistä.
elad gil:jos haluamme saavuttaa humanoidimuodon, mitä tärkeitä edistysaskeleita on saavutettava teknisestä näkökulmasta?
andrej karpathy: tähän kysymykseen ei mielestäni ole vielä selkeää vastausta. yksi mielenkiintoisimmista keskusteluista on se, että humanoidirobottien suunnittelussa alavartalo ei sovellu jäljitelmäoppimiseen. tämä osa sisältää enemmän käänteistä heiluriohjausta , tiedonkeruu ja päästä päähän oppiminen. jossain mielessä robottijärjestelmien täytyy yhdistää useita tekniikoita, mutta en ole vielä aivan varma, kuinka nämä järjestelmät toimivat keskenään.
💡
käänteinen heiluri:heilurin pitäminen epävakaassa pystyasennossa on klassinen ohjausongelma, jota käytetään laajasti robotiikassa, ilmailussa ja muilla aloilla. perinteisiä käänteisiä heilurisäätömenetelmiä ovat pid-säätö, lineaarinen neliönsäädin (lqr), liukutilan ohjaus jne.
tekoälyn kehityksen myötä vahvistusoppimismenetelmät otetaan vähitellen käyttöön käänteisten heilurien ohjauksessa rl-polun alla se on herättänyt paljon huomiota, koska se pystyy oppimaan optimaalisia strategioita ilman tarkkoja malleja. vahvistusoppimiseen perustuva käänteinen heiluritasapainon ohjausalgoritmi on erittäin käytännöllinen tekniikka ja sitä on käytetty laajalti robotiikassa, automaatiossa ja muilla aloilla.
elad gil: kun kommunikoin joidenkin robotiikan alan ihmisten kanssa, huomasin heidän olevan hyvin huolissaan sellaisista ongelmista kuin voimansiirto, ohjaus ja digitaalinen manipulointi.
andrej karpathy: kyllä, uskon, että alkuvaiheessa tulee todellakin olemaan monia kauko-ohjausskenaarioita, kuten robottien annetaan jäljitellä ihmisiä poimimassa esineitä maasta, kunnes järjestelmä voi toimia itsenäisesti 95 % ajasta. lisää sitten vähitellen robottityön osuutta, jolloin ihmiset voivat muuttua toimijoista esimiehiksi.
itse asiassa mielestäni ei ole erityisiä teknisiä esteitä. on enemmänkin tehtävä paljon perustyötä.meillä on jo sopivat työkalut ja resurssit, kuten transformer-arkkitehtuuri. meidän tarvitsee vain valmistella oikeat tiedot, harjoitella ja kokeilla. vaikka prosessi on monimutkainen, olennaisia teknisiä pullonkauloja ei itse asiassa ole monia.
03.
synteettinen data, pienet mallit, llm-yritykset
sarah guo: missä olemme mielestäsi large blobs -tutkimuksessa?
💡
suuret läiskätutkimukset:yleensä viittaa tutkimussuuntaan tai teknologiaan syväoppimisen ja tietokonenäön aloilla. blob on "binary large esine, joka tarkoittaa "binary large object", on suuri vierekkäinen alue kuvassa tai ominaisuuskartassa, joka voi sisältää tärkeää visuaalista tietoa tai edustaa tiettyä kohdetta tai kohtauksen osaa. näiden suurten alueiden tutkiminen voi auttaa parantamaan mallia käsitellä laajamittaisia visuaalisia ominaisuuksia.
andrej karpathy: minusta tuntuu, että olemme nyt nopean kehityksen vaiheessa. transformer ei ole vain hermoverkko, vaan tehokas ja monipuolinen hermoverkko.
esimerkiksi kun kaikki puhuvat skaalauslaista, he viittaavat usein transformer-arkkitehtuurin ominaisuuksiin. ennen transformeria ihmiset käyttivät pääasiassa pinottua lstm:ää tehdäkseen töitä, mutta selkeää skaalauslakia ei löytynyt. transformer on ensimmäinen malli, joka tekee tämän selväksi ja skaalautuu tehokkaasti.
💡
pinottu lstm viittaa syvään neuroverkkorakenteeseen, joka muodostuu pinoamalla useita lstm (long short-term memory) -kerroksia yhteen.
transformer on kuin yleinen tietokone, tarkemmin sanottuna differentiable neural computer (dnc). voimme tehdä siitä erittäin suuren mittakaavan syötteen ja tulostuksen ja kouluttaa tämän tietokoneen backpropagation-menetelmällä,lopulta siitä tulee itsestään kehittyvä tehtävän suorittamisjärjestelmä.
💡
erotettava hermotietokone (dnc):erityinen hermoverkko, joka pystyy tallentamaan ja hakemaan tietoa, samanlainen kuin tietokoneen muistijärjestelmä. se on "differentioituva", mikä tarkoittaa, että sen parametrit voidaan optimoida taaksepäin leviämisen avulla, jotta se pystyy paremmin ratkaisemaan monimutkaisia tehtäviä.
vaikka transformer on vahingossa löytämämme ihme algoritmien alalla, sen takana on todellakin monia keskeisiä innovaatioita, kuten jäännösyhteydet, kerrosten normalisoinnit ja huomiolohkot. perinteisistä menetelmistä poiketen transformer ei käytä epälineaarisia aktivointifunktioita, jotka aiheuttavat gradientin katoamisen. sen sijaan se integroi teknisissä papereissa mainittuja innovatiivisia tekniikoita, mikä parantaa huomattavasti harjoittelun tehokkuutta ja suorituskykyä.
sarah guo:tänä aikana on keskusteltu dataseinästä, ja seuraavan sukupolven mallin skaalauskustannukset ovat erittäin korkeat. mitä mieltä olet tietoongelmista?
andrej karpathy: tästä keskustelimme alusta asti. luulen, että hermoverkkojen arkkitehtuuri ei ole enää pullonkaula tänään. vaikka ennen transformerin syntymää, arkkitehtoniset ongelmat ovatkin olleet esteenä.siksi monet yritykset ja tutkijat eivät enää keskity transformer-arkkitehtuurin muutoksiin. esimerkiksi llama:lla ei ole erityisen ilmeistä arkkitehtonista innovaatiota. ainoa suuri muutos voi olla "rotaatiopaikkakoodaukset" (rope-paikkakoodaukset).transformer itsessään ei ole juurikaan muuttunut viimeisen viiden vuoden aikana. kaikki keskittyvät vain koulutuksen, tietokokonaisuuksien ja häviötoimintojen innovaatioon olemassa olevan perustan pohjalta.
💡
"rotary positional encodings" (rope, rotary positional encodings):paikkakoodaustekniikka muuntajamalleille. se edustaa paikkatietoa syöttösekvenssissä pyörivillä vektoreilla perinteiseen paikkakoodaukseen verrattuna rope voi antaa mallille enemmän etuja pitkien sekvenssien käsittelyssä. sen keskeinen ominaisuus on koodata kunkin elementin sijainti sekvenssissä kääntämällä vektorin kulmaa säilyttäen samalla suhteellinen etäisyystieto. tämä lähestymistapa mahdollistaa mallin paremman joustavuuden ja skaalautuvuuden eri paikoissa ja soveltuu erityisen hyvin kaukoriippuvuuksiin liittyviin tehtäviin.
sarah guo:kun internetissä ei ole tarpeeksi tietoa, aletaanko käyttää synteettistä dataa tai vastaavia kalliimpia tiedonkeruumenetelmiä?
andrej karpathy: tällä hetkellä paljon tutkimusta keskittyy kielimalleihin. vaikka internet-data ei ole ihanteellisin tietolähde transformerille, niitä voidaan käyttää työkaluna mallien ominaisuuksien jatkuvaan parantamiseen. internet-data on vain kokoelma verkkosivuja, mutta todella arvokasta on se, mitä aivoissamme onsisäinen monologi”——niitä monimutkaisia ja syviä ajattelupolkuja.
jos meillä voi olla miljardeja "ajatusraitojen" kaltaisia tietoja, voimme olla jossain määrin lähellä agi:ta. mutta tällä hetkellä näitä tietoja ei ole olemassa, joten nykyinen tutkimus keskittyy pääasiassa olemassa olevien tietokokonaisuuksien uudelleenjärjestelyyn "sisämonologin (sisämonologin)" kaltaiseen muotoon. tämä on synteettisen datan merkitys. nykyiset mallit voivat auttaa meitä luomaan seuraavan sukupolven malleja. tämä on jatkuva iteratiivisen edistymisen prosessi, aivan kuin tikkaita kiipeäminen, askel askeleelta lähemmäs tavoitetta.
elad gil:kuinka hyödyllistä synteettinen data on? kuten sanoit, jokainen malli voi auttaa meitä kouluttamaan seuraavaa mallia tai ainakin tarjota työkaluja tehtäviin, kuten tietojen merkintään, joista osa voi olla synteettistä dataa.
andrej karpathy: mielestäni synteettiset tiedot ovat välttämättömiä mallien ominaisuuksien parantamiseksi.mutta ole varovainen, kun käytät synteettistä dataa, koska malli "romahtaa" tietämättä milloin. esimerkiksi kun pyydämme chatgpt:tä kertomaan meille vitsejä, jos yritämme vielä muutaman kerran, huomaamme, että se tietää vain 3 vitsiä. vaikka se näyttää tietävän paljon, se tietää itse asiassa vain ne " collapse" ", eli yhden lähdön kanssa ei ole ongelmaa, mutta jos tuotos tähän tiettyyn suuntaan, mallin monimuotoisuus ja joustavuus vähenevät huomattavasti, tämä on ongelma dataa generoitaessa, erityisesti synteettistä dataa luotaessa, se on helppo "romahtaa" tilanne johtuu siitä, että tarvitsemme itse asiassa tiedon monimuotoisuutta ja rikkautta eli "entropiaa" välttääksemme liian yksittäisen tietojoukon aiheuttamia ongelmia.
💡
tilan tiivistäminen:tämä on ilmiö gan-verkoissa (generative adversarial networks), jossa generatiivinen malli alkaa tuottaa hyvin samanlaisia tai toistuvia näytteitä erilaisten näytteiden sijaan. tämä nähdään usein ongelmana, koska se osoittaa, että malli ei pysty oppimaan tietojen runsasta monimuotoisuutta.
esimerkiksi joku julkaisi hahmoihin liittyvän tietojoukon, joka sisältää miljardi fiktiivistä hahmotaustaa, kuten "olen opettaja" tai "olen taiteilija, asun täällä, teen tätä työtä" ja niin edelleen.synteettistä dataa luotaessa annat sen kuvitella vuorovaikutusprosessia tietyn henkilön kanssa. tämä voi antaa mallille enemmän tilaa tutkimiselle, mikä tuottaa enemmän tietoa ja lisää tietojoukon monimuotoisuutta.siksi meidän on ruiskutettava huolellisesti entropiaa samalla kun säilytetään datan jakautumisen vakaus, mikä on suurin haaste synteettisen datan luomisessa.
sarah guo:mitä luulet voivamme oppia tämän tutkimuksen perusteella ihmisen kognitiosta? esimerkiksi jotkut ihmiset uskovat, että ajattelupolkujen muodostumisprosessin ymmärtäminen auttaa meitä ymmärtämään, kuinka aivot toimivat.
andrej karpathy:tutkimusmallit ja ihmisen kognitio ovat kaksi täysin eri asiaa, mutta joissain tapauksissa niitä voidaan verrata. esimerkiksi mielestäni transformer on joissakin asioissa vahvempi kuin ihmisen aivot, ja malli on tehokkaampi järjestelmä kuin ihmisaivot, mutta datarajoitusten vuoksi niiden nykyinen suorituskyky ei ole yhtä hyvä kuin ihmisen aivot. mutta tämä on vain karkea selitys.
esimerkiksi muistiominaisuuksien suhteen transformers suoriutuvat paremmin kuin ihmisen aivot pitkien sekvenssien käsittelyssä. jos annat sille sekvenssin ja pyydät sitä suorittamaan laskutoimituksen eteenpäin ja taaksepäin, se muistaa sekvenssin etu- ja takaosat ja suorittaa tehtävän, mikä on ihmisen muistin vaikea tehdä. siksi gradienttioptimointiin perustuva harjoittelumenetelmä on joissain asioissa mielestäni todellakin tehokkaampi kuin ihmisaivot, ja jopa tulevaisuudessa malli voi todellakin ylittää ihmisen joillain kognitiivisilla tasoilla.
elad gil:muistikapasiteetti on yksi tietokoneiden vahvuuksista.
andrej karpathy: kyllä, mielestäni ihmisaivoilla on monia rajoituksia. esimerkiksi työmuistin kapasiteetti on hyvin rajallinen, kun taas transformersin työmuisti on paljon suurempi, ja kuilu niiden välillä kasvaa edelleen. lisäksi transformers oppii tehokkaammin. ihmisaivojen toimintaa rajoittavat monet piilotetut tekijät, kuten tausta, vastuu, ympäristö jne., mikä tekee ihmisen aivojärjestelmästä satunnaisemman ja rajoitetumman. siksi minusta tuntuu, että nämä mallit ovat joiltakin osin vahvempia kuin ihmisen aivot, mutta ne eivät ole vielä saavuttaneet täyttä potentiaaliaan.
elad gil:mitä tulee ihmisten ja tekoälyn väliseen suhteeseen, yksi argumentti on, että käytämme sitä ulkoisena työkaluna, kun taas toiset sanovat, että ihmisten ja tekoälymallien integraatio syvenee. mitä mieltä olet tästä asiasta?
andrej karpathy: uskon, että olemme saavuttaneet ihmisten ja tekoälyn yhdistämisen jossain määrin. kuten ihmiset usein sanovat, "tietokoneet ovat ihmisaivojen polkupyöriä". nykyisten mallien ongelma on vain tiedon syöttö- ja tulostusprosessin pullonkaula, joten ihmisten ja tekoälyn integrointi vaatii edelleen jatkuvia yrityksiä. kuitenkin, kun mallit on viimeistelty, näiden mallien käyttö on hyvin yksinkertaista ja se voidaan saavuttaa muutamalla yksinkertaisella liikkeellä. joten vaikka joitakin esteitä onkin, nykyinen tekniikka on tehnyt tästä integroinnista suhteellisen helppoa ja mahdollista.
elad gil:jotkut tekoälyalan ihmiset uskovat siihenjos meidän ja tekoälyn välillä on tulevaisuudessa ristiriita, se on okei
ratkaistiin jollain tavalla ihmisten ja tekoälyn fuusiossa.
andrej karpathy: kyllä, tämä on hyvin samanlainen kuin neuralinkin filosofia. vaikka en ole varma tarkalleen, miltä tämä fuusio tulee näyttämään, on selvää, että haluamme vähentää syöttö- ja ulostuloviivettä ihmisten ja työkalujen välillä. voit ajatella sitä uuden aivokuoren lisäämisenä aivokuoreen. tämä uusi aivokuori voi olla pilvipohjainen ja se on pohjimmiltaan aivojen seuraava kerros.
elad gil: olemassa accelerando kirjassa on samanlainen lähtökohta, jossa kaikki toimitetaan aivoihin puettavien älylasien kautta. jos kadotat nämä lasit, se on kuin menettäisit osan persoonastasi tai muististasi.
andrej karpathy: mielestäni tämä on todennäköistä. nykypäivän matkapuhelimista on tullut melkein osa elämäämme, kuin ulkoinen laite aivoille. joka kerta kun laitamme puhelimemme alas, tunnemme palanneemme alkuperäiseen tilaan.
toisessa esimerkissä, jos meillä on "universal translator" ja luotamme siihen pitkään, niin kun meillä yhtäkkiä sitä ei ole, voimme menettää kyvyn kommunikoida suoraan eri kieliä puhuvien ihmisten kanssa. kuten videossa näkyy, lapsi pitää lehteä kädessään ja yrittää liu'uttaa sitä sormellaan. hän ei osaa sanoa, mikä on luonnollista ja mitä teknologia saa aikaan. se saa minut ajattelemaan, että kun teknologia tulee yhä yleisempään, ihmiset voivat kasvaa riippuvaisiksi näistä työkaluista vain tajutakseen, että he eivät voi kertoa, mikä on teknologiaa ja mikä ei, ennen kuin ne katoavat. erityisesti laitteet, kuten kääntäjät, jotka aina auttavat sinua tehtävien suorittamisessa, vähentävät suuresti ihmisten herkkyyttä tekniikan ja luonnon välisille rajoille.
sarah guo: "exocortex" kuulostaa erittäin tärkeältä asialta, ja se on tärkeä kaikille. nykyään llm-tutkimusta johtaa muutama tekoälylaboratorio, ja vain heillä on resurssit edistää seuraavan sukupolven mallikoulutuksen kehittämistä. mitä mieltä olet tästä llm-tutkimuksen rakenteesta nykyään? miten se vaikuttaa tekoälyteknologian suosioon tulevaisuudessa?
andrej karpathy: llm:n ekosysteemi on todellakin nykyään useiden suljettujen alustojen monopolisoitunut, kun taas alempana oleva meta llama on suhteellisen avoin. kun ajattelemme llm:tä "ulkoisena kerroksena", asiaan liittyvät tiedot ja tietosuojakysymykset. salauskentässä on sanonta, että "ei avaimia, ei tokeneita". ehkä tulevaisuudessa llm-kentässä korostamme "ei painojasi, ei aivojasi". jos tekoäly on uusi aivokuori kaikille tulevaisuudessa, ja jos tämä aivokuori on tietyn yrityksen hallinnassa, ihmiset tuntevat "vuokraavansa" aivot sen sijaan, että he omistaisivat ne.
sarah guo: oletko valmis luopumaan omien aivojen omistajuudesta ja hallinnasta vuokrataksesi tehokkaamman?
andrej karpathy: mielestäni tämä on kriittinen kompromissi. tulevaisuuden trendi voi olla, että useimmat ihmiset käyttävät tehokasta suljetun lähdekoodin mallia oletusvaihtoehtona, mutta joissain tapauksissa avoimen lähdekoodin järjestelmistä tulee vaihtoehto. aivan kuten nyt, kun joillakin suljetun lähdekoodin mallintarjoajilla on ongelmia api-liittymiensä kanssa, ihmiset kääntyvät avoimen lähdekoodin ekosysteemin puoleen ja tuntevat siksi enemmän hallintaansa.
tämä voi olla myös tulevaisuuden aivoteknologian kehityksen suunta: ongelmien ilmetessä voimme siirtyä avoimen lähdekoodin järjestelmiin, kun taas useimmissa tapauksissa luotamme edelleen suljettuihin järjestelmiin. on tärkeää pitää avoimen lähdekoodin järjestelmiä eteenpäin, mutta nykyään ehkä kaikki eivät ole tietoisia tästä ongelmasta.
elad gil:mitä mieltä olet miniatyyreistä? millaista suorituskykyä nykypäivän pienet mallit voivat saavuttaa?
andrej karpathy: mielestäni mallia voisi pienentää vielä pienemmäksi. tietojoukon ongelman vuoksi katsomme, että nykyinen malli hukkaa paljon kapasiteettia joidenkin epäolennaisten tietojen tallentamiseen pienen mallin avain on keskittyä ydinkognitioon, ja tämä ydin voi itse asiassa olla hyvin pieni. se on enemmän kuin ajattelutapa kun tarvitsemme tietoa, voimme käyttää sen hankkimiseen joustavasti erilaisia työkaluja sen sijaan, että annamme mallin tallentaa paljon tarpeettomia yksityiskohtia.
mitä tulee parametreihin, mielestäni saatamme tarvita vain 100 miljoonaa parametria saavuttaaksemme tavoitteemme. tehokas pakkaustekniikka voi tehdä mallista erittäin pienen pakkaamisen periaate on yksinkertainen: käytä erittäin suurta mallia tai paljon laskentaresursseja pienemmän mallin valvomiseen.
asian ydin on, että nykypäivän suuret mallit käsittelevät internetin tietojoukkoja ja vain noin 0,001 % sisällöstä liittyy kognitioon, ja loput 99,99 % on itse asiassa jotain epäolennaista tietoa, kuten kopioi oikea teksti. suurin osa tiedoista ei näytä merkittävää roolia ajattelumallien parantamisessa.
elad gil:voiko tämä prosessi selittää matematiikalla tai jollain tietotekniikan teorialla? voidaanko mallin koon ja kognitiivisen voiman välinen suhde kvantifioida? esimerkiksi tulevaisuudessa saatetaan tarvita vain 1 miljardin parametrin malli hyvän ymmärryksen saavuttamiseksi.
andrej karpathy: se voi maksaa jopa alle miljardin, ja mallilla voi olla tällainen kognitiivinen kyky, kun otetaan huomioon mallin kustannukset, päätelaitteet jne. ja se, mitä aiomme keskustella, ei ehkä ole yksittäinen kognitiivinen malli, mielestäni mallilla pitäisi olla kyky prosessoida rinnakkain sen sijaan, että se luottaisi vain peräkkäiseen käsittelyyn. se on kuin yritys, paljon työtä voidaan tehdä rinnakkain, mutta myös hierarkkista rakennetta tarvitaan tiedon parempaan käsittelyyn. siksi uskon, että tulevaisuudessa saattaa olla olemassa malli "yritykset llm:ille": eri mallit keskittyvät omiin aloihinsa, kuten yksi on ohjelmoijamalli ja toinen projektipäällikkömalli. kaikki tekevät paljon työtä rinnakkain ja toistensa ne voivat myös tehdä yhteistyötä muodostaakseen "ryhmäaivot", jotka koostuvat llm:istä.
elad gil:tämä llm-klusteri on kuin ekosysteemi, jonka jokaisella osalla on oma ainutlaatuinen asiantuntemuksensa ja asemansa.
andrej karpathy: uskon, että tulevaisuus kehittyy tähän suuntaan. pilvimalli on älykkäin ja sitä voidaan pitää toimitusjohtajana. tässä ryhmässä on monia halvempia ja avoimen lähdekoodin malleja. tehtävät eskaloidaan automaattisesti ja osoitetaan muille ryhmän osille.
04.
koulutus ai-aikakaudella
sarah guo:aloitit oman koulutusprojektisi työskentelyn openai:n jälkeen. miksi valitsit koulutuksen?
andrej karpathy: olen aina rakastanut koulutusalaa, pidän oppimisesta ja opettamisesta, ja olen erittäin intohimoinen tälle alalle.
💡
karpathy perustettiin eureka labs, joka on opetusalusta, jonka ytimenä on tekoäly ja jonka tavoitteena on mullistaa oppimismenetelmät tekoälyteknologian avulla. eureka labsin ensimmäinen kurssi llm101n opiskelijoita ohjataan rakentamaan omia laajamittaisia kielimalleja, joiden tavoitteena on tehdä tekoälykoulutuksesta interaktiivisempaa ja suositumpaa. tämä alusta aikoo parantaa oppimiskokemusta integroimalla tekoälyn opetusavustajat ja ihmisen kurssin suunnittelun, mikä heijastaa hänen näkemystään tekoälyn ja koulutuksen yhdistämisestä vuosien varrella.
tärkeä syy, joka pakotti minut siirtymään tälle alalle, on se, että minusta tuntuu, että monet tekoälyt yrittävät korvata ihmisiä, jolloin monet ihmiset menettävät työpaikkansa, mutta olen enemmän kiinnostunut teknologioista, jotka voivat parantaa ihmisen kykyjä. kaiken kaikkiaan seison ihmiskunnan puolella ja toivon, että tekoäly voi auttaa ihmiskuntaa tulemaan voimakkaammaksi syrjäytymisen sijaan.
lisäksi mielestäni on melko hyvä idea, että sinulla on "täydellinen ohjaaja", joka pystyy suorittamaan tutorointitehtäviä kaikissa aineissa. jos jokaisella on tällainen ai-tutori, joka ohjaa heitä kaikkien aineiden oppimisessa, uskon, että jokainen voi saavuttaa parempia tuloksia.
elad gil: 1980-luvulta lähtien kirjallisuudessa on selkeästi todettu, että yksittäinen tutorointi voi parantaa yksilön suorituskykyä kahdella standardipoikkeamalla. kuinka luulet, että tekoäly ja tutorit voidaan yhdistää?
andrej karpathy: saan näistä esimerkeistä paljon inspiraatiota. nyt olen rakentamassa kokonaista kurssia, jonka tavoitteena on tehdä siitä ensimmäinen valinta tekoälyn oppimiseen. opetin aiemmin stanfordin ensimmäistä syväoppimiskurssia, mutta tulokset olivat hyviä. haasteena on nyt skaalata tämäntyyppinen kurssi kattamaan 8 miljardia ihmistä eri puolilla maailmaa.
siksi avain on kuinka käyttää tekoälyä laajentamaan hyvien opettajien roolia. opettajien ydintehtävänä tulisi olla kurssin suunnittelu ja kirjoitusmateriaalit, kun taas tekoäly voi olla vuorovaikutuksessa opiskelijoiden kanssa käyttöliittymässä ja opettaa sisältöä. nykyinen tekoäly ei voi luoda kokonaisia kursseja itsenäisesti, mutta se riittää selittämään ja siirtämään tietoa. tällä tavalla opettajat voivat keskittyä taustasuunnitteluun, kun taas tekoäly käyttää käyttöliittymässä useita kieliä ollakseen vuorovaikutuksessa oppilaiden kanssa ja auttaakseen heitä suorittamaan oppimisensa.
sarah guo:voiko tekoälyä verrata assistenttiin?
andrej karpathy: opetusassistentti on yksi harkitsemistani suunnasta, joka on suora vuorovaikutus opiskelijoiden kanssa ja johdattaa heidät kurssin loppuun markkinoilla, joten uskon, että tällä alueella on paljon potentiaalia, ja tekniikan kehittyessä voimme tehdä siihen erilaisia muutoksia. minusta tuntuu, että monilla yrityksillä ei nykyään ole tarpeeksi intuitiivista ymmärrystä mallien ominaisuuksista, ja sen seurauksena heidän kehittämänsä tuotteet ovat liian edistyksellisiä tai epätarkkoja. joten mielestäni tällä alalla on suuri potentiaali.
sarah guo: missä määrin ihmisen kykyjen rajat voidaan saavuttaa hyvillä työkaluilla? esimerkiksi, jos vertaamme sitä olympialaisiin, tieteen ja tekniikan harjoittelun edistymisen vuoksi viimeisen 10 vuoden aikana huippujuoksijoiden suorituskyky on parempi kuin 10 vuoteen.
andrej karpathy: minusta tuntuu, että emme ole vielä saavuttaneet täyttä potentiaalia tänään. voimme ajatella tätä asiaa kahdesta näkökulmasta. ensimmäinen on globalisaatio. toivon, että jokainen voi saada korkean koulutuksen. molemmat näkökulmat ovat arvokkaita.
elad gil: yleensä kun puhutaan 1-1-oppimisen ohjauksesta, mainitaan personointi ja sopeuttaminen, eli vastaavien oppimishaastetehtävien antaminen jokaisen henkilön tason mukaan. pystyykö tekoäly tekemään tämän nykyään?
andrej karpathy: mielestäni tämän päivän tekoälykoulutuksen "matala hedelmä" on käännössovellukset nykyiset mallit ovat erittäin hyviä sellaisissa tehtävissä, ja ne asiat, joita he voivat tehdä, ovat edelleen perustehtäviä.
jokaisen ihmisen tasolle mukautuvaa personointia on vaikea saavuttaa, mutta se ei ole mielestäni mahdotonta myös tekoälykehityksen painopisteenä, ja siihen on ilmiselvästi potentiaalia. mutta tämä voi sisältää uusia alueita yksinkertaisempi malli voidaan toteuttaa pikaprojektin kautta, mutta mielestäni todella hyödyllinen tapa on saada malli itsessään olemaan sellainen, että se toimii kuin opettaja.
uskon, että tämä koskettaa joitain alueita, jotka ovat tällä hetkellä alikehittyneitä. vaikka yksinkertaiset versiot eivät välttämättä ole kaukana, kuten mallille vihjeiden antaminen avun saamiseksi, puhun ratkaisuista, jotka todella toimivat, en vain näyttävät hyvältä esittelyssä. puhun kyvystä työskennellä yhtä tehokkaasti kuin todellinen opettaja, joka ymmärtää jokaisen ihmisen kontekstin ja tarjoaa henkilökohtaista ohjausta, mikä vaatii edelleen kehittämistä.
elad gil: voimmeko saavuttaa tämän mukautuksen ottamalla käyttöön muita malleja?
andrej karpathy: mielestäni tämä on myös tekoälyn ominaisuus. mielestäni monet toiminnot voidaan toteuttaa yhdellä kehotuksella. joten näemme usein paljon demoja, mutta voimmeko lopulta toimittaa todellisen tuotteen? demojen tekeminen ei siis ehkä ole vaikeaa, mutta vielä on pitkä matka ennen kuin siitä voidaan kehittää tuote, jota voidaan käyttää laajassa mittakaavassa.
sarah guo:muutama viikko sitten mainitsit, että oppiminen ja viihde ovat erilaisia. missä määrin kannustinjärjestelmä voi mielestäsi muuttaa ihmisten motivaatiota oppia? keskitytkö enemmän resurssien tarjoamiseen, jotta ihmiset voivat mennä niin pitkälle kuin he voivat kykyjensä puitteissa? vai haluatko muuttaa oppimishaluisten ihmisten määrää ja ohjata enemmän ihmisiä aloittamaan oppimisen?
andrej karpathy:toivon voivani tehdä oppimisesta hieman helpompaa, koska jotkut eivät ehkä ole luonnollisesti kiinnostuneita oppimisesta. monet ihmiset opiskelevat käytännön tarpeista, kuten työn löytämiseksi, mikä on täysin järkevää. koulutuksella on tärkeä rooli yhteiskunnassamme, koska se ei ainoastaan tarjoa tietoa, vaan myös parantaa ihmisen taloudellista asemaa, minkä vuoksi ihmiset haluavat olla motivoituneita koulutuksesta.
sarah guo:miltä tulevaisuutemme näyttää agi:n jälkeisessä yhteiskunnassa?
andrej karpathy:agi:n jälkeisellä aikakaudella koulutuksesta tulee mielestäni enemmän viihdettä. onnistunut koulutus ei ole vain tiedon siirtämisen, vaan myös tämän tiedon syvällisen ymmärtämisen ja soveltamisen perusta.
sarah guo:kuka oli eurekan ensimmäinen yleisö?
andrej karpathy:tämän ensimmäisen kurssin ensisijainen yleisö on perustutkinto-opiskelijat, erityisesti teknisten alojen tutkintoa suorittavat. jos opiskelet teknologiaan liittyvää perustutkintoa, olet ihanteellinen kohderyhmä tälle kurssille.
andrej karpathy:mielestäni nykyinen koulutuskäsityksemme on jokseenkin vanhentunut. vanha tapa käydä koulua, valmistua ja työskennellä koko ajan murtuu nykypäivän muutoksissa tekniikka muuttuu nopeasti ja ihmisten on jatkettava oppimista. joten vaikka kurssi on tarkoitettu perustutkinto-opiskelijoille, sillä on itse asiassa laaja yleisö. esimerkiksi mielestäni kaikenikäiset voivat osallistua. erityisesti niille, joilla on tekninen tausta ja jotka haluavat saada syvemmän ymmärryksen asiaankuuluvasta tiedosta, on jotain saavutettavaa.
suunnittelen tarjoavani kurssin myöhemmin tänä vuonna, ensi vuoden alku saattaa olla sopiva aika, ja sitä ennen teen kovasti töitä varmistaakseni, että kurssin laatu on odotetun tason mukainen.
elad gil:jos sinulla olisi lapsia, mitä tietoja ja taitoja haluaisit heidän oppivan?
andrej karpathy:vastauksena olisivat matematiikka, fysiikka, tietojenkäsittely ja muut aineet. tietysti taustani vaikuttaa tähän näkökulmaan, mutta uskon, että nämä alueet ovat erittäin hyödyllisiä ongelmanratkaisutaitojen kannalta. vaikka tulevaisuus lähestyy agi:n aikakautta, nämä taidot ovat edelleen tärkeitä. tänä kriittisenä aikana, jolloin ihmisillä on paljon aikaa ja huomiota, meidän pitäisi mielestäni keskittyä lähinnä tehtäviin, jotka ovat suhteellisen yksinkertaisia suorittaa, eikä paljon muistia vaativiin tehtäviin. vaikka ymmärrän myös muiden aineiden oppimisen tärkeyden, uskon, että 80 % ajasta pitäisi keskittyä näihin ydinalueisiin, koska ne ovat käytännöllisempiä ja niillä on pitkäaikaista arvoa.
ladonta: fia