notizia

andrej karpathy, ex membro fondatore di openai: tesla può ottenere l'agi nel campo della guida autonoma

2024-09-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

il contenuto di questo articolo è"cosa investire in agix"del 6 articoli.si tratta di una combinazione di 40 aziende ad “elevata purezza dell’intelligenza artificiale” selezionate tra migliaia di società tecnologiche quotate in tutto il mondo. l'indice agix è la coordinata per il posizionamento del processo agi e fornisce anche uno strumento prezioso per gli investitori per catturare l'ai-alfa. nella sezione "cosa investire in agix", condurremo un'analisi approfondita delle società in portafoglio dell'indice agix e forniremo un riferimento completo agli investimenti in intelligenza artificiale per il mercato.


tesla è una delle prime 10 holding nel portafoglio dell'indice agix. gli investimenti su larga scala della società nella guida autonoma e nei robot negli ultimi 10 anni le hanno dato l'opportunità di diventare il più forte attore agi nel mondo fisico.recentemente, tesla ha inaugurato la seconda ondata di aumento dei prezzi delle azioni nel 2024, non solo raggiungendo il livello più alto negli ultimi due mesi, ma anche cancellando tutti i cali di quest’anno e invertendo l’intelligenza artificiale è il fattore più importante che guida questo ciclo di crescita .


il 10 ottobre, tesla rilascerà ufficialmente robotaxi. secondo l’analisi di ark, si prevede che entro il 2029, quasi il 90% del valore aziendale e degli utili di tesla saranno attribuiti al settore dei taxi a guida autonoma.questa settimana, tesla ha anche abbassato il prezzo delle opzioni fsd per incrementare le vendite di nuove auto. allo stesso tempo, l’aumento dei tassi delle opzioni fsd aiuterà anche tesla a raccogliere più dati per migliorare le prestazioni fsd. sebbene il robot optimus sia ancora lontano dalla commercializzazione su larga scala, se optimus viene utilizzato per sostituire gli operai della fabbrica tesla e migliorare l'efficienza umana, i profitti potrebbero essere notevolmente migliorati prossimi cinque anni l'implementazione può far risparmiare fino a 3-4 miliardi di dollari in costi.



                      💡 sommario💡                           

01 la guida autonoma è molto simile all’agi

02 tesla è anche un'azienda di robotica

03 piccoli modelli e “società llm”

04 l’educazione nell’era dell’ia




01.


la guida autonoma è molto simile all’agi


sarah guo:cosa ne pensi dello sviluppo della guida autonoma oggi? quanto tempo ci vorrà prima che si diffonda la guida autonoma?


andrej karpathy: lavoro nel campo della guida autonoma da 5 anni e trovo questo campo molto interessante. a giudicare dall’attuale sviluppo di questo campo, la guida autonoma e l’agi sono molto simili. forse è anche perché ho familiarità con il campo della guida autonoma, ma sento che siamo vicini all’agi nel campo della guida autonoma ad esempio, ci sono già prodotti formed che possono essere utilizzati dagli utenti a pagamento. waymo è un buon esempio. waymo è ormai molto comune a san francisco e molte persone lo hanno sperimentato spesso ed è diventato un prodotto commerciale.


la mia prima esperienza con waymo è stata quasi 10 anni fa. un amico lavorava per waymo all'epoca e mi ha portato a fare un giro con waymo per l'intero isolato. da un punto di vista tecnico, waymo 10 anni fa e' già molto buono, ma il processo dalla demo al diventare un prodotto distribuito su larga scala nelle città ha richiesto 10 anni. naturalmente, waymo è ancora in espansione oggi.


elad gil:ci sono voluti 10 anni dalla demo al prodotto a pagamento di successo. in che misura è dovuto alla regolamentazione? quando pensi che sarà pronta la tecnologia di guida autonoma?


andrej karpathy:penso che la guida autonoma abbia effettivamente raggiunto un livello abbastanza maturo 10 anni fa, ma una demo di 30 minuti non può dimostrare appieno tutte le sfide che hanno affrontato negli ultimi 10 anni. c'è un grande divario tra la demo e il prodotto reale naturalmente ci saranno alcune ragioni normative.


ma penso che in una certa misura abbiamo raggiunto l’agi nel campo della guida autonoma. allo stesso tempo, c’è un grande divario tra la dimostrazione e l’essere promossi a livello globale.sebbene waymo sia già in corso a san francisco, non ha ancora avuto un impatto molto sostanziale e non risulta dal punto di vista della divulgazione nel mercato globale. è qui che penso che l’agi e la guida autonoma siano simili.


torniamo al campo della guida autonoma,molte persone pensano che waymo sia tecnologicamente più avanti di tesla, ma personalmente penso che tesla sia in realtà più avanti di waymo. questa opinione potrebbe non essere la stessa dell'attuale voce mainstream, ma ho fiducia nella guida autonoma di tesla.


tesla deve affrontare problemi a livello di software, mentre le sfide di waymo provengono dall’hardware. in confronto, i problemi software sono più facili da risolvere. tesla ha distribuito veicoli su larga scala in tutto il mondo, mentre waymo non ha ancora raggiunto tale scala. pertanto, credo che una volta che il sistema di tesla potrà essere implementato su larga scala e funzionare in modo efficiente, i risultati saranno sorprendenti. ho appena provato l'ultima versione di fsd ieri e l'esperienza di guida è stata molto fluida. una serie di operazioni del sistema di guida autonoma di tesla mi fanno pensare che tesla abbia ottenuto oggi risultati abbastanza buoni nella guida autonoma.


nel complesso, penso che la sfida più grande per la guida autonoma di tesla sia dal punto di vista del software, mentre le sfide di waymo provengono maggiormente dall'hardware. dal punto di vista odierno, waymo sembra essere in una posizione forte, ma credo che se lo guardi su un periodo di 10 anni, tesla sarà più avanti in termini di scala e modello di entrate.



elad gil:quanto tempo pensi che ci vorrà per risolvere un problema software? hai appena detto che i veicoli di waymo hanno molti lidar e sensori costosi. questi hardware forniscono supporto per il sistema software se, come tesla, si basa solo sul sistema di telecamere, non solo può ridurre significativamente i costi, ma anche ridurre la complessità del sistema. sistema e applicabile a più modelli. quando si realizzerà probabilmente questo cambiamento?


andrej karpathy: personalmente spero che la situazione si risolva entro i prossimi anni. in effetti, tesla ha utilizzato anche molti sensori costosi nella fase di formazione e ha anche realizzato molte tecnologie che non possono essere promosse su larga scala, come il wirelessricerca del modello di fiducia del sensore di linea e mappatura della mappa, ecc.durante la fase di test, tesla ha ottimizzato questi dati in un pacchetto di test che si basava solo sul sistema di visione e lo ha implementato sui veicoli di produzione. molte persone potrebbero non rendersi conto che si tratta in realtà di un "arbitraggio" molto intelligente tra sensori e costi. poiché la fotocamera può acquisire informazioni sufficienti, anche la rete neurale è in grado di elaborare queste informazioni. durante la fase di addestramento questi sensori sono molto utili, ma durante la fase di test il loro ruolo non è così importante. quindi penso che affidarsi solo alla fotocamera sia sufficiente.


elad gil: una tendenza recente nel campo della guida autonoma è quella di passare gradualmente da algoritmi euristici progettati sulla base di casi limite al deep learning end-to-end. quali sono le ragioni e la logica alla base di ciò?


andrej karpathy: l'end-to-end è in realtà ciò che volevamo fare fin dall'inizio. quando sono entrato in tesla per la prima volta, abbiamo discusso del fatto che le reti neurali avrebbero eventualmente sostituito l’intero stack tecnologico. a quel tempo c'era molto codice c++ nel sistema, ma oggi ce n'è pochissimo in esecuzione nella suite di test. le reti neurali le hanno gradualmente sostituite. inizialmente, le reti neurali venivano utilizzate solo per l'elaborazione del riconoscimento delle immagini e successivamente ampliate per elaborare più fotogrammi di immagini e generare risultati di previsione. nel corso del tempo, i codici c++ sono stati gradualmente sostituiti. alla fine, il sistema deve solo fornire istruzioni di guida e la rete neurale può produrre i risultati.


quindi ciò che tesla sta facendo è la guida ai end-to-end, ma waymo probabilmente non ha scelto questa strada tecnica. nonostante i tentativi, i risultati non sono soddisfacenti.


personalmente ritengo che il percorso end-to-end sia corretto e costituisca la direzione inevitabile per lo sviluppo futuro.se lo guardi da questa prospettiva, è probabile che tra dieci anni il sistema tesla si svilupperà in una rete neurale end-to-end, in cui viene immesso il flusso video e vengono emesse direttamente le istruzioni di guida. naturalmente, questo processo richiede il miglioramento graduale di ciascun modulo del sistema. non credo che tutte le attuali previsioni intermedie siano fuorvianti nel processo di sviluppo, anzi, costituiscono una parte importante del sistema; perché quando si addestra una rete neurale completamente end-to-end, i segnali di supervisione per la simulazione della guida umana sono molto limitati e non possono supportare l'addestramento di una rete così grande. le previsioni intermedie possono aiutare a sviluppare funzionalità e rilevatori, rendendo il problema end-to-end più fattibile. quindi la mia ipotesi è che stiano facendo molta formazione preliminare per consentire la messa a punto end-to-end in futuro.


nel complesso, penso che il processo di sostituzione delle reti neurali dell’intero stack tecnologico sia necessario, ma il processo deve essere graduale. gli attuali tentativi di tesla hanno mostrato i primi risultati, rendendo le persone piene di aspettative per il futuro.


💡

previsioni intermedie:i risultati o l'output non finali generati durante l'addestramento o l'inferenza del modello. queste previsioni fungono da passaggi intermedi in un processo di calcolo in più fasi, aiutando il modello ad avvicinarsi gradualmente al risultato finale. sono utili in attività complesse, come il processo decisionale gerarchico, la traduzione automatica o l'apprendimento multi-task, in cui questi risultati intermedi possono essere valutati per ottimizzare le prestazioni del modello, correggere i pregiudizi o migliorare l'addestramento del modello. inoltre, le previsioni intermedie aiutano a spiegare il funzionamento interno del modello e possono fornire un riferimento per l'ottimizzazione del modello.




02.


tesla è anche un'azienda di robotica


sarah guo: prima di lasciare tesla, hai anche partecipato al progetto del robot umanoide di tesla. dalla guida autonoma ai robot, quali tecnologie si possono trasferire?


andrej karpathy: fondamentalmente è possibile migrare tutte le tecnologie. ma penso che la gente forse non se ne renda ancora conto.non c’è molta differenza tra robot e automobili. penso che semplicemente intendere tesla come una casa automobilistica sia in realtà un malinteso.


tesla è in realtà una grande azienda di robotica che non solo produce automobili, ma produce anche macchine automatizzate. la produzione di massa è un campo molto diverso e penso che tesla sia un’azienda specializzata nella robotica su larga scala.


la migrazione dalla tecnologia automobilistica alla robotica umanoide in realtà non richiede molto lavoro extra. in effetti, il primo robot optimus pensava addirittura che fosse un'auto perché utilizzava esattamente lo stesso computer e le stesse telecamere di un'auto. è interessante notare che stavamo eseguendo una rete neurale progettata per le auto sul robot e quando il robot camminava per l'ufficio, lo "spazio di guida" che identificava diventava in realtà uno "spazio percorribile". anche se è necessaria una certa messa a punto, ciò dimostra la versatilità della tecnologia.


sarah guo: da un certo punto di vista, tesla può effettivamente essere considerata un’azienda di robotica e molte tecnologie chiave possono essere trasferite su più piattaforme. la parte fondamentale che manca ai robot di produzione è in realtà il meccanismo di esecuzione e i relativi dati di azione.


andrej karpathy: sì, anche se alcuni luoghi non sono ancora perfetti, voglio sottolineare che molte tecnologie possono essere trasferite direttamente. ad esempio, il progetto optimus è iniziato molto rapidamente dopo che elon musk ha annunciato il progetto, i team e gli strumenti pertinenti sono stati rapidamente creati. risorse come modelli cad, catene di fornitura, ecc. sono state preparate rapidamente. a quel tempo, sentivo che tesla in realtà disponeva già di una notevole ricchezza di risorse interne per la produzione di robot, tutte prese dalle auto tesla. questa sensazione è in qualche modo simile a quella mostrata in "transformers". dopo che l'auto si è trasformata in un robot, tutto è uguale, ma alcune cose devono essere leggermente modificate e riconfigurate. oltre all’hardware, cambierà l’intero modo di pensare, i team di annotazione, il coordinamento tra le varie sezioni dei componenti, ecc. ma in generale, alcune esperienze e risorse possono essere trasferite.


elad gil:quale sarà secondo te il primo scenario applicativo dei robot umanoidi?


andrej karpathy: molte persone penserebbero che i robot possano aiutarci nelle attività quotidiane come fare il bucato. ma penso che potrebbe volerci molto tempo prima che queste tecnologie vengano effettivamente implementate. non penso che il direct-to-consumer sia un buon punto di partenza per i robot umanoidi, perché non possiamo ancora garantire completamente la sicurezza dei robot quando interagiscono con persone come gli anziani, ad esempio evitando incidenti come "abbattere il vecchia signora", questo tipo di situazione comporterà enormi rischi legali, quindi penso che questa direzione non sia adatta. anche in molti scenari di interazione semplici, è probabile che i robot facciano cadere le persone direttamente.


ma la tecnologia odierna non è sufficientemente matura e necessita di ulteriori miglioramenti. pertanto, penso che per gli sviluppatori di robot, il miglior cliente nella prima fase sia il robot stesso. se gli sviluppatori di robot riescono a realizzarlo, la prima cosa da fare è utilizzare queste tecnologie internamente per l'incubazione, e poi possono essere applicate nelle fabbriche. , come la movimentazione dei materiali (movimentazione dei materiali) e altri campi, in modo che non sia necessario firmare un contratto con terzi, evitando il processo complicato che coinvolge avvocati e contratti.


dopo l'incubazione interna e il successo, puoi entrare nel mercato b e collaborare con alcune aziende con grandi attività di magazzino per svolgere attività come la movimentazione dei materiali. in queste collaborazioni, le aziende di robotica possono costruire un sistema di sicurezza del mercato e, dopo un’implementazione di successo da parte di più aziende, possono passare gradualmente ad applicazioni orientate al consumatore. credo che in futuro vedremo molti robot sviluppati per i consumatori. ad esempio, vale la pena aspettarmi i prodotti sviluppati da unitree. vorrei acquistare anch'io un unitree g1.


quando i robot diventeranno popolari in vari scenari, ci sarà un ecosistema completo, ovvero tutti svilupperanno vari tipi di robot in base alla piattaforma robot. ma da una prospettiva di scala, penso che il percorso di avanzamento graduale sia il più ragionevole.


può iniziare gestendo alcuni lavori relativi alla movimentazione dei materiali (movimentazione dei materiali), per poi espandersi gradualmente verso aree più di nicchia e ad alta richiesta. un oggetto che personalmente mi interessa particolarmente è il "soffiatore per foglie". ad esempio, un giorno potremo vedere i robot optimus camminare per le strade e raccogliere delicatamente ogni foglia caduta, così da non dover più usare i soffiatori per foglie. penso che questo sia un grande progetto e spero che possa diventare uno dei primi scenari applicativi.


sarah guo: in termini di forma robotica, alcune persone pensano che i robot umanoidi saranno una scelta migliore, perché molti progetti nel mondo fisico oggi si basano su abitudini comportamentali umane, quindi un modello di sviluppo di forme hardware unificato basato su robot umanoidi può completare sempre più compiti ., un altro punto di vista è che i robot umanoidi non sono necessariamente l’unica risposta ai robot universali. cosa ne pensi di questo problema?


andrej karpathy: penso che molte persone in realtà sottovalutino la complessità dei costi fissi delle diverse piattaforme robotiche. ciascuna piattaforma robotizzata richiede un costo fisso elevato, quindi il percorso di un robot universale sarà più ragionevole tentativo.


quindi penso che i robot umanoidi abbiano effettivamente un grande potenziale e che gli esseri umani possano facilmente controllarli da remoto per aiutare a raccogliere dati. allo stesso tempo, proprio come una delle prospettive che hai appena menzionato, il mondo intero ruota attorno al comportamento e alle abitudini umane, che è un altro motivo per cui i robot umanoidi sono importanti.


naturalmente, in futuro potrebbero esserci vari cambiamenti nei robot umanoidi, ma per qualsiasi nuova piattaforma robotica, i costi fissi sono una questione importante da considerare.


voglio anche sottolineare che otterrai di più condividendo informazioni e imparando gli uni dagli altri tra compiti diversi.


nel campo dell’intelligenza artificiale, vogliamo costruire una rete neurale in grado di gestire più attività e imparare gli uni dagli altri attraverso più attività per migliorare il livello di intelligenza generale. la cosa interessante dei modelli linguistici è che fungono da modelli multi-task per l’elaborazione del testo, in grado di gestire molti tipi diversi di problemi condividendo allo stesso tempo le informazioni tra queste attività. ma tutti questi compiti vengono in realtà eseguiti attraverso un’unica rete neurale.


allo stesso modo, speriamo che i dati raccolti durante l'attività di raccolta delle foglie ti aiutino a completare altre attività, ma se sviluppi un sistema specifico per un'attività specifica, il tuo margine di profitto potrebbe ridursi.


sarah guo: robot come unitree g1 hanno attualmente un prezzo di circa 300.000 dollari. sembra che il campo dei robot umanoidi abbia raggiunto attualmente un basso costo., appartamento altamente funzionaleè difficile trovare un equilibrio, ma se adottiamo una struttura su ruote e aggiungiamo un braccio robotico per completare compiti specifici, non avremmo maggiori possibilità di realizzare un robot multiuso più conveniente?


robot unitree g1


andrej karpathy:dal punto di vista hardware ha senso cercare piattaforme generiche più economiche. in alcune circostanze, potrebbe essere una scelta più efficiente utilizzare ruote e altre strutture invece dei piedi per completare le attività, ma penso che ciò potrebbe perseguire una soluzione ottimale a livello locale. a lungo termine, penso che probabilmente sia più saggio scegliere una forma e perfezionarla alla perfezione. e dal punto di vista psicologico umano, i vantaggi dei robot umanoidi saranno più evidenti. si sentono familiari e fanno sì che le persone vogliano interagire con loro.


naturalmente, considerando l’effetto valle perturbante, forse le forme astratte saranno più apprezzate dagli utenti. perché in realtà non sono sicuro di come reagiranno le persone alle diverse forme di robot. se ci ritroveremo con un mostro a otto ruote per portare a termine il lavoro, non sono sicuro che alla gente piacerà o sarà più spaventata.


elad gil: anche i cani meccanici sono una forma di forma e i cani sono anche forme più familiari agli esseri umani.


andrej karpathy:sì, ma molte persone che hanno visto "black mirror" possono combinare cani meccanici con certe scene horror, quindi l'accettazione psicologica di ognuno sarà diversa. in confronto, la forma umanoide potrebbe essere più facile da capire le sue funzioni e i suoi comportamenti.


elad gil:se vogliamo ottenere una forma umanoide, quali progressi chiave devono essere raggiunti dal punto di vista tecnico?


andrej karpathy: non credo che ci sia ancora una risposta chiara a questa domanda. una delle discussioni più interessanti qui è che nella progettazione dei robot umanoidi, la parte inferiore del corpo non è adatta all'apprendimento per imitazione. questa parte implica un controllo del pendolo più invertito. per la parte superiore del corpo (la parte superiore del corpo), si basa maggiormente sul controllo remoto , raccolta dati e apprendimento end-to-end. in un certo senso, i sistemi robotici devono riunire più tecnologie, ma non sono ancora del tutto sicuro di come questi sistemi funzionino tra loro.


💡

pendolo invertito:coinvolgendo il mantenimento di un pendolo in una posizione verticale instabile, è un classico problema di controllo con ampie applicazioni nella robotica, nell'aerospaziale e in altri campi. i metodi tradizionali di controllo del pendolo invertito includono il controllo pid, il regolatore lineare quadratico (lqr), il controllo della modalità scorrevole, ecc.


con lo sviluppo dell'intelligenza artificiale, i metodi di apprendimento per rinforzo vengono gradualmente introdotti nel controllo dei pendoli invertiti. il percorso rl ha attirato molta attenzione per la sua capacità di apprendere strategie ottimali senza modelli accurati. l'algoritmo di controllo dell'equilibrio del pendolo invertito basato sull'apprendimento per rinforzo è una tecnologia molto pratica ed è stata ampiamente utilizzata nella robotica, nell'automazione e in altri campi.


elad gil: quando comunico con alcune persone nel campo della robotica, ho scoperto che sono molto preoccupati per questioni come la trasmissione della potenza, il controllo e la manipolazione digitale.


andrej karpathy: sì, penso che nelle fasi iniziali ci saranno davvero molti scenari di controllo remoto, come lasciare che i robot imitino gli umani che raccolgono oggetti da terra, finché il sistema non potrà funzionare in modo autonomo per il 95% del tempo. quindi aumentare gradualmente la percentuale di lavoro dei robot, consentendo agli esseri umani di passare da operatori a supervisori.


in realtà, penso che non ci siano particolari ostacoli tecnici, è piuttosto necessario fare molto lavoro di base.disponiamo già degli strumenti e delle risorse adeguati, come l'architettura transformer. tale tecnologia è come un eccellente "coordinatore". dobbiamo solo preparare i dati corretti, addestrarli e sperimentarli e infine implementarli. sebbene il processo sia complicato, in realtà non ci sono molti colli di bottiglia tecnici essenziali.




03.


dati sintetici, piccoli modelli, aziende llm


sarah guo: a che punto siamo in termini di ricerca sui large blob?


💡

ricerca blob di grandi dimensioni:di solito si riferisce a una direzione o tecnologia di ricerca nei campi del deep learning e della visione artificiale. il blob è "binario grande oggetto, che sta per "binary large object", è una grande regione contigua in un'immagine o in una mappa di caratteristiche che può contenere importanti informazioni visive o rappresentare un oggetto specifico o una parte della scena. lo studio di queste grandi regioni può aiutare a migliorare la capacità di comprensione e di comprensione del modello elaborare caratteristiche visive su larga scala.


andrej karpathy: sento che ora siamo in una fase di rapido sviluppo. transformer non è solo una rete neurale, ma una rete neurale potente e versatile.


ad esempio, quando tutti discutono della legge di scala, spesso fanno riferimento alle caratteristiche dell'architettura transformer. prima di transformer, le persone utilizzavano principalmente lstm in stack per svolgere del lavoro, ma non era stata trovata alcuna legge di ridimensionamento chiara. transformer è il primo modello che rende tutto questo chiaro e scalabile in modo efficace.


💡

stacked lstm si riferisce a una struttura di rete neurale profonda formata impilando insieme più strati lstm (long short-term memory).


transformer è come un computer generale, più specificamente un computer neurale differenziabile (dnc). possiamo fargli fare input e output su larga scala e addestrare questo computer attraverso il metodo di backpropagation,alla fine, diventerà un sistema di completamento della missione autoevolutivo.


💡

computer neurale differenziabile (dnc):un tipo speciale di rete neurale in grado di archiviare e recuperare informazioni, simile al sistema di memoria di un computer. è "differenziabile", il che significa che i suoi parametri possono essere ottimizzati tramite la backpropagation per renderlo più efficace nella risoluzione di compiti complessi.


sebbene transformer sia un miracolo che abbiamo scoperto per caso nel campo degli algoritmi, dietro di esso ci sono in effetti molte innovazioni chiave, come connessioni residue, normalizzazioni dei livelli e blocchi dell'attenzione. a differenza dei metodi tradizionali, transformer non utilizza funzioni di attivazione non lineare che causano la scomparsa dei gradienti, ma integra tecnologie innovative come menzionato nei loro documenti tecnici, che migliorano notevolmente l'efficienza e le prestazioni dell'allenamento.


sarah guo:durante questo periodo si è discusso del data wall e il costo per ampliare il modello di prossima generazione sarà estremamente elevato. cosa ne pensi dei problemi relativi ai dati?


andrej karpathy: questo è ciò di cui abbiamo discusso dall'inizio. ritengo che l'architettura delle reti neurali in sé non sia più un collo di bottiglia oggi. sebbene prima della nascita di transformer, i problemi architetturali fossero effettivamente un ostacolo, ora i nuovi colli di bottiglia si concentrano principalmente sulla funzione di perdita e sul set di dati.pertanto, molte aziende e ricercatori non si concentrano più sui cambiamenti nell'architettura transformer. ad esempio, llama non presenta innovazioni architettoniche particolarmente evidenti. l'unico grande cambiamento potrebbe essere rappresentato dalle "codifiche posizionali rotazionali" (codifiche posizionali rope).il trasformatore in sé non è cambiato molto negli ultimi cinque anni. tutti si concentrano solo sull'innovazione della formazione, dei set di dati e delle funzioni di perdita basate sulle basi esistenti.


💡

"codifiche di posizione rotanti" (rope, codifiche di posizione rotanti):una tecnica di codifica posizionale per i modelli di trasformatori. rappresenta le informazioni sulla posizione nella sequenza di input ruotando i vettori. rispetto alla codifica di posizione tradizionale, rope può offrire al modello maggiori vantaggi durante l'elaborazione di sequenze lunghe. la sua caratteristica principale è codificare la posizione di ciascun elemento nella sequenza ruotando l'angolo del vettore mantenendo le informazioni sulla distanza relativa. questo approccio consente al modello di avere una migliore flessibilità e scalabilità in luoghi diversi ed è particolarmente adatto per attività che gestiscono dipendenze a lunga distanza.


sarah guo:quando non ci saranno abbastanza dati su internet, inizieremo a utilizzare dati sintetici o metodi simili più costosi di raccolta dati?


andrej karpathy: molte ricerche attualmente si concentrano sui modelli linguistici. sebbene i dati internet non siano la fonte dati ideale per transformer, possono essere utilizzati come strumento per migliorare continuamente le capacità del modello. i dati internet sono solo una raccolta di pagine web, ma ciò che è veramente prezioso è ciò che c’è nel nostro cervellomonologo interiore”——quelle traiettorie di pensiero complesse e profonde.



se potessimo avere miliardi di dati simili a “tracce di pensiero”, allora potremmo essere in una certa misura vicini all’agi. ma questi dati attualmente non esistono, quindi la ricerca attuale si concentra principalmente sulla riorganizzazione dei set di dati esistenti in un formato simile al "monologo interiore (monologo interiore)". i modelli di oggi possono aiutarci a generare la prossima generazione di modelli. si tratta di un processo di progresso iterativo continuo, proprio come salire una scala, avvicinandosi all'obiettivo passo dopo passo.


elad gil:quanto sono utili i dati sintetici? come hai detto, ogni modello può aiutarci ad addestrare il modello successivo, o almeno fornire strumenti per attività come l'annotazione dei dati, parte dei quali potrebbero essere dati sintetici.


andrej karpathy: penso che i dati sintetici siano essenziali per migliorare le capacità del modello.ma fai attenzione quando usi dati sintetici, perché il modello “crolla” senza sapere quando. ad esempio, quando chiediamo a chatgpt di raccontarci delle barzellette, se proviamo ancora qualche volta, ci accorgeremo che potrebbe conoscere solo 3 barzellette. anche se sembra sapere molte, in realtà conosce solo quelle poche. collasso" ", cioè non ci sono problemi con un singolo output, ma se l'output in questa direzione specifica, la diversità e la flessibilità del modello sono notevolmente ridotte, questo è un problema quando si generano dati, soprattutto quando si generano dati sintetici, è facile "collassare" questo perché in realtà abbiamo bisogno della diversità e della ricchezza dei dati, cioè dell'"entropia", per evitare problemi causati da un insieme di dati troppo unico.

💡

comprimi modalità:questo è un fenomeno nelle generative adversarial networks (gan) in cui il modello generativo inizia a generare campioni molto simili o ripetitivi invece di campioni diversi. questo è spesso visto come un problema perché indica che il modello non è in grado di apprendere la ricca diversità dei dati.


ad esempio, qualcuno ha pubblicato un set di dati relativo ai personaggi contenente 1 miliardo di background di personaggi immaginari, come "sono un insegnante" o "sono un artista, vivo qui, faccio questo lavoro" e così via.quando generi dati sintetici, in realtà gli lasci immaginare il processo di interazione con una persona specifica. ciò può dare al modello più spazio da esplorare, producendo così più informazioni e aumentando la diversità del set di dati.pertanto, dobbiamo iniettare con attenzione entropia mantenendo la stabilità della distribuzione dei dati, che rappresenta la sfida più grande nella generazione di dati sintetici.


sarah guo:cosa pensi che possiamo imparare sulla cognizione umana da questa ricerca? ad esempio, alcune persone credono che comprendere il processo di formazione delle traiettorie del pensiero ci aiuterà a capire come funziona il cervello.


andrej karpathy:i modelli di ricerca e la cognizione umana sono due cose completamente diverse, ma in alcuni casi possono essere paragonate. ad esempio, penso che transformer sia più forte del cervello umano sotto alcuni aspetti e che il modello sia un sistema più efficiente del cervello umano, ma a causa delle limitazioni dei dati, le loro prestazioni attuali non sono buone quanto quelle del cervello umano. ma questa è solo una spiegazione approssimativa.


ad esempio, in termini di capacità di memoria, i transformer hanno prestazioni migliori del cervello umano nell'elaborazione di lunghe sequenze. se gli dai una sequenza e gli chiedi di eseguire un calcolo in avanti e all'indietro, può ricordare la parte anteriore e quella posteriore della sequenza e completare il compito, cosa difficile da fare per la memoria umana. pertanto, per alcuni aspetti, penso che il metodo di allenamento basato sull’ottimizzazione del gradiente sia effettivamente più efficiente del cervello umano e, anche in futuro, il modello potrebbe davvero superare quello umano in alcuni livelli cognitivi.


elad gil:la capacità di memoria è uno dei punti di forza dei computer.


andrej karpathy: sì, penso che il cervello umano abbia effettivamente molti limiti. ad esempio, la capacità della memoria di lavoro è molto limitata, mentre la memoria di lavoro dei transformers è molto più grande in confronto, e il divario tra loro si sta ancora ampliando. inoltre, i transformers imparano in modo più efficiente. il funzionamento del cervello umano è limitato da molti fattori nascosti, come background, responsabilità, ambiente, ecc., che rendono il sistema cerebrale umano più casuale e limitato. pertanto, ritengo che per certi aspetti questi modelli siano già più forti del cervello umano, ma non abbiano ancora raggiunto il loro pieno potenziale.


elad gil:per quanto riguarda il rapporto tra esseri umani e intelligenza artificiale, un argomento è che la utilizziamo come strumento esterno, mentre altri sostengono che ci sarà una più profonda integrazione tra esseri umani e modelli di intelligenza artificiale. cosa ne pensi di questo problema?


andrej karpathy: penso che in una certa misura abbiamo raggiunto l'integrazione tra uomo e intelligenza artificiale. gli strumenti tecnici sono sempre stati un derivato delle capacità umane. come spesso si dice, "i computer sono le biciclette del cervello umano". il problema con i modelli odierni risiede solo nel collo di bottiglia nel processo di input e output delle informazioni, quindi l’integrazione tra uomo e intelligenza artificiale richiede ancora tentativi continui. tuttavia, una volta perfezionati i modelli, l'utilizzo di questi modelli è molto semplice e può essere ottenuto con poche semplici mosse. quindi, nonostante ci siano alcuni ostacoli, la tecnologia attuale ha reso questa integrazione relativamente semplice e fattibile.


elad gil:alcune persone nel campo dell’intelligenza artificiale lo credonose in futuro dovesse verificarsi un conflitto tra noi e l’intelligenza artificiale, va bene

risolto da una qualche forma di fusione di esseri umani e intelligenza artificiale.


andrej karpathy: sì, questo è molto simile alla filosofia di neuralink. anche se non sono sicuro di come sarà esattamente questa fusione, ciò che è chiaro è che vogliamo ridurre la latenza di input e output tra esseri umani e strumenti. puoi pensarlo come l'aggiunta di una nuova corteccia alla nostra corteccia cerebrale. questa nuova corteccia può essere basata su nuvole ed è essenzialmente lo strato successivo del cervello.


elad gil: esistere accelerando il libro ha una premessa simile, in cui tutto viene trasmesso al cervello attraverso occhiali intelligenti indossabili. se perdi questi occhiali è come perdere una parte della tua personalità o della tua memoria.


andrej karpathy: penso che sia probabile che ciò accada. i cellulari di oggi sono quasi diventati parte della nostra vita, come un dispositivo esterno al cervello. ogni volta che mettiamo giù i telefoni, ci sentiamo come se fossimo tornati al nostro stato originale.


per fare un altro esempio, se disponiamo di un "traduttore universale" e ci affidiamo a esso per molto tempo, quando improvvisamente non lo abbiamo, potremmo perdere la capacità di comunicare direttamente con persone che parlano lingue diverse. come mostrato in un video, un bambino tiene in mano una rivista e cerca di farla scorrere con il dito. non riesce a distinguere cosa è naturale e cosa è prodotto dalla tecnologia. mi fa pensare che man mano che la tecnologia diventa sempre più onnipresente, le persone potrebbero diventare dipendenti da questi strumenti, solo per rendersi conto che non possono dire cosa è tecnologia e cosa non lo è finché non scompaiono. soprattutto i dispositivi come i traduttori che ti aiutano sempre a svolgere i compiti ridurranno notevolmente la sensibilità delle persone ai confini tra tecnologia e natura.


sarah guo: l '"esocorteccia" sembra una cosa molto importante, ed è importante per tutti. oggi, la ricerca llm è guidata da pochi laboratori di intelligenza artificiale e solo loro hanno le risorse per promuovere lo sviluppo di modelli di formazione di prossima generazione. cosa ne pensi di questa struttura nella ricerca llm oggi? che impatto avrà sulla popolarità della tecnologia ai in futuro?


andrej karpathy: l'ecosistema llm è infatti oggi monopolizzato da diverse piattaforme chiuse, mentre meta llama, che si colloca all'ultimo posto, è relativamente aperto. questo fenomeno riflette in una certa misura anche l'ecosistema open source. quando pensiamo al llm come allo "strato esterno", sono coinvolti problemi di riservatezza delle informazioni e dei dati. c'è un detto nel campo della crittografia che è "non le tue chiavi, non i tuoi token". forse in futuro nel campo llm sottolineeremo "non i tuoi pesi, non il tuo cervello". se l’intelligenza artificiale sarà la nuova corteccia cerebrale per tutti in futuro, e se questa corteccia sarà controllata da una certa azienda, le persone avranno la sensazione di “affittare” un cervello invece di possederlo effettivamente.


sarah guo: sei disposto a rinunciare alla proprietà e al controllo del tuo cervello per affittarne uno più potente?


andrej karpathy: penso che questo sia un compromesso fondamentale. la tendenza futura potrebbe essere che la maggior parte delle persone utilizzerà il potente modello closed source come opzione predefinita, ma in alcuni casi specifici, i sistemi open source diventeranno l'alternativa. proprio come adesso, quando alcuni fornitori di modelli closed source hanno problemi con le loro api, le persone si rivolgono all’ecosistema open source e quindi si sentono più in controllo.


questa potrebbe essere anche la direzione del futuro sviluppo della tecnologia cerebrale: quando sorgono problemi, possiamo passare a sistemi open source, mentre nella maggior parte dei casi ci affidiamo ancora a sistemi chiusi. è importante far avanzare i sistemi open source, ma oggi forse non tutti sono consapevoli di questo problema.


elad gil:cosa ne pensate delle miniature? che livello di prestazioni possono raggiungere i piccoli modelli di oggi?


andrej karpathy: penso che il modello potrebbe essere ridimensionato ancora più piccolo. a causa del problema con il set di dati, riteniamo che il modello attuale sprechi molta capacità nell’immagazzinare alcune informazioni irrilevanti. la chiave per un modello piccolo è concentrarsi sulla cognizione centrale, e questa base può effettivamente essere molto piccola. è più un modo di pensare. quando abbiamo bisogno di trovare informazioni, possiamo utilizzare in modo flessibile vari strumenti per ottenerle, invece di lasciare che il modello memorizzi molti dettagli non necessari.


in termini di parametri, penso che potremmo aver bisogno solo di 100 milioni di parametri per raggiungere il nostro obiettivo. una tecnologia di compressione efficiente può rendere il modello molto piccolo. il principio della compressione è semplice: utilizzare un modello molto grande o molte risorse di elaborazione per supervisionare un modello più piccolo. questo processo può racchiudere molte funzionalità nel modello piccolo.


l'essenza di questa questione è che i grandi modelli di oggi si occupano di set di dati internet, e solo circa lo 0,001% del contenuto è legato alla cognizione, e il restante 99,99% è in realtà alcune informazioni irrilevanti, come il testo con diritto di copia. la maggior parte delle informazioni non svolge un ruolo sostanziale nel migliorare i modelli di pensiero.


elad gil:questo processo può essere spiegato dalla matematica o da qualche tipo di teoria informatica? è possibile quantificare la relazione tra dimensione del modello e potere cognitivo? ad esempio, in futuro potrebbe essere necessario solo un modello da 1 miliardo di parametri per ottenere una buona comprensione.


andrej karpathy: potrebbe costare anche meno di 1 miliardo e il modello può avere questo tipo di capacità cognitiva, tenendo conto del costo del modello, dell’attrezzatura finale, ecc. e quello di cui discuteremo potrebbe non essere un singolo modello cognitivo. penso che il modello dovrebbe avere la capacità di elaborare in parallelo, piuttosto che basarsi semplicemente su un'elaborazione sequenziale. è proprio come in un'azienda, si può fare molto lavoro in parallelo, ma serve anche una struttura gerarchica per elaborare meglio le informazioni. pertanto, penso che in futuro potrebbe esserci un modello di "aziende per llm": diversi modelli si concentrano sui rispettivi campi, ad esempio uno è un modello di programmatore e l'altro è un modello di project manager, e ognuno gestisce molto lavoro in parallelo, tra loro possono anche collaborare per formare un "cervello di gruppo" composto da llm.


elad gil:questo gruppo di llm è come un ecosistema, ciascuna parte del quale ha le proprie competenze e posizioni uniche.


andrej karpathy: penso che il futuro si svilupperà sicuramente in questa direzione. il modello cloud è il più intelligente e può essere considerato il ceo. ci sono molti modelli più economici e open source che fanno parte di questo gruppo. ma quando il sistema incontra problemi molto complessi. le attività vengono automaticamente riassegnate e assegnate ad altre parti del gruppo.




04.


l’educazione nell’era dell’ia


sarah guo:hai iniziato a lavorare sul tuo progetto educativo dopo aver lasciato openai perché hai scelto l'istruzione?


andrej karpathy: ho sempre amato il settore dell'istruzione, mi piace imparare e insegnare e sono molto appassionato di questo campo.


💡

fondata karpathy eureka labs, che è una piattaforma educativa con l'intelligenza artificiale al centro, che mira a rivoluzionare i metodi di apprendimento attraverso la tecnologia dell'intelligenza artificiale. il primo corso di eureka labs llm101n gli studenti saranno guidati a costruire i propri modelli linguistici su larga scala, con l’obiettivo di rendere l’educazione all’intelligenza artificiale più interattiva e popolare. questa piattaforma prevede di migliorare l'esperienza di apprendimento integrando assistenti didattici basati sull'intelligenza artificiale e progettazione di corsi umani, riflettendo la sua visione di integrazione di intelligenza artificiale e istruzione nel corso degli anni.


un motivo importante che mi ha spinto a entrare in questo campo è che ritengo che molte ia stiano cercando di sostituire gli esseri umani, facendo perdere il lavoro a molte persone, ma sono più interessato alle tecnologie che possono migliorare le capacità umane. nel complesso, sto dalla parte dell’umanità e spero che l’intelligenza artificiale possa aiutare l’umanità a diventare più potente anziché emarginata.


inoltre, penso che sia una buona idea avere un "tutor perfetto" in grado di svolgere compiti di tutoraggio in tutte le materie. se tutti avessero un tutor ai che li guidi nell'apprendimento di tutte le materie, credo che tutti possano ottenere risultati migliori.


elad gil: sin dagli anni '80, la letteratura afferma chiaramente che il tutoraggio individuale può migliorare le prestazioni di un individuo di 2 deviazioni standard. esistono anche molti casi riguardanti tutor personalizzati. come pensi che si possano combinare l'intelligenza artificiale e i tutor?


andrej karpathy: traggo molta ispirazione da questi esempi. ora sto costruendo un corso completo con l'obiettivo di renderlo la prima scelta per le persone che vogliono imparare l'intelligenza artificiale. in precedenza ho tenuto il primo corso di deep learning a stanford. sebbene il numero di studenti fosse solo di 20-30, i risultati sono stati buoni. la sfida ora è come ampliare questo tipo di corso per coprire 8 miliardi di persone in tutto il mondo, considerando le differenze di lingua e abilità, questo è difficile da raggiungere con un singolo insegnante.


pertanto, la chiave è come utilizzare l’intelligenza artificiale per espandere il ruolo dei buoni insegnanti. il compito principale degli insegnanti dovrebbe essere la progettazione del corso e la scrittura dei materiali, mentre l’intelligenza artificiale può interagire con gli studenti dal front-end e insegnare i contenuti. l’attuale intelligenza artificiale non può creare corsi completi in modo autonomo, ma è sufficiente per aiutare a spiegare e trasferire la conoscenza. in questo modo, gli insegnanti possono concentrarsi sulla progettazione del back-end, mentre l’intelligenza artificiale utilizza più linguaggi sul front-end per interagire con gli studenti e aiutarli a completare il loro apprendimento.


sarah guo:l’intelligenza artificiale può essere paragonata a un assistente didattico?


andrej karpathy: l'assistente didattico è una delle direzioni che sto prendendo in considerazione. lo vedo come un front-end che interagisce direttamente con gli studenti e li porta a completare il corso. penso che questa sia una soluzione fattibile con la tecnologia attuale e non esiste un prodotto simile sul mercato, quindi penso che ci sia molto potenziale in quest'area e, con l'avanzare della tecnologia, possiamo apportare vari aggiustamenti. ritengo che molte aziende oggi non abbiano una comprensione sufficientemente intuitiva delle capacità del modello e, di conseguenza, i prodotti che sviluppano sono troppo avanzati o non sufficientemente accurati. quindi penso che questo campo abbia un grande potenziale.


sarah guo: con buoni strumenti, fino a che punto si possono raggiungere i limiti delle capacità umane? ad esempio, se confrontiamo i giochi olimpici, a causa dei progressi nella scienza e nella tecnologia dell’allenamento negli ultimi 10 anni, le prestazioni dei migliori corridori sono migliori di quanto non fossero negli ultimi 10 anni.


andrej karpathy: sento che oggi non abbiamo ancora raggiunto il massimo potenziale. possiamo pensare a questo problema da due prospettive. la prima è la globalizzazione, spero che tutti possano ricevere un alto livello di istruzione, e la seconda è il limite delle capacità individuali. entrambe le prospettive sono preziose.


elad gil: di solito, quando discutiamo di orientamento all'apprendimento individuale, menzioniamo la personalizzazione e l'adattamento, ovvero assegnando compiti di sfida di apprendimento corrispondenti in base al livello di ciascuna persona. pensi che l'intelligenza artificiale possa fare questo oggi?


andrej karpathy: penso che il "frutto a portata di mano" nel campo dell'educazione all'intelligenza artificiale di oggi siano le applicazioni di traduzione. i modelli attuali sono molto bravi in ​​tali compiti e le cose che possono fare sono ancora compiti basilari.


è difficile ottenere una personalizzazione che si adatti al livello di ogni persona, ma non è impossibile. penso che questo dovrebbe essere anche il focus dello sviluppo dell'intelligenza artificiale, e ovviamente ha il potenziale per farlo. ma questo potrebbe coinvolgere nuovi campi. un modello più semplice potrebbe essere implementato attraverso il progetto rapido, ma penso che il modo veramente utile sia fare in modo che il modello stesso abbia tali capacità, in modo che possa funzionare come un insegnante.


penso che questo tocchi alcune aree che sono attualmente sottosviluppate. anche se le versioni semplici potrebbero non essere lontane, come ottenere aiuto fornendo suggerimenti sul modello, sto parlando di soluzioni che funzionano davvero, non solo sembrano belle in una demo. ciò di cui sto parlando è la capacità di lavorare con la stessa efficacia di un vero insegnante, comprendendo il contesto di ogni persona e fornendo una guida personalizzata, che richiede ulteriore sviluppo.


elad gil: possiamo ottenere questo adattamento introducendo altri modelli?


andrej karpathy: penso che questa sia anche una caratteristica dell’intelligenza artificiale. penso che molte funzioni possano effettivamente essere implementate con un solo prompt. quindi spesso vediamo molte demo, ma possiamo finalmente fornire un prodotto reale? quindi potrebbe non essere difficile realizzare alcune demo, ma c'è ancora molta strada da fare prima che possa essere sviluppato in un prodotto che possa essere utilizzato su larga scala.


sarah guo:qualche settimana fa hai affermato che l’apprendimento e l’intrattenimento sono due cose diverse. l’apprendimento dovrebbe essere impegnativo e richiedere un certo sistema di incentivi, come lo status sociale, l’effetto idolo, ecc. in che misura pensi che il sistema di incentivi possa cambiare la motivazione delle persone ad apprendere? siete più preoccupati di fornire risorse per consentire alle persone di arrivare il più lontano possibile entro le proprie capacità? oppure vuoi cambiare il numero di persone disposte a imparare e guidare più persone a iniziare a imparare?


andrej karpathy:spero di rendere l'apprendimento un po' più semplice, dal momento che alcune persone potrebbero non essere naturalmente interessate all'apprendimento. molte persone studiano per esigenze pratiche, come trovare un lavoro, il che è molto ragionevole. l'istruzione svolge un ruolo importante nella nostra società perché non solo fornisce conoscenza ma migliora anche la condizione economica di una persona, motivo per cui le persone vogliono essere motivate dall'istruzione.


sarah guo:come sarà il nostro futuro nella società post-agi?


andrej karpathy:nell’era post-agi, penso che l’istruzione diventerà più simile all’intrattenimento. un'istruzione di successo non risiede solo nel trasferimento della conoscenza, ma anche nella comprensione e nell'applicazione approfondita di tale conoscenza.


sarah guo:chi è stato il primo pubblico di eureka?


andrej karpathy:il pubblico principale di questo primo corso sono gli studenti universitari, in particolare quelli che conseguono lauree in settori tecnici. se stai studiando un corso universitario legato alla tecnologia, sei il gruppo target ideale per questo corso.


andrej karpathy:penso che il nostro attuale concetto di istruzione sia un po’ obsoleto. il vecchio modo di andare a scuola, diplomarsi e lavorare verrà distrutto dai cambiamenti odierni. la tecnologia sta cambiando rapidamente e le persone hanno bisogno di continuare ad apprendere. quindi, anche se il corso è rivolto a studenti universitari, in realtà ha un vasto pubblico. ad esempio, penso che possano partecipare persone di qualsiasi età. soprattutto per coloro che hanno un background tecnico e desiderano acquisire una comprensione più profonda delle conoscenze pertinenti, ci sarà qualcosa da guadagnare.


ho intenzione di offrire il corso entro la fine dell'anno, l'inizio del prossimo anno potrebbe essere il momento adatto, ma prima di allora lavorerò duro per garantire che la qualità del corso sia all'altezza degli standard attesi.


elad gil:se avessi dei figli, quali conoscenze e abilità vorresti che acquisissero?


andrej karpathy:la risposta che darei è matematica, fisica, informatica e altre materie. queste materie forniscono in realtà una formazione fondamentale per coltivare la capacità di pensare. naturalmente questa prospettiva è influenzata dal mio background, ma credo che queste aree siano molto utili in termini di capacità di problem solving. anche se il futuro si avvicina all’era dell’agi, queste competenze saranno ancora importanti. durante questo periodo critico in cui le persone hanno molto tempo e attenzione, penso che dovremmo concentrarci principalmente su attività relativamente semplici da eseguire piuttosto che su attività che richiedono molta memoria. pur riconoscendo anche l’importanza di apprendere altre materie, credo che l’80% del tempo dovrebbe essere concentrato su queste aree fondamentali perché sono più pratiche e hanno un valore a lungo termine.


composizione tipografica: fia