nachricht

ehemaliges openai-gründungsmitglied andrej karpathy: tesla kann agi im bereich autonomes fahren erreichen

2024-09-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

der inhalt dieses artikels ist„was man in agix investieren sollte“des 6 artikel.es handelt sich um eine kombination aus 40 unternehmen mit „hoher ki-reinheit“, die aus tausenden von technologieunternehmen auf der ganzen welt ausgewählt wurden. der agix-index ist die koordinate für die positionierung des agi-prozesses und bietet anlegern außerdem ein wertvolles instrument zur erfassung von ai-alpha. im abschnitt „was sie in agix investieren sollten“ führen wir eine eingehende analyse der portfoliounternehmen des agix-index durch und stellen eine umfassende ki-investitionsreferenz für den markt bereit.


tesla es ist eine der top-10-holdinggesellschaften im agix-index-portfolio. die umfangreichen investitionen des unternehmens in autonomes fahren und roboter in den letzten 10 jahren haben ihm die chance gegeben, der stärkste agi-akteur in der physischen welt zu werden.kürzlich leitete tesla die zweite welle des aktienkursanstiegs im jahr 2024 ein. er erreichte nicht nur den höchsten stand der letzten zwei monate, sondern machte auch alle rückgänge in diesem jahr zunichte und drehte nach oben. ki ist der wichtigste treiber dieser runde des wachstums.


laut der analyse von ark wird tesla am 10. oktober offiziell robotaxi veröffentlichen. es wird erwartet, dass bis 2029 fast 90 % des unternehmenswerts und der erträge von tesla dem geschäft mit selbstfahrenden taxis zugeschrieben werden.diese woche hat tesla auch den preis für fsd-optionen gesenkt, um den neuwagenverkauf anzukurbeln. gleichzeitig wird die erhöhung der fsd-optionssätze tesla auch dabei helfen, mehr daten zu sammeln, um die fsd-leistung zu verbessern. obwohl der optimus-roboter noch weit von einer groß angelegten kommerzialisierung entfernt ist, können die gewinne erheblich gesteigert werden, wenn optimus in der tesla-fabrik eingesetzt wird, um die menschliche effizienz zu verbessern in den nächsten fünf jahren können durch den einsatz kosten in höhe von bis zu 3 bis 4 milliarden us-dollar eingespart werden.



                      💡 inhaltsverzeichnis💡                           

01 autonomes fahren ist agi sehr ähnlich

02 tesla ist auch ein robotikunternehmen

03 kleine modelle und „llms-unternehmen“

04 bildung im ki-zeitalter




01.


autonomes fahren ist agi sehr ähnlich


sarah guo:was halten sie von der heutigen entwicklung des autonomen fahrens? wie lange dauert es, bis autonomes fahren weit verbreitet ist?


andrej karpathy: ich arbeite seit 5 jahren im bereich autonomes fahren und finde diesen bereich sehr interessant. gemessen an der aktuellen entwicklung in diesem bereich sind autonomes fahren und agi sehr ähnlich. das liegt vielleicht auch daran, dass ich mit dem bereich des autonomen fahrens vertraut bin, aber ich habe das gefühl, dass wir im bereich des autonomen fahrens dem agi nahe stehen es gibt beispielsweise bereits geformte produkte, die von benutzern gegen gebühr genutzt werden können. waymo ist mittlerweile in san francisco weit verbreitet und ich selbst habe es oft erlebt und es ist zu einem kommerziellen produkt geworden.


meine erste erfahrung mit waymo machte ich vor fast 10 jahren. ein freund arbeitete damals für waymo und nahm mich mit auf eine waymo-fahrt um den ganzen block. aus technischer sicht war waymo vor 10 jahren es ist schon sehr gut, aber der prozess von der demo bis zum großflächigen einsatz in städten dauerte 10 jahre. natürlich expandiert waymo auch heute noch.


elad gil:von der demo bis zum erfolgreichen kostenpflichtigen produkt vergingen 10 jahre. inwieweit ist das auf die regulierung zurückzuführen? wann glauben sie, dass die autonome fahrtechnologie bereit sein wird?


andrej karpathy:ich denke, das autonome fahren hat vor 10 jahren tatsächlich ein ziemlich ausgereiftes niveau erreicht, aber eine 30-minütige demo kann nicht alle herausforderungen darstellen, mit denen sie in den letzten 10 jahren konfrontiert waren. es gibt eine große lücke zwischen der demo und dem tatsächlichen produkt natürlich wird es einige regulatorische gründe geben.


ich denke aber, dass wir im bereich des autonomen fahrens ein stück weit bei agi angelangt sind. gleichzeitig besteht eine große kluft zwischen der demonstration und der weltweiten werbung.obwohl waymo bereits in san francisco tätig sein kann, hat es im hinblick auf die popularisierung auf dem weltmarkt noch keine großen auswirkungen und ergebnisse erzielt. hier denke ich, dass agi und autonomes fahren ähnlich sind.


zurück zum bereich des autonomen fahrens,viele leute denken, dass waymo tesla technologisch voraus ist, aber ich persönlich denke, dass tesla tatsächlich weiter ist als waymo. diese ansicht stimmt möglicherweise nicht mit der aktuellen mainstream-stimme überein, aber ich habe vertrauen in teslas autonomes fahren.


tesla steht vor problemen auf softwareebene, während die herausforderungen bei waymo von der hardware herrühren. im vergleich dazu sind softwareprobleme einfacher zu lösen. tesla hat fahrzeuge in großem umfang auf der ganzen welt eingesetzt, während waymo dieses ausmaß noch nicht erreicht hat. daher glaube ich, dass die ergebnisse erstaunlich sein werden, sobald das system von tesla in großem maßstab implementiert werden und effizient laufen kann. ich habe gestern gerade die neueste version von fsd getestet und das fahrerlebnis verlief sehr reibungslos. eine reihe von operationen am autonomen fahrsystem von tesla geben mir den eindruck, dass tesla heute beim autonomen fahren recht gute ergebnisse erzielt hat.


insgesamt denke ich, dass die größte herausforderung für teslas autonomes fahren in der software-perspektive liegt, während die herausforderungen von waymo eher aus der hardware-perspektive kommen. aus heutiger sicht scheint waymo in einer starken position zu sein, aber ich glaube, wenn man es über einen zeitraum von 10 jahren betrachtet, wird tesla in bezug auf größe und umsatzmodell weiter vorne sein.



elad gil:wie lange wird es ihrer meinung nach dauern, ein softwareproblem zu lösen? sie haben gerade erwähnt, dass waymos fahrzeuge über viele teure lidars und sensoren verfügen. diese hardware unterstützt das softwaresystem. wenn es wie tesla nur auf das kamerasystem angewiesen ist, kann dies nicht nur die kosten erheblich senken, sondern auch die komplexität des systems system. und auf weitere modelle anwendbar. wann wird diese änderung voraussichtlich umgesetzt?


andrej karpathy: ich persönlich hoffe, dass das problem in den nächsten jahren gelöst wird. tatsächlich hat tesla in der trainingsphase auch viele teure sensoren verwendet und auch viele technologien entwickelt, die nicht im großen maßstab gefördert werden können, wie beispielsweise wirelessrecherche von liniensensor-vertrauensmodellen und kartenkartierung usw.während der testphase bündelte tesla diese daten in einem testpaket, das sich ausschließlich auf das vision-system stützte, und implementierte es in serienfahrzeugen. vielen menschen ist möglicherweise nicht bewusst, dass es sich dabei tatsächlich um eine sehr intelligente „arbitrage“ zwischen sensoren und kosten handelt. da die kamera genügend informationen erfassen kann, ist das neuronale netzwerk auch in der lage, diese informationen zu verarbeiten. während der trainingsphase sind diese sensoren sehr nützlich, in der testphase ist ihre rolle jedoch nicht so wichtig. daher denke ich, dass es ausreicht, sich nur auf die kamera zu verlassen.


elad gil: ein aktueller trend im bereich des autonomen fahrens besteht darin, schrittweise von heuristischen algorithmen, die auf randfällen basieren, zu durchgängigem deep learning überzugehen. was sind die gründe und die logik dahinter?


andrej karpathy: end-to-end ist eigentlich das, was wir von anfang an machen wollten. als ich zum ersten mal bei tesla anfing, diskutierten wir darüber, dass neuronale netze irgendwann den gesamten technologie-stack ersetzen würden. damals war viel c++-code im system, aber heute läuft im testpaket nur noch sehr wenig c++-code. neuronale netze wurden zunächst nur für die bilderkennungsverarbeitung verwendet und später erweitert, um mehrere bilder zu verarbeiten und vorhersageergebnisse zu generieren. im laufe der zeit wurden c++-codes ersetzt. letztlich muss das system nur noch fahranweisungen geben und das neuronale netz kann die ergebnisse ausgeben.


was tesla also macht, ist ein durchgängiges ki-fahren, aber waymo hat diesen technischen weg wahrscheinlich nicht gewählt. obwohl sie es versucht haben, sind die ergebnisse nicht zufriedenstellend.


ich persönlich glaube, dass der end-to-end-weg richtig und die unvermeidliche richtung für die zukünftige entwicklung ist.wenn man es aus dieser perspektive betrachtet, dürfte sich das tesla-system in zehn jahren zu einem durchgängigen neuronalen netzwerk entwickeln, das fahranweisungen direkt nach der eingabe des videostreams ausgibt. natürlich erfordert dieser prozess die schrittweise verbesserung jedes moduls des systems. ich glaube nicht, dass alle aktuellen zwischenvorhersagen im entwicklungsprozess irreführend sind, im gegenteil, sie sind ein wichtiger teil des systems. denn beim training eines vollständig durchgängigen neuronalen netzwerks sind die überwachungssignale zur simulation des menschlichen fahrens sehr begrenzt und können das training eines so großen netzwerks nicht unterstützen. zwischenvorhersagen können bei der entwicklung von funktionen und detektoren helfen und das end-to-end-problem einfacher lösen. ich vermute also, dass sie viele vorschulungen durchführen, um in der zukunft eine durchgängige feinabstimmung zu ermöglichen.


insgesamt halte ich den prozess, dass neuronale netze den gesamten technologie-stack ersetzen, für notwendig, aber der prozess muss schrittweise erfolgen. die aktuellen versuche von tesla haben erste ergebnisse gezeigt und die menschen voller erwartungen für die zukunft geweckt.


💡

zwischenvorhersagen:die nicht endgültigen ergebnisse oder ausgaben, die während des modelltrainings oder der inferenz generiert werden. diese vorhersagen dienen als zwischenschritte in einem mehrstufigen berechnungsprozess und helfen dem modell, sich schrittweise dem endergebnis zu nähern. sie sind nützlich bei komplexen aufgaben wie hierarchischer entscheidungsfindung, maschineller übersetzung oder multitasking-lernen, wo diese zwischenergebnisse ausgewertet werden können, um die modellleistung zu optimieren, verzerrungen zu korrigieren oder das modelltraining zu verbessern. darüber hinaus helfen zwischenvorhersagen dabei, das innenleben des modells zu erklären und können als referenz für die modelloptimierung dienen.




02.


tesla ist auch ein robotikunternehmen


sarah guo: bevor sie tesla verließen, haben sie auch am humanoiden roboterprojekt von tesla teilgenommen. welche technologien können vom autonomen fahren bis zum roboter übertragen werden?


andrej karpathy: grundsätzlich sind alle technologien migrierbar. aber ich denke, die leute sind sich dessen vielleicht noch nicht bewusst.es gibt keinen großen unterschied zwischen robotern und autos. ich denke, tesla einfach nur als autokonzern zu verstehen, ist eigentlich ein missverständnis.


tesla ist eigentlich ein großes robotikunternehmen, das nicht nur autos, sondern auch automatisierte maschinen herstellt. massenproduktion ist ein ganz anderes feld, und ich denke, tesla ist ein unternehmen, das sich auf groß angelegte robotik spezialisiert hat.


der übergang von der automobiltechnik zur humanoiden robotik erfordert eigentlich keinen großen mehraufwand. tatsächlich dachte der frühe optimus-roboter sogar, er sei ein auto, weil er genau den gleichen computer und die gleichen kameras wie ein auto nutzte. interessanterweise ließen wir auf dem roboter ein neuronales netzwerk laufen, das für autos entwickelt wurde, und als der roboter durch das büro ging, wurde der von ihm identifizierte „fahrbereich“ tatsächlich zu einem „begehbaren raum“. obwohl eine gewisse feinabstimmung erforderlich ist, zeigt dies doch die vielseitigkeit der technologie.


sarah guo: aus einer bestimmten perspektive kann tesla tatsächlich als robotikunternehmen betrachtet werden, und viele kerntechnologien können plattformübergreifend migriert werden. der entscheidende teil, der produktionsrobotern fehlt, ist der ausführungsmechanismus und die zugehörigen aktionsdaten.


andrej karpathy: ja, auch wenn einige orte noch nicht perfekt sind, möchte ich betonen, dass viele technologien direkt migriert werden können. beispielsweise startete das optimus-projekt sehr schnell, nachdem elon musk das projekt angekündigt hatte, und die entsprechenden teams und tools wurden schnell bereitgestellt. ressourcen wie cad-modelle, lieferketten usw. wurden schnell bereitgestellt. zu diesem zeitpunkt hatte ich das gefühl, dass tesla intern bereits über eine ganze reihe von ressourcen für die roboterfertigung verfügte, die alle aus tesla-autos stammten. dieses gefühl ähnelt in gewisser weise dem, was in „transformers“ gezeigt wird. nachdem sich das auto in einen roboter verwandelt hat, ist alles beim alten, aber einige dinge müssen leicht angepasst und neu konfiguriert werden. neben der hardware werden sich auch die gesamte denkweise, annotationsteams, die koordination zwischen verschiedenen komponentenbereichen usw. ändern. aber im allgemeinen können einige erfahrungen und ressourcen übertragen werden.


elad gil:was wird ihrer meinung nach das erste einsatzszenario humanoider roboter sein?


andrej karpathy: viele menschen denken, dass roboter uns bei alltäglichen aufgaben wie dem wäschewaschen helfen können. aber ich denke, dass es lange dauern kann, bis diese technologien tatsächlich umgesetzt werden. ich glaube nicht, dass direct-to-consumer ein guter ausgangspunkt für humanoide roboter ist, da wir die sicherheit von robotern bei der interaktion mit menschen wie älteren menschen immer noch nicht vollständig gewährleisten können, beispielsweise um unfälle wie „umstoßen“ zu vermeiden „alte dame“, eine solche situation birgt enorme rechtliche risiken, daher halte ich diese richtung für nicht geeignet. selbst in vielen einfachen interaktionsszenarien ist es wahrscheinlich, dass roboter menschen direkt umwerfen.


die heutige technologie ist jedoch nicht ausgereift genug und muss weiter verbessert werden. daher denke ich, dass der beste kunde für roboterentwickler in der ersten phase der roboter selbst ist. wenn roboterentwickler dies erkennen können, müssen sie diese technologien zunächst intern für die inkubation nutzen und sie dann in fabriken anwenden b. materialhandhabung usw., sodass kein vertrag mit einem dritten unterzeichnet werden muss und der umständliche prozess mit anwälten und verträgen entfällt.


nach interner inkubation und erfolg können sie in den to-b-markt einsteigen und mit einigen unternehmen mit großen lagerbetrieben zusammenarbeiten, um aufgaben wie den materialtransport zu übernehmen. in diesen kooperationen können robotikunternehmen ein marktsicherungssystem aufbauen und nach erfolgreicher implementierung durch mehrere unternehmen schrittweise auf verbraucherorientierte anwendungen umsteigen. ich glaube, dass wir in zukunft viele roboter sehen werden, die für verbraucher entwickelt werden. ich würde mich beispielsweise gerne auf die von unitree entwickelten produkte freuen.


wenn roboter in verschiedenen szenarien beliebt sind, wird es ein vollständiges ökosystem geben, das heißt, jeder wird verschiedene arten von robotern basierend auf der roboterplattform entwickeln. aber aus maßstabsgetreuer sicht halte ich den weg der schrittweisen weiterentwicklung für den vernünftigsten.


es kann damit beginnen, einige arbeiten im zusammenhang mit der materialhandhabung (materialhandhabung) zu erledigen, und dann schrittweise auf weitere nischenbereiche und bereiche mit hoher nachfrage ausgeweitet werden. ein gegenstand, der mich persönlich besonders interessiert, ist der „laubbläser“. beispielsweise können wir eines tages optimus-roboter sehen, die durch die straßen gehen und jedes abgefallene blatt sanft aufsammeln, sodass wir keine laubbläser mehr verwenden müssen. ich denke, das ist ein großartiges projekt und ich hoffe, dass dies ein frühes anwendungsszenario werden kann.


sarah guo: in bezug auf die roboterform denken einige leute, dass humanoide roboter die bessere wahl sind, da viele designs in der heutigen physischen welt auf menschlichen verhaltensgewohnheiten basieren, sodass ein einheitliches hardware-formentwicklungsmodell auf der grundlage humanoider roboter immer mehr aufgaben erledigen kann eine andere ansicht ist, dass humanoide roboter nicht unbedingt die einzige antwort auf universelle roboter sind. was denken sie über dieses problem?


andrej karpathy: ich denke, dass viele menschen die komplexität der fixkosten verschiedener roboterplattformen unterschätzen. daher ist die route eines universellen roboters sinnvoller. wir werden verschiedene aufgaben auf der grundlage einer einheitlichen plattform erledigen versuchen.


daher denke ich, dass humanoide roboter tatsächlich großes potenzial haben und menschen sie leicht fernsteuern können, um beim sammeln von daten zu helfen. gleichzeitig dreht sich, genau wie eine der gerade genannten perspektiven, die ganze welt um menschliches verhalten und gewohnheiten, was ein weiterer grund ist, warum humanoide roboter wichtig sind.


natürlich kann es in zukunft zu verschiedenen änderungen bei humanoiden robotern kommen, aber bei jeder neuen roboterplattform sind die fixkosten ein wichtiger aspekt, der berücksichtigt werden muss.


ich möchte auch betonen, dass sie durch den austausch von informationen und das lernen voneinander zwischen verschiedenen aufgaben mehr gewinnen werden.


im bereich der ki wollen wir ein neuronales netzwerk aufbauen, das mehrere aufgaben bewältigen und durch mehrere aufgaben voneinander lernen kann, um das allgemeine intelligenzniveau zu verbessern. das interessante an sprachmodellen ist, dass sie als multitasking-modelle für die textverarbeitung dienen, viele verschiedene arten von problemen bewältigen und gleichzeitig informationen zwischen diesen aufgaben austauschen können. aber alle diese aufgaben werden tatsächlich von einem einzigen neuronalen netzwerk ausgeführt.


ebenso hoffen wir, dass die während der blattpflückaufgabe gesammelten daten ihnen bei der erledigung anderer aufgaben helfen werden. wenn sie jedoch ein system speziell für eine bestimmte aufgabe entwickeln, kann sich ihre gewinnspanne verringern.


sarah guo: roboter wie unitree g1 kosten derzeit etwa 300.000 us-dollar. es scheint, dass der bereich der humanoiden roboter derzeit niedrige kosten erzielt hat., high-funktions-wohnunges ist schwierig, das gleichgewicht zu halten, aber wenn wir eine struktur mit rädern übernehmen und einen roboterarm hinzufügen, um bestimmte aufgaben zu erledigen, hätten wir dann nicht eine bessere chance, einen kostengünstigeren allzweckroboter zu realisieren?


unitree g1 roboter


andrej karpathy:aus hardware-sicht ist es sinnvoll, nach günstigeren allzweckplattformen zu suchen. unter bestimmten umständen kann es eine effizientere wahl sein, zur erledigung von aufgaben räder und andere strukturen anstelle von füßen zu verwenden, aber ich denke, dass dies eine lokal optimale lösung sein könnte. langfristig denke ich, dass es wahrscheinlich klüger ist, sich für eine form zu entscheiden und sie bis zur perfektion zu perfektionieren. und aus menschlicher psychologischer sicht werden die vorteile humanoider roboter offensichtlicher. sie fühlen sich vertraut an und wecken den wunsch, mit ihnen zu interagieren.


angesichts des uncanny-valley-effekts werden abstrakte formen bei den benutzern vielleicht beliebter sein. denn ich bin mir eigentlich nicht sicher, wie die leute auf verschiedene arten von robotern reagieren werden. wenn wir am ende ein achträdriges monster haben, um die arbeit zu erledigen, bin ich nicht sicher, ob es den leuten gefallen wird oder ob sie mehr angst haben werden.


elad gil: auch mechanische hunde sind eine formroute, und hunde sind auch formen, die dem menschen vertrauter sind.


andrej karpathy:ja, aber viele leute, die „black mirror“ gesehen haben, kombinieren möglicherweise mechanische hunde mit bestimmten horrorszenen, sodass die psychologische akzeptanz bei jedem anders sein wird. im vergleich dazu ist die humanoide form für die menschen möglicherweise auch leichter zu verstehen seine funktionen und verhaltensweisen.


elad gil:welche wichtigen fortschritte müssen aus technischer sicht erzielt werden, wenn wir eine humanoide form erreichen wollen?


andrej karpathy: ich glaube, dass es auf diese frage noch keine eindeutige antwort gibt. eine der interessanteren diskussionen hier ist, dass beim design humanoider roboter der unterkörper nicht für das nachahmungslernen geeignet ist. dieser teil beinhaltet eher eine umgekehrte pendelsteuerung. für den oberkörper (den oberkörper) ist er eher auf fernbedienung angewiesen , datenerfassung und end-to-end-lernen. in gewisser weise müssen robotersysteme mehrere technologien vereinen, aber ich bin mir noch nicht ganz sicher, wie diese systeme miteinander funktionieren.


💡

umgekehrtes pendel:dabei geht es darum, ein pendel in einer instabilen aufrechten position zu halten. dabei handelt es sich um ein klassisches steuerungsproblem mit breiten anwendungen in der robotik, luft- und raumfahrt und anderen bereichen. zu den herkömmlichen methoden zur umkehrpendelregelung gehören die pid-regelung, der lineare quadratische regler (lqr), die gleitmodusregelung usw.


mit der entwicklung der ki werden nach und nach methoden des verstärkungslernens in die steuerung umgekehrter pendel eingeführt, die aufgrund ihrer fähigkeit, optimale strategien ohne genaue modelle zu erlernen, große aufmerksamkeit erregt haben. der auf verstärkungslernen basierende algorithmus zur steuerung des umgekehrten pendelgleichgewichts ist eine sehr praktische technologie und wird in der robotik, automatisierung und anderen bereichen häufig eingesetzt.


elad gil: als ich mit einigen leuten aus dem bereich der robotik kommunizierte, stellte ich fest, dass sie sich große sorgen über themen wie antriebskraft, steuerung und digitale manipulation machen.


andrej karpathy: ja, ich denke, in der anfangsphase wird es tatsächlich viele fernsteuerungsszenarien geben, wie zum beispiel roboter imitieren zu lassen, die menschen gegenstände vom boden aufheben, bis das system in 95 % der fälle autonom laufen kann. erhöhen sie dann schrittweise den anteil der roboterarbeit, sodass der mensch vom bediener zum vorgesetzten werden kann.


tatsächlich denke ich, dass es keine besonderen technischen hindernisse gibt, sondern vielmehr, dass eine menge grundlegender arbeit geleistet werden muss.wir verfügen bereits über die entsprechenden tools und ressourcen, wie zum beispiel die transformer-architektur. wir müssen nur die richtigen daten vorbereiten, trainieren und experimentieren und schließlich die bereitstellung implementieren. obwohl der prozess kompliziert ist, gibt es eigentlich nicht viele wesentliche technische engpässe.




03.


synthetische daten, kleine modelle, llms-unternehmen


sarah guo: wo stehen wir ihrer meinung nach im hinblick auf die forschung zu großen blobs?


💡

forschung zu großen blobs:bezieht sich normalerweise auf eine forschungsrichtung oder technologie in den bereichen deep learning und computer vision. blob ist „binär groß“. objekt, was für „binary large object“ steht, ist ein großer zusammenhängender bereich in einem bild oder einer feature-map, der wichtige visuelle informationen enthalten oder ein bestimmtes objekt oder einen szenenteil darstellen kann großflächige visuelle merkmale verarbeiten.


andrej karpathy: ich habe das gefühl, dass wir uns jetzt in einer phase rasanter entwicklung befinden. transformer ist nicht nur ein neuronales netzwerk, sondern ein leistungsstarkes und vielseitiges neuronales netzwerk.


wenn beispielsweise alle über skalierungsgesetze diskutieren, beziehen sie sich häufig auf die merkmale der transformer-architektur. vor transformer wurde für einige arbeiten hauptsächlich gestapeltes lstm verwendet, es wurde jedoch kein klares skalierungsgesetz gefunden. transformer ist das erste modell, das dies deutlich macht und effektiv skaliert.


💡

gestapeltes lstm bezieht sich auf eine tiefe neuronale netzwerkstruktur, die durch das stapeln mehrerer lstm-schichten (long short-term memory) gebildet wird.


transformer ist wie ein allgemeiner computer, genauer gesagt ein differentiable neural computer (dnc). wir können sehr umfangreiche ein- und ausgaben durchführen und diesen computer mithilfe der backpropagation-methode trainieren.letztendlich wird es zu einem sich selbst entwickelnden system zur missionserfüllung werden.


💡

differenzierbarer neuronaler computer (dnc):ein spezieller typ eines neuronalen netzwerks, das informationen speichern und abrufen kann, ähnlich dem speichersystem in einem computer. es ist „differenzierbar“, was bedeutet, dass seine parameter durch backpropagation optimiert werden können, um eine bessere leistung bei der lösung komplexer aufgaben zu erzielen.


obwohl transformer ein wunder ist, das wir zufällig auf dem gebiet der algorithmen entdeckt haben, stecken tatsächlich viele wichtige innovationen dahinter, wie restverbindungen, schichtnormalisierungen und aufmerksamkeitsblockaden. im gegensatz zu herkömmlichen methoden verwendet transformer keine nichtlinearen aktivierungsfunktionen, die dazu führen, dass gradienten verschwinden. stattdessen werden innovative technologien integriert, die in den technischen dokumenten erwähnt werden, was die trainingseffizienz und -leistung erheblich verbessert.


sarah guo:in dieser zeit gab es diskussionen über die datenmauer, und die kosten für die skalierung des modells der nächsten generation werden extrem hoch sein. was denken sie über datenprobleme?


andrej karpathy: das haben wir von anfang an besprochen. ich denke, dass die architektur neuronaler netze heute kein engpass mehr ist, obwohl architekturprobleme vor der geburt von transformer tatsächlich ein hindernis waren. jetzt konzentrieren sich die neuen engpässe hauptsächlich auf die verlustfunktion und den datensatz.daher konzentrieren sich viele unternehmen und forscher nicht mehr auf änderungen in der transformer-architektur. beispielsweise weist llama keine besonders offensichtlichen architektonischen innovationen auf. die einzige große änderung könnten „rotationspositionskodierungen“ (rope-positionskodierungen) sein.transformer selbst hat sich in den letzten fünf jahren kaum verändert. jeder konzentriert sich nur auf die innovation von training, datensätzen und verlustfunktionen basierend auf der bestehenden grundlage.


💡

„rotary positional encodings“ (rope, rotary positional encodings):eine positionskodierungstechnik für transformatormodelle. es stellt positionsinformationen in der eingabesequenz durch rotierende vektoren dar. im vergleich zur herkömmlichen positionscodierung kann rope dem modell bei der verarbeitung langer sequenzen mehr vorteile verschaffen. sein hauptmerkmal besteht darin, die position jedes elements in der sequenz durch drehen des vektorwinkels zu kodieren und dabei die relativen abstandsinformationen beizubehalten. dieser ansatz ermöglicht eine bessere flexibilität und skalierbarkeit des modells an verschiedenen standorten und eignet sich besonders für aufgaben, bei denen es um abhängigkeiten über große entfernungen geht.


sarah guo:wenn es nicht genügend daten im internet gibt, werden wir dann anfangen, synthetische daten oder ähnlich teurere methoden der datenerfassung zu verwenden?


andrej karpathy: derzeit konzentriert sich ein großteil der forschung auf sprachmodelle. obwohl internetdaten nicht die idealste datenquelle für transformer sind, können sie als werkzeug zur kontinuierlichen verbesserung der modellfunktionen verwendet werden. internetdaten sind nur eine ansammlung von webseiten, aber was wirklich wertvoll ist, ist das, was sich in unserem gehirn befindetinnerer monolog„——diese komplexen und tiefgründigen denkverläufe.



wenn wir über milliarden von daten verfügen können, die „gedankenspuren“ ähneln, können wir agi bis zu einem gewissen grad nahe kommen. da diese daten derzeit jedoch nicht vorhanden sind, konzentriert sich die aktuelle forschung hauptsächlich auf die neuorganisation vorhandener datensätze in ein format, das dem „inneren monolog“ ähnelt. dies ist die bedeutung synthetischer daten. die heutigen modelle können uns dabei helfen, die nächste generation von modellen zu generieren. dies ist ein prozess des kontinuierlichen iterativen fortschritts, genau wie das erklimmen einer leiter, bei dem wir schritt für schritt dem ziel näher kommen.


elad gil:wie nützlich sind synthetische daten? wie sie sagten, kann uns jedes modell dabei helfen, das nächste modell zu trainieren oder zumindest werkzeuge für aufgaben wie datenanmerkungen bereitzustellen, bei denen es sich teilweise um synthetische daten handeln kann.


andrej karpathy: ich denke, dass synthetische daten für die verbesserung der modellfähigkeiten unerlässlich sind.seien sie jedoch vorsichtig, wenn sie synthetische daten verwenden, weil das modell „zusammenbricht“, ohne zu wissen wann. wenn wir beispielsweise chatgpt bitten, uns witze zu erzählen, werden wir feststellen, dass es möglicherweise nur drei witze kennt, obwohl es tatsächlich nur diese wenigen witze kennt. zusammenbruch“ „das heißt, es gibt kein problem mit einer einzelnen ausgabe, aber wenn die ausgabe in diese bestimmte richtung erfolgt, werden die vielfalt und flexibilität des modells stark reduziert, was ein problem bei der datengenerierung darstellt, insbesondere bei der generierung synthetischer daten. es ist leicht zu „kollabieren“. die situation liegt daran, dass wir tatsächlich die vielfalt und den reichtum der daten, also die „entropie“, benötigen, um probleme zu vermeiden, die durch einen zu einzelnen datensatz verursacht werden.

💡

modus-zusammenbruch:dies ist ein phänomen in generative adversarial networks (gans), bei denen das generative modell beginnt, sehr ähnliche oder sich wiederholende stichproben statt vielfältiger stichproben zu generieren. dies wird häufig als problem angesehen, da es darauf hinweist, dass das modell nicht in der lage ist, die große vielfalt der daten zu erlernen.


beispielsweise hat jemand einen charakterbezogenen datensatz veröffentlicht, der 1 milliarde fiktiver charakterhintergründe enthält, wie zum beispiel „ich bin lehrer“ oder „ich bin künstler, ich lebe hier, ich mache diesen job“ und so weiter.wenn sie synthetische daten generieren, lassen sie es sich tatsächlich den prozess der interaktion mit einer bestimmten person vorstellen. dies kann dem modell mehr raum zum erkunden geben, wodurch mehr informationen ausgegeben und die vielfalt des datensatzes erhöht werden.daher müssen wir die entropie sorgfältig injizieren und gleichzeitig die stabilität der datenverteilung aufrechterhalten, was die größte herausforderung bei der generierung synthetischer daten darstellt.


sarah guo:was können wir ihrer meinung nach aus dieser forschung über die menschliche kognition lernen? manche menschen glauben beispielsweise, dass das verständnis des entstehungsprozesses von denkbahnen uns helfen wird, die funktionsweise des gehirns zu verstehen.


andrej karpathy:forschungsmodelle und menschliche kognition sind zwei völlig verschiedene dinge, aber in manchen fällen können sie verglichen werden. ich denke zum beispiel, dass transformer in einigen aspekten stärker ist als das menschliche gehirn und das modell ein effizienteres system als das menschliche gehirn ist, aber aufgrund von datenbeschränkungen ist ihre aktuelle leistung nicht so gut wie die des menschlichen gehirns. aber das ist nur eine grobe erklärung.


beispielsweise sind transformer bei der verarbeitung langer sequenzen hinsichtlich der speicherkapazität besser als das menschliche gehirn. wenn sie ihm eine sequenz vorgeben und ihn auffordern, eine vorwärts- und rückwärtsberechnung durchzuführen, kann er sich die vorderen und hinteren teile der sequenz merken und die aufgabe abschließen, was für das menschliche gedächtnis schwierig ist. daher denke ich, dass die auf gradientenoptimierung basierende trainingsmethode in einigen aspekten tatsächlich effizienter ist als das menschliche gehirn, und selbst in zukunft könnte das modell den menschen auf einigen kognitiven ebenen tatsächlich übertreffen.


elad gil:die speicherkapazität ist eine der stärken von computern.


andrej karpathy: ja, ich denke, das menschliche gehirn hat tatsächlich viele einschränkungen. beispielsweise ist die kapazität des arbeitsgedächtnisses sehr begrenzt, während das arbeitsgedächtnis der transformers im vergleich viel größer ist und die kluft zwischen ihnen immer größer wird. darüber hinaus lernen transformer effizienter. die funktion des menschlichen gehirns wird durch viele verborgene faktoren wie hintergrund, verantwortung, umgebung usw. eingeschränkt, wodurch das menschliche gehirnsystem zufälliger und begrenzter wird. daher habe ich das gefühl, dass diese modelle in einigen aspekten bereits stärker sind als das menschliche gehirn, ihr volles potenzial jedoch noch nicht erreicht haben.


elad gil:in bezug auf die beziehung zwischen menschen und ki argumentiert man, dass wir sie als externes werkzeug nutzen, während andere sagen, dass es eine tiefere integration von menschen und ki-modellen geben wird. was denken sie über dieses problem?


andrej karpathy: ich denke, wir haben die integration von menschen und ki bis zu einem gewissen grad erreicht. technische werkzeuge waren schon immer ein derivat menschlicher fähigkeiten. wie die leute oft sagen: „computer sind die fahrräder des menschlichen gehirns.“ das problem heutiger modelle liegt lediglich im engpass im informationseingabe- und -ausgabeprozess, sodass die integration von mensch und ki immer noch kontinuierliche versuche erfordert. wenn die modelle jedoch perfektioniert sind, ist die verwendung dieser modelle sehr einfach und kann mit nur wenigen handgriffen erreicht werden. obwohl es also einige hindernisse gibt, ist diese integration dank der aktuellen technologie relativ einfach und machbar.


elad gil:einige leute im ki-bereich glauben daswenn es in zukunft einen konflikt zwischen uns und der ki gibt, ist das in ordnung

gelöst durch irgendeine form der verschmelzung von menschen und ki.


andrej karpathy: ja, das ist der philosophie von neuralink sehr ähnlich. obwohl ich mir nicht sicher bin, wie diese fusion genau aussehen wird, ist klar, dass wir die eingabe- und ausgabelatenz zwischen menschen und werkzeugen reduzieren wollen. man kann es sich so vorstellen, als würde man unserer großhirnrinde einen neuen kortex hinzufügen. dieser neue kortex könnte wolkenbasiert sein und ist im wesentlichen die nächste schicht des gehirns.


elad gil: existieren accelerando das buch hat eine ähnliche prämisse, bei der alles über eine tragbare datenbrille an das gehirn übermittelt wird. wenn sie diese brille verlieren, ist das so, als würden sie einen teil ihrer persönlichkeit oder ihres gedächtnisses verlieren.


andrej karpathy: ich denke, dass dies wahrscheinlich passieren wird. heutige mobiltelefone sind fast zu einem teil unseres lebens geworden, wie ein externes gerät für das gehirn. jedes mal, wenn wir das telefon weglegen, haben wir das gefühl, wieder in unserem ursprünglichen zustand zu sein.


ein anderes beispiel: wenn wir einen „universalübersetzer“ haben und uns längere zeit darauf verlassen, verlieren wir möglicherweise die fähigkeit, direkt mit menschen zu kommunizieren, die andere sprachen sprechen, wenn wir ihn plötzlich nicht mehr haben. wie in einem video gezeigt, hält ein kind eine zeitschrift und versucht, sie mit dem finger zu verschieben. es kann nicht unterscheiden, was natürlich ist und was durch technologie hervorgerufen wird. ich denke, dass die menschen mit der zunehmenden allgegenwärtigkeit der technologie möglicherweise von diesen werkzeugen abhängig werden, nur um dann zu erkennen, dass sie nicht unterscheiden können, was technologie ist und was nicht, bis sie verschwinden. besonders geräte wie übersetzer, die einem ständig bei der erledigung von aufgaben helfen, werden die sensibilität der menschen für die grenzen zwischen technik und natur stark verringern.


sarah guo: der „exokortex“ klingt nach einer sehr wichtigen sache, und er ist für jeden wichtig. heutzutage wird die llm-forschung von einigen wenigen ki-laboren geleitet, und nur diese verfügen über die ressourcen, um die entwicklung des modelltrainings der nächsten generation voranzutreiben. was halten sie heute von dieser struktur in der llm-forschung? welchen einfluss wird es auf die popularität der ki-technologie in der zukunft haben?


andrej karpathy: das ökosystem von llm wird heute tatsächlich von mehreren geschlossenen plattformen monopolisiert, während das nachgeordnete meta llama relativ offen ist. dieses phänomen spiegelt in gewissem maße auch das open-source-ökosystem wider. wenn wir llm als die „äußere schicht“ betrachten, geht es um fragen des informations- und datenschutzes. im bereich der verschlüsselung gibt es ein sprichwort: „nicht ihre schlüssel, nicht ihre token“. vielleicht werden wir in zukunft im llm-bereich den schwerpunkt auf „nicht ihre gewichte, nicht ihr gehirn“ legen. wenn ki in zukunft die neue großhirnrinde für alle ist und diese großhirnrinde von einem bestimmten unternehmen kontrolliert wird, werden die menschen das gefühl haben, ein gehirn zu „mieten“, anstatt es tatsächlich zu besitzen.


sarah guo: sind sie bereit, den besitz und die kontrolle über ihr eigenes gehirn aufzugeben, um ein leistungsfähigeres zu mieten?


andrej karpathy: ich denke, dass dies ein entscheidender kompromiss ist. der zukünftige trend könnte sein, dass die meisten menschen das leistungsstarke closed-source-modell als standardoption verwenden werden, aber in einigen spezifischen fällen werden open-source-systeme die alternative sein. genau wie jetzt, wenn einige anbieter von closed-source-modellen probleme mit ihren apis haben, wenden sich die menschen dem open-source-ökosystem zu und haben daher das gefühl, mehr kontrolle zu haben.


dies könnte auch die richtung der zukünftigen entwicklung der gehirntechnologie sein: wenn probleme auftreten, können wir auf open-source-systeme umsteigen, während wir in den meisten fällen immer noch auf geschlossene systeme setzen. es ist wichtig, open-source-systeme weiter voranzutreiben, aber heute ist sich dieses problem vielleicht nicht jedem bewusst.


elad gil:was haltet ihr von den miniaturen? welche leistung können heutige kleinmodelle erreichen?


andrej karpathy: ich denke, das modell könnte noch kleiner verkleinert werden. aufgrund des problems mit dem datensatz haben wir das gefühl, dass das aktuelle modell beim speichern einiger irrelevanter informationen viel kapazität verschwendet. der schlüssel zu einem kleinen modell liegt darin, sich auf die kernkognition zu konzentrieren, und dieser kern kann tatsächlich sehr klein sein. es ist eher eine art zu denken, wenn wir informationen finden müssen, können wir flexibel verschiedene tools verwenden, um sie zu erhalten, anstatt das modell viele unnötige details speichern zu lassen.


was die parameter betrifft, denke ich, dass wir möglicherweise nur 100 millionen parameter benötigen, um unser ziel zu erreichen. eine effiziente komprimierungstechnologie kann das modell sehr klein machen. das prinzip der komprimierung ist einfach: verwenden sie ein sehr großes modell oder eine große menge an rechenressourcen, um ein kleineres modell zu überwachen.


der kern dieser angelegenheit besteht darin, dass sich die heutigen großen modelle mit internet-datensätzen befassen und nur etwa 0,001 % des inhalts mit der wahrnehmung zusammenhängen und die restlichen 99,99 % tatsächlich irrelevante informationen sind, wie z. b. kopierrechter text. die meisten informationen spielen keine wesentliche rolle bei der verbesserung von denkmustern.


elad gil:kann dieser prozess durch mathematik oder eine art informatiktheorie erklärt werden? kann der zusammenhang zwischen modellgröße und kognitiver leistung quantifiziert werden? beispielsweise könnte in zukunft nur noch ein modell mit einer milliarde parametern erforderlich sein, um ein gutes verständnis zu erreichen.


andrej karpathy: es kann sogar weniger als 1 milliarde kosten, und das modell kann über diese art von kognitiven fähigkeiten verfügen, wenn man die kosten des modells, die endausrüstung usw. berücksichtigt. und was wir diskutieren werden, ist möglicherweise kein einzelnes kognitives modell. ich denke, das modell sollte die fähigkeit haben, parallel zu verarbeiten, anstatt sich nur auf sequentielle verarbeitung zu verlassen. es ist wie in einem unternehmen, viele arbeiten können parallel erledigt werden, aber es bedarf auch einer hierarchischen struktur, um informationen besser verarbeiten zu können. daher denke ich, dass es in zukunft ein modell von „unternehmen für llms“ geben könnte: verschiedene modelle konzentrieren sich auf ihre jeweiligen bereiche, beispielsweise ist eines ein programmierermodell und das andere ein projektmanagermodell parallel und untereinander sie können auch zusammenarbeiten, um ein „gruppengehirn“ aus llms zu bilden.


elad gil:dieser cluster von llms ist wie ein ökosystem, in dem jeder teil über sein eigenes einzigartiges fachwissen und seine eigene position verfügt.


andrej karpathy: ich denke, die zukunft wird sich definitiv in diese richtung entwickeln. es gibt viele günstigere und open-source-modelle in dieser gruppe. aber wenn das system auf sehr komplexe probleme stößt. aufgaben werden automatisch eskaliert und anderen teilen der gruppe zugewiesen.




04.


bildung im ki-zeitalter


sarah guo:sie haben begonnen, an ihrem eigenen bildungsprojekt zu arbeiten, nachdem sie openai verlassen haben. warum haben sie sich für bildung entschieden?


andrej karpathy: ich habe die bildungsbranche schon immer geliebt, ich lerne und lehre gerne und ich habe eine große leidenschaft für diesen bereich.


💡

karpathy gegründet eureka labs, eine bildungsplattform mit ki als kern, die darauf abzielt, lernmethoden durch technologie der künstlichen intelligenz zu revolutionieren. der erste kurs von eureka labs llm101n die schüler werden dabei angeleitet, ihre eigenen groß angelegten sprachmodelle zu erstellen, mit dem ziel, die ki-ausbildung interaktiver und beliebter zu machen. diese plattform plant, das lernerlebnis durch die integration von ki-lehrassistenten und menschlichem kursdesign zu verbessern, was seine vision widerspiegelt, ki und bildung im laufe der jahre zu integrieren.


ein wichtiger grund, der mich dazu bewogen hat, in dieses feld einzusteigen, ist, dass ich das gefühl habe, dass viele kis versuchen, menschen zu ersetzen, was dazu führt, dass viele menschen ihren arbeitsplatz verlieren. ich interessiere mich jedoch mehr für technologien, die die menschlichen fähigkeiten verbessern können. insgesamt stehe ich auf der seite der menschheit und hoffe, dass ki dazu beitragen kann, dass die menschheit mächtiger wird und nicht an den rand gedrängt wird.


darüber hinaus halte ich es für eine ziemlich gute idee, einen „perfekten nachhilfelehrer“ zu haben, der nachhilfeaufgaben in allen fächern erledigen kann. wenn jeder einen solchen ki-nachhilfelehrer hat, der ihn beim erlernen aller fächer anleitet, kann meiner meinung nach jeder bessere ergebnisse erzielen.


elad gil: seit den 1980er jahren wird in der literatur deutlich, dass einzelunterricht die leistung einer person um zwei standardabweichungen verbessern kann. es gibt auch viele fälle, in denen es um personalisierte nachhilfe geht. wie können ihrer meinung nach ki und nachhilfelehrer kombiniert werden?


andrej karpathy: ich lasse mich von diesen beispielen sehr inspirieren. jetzt baue ich einen kompletten kurs mit dem ziel, ihn zur ersten wahl für das erlernen von ki zu machen. ich habe zuvor den ersten deep-learning-kurs in stanford unterrichtet. obwohl die anzahl der studenten nur 20 bis 30 betrug, waren die ergebnisse gut. die herausforderung besteht nun darin, einen solchen kurs so zu skalieren, dass er 8 milliarden menschen auf der ganzen welt abdeckt. angesichts der unterschiede in sprache und fähigkeiten ist dies mit einem einzigen lehrer schwierig zu erreichen.


daher liegt der schlüssel darin, wie ki genutzt werden kann, um die rolle guter lehrer zu erweitern. die kernaufgabe der lehrer sollte in der kursgestaltung und dem verfassen von materialien liegen, während die ki am frontend mit den schülern interagieren und inhalte vermitteln kann. die aktuelle ki kann keine kompletten kurse selbstständig erstellen, reicht aber aus, um bei der erklärung und wissensvermittlung zu helfen. auf diese weise können sich lehrer auf das back-end-design konzentrieren, während die ki im front-end mehrere sprachen verwendet, um mit schülern zu interagieren und ihnen beim abschluss ihres lernvorgangs zu helfen.


sarah guo:kann ki mit einem lehrassistenten verglichen werden?


andrej karpathy: der lehrassistent ist eine der richtungen, die ich in betracht ziehe, da er direkt mit den studierenden interagiert und sie zum abschluss des kurses führt. ich denke, dass dies unter der aktuellen technologie eine praktikable lösung ist, und es gibt kein vergleichbares produkt ich bin daher der meinung, dass es auf dem markt viel potenzial in diesem bereich gibt, und wenn die technologie voranschreitet, können wir verschiedene anpassungen daran vornehmen. ich habe das gefühl, dass viele unternehmen heute nicht über ein intuitives verständnis der modellfähigkeiten verfügen und die von ihnen entwickelten produkte daher zu fortschrittlich oder nicht genau genug sind. daher denke ich, dass dieser bereich großes potenzial hat.


sarah guo: inwieweit lassen sich mit guten werkzeugen die grenzen menschlicher leistungsfähigkeit erreichen? wenn wir es beispielsweise mit den olympischen spielen vergleichen, ist die leistung der spitzenläufer aufgrund der fortschritte in der trainingswissenschaft und -technologie in den letzten zehn jahren besser als in den letzten zehn jahren.


andrej karpathy: ich habe das gefühl, dass wir heute noch nicht das volle potenzial ausgeschöpft haben. wir können dieses thema aus zwei perspektiven betrachten. die erste ist die globalisierung. ich hoffe, dass jeder ein hohes bildungsniveau erhalten kann. beide perspektiven sind wertvoll.


elad gil: wenn wir über 1-zu-1-lernberatung sprechen, sprechen wir normalerweise von personalisierung und anpassung, d.


andrej karpathy: ich denke, die „niedrig hängende frucht“ im heutigen ki-bildungsbereich sind übersetzungsanwendungen. die aktuellen modelle sind für solche aufgaben sehr gut, und die dinge, die sie tun können, sind immer noch grundlegende aufgaben.


es ist schwierig, eine personalisierung zu erreichen, die sich an das niveau jeder person anpasst, aber ich denke, dass dies auch der schwerpunkt der ki-entwicklung sein sollte, und sie hat offensichtlich das potenzial dazu. dies kann jedoch neue bereiche umfassen, die durch das prompt-projekt implementiert werden können, aber ich denke, der wirklich nützliche weg besteht darin, das modell selbst über solche fähigkeiten zu verfügen, damit es wie ein lehrer funktionieren kann.


ich denke, dass dies einige bereiche berührt, die derzeit unterentwickelt sind. während einfache versionen vielleicht nicht mehr weit entfernt sind, wie zum beispiel hinweise zum modell, um hilfe zu bekommen, spreche ich von lösungen, die tatsächlich funktionieren und nicht nur in einer demo gut aussehen. wovon ich spreche, ist die fähigkeit, so effektiv wie ein echter lehrer zu arbeiten, den kontext jedes einzelnen zu verstehen und individuelle anleitung zu geben, was einer weiterentwicklung bedarf.


elad gil: können wir diese anpassung durch die einführung anderer modelle erreichen?


andrej karpathy: ich denke, das ist auch ein merkmal der ki. ich denke, dass viele funktionen tatsächlich mit nur einer eingabeaufforderung implementiert werden können. daher sehen wir oft viele demos, aber können wir endlich ein tatsächliches produkt liefern? daher ist es vielleicht nicht schwierig, einige demos zu erstellen, aber es ist noch ein langer weg, bis es zu einem produkt entwickelt werden kann, das in großem maßstab eingesetzt werden kann.


sarah guo:vor ein paar wochen haben sie erwähnt, dass lernen und unterhaltung unterschiedlich sind. lernen sollte eine herausforderung sein und ein bestimmtes anreizsystem erfordern, wie z. b. sozialen status, idoleffekt usw. inwieweit kann das anreizsystem ihrer meinung nach die lernmotivation der menschen verändern? konzentrieren sie sich eher auf die bereitstellung von ressourcen, die es den menschen ermöglichen, im rahmen ihrer fähigkeiten so weit wie möglich zu gehen? oder möchten sie die zahl der lernwilligen verändern und mehr menschen zum lernen anleiten?


andrej karpathy:ich hoffe, das lernen ein wenig einfacher zu machen, da manche menschen möglicherweise kein natürliches interesse am lernen haben. viele menschen studieren aus praktischen gründen, etwa um einen job zu finden, was absolut sinnvoll ist. bildung spielt in unserer gesellschaft eine wichtige rolle, denn sie vermittelt nicht nur wissen, sondern verbessert auch den wirtschaftlichen status eines menschen, weshalb menschen durch bildung motiviert werden wollen.


sarah guo:wie wird unsere zukunft in einer post-agi-gesellschaft aussehen?


andrej karpathy:ich denke, dass bildung in der post-agi-ära eher zu unterhaltung werden wird. erfolgreiche bildung liegt nicht nur in der wissensvermittlung, sondern auch im vertieften verstehen und anwenden dieses wissens.


sarah guo:wer war eurekas erstes publikum?


andrej karpathy:die hauptzielgruppe dieses ersten kurses sind studenten im grundstudium, insbesondere solche, die einen abschluss in technischen bereichen anstreben. wenn sie einen technikbezogenen bachelor-studiengang studieren, sind sie die ideale zielgruppe für diesen studiengang.


andrej karpathy:ich halte unser derzeitiges bildungskonzept für etwas veraltet. die alte art, ständig zur schule zu gehen, einen abschluss zu machen und zu arbeiten, wird durch die heutigen veränderungen zerstört und die menschen müssen weiter lernen. obwohl der kurs also für studenten gedacht ist, hat er tatsächlich ein breites publikum. ich denke beispielsweise, dass menschen jeden alters teilnehmen können. gerade für diejenigen mit technischem hintergrund, die sich ein tieferes verständnis relevanter kenntnisse aneignen möchten, wird es einiges zu gewinnen geben.


ich habe vor, den kurs später in diesem jahr anzubieten, anfang nächsten jahres könnte ein geeigneter zeitpunkt sein, und bis dahin werde ich hart daran arbeiten, sicherzustellen, dass die qualität des kurses dem erwarteten standard entspricht.


elad gil:wenn sie kinder hätten, welche kenntnisse und fähigkeiten würden sie ihnen vermitteln sollen?


andrej karpathy:die antwort, die ich geben würde, ist mathematik, physik, informatik und andere fächer, die tatsächlich eine grundlegende ausbildung für die entwicklung der denkfähigkeit darstellen. natürlich wird diese sichtweise von meinem hintergrund beeinflusst, aber ich glaube, dass diese bereiche im hinblick auf die fähigkeiten zur problemlösung sehr hilfreich sind. auch wenn die zukunft der agi-ära näher rückt, werden diese fähigkeiten weiterhin wichtig sein. in dieser kritischen zeit, in der die menschen viel zeit und aufmerksamkeit haben, sollten wir uns meiner meinung nach hauptsächlich auf aufgaben konzentrieren, die relativ einfach auszuführen sind, und nicht auf aufgaben, die viel speicher erfordern. auch wenn ich weiß, wie wichtig es ist, andere fächer zu lernen, glaube ich, dass man sich 80 % der zeit auf diese kernbereiche konzentrieren sollte, weil sie praktischer sind und einen langfristigen wert haben.


satz: fia