li feifeis neuestes gespräch: der fortschritt der ki-technologie wird unvorstellbare neue anwendungsszenarien mit sich bringen

2024-09-23

kürzlich, li feifeiunda16z-partnermartin casadosowieforscher justin johnsonexpandierenbesprochenkidie geschichte, aktuelle situation und zukünftige entwicklungsrichtung des fachgebiets, themendeckt alle aspekte der ki-technologie ab, insbesondere das zukünftige potenzial generativer ki und räumlicher intelligenz.

li feifei betonte, dass generative ki bereits während ihres studiums existierte, die frühe technologie jedoch noch nicht ausgereift sei. mit dem sprung in sachen deep learning und rechenleistung hat die generative ki in den letzten jahren bemerkenswerte fortschritte gemacht und ist zu einem der wichtigsten durchbrüche auf dem gebiet der ki geworden.

sie stellte auch das neueste unternehmerprojekt world labs vor, das sich auf „räumliche intelligenz“ konzentriert, also die fähigkeit von maschinen, 3d- und 4d-räume zu verstehen und in ihnen zu interagieren.

sie wies darauf hin, dass sich räumliche intelligenz nicht nur für die generierung virtueller welten eignet, sondern auch die reale welt integrieren kann und in den bereichen augmented reality (ar), virtual reality (vr) und robotik weit verbreitet ist.ki fortschritte in der technologie werden uns unvorstellbare neue anwendungsszenarien bescheren, darunter die generierung virtueller welten, augmented reality und die interaktion mit der physischen welt.

das folgende ist der hauptinhalt dieses gesprächs, viel spaß ~

martin casado

in den letzten zwei jahren haben wir eine welle von ki-unternehmen und -technologien für verbraucher gesehen, und der prozess war verrückt. und sie sind seit jahrzehnten auf diesem gebiet tätig. vielleicht sprechen wir also über die wichtigsten beiträge und erkenntnisse, die sie in diesem prozess gewonnen haben.

feifei li

es ist eine sehr aufregende zeit und rückblickend befindet sich die ki in einer aufregenden zeit. ich persönlich beschäftige mich seit mehr als zwei jahrzehnten mit diesem bereich. wir haben den letzten ki-winter überstanden und die geburt der modernen ki miterlebt. dann erlebten wir den aufstieg des deep learning, das uns zeigte, was möglich ist, wie etwa schachspielen.

dann begannen wir, tiefergehende entwicklungen in der technologie und industriellen anwendung früher möglichkeiten, wie etwa sprachmodelle, zu beobachten. ich glaube, wir befinden uns im moment mitten in einer „kambrischen explosion“.

in gewisser weise sehen wir jetzt neben text auch pixel, video, audio usw., die beginnen, mit ki-anwendungen und -modellen kombiniert zu werden, also ist dies eine sehr aufregende zeit.

martin casado

ich kenne sie beide schon lange und viele leute kennen sie, weil sie auf diesem gebiet so prominent sind. aber nicht jeder weiß, wie sie im ki-bereich angefangen haben. vielleicht können wir ihren hintergrund kurz vorstellen, um dem publikum zu einem grundlegenden verständnis zu verhelfen.

justin johnson

okay, meine erste begegnung mit ki hatte ich gegen ende meines grundstudiums. ich habe am caltech mathematik und informatik studiert und es war eine tolle zeit. in dieser zeit wurde ein sehr berühmter artikel veröffentlicht, der „katzenartikel“ von home neck lee, andrew ng und anderen. dies war mein erster kontakt mit dem konzept des deep learning.

diese technologie hat mich verblüfft, und das war das erste mal, dass ich auf dieses rezept stieß: wenn leistungsstarke allzweck-lernalgorithmen, riesige rechenressourcen und große datenmengen kombiniert werden, passiert etwas magisches. ich bin etwa 2011 oder 2012 auf diese idee gekommen und hatte damals das gefühl, dass ich das in zukunft tun würde.

offensichtlich musste man für diese arbeit ein graduiertenstudium absolvieren, also entdeckte ich, dass feifei an der stanford-universität war und eine der wenigen menschen auf der welt war, die sich eingehend mit diesem fachgebiet beschäftigte. es war eine großartige zeit, sich mit deep learning und computer vision zu befassen, da dies der moment war, in dem die technologie von ihren kinderschuhen zur reife überging und eine breite akzeptanz fand.

in dieser zeit erlebten wir die anfänge der sprachmodellierung und auch die anfänge des diskriminierenden computersehens – man konnte verstehen, was in einem bild vor sich geht. in dieser zeit fand auch die frühe entwicklung dessen statt, was wir heute generative ki nennen. die kernteile des algorithmus wie die generierung von bildern und text wurden während meiner doktorarbeit ebenfalls von der akademischen gemeinschaft gelöst.

jeden morgen, wenn ich aufwachte, öffnete ich arxiv, um mir die neuesten forschungsergebnisse anzusehen. es war, als würde ich weihnachtsgeschenke öffnen. es gab fast jeden tag neue entdeckungen. in den letzten zwei jahren hat auch der rest der welt erkannt, dass jeden tag neue „weihnachtsgeschenke“ durch ki-technologie eingehen. aber für diejenigen von uns, die seit mehr als zehn jahren in diesem bereich tätig sind, ist diese erfahrung bereits vorhanden.

feifei li

offensichtlich bin ich viel älter als justin. ich bin über die physik in den bereich der ki eingestiegen, da mein bachelor-abschluss in der physik lag. physik ist ein fach, das sie lehrt, über mutige fragen wie die ungelösten geheimnisse der welt nachzudenken. in der physik beziehen sich diese probleme vielleicht auf die atomare welt, das universum, aber diese ausbildung hat mein interesse für ein anderes problem geweckt – intelligenz. also habe ich am caltech in den bereichen ki und computational neuroscience promoviert. obwohl justin und ich uns am caltech nicht überschnitten haben, teilten wir doch dieselbe alma mater.

justin johnson

und derselbe mentor?

feifei li

ja, ihr studienberater war auch mein doktorvater, pietro perona. als ich für meine doktorarbeit studierte, stand ki mitten in einem kalten winter im fokus der öffentlichkeit, aber das war in meinen augen nicht der fall. dies ähnelt eher der winterruhe vor dem frühling, in der maschinelles lernen und generative modelle an stärke gewinnen. ich betrachte mich als „eingeborenen“ im bereich des maschinellen lernens, und justins generation ist ein „eingeborener“ im bereich deep learning.

maschinelles lernen ist der vorläufer des deep learning und wir haben damals mit verschiedenen modellen experimentiert. aber gegen ende meiner doktorarbeit und während meiner zeit als assistenzprofessor erkannten meine studenten und mein labor, dass es ein übersehenes element der ki gab, das die verallgemeinerung vorantreibt, über das das fachgebiet damals noch nicht viel nachgedacht hatte: daten. wir haben uns auf komplexe modelle wie bayes'sche modelle konzentriert und übersehen, wie wichtig es ist, das modell von daten steuern zu lassen.

dies ist einer der gründe, warum wir auf imagenet setzen. zu dieser zeit war die größe der datensätze in allen bereichen sehr klein. die standarddatensätze für computer vision und die verarbeitung natürlicher sprache umfassten tausende oder zehntausende von daten, aber wir erkannten, dass wir auf das internet skalieren mussten . glücklicherweise begann auch das internetzeitalter, und wir ritten auf dieser welle. zu dieser zeit kam ich nach stanford.

martin casado

diese epochen wie die, über die wir viel reden, wie etwa imagenet, sind offensichtlich wichtige epochen, um computer vision im bereich der generativen ki zu fördern oder zumindest populär und machbar zu machen. normalerweise erwähnen wir zwei wichtige durchbrüche: der eine ist das transformer-papier, das den „aufmerksamkeitsmechanismus“ darstellt, und der andere ist die weniger diskutierte „stabile diffusion“.

ist es sinnvoll, diese beiden algorithmischen durchbrüche aus der wissenschaft (insbesondere google) auf diese weise zu verstehen? oder ist das eher ein bewusster prozess? oder gab es andere große durchbrüche, die nicht oft erwähnt werden und die uns ebenfalls dahin gebracht haben, wo wir heute sind?

justin johnson

ja, ich denke, der größte durchbruch ist die rechenleistung. ich weiß, dass die geschichte der ki oft auch die geschichte der rechenleistung ist, aber obwohl sie oft erwähnt wird, denke ich, dass ihre auswirkungen unterschätzt werden.

das wachstum der rechenleistung, das wir im letzten jahrzehnt erlebt haben, war atemberaubend. der erste aufsatz, der als durchbruch für deep learning in der computer vision galt, war alexnet, ein aufsatz aus dem jahr 2012, in dem ein tiefes neuronales netzwerk bei der imagenet-herausforderung gut abschnitt und andere algorithmen dieser zeit weit übertraf.

die algorithmen, denen sie während ihres studiums möglicherweise ausgesetzt sind, verblassen im vergleich zu alexnet. alexnet ist ein tiefes neuronales netzwerk mit 60 millionen parametern. es wurde sechs tage lang auf zwei gtx 580-grafikkarten trainiert. die gtx 580 war damals die leistungsstärkste consumer-grafikkarte und wurde 2010 veröffentlicht.

ich habe gestern abend einige daten nachgeschlagen und wollte diese in einen größeren kontext stellen. nvidias neueste grafikkarte ist gb200. können sie den rechenleistungsunterschied zwischen gtx 580 und gb200 erraten?

die zahl geht in die tausende, also habe ich gestern abend nachgerechnet. während der zweiwöchigen schulung wurden die sechs tage beispielsweise auf zwei gtx 580 ausgeführt, bei einer verlängerung könnte es auf einer gb200 wahrscheinlich in weniger als fünf minuten ausgeführt werden.

wenn man es so betrachtet, gibt es wirklich ein gutes argument: das alexnet-papier von 2012 zur imagenet challenge ist wirklich ein sehr klassisches modell, nämlich das faltungsmodell eines neuronalen netzwerks.

tatsächlich tauchte dieses konzept bereits in den 1980er jahren auf. ich erinnere mich noch an die erste arbeit, die ich als doktorand studierte. der inhalt war ähnlich, mit einer netzwerkstruktur aus sechs oder sieben schichten. fast der einzige unterschied zwischen alexnet und dem convolutional neural network-modell ist die gpu – die verwendung von zwei gpus und riesigen datenmengen.

was ich also sagen wollte, ist, dass die meisten menschen mittlerweile mit der sogenannten „bitteren lektion“ vertraut sind: wenn sie einen algorithmus entwickeln, stellen sie einfach sicher, dass sie ihre vorhandenen computerressourcen nutzen können, denn diese ressourcen werden immer größer im laufe der zeit verfügbar. sie brauchen also einfach ein system, das sich ständig verbessert.

andererseits scheint es ein weiteres ebenso überzeugendes argument zu geben, nämlich dass neue datenquellen tatsächlich deep learning ermöglichen. imagenet ist ein gutes beispiel. obwohl viele leute denken, dass der selbstaufmerksamkeitsmechanismus für das transformer-modell wichtig ist, werden sie auch sagen, dass es eine möglichkeit ist, von menschen gekennzeichnete daten zu nutzen.

da menschen die anmerkungen für die satzstruktur bereitstellen, können menschen, wenn man sich das clip-modell anschaut, bilder im gesamten internet mit alt-tags markieren. das ist also wirklich eine geschichte über daten, nicht über computer. ist die antwort also beides oder eher eine seite? ich denke, es ist ein bisschen von beidem, aber sie haben noch einen weiteren sehr kritischen punkt angesprochen.

martin casado

ich denke, dass es im bereich der algorithmen tatsächlich zwei verschiedene epochen gibt. die imagenet-ära ist die ära des überwachten lernens. heutzutage verfügen wir über viele daten, wissen aber nicht, wie wir nur mit den daten selbst trainieren sollen.

die erwartung bei imagenet und anderen zeitgenössischen datensätzen war, dass wir viele bilder haben würden, wir aber menschen brauchen würden, die jedes bild mit anmerkungen versehen. alle daten, auf denen wir trainiert haben, wurden einzeln von menschlichen kommentatoren gesichtet und kommentiert.

der große durchbruch für algorithmen besteht darin, dass wir jetzt wissen, wie man auf daten trainiert, die nicht auf menschlichen anmerkungen beruhen. für eine durchschnittliche person ohne ki-hintergrund sieht es so aus, als ob beim training mit menschlichen daten tatsächlich menschen die annotation vorgenommen hätten, die annotation sei jedoch nicht explizit.

justin johnson

ja, philosophisch gesehen ist das eine sehr wichtige frage, aber sie gilt eher im bereich der sprache als im bereich der bilder. ja, aber ich denke, dass es ein wichtiger unterschied ist. clip wird tatsächlich von menschen kommentiert. ich denke, der selbstaufmerksamkeitsmechanismus besteht darin, dass menschen die beziehungen zwischen dingen verstanden haben und man dann durch diese beziehungen lernt.

es wird also immer noch von menschen kommentiert, aber die anmerkung ist eher implizit als explizit. der unterschied besteht darin, dass unsere lernaufgaben im zeitalter des überwachten lernens eingeschränkter sind. wir müssen eine ontologie der konzepte entwickeln, die wir entdecken wollen.

in imagenet beispielsweise verbrachten fei-fei li und ihre schüler viel zeit damit, darüber nachzudenken, wie die tausend kategorien in der imagenet-herausforderung aussehen sollten. bei anderen datensätzen zur gleichen zeit, wie dem coco-datensatz, der zur zielerkennung verwendet wird, haben sie ebenfalls viel darüber nachgedacht, welche 80 kategorien darin enthalten sein sollten.

martin casado

sprechen wir also über generative ki. als ich meine doktorarbeit machte, bevor ihr vorbeikamt, habe ich den kurs über maschinelles lernen von andrew ng belegt, und ich habe den sehr komplexen bayesian-kurs von daphne koller belegt, der für mich sehr komplex war.

vieles davon war damals prädiktive modellierung. ich erinnere mich, dass sie diese ganze visionssache freigeschaltet haben, aber generative ki gibt es erst seit etwa vier jahren. das ist für mich ein ganz anderes feld – man identifiziert keine objekte mehr, man sagt nichts voraus, man erzeugt neue dinge.

vielleicht können wir darüber sprechen, was die schlüsselfaktoren sind, die generative ki ermöglichen, wie sie sich von früher unterscheidet und ob wir sie anders betrachten sollten, ob es sich um einen teil der kontinuierlichen entwicklung handelt oder um einen anderen völlig neuen bereich.

feifei li

es ist sehr interessant, dass es generative modelle bereits seit meiner zeit an der graduiertenschule gibt. wir wollten damals eine generierung durchführen, aber niemand erinnerte sich daran, dass wir etwas versuchten, selbst wenn wir eine generierung mit buchstaben und zahlen durchführten. jeff hinton hatte damals einige arbeiten zum thema generierung verfasst, und wir dachten auch darüber nach, wie man generiert.

wenn man es aus der perspektive der wahrscheinlichkeitsverteilung betrachtet, kann man es tatsächlich mathematisch generieren, aber was damals generiert wurde, war überhaupt nicht erstaunlich. obwohl das konzept der generation aus mathematischer sicht existiert, gibt es tatsächlich keinen zufriedenstellenden generationseffekt.

dann möchte ich ausdrücklich einen doktoranden erwähnen, der mit einem starken interesse an deep learning in mein labor kam. man kann fast sagen, dass die gesamte doktorandenerfahrung dieses doktoranden ein mikrokosmos der entwicklung dieses fachgebiets ist.

sein erstes projekt waren daten, und ich zwang ihn dazu. obwohl es ihm nicht gefiel, gab er später zu, dass er viele nützliche dinge gelernt hatte. „jetzt bin ich froh, dass sie das gesagt haben.“ also wandten wir uns dem deep learning zu und das kernproblem bestand darin, wie man aus bildern text generiert. tatsächlich gibt es in diesem prozess drei klare phasen.

der erste schritt besteht darin, bilder und text abzugleichen. wir haben bilder und text, und als nächstes müssen wir sehen, wie sie zusammenhängen. in meiner ersten wissenschaftlichen arbeit und gleichzeitig auch in meiner ersten doktorarbeit befasste ich mich mit der bildgewinnung auf basis von szenendiagrammen. als nächstes untersuchen wir weiter und generieren text aus pixeln. sowohl er als auch andrej haben in dieser hinsicht viel arbeit geleistet, aber es ist immer noch eine sehr verlustbehaftete generierungsmethode, und die informationen gehen stark verloren, wenn sie aus den pixeln gewonnen werden pixelwelt.

es gab ein sehr berühmtes werk in der mittelstufe. damals realisierte jemand zum ersten mal echtzeit. im jahr 2015 wurde unter der leitung von leon gatys ein artikel mit dem titel „the art style of neural algorithms“ veröffentlicht. sie demonstrierten die umwandlung realer fotos in bilder im van-gogh-stil.

wir mögen es jetzt als selbstverständlich betrachten, aber das war im jahr 2015, und dieser artikel tauchte auf arxiv auf und schockierte mich. ich habe das gefühl, als wäre ein „ki-erzeugender virus“ in mein gehirn eingedrungen. ich dachte mir: „oh mein gott, ich muss diesen algorithmus verstehen, damit herumspielen und versuchen, meine bilder wie van gogh aussehen zu lassen.“

also habe ich ein langes wochenende damit verbracht, den algorithmus neu zu implementieren, damit er richtig laufen konnte. tatsächlich handelt es sich um einen sehr einfachen algorithmus, der damals nur in lua geschrieben wurde, da es damals noch kein pytorch gab, also haben wir lua torch verwendet. doch trotz der einfachheit des algorithmus ist er sehr langsam. jedes mal, wenn sie ein bild generieren, müssen sie eine optimierungsschleife ausführen, was viel zeit in anspruch nimmt. die resultierenden bilder sind wunderschön, aber ich wünschte, es wäre etwas schneller. endlich haben wir es schneller gemacht.

außerdem bin ich sehr stolz darauf, dass er im letzten teil seiner doktorarbeit eine sehr bahnbrechende arbeit geleistet hat, bevor generative ki wirklich auf die welt kam. dieses projekt generiert vollständige bilder durch die eingabe natürlicher sprache, was als eine der frühesten generativen ki-anstrengungen bezeichnet werden kann. wir verwendeten gans, aber damals war die verwendung sehr schwierig. das problem ist, dass wir noch nicht bereit sind, ein vollständiges bild in natürlicher sprache zu beschreiben.

daher verwendete er eine eingabemethode für die szenendiagrammstruktur, deren eingabeinhalt „schafe“, „gras“, „himmel“ usw. war, und nutzte diese methode, um ein vollständiges bild zu generieren.

vom datenabgleich über die stilübertragung bis hin zur bildgenerierung erleben wir nach und nach einen vollständigen wandel. sie fragen sich, ob dies eine große veränderung ist. für menschen wie uns ist es ein fortlaufender prozess, aber für die breite masse scheinen die ergebnisse plötzlich und wirkungsvoll zu sein.

martin casado

ich habe ihr buch gelesen und es ist ein großartiges buch, dessen lektüre ich jedem wärmstens empfehlen kann. und, fei-fei, was ich sagen möchte ist, dass sich viele ihrer forschungen und richtungen seit langem auf bereiche wie räumliche intelligenz und pixelverarbeitung konzentriert haben. die world labs, an denen sie gerade arbeiten, haben auch etwas mit räumlicher intelligenz zu tun. können sie sagen, dass dies teil ihrer langfristigen reise ist? warum haben sie sich jetzt dazu entschieden? handelt es sich dabei um einen technologischen durchbruch oder um persönliche gründe? können sie uns vom kontext der ki-forschung zu world labs führen?

fei-fei li

für mich ist dies sowohl eine persönliche suche als auch eine intellektuelle reise. sie haben mein buch erwähnt, und meine gesamte intellektuelle reise war wirklich eine suche nach „nordsternen“ und der festen überzeugung, dass diese nordsterne für den fortschritt unseres fachgebiets von entscheidender bedeutung sind.

ich erinnere mich, dass ich am anfang nach dem studium dachte, mein polarstern würde „geschichten für bilder erzählen“, denn für mich ist das ein großer teil der visuellen intelligenz, das, was man ki-teil nennt.

aber als justin und andrej mit ihrer arbeit fertig waren, dachte ich: „oh mein gott, das ist mein lebenstraum, was soll ich als nächstes tun?“ es ging viel schneller voran, als ich erwartet hatte – ich dachte, es würde eine weile dauern es wird hunderte von jahren dauern, dies zu erreichen.

visuelle intelligenz war schon immer eine leidenschaft von mir. ich bin fest davon überzeugt, dass es für jedes intelligente wesen, ob mensch, roboter oder eine andere wesensform, von entscheidender bedeutung ist, zu lernen, wie man die welt sieht, wie man argumentiert und wie man mit der welt interagiert. ob es um navigation, steuerung, fertigung oder sogar den aufbau einer zivilisation geht, visuelle und räumliche intelligenz spielen eine grundlegende rolle.

es kann genauso grundlegend sein wie die sprache und in mancher hinsicht sogar noch älter und grundlegender. deshalb soll der north star von world labs weltraumintelligenz freischalten, und jetzt ist der richtige zeitpunkt dafür.

wie justin sagte, verfügen wir bereits über die ressourcen, die wir brauchen – rechenleistung und ein tieferes verständnis der daten. wir sind im verständnis von daten anspruchsvoller geworden als in der imagenet-ära.

wir haben auch algorithmische fortschritte, wie zum beispiel die bahnbrechende arbeit unserer mitbegründer ben mildenhall und christoph lassner an nerf. wir glauben, dass jetzt der richtige zeitpunkt ist, die entscheidung zu treffen, sich auf diesen bereich zu konzentrieren und sein potenzial auszuschöpfen.

martin casado

damit es allen klar ist, haben sie jetzt dieses unternehmen gegründet – world labs, und das problem, das sie lösen möchten, ist „räumliche intelligenz“. können sie kurz beschreiben, was räumliche intelligenz ist?

fei-fei li

räumliche intelligenz bezieht sich auf die fähigkeit von maschinen, in 3d-raum und -zeit zu verstehen, wahrzunehmen, zu argumentieren und zu handeln. konkret geht es darum, zu verstehen, wie objekte und ereignisse im 3d-raum und in der zeit positioniert sind und wie sich interaktionen in der welt auf diese 3d-positionen auswirken.

dabei geht es nicht nur darum, maschinen in rechenzentren oder hosts bleiben zu lassen, sondern darum, sie in die reale welt eintauchen zu lassen und diese reichhaltige 3d- und 4d-welt zu verstehen.

martin casado

bezieht sich die „welt“, von der sie sprechen, auf die reale physische welt oder auf eine abstrakte konzeptionelle welt?

fei-fei li

ich denke, es ist beides. dies stellt auch unsere langfristige vision dar. selbst wenn sie eine virtuelle welt oder inhalte generieren, bietet die positionierung in 3d dennoch viele vorteile. oder wenn sie die reale welt identifizieren, gehört dazu auch die fähigkeit, 3d-verständnisse auf die reale welt anzuwenden.

martin casado

ihr mitgründerteam ist wirklich, wirklich stark. warum ist ihrer meinung nach jetzt der richtige zeitpunkt dafür?

fei-fei li

dabei handelt es sich tatsächlich um einen langfristigen evolutionsprozess. nach abschluss meiner doktorarbeit suchte ich nach einem weg, ein unabhängiger forscher zu werden und über große fragen in den bereichen ki und computer vision nachzudenken. ich kam damals zu dem schluss, dass es im letzten jahrzehnt darum gegangen sei, bereits vorhandene daten zu verstehen, und dass es im nächsten jahrzehnt darum gehen würde, neue daten zu verstehen.

bei den daten der vergangenheit handelte es sich hauptsächlich um bilder und videos, die bereits im internet existierten, doch die daten der zukunft sind völlig neu – das aufkommen von smartphones, die über kameras und neue sensoren verfügen und in der 3d-welt positioniert werden können. es geht nicht nur darum, dass sie sich ein paar pixel aus dem internet schnappen und versuchen herauszufinden, ob es sich um eine katze oder einen hund handelt.

wir hoffen, diese bilder als universelle sensoren für die physische welt zu nutzen und uns dabei zu helfen, die 3d- und 4d-struktur der welt sowohl im physischen als auch im generativen raum zu verstehen.

nach abschluss meiner doktorarbeit machte ich einen großen schritt und stieg in das gebiet der 3d-computervision ein, wo ich mit meinen kollegen daran arbeitete, die 3d-form von objekten vorherzusagen. später interessierte ich mich sehr für die idee, 3d-strukturen aus 2d-daten zu lernen.

wenn wir über daten diskutieren, erwähnen wir oft, dass es schwierig ist, 3d-daten zu erhalten, aber tatsächlich sind 2d-bilder projektionen der 3d-welt, und es gibt viele mathematische strukturen, die ausgenutzt werden können. selbst wenn sie über viele 2d-daten verfügen, können sie anhand dieser mathematischen strukturen auf die struktur der 3d-welt schließen.

2020 ist ein durchbruch. unser mitbegründer ben mildenhall schlug die nerf-methode (neural radiation field) vor. dies ist eine sehr einfache und klare möglichkeit, 3d-strukturen aus 2d-beobachtungen abzuleiten und damit das gesamte gebiet der 3d-computervision zu entfachen.

gleichzeitig begann sich auch llm zu entwickeln. tatsächlich werden in der wissenschaft bereits seit langem viele arbeiten zur sprachmodellierung entwickelt. noch während meiner doktorarbeit habe ich 2014 einige sprachmodellierungsarbeiten bei andrej karpathy durchgeführt.

justin johnson

dies war eigentlich etwas, das vor transformer erschien, aber im zeitalter von gpt-2 ist es für sie schwierig, solche modelle im akademischen bereich zu erstellen, da sie zu viele rechenressourcen erfordern. interessanterweise erfordert die von ben vorgeschlagene nerf-methode jedoch nur ein paar stunden training auf einer einzelnen gpu.

dies hat viele akademische forscher dazu veranlasst, sich wieder auf diese probleme zu konzentrieren, da einige kernalgorithmusprobleme mit begrenzten rechenressourcen gelöst werden können und man mit einer einzigen gpu hochmoderne ergebnisse erzielen kann. damals dachten viele akademische forscher: wie können wir die entwicklung dieses bereichs durch kernalgorithmen fördern? fei-fei und ich haben viel geredet und wir sind beide sehr davon überzeugt.

fei-fei li

ja, wir stellen fest, dass unsere forschungsrichtungen in gewissem maße auf ähnliche ziele ausgerichtet sind. ich möchte auch ein sehr interessantes technisches thema oder eine technische geschichte über pixel erzählen.

viele menschen, die sich mit sprachforschung befassen, wissen möglicherweise nicht, dass diejenigen von uns, die sich mit computer vision beschäftigen, vor der ära der generativen ki tatsächlich auf eine lange forschungsgeschichte namens 3d-rekonstruktion zurückblicken können.

das geht auf die 1970er jahre zurück, und man konnte fotos machen – da menschen zwei augen haben, konnte man stereofotos verwenden, um zu versuchen, 3d-formen zu triangulieren und zu bilden. dies ist jedoch ein sehr schwieriges problem, das aufgrund von komplikationen wie matching-problemen noch nicht vollständig gelöst wurde.

auf diesem gebiet gibt es bereits eine lange geschichte des fortschritts, aber wenn nerf mit generativen methoden kombiniert wird, insbesondere im kontext von diffusionsmodellen, beginnen 3d-rekonstruktion und generierung plötzlich zu verschmelzen. im bereich computer vision haben wir plötzlich entdeckt, dass, wenn wir etwas sehen oder uns etwas vorstellen, beides in der richtung, es zu erzeugen, zusammenlaufen kann. dies ist ein sehr wichtiger moment, aber viele menschen bemerken ihn möglicherweise nicht, weil wir nicht so ausführlich darüber sprechen wie über llm.

justin johnson

ja, es gibt eine rekonstruktion im pixelraum, zum beispiel rekonstruiert man eine reale szene, und wenn man diese szene nicht sehen kann, nutzt man generative techniken. die beiden sind sich tatsächlich sehr ähnlich. sie haben in diesem gespräch über sprache und pixel gesprochen, also wäre dies vielleicht ein guter zeitpunkt, um über räumliche intelligenz im vergleich zu sprachlichen ansätzen zu sprechen, ob sie sich ergänzen oder völlig unterschiedlich sind?

fei-fei li

ich denke, sie ergänzen sich. ich bin mir nicht sicher, wie ich „völlig anders“ definieren soll, aber ich kann versuchen, einen vergleich anzustellen. heutzutage sprechen viele über gpt, offene ki und multimodale modelle. man geht davon aus, dass diese modelle sowohl mit pixeln als auch mit sprache umgehen können. können sie also das räumliche denken erreichen, das wir wollen? um diese frage zu beantworten, müssen wir die „black box“ dieser systeme öffnen und sehen, wie sie unter der haube funktionieren.

die zugrunde liegende darstellung von sprachmodellen und den multimodalen sprachmodellen, die wir jetzt sehen, ist „eindimensional“. wir sprechen über kontextlänge, transformer, sequenzen und aufmerksamkeitsmechanismen, aber letztendlich basiert die darstellung dieser modelle auf eindimensionalen serialisierten token.

diese darstellung ist im umgang mit sprache sehr natürlich, da der text selbst aus eindimensionalen folgen diskreter buchstaben besteht. diese eindimensionale darstellung ist die grundlage für den erfolg von llm, und das gleiche gilt für das multimodale llm, das wir jetzt sehen, das andere modalitäten (z. b. bilder) in diese eindimensionale darstellung „einbettet“.

im bereich der räumlichen intelligenz denken wir genau das gegenteil – wir glauben, dass die dreidimensionalität der welt der kern der darstellung sein sollte. aus algorithmischer sicht eröffnet uns dies neue möglichkeiten, daten zu verarbeiten und unterschiedliche arten von ausgaben zu erhalten, was uns bei der lösung ganz unterschiedlicher probleme hilft.

selbst auf einer groben ebene könnte man sagen: „multimodale llms können zwar auch bilder sehen, aber sie stellen bei der verarbeitung von bildern nicht die natur der dreidimensionalität in den mittelpunkt.“

justin johnson

ich stimme voll und ganz zu, dass es sehr zentral ist, den grundlegenden unterschied zwischen eindimensionaler und dreidimensionaler darstellung zu diskutieren. darüber hinaus gibt es noch einen etwas philosophischeren, aber für mich nicht weniger wichtigen punkt: sprache ist im wesentlichen ein rein generiertes signal, und es gibt keine sprache auf der welt. wenn sie in die natur hinausgehen, werden sie keine schrift am himmel sehen. unabhängig davon, welche daten sie eingeben, kann das sprachmodell bei ausreichender verallgemeinerung nahezu dieselben daten ausspucken. dies liegt in der natur der sprachgenerierung.

aber die 3d-welt ist anders. sie folgt den gesetzen der physik und hat ihre eigene struktur und materialien. diese informationen im wesentlichen extrahieren, darstellen und generieren zu können, ist ein ganz anderes problem. obwohl wir einige nützliche ideen von sprachmodellen übernehmen werden, handelt es sich hierbei grundsätzlich um eine andere philosophische frage.

martin casado

richtig, das sprachmodell ist also eindimensional und wahrscheinlich eine schlechte darstellung der physischen welt, da es vom menschen mit verlust generiert wird. eine weitere modalität für generative modelle sind pixel, also 2d-bilder und -videos. wenn sie ein video ansehen, können sie eine 3d-szene sehen, da die kamera schwenken kann. was ist also der unterschied zwischen räumlicher intelligenz und 2d-video?

fei-fei li

hier gibt es zwei punkte, über die es nachzudenken lohnt. das eine ist die zugrunde liegende darstellung und das andere die bequemlichkeit der benutzererfahrung. die beiden sind manchmal verwirrt. was wir wahrnehmen, ist zweidimensional – unsere netzhaut ist eine zweidimensionale struktur, aber unser gehirn sieht sie als projektion der dreidimensionalen welt.

vielleicht möchten sie objekte bewegen, die kamera bewegen, und im prinzip könnten sie diese dinge auch mit 2d-darstellungen und modellen tun, aber das ist für das von ihnen gestellte problem nicht geeignet. eine zweidimensionale projektion einer dynamischen dreidimensionalen welt mag modellierbar sein, aber die platzierung der dreidimensionalen darstellung im zentrum des modells entspricht besser den anforderungen des problems.

unser ziel ist es, mehr 3d-darstellung in den kern des modells zu integrieren, um den benutzern ein besseres erlebnis zu bieten. das passt auch zu meinem „north star“. warum legen wir wert auf „räumliche intelligenz“ statt auf „flachpixel-intelligenz“?

wenn man auf die evolutionsgeschichte zurückblickt, besteht das ultimative ziel der intelligenz darin, es tieren und menschen zu ermöglichen, sich frei in der welt zu bewegen, zu interagieren, eine zivilisation zu schaffen und sogar ein sandwich zuzubereiten. daher ist die umsetzung dieser 3d-essenz in technologie der schlüssel zur erschließung unzähliger potenzieller anwendungen, auch wenn einige wie oberflächliche fortschritte erscheinen mögen.

martin casado

ich denke, das ist ein sehr subtiler, aber entscheidender punkt. vielleicht können wir diese diskussion weiter vertiefen, indem wir über einige anwendungsszenarien sprechen. wenn wir über die entwicklung eines technologiemodells sprechen, das räumliche intelligenz ermöglicht, wie könnte das konkret aussehen? welche möglichen anwendungsszenarien gibt es?

fei-fei li

das räumliche intelligenzmodell, das wir uns vorstellen, kann viele dinge tun, von denen ich besonders begeistert bin: „weltgenerierung“. ähnlich wie bei text-bild-generatoren gibt es jetzt auch text-video-generatoren – geben sie ein bild oder ein video ein und das system generiert einen atemberaubenden zwei-sekunden-clip. aber ich denke, wir können diese erfahrung in eine 3d-welt übertragen.

wir können uns vorstellen, dass räumliche intelligenz uns in zukunft dabei helfen wird, diese erlebnisse auf 3d umzustellen, indem nicht nur ein bild oder ein video generiert wird, sondern eine vollständige, simulierte und reichhaltige interaktive 3d-welt. vielleicht wird es für spiele verwendet, vielleicht wird es für virtuelle fotografie verwendet, die anwendungsbereiche sind so vielfältig, dass es unvorstellbar ist.

justin johnson

ich denke, dass sich die technologie mit der zeit verbessern wird. es ist sehr schwierig, diese dinge zu bauen, daher mag das statische problem relativ einfach sein, aber auf lange sicht möchten wir, dass es vollständig dynamisch und interaktiv ist und alles bietet, was sie gerade beschrieben haben.

fei-fei li

ja, das ist genau die definition von räumlicher intelligenz. wir beginnen mit eher statischen problemen, aber alles, was sie erwähnt haben, liegt in der zukunft der räumlichen intelligenz.

justin johnson

dies spiegelt sich auch im namen unseres unternehmens „world labs“ wider – der name steht für den aufbau und das verständnis der welt. wenn wir den leuten den namen nennen, verstehen sie ihn zunächst nicht immer, denn in den bereichen computer vision, rekonstruktion und generierung unterscheiden wir oft zwischen dem, was wir können. die erste ebene besteht darin, objekte wie mikrofone, stühle und andere diskrete objekte in der welt zu erkennen. ein großteil der arbeit von imagenet bezieht sich auf die objekterkennung.

aber dann kommen wir auf die ebene der szenen – szenen bestehen aus objekten. jetzt haben wir zum beispiel ein aufnahmestudio mit einem tisch, einem mikrofon und leuten, die auf stühlen sitzen, also einer kombination von objekten. aber die „welt“, die wir uns vorstellen, geht über szenen hinaus. die szene mag ein einzelnes ding sein, aber wir wollen diese grenzen durchbrechen und nach draußen gehen, auf die straße, den vorbeifahrenden verkehr sehen, blätter sehen, die sich im wind wiegen, und in der lage sein, mit diesen dingen zu interagieren.

fei-fei li

eine weitere sehr spannende sache ist der begriff „neue medien“. mit dieser technologie verschwimmen die grenzen zwischen der realen welt, der virtuellen imaginären welt oder der erweiterten und vorhergesagten welt. die reale welt ist 3d, daher ist in der digitalen welt eine 3d-darstellung erforderlich, um mit der realen welt zu verschmelzen. sie können nicht effektiv mit der realen 3d-welt in nur 2d oder sogar 1d interagieren.

diese fähigkeit eröffnet unbegrenzte anwendungsszenarien. genau wie das erste von justin erwähnte anwendungsszenario ist die erzeugung virtueller welten für jeden zweck einsetzbar. der zweite könnte seinaugmented reality. ungefähr zu der zeit, als world labs gegründet wurde, veröffentlichte apple vision pro und verwendete den begriff „spatial computing“. wir sprechen fast vom gleichen, wir betonen „räumliche intelligenz“. es besteht kein zweifel, dass räumliches rechnen räumliche intelligenz erfordert.

wir wissen nicht, wie zukünftige formen von hardware aussehen werden – es könnten schutzbrillen, brillen oder sogar kontaktlinsen sein. aber an der schnittstelle zwischen der realen und der virtuellen welt, ob es darum geht, ihre arbeitsfähigkeit zu verbessern, ihnen bei der reparatur ihres autos zu helfen, auch wenn sie kein professioneller mechaniker sind, oder einfach nur ein „pokemon go++“-ähnliches erlebnis zur unterhaltung zu bieten, diese technologie wird das betriebssystem für ar/vr.

justin johnson

im extremfall muss das ar-gerät sie stets begleiten, die welt, die sie sehen, in echtzeit verstehen und sie bei der erledigung von aufgaben im täglichen leben unterstützen. ich bin davon wirklich begeistert, insbesondere von der verschmelzung von virtuellem und realität. wenn sie ihre umgebung in echtzeit perfekt in 3d verstehen können, kann dies sogar einige dinge in der realen welt ersetzen.

beispielsweise verfügen wir mittlerweile über bildschirme unterschiedlicher größe – ipads, computermonitore, fernseher, uhren usw. –, die informationen in unterschiedlichen szenarien darstellen. aber wenn wir virtuelle inhalte nahtlos mit der physischen welt verschmelzen können, werden diese geräte nicht mehr notwendig sein. virtuelle welten können ihnen die informationen, die sie benötigen, im richtigen moment und auf die am besten geeignete weise anzeigen.

eine weitere große anwendung ist die vermischung der digitalen virtuellen welt mit der physischen 3d-welt, insbesondere in der robotik. roboter müssen in der physischen welt agieren, während sich ihre computer und gehirne in der digitalen welt befinden. die brücke zwischen lernen und verhalten muss durch räumliche intelligenz gebaut werden.

martin casado

sie haben virtuelle welten erwähnt, augmented reality, und jetzt sprechen sie über die rein physische welt, zum beispiel in der robotik. dies ist ein sehr weites feld, insbesondere wenn sie vorhaben, in diese verschiedenen bereiche einzusteigen. wie sehen sie tiefgreifende technologie in bezug auf diese spezifischen anwendungsbereiche?

fei-fei li

wir verstehen uns als deep-technology-unternehmen, als plattformunternehmen, das modelle bereitstellt, die diese unterschiedlichen anwendungsszenarien bedienen können. was das anwendungsszenario angeht, das besser zu dem passt, worauf wir uns zu beginn konzentriert haben, halte ich die aktuelle ausstattung für nicht perfekt genug.

mein erstes vr-headset bekam ich tatsächlich, als ich noch an der graduiertenschule war. als ich es anzog, dachte ich mir: „oh mein gott, das ist verrückt!“ ich bin sicher, dass viele menschen eine ähnliche erfahrung machen, wenn sie vr zum ersten mal nutzen.

ich liebe den vision pro so sehr, dass ich am tag seiner veröffentlichung lange wach geblieben bin, um mir einen zu schnappen, aber im moment ist er als plattform für den massenmarkt noch nicht ganz ausgereift. daher entscheiden wir uns als unternehmen möglicherweise für den eintritt in einen bereits reiferen markt.

manchmal liegt einfachheit in der vielseitigkeit. wir haben die vision eines deep-tech-unternehmens und glauben, dass es einige grundlegende probleme gibt, die gut gelöst werden müssen und die, wenn sie gut gelöst werden, auf viele verschiedene bereiche angewendet werden können. als langfristiges ziel des unternehmens betrachten wir den aufbau und die verwirklichung des traums der räumlichen intelligenz.

justin johnson

tatsächlich denke ich, dass genau darin die auswirkungen dessen liegen, was sie tun. ich glaube nicht, dass wir jemals ganz dorthin gelangen werden, denn es ist eine so fundamentale sache – das universum ist im wesentlichen eine sich entwickelnde vierdimensionale struktur, und bei räumlicher intelligenz im weitesten sinne geht es darum, die volle tiefe dieser struktur zu verstehen und herauszufinden die gesamte anwendung. obwohl wir heute bestimmte vorstellungen haben, glaube ich, dass diese reise uns an orte führen wird, die wir uns im moment einfach nicht vorstellen können.

fei-fei li

das erstaunliche an der technologie ist, dass sie immer mehr möglichkeiten eröffnet. je weiter wir voranschreiten, desto größer werden diese möglichkeiten.

nachricht

li feifeis neuestes gespräch: der fortschritt der ki-technologie wird unvorstellbare neue anwendungsszenarien mit sich bringen

einführung

meine kontaktdaten