„KI-Patin“ Li Feifei: Sora ist immer noch ein zweidimensionales Bild, und nur dreidimensionale Weltraumintelligenz kann AGI

„KI-Patin“ Li Feifei: Sora ist immer noch ein zweidimensionales Bild, und nur dreidimensionale Weltraumintelligenz kann AGI｜Titanium Media erreichen

2024-08-03

Die TMTpost App berichtete am 2. August, dass bei einem nichtöffentlichen Treffen des Asian American Scholar Forum der Stanford UniversityLi Feifei, eine Professorin an der Stanford University, die als „Godmother of AI“ bekannt ist, sagte exklusiv gegenüber TMTpost App, dass das Sora-Modell des amerikanischen Unternehmens OpenAI zwar Videos generieren kann, es sich aber im Wesentlichen immer noch um ein flaches zweidimensionales Modell handelt verfügt nicht über die Fähigkeit, dreidimensionale Objekte zu verstehen. Nur „räumliche Intelligenz“ ist die zukünftige Richtung von AGI.

Li Feifei gab die obige Antwort, als er die Beziehung zwischen dem Modell der „räumlichen Intelligenz“ und dem großen Sprachmodell diskutierte, das vom Gründer von TMTpost Media, Zhao Hejuan, entwickelt wurde. Sie erklärte weiter, dass die meisten aktuellen Modelle, wie GPT4o und Gemini 1.5, immer noch Sprachmodelle sind, das heißt, es gibt zwar auch multimodale Modelle, diese sind jedoch immer noch auf Sprache beschränkt Sie basieren auf einem zweidimensionalen flachen Bild. Der Schlüssel zur Realisierung von AGI in der Zukunft ist jedoch „räumliche Intelligenz“, die ein dreidimensionales visuelles Modell erfordert.

Als Beispiel nutzte sie das von Sora gezeigte KI-Video von „Japanerinnen, die durch neonbeleuchtete Straßen Tokios gehen“.

„Wenn Sie möchten, dass der Algorithmus den Winkel ändert, um das Video der Frau zu zeigen, die auf der Straße geht, indem Sie beispielsweise die Kamera hinter die Frau stellen, kann Sora das nicht tun. Weil dieses Modell nicht wirklich ein tiefes Verständnis der drei- dimensionale Welt. Menschen können es in ihrem Kopf tun. „Stellen Sie sich die Szene hinter der Frau vor.“ Li Feifei sagte: „Menschen können verstehen, wie man sich in komplexen Umgebungen bewegt. und wie man Städte baut. Bei der räumlichen Intelligenz geht es um die Fähigkeit, (visuelle Karten) zu erzeugen und Aktionen im dreidimensionalen Raum zu planen weit verbreitet, etwa für AR und VR, für Roboter, und auch räumliche Intelligenz ist erforderlich.“

Li Feifei betonte gegenüber TMTpost App: „Die natürliche Evolution ermöglicht es Tieren, die dreidimensionale Welt zu verstehen, im dreidimensionalen Raum zu leben, vorherzusagen und zu interagieren. Diese Fähigkeit hat eine lange Geschichte von 540 Millionen Jahren, als Trilobiten zum ersten Mal Licht im Wasser sahen.“ Wenn es nicht in der dreidimensionalen Welt „navigieren“ kann, wird es schnell zu einem Fest für andere Tiere. Mit fortschreitender Evolution nimmt die räumliche Intelligenz der Tiere zu und wir verstehen Formen.

Li Feifei, 48, ist ein berühmter Informatiker, Akademiker der National Academy of Engineering und der National Academy of Medicine sowie Direktor des Human-Centered AI Research Institute an der Stanford University. Sie leitete die Entwicklung der ImageNet-Bilddatenbank und des visuellen Erkennungswettbewerbs im Jahr 2009, indem sie riesige Bilder präzise kommentierte und klassifizierte, die Weiterentwicklung der Computer-Vision-Erkennungsfähigkeiten förderte und auch einer der Schlüsselfaktoren für die schnelle Entwicklung der KI ist. Letztes Jahr hat sich VoxPoser, das sie ankündigte, zu einer wichtigen Technologierichtung bei der Entwicklung von Embodied AI entwickelt.

Im Juli dieses Jahres gab World Labs, ein von Li Feifei gegründetes KI-Unternehmen, den Abschluss von zwei Finanzierungsrunden bekannt, darunter a16z (Andreessen Horowitz) usw.Die jüngste Bewertung des Unternehmens beläuft sich auf 1 Milliarde US-Dollar (ca. 7,26 Milliarden Yuan).

Auf dem nichtöffentlichen Asian American Scientists Forum Ende Juli ermöglichte Li Feifeis Rede auch mehr Menschen zu verstehen, was Word Labs und ihr Entwicklungskonzept für „räumliche Intelligenz“ sind, das heißt, KI wirklich „vom Sehen zum Tun“ zu machen “.

Wie man vom „Sehen“ zum „Tun“ kommt

Die sogenannte „räumliche Intelligenz“ bezeichnet die Fähigkeit von Menschen oder Maschinen, im dreidimensionalen Raum wahrzunehmen, zu verstehen und zu interagieren.

Dieses Konzept wurde erstmals vom amerikanischen Psychologen Howard Gardner in der Theorie der multiplen Intelligenzen vorgeschlagen, die es ermöglicht, im Gehirn ein Modell der äußeren Raumwelt zu bilden und zu nutzen und zu manipulieren. Tatsächlich ermöglicht die räumliche Intelligenz den Menschen, dreidimensional zu denken, äußere und innere Bilder wahrzunehmen und Bilder zu reproduzieren, zu transformieren oder zu modifizieren, sodass sie sich ruhig im Raum bewegen und tun können, was sie wollen die Position von Objekten, um grafische Informationen zu erzeugen oder zu interpretieren.

Im Großen und Ganzen umfasst räumliche Intelligenz nicht nur die Fähigkeit, räumliche Orientierung wahrzunehmen, sondern auch visuelles Unterscheidungsvermögen und die Fähigkeit, Bilder zu denken. Bei Maschinen bezieht sich räumliche Intelligenz auf ihre Fähigkeit, visuelle Daten im dreidimensionalen Raum zu verarbeiten, genaue Vorhersagen zu treffen und auf der Grundlage dieser Vorhersagen Maßnahmen zu ergreifen. Diese Fähigkeit ermöglicht es Maschinen, in einer komplexen dreidimensionalen Welt wie Menschen zu navigieren, zu agieren und Entscheidungen zu treffen und so die Grenzen des traditionellen zweidimensionalen Sehens zu überwinden.

In einem TED-Vortrag im April dieses Jahres sagte Li Feifei offen, dass die Sehfähigkeit die kambrische Explosion auslöste und die Entwicklung des Nervensystems Intelligenz hervorbrachte. „Wir wollen nicht nur eine KI, die sehen und sprechen kann, wir wollen eine KI, die das kann.“

Nach Ansicht von Li Feifei ist räumliche Intelligenz „die wichtigste magische Waffe zur Lösung technischer KI-Probleme“.

Bei dieser nichtöffentlichen Veranstaltung Ende Juli ging Li Feifei erstmals auf die drei wichtigsten Antriebskräfte der modernen KI ein, die vor zehn Jahren ihren Anfang nahmen: „Neuronale Netze“, die hauptsächlich aus Algorithmen bestehen, also „Deep Learning“; NVIDIA GPU-Chips; und Big Data.

Seit 2009 hat der Bereich Computer Vision explosionsartige Fortschritte gemacht. Maschinen können Objekte schnell erkennen und mit der menschlichen Leistung mithalten. Aber das ist nur die Spitze des Eisbergs. Computer Vision kann nicht nur stationäre Objekte identifizieren und sich bewegende Objekte verfolgen, sondern auch Objekte in verschiedene Teile zerlegen und sogar die Beziehung zwischen Objekten verstehen. Basierend auf Bild-Big-Data hat sich das Gebiet der Computer Vision daher sprunghaft weiterentwickelt.

Li Feifei erinnert sich noch gut daran, dass ihr Schüler Andrej Karpathy vor etwa zehn Jahren an der Forschung zur Etablierung von Emoticon-Algorithmen beteiligt war. Sie zeigten dem Computer ein Bild, und dann konnte der Computer über ein neuronales Netzwerk natürliche Sprache ausgeben, wie zum Beispiel: „Das ist eine Katze, die auf dem Bett liegt.“

„Ich erinnere mich, dass ich Andrej gesagt habe, lass es uns umkehren. Geben Sie zum Beispiel einen Satz vor und bitten Sie den Computer, ein Bild zu liefern. Wir haben alle gelacht und dachten, dass es vielleicht nie realisiert werden würde, oder dass es in ferner Zukunft realisiert werden würde“, sagte Li Feifei zurückgerufen.

Die generative KI-Technologie hat sich in den letzten zwei Jahren rasant weiterentwickelt. Vor allem vor einigen Monaten hat OpenAI den Videogenerierungsalgorithmus Sora veröffentlicht. Sie präsentierte ein ähnliches Produkt, das ihre Schüler bei Google entwickelt hatten und das von ausgezeichneter Qualität war. Dieses Produkt existierte mehrere Monate vor der Veröffentlichung von Sora und verwendete eine viel kleinere GPU (Grafikverarbeitungseinheit) als Sora. Die Frage ist: Wohin wird die KI als nächstes gehen?

„Seit Jahren sage ich, dass „sehen“ bedeutet, „die Welt zu verstehen“. Aber ich möchte dieses Konzept noch einen Schritt weiterführen und sagen, dass „sehen“ nicht nur bedeutet, zu verstehen, sondern auch zu tun „Tiere mit Empfindungsvermögen, aber solche Tiere gibt es tatsächlich schon seit 450 Millionen Jahren, weil dies eine notwendige Voraussetzung für die Evolution ist: Sehen und Handeln sind ein geschlossener Kreislauf“, sagte Li Feifei.

Als Beispiel diente ihr ihre Lieblingskatze.

Foto einer Katze, eines Glases Milch und Pflanzen auf einem Tisch. Wenn Sie dieses Foto sehen, entsteht in Ihrem Kopf tatsächlich ein dreidimensionales Video. Sie sehen Formen, Sie sehen Geometrie.

Tatsächlich sehen Sie, was vor ein paar Sekunden passiert ist und was ein paar Sekunden später passieren könnte. Sie sehen dieses Foto dreidimensional. Sie planen, was als nächstes zu tun ist. Ihr Gehirn rast auf Hochtouren und überlegt, was Sie tun können, um Ihren Teppich zu retten, insbesondere da die Katze Ihnen gehört und der Teppich Ihnen gehört.

„Ich nenne das alles räumliche Intelligenz, also die Modellierung der dreidimensionalen Welt und das Nachdenken über Objekte, Orte, Ereignisse usw. im dreidimensionalen Raum und in der dreidimensionalen Zeit. In diesem Beispiel spreche ich von der realen Welt, aber auch.“ „Es kann sich auf die virtuelle Welt beziehen“, sagte Li Feifei.

Zweitens zeigte Li Feifei ein 3D-Video, das auf der Grundlage mehrerer Fotos rekonstruiert wurde, und dann gab sie ein 3D-Video basierend auf einem Foto. Diese Technologien können im Design verwendet werden.

Li Feifei sagte, dass verkörperte intelligente KI oder humanoide Roboter einen geschlossenen Kreislauf zwischen „Sehen“ und „Tun“ bilden können.

Sie sagte, dass Kollegen der Stanford University und des Chipriesen NVIDIA gemeinsam eine Studie mit dem Titel BEHAVIOR durchführen, um einen dynamischen Benchmark-Raum für Heimaktivitäten zu schaffen und die Leistung verschiedener Roboter in der häuslichen Umgebung zu bewerten. „Wir untersuchen, wie wir Sprachmodelle mit großen visuellen Modellen verbinden können, damit der Roboter angewiesen werden kann, einen Plan zu erstellen und Maßnahmen einzuleiten“, sagte sie. Sie nannte drei Beispiele: eines war ein Roboter, der eine Schublade öffnete, ein anderes war ein Roboter, der ein Handy-Ladekabel abzog, und das dritte war ein Roboter, der ein Sandwich machte. Alle Anweisungen werden in natürlicher menschlicher Sprache gegeben.

Abschließend nannte sie ein Beispiel: Sie glaubte, dass die Zukunft der Welt der „räumlichen Intelligenz“ gehöre, in der Menschen dort sitzen, einen EEG-Hut mit Sensoren tragen und, ohne den Mund zum Sprechen zu öffnen, Robotern nur mit ihren Fingern etwas aus der Ferne sagen können Gedanken: Kochen Sie eine Mahlzeit im japanischen Stil. Nachdem der Roboter die Idee erhalten hat, entschlüsselt er sie und kann eine vollständige Mahlzeit zubereiten.

„Wenn wir ‚Sehen‘ und ‚Tun‘ durch räumliche Intelligenz verbinden, können wir es schaffen“, sagte sie.

Li Feifei sagte auch, dass sie die aufregende Entwicklung der KI in den letzten 20 Jahren miterlebt habe. Sie glaubt jedoch, dass der Schlüssel zu KI oder AGI die räumliche Intelligenz ist. Durch räumliche Intelligenz können wir die Welt sehen, die Welt wahrnehmen, die Welt verstehen und den Roboter Dinge tun lassen und so einen tugendhaften geschlossenen Kreislauf bilden.

Werden Roboter die Menschheit übernehmen?

Li Feifei sagte bei dem Treffen, dass die Menschen heute zu übertrieben seien, wenn es darum gehe, was KI in Zukunft leisten könne. Sie warnt davor, ehrgeizige, mutige Ziele mit der Realität zu verwechseln, ein Refrain, den wir zu oft hören.

Tatsächlich hat die KI einen Wendepunkt erreicht, insbesondere bei großen Sprachmodellen. „Allerdings handelt es sich immer noch um eine fehlerbehaftete, begrenzte Technologie, die immer noch erfordert, dass sich der Mensch intensiv mit ihr beschäftigt und ihre Grenzen versteht. Ein sehr gefährliches Argument ist jetzt das sogenannte Risiko des menschlichen Aussterbens, das heißt, KI wird zu einem „Ich denke, das ist sehr gefährlich für die Gesellschaft und es wird viele unbeabsichtigte Konsequenzen dieser Art von Rhetorik geben. Wir brauchen eine durchdachte, ausgewogene und unvoreingenommene Kommunikation und Aufklärung über KI“, sagte Li Feifei . betont.

Li Feifei glaubt, dass KI im Menschen verwurzelt sein sollte. Menschen haben es geschaffen, Menschen entwickeln es, Menschen nutzen es und Menschen sollten es auch verwalten.

Li Feifei sagte, dass sie am „Human-Centered AI“-Institut der Stanford University drei Ansätze für KI übernommen haben, darunter die drei Ebenen Individuum, Gemeinschaft und Gesellschaft:

Auf individueller Ebene muss KI engagiert und angenommen werden. Dies ist eine zivilisierte Technologie. KI verändert die Art und Weise, wie Kinder lernen, wie Ärzte Diagnosemethoden anwenden, wie Künstler entwerfen und wie Lehrer unterrichten. Unabhängig davon, ob Sie Techniker sind oder nicht, können Sie Ihre Rolle spielen und verantwortungsvoll mit KI umgehen.
Auf Gemeindeebene kann KI die Gemeinde stärken und die Umweltschutzbedürfnisse oder landwirtschaftlichen Bedürfnisse der Gemeinde erfüllen. Einige Bauerngemeinden nutzen maschinelle Lerntechnologie, um die Wasserqualität der Gemeinde zu überwachen. Die Künstlergemeinschaft nutzt nicht nur KI, sondern äußert auch ihre Bedenken und Ideen zur Lösung von Problemen und zur Minderung von Risiken.
Auf gesellschaftlicher Ebene sollten Regierungen, Forschungseinrichtungen, Unternehmen, Bundesbehörden und internationale Agenturen diese Technologie ernst nehmen. Es gibt ein Energieproblem, und das hat geopolitische Auswirkungen. Es gibt immer noch eine große Diskussion zwischen Open Source und Non-Open Source, die sich auf Ökonomie und Ökologie auswirkt. Es gibt immer noch Managementprobleme, etwa die Risiken und die Sicherheit von KI. Es muss ein positiver Ansatz gewählt werden, ein Multi-Stakeholder-Ansatz und ein gesamtgesellschaftlicher Ansatz. Es gebe jetzt kein Zurück mehr, sagte Li Feifei. Sie leitete von 2017 bis 2018 das KI-Projekt bei Google, war von 2020 bis 2022 Vorstandsmitglied von Twitter und ist derzeit KI-Beraterin des Weißen Hauses.

Bezüglich der Auswirkungen von KI auf die Arbeit äußerte Li Feifei ihre Ansichten.

Li Feifei wies darauf hin, dass es am Human-Centered AI Institute der Stanford University ein Labor für digitale Wirtschaft gibt, das von Professor Erik Brynjolfsson geleitet wird. Dieses sehr komplexe Thema hat viele Ebenen. Sie betonte insbesondere, dass es sich bei „Arbeit“ und „Aufgabe“ um zwei unterschiedliche Konzepte handele, da die Arbeit eines jeden Menschen in Wirklichkeit aus mehreren Aufgaben bestehe.

Als Beispiel nannte sie amerikanische Krankenschwestern. Es wird geschätzt, dass während der achtstündigen Schicht einer Krankenschwester Hunderte von Aufgaben anfallen. Wenn Menschen darüber sprechen, dass KI menschliche Arbeitsplätze übernimmt oder ersetzt, müssen sie daher unterscheiden, ob sie Aufgaben oder Arbeitsplätze ersetzt.

Li Feifei glaubt, dass KI mehrere Aufgaben innerhalb eines Jobs verändert hat und daher nach und nach die Art der Arbeit verändern wird. Im Call-Center-Szenario wurde die Arbeitsqualität von Einsteigern durch KI um 30 % verbessert, die Arbeitsqualität von Fachkräften wurde jedoch durch KI nicht verbessert. Die Ansichten von Fei-Fei Li finden sich in einem Artikel des Digital Economy Laboratory der Stanford University wieder, der den Titel trägt: „KI wird die Jobs von Managern nicht ersetzen: Manager, die KI nutzen, ersetzen diejenigen, die dies nicht tun.“

Li Feifei betonte, dass Wissenschaft und Technologie zu Produktivitätsfortschritten führen werden, Produktivitätsfortschritte jedoch nicht automatisch zu allgemeinem Wohlstand für die Gesellschaft führen würden. Sie wies darauf hin, dass solche Vorfälle in der Geschichte schon oft vorgekommen seien.

(Dieser Artikel wurde zuerst auf Titanium Media App veröffentlicht, Autor｜Chelsea_Sun, Herausgeber｜Lin Zhijia)

Nachricht

„KI-Patin“ Li Feifei: Sora ist immer noch ein zweidimensionales Bild, und nur dreidimensionale Weltraumintelligenz kann AGI｜Titanium Media erreichen

Einführung

meine Kontaktdaten