Nachricht

Zhang Zhengyou, Chefwissenschaftler von Tencent: Nur große Modelle in Roboter zu stopfen, kann keine echte verkörperte Intelligenz erzeugen

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhang Zhengyou Chefwissenschaftler von Tencent, Direktor des Tencent Robotics X Laboratory

Um die Mensch-Maschine-Beziehung im Zeitalter der KI eingehend zu erforschen und die Gesellschaft dazu zu bringen, gemeinsam über wirtschaftliche Entwicklungsmöglichkeiten und soziale Reaktionsstrategien im Zeitalter der Mensch-Maschine-Symbiose nachzudenken, organisierte das Tencent Research Institute gemeinsam das Qianhai Institute of International Affairs , Qingteng, Hong Kong Science and Technology Parks Corporation und andere InstitutionenPerspektiven für Mensch-Maschine-Beziehungen im KI-ZeitalterForum, das ist auchHigh-End-Seminare der Reihe „Künstliche Intelligenz + soziale Entwicklung“.der zweiten Ausgabe.
Auf dem Forum: Zhang Zhengyou, Chefwissenschaftler von Tencent und Direktor von Tencent Robotics „Hierarchisch“ umfasst drei Ebenen der Kontrolle über Ontologie, Umgebung und Aufgaben. Der Vorteil der hierarchischen verkörperten Intelligenz besteht darin, dass Wissen auf jeder Ebene kontinuierlich aktualisiert und angesammelt werden kann und Fähigkeiten zwischen Ebenen entkoppelt werden können.Tencents Robotik

Zu der Frage, wie intelligente Roboter in das Leben der Menschen Einzug halten werden, sagte Zhang Zhengyou: „Langfristig werden Roboter definitiv in Tausende von Haushalten Einzug halten. Gegenwärtig könnten Roboter zunächst große Veränderungen in den Bereichen Rehabilitation, Altenpflege und personalisierte Bildung bewirken.“ . "

Das Folgende ist der vollständige Text von Zhang Zhengyous Mitteilung:


Liebe Führungskräfte, verehrte Gäste, verehrte Lehrer und verehrte Schüler: Guten Tag, alle zusammen. Heute möchte ich einige Herausforderungen und Fortschritte im Bereich der verkörperten Intelligenz mit Ihnen teilen.

Was verkörperte Intelligenz betrifft, so wurde dieser Begriff letztes Jahr plötzlich populär und alle fanden ihn cool. Tatsächlich ist verkörperte Intelligenz relativ zu nichtkörperlicher Intelligenz. ChatGPT verfügt über Intelligenz ohne Körper. Für mich ist ein verkörperter Agent ein intelligenter Roboter. Ob diese Intelligenz einen Körper haben sollte oder nicht: Wir, die Roboter herstellen, wollen unbedingt einen Körper haben. Nur wenn wir einen Körper haben, kann sich die Intelligenz besser entwickeln.

Anfang 2018 beschloss Ma Huateng, Vorstandsvorsitzender und CEO von Tencent, Tencent Robotics zu gründen. Die wandelnden Toten, die Seele ohne Körper ist ein Geist des Nichts, wir wollen nicht, dass Geister umherwandern Wir wollen Roboter schaffen, die den Menschen harmonisch helfen!“ Das heißt, wir wollen intelligente Roboter schaffen, um die menschliche Intelligenz zu verbessern und das menschliche physische Potenzial freizusetzen, die Interaktion zwischen Menschen und Robotern zu fördern und eine Ära des Zusammenlebens zu begrüßen -Kreation und Win-win-Situation zwischen Menschen und Robotern, das ist unsere ursprüngliche Absicht, Tencent Robotics X zu etablieren.

Tatsächlich ist es umstritten, ob Intelligenz eine Verkörperung erfordert. Diese Kontroverse dreht sich hauptsächlich um die Kognitionswissenschaft. In diesem Bereich glaubt jeder, dass viele kognitive Eigenschaften die Gesamteigenschaften des Organismus erfordern, um die Intelligenz des Organismus zu formen. Einige Leute glauben jedoch, dass Intelligenz nicht den Körper erfordert, da wir hauptsächlich mit der Informationsverarbeitung und Problemlösung konfrontiert sind. und Entscheidungsfindung und Governance sowie andere Aufgaben, die alle durch Software und Algorithmen erreicht werden können. Der Begriff und das Konzept der verkörperten Intelligenz gibt es schon seit langem. Für viele Menschen ist der Körper von entscheidender Bedeutung für die Intelligenz, da Intelligenz aus der Interaktion zwischen einem Organismus und seiner Umgebung entsteht und die Interaktion zwischen beiden förderlich für das Wachstum ist Entwicklung der Intelligenz.

Rückblickend schrieb Turing 1950 einen Artikel, in dem es darum ging, wie man maschinelle Intelligenz erreichen kann. Es ist ersichtlich, dass einige Leute denken, dass einige sehr abstrakte Aktivitäten, wie z. B. Schachspielen, verwendet werden können, um (Intelligenz) zu erreichen, und einige Leute denken, dass die Maschine etwas haben sollte Organ (Orgel), wie zum Beispiel ein Lautsprecher (Mikrofon) um zu helfen Wir realisieren maschinelle Intelligenz schneller. Allerdings sagte Turing selbst, dass er nicht wisse, welche Kategorie die beste sei. Als Open AI zum ersten Mal Hunderte von Roboterarmen kaufte, hofften sie direkt, Roboter zur Implementierung von AGI einzusetzen. Nach mehr als einem Jahr harter Arbeit stellten sie fest, dass dieser Weg vorübergehend nicht gangbar war, also gaben sie auf und konzentrierten sich auf textbasiertes A Modell und schließlich wurde ChatGPT erfolgreich entwickelt.

Roboter haben eine lange Geschichte. Ursprünglich handelte es sich um die Automatisierung mechanischer Arme in Produktionslinien, was bedeutet, dass eine Reihe von Aktionen in einer bekannten Umgebung ausgeführt werden müssen und eine präzise Steuerung erforderlich ist, da für diesen Prozess keine Intelligenz erforderlich ist. Obwohl dieser Robotertyp über sehr starke Betriebsfähigkeiten verfügt, sind diese Betriebsfähigkeiten für eine feste Umgebung vorprogrammiert und weisen keine Intelligenz auf.

Zu Beginn der Ära großer Modelle denken einige Leute, dass große Modelle sehr leistungsfähig sind und sofort auf Robotern implementiert werden können. Dies ist jedoch nicht der Fall. Wie ist die Situation jetzt? Um eine Analogie zu verwenden: Es ist gleichbedeutend damit, ein 20-jähriges Gehirn auf einen 3-jährigen Körper zu legen. Obwohl der Roboter über bestimmte Bewegungsfähigkeiten verfügt, sind seine Bedienfähigkeiten sehr schwach. Echte verkörperte Intelligenz muss in der Lage sein, Probleme selbstständig zu lernen und zu bewältigen sowie sich automatisch anzupassen und zu planen, wenn sich die Umgebung ändert und unsicher ist. Dies ist ein sehr wichtiger Prozess, der unserer Meinung nach zu AGI oder der Schaffung eines allgemein intelligenten Roboters führen kann.

Speziell,Verkörperte Intelligenz ist die Fähigkeit eines Agenten mit einem physischen Träger (intelligenter Roboter), durch Wahrnehmung, Kontrolle und autonomes Lernen in einer Reihe von Interaktionen Wissen und Fähigkeiten anzusammeln, wodurch Intelligenz entsteht und die physische Welt beeinflusst wird. Dies unterscheidet sich von ChatGPT. Verkörperte Intelligenz erwirbt Wissen durch menschenähnliche Wahrnehmungsmethoden (Sehen, Hören, Sprache, Berührung) und abstrahiert es in eine Ausdruckssemantik, um die Welt zu verstehen, Maßnahmen zu ergreifen und mit der Welt zu interagieren. Dies beinhaltet die Integration mehrerer Disziplinen, darunter Maschinenbauautomatisierung, Steuerungsoptimierung eingebetteter Systeme, Kognitionswissenschaft, Neurowissenschaften usw. Es handelt sich um eine Fähigkeit, die entstehen kann, nachdem sich alle Bereiche bis zu einem gewissen Grad entwickelt haben.

Die verkörperte Intelligenz steht vor vielen Herausforderungen.

Das erste sind komplexe Wahrnehmungsfähigkeiten, einschließlich Sehen und Hören. Jetzt umfasst das große Modell einschließlich GPT-4o nur Sehen und Hören und keine Berührung. Für die verkörperte Intelligenz ist Berührung sehr wichtig. Roboter müssen über komplexe Wahrnehmungsfähigkeiten verfügen, um die unvorhersehbaren und unstrukturierten Umgebungen und Objekte um sie herum wahrzunehmen und zu verstehen.

Das zweite sind leistungsstarke Ausführungsfähigkeiten, einschließlich Bewegung, Greifen und Manipulation, um mit der Umgebung und Objekten interagieren zu können.

Die dritte ist die Lernfähigkeit, die Fähigkeit, aus Erfahrungen und Daten zu lernen und sich anzupassen, um Veränderungen in der Umgebung besser zu verstehen und darauf zu reagieren.

Die vierte ist die Anpassungsfähigkeit, die Fähigkeit, sein Verhalten und seine Strategien unabhängig anzupassen, um mit unterschiedlichen Umgebungen und Aufgaben besser zurechtzukommen.

Der fünfte Punkt ist nicht so wichtig, dass durch die Überlagerung dieser Fähigkeiten verkörperte Intelligenz erreicht wird, sondern durch die organische und effiziente gemeinschaftliche Integration dieser Fähigkeiten, um tatsächlich die gewünschte verkörperte Intelligenz zu erreichen.

Sechstens sind die Daten, die wir in diesem Prozess benötigen, sehr knapp. Open AI hoffte zunächst, AGI direkt durch Roboter zu erreichen, gab jedoch später aufgrund des Mangels an Daten auf Daten sind enorme Herausforderungen. Auch beim Sammeln von Daten in tatsächlichen Szenarien muss die Privatsphäre der Benutzer geschützt werden.

Siebtens: Da die verkörperte Intelligenz in einem menschlichen Lebensraum leben muss, muss sie die Sicherheit ihrer selbst und ihrer Umgebung gewährleisten.

Das achte ist die Frage der Sozialethik. Wenn Roboter mit Menschen interagieren, müssen sie moralische und rechtliche Normen befolgen und die Interessen und die Würde des Menschen schützen.

Es muss noch viel Arbeit geleistet werden, um verkörperte Intelligenz zu erreichen. Derzeit glaubt jeder, dass große Modelle das Problem intelligenter Roboter lösen können, was dem Einsetzen eines großen Modells in den Kopf des Roboters entspricht . Es scheint gelöst zu sein. Wir gehen davon aus, dass Intelligenz und Ontologie organisch integriert werden, sodass aus der Interaktion zwischen Robotern und der Umwelt echte Intelligenz entstehen kann.

Um diese Vision zu verwirklichen,Ich denke, das Kontrollparadigma muss sich ändern. Wenn man sich Roboterlehrbücher anschaut, ist das traditionelle Kontrollparadigma ein geschlossener Prozess, bei dem zunächst die Wahrnehmung, dann die Planung, dann die Aktion und dann die Aktion folgt. Dieses Kontrollparadigma kann keine Intelligenz erreichen. Im Jahr 2018 habe ich ein „SLAP-Paradigma“ vorgeschlagen, bei dem S für Wahrnehmung, L für Lernen, A für Aktion und P für Planung steht. Wahrnehmung und Handeln müssen eng miteinander verknüpft sein, um in Echtzeit auf sich verändernde Umgebungen reagieren zu können. Darüber liegen Pläne zur Lösung komplexerer Aufgaben. Lernen durchdringt jedes Modul, aus Erfahrungen und Daten lernen zu können und das eigene Verhalten und die eigenen Strategien selbstständig anpassen zu können. Dieses SLAP-Paradigma ist der menschlichen Intelligenz sehr ähnlich.

Nobelpreisträger Daniel Kahneman hat ein Buch mit dem Titel „Thinking, Fast and Slow“, in dem er davon ausgeht, dass das menschliche Gehirn über zwei Systeme verfügt. Das erste System, System 1, ist intuitiver und löst Probleme schnell. Das zweite System ist ein tiefergehendes, rationales Denken, genannt System 2. Tatsächlich verbringen Menschen 95 % ihrer Zeit in System 1 und müssen System 2 nur für wenige und komplexe Aufgaben einplanen. Warum benötigt das menschliche Gehirn also nur ein paar Dutzend Watt, um Denkprobleme zu lösen? Eine GPU verbraucht keine Energie. Dies liegt daran, dass Menschen 95 % der Probleme in System 1 lösen können und nur schwierige Aufgaben an System 2 gehen.

Das von mir vorgeschlagene SLAP-Paradigma ist auf der untersten Ebene eng zwischen Wahrnehmung und Aktion zur Lösung reaktiver Autonomie verbunden, was System 1 entspricht. Bewusste Autonomie bedeutet, rationales Denken und Denken nach System 2 zu erreichen.

Gemäß dem SLAP-Paradigma haben wir in Kombination mit dem Wissen darüber, wie das menschliche Gehirn und das Kleinhirn die Gliedmaßen steuern, ein hierarchisches verkörpertes Intelligenzsystem entwickelt, das in drei Schichten unterteilt ist: Die unterste Schicht ist die Propriozeption, die der Selbstwahrnehmung des Roboters entspricht das Motorsignal, das die Bewegung des Motors steuert.

Die zweite Ebene ist die Wahrnehmung der Umgebung. Durch die Wahrnehmungsintelligenz der Umgebung weiß sie, welche Fähigkeiten aufgerufen werden müssen, um die Aufgabe zu erfüllen.

Die oberste Ebene bezieht sich auf die Aufgabe und wird als Planer auf strategischer Ebene bezeichnet. Nur durch Planung für die spezifische Aufgabe, die Umgebung und die Fähigkeiten des Roboterkörpers kann die Aufgabe gut gelöst werden.

Im Folgenden werde ich Ihnen einige konkrete Demonstrationen geben. Auch die Bewegungskontrolle auf der untersten Ebene (Propriozeptionsebene) wird aus Daten gelernt. Hierbei darf ein echter Hund kontinuierlich auf dem Laufband laufen und gleichzeitig wird eine Datenerfassung durchgeführt. Durch Nachahmungslernen und Verstärkungslernen kann der Roboter Bewegungen erlernen, die echten Hunden ähneln. Wir nutzen eine Welt aus integrierter virtueller und realer Welt, digitalem Zwilling und einheitlicher virtueller und realer Welt. Was wir hier sehen, ist nur die Methode der Auswärtsbewegung des Hundes, aber wie sich der Roboter bewegt, wie viel Kraft erforderlich ist und welche Signalstärke die Gelenke und Motoren senden sollen, muss alles durch Verstärkungslernen ermittelt werden.

Ein weiteres Video, in dem es keine besondere menschliche Kontrolle gibt, besteht darin, den Roboterhund die Bewegungsmethode eines echten Hundes erlernen zu lassen. Nachdem er gelernt hat, läuft er selbstständig, was sich ein wenig lebensecht anfühlt.

Dies ist die grundlegendste Fähigkeit (motorische Fähigkeit). Der nächste Schritt besteht darin, die Umgebung wahrzunehmen und diese Aufgaben in der Umgebung auszuführen. Der zweite Schritt besteht darin, sie zu lernen Wie man auf natürliche Weise Stufen erklimmt, wie man Hürden überwindet und wie man über Hindernisse springt.

Zu diesem Zeitpunkt hat der Roboterhund gelernt, in der Simulationswelt zu springen und Hindernisse zu überwinden. Dieser Hund wurde von uns selbst entwickelt und heißt Max. Der Unterschied zu gewöhnlichen Hunden besteht darin, dass er auf ebenem Boden schneller laufen kann und auf unebenen Flächen vier Beine benutzen kann Modalkombinationen.

Wenn wir die Fähigkeit haben, uns an die Umgebung anzupassen, können wir ihn verschiedene Dinge tun lassen. Beispielsweise bitten wir einen der Hunde, den anderen Hund einzuholen, und nachdem er aufgeholt hat, wird er gewinnen. Erschwerend kommt hinzu, dass beim Erscheinen einer Flagge der Hund, der ursprünglich geflohen war, zum Verfolger werden kann, wenn er die Flagge berührt. Schauen Sie mal rein, auch das wird durch Reinforcement Learning automatisch gelernt. Ein Hund jagt einen anderen Hund. Natürlich begrenzen wir die Geschwindigkeit, damit der Hund langsamer läuft. Jetzt ist es der laufende Hund, der jagt. Nachdem der verfolgende Hund gewechselt hat, biegt er um die Ecke und täuscht den anderen Hund.

Der Vorteil einer solchen hierarchischen verkörperten Intelligenz besteht darin, dass das Wissen auf jeder Ebene kontinuierlich aktualisiert und angesammelt werden kann und dass die Fähigkeiten zwischen den Ebenen entkoppelt werden können. Die Aktualisierung anderer Ebenen hat keinen Einfluss auf andere vorhandene Wissensebenen.

Als zum Beispiel gerade ein Hund einen anderen Hund jagte, habe ich während des intensiven Lernens nur gelernt, auf ebenem Boden zu trainieren, ohne überhaupt Hindernisse hinzuzufügen. Nach dem Hinzufügen von Hindernissen besteht keine Notwendigkeit, es erneut zu lernen, weil ich es gelernt habe Ich weiß, wie ich mit Hindernissen umgehe, wenn ich im Erdgeschoss bin. Sie können sich das Video ansehen. Es werden Hindernisse hinzugefügt. Wenn es auf ein Hindernis trifft, springt es darüber erfolgt automatisch (lernend).

Diese Arbeit wurde Anfang letzten Jahres abgeschlossen und wird in naher Zukunft in der führenden internationalen Fachzeitschrift Nature Machine Intelligence veröffentlicht. Sie wird auch als Titelgeschichte verwendet, was darauf hindeutet, dass alle davon überzeugt sind, dass diese Arbeit immer noch richtungsweisend ist .

Lassen Sie uns darüber sprechen, was wir im vergangenen Jahr getan habenFortschritte bei der Fusion großer Modelle , das heißt, die Integration großer Sprachmodelle und multimodaler Wahrnehmungsmodelle in unser hierarchisches verkörpertes Intelligenzsystem. Wenn beispielsweise ein Mensch einem Roboter eine Omelette-Aufgabe zuweist, zerlegt das auf LLM basierende große Planungsmodell die Omelett-Aufgabe, d. h. zuerst die Eier aus dem Kühlschrank nehmen, die Eier in den Topf aufschlagen und dann braten Eier. Aus der multimodalen Wahrnehmung müssen wir zunächst wissen, dass das Ei in den Kühlschrank gelegt wird, und die folgenden Fähigkeiten der mittleren Ebene müssen aufgerufen werden: Der Roboter muss zuerst zum Kühlschrank gehen, um das Ei herauszunehmen, die Kühlschranktür zu öffnen. Nimm das Ei und lege es zurück auf den Herd. Unten befindet sich die unterste Steuerung, die steuert, wie der Roboter zum Kühlschrank geht, wie die Kühlschranktür geöffnet wird usw. Sobald er gelernt hat, geschieht dies automatisch. Kehren Sie abschließend zum Strategic Level Planner der obersten Ebene zurück. Beachten Sie, dass in diesem geschlossenen Kreislauf die Aktionen des Roboters auf eine virtuell-reale integrierte Welt wirken, in der die digitale Welt und die physische Welt eng integriert sind. Im digitalen Simulationsraum gibt es Roboter und sehr real aussehende Szenen, so dass die Roboterfähigkeiten können im virtuellen Raum erlernt und direkt auf den realen Raum angewendet werden.

Sehen Sie sich hier ein Video an. Wir bringen einen intelligenten Roboter in eine Umgebung, die er noch nie zuvor gesehen hat. Der erste Schritt besteht darin, dass sich der Roboter umdreht und die Welt erkundet. Im Video besteht die Aufgabe des Roboters beispielsweise darin, Müll in den Mülleimer zu schicken. Er muss also zuerst den Mülleimer finden und ihn dann dort ablegen, nachdem er den Mülleimer gefunden hat. Stellen Sie den Mülleimer außerdem an einen anderen Ort. Gehen Sie davon aus, dass er die Umgebung nicht kennt, den Mülleimer durch Erkundung findet und den Müll dann dorthin schickt.

In der folgenden Szene geht es darum, der Person, die blaue Kleidung und Jeans trägt, die Maus zu geben. Er muss die Person finden, die blaue Kleidung und Jeans trägt, und er wird sie automatisch erkunden und finden. Viele der Menschen, die ich in dieser Zeit traf, trugen entweder blaue Kleidung oder Jeans, bis der Roboter blaue Kleidung und Jeans sah, schickte er die Maus.

Während des Erkundungsprozesses kann sich der Roboter an die Umgebung erinnern und muss nicht jedes Mal erneut erkunden. In der folgenden Szene wird die Medizin zunächst einem Kollegen gegeben, die kalte Medikamententüte wird dann vom Roboter weggeworfen. Er weiß bereits während der Erkundung und Modellierung, wo sich der Mülleimer befindet, und landet direkt in der Mülltonne. Sie können auch die Beziehung zwischen dem Raum nutzen, z. B. wo sich der Hocker und das Whiteboard befinden. Wenn Sie einen Gegenstand an eine Person zwischen dem Whiteboard und dem hohen Hocker schicken möchten, kann dies der Fall sein, wenn sich in der Mitte Hindernisse befinden automatisch vermieden.

Letztes Jahr haben wir auch einen Barkeeper-Roboter gebaut, der eine selbst entwickelte Dreifingerhand hatte, und das Chassis war repariert.

Auch bei diesem ausgefallenen Barkeeper wurde zunächst eine reale Person zum Barkeeper herangezogen, seine Flugbahn erlernt und diese dann auf dem Roboter umgesetzt. Es gibt auch taktile Sensoren an den Fingern. Um den Stock in das Loch einzuführen, reicht die visuelle Fähigkeit allein nicht aus und die Genauigkeit reicht nicht aus. Daher ist es auf die taktile Wahrnehmung angewiesen, um zu erkennen, ob er eingeführt ist. Wenn er nicht eingeführt ist , es muss zur Seite bewegt werden und schließlich den Stick einführen.

Dies war die Arbeit des letzten Jahres. Zu den Arbeiten dieses Jahres gehörten eine selbst entwickelte Fünf-Finger-Hand und ein Roboterarm, den wir letztes Jahr ebenfalls nicht entwickelt hatten Großes Sensormodell und großes Planungsmodell, mit dem der Roboter frei sprechen und Aufgaben erledigen kann.

Die untere rechte Ecke ist vom mobilen intelligenten Roboter aus zu sehen. Eine Flasche Whisky wird auf dem Tisch gefunden und er wird aufgefordert, ein Glas Whisky einzuschenken. Dies ist aus dem Sichtfeld des Roboters zu sehen Weinsorten in Echtzeit.

Teilen Sie es jetzt hier. Danke euch allen.