Nachricht

Der Doktorvater der Peking-Universität baut nach den 90er-Jahren einen humanoiden Roboter, lernt aber nicht von Tesla

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die Vereinigten Staaten sind kein Vorbild für China.

Text丨Wang Yutong
Herausgeber: Cheng Manqi

Im Mai dieses Jahres kam eine neue Gruppe von Arbeitern mit einer Körpergröße von 1,72 Metern zur Arbeit in die Fabrik in Texas in den USA. Sie waren dafür verantwortlich, zylindrische 4680-Batteriezellen vom Transfertisch in die rote Box vor ihnen zu laden . Sie sind nicht sehr geschickt, sie sind sogar langsam und ungeschickt. Aber diese Arbeiter sind Optimus, der humanoide Roboter, den Tesla 2022 herausbringen wird, und alles ist anders.

„Perfekte Nutzungsszenarien“, „schneller Fortschritt“ und „Arbeitslosigkeitswarnung“: Unter dem von Tesla veröffentlichten Robotervideo reichten die Kommentare der Menschen von Ausruf bis Sorge.

Wang He glaubt nicht, dass Optimus zum jetzigen Zeitpunkt „immer noch eine Forschung“ ist.

Wang He, geboren 1992, ist derzeit Assistenzprofessor und Doktorvater am Frontier Computing Research Center der Universität Peking. Er schloss sein Studium an der Stanford University mit einem Bachelor ab hat an CVPR ICCV teilgenommen, der Top-Konferenz zu Computer Vision, Robotik und künstlicher Intelligenz. Warten Sie auf die Veröffentlichung Dutzender Artikel.

Nach Mai letzten Jahres erregte Wang He als Steuermann des intelligenten Roboterunternehmens „Galaxy General“ mehr Aufmerksamkeit. Im Juni dieses Jahres brach Galaxy General mit einer Finanzierung von 700 Millionen Yuan den Finanzierungsrekord der Angel-Runde 2024.

Die meisten Unternehmen stellen komplette humanoide Roboter her. Wang He glaubt, dass Beine derzeit nicht die optimale Lösung sind und nur die Kosten erhöhen werden. „Es ist nicht so, dass die Bedienfähigkeit des humanoiden Roboters stark genug ist, aber ihm fehlen Beine. Es gibt immer noch viele Aufgaben, die herkömmliche Roboterarme nicht ausführen können, wenn er am Tatort landet.“ und in vielen Szenen sind sie nicht wirklich erforderlich, beispielsweise beim Kontrollieren und Patrouillieren, und der Roboterhund kann das Gleiche tun wie das Auto.

Der Galbot von Galaxy Universal sammelt Müll auf. Er hat keine Beine, sondern ein faltbares Einzelbein + Fahrgestell mit Rädern.

Bei der Entwicklung der verkörperten Intelligenz stellt die Beschaffung ausreichender Daten eine Schwierigkeit dar. Tesla und Google haben sich für die Datenerfassung durch „Teleoperation“ entschieden, d. Wang He war der Meinung, dass dies kein gutes Geschäft sei: „Google hat mehr als zehn Monate und mehrere zehn Millionen Dollar gebraucht, um Hunderttausende Daten zu produzieren.“ )“, das heißt, es stützt sich hauptsächlich auf synthetische Simulationsdaten.

Humanoide Roboterunternehmen in den Vereinigten Staaten haben viel Geld und sind mutig. Eine von Wang Hes Beobachtungen ist, dass sie dadurch daran gehindert werden, strikt nach PMF (Product Market Fit, Produkt- und Marktfit) zu suchen Wenn man Geld hat, fügt man einfach alles auf einmal zusammen. Allerdings müssen Branchenprobleme wie der Mangel an realen Daten und instabile Hardware in Szenarien gelöst werden, sodass seiner Meinung nach eine Kommerzialisierung vom ersten Tag an in Betracht gezogen werden muss.

„Wir sollten das, was Tesla tut, nicht als Standard betrachten.“ Wang He sagte, dass chinesische Startups „wenn sie in den Vereinigten Staaten immer noch die Geschichten anderer Leute erzählen, kann das nur eine Sackgasse sein.“

Wang He ist nicht mit Tesla einverstanden, und viele Leute in der Branche sind nicht mit Galaxy GM einverstanden. Am Beispiel von Sim2Real, an dem Wang He interessiert ist, glauben viele Praktiker, dass es natürliche Unterschiede zwischen simulierten synthetischen Daten und der realen Welt gibt, die sich auf den Trainingseffekt auswirken. Nach der Veröffentlichung des ersten Roboters Gabot von Galaxy Universal sagten einige Gegner, sie fühlten sich „erleichtert“: „Es gibt eine große Lücke zwischen der Demo und der tatsächlichen Anwendung“, „Ich habe viele Artikel über das Greifen geschrieben, und die letzte Hand war ein Saugen.“ Tasse. "

Die größere Frage ist, dass jetzt nicht der richtige Zeitpunkt ist, ein Unternehmen zur Herstellung humanoider Roboter zu gründen. Einige Investoren glauben, dass diese Unternehmen zu Märtyrern werden, weil viele Technologien wie Hardware, Materialien und Energie noch nicht ausgereift sind. Kaifu Lee sprach über verkörperte Intelligenz und sagte: „Wir können jetzt definitiv nicht in etwas investieren, das zehn Jahre später passieren wird.“ Dai Yusen, ein Partner von Zhenge, sagte, dass Verkörperung noch in der BlackBerry-Ära sei und nicht in das iPhone investieren könne .

Humanoide Roboter und verkörperte Intelligenz befinden sich noch in einem sehr frühen Stadium, und dies ist eine Branche mit einer langen Kette und einem komplexen Technologie-Stack, einschließlich KI, Materialien, Energie, mechanischer Steuerung, Fertigung, Lieferkettenmanagement, Kundenentwicklung und letztendlich Das Unternehmen, das überlebt Es darf keine Mängel geben.

Es ist noch zu früh, den Gewinner zu verkünden, aber dieses Interview dokumentiert, was ein junger Wissenschaftler ein Jahr nach seiner Abreise sah. Er glaubt nun, dass große Unternehmen zwar über mehr Ressourcen verfügen, diese aber nicht unbedingt richtig sind. Dies ist seine Chance.

Verkörperte Intelligenz und menschliche Gesellschaftgrößter gemeinsamer Teiler von

„Später“: Sie untersuchen seit 2016 die verkörperte Intelligenz von heute – indem Sie visuelle Modelle, Modelle natürlicher Sprache und Roboterbetriebsmodelle kombinieren. Was haben Sie aus diesen Jahren der Forschung und Entwicklung mitbekommen?

Wang He: Während meines Doktoratsstudiums beschäftigte ich mich mit der verkörperten Intelligenz. Damals wurde sie noch nicht als „verkörperte Intelligenz“ bezeichnet. Zunächst habe ich diese drei separaten kleinen Modelle kombiniert, um eine Objekthaltungsschätzung auf Kategorieebene zu erreichen Die Position und Haltung eines Objekts im dreidimensionalen Raum; die Positionsschätzung eines Objekts ist eigentlich ein bimanueller Vorgang.

Nach meiner Rückkehr nach China und vor meiner Gründung hier installierte ich einen Arm auf dem Rücken des Yushu-Roboterhundes und versuchte, ihn eine Reihe von Operationen ausführen zu lassen. Wir stellten jedoch fest, dass viele Aspekte der Datenverarbeitung, der Ressourcen und sogar des gesamten Systems unsere Anforderungen nicht erfüllen konnten.

Damals hatte ich das Gefühl, dass wir, wenn wir keine Hardware herstellen würden, uns vollständig auf andere verlassen müssten und die Iterationen der Systementwicklung begrenzt wären. Wenn die Roboterindustrie nicht existiert, ist es schwierig, sich nur auf Intelligenz zu konzentrieren.

„Später“: Welche Änderungen geschahen später? Warum haben Sie sich entschieden, im Jahr 2023 ein Unternehmen zu gründen?

Wang He: Verkörpertes intelligentes Unternehmertum begann in China früher zu florieren als in den Vereinigten Staaten. Der Hauptgrund ist die Reife von Hardware und Ontologie.

Die Fertigungsindustrie in den Vereinigten Staaten erlaubt keine schnelle Produktion vollständiger Demos der verkörperten Intelligenz. Die Versorgung mit Teilen in den Vereinigten Staaten ist unvollständig, viele Dinge müssen importiert werden und es herrscht ein Mangel an Hardware-Ingenieuren. Chinas Hardware-Produktion kann die niedrigsten Kosten und die höchste Zuverlässigkeit erzielen. Yushus humanoider Roboter kann beispielsweise von wenigen Leuten in einem halben Jahr gebaut werden.

Aber die Ontologie ist nur ein großes Spielzeug. Der nächste Schritt besteht darin, in Bezug auf die Intelligenz zu konkurrieren. Bis 2023 sind weltweit große verkörperte multimodale Modelle wie PaLM-E aufgetaucht, und der Funke zwischen multimodaler Wahrnehmung und verkörperter Operation ist entzündet. Zu diesem Zeitpunkt beschloss ich, ein Unternehmen zu gründen.

„Später“: Warum haben Sie sich entschieden, einen humanoiden Roboter zu gründen? Der Träger verkörperter Intelligenz ist nicht unbedingt humanoid.

Wang He: Es gibt tatsächlich verschiedene Formen, darunter Hunde, Flugzeuge und Autos. Aber unter allen Formen kann der größte gemeinsame Nenner zwischen verkörperter Intelligenz und menschlicher Gesellschaft nur die „menschliche Form“ sein.

Da die gesamte Produktions- und Lebensumgebung auf den Menschen ausgelegt ist, kann der Humanoide die meisten Operationen ausführen, wird in Zukunft die größte Anzahl haben und den größten wirtschaftlichen Produktionswert haben. Aus Sicht der Vision können verkörperte Intelligenz und humanoide Roboter gleichgesetzt werden.

„Spät“: Viele Menschen glauben, dass das unternehmerische Fenster für verkörperte Intelligenz noch nicht erreicht ist. Jetzt werden diese Unternehmen zu Märtyrern und viele Technologien wie Hardware, Materialien und Energie sind noch nicht ausgereift. Als Kai-fu Lee beispielsweise über verkörperte Intelligenz sprach, sagte er: „Wir können definitiv nicht in etwas investieren, das zehn Jahre später passieren wird.“ Dai Yusen, ein Partner bei Zhenge, sagte, dass Verkörperung noch in der BlackBerry-Ära sei und kann nicht in das iPhone investieren.

Wang He: Als ich mich 2019 mit Herrn Kaifu Li traf, sagte er, dass es weitere 50 Jahre dauern würde. Jetzt hat er die Zeit von 50 auf 10 Jahre beschleunigt.

Wir können Mobiltelefone nicht als Analogie zur verkörperten Intelligenz verwenden. Von funktionalen Telefonen zu Smartphones hat sich die Technologie stark verändert, und jetzt ist die technische Richtung der verkörperten Intelligenz klar: Die Ontologie wird in ein großes Modell integriert, um ein universeller Roboter zu werden .

Zu diesem Zeitpunkt gilt: Je früher das Spiel endet, desto mehr Technologie und Daten werden angesammelt, was die Lücke in der späteren Phase vergrößern wird. Nachdem der Roboter die Szene betreten hat, ergänzen die Daten der realen Szene seine Intelligenz. Für Späteinsteiger ist es äußerst schwierig, ein Unternehmen zu übertreffen, das bereits über Zehntausende Roboter verfügt, ständig reale Daten zurückfließen lässt und bereits Fallstricke in der Szene erlebt hat.

Dies undAutonomes FahrenEbenso gibt es nur durch den Verkauf einer ausreichenden Anzahl von Autos genügend Daten, und die Daten können verwendet werden, um den Algorithmus schneller zu verbessern. Im Kampf zwischen Google und Tesla gewinnt Tesla, weil es genügend Autos hat.

Verkörperte Intelligenz hat das Potenzial, sich zu einem mit Autos vergleichbaren Markt zu entwickeln. Es hat die gleichen Eigenschaften wie frühere technologische Veränderungen: Es ist am Anfang langsam und ersetzt nach und nach Spezialroboter, aber sobald es die Größenordnung von 10.000 Einheiten erreicht, wird es den Ersatz traditioneller Industrien beschleunigen.

„Spät“: Eine Tatsache ist, dass der Boom des Embodied-Intelligence-Unternehmertums im Jahr 2011 stattfand ChatGPT und der große Model-Wahn. Tatsächlich können große Modelle jedoch nur einen kleinen Teil der Probleme der verkörperten Intelligenz lösen, sodass manche Leute denken, dass es noch zu früh ist.

Wang He: Verkörperte Intelligenz ist das Produkt der Integration von Software, Hardware und Algorithmen. In dieser Phase sind seine Integrationspunkte mit großen Modellen: allgemeine Wahrnehmung und Sprachkommunikation, die Interaktionsprobleme lösen. Zum Beispiel kommt jemand in eine Apotheke und fragt den Roboter, welche Medikamente er einnehmen soll, wenn er sich unwohl fühlt? Nur Roboter, die mit den Namen und Standorten von Medikamenten vertraut sind, können mit Menschen sprechen.

Eine weitere Kombination besteht darin, dass der Roboter nun bei der Ausführung bestimmter Vorgänge wie dem Greifen und Platzieren von Objekten auch eine End-to-End-Realisierung basierend auf dem großen Modell realisiert hat (die Robotertrajektorie wird in Zukunft direkt nach Eingabe der sensorischen Informationen ausgegeben). Das große Modell wird in der gesamten globalen Planung eine Rolle spielen.

Insgesamt sind große Modelle heute Hilfsroboter, aber die Kombination von großen Modellen und kleinen Modellen kann zu universellen Robotern führen.

„Spät“: Die Route der Galaxie ist ein kleines dreidimensionales visuelles Modell + ein großes Basismodell.

Wang He: Genauso wie wir Menschen System 1 und System 2 haben, ist Ersteres die Fähigkeit des Kleinhirns, und bei Robotern sind es Fähigkeiten wie interaktive Steuerung und geschickte Bedienung, die von kleinen Modellen gehandhabt werden können Letzteres ist die Fähigkeit des Gehirns, Probleme mit großen Modellen zu erkennen, zu verstehen, zu planen und zu lösen.

Dies ist ein dreischichtiges System: Die untere Schicht ist Hardware, die mittlere Schicht sind kleine Modelle, die verschiedene Fähigkeiten ausführen können, und die obere Schicht ist das grundlegende große Modell, das für die Aufgabenplanung verantwortlich ist. Nachdem der Roboter die Anweisung erhalten hat, ist das große Modell dafür verantwortlich, das kleine Modell in der mittleren Ebene aufzurufen. Nachdem das kleine Modell ausgeführt wurde, untersucht das große Modell den nächsten Schritt basierend auf den Ergebnissen.

Füße sind nicht so wichtig;Hände sind der Schlüssel

„Später“: Sie sind alle humanoid. Die meisten Unternehmen in der Branche haben Roboter mit Beinen. Ihr erster Roboter, Galbot, ist ein Fahrgestell mit Rädern und Händen.

Wang He: Die wichtigste Frage ist: Welchen Wert kann Ihr Produkt der Szene bieten? Zweibeiner lösen nur das Verkehrsproblem und verfügen über keine operativen Fähigkeiten, sodass sie nur Streifen, Inspektionen und andere Szenen durchführen können. Dies ist keine qualitative Veränderung gegenüber dem Einsatz von Autos und Hunden in der Vergangenheit.

Aber Hände können eine flexible Produktion leisten, die herkömmliche Roboter nicht leisten können. In arbeitsintensiven Branchen handelt es sich meist um grobe Arbeiten, die sich leichter verallgemeinern lassen. Es gibt viele fantasievolle Räume und Szenarien, daher ist der Oberkörper wichtiger als der Unterkörper.

„Late Later“: Was ist schwieriger, die Fähigkeit, die Hände zu bedienen, oder die Fähigkeit, komplexe Bewegungen der Füße auszuführen? Die endgültige Form, die sich jeder vorstellt, ist eine vollständige menschliche Form. Wird das Unternehmen, das zuerst gegründet wird, nicht in der Lage sein, mitzuhalten, wenn es seine sportlichen Fähigkeiten ergänzen möchte?

Wang He: Heutzutage werden die meisten Operationen mit beiden Händen ausgeführt, daher verwenden wir zunächst „Hände“, um die Szene zu betreten, und verwenden austauschbare, kostengünstige Allzweck-Fahrgestelle mit Rädern für die Beine. Wir kommerzialisieren und erhalten zunächst echte Daten.

Das Problem bei zweibeinigen Produkten besteht darin, dass sie nicht in realen Szenarien umgesetzt werden können. Daher müssen Unternehmen, die zweibeinige Produkte anbieten, nach nachhaltigen Finanzierungsmöglichkeiten streben, und in den nächsten drei Jahren wird es große Wellen geben. Wenn sich die Leistung der Beine verbessert und der Preis stimmt, werden wir natürlich auch die Beine ersetzen.

„Später“: Warum ist es keine Option, es gemeinsam zu machen?

Wang He: Weil die Bedienfähigkeiten des humanoiden Roboters nicht stark genug sind, ihm aber die Beine fehlen. Es gibt immer noch viele Aufgaben, die herkömmliche Roboterarme nicht bewältigen können.

Unter Berücksichtigung der tatsächlichen Nutzung sind die Kosten und die Stabilität von Radrobotern weitaus besser als die von Zweibeinrobotern. Bei gleicher Höhe sind die Stücklisten (Rohmaterialkosten) von zwei Beinen zehnmal teurer als die eines Fahrgestells mit Rädern. Darüber hinaus können die Füße leicht herunterfallen, und wenn der Roboter herunterfällt, wird er vollständig beschädigt.

Die aktuellen technischen Schwierigkeiten der Beine müssen noch überwunden werden und sie liegen weit hinter der Zweihandszene zurück. Wenn beispielsweise etwas von einem Regal auf den Boden fällt, kann sich kein humanoider Roboter mit Beinen auf der Welt bücken, um es aufzuheben.

„Später“: Hocken ist für Menschen ganz einfach, warum können Roboter das nicht?

Wang He: Das Schwierigste ist, während des gesamten Prozesses das Körpergleichgewicht aufrechtzuerhalten. Die Gleichgewichtsfähigkeit der Beine besteht aus mehreren Stufen: Der erste Schritt besteht darin, zu gehen, und der zweite Schritt besteht darin, die Stufen hinaufzusteigen. Dies hat bereits einige Unternehmen in Verlegenheit gebracht. Der dritte Schritt besteht darin, sich zu beugen. Die Schwierigkeit besteht darin, dass der Schwerpunkt herauskommt. Dann gibt es Kniebeugen und geteilte Kniebeugen, die derzeit im Labor nicht möglich sind.

Die Entwicklung der Beine hinkt der Entwicklung der Hände hinterher, und das Gleiche gilt auch für Menschen, die nur krabbeln können, aber mit ihren Händen viel Zeit brauchen, um aufzustehen und stabil zu gehen sechs oder sieben Jahre alt.

Tatsächlich gab es vor 20 Jahren Vorführungen des zweibeinigen Gehens. Heute gibt es nur noch eine Handvoll Menschen, die tatsächlich problemlos zehn Minuten auf dem Boden laufen können. Die Stabilität vieler Zweibeinroboter entspricht einfach nicht allen Erwartungen. Im Bereich der verkörperten Intelligenz ist die Entwicklung des Gehirns der der Arme und Hände voraus, und die Arme und Hände sind den Beinen voraus.

„Spät“: Teslas humanoider Roboter Optimus ist sowohl mit Händen als auch mit Füßen ausgestattet und kann jetzt in Fabriken arbeiten.

Wang He: Die aktuelle Arbeitsszene von Optimus hat nichts mit den Beinen zu tun. Das Auffangen von Batterien in der Fabrik und die Hin- und Herkontrolle auf dem Parkplatz erfordern keine Verbesserung der Beinfähigkeiten.

Und es ist schwer zu berechnen: Der Roboter kostet Hunderttausende bis zweihunderttausend Dollar, aber seine Aufgabe besteht darin, genau die gleichen Batterien in eine fünf mal sechs große Box mit insgesamt dreißig Gittern zu stecken, also zu Legen Sie Standardbatterien in den Standardkorb. Die Position des Korbs ist festgelegt. Warum sollte so etwas verkörperte Intelligenz erfordern? Warum nicht traditionell verwenden?Industrielle Automatisierung

„Spät“: Galaxy General Galbot sortiert Medikamente in Meituans Apotheken. Dies kann auch mit einem Roboterarm erfolgen, aber Sie haben auch einen humanoiden Oberkörper verwendet.

Wang He: Wir haben diese Szene geschaffen, um unsere verkörperten Fähigkeiten zu demonstrieren. Wenn etwas zu schwierig ist und die Technologie noch nicht so weit entwickelt ist, sollten wir zuerst nach etwas suchen, das getan werden kann. Teslas Szene wurde ursprünglich mit einem Roboterarm realisiert, der nicht einmal Menschen ersetzte. Die Arbeit in der Apotheke wird von Menschen erledigt, und der Schwierigkeitsgrad selbst ist höher als der von Tesla. Zweitens kann dies nicht allein durch industrielle Automatisierung erreicht werden, da unterschiedliche Medikamente keine Standardprodukte und unterschiedliche Bestellungen keine Standardanforderungen sind.

Betrachten Sie Tesla nicht als Vorbild,Datenprobleme können durch Remote-Betrieb nicht gelöst werden

„Spät“: Der Mangel an Daten ist heute eine der Schwierigkeiten der verkörperten Intelligenz: Textdaten sind jetzt 15T, Bilder sind 6B und Videos sind 2,6B, aber Roboterdaten sind nur 2,4M. Tesla und Google sammeln beide Daten durch „Teleoperation“, das heißt, indem sie echte Menschen die Erfassungsausrüstung tragen lassen, um die Aktionen auszuführen, die der Roboter lernen muss, während Galaxy General „all in Sim2Real“, also simulierte synthetische Daten, verwendet. Warum bist du anders als sie?

Wang He: Fernsteuerung ist etwas, das sich Startup-Unternehmen nicht leisten können. Der Fernbetrieb erfordert die Einstellung vieler Mitarbeiter, die verschiedene Vorgänge wiederholt ausführen. Um gültige Daten zu erhalten, müssen ein Roboter und eine Person 30 Sekunden oder eine Minute zusammen verbringen.

Hier unterscheiden sich humanoide Roboter stark vom autonomen Fahren. Das autonome Fahren von Tesla ermöglicht es einer Million Autobesitzern, Geld für den Kauf eines Autos auszugeben und es Hunderte Millionen Stunden lang zu fahren, ohne zusätzliches Geld für Daten ausgeben zu müssen. Und Autofahren ist nur eine Sache, aber es gibt viele Arten von Jobs in der Fabrik – diejenigen, die kleben, diejenigen, die Batterien einlegen, diejenigen, die Schrauben festziehen … Die Korrelation zwischen verschiedenen Aufgaben kann stark oder schwach sein.

Tesla fand Dutzende von Leuten, die am Einsatzort der Batterien ferngesteuerte Operationen durchführten, aber dann gab es noch weitere Operationsszenen wie Aufziehen und Zusammenbauen, und das war noch nicht alles. Tesla hat viel Geld und eine eigene Fabrik, um eigene Roboter zu kaufen. Es kann dies tun, Startups jedoch nicht.

So wie fahrerlose Autos heute über Fernmonitore verfügen, kann Teleoperation die Rolle einer Fernübernahme übernehmen. Wenn während der Arbeit des Roboters vor Ort etwas schief geht und niemand vor Ort ist, kann per Fernbedienung eingegriffen werden.

„Später“: Remote Control ist also ein Spiel, das von einer großen Firma produziert wird?

Wang He: Das ist die Geschichte, die Musk erzählt. Nehmen wir das, was Tesla tut, nicht als Maßstab. Um ehrlich zu sein, handelt es sich um Forschung.

Als Google an RT (Robot Transformer, einem Robotersteuerungsalgorithmus) arbeitete, gab es ein „Every Day Robots“-Team mit mehr als 200 Mitarbeitern. Nach Fertigstellung von RT-1 wurde diese Abteilung abgeschafft, da das Geschäftsmodell nicht existierte.

Derzeit können von Chinas verkörperten Geheimdienstunternehmen nur diejenigen ohne eigene Routen Tesla und Google in den Vereinigten Staaten nachahmen. Wenn ein amerikanisches Unternehmen nicht gut kapitalisiert ist und trotzdem die Geschichten anderer Leute erzählt, wird es eine Sackgasse sein.

„Später“: Hängt dies auch von der Datenmenge ab, die für die Herstellung eines universellen Roboters erforderlich ist? Wenn diese weniger als eine Größenordnung beträgt, kann möglicherweise auch ein besonders vermögendes Großunternehmen oder ein Startup, das Geld aufbringen kann, die Fernbedienung betreiben Operationsroute?

Wang He: Unsere eigenen Experimente haben ergeben, dass beispielsweise bei der Crawling-Aufgabe die Erfolgsquote des Roboters bei einer Milliarde Crawls 87 % erreichen kann, wenn die Datenmenge auf ein Zehntausendstel reduziert wird , also 100.000 Beim ersten Crawlen lag die Erfolgsquote nur bei 58 %. Dies zeigt, dass auch die verkörperte Intelligenz klare Skalierungsgesetze hat und einen größeren Datenhunger hat.

In der realen Welt ist es schwierig, Milliarden von Daten zu erhalten. Google brauchte mehr als zehn Monate und mehrere zehn Millionen Dollar, um Hunderttausende Daten zusammenzustellen.

„Spät“: Wie stark kann Simulation die Kosten senken?

Wang He: Durch Simulationssynthese können alle sechzig Bilder in einer Sekunde gerendert werden. Im Vergleich zur Erfassung realer Daten sind synthetische Daten nahezu kostenlos. Unsere zweite Kurve besteht darin, Daten aus der realen Welt zu erhalten.

Im Simulator synthetisieren wir die Bewegung jedes Objekts in 200 Videos und simulieren und synthetisieren dann ein einzelnes Objekt zu einer Klasse von Objekten. Dabei entstehen große Datenmengen, mit denen wir die Greiffähigkeiten des Roboters trainieren.

„Spät“: Viele Menschen glauben, dass sich die synthetischen Daten, die mit einem Emulator (einem System, das eine simulierte virtuelle Umgebung bereitstellt) erhalten, natürlich von den realen Daten unterscheiden, was sich auf den Trainingseffekt auswirkt. Wie löst man es?

Wang He: Der Simulator kann nie vollständig real sein, aber die Sim2Real-Route erfordert nicht, dass der Simulator vollständig simuliert wird. Es handelt sich um einen Prozess der gemeinsamen Optimierung von Hardware, Algorithmen und Simulation.

In dieser Phase ist der Simulator ein Verifizierungstool, und das in einem Algorithmus ausgedrückte mathematisch-physikalische Modell ist der Kern für den Erwerb von Crawling-Qualifikationen.

Der Simulator weist jedoch einige Einschränkungen auf. Wenn unsere Hände beispielsweise eine Mineralwasserflasche berühren, d körperlich perfekt modelliert.

Zu diesem Zeitpunkt muss unser Algorithmus über starke Anpassungsfähigkeiten verfügen, z. B. das Hinzufügen von Berührungs- und Kraftkontrolle, das Erlernen der „Form“ und die anschließende Steuerung nach dem Erfassen. Auf diese Weise können wir den schwierigsten Teil der Simulation vermeiden. Eine weitere Voraussetzung ist, dass die Hardware ausreichend robust sein muss (Robust, was bedeutet, dass das System auch unter ungewöhnlichen Umständen relativ stabil laufen kann).

„Spät“: Wie arbeiten Simulatoren und Algorithmen wie mathematische und physikalische Modelle zusammen?

Wang He: Wir schlagen eine Reihe mathematischer und physikalischer Modelle vor, um effiziente Suchen zu erfassen, und verwenden dann einen Simulator, um zu überprüfen, ob eine solche Erfassung machbar ist.

Auch der Unterschied zwischen Reinforcement Learning und Supervised Learning wird hier angesprochen. Wenn es sich um verstärkendes Lernen handelt, bedeutet dies, dass man mehrmals mit dem Simulator interagieren, versuchen und eine Lösung finden muss. Dies stellt viele Anforderungen an die Authentizität des Simulators. Das Gehen zu Fuß hängt vollständig vom simulatorischen Verstärkungslernen ab. Dies wurde jedoch ausprobiert und die Effizienz ist relativ gering.

Wenn Sie dem Roboter sagen können, wie er greifen soll, kann er in überwachtes Lernen umgewandelt werden und die Lerneffizienz wird höher sein. Wir nutzen überwachtes Lernen, um das Greifen mit zwei und fünf Fingern zu erlernen.

Bedenken Sie es vom ersten Tag anVermarktung

„Später“: Die meisten chinesischen Unternehmen, die Humanoiden herstellen, stellen beispielsweise auch andere Produkte her. Zhiyuan hat beispielsweise einen kommerziellen Reinigungsroboter, Zhuji und Yushu stellen beide Roboterhunde her, während die Vereinigten Staaten hauptsächlich humanoide Roboter auf den Markt bringen. Warum gibt es diesen Unterschied?

Wang He: Der Kapitalreichtum in China und den Vereinigten Staaten ist unterschiedlich. Da sie in den Vereinigten Staaten Geld haben, machen sie alles auf einmal. Unternehmen wie Figure AI und Tesla verwenden alle humanoide Modelle. Der aktuelle Wert von Figure AI liegt jedoch bei 2,5 Milliarden US-Dollar, und die in der Demo gezeigten Operationen haben nichts mit sportlichen Fähigkeiten zu tun. Die Blase in den Vereinigten Staaten hindert sie daran, in einem sehr strengen PMF (Product Market Fit) zu denken.

Im August dieses Jahres veröffentlichte FigureAI einen neuen Roboter, Figure 02, der bereits einige Montagedemos in der BMW-Automobilfabrik durchführen kann.

„Später“: Glauben Sie, dass es richtiger ist, von Anfang an über die Produktimplementierung nachzudenken? Ist dies in einem hochmodernen Bereich wie humanoiden Robotern zu ängstlich?

Wang He: Einerseits ist es immer noch ein Datenproblem. Verkörperte Intelligenz ist an Hardware gebunden. Wenn der Roboter also nicht in der Szene eingesetzt wird, ist es schwierig, große Datenmengen zu erhalten. Es kann jedoch nicht in großen Mengen kostenlos verteilt werden, da die Kosten für den Bau des Hauptkörpers zu hoch sind. Große Modelle müssen nicht kommerzialisiert werden, um Daten zu erhalten, da die Kosten für ihre Popularisierung immer noch viel geringer sind als die von Robotern.

Gleichzeitig muss der Roboter auch poliert werden. Ohne eine langfristige Beobachtung des Roboters in der Szene ist es unmöglich, den Roboter in einen Zustand zu bringen, in dem er stabil arbeiten kann. Dies ist auch der Grund, warum es im Bereich Robotik keine PPT-Unternehmen gibt.

„Später“: Welche Art von Produktimplementierung haben Sie gesehen?

Wang He: Der erste Schritt besteht darin, einen einzelnen Vorgang an mehreren Objekten in einer einzigen Umgebung durchzuführen, beispielsweise das Bewegen verschiedener Dinge in derselben Fabrik oder derselben Produktionslinie. Das ist es, was Google RT-1 und Tesla Optimus jetzt tun, aber der Optimus verarbeitet weniger Objekte. Beides ist nicht wirklich verallgemeinert, also universell, und kann noch nicht wirklich Geld bringen.

Der nächste Schritt besteht darin, dass Roboter dieselben Vorgänge an verschiedenen Objekten in unterschiedlichen Szenarien in derselben Branche ausführen. Beispielsweise hat sich in der industriellen Fertigungsindustrie die Möglichkeit, Teile in Autofabriken zu beschaffen, auf die Möglichkeit ausgeweitet, alle Teile in jeder Fabrik zu erhalten, im Einzelhandel hat es sich von der Möglichkeit, Waren in kleinen Supermärkten zu lagern, ausgeweitet; Waren in Wal-Mart lagern zu können. Eine einzige Schulungssitzung, um verschiedene Szenarien in derselben Branche aufzuschlüsseln, ist von großem Wert.

Der nächste Schritt besteht darin, mehr Aufgaben und mehr Szenarien zu haben, alle Branchen abzudecken und weiterhin universell zu werden.

„Später“: Die gesamte Branche macht jetzt den ersten Schritt. Wie wählt man zu diesem Zeitpunkt die erste Szene oder den ersten Szenenstapel aus?

Wang He: In jeder Branche werden wahrscheinlich verkörperte intelligente Roboter eingesetzt, solange es sich um eine flexible Produktion, aber nicht um ein vollständig automatisiertes Szenario handelt. Insbesondere in der verarbeitenden Industrie gibt es einige unauffällige Vorgänge. Die Nachfrage ist möglicherweise groß und die erforderliche Technologie möglicherweise nicht kompliziert.

Wir müssen einen nach dem anderen von einfach zu schwierig, von hohen Arbeitskosten zu niedrigen Arbeitskosten, von hoher Nachfrage zu niedriger Nachfrage vorgehen.

„Später“: Entspricht die Medikamentenbeschaffung in der Apotheke der von Ihnen genannten Logik? Oder hast du diese Szene gemacht, weil Meituan für dich gestimmt hat?

Wang He: Wir wollen die Ersten sein, die Szenarien mit hohem Gewinn und hohem Wert nutzen, die in eine stärkere Vielseitigkeit umgewandelt werden können. Unser zukünftiges Ziel ist es, ins Heim einzusteigen.

„B to C“ eignet sich besser für den Heimgebrauch als „pure to B“, deshalb haben wir im Einzelhandel eine B to C-Szene eingerichtet, um mit Menschen zu interagieren.

„Später“: Wann erscheint Ihr erster Roboter?

Wang He: Wir werden im vierten Quartal dieses Jahres Kleinserienbestellungen zu einem Preis von 500.000 annehmen.

„Später“: Ist es zu teuer, das Medikament in der Apotheke zu bekommen?

Wang He: Wir haben jetzt zwei Hauptvertriebsrichtungen: wissenschaftliche Forschungsszenarien und kommerzielle Szenarien wie Meituan. Die Preise und Konfigurationen dieser Szenarien sind unterschiedlich.

Was wir an wissenschaftliche Forschungsszenarien verkaufen, ist eine entwickelbare Version mit ausreichend Rechenleistung. Die Produkte, die wir für kommerzielle Szenarien verkaufen, unterstützen die Entwicklung nicht und werden einige Funktionen hinzufügen und andere unnötige Funktionen und Rechenleistung reduzieren. Beispielsweise sind die Roboter jetzt mit OrinX-Karten ausgestattet, aber in kommerziellen Szenarien kann die Rechenleistung in der Cloud platziert werden . .

Mittlerweile gibt es Dutzende Reservierungen für wissenschaftliche Forschungsszenen. In Geschäftsszenarien, von Maschinen bis hin zu Dienstleistungen, ist unser Team für den gesamten Prozess verantwortlich.

„Später“: Sie haben einmal gesagt, dass Galaxy voraussichtlich die Kosten für einen Robotersatz auf 50.000 Yuan begrenzen wird.

Wang He: Dieses Jahr können wir es nicht schaffen, aber wenn wir 1.000 oder 10.000 Einheiten erreichen, werden wir diesem Ziel weiter näher kommen.

„Später“: Es gibt einen Witz, dass der Verkauf humanoider Roboter in China von Startups, Universitätslaboren und anderen Kollegen unterstützt wird.

Wang He: Die Obergrenze für wissenschaftliche Forschung ist definitiv niedrig, aber wissenschaftliche Forschung ist der erste Schritt. Für ein einjähriges Unternehmen ist es unmöglich, tausend Roboter zu verkaufen, es sei denn, es handelt sich um ein Spielzeug.

„Später“: Wir haben viel über den aktuellen Nichtkonsens in der verkörperten Geheimdienstbranche gesprochen. Was ist Ihrer Meinung nach der aktuelle Konsens?

Wang He: Bisher ist kein konkretes Geheimdienstszenario entstanden, das große wirtschaftliche Vorteile bringen könnte. Es besteht kein Konsens darüber, wie man Geld verdient, und daher gibt es keinen Konsens über die Produktform, die Technologie, die Branche und die Szenarien, die zurückgedrängt werden sollen.

Kein Konsens ist eine gute Sache. Das heißt, wenn alle zu einem Konsens gelangen, wird es am Ende um Kosten, Ressourcen und Verbindungen gehen. Diese Faktoren sind nicht die Stärke von Unternehmern und wirken sich nachteilig auf das Unternehmertum aus.

Aber wenn man sich die Zukunft, das Ende der Technologie, vorstellt, betritt man das Haus + ein vollständiges Humanoid + ein großes Modell, ich fürchte, jeder kann dem zustimmen.

„Später“: Wie würden Sie die große Anzahl neuer Unternehmen beschreiben, die jetzt Embodied verfolgen? AGI Die Reise?

Wang He: Dies ist der Prozess, bei dem der Mensch wieder die Rolle des Schöpfers übernimmt. Auch die Automobilindustrie ist eine vollständig von Menschen geschaffene Industrie, und das Gleiche wird in Zukunft auch für Allzweckroboter gelten. Auch führende Automobilkonzerne wie Tesla werden unter uns sein.