ist der roboter von openai zu menschenähnlich? die anleger waren verblüfft: sie dachten, unter der kleidung stecke eine echte person

2024-09-05

class representative series – die schnellste und vollständigste interpretation von ki-großereignissen. dieser artikel konzentriert sich auf den neuesten von 1x technologies veröffentlichten neo-roboter, einen von openai investierten humanoiden roboter, und nutzt diesen als hinweis, um den besonderen technischen weg und positionierungsüberlegungen aufzuzeigen übernommen von 1x robots.

ai future guide to the north von hao boyang und zhou xiaoyan

herausgeber zheng kejun

obwohl nach dem besuch der world robot conference einige investoren tencent technology mitteilten, dass sie sich auf dem weg zu humanoiden robotern befinden, aber sieheproduziert von 1x, einem von openai investierten unternehmen für humanoide roboternach dem neo-roboter hatten sie wieder selbstvertrauen.

sogar wang yuquan, gründer von haiyin capital, der sich immer dagegen ausgesprochen hat, roboter in humanoide formen zu bringen, war überrascht: „die bewegungen von neo sind sehr natürlich und koordiniert, wodurch die stereotypen der menschen von robotern vollständig beseitigt werden.“ als ich diesen roboter zum ersten mal sah, war meine erste reaktion, dass sich unter der kleidung eine echte person befand.“

der von openai investierte roboter begann mit der hausarbeit und war so lebensecht, dass er als menschliche hülle in frage gestellt wurde

wir sind auch erstaunt über die laufruhe, aber darüber hinaus möchten wir noch mehr wissen: warum wählt es den „zweibein“-modus in der welt des „rad“-modus in der familienszene?

im obigen bericht haben wir erwähnt, dass mehr als 80 % der roboter, die in der industrie eingesetzt werden, bei der gestaltung des unterkörpers einen „zweibeinigen“ modus annehmen. in der heimszene sind aufgaben weniger standardisiert, aufgaben trivialer und notfälle häufiger, weshalb heimroboter sicher und leise sein müssen. im vergleich zu den hohen kosten und unausgereiften steuerungsalgorithmen von „zweibeinern“, die zu instabilität beim gehen und stehen sowie zu hohem lärm führen, ist der radtyp auf ebenen straßen leiser und stabiler.

neo verfolgt einen anderen ansatz. es handelt sich um einen roboter im „zweibeinmodus“, der in heimszenen selten vorkommt.

im display-video ist neo sehr „weich“.ohne die schnur, die an der rückseite hängt, würde es wie ein echter mensch aussehen, der in der küche pokale packt.

es kann den nächsten schritt des menschen bei der hausarbeit ohne anweisungen vorhersagen und sich nur auf seine eigenen „beobachtungen“ verlassen.

neo bewegt sich sehr leise, aber wenn sie die lautstärke des displayvideos erhöhen, können sie immer noch das subtile summen hören, das neo von sich gibt, wenn es sich vorbeugt, um den rucksack aufzuheben.

im gegensatz zu vielen humanoiden robotern, die „groß“ aussehen, sieht neo wie ein nachbar aus, der in freizeitkleidung zu ihnen nach hause kommt und ihnen bei der hausarbeit helfen kann.

neo ist 1,65 meter groß und hat 55 freiheitsgrade im gesamten körper. er wiegt also fast 1/3 bis 1/2 leichter als die meisten humanoiden roboter derselben größe laut medium hat neo eine nutzlast von 20 kg und sein griff ist stark genug, um 70 kg (154 lbs) zu heben.

(bild: vergleich des gewichts humanoider roboter im bereich „erwachsenengröße“ im in- und ausland)

den parametern nach zu urteilen ist neo klein, aber seine stärke steht den gängigen humanoiden robotern der branche in nichts nach. von diesen zweibeinigen humanoiden robotern ist nur neo eindeutig für heimanwendungsszenarien geeignet, während andere zweibeinige roboter grundsätzlich für industrieszenarien geeignet sind.

wie kann neo also zu hause „leicht“ laufen? wie können wir menschliche handlungen vorhersagen, indem wir sie einfach beobachten? könnte es sein, dass damit das generalisierungsproblem humanoider roboter überwunden wurde?

woher kommt der designunterschied zwischen rädern und beinen?

zweibeinige humanoide roboter eignen sich für industrielle szenarien, stehen jedoch vor vielen herausforderungen, sobald sie in den heimmodus wechseln.

der kern der herausforderung besteht darin, dass die mechanische struktur des „zweibeins“ komplex ist und mehr gelenke mobilisiert werden müssen, um den betrieb des roboters aufrechtzuerhalten, was zwangsläufig eine höhere leistung erfordert, wenn er in heimszenarien eingesetzt werden soll. es muss eine reihe von problemen lösen, die durch hohe leistungsverluste verursacht werden, wie z. b. wärmeableitung und lärm.

im gegensatz dazu arbeiten roboter in industrieszenarien normalerweise in lagerhallen oder geschlossenen fabriken. diese orte sind häufig mit kühl- oder kühlgeräten ausgestattet, um die wärmeableitung zu unterstützen, sodass sich zweibeinroboter keine allzu großen sorgen über den einfluss hoher temperaturen machen müssen .

als „arbeiter“ stellen sie keine hohen ansprüche an ihr aussehen. sie können halbnackt sein (mit freiliegenden teilen) oder sogar mit daran hängenden drähten durch die fabrik laufen. wie der hydraulische atlas von boston dynamics. sie können „wild“ hin und her rennen.

(bild: boston power hydraulic atlas)

darüber hinaus ist die industrielle umgebung selbst von verschiedenen mechanischen geräuschen erfüllt, und das geräusch der beweglichen gelenke des zweibeinigen roboters und das geräusch von schritten beim gehen sind nicht so wahrnehmbar.

sobald sie jedoch in die heimszene wechseln, werden diese probleme, die in der industrieszene nicht offensichtlich sind, alle zu fehlern: die schlechte wärmeableitungsleistung des roboters kann brände verursachen, zu viel lärm kann neurasthenie verursachen, und exponierte teile sind besonders für familien mit kindern geeignet. es bestehen große sicherheitsrisiken.

der fahrbare typ hat einen geringen stromverbrauch, was natürlich probleme wie wärmeableitung und lärm reduziert.

das heißt, um einen „zweibeinigen“ roboter in eine heimszene zu bewegen, muss er von der ontologie her optimiert und transformiert werden.

eric jiang, vizepräsident von 1x robot ai, lieferte lösungen für die produktion von neo und optimierte die kernkomponente des roboter-„motors“. er sagte kürzlich in einem interview:im gegensatz zu der von vielen humanoiden robotern verwendeten idee „kleiner motor, großes übersetzungsverhältnis und hohe kinetische energie“ ist das schlüsselwort von neo das „hohe drehmoment, das kleine übersetzungsverhältnis und die niedrige kinetische energie“ des motors.

wie kann man also verstehen, was eric jiang gesagt hat? wir können zunächst kurz die beziehung zwischen dem „motor“ und dem „übersetzungsverhältnis“ humanoider roboter verstehen.

analog zum menschen gibt es bei humanoiden robotern eigentlich nur zwei bewegungsarten: linearbewegung und rotationsbewegung. im 1x-anzeigevideo gibt es beispielsweise einige sekunden, in denen neo den menschen „winkt“. die anatomischen komponenten dieser aktion sind: zuerst mit der rechten hand ausstrecken (lineare bewegung) und dann mit der hand winken (rotationsbewegung). ).

wenn sie versuchen, es zu zerlegen, werden sie feststellen, dass das gesamte bewegungssystem des humanoiden roboters eine kombination dieser beiden bewegungen ist.

unter anderem wird die lineare bewegung durch die kombination „motor + schraube“ des humanoiden roboters realisiert, während die rotationsbewegung durch „motor + untersetzungsgetriebe“ realisiert wird. hier konzentrieren wir uns auf die umsetzung der rotationsbewegung des roboters vervollständigen sie die „gelenk“-rotation, im vergleich zum radtyp spiegeln sich die hauptbewegungen beim „zweibein“ auch in den gelenken wider.

der kern des „übersetzungsverhältnisses“ beeinflusst die drehzahl, also die kombinierte drehzahl von „motor + untersetzungsgetriebe“.

einfach gesagt,„übersetzungsverhältnis“ bezieht sich auf das des motorsausgangsgeschwindigkeitunddie geschwindigkeit, mit der die komponente tatsächlich ausgeführt wirddas verhältnis zwischen. wenn beispielsweise die bewegungsgeschwindigkeit der beine des humanoiden roboters v beträgt, bedeutet ein hohes übersetzungsverhältnis, dass der motor mit hoher geschwindigkeit läuft, und ein niedriges übersetzungsverhältnis bedeutet, dass der motor mit niedriger geschwindigkeit läuft.

viele humanoide roboter verfügen über hohe übersetzungsverhältnisse(zum beispiel 10:1), nachdem die geschwindigkeit des motors durch das getriebe reduziert wurde, verlangsamte sich die bewegungsgeschwindigkeit der robotergelenke. diese konfiguration eignet sich besser für gelegenheiten, die eine hohe kraft erfordern, aber keine schnelle bewegung erfordern.

wenn eine niedrige übersetzung verwendet wird(beispiel: 3:1), die motorgeschwindigkeit erfährt eine geringere verzögerung und die robotergelenke bewegen sich schneller. diese konfiguration eignet sich für situationen, die eine schnelle reaktion und einen flexiblen betrieb erfordern.

neo kann den stromverbrauch von kerngelenken reduzieren, indem ein niedriges übersetzungsverhältnis eingestellt und die ausgangsdrehzahl des motors reduziert wird.

das niedrige übersetzungsverhältnis des motors bedeutet, dass die betriebsgeschwindigkeit des motors geopfert wird. in dem technischen dokument „motor physics“ schrieb er, dass neo ein „hohes drehmoment“ verwendet, um den möglicherweise verursachten leistungsmangel auszugleichen durch den geringen betrieb des motors erklärte er außerdem: „die meisten motoren sind nicht leistungsstark genug, um ein großes drehmoment zu erzeugen, daher nehmen maschinenbauingenieure hochgeschwindigkeitsmotoren und fügen ihnen zahnräder hinzu, wobei sie geschwindigkeit gegen drehmoment eintauschen.“

(bild: screenshot des von eric jiang veröffentlichten technischen dokuments „motor physics“, in dem beschrieben wird, wie maschinenbauingenieure motordrehzahl gegen drehmoment austauschen)

dies erklärt, warum viele zweibeinige roboter nur in industriellen szenarien eingesetzt werden können:„die meisten humanoiden robotikunternehmen entscheiden sich dafür, ihre roboter in fabriken statt zu hause einzusetzen, weil sie auf starre, hoch übersetzte antriebssysteme angewiesen sind. diese systeme sind in der nähe von menschen nicht sicher und müssen in käfigen eingeschlossen werden.“

aus dieser perspektive hat das 1x-team einen hardware-pfad für den sicheren betrieb zweibeiniger roboter in heimszenarien gefunden, sodass neo menschliche kleidung tragen kann, ohne sich sorgen machen zu müssen, dass kleidung aufgrund der schlechten wärmeableitungsleistung verbrennt.

tatsächlich war eve, die vorgängergeneration von 1x, erst in der neo-generation zweibeinig. der wesentliche grund ist immer noch das problem der szenenanpassung.

die heimszene ist sehr komplex und erfordert, dass der roboter unter den tisch greift, um dinge aufzuheben oder von der theke aufzuheben. da die basis platz beansprucht, muss ein roboter mit einem fahrgestell mit rädern seine arme „ausstrecken“, um einige ecken zu erreichen eric jiang glaubt, dass „der roboter in diesem fall die änderung seines schwerpunkts nutzen sollte, um dinge wie menschen aufzuheben, wenn er auf eine situation stößt, in der etwas in die ecke des schranks fällt.“ der roboter sollte in der lage sein, ein bein wie ein mensch anzuheben, eine hand auf den tisch zu legen und seinen schwerpunkt zu nutzen, um das objekt zu erreichen.

eric jiang nannte im interview auch ein beispiel: warum lassen viele bücherregale unten eine gewisse lücke? „es geht nur darum, es den menschen einfacher zu machen, ihre zehen hineinzustecken“, damit die menschen ihren körper gegen das bücherregal drücken können, um bücher aufzuheben.

daher können die beiden füße den bewegungsbedarf des roboters verringern, während sich der radstand nicht an triviale haushaltsszenen anpassen kann.

dies ist die logik des 1x-übergangs von der haltung auf rädern zur haltung auf füßen. vielleicht kann die haltung auf rädern in einer familiären umgebung nicht so gut „laufen“ wie die haltung auf füßen. darüber hinaus verfügt neo auch über einige „einzigartige“ formeln in bezug auf generalisierung und datenerfassung.

sind roboter bereits an der schwelle zur verallgemeinerung fähig?

als roboter, der zu hause eingesetzt werden kann, kommt es neben der sicherheit vor allem darauf an, dass er ein echter, vielseitiger helfer sein kann. dies erfordert, dass der roboter „intelligent“ ist, die bedürfnisse des besitzers versteht, autonom agieren kann und ausreichend generalisiert ist.

betrachtet man alle roboterfirmen, in die openai investiert hat, so ist den produkten gemeinsam, dass sie sehr „smart“ sind, das heißt, sie können große modelle sehr gut mit robotern kombinieren.

die erstaunliche leistung von abbildung 01 beispielsweise beruht größtenteils auf seiner fähigkeit, anweisungen zu verstehen und elemente zu identifizieren, um urteile zu fällen. und genau das ist das ergebnis der kombination von multimodalen großmodellen und robotern.

ein anderes investiertes unternehmen, physical intelligence, verfügt bisher nur über eine webseite und keine produkte. in interviews sagte das unternehmen jedoch, seine vision sei es, „ein universelles modell für künstliche intelligenz zu entwickeln, das, anstatt roboter anzutreiben, die sich wiederholende aufgaben in lagern oder fabriken ausführen, auf eine vielzahl von szenarien angewendet werden kann.“

was den mechanischen teil betrifft, haben sie sogar angekündigt, die hardware nicht selbst herzustellen, sondern mehrere robotertypen zu kaufen, um ihre software zu trainieren.

(bild: physische intelligenz)

hierbei handelt es sich weniger um ein robotikunternehmen als vielmehr um ein großes modellunternehmen.

und die roboter von 1x sind keine ausnahme.

eric jang, vizepräsident für ki bei 1x, verfügt über umfangreiche erfahrung in der integration großer modelle in roboter. bevor er 2022 zu 1x kam, leitete er einst ein team im saycan-projekt von google deepmind. dieses projekt ist der früheste versuch der verkörperten intelligenz, sprachmodelle und roboter zu integrieren.

im februar dieses jahres veröffentlichte 1x ein video von eve bei der durchführung einer vollständigen neuronalen netzwerkmission, das ein kleiner erfolg wurde. bei einem grasp sfi-austauschtreffen am 24. april können wir die allgemeine funktionsweise dieses modells sehen.

es ist außerdem in eine pipeline (workflow-formular) unterteilt. zunächst wird ein dit-modell (diffusion-transformer) in kombination mit befehlen in natürlicher sprache verwendet, um mithilfe von difussion ein vorhergesagtes bild seiner zukünftigen position zu generieren. fügen sie dann diese vorhersage, das aktuelle bild und das ziel in ein neues transformer-modell ein, um die anschließend erforderlichen mechanischen aktivitäten vorherzusagen.

aus dem video können wir ersehen, dass eve gegenstände sortieren, tragen und sich sogar selbst aufladen kann (kein wunder, dass es eve heißt). einige dieser aufgaben können auch mit zwei händen ausgeführt werden. doch wenn man sich dieses video genau anschaut, stellt man fest, dass sich eves fähigkeiten damals auf das identifizieren, greifen und platzieren von gegenständen beschränkten. später wurden diese grundfähigkeiten zu spezifischen aufgaben wie packen, bewegen und klassifizieren kombiniert.

bis august oder september dieses jahres werden praktisch alle robotikunternehmen, die zugang zu groß angelegten modellschaltungen haben, in der lage sein, diese fähigkeiten zu erreichen.

beispielsweise veröffentlichte figure 01 ende februar ein video eines eigenen roboters, der ein großes modell zum kaffeefahren nutzt, in dem er sogar fehler selbstständig korrigieren kann.

(bild: abbildung 01 kaffeebrühen im demonstrationsvideo)

danach gingen figure und 1x jedoch hinsichtlich der modelle unterschiedliche wege.

im märz entschied sich figure für die direkte verwendung von gpt-4o, was seinen robotern starke konversations- und logikfähigkeiten verleiht. sie nutzten eine pipeline (workflow), um die drei modelle zu integrieren.

zunächst wird das große gpt-4o-modell verwendet, um sprache zu erkennen und aktionen zu planen. dann führt seine eigene neuronale richtlinienschicht, also sein eigenes trainiertes end-to-end-aufgabenmodell, die aktion aus. gleichzeitig nutzt er sein eigenes körperkontrollmodell, um das gleichgewicht des roboters aufrechtzuerhalten.

(bild: offizielle erklärung der modellzusammensetzung der abbildung)

nachdem die interaktion zum größten highlight ihres roboters geworden war, betonte abbildung 02 auch die verbesserung des gehirnniveaus, die durch seine dreifache rechenleistung hervorgerufen wurde. bei den modellen ist eine bessere integration von openai-modellen zu ihrem entwicklungsschwerpunkt geworden.

aber erst am 31. mai veröffentlichte 1x sein sprachrichtlinien-update. in seinem demonstrationsvideo kann der roboter endlich aufgaben verstehen und entsprechende operationen durch sprachkommunikation ausführen. aber auch bisher verwendet 1x noch kein großes hochsprachenmodell. in der dokumentation auf der anzeigeseite ihrer offiziellen website erwähnten sie: „nachdem ein datensatz aus befehlspaaren aus visueller und natürlicher sprache erstellt wurde, besteht der nächste schritt darin, visuelle sprachmodelle wie gpt-4o, vila und gemini vision zu verwenden, um automatisch hochpräzise vorhersagen zu treffen. „dies führt auch dazu, dass ihren robotern die fähigkeit fehlt, komplexe aufgaben zu planen.“

es scheint, dass der 1x hinsichtlich der intelligenten leistung einen großen schritt zurückliegt.

das mag aber daran liegen, dass ihre bemühungen in unterschiedliche richtungen gehen. im vergleich zu interaktions- und planungsfähigkeiten legt 1x mehr wert auf die verallgemeinerung von aufgaben.

in seinem offiziellen blog im märz erläuterte 1x das modell, das es baute. sie versuchen, einem „basismodell“ beizubringen, ein breites spektrum körperlicher verhaltensweisen zu verstehen, vom reinigen und aufräumen der wohnung über das aufheben von gegenständen bis hin zu sozialen interaktionen mit menschen und anderen robotern. anschließend fügten sie dem modell spezifischere fertigkeitensätze hinzu (z. b. ein modell für allgemeine türoperationen und ein anderes für lageraufgaben), indem sie weitere fertigkeitstrainingsdaten sammelten. mit anderen worten: sie versuchen, ein roboter-„grundmodell“ zu erstellen, das die multitasking-generalisierung unterstützt.

dies ist die verallgemeinerung von aufgabenfähigkeiten, die es einem einzelnen roboter ermöglicht, sich bei der ausführung mehrerer aufgaben auf ein einziges modell zu verlassen. das ist eigentlich nichts besonderes. fast alle unternehmen, die robotersoftware herstellen, schulen mehrere einzelaufgaben. allerdings haben wir in verschiedenen roboter-demonstrationsvideos und ausstellungen auf konferenzen selten gesehen, dass ein roboter ständig eine komplexe aufgabe gleichzeitig erledigt, wie zum beispiel den gesamten raum reinigen und dann kochen.

dies liegt daran, dass derzeit kein modell aufgabenübergreifend verallgemeinern kann.

eric jang sagte in einem interview mit „the robot report“: „wir haben zuvor gezeigt, dass unsere roboter einfache objekte aufnehmen und manipulieren können, aber um einen wirklich praktischen heimroboter zu haben, muss er in der lage sein, mehrere aufgaben reibungslos hintereinander auszuführen.“ „dies kann jedoch nicht einfach dadurch erreicht werden, dass eine komplexe aufgabe mithilfe eines übergeordneten modells wie einem „gehirn“ in mehrere aufgaben aufgeteilt wird. denn die ausgangslage und die bedingungen unterscheiden sich zwischen den aufgaben.

wenn ein roboter eine zweite aufgabe ausführen muss, muss er zunächst die mängel der ersten aufgabe ausgleichen. gelingt es beispielsweise dem ersten roboter nicht, die richtige position neben dem tisch zu erreichen, muss der zweite roboter seine arme ausstrecken, um das objekt zu greifen, und die dritte aufgabe erfordert einen weiteren ausgleich. fehler häufen sich.

die 1x-lösung besteht darin, das modell aufzuteilen. derzeit besteht sein modell aus zwei teilen: der eine ist ein basismodell, das alle aufgaben und „aufgabenketten“ versteht, und der andere besteht aus vielen kleinen modellen, die bestimmte aufgaben besser verstehen. es ist auch zu einer art pipeline (workflow) geworden.

sie entwickelten eine schnittstelle in natürlicher sprache, die es mitarbeitern ermöglicht, den roboter per stimme zu führen, um die kombinierten aktionen mehrerer kleiner modelle auszuführen und bei fehlern während des prozesses einzugreifen. dadurch können modelle zu längerfristigen „aufgabenketten“ in reihe geschaltet werden. die mit diesen eingriffen und der gesamten multitask verbundenen daten werden zum trainieren des großen „basismodells“ verwendet. schließlich werden sie das „grundmodell“ anhand der gesammelten aufgabendaten und „aufgabenketten“-daten anpassen und trainieren, sodass dieses grundmodell nicht nur die ausführung einer einzelnen aufgabe, sondern auch das verbindungsproblem zwischen aufgaben lösen kann.

(bild: von 1x entwickelte schnittstelle zur steuerung natürlicher sprache)

daher unterscheidet er sich von dem von figure gewählten weg, bei dem interaktion und planung im vordergrund stehen. das kernproblem, das 1x derzeit lösen möchte, ist die generalisierungsfähigkeit zwischen aufgaben. und dies könnte der entscheidende knackpunkt dafür sein, dass aktuelle roboter wirklich universell werden.

wie ist also der aufgabenübergreifende generalisierungsfortschritt von 1x?

in der neuesten dokumentation können wir sehen, wie ein mitarbeiter einen roboter per stimme anweist, schritt für schritt die aufgaben zu erledigen: die tür öffnen, die toilette betreten, den toilettensitz schließen und hinausgehen. diese aufgabe wird nicht auf einmal gestellt, sondern einzeln und zusammenhängend gestellt.

das sieht nicht allzu „automatisch“ aus, beweist aber tatsächlich, dass der 1x-roboter bereits über die vorläufige fähigkeit verfügt, kontinuierlich zwischen mehreren befehlsaufgaben zu arbeiten. solange es über die grundlegenden ausführungsfähigkeiten der „aufgabenkette“ und die planungsfähigkeiten modernster modelle wie gpt-4 verfügt, wird es bald möglich sein, komplexe und kontinuierliche aufgaben autonom zu erledigen.

eric jang scheint das auch zu glauben. in einem blog mit dem titel „alle wege führen zur robotik“ schrieb er im märz dieses jahres: „viele forscher im bereich der künstlichen intelligenz glauben immer noch, dass es jahrzehnte dauern wird, bis allzweckroboter fertig sind. aber denken sie daran, die geburt von chatgpt schien über nacht dazwischen zu liegen.“ ich denke, auch der bereich der robotik wird solche veränderungen einleiten.“

in seinen augen scheinen allzweckroboter, die verallgemeinern können, in sichtweite zu sein.

doch der pessimismus der branche ist berechtigt. ihre hauptsorge gilt nicht dem algorithmus, sondern der tatsache, dass die aktuellen daten zur verkörperten intelligenz nicht reichlich vorhanden sind, diese auch sehr schwer zu sammeln sind und es an standards mangelt.

große datenmengen sind jedoch der schlüssel zur verallgemeinerung im skalierungsgesetz. verglichen mit einem einfachen groß angelegten sprachmodell erfordert die verkörperte intelligenz möglicherweise eine größere datenmenge, um universell zu sein, da sie bilder und aktionen umfasst. und das sammeln dieser daten nimmt viel zeit in anspruch.

„dumme“ methoden verwenden, um „intelligente“ daten zu sammeln

eric jang machte in der dokumentation einmal eine aussage, die im widerspruch zu den allgemeinen bedenken der branche stand:„viele menschen überschätzen den engpass bei der datenerfassung. in der praxis könnten daten in den nächsten 12 monaten immer weniger an bedeutung verlieren.“

sein vertrauen in daten beruht auf der bisherigen praxis. die logik von 1x bei der datenerfassung unterschied sich schon immer geringfügig von der anderer robotikunternehmen.

andere unternehmen nutzen im allgemeinen alle verfügbaren mittel, um so viele daten wie möglich zu sammeln. zu den methoden gehört die platzierung simulierter roboter in simulierten physischen umgebungen wie unreal 5, um große datenmengen zu sammeln, oder die verwendung von videodaten, um videos von menschen abzufangen, die objekte bedienen, und informationen zu extrahieren.

tatsächlich besteht die derzeit am häufigsten verwendete mainstream-methode jedoch darin, teleoperation (training from demostration) zu nutzen, um daten durch menschen zu erhalten, die vr tragen, um sie robotern zu demonstrieren.

diese art der remote-betriebserfassung platziert den roboter im allgemeinen in einer sehr festen „datenerfassungsfabrik“-umgebung, um so effizient wie möglich genügend daten zu sammeln. auch wenn es einige wiederholungen und ähnlichkeiten gibt.

(bild: teslas datenerfassungsfabrik)

laut eric jang ist die derzeit verwendete methode eine sehr „dumme“ methode. im vergleich zum scheinbar effizienten zentralisierten sammelmodus von tesla bestand 1x darauf, zur sammlung an verschiedene lebensorte zurückzukehren. wir sehen also, dass sie an ganz anderen orten gesammelt werden als in einer fabrik. sie nutzten auch keine videotrainings- und simulationsdaten und bestanden darauf, nur per teleoperation gesammelte daten zu verwenden.

(bild: eves trainingsszenen sind überraschend vielfältig)

ceo bernt bornich erklärte in einem interview: „vielfalt ist der wichtigste aspekt humanoider roboterdaten.“

nach ansicht von x1 haben die wohn- und büroumgebungen, in denen roboter irgendwann landen werden, keine feste struktur und verändern sich ständig durch die nutzung durch den menschen, daher müssen ausreichend unterschiedliche daten vorhanden sein, um aussagekräftig zu sein. daher lautet die von eric jang angegebene 1x-datenerfassungsformel „vielfalt > qualität > quantität > algorithmus“.

um diese vielfalt der sammlung zu erreichen, hat 1x speziell ein team von roboteroperatoren zusammengestellt, die alle sorgfältig ausgewählt wurden. sie alle können einige verhaltensmodelle über eine reihe einfacher grafischer nle-schnittstellen persönlich trainieren. in diesem zusammenhang schrieb eric jang in einem technologieblog: „1x ist das erste unternehmen, das ich kenne, das es datensammlern ermöglicht, roboterfähigkeiten selbst zu trainieren. dadurch wird die zeit, die das modell benötigt, um einen guten zustand zu erreichen, aufgrund der daten erheblich verkürzt.“ sammler können schnell feedback darüber erhalten, wie gut die daten sind und wie viele daten tatsächlich zur lösung von roboteraufgaben benötigt werden. ich erwarte, dass dies in zukunft ein gängiges muster für die roboterdatenerfassung sein wird.“

sie haben also nicht nur sammlungsarbeiter, sondern auch eine gruppe von sammlungsingenieuren, die das modell direkt verfeinern können. sie identifizieren, was bei bestimmten aufgaben nicht funktioniert, sammeln daten für diese szenarien, trainieren und optimieren das modell dann neu und wiederholen den vorgang, bis das modell perfekt ist. all-in-one-schulung.

(bild: auf linkedin von 1x handelt es sich bei der rekrutierung dieser mitarbeiter ausschließlich um vollzeitjobs, nicht um outsourcing, mit einem monatsgehalt von 6.000 bis 8.000 us-dollar, was etwa dem 1,5-fachen des durchschnittlichen monatsgehalts in den vereinigten staaten entspricht.)

diese „dummen“ methoden stellen die qualität und vielfalt der gesammelten daten sicher, und jede daten ist so „nützlich“ wie möglich. in interviews der letzten tage sagte rric: „wenn man roboter in einer fabrik einsetzt und immer wieder genau die gleichen aufgaben ausführt, sind die daten im grunde nutzlos.“

diese relativ feine sammlung wird zweifellos das wachstum der datenmenge verlangsamen, aber ihre wirkung ist sehr erheblich.

(oben: anzahl der von 1x gesammelten datenstunden, unten: vielfalt der von 1x gesammelten aktionen)

laut der technischen mitteilung von eric jang haben sie bis märz 2024 insgesamt 1.400 stunden trainingsdaten mit 7.000 verschiedenen einzigartigen aktionen gesammelt. er sagte auch, dass der eve-roboter durch das training dieser daten derzeit über hunderte unabhängiger fähigkeiten verfügen kann.

im gegensatz dazu verwendete rt-2 im training 130.000 beispiele, und 13 roboter verbrachten ganze 17 monate damit, sie zu sammeln. wenn jedes beispiel durchschnittlich 5 sekunden dauert, kann die gesamtlänge dieser beispiele zehntausende stunden erreichen. es kann aufgaben mit 700 verschiedenen anweisungen ausführen.

unter diesem gesichtspunkt ist der effekt einer verfeinerten datenerfassung tatsächlich gut. verwenden sie 1/10 der daten, um mindestens die hälfte des fähigkeitsniveaus zu erreichen. die idee, dass eile verschwendung macht, gilt auch in der welt der robotik.

abschluss

insgesamt ist der größte „trumpf“ von 1x der fokus auf menschen.

die von 1x vermittelte unternehmenskultur verrät ein gefühl der „entspannung“. egal, ob es sich um das bisherige eve oder das aktuelle neo handelt, seine werbevideos unterscheiden sich völlig von den kalten, technologischen zahlen, die 1x vermeidet und die nicht bewusst groß angelegt ist kommunikation ist auch eine art idealismus.

aus dem neo-werbevideo geht hervor, dass 1x ein „warmes mann“-image wie der „bruder von nebenan“ kreiert. er trägt enganliegende freizeitkleidung und betont die muskellinien, die denen menschlicher männer ähneln. er kann sich auch leicht bewegen. er kümmert sich um das tägliche leben seiner familie, packt ihre pakete, bevor sie ausgehen, und umarmt sie herzlich, bevor sie gehen.

darüber hinaus ist im demonstrationsvideo zu sehen, dass neo menschliche gesten verstehen kann, was auch ein tiefgreifendes verständnis menschlicher kommunikation darstellt. ein großteil der kommunikation zwischen menschen beruht nicht auf sprache. es gibt zeiten, in denen menschen „sprachlos“ sind. daher kann neo den nächsten schritt von menschen „lesen“ und sich gegenseitig ohne worte verständigen besonders besonders. das land hat einen „menschlichen“ flair.

unter dem gesichtspunkt der aufgabenverallgemeinerung und des flexiblen designs kann neo als der erste zweibeinige humanoide roboter in der heimszene bezeichnet werden.

wenn roboter in der zukunft ewig existieren können, welche art von roboter brauchen wir dann, um uns selbst und sogar zukünftige generationen zu begleiten? vielleicht ist neo eine gute antwort.

nachricht

ist der roboter von openai zu menschenähnlich? die anleger waren verblüfft: sie dachten, unter der kleidung stecke eine echte person

woher kommt der designunterschied zwischen rädern und beinen?

sind roboter bereits an der schwelle zur verallgemeinerung fähig?

„dumme“ methoden verwenden, um „intelligente“ daten zu sammeln

abschluss

einführung

meine kontaktdaten