2024-09-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
hans peter brondmo, ehemaliger ceo von alphabet. 2016 wechselte er zu google und war dort für die roboterentwicklung verantwortlich. zu dieser zeit waren die sozialen medien und das mobile internet die beliebtesten dinge. verkörperte intelligenz war wie ein luftschloss: alle sehnten sich danach, aber sie war zu weit entfernt.
selbst für brondmo selbst war die aufgabe bei seinem beitritt kein großes projekt, sondern weil google nacheinander neun robotikunternehmen übernommen hatte und er das personal und die technologie dieser unternehmen arrangieren musste.
diese roboteringenieure wurden schließlich in das google-x-labor integriert, das als „moon landing factory“ bekannt ist.
die „moon landing factory“ engagiert sich seit sieben jahren intensiv im bereich der robotik. später, mit dem aufkommen großer sprachmodelle, war die zukunft der verkörperten intelligenz noch nie so vielversprechend. google beschloss jedoch, das projekt „everyday robots“ zu schließen , der große hoffnungen in dieses labor setzte.
kürzlich hat brondmo einen langen artikel für das magazin „wired“ geschrieben, in dem er seine reise bei google und eine frage revue passieren lässt, über die er schon lange nachgedacht hat: müssen maschinen wie „menschen“ sein?
das folgende ist die readme-datei von brondmo, zusammengestellt und gekürzt.
roboter sind schwierig, schwer „auf dem mond zu landen“
der
wir geben uns viel mühe, unsere mitglieder zu ermutigen, risiken einzugehen, schnell zu experimentieren und sogar „misserfolge zu feiern“, weilscheitern bedeutet einfach, dass die ziele, die wir uns setzen, extrem hoch sind.
als ich dazukam, waren im labor bereits waymo, google glass und andere projekte in der entwicklung, die wie science-fiction klangen, etwa fliegende energiewindmühlen und ballons, die die stratosphäre erreichen würden, um das internet in unterversorgte gebiete zu bringen.
was project damit ein projekt als moonshot betrachtet werden kann, verfügt x über eine reihe von „formeln“, um es zu beurteilen.
erstens muss das projekt nachweisen, dass das problem, das es löst, hunderte millionen oder sogar milliarden menschen betrifft. zweitens muss es eine bahnbrechende technologie geben, die uns neue möglichkeiten zur lösung von problemen bietet. schließlich muss es eine radikale geschäfts- oder produktlösung geben, die vielleicht am rande des wahnsinns klingt, aber nicht völlig undurchführbar ist.
geben sie der ki einen „körper“
man kann sich kaum jemanden vorstellen, der besser für die führung von x geeignet wäre als astro teller, dessen titel wörtlich „captain of the moonshot“ lautete. im google
fügen sie seinen pferdeschwanz, sein stets freundliches lächeln und natürlich den namen „astro“ hinzu, und schon haben sie das gefühl, in die hbo-serie „silicon valley“ eingetreten zu sein.
als astro und ich uns zum ersten mal zusammensetzten, um zu besprechen, was wir mit dem von google übernommenen robotikunternehmen tun sollten, waren wir uns einig, dass wir maßnahmen ergreifen sollten, aber was?
bisher waren die meisten nützlichen roboter groß, unintelligent und gefährlich, auf fabriken und lagerhallen beschränkt und mussten streng überwacht oder eingesperrt werden, um menschen vor schaden zu schützen.wie können wir roboter schaffen, die in alltäglichen umgebungen sowohl hilfreich als auch sicher sind?dies erfordert einen neuen ansatz.
mit anderen worten, wir geben der ki einen körper in der physischen welt, und wenn es einen ort gibt, an dem ein projekt dieser größenordnung konzipiert werden kann, dann bin ich sicher, dass es x ist.
es wird lange dauern, viel geduld, das ausprobieren verrückter ideen und das scheitern in vielen versuchen.es werden große durchbrüche in den bereichen ki und robotik erforderlich sein, die wahrscheinlich milliarden von dollar (ja, milliarden) kosten werden.
die konvergenz von ki und robotik ist unvermeidlich und wir glauben, dass viele dinge, die bisher nur in der science-fiction existierten, bald realität werden.
es ist wirklich schwer
ungefähr jede woche telefoniere ich mit meiner mutter und sie beginnt immer mit der gleichen frage: „wann kommen die roboter?“
sie sagte nicht einmal hallo, sie wollte nur wissen, wann unser roboter kommen würde, um ihr zu helfen. ich antwortete: „das wird eine weile dauern, mama.“ dann sagte sie: „sie sollten sich besser beeilen!“
hans peter brondmo
meine mutter lebt in oslo, norwegen, wo es eine ausgezeichnete öffentliche gesundheitsversorgung gibt; dreimal täglich kommen betreuer in ihre wohnung, um ihr bei einer reihe von aufgaben und hausarbeiten zu helfen, vor allem im zusammenhang mit ihrer fortgeschrittenen parkinson-krankheit.
während diese betreuer es ihr ermöglichten, allein in ihrem eigenen zuhause zu leben, wollte meine mutter, dass der roboter ihr bei den kleinen dingen half, die jetzt zu peinlich waren, um sie anzufassen, oder dass er ihr ab und zu einen arm zum anlehnen bot.
„sie wissen, dass robotik ein systemisches problem ist, oder?“ fragte mich jeff mit einem fragenden blick. jeff bingham ist ein schlanker, sachlicher typ mit einem doktortitel in bioingenieurwesen. er wuchs auf einem bauernhof auf und war dafür bekannt, dass er fast alles wusste.
ein wichtiger punkt, den jeff ansprechen möchte, ist:ein roboter ist ein sehr komplexes system und seine gesamtleistung ist nur so gut wie sein schwächstes glied。
wenn beispielsweise das für die sicht verantwortliche subsystem schwierigkeiten hat, objekte vor ihm bei direkter sonneneinstrahlung zu erkennen, kann es sein, dass der roboter plötzlich „blind“ wird und nicht mehr funktioniert, wenn sonnenlicht durch das fenster scheint.
oder wenn das navigationssystem treppen nicht versteht, könnte der roboter die treppe hinunterfallen und sich selbst und möglicherweise unschuldige unbeteiligte verletzen. daher ist es schwierig, einen roboter zu bauen, der neben uns leben und arbeiten kann. wirklich, sehr schwierig.
seit jahrzehnten versuchen menschen, verschiedene formen von robotern so zu programmieren, dass sie selbst einfache aufgaben ausführen, wie zum beispiel eine tasse vom tisch holen oder eine tür öffnen, doch diese programme reagierten immer äußerst anfällig auf die kleinste veränderung in der umgebung. wird scheitern.
sobald sie anfangen, über alles nachzudenken, wird ihnen klar, dass es nur darum geht, einen grünen apfel in die hand zu nehmen, wenn sie nicht alles so verriegeln, dass es sich in einer festen, voreingestellten position befindet und das licht genau richtig ist und sich nie ändert b. in eine glasschüssel auf ihrem küchentisch, wird zu einem fast unmöglich zu lösenden rätsel – deshalb sind roboter in fabriken weggesperrt und alles, von der beleuchtung bis zur platzierung der gegenstände, an denen sie arbeiten, ist vorhersehbar nicht lösbar angst, menschen zu begegnen.
der realen welt mangelt es an vorhersehbarkeit, genau wie diesem sonnenstrahl.und wir haben noch nicht einmal die wirklich schwierigen aspekte angesprochen, etwa die bewegung durch die überfüllten räume, in denen wir leben und arbeiten.
wie man lernende roboter versteht
aber anscheinend braucht man nur 17 experten für maschinelles lernen.
zumindest hat mir larry page das erzählt, eine seiner klassischen, schwer verständlichen erkenntnisse.
ich versuche zu argumentieren, dass wir mit nur einer kleinen gruppe von forschern für maschinelles lernen keine hardware- und software-infrastruktur aufbauen können.
er wedelte missbilligend mit der hand und sagte: „du brauchst nur 17.“
ich bin verwirrt. warum nicht 11? oder 23? ich muss etwas verpasst haben.
letztendlich gibt es zwei hauptmöglichkeiten, ki in der robotik anzuwenden. der erste ist ein hybrider ansatz, bei dem verschiedene teile des systems von ki gesteuert und dann durch programmierung zusammengefügt werden.
bei diesem ansatz könnte das vision-subsystem ki nutzen, um die welt, die es sieht, zu identifizieren und zu klassifizieren. sobald er eine liste der objekte erstellt, die er sieht, empfängt der roboter die liste und verwendet methoden im code, um darauf zu reagieren.
wenn das programm beispielsweise so geschrieben ist, dass es den apfel vom tisch aufnimmt, erkennt das ki-gesteuerte bildverarbeitungssystem den apfel, und das programm wählt „typ: apfel“ aus der liste aus und fragt dann mithilfe der steuerungssoftware nach der roboter greift danach.
ein weiterer ansatz ist das end-to-end-learning (e2e), bei dem versucht wird, die gesamte aufgabe zu lernen. dinge wie „einen gegenstand aufheben“ oder noch umfassendere bemühungen wie „den tisch aufräumen“. der lernprozess wird erreicht, indem der roboter großen mengen an trainingsdaten ausgesetzt wird – ähnlich wie menschen lernen, eine körperliche aufgabe auszuführen.
wenn sie ein kleines kind bitten, einen becher in die hand zu nehmen, muss es möglicherweise lernen, was ein becher ist und dass er möglicherweise flüssigkeit enthält. während er mit der tasse spielte, warf er sie immer wieder um und verschüttete dabei viel milch. aber durch modellieren, nachahmen anderer und viel spielerisches üben können sie es immer lernen – und zwar irgendwann, ohne über die einzelnen schritte nachzudenken.
allmählich verstand ich,solange wir nicht letztendlich beweisen, dass roboter lernen können, aufgaben durchgängig auszuführen, wird nichts anderes von bedeutung sein.nur dann haben wir eine echte chance, dass roboter diese aufgaben in der chaotischen und unvorhersehbaren realen welt zuverlässig ausführen, was uns zu einem wahren volltreffer macht.
es geht nicht um die zahl „17“, sondern darumgroße durchbrüche erfordern kleine teams, und nicht eine armee von ingenieuren. offensichtlich ist ein roboter mehr als sein ki-gehirn, wir müssen immer noch einen physischen roboter entwerfen und bauen.
es ist jedoch klar, dass eine erfolgreiche end-to-end-mission uns glauben lassen würde (in der sprache des mondlandeprogramms), dass wir der schwerkraft der erde entkommen können.
einarmiger roboter
peter pastor ist ein deutscher robotiker, der an der university of southern california in robotik promovierte. in den seltenen momenten, in denen er nicht arbeiten muss, versucht peter, seine freundin beim kitesurfen einzuholen. im labor verbrachte er die meiste zeit damit, 14 proprietäre roboterarme zu steuern, die später durch sieben industrielle kuka-roboterarme ersetzt wurden. wir nennen diese konfiguration „mechanisch“.
diese roboterarme sind rund um die uhr im einsatz und versuchen ständig, gegenstände aus einer kiste aufzunehmen, etwa schwämme, legosteine, kleine gelbe enten oder plastikbananen. ursprünglich waren sie so programmiert, dass sie einen klauenartigen greifer von einer beliebigen position darüber in die kiste bewegen, den greifer schließen, hochziehen und prüfen, ob sie etwas gefangen haben. über der box befindet sich eine kamera, die die objekte in der box, die bewegungen des roboterarms und den erfolg erfasst.
diese ausbildung dauerte mehrere monate. am anfang hatte der roboter nur eine erfolgsquote von 7 %. aber jedes mal, wenn der roboter erfolgreich ist, erhält er positive verstärkung. für roboter bedeutet dies im grunde, dass die sogenannten „gewichte“ im neuronalen netzwerk basierend auf verschiedenen ergebnissen angepasst werden, um gewünschte verhaltensweisen positiv und unerwünschte verhaltensweisen negativ zu verstärken. schließlich lernten die arme, objekte in mehr als 70 prozent der fälle erfolgreich zu greifen.
eines tages zeigte mir peter ein video, in dem ein roboterarm nicht nur einen gelben legostein präzise ergreift, sondern auch andere gegenstände wegstößt, um einen klareren greifwinkel zu erhalten.
ich wusste, dass dies einen echten wendepunkt markierte: der roboterarm war nicht explizit darauf programmiert, diese aktion mithilfe traditioneller heuristiken auszuführen.es wird durch lernen erworben。
aber trotzdem haben sieben roboter mehrere monate gebraucht, um zu lernen, wie man eine kleine gelbe ente fängt? das ist bei weitem nicht genug. selbst hunderte von robotern und mehrjährige übung reichen nicht aus, um ihnen beizubringen, ihre ersten nützlichen, realen aufgaben auszuführen. deshalb haben wir einen cloudbasierten simulator entwickelt und im jahr 2021 mehr als 240 millionen virtuelle roboterinstanzen erstellt.
stellen sie sich diesen simulator wie ein riesiges videospiel vor, mit physischen modellen, die realistisch genug sind, um das gewicht von objekten oder die oberflächenreibung zu simulieren.
tausende virtuelle roboter nutzen ihre virtuellen kamerabilder und virtuellen körper (die echten robotern nachempfunden sind), um aufgaben wie das aufheben einer tasse vom tisch auszuführen.
sie liefen gleichzeitig, versuchten und scheiterten millionenfach und sammelten daten, um die ki-algorithmen zu trainieren. sobald die roboter in simulationen ausreichend gute leistungen erbringen, werden diese algorithmen für ein abschließendes training in der realen welt auf physische roboter übertragen, damit diese die neu erlernten aktionen umsetzen können.
ich stelle mir diesen simulationsprozess immer wie einen roboter vor, der die ganze nacht träumt und dann aufwacht und etwas neues gelernt hat.
narr, das problem sind die daten
als wir zum ersten mal mit chatgpt aufwachten, kam es uns wie magie vor. ein ki-gestütztes system kann tatsächlich vollständige absätze schreiben, komplexe fragen beantworten und fortlaufende gespräche führen. gleichzeitig verstehen wir aber auch die grundsätzlichen grenzen: um dies zu erreichen, müssen wir viele daten verbrauchen.
roboter nutzen bereits große sprachmodelle, um anweisungen zu verstehen, und visuelle modelle, um zu verstehen, was sie sehen, was ihren youtube-demonstrationsvideos ein fantastisches aussehen verleiht.
aber robotern beizubringen, mit uns autonom zu leben und zu arbeiten, ist ein ebenso großes datenproblem. obwohl es simulationstraining und andere möglichkeiten gibt, trainingsdaten zu generieren,es ist unwahrscheinlich, dass ein roboter eines tages mit einem hohen maß an leistungsfähigkeit „aufwacht“ und sich stattdessen auf ein basismodell verlässt, das das gesamte system steuern kann.
wir sind uns immer noch nicht sicher, wie komplexe aufgaben wir robotern mit ki beibringen können. ich bin gerade zu der überzeugung gekommen, dass es, abgesehen von diesen sehr engen, genau definierten aufgaben, erforderlich sein kann, dass roboter tausende oder sogar millionen von robotern wiederholt aufgaben in der realen welt ausführen und genügend daten sammeln müssen, um roboter zum lernen zu bewegen. endmodelle. mit anderen worten: erwarten sie nicht, dass roboter in absehbarer zeit unserer kontrolle entkommen und dinge tun, für die sie nicht programmiert sind.
sollten sie wirklich wie wir aussehen?
pferde sind beim gehen und laufen auf vier beinen sehr effizient, aber wir entwickeln autos mit rädern; das menschliche gehirn ist ein äußerst effizienter biologischer computer, und chip-basierte computer erreichen bei weitem nicht die leistung unseres gehirns. warum haben autos keine beine und warum sind computer nicht unserer biologie nachempfunden?
das ziel beim bau eines roboters sollte nicht nur die nachahmung sein.
das habe ich neulich erfahren, als ich in einem meeting mit den technischen leitern von everyday robots war. wir saßen am konferenztisch und überlegten, ob unser roboter beine oder räder haben sollte.
solche diskussionen neigen oft dazu, sich eher in religiöse debatten als in faktenbasierte oder wissenschaftliche diskussionen zu verwandeln. manche menschen bestehen sehr darauf, dass roboter wie menschen aussehen sollten, und das aus gutem grund: wir gestalten unsere lebens- und arbeitsumgebungen so, dass sie menschen entgegenkommen, und wir haben beine, also sollten roboter vielleicht auch beine haben.
nach etwa 30 minuten meldete sich vincent dureau, der ranghöchste technische leiter im raum, zu wort. „ich dachte, wenn ich irgendwohin komme, sollte auch ein roboter dorthin gelangen können“, sagte er einfach, während er in seinem rollstuhl saß.
im raum wurde es still und der streit endete.
tatsächlich sind roboterbeine sowohl mechanisch als auch elektronisch komplex. sie bewegen sich nicht sehr schnell, neigen dazu, den roboter instabil zu machen und sind im vergleich zu rädern nicht sehr energieeffizient.
wenn ich heute unternehmen sehe, die versuchen, humanoide roboter zu entwickeln – roboter, die danach streben, menschliche form und funktion nachzuahmen –, frage ich mich oft, ob dies eine einschränkung der vorstellungskraft ist.
es gibt so viele designs zu erforschen, die menschliche mängel kompensieren können. warum sollten wir auf nachahmung bestehen?vincents worte erinnern uns daran, dass wir den problemen priorität einräumen sollten, die am schwierigsten und wirkungsvollsten sind.bei everyday robots versuchen wir, unsere roboter so einfach wie möglich zu halten, denn je früher ein roboter reale aufgaben ausführen kann, desto eher können wir wertvolle daten sammeln.
wie fühlt es sich an, von robotern umgeben zu sein?
ich saß an meinem schreibtisch, als sich ein einarmiger roboter mit einem runden, rechteckigen kopf herumrollte, meinen namen rief und fragte, ob ich wollte, dass er aufräumte. ich sagte ja und trat beiseite.
ein paar minuten später nahm es mehrere leere pappbecher, einen durchsichtigen eisteebecher von starbucks und eine plastikverpackung von einem kind-energieriegel auf. es legte die gegenstände in einen an der basis befestigten mülleimer, drehte sich dann zu mir um, nickte und ging zum nächsten schreibtisch weiter.
dieser schreibtischreinigungsservice stellt einen wichtigen meilenstein dar: er zeigt, dass wir auf einem guten weg sind, ein ungelöstes teil des robotik-puzzles zu lösen. roboter beginnen, ki zuverlässig zu nutzen, um menschen und objekte zu erkennen!
benji holson ist ein softwareentwickler und ehemaliger puppenspieler, der das entwicklungsteam für den dienst leitet. er plädiert seit jeher für einen hybriden ansatz und ist nicht gegen durchgängige lernaufgaben, sondern bevorzugt die einstellung „lassen sie sie jetzt etwas nützliches tun“.
ich bin es gewohnt, dass roboter herumlaufen und aufgaben wie das reinigen meines schreibtisches erledigen. gelegentlich sehe ich neue besucher oder ingenieure, die gerade dem team beigetreten sind. sie werden die geschäftige gestalt des roboters mit einem ausdruck der überraschung und freude im gesicht betrachten.
aus ihrer sicht wurde mir klar, wie neu das alles war. wie unser designchef rhys newman (mit seinem walisischen akzent) sagte, als er eines tages den roboter vorbeigehen sah: „ist es nicht ein bisschen seltsam, dass das zur norm geworden ist?“
alles endet, es ist erst der anfang
auch ende 2022 sind die diskussionen rund um „end-to-end“ und „hybrid-methoden“ noch aktiv.
peter und sein team haben zusammen mit unseren kollegen bei google brain hart daran gearbeitet, reinforcement learning, imitation learning und transformer-architekturen auf verschiedene robotikaufgaben anzuwenden. sie haben erhebliche fortschritte dabei gemacht, zu zeigen, wie roboter allgemein, robust und belastbar lernen können.
unterdessen kombiniert das von beinji geleitete anwendungsteam ki-modelle mit traditioneller programmierung, um prototypen zu erstellen und roboterdienste zu erstellen, die in menschlichen umgebungen eingesetzt werden können.
in der zwischenzeit veränderte eine zusammenarbeit mit der tänzerin katie an einer multi-roboter-installation, die als project starling bekannt wurde, meine einstellung zu diesen maschinen.
mir fiel auf, dass die menschen von diesen robotern mit einem gefühl des staunens, der freude und der neugier angezogen wurden. dadurch wurde mir klar, wie roboter, die sich unter uns bewegen, und die geräusche, die sie machen, tiefe menschliche emotionen auslösen können. dies wird einer der schlüsselfaktoren dafür sein, ob wir sie in unserem täglichen leben willkommen heißen.
mit anderen worten: wir stehen kurz davor, unser größtes ziel zu erreichen: roboter mit ki-antrieb. ki gibt ihnen die fähigkeit, die sprache, die sie hören (gesprochen und geschrieben), zu verstehen und in handlungen umzusetzen, oder zu verstehen, was sie sehen (kamerabilder) und sie in szenen und objekte zu übersetzen, die sie manipulieren können.
nach mehr als sieben jahren arbeit verfügen wir über eine flotte von robotern, die in mehreren google-gebäuden eingesetzt werden. der gleiche robotertyp übernimmt eine reihe von aufgaben: automatisches abwischen von cafeteria-tischen, inspektion von konferenzräumen, sortieren von müll und mehr.
im januar 2023, zwei monate nach der veröffentlichung von chatgpt durch openai, stellte google everyday robots jedoch unter berufung auf allgemeine kostenprobleme ein.
obwohl es sicherlich kostspielig und langwierig war, war es dennoch ein schock für alle beteiligten. schließlich wurden der roboter und eine handvoll mitarbeiter zu google deepmind übertragen, um die forschung fortzusetzen.
das große problem, das wir lösen müssen, ist ein globaler demografischer wandel – eine alternde bevölkerung, eine schrumpfende erwerbsbevölkerung und arbeitskräftemangel. und unsere bahnbrechende technologie – das wussten wir schon 2016 – würde künstliche intelligenz sein. die radikale lösung: völlig autonome roboter, die uns bei den aufgaben unseres täglichen lebens unterstützen können.
der roboter erschien nicht rechtzeitig, um meiner mutter zu helfen, und sie verstarb anfang 2021. meine gespräche mit ihr gegen ende ihres lebens bestärkten mich in der überzeugung, dass zukünftige versionen von everyday robots irgendwann erscheinen würden. und je früher es kommt, desto besser.
die frage ist also: wie kommt es zu dieser veränderung und zukunft? ich bin darüber sowohl besorgt als auch neugierig.