2024-09-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Hans Peter Brondmo,曾经 Alphabet 的首席执行官。2016 年时他加入 Google,负责机器人开发。那时最热门的是社交媒体、移动互联网,具身智能像是一个空中楼阁:人人都向往,但实在太遥远。
就连 Brondmo 本人,加入时的任务也并不是什么大项目,而是因为 Google 前前后后收购了 9 家机器人公司,他得去安置这些公司的人员和技术。
这些做机器人的工程师,最终整合进 Google X 实验室,被称为「登月工厂」。
「登月工厂」在机器人领域深耕七年,后来大语言模型出现,具身智能的未来前所未有的耀眼,Google 却决定关闭这个实验室里被寄予希望的项目 Everyday Robots。
近日 Brondmo 为《连线》杂志撰写了一篇长文,回顾了他在 Google 的历程,以及一个他思索许久的问题:机器,一定要像「人」吗?
以下为 Brondmo 的自述,内容编译与删减。
机器人难,难于「登月」
Google X,诞生于 2010 年,源于一个宏大的理念:即谷歌可以解决世界上那些最棘手的问题。
X 被故意设在距离办公区域几英里外的独立建筑中,以培养自己的文化,让人们能够跳出传统思维模式进行思考。
我们投入了大量努力鼓励成员勇于冒险,快速实验,甚至「庆祝失败」,因为失败恰恰意味着,我们设定的目标是极为高远的。
当我加入时,实验室已经孵化出了 Waymo、Google Glass 以及其它听起来像科幻小说的项目,比如飞行能源风车,以及为了给服务不足地区提供互联网,而接入平流层的气球。
X 项目与其它硅谷初创公司的区别在于, X 成员被鼓励进行宏大和长远的思考。实际上,一个项目要被认定为一个登月计划,X 有一套判断「公式」。
首先,项目需要证明它所解决的问题影响到数亿甚至数十亿人。其次,必须有一项突破性技术,为我们提供解决问题的新方法。最后,需要有一个激进的商业或产品解决方案,这个方案听起来可能刚好处于疯狂的边缘,但又不至于完全不可行。
给 AI 一个「身体」
很难想象还有谁比阿斯特罗·泰勒更适合管理 X,他的头衔就是字面意义上的「登月计划队长」。在 Google X 的大楼里——一个改造过的三层高的大型百货商店——你永远能看到阿斯特罗穿着他标志性的轮滑鞋。
再加上他的马尾辫、永远友善的微笑,当然还有「阿斯特罗」这个名字,你可能会觉得自己进入了 HBO 电视剧《硅谷》。
当阿斯特罗和我第一次坐下来讨论,我们该如何处理谷歌收购的机器人公司时,我们一致认为应该采取行动,但做什么呢?
到目前为止,大多数有用的机器人都体型庞大、不够智能且危险,被限制在工厂和仓库里,需要严密监督或者关起来,以保护人们免受伤害。我们如何才能制造出在日常环境中既有帮助,又安全的机器人呢?这需要一种新的方法。
换句话说,我们要在物理世界中给 AI 一个身体,如果有一个地方能够构想出这种规模的项目,我确信那就是 X。
这将需要很长时间,需要很多耐心,需要尝试疯狂的想法并在许多尝试中失败,需要 AI 和机器人技术的重大突破,很可能需要耗资数十亿美元(是的,数十亿。)
AI 和机器人技术的融合势在必行,我们觉得,迄今为止很多只存在于科幻小说中的东西,即将成为现实。
这真的很难
大约每周,我都会和我的母亲通电话,她开场的问题总是一样的:「机器人什么时候来?」
她甚至不打招呼,她只想知道我们的机器人什么时候会来帮助她。我回答,「还需要一段时间,妈妈。」然后她会说,「它们最好快点!」
Hans Peter Brondmo
我的母亲住在挪威奥斯陆,那里有很好的公共医疗保健;护理人员每天会三次到她的公寓帮助她完成一系列任务和家务,主要是与她晚期帕金森病有关的事情。
虽然这些护理人员使她能够独自生活在自己的家中,但我母亲希望机器人能帮她,处理那些现在尴尬又无法处理的小事,或者只是时不时为她提供一个可以依靠的手臂。
「你知道机器人学是一个系统性问题,对吧?」杰夫用探询的眼神问我。杰夫·宾厄姆拥有生物工程博士学位,是一个瘦削、认真的家伙。他在农场长大,以几乎无所不知而闻名。
杰夫试图强调的一个重要观点是,机器人是一个非常复杂的系统,其整体性能取决于其最薄弱的环节。
比如,如果主管视觉的子系统在直射阳光下难以感知前方的物体,那么当阳光透过窗户时,机器人可能会突然「失明」并停止工作。
又或者,如果导航系统不理解楼梯,那么机器人可能会从楼梯上摔下来,伤到自己,可能还会伤及无辜路人。诸如此类,制造一个能够与我们共同生活和工作的机器人是困难的。真的,非常困难。
几十年来,人们一直在尝试编程各种形式的机器人,来执行哪怕只是简单的任务,比如抓取桌上的杯子或打开门,但这些程序最终总是变得极其脆弱,环境稍有变化时就会失败。
一旦你开始仔细思考这一切,你会意识到,除非你把所有东西都锁死,让它们都处于固定的、预设好的位置,而且光线恰到好处且永不改变,否则仅仅是拿起一个绿色苹果,把它放进厨房桌上的玻璃碗里,就几乎成为一个不可能解决的难题——这就是为什么工厂的机器人都被关起来,从照明到它们工作的物品的放置,一切都是可预测的,它们都不必担心会碰到人。
现实世界缺乏可预测性,就像那束阳光。而我们甚至还没有触及真正困难的部分,比如在我们生活和工作的杂乱空间中移动。
如何理解学习型机器人
但显然,你只需要 17 个机器学习专家。
至少拉里·佩奇是这么告诉我的,这是他那些经典的、难以理解的见解之一。
我试图争辩说,我们不可能仅凭一小群机器学习研究人员,就可以实现构建硬件和软件基础设施。
他不以为然地挥了挥手,「你只需要 17 个」。
我感到困惑。为什么不是 11 个?或者 23 个?我肯定是漏掉了什么。
归根结底,在机器人领域应用 AI 主要有两种方法。第一种是混合方法,系统的不同部分由 AI 驱动,然后通过编程缝合在一起。
用这种方法,视觉子系统可能会使用 AI 来识别和分类它所看到的世界。一旦它创建了所见物体的列表,机器人程序就会接收这个列表,并使用代码中的方法来行动。
比如,如果程序被编写为从桌子上拿起那个苹果,AI 驱动的视觉系统会检测到苹果,然后程序会从列表中选出「类型:苹果」,然后使用控制软件,让机器人去伸手拿它。
另一种方法则是端到端学习(e2e),它试图学习整个任务。比如「拿起一个物体」,甚至更全面的努力,如「整理桌子」。学习过程是通过让机器人接触大量训练数据来实现的——很像人类学习执行一项体力任务的方式。
如果你让一个年幼的孩子拿起一个杯子,他们可能需要学习什么是杯子、了解杯子可能装有液体。在玩杯子时,会反复把它打翻,过程中会洒很多牛奶。但通过示范、模仿他人和大量的玩耍式练习,他们总能学会这样做——最终甚至不用思考这些步骤。
我逐渐理解,除非我们最终证明机器人可以学会执行端到端的任务,否则其他都不重要。只有这样,我们才有真正的机会让机器人在混乱和不可预测的现实世界中可靠地执行这些任务,使我们有资格真正成为一个登月计划。
这不是关于「17」这个数字,而是关于大突破需要小团队,而不是工程师大军。显然,机器人不仅仅是其 AI 大脑,我们仍然需要设计和构建一个物理机器人。
然而,很明显,一个成功的端到端任务会让我们相信(用登月计划的话来说),我们可以摆脱地球的引力。
独臂机器人
彼得·帕斯托尔是一位德国机器人专家,他在南加州大学获得了机器人学博士学位。在他难得不工作的时间里,彼得会努力跟上他女朋友,一起玩风筝冲浪。在实验室里,他大部分时间都在控制 14 个专有的机械臂,后来这些机械臂被替换成了七个工业用的库卡(Kuka)机械臂,我们把这种配置称为「机械臂农场」。
这些机械臂全天候运行,不断尝试从一个箱子里拿取物体,比如海绵、乐高积木、小黄鸭或者塑料香蕉。起初,它们被编程为从箱子上方的随机位置,移动爪型抓手到箱子里,关闭抓手,拉起来,然后看看是否抓到了什么。箱子上方有一个摄像头,用来捕捉箱子内的物体、机械臂的动作,以及它是否成功。
这种训练持续了好几个月。一开始,机器人只有 7% 的成功率。但每次机器人成功时,它都会获得正强化。对机器人来说,这基本上意味着神经网络中的所谓「权重」会根据各种结果进行调整,以正强化所期望的行为,负强化不期望的行为。最终,这些机械臂学会了在 70% 以上的情况中成功抓取物体。
有一天,彼得给我展示了一段视频,里面的机械臂不仅准确抓住了一个黄色的乐高积木,还把其它物体推开,以便获得更清晰的抓取角度。
我知道,这标志着一个真正的转折点:机械臂并没有被明确地指令用传统启发式方法编程去做出这个动作,它是通过学习获得的。
但即便如此——七个机器人花了几个月时间,才学会如何抓取一只小黄鸭?这远远不够。即使是几百个机器人,练习数年,也不足以教会它们执行第一个有用的、现实世界中的任务。于是我们构建了一个基于云的模拟器,并在 2021 年创造了超过 2.4 亿个虚拟机器人实例。
不妨把这个模拟器想象成一个巨大的电子游戏,拥有足够真实的现实物理模型,能模拟物体的重量或表面摩擦力。
成千上万的虚拟机器人会使用它们的虚拟摄像头输入和虚拟身体(按照真实机器人建模)来执行任务,比如从桌子上捡起一个杯子。
它们会同时运行,反复尝试并失败数百万次,收集数据以训练 AI 算法。一旦机器人在模拟中表现得足够好,这些算法就会被转移到物理机器人中,进行最终的现实世界训练,以便它们能够实现新学到的动作。
我总是把这种模拟过程想象成机器人整夜做梦,然后醒来时学到了一些新东西。
傻瓜,问题在于数据
当我们第一次醒来发现 ChatGPT 时,它看起来简直像魔法一样。一个由 AI 驱动的系统居然能够写出完整的段落,回答复杂的问题,并且形成持续的对话。但与此同时,我们也明白了它的根本局限性:要实现这一点,需要耗费大量的数据。
机器人已经在利用大语言模型来理解指令,并利用视觉模型来理解它们看到的东西,这使得它们在 YouTube 上的展示视频看起来非常精彩。
但要教会机器人自主地与我们共处和工作,则是一个同样庞大的数据问题。尽管有模拟训练和其他方式来生成训练数据,机器人不太可能会某天「醒来」时就具备高度能力,更多地,是依赖于一个能控制整个系统的基础模型。
我们仍然不确定,凭借 AI,我们能教机器人执行多复杂的任务。我只是逐渐相信,除开那些非常狭窄、明确的任务之外,想让机器人学会任何事情,可能都需要成千上万,甚至上百万的机器人在现实世界中反复执行任务,收集足够的数据来训练端到端模型。换句话说,不要指望机器人很快会脱离我们的控制,去做一些它们没有被编程做的事情。
它们真的该像我们吗?
马在用四条腿行走和奔跑时非常高效,但我们却设计了有轮子的汽车;人类大脑是极其高效的生物计算机,而基于芯片的计算机远远没有达到我们大脑的性能。为什么汽车没有腿,为什么计算机不是以我们的生物学为模型呢?
建造机器人的目标不应该仅仅是模仿。
这是我在某天参加一次与 Everyday Robots 技术领导们的会议时学到的。我们围坐在会议桌旁,热烈讨论着我们的机器人应该有腿还是轮子。
这类讨论往往容易演变成宗教般的辩论,而不是基于事实或科学的探讨。有些人非常坚持认为机器人应该长得像人,理由也不无道理:我们设计的生活和工作环境是为了适应人类的,而我们是有腿的,所以,或许机器人也该有腿。
大约 30 分钟后,房间里最资深的工程经理文森特·杜罗开口了。他简单地说:「我想,如果我能到达某地,机器人也应该能够到达。」文森特坐在他的轮椅上。
房间顿时安静了下来,争论也就此结束。
事实上,机器人的腿在机械和电子上都非常复杂。它们移动速度不快,容易让机器人变得不稳定,与轮子相比,它们的能效也不高。
如今,当我看到一些公司试图制造类人机器人——那些努力模仿人类形态和功能的机器人——我常常思考,这是否是一种想象力的局限。
有那么多设计可以探索,能够补充人类的不足,为什么要执着于模仿呢?文森特的话提醒我们,应该优先关注那些最艰巨、最具影响力的问题。在 Everyday Robots,我们试图让机器人的形态尽可能简单,因为机器人越早能够执行现实世界的任务,我们就能越快收集到宝贵的数据。
被机器人环绕,是怎样一种感觉
我正坐在办公桌前时,一台有着圆角矩形脑袋的单臂机器人滚了过来,叫了我的名字,问我是否需要它清理一下。我说可以,便站到一旁。
几分钟后,它捡起了几个空的纸杯、一杯星巴克的透明冰茶杯,还有一张 Kind 能量棒的塑料包装纸。它把这些物品放进了连接在底座上的垃圾盘中,然后转向我,点了点头,接着前往了下一个办公桌。
这个清理桌面的服务代表了一个重要的里程碑:它表明我们在解决机器人难题的未解部分上取得了不错的进展。机器人开始能够可靠地使用 AI 识别出人和物体了!
贝恩吉·霍尔森是一位软件工程师,曾是木偶师,领导了这个服务的开发团队。他一直提倡混合方法,不反对端到端的学习任务,但更倾向于「现在就让它们做点有用的事」的态度。
我已经习惯了机器人在周围移动,做着像清理办公桌这样的杂活。偶尔我会看到新来的访客或刚加入团队的工程师,他们脸上会带着惊奇和喜悦的表情,注视着机器人忙碌的身影。
从他们的视角,我才意识到这一切是多么新奇。正如我们的设计负责人里斯·纽曼(用他的威尔士口音)在某天看到机器人经过时说的,「这已经变成了常态,是不是有点怪?」
一切结束,都只是开始
2022 年底,关于「端到端」与「混合方法」的讨论仍旧热烈。
彼得和他的团队与我们在 Google Brain 的同事们一直在努力将强化学习、模仿学习以及 Transformer 架构应用于多个机器人任务。他们在展示机器人如何以通用、稳健和有韧性的方式去学习这方面,取得了显著进展。
同时,由贝恩吉领导的应用团队正在将 AI 模型与传统编程结合,原型化并构建可以在人类环境中部署的机器人服务。
与此同时,与舞蹈家凯蒂合作的多机器人装置——后来被称为「Project Starling」——改变了我对这些机器的感受。
我注意到,人们被这些机器人吸引,感到惊奇、喜悦和好奇。这让我明白了机器人如何在我们中间移动,以及它们发出的声音,会深刻触发人类情感;这将成为我们是否欢迎它们进入日常生活的关键因素之一。
换句话说,我们正处在兑现我们最大赌注的重要关口:由 AI 驱动的机器人。AI 赋予它们理解听到的语言(口语和书面语言)并将其转化为行动的能力,或者理解它们所看到的画面(摄像头图像)并将其转化为可以操作的场景和物体。
经过七年多的努力,我们在多个谷歌建筑中部署了一批机器人。同一种类型的机器人正在执行一系列服务:自动擦拭自助餐厅的桌子、检查会议室、分类垃圾等等。
然而,2023 年 1 月,在 OpenAI 发布 ChatGPT 两个月后,谷歌关闭了 Everyday Robots,理由是整体成本问题。
尽管的确成本高昂且时间漫长,但所有参与者仍然感到震惊。最终,机器人和少数员工被转移到 Google DeepMind 继续研究。
我们要解决的巨大问题是一个全球性的人口变化——人口老龄化、劳动力萎缩、劳动力短缺。而我们的突破性技术——在 2016 年时我们就知道——将是人工智能。激进的解决方案是:完全自主的机器人,可以帮助我们完成日常生活中不断出现的事务。
机器人没能及时出现来帮助我的母亲,她于 2021 年初去世。在她生命的最后阶段,我和她的对话让我更加坚定地相信,Everyday Robots 的未来版本终将到来。并且,它越早到来越好。
所以问题是:这种变革和未来该如何发生?对此,我既充满忧虑,也充满好奇。