波士顿机器狗结合 ChatGPT 后,会发生什么事?

波士顿机器狗结合 ChatGPT 后,会发生什么事?

波士顿动力的“大黄狗”Spot 可说是机器人界的网红,会巡逻、会搬砖、会跳舞的 Spot 诞生后就吸引全世界机器人爱好者的目光,谁能拒绝灵活憨厚,还会卖萌的机器狗?

经过多年发展,卖萌不再是 Spot 的“主业”,波士顿动力介绍 Spot 现在能帮助人类完成特定任务,如跨洋轮船检查仪表、参与地势复杂的勘测或救援等。如果以 Spot 灵活身躯再装上 ChatGPT 这么聪明的大脑,会发生什么事?

人工智慧专家 Santiago Valdarrama 还真做出了有“最强大脑”的 Spot。

ChatGPT 大幅简化人机互动

Santiago 分享与改造版 Spot 互动影片,可能是史上第一只会讲话聊天的机器狗。Spot 不只是装了“Siri”的装置,当它回答人类问题时,身体还会随内容和语调摆动,就像瓦力再现。当问“Yes Or No”的简单问题,还会“点头”“摇头”等身体语言回答,可见 Spot 不只内建智慧音箱那么单纯。

接上 ChatGPT 后,Spot 最大变化就是听得懂人话了,且能和消费者以自然语言沟通。Santiago 示范对 Spot 说房间太挤,请它后退,话音刚落 Spot 就理解 Santiago 的意思,往后退了几步,颇有科幻电影的 AI 机器人味道。

过去控制 Spot 需用类似无人机遥控器或以电脑输入指令,现在 ChatGPT 赋予 Spot 强大自然语言理解力,动动嘴就能与机器人对话。ChatGPT 担任人类与机器人的翻译,把人类输入的“人话”转成机器能懂的指令,再把机器人回馈用实际行为或“人话”表达。

Santiago 介绍如何将 Spot 资料输入 ChatGPT,并解释结构及如何读取,达成与 Spot 语音对话。操作员与 Spot 互动可大幅简化,人类可直接问它:“你电量还剩多少?”Spot 就会用说的回答,中间用到 Google 文字转语音技术,再将 ChatGPT 答复经 Spot 的“嘴巴”说出来。

Spot(或内建的 ChatGPT)会根据实际情况回答问题,如问它接下来需完成什么任务时,它会根据设定好任务清单作答,避免像 ChatGPT 编造回答。当操作者下达 Spot 转 90 度、前进 1 公尺的命令,Spot 会调动感测器和定位系统,精准回应命令,不会因“大脑太发达”失去控制。有趣的是,当问它“你是谁?”它会回答“我是 OpenAI”而不是“我是 Spot”。

Santiago 的公司 Levatas 是与波士顿动力合作的 AI 公司,专门帮助企业探索如何利用机器人解决问题。Santiago 认为帮 Spot 装上 ChatGPT 最大意义,是把原本只有技术人员才能处理的复杂数据变成任何人都能看懂听懂的自然语言。

机器人每次执行任务前,都要输入冗长指令集,结束后还会产生大量数据,只有专业技术人员才能从数据分析问题再改善,现在经过 ChatGPT,简单两句话就能搞定,当机器人操作门槛变低后,机器人使用情景就会更丰富。

AI 大模型潜力不容小觑

“最强大脑”版 Spot 并不是一蹴可及,一个月前 Santiago 曾上传影片介绍能“听懂人话”的 Spot,用到 OpenAI 另一个重要 AI 模型 Whisper。这“初版”智慧 Spot,Santiago 有详细介绍原理:

Whisper 可高效将语音即时转成文字,正确率和速度都非常可观。透过 Whisper 与 Spot 的 SDK 结合,可从人类的话提取关键字,然后透过 SDK 向 Spot 下指令。

只需要说句话,就可让 Spot 离开充电座去检查仪表是否出问题,大大降低人类操作成本。Santiago 从很好的角度回答广泛讨论的问题:做出 ChatGPT 等大语言模型到底有什么意义?

一开始人们认为 ChatGPT 就只是生成式 AI,有较强自然语言理解能力,可以写文章、做报表,虽然不太可靠,但也算惊艳。后来人们发现只要给 ChatGPT 恰当指令,可帮人类自动完成程式设计或文字处理等,犹如基于自然语言的电脑。

OpenAI 发表外挂程式集功能后,ChatGPT 可与许多网络应用结合,整合很多跨平台操作用对话,形成网络新入口。微软 Copilot 则启发人们对下阶段人机互动想像:图形操作介面不一定永远合理,许多大家习以为常的操作都可由对话取代。

回到 Spot,能更清晰看出大语言模型的意义:简化人机互动,赋予机器人更高级的智慧。无论 ChatGPT 是新网络入口,还是控制具学习能力、问题分析和执行精密操作的工业机器人遥控器,本质上都是把复杂指令集变成自然语言,降低操作成本。

这种赋能使将来工业机器人不仅成为指令执行的工具,更具备与人类大脑相当的智能。就像图形介面把复杂命令行变成直觉图示,点按不同图示的复杂操作又变成简单一句话,人类正从图形使用者介面走向新阶段:自然语言用户介面。

这阶段大语言模型将成为工业机器人的关键技术,简化人机互动,提高生产效率,推动人类科技发展。某些情况下,语言模型理解语言时甚至比人类表现更好。普林斯顿大学教授 Arvind Narayanan 在部落格提到亲身案例。

Arvind Narayanan 为 ChatGPT 接上语音互动,给快 4 岁的女儿试用。就和所有孩子一样,女儿也充满好奇心,经常问 ChatGPT 各种问题,让他意外的是,他告诉 ChatGPT 是和孩童说话时,ChatGPT 回答会更有同理心。

女儿:“关灯后会发生什么事?”

ChatGPT:“关灯后会变得很黑,也可能让人害怕。但不用担心!很多东西能帮你在黑暗中感觉安全舒适。”

《彭博社》专栏作家 Parmy Olson 指出,微软和 Google 都忙着把大模型装上搜寻引擎,却没看到一个事实:ChatGPT 更适合当个陪伴者。Olson 让 ChatGPT 做 EQ 测试,结果分数比她和同事还好。正因 ChatGPT 是用网络文字训练,数据会有大量错误资讯,但这让它更擅长模仿同理。

这些案例说明大语言模型对自然语言的理解能力其实有很大潜力。借助强大理解能力,可用大语言模型达成再次人机互动革命,同时大语言模型为机器人发展带来新可能性。大语言模型让机器人更快理解和处理指令,更快学习和适应新任务和环境。

《纽约客》封面文章〈黑暗工厂〉(Dark Factory)提到,目前工业机器人共同难处就是设计像人手的“末端执行器”(end effector),让机器人以不同力道抓取各种大小形状的物体。

如果这难题解决,机器人能做更多精细工作,自动化程度会大大提高。如各种水果采摘自动化,苹果产品组装流水线不再需要这么多工人。将来工业机器人不仅是指令执行的工具,更具备与人类大脑相当的智能,有学习能力、问题分析和执行精密操作的能力。

工业生产线“肌肉发达”的工业机器人更灵活,可应付各种生产问题,提高生产效率和品质,如车厂,大语言模型可赋予机器人更强智慧和认知力,完成多样化任务,医疗机器人可以自然语言技术与医生和病患交流,提供更佳服务。

大语言模型给机器人更强的大脑,创造更广泛应用场景,很有可能成为第四次工业革命的核心。“语音版”Spot,便是改革的第一丝火花。

(本文由 爱范儿 授权转载;首图来源:影片截图)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。