如今,大多数人工智能驱动的机器人都使用摄像头来了解周围环境并学习新任务,但用声音训练机器人正慢慢的变容易,能够在一定程度上帮助它们更好地适应能见度有限的任务和环境。
虽然视觉很重要,但在日常任务中,声音实际上更有用,比如通过洋葱在炉子上嘶嘶作响的声音,来判断锅的温度是否合适。
然而,用声音训练机器人只在高度受控的实验室环境中进行,而且这些技术落后于其他快速机器人训练方法。
美国斯坦福大学机器人和AI实验室的研究人员正着手改变这一现状。他们第一步建立了一个收集音频数据的系统,包括一个 GoPro 相机和一个带麦克风的夹持器。该麦克风可以过滤环境噪声。
人类演示者会带着设备完成各种家庭任务,然后使用这一些数据教机械臂如何独自执行任务。
“到目前为止,机器人一直在无声的视频上训练。”斯坦福大学博士生、该研究的主要作者 Zeyi Liu 说,“但音频中有很多有用的数据。”
为了测试若机器人能够“听见”,以及它能取得更好的成绩,研究人员选择了四项任务:在平底锅里翻转百吉饼、擦白板、把两条尼龙条粘在一起、以及从杯子里倒出骰子。
在每项任务中,声音都会提供摄像头或触觉传感器难以处理的线索,比如知道橡皮擦是否正确接触到白板,或者杯子里是否有骰子。
在对每项任务进行几百次演示后,研究小组比较了使用音频训练和仅使用视觉训练的成功率。相关论文发表在一个未经同行评审的预印本网站上。
当在骰子测试中单独使用视觉时,机器人能在 27% 的时间里准确判断杯子里是否有骰子,但当包括声音时,这一数字上升到了 94%。
这项研究的实验室负责人 Shuran Song 表示,这不是第一次将音频用于训练机器人,但这是朝着大规模训练迈出的一大步:“我们正在让从‘真实世界’收集的音频更容易使用,而不是局限于在实验室收集,因为这更耗时。”
这项研究表明,在用人工智能训练机器人的竞赛中,音频可能会成为更受欢迎的数据源。
他们向机器人展示了数百个正在进行中的任务的示例,而不是人工编码每个任务。
如果能够正常的使用研究中的设备大规模收集音频,这将给机器人一种全新的“感觉”,帮助它们更快地适应能见度有限或看不见的环境。
美国密歇根大学机器人学副教授德米特里·贝伦森(Dmitry Berenson)没有参与这项研究,他说:“能确定地说,音频是(机器人)感知研究中最缺失的地方。”
这是因为训练机器人操纵物体的大部分研究都是针对工业分拣和放置任务,比如将物体分类到垃圾箱中。
但贝伦森说,随机器人的应用场景范围扩展到家庭、厨房和别的环境中,音频将慢慢的变有用。
假设一个机器人试图找到哪个包或口袋里有一串钥匙,但可见性有限。贝伦森说:“在你摸到钥匙之前,你就能听到它们碰撞的声音。这表明钥匙就在那个口袋里,而不是其他的。”
尽管如此,音频仍然具有局限性。该团队指出,声音对衣服等质地柔软或灵活的物体没那么有用,因为它们不会发出那么多可用的(有意义的)声音。
机器人在执行任务时也很难过滤掉自己发出的噪音,因为人类产生的训练数据中不存在这种噪音。
为了解决这一个问题,研究人员需要将机器人的“声音”和致动器噪音添加到训练集中,这样机器人就可以学会将它们过滤掉。
Liu 说,下一步是看看这些模型是否能用更多的数据得到多好的结果。这可能意味着增加更多的麦克风来收集空间音频,并将麦克风集成到别的类型的数据收集设备中。