-
MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以
- 2020-06-08
-
作者/量子位 方栗子
本文经 AI 新媒体量子位(公众号 ID:QbitAI)授权转载,转载请联繫出处
先提一个可能直击灵魂的问题:你家洗碗槽里的碗,放几天了?
显然,你和她都不想先去洗,那样就是低了头。
让服务机器人出面化解这场僵持,可能还只是想想而已。不过,训练 AI 在虚拟世界里做家事,已经有人在做了。他们还说,教 AI 做虚拟家务,是为了今后能 让机器人全权代理人类的家务工作 。
以麻省理工(MIT)和多伦多大学的研究人员为主的一支 AI 团队,建立起了名为 VirturalHome 的家庭环境模拟器,化为人形的 AI 可以在里面学习大量的生活技能。
事无鉅细模拟器VirtualHome 由三个部分组成。
一是 家事知识库 ,里面包含了人类在家庭生活里会经历的各种活动。
教 AI 做事情不容易,比如让它看电视,如果不告诉它坐到沙发上、拿起遥控器,它自己并不会去做这些準备动作;所以,不论一项技能多幺日常,都需要把它尽可能拆解成细小的步骤,比如走进厨房,拿起杯子之类。
于是知识库里的每一个任务,都要包含分解动作的文字描述,以及用来执行的脚本。
二是 3D 模拟器 ,里面有 6 个公寓,以及 4 个人物可以选择。虚拟环境中,案例、语意标籤注解、深度、姿势以及光源,应有尽有。
在这里面,角色可以执行程序给定的任务,生成各种家务活动的影片。
三是 脚本生成模型 ,根据自然语言描述或者视频内容,生成相应任务的执行程序。在模拟器并不十分广阔的天地里,研究人员要训练神经网络的各项家事技能。
论文里说,这项研究的目标,就是 让 AI 在自然语言和影片的指引之下,自己写出程式来做好家务 。
一步很难登天,那幺,三步怎幺样?
一、数据怎幺搞要训练出一只可靠的家务 AI,首先就是蒐集各种家务活动的数据,这要分为两个部分。
第一部分,让一群临时工(AMT worker)来提供任务的口头描述。每个人要想出一项日常家庭活动,给出高级名称,比如「做咖啡」,然后 描述它的分解步骤 。
活动按起始场景分类就有 8 种,客厅、厨房、餐厅、卧室、儿童房、浴室、玄关、书房,每个场景都包含了 350 个物体。
第二部分,临时工们会用图形编程语言, 把这些描述翻译成程式 ,当然也需要详细的步骤(每一步都是一个 block),而且要比描述的还要全面——要让(目前还不存在的)机器人能够贯彻落实。
数据集就这样建好了,里面充满了大大小小的任务所对应的程式。
二、动画化把数据集里的程式变成动画,首先要看房间里的哪个物体是要操作的对象,同时生成合理的动作。这里,系统需要把一个任务的所有步骤都看过一遍,然后规划一条合理的路径。
比如,执行一项「打开电脑然后敲键盘」的任务,比较理想的流程是,开机之后就在离目标电脑最近的键盘上操作就可以了,不用再确定哪一个才是目标键盘。
这就是 VirtulHome 生成的影片啦。
原子动作动画化
每个任务都是由大量 原子动作(Atomic Actions) 组成的,把它们全部动画化是个不小的工程。
这里用到了 12 种最常见的动作:走/跑、抓取、按键开/关、(物理)打开/关闭、放置、望向、坐下/站起,以及触摸。每种动作的执行方式不唯一,比如开冰箱和开抽屉,姿势就不一样了。
团队用 Unity 引擎里的 NavMesh 来导航;用 RootMotion FinalIK 反向动力学包,把每个动作动画化。另外,跟人物发生交互的物体,也要发生相应的动作。
程序动画化
要让程序里的任务显现成动画,就要先在程序中的物体、和模拟器场景中的物体之间建立映射。然后为程序里的每一步, 计算人物和目标物体的相对位置 ,以及计算其他与动画化相关的数字。
记录动画
模拟器的每个房间里,有 6 到 9 台摄影机,每个公寓平均下来 26 枚。
这些摄影机不需要一直开启,系统根据人物所在的位置来决定启用哪些摄影机。记录下来的影片,下一步可以餵给神经网络, 训练它生成自己的程式 。
三、用影片和自然语言生成程式给 AI 一段影片,或者一段自然语言,让它自动生成相应的家事执行程式,做一只有觉悟的 AI。
团队调整了 seq2seq 模型,来适应这个任务,然后用强化学习来训练它。
这里的模型,是由两只 RNN 组成的,一只给输入序列编码,另一只负责解码。神经网络每次可以生成一项家事中的一个步骤。
研究人员用 word2vec 给文本编码;处理影片的话,他们用到了 DilatedNet 和 Temporal Relation Netork,并把每条影片拆成许多个 2 秒长的片段,然后用模型来预测中间帧的样子。
接下来,学习和推断的部分分成两步。
- 用交叉熵损失(Cross Entropy Loss)对解码器做预训练。强化学习登场,智能体要学习一下策略 (Policy) ,用来生成程序里面的步骤。
数据集的质量如何?动画化的效果怎样?系统生成的程式又能不能指向希望的任务呢?
测试过程请见 论文 。不过在那之前,先看看这个人。
看电视的任务做得很流畅,他还会找个舒服的姿势坐下来,很悠然。团队也觉得,从生成的影片来看,各种任务的完成度还是不错的。
下一步,就要给 AI 餵真实拍摄的视频了,毕竟模拟器里发生的一切,和物理世界还是不一样的。
是太幸福了吧?毕竟,模拟器里的家庭环境一成不变,东西都摆在它该在的地方,也没有小朋友跑来跑去。在机器人接手任务之前,AI 可能还需要在更加难以预测的模拟环境里,训练很长时间。
另外,就算环境变化不是问题,真实的家务操作也并不像捡个装备那幺简单,容错率非常低。
比如,端一杯咖啡不可以只有 90% 的準确度,95% 也不太行。因为,百 分之一的差错,会造成百分之百的灾难 。
CVPR 欢迎您不久以后,研究团队就要怀着激动的心情,登陆 CVPR(IEEE 国际电脑视觉与模式识别会议),在世人面前宣告,他们为了这个宏远的理想,踏出了多幺坚实的一小步。
代码还没放上 Github,不过可以先看看 论文 啊。
-
上一篇:MIT AI 实验室负责人:不懂技术没关係,别一窝蜂把 AI
下一篇:MIT 做了个「盲豹」机器人,爬楼梯腾空跳全无难度
-
小编推荐
-
比特币挖矿立大功!台湾3月出口创新高 2020-07-19
-
比特币是什幺?让发明人中本聪的论文告诉你(上) 2020-07-19
-
比特币暴跌12% 韩一交易所系统遭网骇 2020-07-19
-
比特币暴跌至4,700美元 加密货币走势衰退 2020-07-19
-
比特币暴跌至4,700美元 加密货币走势衰退 2020-07-19
-
比特币期货表现失望?芝加哥商品交易所:不想再推其他虚拟货币衍 2020-07-19