【创科广场】增强学习商用成真机械人执货百发百中

2020-02-05 11:11

刚出版的麻省理工科技评论报道一家位于加州柏克莱的初创Covariant.ai，以人工智能的增强学习训练，机械人已可在货仓内「执货」，自动分类大量物件，技惊四座。

增强学习自我产生大量数据，不断以奖励机制改善行为，适合于机械人训练，甚至自动驾驶训练。Covariant就是以增强学习，为德国专门为货仓物流提供方案Knapp。Knapp向全球的AI初创发出任务是，利用视觉运算协助机械人分类，结果只有Covariant胜出。

AI之父参与投资

Covariant.ai来头不少，创办人之一Pieter Abbeel史丹福大学博士毕业。Covariant.ai获行业内多位AI专家投资；包括2018年图灵奖得主Geoffrey Hinton及Yann LeCun（前两者与Yoshua Bengio一同获奖，三人获誉为「AI之父」）、Google人工智能主管Jeff Dean、史丹福大学教授李飞飞、麻省理工电脑及人工智能实验室Daniela Rus、多伦多大学教授Raquel Urtasun，也亦获中国百度投资。

不少人知道AI最大价值，包括深度学习训练可处理传统电脑编程不能处理的问题，最明显是视觉运算，以往难以用逻辑编辑，如今建立深度学习训练模型，人脸识别就是其中之一。人脸识别以监督式学习完成模型训练，识别能力已超越了人类。

监督式学习（Supervised Learning）必须经过标记数据，此外也要求大量运算能力，不少标记数据难以自动化，属「劳动密集」工作，中国也出现了大量「数据工厂」和「数据标记员」。但增强学习的原理跟监督式学习（Supervised Learning）完全不同，更像有一位老师，站在模型旁边监督。老师完全知道答案的对错。增强学习更给学习模型（即是上述机械人）奖励和惩罚，不断修正改进。

准确率超越99%

Covariant.ai通过强化学习，模型能在不同环境，辨识出大量不同物件。Covariant.ai为Knapp训练机械臂，已经德国两个货仓；包括柏林市电力供应器材分销商Obeta的货仓，取代人手分货执勤，吸引全球参观人士。
Covariant.ai不但可分辨形状相似，反光的金属物件、透明塑胶水瓶、一排排的药丸、每次看来不同形状物品；如衣服和食物胶袋，更辨别以透明胶袋包装内的物件。

Covariant.ai利用多部视像镜头，作为机械人的「眼睛」；首先人手示范，录下人类动作和动作次序，以产生机械人行为，机械人再通过多次尝试，纪录每次抓取物件成功率，试验多种策略，不断自我改良，甚至调整策略，先取蔽掩物件货品，或者压走袋内多馀空气，加快执货过程。

据Knapp副总裁Peter Puchwein说，随着辨识物件的难度提高，不少初创AI模型，不久就被难倒；Covariant.ai的模型辨认和挑选货物，即使物件位置如何摆放重叠，甚至具备有包装，都难不倒视觉运算，达99.5%以上准确率，也是技术商用最低条件，Covariant.ai也是Knapp接触多家AI初创之一，唯一可坚持最底，克服所有挑战。

增强学习正式商用

Covariant.ai增强学习在取得的突破，在于增强学习一向耗用大量运算资源，一度更被认为难以商用，只有财力雄厚车厂，可用作训练自动驾驶；Covariant.ai改良增强学习，大大减少训练模型所需算力，取得的费用低于一般工人，更年中无休。

例如以模仿学习（Imitation Learning）以观察其他知觉和动作为示范算法，例如人类的动作，向模型提供了基本资讯，减少训练时间，模型再揣摩学习。另一技巧则为Meta Learning（元学习），或者叫做Learning to Learn（学会学习），让AI自己学会思考，掌握推理，精益求精。Meta Learning听似很玄，核心是优化学习过程的算法，加快模型掌握各种工作技巧；Meta Learning已是继增强学习后，最热门的研究。由于算法能够自我学习，所以被称为Covariant Brain平台。上述研究有效减少训练成本，也对于未来增强学习，带来重大启示，因为机械人通过学习掌握的动作愈多，加上准确率提高，就愈快可转移到商用。

全文刊于《星岛日报》「创科广场」