博士读后感

以下文章选自《Nao》

『于我而言，有三件事值得投入一生，其中之一就是研究机器人』

这是我的博士论文致谢的第一句话。从大一转专业、到决定到交大读博；从实验室最早完成博士开题、到休学创业，读博的经历让我有机会真正从事自己喜欢的事业。

看着阿西莫夫长大的我，对能够『给机器人写代码』这件事充满着向往。怀揣着这个想法，本科刚入学第一个月，我就主动申请从化工系转系到了机械系。

然而，未曾料想的是，清华机械系实际上是『材料系』，本科四年的专业课主要集中在了铸造、锻压、焊接等材料成型领域。直到这时，我才品出机械系面试老师在转专业时问我的那句话，『如果你发现学的东西跟你想象的不一样，怎么办？』

大家常说，清华有三次换方向的机会：刚入学、大一结束和保研。大三的六月份，在确定毕业去向的时候，我就决定，要去一个做机器人的实验室去读博。

但是，当时清华并没有太多做机器人研究的实验室，我找遍了清华机械、精仪、自动化、计算机等专业的导师：要么只做一些欠驱动机构设计；要么只是在单片机上调 PID；要么只是在玩如玩具一般的 Nao 机器人。

我似乎距离我想要的机器人研究越来越远了。

就在这时，清华大学成形装备及自动化研究所所长 D 教授建议我到上交看看。于是，我带着几位教授的亲笔推荐信南下上海交通大学。我至今犹记得七年前第一次见到安川 SmartPal 机器人的激动心情：它在语音控制下，通过视觉寻找桌上的饮料，自动抓起，递给用户。

安川 SmartPal 机器人抓取饮料瓶

『这才是我想做的机器人！』，于是，我加入了交大机器人所 C 老师的实验室。

鉴于实验室两位做视觉的师兄马上就要毕业了，导师便将我的研究方向定为机器视觉，与师兄完成工作交接。当然，由于直博需要同时修完硕士和博士阶段的课程，我又将所有课程都选在了博士第一年。因此除了完成师兄研究的交接，第一年主要时间都是花费在上课与完成大作业上。

当时师兄正在做的工作是，利用词袋法（Bag-of-Features, BoF）进行家用物品分类，为机器人提供抓取信息。由于之前完全没有相关经验，所以花了半年时间看了三百多篇 BoF 的论文，跑各种开源的代码实现，大概了解了各种特征描述子、分类器包括神经网络等，也很早就接触到了 Feifei Li 的 ImageNet （在做深度学习之前，Feifei Li 很多工作都是集中在 BoF 上的），发表了自己的第一篇国际会议文章，也算是入门学术界了。

第一次发表论文，第一次论文获奖

我们实验室与日本安川一直保持着长期的合作，具体形式是由日本安川每年提供一个主题，参与项目的学生（一般10个人左右）根据主题提出自己当年的研究计划。前面针对 BoF 的研究就是当年课题中的一个子课题。我因为交接师兄工作而进入了这个合作项目，也从中找到了自己的研究方向。

可能是因为经过近十年的研发，安川判断，服务机器人一时半会儿还无法普及，所以安川停止了 SmartPal 这条产品线。于是，从我博士第二年开始，安川项目合作主题就从服务机器人转向了工业机器人。

不知道出于什么原因，当时安川方负责此项目的技术开发部部长足立勝（Adachi Masaru）忽然问我，是否愿意换方向做运动规划（motion planning）。

Adachi 说现在的工业机器人只能通过示教的方式进行部署，如果能将之前服务机器人上做的运动规划技术做到稳定高效，并应用在工业机器人上，应该是一个非常有前景的方向。

示教再现的使用方式：技术人员用示教器逐点示教，机器人重复固定动作

由于我原本想做的就是机器人，而非视觉，经过了解，也发现运动规划是个非常好玩的技术，有可能改变工业机器人的使用方式。于是，便开启了我的机器人运动规划之路。

与学习 BoF 的时候一样，我直接就屁颠屁颠地开始翻阅运动规划的论文。

但是，碰壁了。

机器人是一个综合学科，不可能跳过基础模块直接去做上层运动规划。这个时候的我，只学过一些自动控制课程，交大的机器人专业课也只讲到 DH 建模和简单的动力学，论文中出现的图搜索、最优控制、空间投影等，全成了拦路虎。

幸运的是，我在网易公开课、Coursera、edX 等 MOOC 平台和各个高校自己的在线课程平台上找到了很多世界一流的公开课，让我能通过这些平台接触到世界一流的教材与课程，迅速补齐数学、编程和机器人学基础。同时，也接触到了 ROS，借用它得以迅速将算法部署到实际到机器人上。（这些东西在之前写的文章《》中也有提到过）

博士第二年结束的时候，我已经发表了一篇 SCI 论文，完成了博士开题，成为了实验室有史以来最早开题的博士生。那时候我的想法是：快马加鞭，迅速完成另一篇 SCI，尽早毕业。

然而，博二的那个夏天，我替导师参加服务机器人模块化国际标准会议，回了趟北京，顺道回清华拜访了本科的班主任 H 老师。交谈中，H 老师说到，博士阶段，最重要的是掌握科研方法和领域知识，学位反而次之。

我返沪后，仔细反思。忽然发现我自己其实并不真正熟悉机器人的每一个模块：运动规划的结果怎么让机器人动起来、动力学又在机器人控制中起什么作用、力控是怎么一回事、视觉伺服又是怎么实现的？除了运动规划算法，其他部分我都没真正在实际机器人上编程实现过。

于是乎，我忽然就不急着毕业了。整个博士第三年，除了在安川项目中继续进行运动规划研究外，我主动跟导师要了一些自己感兴趣的项目做，我开始接触各种机器人，接触机器人的各个模块，也开始在微信公众号和知乎分享自己的一些工作：

用 UR5 机器人种田（），玩跳一跳（）；

用机器人给核聚变的真空腔开发遥操作拧螺丝功能；

用 Baxter 机器人打磨；

做自动跟随、计价的移动购物小车（）；

用 Nao 机器人识别药品（）；

用语音控制 Kinova 机器人抓取食品；

用 Shadow Hand 玩石头剪刀布（）；

用 SDA5 双臂机器人冲咖啡（）；

做移动机器人的自动导航（）；

用 EtherCAT 开发码垛机器人控制器，并尝试实现协作机器人的功能（；）。

我用过的部分机器人，除此之外还有很多国产或自制的机器人

到了博士第四年，我已经使用过很多种机器人、做过机器人各个方面的研究工作、实现过各种运动规划算法、与很多机器人领域的大牛交流过。但是，我心里一直存在一个疑问：

我们人类控制手臂运动的时候好像不是这样的，我们不需要随机采样，也不会有局部极小值。运动规划不应该是这样的！

就在这个时候，AlphaGo 出现在了我的眼前，它以 4:1 击败韩国职业围棋选手李世石！

我反复看了好几遍 DeepMind 的文章，产生了一种感觉：这个方法好酷！围棋和机器人运动规划一样，是严格的马尔科夫决策过程（MDP），同时都因为巨大的状态空间而无法使用传统的强化学习方法进行求解。

围棋巨大的搜索空间

那么，深度强化学习有没有可能应用在机器人运动规划上？

于是，我开始去学习深度学习与强化学习。在看强化学习的时候，不断有一个声音告诉我，人就是这样学习的，这方法靠谱！

几乎与此同时，UC Berkeley 的 Sergey 发表了他们利用深度强化学习进行机器人端到端控制的工作。这进一步强化了我的想法：

于是，当年的安川项目我的研究课题变成了用深度强化学习做机械臂运动规划。

然而，经过一年的摸索实验，以及中间与 David Silver 的邮件交流；我感觉，强化学习是对的，但是深度网络似乎不足以完全拟合出强化学习的策略，机器人只能学习到一些简单的策略，目前 DRL 的泛化性在实际环境中效果远差于传统的运动规划算法：

传统规划算法与深度强化学习效果对比

虽然目前还没有足够优雅的强化学习算法，但是我依然认为，从学术界研究来说，这会是一个很有趣的方向。而且，强化学习中的 Monte Carlo，Dynamic Programming 等方法其实就是运动规划中 RRT* 和 A* 算法的另一种描述。

有过尝试，便了了心结。博士第五年，我就开始整理自己过去四年的研究，准备大论文，同时考虑毕业后的去向。

由于多年与日本安川的沟通交流，加上自己本科在不同工厂中看到的实际情况，我深知，这个世界上工业机器人的普及率还非常低，除了标准化非常高的汽车制造业，大多数行业都无法使用机器人。这主要是因为机器人只能执行固定动作，在产品更迭快的行业不可能普及机器人，因此绝大多数制造业依旧是劳动密集型，众多的劳动力被禁锢在重复、枯燥、甚至是环境有害的流水线上。而我博士期间研究的运动规划技术就是解决这一问题的关键技术之一，我希望能够将研究的东西真正应用到实际的工业机器人上！

2017年，机器人正值风口，一时间冒出了很多创业公司、也有很多传统公司加入到机器人研发行列。于是，我在那一年开始尝试实习，开始尝试与工业界开展更多的交流，与当时几乎国内外所有的机器人+视觉创业公司创始人进行了较为深入的学习与交流。我也拿到了不少创业公司，包括日本安川的 offer。

但是，我感觉大家在做的事情似乎跟我想做的有点不一样！

这个时候，一直躺在微信列表的李辉忽然问我说，考不考虑自己搞？

『搞！』

人有时候就是这样，靠直觉做决定。我俩之前其实除了技术交流，并无太多沟通。只是直觉认为，我们可以分别把 3D 视觉和运动规划做好，只有这两部分的深度结合，才可能做到我想做的事情。

于是，李辉和我分别从奥地利与上海飞到了北京。在没有任何商业计划、甚至没说我们要做什么的情况下，与高榕资本的岳斌确定了天使轮的投资。

当天晚上，我们在酒店旁边 24 小时营业的快餐店具体讨论了一下想做的事情以及具体的技术路线。之后，就又各自飞向了奥地利与上海。2018年4月，李辉在深圳注册了『深圳市如本科技有限公司』，而我则继续在上海完成学业，远程筹备公司事务。

然而，我这边似乎并不那么顺利。虽然发表了三篇 SCI，达到了学校毕业标准，但是导师认为我的研究过于侧重理论，在机械电子这种重实践的专业上，必须结合实际项目才比较容易通过答辩。数次在组内试讲答辩内容，都被这个原因打回。

2018年5月24日，我决定休学！

当时的手机备忘录里，我写下了如下文字：

『三月份我就已经准备好了毕业所需的所有东西，但被一些莫名其妙的东西拖到现在也还没预答辩，我感觉这个学期我没有学到任何新的东西，这让我感觉非常烦躁。仔细想来，拿博士学位这件事在我整个生命里似乎并不是那么重要。人生苦短，既然找到了更有意义的事情，便感觉自己这段时间就是在浪费生命』

于是，我敲开导师的办公室门，提出了自己要休学的想法。我们聊了一个多小时。之后就南下深圳，正式开始了创业。

作为公司创始人，长期从事技术研发的李辉与我，清楚地知道我们要做什么，要做成这件事需要哪些准备工作。我们不能直接使用各种并不稳定的开源机器人软件平台，我们得从头自己写；我们没有找到精度、性价比满足我们未来需要的3D相机，我们得从硬件开始自行开发。这两件事都是不容易的，我们需要一段比较长的时间埋头开发，亲手将这些东西搭建好，因此，这就奠定了如本科技创立两年来一直低调行事、严谨务实的风格。

感谢这段时间，我得以将博士研究的理论通过一行行代码逐渐实现，并部署到实际机器人上；我们得以搭建起一支优秀的研发团队；公司也得以推出三款还不错的产品（）：

2020年年初，忽然接到学院研究生办的通知，我的学籍时间快到最长时限了，无法继续延长休学时间。由于，我的研究内容在一些实际机器人得到了验证，这时候导师也希望我尽快完成答辩。

于是，2020年6月，受疫情影响，我以线上答辩的形式完成了博士答辩。

除了可以名正言顺地接受别人称呼自己『邱博』外，拿到学位与否似乎对我并没有太多的不同。工业机器人还是不够好用，绝大多数的制造业还是依靠人力，我们还需要更多优秀的人一起在机器视觉与运动规划方面继续努力。

相关读后感推荐：

发起人

博士读后感