《AI新生》读书笔记-通过逆向强化学习应对强AI带来的危机

以下文章选自《混沌巡洋舰》

已故的史蒂芬 · 霍金称人工智能是人类面临的最大威胁。尽管霍金是一位受人尊敬的物理学家，但他并不是一位计算机科学家。马斯克将人工智能的应用比作“召唤魔鬼”，但马斯克也不是计算机领域的专家。有几十部电影描绘了一个机器人和人工智能发狂的未来。但它们只是提醒我们，人类在预测未来方面是多么糟糕。

人们很容易忽视机器人大灾难的警告。毕竟，几乎所有该领域的人都同意，我们距离实现人工智能至少还有半个世纪的时间。至于我们今天拥有的人工智能，最好的形容是“白痴学者”。我们的算法可以非常好地执行清晰定义的任务，但是当面对需要解决一般性的问题时，却总是失败。

广告

AI新生：破解人机共存密码——人类最后一个大问题

作者：斯图尔特·罗素

当当

计算机科学家斯图尔特 · 拉塞尔在他的新书《人类兼容性: 人工智能和控制问题》中指出，我们应该重视这些警告。拉塞尔当然知道自己在说什么。他是加州大学伯克利分校的计算机科学教授，世界经济论坛人工智能和机器人理事会副主席，以及美国人工智能协会(AAAI)的研究员。他也是《人工智能: 一种现代方法》一书的合著者，该书是人工智能领域的主要教科书，在全世界1400多所大学中得到应用。

广告

人工智能：一种现代的方法（第3版）（世界著名计算机教材精选）

作者：(美)罗素,诺维格

当当

科幻作家克拉克的第一定律是这样的: 当一位杰出但年长的科学家声称某些事情是可能的，他几乎肯定是正确的。当他说有些事情是不可能的时候，他很可能是错的。《AI新生》的出版，证明顶尖科学家现在认为人工智能的安全性值得写书。尼克 · 博斯特罗姆的《超级智能》以前就充当过这个角色。但是超级智能是在2014年，由一位哲学教授发明的。而《AI新生》在在2019年在美国首先出版，时间更近，而且是由一位更具领域相关性的专家创建的，这意味着如何应对强AI带来的挑战，已经逐渐走入主流学界的关注。

广告

超级智能:路径、危险性与我们的战略

作者：（英）波斯特洛姆　著，张体伟，张玉青　译

当当

书中没有大声疾呼世界末日，也没有否认AI可能带来问题的严重性。Stuart Russell 令人信服地逐个展示人工智能可以给人类带来种种存在性危机。它没有过多地描述它是如何改变社会规则的，而是描述了未来人类在智力可能如同今天的大猩猩(正如人类现在定义着大猩猩应该如何生活)。

为了避免这样的结果，他没有提出不切实际的建议，比如禁止人工智能研究，让决策者参与等等。相反，他的解决方案旨在从内部而不是从外部修改。他提出了一个新的框架(他已经研究了一段时间，被称为逆向强化学习)来为人工智能设定目标，使它们更加符合不确定的人类偏好，而不是目前单一地关注特定目标的达成。

从某种意义上说，作者在这本书中的目的很简单——他想确保人工智能继续为人类利益服务。在讨论如何这一挑战时，这本书更多地介绍了当前和近期的人工智能能力，而不是构想终结者和黑客帝国中的matrix等场景。他花了更多的时间讨论推荐系统，带偏见的人工智能算法，自动驾驶汽车，和alphago而不是最终会奴役我们的机器。

这并不是说，作者忽略了这种可能性，因为他的问题陈述的核心是大猩猩问题。大猩猩的问题可以简单地这样描述: 目前设计的机器将获得对人类的控制——最好的情况是把我们当作宠物，最坏的情况是为我们创造一个敌对的环境，使我们慢慢灭绝，就像我们对待大猩猩那样。

作者充分认识到，也许那一天仍然是几十年后，即使它从来没有做出伤害，但我们仍必须开始关注这个问题，早日开始做准备，因为后果是及其严重的。作者花了整整一章的篇幅，全面地推翻了最常见的防御手段，包括: “ ... ... 但也许根本就没有智慧这回事，所以这种说法毫无意义... ... ”或者“ ... ... 这就像是在担心火星上人口过剩一样”。

第七章——“人工智能: 一种不同的方法”和第八章——“可证实有益的人工智能”是本书的核心。这些章节详述了 AI 中的控制问题。作者的建议是，与其盲目地追随使用者的指令给人工智能设定目标，不如试着弄清楚他或她到底想要什么。这个想法很重要，因为首先，人类的偏好并不总是可传递的。其次，到目前为止，几乎没有关于延迟回报的研究，例如对人类的努力工作和坚持有何价值的量化分析。

例如，想象一个机器人管家接到泡咖啡的命令。但出于某种原因，家里的孩子们不让它去厨房，它该怎么办呢？它应该把孩子们从厨房踢出去以达到煮咖啡的直接目的，还是应该意识到主人对孩子们的偏爱而不是咖啡？或者，如果有人下令做鱼和薯条，发现冰箱空了，它是不是应该从家里的水族馆里拿些鱼？

作者的建议是使机器能够区分奖励信号和实际奖励，这对目前强化学习来说，是相同的。在强化学习的标准方法中，这两者是一样的。这似乎是个错误。相反，他们应该被分开对待。奖励信号提供了关于实际奖励积累的信息，这是需要最大化的东西。这意味着机器需要在概率意义上不追求它的目标，而不是有一个精确的目标。

作者提出了实施人工智能的三条法则(是否让你想起了阿西莫夫?) :

1 机器的唯一目标是最大限度地实现人类的偏好。

2 机器最初不能确定这些偏好是什么。

3 有关人类偏好的最终信息来源是人类行为。

让我们回到之前的咖啡例子，假设这台机器即将启动孩子们，就在这时，主人走过来说，“不！不是那样的。”机器人知道自己的行为可能会降低效用，它会立即修改主人的偏好或咖啡和孩子的目标的概率分布。

正如作者指出的那样，它也可以解决偏好信号不等于真实偏好的问题——如果奖励的定义使它不能被直接观察，那么人工智能就可以通过“逆向强化学习”，知道黑掉人工智能的信号不会创造更高的游戏分数。换句话说，要得到主人的爱，就不能诉诸枪支。

这种方法有其优点，但关键在于实现，因为实现这种方法的技术还没有得到发展。这包括一些复杂的贝叶斯算法——从先验开始，逐步更新概率。然而，因为我们仍然是智人而不是经济人，因此人类的偏好是复杂的，并不符合一个整洁的逻辑系统。我看不出如何能够使用当前的技术来编码抽象目标(这是逆向强化学习的基础)。通过给出数数百万计的具体例子进行训练是一回事，通过推断出的偏好概念进行训练则是另一回事。

但是所有棘手问题的解决方案都是从小处着手的，有一些实验室正在按照这种思路做事，包括这本书作者的实验室。虽然人们可能不同意书中的观点和解决方案，但这并不能抹杀这样一个事实，即强AI带来的问题可能会变得越来越明显。世界各地的研究人员将逐渐开始思考解决方案。然而，这本书将是提出一个问题并试图部分回答它的第一个基本步骤之一。

在书的最后，罗素勾勒出了一个人工智能系统的大致轮廓，这个系统将致力于为人类谋福利，并且永远不会失控。

一个理想的智能系统将只有一个唯一的目标；即实现人类的喜好，而不是自己的目标。而实现这个目标的关键是人工智能要承认它不知道这些偏好是什么。“一台假定自己完全了解真正目标的机器，就会一心一意地追求它。它永远不会问某些行动是否可行，因为它已经知道这是实现目标的最佳解决方案，”罗素写道。

这一点非常重要，因为这正是当前人工智能系统所缺乏的。基于人工智能的推荐系统并不是为了理解和满足人们的偏好而设计的; 它们被设计成最大化自己的目标，即获得更多的广告点击，更多的屏幕时间，更多的购买等等，而不管它们的功能对人类造成的伤害。当前的人工智能系统已经成为许多问题的根源，包括过滤气泡、在线干扰、算法偏差等等。

随着人工智能算法在执行任务时效率的提高，这些问题可能会越来越严重。一个专注于实现单一目标的超级智能人工智能系统，最终将牺牲整个人类来实现这一目标。

最后，罗素认为人类偏好的信息来源是人类的行为和选择。随着人类选择的进化，人工智能将继续学习和进化。书中这样写道：

富有同情心和欢欣鼓舞地利用人类的天赋听起来很棒，但我们也不得不面对渎职行为领域的快速创新。恶意的人们正在迅速地想出新的方法来滥用人工智能，以至于这一章在达到印刷形式之前就可能已经过时了。然而，不要把它看作是令人沮丧的读物，而是一种在为时已晚之前采取行动的号召。

这不是一个完美的方法，罗素承认，他列出了摆在我们面前的许多挑战，例如处理不同人类的相互冲突的偏好和他们主人的邪恶欲望。

“简而言之，我的意思是，如果我们想要保持对越来越智能化的机器的控制，我们需要引导人工智能走向一个全新的方向，”罗素写道。“迄今为止，人工智能系统的愚蠢和有限范围保护了我们免受这些后果的影响，但这种情况将会改变。”

广告

【马斯克万维钢推荐】AI新生破解人机共存密码 AI领军人物斯图尔特·罗素著中信出版社

作者：斯图尔特·罗素

京东

广告

AI新生：破解人机共存密码——人类最后一个大问题

作者：斯图尔特·罗素

当当

更多阅读

《AI新生》读书笔记-通过逆向强化学习应对强AI带来的危机

相关读后感推荐：

发起人

《AI新生》读书笔记-通过逆向强化学习应对强AI带来的危机