作者:维多利亚·克拉科夫娜(Victoria Krakovna),乔纳森·上萨(Jonathan Uesato),弗拉基米尔·米库里克(Vladimir Mikulik),马修·拉赫兹(Matthew Rahtz),汤姆·埃弗里特(Tom Everever),拉玛娜·库玛(Ramana Kumar),扎克·肯顿(Zac Kenton),杨·雷克(Jan Leike),沙恩·莱格(Shane Legg) — — DeepMind 人工智能安全团队

译者:朱小虎(Xiaohu Zhu) — — Center for Safe AGI 创始人

本文交叉发布在 DeepMind 的官方网站上。

规格欺骗是一种在没有达到预期结果的情况下满足目标字面规格的行为。即使没有这个名称,我们都有过规格欺骗的经验。读者可能已经听说过迈达斯国王的神话和点石成金的故事,其中国王要求将他接触的任何东西都变成黄金 — — 但很快就发现,甚至是食物和饮料也变成了他手中的金属。在现实世界中,当学生因在一项家庭作业上的出色表现而获得奖励时,他可能会抄袭另一个学生来获得正确的答案,而不是通过学习材料,从而利用了任务规格中的漏洞。

在人工智能体的设计中也会出现这个问题。例如,强化学习智能体可以找到一条获得大量奖励的捷径,而无需按照人工设计者的意图完成任务。这些行为很常见,到目前为止,我们已经收集了大约 60 个示例(汇总了现有 列表和人工智能社区的持续贡献)。在这篇文章中,我们回顾了规格欺骗的可能原因,分享了在实践中发生这种情况的案例,并争论了关于解决规格问题的原则方法的进一步工作。

让我们来看一个例子。在乐高积木堆叠任务中,理想的结果是使红色块最终位于蓝色块的顶部。当智能体未触摸红色块的底面高度时,会对其进行奖励。智能体没有执行相对困难的操作来捡起红色方块并将其放置在蓝色方块的顶部,而是简单地将其翻转到红色方块上以收集奖励。这种行为达到了既定目标(红色方块的高底面),而牺牲了设计人员实际关心的内容(将其堆叠在蓝色方块的顶部)。

我们可以从两个不同的角度考虑规格欺骗。在开发强化学习(RL)算法的范围内,目标是构建学会实现给定目标的智能体。例如,当我们使用 Atari 游戏作为训练强化学习算法的基准任务时,目标是评估我们的算法是否可以解决困难的任务。在这种情况下,智能体程序是否通过利用漏洞来解决任务并不重要。从这个角度来看,规格欺骗是一个好的信号 — — 智能体已找到一种实现指定目标的新式方法。这些行为说明了算法的独创性和强大能力,它们可以找到确切地执行我们告诉他们的操作的方法。

但是,当我们希望智能体实际去堆叠乐高积木时,相同的创造力可能会带来问题。在构建能够在世界范围内实现预期结果的对齐的智能体的更广泛范围内,规格欺骗是有问题的,因为它涉及智能体以牺牲预期结果为代价来利用规格中的漏洞。这些行为是由于预期任务的规格不正确而不是强化学习算法中的任何缺陷引起的。除了算法设计之外,构建对齐智能体的另一个必要组件是奖励设计。

准确地反映人类设计者意图的设计任务规格(奖励功能,环境等)往往很困难。甚至对一个存在轻微的错误规格指定,一个非常好的RL算法也许能够找到与预期解决方案完全不同的复杂解决方案,即使一个更差的算法无法找到该解决方案,但得出的结果反而更接近于预期的解决方案。这意味着,随着强化学习算法的改进,正确指定意图对于实现所需结果变得更加重要。因此,至关重要的是,研究人员正确指定任务的能力必须与智能体寻找新颖解决方案的能力保持一致。

我们在广义上使用术语任务规格来涵盖智能体开发过程的许多方面。在强化学习设置中,任务规格不仅包括奖励设计,还包括训练环境和辅助奖励的选择。任务说明的正确性可以确定智能体的创造力是否符合预期结果。如果规格正确,智能体的创造力将产生理想的新颖解决方案。这就是 AlphaGo 走出著名的第 37 步的原因,这使人类围棋专家感到惊讶,但这在与李世石的第二场比赛中至关重要。如果规格错误,则可能会产生不良的博弈行为,例如翻转方块。这些类型的解决方案取决于一个范围,我们还没有一个客观的方式来区分它们。

现在,我们将考虑规格欺骗的可能原因。奖赏功能失准的一种根源是设计不当的奖赏塑造。奖励塑形通过在解决任务的方式上给予智能体一些奖励,而不是仅仅奖励最终结果,使学习一些目标变得更加容易。但是,如果奖励不是基于潜力的,则可以改变最优策略。考虑一个在海岸奔跑者游戏中控制船只的智能体,该游戏的预期目标是尽快完成比赛。智能体因在赛道上击中绿色方块而获得了成形奖励,这将最佳策略更改为绕行并一遍又一遍击中相同的绿色方块。


Ryan Carey 和 Eric Langlois 介绍了塑造行为的动机论文的工作。由 Xiaohu Zhu 翻译。

机器学习算法通常非常有效,但是很难确定它们的安全性和公平性。通常,机器学习系统的属性是通过测试确定的。但是,即使系统在测试环境中行为安全,部署时它也可能做出不安全或不公平的行为。然而,可以通过分析输入扰动个体决策网络激活来研究模型的属性,但这通常很困难、耗时且对专业知识的要求很高。

除了检查或测试个体模型外,我们的替代方法是查看给定的训练环境是否会引发不安全或不公平的决定。

这种方法并不完全是新颖的 — — 激励是讨论的一个直觉而相关的对象。例如,请参阅下面 Stuart Russell 对推荐系统激励措施的讨论。(其他示例包括 Hadfield-Mennell 等人的评论 1Steve Omohundro 的 The Basic AI Drives。

被放进[社交媒体推荐]机器的目的是什么?给人们提供他们想点击的东西,因为这就是我们的赚钱方式。那么如何最大程度地提高点击率 — — 你只是向人们发送他们喜欢点击的内容,对吗?就那么简单。实际上,这不是算法正在做的事情 …… 这不是强化学习的工作原理。强化学习改变了世界的状态来最大化奖励。在这种情况下,世界的状态就是你的大脑 … [所以] 它以一种使你更容易预测的方式改变了你自己,从而可以向你发送它知道你将要单击的内容。” — Stuart Russell

修改用户行为的压力可以看作是一个不想要的动机。像这样的基于动机的论点很强大,因为它们独立于系统体系结构而适用。然而,以前有关动机措施的大多数研究工作都集中在特定问题上,这使得将其应用于新问题和新情况变得困难。在我们最近的工作中,我们已经开始发展一种通用的因果动机理论,该理论使我们能够在一个统一的框架内陈述和制定针对多种公平与安全问题的解决方案。

在我们的理论中,动机大致是智能体为实现其目标所必须采取的措施。我们考虑两种类型的动机措施:当智能体必须控制其环境的某些组成部分以最大化其效用时(例如,上面社交媒体推荐示例中的“用户意见”),便存在控制动机措施。一个响应激励 response incentives 出现,当智能体的决定必须是因果响应其环境的某些组件 — — 例如,在崎岖地形导航时,机器人应该注意障碍物的位置。

控制动机

例子

为了使动机分析形式化,我们可以使用因果影响图。因果影响图通过将其分解成图表来表示决策问题,其中每个变量都取决于其父变量指代的值(如果存在箭头 X -> Y,则 X 是 Y 的父变量)。它由三种类型的节点组成:


由 Tom Everitt,Ramana Kumar 和 Marcus Hutter 撰写

由 Xiaohu Zhu 朱小虎 翻译

从人工智能安全的角度来看,拥有一个清晰的设计原则和一个清晰的表明了它解决了什么问题的特性描述就意味着我们不必去猜测哪些智能体是安全的。在本文和这篇论文中,我们描述了一种称为当下奖励函数优化的设计原理如何避免奖励函数篡改问题。

强化学习(RL)智能体旨在最大化奖励。例如,国际象棋和围棋的智能体因赢得游戏而获得奖励,而制造机器人可能因正确组装某些特定部件而获得奖励。RL 智能体有时可以找到比任务设计者更好的战略(strategy),正如最近在围棋星际争霸中展示的那样。

然而,确定“更好”意味着什么是 tricky 的。有时智能体发现了一个看似更好的战略,但实际上它其实是在奖励规格(reward specification)中找到了漏洞。我们将此称为奖励攻击。奖励攻击的一种类型是奖励操纵(reward gaming),其中智能体过度利用(exploit)误定的奖励函数(参见例如赛艇示例)。

在我们的最新论文中,我们专注于另一种称为奖励篡改的奖励黑客攻击。在奖励篡改中,智能体不过度利用误定的奖励函数。相反,它主动地改变奖励函数。例如,一些超级马里奥环境有一个 bug,允许通过采取正确的游戏内动作序列来执行任意代码。原则上,这可以用于重新定义游戏的得分。

虽然这种类型的黑客攻击超出了大多数环境中当前 RL 智能体的功能,但构建更有能力的智能体的广泛需求可能最终导致我们构建可以利用此类捷径的智能体。因此,了解奖励篡改与我们预测未来的失败模式,并找出如何在它们发生之前预防它们的人工智能安全工作相关。

Gridworld的例子

我们可以使用可以修改奖励函数的网格世界来说明奖励篡改问题。我们采用了一种来自“Baba Is You”的游戏机制,这是一款益智游戏,其中游戏的某些规则是用环境中的文字描述的智能体可以推送这些单词,以便更改规则。


By Victoria Krakovna (DeepMind), Ramana Kumar (DeepMind), Laurent Orseau (DeepMind), Alexander Turner (Oregon State University)
Translated by Xiaohu Zhu (University AI)

人工智能安全 …


By Tom Everitt, DeepMind

Translated by Xiaohu Zhu, Founder of University AI, contact: neil@universityai.com

我们在最新的论文中,描述了一个新的推断智能体动机的方法。该方法基于影响图,这是一种图模型的类型,包含特别的决策和效用节点。图标准可以被用来确智能体观测动机和智能体干预动机

对人类来说,将智能系统考虑成希望通过采取行动达成目标的智能体。“猫回家是因为饿了想吃东西”。这个意向的概念对机器学习系统同样自然。这些系统通常被训练来优化某些目标函数(如,一个损失或者奖励函数),就自然可以说他们“想要”做一些事。智能体角度可能对理解变得越来越强大和复杂的机器学习系统更加有用。

智能体的目标和智能体的动机其实可以被区分开来。目标是智能体最终优化的东西,如一个损失函数或者奖励函数。目标促使对优化目标会有贡献的事件动机出现。例如,ATARI游戏乒乓球的奖励函数促使一个将板子移向球的动机出现。对一个变分自编码器的损失函数促使产生相对高层抽象的动机出现。

动机同等地依赖于环境和目标。在一个环境中对一个目标有贡献的事件可以导致在另一个环境中的失败目标,在第三个环境中也许毫不相干。(如果球仅仅是在板子最远时候反弹会怎样?)或者动机在某种程度无法预测。例如,在视频游戏 CoastRunners 中奖励函数最终产生了一个在局部画圈而非完成比赛的结果。

为了获得对智能体动机的认知,我们必须首先描述其目标和它如何与环境交互。我们使用影响图来做这件事,一种用在表达决策制定问题的图模型的良好类型。影响图中的关键概念是智能体控制决策节点来优化效用节点,同时可以用机会节点。一个决策节点的双亲节点表示在制定决策时可以获得什么样的信息。表示这样的信息链接的边使用虚线画出。我们参考下面膳食推荐的案例:

熟悉 MDP 的读者也可能发现下面的对 MDP 的影响图表示非常有用:


# Scalable agent alignment via reward modeling

By Jan Leike, DeepMind

Translated by Xiaohu Zhu, Founder of University AI, contact: neil@universityai.com

本文给出了一个新的研究论文综述,描述了解决智能体对齐问题研究方向的概况。我们的方法建立在递归应用奖励建模按照对齐用户意图的方式来解决复杂的真实世界问题。

近些年来,强化学习已经在复杂博弈(游戏)环境中取得了令人印象深刻的表现,从 Atari、Go 和 Chess 到 Dota2 和 Starcraft II,人工智能体快速在越来越复杂的领域中超过人类玩家水平。游戏是开发和测试机器学习算法的理想平台。它们所给出的挑战性任务涉及从认知能力到完成、复制在真实世界中解决问题的技巧。机器学习研究者们可以在云上并行地运行成千个模拟实验,生成足够多满足系统学习的训练数据。

最关键的是,游戏通常有一个清晰的目标和近似地达成目标过程的分数。这个分数提供了有用的奖励信号给强化学习智能体,让我们可以快速获得关于更好的算法和架构的反馈。

对齐问题 The agent alignment problem

人工智能的终极目标是赋予我们处理真实世界中越来越复杂的挑战的能力而造福于人类。但是真实世界并没有内置好的奖励函数。这就给出了一些挑战性问题,因为在这些任务上的性能并不容易定义清楚。我们需要一种良好的方式提供反馈并让智能体可靠地理解我们所想要的东西,从而帮助我们达成这些目标。换言之,我们希望在有人类反馈的情形下以一种让系统行为和我们的意图对齐的方式来训练人工智能系统。针对该目的,定义智能体对齐问题如下:

如何创建行为与用户意图一致的智能体?

对齐问题可以被建构在强化学习框架中,需要调整的是,不接受数值奖励信号,而是通过交互协议允许用户与智能体交流他们的意图。这个协议可以采取多种形式:用户可以提供 展示 demonstrations, 偏好preferences, 最优行动optimal actions, 或者交流奖励函数 communicate a reward function智能体对齐问题的解决方案是一个根据用户意图行动的策略。

在论文 new paper 中,我们描述了一个处理智能体对齐问题的研究方向。基于我们先前对人工智能安全性问题的分类和在人工智能安全性上的显现的诸多问题,我们描绘了一个这些领域的进程将如何产生出对于智能体对齐问题的解的连贯的图景。这打开了构建更好地理解如何与用户交互、从用户反馈学习和预测用户偏好的系统大门,不仅仅在是狭义的、近期的简单领域,更是在长期的那些需要的超过人类水平的理解的更加复杂抽象的领域。

基于奖励建模的对齐 Alignment via reward modeling

该研究方向的主要驱动力是基于奖励建模:我们使用用户的反馈训练一个奖励模型来刻画他们的意图。同时,也使用强化学习训练一个策略最大化来自奖励模型的奖励。换言之,我们将学习划分成学习做什么(奖励模型)和学习如何做(策略)两个部分。

例如,在先前的工作中我们教会智能体从用户偏好中做后空翻,使用目标状态样例来摆放物品,从用户偏好和专家展示玩Atari游戏。未来我们希望涉及出算法学会适应用户提供反馈的方式(如,使用自然语言)。

规模化 Scaling up

最终,我们希望能规模化奖励建模到那些对于人类来说直接评判也太过复杂的领域中。为了达成该目的,需要提升用户评判结果的能力。我们讨论如何让奖励建模递归地应用:可以使用奖励建模训练智能体在评价过程中自动帮助用户评判。如果评价比行为更容易,那么这就可以让我们从简单的任务提升到更加一般和复杂的任务上。这可以被看作是迭代扩增的实例。


By Pedro A. Ortega, Vishal Maini, and the DeepMind safety team

Translated by Xiaohu Zhu and University AI safety team

建造一枚火箭很难。每个部件需要仔细斟酌和严格测试,而安全性和可靠性是设计的核心。火箭科学家和工程师共同设计从导航路径到 …

Xiaohu ZHU

Founder & Chief Scientist of University AI. A watchful guardian for AGI.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store