AL123 人文社科会员免费专区文学 2024-12-01

AI 3.0_[美] 梅拉妮·米歇尔_AZW3_MOBI_EPUB_PDF_电子书（无页码）_[美] 梅拉妮·米歇尔

内容节选

08强化学习，最重要的是学会给机器人奖励A. Sutherland,“What Shamu Taught Me About a Happy Marriage”, New York Times, June 25. 记者埃米·萨瑟兰（Amy Sutherland）在研究一本有关珍奇动物驯兽师的书后，她了解到，驯兽师最重要的驯兽方法其实非常简单：奖励其正确的行为，忽略其不正确的行为。并且，就像她在《纽约时报》的“现代爱情”专栏上写的那样：“最终这使我想到，这一相同的技巧在倔强而可爱的‘物种’——丈夫身上可能也会起作用。”萨瑟兰描写了在经过多年徒劳的唠叨、讽刺和抱怨之后，她如何用这个简单的方法来悄悄地训练她那健忘的丈夫去收拾自己的袜子、找到车钥匙、准时到餐厅赴约以及更有规律地刮胡子。这种经典的训练技巧，在心理学上被称为操作性条件反射，已经在动物和人类身上应用了数个世纪。操作性条件反射使得一种重要的机器学习方法——强化学习得以出现。强化学习与我在前面章节中描述的监督学习方法形成了鲜明的对比：在其最纯粹的形式下，强化学习不需要任何被标记的训练样本。代替它的是一个智能体，即学习程序，在一种特定环境（通常是计算机仿真环境）中执行一些动作，并偶尔从环境中获得奖励，这些间歇出现的奖励是智能体从学习中获得的唯一反馈。在萨瑟兰的丈夫这个例子中，丈夫获得的奖励是妻子的微笑、亲吻和赞美。尽管计算机程序可能不会对一个吻或一句热情的“你是最棒的”做出反应，但是它可以被设置为能够对与这种赞美等价的奖励做出响应，比如向机器的内存中添加正数。尽管数十年来强化学习一直是人工智能的学习方法之一，但长期以来它一直被笼罩在神经网络和其他监督学习方法的阴影中。这种情况在2016年发生了逆转，当时，强化学习在人工智能领域的一项举世震惊的重大成就中发挥了关键性作用：一个程序在复杂的围棋游戏中击败了世界上顶级的人类棋手。为了解释这个程序以及强化学习领域的一些其他最新成就，我将首先通过一个简单的例子来带你理解强化学习的工作原理。训练你的机器狗作为示例，我们一起来看下“机器人踢足球”这个有趣的游戏，在这个游戏中，人们会通过编程使机器人在一个房间大小的“场地”上玩一个简化版的足球游戏。有时“玩家”是如图8-1所示的那种可爱的Aibo机器狗，这个由索尼公司制造的Aibo机器狗有一个用来捕捉视觉输入的摄像头，一台内置的可编程计算机，以及一组使它能够行走、踢腿、用头撞击，甚至摇摆它的塑料尾巴的传感器和电机。图8-1 一只索尼Aibo机器狗正要踢一个足球假设我们想要教一只机器狗最简单的足球技巧：当面对球时，走过去，踢一脚。传统的人工智能方法将会使用如下的规则来对机器人编程：朝着球迈出一步；重复这个动作，直到你的一只脚碰到球为止；然后用碰到球的那只脚踢球。当然，“朝着球迈出一步”“直到你的一只脚碰到球为止”“踢球”这类的简短描述，必须被仔细地翻译为详细的操作程序，并内置到机器狗的传感器和电机中。这样的显式规则对于上述这种简单的任务可能就足够了，然而，你越是想让机器人变得智能，手动设定它的行为规则就会越困难。当然，设计出一套适用于任何情境的规则是不可能的。如果机器人和球之间有一个大水坑怎么办？如果有一个足球标志锥挡住了机器人的视线怎么办？如果有块石头阻挡了球的移动怎么办？像往常一样，现实世界充斥着难以预测的边缘情况。强化学习的愿景是：智能体（如机器狗）能够通过在现实世界中执行一些动作并偶尔获得奖励（即强化）的方式来自主地学习灵活的策略，而无须人类手动编写规则或直接“教育”智能体如何应对各种可能的情况。我们就称这只机器狗为“罗茜”吧，以我最喜欢的、经典的卡通片《杰森一家》（The Jetsons）中的机器人管家的名字来命名。为了让这个例子更容易理解，我们假设罗茜出厂的时候预装了以下功能：如果一个足球在它的视线内，它能够估计出接触到球所需的步数，这个步数被称作它的状态。一般来说，智能体在一个给定时间和地点上的状态是智能体对其所处情境的感知。罗茜是智能体的一个最简单版本，其状态是一个单一的数字。当我说罗茜处于一个给定的状态x时，指的是它目前估计自己距离球有x步远。除了能够识别自己的状态外，罗茜还要有它可以执行的三个内置的动作：前进一步、后退一步、踢一脚。如果罗茜碰巧走出了边界，程序设定为令它立即往后退一步。根据操作性条件反射的要求，只有当罗茜成功踢到球时我们才给它一个奖励。需要注意的是，罗茜事先并不知道哪些状态或行为会带来奖励。考虑到罗茜是一个机器人，因而我们给它的奖励只是一个简单的数字，比如说10，并添加到它的“奖励内存”中。我们把奖励给机器人的数字10等同于给狗喂的食物。与真正的狗不同，罗茜对于奖励、正数或其他任何事物都没有内在的渴求。正如我接下来将要详细论述的，在强化学习中......