AI 3.0_[美] 梅拉妮·米歇尔_AZW3_MOBI_EPUB_PDF_电子书(无页码)_[美] 梅拉妮·米歇尔
内容节选
08强化学习,最重要的是学会给机器人奖励A. Sutherland,“What Shamu Taught Me About a Happy Marriage”, New York Times, June 25. 记者埃米·萨瑟兰(Amy Sutherland)在研究一本有关珍奇动物驯兽师的书后,她了解到,驯兽师最重要的驯兽方法其实非常简单:奖励其正确的行为,忽略其不正确的行为。并且,就像她在《纽约时报》的“现代爱情”专栏上写的那样:“最终这使我想到,这一相同的技巧在倔强而可爱的‘物种’——丈夫身上可能也会起作用。”萨瑟兰描写了在经过多年徒劳的唠叨、讽刺和抱怨之后,她如何用这个简单的方法来悄悄地训练她那健忘的丈夫去收拾自己的袜子、找到车钥匙、准时到餐厅赴约以及更有规律地刮胡子 。 这种经典的训练技巧,在心理学上被称为操作性条件反射,已经在动物和人类身上应用了数个世纪。操作性条件反射使得一种重要的机器学习方法——强化学习得以出现。强化学习与我在前面章节中描述的监督学习方法形成了鲜明的对比:在其最纯粹的形式下,强化学习不需要任何被标记的训练样本。代替它的是一个智能体,即学习程序,在一种特定环境(通常是计算机仿真环境)中执行一些动作,并偶尔从环境中获得奖励,这些间歇出现的奖励是智能体从学习中获得的唯一反馈。在萨瑟兰的丈夫这个例子中,丈夫获得的奖励是妻子的微笑、亲吻和赞美。尽管计算机程序可能不会对一个吻或一句热情的“你是最棒的”做出反应,但是它可以被设置为能够对与这种赞美等价的奖励做出响应,比如向机器的内存中添加正数。 尽管数十年来强化学习一直是人工智能的学习方法之一,但长期以来它一直被笼罩在神经网络和其他监督学习方法的阴影中。这种情况在2016年发生了逆转,当时,强化学习在人工智能领域的一项举世震惊的重大成就中发挥了关键性作用:一个程序在复杂的围棋游戏中击败了世界上顶级的人类棋手。为了解释这个程序以及强化学习领域的一些其他最新成就,我将首先通过一个简单的例子来带你理解强化学习的工作原理。 训练你的机器狗 作为示例,我们一起来看下“机器人踢足球”这个有趣的游戏,在这个游戏中,人们会通过编程使机器人在一个房间大小的“场地”上玩一个简化版的足球游戏。有时“玩家”是如图8-1所示的那种可爱的Aibo机器狗,这个由索尼公司制造的Aibo机器狗有一个用来捕捉视觉输入的摄像头,一台内置的可编程计算机,以及一组使它能够行走、踢腿、用头撞击,甚至摇摆它的塑料尾巴的传感器和电机。 图8-1 一只索尼Aibo机器狗正要踢一个足球 假设我们想要教一只机器狗最简单的足球技巧:当面对球时,走过去,踢一脚。传统的人工智能方法将会使用如下的规则来对机器人编程:朝着球迈出一步;重复这个动作,直到你的一只脚碰到球为止;然后用碰到球的那只脚踢球。当然,“朝着球迈出一步”“直到你的一只脚碰到球为止”“踢球”这类的简短描述,必须被仔细地翻译为详细的操作程序,并内置到机器狗的传感器和电机中。 这样的显式规则对于上述这种简单的任务可能就足够了,然而,你越是想让机器人变得智能,手动设定它的行为规则就会越困难。当然,设计出一套适用于任何情境的规则是不可能的。如果机器人和球之间有一个大水坑怎么办?如果有一个足球标志锥挡住了机器人的视线怎么办?如果有块石头阻挡了球的移动怎么办?像往常一样,现实世界充斥着难以预测的边缘情况。 强化学习的愿景是:智能体(如机器狗)能够通过在现实世界中执行一些动作并偶尔获得奖励(即强化)的方式来自主地学习灵活的策略,而无须人类手动编写规则或直接“教育”智能体如何应对各种可能的情况。 我们就称这只机器狗为“罗茜”吧,以我最喜欢的、经典的卡通片《杰森一家》(The Jetsons)中的机器人管家的名字来命名。为了让这个例子更容易理解,我们假设罗茜出厂的时候预装了以下功能:如果一个足球在它的视线内,它能够估计出接触到球所需的步数,这个步数被称作它的状态。一般来说,智能体在一个给定时间和地点上的状态是智能体对其所处情境的感知。罗茜是智能体的一个最简单版本,其状态是一个单一的数字。当我说罗茜处于一个给定的状态x时,指的是它目前估计自己距离球有x步远。 除了能够识别自己的状态外,罗茜还要有它可以执行的三个内置的动作:前进一步、后退一步、踢一脚。如果罗茜碰巧走出了边界,程序设定为令它立即往后退一步。根据操作性条件反射的要求,只有当罗茜成功踢到球时我们才给它一个奖励。需要注意的是,罗茜事先并不知道哪些状态或行为会带来奖励。 考虑到罗茜是一个机器人,因而我们给它的奖励只是一个简单的数字,比如说10,并添加到它的“奖励内存”中。我们把奖励给机器人的数字10等同于给狗喂的食物。与真正的狗不同,罗茜对于奖励、正数或其他任何事物都没有内在的渴求。正如我接下来将要详细论述的,在强化学习中......
- 信息
- 中文版序 今天的机器距离真正像人一样理解世界还有多远
- 序 等那一口仙气儿
- 译者序 未来智能:人有人用,机有机用
- 引言 创造具有人类智能的机器,是一场重大的智力冒险
- 第一部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能
- 01 从起源到遭遇寒冬,心智是人工智能一直无法攻克的堡垒
- 本章要点
- 02 从神经网络到机器学习,谁都不是最后的解药
- 本章要点
- 03 从图灵测试到奇点之争,我们无法预测智能将带领我们去往何处
- 本章要点
- 第二部分 视觉识别:始终是“看”起来容易“做”起来难
- 04 何人,何物,何时,何地,为何
- 本章要点
- 05 ConvNets和ImageNet,现代人工智能的基石
- 本章要点
- 06 人类与机器学习的关键差距
- 本章要点
- 07 确保价值观一致,构建值得信赖、有道德的人工智能
- 本章要点
- 第三部分 游戏与推理:开发具有更接近人类水平的学习和推理能力的机器
- 08 强化学习,最重要的是学会给机器人奖励
- 本章要点
- 09 学会玩游戏,智能究竟从何而来
- 本章要点
- 10 游戏只是手段,通用人工智能才是目标
- 本章要点
- 第四部分 自然语言:让计算机理解它所“阅读”的内容
- 11 词语,以及与它一同出现的词
- 本章要点
- 12 机器翻译,仍然不能从人类理解的角度来理解图像与文字
- 本章要点
- 13 虚拟助理——随便问我任何事情
- 本章要点
- 第五部分 常识——人工智能打破意义障碍的关键
- 14 正在学会“理解”的人工智能
- 本章要点
- 15 知识、抽象和类比,赋予人工智能核心常识
- 本章要点
- 结语 思考6个关键问题,激发人工智能的终极潜力
- 致谢