图解人工智能_[日] 多田智史_AZW3_MOBI_EPUB_PDF_电子书(无页码)_[日] 多田智史
内容节选
02强化学习 下面来介绍强化学习。 要点 强化学习理论 随机系统 回报和价值函数 贝尔曼方程 Q 学习 强化学习理论 人在刚出生的时候,大脑中并不会有关于这个世界的全部信息。人类是在成长的过程中,通过与外界环境的交互来获取经验进行学习的。 机器也是如此。类脑计算机就是通过与环境的交互作用来实现自主学习的系统。 然而实际上,机器只是参照人类基于知识库、规则以及统计模型等构建的分类器来代替人类作出判断。让机器在未知的学习环境中能像人类那样自主改变分类器的机制叫作强化学习。 强化学习理论(reinforcement learning theory)把通过反复试错获得回报的学习模式用数学模型表示了出来。它基于心理学上的操作性条件反射(参照小贴士),其名字源于自主行为发生频率增强的现象——强化(reinforcement)。 小贴士 心理学上的操作性条件反射 心理学家认为,(生物体)通过自发的反复试错行为所获得的回报会让其做出相应的行为。有一个使用了斯金纳箱的实验比较有名。斯金纳箱是一个按下盒子上的按钮就会出现食物的实验装置,鸽子等动物通过获得食物这一奖励,自发学会了按按钮。 随机系统 在前面介绍机器学习时,除了贝叶斯估计,笔者大多使用了批量处理的优化方法。例如动态规划就是一个典型的批量处理方法。我们把使用这些方法的系统称为确定性系统。 而强化学习中涉及的马尔可夫决策过程(Markov Decision Process,MDP)具有不确定性,我们把这类系统称为随机系统(图8-5)。 图8-5 确定性系统和随机系统 随机系统可以通过不断输入数据的流处理来进行机器学习。需要采用流处理方式这一点也是随机系统的特征之一。 为了与批处理机器学习(批量学习或离线学习)对应,我们把这种适合流处理的机器学习称为在线机器学习(在线学习)。在线机器学习适用于贝叶斯统计学和强化学习。 策略和强化学习 在强化学习中,智能体(agent)(这里指程序)会从分类器产生的规则集中选择某项规则,然后对外界环境刺激做出反应并从环境中获得相应的回报,进而更新分类器(图8-6)。 图8-6 强化学习的框架 当环境处于某种状态时,智能体会随机选择接下来的动作。我们把状态到动作的映射称为策略(policy),用π表示(图8-7)。 图8-7 马尔可夫决策过程和强化学习 假设在时刻t观测到的环境状态为st,按照策略π采取动作at后,根据规定的状态转移概率能够确定下一时刻的状态st+1。 由此可见,马尔可夫决策过程是一个强化学习模型,下一时刻的状态只与当前时刻t的状态和采取的动作有关。行动的回报为rt+1。 回报是由状态和行动共同决定的。强化学习的目的是不断选择好的策略,即寻求一个最优策略使未来期望回报最大化。 回报和价值函数 为了使选择的动作能够获得最大的回报,我们还需要考虑未来的期望回报。 累积折扣回报 从初始状态到终止状态,智能体通过采取行动获得的回报总和称为累积回报(参照小贴士)。为了使累积回报最大化,我们需要使用价值函数(value function)来评价未来的一个状态或行动。价值函数就相当于动态规划和A*算法中的收益或成本(评价函数)。 小贴士 累积回报 累积回报的公式如下所示。 但是,当T趋向无穷大时就演变为无限时段,累积回报可能会发散。所以我们使用累积折扣回报Rt(图8-8)来代替累积回报。γ称为折扣因子(参照小贴士)。γ越小表示越不看重未来的回报,未来的回报对决策结果的影响越小。使Rt最大化的策略会随着γ的取值发生改变。通常γ会设为0.9等较大的值。 图8-8 累积折扣回报的公式 小贴士 折扣因子 折扣因子的概念与商品价值的计算方法是相通的。投资决策理论中也会使用累积折扣回报作为投资决策的指标,该指标称为净现值(Net Present Value,NPV)。 为了找到最优策略,我们需要用价值函数来准确地估计一个状态或动作的价值。 价值函数包括状态价值函数(state-value function)和动作价值函数(action-value function)。 状态价值函数 当环境处于状态S时,在策略π下的累积折扣回报的期望值是从状态S出发,使用策略π所带来的累积折扣回报(图8-9)。 图8-9 状态价值函数 动作价值函数 当环境处于状态S时,根据策略π采取行动a之后得到的累积折扣回报期望值也称为Q值()。状态价值函数可以用策略π和动作价值函数表示(图8-10)。 图8-10 动作价值函数的公式 让动作价值函数的值最大的函数称为最优动作价值函数(optimal action- value function),其对应的策略用最优策略π*表示(图8-11)。 图8-11 最优动作价值函数的公式 贝尔曼方程 状态价值函数和动作价值函数使用累积折扣回报来计算长期回报,这适......
- 信息
- 序
- 前言
- 关于本书
- 第1章 人工智能的过去、现在和未来
- 01 人工智能
- 02 人工智能的黎明时期
- 03 人工智能的发展
- 第2章 规则系统及其变体
- 01 规则系统
- 02 知识库
- 03 专家系统
- 04 推荐引擎
- 第3章 自动机和人工生命程序
- 01 人工生命模型
- 02有限自动机
- 03 马尔可夫模型
- 04 状态驱动智能体
- 第4章 权重和寻找最优解
- 01 线性问题和非线性问题
- 02 回归分析
- 03 加权回归分析
- 04 相似度的计算
- 第5章 权重和优化程序
- 01 图论
- 02 图谱搜索和最优化
- 03 遗传算法
- 04 神经网络
- 第6章 统计机器学习(概率分布和建模)
- 01 统计模型和概率分布
- 02 贝叶斯统计学和贝叶斯估计
- 03 MCMC 方法
- 04 HMM 和贝叶斯网络
- 第7章 统计机器学习(无监督学习和有监督学习)
- 01 无监督学习
- 02 有监督学习
- 第8章 强化学习和分布式人工智能
- 01 集成学习
- 02 强化学习
- 03 迁移学习
- 04 分布式人工智能
- 第9章 深度学习
- 01 多层神经网络
- 02 受限玻尔兹曼机
- 03 深度神经网络
- 04 卷积神经网络
- 05循环神经网络
- 第10章 图像和语音的模式识别
- 01 模式识别
- 02 特征提取方法
- 03 图像识别
- 04 语音识别
- 第11章 自然语言处理和机器学习
- 01 句子的结构和理解
- 02 知识获取和统计语义学
- 03 结构分析
- 04 文本生成
- 第12章 知识表示和数据结构
- 01数据库
- 02 检索
- 03 语义网络和语义网
- 第13章 分布式计算
- 01 分布式计算和并行计算
- 02 硬件配置
- 03 软件配置
- 04 机器学习平台和深度学习平台
- 第14章 人工智能与海量数据和物联网
- 01 数据膨胀
- 02 物联网和分布式人工智能
- 03 脑功能分析和机器人
- 04 创新系统
- 作者简介
- 看完了
- 声明