AL123 人文社科会员免费专区文学 2023-07-19

图解人工智能_[日] 多田智史_AZW3_MOBI_EPUB_PDF_电子书（无页码）_[日] 多田智史

内容节选

02强化学习下面来介绍强化学习。要点强化学习理论随机系统回报和价值函数贝尔曼方程 Q 学习强化学习理论人在刚出生的时候，大脑中并不会有关于这个世界的全部信息。人类是在成长的过程中，通过与外界环境的交互来获取经验进行学习的。机器也是如此。类脑计算机就是通过与环境的交互作用来实现自主学习的系统。然而实际上，机器只是参照人类基于知识库、规则以及统计模型等构建的分类器来代替人类作出判断。让机器在未知的学习环境中能像人类那样自主改变分类器的机制叫作强化学习。强化学习理论（reinforcement learning theory）把通过反复试错获得回报的学习模式用数学模型表示了出来。它基于心理学上的操作性条件反射（参照小贴士），其名字源于自主行为发生频率增强的现象——强化（reinforcement）。小贴士心理学上的操作性条件反射心理学家认为，（生物体）通过自发的反复试错行为所获得的回报会让其做出相应的行为。有一个使用了斯金纳箱的实验比较有名。斯金纳箱是一个按下盒子上的按钮就会出现食物的实验装置，鸽子等动物通过获得食物这一奖励，自发学会了按按钮。随机系统在前面介绍机器学习时，除了贝叶斯估计，笔者大多使用了批量处理的优化方法。例如动态规划就是一个典型的批量处理方法。我们把使用这些方法的系统称为确定性系统。而强化学习中涉及的马尔可夫决策过程（Markov Decision Process，MDP）具有不确定性，我们把这类系统称为随机系统（图8-5）。图8-5 确定性系统和随机系统随机系统可以通过不断输入数据的流处理来进行机器学习。需要采用流处理方式这一点也是随机系统的特征之一。为了与批处理机器学习（批量学习或离线学习）对应，我们把这种适合流处理的机器学习称为在线机器学习（在线学习）。在线机器学习适用于贝叶斯统计学和强化学习。策略和强化学习在强化学习中，智能体（agent）（这里指程序）会从分类器产生的规则集中选择某项规则，然后对外界环境刺激做出反应并从环境中获得相应的回报，进而更新分类器（图8-6）。图8-6 强化学习的框架当环境处于某种状态时，智能体会随机选择接下来的动作。我们把状态到动作的映射称为策略（policy），用π表示（图8-7）。图8-7 马尔可夫决策过程和强化学习假设在时刻t观测到的环境状态为st，按照策略π采取动作at后，根据规定的状态转移概率能够确定下一时刻的状态st+1。由此可见，马尔可夫决策过程是一个强化学习模型，下一时刻的状态只与当前时刻t的状态和采取的动作有关。行动的回报为rt+1。回报是由状态和行动共同决定的。强化学习的目的是不断选择好的策略，即寻求一个最优策略使未来期望回报最大化。回报和价值函数为了使选择的动作能够获得最大的回报，我们还需要考虑未来的期望回报。累积折扣回报从初始状态到终止状态，智能体通过采取行动获得的回报总和称为累积回报（参照小贴士）。为了使累积回报最大化，我们需要使用价值函数（value function）来评价未来的一个状态或行动。价值函数就相当于动态规划和A*算法中的收益或成本（评价函数）。小贴士累积回报累积回报的公式如下所示。但是，当T趋向无穷大时就演变为无限时段，累积回报可能会发散。所以我们使用累积折扣回报Rt（图8-8）来代替累积回报。γ称为折扣因子（参照小贴士）。γ越小表示越不看重未来的回报，未来的回报对决策结果的影响越小。使Rt最大化的策略会随着γ的取值发生改变。通常γ会设为0.9等较大的值。图8-8 累积折扣回报的公式小贴士折扣因子折扣因子的概念与商品价值的计算方法是相通的。投资决策理论中也会使用累积折扣回报作为投资决策的指标，该指标称为净现值（Net Present Value，NPV）。为了找到最优策略，我们需要用价值函数来准确地估计一个状态或动作的价值。价值函数包括状态价值函数（state-value function）和动作价值函数（action-value function）。状态价值函数当环境处于状态S时，在策略π下的累积折扣回报的期望值是从状态S出发，使用策略π所带来的累积折扣回报（图8-9）。图8-9 状态价值函数动作价值函数当环境处于状态S时，根据策略π采取行动a之后得到的累积折扣回报期望值也称为Q值（）。状态价值函数可以用策略π和动作价值函数表示（图8-10）。图8-10 动作价值函数的公式让动作价值函数的值最大的函数称为最优动作价值函数（optimal action- value function），其对应的策略用最优策略π*表示（图8-11）。图8-11 最优动作价值函数的公式贝尔曼方程状态价值函数和动作价值函数使用累积折扣回报来计算长期回报，这适......