第一章 绪论
1. 概述
强化学习:分为agent和environment两个部分。agent从环境中获取状态,输出一个action(也叫decision)。环境根据动作输出下一个状态和奖励。
预演:对当前帧数进行采样,生成多局游戏,然后得到一系列观测。
轨迹:预演生成的每一个观测都是一串轨迹。是state和action的序列。
2. 强化学习和监督学习
监督学习(supervised learning):使用大量被标注的数据进行学习,数据要满足独立同分布,因为如果数据间有关联,不好进行训练。
强化学习与监督学习的区别:
(1) 强化学习大多是序列数据,不满足独立同分布。
(2) 学习器不知道每一步正确与否,只能通过不停探索发现奖励最多的动作。而且强化学习没有监督者,只有延迟的奖励信号,所以强化学习不能立刻知道动作是否错误。
(3) 智能体获得自己能力的过程,其实是不断地试错探索的过程。exploration和exploitation是强化学习里面非常核心的问题。其中,探索指尝试一些新的动作, 这些新的动作有可能会使我们得到更多的奖励,利用指采取已知的可以获得最多奖励的动作,重复执行这个动作。
监督学习都是通过人为标注进行训练,上限是人类表现,而强化学习的表现可以超过人类。
3. 序列决策
强化学习的目的是在智能体和环境的交互中得到最大化奖励的策略。
奖励:环境给的标量反馈信号。强化学习的最大目的是最大化agent可以得到的奖励。
历史:观测、动作和奖励的序列。整个游戏的状态可以看作是关于历史的函数。
状态:世界的完整描述,而观测是对状态的部分描述可能会少一些信息。智能体和环境状态相同,说明智能体能够观察到环境中的所有信息,此时这个环境是完全可观测环境,强化学习被建模成马尔可夫决策过程。此时
动作空间:有效动作的合集。
4. agent的组成部分
一个强化学习智能体由policy, value function和model组成。
策略:分为随机性策略和确定性策略。随机性策略使用
函数,根据策略将输入的状态变为输出动作的概率。确定性策略直接选取可能性最大的动作。强化学习一般使用随机性策略,因为它更利于学习时的探索,而且在博弈时不会采用固定的策略,不易被对手预测。 价值函数:
。继续使用 函数后带有折扣因子的奖励期望。 Q函数:
,根据当前的状态和动作获得的奖励期望。通过学习得到。 3.模型:由状态转移概率和奖励函数组成。决定了下一个状态。
5. agent的类型
- 基于价值的智能体直接学习价值函数,基于策略的智能体直接学习策略,演员-评论员智能体同时学习两部分。基于价值的学习一般应用在离散的情况。
- 有模型和免模型:有模型的强化学习智能体通过学习状态的转移,即状态转移概率和奖励函数来采取动作。有模型的智能体可以在虚拟环境中就进行训练。免模型在真实环境中不停训练迭代直到学习到最佳策略。免模型的泛化性一般更强,一般使用免模型训练。
6. 学习和规划
规划:智能体知道整个环境的详细信息,不与环境交互就可以通过当前状态完成最优决策。可以先学习环境模型,然后进行规划。
7. 探索和利用
探索:尝试新的动作。
利用:直接使用目前已知最优的动作。