Skip to content

第一章 绪论

1. 概述

强化学习:分为agentenvironment两个部分。agent从环境中获取状态,输出一个action(也叫decision)。环境根据动作输出下一个状态和奖励。

预演:对当前帧数进行采样,生成多局游戏,然后得到一系列观测。

轨迹:预演生成的每一个观测都是一串轨迹。是state和action的序列。

2. 强化学习和监督学习

监督学习(supervised learning):使用大量被标注的数据进行学习,数据要满足独立同分布,因为如果数据间有关联,不好进行训练。

强化学习与监督学习的区别:

(1) 强化学习大多是序列数据,不满足独立同分布。

(2) 学习器不知道每一步正确与否,只能通过不停探索发现奖励最多的动作。而且强化学习没有监督者,只有延迟的奖励信号,所以强化学习不能立刻知道动作是否错误。

(3) 智能体获得自己能力的过程,其实是不断地试错探索的过程。explorationexploitation是强化学习里面非常核心的问题。其中,探索指尝试一些新的动作, 这些新的动作有可能会使我们得到更多的奖励,利用指采取已知的可以获得最多奖励的动作,重复执行这个动作。

监督学习都是通过人为标注进行训练,上限是人类表现,而强化学习的表现可以超过人类。

3. 序列决策

强化学习的目的是在智能体和环境的交互中得到最大化奖励的策略。

奖励:环境给的标量反馈信号。强化学习的最大目的是最大化agent可以得到的奖励

历史:观测、动作和奖励的序列。整个游戏的状态可以看作是关于历史的函数。

Ht=o1,a1,r1,,ot,at,rt

状态:世界的完整描述,而观测是对状态的部分描述可能会少一些信息。智能体和环境状态相同,说明智能体能够观察到环境中的所有信息,此时这个环境是完全可观测环境,强化学习被建模成马尔可夫决策过程。此时ot=ste=sta。而在部分观察环境中,强化学习被建模成部分可观测马尔可夫决策过程。POMDP可以用七元组表示(S,A,T,R,Ω,O,γ)。其中,T为状态转移概率, Ω为观测概率。

动作空间:有效动作的合集。

4. agent的组成部分

一个强化学习智能体由policy, value function和model组成。

  1. 策略:分为随机性策略确定性策略。随机性策略使用π函数,根据策略将输入的状态变为输出动作的概率。确定性策略直接选取可能性最大的动作。强化学习一般使用随机性策略,因为它更利于学习时的探索,而且在博弈时不会采用固定的策略,不易被对手预测。

  2. 价值函数Vπ(s)Eπ[Gtst=s]=Eπ[k=0γkrt+k+1st=s],对于所有的sS 。继续使用π函数后带有折扣因子的奖励期望。

    Q函数Qπ(s,a)Eπ[Gtst=s,at=a]=Eπ[k=0γkrt+k+1st=s,at=a] ,根据当前的状态和动作获得的奖励期望。通过学习得到。

    3.模型:由状态转移概率和奖励函数组成。决定了下一个状态。

5. agent的类型

  1. 基于价值的智能体直接学习价值函数,基于策略的智能体直接学习策略,演员-评论员智能体同时学习两部分。基于价值的学习一般应用在离散的情况。
  2. 有模型和免模型:有模型的强化学习智能体通过学习状态的转移,即状态转移概率和奖励函数来采取动作。有模型的智能体可以在虚拟环境中就进行训练。免模型在真实环境中不停训练迭代直到学习到最佳策略。免模型的泛化性一般更强,一般使用免模型训练。

6. 学习和规划

规划:智能体知道整个环境的详细信息,不与环境交互就可以通过当前状态完成最优决策。可以先学习环境模型,然后进行规划。

7. 探索和利用

探索:尝试新的动作。

利用:直接使用目前已知最优的动作。

per aspera ad astra