第一章绪论

1. 概述

强化学习：分为agent和environment两个部分。agent从环境中获取状态，输出一个action（也叫decision）。环境根据动作输出下一个状态和奖励。

预演：对当前帧数进行采样，生成多局游戏，然后得到一系列观测。

轨迹：预演生成的每一个观测都是一串轨迹。是state和action的序列。

2. 强化学习和监督学习

监督学习(supervised learning)：使用大量被标注的数据进行学习，数据要满足独立同分布，因为如果数据间有关联，不好进行训练。

强化学习与监督学习的区别：

(1) 强化学习大多是序列数据，不满足独立同分布。
(2) 学习器不知道每一步正确与否，只能通过不停探索发现奖励最多的动作。而且强化学习没有监督者，只有延迟的奖励信号，所以强化学习不能立刻知道动作是否错误。
(3) 智能体获得自己能力的过程，其实是不断地试错探索的过程。exploration和exploitation是强化学习里面非常核心的问题。其中，探索指尝试一些新的动作，这些新的动作有可能会使我们得到更多的奖励，利用指采取已知的可以获得最多奖励的动作，重复执行这个动作。

监督学习都是通过人为标注进行训练，上限是人类表现，而强化学习的表现可以超过人类。

3. 序列决策

强化学习的目的是在智能体和环境的交互中得到最大化奖励的策略。

奖励：环境给的标量反馈信号。强化学习的最大目的是最大化agent可以得到的奖励。

历史：观测、动作和奖励的序列。整个游戏的状态可以看作是关于历史的函数。

H_{t} = o_{1}, a_{1}, r_{1}, \dots, o_{t}, a_{t}, r_{t}

状态：世界的完整描述，而观测是对状态的部分描述可能会少一些信息。智能体和环境状态相同，说明智能体能够观察到环境中的所有信息，此时这个环境是完全可观测环境，强化学习被建模成马尔可夫决策过程。此时 $o_{t} = s_{t}^{e} = s_{t}^{a}$ 。而在部分观察环境中，强化学习被建模成部分可观测马尔可夫决策过程。POMDP可以用七元组表示 $(S, A, T, R, Ω, O, γ)$ 。其中，T为状态转移概率， $Ω$ 为观测概率。

动作空间：有效动作的合集。

4. agent的组成部分

一个强化学习智能体由policy, value function和model组成。

策略：分为随机性策略和确定性策略。随机性策略使用 $π$ 函数，根据策略将输入的状态变为输出动作的概率。确定性策略直接选取可能性最大的动作。强化学习一般使用随机性策略，因为它更利于学习时的探索，而且在博弈时不会采用固定的策略，不易被对手预测。
价值函数： $V_{π} (s) ≐ E_{π} [G_{t} ∣ s_{t} = s] = E_{π} [\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} ∣ s_{t} = s], 对于所有的 s \in S$ 。继续使用 $π$ 函数后带有折扣因子的奖励期望。
Q函数： $Q_{π} (s, a) ≐ E_{π} [G_{t} ∣ s_{t} = s, a_{t} = a] = E_{π} [\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} ∣ s_{t} = s, a_{t} = a]$ ,根据当前的状态和动作获得的奖励期望。通过学习得到。
3.模型：由状态转移概率和奖励函数组成。决定了下一个状态。

5. agent的类型

基于价值的智能体直接学习价值函数，基于策略的智能体直接学习策略，演员-评论员智能体同时学习两部分。基于价值的学习一般应用在离散的情况。
有模型和免模型：有模型的强化学习智能体通过学习状态的转移，即状态转移概率和奖励函数来采取动作。有模型的智能体可以在虚拟环境中就进行训练。免模型在真实环境中不停训练迭代直到学习到最佳策略。免模型的泛化性一般更强，一般使用免模型训练。

6. 学习和规划

规划：智能体知道整个环境的详细信息，不与环境交互就可以通过当前状态完成最优决策。可以先学习环境模型，然后进行规划。

7. 探索和利用

探索：尝试新的动作。

利用：直接使用目前已知最优的动作。

第一章 绪论 ​

1. 概述 ​

2. 强化学习和监督学习 ​

3. 序列决策 ​

4. agent的组成部分 ​

5. agent的类型 ​

6. 学习和规划 ​

7. 探索和利用 ​