Q-Learning介绍

前面已经简单见过Q-Learning，现在回顾加学习新内容。

另一种Critic

状态-行动价值函数\(Q^\pi(s,a)\)，指的是当使用actor \(\pi\)，在状态\(s\)情况下采取行动\(a\)后，直到结束累计的奖励

使用上述\(Q^\pi(s,a)\)就可以找出比较好的actor，这种方法就称为Q-Learning

最开始是有一个初始actor \(\pi\)，使用这个\(\pi\)去和环境互动(玩游戏)
critic去观察actor和环境的互动，然后使用TD或MC去学出\(Q^\pi (s,a)\)
找到一个比\(\pi\)更好的新的\(\pi '\)
\(\pi=\pi'\)，重复上述

什么叫\(\pi'\)比\(\pi\)好？

对于所有state s，\(V^{\pi'} \ge V^\pi (s)\)，而使用\(Q^\pi(s,a)\)去找\(\pi'\)的方法就是：\(\pi'(s)=\arg \max_a Q^\pi (s,a)\)

\(\pi'\)没有额外的参数，而是仅依赖\(Q\)

并不适用于连续型的action

为什么这样求出的\(\pi'\)一定比\(\pi\)好呢？

证明

\(\pi'(s)=\arg \max_a Q^\pi (s,a) \qquad 对任意s，V^{\pi'}(s) \ge V^\pi(s)\) \[ \begin{align} V^\pi(s) &= Q^\pi(s, \pi(s)) \le \max_a Q^\pi(s,a)=Q^\pi(s,\pi'(s)) \\ V^\pi(s) & \le Q^\pi(s,\pi'(s)) \\ &=E[r_{t+1}+V^\pi(s_{t+1})|s_t=s,a_t=\pi'(s_t)] \\ &\le E[r_{t+1}+Q^\pi(s_{t+1},\pi'(s_{t+1}))|s_t=s,a_t=\pi(s_t)] \\ &=E[r_{t+1}+r_{t+2}+V^\pi(s_{t+2})|\cdots] \\ &\le E[r_{t+1}+r_{t+2}+Q^\pi(s_{t+2},\pi'(s_{t+2}))|\cdots] \\ &\cdots \\ &\le V^{\pi'}(s) \end{align} \]

目标网络(Target Network)

在训练时会不太稳定，因为假设\(Q^\pi(s_t,a_t)\)作为模型输出，\(r_t+Q^\pi(s_{t+1},\pi(s_{t+1}))\)作为目标，就会发现需要去拟合的目标也是一直在变的，这样就会导致不好训练。

因此，实际上通常会将下面这个\(Q^\pi\)固定住，只调整左边的这个网络。

探查(Exploration)

基于Q函数的策略是： \[ a=\arg \max_a Q(s,a) \] 问题：这并不是一个好的收集数据的方式，可能会存在总是采样部分数据的问题。

解决方法：

Epsilon Greedy

\[ a=\left\{\begin{aligned}\arg \max_a Q(s,a), \quad &概率1-\epsilon \\random,\quad &其它 \end{aligned}\right. \]

\(\epsilon\)会在学习过程中慢慢衰减

Boltzmann Exploration \[ P(a|s)=\frac{exp(Q(s,a))}{\sum_aexp(Q(s,a))} \]

重播缓冲(Replay Buffer)

创建一个缓冲，将所有经验数据放到缓存中，这个经验数据可能来自不同的策略。

然后在每次迭代时：

选择一个batch
更新Q函数

Q-Learning算法流程

初始化Q函数\(Q\)，目标函数\(\hat Q=Q\)
在每个episode中
- 对于每个时间步t
- 给定状态\(s_t\)，基于Q(epsilon greedy)采取行动\(a_t\)
- 获得奖励\(r_t\)，进入新状态\(s_{t+1}\)
- 存储\((s_t,a_t,r_t,s_{t+1})\)到缓冲中
- 从缓冲中采样\((s_i,a_i,r_i,s_{i+1})\)（通常是一个batch）
- 目标\(y=r_i+\max_a \hat Q(s_{i+1},a)\)
- 更新\(Q\)的参数来使得\(Q(s_i,a_i)\)更接近\(y\)
- 每\(C\)步后重置\(\hat Q=Q\)