0%

On-policy v.s. Off-policy

  • On-policy:要学习的agent和与环境交互的agent是同一个agent;相当于自己玩自己学
  • Off-policy:要学习的agent和与环境交互的agent不是同一个agent;相当于看别人玩自己学

On-policy \(\rightarrow\) Off-policy

阅读全文 »

由于项目需要,开始跟着李宏毅《强化学习》学习强化学习的一些内容。

强化学习

基础组件:

阅读全文 »

Transformer

前言

在之前,已经学习了word2vec、RNN网络,简单了解了LSTM等,现在使用更广泛的是基于Transformer的网络模型。

阅读全文 »