On-policy v.s. Off-policy
- On-policy:要学习的agent和与环境交互的agent是同一个agent;相当于自己玩自己学
- Off-policy:要学习的agent和与环境交互的agent不是同一个agent;相当于看别人玩自己学
译:《BERT:用于语言理解的深度双向Transformer预训练》
论文地址:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
译:《基于可微退火指示器搜索的自动通道修剪》
论文地址:《DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator Search》