从在线策略到离线策略

发表于 2022-04-01 更新于 2023-07-20 分类于强化学习
本文字数： 3.2k 阅读时长 ≈ 3 分钟

On-policy v.s. Off-policy

On-policy：要学习的agent和与环境交互的agent是同一个agent；相当于自己玩自己学
Off-policy：要学习的agent和与环境交互的agent不是同一个agent；相当于看别人玩自己学

On-policy \(\rightarrow\) Off-policy

阅读全文 »

强化学习入门

发表于 2022-03-31 更新于 2023-07-20 分类于强化学习
本文字数： 6.8k 阅读时长 ≈ 6 分钟

由于项目需要，开始跟着李宏毅《强化学习》学习强化学习的一些内容。

强化学习

基础组件：

阅读全文 »

《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》

发表于 2022-03-31 更新于 2023-07-20 分类于论文阅读
本文字数： 1.1k 阅读时长 ≈ 1 分钟

译：《BERT:用于语言理解的深度双向Transformer预训练》

论文地址：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

Motivation

阅读全文 »

靶场需求

发表于 2022-03-20 更新于 2023-07-20 分类于在线PDF
本文字数： 0 阅读时长 ≈ 1 分钟

靶场需求

阅读全文 »

《Generative Adversarial Nets》

发表于 2022-03-17 更新于 2023-07-20 分类于论文阅读
本文字数： 3.3k 阅读时长 ≈ 3 分钟

译：《生成对抗网络(GAN)》

论文地址：《Generative Adversarial Nets》

Motivation

阅读全文 »

《A Gentle Introduction to Graph Neural Networks》

发表于 2022-03-14 更新于 2023-07-20 分类于论文阅读
本文字数： 2.2k 阅读时长 ≈ 2 分钟

译：《图神经网络》

博客地址：《A Gentle Introduction to Graph Neural Networks》

前言

阅读全文 »

《Attention Is All You Need》

发表于 2022-03-12 更新于 2023-07-20 分类于论文阅读
本文字数： 2.3k 阅读时长 ≈ 2 分钟

Transformer

译：《你只需要注意力》

论文地址：《Attention Is All You Need》

阅读全文 »

《Deep_Residual_Learning_for_Image Recognition》

发表于 2022-03-10 更新于 2023-07-20 分类于论文阅读
本文字数： 1.9k 阅读时长 ≈ 2 分钟

ResNet

译：《图像识别中的深度残差学习》

论文地址：《Deep_Residual_Learning_for_Image Recognition》

阅读全文 »

DAIS:Automatic_Channel_Pruning_via_Differentiable_Annealing_Indicator_Search

发表于 2022-03-07 更新于 2023-07-20 分类于论文阅读
本文字数： 2.7k 阅读时长 ≈ 2 分钟

译：《基于可微退火指示器搜索的自动通道修剪》

论文地址：《DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator Search》

motivation

阅读全文 »

Transformer

发表于 2022-03-02 更新于 2023-07-20 分类于 NLP
本文字数： 3.4k 阅读时长 ≈ 3 分钟

Transformer

前言

在之前，已经学习了word2vec、RNN网络，简单了解了LSTM等，现在使用更广泛的是基于Transformer的网络模型。

阅读全文 »