Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.gitignore		.gitignore
README.md		README.md
actor_critic.py		actor_critic.py
bandit.py		bandit.py
dqn.py		dqn.py
dyna-q.py		dyna-q.py
ppo.py		ppo.py
reinforce.py		reinforce.py
requirements.txt		requirements.txt
td.py		td.py
trpo.py		trpo.py

Repository files navigation

RL Basic Learn

Info

bandit.py ：K-臂老虎机
td.py：时序差分算法，包含单步 Sarsa，多步 Sarsa，Q-Learning
dyna-q.py ：Dyna-Q 算法
dqn.py ：DQN 算法及其两种进阶：Double DQN 与 Dueling DQN
reinforce.py ：策略梯度算法
actor_critic.py ：演员-评论员算法
trpo.py ：TRPO 算法
ppo.py ：PPO 算法

About

强化学习基础算法 [K-臂老虎机 | Sarsa | Q-Learning | Dyna-Q | DQN | REINFORCE | TRPO | PPO]

rl

Report repository

Releases

No releases published

Packages

Contributors

Languages

Python 100.0%