Repository containing basic algorithm applied in python.
Reinforcement Learning
├── DeepRL
│ ├── Actor_Critic
│ ├── Actor_Critic_Uni_model
│ ├── DQN
│ │ └── Vanilla_DQN
│ └── Reinforce
│ ├── off_policy
│ └── on_policy
├── DynamicProgramming
│ ├── multi-arm-bandit
│ ├── policy_iteration
│ └── value_iteration
├── MonteCarlo
│ ├── monte_carlo_continous_env
│ ├── monte_carlo_epsilon_greedy_exploration
│ ├── monte_carlo_every_visit
│ ├── monte_carlo_exploring
│ ├── monte_carlo_first_visit
│ ├── monte_carlo_off_policy_control
│ ├── monte_carlo_off_policy_prediction
│ ├── monte_carlo_state_aggregation
│ └── monte_carlo_tree_search
└── TemporalDifference
├── temporal_difference_dyna_Q
├── temporal_difference_expected_sarsa
├── temporal_difference_n_step_sarsa
├── temporal_difference_off_policy_Q_learning
├── temporal_difference_on_policy_sarsa
├── temporal_difference_state_aggregation
└── temporal_difference_zero