Lock down gym version

2026-01-12 17:12:28 +08:00 · 2017-11-17 21:27:19 +08:00
parent eb1a697ff5
commit 0619789db1
3 changed files with 4 additions and 2 deletions
--- a/policy_iteration_demo.py
+++ b/policy_iteration_demo.py
@@ -71,7 +71,7 @@ def policy_iteration(env, gamma = 1.0):
 if __name__ == '__main__':
    env_name  = 'FrozenLake8x8-v0'
-    env = gym.make(env_name)
+    env = gym.make(env_name).unwrapped
    optimal_policy = policy_iteration(env, gamma = 1.0)
    scores = evaluate_policy(env, optimal_policy, gamma = 1.0)
    print('Average scores = ', np.mean(scores))
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,2 @@
 gym[all]==0.9.4
 numpy
--- a/value_iteration.py
+++ b/value_iteration.py
@@ -75,7 +75,7 @@ def value_iteration(env, gamma = 1.0):
 if __name__ == '__main__':
    env_name  = 'FrozenLake8x8-v0'
    gamma = 1.0
-    env = gym.make(env_name)
+    env = gym.make(env_name).unwrapped
    optimal_v = value_iteration(env, gamma);
    policy = extract_policy(optimal_v, gamma)
    policy_score = evaluate_policy(env, policy, gamma, n=1000)