use best sweeps in conf

BoxingBytes · BoxingBytes · commit 0fb60677f200 · 2025-11-09T11:42:17.000+01:00
diff --git a/pufferlib/config/ocean/predprey.ini b/pufferlib/config/ocean/predprey.ini
@@ -12,13 +12,13 @@ num_envs = 64
 vision = 3
 num_agents = 4
 report_interval = 1
-reward_death_scale = 1.0
-reward_eat = 0
-reward_collect = 0
-timestep_reward = 0
-reward_steal = 0
-hp_reward_scale = 0
-held_food_reward_scale = 0
+reward_death_scale = 0.14320154190448353
+reward_eat = 0.6301939255961027
+reward_collect = 1
+timestep_reward = -0.001012632066429986
+reward_steal = -0.4586085627124764
+hp_reward_scale = 0.07674633247055918
+held_food_reward_scale = 0.2643837513970884
 food_base_spawn_rate = 1e-1
 
 [train]
@@ -27,21 +27,21 @@ checkpoint_interval = 100
 adam_beta1 = 0.9925640021442416
 adam_beta2 = 0.9
 adam_eps = 6.225983651908837e-10
-bptt_horizon = 32
+bptt_horizon = 64
 clip_coef = 1
 ent_coef = 0.000999567018772538
 gae_lambda = 0.9948939854010467
 gamma = 0.9997469057538332
-learning_rate = 0.008574057351505564
+learning_rate = 0.002574057351505564
 max_grad_norm = 1.8944338753964156
 max_minibatch_size = 32768
 minibatch_size = 65536
 prio_alpha = 0.9328200510590207
-prio_beta0 = 0.39879635697457694
-vf_clip_coef = 0.9894773751752602
+prio_beta0 = 0.9225942853355249
+vf_clip_coef = 0.1
 vf_coef = 0.6935921910790133
-vtrace_c_clip = 5
-vtrace_rho_clip = 4.6674443397379175
+vtrace_c_clip = 2.819851610841173
+vtrace_rho_clip = 5
 
 
 [sweep]