End of training

Browse files

Files changed (7) hide show

README.md +2 -1
adapter_config.json +39 -0
adapter_model.safetensors +3 -0
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +142 -902
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -8,6 +8,7 @@ tags:
 - grpo
 - gensyn
 - I am bipedal exotic pelican
 - trl
 licence: license
 ---
@@ -39,7 +40,7 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 - TRL: 0.15.2
 - Transformers: 4.51.3
-- Pytorch: 2.5.1
 - Datasets: 3.5.1
 - Tokenizers: 0.21.1

 - grpo
 - gensyn
 - I am bipedal exotic pelican
+- unsloth
 - trl
 licence: license
 ---
 - TRL: 0.15.2
 - Transformers: 4.51.3
+- Pytorch: 2.6.0
 - Datasets: 3.5.1
 - Tokenizers: 0.21.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Gensyn/Qwen2.5-0.5B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "v_proj",
+    "down_proj",
+    "gate_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8995ee0ce70d515dc683e56f972f42413eb9b3d3b356e6821e9f2e385d8c4d8f
+size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 29684.7394626798,
-    "train_runtime": 550.6438,
-    "train_samples": 140,
-    "train_samples_per_second": 2.906,
-    "train_steps_per_second": 0.182
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.47737436893658e-06,
+    "train_runtime": 471.1429,
+    "train_samples": 19,
+    "train_samples_per_second": 0.679,
+    "train_steps_per_second": 0.042
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 29684.7394626798,
-    "train_runtime": 550.6438,
-    "train_samples": 140,
-    "train_samples_per_second": 2.906,
-    "train_steps_per_second": 0.182
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.47737436893658e-06,
+    "train_runtime": 471.1429,
+    "train_samples": 19,
+    "train_samples_per_second": 0.679,
+    "train_steps_per_second": 0.042
 }

trainer_state.json CHANGED Viewed

@@ -2,977 +2,217 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.571428571428571,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 145.71875,
-      "epoch": 0.11428571428571428,
-      "grad_norm": 0.0,
-      "kl": 0.0,
-      "learning_rate": 1.6666666666666665e-07,
-      "loss": -0.0,
-      "reward": 4.5110213661100715,
-      "reward_std": 1.5103917999658734,
-      "rewards/concensus_correctness_reward_func": 1.70499999076128,
-      "rewards/consensus_reward_func": 1.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.673615159932524,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.25,
-      "rewards/xmlcount_reward_func": 0.7574062517960556,
       "step": 2
     },
     {
-      "completion_length": 105.78125,
-      "epoch": 0.22857142857142856,
-      "grad_norm": 134.23297119140625,
-      "kl": 0.0054768975596743985,
-      "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 6.952304229140282,
-      "reward_std": 0.29407966136932373,
-      "rewards/concensus_correctness_reward_func": 2.0063750073313713,
-      "rewards/consensus_reward_func": 1.9375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.9693667776882648,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.453125,
-      "rewards/xmlcount_reward_func": 1.2109375,
       "step": 4
     },
     {
-      "completion_length": 123.59375,
-      "epoch": 0.34285714285714286,
-      "grad_norm": 0.009817171841859818,
-      "kl": 0.0034752699643831875,
-      "learning_rate": 4.994757065594279e-07,
       "loss": 0.0,
-      "reward": 6.67712490260601,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 1.8021250013262033,
-      "rewards/consensus_reward_func": 1.875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 1.0,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
       "step": 6
     },
     {
-      "completion_length": 114.40625,
-      "epoch": 0.45714285714285713,
-      "grad_norm": 0.01174523402005434,
-      "kl": 0.0023470728901884286,
-      "learning_rate": 4.979050253066063e-07,
       "loss": 0.0,
-      "reward": 7.667749911546707,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.4177500009536743,
-      "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 1.0,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
       "step": 8
     },
     {
-      "completion_length": 115.40625,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 0.005173771176487207,
-      "kl": 0.014806151867560402,
-      "learning_rate": 4.952945442245597e-07,
       "loss": 0.0,
-      "reward": 7.168810069561005,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.1689999848604202,
-      "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.9998100288212299,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
       "step": 10
     },
     {
-      "completion_length": 113.9375,
-      "epoch": 0.6857142857142857,
-      "grad_norm": 137.42959594726562,
-      "kl": 6.994681327629223,
-      "learning_rate": 4.916552125781528e-07,
-      "loss": 0.007,
-      "reward": 7.247430235147476,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.2944999784231186,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.9998052977025509,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.234375,
-      "step": 12
-    },
-    {
-      "completion_length": 122.0,
-      "epoch": 0.8,
-      "grad_norm": 1.0056698322296143,
-      "kl": 0.013116561494825874,
-      "learning_rate": 4.870022949890676e-07,
       "loss": 0.0,
-      "reward": 6.890243321657181,
-      "reward_std": 0.03314562886953354,
-      "rewards/concensus_correctness_reward_func": 2.043999969959259,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.9946808516979218,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.2421875,
-      "step": 14
-    },
-    {
-      "completion_length": 117.96875,
-      "epoch": 0.9142857142857143,
-      "grad_norm": 55.910499572753906,
-      "kl": 0.029010365306021413,
-      "learning_rate": 4.81355307410676e-07,
-      "loss": 0.0,
-      "reward": 6.665663808584213,
-      "reward_std": 0.08780299872159958,
-      "rewards/concensus_correctness_reward_func": 1.977749988436699,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.9691639058291912,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.234375,
-      "step": 16
-    },
-    {
-      "completion_length": 116.91666666666667,
-      "epoch": 1.0,
-      "grad_norm": 0.018898706883192062,
-      "kl": 0.20654772468454516,
-      "learning_rate": 4.747379352713488e-07,
-      "loss": 0.0002,
-      "reward": 6.508333325386047,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 1.7583333055178325,
-      "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 18
-    },
-    {
-      "completion_length": 119.65625,
-      "epoch": 1.1142857142857143,
-      "grad_norm": 131673767936.0,
-      "kl": 1484174298.078927,
-      "learning_rate": 4.6717793412953776e-07,
-      "loss": 1484174.375,
-      "reward": 6.440662741661072,
-      "reward_std": 0.3215883672237396,
-      "rewards/concensus_correctness_reward_func": 1.8583749793469906,
-      "rewards/consensus_reward_func": 1.9375,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.9690064564347267,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.20703125,
-      "step": 20
-    },
-    {
-      "completion_length": 113.53125,
-      "epoch": 1.2285714285714286,
-      "grad_norm": 0.2772182524204254,
-      "kl": 0.598538670794369,
-      "learning_rate": 4.5870701325731773e-07,
-      "loss": 0.0006,
-      "reward": 7.0761168003082275,
-      "reward_std": 0.06973974592983723,
-      "rewards/concensus_correctness_reward_func": 2.1724999845027924,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.9934605993330479,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.453125,
-      "rewards/xmlcount_reward_func": 1.20703125,
-      "step": 22
-    },
-    {
-      "completion_length": 111.625,
-      "epoch": 1.342857142857143,
-      "grad_norm": 0.3359204828739166,
-      "kl": 0.025825566772255115,
-      "learning_rate": 4.4936070264068016e-07,
-      "loss": 0.0,
-      "reward": 7.169749945402145,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.169749990105629,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 24
-    },
-    {
-      "completion_length": 113.6875,
-      "epoch": 1.457142857142857,
-      "grad_norm": 0.005876157432794571,
-      "kl": 0.0050323337000008905,
-      "learning_rate": 4.391782039544238e-07,
-      "loss": 0.0,
-      "reward": 7.012999922037125,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.0129999965429306,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 26
-    },
-    {
-      "completion_length": 121.6875,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 0.3083041310310364,
-      "kl": 0.2358870167809073,
-      "learning_rate": 4.282022261367073e-07,
-      "loss": 0.0002,
-      "reward": 6.6188749223947525,
-      "reward_std": 0.11048543266952038,
-      "rewards/concensus_correctness_reward_func": 1.946999991312623,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 28
-    },
-    {
-      "completion_length": 117.34375,
-      "epoch": 1.6857142857142857,
-      "grad_norm": 0.00944291427731514,
-      "kl": 0.005240324962869636,
-      "learning_rate": 4.1647880625292027e-07,
-      "loss": 0.0,
-      "reward": 6.917999982833862,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.0429999604821205,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 30
-    },
-    {
-      "completion_length": 118.59375,
-      "epoch": 1.8,
-      "grad_norm": 1.7269436120986938,
-      "kl": 0.01583864638087107,
-      "learning_rate": 4.040571164002318e-07,
-      "loss": 0.0,
-      "reward": 7.481499880552292,
-      "reward_std": 0.0883883461356163,
-      "rewards/concensus_correctness_reward_func": 2.419000007212162,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.4375,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 32
-    },
-    {
-      "completion_length": 122.4375,
-      "epoch": 1.9142857142857141,
-      "grad_norm": 0.019974946975708008,
-      "kl": 0.048992674514011014,
-      "learning_rate": 3.909892574627266e-07,
-      "loss": 0.0,
-      "reward": 6.924062520265579,
-      "reward_std": 0.12153397500514984,
-      "rewards/concensus_correctness_reward_func": 1.9162499904632568,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3125,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.453125,
-      "rewards/xmlcount_reward_func": 1.2421875,
-      "step": 34
-    },
-    {
-      "completion_length": 121.91666666666667,
-      "epoch": 2.0,
-      "grad_norm": 0.011273320764303207,
-      "kl": 0.027701640533147536,
-      "learning_rate": 3.773300405821908e-07,
-      "loss": 0.0,
-      "reward": 6.87549106280009,
-      "reward_std": 0.033116184175014496,
-      "rewards/concensus_correctness_reward_func": 1.9893333216508229,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.9929078022638956,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.4791666666666667,
-      "rewards/xmlcount_reward_func": 1.2474166651566823,
-      "step": 36
-    },
-    {
-      "completion_length": 113.9375,
-      "epoch": 2.1142857142857143,
-      "grad_norm": 0.11432693153619766,
-      "kl": 0.04086480487239896,
-      "learning_rate": 3.6313675726113475e-07,
-      "loss": 0.0,
-      "reward": 7.168903559446335,
-      "reward_std": 4.442277713678777e-05,
-      "rewards/concensus_correctness_reward_func": 2.169124983251095,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.9997786208987236,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 38
     },
     {
-      "completion_length": 116.71875,
-      "epoch": 2.2285714285714286,
-      "grad_norm": 0.09188953787088394,
-      "kl": 0.012245212276866368,
-      "learning_rate": 3.484689390623218e-07,
       "loss": 0.0,
-      "reward": 7.169124960899353,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.169124983251095,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 40
-    },
-    {
-      "completion_length": 135.125,
-      "epoch": 2.342857142857143,
-      "grad_norm": 3.4787302017211914,
-      "kl": 0.593309123571089,
-      "learning_rate": 3.3338810791270517e-07,
-      "loss": 0.0006,
-      "reward": 7.257124900817871,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.1321250051259995,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 42
-    },
-    {
-      "completion_length": 121.03125,
-      "epoch": 2.4571428571428573,
-      "grad_norm": 1.0152610540390015,
-      "kl": 0.24847944835892122,
-      "learning_rate": 3.179575180590857e-07,
-      "loss": 0.0002,
-      "reward": 7.024739623069763,
-      "reward_std": 0.011151571234222502,
-      "rewards/concensus_correctness_reward_func": 2.0638749971985817,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.9999271556735039,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.2421875,
-      "step": 44
-    },
-    {
-      "completion_length": 124.9375,
-      "epoch": 2.571428571428571,
-      "grad_norm": 7.650447845458984,
-      "kl": 0.8674181794049218,
-      "learning_rate": 3.022418907578188e-07,
-      "loss": 0.0009,
-      "reward": 6.307055249810219,
-      "reward_std": 0.04419417306780815,
-      "rewards/concensus_correctness_reward_func": 1.7134999874979258,
-      "rewards/consensus_reward_func": 1.875,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.9998052977025509,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 46
-    },
-    {
-      "completion_length": 120.9375,
-      "epoch": 2.685714285714286,
-      "grad_norm": 1.830073356628418,
-      "kl": 0.1826353092528734,
-      "learning_rate": 2.863071428113726e-07,
-      "loss": 0.0002,
-      "reward": 6.91051921248436,
-      "reward_std": 0.011993602442089468,
-      "rewards/concensus_correctness_reward_func": 2.0439999848604202,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.9915192350745201,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 48
-    },
-    {
-      "completion_length": 112.4375,
-      "epoch": 2.8,
-      "grad_norm": 772774.3125,
-      "kl": 61294.761235032754,
-      "learning_rate": 2.7022011009035107e-07,
-      "loss": 61.2948,
-      "reward": 6.738324627280235,
-      "reward_std": 0.09737744927406311,
-      "rewards/concensus_correctness_reward_func": 2.064999971538782,
-      "rewards/consensus_reward_func": 1.75,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.9897308498620987,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.21484375,
-      "step": 50
-    },
-    {
-      "completion_length": 113.0,
-      "epoch": 2.914285714285714,
-      "grad_norm": 0.027667926624417305,
-      "kl": 0.02456555592652876,
-      "learning_rate": 2.540482672006254e-07,
-      "loss": 0.0,
-      "reward": 7.299999892711639,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.1749999970197678,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 52
-    },
-    {
-      "completion_length": 108.95833333333333,
-      "epoch": 3.0,
-      "grad_norm": 0.08859401941299438,
-      "kl": 0.022353365551680326,
-      "learning_rate": 2.37859444471388e-07,
-      "loss": 0.0,
-      "reward": 6.915333350499471,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 1.9986666440963745,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 1.0,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 54
-    },
-    {
-      "completion_length": 113.40625,
-      "epoch": 3.1142857142857143,
-      "grad_norm": 0.04827781766653061,
-      "kl": 0.1669018538814271,
-      "learning_rate": 2.2172154345117894e-07,
-      "loss": 0.0002,
-      "reward": 6.828624963760376,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 1.953624963760376,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 56
-    },
-    {
-      "completion_length": 111.3125,
-      "epoch": 3.2285714285714286,
-      "grad_norm": 0.08809684216976166,
-      "kl": 0.09562112473940942,
-      "learning_rate": 2.0570225210519433e-07,
-      "loss": 0.0001,
-      "reward": 7.075749933719635,
-      "reward_std": 0.02863781340420246,
-      "rewards/concensus_correctness_reward_func": 2.0960000082850456,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.2453749999403954,
-      "step": 58
-    },
-    {
-      "completion_length": 116.65625,
-      "epoch": 3.342857142857143,
-      "grad_norm": 5.16734504699707,
-      "kl": 9.673246745584038,
-      "learning_rate": 1.8986876090843664e-07,
-      "loss": 0.0097,
-      "reward": 6.642811328172684,
-      "reward_std": 0.14822890423238277,
-      "rewards/concensus_correctness_reward_func": 2.0444999784231186,
-      "rewards/consensus_reward_func": 1.75,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.9889363348484039,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.453125,
-      "rewards/xmlcount_reward_func": 1.21875,
-      "step": 60
-    },
-    {
-      "completion_length": 114.09375,
-      "epoch": 3.4571428571428573,
-      "grad_norm": 8.348511695861816,
-      "kl": 1.3997792335576378,
-      "learning_rate": 1.7428748102551234e-07,
-      "loss": 0.0014,
-      "reward": 6.94431246817112,
-      "reward_std": 0.19701763801276684,
-      "rewards/concensus_correctness_reward_func": 2.045875007286668,
-      "rewards/consensus_reward_func": 1.8125,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.2421875,
-      "step": 62
-    },
-    {
-      "completion_length": 118.75,
-      "epoch": 3.571428571428571,
-      "grad_norm": 28.351816177368164,
-      "kl": 1.849376610138279,
-      "learning_rate": 1.5902376575912814e-07,
-      "loss": 0.0018,
-      "reward": 7.588562428951263,
-      "reward_std": 0.09943689405918121,
-      "rewards/concensus_correctness_reward_func": 2.315124996006489,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5625,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.2421875,
-      "step": 64
-    },
-    {
-      "completion_length": 125.0,
-      "epoch": 3.685714285714286,
-      "grad_norm": 0.1395985186100006,
-      "kl": 0.08357869584142463,
-      "learning_rate": 1.4414163643562753e-07,
-      "loss": 0.0001,
-      "reward": 7.033588498830795,
-      "reward_std": 0.04468413017457351,
-      "rewards/concensus_correctness_reward_func": 2.0653749853372574,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.999463576823473,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.234375,
-      "step": 66
     },
     {
-      "completion_length": 118.5625,
-      "epoch": 3.8,
-      "grad_norm": 2.3284428119659424,
-      "kl": 0.021772082669485826,
-      "learning_rate": 1.2970351387729872e-07,
       "loss": 0.0,
-      "reward": 7.125722587108612,
-      "reward_std": 0.060849911424156744,
-      "rewards/concensus_correctness_reward_func": 2.168749988079071,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.9999413713812828,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.23828125,
-      "step": 68
-    },
-    {
-      "completion_length": 118.40625,
-      "epoch": 3.914285714285714,
-      "grad_norm": 0.014703701250255108,
-      "kl": 610.1349981201129,
-      "learning_rate": 1.1576995658775404e-07,
-      "loss": 0.6101,
-      "reward": 6.650367766618729,
-      "reward_std": 0.025721000507473946,
-      "rewards/concensus_correctness_reward_func": 1.9187499731779099,
-      "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.9998052977025509,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.2474374994635582,
-      "step": 70
-    },
-    {
-      "completion_length": 117.20833333333333,
-      "epoch": 4.0,
-      "grad_norm": 0.14886708557605743,
-      "kl": 0.06357832976694529,
-      "learning_rate": 1.0239940674851941e-07,
-      "loss": 0.0,
-      "reward": 6.836241086324056,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 1.9266666571299236,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.9929078022638956,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 72
-    },
-    {
-      "completion_length": 120.96875,
-      "epoch": 4.114285714285714,
-      "grad_norm": 2.8220157623291016,
-      "kl": 0.02625376718060579,
-      "learning_rate": 8.964794509221507e-08,
-      "loss": 0.0,
-      "reward": 6.904249906539917,
-      "reward_std": 0.022627420723438263,
-      "rewards/concensus_correctness_reward_func": 2.0452499985694885,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.2496249973773956,
-      "step": 74
-    },
-    {
-      "completion_length": 112.25,
-      "epoch": 4.228571428571429,
-      "grad_norm": 13.022274017333984,
-      "kl": 0.10997068358119577,
-      "learning_rate": 7.756905568047392e-08,
-      "loss": 0.0001,
-      "reward": 6.940118342638016,
-      "reward_std": 0.011048543266952038,
-      "rewards/concensus_correctness_reward_func": 2.1251249834895134,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.9946808516979218,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.2265625,
-      "step": 76
-    },
-    {
-      "completion_length": 116.78125,
-      "epoch": 4.3428571428571425,
-      "grad_norm": 0.11638541519641876,
-      "kl": 0.03174898200086318,
-      "learning_rate": 6.621340157319996e-08,
-      "loss": 0.0,
-      "reward": 7.31488761305809,
-      "reward_std": 0.0003356575034558773,
-      "rewards/concensus_correctness_reward_func": 2.190124988555908,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.9997626580297947,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 78
     },
     {
-      "completion_length": 109.9375,
-      "epoch": 4.457142857142857,
-      "grad_norm": 0.09145835787057877,
-      "kl": 0.014472670096438378,
-      "learning_rate": 5.5628612330087724e-08,
       "loss": 0.0,
-      "reward": 7.670249938964844,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.4202499985694885,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 80
-    },
-    {
-      "completion_length": 130.3125,
-      "epoch": 4.571428571428571,
-      "grad_norm": 11.376300811767578,
-      "kl": 0.08390317361772759,
-      "learning_rate": 4.5859084235697235e-08,
-      "loss": 0.0001,
-      "reward": 6.354187414050102,
-      "reward_std": 0.02324613742530346,
-      "rewards/concensus_correctness_reward_func": 1.7456249836832285,
-      "rewards/consensus_reward_func": 1.875,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 1.0,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.2491874992847443,
-      "step": 82
-    },
-    {
-      "completion_length": 120.53125,
-      "epoch": 4.685714285714286,
-      "grad_norm": 0.025102941319346428,
-      "kl": 654.5053322186013,
-      "learning_rate": 3.6945794086007705e-08,
-      "loss": 0.6545,
-      "reward": 7.0527812242507935,
-      "reward_std": 0.10496116429567337,
-      "rewards/concensus_correctness_reward_func": 2.0332499966025352,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.4375,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.23828125,
-      "step": 84
-    },
-    {
-      "completion_length": 114.5625,
-      "epoch": 4.8,
-      "grad_norm": 13.666620254516602,
-      "kl": 2.7016793186194263,
-      "learning_rate": 2.892612731749414e-08,
-      "loss": 0.0027,
-      "reward": 6.9134474992752075,
-      "reward_std": 0.0069684546906501055,
-      "rewards/concensus_correctness_reward_func": 2.043374978005886,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.9950725585222244,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 86
-    },
-    {
-      "completion_length": 114.96875,
-      "epoch": 4.914285714285715,
-      "grad_norm": 0.09325135499238968,
-      "kl": 10.726173710958392,
-      "learning_rate": 2.183372119961499e-08,
-      "loss": 0.0107,
-      "reward": 6.717237025499344,
-      "reward_std": 0.2833777070045471,
-      "rewards/concensus_correctness_reward_func": 1.9829999767243862,
-      "rewards/consensus_reward_func": 1.9375,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.9764245375990868,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.2109375,
-      "step": 88
-    },
-    {
-      "completion_length": 113.625,
-      "epoch": 5.0,
-      "grad_norm": 0.05840963497757912,
-      "kl": 0.028356703667668626,
-      "learning_rate": 1.5698323748414122e-08,
-      "loss": 0.0,
-      "reward": 6.843000014623006,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 1.9263333181540172,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 90
-    },
-    {
-      "completion_length": 115.71875,
-      "epoch": 5.114285714285714,
-      "grad_norm": 20.699186325073242,
-      "kl": 0.19849324076494668,
-      "learning_rate": 1.054566895300324e-08,
-      "loss": 0.0002,
-      "reward": 6.53057761490345,
-      "reward_std": 0.16040338575839996,
-      "rewards/concensus_correctness_reward_func": 1.8652499951422215,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.9700151830911636,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.2265625,
-      "step": 92
-    },
-    {
-      "completion_length": 123.6875,
-      "epoch": 5.228571428571429,
-      "grad_norm": 8.814971923828125,
-      "kl": 1.0889026026070496,
-      "learning_rate": 6.397368838268496e-09,
-      "loss": 0.0011,
-      "reward": 6.928559973835945,
-      "reward_std": 0.022097086533904076,
-      "rewards/concensus_correctness_reward_func": 2.069374980404973,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.9998100288212299,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 94
-    },
-    {
-      "completion_length": 115.28125,
-      "epoch": 5.3428571428571425,
-      "grad_norm": 7.976017475128174,
-      "kl": 0.14256246562763408,
-      "learning_rate": 3.2708228165273244e-09,
-      "loss": 0.0001,
-      "reward": 6.844999939203262,
-      "reward_std": 0.0883883461356163,
-      "rewards/concensus_correctness_reward_func": 1.9387499913573265,
-      "rewards/consensus_reward_func": 2.0,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.46875,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 96
-    },
-    {
-      "completion_length": 114.75,
-      "epoch": 5.457142857142857,
-      "grad_norm": 0.04377632215619087,
-      "kl": 0.06355893767249654,
-      "learning_rate": 1.1791447083465133e-09,
-      "loss": 0.0001,
-      "reward": 7.034624993801117,
-      "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.034624993801117,
-      "rewards/consensus_reward_func": 1.875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 1.0,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.5,
-      "rewards/xmlcount_reward_func": 1.25,
-      "step": 98
     },
     {
-      "completion_length": 107.03125,
-      "epoch": 5.571428571428571,
-      "grad_norm": 22.148807525634766,
-      "kl": 0.03113703287090175,
-      "learning_rate": 1.3110773862126667e-10,
       "loss": 0.0,
-      "reward": 6.888993263244629,
-      "reward_std": 0.03314562886953354,
-      "rewards/concensus_correctness_reward_func": 2.0427499786019325,
-      "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.9946808516979218,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.484375,
-      "rewards/xmlcount_reward_func": 1.2421875,
-      "step": 100
     },
     {
-      "epoch": 5.571428571428571,
-      "step": 100,
       "total_flos": 0.0,
-      "train_loss": 29684.7394626798,
-      "train_runtime": 550.6438,
-      "train_samples_per_second": 2.906,
-      "train_steps_per_second": 0.182
     }
   ],
   "logging_steps": 2,
-  "max_steps": 100,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -987,7 +227,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 294.875,
+      "epoch": 0.42105263157894735,
+      "grad_norm": 7.388230323791504,
+      "kl": 0.0018326228964724578,
+      "learning_rate": 5e-07,
+      "loss": 0.0,
+      "reward": 0.23368853772990406,
+      "reward_std": 0.298145150532946,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.09978228050749749,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.07140624802559614,
       "step": 2
     },
     {
+      "completion_length": 365.21875,
+      "epoch": 0.8421052631578947,
+      "grad_norm": 23.853408813476562,
+      "kl": 0.005862652775249444,
+      "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.23603129759430885,
+      "reward_std": 0.30246378132142127,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.12512504076585174,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.11090624984353781,
       "step": 4
     },
     {
+      "completion_length": 226.0,
+      "epoch": 1.2105263157894737,
+      "grad_norm": 7.582596778869629,
+      "kl": 0.0031690104099522743,
+      "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 0.16822473385504313,
+      "reward_std": 0.5507601164281368,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.07142857142857142,
+      "rewards/question_recreation_reward_func": 0.1537961567352925,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.05699999790106501,
       "step": 6
     },
     {
+      "completion_length": 385.09375,
+      "epoch": 1.631578947368421,
+      "grad_norm": 2.9946677684783936,
+      "kl": 0.001347492725471966,
+      "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 0.21872268104925752,
+      "reward_std": 0.6904346485389397,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.2022851686924696,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.10856249555945396,
       "step": 8
     },
     {
+      "completion_length": 446.85714285714283,
+      "epoch": 2.0,
+      "grad_norm": 0.9212186336517334,
+      "kl": 0.0022978045121167918,
+      "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 0.13073402217456273,
+      "reward_std": 0.3137416091880628,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.13244829353477275,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.001714284930910383,
       "step": 10
     },
     {
+      "completion_length": 368.5625,
+      "epoch": 2.4210526315789473,
+      "grad_norm": 1.7672561407089233,
+      "kl": 0.0013554280303651467,
+      "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": -0.1324465568177402,
+      "reward_std": 0.6439249363029376,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.09061592211946845,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.22306250617839396,
+      "step": 12
     },
     {
+      "completion_length": 217.71875,
+      "epoch": 2.8421052631578947,
+      "grad_norm": 51.95741653442383,
+      "kl": 0.0025395552984264214,
+      "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 0.18613064312376082,
+      "reward_std": 0.20095090114045888,
+      "rewards/concensus_correctness_reward_func": 0.0013749999925494194,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.1167868955526501,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.06796875037252903,
+      "step": 14
     },
     {
+      "completion_length": 276.2142857142857,
+      "epoch": 3.2105263157894735,
+      "grad_norm": 29.23552131652832,
+      "kl": 0.0017278649694552378,
+      "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.2764262727328709,
+      "reward_std": 0.45395882214818684,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.16878341936639377,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.03621428566319602,
+      "step": 16
     },
     {
+      "completion_length": 319.46875,
+      "epoch": 3.6315789473684212,
+      "grad_norm": 52.476932525634766,
+      "kl": 0.004187825550616253,
+      "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 0.058828551205806434,
+      "reward_std": 0.11632925440790132,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.0568285504123196,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0020000003278255463,
+      "step": 18
     },
     {
+      "completion_length": 451.92857142857144,
+      "epoch": 4.0,
+      "grad_norm": 6.4608612060546875,
+      "kl": 0.0014391274640469679,
+      "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 0.09713409947497505,
+      "reward_std": 0.34493599299873623,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.07142857142857142,
+      "rewards/question_recreation_reward_func": 0.1079555196421487,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.08224999904632568,
+      "step": 20
     },
     {
+      "epoch": 4.0,
+      "step": 20,
       "total_flos": 0.0,
+      "train_loss": 2.47737436893658e-06,
+      "train_runtime": 471.1429,
+      "train_samples_per_second": 0.679,
+      "train_steps_per_second": 0.042
     }
   ],
   "logging_steps": 2,
+  "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b25d9cecb022bd8466bc95a28810ec4cc1b87989edb78a200a25872bbeda8aee
-size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:590cd41cfd14a5b1b8e84d269c5bcc6f22c8809140576b81ac98d0782e5a6e5e
+size 6008