End of training

Browse files

Files changed (9) hide show

README.md +7 -8
all_results.json +5 -5
model.safetensors +1 -1
special_tokens_map.json +1 -1
tokenizer.json +2 -2
tokenizer_config.json +3 -2
train_results.json +5 -5
trainer_state.json +949 -353
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: Gensyn/Qwen2.5-0.5B-Instruct
 library_name: transformers
 model_name: Qwen2.5-0.5B-Instruct-Gensyn-Swarm-bold_rugged_camel
 tags:
@@ -8,14 +8,13 @@ tags:
 - grpo
 - gensyn
 - I am bold rugged camel
-- unsloth
 - trl
 licence: license
 ---
 # Model Card for Qwen2.5-0.5B-Instruct-Gensyn-Swarm-bold_rugged_camel
-This model is a fine-tuned version of [Gensyn/Qwen2.5-0.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -38,10 +37,10 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 ### Framework versions
-- TRL: 0.15.2
-- Transformers: 4.48.2
-- Pytorch: 2.5.1
-- Datasets: 3.6.0
 - Tokenizers: 0.21.1
 ## Citations
@@ -63,7 +62,7 @@ Cite TRL as:
 ```bibtex
 @misc{vonwerra2022trl,
 	title        = {{TRL: Transformer Reinforcement Learning}},
-	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
 	year         = 2020,
 	journal      = {GitHub repository},
 	publisher    = {GitHub},

 ---
+base_model: unsloth/Qwen2.5-0.5B-Instruct
 library_name: transformers
 model_name: Qwen2.5-0.5B-Instruct-Gensyn-Swarm-bold_rugged_camel
 tags:
 - grpo
 - gensyn
 - I am bold rugged camel
 - trl
 licence: license
 ---
 # Model Card for Qwen2.5-0.5B-Instruct-Gensyn-Swarm-bold_rugged_camel
+This model is a fine-tuned version of [unsloth/Qwen2.5-0.5B-Instruct](https://huggingface.co/unsloth/Qwen2.5-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ### Framework versions
+- TRL: 0.17.0
+- Transformers: 4.51.3
+- Pytorch: 2.7.0
+- Datasets: 3.5.1
 - Tokenizers: 0.21.1
 ## Citations
 ```bibtex
 @misc{vonwerra2022trl,
 	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
 	year         = 2020,
 	journal      = {GitHub repository},
 	publisher    = {GitHub},

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.17895936399698256,
-    "train_runtime": 3065.998,
-    "train_samples": 122,
-    "train_samples_per_second": 4.175,
-    "train_steps_per_second": 0.033
 }

 {
     "total_flos": 0.0,
+    "train_loss": -0.006354737589201066,
+    "train_runtime": 2680.4196,
+    "train_samples": 12,
+    "train_samples_per_second": 0.149,
+    "train_steps_per_second": 0.019
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69272824f3e9ad2ec3a1b9cc52db3e0ce113682ce4278ca3cde44e534a1badd7
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:007406f7c32c1b25bc4351a4ecf89b40d66feed1715992e34ef5188c158b768e
 size 1976163472

special_tokens_map.json CHANGED Viewed

@@ -22,7 +22,7 @@
     "single_word": false
   },
   "pad_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

     "single_word": false
   },
   "pad_token": {
+    "content": "<|vision_pad|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5eee858c5123a4279c3e1f7b81247343f356ac767940b2692a928ad929543214
-size 11422063

 version https://git-lfs.github.com/spec/v1
+oid sha256:64e71213db910f5cafa86d35091f37393dcc344b1bbc34091d1b3eed4cca01d5
+size 11422064

tokenizer_config.json CHANGED Viewed

@@ -200,8 +200,9 @@
   "eos_token": "<|im_end|>",
   "errors": "replace",
   "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

   "eos_token": "<|im_end|>",
   "errors": "replace",
   "extra_special_tokens": {},
+  "model_max_length": 32768,
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "left",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.17895936399698256,
-    "train_runtime": 3065.998,
-    "train_samples": 122,
-    "train_samples_per_second": 4.175,
-    "train_steps_per_second": 0.033
 }

 {
     "total_flos": 0.0,
+    "train_loss": -0.006354737589201066,
+    "train_runtime": 2680.4196,
+    "train_samples": 12,
+    "train_samples_per_second": 0.149,
+    "train_steps_per_second": 0.019
 }

trainer_state.json CHANGED Viewed

@@ -1,408 +1,1004 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.262295081967213,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 100.3828125,
-      "epoch": 0.6557377049180327,
-      "grad_norm": 18.24576187133789,
-      "kl": 21.25354176312685,
-      "learning_rate": 5e-07,
-      "loss": 0.0213,
-      "reward": 5.629883229732513,
-      "reward_std": 0.9574323672801256,
-      "rewards/concensus_correctness_reward_func": 2.0075625002384188,
-      "rewards/consensus_reward_func": 1.89375,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1,
-      "rewards/question_recreation_reward_func": 0.18748326459899545,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.33671875,
-      "rewards/xmlcount_reward_func": 1.1043687596917153,
-      "step": 5
     },
     {
-      "completion_length": 107.58333333333333,
-      "epoch": 1.3934426229508197,
-      "grad_norm": 148.78001403808594,
-      "kl": 98.14546892188844,
-      "learning_rate": 4.965903258506806e-07,
-      "loss": 0.1031,
-      "reward": 5.229624305452619,
-      "reward_std": 1.4278448562004737,
-      "rewards/concensus_correctness_reward_func": 1.8250654481706166,
-      "rewards/consensus_reward_func": 1.7857142857142858,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.03869047619047619,
-      "rewards/question_recreation_reward_func": 0.21489370844903447,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.3162202380952381,
-      "rewards/xmlcount_reward_func": 1.0490401770387376,
       "step": 10
     },
     {
-      "completion_length": 104.20238095238095,
-      "epoch": 2.1311475409836067,
-      "grad_norm": 25.345481872558594,
-      "kl": 20.04661506130582,
-      "learning_rate": 4.864543104251586e-07,
-      "loss": 0.021,
-      "reward": 5.364634025664556,
-      "reward_std": 1.250795535388447,
-      "rewards/concensus_correctness_reward_func": 1.8868392705917358,
-      "rewards/consensus_reward_func": 1.8333333333333333,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0744047619047619,
-      "rewards/question_recreation_reward_func": 0.18857152263323465,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.31845238095238093,
-      "rewards/xmlcount_reward_func": 1.0630327349617368,
-      "step": 15
     },
     {
-      "completion_length": 102.1984375,
-      "epoch": 2.7868852459016393,
-      "grad_norm": 77.89488983154297,
-      "kl": 30.944871386885644,
-      "learning_rate": 4.698684378016222e-07,
-      "loss": 0.0309,
-      "reward": 5.653480577468872,
-      "reward_std": 1.2769613616168498,
-      "rewards/concensus_correctness_reward_func": 2.0845031082630157,
-      "rewards/consensus_reward_func": 1.846875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.096875,
-      "rewards/question_recreation_reward_func": 0.192813384719193,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.3375,
-      "rewards/xmlcount_reward_func": 1.0949140563607216,
-      "step": 20
     },
     {
-      "completion_length": 103.16220238095238,
-      "epoch": 3.5245901639344264,
-      "grad_norm": 24.907499313354492,
-      "kl": 230.05476773069017,
-      "learning_rate": 4.472851273490984e-07,
-      "loss": 0.2416,
-      "reward": 5.325274070103963,
-      "reward_std": 1.2981156784863699,
-      "rewards/concensus_correctness_reward_func": 1.8906339208285015,
-      "rewards/consensus_reward_func": 1.8273809523809523,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.03869047619047619,
-      "rewards/question_recreation_reward_func": 0.18287525122009574,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.31919642857142855,
-      "rewards/xmlcount_reward_func": 1.066497029293151,
-      "step": 25
     },
     {
-      "completion_length": 103.94345238095238,
-      "epoch": 4.262295081967213,
-      "grad_norm": 394.05816650390625,
-      "kl": 61.65677780338696,
-      "learning_rate": 4.193203929064353e-07,
-      "loss": 0.0647,
-      "reward": 5.575706357047672,
-      "reward_std": 1.164041012170769,
-      "rewards/concensus_correctness_reward_func": 2.0769047424906777,
-      "rewards/consensus_reward_func": 1.8482142857142858,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.03869047619047619,
-      "rewards/question_recreation_reward_func": 0.1917480392647641,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.33630952380952384,
-      "rewards/xmlcount_reward_func": 1.083839285941351,
-      "step": 30
     },
     {
-      "completion_length": 99.4546875,
-      "epoch": 4.918032786885246,
-      "grad_norm": 20.789705276489258,
-      "kl": 22.802349741756917,
-      "learning_rate": 3.867370395306068e-07,
-      "loss": 0.0228,
-      "reward": 5.526724541187287,
-      "reward_std": 1.3097478641197084,
-      "rewards/concensus_correctness_reward_func": 2.0230187296867372,
-      "rewards/consensus_reward_func": 1.825,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.071875,
-      "rewards/question_recreation_reward_func": 0.19072145251557232,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.33125,
-      "rewards/xmlcount_reward_func": 1.0848593652248382,
-      "step": 35
     },
     {
-      "completion_length": 103.71577380952381,
-      "epoch": 5.655737704918033,
-      "grad_norm": 45803.5234375,
-      "kl": 1866.460280713581,
-      "learning_rate": 3.5042385616324236e-07,
-      "loss": 1.9598,
-      "reward": 5.331885190237136,
-      "reward_std": 1.2931899396436555,
-      "rewards/concensus_correctness_reward_func": 1.847133906114669,
-      "rewards/consensus_reward_func": 1.8035714285714286,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.05654761904761905,
-      "rewards/question_recreation_reward_func": 0.20447895285629092,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.33482142857142855,
-      "rewards/xmlcount_reward_func": 1.085331841593697,
-      "step": 40
     },
     {
-      "completion_length": 101.29017857142857,
-      "epoch": 6.39344262295082,
-      "grad_norm": 244.06797790527344,
-      "kl": 121.59677911514328,
-      "learning_rate": 3.1137137178519977e-07,
-      "loss": 0.1277,
-      "reward": 5.363064402625675,
-      "reward_std": 1.220301142671988,
-      "rewards/concensus_correctness_reward_func": 1.9234166599455333,
-      "rewards/consensus_reward_func": 1.8244047619047619,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.03273809523809524,
-      "rewards/question_recreation_reward_func": 0.18449295338775432,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.32068452380952384,
-      "rewards/xmlcount_reward_func": 1.0773273834160395,
-      "step": 45
     },
     {
-      "completion_length": 105.33779761904762,
-      "epoch": 7.131147540983607,
-      "grad_norm": 36.396759033203125,
-      "kl": 139.66608831428346,
-      "learning_rate": 2.706448363680831e-07,
-      "loss": 0.1467,
-      "reward": 5.507648865381877,
-      "reward_std": 1.35185175743841,
-      "rewards/concensus_correctness_reward_func": 2.0074226146652583,
-      "rewards/consensus_reward_func": 1.8154761904761905,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.08928571428571429,
-      "rewards/question_recreation_reward_func": 0.19738249081586087,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.33407738095238093,
-      "rewards/xmlcount_reward_func": 1.0640044609705608,
-      "step": 50
     },
     {
-      "completion_length": 103.2515625,
-      "epoch": 7.786885245901639,
-      "grad_norm": 828.4172973632812,
-      "kl": 65.73979671299458,
-      "learning_rate": 2.2935516363191693e-07,
-      "loss": 0.0657,
-      "reward": 5.565059649944305,
-      "reward_std": 1.3059047222137452,
-      "rewards/concensus_correctness_reward_func": 2.053659364581108,
-      "rewards/consensus_reward_func": 1.8375,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.071875,
-      "rewards/question_recreation_reward_func": 0.1800190585665405,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.34140625,
-      "rewards/xmlcount_reward_func": 1.0805999979376792,
-      "step": 55
     },
     {
-      "completion_length": 101.42261904761905,
-      "epoch": 8.524590163934427,
-      "grad_norm": 276.790771484375,
-      "kl": 38.72009684358324,
-      "learning_rate": 1.886286282148002e-07,
-      "loss": 0.0407,
-      "reward": 5.529350417000907,
-      "reward_std": 1.1430614941886492,
-      "rewards/concensus_correctness_reward_func": 1.9908987851369948,
-      "rewards/consensus_reward_func": 1.8392857142857142,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.20330874985527425,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.33035714285714285,
-      "rewards/xmlcount_reward_func": 1.1030000008287884,
-      "step": 60
     },
     {
-      "completion_length": 103.26190476190476,
-      "epoch": 9.262295081967213,
-      "grad_norm": 151.35389709472656,
-      "kl": 71.02663791747321,
-      "learning_rate": 1.4957614383675767e-07,
-      "loss": 0.0746,
-      "reward": 5.519129571460542,
-      "reward_std": 1.3336647582196055,
-      "rewards/concensus_correctness_reward_func": 2.0491041512716386,
-      "rewards/consensus_reward_func": 1.8154761904761905,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.08928571428571429,
-      "rewards/question_recreation_reward_func": 0.17715932703798726,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.32142857142857145,
-      "rewards/xmlcount_reward_func": 1.0666756048088981,
-      "step": 65
     },
     {
-      "completion_length": 104.4890625,
-      "epoch": 9.918032786885245,
-      "grad_norm": 83.57910919189453,
-      "kl": 280.223268455267,
-      "learning_rate": 1.1326296046939333e-07,
-      "loss": 0.2802,
-      "reward": 5.418901389837265,
-      "reward_std": 1.4045355953276157,
-      "rewards/concensus_correctness_reward_func": 1.9587249845266341,
-      "rewards/consensus_reward_func": 1.790625,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.075,
-      "rewards/question_recreation_reward_func": 0.19451857786625623,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.328125,
-      "rewards/xmlcount_reward_func": 1.0719077974557876,
-      "step": 70
     },
     {
-      "completion_length": 102.25297619047619,
-      "epoch": 10.655737704918034,
-      "grad_norm": 14.267416954040527,
-      "kl": 29.046702690067747,
-      "learning_rate": 8.067960709356478e-08,
-      "loss": 0.0305,
-      "reward": 5.528152045749483,
-      "reward_std": 1.3876310292453993,
-      "rewards/concensus_correctness_reward_func": 2.0544732014338174,
-      "rewards/consensus_reward_func": 1.8035714285714286,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.07142857142857142,
-      "rewards/question_recreation_reward_func": 0.1875746830233506,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.33556547619047616,
-      "rewards/xmlcount_reward_func": 1.075538693439393,
-      "step": 75
     },
     {
-      "completion_length": 102.58630952380952,
-      "epoch": 11.39344262295082,
-      "grad_norm": 31.220264434814453,
-      "kl": 134.90475826036362,
-      "learning_rate": 5.271487265090163e-08,
-      "loss": 0.1416,
-      "reward": 5.555762756438482,
-      "reward_std": 1.4382377146255403,
-      "rewards/concensus_correctness_reward_func": 2.0338958217984153,
-      "rewards/consensus_reward_func": 1.8154761904761905,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.08035714285714286,
-      "rewards/question_recreation_reward_func": 0.19962290736536184,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.3444940476190476,
-      "rewards/xmlcount_reward_func": 1.0819166629087358,
-      "step": 80
     },
     {
-      "completion_length": 102.8764880952381,
-      "epoch": 12.131147540983607,
-      "grad_norm": 59.1387939453125,
-      "kl": 87.94486146313804,
-      "learning_rate": 3.013156219837776e-08,
-      "loss": 0.0923,
-      "reward": 5.488595451627459,
-      "reward_std": 1.343421846628189,
-      "rewards/concensus_correctness_reward_func": 2.009145816167196,
-      "rewards/consensus_reward_func": 1.8154761904761905,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.07142857142857142,
-      "rewards/question_recreation_reward_func": 0.18893775813991115,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.3288690476190476,
-      "rewards/xmlcount_reward_func": 1.07473809946151,
-      "step": 85
     },
     {
-      "completion_length": 98.6375,
-      "epoch": 12.78688524590164,
-      "grad_norm": 74.56422424316406,
-      "kl": 35.45555876493454,
-      "learning_rate": 1.3545689574841341e-08,
-      "loss": 0.0355,
-      "reward": 5.770984804630279,
-      "reward_std": 1.1192259122617543,
-      "rewards/concensus_correctness_reward_func": 2.1744687259197235,
-      "rewards/consensus_reward_func": 1.86875,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.078125,
-      "rewards/question_recreation_reward_func": 0.19403170635923744,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.3484375,
-      "rewards/xmlcount_reward_func": 1.1071718871593474,
-      "step": 90
     },
     {
-      "completion_length": 103.7514880952381,
-      "epoch": 13.524590163934427,
-      "grad_norm": 32.33314895629883,
-      "kl": 23.102159996827442,
-      "learning_rate": 3.4096741493194193e-09,
-      "loss": 0.0243,
-      "reward": 5.315151680083502,
-      "reward_std": 1.443944205485639,
-      "rewards/concensus_correctness_reward_func": 1.9253303380239577,
-      "rewards/consensus_reward_func": 1.7827380952380953,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.03273809523809524,
-      "rewards/question_recreation_reward_func": 0.19389274530112743,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.33407738095238093,
-      "rewards/xmlcount_reward_func": 1.0463750177905673,
-      "step": 95
     },
     {
-      "completion_length": 101.82142857142857,
-      "epoch": 14.262295081967213,
-      "grad_norm": 35.32180404663086,
-      "kl": 51.68701913243248,
-      "learning_rate": 0.0,
-      "loss": 0.0543,
-      "reward": 5.64833756855556,
-      "reward_std": 1.2089521551416034,
-      "rewards/concensus_correctness_reward_func": 2.118910712855203,
-      "rewards/consensus_reward_func": 1.8482142857142858,
-      "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0744047619047619,
-      "rewards/question_recreation_reward_func": 0.17145216119076526,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.34375,
-      "rewards/xmlcount_reward_func": 1.0916056491079784,
-      "step": 100
     },
     {
-      "epoch": 14.262295081967213,
-      "step": 100,
       "total_flos": 0.0,
-      "train_loss": 0.17895936399698256,
-      "train_runtime": 3065.998,
-      "train_samples_per_second": 4.175,
-      "train_steps_per_second": 0.033
     }
   ],
-  "logging_steps": 5,
-  "max_steps": 100,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 15,
-  "save_steps": 50,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -416,7 +1012,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 16.666666666666668,
   "eval_steps": 500,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 5.5,
+      "completions/max_terminated_length": 5.5,
+      "completions/mean_length": 4.4375,
+      "completions/mean_terminated_length": 4.4375,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.122226422012318e-06,
+      "kl": -1.4901161415892261e-09,
+      "learning_rate": 2.5e-07,
+      "loss": -0.0,
+      "num_tokens": 1607.0,
+      "reward": 1.2525351345539093,
+      "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func/mean": 1.20250004529953,
+      "rewards/concensus_correctness_reward_func/std": 0.9595301449298859,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.050035042222589254,
+      "rewards/question_recreation_reward_func/std": 0.012183232656752807,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 2
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 4.5,
+      "completions/max_terminated_length": 4.5,
+      "completions/mean_length": 4.125,
+      "completions/mean_terminated_length": 4.125,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 1.3333333333333333,
+      "grad_norm": 5.171295561012812e-05,
+      "kl": 1.7024576948188042e-07,
+      "learning_rate": 4.994647308096508e-07,
+      "loss": 0.0,
+      "num_tokens": 3209.0,
+      "reward": 1.275140255689621,
+      "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func/mean": 1.1945000141859055,
+      "rewards/concensus_correctness_reward_func/std": 0.1435021311044693,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.0806402824819088,
+      "rewards/question_recreation_reward_func/std": 0.005166131537407637,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 4
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 5.0,
+      "completions/max_terminated_length": 5.0,
+      "completions/mean_length": 4.3125,
+      "completions/mean_terminated_length": 4.3125,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 2.0,
+      "grad_norm": 3.3832443513404087e-09,
+      "kl": 0.00015763420668690742,
+      "learning_rate": 4.951963201008075e-07,
+      "loss": 0.0,
+      "num_tokens": 4814.0,
+      "reward": 0.9683559592813253,
+      "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func/mean": 0.9620000123977661,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.006355952471494675,
+      "rewards/question_recreation_reward_func/std": 0.0015629313420504332,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 6
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 11.0,
+      "completions/max_terminated_length": 11.0,
+      "completions/mean_length": 5.0,
+      "completions/mean_terminated_length": 5.0,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 2.6666666666666665,
+      "grad_norm": 1.9365202774679346e-09,
+      "kl": 0.014343254268169403,
+      "learning_rate": 4.867325323737765e-07,
+      "loss": -0.0441,
+      "num_tokens": 6430.0,
+      "reward": 2.1415916681289673,
+      "reward_std": 0.0054927063174545765,
+      "rewards/concensus_correctness_reward_func/mean": 1.0365000367164612,
+      "rewards/concensus_correctness_reward_func/std": 0.4453195035457611,
+      "rewards/consensus_reward_func/mean": 1.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.10509166494011879,
+      "rewards/question_recreation_reward_func/std": 0.013517891056835651,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 8
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 8.0,
+      "completions/max_terminated_length": 8.0,
+      "completions/mean_length": 5.875,
+      "completions/mean_terminated_length": 5.875,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 3.3333333333333335,
+      "grad_norm": 5.078624631948969e-09,
+      "kl": 0.15408404730260372,
+      "learning_rate": 4.7421818538317203e-07,
+      "loss": 0.0039,
+      "num_tokens": 8059.0,
+      "reward": 1.0263595327269286,
+      "reward_std": 0.000949082663282752,
+      "rewards/concensus_correctness_reward_func/mean": 0.9620000123977661,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.06435950938612223,
+      "rewards/question_recreation_reward_func/std": 0.0011813289020210505,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
       "step": 10
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.5,
+      "completions/max_terminated_length": 21.5,
+      "completions/mean_length": 8.5625,
+      "completions/mean_terminated_length": 8.5625,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 4.0,
+      "grad_norm": 0.0029723152983933687,
+      "kl": 0.23341824859380722,
+      "learning_rate": 4.578674030756363e-07,
+      "loss": -0.0579,
+      "num_tokens": 9718.0,
+      "reward": 0.8252299129962921,
+      "reward_std": 0.006629505660384893,
+      "rewards/concensus_correctness_reward_func/mean": 0.7135000079870224,
+      "rewards/concensus_correctness_reward_func/std": 0.657712772488594,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.1117299422621727,
+      "rewards/question_recreation_reward_func/std": 0.049328483641147614,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 12
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 11.5,
+      "completions/max_terminated_length": 11.5,
+      "completions/mean_length": 5.875,
+      "completions/mean_terminated_length": 5.875,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 4.666666666666667,
+      "grad_norm": 25.810482025146484,
+      "kl": 0.13111786916851997,
+      "learning_rate": 4.379599518697443e-07,
+      "loss": 0.0001,
+      "num_tokens": 11348.0,
+      "reward": 1.7566919326782227,
+      "reward_std": 0.004746258724480867,
+      "rewards/concensus_correctness_reward_func/mean": 0.9562499672174454,
+      "rewards/concensus_correctness_reward_func/std": 0.5902103334665298,
+      "rewards/consensus_reward_func/mean": 0.75,
+      "rewards/consensus_reward_func/std": 0.4629100561141968,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.05044195894151926,
+      "rewards/question_recreation_reward_func/std": 0.01659557862149086,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 14
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7.5,
+      "completions/max_terminated_length": 7.5,
+      "completions/mean_length": 4.875,
+      "completions/mean_terminated_length": 4.875,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 5.333333333333333,
+      "grad_norm": 12.974661827087402,
+      "kl": 0.16539602912962437,
+      "learning_rate": 4.1483645377501717e-07,
+      "loss": 0.0002,
+      "num_tokens": 12976.0,
+      "reward": 1.4967188835144043,
+      "reward_std": 0.00440641213208437,
+      "rewards/concensus_correctness_reward_func/mean": 1.443000078201294,
+      "rewards/concensus_correctness_reward_func/std": 0.8906390070915222,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.05371885746717453,
+      "rewards/question_recreation_reward_func/std": 0.024849189911037683,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 16
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 29.5,
+      "completions/max_terminated_length": 29.5,
+      "completions/mean_length": 7.625,
+      "completions/mean_terminated_length": 7.625,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 6.0,
+      "grad_norm": 21.782949447631836,
+      "kl": 0.08358937688171864,
+      "learning_rate": 3.8889255825490053e-07,
+      "loss": 0.0311,
+      "num_tokens": 14657.0,
+      "reward": 1.5110957026481628,
+      "reward_std": 0.00673344565439038,
+      "rewards/concensus_correctness_reward_func/mean": 1.4415000081062317,
+      "rewards/concensus_correctness_reward_func/std": 0.8897131681442261,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.06959578255191445,
+      "rewards/question_recreation_reward_func/std": 0.03374439827166498,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 18
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7.5,
+      "completions/max_terminated_length": 7.5,
+      "completions/mean_length": 4.875,
+      "completions/mean_terminated_length": 4.875,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 6.666666666666667,
+      "grad_norm": 3.4635640133728884e-08,
+      "kl": 0.08152611553668976,
+      "learning_rate": 3.605721725547503e-07,
+      "loss": 0.0001,
+      "num_tokens": 16271.0,
+      "reward": 1.7468912601470947,
+      "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func/mean": 1.6819999814033508,
+      "rewards/concensus_correctness_reward_func/std": 0.44439366459846497,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.06489124614745378,
+      "rewards/question_recreation_reward_func/std": 0.00020469618903007358,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 20
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.0,
+      "completions/max_terminated_length": 16.0,
+      "completions/mean_length": 10.0,
+      "completions/mean_terminated_length": 10.0,
+      "completions/min_length": 7.5,
+      "completions/min_terminated_length": 7.5,
+      "epoch": 7.333333333333333,
+      "grad_norm": 4.029274336403432e-08,
+      "kl": 0.1582445427775383,
+      "learning_rate": 3.3035986632579036e-07,
+      "loss": -0.0291,
+      "num_tokens": 17919.0,
+      "reward": 1.0044002416543663,
+      "reward_std": 0.0018568980740383267,
+      "rewards/concensus_correctness_reward_func/mean": 0.9620000123977661,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.04240023344755173,
+      "rewards/question_recreation_reward_func/std": 0.003086475422605872,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 22
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 36.5,
+      "completions/mean_length": 18.0625,
+      "completions/mean_terminated_length": 12.678571224212646,
+      "completions/min_length": 7.5,
+      "completions/min_terminated_length": 7.5,
+      "epoch": 8.0,
+      "grad_norm": 28.683290481567383,
+      "kl": 0.24511529877781868,
+      "learning_rate": 2.987725805040321e-07,
+      "loss": -0.0032,
+      "num_tokens": 19698.0,
+      "reward": 1.0137799084186554,
+      "reward_std": 0.016448209527879953,
+      "rewards/concensus_correctness_reward_func/mean": 0.8765000402927399,
+      "rewards/concensus_correctness_reward_func/std": 0.6110214740037918,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.13727985322475433,
+      "rewards/question_recreation_reward_func/std": 0.06551616452634335,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 24
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 55.5,
+      "completions/mean_length": 19.125,
+      "completions/mean_terminated_length": 13.982142925262451,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 8.666666666666666,
+      "grad_norm": 9.308053016662598,
+      "kl": 0.2221585288643837,
+      "learning_rate": 2.663507823075358e-07,
+      "loss": 0.0293,
+      "num_tokens": 21540.0,
+      "reward": 0.7325176950544119,
+      "reward_std": 0.00014589350030291826,
+      "rewards/concensus_correctness_reward_func/mean": 0.7199999690055847,
+      "rewards/concensus_correctness_reward_func/std": 0.44439366459846497,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.012517708819359541,
+      "rewards/question_recreation_reward_func/std": 0.006235835782717913,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 26
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 7.0,
+      "completions/mean_length": 10.125,
+      "completions/mean_terminated_length": 4.428571462631226,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 9.333333333333334,
+      "grad_norm": 14.845952987670898,
+      "kl": 0.054857412353158,
+      "learning_rate": 2.336492176924642e-07,
+      "loss": -0.0711,
+      "num_tokens": 23238.0,
+      "reward": 0.969230305403471,
+      "reward_std": 0.0014799739001318812,
+      "rewards/concensus_correctness_reward_func/mean": 0.9620000123977661,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.0072302743792533875,
+      "rewards/question_recreation_reward_func/std": 0.003834317671135068,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 28
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1875,
+      "completions/max_length": 96.0,
+      "completions/max_terminated_length": 52.5,
+      "completions/mean_length": 31.0,
+      "completions/mean_terminated_length": 16.547618865966797,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 10.0,
+      "grad_norm": 8.113728523254395,
+      "kl": 0.1079877857118845,
+      "learning_rate": 2.0122741949596793e-07,
+      "loss": 0.0528,
+      "num_tokens": 25119.0,
+      "reward": 0.7863147500902414,
+      "reward_std": 0.007107729441486299,
+      "rewards/concensus_correctness_reward_func/mean": 0.721500039100647,
+      "rewards/concensus_correctness_reward_func/std": 0.4453195035457611,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.06481470353901386,
+      "rewards/question_recreation_reward_func/std": 0.043396634981036186,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 30
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 36.5,
+      "completions/max_terminated_length": 36.5,
+      "completions/mean_length": 14.6875,
+      "completions/mean_terminated_length": 14.6875,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 10.666666666666666,
+      "grad_norm": 20.759033203125,
+      "kl": 0.2695002183318138,
+      "learning_rate": 1.6964013367420965e-07,
+      "loss": -0.0615,
+      "num_tokens": 26890.0,
+      "reward": 0.9509141445159912,
+      "reward_std": 0.0098513662815094,
+      "rewards/concensus_correctness_reward_func/mean": 0.8749999701976776,
+      "rewards/concensus_correctness_reward_func/std": 0.6100956350564957,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.07591419294476509,
+      "rewards/question_recreation_reward_func/std": 0.047521001601126045,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 32
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 14.0,
+      "completions/mean_length": 11.0,
+      "completions/mean_terminated_length": 5.428571462631226,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 11.333333333333334,
+      "grad_norm": 10.727737426757812,
+      "kl": 0.05535062029957771,
+      "learning_rate": 1.3942782744524973e-07,
+      "loss": 0.053,
+      "num_tokens": 28602.0,
+      "reward": 1.749426543712616,
+      "reward_std": 0.008744525723159313,
+      "rewards/concensus_correctness_reward_func/mean": 1.6775000095367432,
+      "rewards/concensus_correctness_reward_func/std": 0.4453195035457611,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.07192660123109818,
+      "rewards/question_recreation_reward_func/std": 0.028842128813266754,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 34
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 39.0,
+      "completions/max_terminated_length": 39.0,
+      "completions/mean_length": 14.1875,
+      "completions/mean_terminated_length": 14.1875,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 12.0,
+      "grad_norm": 4.972465603714227e-07,
+      "kl": 0.09537366032600403,
+      "learning_rate": 1.1110744174509951e-07,
+      "loss": -0.0332,
+      "num_tokens": 30365.0,
+      "reward": 0.9711364028044045,
+      "reward_std": 0.000936258933506906,
+      "rewards/concensus_correctness_reward_func/mean": 0.9599999785423279,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.01113644428551197,
+      "rewards/question_recreation_reward_func/std": 0.004477651324123144,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 36
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 26.0,
+      "completions/max_terminated_length": 26.0,
+      "completions/mean_length": 8.8125,
+      "completions/mean_terminated_length": 8.8125,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 12.666666666666666,
+      "grad_norm": 2.598005144349713e-09,
+      "kl": 0.07045537792146206,
+      "learning_rate": 8.516354622498278e-08,
+      "loss": 0.0101,
+      "num_tokens": 32042.0,
+      "reward": 1.0144791088532656,
+      "reward_std": 8.961161074694246e-05,
+      "rewards/concensus_correctness_reward_func/mean": 0.9620000123977661,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.05247914115898311,
+      "rewards/question_recreation_reward_func/std": 0.0014408096903935075,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 38
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 84.5,
+      "completions/max_terminated_length": 47.0,
+      "completions/mean_length": 24.9375,
+      "completions/mean_terminated_length": 14.145833492279053,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 13.333333333333334,
+      "grad_norm": 11.580063819885254,
+      "kl": 0.26880926452577114,
+      "learning_rate": 6.204004813025567e-08,
+      "loss": -0.0378,
+      "num_tokens": 33920.0,
+      "reward": 0.016987387090921402,
+      "reward_std": 0.001602659816853702,
+      "rewards/concensus_correctness_reward_func/mean": 0.0,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.016987387090921402,
+      "rewards/question_recreation_reward_func/std": 0.012470217421650887,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 40
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.0,
+      "completions/max_terminated_length": 16.0,
+      "completions/mean_length": 9.875,
+      "completions/mean_terminated_length": 9.875,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 14.0,
+      "grad_norm": 13.555513381958008,
+      "kl": 0.13996858708560467,
+      "learning_rate": 4.213259692436366e-08,
+      "loss": 0.025,
+      "num_tokens": 35711.0,
+      "reward": 1.238945186138153,
+      "reward_std": 0.019770290702581406,
+      "rewards/concensus_correctness_reward_func/mean": 1.117000013589859,
+      "rewards/concensus_correctness_reward_func/std": 0.1657019704580307,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.121945109218359,
+      "rewards/question_recreation_reward_func/std": 0.049046434462070465,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 42
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 33.0,
+      "completions/mean_length": 13.375,
+      "completions/mean_terminated_length": 8.142857074737549,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 14.666666666666666,
+      "grad_norm": 6.8140435516284015e-09,
+      "kl": 0.0543803870677948,
+      "learning_rate": 2.5781814616827933e-08,
+      "loss": -0.0189,
+      "num_tokens": 37461.0,
+      "reward": 1.7509318590164185,
+      "reward_std": 0.0020830321591347456,
+      "rewards/concensus_correctness_reward_func/mean": 1.683500051498413,
+      "rewards/concensus_correctness_reward_func/std": 0.4453195035457611,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.06743180518969893,
+      "rewards/question_recreation_reward_func/std": 0.004411348141729832,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 44
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 93.0,
+      "completions/max_terminated_length": 72.5,
+      "completions/mean_length": 32.5625,
+      "completions/mean_terminated_length": 22.583333015441895,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 15.333333333333334,
+      "grad_norm": 14.194186210632324,
+      "kl": 0.33030909672379494,
+      "learning_rate": 1.3267467626223605e-08,
+      "loss": 0.0271,
+      "num_tokens": 39502.0,
+      "reward": 0.019012368749827147,
+      "reward_std": 0.0037862203316763043,
+      "rewards/concensus_correctness_reward_func/mean": 0.0,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.019012369215488434,
+      "rewards/question_recreation_reward_func/std": 0.014280529227107763,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 46
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 4.0,
+      "completions/mean_length": 27.0,
+      "completions/mean_terminated_length": 4.0,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 16.0,
+      "grad_norm": 6.133322715759277,
+      "kl": 0.044046737253665924,
+      "learning_rate": 4.803679899192392e-09,
+      "loss": 0.0,
+      "num_tokens": 41286.0,
+      "reward": 0.9705088818445802,
+      "reward_std": 0.0009944201447069645,
+      "rewards/concensus_correctness_reward_func/mean": 0.9599999785423279,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.010508923325687647,
+      "rewards/question_recreation_reward_func/std": 0.004894755315035582,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 48
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1875,
+      "completions/max_length": 96.0,
+      "completions/max_terminated_length": 43.0,
+      "completions/mean_length": 28.6875,
+      "completions/mean_terminated_length": 13.523809909820557,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 16.666666666666668,
+      "grad_norm": 7.58546257019043,
+      "kl": 0.1461558025330305,
+      "learning_rate": 5.352691903491303e-10,
+      "loss": -0.0349,
+      "num_tokens": 43281.0,
+      "reward": 0.4925380670465529,
+      "reward_std": 0.0025778122944757342,
+      "rewards/concensus_correctness_reward_func/mean": 0.48100000619888306,
+      "rewards/concensus_correctness_reward_func/std": 0.5142106413841248,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.011538045946508646,
+      "rewards/question_recreation_reward_func/std": 0.008576579857617617,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 50
     },
     {
+      "epoch": 16.666666666666668,
+      "step": 50,
       "total_flos": 0.0,
+      "train_loss": -0.006354737589201066,
+      "train_runtime": 2680.4196,
+      "train_samples_per_second": 0.149,
+      "train_steps_per_second": 0.019
     }
   ],
+  "logging_steps": 2,
+  "max_steps": 50,
+  "num_input_tokens_seen": 43281,
+  "num_train_epochs": 17,
+  "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f61e7cd63625c52f24373a35fc8911f78375028dddc9c9ee533d76f160cb57ec
-size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:aab747cd8440c28c67e9fdfa8df6ca5ce16d51dfbea95f302c5d05f586371c45
+size 6801