Model save

Browse files

Files changed (5) hide show

README.md +67 -0
all_results.json +8 -0
generation_config.json +14 -0
train_results.json +8 -0
trainer_state.json +1204 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+model_name: DeepSeek-R1-Distill-Qwen-0.5B-GRPO
+tags:
+- generated_from_trainer
+- trl
+- grpo
+licence: license
+---
+# Model Card for DeepSeek-R1-Distill-Qwen-0.5B-GRPO
+This model is a fine-tuned version of [None](https://huggingface.co/None).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="Blancy/DeepSeek-R1-Distill-Qwen-0.5B-GRPO", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/224015062-chinese-university-of-hong-kong-shenzhen/huggingface/runs/ylkpu50v)
+This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
+### Framework versions
+- TRL: 0.15.2
+- Transformers: 4.49.0
+- Pytorch: 2.5.1
+- Datasets: 3.3.2
+- Tokenizers: 0.21.0
+## Citations
+Cite GRPO as:
+```bibtex
+@article{zhihong2024deepseekmath,
+    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
+    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
+    year         = 2024,
+    eprint       = {arXiv:2402.03300},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 0.00010365011172895271,
+    "train_runtime": 4988.7462,
+    "train_samples": 1000,
+    "train_samples_per_second": 0.2,
+    "train_steps_per_second": 0.017
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.49.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 0.00010365011172895271,
+    "train_runtime": 4988.7462,
+    "train_samples": 1000,
+    "train_samples_per_second": 0.2,
+    "train_steps_per_second": 0.017
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1204 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9940119760479041,
+  "eval_steps": 500,
+  "global_step": 83,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 2037.34375,
+      "epoch": 0.011976047904191617,
+      "grad_norm": 1.4971734285354614,
+      "kl": 0.0,
+      "learning_rate": 1.111111111111111e-07,
+      "loss": -0.0,
+      "reward": 0.6054687649011612,
+      "reward_std": 0.05388006288558245,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.02213541674427688,
+      "step": 1
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.023952095808383235,
+      "grad_norm": 0.2554255723953247,
+      "kl": 0.0,
+      "learning_rate": 2.222222222222222e-07,
+      "loss": -0.0,
+      "reward": 0.4388020932674408,
+      "reward_std": 0.06019644718617201,
+      "rewards/accuracy_reward": 0.4270833507180214,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.011718750232830644,
+      "step": 2
+    },
+    {
+      "completion_length": 2041.7239685058594,
+      "epoch": 0.03592814371257485,
+      "grad_norm": 0.3514683246612549,
+      "kl": 0.00010800361633300781,
+      "learning_rate": 3.333333333333333e-07,
+      "loss": 0.0,
+      "reward": 0.4531250251457095,
+      "reward_std": 0.0739070875570178,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.03645833465270698,
+      "step": 3
+    },
+    {
+      "completion_length": 2046.96875,
+      "epoch": 0.04790419161676647,
+      "grad_norm": 0.2502233684062958,
+      "kl": 0.0001252889633178711,
+      "learning_rate": 4.444444444444444e-07,
+      "loss": 0.0,
+      "reward": 0.5143229415407404,
+      "reward_std": 0.03399638505652547,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.014322917093522847,
+      "step": 4
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.059880239520958084,
+      "grad_norm": 0.30932390689849854,
+      "kl": 0.000125885009765625,
+      "learning_rate": 5.555555555555555e-07,
+      "loss": 0.0,
+      "reward": 0.44661459885537624,
+      "reward_std": 0.055322977248579264,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.029947917792014778,
+      "step": 5
+    },
+    {
+      "completion_length": 2037.34375,
+      "epoch": 0.0718562874251497,
+      "grad_norm": 0.9940594434738159,
+      "kl": 0.00013077259063720703,
+      "learning_rate": 6.666666666666666e-07,
+      "loss": 0.0,
+      "reward": 0.5338541669771075,
+      "reward_std": 0.055845549795776606,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.03385416732635349,
+      "step": 6
+    },
+    {
+      "completion_length": 2043.6823120117188,
+      "epoch": 0.08383233532934131,
+      "grad_norm": 0.24632015824317932,
+      "kl": 0.00012028217315673828,
+      "learning_rate": 7.777777777777778e-07,
+      "loss": 0.0,
+      "reward": 0.677083358168602,
+      "reward_std": 0.031139123253524303,
+      "rewards/accuracy_reward": 0.666666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.010416666977107525,
+      "step": 7
+    },
+    {
+      "completion_length": 2037.34375,
+      "epoch": 0.09580838323353294,
+      "grad_norm": 1.0062243938446045,
+      "kl": 0.00013971328735351562,
+      "learning_rate": 8.888888888888888e-07,
+      "loss": 0.0,
+      "reward": 0.6093750298023224,
+      "reward_std": 0.06374238524585962,
+      "rewards/accuracy_reward": 0.5833333507180214,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.026041667442768812,
+      "step": 8
+    },
+    {
+      "completion_length": 2047.3177185058594,
+      "epoch": 0.10778443113772455,
+      "grad_norm": 0.222465381026268,
+      "kl": 0.00013458728790283203,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5143229439854622,
+      "reward_std": 0.02985687693580985,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.014322917093522847,
+      "step": 9
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.11976047904191617,
+      "grad_norm": 0.23234856128692627,
+      "kl": 0.00010788440704345703,
+      "learning_rate": 9.995945347921067e-07,
+      "loss": 0.0,
+      "reward": 0.25911459082271904,
+      "reward_std": 0.029856876470148563,
+      "rewards/accuracy_reward": 0.2500000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.009114583488553762,
+      "step": 10
+    },
+    {
+      "completion_length": 2044.1927185058594,
+      "epoch": 0.1317365269461078,
+      "grad_norm": 0.28732362389564514,
+      "kl": 0.00012230873107910156,
+      "learning_rate": 9.983788698441369e-07,
+      "loss": 0.0,
+      "reward": 0.5950520932674408,
+      "reward_std": 0.040273543912917376,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.011718750349245965,
+      "step": 11
+    },
+    {
+      "completion_length": 2043.7448120117188,
+      "epoch": 0.1437125748502994,
+      "grad_norm": 0.24524293839931488,
+      "kl": 0.00011754035949707031,
+      "learning_rate": 9.963551958664945e-07,
+      "loss": 0.0,
+      "reward": 0.35286459827329963,
+      "reward_std": 0.036272107157856226,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.019531250349245965,
+      "step": 12
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.15568862275449102,
+      "grad_norm": 0.21733032166957855,
+      "kl": 0.0001404285430908203,
+      "learning_rate": 9.935271596564688e-07,
+      "loss": 0.0,
+      "reward": 0.6940104216337204,
+      "reward_std": 0.03566407039761543,
+      "rewards/accuracy_reward": 0.666666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.027343751396983862,
+      "step": 13
+    },
+    {
+      "completion_length": 2046.890625,
+      "epoch": 0.16766467065868262,
+      "grad_norm": 0.32550087571144104,
+      "kl": 0.00013780593872070312,
+      "learning_rate": 9.898998575264588e-07,
+      "loss": 0.0,
+      "reward": 0.45572917722165585,
+      "reward_std": 0.07509249821305275,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.039062501629814506,
+      "step": 14
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.17964071856287425,
+      "grad_norm": 0.34825780987739563,
+      "kl": 0.0001423358917236328,
+      "learning_rate": 9.854798261200746e-07,
+      "loss": 0.0,
+      "reward": 0.47526043467223644,
+      "reward_std": 0.08674583956599236,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.058593750931322575,
+      "step": 15
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.19161676646706588,
+      "grad_norm": 0.29791343212127686,
+      "kl": 0.0001347064971923828,
+      "learning_rate": 9.80275030632663e-07,
+      "loss": 0.0,
+      "reward": 0.608072929084301,
+      "reward_std": 0.05152899120002985,
+      "rewards/accuracy_reward": 0.5833333507180214,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.02473958395421505,
+      "step": 16
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.20359281437125748,
+      "grad_norm": 0.24608102440834045,
+      "kl": 0.00013887882232666016,
+      "learning_rate": 9.742948504574879e-07,
+      "loss": 0.0,
+      "reward": 0.5247395932674408,
+      "reward_std": 0.04357585031539202,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.024739584419876337,
+      "step": 17
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.2155688622754491,
+      "grad_norm": 0.3837389647960663,
+      "kl": 0.00015234947204589844,
+      "learning_rate": 9.675500622834293e-07,
+      "loss": 0.0,
+      "reward": 0.36588541977107525,
+      "reward_std": 0.07624713983386755,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.03255208441987634,
+      "step": 18
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.2275449101796407,
+      "grad_norm": 0.3275865316390991,
+      "kl": 0.0001983642578125,
+      "learning_rate": 9.60052820674661e-07,
+      "loss": 0.0,
+      "reward": 0.6171875102445483,
+      "reward_std": 0.054537888150662184,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.03385416732635349,
+      "step": 19
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.23952095808383234,
+      "grad_norm": 0.3781125247478485,
+      "kl": 0.0002334117889404297,
+      "learning_rate": 9.518166361673058e-07,
+      "loss": 0.0,
+      "reward": 0.4023437649011612,
+      "reward_std": 0.08120491355657578,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.06901041883975267,
+      "step": 20
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.25149700598802394,
+      "grad_norm": 0.2996104955673218,
+      "kl": 0.0002651214599609375,
+      "learning_rate": 9.428563509225346e-07,
+      "loss": 0.0,
+      "reward": 0.4622395932674408,
+      "reward_std": 0.0660695880651474,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.04557291674427688,
+      "step": 21
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.2634730538922156,
+      "grad_norm": 0.38923388719558716,
+      "kl": 0.0003142356872558594,
+      "learning_rate": 9.3318811197999e-07,
+      "loss": 0.0,
+      "reward": 0.6471354365348816,
+      "reward_std": 0.08566952683031559,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.0638020858168602,
+      "step": 22
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.2754491017964072,
+      "grad_norm": 0.3591609299182892,
+      "kl": 0.00036334991455078125,
+      "learning_rate": 9.228293421597289e-07,
+      "loss": 0.0,
+      "reward": 0.2200520895421505,
+      "reward_std": 0.09116558637470007,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.0533854179084301,
+      "step": 23
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.2874251497005988,
+      "grad_norm": 0.33370983600616455,
+      "kl": 0.0004825592041015625,
+      "learning_rate": 9.117987086651232e-07,
+      "loss": 0.0,
+      "reward": 0.49869792722165585,
+      "reward_std": 0.08588295057415962,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.08203125465661287,
+      "step": 24
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.2994011976047904,
+      "grad_norm": 0.3089774250984192,
+      "kl": 0.0005397796630859375,
+      "learning_rate": 9.001160894432978e-07,
+      "loss": 0.0,
+      "reward": 0.5664062723517418,
+      "reward_std": 0.08240717835724354,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.06640625093132257,
+      "step": 25
+    },
+    {
+      "completion_length": 2047.1198120117188,
+      "epoch": 0.31137724550898205,
+      "grad_norm": 0.39812523126602173,
+      "kl": 0.000537872314453125,
+      "learning_rate": 8.878025373637259e-07,
+      "loss": 0.0,
+      "reward": 0.5924479402601719,
+      "reward_std": 0.11753918416798115,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.09244791977107525,
+      "step": 26
+    },
+    {
+      "completion_length": 2040.3073120117188,
+      "epoch": 0.32335329341317365,
+      "grad_norm": 0.3853413760662079,
+      "kl": 0.0007343292236328125,
+      "learning_rate": 8.748802422795359e-07,
+      "loss": 0.0,
+      "reward": 0.7500000149011612,
+      "reward_std": 0.08755372650921345,
+      "rewards/accuracy_reward": 0.666666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.08333333395421505,
+      "step": 27
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.33532934131736525,
+      "grad_norm": 0.4009532034397125,
+      "kl": 0.0008382797241210938,
+      "learning_rate": 8.613724910398959e-07,
+      "loss": 0.0,
+      "reward": 0.611979179084301,
+      "reward_std": 0.10698455851525068,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.11197916977107525,
+      "step": 28
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.3473053892215569,
+      "grad_norm": 0.36610516905784607,
+      "kl": 0.0007114410400390625,
+      "learning_rate": 8.473036255255366e-07,
+      "loss": 0.0,
+      "reward": 0.36197917349636555,
+      "reward_std": 0.09994817152619362,
+      "rewards/accuracy_reward": 0.2500000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1119791716337204,
+      "step": 29
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.3592814371257485,
+      "grad_norm": 0.3826785087585449,
+      "kl": 0.0009069442749023438,
+      "learning_rate": 8.32698998783039e-07,
+      "loss": 0.0,
+      "reward": 0.3750000074505806,
+      "reward_std": 0.11406980641186237,
+      "rewards/accuracy_reward": 0.2500000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1250000037252903,
+      "step": 30
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.3712574850299401,
+      "grad_norm": 0.47378554940223694,
+      "kl": 0.00110626220703125,
+      "learning_rate": 8.17584929336929e-07,
+      "loss": 0.0,
+      "reward": 0.6601562798023224,
+      "reward_std": 0.12305041775107384,
+      "rewards/accuracy_reward": 0.5052083432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1549479216337204,
+      "step": 31
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.38323353293413176,
+      "grad_norm": 0.40673568844795227,
+      "kl": 0.0009860992431640625,
+      "learning_rate": 8.019886537619179e-07,
+      "loss": 0.0,
+      "reward": 0.638020858168602,
+      "reward_std": 0.11014635302126408,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.13802083395421505,
+      "step": 32
+    },
+    {
+      "completion_length": 2041.75,
+      "epoch": 0.39520958083832336,
+      "grad_norm": 0.40154603123664856,
+      "kl": 0.0013885498046875,
+      "learning_rate": 7.859382776007543e-07,
+      "loss": 0.0001,
+      "reward": 0.5377604216337204,
+      "reward_std": 0.12584633566439152,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1210937537252903,
+      "step": 33
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.40718562874251496,
+      "grad_norm": 0.3680473864078522,
+      "kl": 0.0020599365234375,
+      "learning_rate": 7.694627247161356e-07,
+      "loss": 0.0001,
+      "reward": 0.5598958544433117,
+      "reward_std": 0.10915113240480423,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1432291716337204,
+      "step": 34
+    },
+    {
+      "completion_length": 2047.0,
+      "epoch": 0.41916167664670656,
+      "grad_norm": 0.4365445375442505,
+      "kl": 0.0013685226440429688,
+      "learning_rate": 7.525916851679529e-07,
+      "loss": 0.0001,
+      "reward": 0.5781250260770321,
+      "reward_std": 0.1131261233240366,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.16145833767950535,
+      "step": 35
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.4311377245508982,
+      "grad_norm": 0.40593045949935913,
+      "kl": 0.001617431640625,
+      "learning_rate": 7.353555617097967e-07,
+      "loss": 0.0001,
+      "reward": 0.7057291828095913,
+      "reward_std": 0.09066728875041008,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2057291716337204,
+      "step": 36
+    },
+    {
+      "completion_length": 2047.9323120117188,
+      "epoch": 0.4431137724550898,
+      "grad_norm": 0.35417431592941284,
+      "kl": 0.001926422119140625,
+      "learning_rate": 7.177854150011389e-07,
+      "loss": 0.0001,
+      "reward": 0.5872395932674408,
+      "reward_std": 0.09160411357879639,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1705729216337204,
+      "step": 37
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.4550898203592814,
+      "grad_norm": 0.36102283000946045,
+      "kl": 0.0015583038330078125,
+      "learning_rate": 6.999129076339259e-07,
+      "loss": 0.0001,
+      "reward": 0.5351562611758709,
+      "reward_std": 0.13301999680697918,
+      "rewards/accuracy_reward": 0.3437500149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1914062537252903,
+      "step": 38
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.46706586826347307,
+      "grad_norm": 0.3780408799648285,
+      "kl": 0.002948760986328125,
+      "learning_rate": 6.817702470744477e-07,
+      "loss": 0.0001,
+      "reward": 0.6627604477107525,
+      "reward_std": 0.09685690514743328,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1627604216337204,
+      "step": 39
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.47904191616766467,
+      "grad_norm": 0.4100407361984253,
+      "kl": 0.0018138885498046875,
+      "learning_rate": 6.633901276233064e-07,
+      "loss": 0.0001,
+      "reward": 0.7291666716337204,
+      "reward_std": 0.10320629552006721,
+      "rewards/accuracy_reward": 0.5833333507180214,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1458333395421505,
+      "step": 40
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.49101796407185627,
+      "grad_norm": 0.3577154278755188,
+      "kl": 0.0021648406982421875,
+      "learning_rate": 6.448056714980767e-07,
+      "loss": 0.0001,
+      "reward": 0.5182291828095913,
+      "reward_std": 0.10152745991945267,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1848958395421505,
+      "step": 41
+    },
+    {
+      "completion_length": 2046.1041870117188,
+      "epoch": 0.5029940119760479,
+      "grad_norm": 0.29059839248657227,
+      "kl": 0.0022754669189453125,
+      "learning_rate": 6.260503691448321e-07,
+      "loss": 0.0001,
+      "reward": 0.9713542014360428,
+      "reward_std": 0.05874503217637539,
+      "rewards/accuracy_reward": 0.7500000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2213541716337204,
+      "step": 42
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.5149700598802395,
+      "grad_norm": 0.33205100893974304,
+      "kl": 0.002460479736328125,
+      "learning_rate": 6.071580188860954e-07,
+      "loss": 0.0001,
+      "reward": 0.7005208432674408,
+      "reward_std": 0.07212240621447563,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2005208358168602,
+      "step": 43
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.5269461077844312,
+      "grad_norm": 0.4120350480079651,
+      "kl": 0.002471923828125,
+      "learning_rate": 5.881626660139791e-07,
+      "loss": 0.0001,
+      "reward": 0.699218787252903,
+      "reward_std": 0.09029853250831366,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1992187574505806,
+      "step": 44
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.5389221556886228,
+      "grad_norm": 0.3548724949359894,
+      "kl": 0.0022029876708984375,
+      "learning_rate": 5.690985414382668e-07,
+      "loss": 0.0001,
+      "reward": 0.6106770932674408,
+      "reward_std": 0.09216992743313313,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1940104253590107,
+      "step": 45
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.5508982035928144,
+      "grad_norm": 0.3445223569869995,
+      "kl": 0.002902984619140625,
+      "learning_rate": 5.5e-07,
+      "loss": 0.0001,
+      "reward": 0.5507812574505806,
+      "reward_std": 0.09265115670859814,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2174479253590107,
+      "step": 46
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.562874251497006,
+      "grad_norm": 0.3690991997718811,
+      "kl": 0.005420684814453125,
+      "learning_rate": 5.309014585617334e-07,
+      "loss": 0.0002,
+      "reward": 0.3554687649011612,
+      "reward_std": 0.10121702961623669,
+      "rewards/accuracy_reward": 0.17187500512227416,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.1835937537252903,
+      "step": 47
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.5748502994011976,
+      "grad_norm": 0.33994194865226746,
+      "kl": 0.003192901611328125,
+      "learning_rate": 5.11837333986021e-07,
+      "loss": 0.0001,
+      "reward": 1.0455729365348816,
+      "reward_std": 0.11090282909572124,
+      "rewards/accuracy_reward": 0.8385416716337204,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2070312537252903,
+      "step": 48
+    },
+    {
+      "completion_length": 2043.703125,
+      "epoch": 0.5868263473053892,
+      "grad_norm": 0.2940013110637665,
+      "kl": 0.00350189208984375,
+      "learning_rate": 4.928419811139045e-07,
+      "loss": 0.0001,
+      "reward": 0.569010429084301,
+      "reward_std": 0.06290155602619052,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2356770895421505,
+      "step": 49
+    },
+    {
+      "completion_length": 2042.140625,
+      "epoch": 0.5988023952095808,
+      "grad_norm": 0.3399907648563385,
+      "kl": 0.002948760986328125,
+      "learning_rate": 4.739496308551679e-07,
+      "loss": 0.0001,
+      "reward": 0.7213541865348816,
+      "reward_std": 0.10191570967435837,
+      "rewards/accuracy_reward": 0.510416679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2109375,
+      "step": 50
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.6107784431137725,
+      "grad_norm": 0.3221840262413025,
+      "kl": 0.003246307373046875,
+      "learning_rate": 4.551943285019233e-07,
+      "loss": 0.0001,
+      "reward": 0.635416679084301,
+      "reward_std": 0.06191476574167609,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2187500074505806,
+      "step": 51
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.6227544910179641,
+      "grad_norm": 0.1775510013103485,
+      "kl": 0.003017425537109375,
+      "learning_rate": 4.3660987237669377e-07,
+      "loss": 0.0001,
+      "reward": 0.575520858168602,
+      "reward_std": 0.01973361661657691,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2421875037252903,
+      "step": 52
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.6347305389221557,
+      "grad_norm": 0.3201664686203003,
+      "kl": 0.003948211669921875,
+      "learning_rate": 4.182297529255524e-07,
+      "loss": 0.0002,
+      "reward": 0.6523437798023224,
+      "reward_std": 0.07445824518799782,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2356770895421505,
+      "step": 53
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.6467065868263473,
+      "grad_norm": 0.39619770646095276,
+      "kl": 0.003509521484375,
+      "learning_rate": 4.0008709236607405e-07,
+      "loss": 0.0001,
+      "reward": 0.645833358168602,
+      "reward_std": 0.05563760735094547,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2291666679084301,
+      "step": 54
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.6586826347305389,
+      "grad_norm": 0.29894304275512695,
+      "kl": 0.00421905517578125,
+      "learning_rate": 3.8221458499886115e-07,
+      "loss": 0.0002,
+      "reward": 0.731770858168602,
+      "reward_std": 0.05632513063028455,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2317708358168602,
+      "step": 55
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.6706586826347305,
+      "grad_norm": 0.3364109992980957,
+      "kl": 0.005672454833984375,
+      "learning_rate": 3.646444382902033e-07,
+      "loss": 0.0002,
+      "reward": 0.4804687649011612,
+      "reward_std": 0.052780346013605595,
+      "rewards/accuracy_reward": 0.2500000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.23046875,
+      "step": 56
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.6826347305389222,
+      "grad_norm": 0.2491559237241745,
+      "kl": 0.003627777099609375,
+      "learning_rate": 3.474083148320469e-07,
+      "loss": 0.0001,
+      "reward": 0.7434895895421505,
+      "reward_std": 0.04665324650704861,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2434895895421505,
+      "step": 57
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.6946107784431138,
+      "grad_norm": 0.29894545674324036,
+      "kl": 0.0038604736328125,
+      "learning_rate": 3.3053727528386457e-07,
+      "loss": 0.0002,
+      "reward": 0.7096354216337204,
+      "reward_std": 0.0567871811799705,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2096354253590107,
+      "step": 58
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.7065868263473054,
+      "grad_norm": 0.26200374960899353,
+      "kl": 0.003528594970703125,
+      "learning_rate": 3.140617223992458e-07,
+      "loss": 0.0001,
+      "reward": 0.9895833432674408,
+      "reward_std": 0.05609210580587387,
+      "rewards/accuracy_reward": 0.7500000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2395833358168602,
+      "step": 59
+    },
+    {
+      "completion_length": 2043.1666870117188,
+      "epoch": 0.718562874251497,
+      "grad_norm": 0.32477909326553345,
+      "kl": 0.00547027587890625,
+      "learning_rate": 2.980113462380821e-07,
+      "loss": 0.0002,
+      "reward": 0.5572916865348816,
+      "reward_std": 0.060260336846113205,
+      "rewards/accuracy_reward": 0.3333333358168602,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2239583358168602,
+      "step": 60
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.7305389221556886,
+      "grad_norm": 0.2725842595100403,
+      "kl": 0.003742218017578125,
+      "learning_rate": 2.82415070663071e-07,
+      "loss": 0.0001,
+      "reward": 0.7434895932674408,
+      "reward_std": 0.04541819915175438,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2434895895421505,
+      "step": 61
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.7425149700598802,
+      "grad_norm": 0.3032469153404236,
+      "kl": 0.003986358642578125,
+      "learning_rate": 2.673010012169609e-07,
+      "loss": 0.0002,
+      "reward": 0.5559895895421505,
+      "reward_std": 0.0574858826585114,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2226562574505806,
+      "step": 62
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.7544910179640718,
+      "grad_norm": 0.2664555311203003,
+      "kl": 0.00446319580078125,
+      "learning_rate": 2.5269637447446345e-07,
+      "loss": 0.0002,
+      "reward": 0.559895858168602,
+      "reward_std": 0.05363978538662195,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2265625037252903,
+      "step": 63
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.7664670658682635,
+      "grad_norm": 0.2789634168148041,
+      "kl": 0.004024505615234375,
+      "learning_rate": 2.3862750896010425e-07,
+      "loss": 0.0002,
+      "reward": 0.5755208544433117,
+      "reward_std": 0.04511032486334443,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2421875074505806,
+      "step": 64
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.7784431137724551,
+      "grad_norm": 0.3104996383190155,
+      "kl": 0.003612518310546875,
+      "learning_rate": 2.25119757720464e-07,
+      "loss": 0.0001,
+      "reward": 0.984375,
+      "reward_std": 0.06761277234181762,
+      "rewards/accuracy_reward": 0.7500000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2343750037252903,
+      "step": 65
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.7904191616766467,
+      "grad_norm": 0.3051362931728363,
+      "kl": 0.0042266845703125,
+      "learning_rate": 2.12197462636274e-07,
+      "loss": 0.0002,
+      "reward": 0.6445312760770321,
+      "reward_std": 0.05897808913141489,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2278645858168602,
+      "step": 66
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.8023952095808383,
+      "grad_norm": 0.28398770093917847,
+      "kl": 0.004734039306640625,
+      "learning_rate": 1.998839105567023e-07,
+      "loss": 0.0002,
+      "reward": 0.5716145932674408,
+      "reward_std": 0.0617390270344913,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2382812537252903,
+      "step": 67
+    },
+    {
+      "completion_length": 2042.8333435058594,
+      "epoch": 0.8143712574850299,
+      "grad_norm": 0.3042202591896057,
+      "kl": 0.004070281982421875,
+      "learning_rate": 1.882012913348768e-07,
+      "loss": 0.0002,
+      "reward": 0.4023437611758709,
+      "reward_std": 0.04687500139698386,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2356770895421505,
+      "step": 68
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.8263473053892215,
+      "grad_norm": 0.1977626532316208,
+      "kl": 0.00399017333984375,
+      "learning_rate": 1.7717065784027108e-07,
+      "loss": 0.0002,
+      "reward": 0.6575521007180214,
+      "reward_std": 0.024941950105130672,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2408854216337204,
+      "step": 69
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.8383233532934131,
+      "grad_norm": 0.2541021406650543,
+      "kl": 0.0036773681640625,
+      "learning_rate": 1.6681188802000992e-07,
+      "loss": 0.0001,
+      "reward": 0.7330729216337204,
+      "reward_std": 0.040123483166098595,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2330729216337204,
+      "step": 70
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.8502994011976048,
+      "grad_norm": 0.3355337679386139,
+      "kl": 0.003818511962890625,
+      "learning_rate": 1.5714364907746534e-07,
+      "loss": 0.0002,
+      "reward": 0.557291679084301,
+      "reward_std": 0.0634542522020638,
+      "rewards/accuracy_reward": 0.3333333358168602,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2239583358168602,
+      "step": 71
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.8622754491017964,
+      "grad_norm": 0.2230527400970459,
+      "kl": 0.004230499267578125,
+      "learning_rate": 1.4818336383269423e-07,
+      "loss": 0.0002,
+      "reward": 0.9127604514360428,
+      "reward_std": 0.02274093870073557,
+      "rewards/accuracy_reward": 0.666666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2460937537252903,
+      "step": 72
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.874251497005988,
+      "grad_norm": 0.1775672435760498,
+      "kl": 0.004291534423828125,
+      "learning_rate": 1.3994717932533889e-07,
+      "loss": 0.0002,
+      "reward": 0.8281250298023224,
+      "reward_std": 0.02083333395421505,
+      "rewards/accuracy_reward": 0.5833333507180214,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2447916716337204,
+      "step": 73
+    },
+    {
+      "completion_length": 2043.53125,
+      "epoch": 0.8862275449101796,
+      "grad_norm": 0.2539031505584717,
+      "kl": 0.00445556640625,
+      "learning_rate": 1.324499377165708e-07,
+      "loss": 0.0002,
+      "reward": 0.6497396044433117,
+      "reward_std": 0.049258903600275517,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2330729216337204,
+      "step": 74
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.8982035928143712,
+      "grad_norm": 0.3363349437713623,
+      "kl": 0.0041046142578125,
+      "learning_rate": 1.257051495425121e-07,
+      "loss": 0.0002,
+      "reward": 0.645833358168602,
+      "reward_std": 0.06290360447019339,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2291666716337204,
+      "step": 75
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.9101796407185628,
+      "grad_norm": 0.32424062490463257,
+      "kl": 0.005748748779296875,
+      "learning_rate": 1.197249693673371e-07,
+      "loss": 0.0002,
+      "reward": 0.895833358168602,
+      "reward_std": 0.06451506866142154,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2291666716337204,
+      "step": 76
+    },
+    {
+      "completion_length": 2037.34375,
+      "epoch": 0.9221556886227545,
+      "grad_norm": 7.499696254730225,
+      "kl": 0.02497100830078125,
+      "learning_rate": 1.145201738799255e-07,
+      "loss": 0.001,
+      "reward": 0.74609375,
+      "reward_std": 0.026383287739008665,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2460937537252903,
+      "step": 77
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.9341317365269461,
+      "grad_norm": 0.22542916238307953,
+      "kl": 0.00453948974609375,
+      "learning_rate": 1.1010014247354125e-07,
+      "loss": 0.0002,
+      "reward": 0.6588541828095913,
+      "reward_std": 0.02794927265495062,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2421875037252903,
+      "step": 78
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.9461077844311377,
+      "grad_norm": 0.2916065454483032,
+      "kl": 0.00518798828125,
+      "learning_rate": 1.064728403435312e-07,
+      "loss": 0.0002,
+      "reward": 0.7369791865348816,
+      "reward_std": 0.044873480685055256,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2369791679084301,
+      "step": 79
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.9580838323353293,
+      "grad_norm": 0.26393556594848633,
+      "kl": 0.004276275634765625,
+      "learning_rate": 1.0364480413350543e-07,
+      "loss": 0.0002,
+      "reward": 0.9765625149011612,
+      "reward_std": 0.043472426012158394,
+      "rewards/accuracy_reward": 0.7500000149011612,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2265625074505806,
+      "step": 80
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.9700598802395209,
+      "grad_norm": 0.2773340046405792,
+      "kl": 0.0044403076171875,
+      "learning_rate": 1.0162113015586308e-07,
+      "loss": 0.0002,
+      "reward": 0.7356771044433117,
+      "reward_std": 0.04566440684720874,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2356770895421505,
+      "step": 81
+    },
+    {
+      "completion_length": 2046.1614685058594,
+      "epoch": 0.9820359281437125,
+      "grad_norm": 0.30801087617874146,
+      "kl": 0.00536346435546875,
+      "learning_rate": 1.0040546520789337e-07,
+      "loss": 0.0002,
+      "reward": 0.8151041865348816,
+      "reward_std": 0.050114710349589586,
+      "rewards/accuracy_reward": 0.5833333507180214,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2317708395421505,
+      "step": 82
+    },
+    {
+      "completion_length": 2048.0,
+      "epoch": 0.9940119760479041,
+      "grad_norm": 0.2908526360988617,
+      "kl": 0.0043792724609375,
+      "learning_rate": 1e-07,
+      "loss": 0.0002,
+      "reward": 0.8190104365348816,
+      "reward_std": 0.046155727468430996,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/format_reward": 0.0,
+      "rewards/tag_count_reward": 0.2356770895421505,
+      "step": 83
+    },
+    {
+      "epoch": 0.9940119760479041,
+      "step": 83,
+      "total_flos": 0.0,
+      "train_loss": 0.00010365011172895271,
+      "train_runtime": 4988.7462,
+      "train_samples_per_second": 0.2,
+      "train_steps_per_second": 0.017
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 83,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}