{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.998452810727179,
  "eval_steps": 500,
  "global_step": 242,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1586.0,
      "completions/mean_length": 689.5245971679688,
      "completions/mean_terminated_length": 681.90380859375,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.0041258380608561115,
      "grad_norm": 0.12888863682746887,
      "kl": 0.0,
      "learning_rate": 1e-06,
      "loss": -0.0006,
      "num_tokens": 575726.0,
      "reward": 0.07209822535514832,
      "reward_std": 0.09710286557674408,
      "rewards/code_format_reward/mean": 0.01116071455180645,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.06093749776482582,
      "rewards/curriculum_aware_reward_fn/std": 0.1447160691022873,
      "step": 1
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1484.0,
      "completions/max_terminated_length": 1484.0,
      "completions/mean_length": 662.607177734375,
      "completions/mean_terminated_length": 662.607177734375,
      "completions/min_length": 58.0,
      "completions/min_terminated_length": 58.0,
      "epoch": 0.008251676121712223,
      "grad_norm": 0.1419609785079956,
      "kl": 8.70823860168457e-05,
      "learning_rate": 1e-06,
      "loss": 0.0074,
      "num_tokens": 1121914.0,
      "reward": 0.08794643729925156,
      "reward_std": 0.10372266918420792,
      "rewards/code_format_reward/mean": 0.0066964286379516125,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.08125000447034836,
      "rewards/curriculum_aware_reward_fn/std": 0.14793506264686584,
      "step": 2
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.004464285714285698,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1680.0,
      "completions/mean_length": 675.8035888671875,
      "completions/mean_terminated_length": 660.4664306640625,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.012377514182568335,
      "grad_norm": 0.13957782089710236,
      "kl": 8.046627044677734e-05,
      "learning_rate": 1e-06,
      "loss": 0.0019,
      "num_tokens": 1677073.0,
      "reward": 0.0831473246216774,
      "reward_std": 0.1125701516866684,
      "rewards/code_format_reward/mean": 0.008928571827709675,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.07421875,
      "rewards/curriculum_aware_reward_fn/std": 0.14322684705257416,
      "step": 3
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 716.7701416015625,
      "completions/mean_terminated_length": 709.2102661132812,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.016503352243424446,
      "grad_norm": 0.1448298543691635,
      "kl": 8.744001388549805e-05,
      "learning_rate": 1e-06,
      "loss": -0.0014,
      "num_tokens": 2278207.0,
      "reward": 0.0915178582072258,
      "reward_std": 0.12309108674526215,
      "rewards/code_format_reward/mean": 0.013392857275903225,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.078125,
      "rewards/curriculum_aware_reward_fn/std": 0.14590321481227875,
      "step": 4
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1974.0,
      "completions/mean_length": 732.2969360351562,
      "completions/mean_terminated_length": 724.7717895507812,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.020629190304280558,
      "grad_norm": 0.12635301053524017,
      "kl": 0.00010377168655395508,
      "learning_rate": 1e-06,
      "loss": 0.0166,
      "num_tokens": 2885219.0,
      "reward": 0.08125000447034836,
      "reward_std": 0.1115899309515953,
      "rewards/code_format_reward/mean": 0.015625,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.06562500447034836,
      "rewards/curriculum_aware_reward_fn/std": 0.1407126635313034,
      "step": 5
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1418.0,
      "completions/max_terminated_length": 1418.0,
      "completions/mean_length": 659.0201416015625,
      "completions/mean_terminated_length": 659.0201416015625,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.02475502836513667,
      "grad_norm": 0.13044793903827667,
      "kl": 0.0001366138458251953,
      "learning_rate": 1e-06,
      "loss": 0.0077,
      "num_tokens": 3455763.0,
      "reward": 0.09564732015132904,
      "reward_std": 0.10143062472343445,
      "rewards/code_format_reward/mean": 0.008928571827709675,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.08671874552965164,
      "rewards/curriculum_aware_reward_fn/std": 0.15126961469650269,
      "step": 6
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.004464285714285698,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2817.0,
      "completions/mean_length": 696.794677734375,
      "completions/mean_terminated_length": 681.5515747070312,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "epoch": 0.02888086642599278,
      "grad_norm": 0.14978308975696564,
      "kl": 0.00014662742614746094,
      "learning_rate": 1e-06,
      "loss": 0.0182,
      "num_tokens": 4048669.0,
      "reward": 0.1104910746216774,
      "reward_std": 0.14611311256885529,
      "rewards/code_format_reward/mean": 0.0245535708963871,
      "rewards/code_format_reward/std": 0.1549331247806549,
      "rewards/curriculum_aware_reward_fn/mean": 0.0859375,
      "rewards/curriculum_aware_reward_fn/std": 0.15080992877483368,
      "step": 7
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1920.0,
      "completions/max_terminated_length": 1920.0,
      "completions/mean_length": 649.0826416015625,
      "completions/mean_terminated_length": 649.0826416015625,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.03300670448684889,
      "grad_norm": 0.15468838810920715,
      "kl": 0.0001780986785888672,
      "learning_rate": 1e-06,
      "loss": 0.0164,
      "num_tokens": 4602791.0,
      "reward": 0.0987723246216774,
      "reward_std": 0.1482853889465332,
      "rewards/code_format_reward/mean": 0.0245535708963871,
      "rewards/code_format_reward/std": 0.1549331247806549,
      "rewards/curriculum_aware_reward_fn/mean": 0.07421875,
      "rewards/curriculum_aware_reward_fn/std": 0.14322684705257416,
      "step": 8
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.004464285714285698,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1697.0,
      "completions/mean_length": 716.044677734375,
      "completions/mean_terminated_length": 700.887939453125,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.037132542547705004,
      "grad_norm": 0.14617083966732025,
      "kl": 0.00019991397857666016,
      "learning_rate": 1e-06,
      "loss": 0.0075,
      "num_tokens": 5185078.0,
      "reward": 0.10535714775323868,
      "reward_std": 0.16500398516654968,
      "rewards/code_format_reward/mean": 0.0334821417927742,
      "rewards/code_format_reward/std": 0.1800929754972458,
      "rewards/curriculum_aware_reward_fn/mean": 0.07187499850988388,
      "rewards/curriculum_aware_reward_fn/std": 0.1415448784828186,
      "step": 9
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1472.0,
      "completions/max_terminated_length": 1472.0,
      "completions/mean_length": 656.4732666015625,
      "completions/mean_terminated_length": 656.4732666015625,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.041258380608561115,
      "grad_norm": 0.1518249213695526,
      "kl": 0.000293731689453125,
      "learning_rate": 1e-06,
      "loss": 0.0105,
      "num_tokens": 5749623.0,
      "reward": 0.0993303582072258,
      "reward_std": 0.14284572005271912,
      "rewards/code_format_reward/mean": 0.02901785634458065,
      "rewards/code_format_reward/std": 0.16804419457912445,
      "rewards/curriculum_aware_reward_fn/mean": 0.0703125,
      "rewards/curriculum_aware_reward_fn/std": 0.14039060473442078,
      "step": 10
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1258.0,
      "completions/max_terminated_length": 1258.0,
      "completions/mean_length": 631.8616333007812,
      "completions/mean_terminated_length": 631.8616333007812,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.04538421866941723,
      "grad_norm": 0.16050200164318085,
      "kl": 0.0004885196685791016,
      "learning_rate": 1e-06,
      "loss": 0.0111,
      "num_tokens": 6297745.0,
      "reward": 0.1389508992433548,
      "reward_std": 0.16370971500873566,
      "rewards/code_format_reward/mean": 0.0334821417927742,
      "rewards/code_format_reward/std": 0.1800929754972458,
      "rewards/curriculum_aware_reward_fn/mean": 0.10546875,
      "rewards/curriculum_aware_reward_fn/std": 0.16077345609664917,
      "step": 11
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1540.0,
      "completions/max_terminated_length": 1540.0,
      "completions/mean_length": 639.546875,
      "completions/mean_terminated_length": 639.546875,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.04951005673027334,
      "grad_norm": 0.15505070984363556,
      "kl": 0.0007357597351074219,
      "learning_rate": 1e-06,
      "loss": 0.0142,
      "num_tokens": 6852201.0,
      "reward": 0.13794644176959991,
      "reward_std": 0.19176238775253296,
      "rewards/code_format_reward/mean": 0.0691964253783226,
      "rewards/code_format_reward/std": 0.25407159328460693,
      "rewards/curriculum_aware_reward_fn/mean": 0.06875000149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.13920918107032776,
      "step": 12
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1305.0,
      "completions/max_terminated_length": 1305.0,
      "completions/mean_length": 633.4888916015625,
      "completions/mean_terminated_length": 633.4888916015625,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.05363589479112945,
      "grad_norm": 0.1798263043165207,
      "kl": 0.0011224746704101562,
      "learning_rate": 1e-06,
      "loss": 0.0134,
      "num_tokens": 7404503.0,
      "reward": 0.175223246216774,
      "reward_std": 0.2504880428314209,
      "rewards/code_format_reward/mean": 0.0892857164144516,
      "rewards/code_format_reward/std": 0.2854745090007782,
      "rewards/curriculum_aware_reward_fn/mean": 0.0859375,
      "rewards/curriculum_aware_reward_fn/std": 0.15080992877483368,
      "step": 13
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1794.0,
      "completions/max_terminated_length": 1794.0,
      "completions/mean_length": 629.171875,
      "completions/mean_terminated_length": 629.171875,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.05776173285198556,
      "grad_norm": 0.19240802526474,
      "kl": 0.0013980865478515625,
      "learning_rate": 1e-06,
      "loss": 0.0124,
      "num_tokens": 7971475.0,
      "reward": 0.19944198429584503,
      "reward_std": 0.27755308151245117,
      "rewards/code_format_reward/mean": 0.1205357164144516,
      "rewards/code_format_reward/std": 0.3259509205818176,
      "rewards/curriculum_aware_reward_fn/mean": 0.07890624552965164,
      "rewards/curriculum_aware_reward_fn/std": 0.14642010629177094,
      "step": 14
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1507.0,
      "completions/max_terminated_length": 1507.0,
      "completions/mean_length": 581.107177734375,
      "completions/mean_terminated_length": 581.107177734375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.06188757091284167,
      "grad_norm": 0.2231186330318451,
      "kl": 0.0020952224731445312,
      "learning_rate": 1e-06,
      "loss": -0.0005,
      "num_tokens": 8486387.0,
      "reward": 0.2685267925262451,
      "reward_std": 0.32140815258026123,
      "rewards/code_format_reward/mean": 0.1607142835855484,
      "rewards/code_format_reward/std": 0.3676777780056,
      "rewards/curriculum_aware_reward_fn/mean": 0.10781250894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.16176913678646088,
      "step": 15
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1717.0,
      "completions/mean_length": 621.4464721679688,
      "completions/mean_terminated_length": 613.6734008789062,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.06601340897369778,
      "grad_norm": 0.23204894363880157,
      "kl": 0.002674102783203125,
      "learning_rate": 1e-06,
      "loss": 0.0265,
      "num_tokens": 9049387.0,
      "reward": 0.2908482253551483,
      "reward_std": 0.37603747844696045,
      "rewards/code_format_reward/mean": 0.1986607164144516,
      "rewards/code_format_reward/std": 0.3994380831718445,
      "rewards/curriculum_aware_reward_fn/mean": 0.09218750149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.15433812141418457,
      "step": 16
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1596.0,
      "completions/max_terminated_length": 1596.0,
      "completions/mean_length": 610.296875,
      "completions/mean_terminated_length": 610.296875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.07013924703455389,
      "grad_norm": 0.2304592877626419,
      "kl": 0.0031871795654296875,
      "learning_rate": 1e-06,
      "loss": 0.0171,
      "num_tokens": 9581863.0,
      "reward": 0.3455357849597931,
      "reward_std": 0.42431119084358215,
      "rewards/code_format_reward/mean": 0.2611607015132904,
      "rewards/code_format_reward/std": 0.43975841999053955,
      "rewards/curriculum_aware_reward_fn/mean": 0.08437498658895493,
      "rewards/curriculum_aware_reward_fn/std": 0.1552628129720688,
      "step": 17
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1457.0,
      "completions/mean_length": 572.6875,
      "completions/mean_terminated_length": 564.8053588867188,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.07426508509541001,
      "grad_norm": 0.261919230222702,
      "kl": 0.004901885986328125,
      "learning_rate": 1e-06,
      "loss": 0.0376,
      "num_tokens": 10107808.0,
      "reward": 0.48091521859169006,
      "reward_std": 0.4869263172149658,
      "rewards/code_format_reward/mean": 0.3816964328289032,
      "rewards/code_format_reward/std": 0.4863457679748535,
      "rewards/curriculum_aware_reward_fn/mean": 0.09921874105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.15791727602481842,
      "step": 18
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1584.0,
      "completions/max_terminated_length": 1584.0,
      "completions/mean_length": 578.529052734375,
      "completions/mean_terminated_length": 578.529052734375,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.07839092315626611,
      "grad_norm": 0.2614266276359558,
      "kl": 0.0062408447265625,
      "learning_rate": 1e-06,
      "loss": 0.0298,
      "num_tokens": 10657468.0,
      "reward": 0.5408482551574707,
      "reward_std": 0.5003149509429932,
      "rewards/code_format_reward/mean": 0.4799107015132904,
      "rewards/code_format_reward/std": 0.5001547932624817,
      "rewards/curriculum_aware_reward_fn/mean": 0.06093749776482582,
      "rewards/curriculum_aware_reward_fn/std": 0.1328689157962799,
      "step": 19
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1248.0,
      "completions/max_terminated_length": 1248.0,
      "completions/mean_length": 578.3683471679688,
      "completions/mean_terminated_length": 578.3683471679688,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.08251676121712223,
      "grad_norm": 0.2431550920009613,
      "kl": 0.00843048095703125,
      "learning_rate": 1e-06,
      "loss": 0.031,
      "num_tokens": 11185762.0,
      "reward": 0.682366132736206,
      "reward_std": 0.4844993054866791,
      "rewards/code_format_reward/mean": 0.5870535969734192,
      "rewards/code_format_reward/std": 0.4929138123989105,
      "rewards/curriculum_aware_reward_fn/mean": 0.09531249105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.1559782177209854,
      "step": 20
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1274.0,
      "completions/max_terminated_length": 1274.0,
      "completions/mean_length": 565.325927734375,
      "completions/mean_terminated_length": 565.325927734375,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.08664259927797834,
      "grad_norm": 0.2159644216299057,
      "kl": 0.011871337890625,
      "learning_rate": 1e-06,
      "loss": 0.0291,
      "num_tokens": 11700009.0,
      "reward": 0.8511161208152771,
      "reward_std": 0.41165074706077576,
      "rewards/code_format_reward/mean": 0.7745535969734192,
      "rewards/code_format_reward/std": 0.41834312677383423,
      "rewards/curriculum_aware_reward_fn/mean": 0.07656250149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.14485128223896027,
      "step": 21
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1708.0,
      "completions/max_terminated_length": 1708.0,
      "completions/mean_length": 551.1451416015625,
      "completions/mean_terminated_length": 551.1451416015625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.09076843733883445,
      "grad_norm": 0.2016810178756714,
      "kl": 0.0140228271484375,
      "learning_rate": 1e-06,
      "loss": 0.004,
      "num_tokens": 12204053.0,
      "reward": 0.9275670051574707,
      "reward_std": 0.35804861783981323,
      "rewards/code_format_reward/mean": 0.8236607313156128,
      "rewards/code_format_reward/std": 0.3815346360206604,
      "rewards/curriculum_aware_reward_fn/mean": 0.10390625149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.16008710861206055,
      "step": 22
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1169.0,
      "completions/max_terminated_length": 1169.0,
      "completions/mean_length": 530.3348388671875,
      "completions/mean_terminated_length": 530.3348388671875,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.09489427539969056,
      "grad_norm": 0.19738376140594482,
      "kl": 0.01459503173828125,
      "learning_rate": 1e-06,
      "loss": 0.0256,
      "num_tokens": 12704192.0,
      "reward": 0.9656250476837158,
      "reward_std": 0.2683509886264801,
      "rewards/code_format_reward/mean": 0.890625,
      "rewards/code_format_reward/std": 0.3124580383300781,
      "rewards/curriculum_aware_reward_fn/mean": 0.07499999552965164,
      "rewards/curriculum_aware_reward_fn/std": 0.14377461373806,
      "step": 23
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1563.0,
      "completions/max_terminated_length": 1563.0,
      "completions/mean_length": 543.46875,
      "completions/mean_terminated_length": 543.46875,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.09902011346054668,
      "grad_norm": 0.18200120329856873,
      "kl": 0.0171661376953125,
      "learning_rate": 1e-06,
      "loss": -0.0023,
      "num_tokens": 13219931.0,
      "reward": 1.0159599781036377,
      "reward_std": 0.23269660770893097,
      "rewards/code_format_reward/mean": 0.9308035969734192,
      "rewards/code_format_reward/std": 0.25407159328460693,
      "rewards/curriculum_aware_reward_fn/mean": 0.08515625447034836,
      "rewards/curriculum_aware_reward_fn/std": 0.15034477412700653,
      "step": 24
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1587.0,
      "completions/max_terminated_length": 1587.0,
      "completions/mean_length": 517.0982666015625,
      "completions/mean_terminated_length": 517.0982666015625,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.10314595152140278,
      "grad_norm": 0.1988343447446823,
      "kl": 0.0178070068359375,
      "learning_rate": 1e-06,
      "loss": 0.0037,
      "num_tokens": 13722008.0,
      "reward": 1.0328125953674316,
      "reward_std": 0.2289527952671051,
      "rewards/code_format_reward/mean": 0.9375,
      "rewards/code_format_reward/std": 0.24233205616474152,
      "rewards/curriculum_aware_reward_fn/mean": 0.09531249850988388,
      "rewards/curriculum_aware_reward_fn/std": 0.1559782177209854,
      "step": 25
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2321.0,
      "completions/mean_length": 545.5960083007812,
      "completions/mean_terminated_length": 537.6532592773438,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.1072717895822589,
      "grad_norm": 0.17526358366012573,
      "kl": 0.0179901123046875,
      "learning_rate": 1e-06,
      "loss": 0.0148,
      "num_tokens": 14243754.0,
      "reward": 1.0184152126312256,
      "reward_std": 0.18650338053703308,
      "rewards/code_format_reward/mean": 0.9441964030265808,
      "rewards/code_format_reward/std": 0.22979861497879028,
      "rewards/curriculum_aware_reward_fn/mean": 0.07421875,
      "rewards/curriculum_aware_reward_fn/std": 0.14322684705257416,
      "step": 26
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1612.0,
      "completions/mean_length": 539.9732666015625,
      "completions/mean_terminated_length": 532.0178833007812,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.111397627643115,
      "grad_norm": 0.17852729558944702,
      "kl": 0.019775390625,
      "learning_rate": 1e-06,
      "loss": 0.0216,
      "num_tokens": 14761182.0,
      "reward": 1.017076015472412,
      "reward_std": 0.20738928020000458,
      "rewards/code_format_reward/mean": 0.9397321343421936,
      "rewards/code_format_reward/std": 0.23824846744537354,
      "rewards/curriculum_aware_reward_fn/mean": 0.07734375447034836,
      "rewards/curriculum_aware_reward_fn/std": 0.14538030326366425,
      "step": 27
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2059.0,
      "completions/mean_length": 501.2701110839844,
      "completions/mean_terminated_length": 493.2281799316406,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.11552346570397112,
      "grad_norm": 0.18558189272880554,
      "kl": 0.0224456787109375,
      "learning_rate": 1e-06,
      "loss": 0.034,
      "num_tokens": 15256959.0,
      "reward": 1.0671876668930054,
      "reward_std": 0.16758912801742554,
      "rewards/code_format_reward/mean": 0.96875,
      "rewards/code_format_reward/std": 0.17418713867664337,
      "rewards/curriculum_aware_reward_fn/mean": 0.09843749552965164,
      "rewards/curriculum_aware_reward_fn/std": 0.15753914415836334,
      "step": 28
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1795.0,
      "completions/max_terminated_length": 1795.0,
      "completions/mean_length": 494.08038330078125,
      "completions/mean_terminated_length": 494.08038330078125,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.11964930376482723,
      "grad_norm": 0.17248578369617462,
      "kl": 0.0224456787109375,
      "learning_rate": 1e-06,
      "loss": 0.0269,
      "num_tokens": 15755297.0,
      "reward": 1.0885045528411865,
      "reward_std": 0.10364294797182083,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.09296875447034836,
      "rewards/curriculum_aware_reward_fn/std": 0.15651653707027435,
      "step": 29
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2559.0,
      "completions/mean_length": 516.46875,
      "completions/mean_terminated_length": 508.4608459472656,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.12377514182568335,
      "grad_norm": 0.1416454315185547,
      "kl": 0.0227203369140625,
      "learning_rate": 1e-06,
      "loss": 0.0175,
      "num_tokens": 16250043.0,
      "reward": 1.0487723350524902,
      "reward_std": 0.09710026532411575,
      "rewards/code_format_reward/mean": 0.9776785969734192,
      "rewards/code_format_reward/std": 0.14789186418056488,
      "rewards/curriculum_aware_reward_fn/mean": 0.07109375298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.1409710794687271,
      "step": 30
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1677.0,
      "completions/max_terminated_length": 1677.0,
      "completions/mean_length": 496.9754638671875,
      "completions/mean_terminated_length": 496.9754638671875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.12790097988653945,
      "grad_norm": 0.18218933045864105,
      "kl": 0.0243377685546875,
      "learning_rate": 1e-06,
      "loss": 0.0111,
      "num_tokens": 16754620.0,
      "reward": 1.0832589864730835,
      "reward_std": 0.11736033856868744,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.09218750149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.1561036854982376,
      "step": 31
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2773.0,
      "completions/max_terminated_length": 2773.0,
      "completions/mean_length": 488.4151916503906,
      "completions/mean_terminated_length": 488.4151916503906,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.13202681794739557,
      "grad_norm": 0.15871264040470123,
      "kl": 0.0238800048828125,
      "learning_rate": 1e-06,
      "loss": 0.0051,
      "num_tokens": 17244008.0,
      "reward": 1.062611699104309,
      "reward_std": 0.1266116350889206,
      "rewards/code_format_reward/mean": 0.9821428656578064,
      "rewards/code_format_reward/std": 0.13258016109466553,
      "rewards/curriculum_aware_reward_fn/mean": 0.08046875149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.1474359631538391,
      "step": 32
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1137.0,
      "completions/max_terminated_length": 1137.0,
      "completions/mean_length": 481.544677734375,
      "completions/mean_terminated_length": 481.544677734375,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.1361526560082517,
      "grad_norm": 0.18614180386066437,
      "kl": 0.02935791015625,
      "learning_rate": 1e-06,
      "loss": 0.011,
      "num_tokens": 17737381.0,
      "reward": 1.0718750953674316,
      "reward_std": 0.1312674880027771,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.08749999850988388,
      "rewards/curriculum_aware_reward_fn/std": 0.15172386169433594,
      "step": 33
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1613.0,
      "completions/max_terminated_length": 1613.0,
      "completions/mean_length": 512.8549194335938,
      "completions/mean_terminated_length": 512.8549194335938,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.14027849406910778,
      "grad_norm": 0.16082872450351715,
      "kl": 0.0222625732421875,
      "learning_rate": 1e-06,
      "loss": 0.0197,
      "num_tokens": 18228310.0,
      "reward": 1.0741071701049805,
      "reward_std": 0.12349522858858109,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507844179868698,
      "rewards/curriculum_aware_reward_fn/mean": 0.08749999850988388,
      "rewards/curriculum_aware_reward_fn/std": 0.15529432892799377,
      "step": 34
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1746.0,
      "completions/max_terminated_length": 1746.0,
      "completions/mean_length": 468.5870666503906,
      "completions/mean_terminated_length": 468.5870666503906,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.1444043321299639,
      "grad_norm": 0.1922416239976883,
      "kl": 0.0261993408203125,
      "learning_rate": 1e-06,
      "loss": 0.0045,
      "num_tokens": 18722633.0,
      "reward": 1.0731027126312256,
      "reward_std": 0.14413729310035706,
      "rewards/code_format_reward/mean": 0.9754464030265808,
      "rewards/code_format_reward/std": 0.1549331247806549,
      "rewards/curriculum_aware_reward_fn/mean": 0.0976562425494194,
      "rewards/curriculum_aware_reward_fn/std": 0.15715619921684265,
      "step": 35
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2882.0,
      "completions/max_terminated_length": 2882.0,
      "completions/mean_length": 519.6295166015625,
      "completions/mean_terminated_length": 519.6295166015625,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.14853017019082002,
      "grad_norm": 0.1476685255765915,
      "kl": 0.0240020751953125,
      "learning_rate": 1e-06,
      "loss": 0.0086,
      "num_tokens": 19224703.0,
      "reward": 1.071540355682373,
      "reward_std": 0.0882287248969078,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.08046875149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.1474359631538391,
      "step": 36
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.004464285714285698,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 511.08929443359375,
      "completions/mean_terminated_length": 495.01348876953125,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.15265600825167613,
      "grad_norm": 0.16821761429309845,
      "kl": 0.02496337890625,
      "learning_rate": 1e-06,
      "loss": 0.0438,
      "num_tokens": 19721743.0,
      "reward": 1.0640625953674316,
      "reward_std": 0.13217082619667053,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.07968749850988388,
      "rewards/curriculum_aware_reward_fn/std": 0.146930992603302,
      "step": 37
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2589.0,
      "completions/max_terminated_length": 2589.0,
      "completions/mean_length": 505.79241943359375,
      "completions/mean_terminated_length": 505.79241943359375,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.15678184631253222,
      "grad_norm": 0.16077841818332672,
      "kl": 0.0255889892578125,
      "learning_rate": 1e-06,
      "loss": 0.0078,
      "num_tokens": 20205826.0,
      "reward": 1.0842634439468384,
      "reward_std": 0.12369215488433838,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.09765625,
      "rewards/curriculum_aware_reward_fn/std": 0.15715619921684265,
      "step": 38
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 3452.0,
      "completions/mean_length": 531.9263916015625,
      "completions/mean_terminated_length": 523.9530029296875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.16090768437338834,
      "grad_norm": 0.1493963897228241,
      "kl": 0.0219573974609375,
      "learning_rate": 1e-06,
      "loss": 0.0287,
      "num_tokens": 20714770.0,
      "reward": 1.0684152841567993,
      "reward_std": 0.11183035373687744,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.07734375447034836,
      "rewards/curriculum_aware_reward_fn/std": 0.14538030326366425,
      "step": 39
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1251.0,
      "completions/max_terminated_length": 1251.0,
      "completions/mean_length": 510.1785888671875,
      "completions/mean_terminated_length": 510.1785888671875,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.16503352243424446,
      "grad_norm": 0.1577296257019043,
      "kl": 0.025360107421875,
      "learning_rate": 1e-06,
      "loss": 0.0097,
      "num_tokens": 21206971.0,
      "reward": 1.0684152841567993,
      "reward_std": 0.10139289498329163,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.07734374701976776,
      "rewards/curriculum_aware_reward_fn/std": 0.14538030326366425,
      "step": 40
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2377.0,
      "completions/mean_length": 511.3594055175781,
      "completions/mean_terminated_length": 503.3400573730469,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.16915936049510058,
      "grad_norm": 0.15489205718040466,
      "kl": 0.027496337890625,
      "learning_rate": 1e-06,
      "loss": 0.0479,
      "num_tokens": 21706680.0,
      "reward": 1.0683035850524902,
      "reward_std": 0.10432274639606476,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.07499999552965164,
      "rewards/curriculum_aware_reward_fn/std": 0.14377461373806,
      "step": 41
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1208.0,
      "completions/max_terminated_length": 1208.0,
      "completions/mean_length": 458.1094055175781,
      "completions/mean_terminated_length": 458.1094055175781,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.17328519855595667,
      "grad_norm": 0.16796942055225372,
      "kl": 0.0244293212890625,
      "learning_rate": 1e-06,
      "loss": 0.0076,
      "num_tokens": 22153287.0,
      "reward": 1.0933036804199219,
      "reward_std": 0.10752787441015244,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.10000000149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.15829063951969147,
      "step": 42
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3074.0,
      "completions/max_terminated_length": 3074.0,
      "completions/mean_length": 500.6339416503906,
      "completions/mean_terminated_length": 500.6339416503906,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.1774110366168128,
      "grad_norm": 0.1404551863670349,
      "kl": 0.0234832763671875,
      "learning_rate": 1e-06,
      "loss": 0.03,
      "num_tokens": 22638251.0,
      "reward": 1.0720982551574707,
      "reward_std": 0.08823520690202713,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.07656250149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.14485128223896027,
      "step": 43
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1282.0,
      "completions/mean_length": 517.154052734375,
      "completions/mean_terminated_length": 509.14764404296875,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.1815368746776689,
      "grad_norm": 0.1547202318906784,
      "kl": 0.02197265625,
      "learning_rate": 1e-06,
      "loss": 0.0262,
      "num_tokens": 23115433.0,
      "reward": 1.060044765472412,
      "reward_std": 0.11939653754234314,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.07343750447034836,
      "rewards/curriculum_aware_reward_fn/std": 0.14832323789596558,
      "step": 44
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1640.0,
      "completions/mean_length": 532.0647583007812,
      "completions/mean_terminated_length": 524.0917358398438,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.18566271273852503,
      "grad_norm": 0.1570153385400772,
      "kl": 0.020660400390625,
      "learning_rate": 1e-06,
      "loss": -0.0065,
      "num_tokens": 23643220.0,
      "reward": 1.0776786804199219,
      "reward_std": 0.10400114208459854,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.08437500149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.14987409114837646,
      "step": 45
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 3661.0,
      "completions/mean_length": 523.357177734375,
      "completions/mean_terminated_length": 515.3646850585938,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.18978855079938112,
      "grad_norm": 0.15556640923023224,
      "kl": 0.02166748046875,
      "learning_rate": 1e-06,
      "loss": 0.033,
      "num_tokens": 24145833.0,
      "reward": 1.0652903318405151,
      "reward_std": 0.10849537700414658,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.07421875,
      "rewards/curriculum_aware_reward_fn/std": 0.14322684705257416,
      "step": 46
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1129.0,
      "completions/max_terminated_length": 1129.0,
      "completions/mean_length": 510.8058166503906,
      "completions/mean_terminated_length": 510.8058166503906,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.19391438886023724,
      "grad_norm": 0.16910067200660706,
      "kl": 0.0249481201171875,
      "learning_rate": 1e-06,
      "loss": -0.0031,
      "num_tokens": 24644804.0,
      "reward": 1.0970983505249023,
      "reward_std": 0.11309925466775894,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.1015625,
      "rewards/curriculum_aware_reward_fn/std": 0.1590231955051422,
      "step": 47
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1687.0,
      "completions/max_terminated_length": 1687.0,
      "completions/mean_length": 482.75225830078125,
      "completions/mean_terminated_length": 482.75225830078125,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.19804022692109335,
      "grad_norm": 0.17908784747123718,
      "kl": 0.026641845703125,
      "learning_rate": 1e-06,
      "loss": 0.0116,
      "num_tokens": 25115758.0,
      "reward": 1.094642996788025,
      "reward_std": 0.1125173270702362,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.09687499701976776,
      "rewards/curriculum_aware_reward_fn/std": 0.15676844120025635,
      "step": 48
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1909.0,
      "completions/max_terminated_length": 1909.0,
      "completions/mean_length": 488.2410888671875,
      "completions/mean_terminated_length": 488.2410888671875,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.20216606498194944,
      "grad_norm": 0.15744391083717346,
      "kl": 0.0242919921875,
      "learning_rate": 1e-06,
      "loss": 0.0197,
      "num_tokens": 25604424.0,
      "reward": 1.0954241752624512,
      "reward_std": 0.09485037624835968,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.09765625,
      "rewards/curriculum_aware_reward_fn/std": 0.16564589738845825,
      "step": 49
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2600.0,
      "completions/max_terminated_length": 2600.0,
      "completions/mean_length": 512.3683471679688,
      "completions/mean_terminated_length": 512.3683471679688,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.20629190304280556,
      "grad_norm": 0.15357136726379395,
      "kl": 0.0228729248046875,
      "learning_rate": 1e-06,
      "loss": 0.0092,
      "num_tokens": 26094421.0,
      "reward": 1.1697545051574707,
      "reward_std": 0.14999061822891235,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.17421874403953552,
      "rewards/curriculum_aware_reward_fn/std": 0.27402350306510925,
      "step": 50
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1301.0,
      "completions/max_terminated_length": 1301.0,
      "completions/mean_length": 488.3660888671875,
      "completions/mean_terminated_length": 488.3660888671875,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.21041774110366168,
      "grad_norm": 0.16300714015960693,
      "kl": 0.023529052734375,
      "learning_rate": 1e-06,
      "loss": 0.0173,
      "num_tokens": 26577109.0,
      "reward": 1.1524553298950195,
      "reward_std": 0.1449015736579895,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.15468750894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.25778767466545105,
      "step": 51
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1789.0,
      "completions/mean_length": 556.6495971679688,
      "completions/mean_terminated_length": 548.7315673828125,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.2145435791645178,
      "grad_norm": 0.1564698964357376,
      "kl": 0.0198516845703125,
      "learning_rate": 1e-06,
      "loss": 0.0106,
      "num_tokens": 27117541.0,
      "reward": 1.1220982074737549,
      "reward_std": 0.14631754159927368,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.12656249105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.23956476151943207,
      "step": 52
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1865.0,
      "completions/max_terminated_length": 1865.0,
      "completions/mean_length": 522.607177734375,
      "completions/mean_terminated_length": 522.607177734375,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.2186694172253739,
      "grad_norm": 0.16431348025798798,
      "kl": 0.020294189453125,
      "learning_rate": 1e-06,
      "loss": 0.0147,
      "num_tokens": 27615485.0,
      "reward": 1.1806920766830444,
      "reward_std": 0.17966462671756744,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.18515624105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.2865508198738098,
      "step": 53
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.004464285714285698,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1863.0,
      "completions/mean_length": 528.5580444335938,
      "completions/mean_terminated_length": 512.560546875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.22279525528623,
      "grad_norm": 0.17439934611320496,
      "kl": 0.021240234375,
      "learning_rate": 1e-06,
      "loss": 0.0426,
      "num_tokens": 28105791.0,
      "reward": 1.127678632736206,
      "reward_std": 0.17251846194267273,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.13437499105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.23526187241077423,
      "step": 54
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1257.0,
      "completions/max_terminated_length": 1257.0,
      "completions/mean_length": 524.796875,
      "completions/mean_terminated_length": 524.796875,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.22692109334708613,
      "grad_norm": 0.17376989126205444,
      "kl": 0.022430419921875,
      "learning_rate": 1e-06,
      "loss": -0.001,
      "num_tokens": 28635222.0,
      "reward": 1.1344866752624512,
      "reward_std": 0.16489870846271515,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.1367187350988388,
      "rewards/curriculum_aware_reward_fn/std": 0.25031736493110657,
      "step": 55
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1768.0,
      "completions/max_terminated_length": 1768.0,
      "completions/mean_length": 536.8549194335938,
      "completions/mean_terminated_length": 536.8549194335938,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.23104693140794225,
      "grad_norm": 0.1522541344165802,
      "kl": 0.0203857421875,
      "learning_rate": 1e-06,
      "loss": 0.0224,
      "num_tokens": 29165477.0,
      "reward": 1.1148438453674316,
      "reward_std": 0.1370818018913269,
      "rewards/code_format_reward/mean": 1.0,
      "rewards/code_format_reward/std": 0.0,
      "rewards/curriculum_aware_reward_fn/mean": 0.11484374850988388,
      "rewards/curriculum_aware_reward_fn/std": 0.23221427202224731,
      "step": 56
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1781.0,
      "completions/mean_length": 526.4486694335938,
      "completions/mean_terminated_length": 518.4630737304688,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.23517276946879834,
      "grad_norm": 0.17326720058918,
      "kl": 0.0211029052734375,
      "learning_rate": 1e-06,
      "loss": 0.0243,
      "num_tokens": 29679072.0,
      "reward": 1.2166296243667603,
      "reward_std": 0.17645685374736786,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.22109375894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.3035515248775482,
      "step": 57
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1494.0,
      "completions/max_terminated_length": 1494.0,
      "completions/mean_length": 507.3013610839844,
      "completions/mean_terminated_length": 507.3013610839844,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.23929860752965446,
      "grad_norm": 0.16802732646465302,
      "kl": 0.01971435546875,
      "learning_rate": 1e-06,
      "loss": 0.0165,
      "num_tokens": 30167268.0,
      "reward": 1.1937501430511475,
      "reward_std": 0.17160995304584503,
      "rewards/code_format_reward/mean": 1.0,
      "rewards/code_format_reward/std": 0.0,
      "rewards/curriculum_aware_reward_fn/mean": 0.19374999403953552,
      "rewards/curriculum_aware_reward_fn/std": 0.2841939628124237,
      "step": 58
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1296.0,
      "completions/max_terminated_length": 1296.0,
      "completions/mean_length": 524.5982666015625,
      "completions/mean_terminated_length": 524.5982666015625,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.24342444559051057,
      "grad_norm": 0.14656943082809448,
      "kl": 0.02020263671875,
      "learning_rate": 1e-06,
      "loss": 0.0029,
      "num_tokens": 30672138.0,
      "reward": 1.1485490798950195,
      "reward_std": 0.12995967268943787,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.15078124403953552,
      "rewards/curriculum_aware_reward_fn/std": 0.2658287584781647,
      "step": 59
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1761.0,
      "completions/mean_length": 518.841552734375,
      "completions/mean_terminated_length": 510.83892822265625,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.2475502836513667,
      "grad_norm": 0.14920854568481445,
      "kl": 0.0211639404296875,
      "learning_rate": 1e-06,
      "loss": 0.0328,
      "num_tokens": 31186070.0,
      "reward": 1.180580496788025,
      "reward_std": 0.15547817945480347,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.18281248211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.2739129364490509,
      "step": 60
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1185.0,
      "completions/mean_length": 529.25,
      "completions/mean_terminated_length": 521.2706909179688,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.2516761217122228,
      "grad_norm": 0.15654738247394562,
      "kl": 0.020477294921875,
      "learning_rate": 1e-06,
      "loss": 0.032,
      "num_tokens": 31683399.0,
      "reward": 1.1885044574737549,
      "reward_std": 0.17501546442508698,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.19296874105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.2880752682685852,
      "step": 61
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1066.0,
      "completions/mean_length": 527.6049194335938,
      "completions/mean_terminated_length": 519.6219482421875,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.2558019597730789,
      "grad_norm": 0.1481848806142807,
      "kl": 0.0185394287109375,
      "learning_rate": 1e-06,
      "loss": 0.0262,
      "num_tokens": 32203553.0,
      "reward": 1.139174222946167,
      "reward_std": 0.14721594750881195,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.14140625298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.25424543023109436,
      "step": 62
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1218.0,
      "completions/max_terminated_length": 1218.0,
      "completions/mean_length": 516.9330444335938,
      "completions/mean_terminated_length": 516.9330444335938,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.259927797833935,
      "grad_norm": 0.18818791210651398,
      "kl": 0.03802490234375,
      "learning_rate": 1e-06,
      "loss": 0.0067,
      "num_tokens": 32697653.0,
      "reward": 1.1876118183135986,
      "reward_std": 0.18578869104385376,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.18984374403953552,
      "rewards/curriculum_aware_reward_fn/std": 0.30488669872283936,
      "step": 63
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1240.0,
      "completions/max_terminated_length": 1240.0,
      "completions/mean_length": 551.53125,
      "completions/mean_terminated_length": 551.53125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.26405363589479114,
      "grad_norm": 0.16306030750274658,
      "kl": 0.0191497802734375,
      "learning_rate": 1e-06,
      "loss": 0.0033,
      "num_tokens": 33224620.0,
      "reward": 1.1351563930511475,
      "reward_std": 0.12161044031381607,
      "rewards/code_format_reward/mean": 1.0,
      "rewards/code_format_reward/std": 0.0,
      "rewards/curriculum_aware_reward_fn/mean": 0.13515624403953552,
      "rewards/curriculum_aware_reward_fn/std": 0.23886284232139587,
      "step": 64
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1202.0,
      "completions/max_terminated_length": 1202.0,
      "completions/mean_length": 526.8170166015625,
      "completions/mean_terminated_length": 526.8170166015625,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.26817947395564723,
      "grad_norm": 0.1532638669013977,
      "kl": 0.0195465087890625,
      "learning_rate": 1e-06,
      "loss": 0.0241,
      "num_tokens": 33730015.0,
      "reward": 1.1737724542617798,
      "reward_std": 0.17607219517230988,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.18046875298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.28667888045310974,
      "step": 65
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2010.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 521.3147583007812,
      "completions/mean_terminated_length": 521.3147583007812,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.2723053120165034,
      "grad_norm": 0.16237851977348328,
      "kl": 0.0205535888671875,
      "learning_rate": 1e-06,
      "loss": 0.0006,
      "num_tokens": 34233603.0,
      "reward": 1.192299246788025,
      "reward_std": 0.1378326714038849,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.19453123211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.28702008724212646,
      "step": 66
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1043.0,
      "completions/max_terminated_length": 1043.0,
      "completions/mean_length": 503.1651916503906,
      "completions/mean_terminated_length": 503.1651916503906,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.27643115007735947,
      "grad_norm": 0.17482617497444153,
      "kl": 0.0332489013671875,
      "learning_rate": 1e-06,
      "loss": 0.0084,
      "num_tokens": 34716110.0,
      "reward": 1.1895090341567993,
      "reward_std": 0.1832786202430725,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.19843748211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.3167010545730591,
      "step": 67
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1179.0,
      "completions/max_terminated_length": 1179.0,
      "completions/mean_length": 523.0178833007812,
      "completions/mean_terminated_length": 523.0178833007812,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.28055698813821556,
      "grad_norm": 0.15600912272930145,
      "kl": 0.0208740234375,
      "learning_rate": 1e-06,
      "loss": 0.0081,
      "num_tokens": 35214700.0,
      "reward": 1.1719865798950195,
      "reward_std": 0.14628802239894867,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.17421875894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.27402347326278687,
      "step": 68
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1340.0,
      "completions/max_terminated_length": 1340.0,
      "completions/mean_length": 518.732177734375,
      "completions/mean_terminated_length": 518.732177734375,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.2846828261990717,
      "grad_norm": 0.15977604687213898,
      "kl": 0.0284271240234375,
      "learning_rate": 1e-06,
      "loss": 0.013,
      "num_tokens": 35705084.0,
      "reward": 1.1867188215255737,
      "reward_std": 0.13772818446159363,
      "rewards/code_format_reward/mean": 1.0,
      "rewards/code_format_reward/std": 0.0,
      "rewards/curriculum_aware_reward_fn/mean": 0.18671874701976776,
      "rewards/curriculum_aware_reward_fn/std": 0.2787334620952606,
      "step": 69
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1527.0,
      "completions/mean_length": 540.4330444335938,
      "completions/mean_terminated_length": 532.478759765625,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.2888086642599278,
      "grad_norm": 0.16505984961986542,
      "kl": 0.0190582275390625,
      "learning_rate": 1e-06,
      "loss": 0.0162,
      "num_tokens": 36202817.0,
      "reward": 1.1292412281036377,
      "reward_std": 0.17226025462150574,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.13593749701976776,
      "rewards/curriculum_aware_reward_fn/std": 0.24127459526062012,
      "step": 70
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1484.0,
      "completions/mean_length": 526.5892944335938,
      "completions/mean_terminated_length": 518.60400390625,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.2929345023207839,
      "grad_norm": 0.15790706872940063,
      "kl": 0.0190887451171875,
      "learning_rate": 1e-06,
      "loss": 0.0309,
      "num_tokens": 36712401.0,
      "reward": 1.192522406578064,
      "reward_std": 0.1598421186208725,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.19921875,
      "rewards/curriculum_aware_reward_fn/std": 0.29234156012535095,
      "step": 71
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1069.0,
      "completions/max_terminated_length": 1069.0,
      "completions/mean_length": 550.3192138671875,
      "completions/mean_terminated_length": 550.3192138671875,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.29706034038164003,
      "grad_norm": 0.16435663402080536,
      "kl": 0.0229034423828125,
      "learning_rate": 1e-06,
      "loss": 0.0059,
      "num_tokens": 37239399.0,
      "reward": 1.1632813215255737,
      "reward_std": 0.18066853284835815,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.17890623211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.2689492404460907,
      "step": 72
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1790.0,
      "completions/mean_length": 529.9933471679688,
      "completions/mean_terminated_length": 522.0156860351562,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.3011861784424961,
      "grad_norm": 0.15893499553203583,
      "kl": 0.0205230712890625,
      "learning_rate": 1e-06,
      "loss": 0.0333,
      "num_tokens": 37742087.0,
      "reward": 1.1675224304199219,
      "reward_std": 0.1739296019077301,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.17421875894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.2857727110385895,
      "step": 73
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1741.0,
      "completions/mean_length": 580.841552734375,
      "completions/mean_terminated_length": 572.9776611328125,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.30531201650335227,
      "grad_norm": 0.15558117628097534,
      "kl": 0.018707275390625,
      "learning_rate": 1e-06,
      "loss": 0.0291,
      "num_tokens": 38295107.0,
      "reward": 1.1248884201049805,
      "reward_std": 0.167986199259758,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507844924926758,
      "rewards/curriculum_aware_reward_fn/mean": 0.13828125596046448,
      "rewards/curriculum_aware_reward_fn/std": 0.25164324045181274,
      "step": 74
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1512.0,
      "completions/max_terminated_length": 1512.0,
      "completions/mean_length": 547.21875,
      "completions/mean_terminated_length": 547.21875,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.30943785456420836,
      "grad_norm": 0.166014164686203,
      "kl": 0.021240234375,
      "learning_rate": 1e-06,
      "loss": 0.0013,
      "num_tokens": 38806604.0,
      "reward": 1.1474331617355347,
      "reward_std": 0.16723909974098206,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.15859375894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.2814329266548157,
      "step": 75
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1560.0,
      "completions/mean_length": 574.6205444335938,
      "completions/mean_terminated_length": 566.7427368164062,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.31356369262506445,
      "grad_norm": 0.22545717656612396,
      "kl": 0.02032470703125,
      "learning_rate": 1e-06,
      "loss": 0.0227,
      "num_tokens": 39349011.0,
      "reward": 1.1671875715255737,
      "reward_std": 0.18748165667057037,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.18281248211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.28180328011512756,
      "step": 76
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2560.0,
      "completions/mean_length": 604.1138916015625,
      "completions/mean_terminated_length": 596.302001953125,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.3176895306859206,
      "grad_norm": 0.14813967049121857,
      "kl": 0.0190582275390625,
      "learning_rate": 1e-06,
      "loss": 0.0173,
      "num_tokens": 39898968.0,
      "reward": 1.1960939168930054,
      "reward_std": 0.1797778308391571,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.21171875298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.31974881887435913,
      "step": 77
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1447.0,
      "completions/mean_length": 583.9866333007812,
      "completions/mean_terminated_length": 576.1297607421875,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.3218153687467767,
      "grad_norm": 0.16099686920642853,
      "kl": 0.0206298828125,
      "learning_rate": 1e-06,
      "loss": 0.0246,
      "num_tokens": 40436142.0,
      "reward": 1.1539063453674316,
      "reward_std": 0.17733997106552124,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.16953124105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.2699390947818756,
      "step": 78
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1446.0,
      "completions/max_terminated_length": 1446.0,
      "completions/mean_length": 571.1473388671875,
      "completions/mean_terminated_length": 571.1473388671875,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.3259412068076328,
      "grad_norm": 0.15308991074562073,
      "kl": 0.0211029052734375,
      "learning_rate": 1e-06,
      "loss": 0.0054,
      "num_tokens": 40963301.0,
      "reward": 1.1388393640518188,
      "reward_std": 0.14730839431285858,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.14999999105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.26368576288223267,
      "step": 79
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1335.0,
      "completions/max_terminated_length": 1335.0,
      "completions/mean_length": 568.2232666015625,
      "completions/mean_terminated_length": 568.2232666015625,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.3300670448684889,
      "grad_norm": 0.16148877143859863,
      "kl": 0.021453857421875,
      "learning_rate": 1e-06,
      "loss": 0.0083,
      "num_tokens": 41480155.0,
      "reward": 1.14453125,
      "reward_std": 0.18031297624111176,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.16015625,
      "rewards/curriculum_aware_reward_fn/std": 0.26958534121513367,
      "step": 80
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1757.0,
      "completions/max_terminated_length": 1757.0,
      "completions/mean_length": 559.8080444335938,
      "completions/mean_terminated_length": 559.8080444335938,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.334192882929345,
      "grad_norm": 0.13826853036880493,
      "kl": 0.022613525390625,
      "learning_rate": 1e-06,
      "loss": 0.0166,
      "num_tokens": 42002353.0,
      "reward": 1.2103794813156128,
      "reward_std": 0.14001040160655975,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.21484375,
      "rewards/curriculum_aware_reward_fn/std": 0.3150540292263031,
      "step": 81
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1970.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 583.6875,
      "completions/mean_terminated_length": 583.6875,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.33831872099020116,
      "grad_norm": 0.14655961096286774,
      "kl": 0.01815032958984375,
      "learning_rate": 1e-06,
      "loss": 0.0147,
      "num_tokens": 42532169.0,
      "reward": 1.16015625,
      "reward_std": 0.16172908246517181,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.17578125,
      "rewards/curriculum_aware_reward_fn/std": 0.2848121225833893,
      "step": 82
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2949.0,
      "completions/max_terminated_length": 2949.0,
      "completions/mean_length": 617.0357666015625,
      "completions/mean_terminated_length": 617.0357666015625,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.34244455905105725,
      "grad_norm": 0.16233304142951965,
      "kl": 0.01851654052734375,
      "learning_rate": 1e-06,
      "loss": 0.0184,
      "num_tokens": 43100585.0,
      "reward": 1.161384105682373,
      "reward_std": 0.19341857731342316,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.17031250894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.26689091324806213,
      "step": 83
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2658.0,
      "completions/max_terminated_length": 2658.0,
      "completions/mean_length": 649.1205444335938,
      "completions/mean_terminated_length": 649.1205444335938,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.34657039711191334,
      "grad_norm": 0.14131295680999756,
      "kl": 0.019439697265625,
      "learning_rate": 1e-06,
      "loss": 0.0151,
      "num_tokens": 43674324.0,
      "reward": 1.111830472946167,
      "reward_std": 0.14097417891025543,
      "rewards/code_format_reward/mean": 0.9821428656578064,
      "rewards/code_format_reward/std": 0.13258016109466553,
      "rewards/curriculum_aware_reward_fn/mean": 0.12968750298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.24244815111160278,
      "step": 84
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1551.0,
      "completions/max_terminated_length": 1551.0,
      "completions/mean_length": 611.125,
      "completions/mean_terminated_length": 611.125,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.3506962351727695,
      "grad_norm": 0.16218431293964386,
      "kl": 0.0191497802734375,
      "learning_rate": 1e-06,
      "loss": 0.0098,
      "num_tokens": 44228836.0,
      "reward": 1.1375001668930054,
      "reward_std": 0.18307891488075256,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.15312500298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.25119680166244507,
      "step": 85
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1560.0,
      "completions/max_terminated_length": 1560.0,
      "completions/mean_length": 588.6785888671875,
      "completions/mean_terminated_length": 588.6785888671875,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.3548220732336256,
      "grad_norm": 0.1462087631225586,
      "kl": 0.0193023681640625,
      "learning_rate": 1e-06,
      "loss": 0.0094,
      "num_tokens": 44750108.0,
      "reward": 1.1293528079986572,
      "reward_std": 0.157430499792099,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349845170975,
      "rewards/curriculum_aware_reward_fn/mean": 0.13828124105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.2461378425359726,
      "step": 86
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1634.0,
      "completions/max_terminated_length": 1634.0,
      "completions/mean_length": 630.6674194335938,
      "completions/mean_terminated_length": 630.6674194335938,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.35894791129448167,
      "grad_norm": 0.14705541729927063,
      "kl": 0.0197906494140625,
      "learning_rate": 1e-06,
      "loss": 0.0038,
      "num_tokens": 45317001.0,
      "reward": 1.1686384677886963,
      "reward_std": 0.1696617752313614,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.18203125894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.280849814414978,
      "step": 87
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3749.0,
      "completions/max_terminated_length": 3749.0,
      "completions/mean_length": 625.779052734375,
      "completions/mean_terminated_length": 625.779052734375,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.3630737493553378,
      "grad_norm": 0.15462744235992432,
      "kl": 0.020904541015625,
      "learning_rate": 1e-06,
      "loss": 0.0114,
      "num_tokens": 45873066.0,
      "reward": 1.1773439645767212,
      "reward_std": 0.16795016825199127,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.19296874105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.284244567155838,
      "step": 88
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3013.0,
      "completions/max_terminated_length": 3013.0,
      "completions/mean_length": 638.1451416015625,
      "completions/mean_terminated_length": 638.1451416015625,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.3671995874161939,
      "grad_norm": 0.13075420260429382,
      "kl": 0.0183868408203125,
      "learning_rate": 1e-06,
      "loss": 0.009,
      "num_tokens": 46440831.0,
      "reward": 1.1301339864730835,
      "reward_std": 0.1329827904701233,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.13906249403953552,
      "rewards/curriculum_aware_reward_fn/std": 0.2528424561023712,
      "step": 89
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1418.0,
      "completions/max_terminated_length": 1418.0,
      "completions/mean_length": 626.5535888671875,
      "completions/mean_terminated_length": 626.5535888671875,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.37132542547705005,
      "grad_norm": 0.1601579189300537,
      "kl": 0.0171966552734375,
      "learning_rate": 1e-06,
      "loss": 0.0114,
      "num_tokens": 47001058.0,
      "reward": 1.172991156578064,
      "reward_std": 0.18612328171730042,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.1796875,
      "rewards/curriculum_aware_reward_fn/std": 0.2658621072769165,
      "step": 90
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3307.0,
      "completions/max_terminated_length": 3307.0,
      "completions/mean_length": 626.7611694335938,
      "completions/mean_terminated_length": 626.7611694335938,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.37545126353790614,
      "grad_norm": 0.1480480581521988,
      "kl": 0.022064208984375,
      "learning_rate": 1e-06,
      "loss": 0.0186,
      "num_tokens": 47560027.0,
      "reward": 1.142076015472412,
      "reward_std": 0.16457779705524445,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.15546873211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.266215056180954,
      "step": 91
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1551.0,
      "completions/max_terminated_length": 1551.0,
      "completions/mean_length": 634.09375,
      "completions/mean_terminated_length": 634.09375,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.37957710159876223,
      "grad_norm": 0.14755026996135712,
      "kl": 0.0177001953125,
      "learning_rate": 1e-06,
      "loss": 0.0008,
      "num_tokens": 48102765.0,
      "reward": 1.138169765472412,
      "reward_std": 0.1581386774778366,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.15156248211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.27897584438323975,
      "step": 92
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2012.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 624.1451416015625,
      "completions/mean_terminated_length": 624.1451416015625,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.3837029396596184,
      "grad_norm": 0.1583220362663269,
      "kl": 0.0184783935546875,
      "learning_rate": 1e-06,
      "loss": 0.013,
      "num_tokens": 48655851.0,
      "reward": 1.1885045766830444,
      "reward_std": 0.22364631295204163,
      "rewards/code_format_reward/mean": 0.9799107313156128,
      "rewards/code_format_reward/std": 0.14046260714530945,
      "rewards/curriculum_aware_reward_fn/mean": 0.20859374105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.3033902943134308,
      "step": 93
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3739.0,
      "completions/max_terminated_length": 3739.0,
      "completions/mean_length": 642.0045166015625,
      "completions/mean_terminated_length": 642.0045166015625,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.38782877772047447,
      "grad_norm": 0.14486397802829742,
      "kl": 0.0182037353515625,
      "learning_rate": 1e-06,
      "loss": 0.0174,
      "num_tokens": 49208979.0,
      "reward": 1.167745590209961,
      "reward_std": 0.1853606402873993,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.17890624701976776,
      "rewards/curriculum_aware_reward_fn/std": 0.28670451045036316,
      "step": 94
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1520.0,
      "completions/max_terminated_length": 1520.0,
      "completions/mean_length": 629.0670166015625,
      "completions/mean_terminated_length": 629.0670166015625,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.39195461578133056,
      "grad_norm": 0.14910699427127838,
      "kl": 0.0187225341796875,
      "learning_rate": 1e-06,
      "loss": 0.0079,
      "num_tokens": 49766531.0,
      "reward": 1.1893974542617798,
      "reward_std": 0.1598261594772339,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.19609375298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.3036160171031952,
      "step": 95
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1813.0,
      "completions/max_terminated_length": 1813.0,
      "completions/mean_length": 624.9553833007812,
      "completions/mean_terminated_length": 624.9553833007812,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.3960804538421867,
      "grad_norm": 0.14866606891155243,
      "kl": 0.0218658447265625,
      "learning_rate": 1e-06,
      "loss": 0.0108,
      "num_tokens": 50317740.0,
      "reward": 1.1503348350524902,
      "reward_std": 0.17856933176517487,
      "rewards/code_format_reward/mean": 0.9776785969734192,
      "rewards/code_format_reward/std": 0.1478918492794037,
      "rewards/curriculum_aware_reward_fn/mean": 0.17265625298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.2769986689090729,
      "step": 96
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1349.0,
      "completions/max_terminated_length": 1349.0,
      "completions/mean_length": 639.8147583007812,
      "completions/mean_terminated_length": 639.8147583007812,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.4002062919030428,
      "grad_norm": 0.15107698738574982,
      "kl": 0.0175933837890625,
      "learning_rate": 1e-06,
      "loss": 0.0001,
      "num_tokens": 50870356.0,
      "reward": 1.1937501430511475,
      "reward_std": 0.18680307269096375,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.20937499403953552,
      "rewards/curriculum_aware_reward_fn/std": 0.318292498588562,
      "step": 97
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1881.0,
      "completions/max_terminated_length": 1881.0,
      "completions/mean_length": 654.763427734375,
      "completions/mean_terminated_length": 654.763427734375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.4043321299638989,
      "grad_norm": 0.1600561887025833,
      "kl": 0.0186920166015625,
      "learning_rate": 1e-06,
      "loss": 0.0078,
      "num_tokens": 51439364.0,
      "reward": 1.195312738418579,
      "reward_std": 0.20213094353675842,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.2087053507566452,
      "rewards/curriculum_aware_reward_fn/std": 0.3229687809944153,
      "step": 98
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1246.0,
      "completions/max_terminated_length": 1246.0,
      "completions/mean_length": 602.3616333007812,
      "completions/mean_terminated_length": 602.3616333007812,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.40845796802475504,
      "grad_norm": 0.13607917726039886,
      "kl": 0.0199737548828125,
      "learning_rate": 1e-06,
      "loss": 0.0101,
      "num_tokens": 51979436.0,
      "reward": 1.1448662281036377,
      "reward_std": 0.1558069884777069,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.14933036267757416,
      "rewards/curriculum_aware_reward_fn/std": 0.29378268122673035,
      "step": 99
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1603.0,
      "completions/max_terminated_length": 1603.0,
      "completions/mean_length": 651.875,
      "completions/mean_terminated_length": 651.875,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.4125838060856111,
      "grad_norm": 0.12900599837303162,
      "kl": 0.018524169921875,
      "learning_rate": 1e-06,
      "loss": 0.0221,
      "num_tokens": 52536111.0,
      "reward": 1.1502232551574707,
      "reward_std": 0.16727718710899353,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507844179868698,
      "rewards/curriculum_aware_reward_fn/mean": 0.16361607611179352,
      "rewards/curriculum_aware_reward_fn/std": 0.31127917766571045,
      "step": 100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1762.0,
      "completions/max_terminated_length": 1762.0,
      "completions/mean_length": 655.2522583007812,
      "completions/mean_terminated_length": 655.2522583007812,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.4167096441464673,
      "grad_norm": 0.14474211633205414,
      "kl": 0.01849365234375,
      "learning_rate": 1e-06,
      "loss": 0.0099,
      "num_tokens": 53112674.0,
      "reward": 1.182142972946167,
      "reward_std": 0.15763171017169952,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.18437501788139343,
      "rewards/curriculum_aware_reward_fn/std": 0.3020090162754059,
      "step": 101
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2849.0,
      "completions/max_terminated_length": 2849.0,
      "completions/mean_length": 648.9866333007812,
      "completions/mean_terminated_length": 648.9866333007812,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.42083548220732336,
      "grad_norm": 0.1270856410264969,
      "kl": 0.0184173583984375,
      "learning_rate": 1e-06,
      "loss": 0.007,
      "num_tokens": 53688768.0,
      "reward": 1.1958706378936768,
      "reward_std": 0.17443805932998657,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.2092633992433548,
      "rewards/curriculum_aware_reward_fn/std": 0.33975598216056824,
      "step": 102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2069.0,
      "completions/max_terminated_length": 2069.0,
      "completions/mean_length": 667.84375,
      "completions/mean_terminated_length": 667.84375,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.42496132026817945,
      "grad_norm": 0.1485375016927719,
      "kl": 0.016845703125,
      "learning_rate": 1e-06,
      "loss": 0.0292,
      "num_tokens": 54268396.0,
      "reward": 1.165513515472412,
      "reward_std": 0.1980009227991104,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.17890623211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.30522361397743225,
      "step": 103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1834.0,
      "completions/max_terminated_length": 1834.0,
      "completions/mean_length": 684.7076416015625,
      "completions/mean_terminated_length": 684.7076416015625,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.4290871583290356,
      "grad_norm": 0.1125236228108406,
      "kl": 0.01686859130859375,
      "learning_rate": 1e-06,
      "loss": 0.032,
      "num_tokens": 54831128.0,
      "reward": 1.0866073369979858,
      "reward_std": 0.1270635575056076,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.10000000149011612,
      "rewards/curriculum_aware_reward_fn/std": 0.2362789362668991,
      "step": 104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1543.0,
      "completions/max_terminated_length": 1543.0,
      "completions/mean_length": 596.2611694335938,
      "completions/mean_terminated_length": 596.2611694335938,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.4332129963898917,
      "grad_norm": 0.15816938877105713,
      "kl": 0.02044677734375,
      "learning_rate": 1e-06,
      "loss": 0.0001,
      "num_tokens": 55358331.0,
      "reward": 1.239174246788025,
      "reward_std": 0.1988132745027542,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.25033482909202576,
      "rewards/curriculum_aware_reward_fn/std": 0.34741759300231934,
      "step": 105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2732.0,
      "completions/max_terminated_length": 2732.0,
      "completions/mean_length": 644.7678833007812,
      "completions/mean_terminated_length": 644.7678833007812,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.4373388344507478,
      "grad_norm": 0.14656005799770355,
      "kl": 0.019317626953125,
      "learning_rate": 1e-06,
      "loss": 0.0038,
      "num_tokens": 55921223.0,
      "reward": 1.1698660850524902,
      "reward_std": 0.186209574341774,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.17433036863803864,
      "rewards/curriculum_aware_reward_fn/std": 0.3043120205402374,
      "step": 106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2028.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 628.6785888671875,
      "completions/mean_terminated_length": 628.6785888671875,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.44146467251160393,
      "grad_norm": 0.15770718455314636,
      "kl": 0.02008056640625,
      "learning_rate": 1e-06,
      "loss": 0.0026,
      "num_tokens": 56455676.0,
      "reward": 1.256361722946167,
      "reward_std": 0.17305786907672882,
      "rewards/code_format_reward/mean": 1.0,
      "rewards/code_format_reward/std": 0.0,
      "rewards/curriculum_aware_reward_fn/mean": 0.25636163353919983,
      "rewards/curriculum_aware_reward_fn/std": 0.33519959449768066,
      "step": 107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2329.0,
      "completions/max_terminated_length": 2329.0,
      "completions/mean_length": 643.875,
      "completions/mean_terminated_length": 643.875,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.44559051057246,
      "grad_norm": 0.1529017835855484,
      "kl": 0.02215576171875,
      "learning_rate": 1e-06,
      "loss": 0.0072,
      "num_tokens": 57012260.0,
      "reward": 1.2303571701049805,
      "reward_std": 0.21905755996704102,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507844179868698,
      "rewards/curriculum_aware_reward_fn/mean": 0.24374999105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.3518964350223541,
      "step": 108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2024.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 634.9933471679688,
      "completions/mean_terminated_length": 634.9933471679688,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "epoch": 0.44971634863331617,
      "grad_norm": 0.12553778290748596,
      "kl": 0.0210418701171875,
      "learning_rate": 1e-06,
      "loss": 0.0097,
      "num_tokens": 57564116.0,
      "reward": 1.2456474304199219,
      "reward_std": 0.14504222571849823,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.2501116096973419,
      "rewards/curriculum_aware_reward_fn/std": 0.3558790385723114,
      "step": 109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2150.0,
      "completions/max_terminated_length": 2150.0,
      "completions/mean_length": 682.9598388671875,
      "completions/mean_terminated_length": 682.9598388671875,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.45384218669417226,
      "grad_norm": 0.14662572741508484,
      "kl": 0.0195159912109375,
      "learning_rate": 1e-06,
      "loss": 0.0084,
      "num_tokens": 58142102.0,
      "reward": 1.1831474304199219,
      "reward_std": 0.19062189757823944,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.19654019176959991,
      "rewards/curriculum_aware_reward_fn/std": 0.3277512788772583,
      "step": 110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1743.0,
      "completions/max_terminated_length": 1743.0,
      "completions/mean_length": 626.8817138671875,
      "completions/mean_terminated_length": 626.8817138671875,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "epoch": 0.45796802475502835,
      "grad_norm": 0.13702163100242615,
      "kl": 0.0236358642578125,
      "learning_rate": 1e-06,
      "loss": 0.0116,
      "num_tokens": 58668393.0,
      "reward": 1.2010046243667603,
      "reward_std": 0.13696451485157013,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.20546875894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.3315751254558563,
      "step": 111
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2658.0,
      "completions/max_terminated_length": 2658.0,
      "completions/mean_length": 635.4241333007812,
      "completions/mean_terminated_length": 635.4241333007812,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.4620938628158845,
      "grad_norm": 0.13016532361507416,
      "kl": 0.022674560546875,
      "learning_rate": 1e-06,
      "loss": 0.0074,
      "num_tokens": 59234974.0,
      "reward": 1.1763393878936768,
      "reward_std": 0.13711431622505188,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.1785714328289032,
      "rewards/curriculum_aware_reward_fn/std": 0.2989889085292816,
      "step": 112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1847.0,
      "completions/max_terminated_length": 1847.0,
      "completions/mean_length": 678.716552734375,
      "completions/mean_terminated_length": 678.716552734375,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.4662197008767406,
      "grad_norm": 0.13799616694450378,
      "kl": 0.01947021484375,
      "learning_rate": 1e-06,
      "loss": -0.0054,
      "num_tokens": 59824226.0,
      "reward": 1.1936384439468384,
      "reward_std": 0.16037216782569885,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.2003348171710968,
      "rewards/curriculum_aware_reward_fn/std": 0.3211154043674469,
      "step": 113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1965.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 648.609375,
      "completions/mean_terminated_length": 648.609375,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.4703455389375967,
      "grad_norm": 0.13693882524967194,
      "kl": 0.019775390625,
      "learning_rate": 1e-06,
      "loss": -0.0081,
      "num_tokens": 60366992.0,
      "reward": 1.186272382736206,
      "reward_std": 0.15267953276634216,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.18850445747375488,
      "rewards/curriculum_aware_reward_fn/std": 0.31868821382522583,
      "step": 114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2517.0,
      "completions/max_terminated_length": 2517.0,
      "completions/mean_length": 659.3951416015625,
      "completions/mean_terminated_length": 659.3951416015625,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.4744713769984528,
      "grad_norm": 0.14329631626605988,
      "kl": 0.01837158203125,
      "learning_rate": 1e-06,
      "loss": 0.0176,
      "num_tokens": 60923858.0,
      "reward": 1.2178572416305542,
      "reward_std": 0.18229037523269653,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.22232143580913544,
      "rewards/curriculum_aware_reward_fn/std": 0.37145575881004333,
      "step": 115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1929.0,
      "completions/max_terminated_length": 1929.0,
      "completions/mean_length": 657.8192138671875,
      "completions/mean_terminated_length": 657.8192138671875,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.4785972150593089,
      "grad_norm": 0.1417432725429535,
      "kl": 0.020904541015625,
      "learning_rate": 1e-06,
      "loss": 0.0069,
      "num_tokens": 61484015.0,
      "reward": 1.2268974781036377,
      "reward_std": 0.17368465662002563,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.23582588136196136,
      "rewards/curriculum_aware_reward_fn/std": 0.34121277928352356,
      "step": 116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1685.0,
      "completions/mean_length": 661.5379638671875,
      "completions/mean_terminated_length": 653.8546142578125,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.48272305312016506,
      "grad_norm": 0.12646371126174927,
      "kl": 0.0243072509765625,
      "learning_rate": 1e-06,
      "loss": 0.0203,
      "num_tokens": 62059334.0,
      "reward": 1.1918528079986572,
      "reward_std": 0.165035218000412,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.20078125596046448,
      "rewards/curriculum_aware_reward_fn/std": 0.34070342779159546,
      "step": 117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1643.0,
      "completions/max_terminated_length": 1643.0,
      "completions/mean_length": 653.8795166015625,
      "completions/mean_terminated_length": 653.8795166015625,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.48684889118102115,
      "grad_norm": 0.12753191590309143,
      "kl": 0.019287109375,
      "learning_rate": 1e-06,
      "loss": 0.0139,
      "num_tokens": 62623494.0,
      "reward": 1.1503348350524902,
      "reward_std": 0.14808601140975952,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.15703126788139343,
      "rewards/curriculum_aware_reward_fn/std": 0.28548145294189453,
      "step": 118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1760.0,
      "completions/max_terminated_length": 1760.0,
      "completions/mean_length": 681.0357666015625,
      "completions/mean_terminated_length": 681.0357666015625,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.49097472924187724,
      "grad_norm": 0.12283871322870255,
      "kl": 0.0186309814453125,
      "learning_rate": 1e-06,
      "loss": 0.0044,
      "num_tokens": 63201052.0,
      "reward": 1.1948661804199219,
      "reward_std": 0.14294980466365814,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.19933035969734192,
      "rewards/curriculum_aware_reward_fn/std": 0.4071090817451477,
      "step": 119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2286.0,
      "completions/mean_length": 666.0714721679688,
      "completions/mean_terminated_length": 658.398193359375,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.4951005673027334,
      "grad_norm": 0.14923040568828583,
      "kl": 0.0207672119140625,
      "learning_rate": 1e-06,
      "loss": 0.0211,
      "num_tokens": 63762043.0,
      "reward": 1.200111746788025,
      "reward_std": 0.19496068358421326,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.20904017984867096,
      "rewards/curriculum_aware_reward_fn/std": 0.3164607286453247,
      "step": 120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2715.0,
      "completions/mean_length": 694.357177734375,
      "completions/mean_terminated_length": 686.7471923828125,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.4992264053635895,
      "grad_norm": 0.13748040795326233,
      "kl": 0.0281219482421875,
      "learning_rate": 1e-06,
      "loss": 0.0191,
      "num_tokens": 64340263.0,
      "reward": 1.223884105682373,
      "reward_std": 0.19004115462303162,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.23058035969734192,
      "rewards/curriculum_aware_reward_fn/std": 0.3455730080604553,
      "step": 121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2336.0,
      "completions/max_terminated_length": 2336.0,
      "completions/mean_length": 642.421875,
      "completions/mean_terminated_length": 642.421875,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.5033522434244456,
      "grad_norm": 0.15578803420066833,
      "kl": 0.0207061767578125,
      "learning_rate": 1e-06,
      "loss": 0.0114,
      "num_tokens": 64893963.0,
      "reward": 1.2465404272079468,
      "reward_std": 0.2177685797214508,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.2532365918159485,
      "rewards/curriculum_aware_reward_fn/std": 0.35354647040367126,
      "step": 122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1666.0,
      "completions/max_terminated_length": 1666.0,
      "completions/mean_length": 678.1160888671875,
      "completions/mean_terminated_length": 678.1160888671875,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.5074780814853017,
      "grad_norm": 0.12444733083248138,
      "kl": 0.021026611328125,
      "learning_rate": 1e-06,
      "loss": 0.0015,
      "num_tokens": 65479446.0,
      "reward": 1.1698660850524902,
      "reward_std": 0.14799921214580536,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.17656251788139343,
      "rewards/curriculum_aware_reward_fn/std": 0.31459254026412964,
      "step": 123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1505.0,
      "completions/max_terminated_length": 1505.0,
      "completions/mean_length": 659.5379638671875,
      "completions/mean_terminated_length": 659.5379638671875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.5116039195461578,
      "grad_norm": 0.12079131603240967,
      "kl": 0.0192108154296875,
      "learning_rate": 1e-06,
      "loss": 0.0057,
      "num_tokens": 66030986.0,
      "reward": 1.1678571701049805,
      "reward_std": 0.12463776767253876,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.17008928954601288,
      "rewards/curriculum_aware_reward_fn/std": 0.3068173825740814,
      "step": 124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2301.0,
      "completions/max_terminated_length": 2301.0,
      "completions/mean_length": 685.2455444335938,
      "completions/mean_terminated_length": 685.2455444335938,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.5157297576070139,
      "grad_norm": 0.13699984550476074,
      "kl": 0.0224761962890625,
      "learning_rate": 1e-06,
      "loss": 0.0124,
      "num_tokens": 66600462.0,
      "reward": 1.1631696224212646,
      "reward_std": 0.164546936750412,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.17656250298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.30818045139312744,
      "step": 125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2236.0,
      "completions/max_terminated_length": 2236.0,
      "completions/mean_length": 631.8861694335938,
      "completions/mean_terminated_length": 631.8861694335938,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.51985559566787,
      "grad_norm": 0.13626828789710999,
      "kl": 0.021026611328125,
      "learning_rate": 1e-06,
      "loss": 0.0092,
      "num_tokens": 67142960.0,
      "reward": 1.1934152841567993,
      "reward_std": 0.139185830950737,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.19564732909202576,
      "rewards/curriculum_aware_reward_fn/std": 0.32974809408187866,
      "step": 126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1879.0,
      "completions/max_terminated_length": 1879.0,
      "completions/mean_length": 669.2053833007812,
      "completions/mean_terminated_length": 669.2053833007812,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.5239814337287262,
      "grad_norm": 0.1478445678949356,
      "kl": 0.019927978515625,
      "learning_rate": 1e-06,
      "loss": 0.0028,
      "num_tokens": 67716170.0,
      "reward": 1.225334882736206,
      "reward_std": 0.187877357006073,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.22756695747375488,
      "rewards/curriculum_aware_reward_fn/std": 0.3380330204963684,
      "step": 127
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2743.0,
      "completions/max_terminated_length": 2743.0,
      "completions/mean_length": 682.1942138671875,
      "completions/mean_terminated_length": 682.1942138671875,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.5281072717895823,
      "grad_norm": 0.12930497527122498,
      "kl": 0.0203094482421875,
      "learning_rate": 1e-06,
      "loss": 0.0058,
      "num_tokens": 68288444.0,
      "reward": 1.1726562976837158,
      "reward_std": 0.14786198735237122,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507844179868698,
      "rewards/curriculum_aware_reward_fn/mean": 0.18604911863803864,
      "rewards/curriculum_aware_reward_fn/std": 0.31647637486457825,
      "step": 128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1721.0,
      "completions/max_terminated_length": 1721.0,
      "completions/mean_length": 703.4642944335938,
      "completions/mean_terminated_length": 703.4642944335938,
      "completions/min_length": 361.0,
      "completions/min_terminated_length": 361.0,
      "epoch": 0.5322331098504384,
      "grad_norm": 0.1500132977962494,
      "kl": 0.020538330078125,
      "learning_rate": 1e-06,
      "loss": -0.0023,
      "num_tokens": 68901565.0,
      "reward": 1.2012277841567993,
      "reward_std": 0.2054479569196701,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.20345982909202576,
      "rewards/curriculum_aware_reward_fn/std": 0.3204866945743561,
      "step": 129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1989.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 679.2299194335938,
      "completions/mean_terminated_length": 679.2299194335938,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.5363589479112945,
      "grad_norm": 0.15506230294704437,
      "kl": 0.02056884765625,
      "learning_rate": 1e-06,
      "loss": 0.028,
      "num_tokens": 69472504.0,
      "reward": 1.2210938930511475,
      "reward_std": 0.2002020925283432,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.23225447535514832,
      "rewards/curriculum_aware_reward_fn/std": 0.3653670847415924,
      "step": 130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1793.0,
      "completions/mean_length": 693.5178833007812,
      "completions/mean_terminated_length": 685.9060668945312,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.5404847859721505,
      "grad_norm": 0.14253978431224823,
      "kl": 0.0223388671875,
      "learning_rate": 1e-06,
      "loss": 0.0173,
      "num_tokens": 70061205.0,
      "reward": 1.183370590209961,
      "reward_std": 0.18808096647262573,
      "rewards/code_format_reward/mean": 0.9821428656578064,
      "rewards/code_format_reward/std": 0.13258016109466553,
      "rewards/curriculum_aware_reward_fn/mean": 0.20122769474983215,
      "rewards/curriculum_aware_reward_fn/std": 0.32476744055747986,
      "step": 131
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1658.0,
      "completions/mean_length": 711.3795166015625,
      "completions/mean_terminated_length": 703.8076171875,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.5446106240330068,
      "grad_norm": 0.11306580901145935,
      "kl": 0.01953125,
      "learning_rate": 1e-06,
      "loss": 0.0036,
      "num_tokens": 70662430.0,
      "reward": 1.141852855682373,
      "reward_std": 0.11286230385303497,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.14408482611179352,
      "rewards/curriculum_aware_reward_fn/std": 0.2872644364833832,
      "step": 132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1500.0,
      "completions/max_terminated_length": 1500.0,
      "completions/mean_length": 677.6116333007812,
      "completions/mean_terminated_length": 677.6116333007812,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.5487364620938628,
      "grad_norm": 0.137791708111763,
      "kl": 0.0191192626953125,
      "learning_rate": 1e-06,
      "loss": 0.0102,
      "num_tokens": 71244467.0,
      "reward": 1.1542412042617798,
      "reward_std": 0.15288133919239044,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.16093751788139343,
      "rewards/curriculum_aware_reward_fn/std": 0.3050521910190582,
      "step": 133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2347.0,
      "completions/max_terminated_length": 2347.0,
      "completions/mean_length": 720.3817138671875,
      "completions/mean_terminated_length": 720.3817138671875,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.5528623001547189,
      "grad_norm": 0.1263774335384369,
      "kl": 0.0180511474609375,
      "learning_rate": 1e-06,
      "loss": 0.0104,
      "num_tokens": 71837706.0,
      "reward": 1.1943081617355347,
      "reward_std": 0.16193082928657532,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.19654019176959991,
      "rewards/curriculum_aware_reward_fn/std": 0.31083038449287415,
      "step": 134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3160.0,
      "completions/max_terminated_length": 3160.0,
      "completions/mean_length": 717.8170166015625,
      "completions/mean_terminated_length": 717.8170166015625,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.556988138215575,
      "grad_norm": 0.13417816162109375,
      "kl": 0.01806640625,
      "learning_rate": 1e-06,
      "loss": -0.0025,
      "num_tokens": 72442956.0,
      "reward": 1.2074778079986572,
      "reward_std": 0.1575753092765808,
      "rewards/code_format_reward/mean": 1.0,
      "rewards/code_format_reward/std": 0.0,
      "rewards/curriculum_aware_reward_fn/mean": 0.20747768878936768,
      "rewards/curriculum_aware_reward_fn/std": 0.3245628774166107,
      "step": 135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1862.0,
      "completions/max_terminated_length": 1862.0,
      "completions/mean_length": 689.685302734375,
      "completions/mean_terminated_length": 689.685302734375,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.5611139762764311,
      "grad_norm": 0.14430135488510132,
      "kl": 0.0204010009765625,
      "learning_rate": 1e-06,
      "loss": 0.0019,
      "num_tokens": 73013770.0,
      "reward": 1.203125,
      "reward_std": 0.1807006150484085,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.2098214477300644,
      "rewards/curriculum_aware_reward_fn/std": 0.3212871849536896,
      "step": 136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1962.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 722.122802734375,
      "completions/mean_terminated_length": 722.122802734375,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.5652398143372873,
      "grad_norm": 0.11680962890386581,
      "kl": 0.0230712890625,
      "learning_rate": 1e-06,
      "loss": -0.0045,
      "num_tokens": 73602791.0,
      "reward": 1.1407365798950195,
      "reward_std": 0.15920059382915497,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.14966519176959991,
      "rewards/curriculum_aware_reward_fn/std": 0.3030141294002533,
      "step": 137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2287.0,
      "completions/mean_length": 739.935302734375,
      "completions/mean_terminated_length": 732.4273071289062,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.5693656523981434,
      "grad_norm": 0.13728173077106476,
      "kl": 0.019561767578125,
      "learning_rate": 1e-06,
      "loss": -0.0027,
      "num_tokens": 74210215.0,
      "reward": 1.2183036804199219,
      "reward_std": 0.17961503565311432,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.22276785969734192,
      "rewards/curriculum_aware_reward_fn/std": 0.3419995605945587,
      "step": 138
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 3354.0,
      "completions/mean_length": 724.7991333007812,
      "completions/mean_terminated_length": 717.2572631835938,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.5734914904589995,
      "grad_norm": 0.1271560788154602,
      "kl": 0.0178070068359375,
      "learning_rate": 1e-06,
      "loss": 0.0136,
      "num_tokens": 74785686.0,
      "reward": 1.191183090209961,
      "reward_std": 0.18125225603580475,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.20234374701976776,
      "rewards/curriculum_aware_reward_fn/std": 0.33361297845840454,
      "step": 139
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1970.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 745.3928833007812,
      "completions/mean_terminated_length": 745.3928833007812,
      "completions/min_length": 325.0,
      "completions/min_terminated_length": 325.0,
      "epoch": 0.5776173285198556,
      "grad_norm": 0.10332006961107254,
      "kl": 0.0187835693359375,
      "learning_rate": 1e-06,
      "loss": 0.0014,
      "num_tokens": 75394974.0,
      "reward": 1.145759105682373,
      "reward_std": 0.12595143914222717,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.15022322535514832,
      "rewards/curriculum_aware_reward_fn/std": 0.31267043948173523,
      "step": 140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2256.0,
      "completions/max_terminated_length": 2256.0,
      "completions/mean_length": 738.8326416015625,
      "completions/mean_terminated_length": 738.8326416015625,
      "completions/min_length": 313.0,
      "completions/min_terminated_length": 313.0,
      "epoch": 0.5817431665807117,
      "grad_norm": 0.13378408551216125,
      "kl": 0.0215606689453125,
      "learning_rate": 1e-06,
      "loss": -0.001,
      "num_tokens": 75996689.0,
      "reward": 1.248549222946167,
      "reward_std": 0.18088890612125397,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.25078126788139343,
      "rewards/curriculum_aware_reward_fn/std": 0.35256245732307434,
      "step": 141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1841.0,
      "completions/mean_length": 810.1808471679688,
      "completions/mean_terminated_length": 802.8299560546875,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.5858690046415678,
      "grad_norm": 0.1341581493616104,
      "kl": 0.018035888671875,
      "learning_rate": 1e-06,
      "loss": 0.0081,
      "num_tokens": 76649408.0,
      "reward": 1.208147406578064,
      "reward_std": 0.19399170577526093,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.2148437649011612,
      "rewards/curriculum_aware_reward_fn/std": 0.3443984091281891,
      "step": 142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1818.0,
      "completions/max_terminated_length": 1818.0,
      "completions/mean_length": 781.5803833007812,
      "completions/mean_terminated_length": 781.5803833007812,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "epoch": 0.589994842702424,
      "grad_norm": 0.132659450173378,
      "kl": 0.01953125,
      "learning_rate": 1e-06,
      "loss": -0.0034,
      "num_tokens": 77281019.0,
      "reward": 1.1776787042617798,
      "reward_std": 0.17381568253040314,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.18437501788139343,
      "rewards/curriculum_aware_reward_fn/std": 0.30239763855934143,
      "step": 143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3096.0,
      "completions/max_terminated_length": 3096.0,
      "completions/mean_length": 785.8348388671875,
      "completions/mean_terminated_length": 785.8348388671875,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.5941206807632801,
      "grad_norm": 0.11722385883331299,
      "kl": 0.0221405029296875,
      "learning_rate": 1e-06,
      "loss": -0.0007,
      "num_tokens": 77892136.0,
      "reward": 1.1713169813156128,
      "reward_std": 0.18527261912822723,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.1824776977300644,
      "rewards/curriculum_aware_reward_fn/std": 0.3004841208457947,
      "step": 144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2478.0,
      "completions/max_terminated_length": 2478.0,
      "completions/mean_length": 837.3795166015625,
      "completions/mean_terminated_length": 837.3795166015625,
      "completions/min_length": 350.0,
      "completions/min_terminated_length": 350.0,
      "epoch": 0.5982465188241362,
      "grad_norm": 0.12240413576364517,
      "kl": 0.01800537109375,
      "learning_rate": 1e-06,
      "loss": 0.0177,
      "num_tokens": 78536621.0,
      "reward": 1.1825892925262451,
      "reward_std": 0.17582431435585022,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.18928572535514832,
      "rewards/curriculum_aware_reward_fn/std": 0.3062494993209839,
      "step": 145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2151.0,
      "completions/max_terminated_length": 2151.0,
      "completions/mean_length": 795.5022583007812,
      "completions/mean_terminated_length": 795.5022583007812,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.6023723568849922,
      "grad_norm": 0.136099711060524,
      "kl": 0.0181121826171875,
      "learning_rate": 1e-06,
      "loss": 0.0086,
      "num_tokens": 79148688.0,
      "reward": 1.2521207332611084,
      "reward_std": 0.2308141589164734,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.2655133903026581,
      "rewards/curriculum_aware_reward_fn/std": 0.38686394691467285,
      "step": 146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2230.0,
      "completions/mean_length": 918.5826416015625,
      "completions/mean_terminated_length": 911.4743041992188,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "epoch": 0.6064981949458483,
      "grad_norm": 0.12820293009281158,
      "kl": 0.019775390625,
      "learning_rate": 1e-06,
      "loss": 0.0175,
      "num_tokens": 79826017.0,
      "reward": 1.2609375715255737,
      "reward_std": 0.26225149631500244,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.27433037757873535,
      "rewards/curriculum_aware_reward_fn/std": 0.3973761796951294,
      "step": 147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3542.0,
      "completions/max_terminated_length": 3542.0,
      "completions/mean_length": 868.1897583007812,
      "completions/mean_terminated_length": 868.1897583007812,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.6106240330067045,
      "grad_norm": 0.1212223693728447,
      "kl": 0.017730712890625,
      "learning_rate": 1e-06,
      "loss": 0.0039,
      "num_tokens": 80486566.0,
      "reward": 1.1830357313156128,
      "reward_std": 0.166142538189888,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.1875,
      "rewards/curriculum_aware_reward_fn/std": 0.3334619402885437,
      "step": 148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3657.0,
      "completions/max_terminated_length": 3657.0,
      "completions/mean_length": 866.654052734375,
      "completions/mean_terminated_length": 866.654052734375,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "epoch": 0.6147498710675606,
      "grad_norm": 0.11715445667505264,
      "kl": 0.021759033203125,
      "learning_rate": 1e-06,
      "loss": 0.007,
      "num_tokens": 81163262.0,
      "reward": 1.2314733266830444,
      "reward_std": 0.16743095219135284,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.24263392388820648,
      "rewards/curriculum_aware_reward_fn/std": 0.3736143410205841,
      "step": 149
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2317.0,
      "completions/max_terminated_length": 2317.0,
      "completions/mean_length": 940.49560546875,
      "completions/mean_terminated_length": 940.49560546875,
      "completions/min_length": 333.0,
      "completions/min_terminated_length": 333.0,
      "epoch": 0.6188757091284167,
      "grad_norm": 0.11408567428588867,
      "kl": 0.018310546875,
      "learning_rate": 1e-06,
      "loss": 0.0101,
      "num_tokens": 81870295.0,
      "reward": 1.1629464626312256,
      "reward_std": 0.19442030787467957,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.1741071492433548,
      "rewards/curriculum_aware_reward_fn/std": 0.31434616446495056,
      "step": 150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1966.0,
      "completions/mean_length": 859.3058471679688,
      "completions/mean_terminated_length": 852.0648803710938,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.6230015471892728,
      "grad_norm": 0.11013923585414886,
      "kl": 0.019134521484375,
      "learning_rate": 1e-06,
      "loss": 0.0234,
      "num_tokens": 82518352.0,
      "reward": 1.1734375953674316,
      "reward_std": 0.15971694886684418,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.18013392388820648,
      "rewards/curriculum_aware_reward_fn/std": 0.3331034481525421,
      "step": 151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2645.0,
      "completions/mean_length": 884.8750610351562,
      "completions/mean_terminated_length": 877.6912841796875,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.6271273852501289,
      "grad_norm": 0.11793754994869232,
      "kl": 0.01857757568359375,
      "learning_rate": 1e-06,
      "loss": 0.014,
      "num_tokens": 83171718.0,
      "reward": 1.2364956140518188,
      "reward_std": 0.2031078040599823,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.24765624105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.381111741065979,
      "step": 152
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2032.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 906.779052734375,
      "completions/mean_terminated_length": 906.779052734375,
      "completions/min_length": 356.0,
      "completions/min_terminated_length": 356.0,
      "epoch": 0.631253223310985,
      "grad_norm": 0.12254896014928818,
      "kl": 0.02001953125,
      "learning_rate": 1e-06,
      "loss": 0.0226,
      "num_tokens": 83852292.0,
      "reward": 1.2754465341567993,
      "reward_std": 0.22218114137649536,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.28660711646080017,
      "rewards/curriculum_aware_reward_fn/std": 0.39385560154914856,
      "step": 153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2647.0,
      "completions/max_terminated_length": 2647.0,
      "completions/mean_length": 948.1004638671875,
      "completions/mean_terminated_length": 948.1004638671875,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "epoch": 0.6353790613718412,
      "grad_norm": 0.11475897580385208,
      "kl": 0.017730712890625,
      "learning_rate": 1e-06,
      "loss": -0.0026,
      "num_tokens": 84546982.0,
      "reward": 1.190178632736206,
      "reward_std": 0.17127592861652374,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.19464285671710968,
      "rewards/curriculum_aware_reward_fn/std": 0.33930492401123047,
      "step": 154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2183.0,
      "completions/max_terminated_length": 2183.0,
      "completions/mean_length": 968.810302734375,
      "completions/mean_terminated_length": 968.810302734375,
      "completions/min_length": 329.0,
      "completions/min_terminated_length": 329.0,
      "epoch": 0.6395048994326973,
      "grad_norm": 0.09638718515634537,
      "kl": 0.017425537109375,
      "learning_rate": 1e-06,
      "loss": 0.0117,
      "num_tokens": 85263592.0,
      "reward": 1.1160714626312256,
      "reward_std": 0.12120134383440018,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.1272321492433548,
      "rewards/curriculum_aware_reward_fn/std": 0.2862734794616699,
      "step": 155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2999.0,
      "completions/max_terminated_length": 2999.0,
      "completions/mean_length": 908.7388916015625,
      "completions/mean_terminated_length": 908.7388916015625,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.6436307374935534,
      "grad_norm": 0.1060652881860733,
      "kl": 0.019561767578125,
      "learning_rate": 1e-06,
      "loss": 0.006,
      "num_tokens": 85946143.0,
      "reward": 1.1916296482086182,
      "reward_std": 0.17853893339633942,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.20502232015132904,
      "rewards/curriculum_aware_reward_fn/std": 0.36013975739479065,
      "step": 156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1950.0,
      "completions/mean_length": 937.450927734375,
      "completions/mean_terminated_length": 930.384765625,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.6477565755544095,
      "grad_norm": 0.10560503602027893,
      "kl": 0.017791748046875,
      "learning_rate": 1e-06,
      "loss": 0.0086,
      "num_tokens": 86643734.0,
      "reward": 1.1947544813156128,
      "reward_std": 0.16470228135585785,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.2103794664144516,
      "rewards/curriculum_aware_reward_fn/std": 0.4054417908191681,
      "step": 157
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2555.0,
      "completions/max_terminated_length": 2555.0,
      "completions/mean_length": 951.1160888671875,
      "completions/mean_terminated_length": 951.1160888671875,
      "completions/min_length": 372.0,
      "completions/min_terminated_length": 372.0,
      "epoch": 0.6518824136152656,
      "grad_norm": 0.10858561098575592,
      "kl": 0.018768310546875,
      "learning_rate": 1e-06,
      "loss": -0.002,
      "num_tokens": 87314057.0,
      "reward": 1.1876118183135986,
      "reward_std": 0.16939528286457062,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.20100447535514832,
      "rewards/curriculum_aware_reward_fn/std": 0.3483969271183014,
      "step": 158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 3312.0,
      "completions/mean_length": 960.6428833007812,
      "completions/mean_terminated_length": 953.628662109375,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.6560082516761218,
      "grad_norm": 0.10794656723737717,
      "kl": 0.0206146240234375,
      "learning_rate": 1e-06,
      "loss": 0.0063,
      "num_tokens": 88024838.0,
      "reward": 1.1988840103149414,
      "reward_std": 0.1717086285352707,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507844179868698,
      "rewards/curriculum_aware_reward_fn/mean": 0.21227678656578064,
      "rewards/curriculum_aware_reward_fn/std": 0.3667148947715759,
      "step": 159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3339.0,
      "completions/max_terminated_length": 3339.0,
      "completions/mean_length": 998.7701416015625,
      "completions/mean_terminated_length": 998.7701416015625,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "epoch": 0.6601340897369778,
      "grad_norm": 0.10519266873598099,
      "kl": 0.01983642578125,
      "learning_rate": 1e-06,
      "loss": 0.0052,
      "num_tokens": 88772153.0,
      "reward": 1.1863839626312256,
      "reward_std": 0.1970013678073883,
      "rewards/code_format_reward/mean": 0.9799107313156128,
      "rewards/code_format_reward/std": 0.14046260714530945,
      "rewards/curriculum_aware_reward_fn/mean": 0.2064732164144516,
      "rewards/curriculum_aware_reward_fn/std": 0.35936254262924194,
      "step": 160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2166.0,
      "completions/max_terminated_length": 2166.0,
      "completions/mean_length": 947.63623046875,
      "completions/mean_terminated_length": 947.63623046875,
      "completions/min_length": 451.0,
      "completions/min_terminated_length": 451.0,
      "epoch": 0.6642599277978339,
      "grad_norm": 0.10040335357189178,
      "kl": 0.0175018310546875,
      "learning_rate": 1e-06,
      "loss": -0.0027,
      "num_tokens": 89469330.0,
      "reward": 1.1856027841567993,
      "reward_std": 0.16616688668727875,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.20122767984867096,
      "rewards/curriculum_aware_reward_fn/std": 0.3571789562702179,
      "step": 161
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2180.0,
      "completions/max_terminated_length": 2180.0,
      "completions/mean_length": 924.0223388671875,
      "completions/mean_terminated_length": 924.0223388671875,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.66838576585869,
      "grad_norm": 0.11762242764234543,
      "kl": 0.0186004638671875,
      "learning_rate": 1e-06,
      "loss": 0.0044,
      "num_tokens": 90152183.0,
      "reward": 1.240625023841858,
      "reward_std": 0.20828305184841156,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.2540178596973419,
      "rewards/curriculum_aware_reward_fn/std": 0.3628675639629364,
      "step": 162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2780.0,
      "completions/max_terminated_length": 2780.0,
      "completions/mean_length": 946.8058471679688,
      "completions/mean_terminated_length": 946.8058471679688,
      "completions/min_length": 422.0,
      "completions/min_terminated_length": 422.0,
      "epoch": 0.6725116039195461,
      "grad_norm": 0.10841399431228638,
      "kl": 0.01715087890625,
      "learning_rate": 1e-06,
      "loss": 0.0096,
      "num_tokens": 90843192.0,
      "reward": 1.2158483266830444,
      "reward_std": 0.2003968209028244,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.23147322237491608,
      "rewards/curriculum_aware_reward_fn/std": 0.37479665875434875,
      "step": 163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 3465.0,
      "completions/mean_length": 917.43310546875,
      "completions/mean_terminated_length": 910.3221435546875,
      "completions/min_length": 393.0,
      "completions/min_terminated_length": 393.0,
      "epoch": 0.6766374419804023,
      "grad_norm": 0.10595975816249847,
      "kl": 0.0200653076171875,
      "learning_rate": 1e-06,
      "loss": 0.0179,
      "num_tokens": 91524801.0,
      "reward": 1.1857142448425293,
      "reward_std": 0.19158855080604553,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.20133927464485168,
      "rewards/curriculum_aware_reward_fn/std": 0.34559935331344604,
      "step": 164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3099.0,
      "completions/max_terminated_length": 3099.0,
      "completions/mean_length": 949.7567138671875,
      "completions/mean_terminated_length": 949.7567138671875,
      "completions/min_length": 398.0,
      "completions/min_terminated_length": 398.0,
      "epoch": 0.6807632800412584,
      "grad_norm": 0.12277974933385849,
      "kl": 0.0175018310546875,
      "learning_rate": 1e-06,
      "loss": -0.0024,
      "num_tokens": 92230005.0,
      "reward": 1.2635046243667603,
      "reward_std": 0.2197643518447876,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.2768973410129547,
      "rewards/curriculum_aware_reward_fn/std": 0.3969356417655945,
      "step": 165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1808.0,
      "completions/max_terminated_length": 1808.0,
      "completions/mean_length": 939.0000610351562,
      "completions/mean_terminated_length": 939.0000610351562,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.6848891181021145,
      "grad_norm": 0.10809571295976639,
      "kl": 0.02056884765625,
      "learning_rate": 1e-06,
      "loss": 0.0025,
      "num_tokens": 92935892.0,
      "reward": 1.1876118183135986,
      "reward_std": 0.18095649778842926,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.20323660969734192,
      "rewards/curriculum_aware_reward_fn/std": 0.35159531235694885,
      "step": 166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2375.0,
      "completions/max_terminated_length": 2375.0,
      "completions/mean_length": 891.779052734375,
      "completions/mean_terminated_length": 891.779052734375,
      "completions/min_length": 385.0,
      "completions/min_terminated_length": 385.0,
      "epoch": 0.6890149561629706,
      "grad_norm": 0.1229667067527771,
      "kl": 0.019012451171875,
      "learning_rate": 1e-06,
      "loss": 0.0041,
      "num_tokens": 93601787.0,
      "reward": 1.2900670766830444,
      "reward_std": 0.2178320288658142,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.2967633903026581,
      "rewards/curriculum_aware_reward_fn/std": 0.39798933267593384,
      "step": 167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2851.0,
      "completions/max_terminated_length": 2851.0,
      "completions/mean_length": 1009.2813110351562,
      "completions/mean_terminated_length": 1009.2813110351562,
      "completions/min_length": 401.0,
      "completions/min_terminated_length": 401.0,
      "epoch": 0.6931407942238267,
      "grad_norm": 0.0931694358587265,
      "kl": 0.0195159912109375,
      "learning_rate": 1e-06,
      "loss": 0.0008,
      "num_tokens": 94344613.0,
      "reward": 1.1193081140518188,
      "reward_std": 0.11687362939119339,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.12154017388820648,
      "rewards/curriculum_aware_reward_fn/std": 0.27965956926345825,
      "step": 168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2592.0,
      "completions/max_terminated_length": 2592.0,
      "completions/mean_length": 962.22998046875,
      "completions/mean_terminated_length": 962.22998046875,
      "completions/min_length": 383.0,
      "completions/min_terminated_length": 383.0,
      "epoch": 0.6972666322846828,
      "grad_norm": 0.09708420932292938,
      "kl": 0.019500732421875,
      "learning_rate": 1e-06,
      "loss": 0.0101,
      "num_tokens": 95061145.0,
      "reward": 1.1991071701049805,
      "reward_std": 0.14699062705039978,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.21026785671710968,
      "rewards/curriculum_aware_reward_fn/std": 0.3594140410423279,
      "step": 169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2848.0,
      "completions/max_terminated_length": 2848.0,
      "completions/mean_length": 944.4710083007812,
      "completions/mean_terminated_length": 944.4710083007812,
      "completions/min_length": 386.0,
      "completions/min_terminated_length": 386.0,
      "epoch": 0.701392470345539,
      "grad_norm": 0.10557137429714203,
      "kl": 0.0189971923828125,
      "learning_rate": 1e-06,
      "loss": 0.0099,
      "num_tokens": 95776462.0,
      "reward": 1.1698662042617798,
      "reward_std": 0.11741764843463898,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.17433033883571625,
      "rewards/curriculum_aware_reward_fn/std": 0.31493332982063293,
      "step": 170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2458.0,
      "completions/max_terminated_length": 2458.0,
      "completions/mean_length": 955.6160888671875,
      "completions/mean_terminated_length": 955.6160888671875,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.7055183084063951,
      "grad_norm": 0.10741835832595825,
      "kl": 0.01788330078125,
      "learning_rate": 1e-06,
      "loss": 0.0052,
      "num_tokens": 96478397.0,
      "reward": 1.2027901411056519,
      "reward_std": 0.1658809781074524,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.20948661863803864,
      "rewards/curriculum_aware_reward_fn/std": 0.3418176770210266,
      "step": 171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2378.0,
      "completions/max_terminated_length": 2378.0,
      "completions/mean_length": 937.122802734375,
      "completions/mean_terminated_length": 937.122802734375,
      "completions/min_length": 363.0,
      "completions/min_terminated_length": 363.0,
      "epoch": 0.7096441464672512,
      "grad_norm": 0.10694112628698349,
      "kl": 0.0186920166015625,
      "learning_rate": 1e-06,
      "loss": -0.0023,
      "num_tokens": 97158670.0,
      "reward": 1.2568081617355347,
      "reward_std": 0.19249658286571503,
      "rewards/code_format_reward/mean": 0.9821428656578064,
      "rewards/code_format_reward/std": 0.13258016109466553,
      "rewards/curriculum_aware_reward_fn/mean": 0.2746651768684387,
      "rewards/curriculum_aware_reward_fn/std": 0.4220302104949951,
      "step": 172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2915.0,
      "completions/max_terminated_length": 2915.0,
      "completions/mean_length": 929.96435546875,
      "completions/mean_terminated_length": 929.96435546875,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "epoch": 0.7137699845281072,
      "grad_norm": 0.0922522023320198,
      "kl": 0.01833343505859375,
      "learning_rate": 1e-06,
      "loss": -0.0006,
      "num_tokens": 97832215.0,
      "reward": 1.1475446224212646,
      "reward_std": 0.12352091073989868,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.15647320449352264,
      "rewards/curriculum_aware_reward_fn/std": 0.3055644631385803,
      "step": 173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2144.0,
      "completions/mean_length": 901.3594360351562,
      "completions/mean_terminated_length": 894.2125244140625,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.7178958225889633,
      "grad_norm": 0.1305251121520996,
      "kl": 0.0187530517578125,
      "learning_rate": 1e-06,
      "loss": 0.0112,
      "num_tokens": 98502591.0,
      "reward": 1.3667412996292114,
      "reward_std": 0.2752566933631897,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.3689732551574707,
      "rewards/curriculum_aware_reward_fn/std": 0.4514053165912628,
      "step": 174
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2110.0,
      "completions/mean_length": 945.26123046875,
      "completions/mean_terminated_length": 938.2125244140625,
      "completions/min_length": 372.0,
      "completions/min_terminated_length": 372.0,
      "epoch": 0.7220216606498195,
      "grad_norm": 0.11726341396570206,
      "kl": 0.0206451416015625,
      "learning_rate": 1e-06,
      "loss": 0.0059,
      "num_tokens": 99224632.0,
      "reward": 1.1602680683135986,
      "reward_std": 0.18646904826164246,
      "rewards/code_format_reward/mean": 0.9754464030265808,
      "rewards/code_format_reward/std": 0.1549331247806549,
      "rewards/curriculum_aware_reward_fn/mean": 0.18482144176959991,
      "rewards/curriculum_aware_reward_fn/std": 0.3438718318939209,
      "step": 175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 922.1920166015625,
      "completions/mean_terminated_length": 915.0917358398438,
      "completions/min_length": 404.0,
      "completions/min_terminated_length": 404.0,
      "epoch": 0.7261474987106756,
      "grad_norm": 0.11513147503137589,
      "kl": 0.0187530517578125,
      "learning_rate": 1e-06,
      "loss": 0.0205,
      "num_tokens": 99906651.0,
      "reward": 1.2103794813156128,
      "reward_std": 0.19868923723697662,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.2215401828289032,
      "rewards/curriculum_aware_reward_fn/std": 0.35825085639953613,
      "step": 176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1882.0,
      "completions/max_terminated_length": 1882.0,
      "completions/mean_length": 927.2656860351562,
      "completions/mean_terminated_length": 927.2656860351562,
      "completions/min_length": 379.0,
      "completions/min_terminated_length": 379.0,
      "epoch": 0.7302733367715317,
      "grad_norm": 0.08173976838588715,
      "kl": 0.020538330078125,
      "learning_rate": 1e-06,
      "loss": -0.0051,
      "num_tokens": 100590446.0,
      "reward": 1.1069196462631226,
      "reward_std": 0.10365121811628342,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507844179868698,
      "rewards/curriculum_aware_reward_fn/mean": 0.12031250447034836,
      "rewards/curriculum_aware_reward_fn/std": 0.2992539405822754,
      "step": 177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1838.0,
      "completions/max_terminated_length": 1838.0,
      "completions/mean_length": 869.2455444335938,
      "completions/mean_terminated_length": 869.2455444335938,
      "completions/min_length": 380.0,
      "completions/min_terminated_length": 380.0,
      "epoch": 0.7343991748323878,
      "grad_norm": 0.11539430916309357,
      "kl": 0.0206451416015625,
      "learning_rate": 1e-06,
      "loss": -0.0019,
      "num_tokens": 101260260.0,
      "reward": 1.226339340209961,
      "reward_std": 0.15384316444396973,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.23526787757873535,
      "rewards/curriculum_aware_reward_fn/std": 0.37475648522377014,
      "step": 178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2421.0,
      "completions/max_terminated_length": 2421.0,
      "completions/mean_length": 875.7455444335938,
      "completions/mean_terminated_length": 875.7455444335938,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "epoch": 0.7385250128932439,
      "grad_norm": 0.1082959920167923,
      "kl": 0.0197296142578125,
      "learning_rate": 1e-06,
      "loss": 0.0096,
      "num_tokens": 101901675.0,
      "reward": 1.2039064168930054,
      "reward_std": 0.16270264983177185,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.20837053656578064,
      "rewards/curriculum_aware_reward_fn/std": 0.3540153205394745,
      "step": 179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2130.0,
      "completions/max_terminated_length": 2130.0,
      "completions/mean_length": 987.4777221679688,
      "completions/mean_terminated_length": 987.4777221679688,
      "completions/min_length": 374.0,
      "completions/min_terminated_length": 374.0,
      "epoch": 0.7426508509541001,
      "grad_norm": 0.11390314996242523,
      "kl": 0.01729583740234375,
      "learning_rate": 1e-06,
      "loss": 0.0114,
      "num_tokens": 102603751.0,
      "reward": 1.1837053298950195,
      "reward_std": 0.18950296938419342,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.19486607611179352,
      "rewards/curriculum_aware_reward_fn/std": 0.31729841232299805,
      "step": 180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2083.0,
      "completions/max_terminated_length": 2083.0,
      "completions/mean_length": 966.7701416015625,
      "completions/mean_terminated_length": 966.7701416015625,
      "completions/min_length": 393.0,
      "completions/min_terminated_length": 393.0,
      "epoch": 0.7467766890149562,
      "grad_norm": 0.12506896257400513,
      "kl": 0.0182952880859375,
      "learning_rate": 1e-06,
      "loss": 0.0052,
      "num_tokens": 103318418.0,
      "reward": 1.2953126430511475,
      "reward_std": 0.21441936492919922,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.30200889706611633,
      "rewards/curriculum_aware_reward_fn/std": 0.38095954060554504,
      "step": 181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1847.0,
      "completions/max_terminated_length": 1847.0,
      "completions/mean_length": 940.888427734375,
      "completions/mean_terminated_length": 940.888427734375,
      "completions/min_length": 353.0,
      "completions/min_terminated_length": 353.0,
      "epoch": 0.7509025270758123,
      "grad_norm": 0.11832232028245926,
      "kl": 0.021331787109375,
      "learning_rate": 1e-06,
      "loss": -0.0078,
      "num_tokens": 103995100.0,
      "reward": 1.2311385869979858,
      "reward_std": 0.21622446179389954,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.23560269176959991,
      "rewards/curriculum_aware_reward_fn/std": 0.3684559762477875,
      "step": 182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1836.0,
      "completions/max_terminated_length": 1836.0,
      "completions/mean_length": 899.8928833007812,
      "completions/mean_terminated_length": 899.8928833007812,
      "completions/min_length": 331.0,
      "completions/min_terminated_length": 331.0,
      "epoch": 0.7550283651366684,
      "grad_norm": 0.10330358892679214,
      "kl": 0.0203094482421875,
      "learning_rate": 1e-06,
      "loss": 0.0078,
      "num_tokens": 104657679.0,
      "reward": 1.1783483028411865,
      "reward_std": 0.15940025448799133,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.18950892984867096,
      "rewards/curriculum_aware_reward_fn/std": 0.34344515204429626,
      "step": 183
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2433.0,
      "completions/max_terminated_length": 2433.0,
      "completions/mean_length": 949.3170166015625,
      "completions/mean_terminated_length": 949.3170166015625,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.7591542031975245,
      "grad_norm": 0.11373110860586166,
      "kl": 0.019683837890625,
      "learning_rate": 1e-06,
      "loss": 0.007,
      "num_tokens": 105367656.0,
      "reward": 1.1863839626312256,
      "reward_std": 0.13826879858970642,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.1930803507566452,
      "rewards/curriculum_aware_reward_fn/std": 0.3279607594013214,
      "step": 184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1803.0,
      "completions/max_terminated_length": 1803.0,
      "completions/mean_length": 931.4063110351562,
      "completions/mean_terminated_length": 931.4063110351562,
      "completions/min_length": 338.0,
      "completions/min_terminated_length": 338.0,
      "epoch": 0.7632800412583806,
      "grad_norm": 0.11785022914409637,
      "kl": 0.01873779296875,
      "learning_rate": 1e-06,
      "loss": 0.0224,
      "num_tokens": 106054755.0,
      "reward": 1.2684152126312256,
      "reward_std": 0.18439286947250366,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.2706473469734192,
      "rewards/curriculum_aware_reward_fn/std": 0.3833547532558441,
      "step": 185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2402.0,
      "completions/max_terminated_length": 2402.0,
      "completions/mean_length": 911.2098388671875,
      "completions/mean_terminated_length": 911.2098388671875,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.7674058793192368,
      "grad_norm": 0.11173910647630692,
      "kl": 0.0190582275390625,
      "learning_rate": 1e-06,
      "loss": 0.0121,
      "num_tokens": 106722999.0,
      "reward": 1.270535945892334,
      "reward_std": 0.16392873227596283,
      "rewards/code_format_reward/mean": 1.0,
      "rewards/code_format_reward/std": 0.0,
      "rewards/curriculum_aware_reward_fn/mean": 0.2705357074737549,
      "rewards/curriculum_aware_reward_fn/std": 0.39146676659584045,
      "step": 186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1869.0,
      "completions/max_terminated_length": 1869.0,
      "completions/mean_length": 962.2120971679688,
      "completions/mean_terminated_length": 962.2120971679688,
      "completions/min_length": 395.0,
      "completions/min_terminated_length": 395.0,
      "epoch": 0.7715317173800929,
      "grad_norm": 0.0817779004573822,
      "kl": 0.0191192626953125,
      "learning_rate": 1e-06,
      "loss": 0.0035,
      "num_tokens": 107421631.0,
      "reward": 1.1023437976837158,
      "reward_std": 0.09970241039991379,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.10457588732242584,
      "rewards/curriculum_aware_reward_fn/std": 0.2742821276187897,
      "step": 187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2072.0,
      "completions/max_terminated_length": 2072.0,
      "completions/mean_length": 942.4620971679688,
      "completions/mean_terminated_length": 942.4620971679688,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.7756575554409489,
      "grad_norm": 0.11250163614749908,
      "kl": 0.0191650390625,
      "learning_rate": 1e-06,
      "loss": 0.0026,
      "num_tokens": 108106683.0,
      "reward": 1.1853796243667603,
      "reward_std": 0.16808848083019257,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.18761160969734192,
      "rewards/curriculum_aware_reward_fn/std": 0.31132158637046814,
      "step": 188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1706.0,
      "completions/max_terminated_length": 1706.0,
      "completions/mean_length": 929.8035888671875,
      "completions/mean_terminated_length": 929.8035888671875,
      "completions/min_length": 350.0,
      "completions/min_terminated_length": 350.0,
      "epoch": 0.779783393501805,
      "grad_norm": 0.1267770379781723,
      "kl": 0.01873779296875,
      "learning_rate": 1e-06,
      "loss": 0.0106,
      "num_tokens": 108781325.0,
      "reward": 1.305580496788025,
      "reward_std": 0.2219441533088684,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.30781248211860657,
      "rewards/curriculum_aware_reward_fn/std": 0.38022324442863464,
      "step": 189
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2346.0,
      "completions/max_terminated_length": 2346.0,
      "completions/mean_length": 914.1652221679688,
      "completions/mean_terminated_length": 914.1652221679688,
      "completions/min_length": 349.0,
      "completions/min_terminated_length": 349.0,
      "epoch": 0.7839092315626611,
      "grad_norm": 0.06806844472885132,
      "kl": 0.0188446044921875,
      "learning_rate": 1e-06,
      "loss": 0.0037,
      "num_tokens": 109443606.0,
      "reward": 1.0475448369979858,
      "reward_std": 0.06870421767234802,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.05200892686843872,
      "rewards/curriculum_aware_reward_fn/std": 0.19431628286838531,
      "step": 190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3219.0,
      "completions/max_terminated_length": 3219.0,
      "completions/mean_length": 940.3527221679688,
      "completions/mean_terminated_length": 940.3527221679688,
      "completions/min_length": 398.0,
      "completions/min_terminated_length": 398.0,
      "epoch": 0.7880350696235173,
      "grad_norm": 0.11304427683353424,
      "kl": 0.0201263427734375,
      "learning_rate": 1e-06,
      "loss": 0.0053,
      "num_tokens": 110114014.0,
      "reward": 1.2850446701049805,
      "reward_std": 0.23639506101608276,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349845170975,
      "rewards/curriculum_aware_reward_fn/mean": 0.2939732074737549,
      "rewards/curriculum_aware_reward_fn/std": 0.4089702069759369,
      "step": 191
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2692.0,
      "completions/max_terminated_length": 2692.0,
      "completions/mean_length": 973.450927734375,
      "completions/mean_terminated_length": 973.450927734375,
      "completions/min_length": 462.0,
      "completions/min_terminated_length": 462.0,
      "epoch": 0.7921609076843734,
      "grad_norm": 0.10210364311933517,
      "kl": 0.01904296875,
      "learning_rate": 1e-06,
      "loss": 0.0145,
      "num_tokens": 110843133.0,
      "reward": 1.1609375476837158,
      "reward_std": 0.1711101233959198,
      "rewards/code_format_reward/mean": 0.9821428656578064,
      "rewards/code_format_reward/std": 0.13258016109466553,
      "rewards/curriculum_aware_reward_fn/mean": 0.17879463732242584,
      "rewards/curriculum_aware_reward_fn/std": 0.3403628170490265,
      "step": 192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.004464285714285698,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2787.0,
      "completions/mean_length": 937.841552734375,
      "completions/mean_terminated_length": 923.679443359375,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "epoch": 0.7962867457452295,
      "grad_norm": 0.10736164450645447,
      "kl": 0.0199127197265625,
      "learning_rate": 1e-06,
      "loss": 0.0276,
      "num_tokens": 111536671.0,
      "reward": 1.187388300895691,
      "reward_std": 0.1541023552417755,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.20078124105930328,
      "rewards/curriculum_aware_reward_fn/std": 0.3482690751552582,
      "step": 193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2607.0,
      "completions/max_terminated_length": 2607.0,
      "completions/mean_length": 946.5178833007812,
      "completions/mean_terminated_length": 946.5178833007812,
      "completions/min_length": 360.0,
      "completions/min_terminated_length": 360.0,
      "epoch": 0.8004125838060856,
      "grad_norm": 0.11084363609552383,
      "kl": 0.020050048828125,
      "learning_rate": 1e-06,
      "loss": 0.0217,
      "num_tokens": 112225101.0,
      "reward": 1.2250001430511475,
      "reward_std": 0.17319640517234802,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.24062499403953552,
      "rewards/curriculum_aware_reward_fn/std": 0.37732312083244324,
      "step": 194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2353.0,
      "completions/mean_length": 897.6719360351562,
      "completions/mean_terminated_length": 890.5167846679688,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.8045384218669417,
      "grad_norm": 0.12306180596351624,
      "kl": 0.0208587646484375,
      "learning_rate": 1e-06,
      "loss": -0.0016,
      "num_tokens": 112886041.0,
      "reward": 1.243192195892334,
      "reward_std": 0.1754111498594284,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.2543526589870453,
      "rewards/curriculum_aware_reward_fn/std": 0.3672681748867035,
      "step": 195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2551.0,
      "completions/mean_length": 934.138427734375,
      "completions/mean_terminated_length": 927.0648803710938,
      "completions/min_length": 385.0,
      "completions/min_terminated_length": 385.0,
      "epoch": 0.8086642599277978,
      "grad_norm": 0.1201872006058693,
      "kl": 0.018890380859375,
      "learning_rate": 1e-06,
      "loss": 0.0257,
      "num_tokens": 113576023.0,
      "reward": 1.1931921243667603,
      "reward_std": 0.18748697638511658,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.20435269176959991,
      "rewards/curriculum_aware_reward_fn/std": 0.3504360020160675,
      "step": 196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1868.0,
      "completions/max_terminated_length": 1868.0,
      "completions/mean_length": 932.01123046875,
      "completions/mean_terminated_length": 932.01123046875,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.812790097988654,
      "grad_norm": 0.1020113155245781,
      "kl": 0.02105712890625,
      "learning_rate": 1e-06,
      "loss": -0.001,
      "num_tokens": 114260593.0,
      "reward": 1.1170759201049805,
      "reward_std": 0.1418529897928238,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.13270089030265808,
      "rewards/curriculum_aware_reward_fn/std": 0.29727858304977417,
      "step": 197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2124.0,
      "completions/max_terminated_length": 2124.0,
      "completions/mean_length": 904.7723388671875,
      "completions/mean_terminated_length": 904.7723388671875,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.8169159360495101,
      "grad_norm": 0.11794961988925934,
      "kl": 0.020111083984375,
      "learning_rate": 1e-06,
      "loss": 0.0098,
      "num_tokens": 114919800.0,
      "reward": 1.2450894117355347,
      "reward_std": 0.20500408113002777,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.2540178596973419,
      "rewards/curriculum_aware_reward_fn/std": 0.37923675775527954,
      "step": 198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1837.0,
      "completions/max_terminated_length": 1837.0,
      "completions/mean_length": 854.372802734375,
      "completions/mean_terminated_length": 854.372802734375,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.8210417741103662,
      "grad_norm": 0.1015404462814331,
      "kl": 0.0208892822265625,
      "learning_rate": 1e-06,
      "loss": 0.0094,
      "num_tokens": 115561699.0,
      "reward": 1.1597099304199219,
      "reward_std": 0.12012747675180435,
      "rewards/code_format_reward/mean": 0.9955357313156128,
      "rewards/code_format_reward/std": 0.06674052774906158,
      "rewards/curriculum_aware_reward_fn/mean": 0.16417410969734192,
      "rewards/curriculum_aware_reward_fn/std": 0.33283236622810364,
      "step": 199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2058.0,
      "completions/mean_length": 923.69873046875,
      "completions/mean_terminated_length": 916.601806640625,
      "completions/min_length": 368.0,
      "completions/min_terminated_length": 368.0,
      "epoch": 0.8251676121712223,
      "grad_norm": 0.1096581444144249,
      "kl": 0.0187530517578125,
      "learning_rate": 1e-06,
      "loss": 0.0114,
      "num_tokens": 116257476.0,
      "reward": 1.1924107074737549,
      "reward_std": 0.17151717841625214,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.20803570747375488,
      "rewards/curriculum_aware_reward_fn/std": 0.3401739001274109,
      "step": 200
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2622.0,
      "completions/max_terminated_length": 2622.0,
      "completions/mean_length": 881.825927734375,
      "completions/mean_terminated_length": 881.825927734375,
      "completions/min_length": 364.0,
      "completions/min_terminated_length": 364.0,
      "epoch": 0.8292934502320783,
      "grad_norm": 0.07463487982749939,
      "kl": 0.0205078125,
      "learning_rate": 1e-06,
      "loss": 0.0039,
      "num_tokens": 116921236.0,
      "reward": 1.1200892925262451,
      "reward_std": 0.07546036690473557,
      "rewards/code_format_reward/mean": 0.9977678656578064,
      "rewards/code_format_reward/std": 0.047245558351278305,
      "rewards/curriculum_aware_reward_fn/mean": 0.12232142686843872,
      "rewards/curriculum_aware_reward_fn/std": 0.3022724688053131,
      "step": 201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1778.0,
      "completions/mean_length": 880.982177734375,
      "completions/mean_terminated_length": 873.7897338867188,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.8334192882929345,
      "grad_norm": 0.09505066275596619,
      "kl": 0.0218048095703125,
      "learning_rate": 1e-06,
      "loss": 0.0163,
      "num_tokens": 117575133.0,
      "reward": 1.1426340341567993,
      "reward_std": 0.1230761781334877,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.14933034777641296,
      "rewards/curriculum_aware_reward_fn/std": 0.30984875559806824,
      "step": 202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1941.0,
      "completions/mean_length": 938.7589721679688,
      "completions/mean_terminated_length": 931.6957397460938,
      "completions/min_length": 366.0,
      "completions/min_terminated_length": 366.0,
      "epoch": 0.8375451263537906,
      "grad_norm": 0.6744564771652222,
      "kl": 0.1052398681640625,
      "learning_rate": 1e-06,
      "loss": 0.0108,
      "num_tokens": 118277699.0,
      "reward": 1.0709822177886963,
      "reward_std": 0.1187218725681305,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.08437498658895493,
      "rewards/curriculum_aware_reward_fn/std": 0.23442834615707397,
      "step": 203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2879.0,
      "completions/max_terminated_length": 2879.0,
      "completions/mean_length": 904.99560546875,
      "completions/mean_terminated_length": 904.99560546875,
      "completions/min_length": 384.0,
      "completions/min_terminated_length": 384.0,
      "epoch": 0.8416709644146467,
      "grad_norm": 0.10949993878602982,
      "kl": 0.02069091796875,
      "learning_rate": 1e-06,
      "loss": 0.0108,
      "num_tokens": 118947968.0,
      "reward": 1.2011160850524902,
      "reward_std": 0.16616937518119812,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.20781250298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.34411853551864624,
      "step": 204
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2407.0,
      "completions/max_terminated_length": 2407.0,
      "completions/mean_length": 902.8214721679688,
      "completions/mean_terminated_length": 902.8214721679688,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.8457968024755028,
      "grad_norm": 0.13115480542182922,
      "kl": 0.0220184326171875,
      "learning_rate": 1e-06,
      "loss": -0.0031,
      "num_tokens": 119617214.0,
      "reward": 1.2085938453674316,
      "reward_std": 0.21638847887516022,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.21752233803272247,
      "rewards/curriculum_aware_reward_fn/std": 0.3614380657672882,
      "step": 205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2522.0,
      "completions/max_terminated_length": 2522.0,
      "completions/mean_length": 886.8125610351562,
      "completions/mean_terminated_length": 886.8125610351562,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "epoch": 0.8499226405363589,
      "grad_norm": 0.11938807368278503,
      "kl": 0.021240234375,
      "learning_rate": 1e-06,
      "loss": -0.0062,
      "num_tokens": 120275620.0,
      "reward": 1.205357313156128,
      "reward_std": 0.2014761120080948,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.2209821492433548,
      "rewards/curriculum_aware_reward_fn/std": 0.35908710956573486,
      "step": 206
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2088.0,
      "completions/max_terminated_length": 2088.0,
      "completions/mean_length": 864.7076416015625,
      "completions/mean_terminated_length": 864.7076416015625,
      "completions/min_length": 357.0,
      "completions/min_terminated_length": 357.0,
      "epoch": 0.8540484785972151,
      "grad_norm": 0.17186300456523895,
      "kl": 0.0281982421875,
      "learning_rate": 1e-06,
      "loss": -0.0065,
      "num_tokens": 120919727.0,
      "reward": 1.206808090209961,
      "reward_std": 0.34344661235809326,
      "rewards/code_format_reward/mean": 0.9017857313156128,
      "rewards/code_format_reward/std": 0.2979368567466736,
      "rewards/curriculum_aware_reward_fn/mean": 0.30502229928970337,
      "rewards/curriculum_aware_reward_fn/std": 0.39650654792785645,
      "step": 207
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2096.0,
      "completions/mean_length": 879.57373046875,
      "completions/mean_terminated_length": 872.3780517578125,
      "completions/min_length": 358.0,
      "completions/min_terminated_length": 358.0,
      "epoch": 0.8581743166580712,
      "grad_norm": 0.23083628714084625,
      "kl": 0.0210723876953125,
      "learning_rate": 1e-06,
      "loss": -0.0187,
      "num_tokens": 121574988.0,
      "reward": 1.0363839864730835,
      "reward_std": 0.43614667654037476,
      "rewards/code_format_reward/mean": 0.796875,
      "rewards/code_format_reward/std": 0.4027745723724365,
      "rewards/curriculum_aware_reward_fn/mean": 0.23950894176959991,
      "rewards/curriculum_aware_reward_fn/std": 0.36418426036834717,
      "step": 208
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2070.0,
      "completions/max_terminated_length": 2070.0,
      "completions/mean_length": 880.3348388671875,
      "completions/mean_terminated_length": 880.3348388671875,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.8623001547189273,
      "grad_norm": 0.22123456001281738,
      "kl": 0.021392822265625,
      "learning_rate": 1e-06,
      "loss": -0.0464,
      "num_tokens": 122248258.0,
      "reward": 1.0797991752624512,
      "reward_std": 0.44785869121551514,
      "rewards/code_format_reward/mean": 0.7790178656578064,
      "rewards/code_format_reward/std": 0.4153723120689392,
      "rewards/curriculum_aware_reward_fn/mean": 0.30078125,
      "rewards/curriculum_aware_reward_fn/std": 0.4084598124027252,
      "step": 209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1805.0,
      "completions/max_terminated_length": 1805.0,
      "completions/mean_length": 879.57373046875,
      "completions/mean_terminated_length": 879.57373046875,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.8664259927797834,
      "grad_norm": 0.201498344540596,
      "kl": 0.0277252197265625,
      "learning_rate": 1e-06,
      "loss": -0.0293,
      "num_tokens": 122909000.0,
      "reward": 1.0529018640518188,
      "reward_std": 0.4085477590560913,
      "rewards/code_format_reward/mean": 0.8191964030265808,
      "rewards/code_format_reward/std": 0.38528555631637573,
      "rewards/curriculum_aware_reward_fn/mean": 0.23370537161827087,
      "rewards/curriculum_aware_reward_fn/std": 0.3929497003555298,
      "step": 210
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2125.0,
      "completions/max_terminated_length": 2125.0,
      "completions/mean_length": 839.1719360351562,
      "completions/mean_terminated_length": 839.1719360351562,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.8705518308406395,
      "grad_norm": 0.16437368094921112,
      "kl": 0.024566650390625,
      "learning_rate": 1e-06,
      "loss": -0.0027,
      "num_tokens": 123539679.0,
      "reward": 1.2116072177886963,
      "reward_std": 0.31230318546295166,
      "rewards/code_format_reward/mean": 0.9196428656578064,
      "rewards/code_format_reward/std": 0.2721492052078247,
      "rewards/curriculum_aware_reward_fn/mean": 0.2919642925262451,
      "rewards/curriculum_aware_reward_fn/std": 0.4206793010234833,
      "step": 211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2157.0,
      "completions/max_terminated_length": 2157.0,
      "completions/mean_length": 826.0491333007812,
      "completions/mean_terminated_length": 826.0491333007812,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.8746776689014956,
      "grad_norm": 0.13236747682094574,
      "kl": 0.023529052734375,
      "learning_rate": 1e-06,
      "loss": 0.0044,
      "num_tokens": 124173264.0,
      "reward": 1.229241132736206,
      "reward_std": 0.2566564977169037,
      "rewards/code_format_reward/mean": 0.9665178656578064,
      "rewards/code_format_reward/std": 0.1800929754972458,
      "rewards/curriculum_aware_reward_fn/mean": 0.2627232074737549,
      "rewards/curriculum_aware_reward_fn/std": 0.3902831971645355,
      "step": 212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2208.0,
      "completions/max_terminated_length": 2208.0,
      "completions/mean_length": 889.0469360351562,
      "completions/mean_terminated_length": 889.0469360351562,
      "completions/min_length": 338.0,
      "completions/min_terminated_length": 338.0,
      "epoch": 0.8788035069623518,
      "grad_norm": 0.12648367881774902,
      "kl": 0.0223846435546875,
      "learning_rate": 1e-06,
      "loss": -0.0045,
      "num_tokens": 124843458.0,
      "reward": 1.2270090579986572,
      "reward_std": 0.23483841121196747,
      "rewards/code_format_reward/mean": 0.9776785969734192,
      "rewards/code_format_reward/std": 0.14789186418056488,
      "rewards/curriculum_aware_reward_fn/mean": 0.24933035671710968,
      "rewards/curriculum_aware_reward_fn/std": 0.3767273426055908,
      "step": 213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 891.341552734375,
      "completions/mean_terminated_length": 884.1722412109375,
      "completions/min_length": 345.0,
      "completions/min_terminated_length": 345.0,
      "epoch": 0.8829293450232079,
      "grad_norm": 0.13447290658950806,
      "kl": 0.0208892822265625,
      "learning_rate": 1e-06,
      "loss": 0.0214,
      "num_tokens": 125522884.0,
      "reward": 1.2450892925262451,
      "reward_std": 0.25819045305252075,
      "rewards/code_format_reward/mean": 0.9799107313156128,
      "rewards/code_format_reward/std": 0.14046260714530945,
      "rewards/curriculum_aware_reward_fn/mean": 0.2651785910129547,
      "rewards/curriculum_aware_reward_fn/std": 0.35792961716651917,
      "step": 214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2202.0,
      "completions/mean_length": 878.7545166015625,
      "completions/mean_terminated_length": 871.5570678710938,
      "completions/min_length": 333.0,
      "completions/min_terminated_length": 333.0,
      "epoch": 0.887055183084064,
      "grad_norm": 0.11783410608768463,
      "kl": 0.02325439453125,
      "learning_rate": 1e-06,
      "loss": 0.0183,
      "num_tokens": 126175748.0,
      "reward": 1.2014509439468384,
      "reward_std": 0.20183153450489044,
      "rewards/code_format_reward/mean": 0.9776785969734192,
      "rewards/code_format_reward/std": 0.1478918492794037,
      "rewards/curriculum_aware_reward_fn/mean": 0.2237723171710968,
      "rewards/curriculum_aware_reward_fn/std": 0.36135873198509216,
      "step": 215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1995.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 842.4754638671875,
      "completions/mean_terminated_length": 842.4754638671875,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.89118102114492,
      "grad_norm": 0.13752838969230652,
      "kl": 0.021209716796875,
      "learning_rate": 1e-06,
      "loss": 0.0034,
      "num_tokens": 126822341.0,
      "reward": 1.2912946939468384,
      "reward_std": 0.23720626533031464,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507844179868698,
      "rewards/curriculum_aware_reward_fn/mean": 0.3046875,
      "rewards/curriculum_aware_reward_fn/std": 0.4008384943008423,
      "step": 216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2195.0,
      "completions/max_terminated_length": 2195.0,
      "completions/mean_length": 820.9844360351562,
      "completions/mean_terminated_length": 820.9844360351562,
      "completions/min_length": 362.0,
      "completions/min_terminated_length": 362.0,
      "epoch": 0.8953068592057761,
      "grad_norm": 0.13490068912506104,
      "kl": 0.020477294921875,
      "learning_rate": 1e-06,
      "loss": 0.0171,
      "num_tokens": 127452264.0,
      "reward": 1.2213170528411865,
      "reward_std": 0.21540036797523499,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.23694197833538055,
      "rewards/curriculum_aware_reward_fn/std": 0.36264657974243164,
      "step": 217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1837.0,
      "completions/mean_length": 790.1495971679688,
      "completions/mean_terminated_length": 782.75390625,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.8994326972666323,
      "grad_norm": 0.12708254158496857,
      "kl": 0.023223876953125,
      "learning_rate": 1e-06,
      "loss": 0.0098,
      "num_tokens": 128063648.0,
      "reward": 1.270647406578064,
      "reward_std": 0.2100793719291687,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.2840401828289032,
      "rewards/curriculum_aware_reward_fn/std": 0.40282386541366577,
      "step": 218
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2020.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 817.5848388671875,
      "completions/mean_terminated_length": 817.5848388671875,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.9035585353274884,
      "grad_norm": 0.1269751638174057,
      "kl": 0.0226593017578125,
      "learning_rate": 1e-06,
      "loss": 0.0034,
      "num_tokens": 128700273.0,
      "reward": 1.2515625953674316,
      "reward_std": 0.1875469833612442,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.2604910731315613,
      "rewards/curriculum_aware_reward_fn/std": 0.3770267963409424,
      "step": 219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2001.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 776.8795166015625,
      "completions/mean_terminated_length": 776.8795166015625,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.9076843733883445,
      "grad_norm": 0.10961435735225677,
      "kl": 0.0236358642578125,
      "learning_rate": 1e-06,
      "loss": 0.0094,
      "num_tokens": 129302968.0,
      "reward": 1.1479911804199219,
      "reward_std": 0.11874659359455109,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.15468750894069672,
      "rewards/curriculum_aware_reward_fn/std": 0.31463250517845154,
      "step": 220
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2858.0,
      "completions/max_terminated_length": 2858.0,
      "completions/mean_length": 794.904052734375,
      "completions/mean_terminated_length": 794.904052734375,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "epoch": 0.9118102114492006,
      "grad_norm": 0.10039176791906357,
      "kl": 0.02142333984375,
      "learning_rate": 1e-06,
      "loss": 0.0071,
      "num_tokens": 129910805.0,
      "reward": 1.1400669813156128,
      "reward_std": 0.10353995114564896,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.1467633992433548,
      "rewards/curriculum_aware_reward_fn/std": 0.3104727268218994,
      "step": 221
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2195.0,
      "completions/max_terminated_length": 2195.0,
      "completions/mean_length": 822.4620971679688,
      "completions/mean_terminated_length": 822.4620971679688,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.9159360495100567,
      "grad_norm": 0.12353157997131348,
      "kl": 0.0208282470703125,
      "learning_rate": 1e-06,
      "loss": 0.0081,
      "num_tokens": 130542748.0,
      "reward": 1.1943080425262451,
      "reward_std": 0.17369195818901062,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.20323659479618073,
      "rewards/curriculum_aware_reward_fn/std": 0.35851049423217773,
      "step": 222
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2351.0,
      "completions/max_terminated_length": 2351.0,
      "completions/mean_length": 870.6406860351562,
      "completions/mean_terminated_length": 870.6406860351562,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.9200618875709129,
      "grad_norm": 0.10986126214265823,
      "kl": 0.020416259765625,
      "learning_rate": 1e-06,
      "loss": -0.0043,
      "num_tokens": 131197990.0,
      "reward": 1.2091518640518188,
      "reward_std": 0.1457216739654541,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.21808035671710968,
      "rewards/curriculum_aware_reward_fn/std": 0.40909281373023987,
      "step": 223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1816.0,
      "completions/max_terminated_length": 1816.0,
      "completions/mean_length": 869.6272583007812,
      "completions/mean_terminated_length": 869.6272583007812,
      "completions/min_length": 340.0,
      "completions/min_terminated_length": 340.0,
      "epoch": 0.924187725631769,
      "grad_norm": 0.12486883997917175,
      "kl": 0.02044677734375,
      "learning_rate": 1e-06,
      "loss": -0.0037,
      "num_tokens": 131865469.0,
      "reward": 1.2027902603149414,
      "reward_std": 0.18685774505138397,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.20948660373687744,
      "rewards/curriculum_aware_reward_fn/std": 0.3364081084728241,
      "step": 224
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2009.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 806.1607666015625,
      "completions/mean_terminated_length": 806.1607666015625,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.9283135636926251,
      "grad_norm": 0.10445675998926163,
      "kl": 0.0204010009765625,
      "learning_rate": 1e-06,
      "loss": -0.0009,
      "num_tokens": 132495247.0,
      "reward": 1.1902902126312256,
      "reward_std": 0.1378038227558136,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.1969866007566452,
      "rewards/curriculum_aware_reward_fn/std": 0.36033302545547485,
      "step": 225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1777.0,
      "completions/max_terminated_length": 1777.0,
      "completions/mean_length": 823.3705444335938,
      "completions/mean_terminated_length": 823.3705444335938,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.9324394017534812,
      "grad_norm": 0.1085299551486969,
      "kl": 0.020965576171875,
      "learning_rate": 1e-06,
      "loss": 0.001,
      "num_tokens": 133127702.0,
      "reward": 1.165178656578064,
      "reward_std": 0.14776389300823212,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.1741071492433548,
      "rewards/curriculum_aware_reward_fn/std": 0.3225827217102051,
      "step": 226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2451.0,
      "completions/max_terminated_length": 2451.0,
      "completions/mean_length": 804.1317138671875,
      "completions/mean_terminated_length": 804.1317138671875,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.9365652398143373,
      "grad_norm": 0.1200730949640274,
      "kl": 0.0230712890625,
      "learning_rate": 1e-06,
      "loss": 0.0054,
      "num_tokens": 133750586.0,
      "reward": 1.1993305683135986,
      "reward_std": 0.1256466507911682,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.20602677762508392,
      "rewards/curriculum_aware_reward_fn/std": 0.36172813177108765,
      "step": 227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1768.0,
      "completions/max_terminated_length": 1768.0,
      "completions/mean_length": 823.8660888671875,
      "completions/mean_terminated_length": 823.8660888671875,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.9406910778751933,
      "grad_norm": 0.12881457805633545,
      "kl": 0.0206298828125,
      "learning_rate": 1e-06,
      "loss": -0.0022,
      "num_tokens": 134384761.0,
      "reward": 1.2723214626312256,
      "reward_std": 0.22976413369178772,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.2834821343421936,
      "rewards/curriculum_aware_reward_fn/std": 0.4023776352405548,
      "step": 228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2208.0,
      "completions/mean_length": 846.1964721679688,
      "completions/mean_terminated_length": 838.9262084960938,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.9448169159360496,
      "grad_norm": 0.13712099194526672,
      "kl": 0.0245819091796875,
      "learning_rate": 1e-06,
      "loss": 0.0112,
      "num_tokens": 135044956.0,
      "reward": 1.2349331378936768,
      "reward_std": 0.20659008622169495,
      "rewards/code_format_reward/mean": 0.984375,
      "rewards/code_format_reward/std": 0.12415824085474014,
      "rewards/curriculum_aware_reward_fn/mean": 0.2505580484867096,
      "rewards/curriculum_aware_reward_fn/std": 0.3524835407733917,
      "step": 229
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2086.0,
      "completions/max_terminated_length": 2086.0,
      "completions/mean_length": 805.232177734375,
      "completions/mean_terminated_length": 805.232177734375,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.9489427539969056,
      "grad_norm": 0.13029730319976807,
      "kl": 0.0221710205078125,
      "learning_rate": 1e-06,
      "loss": -0.0049,
      "num_tokens": 135675102.0,
      "reward": 1.2138394117355347,
      "reward_std": 0.19884708523750305,
      "rewards/code_format_reward/mean": 0.9821428656578064,
      "rewards/code_format_reward/std": 0.13258016109466553,
      "rewards/curriculum_aware_reward_fn/mean": 0.23169644176959991,
      "rewards/curriculum_aware_reward_fn/std": 0.3652246594429016,
      "step": 230
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3023.0,
      "completions/max_terminated_length": 3023.0,
      "completions/mean_length": 842.0156860351562,
      "completions/mean_terminated_length": 842.0156860351562,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "epoch": 0.9530685920577617,
      "grad_norm": 0.14022080600261688,
      "kl": 0.0362701416015625,
      "learning_rate": 1e-06,
      "loss": 0.0177,
      "num_tokens": 136313957.0,
      "reward": 1.2387278079986572,
      "reward_std": 0.1900922954082489,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.24542410671710968,
      "rewards/curriculum_aware_reward_fn/std": 0.37329214811325073,
      "step": 231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1625.0,
      "completions/max_terminated_length": 1625.0,
      "completions/mean_length": 798.0201416015625,
      "completions/mean_terminated_length": 798.0201416015625,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "epoch": 0.9571944301186178,
      "grad_norm": 0.1330692321062088,
      "kl": 0.0215301513671875,
      "learning_rate": 1e-06,
      "loss": 0.0001,
      "num_tokens": 136938177.0,
      "reward": 1.3068081140518188,
      "reward_std": 0.21471752226352692,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.31350448727607727,
      "rewards/curriculum_aware_reward_fn/std": 0.40733155608177185,
      "step": 232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2625.0,
      "completions/max_terminated_length": 2625.0,
      "completions/mean_length": 821.3683471679688,
      "completions/mean_terminated_length": 821.3683471679688,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.9613202681794739,
      "grad_norm": 0.1162538155913353,
      "kl": 0.01971435546875,
      "learning_rate": 1e-06,
      "loss": 0.0022,
      "num_tokens": 137573949.0,
      "reward": 1.1732144355773926,
      "reward_std": 0.17516572773456573,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.17991070449352264,
      "rewards/curriculum_aware_reward_fn/std": 0.33746057748794556,
      "step": 233
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1847.0,
      "completions/max_terminated_length": 1847.0,
      "completions/mean_length": 792.8080444335938,
      "completions/mean_terminated_length": 792.8080444335938,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.9654461062403301,
      "grad_norm": 0.14185446500778198,
      "kl": 0.0202789306640625,
      "learning_rate": 1e-06,
      "loss": 0.0265,
      "num_tokens": 138201084.0,
      "reward": 1.223772406578064,
      "reward_std": 0.20426253974437714,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.2327008992433548,
      "rewards/curriculum_aware_reward_fn/std": 0.35288336873054504,
      "step": 234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2577.0,
      "completions/max_terminated_length": 2577.0,
      "completions/mean_length": 847.6339721679688,
      "completions/mean_terminated_length": 847.6339721679688,
      "completions/min_length": 297.0,
      "completions/min_terminated_length": 297.0,
      "epoch": 0.9695719443011862,
      "grad_norm": 0.1119653508067131,
      "kl": 0.0201263427734375,
      "learning_rate": 1e-06,
      "loss": -0.0115,
      "num_tokens": 138851794.0,
      "reward": 1.2417410612106323,
      "reward_std": 0.15232668817043304,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.2506696283817291,
      "rewards/curriculum_aware_reward_fn/std": 0.3951603174209595,
      "step": 235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1641.0,
      "completions/max_terminated_length": 1641.0,
      "completions/mean_length": 788.950927734375,
      "completions/mean_terminated_length": 788.950927734375,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "epoch": 0.9736977823620423,
      "grad_norm": 0.13373960554599762,
      "kl": 0.0213165283203125,
      "learning_rate": 1e-06,
      "loss": 0.0109,
      "num_tokens": 139479700.0,
      "reward": 1.2359375953674316,
      "reward_std": 0.19174519181251526,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843171834946,
      "rewards/curriculum_aware_reward_fn/mean": 0.24263392388820648,
      "rewards/curriculum_aware_reward_fn/std": 0.3762992024421692,
      "step": 236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0022321428571429047,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2174.0,
      "completions/mean_length": 805.9620971679688,
      "completions/mean_terminated_length": 798.601806640625,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.9778236204228984,
      "grad_norm": 0.13458861410617828,
      "kl": 0.0209503173828125,
      "learning_rate": 1e-06,
      "loss": 0.0251,
      "num_tokens": 140097055.0,
      "reward": 1.2815849781036377,
      "reward_std": 0.23763927817344666,
      "rewards/code_format_reward/mean": 0.9821428656578064,
      "rewards/code_format_reward/std": 0.13258016109466553,
      "rewards/curriculum_aware_reward_fn/mean": 0.29944199323654175,
      "rewards/curriculum_aware_reward_fn/std": 0.37762463092803955,
      "step": 237
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2724.0,
      "completions/max_terminated_length": 2724.0,
      "completions/mean_length": 798.7455444335938,
      "completions/mean_terminated_length": 798.7455444335938,
      "completions/min_length": 377.0,
      "completions/min_terminated_length": 377.0,
      "epoch": 0.9819494584837545,
      "grad_norm": 0.1388353556394577,
      "kl": 0.02252197265625,
      "learning_rate": 1e-06,
      "loss": 0.0075,
      "num_tokens": 140730847.0,
      "reward": 1.2100446224212646,
      "reward_std": 0.22694040834903717,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.22343750298023224,
      "rewards/curriculum_aware_reward_fn/std": 0.3409222364425659,
      "step": 238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2872.0,
      "completions/max_terminated_length": 2872.0,
      "completions/mean_length": 823.138427734375,
      "completions/mean_terminated_length": 823.138427734375,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.9860752965446106,
      "grad_norm": 0.13200150430202484,
      "kl": 0.022369384765625,
      "learning_rate": 1e-06,
      "loss": 0.0027,
      "num_tokens": 141366866.0,
      "reward": 1.252343773841858,
      "reward_std": 0.20880478620529175,
      "rewards/code_format_reward/mean": 0.9866071343421936,
      "rewards/code_format_reward/std": 0.11507843434810638,
      "rewards/curriculum_aware_reward_fn/mean": 0.2657366096973419,
      "rewards/curriculum_aware_reward_fn/std": 0.38834115862846375,
      "step": 239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1728.0,
      "completions/max_terminated_length": 1728.0,
      "completions/mean_length": 818.9174194335938,
      "completions/mean_terminated_length": 818.9174194335938,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "epoch": 0.9902011346054668,
      "grad_norm": 0.09640368819236755,
      "kl": 0.0225830078125,
      "learning_rate": 1e-06,
      "loss": 0.0017,
      "num_tokens": 142006496.0,
      "reward": 1.14051353931427,
      "reward_std": 0.0970856174826622,
      "rewards/code_format_reward/mean": 0.9933035969734192,
      "rewards/code_format_reward/std": 0.08164843916893005,
      "rewards/curriculum_aware_reward_fn/mean": 0.14720980823040009,
      "rewards/curriculum_aware_reward_fn/std": 0.3216255009174347,
      "step": 240
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3333.0,
      "completions/max_terminated_length": 3333.0,
      "completions/mean_length": 815.5201416015625,
      "completions/mean_terminated_length": 815.5201416015625,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.9943269726663229,
      "grad_norm": 0.14960746467113495,
      "kl": 0.0247039794921875,
      "learning_rate": 1e-06,
      "loss": 0.0004,
      "num_tokens": 142648139.0,
      "reward": 1.2400671243667603,
      "reward_std": 0.21601368486881256,
      "rewards/code_format_reward/mean": 0.9888392686843872,
      "rewards/code_format_reward/std": 0.10517053306102753,
      "rewards/curriculum_aware_reward_fn/mean": 0.2512276768684387,
      "rewards/curriculum_aware_reward_fn/std": 0.37283849716186523,
      "step": 241
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2014.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 856.6094970703125,
      "completions/mean_terminated_length": 856.6094970703125,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.998452810727179,
      "grad_norm": 0.11549442261457443,
      "kl": 0.02239990234375,
      "learning_rate": 1e-06,
      "loss": 0.0012,
      "num_tokens": 143306525.0,
      "reward": 1.1822545528411865,
      "reward_std": 0.177961528301239,
      "rewards/code_format_reward/mean": 0.9910714030265808,
      "rewards/code_format_reward/std": 0.09417349100112915,
      "rewards/curriculum_aware_reward_fn/mean": 0.19118304550647736,
      "rewards/curriculum_aware_reward_fn/std": 0.3384980261325836,
      "step": 242
    },
    {
      "epoch": 0.998452810727179,
      "step": 242,
      "total_flos": 0.0,
      "train_loss": 0.00999828894322686,
      "train_runtime": 47323.5256,
      "train_samples_per_second": 0.328,
      "train_steps_per_second": 0.005
    }
  ],
  "logging_steps": 1,
  "max_steps": 242,
  "num_input_tokens_seen": 143306525,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}