{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 563148,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0026635982015384943,
      "grad_norm": 0.2271278351545334,
      "learning_rate": 0.0001996,
      "loss": 8.7148,
      "step": 500
    },
    {
      "epoch": 0.005327196403076989,
      "grad_norm": 0.448383092880249,
      "learning_rate": 0.0003996,
      "loss": 7.4094,
      "step": 1000
    },
    {
      "epoch": 0.007990794604615483,
      "grad_norm": 0.46370673179626465,
      "learning_rate": 0.0005996,
      "loss": 7.1049,
      "step": 1500
    },
    {
      "epoch": 0.010654392806153977,
      "grad_norm": 0.7845134735107422,
      "learning_rate": 0.0007996,
      "loss": 6.8619,
      "step": 2000
    },
    {
      "epoch": 0.013317991007692471,
      "grad_norm": 0.7677924036979675,
      "learning_rate": 0.0009996,
      "loss": 6.7206,
      "step": 2500
    },
    {
      "epoch": 0.015981589209230967,
      "grad_norm": 0.7272828817367554,
      "learning_rate": 0.0009991099584766199,
      "loss": 6.6171,
      "step": 3000
    },
    {
      "epoch": 0.01864518741076946,
      "grad_norm": 0.7266383171081543,
      "learning_rate": 0.0009982181333028923,
      "loss": 6.4961,
      "step": 3500
    },
    {
      "epoch": 0.021308785612307955,
      "grad_norm": 0.8149316310882568,
      "learning_rate": 0.0009973263081291647,
      "loss": 6.3995,
      "step": 4000
    },
    {
      "epoch": 0.02397238381384645,
      "grad_norm": 0.8527867794036865,
      "learning_rate": 0.0009964344829554372,
      "loss": 6.3342,
      "step": 4500
    },
    {
      "epoch": 0.026635982015384942,
      "grad_norm": 1.2359241247177124,
      "learning_rate": 0.0009955444414320573,
      "loss": 6.2305,
      "step": 5000
    },
    {
      "epoch": 0.029299580216923436,
      "grad_norm": 1.1131370067596436,
      "learning_rate": 0.0009946526162583297,
      "loss": 6.0731,
      "step": 5500
    },
    {
      "epoch": 0.031963178418461934,
      "grad_norm": 1.185133457183838,
      "learning_rate": 0.0009937607910846021,
      "loss": 5.9349,
      "step": 6000
    },
    {
      "epoch": 0.034626776620000424,
      "grad_norm": 1.201166033744812,
      "learning_rate": 0.0009928689659108746,
      "loss": 5.7587,
      "step": 6500
    },
    {
      "epoch": 0.03729037482153892,
      "grad_norm": 1.2446848154067993,
      "learning_rate": 0.0009919789243874944,
      "loss": 5.6453,
      "step": 7000
    },
    {
      "epoch": 0.03995397302307741,
      "grad_norm": 1.2813904285430908,
      "learning_rate": 0.0009910870992137668,
      "loss": 5.5547,
      "step": 7500
    },
    {
      "epoch": 0.04261757122461591,
      "grad_norm": 0.9883731007575989,
      "learning_rate": 0.0009901952740400395,
      "loss": 5.3078,
      "step": 8000
    },
    {
      "epoch": 0.045281169426154406,
      "grad_norm": 0.9527985453605652,
      "learning_rate": 0.000989303448866312,
      "loss": 5.1301,
      "step": 8500
    },
    {
      "epoch": 0.0479447676276929,
      "grad_norm": 0.9772309064865112,
      "learning_rate": 0.0009884134073429318,
      "loss": 5.0381,
      "step": 9000
    },
    {
      "epoch": 0.050608365829231394,
      "grad_norm": 1.0352524518966675,
      "learning_rate": 0.0009875215821692042,
      "loss": 4.9814,
      "step": 9500
    },
    {
      "epoch": 0.053271964030769885,
      "grad_norm": 0.8517736196517944,
      "learning_rate": 0.0009866297569954767,
      "loss": 4.9238,
      "step": 10000
    },
    {
      "epoch": 0.05593556223230838,
      "grad_norm": 0.9034407138824463,
      "learning_rate": 0.000985737931821749,
      "loss": 4.8745,
      "step": 10500
    },
    {
      "epoch": 0.05859916043384687,
      "grad_norm": 0.8332895636558533,
      "learning_rate": 0.0009848461066480215,
      "loss": 4.845,
      "step": 11000
    },
    {
      "epoch": 0.06126275863538537,
      "grad_norm": 0.8637209534645081,
      "learning_rate": 0.0009839560651246416,
      "loss": 4.8014,
      "step": 11500
    },
    {
      "epoch": 0.06392635683692387,
      "grad_norm": 0.8696839213371277,
      "learning_rate": 0.000983064239950914,
      "loss": 4.7803,
      "step": 12000
    },
    {
      "epoch": 0.06658995503846236,
      "grad_norm": 0.8878291249275208,
      "learning_rate": 0.0009821724147771865,
      "loss": 4.7629,
      "step": 12500
    },
    {
      "epoch": 0.06925355324000085,
      "grad_norm": 0.8268778324127197,
      "learning_rate": 0.000981280589603459,
      "loss": 4.7312,
      "step": 13000
    },
    {
      "epoch": 0.07191715144153935,
      "grad_norm": 0.884635329246521,
      "learning_rate": 0.0009803887644297313,
      "loss": 4.7146,
      "step": 13500
    },
    {
      "epoch": 0.07458074964307784,
      "grad_norm": 0.7639057636260986,
      "learning_rate": 0.0009794969392560038,
      "loss": 4.6961,
      "step": 14000
    },
    {
      "epoch": 0.07724434784461634,
      "grad_norm": 0.8192263245582581,
      "learning_rate": 0.0009786051140822762,
      "loss": 4.6766,
      "step": 14500
    },
    {
      "epoch": 0.07990794604615482,
      "grad_norm": 0.8075643181800842,
      "learning_rate": 0.0009777132889085486,
      "loss": 4.6582,
      "step": 15000
    },
    {
      "epoch": 0.08257154424769332,
      "grad_norm": 0.7193809151649475,
      "learning_rate": 0.0009768232473851685,
      "loss": 4.655,
      "step": 15500
    },
    {
      "epoch": 0.08523514244923182,
      "grad_norm": 0.8761749267578125,
      "learning_rate": 0.000975931422211441,
      "loss": 4.6378,
      "step": 16000
    },
    {
      "epoch": 0.08789874065077032,
      "grad_norm": 0.8616175055503845,
      "learning_rate": 0.0009750395970377135,
      "loss": 4.6265,
      "step": 16500
    },
    {
      "epoch": 0.09056233885230881,
      "grad_norm": 0.8099841475486755,
      "learning_rate": 0.000974147771863986,
      "loss": 4.6079,
      "step": 17000
    },
    {
      "epoch": 0.0932259370538473,
      "grad_norm": 0.811244010925293,
      "learning_rate": 0.000973257730340606,
      "loss": 4.5949,
      "step": 17500
    },
    {
      "epoch": 0.0958895352553858,
      "grad_norm": 0.8826119303703308,
      "learning_rate": 0.0009723659051668784,
      "loss": 4.589,
      "step": 18000
    },
    {
      "epoch": 0.09855313345692429,
      "grad_norm": 0.8135235905647278,
      "learning_rate": 0.0009714740799931508,
      "loss": 4.5715,
      "step": 18500
    },
    {
      "epoch": 0.10121673165846279,
      "grad_norm": 0.8390595316886902,
      "learning_rate": 0.0009705822548194233,
      "loss": 4.5581,
      "step": 19000
    },
    {
      "epoch": 0.10388032986000127,
      "grad_norm": 0.7602077126502991,
      "learning_rate": 0.0009696922132960431,
      "loss": 4.5527,
      "step": 19500
    },
    {
      "epoch": 0.10654392806153977,
      "grad_norm": 0.8945237994194031,
      "learning_rate": 0.0009688003881223157,
      "loss": 4.5301,
      "step": 20000
    },
    {
      "epoch": 0.10920752626307827,
      "grad_norm": 0.6963039040565491,
      "learning_rate": 0.0009679085629485881,
      "loss": 4.5186,
      "step": 20500
    },
    {
      "epoch": 0.11187112446461676,
      "grad_norm": 0.7871098518371582,
      "learning_rate": 0.0009670167377748605,
      "loss": 4.5069,
      "step": 21000
    },
    {
      "epoch": 0.11453472266615526,
      "grad_norm": 0.7853402495384216,
      "learning_rate": 0.000966124912601133,
      "loss": 4.4966,
      "step": 21500
    },
    {
      "epoch": 0.11719832086769374,
      "grad_norm": 0.7557271718978882,
      "learning_rate": 0.0009652348710777528,
      "loss": 4.4857,
      "step": 22000
    },
    {
      "epoch": 0.11986191906923224,
      "grad_norm": 0.7256771326065063,
      "learning_rate": 0.0009643430459040254,
      "loss": 4.4756,
      "step": 22500
    },
    {
      "epoch": 0.12252551727077074,
      "grad_norm": 0.7980550527572632,
      "learning_rate": 0.0009634512207302978,
      "loss": 4.4726,
      "step": 23000
    },
    {
      "epoch": 0.12518911547230924,
      "grad_norm": 0.7480477690696716,
      "learning_rate": 0.0009625593955565702,
      "loss": 4.4558,
      "step": 23500
    },
    {
      "epoch": 0.12785271367384773,
      "grad_norm": 0.7309882044792175,
      "learning_rate": 0.0009616675703828427,
      "loss": 4.4546,
      "step": 24000
    },
    {
      "epoch": 0.13051631187538623,
      "grad_norm": 0.8072414398193359,
      "learning_rate": 0.0009607775288594626,
      "loss": 4.4408,
      "step": 24500
    },
    {
      "epoch": 0.13317991007692473,
      "grad_norm": 0.7929727435112,
      "learning_rate": 0.0009598857036857352,
      "loss": 4.4436,
      "step": 25000
    },
    {
      "epoch": 0.1358435082784632,
      "grad_norm": 0.7073729038238525,
      "learning_rate": 0.0009589938785120076,
      "loss": 4.4261,
      "step": 25500
    },
    {
      "epoch": 0.1385071064800017,
      "grad_norm": 0.7210267782211304,
      "learning_rate": 0.00095810205333828,
      "loss": 4.425,
      "step": 26000
    },
    {
      "epoch": 0.1411707046815402,
      "grad_norm": 0.6783360838890076,
      "learning_rate": 0.0009572102281645525,
      "loss": 4.4123,
      "step": 26500
    },
    {
      "epoch": 0.1438343028830787,
      "grad_norm": 0.7039027214050293,
      "learning_rate": 0.0009563184029908249,
      "loss": 4.414,
      "step": 27000
    },
    {
      "epoch": 0.1464979010846172,
      "grad_norm": 0.7899590730667114,
      "learning_rate": 0.0009554265778170974,
      "loss": 4.3951,
      "step": 27500
    },
    {
      "epoch": 0.14916149928615569,
      "grad_norm": 0.7651330828666687,
      "learning_rate": 0.0009545347526433699,
      "loss": 4.3997,
      "step": 28000
    },
    {
      "epoch": 0.15182509748769418,
      "grad_norm": 0.8091022372245789,
      "learning_rate": 0.0009536447111199897,
      "loss": 4.3865,
      "step": 28500
    },
    {
      "epoch": 0.15448869568923268,
      "grad_norm": 0.7238765954971313,
      "learning_rate": 0.0009527528859462622,
      "loss": 4.3845,
      "step": 29000
    },
    {
      "epoch": 0.15715229389077118,
      "grad_norm": 0.7803590893745422,
      "learning_rate": 0.0009518610607725346,
      "loss": 4.3805,
      "step": 29500
    },
    {
      "epoch": 0.15981589209230965,
      "grad_norm": 0.778491735458374,
      "learning_rate": 0.0009509692355988071,
      "loss": 4.3794,
      "step": 30000
    },
    {
      "epoch": 0.16247949029384814,
      "grad_norm": 0.7399048209190369,
      "learning_rate": 0.000950079194075427,
      "loss": 4.3795,
      "step": 30500
    },
    {
      "epoch": 0.16514308849538664,
      "grad_norm": 0.7823745012283325,
      "learning_rate": 0.0009491873689016994,
      "loss": 4.3782,
      "step": 31000
    },
    {
      "epoch": 0.16780668669692514,
      "grad_norm": 0.7693122029304504,
      "learning_rate": 0.0009482955437279719,
      "loss": 4.3612,
      "step": 31500
    },
    {
      "epoch": 0.17047028489846364,
      "grad_norm": 0.7326549887657166,
      "learning_rate": 0.0009474037185542443,
      "loss": 4.3658,
      "step": 32000
    },
    {
      "epoch": 0.17313388310000213,
      "grad_norm": 0.6827363967895508,
      "learning_rate": 0.0009465136770308644,
      "loss": 4.3621,
      "step": 32500
    },
    {
      "epoch": 0.17579748130154063,
      "grad_norm": 0.7000982761383057,
      "learning_rate": 0.0009456218518571368,
      "loss": 4.3566,
      "step": 33000
    },
    {
      "epoch": 0.17846107950307913,
      "grad_norm": 0.7949216365814209,
      "learning_rate": 0.0009447300266834092,
      "loss": 4.349,
      "step": 33500
    },
    {
      "epoch": 0.18112467770461763,
      "grad_norm": 0.7766338586807251,
      "learning_rate": 0.0009438382015096817,
      "loss": 4.3564,
      "step": 34000
    },
    {
      "epoch": 0.1837882759061561,
      "grad_norm": 0.7235038876533508,
      "learning_rate": 0.0009429481599863015,
      "loss": 4.3434,
      "step": 34500
    },
    {
      "epoch": 0.1864518741076946,
      "grad_norm": 0.7254591584205627,
      "learning_rate": 0.0009420563348125741,
      "loss": 4.3352,
      "step": 35000
    },
    {
      "epoch": 0.1891154723092331,
      "grad_norm": 0.6868504285812378,
      "learning_rate": 0.0009411645096388465,
      "loss": 4.34,
      "step": 35500
    },
    {
      "epoch": 0.1917790705107716,
      "grad_norm": 0.7674193978309631,
      "learning_rate": 0.0009402726844651189,
      "loss": 4.3333,
      "step": 36000
    },
    {
      "epoch": 0.19444266871231008,
      "grad_norm": 0.778035581111908,
      "learning_rate": 0.0009393826429417389,
      "loss": 4.3314,
      "step": 36500
    },
    {
      "epoch": 0.19710626691384858,
      "grad_norm": 0.7400960922241211,
      "learning_rate": 0.0009384908177680113,
      "loss": 4.3319,
      "step": 37000
    },
    {
      "epoch": 0.19976986511538708,
      "grad_norm": 0.7500663995742798,
      "learning_rate": 0.0009375989925942838,
      "loss": 4.328,
      "step": 37500
    },
    {
      "epoch": 0.20243346331692558,
      "grad_norm": 0.683749794960022,
      "learning_rate": 0.0009367071674205563,
      "loss": 4.3268,
      "step": 38000
    },
    {
      "epoch": 0.20509706151846407,
      "grad_norm": 0.7642583250999451,
      "learning_rate": 0.0009358171258971762,
      "loss": 4.3269,
      "step": 38500
    },
    {
      "epoch": 0.20776065972000254,
      "grad_norm": 0.6992856860160828,
      "learning_rate": 0.0009349253007234486,
      "loss": 4.3218,
      "step": 39000
    },
    {
      "epoch": 0.21042425792154104,
      "grad_norm": 0.7553698420524597,
      "learning_rate": 0.000934033475549721,
      "loss": 4.3209,
      "step": 39500
    },
    {
      "epoch": 0.21308785612307954,
      "grad_norm": 0.6873403787612915,
      "learning_rate": 0.0009331416503759935,
      "loss": 4.3157,
      "step": 40000
    },
    {
      "epoch": 0.21575145432461804,
      "grad_norm": 0.7638967633247375,
      "learning_rate": 0.0009322516088526134,
      "loss": 4.3163,
      "step": 40500
    },
    {
      "epoch": 0.21841505252615653,
      "grad_norm": 0.6896612048149109,
      "learning_rate": 0.0009313597836788859,
      "loss": 4.3123,
      "step": 41000
    },
    {
      "epoch": 0.22107865072769503,
      "grad_norm": 0.7294336557388306,
      "learning_rate": 0.0009304679585051583,
      "loss": 4.3142,
      "step": 41500
    },
    {
      "epoch": 0.22374224892923353,
      "grad_norm": 0.7498676776885986,
      "learning_rate": 0.0009295761333314307,
      "loss": 4.3038,
      "step": 42000
    },
    {
      "epoch": 0.22640584713077203,
      "grad_norm": 0.7050178647041321,
      "learning_rate": 0.0009286860918080507,
      "loss": 4.2978,
      "step": 42500
    },
    {
      "epoch": 0.22906944533231052,
      "grad_norm": 0.7527032494544983,
      "learning_rate": 0.0009277942666343233,
      "loss": 4.3067,
      "step": 43000
    },
    {
      "epoch": 0.231733043533849,
      "grad_norm": 0.6919755935668945,
      "learning_rate": 0.0009269024414605957,
      "loss": 4.295,
      "step": 43500
    },
    {
      "epoch": 0.2343966417353875,
      "grad_norm": 0.7255104184150696,
      "learning_rate": 0.0009260106162868681,
      "loss": 4.2946,
      "step": 44000
    },
    {
      "epoch": 0.237060239936926,
      "grad_norm": 0.6978445649147034,
      "learning_rate": 0.000925120574763488,
      "loss": 4.2937,
      "step": 44500
    },
    {
      "epoch": 0.23972383813846448,
      "grad_norm": 0.7008663415908813,
      "learning_rate": 0.0009242287495897604,
      "loss": 4.2974,
      "step": 45000
    },
    {
      "epoch": 0.24238743634000298,
      "grad_norm": 0.704937756061554,
      "learning_rate": 0.000923336924416033,
      "loss": 4.2857,
      "step": 45500
    },
    {
      "epoch": 0.24505103454154148,
      "grad_norm": 0.7343337535858154,
      "learning_rate": 0.0009224450992423054,
      "loss": 4.2891,
      "step": 46000
    },
    {
      "epoch": 0.24771463274307998,
      "grad_norm": 0.7263538241386414,
      "learning_rate": 0.0009215550577189252,
      "loss": 4.2895,
      "step": 46500
    },
    {
      "epoch": 0.2503782309446185,
      "grad_norm": 0.7095937728881836,
      "learning_rate": 0.0009206632325451977,
      "loss": 4.2853,
      "step": 47000
    },
    {
      "epoch": 0.25304182914615697,
      "grad_norm": 0.7221779823303223,
      "learning_rate": 0.0009197714073714701,
      "loss": 4.2858,
      "step": 47500
    },
    {
      "epoch": 0.25570542734769547,
      "grad_norm": 0.7522983551025391,
      "learning_rate": 0.0009188795821977425,
      "loss": 4.2795,
      "step": 48000
    },
    {
      "epoch": 0.25836902554923397,
      "grad_norm": 0.7212731838226318,
      "learning_rate": 0.0009179895406743626,
      "loss": 4.2749,
      "step": 48500
    },
    {
      "epoch": 0.26103262375077246,
      "grad_norm": 0.75824373960495,
      "learning_rate": 0.000917097715500635,
      "loss": 4.2738,
      "step": 49000
    },
    {
      "epoch": 0.26369622195231096,
      "grad_norm": 0.7861409783363342,
      "learning_rate": 0.0009162058903269075,
      "loss": 4.2781,
      "step": 49500
    },
    {
      "epoch": 0.26635982015384946,
      "grad_norm": 0.7585176229476929,
      "learning_rate": 0.0009153140651531799,
      "loss": 4.2742,
      "step": 50000
    },
    {
      "epoch": 0.2690234183553879,
      "grad_norm": 0.7468889951705933,
      "learning_rate": 0.0009144240236297998,
      "loss": 4.2779,
      "step": 50500
    },
    {
      "epoch": 0.2716870165569264,
      "grad_norm": 0.7378383278846741,
      "learning_rate": 0.0009135321984560723,
      "loss": 4.2724,
      "step": 51000
    },
    {
      "epoch": 0.2743506147584649,
      "grad_norm": 0.6867294907569885,
      "learning_rate": 0.0009126403732823447,
      "loss": 4.2753,
      "step": 51500
    },
    {
      "epoch": 0.2770142129600034,
      "grad_norm": 0.6850928068161011,
      "learning_rate": 0.0009117485481086172,
      "loss": 4.2718,
      "step": 52000
    },
    {
      "epoch": 0.2796778111615419,
      "grad_norm": 0.7450153827667236,
      "learning_rate": 0.000910858506585237,
      "loss": 4.2711,
      "step": 52500
    },
    {
      "epoch": 0.2823414093630804,
      "grad_norm": 0.7175604104995728,
      "learning_rate": 0.0009099666814115095,
      "loss": 4.2636,
      "step": 53000
    },
    {
      "epoch": 0.2850050075646189,
      "grad_norm": 0.7004239559173584,
      "learning_rate": 0.000909074856237782,
      "loss": 4.273,
      "step": 53500
    },
    {
      "epoch": 0.2876686057661574,
      "grad_norm": 0.7755109667778015,
      "learning_rate": 0.0009081830310640544,
      "loss": 4.262,
      "step": 54000
    },
    {
      "epoch": 0.2903322039676959,
      "grad_norm": 0.7420957684516907,
      "learning_rate": 0.0009072929895406744,
      "loss": 4.2703,
      "step": 54500
    },
    {
      "epoch": 0.2929958021692344,
      "grad_norm": 0.7163523435592651,
      "learning_rate": 0.0009064011643669468,
      "loss": 4.265,
      "step": 55000
    },
    {
      "epoch": 0.2956594003707729,
      "grad_norm": 0.7003483176231384,
      "learning_rate": 0.0009055093391932193,
      "loss": 4.2529,
      "step": 55500
    },
    {
      "epoch": 0.29832299857231137,
      "grad_norm": 0.7118489742279053,
      "learning_rate": 0.0009046175140194918,
      "loss": 4.2556,
      "step": 56000
    },
    {
      "epoch": 0.30098659677384987,
      "grad_norm": 0.7034066319465637,
      "learning_rate": 0.0009037274724961117,
      "loss": 4.2547,
      "step": 56500
    },
    {
      "epoch": 0.30365019497538837,
      "grad_norm": 0.6700213551521301,
      "learning_rate": 0.0009028356473223841,
      "loss": 4.2561,
      "step": 57000
    },
    {
      "epoch": 0.30631379317692686,
      "grad_norm": 0.738164484500885,
      "learning_rate": 0.0009019438221486565,
      "loss": 4.26,
      "step": 57500
    },
    {
      "epoch": 0.30897739137846536,
      "grad_norm": 0.7396353483200073,
      "learning_rate": 0.000901051996974929,
      "loss": 4.2562,
      "step": 58000
    },
    {
      "epoch": 0.31164098958000386,
      "grad_norm": 0.7478146553039551,
      "learning_rate": 0.0009001619554515488,
      "loss": 4.25,
      "step": 58500
    },
    {
      "epoch": 0.31430458778154235,
      "grad_norm": 0.7298335433006287,
      "learning_rate": 0.0008992701302778215,
      "loss": 4.2562,
      "step": 59000
    },
    {
      "epoch": 0.3169681859830808,
      "grad_norm": 0.7685016989707947,
      "learning_rate": 0.0008983783051040939,
      "loss": 4.2551,
      "step": 59500
    },
    {
      "epoch": 0.3196317841846193,
      "grad_norm": 0.8017458915710449,
      "learning_rate": 0.0008974864799303664,
      "loss": 4.2481,
      "step": 60000
    },
    {
      "epoch": 0.3222953823861578,
      "grad_norm": 0.7588088512420654,
      "learning_rate": 0.0008965964384069862,
      "loss": 4.2537,
      "step": 60500
    },
    {
      "epoch": 0.3249589805876963,
      "grad_norm": 0.7897168397903442,
      "learning_rate": 0.0008957046132332586,
      "loss": 4.2427,
      "step": 61000
    },
    {
      "epoch": 0.3276225787892348,
      "grad_norm": 0.7311574220657349,
      "learning_rate": 0.0008948127880595312,
      "loss": 4.2518,
      "step": 61500
    },
    {
      "epoch": 0.3302861769907733,
      "grad_norm": 0.7892371416091919,
      "learning_rate": 0.0008939209628858036,
      "loss": 4.234,
      "step": 62000
    },
    {
      "epoch": 0.3329497751923118,
      "grad_norm": 0.6944438815116882,
      "learning_rate": 0.0008930309213624235,
      "loss": 4.2382,
      "step": 62500
    },
    {
      "epoch": 0.3356133733938503,
      "grad_norm": 0.7701837420463562,
      "learning_rate": 0.0008921390961886959,
      "loss": 4.2474,
      "step": 63000
    },
    {
      "epoch": 0.3382769715953888,
      "grad_norm": 0.7789635062217712,
      "learning_rate": 0.0008912472710149683,
      "loss": 4.2379,
      "step": 63500
    },
    {
      "epoch": 0.3409405697969273,
      "grad_norm": 0.7212055921554565,
      "learning_rate": 0.0008903554458412409,
      "loss": 4.2407,
      "step": 64000
    },
    {
      "epoch": 0.34360416799846577,
      "grad_norm": 0.7439520359039307,
      "learning_rate": 0.0008894654043178609,
      "loss": 4.2386,
      "step": 64500
    },
    {
      "epoch": 0.34626776620000427,
      "grad_norm": 0.6747229695320129,
      "learning_rate": 0.0008885735791441333,
      "loss": 4.2391,
      "step": 65000
    },
    {
      "epoch": 0.34893136440154277,
      "grad_norm": 0.7761566638946533,
      "learning_rate": 0.0008876817539704057,
      "loss": 4.2337,
      "step": 65500
    },
    {
      "epoch": 0.35159496260308126,
      "grad_norm": 0.7024859189987183,
      "learning_rate": 0.0008867899287966782,
      "loss": 4.2299,
      "step": 66000
    },
    {
      "epoch": 0.35425856080461976,
      "grad_norm": 0.7179946303367615,
      "learning_rate": 0.000885899887273298,
      "loss": 4.2379,
      "step": 66500
    },
    {
      "epoch": 0.35692215900615826,
      "grad_norm": 0.699834942817688,
      "learning_rate": 0.0008850080620995706,
      "loss": 4.2321,
      "step": 67000
    },
    {
      "epoch": 0.35958575720769675,
      "grad_norm": 0.6902332901954651,
      "learning_rate": 0.000884116236925843,
      "loss": 4.2376,
      "step": 67500
    },
    {
      "epoch": 0.36224935540923525,
      "grad_norm": 0.7003384232521057,
      "learning_rate": 0.0008832244117521154,
      "loss": 4.2261,
      "step": 68000
    },
    {
      "epoch": 0.36491295361077375,
      "grad_norm": 0.7879477739334106,
      "learning_rate": 0.0008823343702287353,
      "loss": 4.2292,
      "step": 68500
    },
    {
      "epoch": 0.3675765518123122,
      "grad_norm": 0.6793246269226074,
      "learning_rate": 0.0008814425450550077,
      "loss": 4.2342,
      "step": 69000
    },
    {
      "epoch": 0.3702401500138507,
      "grad_norm": 0.7284209728240967,
      "learning_rate": 0.0008805507198812803,
      "loss": 4.2276,
      "step": 69500
    },
    {
      "epoch": 0.3729037482153892,
      "grad_norm": 0.7192456722259521,
      "learning_rate": 0.0008796588947075527,
      "loss": 4.2248,
      "step": 70000
    },
    {
      "epoch": 0.3755673464169277,
      "grad_norm": 0.7695698738098145,
      "learning_rate": 0.0008787688531841727,
      "loss": 4.2276,
      "step": 70500
    },
    {
      "epoch": 0.3782309446184662,
      "grad_norm": 0.740368664264679,
      "learning_rate": 0.0008778770280104451,
      "loss": 4.2286,
      "step": 71000
    },
    {
      "epoch": 0.3808945428200047,
      "grad_norm": 0.7393242716789246,
      "learning_rate": 0.0008769852028367175,
      "loss": 4.2239,
      "step": 71500
    },
    {
      "epoch": 0.3835581410215432,
      "grad_norm": 0.7269551157951355,
      "learning_rate": 0.0008760933776629901,
      "loss": 4.2196,
      "step": 72000
    },
    {
      "epoch": 0.3862217392230817,
      "grad_norm": 0.6773830056190491,
      "learning_rate": 0.0008752033361396099,
      "loss": 4.2283,
      "step": 72500
    },
    {
      "epoch": 0.38888533742462017,
      "grad_norm": 0.7091046571731567,
      "learning_rate": 0.0008743115109658824,
      "loss": 4.2252,
      "step": 73000
    },
    {
      "epoch": 0.39154893562615867,
      "grad_norm": 0.7202826738357544,
      "learning_rate": 0.0008734196857921548,
      "loss": 4.2102,
      "step": 73500
    },
    {
      "epoch": 0.39421253382769716,
      "grad_norm": 0.6965381503105164,
      "learning_rate": 0.0008725278606184272,
      "loss": 4.222,
      "step": 74000
    },
    {
      "epoch": 0.39687613202923566,
      "grad_norm": 0.7711541652679443,
      "learning_rate": 0.0008716378190950471,
      "loss": 4.2138,
      "step": 74500
    },
    {
      "epoch": 0.39953973023077416,
      "grad_norm": 0.6982942223548889,
      "learning_rate": 0.0008707459939213196,
      "loss": 4.2209,
      "step": 75000
    },
    {
      "epoch": 0.40220332843231266,
      "grad_norm": 0.700356662273407,
      "learning_rate": 0.0008698541687475921,
      "loss": 4.2153,
      "step": 75500
    },
    {
      "epoch": 0.40486692663385115,
      "grad_norm": 0.7417271137237549,
      "learning_rate": 0.0008689623435738645,
      "loss": 4.216,
      "step": 76000
    },
    {
      "epoch": 0.40753052483538965,
      "grad_norm": 0.7237849235534668,
      "learning_rate": 0.0008680723020504845,
      "loss": 4.2172,
      "step": 76500
    },
    {
      "epoch": 0.41019412303692815,
      "grad_norm": 0.7940893769264221,
      "learning_rate": 0.0008671804768767569,
      "loss": 4.2224,
      "step": 77000
    },
    {
      "epoch": 0.41285772123846665,
      "grad_norm": 0.7201411724090576,
      "learning_rate": 0.0008662886517030294,
      "loss": 4.2203,
      "step": 77500
    },
    {
      "epoch": 0.4155213194400051,
      "grad_norm": 0.7360599637031555,
      "learning_rate": 0.0008653968265293019,
      "loss": 4.2208,
      "step": 78000
    },
    {
      "epoch": 0.4181849176415436,
      "grad_norm": 0.7827675938606262,
      "learning_rate": 0.0008645067850059217,
      "loss": 4.2095,
      "step": 78500
    },
    {
      "epoch": 0.4208485158430821,
      "grad_norm": 0.7322735786437988,
      "learning_rate": 0.0008636149598321942,
      "loss": 4.2085,
      "step": 79000
    },
    {
      "epoch": 0.4235121140446206,
      "grad_norm": 0.6896507740020752,
      "learning_rate": 0.0008627231346584666,
      "loss": 4.2045,
      "step": 79500
    },
    {
      "epoch": 0.4261757122461591,
      "grad_norm": 0.780642569065094,
      "learning_rate": 0.0008618313094847391,
      "loss": 4.2157,
      "step": 80000
    },
    {
      "epoch": 0.4288393104476976,
      "grad_norm": 0.717087984085083,
      "learning_rate": 0.000860941267961359,
      "loss": 4.208,
      "step": 80500
    },
    {
      "epoch": 0.43150290864923607,
      "grad_norm": 0.7145330309867859,
      "learning_rate": 0.0008600494427876314,
      "loss": 4.2128,
      "step": 81000
    },
    {
      "epoch": 0.43416650685077457,
      "grad_norm": 0.7336823344230652,
      "learning_rate": 0.0008591576176139039,
      "loss": 4.2124,
      "step": 81500
    },
    {
      "epoch": 0.43683010505231307,
      "grad_norm": 0.6869795322418213,
      "learning_rate": 0.0008582657924401764,
      "loss": 4.2103,
      "step": 82000
    },
    {
      "epoch": 0.43949370325385156,
      "grad_norm": 0.7188379168510437,
      "learning_rate": 0.0008573757509167964,
      "loss": 4.2084,
      "step": 82500
    },
    {
      "epoch": 0.44215730145539006,
      "grad_norm": 0.7271597981452942,
      "learning_rate": 0.0008564839257430688,
      "loss": 4.2087,
      "step": 83000
    },
    {
      "epoch": 0.44482089965692856,
      "grad_norm": 0.7935476303100586,
      "learning_rate": 0.0008555921005693412,
      "loss": 4.199,
      "step": 83500
    },
    {
      "epoch": 0.44748449785846706,
      "grad_norm": 0.732509195804596,
      "learning_rate": 0.0008547002753956137,
      "loss": 4.2014,
      "step": 84000
    },
    {
      "epoch": 0.45014809606000555,
      "grad_norm": 0.7381872534751892,
      "learning_rate": 0.0008538102338722335,
      "loss": 4.2078,
      "step": 84500
    },
    {
      "epoch": 0.45281169426154405,
      "grad_norm": 0.697894811630249,
      "learning_rate": 0.0008529184086985061,
      "loss": 4.1978,
      "step": 85000
    },
    {
      "epoch": 0.45547529246308255,
      "grad_norm": 0.715933084487915,
      "learning_rate": 0.0008520265835247785,
      "loss": 4.205,
      "step": 85500
    },
    {
      "epoch": 0.45813889066462105,
      "grad_norm": 0.7199248671531677,
      "learning_rate": 0.0008511347583510509,
      "loss": 4.201,
      "step": 86000
    },
    {
      "epoch": 0.46080248886615954,
      "grad_norm": 0.7358156442642212,
      "learning_rate": 0.0008502447168276709,
      "loss": 4.2025,
      "step": 86500
    },
    {
      "epoch": 0.463466087067698,
      "grad_norm": 0.8218105435371399,
      "learning_rate": 0.0008493528916539433,
      "loss": 4.2017,
      "step": 87000
    },
    {
      "epoch": 0.4661296852692365,
      "grad_norm": 0.77776700258255,
      "learning_rate": 0.0008484610664802158,
      "loss": 4.1905,
      "step": 87500
    },
    {
      "epoch": 0.468793283470775,
      "grad_norm": 0.6795767545700073,
      "learning_rate": 0.0008475692413064883,
      "loss": 4.1913,
      "step": 88000
    },
    {
      "epoch": 0.4714568816723135,
      "grad_norm": 0.7476922869682312,
      "learning_rate": 0.0008466791997831082,
      "loss": 4.1935,
      "step": 88500
    },
    {
      "epoch": 0.474120479873852,
      "grad_norm": 0.7420318722724915,
      "learning_rate": 0.0008457873746093806,
      "loss": 4.1989,
      "step": 89000
    },
    {
      "epoch": 0.47678407807539047,
      "grad_norm": 0.677543044090271,
      "learning_rate": 0.000844895549435653,
      "loss": 4.1921,
      "step": 89500
    },
    {
      "epoch": 0.47944767627692897,
      "grad_norm": 0.7159215211868286,
      "learning_rate": 0.0008440037242619255,
      "loss": 4.1935,
      "step": 90000
    },
    {
      "epoch": 0.48211127447846747,
      "grad_norm": 0.7259414792060852,
      "learning_rate": 0.0008431136827385454,
      "loss": 4.2041,
      "step": 90500
    },
    {
      "epoch": 0.48477487268000596,
      "grad_norm": 0.6838536262512207,
      "learning_rate": 0.0008422218575648179,
      "loss": 4.1954,
      "step": 91000
    },
    {
      "epoch": 0.48743847088154446,
      "grad_norm": 0.6978190541267395,
      "learning_rate": 0.0008413300323910903,
      "loss": 4.1944,
      "step": 91500
    },
    {
      "epoch": 0.49010206908308296,
      "grad_norm": 0.7434132695198059,
      "learning_rate": 0.0008404382072173627,
      "loss": 4.1932,
      "step": 92000
    },
    {
      "epoch": 0.49276566728462146,
      "grad_norm": 0.6992717981338501,
      "learning_rate": 0.0008395481656939827,
      "loss": 4.1963,
      "step": 92500
    },
    {
      "epoch": 0.49542926548615995,
      "grad_norm": 0.7276673316955566,
      "learning_rate": 0.0008386563405202552,
      "loss": 4.1967,
      "step": 93000
    },
    {
      "epoch": 0.49809286368769845,
      "grad_norm": 0.7243706583976746,
      "learning_rate": 0.0008377645153465277,
      "loss": 4.1938,
      "step": 93500
    },
    {
      "epoch": 0.500756461889237,
      "grad_norm": 0.7238306999206543,
      "learning_rate": 0.0008368726901728001,
      "loss": 4.1944,
      "step": 94000
    },
    {
      "epoch": 0.5034200600907754,
      "grad_norm": 0.7251293063163757,
      "learning_rate": 0.00083598264864942,
      "loss": 4.187,
      "step": 94500
    },
    {
      "epoch": 0.5060836582923139,
      "grad_norm": 0.6981387734413147,
      "learning_rate": 0.0008350908234756924,
      "loss": 4.1942,
      "step": 95000
    },
    {
      "epoch": 0.5087472564938524,
      "grad_norm": 0.7512865662574768,
      "learning_rate": 0.0008341989983019649,
      "loss": 4.1896,
      "step": 95500
    },
    {
      "epoch": 0.5114108546953909,
      "grad_norm": 0.76689213514328,
      "learning_rate": 0.0008333071731282374,
      "loss": 4.1895,
      "step": 96000
    },
    {
      "epoch": 0.5140744528969294,
      "grad_norm": 0.7794478535652161,
      "learning_rate": 0.0008324171316048572,
      "loss": 4.1877,
      "step": 96500
    },
    {
      "epoch": 0.5167380510984679,
      "grad_norm": 0.7624120712280273,
      "learning_rate": 0.0008315253064311297,
      "loss": 4.1905,
      "step": 97000
    },
    {
      "epoch": 0.5194016493000064,
      "grad_norm": 0.812703549861908,
      "learning_rate": 0.0008306334812574021,
      "loss": 4.1918,
      "step": 97500
    },
    {
      "epoch": 0.5220652475015449,
      "grad_norm": 0.7445054054260254,
      "learning_rate": 0.0008297416560836745,
      "loss": 4.1932,
      "step": 98000
    },
    {
      "epoch": 0.5247288457030834,
      "grad_norm": 0.6916468143463135,
      "learning_rate": 0.0008288498309099471,
      "loss": 4.1927,
      "step": 98500
    },
    {
      "epoch": 0.5273924439046219,
      "grad_norm": 0.7391178011894226,
      "learning_rate": 0.000827959789386567,
      "loss": 4.1822,
      "step": 99000
    },
    {
      "epoch": 0.5300560421061604,
      "grad_norm": 0.7245861887931824,
      "learning_rate": 0.0008270679642128395,
      "loss": 4.1897,
      "step": 99500
    },
    {
      "epoch": 0.5327196403076989,
      "grad_norm": 0.7156808376312256,
      "learning_rate": 0.0008261761390391119,
      "loss": 4.186,
      "step": 100000
    },
    {
      "epoch": 0.5353832385092374,
      "grad_norm": 0.7185246348381042,
      "learning_rate": 0.0008252843138653843,
      "loss": 4.182,
      "step": 100500
    },
    {
      "epoch": 0.5380468367107758,
      "grad_norm": 0.7230123281478882,
      "learning_rate": 0.0008243942723420043,
      "loss": 4.1888,
      "step": 101000
    },
    {
      "epoch": 0.5407104349123143,
      "grad_norm": 0.6807687282562256,
      "learning_rate": 0.0008235024471682767,
      "loss": 4.1757,
      "step": 101500
    },
    {
      "epoch": 0.5433740331138528,
      "grad_norm": 0.6942833065986633,
      "learning_rate": 0.0008226106219945492,
      "loss": 4.1818,
      "step": 102000
    },
    {
      "epoch": 0.5460376313153913,
      "grad_norm": 0.7553761601448059,
      "learning_rate": 0.0008217187968208216,
      "loss": 4.1876,
      "step": 102500
    },
    {
      "epoch": 0.5487012295169298,
      "grad_norm": 0.8295273184776306,
      "learning_rate": 0.0008208287552974415,
      "loss": 4.1763,
      "step": 103000
    },
    {
      "epoch": 0.5513648277184683,
      "grad_norm": 0.7182528972625732,
      "learning_rate": 0.000819936930123714,
      "loss": 4.1867,
      "step": 103500
    },
    {
      "epoch": 0.5540284259200068,
      "grad_norm": 0.7191228270530701,
      "learning_rate": 0.0008190451049499864,
      "loss": 4.1822,
      "step": 104000
    },
    {
      "epoch": 0.5566920241215453,
      "grad_norm": 0.7880285382270813,
      "learning_rate": 0.0008181532797762589,
      "loss": 4.178,
      "step": 104500
    },
    {
      "epoch": 0.5593556223230838,
      "grad_norm": 0.7537713050842285,
      "learning_rate": 0.0008172632382528788,
      "loss": 4.1865,
      "step": 105000
    },
    {
      "epoch": 0.5620192205246223,
      "grad_norm": 0.7707012891769409,
      "learning_rate": 0.0008163714130791513,
      "loss": 4.1847,
      "step": 105500
    },
    {
      "epoch": 0.5646828187261608,
      "grad_norm": 0.7433204054832458,
      "learning_rate": 0.0008154795879054238,
      "loss": 4.1778,
      "step": 106000
    },
    {
      "epoch": 0.5673464169276993,
      "grad_norm": 0.760553240776062,
      "learning_rate": 0.0008145877627316962,
      "loss": 4.1804,
      "step": 106500
    },
    {
      "epoch": 0.5700100151292378,
      "grad_norm": 0.744844913482666,
      "learning_rate": 0.0008136977212083161,
      "loss": 4.1809,
      "step": 107000
    },
    {
      "epoch": 0.5726736133307763,
      "grad_norm": 0.7252081036567688,
      "learning_rate": 0.0008128058960345885,
      "loss": 4.1731,
      "step": 107500
    },
    {
      "epoch": 0.5753372115323148,
      "grad_norm": 0.6822036504745483,
      "learning_rate": 0.000811914070860861,
      "loss": 4.1799,
      "step": 108000
    },
    {
      "epoch": 0.5780008097338533,
      "grad_norm": 0.7590454816818237,
      "learning_rate": 0.0008110222456871334,
      "loss": 4.1771,
      "step": 108500
    },
    {
      "epoch": 0.5806644079353918,
      "grad_norm": 0.7851970791816711,
      "learning_rate": 0.0008101322041637535,
      "loss": 4.1762,
      "step": 109000
    },
    {
      "epoch": 0.5833280061369303,
      "grad_norm": 0.7638763785362244,
      "learning_rate": 0.0008092403789900259,
      "loss": 4.1699,
      "step": 109500
    },
    {
      "epoch": 0.5859916043384688,
      "grad_norm": 0.7190741896629333,
      "learning_rate": 0.0008083485538162983,
      "loss": 4.181,
      "step": 110000
    },
    {
      "epoch": 0.5886552025400072,
      "grad_norm": 0.8082555532455444,
      "learning_rate": 0.0008074567286425708,
      "loss": 4.1711,
      "step": 110500
    },
    {
      "epoch": 0.5913188007415457,
      "grad_norm": 0.7326035499572754,
      "learning_rate": 0.0008065666871191906,
      "loss": 4.1743,
      "step": 111000
    },
    {
      "epoch": 0.5939823989430842,
      "grad_norm": 0.7412554621696472,
      "learning_rate": 0.0008056748619454632,
      "loss": 4.1761,
      "step": 111500
    },
    {
      "epoch": 0.5966459971446227,
      "grad_norm": 0.6986061930656433,
      "learning_rate": 0.0008047830367717356,
      "loss": 4.1788,
      "step": 112000
    },
    {
      "epoch": 0.5993095953461612,
      "grad_norm": 0.8155457973480225,
      "learning_rate": 0.000803891211598008,
      "loss": 4.1801,
      "step": 112500
    },
    {
      "epoch": 0.6019731935476997,
      "grad_norm": 0.7332949042320251,
      "learning_rate": 0.0008030011700746279,
      "loss": 4.1678,
      "step": 113000
    },
    {
      "epoch": 0.6046367917492382,
      "grad_norm": 0.8117866516113281,
      "learning_rate": 0.0008021093449009003,
      "loss": 4.1781,
      "step": 113500
    },
    {
      "epoch": 0.6073003899507767,
      "grad_norm": 0.7188646197319031,
      "learning_rate": 0.0008012175197271729,
      "loss": 4.1702,
      "step": 114000
    },
    {
      "epoch": 0.6099639881523152,
      "grad_norm": 0.7319905757904053,
      "learning_rate": 0.0008003256945534453,
      "loss": 4.1709,
      "step": 114500
    },
    {
      "epoch": 0.6126275863538537,
      "grad_norm": 0.7118169069290161,
      "learning_rate": 0.0007994356530300653,
      "loss": 4.1709,
      "step": 115000
    },
    {
      "epoch": 0.6152911845553922,
      "grad_norm": 0.7694860696792603,
      "learning_rate": 0.0007985438278563377,
      "loss": 4.1723,
      "step": 115500
    },
    {
      "epoch": 0.6179547827569307,
      "grad_norm": 0.7366968989372253,
      "learning_rate": 0.0007976520026826101,
      "loss": 4.1676,
      "step": 116000
    },
    {
      "epoch": 0.6206183809584692,
      "grad_norm": 0.7481387257575989,
      "learning_rate": 0.0007967601775088827,
      "loss": 4.1729,
      "step": 116500
    },
    {
      "epoch": 0.6232819791600077,
      "grad_norm": 0.7446570992469788,
      "learning_rate": 0.0007958701359855025,
      "loss": 4.1657,
      "step": 117000
    },
    {
      "epoch": 0.6259455773615462,
      "grad_norm": 0.7612956166267395,
      "learning_rate": 0.000794978310811775,
      "loss": 4.1685,
      "step": 117500
    },
    {
      "epoch": 0.6286091755630847,
      "grad_norm": 0.7427545189857483,
      "learning_rate": 0.0007940864856380474,
      "loss": 4.1685,
      "step": 118000
    },
    {
      "epoch": 0.6312727737646232,
      "grad_norm": 0.7789895534515381,
      "learning_rate": 0.0007931946604643198,
      "loss": 4.1726,
      "step": 118500
    },
    {
      "epoch": 0.6339363719661616,
      "grad_norm": 0.751118540763855,
      "learning_rate": 0.0007923046189409397,
      "loss": 4.1693,
      "step": 119000
    },
    {
      "epoch": 0.6365999701677001,
      "grad_norm": 0.8121469616889954,
      "learning_rate": 0.0007914127937672122,
      "loss": 4.1667,
      "step": 119500
    },
    {
      "epoch": 0.6392635683692386,
      "grad_norm": 0.7127716541290283,
      "learning_rate": 0.0007905209685934847,
      "loss": 4.1604,
      "step": 120000
    },
    {
      "epoch": 0.6419271665707771,
      "grad_norm": 0.7496224045753479,
      "learning_rate": 0.0007896291434197571,
      "loss": 4.1655,
      "step": 120500
    },
    {
      "epoch": 0.6445907647723156,
      "grad_norm": 0.7957298755645752,
      "learning_rate": 0.0007887391018963771,
      "loss": 4.1685,
      "step": 121000
    },
    {
      "epoch": 0.6472543629738541,
      "grad_norm": 0.708066463470459,
      "learning_rate": 0.0007878472767226495,
      "loss": 4.1684,
      "step": 121500
    },
    {
      "epoch": 0.6499179611753926,
      "grad_norm": 0.8204523324966431,
      "learning_rate": 0.000786955451548922,
      "loss": 4.1685,
      "step": 122000
    },
    {
      "epoch": 0.6525815593769311,
      "grad_norm": 0.7236646413803101,
      "learning_rate": 0.0007860636263751945,
      "loss": 4.1692,
      "step": 122500
    },
    {
      "epoch": 0.6552451575784696,
      "grad_norm": 0.7952857613563538,
      "learning_rate": 0.0007851735848518143,
      "loss": 4.1623,
      "step": 123000
    },
    {
      "epoch": 0.6579087557800081,
      "grad_norm": 0.7337407469749451,
      "learning_rate": 0.0007842817596780868,
      "loss": 4.1675,
      "step": 123500
    },
    {
      "epoch": 0.6605723539815466,
      "grad_norm": 0.740993082523346,
      "learning_rate": 0.0007833899345043592,
      "loss": 4.1643,
      "step": 124000
    },
    {
      "epoch": 0.6632359521830851,
      "grad_norm": 0.7212578654289246,
      "learning_rate": 0.0007824981093306317,
      "loss": 4.1656,
      "step": 124500
    },
    {
      "epoch": 0.6658995503846236,
      "grad_norm": 0.7532219886779785,
      "learning_rate": 0.0007816080678072516,
      "loss": 4.1682,
      "step": 125000
    },
    {
      "epoch": 0.6685631485861621,
      "grad_norm": 0.759222686290741,
      "learning_rate": 0.000780716242633524,
      "loss": 4.165,
      "step": 125500
    },
    {
      "epoch": 0.6712267467877006,
      "grad_norm": 0.7389349937438965,
      "learning_rate": 0.0007798244174597965,
      "loss": 4.1623,
      "step": 126000
    },
    {
      "epoch": 0.673890344989239,
      "grad_norm": 0.7558398246765137,
      "learning_rate": 0.0007789325922860689,
      "loss": 4.165,
      "step": 126500
    },
    {
      "epoch": 0.6765539431907776,
      "grad_norm": 0.778786838054657,
      "learning_rate": 0.0007780425507626889,
      "loss": 4.1636,
      "step": 127000
    },
    {
      "epoch": 0.679217541392316,
      "grad_norm": 0.7308077812194824,
      "learning_rate": 0.0007771507255889614,
      "loss": 4.1609,
      "step": 127500
    },
    {
      "epoch": 0.6818811395938545,
      "grad_norm": 0.7642717361450195,
      "learning_rate": 0.0007762589004152338,
      "loss": 4.1623,
      "step": 128000
    },
    {
      "epoch": 0.684544737795393,
      "grad_norm": 0.7278922200202942,
      "learning_rate": 0.0007753670752415063,
      "loss": 4.1636,
      "step": 128500
    },
    {
      "epoch": 0.6872083359969315,
      "grad_norm": 0.7422888278961182,
      "learning_rate": 0.0007744770337181261,
      "loss": 4.1542,
      "step": 129000
    },
    {
      "epoch": 0.68987193419847,
      "grad_norm": 0.7136949896812439,
      "learning_rate": 0.0007735852085443986,
      "loss": 4.1579,
      "step": 129500
    },
    {
      "epoch": 0.6925355324000085,
      "grad_norm": 0.7696181535720825,
      "learning_rate": 0.0007726933833706711,
      "loss": 4.1615,
      "step": 130000
    },
    {
      "epoch": 0.695199130601547,
      "grad_norm": 0.7375788688659668,
      "learning_rate": 0.0007718015581969435,
      "loss": 4.1625,
      "step": 130500
    },
    {
      "epoch": 0.6978627288030855,
      "grad_norm": 0.7175765037536621,
      "learning_rate": 0.0007709115166735635,
      "loss": 4.1562,
      "step": 131000
    },
    {
      "epoch": 0.700526327004624,
      "grad_norm": 0.7179591655731201,
      "learning_rate": 0.000770019691499836,
      "loss": 4.1604,
      "step": 131500
    },
    {
      "epoch": 0.7031899252061625,
      "grad_norm": 0.7693660259246826,
      "learning_rate": 0.0007691278663261084,
      "loss": 4.1623,
      "step": 132000
    },
    {
      "epoch": 0.705853523407701,
      "grad_norm": 0.7547662854194641,
      "learning_rate": 0.0007682360411523809,
      "loss": 4.1604,
      "step": 132500
    },
    {
      "epoch": 0.7085171216092395,
      "grad_norm": 0.7436234951019287,
      "learning_rate": 0.0007673459996290008,
      "loss": 4.159,
      "step": 133000
    },
    {
      "epoch": 0.711180719810778,
      "grad_norm": 0.7248745560646057,
      "learning_rate": 0.0007664541744552732,
      "loss": 4.155,
      "step": 133500
    },
    {
      "epoch": 0.7138443180123165,
      "grad_norm": 0.7338257431983948,
      "learning_rate": 0.0007655623492815456,
      "loss": 4.1573,
      "step": 134000
    },
    {
      "epoch": 0.716507916213855,
      "grad_norm": 0.7636457085609436,
      "learning_rate": 0.0007646705241078181,
      "loss": 4.1568,
      "step": 134500
    },
    {
      "epoch": 0.7191715144153935,
      "grad_norm": 0.7198740243911743,
      "learning_rate": 0.000763780482584438,
      "loss": 4.1597,
      "step": 135000
    },
    {
      "epoch": 0.721835112616932,
      "grad_norm": 0.7390605807304382,
      "learning_rate": 0.0007628886574107105,
      "loss": 4.1471,
      "step": 135500
    },
    {
      "epoch": 0.7244987108184705,
      "grad_norm": 0.7730891108512878,
      "learning_rate": 0.0007619968322369829,
      "loss": 4.1518,
      "step": 136000
    },
    {
      "epoch": 0.727162309020009,
      "grad_norm": 0.7512543797492981,
      "learning_rate": 0.0007611050070632553,
      "loss": 4.1602,
      "step": 136500
    },
    {
      "epoch": 0.7298259072215475,
      "grad_norm": 0.7366748452186584,
      "learning_rate": 0.0007602149655398753,
      "loss": 4.1583,
      "step": 137000
    },
    {
      "epoch": 0.7324895054230859,
      "grad_norm": 0.7468605041503906,
      "learning_rate": 0.0007593231403661477,
      "loss": 4.1535,
      "step": 137500
    },
    {
      "epoch": 0.7351531036246244,
      "grad_norm": 0.7176985144615173,
      "learning_rate": 0.0007584313151924203,
      "loss": 4.1525,
      "step": 138000
    },
    {
      "epoch": 0.7378167018261629,
      "grad_norm": 0.7422710657119751,
      "learning_rate": 0.0007575394900186927,
      "loss": 4.1507,
      "step": 138500
    },
    {
      "epoch": 0.7404803000277014,
      "grad_norm": 0.7459094524383545,
      "learning_rate": 0.0007566494484953126,
      "loss": 4.1541,
      "step": 139000
    },
    {
      "epoch": 0.7431438982292399,
      "grad_norm": 0.7306596636772156,
      "learning_rate": 0.000755757623321585,
      "loss": 4.1502,
      "step": 139500
    },
    {
      "epoch": 0.7458074964307784,
      "grad_norm": 0.7191296219825745,
      "learning_rate": 0.0007548657981478574,
      "loss": 4.1483,
      "step": 140000
    },
    {
      "epoch": 0.7484710946323169,
      "grad_norm": 0.7819980382919312,
      "learning_rate": 0.00075397397297413,
      "loss": 4.1589,
      "step": 140500
    },
    {
      "epoch": 0.7511346928338554,
      "grad_norm": 0.7624921202659607,
      "learning_rate": 0.0007530839314507498,
      "loss": 4.1531,
      "step": 141000
    },
    {
      "epoch": 0.7537982910353939,
      "grad_norm": 0.7341359257698059,
      "learning_rate": 0.0007521921062770223,
      "loss": 4.1514,
      "step": 141500
    },
    {
      "epoch": 0.7564618892369324,
      "grad_norm": 0.7539492249488831,
      "learning_rate": 0.0007513002811032947,
      "loss": 4.153,
      "step": 142000
    },
    {
      "epoch": 0.7591254874384709,
      "grad_norm": 0.7897160053253174,
      "learning_rate": 0.0007504084559295671,
      "loss": 4.1462,
      "step": 142500
    },
    {
      "epoch": 0.7617890856400094,
      "grad_norm": 0.7714428901672363,
      "learning_rate": 0.0007495184144061872,
      "loss": 4.1436,
      "step": 143000
    },
    {
      "epoch": 0.7644526838415479,
      "grad_norm": 0.8038801550865173,
      "learning_rate": 0.0007486265892324597,
      "loss": 4.1506,
      "step": 143500
    },
    {
      "epoch": 0.7671162820430864,
      "grad_norm": 0.7296925187110901,
      "learning_rate": 0.0007477347640587321,
      "loss": 4.1493,
      "step": 144000
    },
    {
      "epoch": 0.7697798802446248,
      "grad_norm": 0.7423230409622192,
      "learning_rate": 0.0007468429388850045,
      "loss": 4.1464,
      "step": 144500
    },
    {
      "epoch": 0.7724434784461633,
      "grad_norm": 0.7713762521743774,
      "learning_rate": 0.0007459528973616244,
      "loss": 4.151,
      "step": 145000
    },
    {
      "epoch": 0.7751070766477018,
      "grad_norm": 0.7986962199211121,
      "learning_rate": 0.0007450610721878969,
      "loss": 4.1448,
      "step": 145500
    },
    {
      "epoch": 0.7777706748492403,
      "grad_norm": 0.794867217540741,
      "learning_rate": 0.0007441692470141694,
      "loss": 4.1523,
      "step": 146000
    },
    {
      "epoch": 0.7804342730507788,
      "grad_norm": 0.7599649429321289,
      "learning_rate": 0.0007432774218404418,
      "loss": 4.1454,
      "step": 146500
    },
    {
      "epoch": 0.7830978712523173,
      "grad_norm": 0.7340590357780457,
      "learning_rate": 0.0007423873803170616,
      "loss": 4.144,
      "step": 147000
    },
    {
      "epoch": 0.7857614694538558,
      "grad_norm": 0.7674250602722168,
      "learning_rate": 0.0007414955551433341,
      "loss": 4.1502,
      "step": 147500
    },
    {
      "epoch": 0.7884250676553943,
      "grad_norm": 0.7552058696746826,
      "learning_rate": 0.0007406037299696065,
      "loss": 4.1453,
      "step": 148000
    },
    {
      "epoch": 0.7910886658569328,
      "grad_norm": 0.7295849323272705,
      "learning_rate": 0.0007397119047958791,
      "loss": 4.1506,
      "step": 148500
    },
    {
      "epoch": 0.7937522640584713,
      "grad_norm": 0.754206120967865,
      "learning_rate": 0.000738821863272499,
      "loss": 4.1452,
      "step": 149000
    },
    {
      "epoch": 0.7964158622600098,
      "grad_norm": 0.8196142911911011,
      "learning_rate": 0.0007379300380987715,
      "loss": 4.153,
      "step": 149500
    },
    {
      "epoch": 0.7990794604615483,
      "grad_norm": 0.7535151243209839,
      "learning_rate": 0.0007370382129250439,
      "loss": 4.1493,
      "step": 150000
    },
    {
      "epoch": 0.8017430586630868,
      "grad_norm": 0.8634600043296814,
      "learning_rate": 0.0007361463877513163,
      "loss": 4.1483,
      "step": 150500
    },
    {
      "epoch": 0.8044066568646253,
      "grad_norm": 0.7539383769035339,
      "learning_rate": 0.0007352563462279363,
      "loss": 4.1511,
      "step": 151000
    },
    {
      "epoch": 0.8070702550661638,
      "grad_norm": 0.7170119881629944,
      "learning_rate": 0.0007343645210542087,
      "loss": 4.1504,
      "step": 151500
    },
    {
      "epoch": 0.8097338532677023,
      "grad_norm": 0.7679442763328552,
      "learning_rate": 0.0007334726958804812,
      "loss": 4.1455,
      "step": 152000
    },
    {
      "epoch": 0.8123974514692408,
      "grad_norm": 0.7368362545967102,
      "learning_rate": 0.0007325808707067536,
      "loss": 4.1481,
      "step": 152500
    },
    {
      "epoch": 0.8150610496707793,
      "grad_norm": 0.7174336910247803,
      "learning_rate": 0.000731689045533026,
      "loss": 4.1451,
      "step": 153000
    },
    {
      "epoch": 0.8177246478723178,
      "grad_norm": 0.7762460708618164,
      "learning_rate": 0.0007307990040096461,
      "loss": 4.1437,
      "step": 153500
    },
    {
      "epoch": 0.8203882460738563,
      "grad_norm": 0.6886820197105408,
      "learning_rate": 0.0007299071788359185,
      "loss": 4.1429,
      "step": 154000
    },
    {
      "epoch": 0.8230518442753948,
      "grad_norm": 0.7819857597351074,
      "learning_rate": 0.000729015353662191,
      "loss": 4.1408,
      "step": 154500
    },
    {
      "epoch": 0.8257154424769333,
      "grad_norm": 0.78780198097229,
      "learning_rate": 0.0007281235284884634,
      "loss": 4.147,
      "step": 155000
    },
    {
      "epoch": 0.8283790406784717,
      "grad_norm": 0.7623980045318604,
      "learning_rate": 0.0007272334869650833,
      "loss": 4.1449,
      "step": 155500
    },
    {
      "epoch": 0.8310426388800102,
      "grad_norm": 0.7452903389930725,
      "learning_rate": 0.0007263416617913558,
      "loss": 4.1444,
      "step": 156000
    },
    {
      "epoch": 0.8337062370815487,
      "grad_norm": 0.7188674807548523,
      "learning_rate": 0.0007254498366176282,
      "loss": 4.1378,
      "step": 156500
    },
    {
      "epoch": 0.8363698352830872,
      "grad_norm": 0.7653003931045532,
      "learning_rate": 0.0007245580114439007,
      "loss": 4.1454,
      "step": 157000
    },
    {
      "epoch": 0.8390334334846257,
      "grad_norm": 0.7343904376029968,
      "learning_rate": 0.0007236679699205205,
      "loss": 4.1479,
      "step": 157500
    },
    {
      "epoch": 0.8416970316861642,
      "grad_norm": 0.7688188552856445,
      "learning_rate": 0.000722776144746793,
      "loss": 4.1353,
      "step": 158000
    },
    {
      "epoch": 0.8443606298877027,
      "grad_norm": 0.7669944167137146,
      "learning_rate": 0.0007218843195730654,
      "loss": 4.1369,
      "step": 158500
    },
    {
      "epoch": 0.8470242280892412,
      "grad_norm": 0.7605074048042297,
      "learning_rate": 0.0007209924943993379,
      "loss": 4.1446,
      "step": 159000
    },
    {
      "epoch": 0.8496878262907797,
      "grad_norm": 0.7343530058860779,
      "learning_rate": 0.0007201024528759579,
      "loss": 4.1409,
      "step": 159500
    },
    {
      "epoch": 0.8523514244923182,
      "grad_norm": 0.7942246198654175,
      "learning_rate": 0.0007192106277022303,
      "loss": 4.144,
      "step": 160000
    },
    {
      "epoch": 0.8550150226938567,
      "grad_norm": 0.7736623287200928,
      "learning_rate": 0.0007183188025285028,
      "loss": 4.141,
      "step": 160500
    },
    {
      "epoch": 0.8576786208953951,
      "grad_norm": 0.7663691639900208,
      "learning_rate": 0.0007174269773547752,
      "loss": 4.1434,
      "step": 161000
    },
    {
      "epoch": 0.8603422190969336,
      "grad_norm": 0.7635341286659241,
      "learning_rate": 0.0007165369358313952,
      "loss": 4.1439,
      "step": 161500
    },
    {
      "epoch": 0.8630058172984721,
      "grad_norm": 0.797211766242981,
      "learning_rate": 0.0007156451106576676,
      "loss": 4.1331,
      "step": 162000
    },
    {
      "epoch": 0.8656694155000106,
      "grad_norm": 0.7563562393188477,
      "learning_rate": 0.00071475328548394,
      "loss": 4.1429,
      "step": 162500
    },
    {
      "epoch": 0.8683330137015491,
      "grad_norm": 0.7162951827049255,
      "learning_rate": 0.0007138614603102125,
      "loss": 4.1389,
      "step": 163000
    },
    {
      "epoch": 0.8709966119030876,
      "grad_norm": 0.7123258709907532,
      "learning_rate": 0.0007129714187868323,
      "loss": 4.136,
      "step": 163500
    },
    {
      "epoch": 0.8736602101046261,
      "grad_norm": 0.728543221950531,
      "learning_rate": 0.0007120795936131049,
      "loss": 4.1325,
      "step": 164000
    },
    {
      "epoch": 0.8763238083061646,
      "grad_norm": 0.7728511691093445,
      "learning_rate": 0.0007111877684393773,
      "loss": 4.1348,
      "step": 164500
    },
    {
      "epoch": 0.8789874065077031,
      "grad_norm": 0.7468729019165039,
      "learning_rate": 0.0007102959432656497,
      "loss": 4.1361,
      "step": 165000
    },
    {
      "epoch": 0.8816510047092416,
      "grad_norm": 0.7346534132957458,
      "learning_rate": 0.0007094059017422697,
      "loss": 4.1396,
      "step": 165500
    },
    {
      "epoch": 0.8843146029107801,
      "grad_norm": 0.7773277759552002,
      "learning_rate": 0.0007085140765685421,
      "loss": 4.1401,
      "step": 166000
    },
    {
      "epoch": 0.8869782011123186,
      "grad_norm": 0.709701657295227,
      "learning_rate": 0.0007076222513948147,
      "loss": 4.1317,
      "step": 166500
    },
    {
      "epoch": 0.8896417993138571,
      "grad_norm": 0.7487180233001709,
      "learning_rate": 0.0007067304262210871,
      "loss": 4.13,
      "step": 167000
    },
    {
      "epoch": 0.8923053975153956,
      "grad_norm": 0.7227104306221008,
      "learning_rate": 0.000705840384697707,
      "loss": 4.1367,
      "step": 167500
    },
    {
      "epoch": 0.8949689957169341,
      "grad_norm": 0.7912375330924988,
      "learning_rate": 0.0007049485595239794,
      "loss": 4.1294,
      "step": 168000
    },
    {
      "epoch": 0.8976325939184726,
      "grad_norm": 0.8671672344207764,
      "learning_rate": 0.0007040567343502518,
      "loss": 4.129,
      "step": 168500
    },
    {
      "epoch": 0.9002961921200111,
      "grad_norm": 0.7554329633712769,
      "learning_rate": 0.0007031649091765244,
      "loss": 4.1381,
      "step": 169000
    },
    {
      "epoch": 0.9029597903215496,
      "grad_norm": 0.7798919081687927,
      "learning_rate": 0.0007022748676531442,
      "loss": 4.1297,
      "step": 169500
    },
    {
      "epoch": 0.9056233885230881,
      "grad_norm": 0.7176423668861389,
      "learning_rate": 0.0007013830424794167,
      "loss": 4.132,
      "step": 170000
    },
    {
      "epoch": 0.9082869867246266,
      "grad_norm": 0.7016908526420593,
      "learning_rate": 0.0007004912173056891,
      "loss": 4.132,
      "step": 170500
    },
    {
      "epoch": 0.9109505849261651,
      "grad_norm": 0.7394859790802002,
      "learning_rate": 0.0006995993921319615,
      "loss": 4.1337,
      "step": 171000
    },
    {
      "epoch": 0.9136141831277036,
      "grad_norm": 0.745543897151947,
      "learning_rate": 0.0006987093506085815,
      "loss": 4.1316,
      "step": 171500
    },
    {
      "epoch": 0.9162777813292421,
      "grad_norm": 0.7842167019844055,
      "learning_rate": 0.000697817525434854,
      "loss": 4.1314,
      "step": 172000
    },
    {
      "epoch": 0.9189413795307806,
      "grad_norm": 0.7487747073173523,
      "learning_rate": 0.0006969257002611265,
      "loss": 4.1281,
      "step": 172500
    },
    {
      "epoch": 0.9216049777323191,
      "grad_norm": 0.737399160861969,
      "learning_rate": 0.0006960338750873989,
      "loss": 4.1325,
      "step": 173000
    },
    {
      "epoch": 0.9242685759338576,
      "grad_norm": 0.7666307687759399,
      "learning_rate": 0.0006951438335640188,
      "loss": 4.1333,
      "step": 173500
    },
    {
      "epoch": 0.926932174135396,
      "grad_norm": 0.7485344409942627,
      "learning_rate": 0.0006942520083902912,
      "loss": 4.1317,
      "step": 174000
    },
    {
      "epoch": 0.9295957723369345,
      "grad_norm": 0.7282237410545349,
      "learning_rate": 0.0006933601832165637,
      "loss": 4.1326,
      "step": 174500
    },
    {
      "epoch": 0.932259370538473,
      "grad_norm": 0.7747819423675537,
      "learning_rate": 0.0006924701416931836,
      "loss": 4.1362,
      "step": 175000
    },
    {
      "epoch": 0.9349229687400115,
      "grad_norm": 0.7578604817390442,
      "learning_rate": 0.000691578316519456,
      "loss": 4.1383,
      "step": 175500
    },
    {
      "epoch": 0.93758656694155,
      "grad_norm": 0.7957220673561096,
      "learning_rate": 0.0006906864913457285,
      "loss": 4.128,
      "step": 176000
    },
    {
      "epoch": 0.9402501651430885,
      "grad_norm": 0.7936584949493408,
      "learning_rate": 0.000689794666172001,
      "loss": 4.122,
      "step": 176500
    },
    {
      "epoch": 0.942913763344627,
      "grad_norm": 0.8081178069114685,
      "learning_rate": 0.0006889028409982735,
      "loss": 4.1298,
      "step": 177000
    },
    {
      "epoch": 0.9455773615461655,
      "grad_norm": 0.7892795205116272,
      "learning_rate": 0.000688011015824546,
      "loss": 4.1267,
      "step": 177500
    },
    {
      "epoch": 0.948240959747704,
      "grad_norm": 0.7274259328842163,
      "learning_rate": 0.0006871191906508184,
      "loss": 4.1232,
      "step": 178000
    },
    {
      "epoch": 0.9509045579492424,
      "grad_norm": 0.7544950246810913,
      "learning_rate": 0.0006862291491274383,
      "loss": 4.1267,
      "step": 178500
    },
    {
      "epoch": 0.9535681561507809,
      "grad_norm": 0.798841655254364,
      "learning_rate": 0.0006853373239537107,
      "loss": 4.1328,
      "step": 179000
    },
    {
      "epoch": 0.9562317543523194,
      "grad_norm": 0.7239564657211304,
      "learning_rate": 0.0006844454987799832,
      "loss": 4.1336,
      "step": 179500
    },
    {
      "epoch": 0.9588953525538579,
      "grad_norm": 0.8423783779144287,
      "learning_rate": 0.0006835536736062557,
      "loss": 4.1286,
      "step": 180000
    },
    {
      "epoch": 0.9615589507553964,
      "grad_norm": 0.7887551784515381,
      "learning_rate": 0.0006826618484325281,
      "loss": 4.1199,
      "step": 180500
    },
    {
      "epoch": 0.9642225489569349,
      "grad_norm": 0.7365000247955322,
      "learning_rate": 0.0006817700232588005,
      "loss": 4.1321,
      "step": 181000
    },
    {
      "epoch": 0.9668861471584734,
      "grad_norm": 0.7989848256111145,
      "learning_rate": 0.0006808799817354204,
      "loss": 4.1327,
      "step": 181500
    },
    {
      "epoch": 0.9695497453600119,
      "grad_norm": 0.7484691143035889,
      "learning_rate": 0.0006799881565616928,
      "loss": 4.1239,
      "step": 182000
    },
    {
      "epoch": 0.9722133435615504,
      "grad_norm": 0.8183499574661255,
      "learning_rate": 0.0006790963313879654,
      "loss": 4.1253,
      "step": 182500
    },
    {
      "epoch": 0.9748769417630889,
      "grad_norm": 0.7121425271034241,
      "learning_rate": 0.0006782045062142378,
      "loss": 4.1342,
      "step": 183000
    },
    {
      "epoch": 0.9775405399646274,
      "grad_norm": 0.7777406573295593,
      "learning_rate": 0.0006773144646908578,
      "loss": 4.1286,
      "step": 183500
    },
    {
      "epoch": 0.9802041381661659,
      "grad_norm": 0.7477155327796936,
      "learning_rate": 0.0006764226395171302,
      "loss": 4.1278,
      "step": 184000
    },
    {
      "epoch": 0.9828677363677044,
      "grad_norm": 0.8153510093688965,
      "learning_rate": 0.0006755308143434026,
      "loss": 4.1232,
      "step": 184500
    },
    {
      "epoch": 0.9855313345692429,
      "grad_norm": 0.7904220819473267,
      "learning_rate": 0.0006746389891696752,
      "loss": 4.1283,
      "step": 185000
    },
    {
      "epoch": 0.9881949327707814,
      "grad_norm": 0.8383620977401733,
      "learning_rate": 0.0006737471639959476,
      "loss": 4.1334,
      "step": 185500
    },
    {
      "epoch": 0.9908585309723199,
      "grad_norm": 0.7521381378173828,
      "learning_rate": 0.0006728571224725675,
      "loss": 4.1339,
      "step": 186000
    },
    {
      "epoch": 0.9935221291738584,
      "grad_norm": 0.7851571440696716,
      "learning_rate": 0.0006719652972988399,
      "loss": 4.1289,
      "step": 186500
    },
    {
      "epoch": 0.9961857273753969,
      "grad_norm": 0.7758961319923401,
      "learning_rate": 0.0006710734721251123,
      "loss": 4.1294,
      "step": 187000
    },
    {
      "epoch": 0.9988493255769354,
      "grad_norm": 0.7806641459465027,
      "learning_rate": 0.0006701816469513849,
      "loss": 4.1285,
      "step": 187500
    },
    {
      "epoch": 1.001512923778474,
      "grad_norm": 0.7453823685646057,
      "learning_rate": 0.0006692916054280047,
      "loss": 4.1283,
      "step": 188000
    },
    {
      "epoch": 1.0041765219800123,
      "grad_norm": 0.7377151846885681,
      "learning_rate": 0.0006683997802542772,
      "loss": 4.1297,
      "step": 188500
    },
    {
      "epoch": 1.006840120181551,
      "grad_norm": 0.7941287755966187,
      "learning_rate": 0.0006675079550805496,
      "loss": 4.1212,
      "step": 189000
    },
    {
      "epoch": 1.0095037183830893,
      "grad_norm": 0.767425000667572,
      "learning_rate": 0.000666616129906822,
      "loss": 4.1229,
      "step": 189500
    },
    {
      "epoch": 1.0121673165846279,
      "grad_norm": 0.7483153343200684,
      "learning_rate": 0.0006657243047330946,
      "loss": 4.1242,
      "step": 190000
    },
    {
      "epoch": 1.0148309147861663,
      "grad_norm": 0.7890580892562866,
      "learning_rate": 0.0006648342632097145,
      "loss": 4.1306,
      "step": 190500
    },
    {
      "epoch": 1.0174945129877049,
      "grad_norm": 0.7415242791175842,
      "learning_rate": 0.000663942438035987,
      "loss": 4.1285,
      "step": 191000
    },
    {
      "epoch": 1.0201581111892433,
      "grad_norm": 0.7596645951271057,
      "learning_rate": 0.0006630506128622594,
      "loss": 4.1258,
      "step": 191500
    },
    {
      "epoch": 1.0228217093907819,
      "grad_norm": 0.8304431438446045,
      "learning_rate": 0.0006621587876885318,
      "loss": 4.1232,
      "step": 192000
    },
    {
      "epoch": 1.0254853075923203,
      "grad_norm": 0.77840656042099,
      "learning_rate": 0.0006612687461651517,
      "loss": 4.1195,
      "step": 192500
    },
    {
      "epoch": 1.0281489057938589,
      "grad_norm": 0.7862575650215149,
      "learning_rate": 0.0006603769209914242,
      "loss": 4.1258,
      "step": 193000
    },
    {
      "epoch": 1.0308125039953973,
      "grad_norm": 0.7667100429534912,
      "learning_rate": 0.0006594850958176967,
      "loss": 4.1185,
      "step": 193500
    },
    {
      "epoch": 1.0334761021969359,
      "grad_norm": 0.7835633754730225,
      "learning_rate": 0.0006585932706439691,
      "loss": 4.1224,
      "step": 194000
    },
    {
      "epoch": 1.0361397003984743,
      "grad_norm": 0.7486304640769958,
      "learning_rate": 0.000657703229120589,
      "loss": 4.124,
      "step": 194500
    },
    {
      "epoch": 1.0388032986000129,
      "grad_norm": 0.7897284030914307,
      "learning_rate": 0.0006568114039468614,
      "loss": 4.1203,
      "step": 195000
    },
    {
      "epoch": 1.0414668968015512,
      "grad_norm": 0.7997919321060181,
      "learning_rate": 0.0006559195787731339,
      "loss": 4.1202,
      "step": 195500
    },
    {
      "epoch": 1.0441304950030899,
      "grad_norm": 0.7987415194511414,
      "learning_rate": 0.0006550277535994064,
      "loss": 4.1231,
      "step": 196000
    },
    {
      "epoch": 1.0467940932046282,
      "grad_norm": 0.7434735894203186,
      "learning_rate": 0.0006541377120760263,
      "loss": 4.1196,
      "step": 196500
    },
    {
      "epoch": 1.0494576914061668,
      "grad_norm": 0.806969404220581,
      "learning_rate": 0.0006532458869022988,
      "loss": 4.1185,
      "step": 197000
    },
    {
      "epoch": 1.0521212896077052,
      "grad_norm": 0.8006301522254944,
      "learning_rate": 0.0006523540617285712,
      "loss": 4.1209,
      "step": 197500
    },
    {
      "epoch": 1.0547848878092438,
      "grad_norm": 0.759758472442627,
      "learning_rate": 0.0006514622365548438,
      "loss": 4.1194,
      "step": 198000
    },
    {
      "epoch": 1.0574484860107822,
      "grad_norm": 0.8778506517410278,
      "learning_rate": 0.0006505704113811162,
      "loss": 4.1293,
      "step": 198500
    },
    {
      "epoch": 1.0601120842123208,
      "grad_norm": 0.7795832753181458,
      "learning_rate": 0.000649680369857736,
      "loss": 4.1152,
      "step": 199000
    },
    {
      "epoch": 1.0627756824138592,
      "grad_norm": 0.7928754687309265,
      "learning_rate": 0.0006487885446840085,
      "loss": 4.1177,
      "step": 199500
    },
    {
      "epoch": 1.0654392806153978,
      "grad_norm": 0.8119847774505615,
      "learning_rate": 0.0006478967195102809,
      "loss": 4.1205,
      "step": 200000
    },
    {
      "epoch": 1.0681028788169362,
      "grad_norm": 0.739378035068512,
      "learning_rate": 0.0006470048943365535,
      "loss": 4.1111,
      "step": 200500
    },
    {
      "epoch": 1.0707664770184748,
      "grad_norm": 0.7906088829040527,
      "learning_rate": 0.0006461148528131734,
      "loss": 4.1186,
      "step": 201000
    },
    {
      "epoch": 1.0734300752200132,
      "grad_norm": 0.7810208797454834,
      "learning_rate": 0.0006452230276394459,
      "loss": 4.1204,
      "step": 201500
    },
    {
      "epoch": 1.0760936734215516,
      "grad_norm": 0.741383969783783,
      "learning_rate": 0.0006443312024657183,
      "loss": 4.1222,
      "step": 202000
    },
    {
      "epoch": 1.0787572716230902,
      "grad_norm": 0.7824720740318298,
      "learning_rate": 0.0006434393772919907,
      "loss": 4.1174,
      "step": 202500
    },
    {
      "epoch": 1.0814208698246286,
      "grad_norm": 0.7920011281967163,
      "learning_rate": 0.0006425493357686106,
      "loss": 4.1196,
      "step": 203000
    },
    {
      "epoch": 1.0840844680261672,
      "grad_norm": 0.792914628982544,
      "learning_rate": 0.0006416575105948831,
      "loss": 4.1153,
      "step": 203500
    },
    {
      "epoch": 1.0867480662277056,
      "grad_norm": 0.7724523544311523,
      "learning_rate": 0.0006407656854211556,
      "loss": 4.1105,
      "step": 204000
    },
    {
      "epoch": 1.0894116644292442,
      "grad_norm": 0.7834595441818237,
      "learning_rate": 0.000639873860247428,
      "loss": 4.1179,
      "step": 204500
    },
    {
      "epoch": 1.0920752626307826,
      "grad_norm": 0.8056479096412659,
      "learning_rate": 0.0006389838187240478,
      "loss": 4.1126,
      "step": 205000
    },
    {
      "epoch": 1.0947388608323212,
      "grad_norm": 0.7697902321815491,
      "learning_rate": 0.0006380919935503203,
      "loss": 4.1193,
      "step": 205500
    },
    {
      "epoch": 1.0974024590338596,
      "grad_norm": 0.7807758450508118,
      "learning_rate": 0.0006372001683765928,
      "loss": 4.1192,
      "step": 206000
    },
    {
      "epoch": 1.1000660572353982,
      "grad_norm": 0.7408417463302612,
      "learning_rate": 0.0006363083432028652,
      "loss": 4.1119,
      "step": 206500
    },
    {
      "epoch": 1.1027296554369366,
      "grad_norm": 0.9000714421272278,
      "learning_rate": 0.0006354165180291377,
      "loss": 4.1185,
      "step": 207000
    },
    {
      "epoch": 1.1053932536384752,
      "grad_norm": 0.8088692426681519,
      "learning_rate": 0.0006345264765057577,
      "loss": 4.1177,
      "step": 207500
    },
    {
      "epoch": 1.1080568518400136,
      "grad_norm": 0.778122067451477,
      "learning_rate": 0.0006336346513320301,
      "loss": 4.1143,
      "step": 208000
    },
    {
      "epoch": 1.1107204500415522,
      "grad_norm": 0.8222107291221619,
      "learning_rate": 0.0006327428261583026,
      "loss": 4.1136,
      "step": 208500
    },
    {
      "epoch": 1.1133840482430906,
      "grad_norm": 0.7356205582618713,
      "learning_rate": 0.0006318510009845751,
      "loss": 4.1187,
      "step": 209000
    },
    {
      "epoch": 1.1160476464446292,
      "grad_norm": 0.7457647919654846,
      "learning_rate": 0.0006309609594611949,
      "loss": 4.1123,
      "step": 209500
    },
    {
      "epoch": 1.1187112446461676,
      "grad_norm": 0.789622962474823,
      "learning_rate": 0.0006300691342874674,
      "loss": 4.1175,
      "step": 210000
    },
    {
      "epoch": 1.1213748428477062,
      "grad_norm": 0.8369338512420654,
      "learning_rate": 0.0006291773091137398,
      "loss": 4.1147,
      "step": 210500
    },
    {
      "epoch": 1.1240384410492446,
      "grad_norm": 0.8210717439651489,
      "learning_rate": 0.0006282854839400123,
      "loss": 4.1142,
      "step": 211000
    },
    {
      "epoch": 1.1267020392507832,
      "grad_norm": 0.7775838375091553,
      "learning_rate": 0.0006273954424166322,
      "loss": 4.1203,
      "step": 211500
    },
    {
      "epoch": 1.1293656374523215,
      "grad_norm": 0.7949962019920349,
      "learning_rate": 0.0006265036172429046,
      "loss": 4.1139,
      "step": 212000
    },
    {
      "epoch": 1.1320292356538602,
      "grad_norm": 0.7534223794937134,
      "learning_rate": 0.000625611792069177,
      "loss": 4.1177,
      "step": 212500
    },
    {
      "epoch": 1.1346928338553985,
      "grad_norm": 0.8075549602508545,
      "learning_rate": 0.0006247199668954495,
      "loss": 4.1147,
      "step": 213000
    },
    {
      "epoch": 1.1373564320569371,
      "grad_norm": 0.7999294400215149,
      "learning_rate": 0.0006238299253720696,
      "loss": 4.116,
      "step": 213500
    },
    {
      "epoch": 1.1400200302584755,
      "grad_norm": 0.7690563797950745,
      "learning_rate": 0.000622938100198342,
      "loss": 4.1108,
      "step": 214000
    },
    {
      "epoch": 1.1426836284600141,
      "grad_norm": 0.7599471211433411,
      "learning_rate": 0.0006220462750246144,
      "loss": 4.1155,
      "step": 214500
    },
    {
      "epoch": 1.1453472266615525,
      "grad_norm": 0.7433050274848938,
      "learning_rate": 0.0006211544498508869,
      "loss": 4.1172,
      "step": 215000
    },
    {
      "epoch": 1.1480108248630911,
      "grad_norm": 0.781114935874939,
      "learning_rate": 0.0006202644083275067,
      "loss": 4.1084,
      "step": 215500
    },
    {
      "epoch": 1.1506744230646295,
      "grad_norm": 0.7194410562515259,
      "learning_rate": 0.0006193725831537791,
      "loss": 4.1127,
      "step": 216000
    },
    {
      "epoch": 1.1533380212661681,
      "grad_norm": 0.8126916289329529,
      "learning_rate": 0.0006184807579800517,
      "loss": 4.1126,
      "step": 216500
    },
    {
      "epoch": 1.1560016194677065,
      "grad_norm": 0.8229861855506897,
      "learning_rate": 0.0006175889328063241,
      "loss": 4.1121,
      "step": 217000
    },
    {
      "epoch": 1.158665217669245,
      "grad_norm": 0.8246269226074219,
      "learning_rate": 0.000616698891282944,
      "loss": 4.1092,
      "step": 217500
    },
    {
      "epoch": 1.1613288158707835,
      "grad_norm": 0.8146107196807861,
      "learning_rate": 0.0006158070661092164,
      "loss": 4.1091,
      "step": 218000
    },
    {
      "epoch": 1.1639924140723221,
      "grad_norm": 0.7878261208534241,
      "learning_rate": 0.0006149152409354888,
      "loss": 4.1161,
      "step": 218500
    },
    {
      "epoch": 1.1666560122738605,
      "grad_norm": 0.7780360579490662,
      "learning_rate": 0.0006140234157617614,
      "loss": 4.1079,
      "step": 219000
    },
    {
      "epoch": 1.169319610475399,
      "grad_norm": 0.7969585657119751,
      "learning_rate": 0.0006131333742383814,
      "loss": 4.1134,
      "step": 219500
    },
    {
      "epoch": 1.1719832086769375,
      "grad_norm": 0.8402618765830994,
      "learning_rate": 0.0006122415490646538,
      "loss": 4.1143,
      "step": 220000
    },
    {
      "epoch": 1.1746468068784761,
      "grad_norm": 0.7946035861968994,
      "learning_rate": 0.0006113497238909262,
      "loss": 4.114,
      "step": 220500
    },
    {
      "epoch": 1.1773104050800145,
      "grad_norm": 0.7864482402801514,
      "learning_rate": 0.0006104578987171987,
      "loss": 4.1126,
      "step": 221000
    },
    {
      "epoch": 1.1799740032815529,
      "grad_norm": 0.8313577771186829,
      "learning_rate": 0.0006095678571938186,
      "loss": 4.106,
      "step": 221500
    },
    {
      "epoch": 1.1826376014830915,
      "grad_norm": 0.8574484586715698,
      "learning_rate": 0.0006086760320200911,
      "loss": 4.1085,
      "step": 222000
    },
    {
      "epoch": 1.1853011996846299,
      "grad_norm": 0.7599306702613831,
      "learning_rate": 0.0006077842068463635,
      "loss": 4.1071,
      "step": 222500
    },
    {
      "epoch": 1.1879647978861685,
      "grad_norm": 0.7732433676719666,
      "learning_rate": 0.0006068923816726359,
      "loss": 4.1185,
      "step": 223000
    },
    {
      "epoch": 1.1906283960877069,
      "grad_norm": 0.8210047483444214,
      "learning_rate": 0.0006060023401492559,
      "loss": 4.1099,
      "step": 223500
    },
    {
      "epoch": 1.1932919942892455,
      "grad_norm": 0.8054102063179016,
      "learning_rate": 0.0006051105149755284,
      "loss": 4.1181,
      "step": 224000
    },
    {
      "epoch": 1.1959555924907839,
      "grad_norm": 0.7870852947235107,
      "learning_rate": 0.0006042186898018009,
      "loss": 4.1016,
      "step": 224500
    },
    {
      "epoch": 1.1986191906923225,
      "grad_norm": 0.8508167266845703,
      "learning_rate": 0.0006033268646280733,
      "loss": 4.1202,
      "step": 225000
    },
    {
      "epoch": 1.2012827888938609,
      "grad_norm": 0.7744969129562378,
      "learning_rate": 0.0006024368231046932,
      "loss": 4.1094,
      "step": 225500
    },
    {
      "epoch": 1.2039463870953995,
      "grad_norm": 0.7836142778396606,
      "learning_rate": 0.0006015449979309656,
      "loss": 4.1079,
      "step": 226000
    },
    {
      "epoch": 1.2066099852969379,
      "grad_norm": 0.7741486430168152,
      "learning_rate": 0.000600653172757238,
      "loss": 4.1088,
      "step": 226500
    },
    {
      "epoch": 1.2092735834984765,
      "grad_norm": 0.77290940284729,
      "learning_rate": 0.0005997613475835106,
      "loss": 4.1025,
      "step": 227000
    },
    {
      "epoch": 1.2119371817000149,
      "grad_norm": 0.8240610361099243,
      "learning_rate": 0.0005988713060601304,
      "loss": 4.104,
      "step": 227500
    },
    {
      "epoch": 1.2146007799015535,
      "grad_norm": 0.7438703775405884,
      "learning_rate": 0.0005979794808864029,
      "loss": 4.1084,
      "step": 228000
    },
    {
      "epoch": 1.2172643781030918,
      "grad_norm": 0.837753415107727,
      "learning_rate": 0.0005970876557126753,
      "loss": 4.1017,
      "step": 228500
    },
    {
      "epoch": 1.2199279763046305,
      "grad_norm": 0.7918710112571716,
      "learning_rate": 0.0005961958305389477,
      "loss": 4.1094,
      "step": 229000
    },
    {
      "epoch": 1.2225915745061688,
      "grad_norm": 0.8078004121780396,
      "learning_rate": 0.0005953040053652203,
      "loss": 4.1043,
      "step": 229500
    },
    {
      "epoch": 1.2252551727077075,
      "grad_norm": 0.8458930253982544,
      "learning_rate": 0.0005944139638418402,
      "loss": 4.1069,
      "step": 230000
    },
    {
      "epoch": 1.2279187709092458,
      "grad_norm": 0.7811508178710938,
      "learning_rate": 0.0005935221386681127,
      "loss": 4.1071,
      "step": 230500
    },
    {
      "epoch": 1.2305823691107844,
      "grad_norm": 0.8446598649024963,
      "learning_rate": 0.0005926303134943851,
      "loss": 4.1063,
      "step": 231000
    },
    {
      "epoch": 1.2332459673123228,
      "grad_norm": 0.8074429035186768,
      "learning_rate": 0.0005917384883206575,
      "loss": 4.109,
      "step": 231500
    },
    {
      "epoch": 1.2359095655138614,
      "grad_norm": 0.8163787722587585,
      "learning_rate": 0.0005908484467972775,
      "loss": 4.1028,
      "step": 232000
    },
    {
      "epoch": 1.2385731637153998,
      "grad_norm": 0.7774120569229126,
      "learning_rate": 0.0005899566216235499,
      "loss": 4.1084,
      "step": 232500
    },
    {
      "epoch": 1.2412367619169384,
      "grad_norm": 0.7910379767417908,
      "learning_rate": 0.0005890647964498224,
      "loss": 4.1002,
      "step": 233000
    },
    {
      "epoch": 1.2439003601184768,
      "grad_norm": 0.8428027629852295,
      "learning_rate": 0.0005881729712760948,
      "loss": 4.1127,
      "step": 233500
    },
    {
      "epoch": 1.2465639583200154,
      "grad_norm": 0.7961114645004272,
      "learning_rate": 0.0005872829297527147,
      "loss": 4.1046,
      "step": 234000
    },
    {
      "epoch": 1.2492275565215538,
      "grad_norm": 0.8194419145584106,
      "learning_rate": 0.0005863911045789872,
      "loss": 4.1088,
      "step": 234500
    },
    {
      "epoch": 1.2518911547230922,
      "grad_norm": 0.783875584602356,
      "learning_rate": 0.0005854992794052596,
      "loss": 4.1086,
      "step": 235000
    },
    {
      "epoch": 1.2545547529246308,
      "grad_norm": 0.7610777020454407,
      "learning_rate": 0.0005846074542315321,
      "loss": 4.1024,
      "step": 235500
    },
    {
      "epoch": 1.2572183511261694,
      "grad_norm": 0.7696565389633179,
      "learning_rate": 0.000583717412708152,
      "loss": 4.1016,
      "step": 236000
    },
    {
      "epoch": 1.2598819493277078,
      "grad_norm": 0.82817542552948,
      "learning_rate": 0.0005828255875344245,
      "loss": 4.0958,
      "step": 236500
    },
    {
      "epoch": 1.2625455475292462,
      "grad_norm": 0.8974746465682983,
      "learning_rate": 0.0005819337623606969,
      "loss": 4.1077,
      "step": 237000
    },
    {
      "epoch": 1.2652091457307848,
      "grad_norm": 0.7882625460624695,
      "learning_rate": 0.0005810419371869694,
      "loss": 4.1027,
      "step": 237500
    },
    {
      "epoch": 1.2678727439323234,
      "grad_norm": 0.7710665464401245,
      "learning_rate": 0.0005801518956635893,
      "loss": 4.1071,
      "step": 238000
    },
    {
      "epoch": 1.2705363421338618,
      "grad_norm": 0.8462359309196472,
      "learning_rate": 0.0005792600704898617,
      "loss": 4.0993,
      "step": 238500
    },
    {
      "epoch": 1.2731999403354002,
      "grad_norm": 0.7785073518753052,
      "learning_rate": 0.0005783682453161342,
      "loss": 4.1051,
      "step": 239000
    },
    {
      "epoch": 1.2758635385369388,
      "grad_norm": 0.7724746465682983,
      "learning_rate": 0.0005774764201424066,
      "loss": 4.1082,
      "step": 239500
    },
    {
      "epoch": 1.2785271367384774,
      "grad_norm": 0.8276979923248291,
      "learning_rate": 0.0005765863786190266,
      "loss": 4.095,
      "step": 240000
    },
    {
      "epoch": 1.2811907349400158,
      "grad_norm": 0.7959253191947937,
      "learning_rate": 0.000575694553445299,
      "loss": 4.1026,
      "step": 240500
    },
    {
      "epoch": 1.2838543331415542,
      "grad_norm": 0.806239664554596,
      "learning_rate": 0.0005748027282715714,
      "loss": 4.1019,
      "step": 241000
    },
    {
      "epoch": 1.2865179313430928,
      "grad_norm": 0.9089943170547485,
      "learning_rate": 0.0005739109030978439,
      "loss": 4.0955,
      "step": 241500
    },
    {
      "epoch": 1.2891815295446314,
      "grad_norm": 0.8239426612854004,
      "learning_rate": 0.0005730208615744638,
      "loss": 4.1033,
      "step": 242000
    },
    {
      "epoch": 1.2918451277461698,
      "grad_norm": 0.8066053986549377,
      "learning_rate": 0.0005721290364007364,
      "loss": 4.1068,
      "step": 242500
    },
    {
      "epoch": 1.2945087259477082,
      "grad_norm": 0.7600257396697998,
      "learning_rate": 0.0005712372112270088,
      "loss": 4.1006,
      "step": 243000
    },
    {
      "epoch": 1.2971723241492468,
      "grad_norm": 0.7940685749053955,
      "learning_rate": 0.0005703471697036287,
      "loss": 4.1004,
      "step": 243500
    },
    {
      "epoch": 1.2998359223507852,
      "grad_norm": 0.7310413718223572,
      "learning_rate": 0.0005694553445299011,
      "loss": 4.1028,
      "step": 244000
    },
    {
      "epoch": 1.3024995205523238,
      "grad_norm": 0.8132951855659485,
      "learning_rate": 0.0005685635193561735,
      "loss": 4.1104,
      "step": 244500
    },
    {
      "epoch": 1.3051631187538622,
      "grad_norm": 0.8280708193778992,
      "learning_rate": 0.0005676716941824461,
      "loss": 4.1029,
      "step": 245000
    },
    {
      "epoch": 1.3078267169554008,
      "grad_norm": 0.7521162629127502,
      "learning_rate": 0.0005667798690087185,
      "loss": 4.0991,
      "step": 245500
    },
    {
      "epoch": 1.3104903151569391,
      "grad_norm": 0.8909037709236145,
      "learning_rate": 0.0005658880438349909,
      "loss": 4.1005,
      "step": 246000
    },
    {
      "epoch": 1.3131539133584778,
      "grad_norm": 0.8605440855026245,
      "learning_rate": 0.0005649962186612634,
      "loss": 4.0999,
      "step": 246500
    },
    {
      "epoch": 1.3158175115600161,
      "grad_norm": 0.9294172525405884,
      "learning_rate": 0.0005641043934875358,
      "loss": 4.0978,
      "step": 247000
    },
    {
      "epoch": 1.3184811097615547,
      "grad_norm": 0.8271783590316772,
      "learning_rate": 0.0005632143519641559,
      "loss": 4.1005,
      "step": 247500
    },
    {
      "epoch": 1.3211447079630931,
      "grad_norm": 0.7716344594955444,
      "learning_rate": 0.0005623225267904283,
      "loss": 4.0972,
      "step": 248000
    },
    {
      "epoch": 1.3238083061646317,
      "grad_norm": 0.7663143873214722,
      "learning_rate": 0.0005614307016167007,
      "loss": 4.1068,
      "step": 248500
    },
    {
      "epoch": 1.3264719043661701,
      "grad_norm": 0.8361650705337524,
      "learning_rate": 0.0005605388764429732,
      "loss": 4.0955,
      "step": 249000
    },
    {
      "epoch": 1.3291355025677087,
      "grad_norm": 0.8032039403915405,
      "learning_rate": 0.000559648834919593,
      "loss": 4.0981,
      "step": 249500
    },
    {
      "epoch": 1.3317991007692471,
      "grad_norm": 0.7755228281021118,
      "learning_rate": 0.0005587570097458655,
      "loss": 4.0985,
      "step": 250000
    },
    {
      "epoch": 1.3344626989707857,
      "grad_norm": 0.8239076733589172,
      "learning_rate": 0.000557865184572138,
      "loss": 4.102,
      "step": 250500
    },
    {
      "epoch": 1.3371262971723241,
      "grad_norm": 0.849665105342865,
      "learning_rate": 0.0005569733593984104,
      "loss": 4.1022,
      "step": 251000
    },
    {
      "epoch": 1.3397898953738627,
      "grad_norm": 0.7836341857910156,
      "learning_rate": 0.0005560833178750303,
      "loss": 4.0985,
      "step": 251500
    },
    {
      "epoch": 1.3424534935754011,
      "grad_norm": 0.7993196845054626,
      "learning_rate": 0.0005551914927013027,
      "loss": 4.0959,
      "step": 252000
    },
    {
      "epoch": 1.3451170917769395,
      "grad_norm": 0.8100605010986328,
      "learning_rate": 0.0005542996675275752,
      "loss": 4.0938,
      "step": 252500
    },
    {
      "epoch": 1.347780689978478,
      "grad_norm": 0.8267188668251038,
      "learning_rate": 0.0005534078423538477,
      "loss": 4.0975,
      "step": 253000
    },
    {
      "epoch": 1.3504442881800167,
      "grad_norm": 0.7876518964767456,
      "learning_rate": 0.0005525178008304677,
      "loss": 4.0966,
      "step": 253500
    },
    {
      "epoch": 1.353107886381555,
      "grad_norm": 0.8013073801994324,
      "learning_rate": 0.0005516259756567401,
      "loss": 4.0993,
      "step": 254000
    },
    {
      "epoch": 1.3557714845830935,
      "grad_norm": 0.7732263207435608,
      "learning_rate": 0.0005507341504830125,
      "loss": 4.0955,
      "step": 254500
    },
    {
      "epoch": 1.358435082784632,
      "grad_norm": 0.8235819935798645,
      "learning_rate": 0.000549842325309285,
      "loss": 4.0997,
      "step": 255000
    },
    {
      "epoch": 1.3610986809861707,
      "grad_norm": 0.7818782329559326,
      "learning_rate": 0.0005489505001355575,
      "loss": 4.1026,
      "step": 255500
    },
    {
      "epoch": 1.363762279187709,
      "grad_norm": 0.8184423446655273,
      "learning_rate": 0.0005480604586121774,
      "loss": 4.092,
      "step": 256000
    },
    {
      "epoch": 1.3664258773892475,
      "grad_norm": 0.7807801365852356,
      "learning_rate": 0.0005471686334384498,
      "loss": 4.0938,
      "step": 256500
    },
    {
      "epoch": 1.369089475590786,
      "grad_norm": 0.8043480515480042,
      "learning_rate": 0.0005462768082647222,
      "loss": 4.0964,
      "step": 257000
    },
    {
      "epoch": 1.3717530737923247,
      "grad_norm": 0.8113440871238708,
      "learning_rate": 0.0005453849830909947,
      "loss": 4.092,
      "step": 257500
    },
    {
      "epoch": 1.374416671993863,
      "grad_norm": 0.776531994342804,
      "learning_rate": 0.0005444949415676145,
      "loss": 4.1043,
      "step": 258000
    },
    {
      "epoch": 1.3770802701954015,
      "grad_norm": 0.9090542197227478,
      "learning_rate": 0.0005436031163938871,
      "loss": 4.1026,
      "step": 258500
    },
    {
      "epoch": 1.37974386839694,
      "grad_norm": 0.8724551796913147,
      "learning_rate": 0.0005427112912201595,
      "loss": 4.0983,
      "step": 259000
    },
    {
      "epoch": 1.3824074665984787,
      "grad_norm": 0.7889623045921326,
      "learning_rate": 0.0005418194660464319,
      "loss": 4.1027,
      "step": 259500
    },
    {
      "epoch": 1.385071064800017,
      "grad_norm": 0.7813825011253357,
      "learning_rate": 0.0005409294245230519,
      "loss": 4.092,
      "step": 260000
    },
    {
      "epoch": 1.3877346630015555,
      "grad_norm": 0.8187386989593506,
      "learning_rate": 0.0005400393829996718,
      "loss": 4.0955,
      "step": 260500
    },
    {
      "epoch": 1.390398261203094,
      "grad_norm": 0.8593798279762268,
      "learning_rate": 0.0005391475578259443,
      "loss": 4.094,
      "step": 261000
    },
    {
      "epoch": 1.3930618594046325,
      "grad_norm": 0.8074827194213867,
      "learning_rate": 0.0005382557326522167,
      "loss": 4.095,
      "step": 261500
    },
    {
      "epoch": 1.395725457606171,
      "grad_norm": 0.8229965567588806,
      "learning_rate": 0.0005373639074784892,
      "loss": 4.0909,
      "step": 262000
    },
    {
      "epoch": 1.3983890558077094,
      "grad_norm": 0.7867224216461182,
      "learning_rate": 0.0005364720823047616,
      "loss": 4.0934,
      "step": 262500
    },
    {
      "epoch": 1.401052654009248,
      "grad_norm": 0.9083333611488342,
      "learning_rate": 0.000535580257131034,
      "loss": 4.0982,
      "step": 263000
    },
    {
      "epoch": 1.4037162522107864,
      "grad_norm": 0.8077040314674377,
      "learning_rate": 0.0005346884319573066,
      "loss": 4.0949,
      "step": 263500
    },
    {
      "epoch": 1.406379850412325,
      "grad_norm": 0.871181070804596,
      "learning_rate": 0.000533796606783579,
      "loss": 4.096,
      "step": 264000
    },
    {
      "epoch": 1.4090434486138634,
      "grad_norm": 0.8004094958305359,
      "learning_rate": 0.0005329065652601989,
      "loss": 4.0969,
      "step": 264500
    },
    {
      "epoch": 1.411707046815402,
      "grad_norm": 0.8624884486198425,
      "learning_rate": 0.0005320147400864713,
      "loss": 4.0964,
      "step": 265000
    },
    {
      "epoch": 1.4143706450169404,
      "grad_norm": 0.7955045104026794,
      "learning_rate": 0.0005311229149127437,
      "loss": 4.0944,
      "step": 265500
    },
    {
      "epoch": 1.417034243218479,
      "grad_norm": 0.7732199430465698,
      "learning_rate": 0.0005302310897390163,
      "loss": 4.0906,
      "step": 266000
    },
    {
      "epoch": 1.4196978414200174,
      "grad_norm": 0.8164415955543518,
      "learning_rate": 0.0005293410482156362,
      "loss": 4.0887,
      "step": 266500
    },
    {
      "epoch": 1.422361439621556,
      "grad_norm": 0.8961130380630493,
      "learning_rate": 0.0005284492230419087,
      "loss": 4.1001,
      "step": 267000
    },
    {
      "epoch": 1.4250250378230944,
      "grad_norm": 0.8140637874603271,
      "learning_rate": 0.0005275573978681811,
      "loss": 4.0898,
      "step": 267500
    },
    {
      "epoch": 1.427688636024633,
      "grad_norm": 0.8230092525482178,
      "learning_rate": 0.0005266655726944535,
      "loss": 4.0994,
      "step": 268000
    },
    {
      "epoch": 1.4303522342261714,
      "grad_norm": 0.800144612789154,
      "learning_rate": 0.0005257755311710735,
      "loss": 4.0914,
      "step": 268500
    },
    {
      "epoch": 1.43301583242771,
      "grad_norm": 0.8252524733543396,
      "learning_rate": 0.000524883705997346,
      "loss": 4.0944,
      "step": 269000
    },
    {
      "epoch": 1.4356794306292484,
      "grad_norm": 0.7676013708114624,
      "learning_rate": 0.0005239918808236184,
      "loss": 4.092,
      "step": 269500
    },
    {
      "epoch": 1.4383430288307868,
      "grad_norm": 0.8423929810523987,
      "learning_rate": 0.0005231000556498908,
      "loss": 4.0871,
      "step": 270000
    },
    {
      "epoch": 1.4410066270323254,
      "grad_norm": 0.7545808553695679,
      "learning_rate": 0.0005222100141265108,
      "loss": 4.0923,
      "step": 270500
    },
    {
      "epoch": 1.443670225233864,
      "grad_norm": 0.820381224155426,
      "learning_rate": 0.0005213181889527832,
      "loss": 4.0827,
      "step": 271000
    },
    {
      "epoch": 1.4463338234354024,
      "grad_norm": 0.8105764985084534,
      "learning_rate": 0.0005204263637790558,
      "loss": 4.0943,
      "step": 271500
    },
    {
      "epoch": 1.4489974216369408,
      "grad_norm": 0.7974145412445068,
      "learning_rate": 0.0005195345386053282,
      "loss": 4.0852,
      "step": 272000
    },
    {
      "epoch": 1.4516610198384794,
      "grad_norm": 0.7740100026130676,
      "learning_rate": 0.000518644497081948,
      "loss": 4.0943,
      "step": 272500
    },
    {
      "epoch": 1.454324618040018,
      "grad_norm": 0.8262558579444885,
      "learning_rate": 0.0005177526719082205,
      "loss": 4.0889,
      "step": 273000
    },
    {
      "epoch": 1.4569882162415564,
      "grad_norm": 0.8640192747116089,
      "learning_rate": 0.0005168608467344929,
      "loss": 4.0844,
      "step": 273500
    },
    {
      "epoch": 1.4596518144430948,
      "grad_norm": 0.8319873809814453,
      "learning_rate": 0.0005159690215607655,
      "loss": 4.0936,
      "step": 274000
    },
    {
      "epoch": 1.4623154126446334,
      "grad_norm": 0.876741886138916,
      "learning_rate": 0.0005150789800373853,
      "loss": 4.0855,
      "step": 274500
    },
    {
      "epoch": 1.464979010846172,
      "grad_norm": 0.8290923833847046,
      "learning_rate": 0.0005141871548636577,
      "loss": 4.0949,
      "step": 275000
    },
    {
      "epoch": 1.4676426090477104,
      "grad_norm": 0.7827680110931396,
      "learning_rate": 0.0005132953296899302,
      "loss": 4.0821,
      "step": 275500
    },
    {
      "epoch": 1.4703062072492488,
      "grad_norm": 0.8360860347747803,
      "learning_rate": 0.0005124035045162026,
      "loss": 4.0921,
      "step": 276000
    },
    {
      "epoch": 1.4729698054507874,
      "grad_norm": 0.7869288325309753,
      "learning_rate": 0.0005115134629928227,
      "loss": 4.0795,
      "step": 276500
    },
    {
      "epoch": 1.475633403652326,
      "grad_norm": 0.8743867874145508,
      "learning_rate": 0.0005106216378190951,
      "loss": 4.0867,
      "step": 277000
    },
    {
      "epoch": 1.4782970018538644,
      "grad_norm": 0.8454434871673584,
      "learning_rate": 0.0005097298126453676,
      "loss": 4.083,
      "step": 277500
    },
    {
      "epoch": 1.4809606000554028,
      "grad_norm": 0.8108798265457153,
      "learning_rate": 0.00050883798747164,
      "loss": 4.086,
      "step": 278000
    },
    {
      "epoch": 1.4836241982569414,
      "grad_norm": 0.8548552989959717,
      "learning_rate": 0.0005079479459482598,
      "loss": 4.0853,
      "step": 278500
    },
    {
      "epoch": 1.4862877964584797,
      "grad_norm": 0.8752163052558899,
      "learning_rate": 0.0005070561207745324,
      "loss": 4.0891,
      "step": 279000
    },
    {
      "epoch": 1.4889513946600184,
      "grad_norm": 0.9157357811927795,
      "learning_rate": 0.0005061642956008048,
      "loss": 4.0872,
      "step": 279500
    },
    {
      "epoch": 1.4916149928615567,
      "grad_norm": 0.8573022484779358,
      "learning_rate": 0.0005052724704270773,
      "loss": 4.0854,
      "step": 280000
    },
    {
      "epoch": 1.4942785910630954,
      "grad_norm": 0.8331462740898132,
      "learning_rate": 0.0005043806452533497,
      "loss": 4.0887,
      "step": 280500
    },
    {
      "epoch": 1.4969421892646337,
      "grad_norm": 0.7753505110740662,
      "learning_rate": 0.0005034888200796221,
      "loss": 4.0901,
      "step": 281000
    },
    {
      "epoch": 1.4996057874661723,
      "grad_norm": 0.781449556350708,
      "learning_rate": 0.0005025969949058947,
      "loss": 4.0844,
      "step": 281500
    },
    {
      "epoch": 1.5022693856677107,
      "grad_norm": 0.9343318343162537,
      "learning_rate": 0.0005017051697321671,
      "loss": 4.0906,
      "step": 282000
    },
    {
      "epoch": 1.5049329838692493,
      "grad_norm": 0.8867080807685852,
      "learning_rate": 0.000500815128208787,
      "loss": 4.08,
      "step": 282500
    },
    {
      "epoch": 1.507596582070788,
      "grad_norm": 0.8553933501243591,
      "learning_rate": 0.0004999233030350595,
      "loss": 4.0898,
      "step": 283000
    },
    {
      "epoch": 1.5102601802723261,
      "grad_norm": 0.849162757396698,
      "learning_rate": 0.0004990314778613319,
      "loss": 4.0894,
      "step": 283500
    },
    {
      "epoch": 1.5129237784738647,
      "grad_norm": 0.787109375,
      "learning_rate": 0.0004981396526876044,
      "loss": 4.085,
      "step": 284000
    },
    {
      "epoch": 1.5155873766754033,
      "grad_norm": 0.8072954416275024,
      "learning_rate": 0.0004972496111642243,
      "loss": 4.0842,
      "step": 284500
    },
    {
      "epoch": 1.5182509748769417,
      "grad_norm": 0.8034284114837646,
      "learning_rate": 0.0004963595696408442,
      "loss": 4.0866,
      "step": 285000
    },
    {
      "epoch": 1.52091457307848,
      "grad_norm": 0.8554684519767761,
      "learning_rate": 0.0004954677444671166,
      "loss": 4.0851,
      "step": 285500
    },
    {
      "epoch": 1.5235781712800187,
      "grad_norm": 0.8422802686691284,
      "learning_rate": 0.000494575919293389,
      "loss": 4.0869,
      "step": 286000
    },
    {
      "epoch": 1.5262417694815573,
      "grad_norm": 0.7712003588676453,
      "learning_rate": 0.0004936840941196615,
      "loss": 4.0808,
      "step": 286500
    },
    {
      "epoch": 1.5289053676830957,
      "grad_norm": 0.8626993894577026,
      "learning_rate": 0.000492792268945934,
      "loss": 4.0805,
      "step": 287000
    },
    {
      "epoch": 1.531568965884634,
      "grad_norm": 0.8277269601821899,
      "learning_rate": 0.0004919022274225539,
      "loss": 4.0906,
      "step": 287500
    },
    {
      "epoch": 1.5342325640861727,
      "grad_norm": 0.8013060688972473,
      "learning_rate": 0.0004910104022488263,
      "loss": 4.0836,
      "step": 288000
    },
    {
      "epoch": 1.5368961622877113,
      "grad_norm": 0.7702099084854126,
      "learning_rate": 0.0004901185770750989,
      "loss": 4.0777,
      "step": 288500
    },
    {
      "epoch": 1.5395597604892497,
      "grad_norm": 0.8085469603538513,
      "learning_rate": 0.0004892267519013713,
      "loss": 4.0898,
      "step": 289000
    },
    {
      "epoch": 1.542223358690788,
      "grad_norm": 0.7977801561355591,
      "learning_rate": 0.0004883349267276437,
      "loss": 4.0955,
      "step": 289500
    },
    {
      "epoch": 1.5448869568923267,
      "grad_norm": 0.8373309969902039,
      "learning_rate": 0.0004874431015539162,
      "loss": 4.0783,
      "step": 290000
    },
    {
      "epoch": 1.5475505550938653,
      "grad_norm": 0.7764778733253479,
      "learning_rate": 0.0004865530600305361,
      "loss": 4.0861,
      "step": 290500
    },
    {
      "epoch": 1.5502141532954037,
      "grad_norm": 0.8451995849609375,
      "learning_rate": 0.00048566123485680856,
      "loss": 4.0817,
      "step": 291000
    },
    {
      "epoch": 1.552877751496942,
      "grad_norm": 0.8463019728660583,
      "learning_rate": 0.00048476940968308105,
      "loss": 4.0822,
      "step": 291500
    },
    {
      "epoch": 1.5555413496984807,
      "grad_norm": 0.8065968155860901,
      "learning_rate": 0.0004838775845093535,
      "loss": 4.089,
      "step": 292000
    },
    {
      "epoch": 1.5582049479000193,
      "grad_norm": 0.8490435481071472,
      "learning_rate": 0.00048298754298597334,
      "loss": 4.0765,
      "step": 292500
    },
    {
      "epoch": 1.5608685461015577,
      "grad_norm": 0.8057785630226135,
      "learning_rate": 0.0004820957178122458,
      "loss": 4.0809,
      "step": 293000
    },
    {
      "epoch": 1.563532144303096,
      "grad_norm": 0.9338017702102661,
      "learning_rate": 0.00048120389263851826,
      "loss": 4.0787,
      "step": 293500
    },
    {
      "epoch": 1.5661957425046347,
      "grad_norm": 0.9003413915634155,
      "learning_rate": 0.00048031206746479074,
      "loss": 4.0756,
      "step": 294000
    },
    {
      "epoch": 1.5688593407061733,
      "grad_norm": 0.779014527797699,
      "learning_rate": 0.00047942024229106323,
      "loss": 4.0832,
      "step": 294500
    },
    {
      "epoch": 1.5715229389077117,
      "grad_norm": 0.8321064114570618,
      "learning_rate": 0.0004785302007676831,
      "loss": 4.0885,
      "step": 295000
    },
    {
      "epoch": 1.57418653710925,
      "grad_norm": 0.8152427077293396,
      "learning_rate": 0.0004776383755939556,
      "loss": 4.0847,
      "step": 295500
    },
    {
      "epoch": 1.5768501353107887,
      "grad_norm": 0.8888664245605469,
      "learning_rate": 0.000476746550420228,
      "loss": 4.0777,
      "step": 296000
    },
    {
      "epoch": 1.5795137335123273,
      "grad_norm": 0.8546236157417297,
      "learning_rate": 0.0004758547252465005,
      "loss": 4.0898,
      "step": 296500
    },
    {
      "epoch": 1.5821773317138657,
      "grad_norm": 0.7983977794647217,
      "learning_rate": 0.00047496290007277293,
      "loss": 4.0869,
      "step": 297000
    },
    {
      "epoch": 1.584840929915404,
      "grad_norm": 0.9709325432777405,
      "learning_rate": 0.00047407107489904536,
      "loss": 4.0864,
      "step": 297500
    },
    {
      "epoch": 1.5875045281169426,
      "grad_norm": 0.8570044040679932,
      "learning_rate": 0.00047317924972531785,
      "loss": 4.0886,
      "step": 298000
    },
    {
      "epoch": 1.5901681263184813,
      "grad_norm": 0.8361437320709229,
      "learning_rate": 0.00047228920820193776,
      "loss": 4.0794,
      "step": 298500
    },
    {
      "epoch": 1.5928317245200196,
      "grad_norm": 0.8911067247390747,
      "learning_rate": 0.00047139738302821025,
      "loss": 4.0836,
      "step": 299000
    },
    {
      "epoch": 1.595495322721558,
      "grad_norm": 0.8150638341903687,
      "learning_rate": 0.0004705055578544827,
      "loss": 4.0806,
      "step": 299500
    },
    {
      "epoch": 1.5981589209230966,
      "grad_norm": 0.8484770059585571,
      "learning_rate": 0.0004696137326807551,
      "loss": 4.0796,
      "step": 300000
    },
    {
      "epoch": 1.6008225191246352,
      "grad_norm": 0.8199454545974731,
      "learning_rate": 0.0004687219075070276,
      "loss": 4.0789,
      "step": 300500
    },
    {
      "epoch": 1.6034861173261736,
      "grad_norm": 0.8845428824424744,
      "learning_rate": 0.0004678318659836475,
      "loss": 4.073,
      "step": 301000
    },
    {
      "epoch": 1.606149715527712,
      "grad_norm": 0.8244544267654419,
      "learning_rate": 0.00046694004080991995,
      "loss": 4.0753,
      "step": 301500
    },
    {
      "epoch": 1.6088133137292506,
      "grad_norm": 0.8862385153770447,
      "learning_rate": 0.00046604821563619244,
      "loss": 4.0784,
      "step": 302000
    },
    {
      "epoch": 1.611476911930789,
      "grad_norm": 0.8142257928848267,
      "learning_rate": 0.00046515639046246487,
      "loss": 4.0806,
      "step": 302500
    },
    {
      "epoch": 1.6141405101323274,
      "grad_norm": 0.850913941860199,
      "learning_rate": 0.00046426456528873735,
      "loss": 4.0821,
      "step": 303000
    },
    {
      "epoch": 1.616804108333866,
      "grad_norm": 0.7964518666267395,
      "learning_rate": 0.0004633727401150098,
      "loss": 4.0802,
      "step": 303500
    },
    {
      "epoch": 1.6194677065354046,
      "grad_norm": 0.8475667834281921,
      "learning_rate": 0.0004624809149412823,
      "loss": 4.0825,
      "step": 304000
    },
    {
      "epoch": 1.622131304736943,
      "grad_norm": 0.8427020311355591,
      "learning_rate": 0.0004615890897675547,
      "loss": 4.0746,
      "step": 304500
    },
    {
      "epoch": 1.6247949029384814,
      "grad_norm": 0.8353922367095947,
      "learning_rate": 0.0004606990482441746,
      "loss": 4.0785,
      "step": 305000
    },
    {
      "epoch": 1.62745850114002,
      "grad_norm": 0.8765130043029785,
      "learning_rate": 0.0004598072230704471,
      "loss": 4.0827,
      "step": 305500
    },
    {
      "epoch": 1.6301220993415586,
      "grad_norm": 0.7863726615905762,
      "learning_rate": 0.00045891718154706697,
      "loss": 4.0782,
      "step": 306000
    },
    {
      "epoch": 1.632785697543097,
      "grad_norm": 0.7965743541717529,
      "learning_rate": 0.0004580253563733394,
      "loss": 4.0751,
      "step": 306500
    },
    {
      "epoch": 1.6354492957446354,
      "grad_norm": 0.7712193131446838,
      "learning_rate": 0.0004571335311996119,
      "loss": 4.0775,
      "step": 307000
    },
    {
      "epoch": 1.638112893946174,
      "grad_norm": 0.8547102212905884,
      "learning_rate": 0.0004562417060258843,
      "loss": 4.0687,
      "step": 307500
    },
    {
      "epoch": 1.6407764921477126,
      "grad_norm": 0.794670581817627,
      "learning_rate": 0.00045535166450250423,
      "loss": 4.0809,
      "step": 308000
    },
    {
      "epoch": 1.643440090349251,
      "grad_norm": 0.8939191102981567,
      "learning_rate": 0.0004544598393287767,
      "loss": 4.0755,
      "step": 308500
    },
    {
      "epoch": 1.6461036885507894,
      "grad_norm": 0.830675482749939,
      "learning_rate": 0.00045356801415504915,
      "loss": 4.0849,
      "step": 309000
    },
    {
      "epoch": 1.648767286752328,
      "grad_norm": 0.8708091378211975,
      "learning_rate": 0.00045267618898132164,
      "loss": 4.0664,
      "step": 309500
    },
    {
      "epoch": 1.6514308849538666,
      "grad_norm": 0.7933617830276489,
      "learning_rate": 0.00045178436380759407,
      "loss": 4.0802,
      "step": 310000
    },
    {
      "epoch": 1.654094483155405,
      "grad_norm": 0.8032438158988953,
      "learning_rate": 0.000450894322284214,
      "loss": 4.0783,
      "step": 310500
    },
    {
      "epoch": 1.6567580813569434,
      "grad_norm": 0.8478823304176331,
      "learning_rate": 0.0004500024971104865,
      "loss": 4.0831,
      "step": 311000
    },
    {
      "epoch": 1.659421679558482,
      "grad_norm": 0.8288933634757996,
      "learning_rate": 0.0004491106719367589,
      "loss": 4.0801,
      "step": 311500
    },
    {
      "epoch": 1.6620852777600206,
      "grad_norm": 0.8561184406280518,
      "learning_rate": 0.0004482188467630314,
      "loss": 4.0788,
      "step": 312000
    },
    {
      "epoch": 1.664748875961559,
      "grad_norm": 0.9229483008384705,
      "learning_rate": 0.0004473270215893038,
      "loss": 4.0813,
      "step": 312500
    },
    {
      "epoch": 1.6674124741630973,
      "grad_norm": 0.8853760361671448,
      "learning_rate": 0.0004464369800659237,
      "loss": 4.0728,
      "step": 313000
    },
    {
      "epoch": 1.670076072364636,
      "grad_norm": 0.8472786545753479,
      "learning_rate": 0.0004455451548921962,
      "loss": 4.076,
      "step": 313500
    },
    {
      "epoch": 1.6727396705661746,
      "grad_norm": 0.834415853023529,
      "learning_rate": 0.0004446533297184686,
      "loss": 4.0776,
      "step": 314000
    },
    {
      "epoch": 1.675403268767713,
      "grad_norm": 0.8151890635490417,
      "learning_rate": 0.0004437615045447411,
      "loss": 4.0712,
      "step": 314500
    },
    {
      "epoch": 1.6780668669692513,
      "grad_norm": 0.8340436816215515,
      "learning_rate": 0.0004428696793710135,
      "loss": 4.0773,
      "step": 315000
    },
    {
      "epoch": 1.68073046517079,
      "grad_norm": 0.7873215079307556,
      "learning_rate": 0.00044197963784763344,
      "loss": 4.0796,
      "step": 315500
    },
    {
      "epoch": 1.6833940633723286,
      "grad_norm": 0.7956321835517883,
      "learning_rate": 0.0004410878126739059,
      "loss": 4.0738,
      "step": 316000
    },
    {
      "epoch": 1.686057661573867,
      "grad_norm": 0.8906182646751404,
      "learning_rate": 0.00044019598750017836,
      "loss": 4.0776,
      "step": 316500
    },
    {
      "epoch": 1.6887212597754053,
      "grad_norm": 0.8356565833091736,
      "learning_rate": 0.0004393041623264508,
      "loss": 4.0686,
      "step": 317000
    },
    {
      "epoch": 1.691384857976944,
      "grad_norm": 0.8309632539749146,
      "learning_rate": 0.0004384123371527233,
      "loss": 4.0786,
      "step": 317500
    },
    {
      "epoch": 1.6940484561784825,
      "grad_norm": 0.8648601770401001,
      "learning_rate": 0.0004375205119789957,
      "loss": 4.076,
      "step": 318000
    },
    {
      "epoch": 1.696712054380021,
      "grad_norm": 0.799662172794342,
      "learning_rate": 0.0004366304704556157,
      "loss": 4.0769,
      "step": 318500
    },
    {
      "epoch": 1.6993756525815593,
      "grad_norm": 0.884032130241394,
      "learning_rate": 0.0004357386452818881,
      "loss": 4.0742,
      "step": 319000
    },
    {
      "epoch": 1.702039250783098,
      "grad_norm": 0.8695617914199829,
      "learning_rate": 0.00043484682010816054,
      "loss": 4.0721,
      "step": 319500
    },
    {
      "epoch": 1.7047028489846365,
      "grad_norm": 0.801929235458374,
      "learning_rate": 0.00043395499493443303,
      "loss": 4.0722,
      "step": 320000
    },
    {
      "epoch": 1.7073664471861747,
      "grad_norm": 0.7920409440994263,
      "learning_rate": 0.00043306495341105295,
      "loss": 4.076,
      "step": 320500
    },
    {
      "epoch": 1.7100300453877133,
      "grad_norm": 0.821932852268219,
      "learning_rate": 0.00043217312823732543,
      "loss": 4.076,
      "step": 321000
    },
    {
      "epoch": 1.712693643589252,
      "grad_norm": 0.8553212881088257,
      "learning_rate": 0.00043128130306359786,
      "loss": 4.0748,
      "step": 321500
    },
    {
      "epoch": 1.7153572417907903,
      "grad_norm": 0.911418080329895,
      "learning_rate": 0.0004303894778898703,
      "loss": 4.0794,
      "step": 322000
    },
    {
      "epoch": 1.7180208399923287,
      "grad_norm": 0.8463834524154663,
      "learning_rate": 0.0004294976527161428,
      "loss": 4.0676,
      "step": 322500
    },
    {
      "epoch": 1.7206844381938673,
      "grad_norm": 0.8559086322784424,
      "learning_rate": 0.0004286058275424152,
      "loss": 4.0771,
      "step": 323000
    },
    {
      "epoch": 1.723348036395406,
      "grad_norm": 0.8981167674064636,
      "learning_rate": 0.0004277140023686877,
      "loss": 4.0688,
      "step": 323500
    },
    {
      "epoch": 1.7260116345969443,
      "grad_norm": 0.8651977181434631,
      "learning_rate": 0.00042682396084530756,
      "loss": 4.0728,
      "step": 324000
    },
    {
      "epoch": 1.7286752327984827,
      "grad_norm": 0.9066988229751587,
      "learning_rate": 0.00042593213567158,
      "loss": 4.072,
      "step": 324500
    },
    {
      "epoch": 1.7313388310000213,
      "grad_norm": 0.8543113470077515,
      "learning_rate": 0.0004250403104978525,
      "loss": 4.0727,
      "step": 325000
    },
    {
      "epoch": 1.73400242920156,
      "grad_norm": 0.8599368333816528,
      "learning_rate": 0.00042414848532412497,
      "loss": 4.0665,
      "step": 325500
    },
    {
      "epoch": 1.7366660274030983,
      "grad_norm": 0.8290531039237976,
      "learning_rate": 0.00042325666015039746,
      "loss": 4.0739,
      "step": 326000
    },
    {
      "epoch": 1.7393296256046367,
      "grad_norm": 0.8055272102355957,
      "learning_rate": 0.0004223666186270173,
      "loss": 4.0735,
      "step": 326500
    },
    {
      "epoch": 1.7419932238061753,
      "grad_norm": 0.8045780658721924,
      "learning_rate": 0.00042147479345328975,
      "loss": 4.071,
      "step": 327000
    },
    {
      "epoch": 1.7446568220077139,
      "grad_norm": 0.8758577108383179,
      "learning_rate": 0.00042058296827956224,
      "loss": 4.0735,
      "step": 327500
    },
    {
      "epoch": 1.7473204202092523,
      "grad_norm": 0.8138041496276855,
      "learning_rate": 0.00041969114310583467,
      "loss": 4.0686,
      "step": 328000
    },
    {
      "epoch": 1.7499840184107907,
      "grad_norm": 0.8927600979804993,
      "learning_rate": 0.0004188011015824546,
      "loss": 4.0749,
      "step": 328500
    },
    {
      "epoch": 1.7526476166123293,
      "grad_norm": 0.8370145559310913,
      "learning_rate": 0.00041790927640872707,
      "loss": 4.0723,
      "step": 329000
    },
    {
      "epoch": 1.7553112148138679,
      "grad_norm": 0.8793504238128662,
      "learning_rate": 0.0004170174512349995,
      "loss": 4.0674,
      "step": 329500
    },
    {
      "epoch": 1.7579748130154063,
      "grad_norm": 0.8913201689720154,
      "learning_rate": 0.000416125626061272,
      "loss": 4.0699,
      "step": 330000
    },
    {
      "epoch": 1.7606384112169446,
      "grad_norm": 0.8198757767677307,
      "learning_rate": 0.0004152338008875444,
      "loss": 4.0738,
      "step": 330500
    },
    {
      "epoch": 1.7633020094184833,
      "grad_norm": 0.8716715574264526,
      "learning_rate": 0.00041434375936416434,
      "loss": 4.0762,
      "step": 331000
    },
    {
      "epoch": 1.7659656076200219,
      "grad_norm": 0.8413424491882324,
      "learning_rate": 0.0004134519341904368,
      "loss": 4.0635,
      "step": 331500
    },
    {
      "epoch": 1.7686292058215602,
      "grad_norm": 0.838036060333252,
      "learning_rate": 0.00041256010901670926,
      "loss": 4.0731,
      "step": 332000
    },
    {
      "epoch": 1.7712928040230986,
      "grad_norm": 0.8625719547271729,
      "learning_rate": 0.00041166828384298174,
      "loss": 4.0765,
      "step": 332500
    },
    {
      "epoch": 1.7739564022246372,
      "grad_norm": 0.8333448171615601,
      "learning_rate": 0.0004107782423196016,
      "loss": 4.0691,
      "step": 333000
    },
    {
      "epoch": 1.7766200004261758,
      "grad_norm": 0.8514916300773621,
      "learning_rate": 0.00040988641714587403,
      "loss": 4.0682,
      "step": 333500
    },
    {
      "epoch": 1.7792835986277142,
      "grad_norm": 0.8220165371894836,
      "learning_rate": 0.0004089945919721465,
      "loss": 4.0796,
      "step": 334000
    },
    {
      "epoch": 1.7819471968292526,
      "grad_norm": 0.838065505027771,
      "learning_rate": 0.00040810276679841895,
      "loss": 4.0672,
      "step": 334500
    },
    {
      "epoch": 1.7846107950307912,
      "grad_norm": 0.8731646537780762,
      "learning_rate": 0.00040721272527503887,
      "loss": 4.0667,
      "step": 335000
    },
    {
      "epoch": 1.7872743932323298,
      "grad_norm": 0.8466665148735046,
      "learning_rate": 0.00040632090010131136,
      "loss": 4.0733,
      "step": 335500
    },
    {
      "epoch": 1.7899379914338682,
      "grad_norm": 0.9406811594963074,
      "learning_rate": 0.0004054290749275838,
      "loss": 4.0708,
      "step": 336000
    },
    {
      "epoch": 1.7926015896354066,
      "grad_norm": 0.8663309812545776,
      "learning_rate": 0.0004045372497538563,
      "loss": 4.0688,
      "step": 336500
    },
    {
      "epoch": 1.7952651878369452,
      "grad_norm": 0.8506413698196411,
      "learning_rate": 0.0004036454245801287,
      "loss": 4.0795,
      "step": 337000
    },
    {
      "epoch": 1.7979287860384838,
      "grad_norm": 0.8088420033454895,
      "learning_rate": 0.0004027553830567486,
      "loss": 4.0724,
      "step": 337500
    },
    {
      "epoch": 1.8005923842400222,
      "grad_norm": 0.8378006815910339,
      "learning_rate": 0.0004018635578830211,
      "loss": 4.0668,
      "step": 338000
    },
    {
      "epoch": 1.8032559824415606,
      "grad_norm": 0.8574025630950928,
      "learning_rate": 0.00040097173270929354,
      "loss": 4.0678,
      "step": 338500
    },
    {
      "epoch": 1.8059195806430992,
      "grad_norm": 0.8278779983520508,
      "learning_rate": 0.00040007990753556603,
      "loss": 4.0695,
      "step": 339000
    },
    {
      "epoch": 1.8085831788446376,
      "grad_norm": 0.9120043516159058,
      "learning_rate": 0.00039918986601218594,
      "loss": 4.0629,
      "step": 339500
    },
    {
      "epoch": 1.811246777046176,
      "grad_norm": 0.822943925857544,
      "learning_rate": 0.0003982980408384584,
      "loss": 4.0674,
      "step": 340000
    },
    {
      "epoch": 1.8139103752477146,
      "grad_norm": 0.8420679569244385,
      "learning_rate": 0.00039740621566473086,
      "loss": 4.0683,
      "step": 340500
    },
    {
      "epoch": 1.8165739734492532,
      "grad_norm": 0.8428717851638794,
      "learning_rate": 0.0003965143904910033,
      "loss": 4.0672,
      "step": 341000
    },
    {
      "epoch": 1.8192375716507916,
      "grad_norm": 0.8921811580657959,
      "learning_rate": 0.0003956225653172757,
      "loss": 4.0655,
      "step": 341500
    },
    {
      "epoch": 1.82190116985233,
      "grad_norm": 0.8687016367912292,
      "learning_rate": 0.0003947307401435482,
      "loss": 4.0712,
      "step": 342000
    },
    {
      "epoch": 1.8245647680538686,
      "grad_norm": 0.8464400172233582,
      "learning_rate": 0.0003938406986201681,
      "loss": 4.0687,
      "step": 342500
    },
    {
      "epoch": 1.8272283662554072,
      "grad_norm": 0.8673765063285828,
      "learning_rate": 0.00039294887344644056,
      "loss": 4.0628,
      "step": 343000
    },
    {
      "epoch": 1.8298919644569456,
      "grad_norm": 0.9040893316268921,
      "learning_rate": 0.000392057048272713,
      "loss": 4.0633,
      "step": 343500
    },
    {
      "epoch": 1.832555562658484,
      "grad_norm": 0.8810034394264221,
      "learning_rate": 0.0003911652230989854,
      "loss": 4.0637,
      "step": 344000
    },
    {
      "epoch": 1.8352191608600226,
      "grad_norm": 0.8870866894721985,
      "learning_rate": 0.0003902733979252579,
      "loss": 4.0712,
      "step": 344500
    },
    {
      "epoch": 1.8378827590615612,
      "grad_norm": 0.8724194169044495,
      "learning_rate": 0.0003893833564018778,
      "loss": 4.0761,
      "step": 345000
    },
    {
      "epoch": 1.8405463572630996,
      "grad_norm": 1.1327623128890991,
      "learning_rate": 0.00038849153122815026,
      "loss": 4.0656,
      "step": 345500
    },
    {
      "epoch": 1.843209955464638,
      "grad_norm": 0.8693875670433044,
      "learning_rate": 0.00038759970605442275,
      "loss": 4.0692,
      "step": 346000
    },
    {
      "epoch": 1.8458735536661766,
      "grad_norm": 0.9146456122398376,
      "learning_rate": 0.0003867078808806952,
      "loss": 4.0663,
      "step": 346500
    },
    {
      "epoch": 1.8485371518677152,
      "grad_norm": 0.8626604676246643,
      "learning_rate": 0.00038581605570696766,
      "loss": 4.0618,
      "step": 347000
    },
    {
      "epoch": 1.8512007500692536,
      "grad_norm": 1.0062013864517212,
      "learning_rate": 0.0003849242305332401,
      "loss": 4.0678,
      "step": 347500
    },
    {
      "epoch": 1.853864348270792,
      "grad_norm": 0.842510461807251,
      "learning_rate": 0.00038403418900986,
      "loss": 4.065,
      "step": 348000
    },
    {
      "epoch": 1.8565279464723305,
      "grad_norm": 0.8646286129951477,
      "learning_rate": 0.0003831423638361325,
      "loss": 4.0629,
      "step": 348500
    },
    {
      "epoch": 1.8591915446738692,
      "grad_norm": 0.8638767004013062,
      "learning_rate": 0.00038225053866240493,
      "loss": 4.0656,
      "step": 349000
    },
    {
      "epoch": 1.8618551428754075,
      "grad_norm": 0.8934078216552734,
      "learning_rate": 0.0003813587134886774,
      "loss": 4.0714,
      "step": 349500
    },
    {
      "epoch": 1.864518741076946,
      "grad_norm": 0.8266724944114685,
      "learning_rate": 0.00038046688831494985,
      "loss": 4.0645,
      "step": 350000
    },
    {
      "epoch": 1.8671823392784845,
      "grad_norm": 0.8602758646011353,
      "learning_rate": 0.00037957684679156977,
      "loss": 4.0642,
      "step": 350500
    },
    {
      "epoch": 1.8698459374800231,
      "grad_norm": 0.8677871823310852,
      "learning_rate": 0.00037868502161784225,
      "loss": 4.0685,
      "step": 351000
    },
    {
      "epoch": 1.8725095356815615,
      "grad_norm": 0.870879590511322,
      "learning_rate": 0.0003777931964441147,
      "loss": 4.0747,
      "step": 351500
    },
    {
      "epoch": 1.8751731338831,
      "grad_norm": 0.8714147806167603,
      "learning_rate": 0.00037690137127038717,
      "loss": 4.061,
      "step": 352000
    },
    {
      "epoch": 1.8778367320846385,
      "grad_norm": 0.8625131249427795,
      "learning_rate": 0.00037601132974700703,
      "loss": 4.06,
      "step": 352500
    },
    {
      "epoch": 1.8805003302861771,
      "grad_norm": 0.9685169458389282,
      "learning_rate": 0.00037511950457327946,
      "loss": 4.071,
      "step": 353000
    },
    {
      "epoch": 1.8831639284877155,
      "grad_norm": 0.9301902055740356,
      "learning_rate": 0.00037422767939955195,
      "loss": 4.0663,
      "step": 353500
    },
    {
      "epoch": 1.885827526689254,
      "grad_norm": 0.8485379219055176,
      "learning_rate": 0.0003733358542258244,
      "loss": 4.0709,
      "step": 354000
    },
    {
      "epoch": 1.8884911248907925,
      "grad_norm": 0.833081841468811,
      "learning_rate": 0.00037244402905209687,
      "loss": 4.0596,
      "step": 354500
    },
    {
      "epoch": 1.8911547230923311,
      "grad_norm": 0.8548697829246521,
      "learning_rate": 0.0003715539875287168,
      "loss": 4.0701,
      "step": 355000
    },
    {
      "epoch": 1.8938183212938695,
      "grad_norm": 0.8501580357551575,
      "learning_rate": 0.0003706621623549892,
      "loss": 4.0567,
      "step": 355500
    },
    {
      "epoch": 1.896481919495408,
      "grad_norm": 0.8642673492431641,
      "learning_rate": 0.0003697703371812617,
      "loss": 4.0621,
      "step": 356000
    },
    {
      "epoch": 1.8991455176969465,
      "grad_norm": 0.8171157240867615,
      "learning_rate": 0.00036887851200753414,
      "loss": 4.0542,
      "step": 356500
    },
    {
      "epoch": 1.901809115898485,
      "grad_norm": 0.873189389705658,
      "learning_rate": 0.00036798668683380657,
      "loss": 4.06,
      "step": 357000
    },
    {
      "epoch": 1.9044727141000233,
      "grad_norm": 0.8762955665588379,
      "learning_rate": 0.00036709664531042654,
      "loss": 4.063,
      "step": 357500
    },
    {
      "epoch": 1.9071363123015619,
      "grad_norm": 0.8550353050231934,
      "learning_rate": 0.00036620482013669897,
      "loss": 4.0597,
      "step": 358000
    },
    {
      "epoch": 1.9097999105031005,
      "grad_norm": 0.8709129691123962,
      "learning_rate": 0.00036531299496297146,
      "loss": 4.0578,
      "step": 358500
    },
    {
      "epoch": 1.9124635087046389,
      "grad_norm": 0.9054292440414429,
      "learning_rate": 0.0003644211697892439,
      "loss": 4.0589,
      "step": 359000
    },
    {
      "epoch": 1.9151271069061773,
      "grad_norm": 0.8816952705383301,
      "learning_rate": 0.0003635293446155163,
      "loss": 4.0563,
      "step": 359500
    },
    {
      "epoch": 1.9177907051077159,
      "grad_norm": 0.8601788282394409,
      "learning_rate": 0.0003626393030921363,
      "loss": 4.057,
      "step": 360000
    },
    {
      "epoch": 1.9204543033092545,
      "grad_norm": 0.933283269405365,
      "learning_rate": 0.0003617474779184087,
      "loss": 4.0688,
      "step": 360500
    },
    {
      "epoch": 1.9231179015107929,
      "grad_norm": 0.9095755815505981,
      "learning_rate": 0.0003608556527446812,
      "loss": 4.0531,
      "step": 361000
    },
    {
      "epoch": 1.9257814997123313,
      "grad_norm": 0.8889813423156738,
      "learning_rate": 0.00035996382757095364,
      "loss": 4.0638,
      "step": 361500
    },
    {
      "epoch": 1.9284450979138699,
      "grad_norm": 0.8663842678070068,
      "learning_rate": 0.0003590737860475735,
      "loss": 4.062,
      "step": 362000
    },
    {
      "epoch": 1.9311086961154085,
      "grad_norm": 0.8386211395263672,
      "learning_rate": 0.000358181960873846,
      "loss": 4.0561,
      "step": 362500
    },
    {
      "epoch": 1.9337722943169469,
      "grad_norm": 0.8373234868049622,
      "learning_rate": 0.0003572901357001184,
      "loss": 4.0666,
      "step": 363000
    },
    {
      "epoch": 1.9364358925184852,
      "grad_norm": 0.8931795954704285,
      "learning_rate": 0.00035639831052639085,
      "loss": 4.0554,
      "step": 363500
    },
    {
      "epoch": 1.9390994907200239,
      "grad_norm": 0.8433584570884705,
      "learning_rate": 0.0003555082690030108,
      "loss": 4.0583,
      "step": 364000
    },
    {
      "epoch": 1.9417630889215625,
      "grad_norm": 0.8926225900650024,
      "learning_rate": 0.00035461644382928326,
      "loss": 4.0585,
      "step": 364500
    },
    {
      "epoch": 1.9444266871231008,
      "grad_norm": 0.865616500377655,
      "learning_rate": 0.00035372461865555574,
      "loss": 4.0633,
      "step": 365000
    },
    {
      "epoch": 1.9470902853246392,
      "grad_norm": 0.8474301099777222,
      "learning_rate": 0.0003528327934818282,
      "loss": 4.0602,
      "step": 365500
    },
    {
      "epoch": 1.9497538835261778,
      "grad_norm": 0.8580695986747742,
      "learning_rate": 0.0003519427519584481,
      "loss": 4.0544,
      "step": 366000
    },
    {
      "epoch": 1.9524174817277165,
      "grad_norm": 0.8627407550811768,
      "learning_rate": 0.0003510509267847206,
      "loss": 4.0481,
      "step": 366500
    },
    {
      "epoch": 1.9550810799292548,
      "grad_norm": 0.8328742384910583,
      "learning_rate": 0.000350159101610993,
      "loss": 4.0581,
      "step": 367000
    },
    {
      "epoch": 1.9577446781307932,
      "grad_norm": 0.8515557050704956,
      "learning_rate": 0.0003492672764372655,
      "loss": 4.06,
      "step": 367500
    },
    {
      "epoch": 1.9604082763323318,
      "grad_norm": 0.9069979786872864,
      "learning_rate": 0.00034837545126353793,
      "loss": 4.0602,
      "step": 368000
    },
    {
      "epoch": 1.9630718745338704,
      "grad_norm": 0.8612348437309265,
      "learning_rate": 0.0003474854097401578,
      "loss": 4.0565,
      "step": 368500
    },
    {
      "epoch": 1.9657354727354088,
      "grad_norm": 0.9286240339279175,
      "learning_rate": 0.0003465935845664303,
      "loss": 4.0605,
      "step": 369000
    },
    {
      "epoch": 1.9683990709369472,
      "grad_norm": 0.8804614543914795,
      "learning_rate": 0.00034570175939270276,
      "loss": 4.0575,
      "step": 369500
    },
    {
      "epoch": 1.9710626691384858,
      "grad_norm": 0.8332533836364746,
      "learning_rate": 0.0003448099342189752,
      "loss": 4.0587,
      "step": 370000
    },
    {
      "epoch": 1.9737262673400244,
      "grad_norm": 0.8402279615402222,
      "learning_rate": 0.0003439198926955951,
      "loss": 4.0569,
      "step": 370500
    },
    {
      "epoch": 1.9763898655415628,
      "grad_norm": 0.8684757351875305,
      "learning_rate": 0.00034302806752186754,
      "loss": 4.0668,
      "step": 371000
    },
    {
      "epoch": 1.9790534637431012,
      "grad_norm": 0.880416750907898,
      "learning_rate": 0.00034213624234814003,
      "loss": 4.0612,
      "step": 371500
    },
    {
      "epoch": 1.9817170619446398,
      "grad_norm": 0.9281913042068481,
      "learning_rate": 0.00034124441717441246,
      "loss": 4.0583,
      "step": 372000
    },
    {
      "epoch": 1.9843806601461784,
      "grad_norm": 0.8712506294250488,
      "learning_rate": 0.0003403525920006849,
      "loss": 4.0539,
      "step": 372500
    },
    {
      "epoch": 1.9870442583477168,
      "grad_norm": 0.8760526180267334,
      "learning_rate": 0.00033946255047730486,
      "loss": 4.0502,
      "step": 373000
    },
    {
      "epoch": 1.9897078565492552,
      "grad_norm": 0.8705692291259766,
      "learning_rate": 0.0003385707253035773,
      "loss": 4.0592,
      "step": 373500
    },
    {
      "epoch": 1.9923714547507938,
      "grad_norm": 0.8519155383110046,
      "learning_rate": 0.00033767890012984973,
      "loss": 4.0607,
      "step": 374000
    },
    {
      "epoch": 1.9950350529523324,
      "grad_norm": 0.879636287689209,
      "learning_rate": 0.0003367870749561222,
      "loss": 4.0566,
      "step": 374500
    },
    {
      "epoch": 1.9976986511538706,
      "grad_norm": 0.8572770357131958,
      "learning_rate": 0.00033589703343274213,
      "loss": 4.0504,
      "step": 375000
    },
    {
      "epoch": 2.000362249355409,
      "grad_norm": 0.8497179746627808,
      "learning_rate": 0.0003350052082590146,
      "loss": 4.0603,
      "step": 375500
    },
    {
      "epoch": 2.003025847556948,
      "grad_norm": 0.8854038715362549,
      "learning_rate": 0.00033411338308528705,
      "loss": 4.055,
      "step": 376000
    },
    {
      "epoch": 2.0056894457584864,
      "grad_norm": 0.9853951334953308,
      "learning_rate": 0.0003332215579115595,
      "loss": 4.057,
      "step": 376500
    },
    {
      "epoch": 2.0083530439600246,
      "grad_norm": 0.9749231934547424,
      "learning_rate": 0.0003323315163881794,
      "loss": 4.0497,
      "step": 377000
    },
    {
      "epoch": 2.011016642161563,
      "grad_norm": 0.9801936745643616,
      "learning_rate": 0.00033143969121445183,
      "loss": 4.0609,
      "step": 377500
    },
    {
      "epoch": 2.013680240363102,
      "grad_norm": 0.9140198826789856,
      "learning_rate": 0.0003305478660407243,
      "loss": 4.0491,
      "step": 378000
    },
    {
      "epoch": 2.0163438385646404,
      "grad_norm": 0.9118580222129822,
      "learning_rate": 0.00032965604086699675,
      "loss": 4.0484,
      "step": 378500
    },
    {
      "epoch": 2.0190074367661786,
      "grad_norm": 1.0234750509262085,
      "learning_rate": 0.0003287642156932692,
      "loss": 4.0466,
      "step": 379000
    },
    {
      "epoch": 2.021671034967717,
      "grad_norm": 0.8892688751220703,
      "learning_rate": 0.00032787239051954167,
      "loss": 4.0569,
      "step": 379500
    },
    {
      "epoch": 2.0243346331692558,
      "grad_norm": 0.860365092754364,
      "learning_rate": 0.0003269823489961616,
      "loss": 4.0592,
      "step": 380000
    },
    {
      "epoch": 2.0269982313707944,
      "grad_norm": 0.8938810229301453,
      "learning_rate": 0.000326090523822434,
      "loss": 4.0523,
      "step": 380500
    },
    {
      "epoch": 2.0296618295723325,
      "grad_norm": 0.885435163974762,
      "learning_rate": 0.0003251986986487065,
      "loss": 4.0574,
      "step": 381000
    },
    {
      "epoch": 2.032325427773871,
      "grad_norm": 0.9123975038528442,
      "learning_rate": 0.00032430687347497893,
      "loss": 4.046,
      "step": 381500
    },
    {
      "epoch": 2.0349890259754098,
      "grad_norm": 0.9096443057060242,
      "learning_rate": 0.0003234168319515989,
      "loss": 4.0551,
      "step": 382000
    },
    {
      "epoch": 2.0376526241769484,
      "grad_norm": 0.8680484890937805,
      "learning_rate": 0.00032252500677787133,
      "loss": 4.0532,
      "step": 382500
    },
    {
      "epoch": 2.0403162223784865,
      "grad_norm": 0.8725469708442688,
      "learning_rate": 0.00032163318160414377,
      "loss": 4.0563,
      "step": 383000
    },
    {
      "epoch": 2.042979820580025,
      "grad_norm": 0.9647555947303772,
      "learning_rate": 0.00032074135643041625,
      "loss": 4.0536,
      "step": 383500
    },
    {
      "epoch": 2.0456434187815637,
      "grad_norm": 0.8826559782028198,
      "learning_rate": 0.0003198495312566887,
      "loss": 4.0527,
      "step": 384000
    },
    {
      "epoch": 2.0483070169831024,
      "grad_norm": 0.9342438578605652,
      "learning_rate": 0.0003189594897333086,
      "loss": 4.0607,
      "step": 384500
    },
    {
      "epoch": 2.0509706151846405,
      "grad_norm": 0.9360005855560303,
      "learning_rate": 0.0003180676645595811,
      "loss": 4.0472,
      "step": 385000
    },
    {
      "epoch": 2.053634213386179,
      "grad_norm": 0.9147686958312988,
      "learning_rate": 0.0003171758393858535,
      "loss": 4.0485,
      "step": 385500
    },
    {
      "epoch": 2.0562978115877177,
      "grad_norm": 0.8479260206222534,
      "learning_rate": 0.000316284014212126,
      "loss": 4.0504,
      "step": 386000
    },
    {
      "epoch": 2.058961409789256,
      "grad_norm": 0.8525492548942566,
      "learning_rate": 0.00031539218903839844,
      "loss": 4.0496,
      "step": 386500
    },
    {
      "epoch": 2.0616250079907945,
      "grad_norm": 0.8503657579421997,
      "learning_rate": 0.0003145021475150183,
      "loss": 4.0571,
      "step": 387000
    },
    {
      "epoch": 2.064288606192333,
      "grad_norm": 0.8873237371444702,
      "learning_rate": 0.0003136103223412908,
      "loss": 4.0511,
      "step": 387500
    },
    {
      "epoch": 2.0669522043938717,
      "grad_norm": 0.9111925959587097,
      "learning_rate": 0.0003127184971675632,
      "loss": 4.0477,
      "step": 388000
    },
    {
      "epoch": 2.06961580259541,
      "grad_norm": 0.864146888256073,
      "learning_rate": 0.0003118266719938357,
      "loss": 4.0526,
      "step": 388500
    },
    {
      "epoch": 2.0722794007969485,
      "grad_norm": 0.8477506637573242,
      "learning_rate": 0.00031093484682010814,
      "loss": 4.054,
      "step": 389000
    },
    {
      "epoch": 2.074942998998487,
      "grad_norm": 0.9023974537849426,
      "learning_rate": 0.00031004480529672805,
      "loss": 4.0579,
      "step": 389500
    },
    {
      "epoch": 2.0776065972000257,
      "grad_norm": 0.8909152150154114,
      "learning_rate": 0.00030915298012300054,
      "loss": 4.0521,
      "step": 390000
    },
    {
      "epoch": 2.080270195401564,
      "grad_norm": 0.9014437794685364,
      "learning_rate": 0.00030826115494927297,
      "loss": 4.0553,
      "step": 390500
    },
    {
      "epoch": 2.0829337936031025,
      "grad_norm": 0.8972243666648865,
      "learning_rate": 0.00030736932977554546,
      "loss": 4.0507,
      "step": 391000
    },
    {
      "epoch": 2.085597391804641,
      "grad_norm": 0.8825047016143799,
      "learning_rate": 0.0003064792882521654,
      "loss": 4.0526,
      "step": 391500
    },
    {
      "epoch": 2.0882609900061797,
      "grad_norm": 0.924751341342926,
      "learning_rate": 0.0003055874630784378,
      "loss": 4.0521,
      "step": 392000
    },
    {
      "epoch": 2.090924588207718,
      "grad_norm": 0.8999988436698914,
      "learning_rate": 0.0003046956379047103,
      "loss": 4.0524,
      "step": 392500
    },
    {
      "epoch": 2.0935881864092565,
      "grad_norm": 0.8595131635665894,
      "learning_rate": 0.0003038038127309827,
      "loss": 4.0519,
      "step": 393000
    },
    {
      "epoch": 2.096251784610795,
      "grad_norm": 0.9281662106513977,
      "learning_rate": 0.00030291377120760264,
      "loss": 4.0489,
      "step": 393500
    },
    {
      "epoch": 2.0989153828123337,
      "grad_norm": 0.8841512799263,
      "learning_rate": 0.0003020219460338751,
      "loss": 4.0504,
      "step": 394000
    },
    {
      "epoch": 2.101578981013872,
      "grad_norm": 0.8970746994018555,
      "learning_rate": 0.00030113012086014756,
      "loss": 4.0453,
      "step": 394500
    },
    {
      "epoch": 2.1042425792154105,
      "grad_norm": 0.946937084197998,
      "learning_rate": 0.00030023829568642005,
      "loss": 4.0443,
      "step": 395000
    },
    {
      "epoch": 2.106906177416949,
      "grad_norm": 1.066956877708435,
      "learning_rate": 0.0002993482541630399,
      "loss": 4.0591,
      "step": 395500
    },
    {
      "epoch": 2.1095697756184877,
      "grad_norm": 0.8527683615684509,
      "learning_rate": 0.00029845642898931234,
      "loss": 4.0498,
      "step": 396000
    },
    {
      "epoch": 2.112233373820026,
      "grad_norm": 0.9100342988967896,
      "learning_rate": 0.0002975646038155848,
      "loss": 4.0463,
      "step": 396500
    },
    {
      "epoch": 2.1148969720215645,
      "grad_norm": 0.9486255645751953,
      "learning_rate": 0.00029667277864185726,
      "loss": 4.0541,
      "step": 397000
    },
    {
      "epoch": 2.117560570223103,
      "grad_norm": 0.9460600018501282,
      "learning_rate": 0.00029578273711847717,
      "loss": 4.0481,
      "step": 397500
    },
    {
      "epoch": 2.1202241684246417,
      "grad_norm": 0.9710919857025146,
      "learning_rate": 0.00029489091194474966,
      "loss": 4.0486,
      "step": 398000
    },
    {
      "epoch": 2.12288776662618,
      "grad_norm": 0.9194395542144775,
      "learning_rate": 0.0002939990867710221,
      "loss": 4.0458,
      "step": 398500
    },
    {
      "epoch": 2.1255513648277184,
      "grad_norm": 0.8708109855651855,
      "learning_rate": 0.0002931072615972946,
      "loss": 4.0465,
      "step": 399000
    },
    {
      "epoch": 2.128214963029257,
      "grad_norm": 0.8814635276794434,
      "learning_rate": 0.0002922172200739145,
      "loss": 4.0441,
      "step": 399500
    },
    {
      "epoch": 2.1308785612307957,
      "grad_norm": 0.9306267499923706,
      "learning_rate": 0.0002913253949001869,
      "loss": 4.0417,
      "step": 400000
    },
    {
      "epoch": 2.133542159432334,
      "grad_norm": 0.9086319208145142,
      "learning_rate": 0.0002904335697264594,
      "loss": 4.0485,
      "step": 400500
    },
    {
      "epoch": 2.1362057576338724,
      "grad_norm": 0.9667945504188538,
      "learning_rate": 0.00028954174455273184,
      "loss": 4.0387,
      "step": 401000
    },
    {
      "epoch": 2.138869355835411,
      "grad_norm": 0.9225121736526489,
      "learning_rate": 0.00028864991937900433,
      "loss": 4.0424,
      "step": 401500
    },
    {
      "epoch": 2.1415329540369497,
      "grad_norm": 0.891379714012146,
      "learning_rate": 0.0002877598778556242,
      "loss": 4.046,
      "step": 402000
    },
    {
      "epoch": 2.144196552238488,
      "grad_norm": 0.9507352709770203,
      "learning_rate": 0.0002868680526818966,
      "loss": 4.0477,
      "step": 402500
    },
    {
      "epoch": 2.1468601504400264,
      "grad_norm": 0.9602506756782532,
      "learning_rate": 0.00028597622750816917,
      "loss": 4.0498,
      "step": 403000
    },
    {
      "epoch": 2.149523748641565,
      "grad_norm": 0.9250164031982422,
      "learning_rate": 0.0002850844023344416,
      "loss": 4.0404,
      "step": 403500
    },
    {
      "epoch": 2.152187346843103,
      "grad_norm": 0.917396605014801,
      "learning_rate": 0.00028419436081106146,
      "loss": 4.0488,
      "step": 404000
    },
    {
      "epoch": 2.154850945044642,
      "grad_norm": 0.8889843821525574,
      "learning_rate": 0.00028330253563733395,
      "loss": 4.0412,
      "step": 404500
    },
    {
      "epoch": 2.1575145432461804,
      "grad_norm": 0.9360488653182983,
      "learning_rate": 0.0002824107104636064,
      "loss": 4.0407,
      "step": 405000
    },
    {
      "epoch": 2.160178141447719,
      "grad_norm": 0.9107580184936523,
      "learning_rate": 0.00028151888528987886,
      "loss": 4.0439,
      "step": 405500
    },
    {
      "epoch": 2.162841739649257,
      "grad_norm": 0.9053534865379333,
      "learning_rate": 0.0002806270601161513,
      "loss": 4.042,
      "step": 406000
    },
    {
      "epoch": 2.165505337850796,
      "grad_norm": 0.8875529766082764,
      "learning_rate": 0.0002797370185927712,
      "loss": 4.0429,
      "step": 406500
    },
    {
      "epoch": 2.1681689360523344,
      "grad_norm": 0.9056974053382874,
      "learning_rate": 0.0002788451934190437,
      "loss": 4.0461,
      "step": 407000
    },
    {
      "epoch": 2.170832534253873,
      "grad_norm": 0.8870306015014648,
      "learning_rate": 0.00027795336824531613,
      "loss": 4.0473,
      "step": 407500
    },
    {
      "epoch": 2.173496132455411,
      "grad_norm": 0.9122534394264221,
      "learning_rate": 0.0002770615430715886,
      "loss": 4.0423,
      "step": 408000
    },
    {
      "epoch": 2.17615973065695,
      "grad_norm": 0.8884118795394897,
      "learning_rate": 0.00027617150154820853,
      "loss": 4.0455,
      "step": 408500
    },
    {
      "epoch": 2.1788233288584884,
      "grad_norm": 0.8788624405860901,
      "learning_rate": 0.00027527967637448096,
      "loss": 4.0396,
      "step": 409000
    },
    {
      "epoch": 2.181486927060027,
      "grad_norm": 0.9050582647323608,
      "learning_rate": 0.00027438785120075345,
      "loss": 4.0364,
      "step": 409500
    },
    {
      "epoch": 2.184150525261565,
      "grad_norm": 0.9116672277450562,
      "learning_rate": 0.0002734960260270259,
      "loss": 4.0479,
      "step": 410000
    },
    {
      "epoch": 2.1868141234631038,
      "grad_norm": 0.8476006984710693,
      "learning_rate": 0.00027260420085329837,
      "loss": 4.0407,
      "step": 410500
    },
    {
      "epoch": 2.1894777216646424,
      "grad_norm": 0.9175940752029419,
      "learning_rate": 0.00027171415932991823,
      "loss": 4.0469,
      "step": 411000
    },
    {
      "epoch": 2.192141319866181,
      "grad_norm": 0.9391987919807434,
      "learning_rate": 0.00027082233415619066,
      "loss": 4.0477,
      "step": 411500
    },
    {
      "epoch": 2.194804918067719,
      "grad_norm": 0.880539059638977,
      "learning_rate": 0.00026993050898246315,
      "loss": 4.0483,
      "step": 412000
    },
    {
      "epoch": 2.1974685162692578,
      "grad_norm": 0.9159991145133972,
      "learning_rate": 0.0002690386838087356,
      "loss": 4.0439,
      "step": 412500
    },
    {
      "epoch": 2.2001321144707964,
      "grad_norm": 0.846324622631073,
      "learning_rate": 0.0002681486422853555,
      "loss": 4.0491,
      "step": 413000
    },
    {
      "epoch": 2.202795712672335,
      "grad_norm": 0.9291318655014038,
      "learning_rate": 0.000267256817111628,
      "loss": 4.0433,
      "step": 413500
    },
    {
      "epoch": 2.205459310873873,
      "grad_norm": 0.9299983978271484,
      "learning_rate": 0.0002663649919379004,
      "loss": 4.039,
      "step": 414000
    },
    {
      "epoch": 2.2081229090754118,
      "grad_norm": 0.9034929275512695,
      "learning_rate": 0.0002654731667641729,
      "loss": 4.0426,
      "step": 414500
    },
    {
      "epoch": 2.2107865072769504,
      "grad_norm": 0.8487489223480225,
      "learning_rate": 0.0002645831252407928,
      "loss": 4.0382,
      "step": 415000
    },
    {
      "epoch": 2.213450105478489,
      "grad_norm": 0.9376189112663269,
      "learning_rate": 0.00026369130006706525,
      "loss": 4.0478,
      "step": 415500
    },
    {
      "epoch": 2.216113703680027,
      "grad_norm": 0.9032031297683716,
      "learning_rate": 0.00026279947489333774,
      "loss": 4.0446,
      "step": 416000
    },
    {
      "epoch": 2.2187773018815657,
      "grad_norm": 0.873349666595459,
      "learning_rate": 0.00026190764971961017,
      "loss": 4.0419,
      "step": 416500
    },
    {
      "epoch": 2.2214409000831044,
      "grad_norm": 0.9227972626686096,
      "learning_rate": 0.0002610176081962301,
      "loss": 4.0415,
      "step": 417000
    },
    {
      "epoch": 2.224104498284643,
      "grad_norm": 0.9360315203666687,
      "learning_rate": 0.00026012578302250257,
      "loss": 4.0391,
      "step": 417500
    },
    {
      "epoch": 2.226768096486181,
      "grad_norm": 1.0437467098236084,
      "learning_rate": 0.000259233957848775,
      "loss": 4.0425,
      "step": 418000
    },
    {
      "epoch": 2.2294316946877197,
      "grad_norm": 0.9248673319816589,
      "learning_rate": 0.0002583421326750475,
      "loss": 4.0413,
      "step": 418500
    },
    {
      "epoch": 2.2320952928892583,
      "grad_norm": 0.8973048329353333,
      "learning_rate": 0.00025745209115166735,
      "loss": 4.0411,
      "step": 419000
    },
    {
      "epoch": 2.234758891090797,
      "grad_norm": 0.9082027077674866,
      "learning_rate": 0.0002565602659779398,
      "loss": 4.0424,
      "step": 419500
    },
    {
      "epoch": 2.237422489292335,
      "grad_norm": 0.8980434536933899,
      "learning_rate": 0.00025566844080421227,
      "loss": 4.0389,
      "step": 420000
    },
    {
      "epoch": 2.2400860874938737,
      "grad_norm": 0.8749063014984131,
      "learning_rate": 0.0002547766156304847,
      "loss": 4.0283,
      "step": 420500
    },
    {
      "epoch": 2.2427496856954123,
      "grad_norm": 0.9931572675704956,
      "learning_rate": 0.0002538865741071046,
      "loss": 4.0411,
      "step": 421000
    },
    {
      "epoch": 2.2454132838969505,
      "grad_norm": 1.0000332593917847,
      "learning_rate": 0.0002529947489333771,
      "loss": 4.0426,
      "step": 421500
    },
    {
      "epoch": 2.248076882098489,
      "grad_norm": 0.8988611698150635,
      "learning_rate": 0.00025210292375964954,
      "loss": 4.0401,
      "step": 422000
    },
    {
      "epoch": 2.2507404803000277,
      "grad_norm": 0.9371945261955261,
      "learning_rate": 0.000251211098585922,
      "loss": 4.0367,
      "step": 422500
    },
    {
      "epoch": 2.2534040785015663,
      "grad_norm": 0.9270386099815369,
      "learning_rate": 0.00025031927341219446,
      "loss": 4.0481,
      "step": 423000
    },
    {
      "epoch": 2.256067676703105,
      "grad_norm": 0.964900553226471,
      "learning_rate": 0.00024942923188881437,
      "loss": 4.0381,
      "step": 423500
    },
    {
      "epoch": 2.258731274904643,
      "grad_norm": 0.8744553923606873,
      "learning_rate": 0.00024853740671508686,
      "loss": 4.0375,
      "step": 424000
    },
    {
      "epoch": 2.2613948731061817,
      "grad_norm": 0.9299191236495972,
      "learning_rate": 0.0002476455815413593,
      "loss": 4.036,
      "step": 424500
    },
    {
      "epoch": 2.2640584713077203,
      "grad_norm": 0.9264661073684692,
      "learning_rate": 0.0002467537563676318,
      "loss": 4.04,
      "step": 425000
    },
    {
      "epoch": 2.2667220695092585,
      "grad_norm": 0.9486096501350403,
      "learning_rate": 0.00024586371484425164,
      "loss": 4.0362,
      "step": 425500
    },
    {
      "epoch": 2.269385667710797,
      "grad_norm": 0.9084232449531555,
      "learning_rate": 0.0002449718896705241,
      "loss": 4.0442,
      "step": 426000
    },
    {
      "epoch": 2.2720492659123357,
      "grad_norm": 0.898169755935669,
      "learning_rate": 0.00024408006449679656,
      "loss": 4.04,
      "step": 426500
    },
    {
      "epoch": 2.2747128641138743,
      "grad_norm": 0.9344006180763245,
      "learning_rate": 0.00024318823932306902,
      "loss": 4.0393,
      "step": 427000
    },
    {
      "epoch": 2.2773764623154125,
      "grad_norm": 0.9698314666748047,
      "learning_rate": 0.00024229641414934147,
      "loss": 4.0293,
      "step": 427500
    },
    {
      "epoch": 2.280040060516951,
      "grad_norm": 0.9501084685325623,
      "learning_rate": 0.0002414063726259614,
      "loss": 4.038,
      "step": 428000
    },
    {
      "epoch": 2.2827036587184897,
      "grad_norm": 0.8912844061851501,
      "learning_rate": 0.00024051454745223385,
      "loss": 4.0374,
      "step": 428500
    },
    {
      "epoch": 2.2853672569200283,
      "grad_norm": 0.9317381978034973,
      "learning_rate": 0.0002396227222785063,
      "loss": 4.0353,
      "step": 429000
    },
    {
      "epoch": 2.2880308551215665,
      "grad_norm": 0.9316912889480591,
      "learning_rate": 0.00023873089710477877,
      "loss": 4.0383,
      "step": 429500
    },
    {
      "epoch": 2.290694453323105,
      "grad_norm": 0.9433039426803589,
      "learning_rate": 0.00023784085558139868,
      "loss": 4.0332,
      "step": 430000
    },
    {
      "epoch": 2.2933580515246437,
      "grad_norm": 0.9455925226211548,
      "learning_rate": 0.00023694903040767112,
      "loss": 4.0326,
      "step": 430500
    },
    {
      "epoch": 2.2960216497261823,
      "grad_norm": 0.9149669408798218,
      "learning_rate": 0.00023605720523394358,
      "loss": 4.0442,
      "step": 431000
    },
    {
      "epoch": 2.2986852479277204,
      "grad_norm": 0.9723134636878967,
      "learning_rate": 0.00023516538006021603,
      "loss": 4.0313,
      "step": 431500
    },
    {
      "epoch": 2.301348846129259,
      "grad_norm": 0.9359349012374878,
      "learning_rate": 0.00023427533853683595,
      "loss": 4.0369,
      "step": 432000
    },
    {
      "epoch": 2.3040124443307977,
      "grad_norm": 0.9478726983070374,
      "learning_rate": 0.0002333835133631084,
      "loss": 4.0386,
      "step": 432500
    },
    {
      "epoch": 2.3066760425323363,
      "grad_norm": 0.9433446526527405,
      "learning_rate": 0.00023249168818938084,
      "loss": 4.0334,
      "step": 433000
    },
    {
      "epoch": 2.3093396407338744,
      "grad_norm": 0.9548355340957642,
      "learning_rate": 0.00023159986301565333,
      "loss": 4.0404,
      "step": 433500
    },
    {
      "epoch": 2.312003238935413,
      "grad_norm": 1.014600157737732,
      "learning_rate": 0.0002307080378419258,
      "loss": 4.0337,
      "step": 434000
    },
    {
      "epoch": 2.3146668371369516,
      "grad_norm": 0.8967020511627197,
      "learning_rate": 0.0002298179963185457,
      "loss": 4.0343,
      "step": 434500
    },
    {
      "epoch": 2.31733043533849,
      "grad_norm": 1.0393925905227661,
      "learning_rate": 0.00022892617114481814,
      "loss": 4.0354,
      "step": 435000
    },
    {
      "epoch": 2.3199940335400284,
      "grad_norm": 0.9963262677192688,
      "learning_rate": 0.0002280343459710906,
      "loss": 4.0358,
      "step": 435500
    },
    {
      "epoch": 2.322657631741567,
      "grad_norm": 0.9155731797218323,
      "learning_rate": 0.00022714252079736305,
      "loss": 4.0372,
      "step": 436000
    },
    {
      "epoch": 2.3253212299431056,
      "grad_norm": 0.9272859692573547,
      "learning_rate": 0.00022625247927398297,
      "loss": 4.04,
      "step": 436500
    },
    {
      "epoch": 2.3279848281446442,
      "grad_norm": 0.9763675928115845,
      "learning_rate": 0.0002253606541002554,
      "loss": 4.0312,
      "step": 437000
    },
    {
      "epoch": 2.3306484263461824,
      "grad_norm": 0.9596668481826782,
      "learning_rate": 0.00022446882892652786,
      "loss": 4.0337,
      "step": 437500
    },
    {
      "epoch": 2.333312024547721,
      "grad_norm": 0.9284877777099609,
      "learning_rate": 0.00022357700375280032,
      "loss": 4.0386,
      "step": 438000
    },
    {
      "epoch": 2.3359756227492596,
      "grad_norm": 0.9726400971412659,
      "learning_rate": 0.00022268696222942026,
      "loss": 4.0354,
      "step": 438500
    },
    {
      "epoch": 2.338639220950798,
      "grad_norm": 0.9305101037025452,
      "learning_rate": 0.0002217951370556927,
      "loss": 4.0213,
      "step": 439000
    },
    {
      "epoch": 2.3413028191523364,
      "grad_norm": 0.9207624793052673,
      "learning_rate": 0.00022090331188196515,
      "loss": 4.0388,
      "step": 439500
    },
    {
      "epoch": 2.343966417353875,
      "grad_norm": 0.940703809261322,
      "learning_rate": 0.00022001148670823761,
      "loss": 4.0303,
      "step": 440000
    },
    {
      "epoch": 2.3466300155554136,
      "grad_norm": 1.0912624597549438,
      "learning_rate": 0.00021912144518485753,
      "loss": 4.0319,
      "step": 440500
    },
    {
      "epoch": 2.3492936137569522,
      "grad_norm": 0.9056357145309448,
      "learning_rate": 0.00021822962001113,
      "loss": 4.0326,
      "step": 441000
    },
    {
      "epoch": 2.3519572119584904,
      "grad_norm": 0.891265332698822,
      "learning_rate": 0.00021733779483740242,
      "loss": 4.0398,
      "step": 441500
    },
    {
      "epoch": 2.354620810160029,
      "grad_norm": 0.9790766835212708,
      "learning_rate": 0.00021644596966367488,
      "loss": 4.0352,
      "step": 442000
    },
    {
      "epoch": 2.3572844083615676,
      "grad_norm": 0.9584769010543823,
      "learning_rate": 0.00021555414448994734,
      "loss": 4.0393,
      "step": 442500
    },
    {
      "epoch": 2.3599480065631058,
      "grad_norm": 0.9171414971351624,
      "learning_rate": 0.00021466410296656728,
      "loss": 4.0384,
      "step": 443000
    },
    {
      "epoch": 2.3626116047646444,
      "grad_norm": 0.9353621006011963,
      "learning_rate": 0.00021377227779283972,
      "loss": 4.0247,
      "step": 443500
    },
    {
      "epoch": 2.365275202966183,
      "grad_norm": 1.1184170246124268,
      "learning_rate": 0.00021288045261911217,
      "loss": 4.0374,
      "step": 444000
    },
    {
      "epoch": 2.3679388011677216,
      "grad_norm": 0.9417023062705994,
      "learning_rate": 0.00021198862744538463,
      "loss": 4.0279,
      "step": 444500
    },
    {
      "epoch": 2.3706023993692598,
      "grad_norm": 1.0378462076187134,
      "learning_rate": 0.00021109858592200455,
      "loss": 4.0357,
      "step": 445000
    },
    {
      "epoch": 2.3732659975707984,
      "grad_norm": 0.9642356634140015,
      "learning_rate": 0.00021020676074827698,
      "loss": 4.0334,
      "step": 445500
    },
    {
      "epoch": 2.375929595772337,
      "grad_norm": 0.970891535282135,
      "learning_rate": 0.00020931493557454944,
      "loss": 4.025,
      "step": 446000
    },
    {
      "epoch": 2.3785931939738756,
      "grad_norm": 0.9346612691879272,
      "learning_rate": 0.0002084231104008219,
      "loss": 4.0255,
      "step": 446500
    },
    {
      "epoch": 2.3812567921754138,
      "grad_norm": 0.9348496794700623,
      "learning_rate": 0.00020753128522709436,
      "loss": 4.0305,
      "step": 447000
    },
    {
      "epoch": 2.3839203903769524,
      "grad_norm": 0.9465219974517822,
      "learning_rate": 0.00020664124370371428,
      "loss": 4.0279,
      "step": 447500
    },
    {
      "epoch": 2.386583988578491,
      "grad_norm": 0.9686950445175171,
      "learning_rate": 0.00020574941852998673,
      "loss": 4.038,
      "step": 448000
    },
    {
      "epoch": 2.3892475867800296,
      "grad_norm": 0.8983688354492188,
      "learning_rate": 0.0002048575933562592,
      "loss": 4.0302,
      "step": 448500
    },
    {
      "epoch": 2.3919111849815677,
      "grad_norm": 0.9491548538208008,
      "learning_rate": 0.00020396576818253165,
      "loss": 4.0302,
      "step": 449000
    },
    {
      "epoch": 2.3945747831831063,
      "grad_norm": 0.9248127341270447,
      "learning_rate": 0.00020307572665915154,
      "loss": 4.0338,
      "step": 449500
    },
    {
      "epoch": 2.397238381384645,
      "grad_norm": 0.9573125243186951,
      "learning_rate": 0.000202183901485424,
      "loss": 4.0337,
      "step": 450000
    },
    {
      "epoch": 2.3999019795861836,
      "grad_norm": 0.9655391573905945,
      "learning_rate": 0.00020129207631169646,
      "loss": 4.0338,
      "step": 450500
    },
    {
      "epoch": 2.4025655777877217,
      "grad_norm": 0.9134914875030518,
      "learning_rate": 0.00020040025113796892,
      "loss": 4.0241,
      "step": 451000
    },
    {
      "epoch": 2.4052291759892603,
      "grad_norm": 0.9635368585586548,
      "learning_rate": 0.00019951020961458886,
      "loss": 4.0357,
      "step": 451500
    },
    {
      "epoch": 2.407892774190799,
      "grad_norm": 0.9742798805236816,
      "learning_rate": 0.0001986183844408613,
      "loss": 4.0242,
      "step": 452000
    },
    {
      "epoch": 2.4105563723923376,
      "grad_norm": 0.9775349497795105,
      "learning_rate": 0.00019772655926713375,
      "loss": 4.0279,
      "step": 452500
    },
    {
      "epoch": 2.4132199705938757,
      "grad_norm": 0.9313619136810303,
      "learning_rate": 0.0001968347340934062,
      "loss": 4.03,
      "step": 453000
    },
    {
      "epoch": 2.4158835687954143,
      "grad_norm": 0.9796269536018372,
      "learning_rate": 0.00019594469257002613,
      "loss": 4.0254,
      "step": 453500
    },
    {
      "epoch": 2.418547166996953,
      "grad_norm": 0.9695695042610168,
      "learning_rate": 0.00019505286739629856,
      "loss": 4.0353,
      "step": 454000
    },
    {
      "epoch": 2.4212107651984915,
      "grad_norm": 0.9753876328468323,
      "learning_rate": 0.00019416104222257102,
      "loss": 4.0269,
      "step": 454500
    },
    {
      "epoch": 2.4238743634000297,
      "grad_norm": 0.9220411777496338,
      "learning_rate": 0.00019326921704884348,
      "loss": 4.0289,
      "step": 455000
    },
    {
      "epoch": 2.4265379616015683,
      "grad_norm": 0.9355341196060181,
      "learning_rate": 0.0001923791755254634,
      "loss": 4.0297,
      "step": 455500
    },
    {
      "epoch": 2.429201559803107,
      "grad_norm": 1.0068522691726685,
      "learning_rate": 0.00019148735035173583,
      "loss": 4.0332,
      "step": 456000
    },
    {
      "epoch": 2.431865158004645,
      "grad_norm": 0.9809306263923645,
      "learning_rate": 0.00019059552517800831,
      "loss": 4.025,
      "step": 456500
    },
    {
      "epoch": 2.4345287562061837,
      "grad_norm": 0.9140877723693848,
      "learning_rate": 0.00018970370000428077,
      "loss": 4.0237,
      "step": 457000
    },
    {
      "epoch": 2.4371923544077223,
      "grad_norm": 0.942362368106842,
      "learning_rate": 0.00018881187483055323,
      "loss": 4.0299,
      "step": 457500
    },
    {
      "epoch": 2.439855952609261,
      "grad_norm": 1.0030492544174194,
      "learning_rate": 0.00018792183330717312,
      "loss": 4.0241,
      "step": 458000
    },
    {
      "epoch": 2.4425195508107995,
      "grad_norm": 0.9555344581604004,
      "learning_rate": 0.00018703000813344558,
      "loss": 4.0269,
      "step": 458500
    },
    {
      "epoch": 2.4451831490123377,
      "grad_norm": 0.9068697690963745,
      "learning_rate": 0.00018613818295971804,
      "loss": 4.0273,
      "step": 459000
    },
    {
      "epoch": 2.4478467472138763,
      "grad_norm": 1.026928186416626,
      "learning_rate": 0.0001852463577859905,
      "loss": 4.0271,
      "step": 459500
    },
    {
      "epoch": 2.450510345415415,
      "grad_norm": 1.0138953924179077,
      "learning_rate": 0.00018435631626261041,
      "loss": 4.0273,
      "step": 460000
    },
    {
      "epoch": 2.453173943616953,
      "grad_norm": 0.9750286936759949,
      "learning_rate": 0.00018346449108888285,
      "loss": 4.0304,
      "step": 460500
    },
    {
      "epoch": 2.4558375418184917,
      "grad_norm": 0.9891506433486938,
      "learning_rate": 0.0001825726659151553,
      "loss": 4.028,
      "step": 461000
    },
    {
      "epoch": 2.4585011400200303,
      "grad_norm": 0.9331740140914917,
      "learning_rate": 0.00018168084074142777,
      "loss": 4.0259,
      "step": 461500
    },
    {
      "epoch": 2.461164738221569,
      "grad_norm": 0.9839907288551331,
      "learning_rate": 0.00018078901556770025,
      "loss": 4.0299,
      "step": 462000
    },
    {
      "epoch": 2.463828336423107,
      "grad_norm": 1.092699408531189,
      "learning_rate": 0.00017989897404432014,
      "loss": 4.0279,
      "step": 462500
    },
    {
      "epoch": 2.4664919346246457,
      "grad_norm": 0.9484713673591614,
      "learning_rate": 0.0001790071488705926,
      "loss": 4.0141,
      "step": 463000
    },
    {
      "epoch": 2.4691555328261843,
      "grad_norm": 0.9671944975852966,
      "learning_rate": 0.00017811532369686506,
      "loss": 4.0262,
      "step": 463500
    },
    {
      "epoch": 2.471819131027723,
      "grad_norm": 0.9488347172737122,
      "learning_rate": 0.00017722349852313752,
      "loss": 4.0197,
      "step": 464000
    },
    {
      "epoch": 2.474482729229261,
      "grad_norm": 0.9663012623786926,
      "learning_rate": 0.0001763334569997574,
      "loss": 4.0238,
      "step": 464500
    },
    {
      "epoch": 2.4771463274307997,
      "grad_norm": 0.9515085220336914,
      "learning_rate": 0.00017544163182602987,
      "loss": 4.0248,
      "step": 465000
    },
    {
      "epoch": 2.4798099256323383,
      "grad_norm": 0.969129204750061,
      "learning_rate": 0.00017454980665230233,
      "loss": 4.027,
      "step": 465500
    },
    {
      "epoch": 2.482473523833877,
      "grad_norm": 0.9723744988441467,
      "learning_rate": 0.00017365798147857479,
      "loss": 4.0223,
      "step": 466000
    },
    {
      "epoch": 2.485137122035415,
      "grad_norm": 0.9454832673072815,
      "learning_rate": 0.0001727679399551947,
      "loss": 4.0257,
      "step": 466500
    },
    {
      "epoch": 2.4878007202369536,
      "grad_norm": 0.9404035210609436,
      "learning_rate": 0.00017187611478146716,
      "loss": 4.0292,
      "step": 467000
    },
    {
      "epoch": 2.4904643184384923,
      "grad_norm": 0.9745790362358093,
      "learning_rate": 0.00017098428960773962,
      "loss": 4.027,
      "step": 467500
    },
    {
      "epoch": 2.493127916640031,
      "grad_norm": 0.952643871307373,
      "learning_rate": 0.00017009246443401208,
      "loss": 4.0259,
      "step": 468000
    },
    {
      "epoch": 2.495791514841569,
      "grad_norm": 1.0002975463867188,
      "learning_rate": 0.000169202422910632,
      "loss": 4.0286,
      "step": 468500
    },
    {
      "epoch": 2.4984551130431076,
      "grad_norm": 0.9904667139053345,
      "learning_rate": 0.00016831059773690443,
      "loss": 4.0233,
      "step": 469000
    },
    {
      "epoch": 2.5011187112446462,
      "grad_norm": 0.9523800015449524,
      "learning_rate": 0.00016741877256317689,
      "loss": 4.0205,
      "step": 469500
    },
    {
      "epoch": 2.5037823094461844,
      "grad_norm": 1.111253023147583,
      "learning_rate": 0.00016652694738944935,
      "loss": 4.0211,
      "step": 470000
    },
    {
      "epoch": 2.506445907647723,
      "grad_norm": 0.9411515593528748,
      "learning_rate": 0.0001656369058660693,
      "loss": 4.0276,
      "step": 470500
    },
    {
      "epoch": 2.5091095058492616,
      "grad_norm": 0.9541642665863037,
      "learning_rate": 0.00016474508069234172,
      "loss": 4.0248,
      "step": 471000
    },
    {
      "epoch": 2.5117731040508002,
      "grad_norm": 1.016478180885315,
      "learning_rate": 0.00016385325551861418,
      "loss": 4.0253,
      "step": 471500
    },
    {
      "epoch": 2.514436702252339,
      "grad_norm": 0.9605896472930908,
      "learning_rate": 0.00016296143034488664,
      "loss": 4.0201,
      "step": 472000
    },
    {
      "epoch": 2.517100300453877,
      "grad_norm": 0.9732680916786194,
      "learning_rate": 0.00016207138882150655,
      "loss": 4.02,
      "step": 472500
    },
    {
      "epoch": 2.5197638986554156,
      "grad_norm": 0.9240507483482361,
      "learning_rate": 0.000161179563647779,
      "loss": 4.0156,
      "step": 473000
    },
    {
      "epoch": 2.522427496856954,
      "grad_norm": 1.063936471939087,
      "learning_rate": 0.00016028773847405145,
      "loss": 4.0252,
      "step": 473500
    },
    {
      "epoch": 2.5250910950584924,
      "grad_norm": 0.9789932370185852,
      "learning_rate": 0.0001593959133003239,
      "loss": 4.0243,
      "step": 474000
    },
    {
      "epoch": 2.527754693260031,
      "grad_norm": 0.9427129030227661,
      "learning_rate": 0.00015850587177694385,
      "loss": 4.0193,
      "step": 474500
    },
    {
      "epoch": 2.5304182914615696,
      "grad_norm": 1.0714107751846313,
      "learning_rate": 0.00015761404660321628,
      "loss": 4.0165,
      "step": 475000
    },
    {
      "epoch": 2.533081889663108,
      "grad_norm": 0.9931527376174927,
      "learning_rate": 0.00015672222142948874,
      "loss": 4.0236,
      "step": 475500
    },
    {
      "epoch": 2.535745487864647,
      "grad_norm": 0.9835180640220642,
      "learning_rate": 0.0001558303962557612,
      "loss": 4.0227,
      "step": 476000
    },
    {
      "epoch": 2.538409086066185,
      "grad_norm": 1.021427869796753,
      "learning_rate": 0.00015493857108203366,
      "loss": 4.0233,
      "step": 476500
    },
    {
      "epoch": 2.5410726842677236,
      "grad_norm": 1.2135415077209473,
      "learning_rate": 0.00015404852955865357,
      "loss": 4.0206,
      "step": 477000
    },
    {
      "epoch": 2.543736282469262,
      "grad_norm": 1.0140650272369385,
      "learning_rate": 0.000153156704384926,
      "loss": 4.0232,
      "step": 477500
    },
    {
      "epoch": 2.5463998806708004,
      "grad_norm": 1.0078463554382324,
      "learning_rate": 0.00015226487921119847,
      "loss": 4.0182,
      "step": 478000
    },
    {
      "epoch": 2.549063478872339,
      "grad_norm": 1.0854226350784302,
      "learning_rate": 0.00015137305403747092,
      "loss": 4.019,
      "step": 478500
    },
    {
      "epoch": 2.5517270770738776,
      "grad_norm": 0.9886216521263123,
      "learning_rate": 0.00015048301251409084,
      "loss": 4.0224,
      "step": 479000
    },
    {
      "epoch": 2.554390675275416,
      "grad_norm": 1.0139665603637695,
      "learning_rate": 0.0001495911873403633,
      "loss": 4.0129,
      "step": 479500
    },
    {
      "epoch": 2.557054273476955,
      "grad_norm": 0.9683591723442078,
      "learning_rate": 0.00014869936216663576,
      "loss": 4.017,
      "step": 480000
    },
    {
      "epoch": 2.559717871678493,
      "grad_norm": 1.039494276046753,
      "learning_rate": 0.00014780753699290822,
      "loss": 4.0145,
      "step": 480500
    },
    {
      "epoch": 2.5623814698800316,
      "grad_norm": 1.0008569955825806,
      "learning_rate": 0.00014691749546952813,
      "loss": 4.0191,
      "step": 481000
    },
    {
      "epoch": 2.56504506808157,
      "grad_norm": 0.9593690037727356,
      "learning_rate": 0.00014602567029580057,
      "loss": 4.0247,
      "step": 481500
    },
    {
      "epoch": 2.5677086662831083,
      "grad_norm": 0.9470319747924805,
      "learning_rate": 0.00014513384512207303,
      "loss": 4.0227,
      "step": 482000
    },
    {
      "epoch": 2.570372264484647,
      "grad_norm": 1.0550135374069214,
      "learning_rate": 0.00014424201994834549,
      "loss": 4.0201,
      "step": 482500
    },
    {
      "epoch": 2.5730358626861856,
      "grad_norm": 1.0270289182662964,
      "learning_rate": 0.0001433519784249654,
      "loss": 4.0155,
      "step": 483000
    },
    {
      "epoch": 2.575699460887724,
      "grad_norm": 1.0669533014297485,
      "learning_rate": 0.00014246015325123783,
      "loss": 4.0256,
      "step": 483500
    },
    {
      "epoch": 2.5783630590892628,
      "grad_norm": 0.9935122132301331,
      "learning_rate": 0.0001415683280775103,
      "loss": 4.0131,
      "step": 484000
    },
    {
      "epoch": 2.581026657290801,
      "grad_norm": 1.0519307851791382,
      "learning_rate": 0.00014067650290378275,
      "loss": 4.0225,
      "step": 484500
    },
    {
      "epoch": 2.5836902554923395,
      "grad_norm": 0.9848348498344421,
      "learning_rate": 0.0001397864613804027,
      "loss": 4.0173,
      "step": 485000
    },
    {
      "epoch": 2.586353853693878,
      "grad_norm": 0.9730287194252014,
      "learning_rate": 0.00013889463620667515,
      "loss": 4.0184,
      "step": 485500
    },
    {
      "epoch": 2.5890174518954163,
      "grad_norm": 1.023484706878662,
      "learning_rate": 0.00013800281103294759,
      "loss": 4.0183,
      "step": 486000
    },
    {
      "epoch": 2.591681050096955,
      "grad_norm": 0.9631215929985046,
      "learning_rate": 0.00013711098585922005,
      "loss": 4.0186,
      "step": 486500
    },
    {
      "epoch": 2.5943446482984935,
      "grad_norm": 0.9774326682090759,
      "learning_rate": 0.00013622094433583996,
      "loss": 4.0212,
      "step": 487000
    },
    {
      "epoch": 2.5970082465000317,
      "grad_norm": 1.052068829536438,
      "learning_rate": 0.00013532911916211242,
      "loss": 4.0183,
      "step": 487500
    },
    {
      "epoch": 2.5996718447015703,
      "grad_norm": 0.9873191714286804,
      "learning_rate": 0.00013443729398838485,
      "loss": 4.0241,
      "step": 488000
    },
    {
      "epoch": 2.602335442903109,
      "grad_norm": 1.1005477905273438,
      "learning_rate": 0.0001335454688146573,
      "loss": 4.017,
      "step": 488500
    },
    {
      "epoch": 2.6049990411046475,
      "grad_norm": 0.9617475271224976,
      "learning_rate": 0.00013265542729127725,
      "loss": 4.0207,
      "step": 489000
    },
    {
      "epoch": 2.607662639306186,
      "grad_norm": 0.9862669706344604,
      "learning_rate": 0.0001317636021175497,
      "loss": 4.0168,
      "step": 489500
    },
    {
      "epoch": 2.6103262375077243,
      "grad_norm": 0.9720093011856079,
      "learning_rate": 0.00013087177694382215,
      "loss": 4.0058,
      "step": 490000
    },
    {
      "epoch": 2.612989835709263,
      "grad_norm": 0.9520342350006104,
      "learning_rate": 0.0001299799517700946,
      "loss": 4.0146,
      "step": 490500
    },
    {
      "epoch": 2.6156534339108015,
      "grad_norm": 1.054432988166809,
      "learning_rate": 0.00012908991024671452,
      "loss": 4.0105,
      "step": 491000
    },
    {
      "epoch": 2.6183170321123397,
      "grad_norm": 0.9796612858772278,
      "learning_rate": 0.00012819808507298698,
      "loss": 4.0114,
      "step": 491500
    },
    {
      "epoch": 2.6209806303138783,
      "grad_norm": 1.0970081090927124,
      "learning_rate": 0.0001273062598992594,
      "loss": 4.0232,
      "step": 492000
    },
    {
      "epoch": 2.623644228515417,
      "grad_norm": 0.9749308228492737,
      "learning_rate": 0.00012641443472553187,
      "loss": 4.009,
      "step": 492500
    },
    {
      "epoch": 2.6263078267169555,
      "grad_norm": 1.0011272430419922,
      "learning_rate": 0.00012552439320215181,
      "loss": 4.0182,
      "step": 493000
    },
    {
      "epoch": 2.628971424918494,
      "grad_norm": 0.9727855920791626,
      "learning_rate": 0.00012463256802842425,
      "loss": 4.0142,
      "step": 493500
    },
    {
      "epoch": 2.6316350231200323,
      "grad_norm": 1.054745078086853,
      "learning_rate": 0.0001237407428546967,
      "loss": 4.0153,
      "step": 494000
    },
    {
      "epoch": 2.634298621321571,
      "grad_norm": 0.9852134585380554,
      "learning_rate": 0.00012284891768096917,
      "loss": 4.0202,
      "step": 494500
    },
    {
      "epoch": 2.6369622195231095,
      "grad_norm": 1.0056986808776855,
      "learning_rate": 0.00012195887615758908,
      "loss": 4.0187,
      "step": 495000
    },
    {
      "epoch": 2.6396258177246477,
      "grad_norm": 0.9925665259361267,
      "learning_rate": 0.00012106705098386153,
      "loss": 4.0102,
      "step": 495500
    },
    {
      "epoch": 2.6422894159261863,
      "grad_norm": 0.9884349703788757,
      "learning_rate": 0.00012017522581013399,
      "loss": 4.0161,
      "step": 496000
    },
    {
      "epoch": 2.644953014127725,
      "grad_norm": 0.9753773808479309,
      "learning_rate": 0.00011928340063640645,
      "loss": 4.0122,
      "step": 496500
    },
    {
      "epoch": 2.6476166123292635,
      "grad_norm": 1.0602976083755493,
      "learning_rate": 0.00011839157546267889,
      "loss": 4.0148,
      "step": 497000
    },
    {
      "epoch": 2.650280210530802,
      "grad_norm": 1.024678349494934,
      "learning_rate": 0.00011750153393929882,
      "loss": 4.0148,
      "step": 497500
    },
    {
      "epoch": 2.6529438087323403,
      "grad_norm": 1.0422247648239136,
      "learning_rate": 0.00011660970876557127,
      "loss": 4.0139,
      "step": 498000
    },
    {
      "epoch": 2.655607406933879,
      "grad_norm": 0.9945011734962463,
      "learning_rate": 0.00011571788359184373,
      "loss": 4.0098,
      "step": 498500
    },
    {
      "epoch": 2.6582710051354175,
      "grad_norm": 0.9866018891334534,
      "learning_rate": 0.00011482605841811617,
      "loss": 4.0151,
      "step": 499000
    },
    {
      "epoch": 2.6609346033369556,
      "grad_norm": 1.071170449256897,
      "learning_rate": 0.0001139360168947361,
      "loss": 4.016,
      "step": 499500
    },
    {
      "epoch": 2.6635982015384942,
      "grad_norm": 1.120274543762207,
      "learning_rate": 0.00011304419172100855,
      "loss": 4.0115,
      "step": 500000
    },
    {
      "epoch": 2.666261799740033,
      "grad_norm": 1.0567705631256104,
      "learning_rate": 0.000112152366547281,
      "loss": 4.012,
      "step": 500500
    },
    {
      "epoch": 2.6689253979415715,
      "grad_norm": 0.9878965020179749,
      "learning_rate": 0.00011126054137355346,
      "loss": 4.0176,
      "step": 501000
    },
    {
      "epoch": 2.67158899614311,
      "grad_norm": 1.064886212348938,
      "learning_rate": 0.00011037049985017338,
      "loss": 4.0103,
      "step": 501500
    },
    {
      "epoch": 2.6742525943446482,
      "grad_norm": 1.0028510093688965,
      "learning_rate": 0.00010947867467644583,
      "loss": 4.0122,
      "step": 502000
    },
    {
      "epoch": 2.676916192546187,
      "grad_norm": 1.0561763048171997,
      "learning_rate": 0.00010858684950271829,
      "loss": 4.0078,
      "step": 502500
    },
    {
      "epoch": 2.6795797907477255,
      "grad_norm": 0.9861183166503906,
      "learning_rate": 0.00010769502432899074,
      "loss": 4.0162,
      "step": 503000
    },
    {
      "epoch": 2.6822433889492636,
      "grad_norm": 1.0413438081741333,
      "learning_rate": 0.00010680498280561066,
      "loss": 4.0205,
      "step": 503500
    },
    {
      "epoch": 2.6849069871508022,
      "grad_norm": 0.9923077821731567,
      "learning_rate": 0.0001059131576318831,
      "loss": 4.0078,
      "step": 504000
    },
    {
      "epoch": 2.687570585352341,
      "grad_norm": 0.9952608346939087,
      "learning_rate": 0.00010502133245815557,
      "loss": 4.0078,
      "step": 504500
    },
    {
      "epoch": 2.690234183553879,
      "grad_norm": 1.0345313549041748,
      "learning_rate": 0.00010412950728442802,
      "loss": 4.0118,
      "step": 505000
    },
    {
      "epoch": 2.6928977817554176,
      "grad_norm": 0.9837112426757812,
      "learning_rate": 0.00010323946576104794,
      "loss": 4.0108,
      "step": 505500
    },
    {
      "epoch": 2.695561379956956,
      "grad_norm": 1.0294288396835327,
      "learning_rate": 0.00010234764058732039,
      "loss": 4.0074,
      "step": 506000
    },
    {
      "epoch": 2.698224978158495,
      "grad_norm": 1.0430691242218018,
      "learning_rate": 0.00010145581541359285,
      "loss": 4.008,
      "step": 506500
    },
    {
      "epoch": 2.7008885763600334,
      "grad_norm": 1.006121039390564,
      "learning_rate": 0.0001005639902398653,
      "loss": 4.0022,
      "step": 507000
    },
    {
      "epoch": 2.7035521745615716,
      "grad_norm": 1.0028232336044312,
      "learning_rate": 9.967216506613775e-05,
      "loss": 4.0164,
      "step": 507500
    },
    {
      "epoch": 2.70621577276311,
      "grad_norm": 0.9883862733840942,
      "learning_rate": 9.878212354275768e-05,
      "loss": 4.0104,
      "step": 508000
    },
    {
      "epoch": 2.708879370964649,
      "grad_norm": 1.087190866470337,
      "learning_rate": 9.789029836903013e-05,
      "loss": 4.0132,
      "step": 508500
    },
    {
      "epoch": 2.711542969166187,
      "grad_norm": 1.0679038763046265,
      "learning_rate": 9.699847319530258e-05,
      "loss": 4.0105,
      "step": 509000
    },
    {
      "epoch": 2.7142065673677256,
      "grad_norm": 0.9755781888961792,
      "learning_rate": 9.610664802157504e-05,
      "loss": 4.0141,
      "step": 509500
    },
    {
      "epoch": 2.716870165569264,
      "grad_norm": 1.09120512008667,
      "learning_rate": 9.521660649819495e-05,
      "loss": 4.0138,
      "step": 510000
    },
    {
      "epoch": 2.719533763770803,
      "grad_norm": 1.0885505676269531,
      "learning_rate": 9.43247813244674e-05,
      "loss": 4.0065,
      "step": 510500
    },
    {
      "epoch": 2.7221973619723414,
      "grad_norm": 0.9858110547065735,
      "learning_rate": 9.343295615073986e-05,
      "loss": 4.0082,
      "step": 511000
    },
    {
      "epoch": 2.7248609601738796,
      "grad_norm": 1.0929360389709473,
      "learning_rate": 9.254113097701232e-05,
      "loss": 4.0107,
      "step": 511500
    },
    {
      "epoch": 2.727524558375418,
      "grad_norm": 1.139798641204834,
      "learning_rate": 9.165108945363223e-05,
      "loss": 4.0113,
      "step": 512000
    },
    {
      "epoch": 2.730188156576957,
      "grad_norm": 1.009216070175171,
      "learning_rate": 9.075926427990467e-05,
      "loss": 4.0065,
      "step": 512500
    },
    {
      "epoch": 2.732851754778495,
      "grad_norm": 1.047379732131958,
      "learning_rate": 8.986743910617714e-05,
      "loss": 4.0164,
      "step": 513000
    },
    {
      "epoch": 2.7355153529800336,
      "grad_norm": 0.9918530583381653,
      "learning_rate": 8.89756139324496e-05,
      "loss": 4.0016,
      "step": 513500
    },
    {
      "epoch": 2.738178951181572,
      "grad_norm": 1.0664864778518677,
      "learning_rate": 8.80855724090695e-05,
      "loss": 4.0112,
      "step": 514000
    },
    {
      "epoch": 2.740842549383111,
      "grad_norm": 1.0139024257659912,
      "learning_rate": 8.719374723534195e-05,
      "loss": 4.014,
      "step": 514500
    },
    {
      "epoch": 2.7435061475846494,
      "grad_norm": 1.0350786447525024,
      "learning_rate": 8.630192206161441e-05,
      "loss": 4.0062,
      "step": 515000
    },
    {
      "epoch": 2.7461697457861876,
      "grad_norm": 1.1327440738677979,
      "learning_rate": 8.541009688788688e-05,
      "loss": 4.0072,
      "step": 515500
    },
    {
      "epoch": 2.748833343987726,
      "grad_norm": 1.0807819366455078,
      "learning_rate": 8.452005536450679e-05,
      "loss": 4.0037,
      "step": 516000
    },
    {
      "epoch": 2.7514969421892648,
      "grad_norm": 0.9618473649024963,
      "learning_rate": 8.362823019077925e-05,
      "loss": 4.0069,
      "step": 516500
    },
    {
      "epoch": 2.754160540390803,
      "grad_norm": 1.0459738969802856,
      "learning_rate": 8.273640501705169e-05,
      "loss": 4.0066,
      "step": 517000
    },
    {
      "epoch": 2.7568241385923415,
      "grad_norm": 0.9917722940444946,
      "learning_rate": 8.184457984332415e-05,
      "loss": 3.9992,
      "step": 517500
    },
    {
      "epoch": 2.75948773679388,
      "grad_norm": 1.0388100147247314,
      "learning_rate": 8.095453831994407e-05,
      "loss": 4.0052,
      "step": 518000
    },
    {
      "epoch": 2.7621513349954188,
      "grad_norm": 1.041391372680664,
      "learning_rate": 8.006271314621653e-05,
      "loss": 4.0032,
      "step": 518500
    },
    {
      "epoch": 2.7648149331969574,
      "grad_norm": 1.06915283203125,
      "learning_rate": 7.917088797248897e-05,
      "loss": 4.0031,
      "step": 519000
    },
    {
      "epoch": 2.7674785313984955,
      "grad_norm": 1.0097078084945679,
      "learning_rate": 7.827906279876143e-05,
      "loss": 4.0074,
      "step": 519500
    },
    {
      "epoch": 2.770142129600034,
      "grad_norm": 1.0231430530548096,
      "learning_rate": 7.738902127538135e-05,
      "loss": 4.0133,
      "step": 520000
    },
    {
      "epoch": 2.7728057278015728,
      "grad_norm": 1.1709152460098267,
      "learning_rate": 7.64971961016538e-05,
      "loss": 4.0105,
      "step": 520500
    },
    {
      "epoch": 2.775469326003111,
      "grad_norm": 1.0553919076919556,
      "learning_rate": 7.560537092792625e-05,
      "loss": 4.0005,
      "step": 521000
    },
    {
      "epoch": 2.7781329242046495,
      "grad_norm": 1.0332099199295044,
      "learning_rate": 7.471354575419871e-05,
      "loss": 4.0137,
      "step": 521500
    },
    {
      "epoch": 2.780796522406188,
      "grad_norm": 1.0436155796051025,
      "learning_rate": 7.382350423081863e-05,
      "loss": 4.0046,
      "step": 522000
    },
    {
      "epoch": 2.7834601206077263,
      "grad_norm": 1.0391409397125244,
      "learning_rate": 7.293167905709109e-05,
      "loss": 4.0041,
      "step": 522500
    },
    {
      "epoch": 2.786123718809265,
      "grad_norm": 1.1365002393722534,
      "learning_rate": 7.203985388336353e-05,
      "loss": 4.0052,
      "step": 523000
    },
    {
      "epoch": 2.7887873170108035,
      "grad_norm": 1.0857511758804321,
      "learning_rate": 7.114802870963599e-05,
      "loss": 4.0059,
      "step": 523500
    },
    {
      "epoch": 2.791450915212342,
      "grad_norm": 0.9912382364273071,
      "learning_rate": 7.02579871862559e-05,
      "loss": 3.9987,
      "step": 524000
    },
    {
      "epoch": 2.7941145134138807,
      "grad_norm": 1.032727599143982,
      "learning_rate": 6.936616201252837e-05,
      "loss": 4.0058,
      "step": 524500
    },
    {
      "epoch": 2.796778111615419,
      "grad_norm": 1.0187702178955078,
      "learning_rate": 6.847433683880082e-05,
      "loss": 4.0103,
      "step": 525000
    },
    {
      "epoch": 2.7994417098169575,
      "grad_norm": 0.981054425239563,
      "learning_rate": 6.758251166507327e-05,
      "loss": 4.0111,
      "step": 525500
    },
    {
      "epoch": 2.802105308018496,
      "grad_norm": 1.1054233312606812,
      "learning_rate": 6.669068649134573e-05,
      "loss": 4.0051,
      "step": 526000
    },
    {
      "epoch": 2.8047689062200343,
      "grad_norm": 1.060707449913025,
      "learning_rate": 6.580064496796565e-05,
      "loss": 4.0112,
      "step": 526500
    },
    {
      "epoch": 2.807432504421573,
      "grad_norm": 0.9906247854232788,
      "learning_rate": 6.49088197942381e-05,
      "loss": 4.0067,
      "step": 527000
    },
    {
      "epoch": 2.8100961026231115,
      "grad_norm": 1.0259308815002441,
      "learning_rate": 6.401699462051055e-05,
      "loss": 3.9976,
      "step": 527500
    },
    {
      "epoch": 2.81275970082465,
      "grad_norm": 1.0347638130187988,
      "learning_rate": 6.312516944678301e-05,
      "loss": 4.0036,
      "step": 528000
    },
    {
      "epoch": 2.8154232990261887,
      "grad_norm": 1.0310813188552856,
      "learning_rate": 6.223512792340293e-05,
      "loss": 3.9994,
      "step": 528500
    },
    {
      "epoch": 2.818086897227727,
      "grad_norm": 1.085179090499878,
      "learning_rate": 6.134330274967537e-05,
      "loss": 4.0085,
      "step": 529000
    },
    {
      "epoch": 2.8207504954292655,
      "grad_norm": 1.0044561624526978,
      "learning_rate": 6.045147757594784e-05,
      "loss": 4.0058,
      "step": 529500
    },
    {
      "epoch": 2.823414093630804,
      "grad_norm": 1.0580705404281616,
      "learning_rate": 5.955965240222029e-05,
      "loss": 3.9968,
      "step": 530000
    },
    {
      "epoch": 2.8260776918323423,
      "grad_norm": 1.1205203533172607,
      "learning_rate": 5.86696108788402e-05,
      "loss": 3.9991,
      "step": 530500
    },
    {
      "epoch": 2.828741290033881,
      "grad_norm": 1.0346322059631348,
      "learning_rate": 5.777778570511266e-05,
      "loss": 4.0044,
      "step": 531000
    },
    {
      "epoch": 2.8314048882354195,
      "grad_norm": 1.078075647354126,
      "learning_rate": 5.688596053138511e-05,
      "loss": 3.9978,
      "step": 531500
    },
    {
      "epoch": 2.834068486436958,
      "grad_norm": 1.0365418195724487,
      "learning_rate": 5.599413535765757e-05,
      "loss": 4.0039,
      "step": 532000
    },
    {
      "epoch": 2.8367320846384967,
      "grad_norm": 1.0657716989517212,
      "learning_rate": 5.510409383427748e-05,
      "loss": 4.004,
      "step": 532500
    },
    {
      "epoch": 2.839395682840035,
      "grad_norm": 1.1193735599517822,
      "learning_rate": 5.421226866054994e-05,
      "loss": 3.9981,
      "step": 533000
    },
    {
      "epoch": 2.8420592810415735,
      "grad_norm": 1.0354912281036377,
      "learning_rate": 5.332044348682239e-05,
      "loss": 4.004,
      "step": 533500
    },
    {
      "epoch": 2.844722879243112,
      "grad_norm": 1.0501588582992554,
      "learning_rate": 5.2428618313094844e-05,
      "loss": 4.0008,
      "step": 534000
    },
    {
      "epoch": 2.8473864774446502,
      "grad_norm": 1.0080904960632324,
      "learning_rate": 5.1538576789714766e-05,
      "loss": 4.002,
      "step": 534500
    },
    {
      "epoch": 2.850050075646189,
      "grad_norm": 1.0569877624511719,
      "learning_rate": 5.064675161598722e-05,
      "loss": 4.0042,
      "step": 535000
    },
    {
      "epoch": 2.8527136738477274,
      "grad_norm": 1.0170665979385376,
      "learning_rate": 4.975492644225967e-05,
      "loss": 4.0016,
      "step": 535500
    },
    {
      "epoch": 2.855377272049266,
      "grad_norm": 1.0019437074661255,
      "learning_rate": 4.886310126853213e-05,
      "loss": 3.9992,
      "step": 536000
    },
    {
      "epoch": 2.8580408702508047,
      "grad_norm": 1.059810757637024,
      "learning_rate": 4.797305974515204e-05,
      "loss": 4.0066,
      "step": 536500
    },
    {
      "epoch": 2.860704468452343,
      "grad_norm": 1.0938292741775513,
      "learning_rate": 4.70812345714245e-05,
      "loss": 4.0008,
      "step": 537000
    },
    {
      "epoch": 2.8633680666538814,
      "grad_norm": 1.0392727851867676,
      "learning_rate": 4.618940939769695e-05,
      "loss": 4.0009,
      "step": 537500
    },
    {
      "epoch": 2.86603166485542,
      "grad_norm": 1.041225790977478,
      "learning_rate": 4.529758422396941e-05,
      "loss": 4.0025,
      "step": 538000
    },
    {
      "epoch": 2.868695263056958,
      "grad_norm": 1.0904215574264526,
      "learning_rate": 4.440754270058932e-05,
      "loss": 3.9982,
      "step": 538500
    },
    {
      "epoch": 2.871358861258497,
      "grad_norm": 1.0225439071655273,
      "learning_rate": 4.351571752686177e-05,
      "loss": 3.9986,
      "step": 539000
    },
    {
      "epoch": 2.8740224594600354,
      "grad_norm": 1.0368945598602295,
      "learning_rate": 4.262389235313424e-05,
      "loss": 3.9998,
      "step": 539500
    },
    {
      "epoch": 2.8766860576615736,
      "grad_norm": 1.0657331943511963,
      "learning_rate": 4.173206717940669e-05,
      "loss": 3.996,
      "step": 540000
    },
    {
      "epoch": 2.879349655863112,
      "grad_norm": 1.0275654792785645,
      "learning_rate": 4.084024200567914e-05,
      "loss": 3.9983,
      "step": 540500
    },
    {
      "epoch": 2.882013254064651,
      "grad_norm": 1.107050895690918,
      "learning_rate": 3.995020048229905e-05,
      "loss": 4.0028,
      "step": 541000
    },
    {
      "epoch": 2.8846768522661894,
      "grad_norm": 1.001038908958435,
      "learning_rate": 3.905837530857151e-05,
      "loss": 3.9941,
      "step": 541500
    },
    {
      "epoch": 2.887340450467728,
      "grad_norm": 1.0545873641967773,
      "learning_rate": 3.8166550134843964e-05,
      "loss": 3.9987,
      "step": 542000
    },
    {
      "epoch": 2.890004048669266,
      "grad_norm": 1.0375920534133911,
      "learning_rate": 3.727472496111642e-05,
      "loss": 3.995,
      "step": 542500
    },
    {
      "epoch": 2.892667646870805,
      "grad_norm": 1.0322425365447998,
      "learning_rate": 3.638468343773634e-05,
      "loss": 3.994,
      "step": 543000
    },
    {
      "epoch": 2.8953312450723434,
      "grad_norm": 1.0789730548858643,
      "learning_rate": 3.549285826400879e-05,
      "loss": 3.9958,
      "step": 543500
    },
    {
      "epoch": 2.8979948432738816,
      "grad_norm": 1.1932363510131836,
      "learning_rate": 3.4601033090281244e-05,
      "loss": 4.005,
      "step": 544000
    },
    {
      "epoch": 2.90065844147542,
      "grad_norm": 1.1194884777069092,
      "learning_rate": 3.3709207916553696e-05,
      "loss": 3.9965,
      "step": 544500
    },
    {
      "epoch": 2.903322039676959,
      "grad_norm": 1.03001868724823,
      "learning_rate": 3.281916639317362e-05,
      "loss": 4.0013,
      "step": 545000
    },
    {
      "epoch": 2.9059856378784974,
      "grad_norm": 0.986453115940094,
      "learning_rate": 3.192734121944607e-05,
      "loss": 3.9935,
      "step": 545500
    },
    {
      "epoch": 2.908649236080036,
      "grad_norm": 1.0338671207427979,
      "learning_rate": 3.1035516045718524e-05,
      "loss": 4.0017,
      "step": 546000
    },
    {
      "epoch": 2.911312834281574,
      "grad_norm": 1.0669965744018555,
      "learning_rate": 3.014369087199098e-05,
      "loss": 3.9954,
      "step": 546500
    },
    {
      "epoch": 2.9139764324831128,
      "grad_norm": 1.024873971939087,
      "learning_rate": 2.9253649348610895e-05,
      "loss": 3.9967,
      "step": 547000
    },
    {
      "epoch": 2.9166400306846514,
      "grad_norm": 1.0891566276550293,
      "learning_rate": 2.8361824174883348e-05,
      "loss": 4.0024,
      "step": 547500
    },
    {
      "epoch": 2.9193036288861895,
      "grad_norm": 0.9691978096961975,
      "learning_rate": 2.7469999001155807e-05,
      "loss": 3.9982,
      "step": 548000
    },
    {
      "epoch": 2.921967227087728,
      "grad_norm": 1.0564926862716675,
      "learning_rate": 2.6578173827428263e-05,
      "loss": 4.0025,
      "step": 548500
    },
    {
      "epoch": 2.9246308252892668,
      "grad_norm": 0.997660756111145,
      "learning_rate": 2.5688132304048175e-05,
      "loss": 3.9959,
      "step": 549000
    },
    {
      "epoch": 2.9272944234908054,
      "grad_norm": 1.0368565320968628,
      "learning_rate": 2.479630713032063e-05,
      "loss": 3.9977,
      "step": 549500
    },
    {
      "epoch": 2.929958021692344,
      "grad_norm": 1.069231629371643,
      "learning_rate": 2.3904481956593084e-05,
      "loss": 3.9915,
      "step": 550000
    },
    {
      "epoch": 2.932621619893882,
      "grad_norm": 1.0751917362213135,
      "learning_rate": 2.3012656782865543e-05,
      "loss": 3.997,
      "step": 550500
    },
    {
      "epoch": 2.9352852180954208,
      "grad_norm": 1.0397218465805054,
      "learning_rate": 2.212261525948545e-05,
      "loss": 3.9997,
      "step": 551000
    },
    {
      "epoch": 2.9379488162969594,
      "grad_norm": 1.086714506149292,
      "learning_rate": 2.1230790085757908e-05,
      "loss": 3.9943,
      "step": 551500
    },
    {
      "epoch": 2.9406124144984975,
      "grad_norm": 1.141553521156311,
      "learning_rate": 2.0338964912030367e-05,
      "loss": 3.9987,
      "step": 552000
    },
    {
      "epoch": 2.943276012700036,
      "grad_norm": 1.005601406097412,
      "learning_rate": 1.944713973830282e-05,
      "loss": 3.9904,
      "step": 552500
    },
    {
      "epoch": 2.9459396109015747,
      "grad_norm": 1.010642647743225,
      "learning_rate": 1.8557098214922735e-05,
      "loss": 3.9881,
      "step": 553000
    },
    {
      "epoch": 2.9486032091031134,
      "grad_norm": 1.104560375213623,
      "learning_rate": 1.7665273041195188e-05,
      "loss": 3.9918,
      "step": 553500
    },
    {
      "epoch": 2.951266807304652,
      "grad_norm": 1.0412003993988037,
      "learning_rate": 1.6773447867467644e-05,
      "loss": 3.9997,
      "step": 554000
    },
    {
      "epoch": 2.95393040550619,
      "grad_norm": 1.0635658502578735,
      "learning_rate": 1.5881622693740103e-05,
      "loss": 3.994,
      "step": 554500
    },
    {
      "epoch": 2.9565940037077287,
      "grad_norm": 1.0909868478775024,
      "learning_rate": 1.4991581170360012e-05,
      "loss": 3.9942,
      "step": 555000
    },
    {
      "epoch": 2.9592576019092673,
      "grad_norm": 1.052293062210083,
      "learning_rate": 1.4099755996632468e-05,
      "loss": 3.9975,
      "step": 555500
    },
    {
      "epoch": 2.9619212001108055,
      "grad_norm": 1.068088412284851,
      "learning_rate": 1.3207930822904926e-05,
      "loss": 3.9942,
      "step": 556000
    },
    {
      "epoch": 2.964584798312344,
      "grad_norm": 1.1510958671569824,
      "learning_rate": 1.2316105649177382e-05,
      "loss": 3.9951,
      "step": 556500
    },
    {
      "epoch": 2.9672483965138827,
      "grad_norm": 1.048006534576416,
      "learning_rate": 1.1426064125797293e-05,
      "loss": 3.9971,
      "step": 557000
    },
    {
      "epoch": 2.9699119947154213,
      "grad_norm": 1.0319584608078003,
      "learning_rate": 1.0534238952069748e-05,
      "loss": 3.9934,
      "step": 557500
    },
    {
      "epoch": 2.9725755929169595,
      "grad_norm": 1.0391571521759033,
      "learning_rate": 9.642413778342204e-06,
      "loss": 3.9943,
      "step": 558000
    },
    {
      "epoch": 2.975239191118498,
      "grad_norm": 1.0609184503555298,
      "learning_rate": 8.75058860461466e-06,
      "loss": 3.9923,
      "step": 558500
    },
    {
      "epoch": 2.9779027893200367,
      "grad_norm": 1.0420206785202026,
      "learning_rate": 7.860547081234572e-06,
      "loss": 3.9939,
      "step": 559000
    },
    {
      "epoch": 2.9805663875215753,
      "grad_norm": 1.0162791013717651,
      "learning_rate": 6.968721907507028e-06,
      "loss": 3.9993,
      "step": 559500
    },
    {
      "epoch": 2.9832299857231135,
      "grad_norm": 1.1188008785247803,
      "learning_rate": 6.076896733779484e-06,
      "loss": 3.9952,
      "step": 560000
    },
    {
      "epoch": 2.985893583924652,
      "grad_norm": 1.1251684427261353,
      "learning_rate": 5.18507156005194e-06,
      "loss": 3.9936,
      "step": 560500
    },
    {
      "epoch": 2.9885571821261907,
      "grad_norm": 1.072590947151184,
      "learning_rate": 4.295030036671852e-06,
      "loss": 3.9891,
      "step": 561000
    },
    {
      "epoch": 2.991220780327729,
      "grad_norm": 1.0949697494506836,
      "learning_rate": 3.403204862944307e-06,
      "loss": 3.9909,
      "step": 561500
    },
    {
      "epoch": 2.9938843785292675,
      "grad_norm": 1.0467427968978882,
      "learning_rate": 2.5113796892167635e-06,
      "loss": 4.0004,
      "step": 562000
    },
    {
      "epoch": 2.996547976730806,
      "grad_norm": 1.0436049699783325,
      "learning_rate": 1.6195545154892197e-06,
      "loss": 3.9896,
      "step": 562500
    },
    {
      "epoch": 2.9992115749323447,
      "grad_norm": 1.1010395288467407,
      "learning_rate": 7.295129921091309e-07,
      "loss": 3.9912,
      "step": 563000
    },
    {
      "epoch": 3.0,
      "step": 563148,
      "total_flos": 4.819699538212516e+17,
      "train_loss": 4.150129232981245,
      "train_runtime": 39834.0737,
      "train_samples_per_second": 904.789,
      "train_steps_per_second": 14.137
    }
  ],
  "logging_steps": 500,
  "max_steps": 563148,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.819699538212516e+17,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}