Add files using upload-large-folder tool

6723263 verified 7 months ago

47.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.922065846752039,
	"eval_steps": 400,
	"global_step": 11600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01690545623600017,
	"grad_norm": 9.244617462158203,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 5.2046,
	"step": 50
	},
	{
	"epoch": 0.03381091247200034,
	"grad_norm": 11.779854774475098,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 4.1731,
	"step": 100
	},
	{
	"epoch": 0.05071636870800051,
	"grad_norm": 3.761927604675293,
	"learning_rate": 5e-05,
	"loss": 4.0566,
	"step": 150
	},
	{
	"epoch": 0.06762182494400068,
	"grad_norm": 9.56804084777832,
	"learning_rate": 6.666666666666667e-05,
	"loss": 4.0416,
	"step": 200
	},
	{
	"epoch": 0.08452728118000084,
	"grad_norm": 4.056901454925537,
	"learning_rate": 8.333333333333334e-05,
	"loss": 3.9922,
	"step": 250
	},
	{
	"epoch": 0.10143273741600102,
	"grad_norm": 8.173892974853516,
	"learning_rate": 0.0001,
	"loss": 4.056,
	"step": 300
	},
	{
	"epoch": 0.11833819365200118,
	"grad_norm": 7.099091053009033,
	"learning_rate": 9.999735405375364e-05,
	"loss": 3.9618,
	"step": 350
	},
	{
	"epoch": 0.13524364988800136,
	"grad_norm": 3.7080025672912598,
	"learning_rate": 9.998941652617147e-05,
	"loss": 3.9753,
	"step": 400
	},
	{
	"epoch": 0.13524364988800136,
	"eval_loss": 3.9605562686920166,
	"eval_runtime": 11.6413,
	"eval_samples_per_second": 85.901,
	"eval_steps_per_second": 2.749,
	"step": 400
	},
	{
	"epoch": 0.1521491061240015,
	"grad_norm": 3.6200530529022217,
	"learning_rate": 9.997618835068782e-05,
	"loss": 3.956,
	"step": 450
	},
	{
	"epoch": 0.1690545623600017,
	"grad_norm": 3.6575722694396973,
	"learning_rate": 9.995767108290448e-05,
	"loss": 3.9065,
	"step": 500
	},
	{
	"epoch": 0.18596001859600186,
	"grad_norm": 7.8048248291015625,
	"learning_rate": 9.993386690040792e-05,
	"loss": 3.88,
	"step": 550
	},
	{
	"epoch": 0.20286547483200204,
	"grad_norm": 2.769477605819702,
	"learning_rate": 9.990477860251314e-05,
	"loss": 3.8931,
	"step": 600
	},
	{
	"epoch": 0.2197709310680022,
	"grad_norm": 3.249483823776245,
	"learning_rate": 9.987040960993446e-05,
	"loss": 3.8389,
	"step": 650
	},
	{
	"epoch": 0.23667638730400237,
	"grad_norm": 1.6407500505447388,
	"learning_rate": 9.983076396438333e-05,
	"loss": 3.855,
	"step": 700
	},
	{
	"epoch": 0.2535818435400025,
	"grad_norm": 2.995973825454712,
	"learning_rate": 9.978584632809293e-05,
	"loss": 3.8473,
	"step": 750
	},
	{
	"epoch": 0.2704872997760027,
	"grad_norm": 2.316067934036255,
	"learning_rate": 9.973566198326996e-05,
	"loss": 3.8353,
	"step": 800
	},
	{
	"epoch": 0.2704872997760027,
	"eval_loss": 3.8578951358795166,
	"eval_runtime": 11.681,
	"eval_samples_per_second": 85.609,
	"eval_steps_per_second": 2.739,
	"step": 800
	},
	{
	"epoch": 0.28739275601200287,
	"grad_norm": 2.2685530185699463,
	"learning_rate": 9.968021683147353e-05,
	"loss": 3.8267,
	"step": 850
	},
	{
	"epoch": 0.304298212248003,
	"grad_norm": 2.8378384113311768,
	"learning_rate": 9.961951739292097e-05,
	"loss": 3.8046,
	"step": 900
	},
	{
	"epoch": 0.3212036684840032,
	"grad_norm": 3.528430938720703,
	"learning_rate": 9.955357080572128e-05,
	"loss": 3.8239,
	"step": 950
	},
	{
	"epoch": 0.3381091247200034,
	"grad_norm": 5.5983099937438965,
	"learning_rate": 9.948238482503555e-05,
	"loss": 3.7842,
	"step": 1000
	},
	{
	"epoch": 0.3550145809560035,
	"grad_norm": 2.4193906784057617,
	"learning_rate": 9.940596782216504e-05,
	"loss": 3.7816,
	"step": 1050
	},
	{
	"epoch": 0.3719200371920037,
	"grad_norm": 1.893676996231079,
	"learning_rate": 9.932432878356672e-05,
	"loss": 3.7895,
	"step": 1100
	},
	{
	"epoch": 0.3888254934280039,
	"grad_norm": 2.029632806777954,
	"learning_rate": 9.92374773097965e-05,
	"loss": 3.7668,
	"step": 1150
	},
	{
	"epoch": 0.4057309496640041,
	"grad_norm": 2.21596622467041,
	"learning_rate": 9.91454236143802e-05,
	"loss": 3.7979,
	"step": 1200
	},
	{
	"epoch": 0.4057309496640041,
	"eval_loss": 3.8054637908935547,
	"eval_runtime": 11.6706,
	"eval_samples_per_second": 85.685,
	"eval_steps_per_second": 2.742,
	"step": 1200
	},
	{
	"epoch": 0.42263640590000423,
	"grad_norm": 3.131930351257324,
	"learning_rate": 9.90481785226125e-05,
	"loss": 3.7824,
	"step": 1250
	},
	{
	"epoch": 0.4395418621360044,
	"grad_norm": 1.5176011323928833,
	"learning_rate": 9.894575347028381e-05,
	"loss": 3.7666,
	"step": 1300
	},
	{
	"epoch": 0.4564473183720046,
	"grad_norm": 2.2135422229766846,
	"learning_rate": 9.883816050233566e-05,
	"loss": 3.7684,
	"step": 1350
	},
	{
	"epoch": 0.47335277460800473,
	"grad_norm": 1.565341830253601,
	"learning_rate": 9.872541227144397e-05,
	"loss": 3.7421,
	"step": 1400
	},
	{
	"epoch": 0.4902582308440049,
	"grad_norm": 2.0272250175476074,
	"learning_rate": 9.860752203653138e-05,
	"loss": 3.7524,
	"step": 1450
	},
	{
	"epoch": 0.507163687080005,
	"grad_norm": 2.3772072792053223,
	"learning_rate": 9.848450366120785e-05,
	"loss": 3.7489,
	"step": 1500
	},
	{
	"epoch": 0.5240691433160053,
	"grad_norm": 2.349799633026123,
	"learning_rate": 9.835637161214042e-05,
	"loss": 3.7421,
	"step": 1550
	},
	{
	"epoch": 0.5409745995520054,
	"grad_norm": 2.6349542140960693,
	"learning_rate": 9.822314095735195e-05,
	"loss": 3.7416,
	"step": 1600
	},
	{
	"epoch": 0.5409745995520054,
	"eval_loss": 3.775789499282837,
	"eval_runtime": 11.6523,
	"eval_samples_per_second": 85.82,
	"eval_steps_per_second": 2.746,
	"step": 1600
	},
	{
	"epoch": 0.5578800557880056,
	"grad_norm": 2.5276811122894287,
	"learning_rate": 9.808482736444913e-05,
	"loss": 3.7517,
	"step": 1650
	},
	{
	"epoch": 0.5747855120240057,
	"grad_norm": 2.6835217475891113,
	"learning_rate": 9.794144709878008e-05,
	"loss": 3.7325,
	"step": 1700
	},
	{
	"epoch": 0.5916909682600059,
	"grad_norm": 2.924553632736206,
	"learning_rate": 9.779301702152147e-05,
	"loss": 3.7142,
	"step": 1750
	},
	{
	"epoch": 0.608596424496006,
	"grad_norm": 2.129288673400879,
	"learning_rate": 9.763955458769581e-05,
	"loss": 3.7347,
	"step": 1800
	},
	{
	"epoch": 0.6255018807320063,
	"grad_norm": 1.441651463508606,
	"learning_rate": 9.748107784411867e-05,
	"loss": 3.72,
	"step": 1850
	},
	{
	"epoch": 0.6424073369680064,
	"grad_norm": 2.1518378257751465,
	"learning_rate": 9.731760542727647e-05,
	"loss": 3.7042,
	"step": 1900
	},
	{
	"epoch": 0.6593127932040066,
	"grad_norm": 4.049715518951416,
	"learning_rate": 9.714915656113491e-05,
	"loss": 3.7284,
	"step": 1950
	},
	{
	"epoch": 0.6762182494400067,
	"grad_norm": 1.596699595451355,
	"learning_rate": 9.697575105487821e-05,
	"loss": 3.7116,
	"step": 2000
	},
	{
	"epoch": 0.6762182494400067,
	"eval_loss": 3.7348101139068604,
	"eval_runtime": 11.6849,
	"eval_samples_per_second": 85.58,
	"eval_steps_per_second": 2.739,
	"step": 2000
	},
	{
	"epoch": 0.6931237056760069,
	"grad_norm": 2.405496835708618,
	"learning_rate": 9.679740930057965e-05,
	"loss": 3.6867,
	"step": 2050
	},
	{
	"epoch": 0.710029161912007,
	"grad_norm": 2.290134906768799,
	"learning_rate": 9.661415227080342e-05,
	"loss": 3.6967,
	"step": 2100
	},
	{
	"epoch": 0.7269346181480073,
	"grad_norm": 1.6495215892791748,
	"learning_rate": 9.642600151613847e-05,
	"loss": 3.6822,
	"step": 2150
	},
	{
	"epoch": 0.7438400743840075,
	"grad_norm": 1.6393038034439087,
	"learning_rate": 9.623297916266399e-05,
	"loss": 3.6747,
	"step": 2200
	},
	{
	"epoch": 0.7607455306200076,
	"grad_norm": 1.7952766418457031,
	"learning_rate": 9.603510790934765e-05,
	"loss": 3.6778,
	"step": 2250
	},
	{
	"epoch": 0.7776509868560078,
	"grad_norm": 2.7831900119781494,
	"learning_rate": 9.583241102537609e-05,
	"loss": 3.6891,
	"step": 2300
	},
	{
	"epoch": 0.7945564430920079,
	"grad_norm": 1.602946400642395,
	"learning_rate": 9.562491234741863e-05,
	"loss": 3.6745,
	"step": 2350
	},
	{
	"epoch": 0.8114618993280082,
	"grad_norm": 2.163341522216797,
	"learning_rate": 9.541263627682408e-05,
	"loss": 3.6622,
	"step": 2400
	},
	{
	"epoch": 0.8114618993280082,
	"eval_loss": 3.7114827632904053,
	"eval_runtime": 11.6568,
	"eval_samples_per_second": 85.787,
	"eval_steps_per_second": 2.745,
	"step": 2400
	},
	{
	"epoch": 0.8283673555640083,
	"grad_norm": 3.2292706966400146,
	"learning_rate": 9.519560777675117e-05,
	"loss": 3.6907,
	"step": 2450
	},
	{
	"epoch": 0.8452728118000085,
	"grad_norm": 2.3297388553619385,
	"learning_rate": 9.497385236923304e-05,
	"loss": 3.659,
	"step": 2500
	},
	{
	"epoch": 0.8621782680360086,
	"grad_norm": 2.1775872707366943,
	"learning_rate": 9.474739613217583e-05,
	"loss": 3.6543,
	"step": 2550
	},
	{
	"epoch": 0.8790837242720088,
	"grad_norm": 2.1940650939941406,
	"learning_rate": 9.4516265696292e-05,
	"loss": 3.6631,
	"step": 2600
	},
	{
	"epoch": 0.8959891805080089,
	"grad_norm": 2.0075910091400146,
	"learning_rate": 9.428048824196861e-05,
	"loss": 3.6699,
	"step": 2650
	},
	{
	"epoch": 0.9128946367440092,
	"grad_norm": 1.463968276977539,
	"learning_rate": 9.404009149607104e-05,
	"loss": 3.6458,
	"step": 2700
	},
	{
	"epoch": 0.9298000929800093,
	"grad_norm": 1.776117205619812,
	"learning_rate": 9.379510372868227e-05,
	"loss": 3.6442,
	"step": 2750
	},
	{
	"epoch": 0.9467055492160095,
	"grad_norm": 1.4943894147872925,
	"learning_rate": 9.354555374977845e-05,
	"loss": 3.6717,
	"step": 2800
	},
	{
	"epoch": 0.9467055492160095,
	"eval_loss": 3.6869394779205322,
	"eval_runtime": 11.6677,
	"eval_samples_per_second": 85.706,
	"eval_steps_per_second": 2.743,
	"step": 2800
	},
	{
	"epoch": 0.9636110054520096,
	"grad_norm": 2.1420116424560547,
	"learning_rate": 9.32914709058409e-05,
	"loss": 3.6602,
	"step": 2850
	},
	{
	"epoch": 0.9805164616880098,
	"grad_norm": 1.4225534200668335,
	"learning_rate": 9.303288507640508e-05,
	"loss": 3.6312,
	"step": 2900
	},
	{
	"epoch": 0.99742191792401,
	"grad_norm": 1.5110421180725098,
	"learning_rate": 9.276982667054676e-05,
	"loss": 3.6309,
	"step": 2950
	},
	{
	"epoch": 1.01432737416001,
	"grad_norm": 1.4234793186187744,
	"learning_rate": 9.250232662330597e-05,
	"loss": 3.5446,
	"step": 3000
	},
	{
	"epoch": 1.0312328303960103,
	"grad_norm": 1.4176740646362305,
	"learning_rate": 9.223041639204923e-05,
	"loss": 3.5084,
	"step": 3050
	},
	{
	"epoch": 1.0481382866320106,
	"grad_norm": 1.5388909578323364,
	"learning_rate": 9.195412795277012e-05,
	"loss": 3.4993,
	"step": 3100
	},
	{
	"epoch": 1.0650437428680106,
	"grad_norm": 1.7309865951538086,
	"learning_rate": 9.167349379632901e-05,
	"loss": 3.5396,
	"step": 3150
	},
	{
	"epoch": 1.0819491991040109,
	"grad_norm": 1.6854147911071777,
	"learning_rate": 9.138854692463229e-05,
	"loss": 3.5129,
	"step": 3200
	},
	{
	"epoch": 1.0819491991040109,
	"eval_loss": 3.657722234725952,
	"eval_runtime": 11.6989,
	"eval_samples_per_second": 85.478,
	"eval_steps_per_second": 2.735,
	"step": 3200
	},
	{
	"epoch": 1.098854655340011,
	"grad_norm": 2.1751339435577393,
	"learning_rate": 9.10993208467513e-05,
	"loss": 3.523,
	"step": 3250
	},
	{
	"epoch": 1.1157601115760112,
	"grad_norm": 1.1804617643356323,
	"learning_rate": 9.08058495749818e-05,
	"loss": 3.5124,
	"step": 3300
	},
	{
	"epoch": 1.1326655678120114,
	"grad_norm": 2.0826492309570312,
	"learning_rate": 9.050816762084426e-05,
	"loss": 3.5145,
	"step": 3350
	},
	{
	"epoch": 1.1495710240480115,
	"grad_norm": 1.2046183347702026,
	"learning_rate": 9.020630999102529e-05,
	"loss": 3.4959,
	"step": 3400
	},
	{
	"epoch": 1.1664764802840117,
	"grad_norm": 1.7077451944351196,
	"learning_rate": 8.990031218326104e-05,
	"loss": 3.5147,
	"step": 3450
	},
	{
	"epoch": 1.1833819365200118,
	"grad_norm": 1.5411063432693481,
	"learning_rate": 8.959021018216262e-05,
	"loss": 3.5041,
	"step": 3500
	},
	{
	"epoch": 1.200287392756012,
	"grad_norm": 1.4028867483139038,
	"learning_rate": 8.927604045498453e-05,
	"loss": 3.5017,
	"step": 3550
	},
	{
	"epoch": 1.217192848992012,
	"grad_norm": 1.7714195251464844,
	"learning_rate": 8.895783994733611e-05,
	"loss": 3.5056,
	"step": 3600
	},
	{
	"epoch": 1.217192848992012,
	"eval_loss": 3.643071174621582,
	"eval_runtime": 11.6982,
	"eval_samples_per_second": 85.484,
	"eval_steps_per_second": 2.735,
	"step": 3600
	},
	{
	"epoch": 1.2340983052280123,
	"grad_norm": 1.4252102375030518,
	"learning_rate": 8.863564607883687e-05,
	"loss": 3.4944,
	"step": 3650
	},
	{
	"epoch": 1.2510037614640126,
	"grad_norm": 1.6317962408065796,
	"learning_rate": 8.8309496738716e-05,
	"loss": 3.4899,
	"step": 3700
	},
	{
	"epoch": 1.2679092177000126,
	"grad_norm": 1.9923129081726074,
	"learning_rate": 8.79794302813567e-05,
	"loss": 3.5166,
	"step": 3750
	},
	{
	"epoch": 1.284814673936013,
	"grad_norm": 1.0414555072784424,
	"learning_rate": 8.764548552178584e-05,
	"loss": 3.4998,
	"step": 3800
	},
	{
	"epoch": 1.301720130172013,
	"grad_norm": 1.9689300060272217,
	"learning_rate": 8.730770173110932e-05,
	"loss": 3.5138,
	"step": 3850
	},
	{
	"epoch": 1.3186255864080132,
	"grad_norm": 1.6223361492156982,
	"learning_rate": 8.696611863189395e-05,
	"loss": 3.49,
	"step": 3900
	},
	{
	"epoch": 1.3355310426440132,
	"grad_norm": 1.6299093961715698,
	"learning_rate": 8.662077639349612e-05,
	"loss": 3.4629,
	"step": 3950
	},
	{
	"epoch": 1.3524364988800135,
	"grad_norm": 1.510591983795166,
	"learning_rate": 8.627171562733803e-05,
	"loss": 3.4711,
	"step": 4000
	},
	{
	"epoch": 1.3524364988800135,
	"eval_loss": 3.620584726333618,
	"eval_runtime": 11.664,
	"eval_samples_per_second": 85.734,
	"eval_steps_per_second": 2.743,
	"step": 4000
	},
	{
	"epoch": 1.3693419551160138,
	"grad_norm": 1.280197262763977,
	"learning_rate": 8.591897738213187e-05,
	"loss": 3.4808,
	"step": 4050
	},
	{
	"epoch": 1.3862474113520138,
	"grad_norm": 1.5453211069107056,
	"learning_rate": 8.556260313905257e-05,
	"loss": 3.4747,
	"step": 4100
	},
	{
	"epoch": 1.403152867588014,
	"grad_norm": 1.439795970916748,
	"learning_rate": 8.520263480685968e-05,
	"loss": 3.4847,
	"step": 4150
	},
	{
	"epoch": 1.4200583238240143,
	"grad_norm": 1.2832996845245361,
	"learning_rate": 8.483911471696912e-05,
	"loss": 3.482,
	"step": 4200
	},
	{
	"epoch": 1.4369637800600144,
	"grad_norm": 1.684513807296753,
	"learning_rate": 8.447208561847501e-05,
	"loss": 3.4514,
	"step": 4250
	},
	{
	"epoch": 1.4538692362960146,
	"grad_norm": 0.9559006094932556,
	"learning_rate": 8.410159067312243e-05,
	"loss": 3.4771,
	"step": 4300
	},
	{
	"epoch": 1.4707746925320146,
	"grad_norm": 1.0770719051361084,
	"learning_rate": 8.372767345023185e-05,
	"loss": 3.483,
	"step": 4350
	},
	{
	"epoch": 1.487680148768015,
	"grad_norm": 1.1667702198028564,
	"learning_rate": 8.33503779215754e-05,
	"loss": 3.4781,
	"step": 4400
	},
	{
	"epoch": 1.487680148768015,
	"eval_loss": 3.585639715194702,
	"eval_runtime": 11.6769,
	"eval_samples_per_second": 85.639,
	"eval_steps_per_second": 2.74,
	"step": 4400
	},
	{
	"epoch": 1.504585605004015,
	"grad_norm": 1.183647632598877,
	"learning_rate": 8.296974845620584e-05,
	"loss": 3.4836,
	"step": 4450
	},
	{
	"epoch": 1.5214910612400152,
	"grad_norm": 1.308076024055481,
	"learning_rate": 8.258582981523895e-05,
	"loss": 3.4571,
	"step": 4500
	},
	{
	"epoch": 1.5383965174760155,
	"grad_norm": 1.5776398181915283,
	"learning_rate": 8.219866714658971e-05,
	"loss": 3.444,
	"step": 4550
	},
	{
	"epoch": 1.5553019737120155,
	"grad_norm": 1.1617664098739624,
	"learning_rate": 8.180830597966303e-05,
	"loss": 3.4465,
	"step": 4600
	},
	{
	"epoch": 1.5722074299480158,
	"grad_norm": 0.9418047070503235,
	"learning_rate": 8.141479221999953e-05,
	"loss": 3.4568,
	"step": 4650
	},
	{
	"epoch": 1.589112886184016,
	"grad_norm": 1.3985543251037598,
	"learning_rate": 8.101817214387723e-05,
	"loss": 3.4502,
	"step": 4700
	},
	{
	"epoch": 1.606018342420016,
	"grad_norm": 1.0654075145721436,
	"learning_rate": 8.06184923928695e-05,
	"loss": 3.4424,
	"step": 4750
	},
	{
	"epoch": 1.622923798656016,
	"grad_norm": 1.5798131227493286,
	"learning_rate": 8.021579996836025e-05,
	"loss": 3.4336,
	"step": 4800
	},
	{
	"epoch": 1.622923798656016,
	"eval_loss": 3.5558018684387207,
	"eval_runtime": 11.6573,
	"eval_samples_per_second": 85.783,
	"eval_steps_per_second": 2.745,
	"step": 4800
	},
	{
	"epoch": 1.6398292548920164,
	"grad_norm": 1.036365270614624,
	"learning_rate": 7.981014222601651e-05,
	"loss": 3.4397,
	"step": 4850
	},
	{
	"epoch": 1.6567347111280166,
	"grad_norm": 1.2249760627746582,
	"learning_rate": 7.940156687021969e-05,
	"loss": 3.4315,
	"step": 4900
	},
	{
	"epoch": 1.6736401673640167,
	"grad_norm": 1.3212870359420776,
	"learning_rate": 7.899012194845549e-05,
	"loss": 3.4342,
	"step": 4950
	},
	{
	"epoch": 1.690545623600017,
	"grad_norm": 1.130004644393921,
	"learning_rate": 7.857585584566375e-05,
	"loss": 3.428,
	"step": 5000
	},
	{
	"epoch": 1.7074510798360172,
	"grad_norm": 1.0531315803527832,
	"learning_rate": 7.815881727854847e-05,
	"loss": 3.4208,
	"step": 5050
	},
	{
	"epoch": 1.7243565360720172,
	"grad_norm": 1.3188402652740479,
	"learning_rate": 7.77390552898488e-05,
	"loss": 3.4227,
	"step": 5100
	},
	{
	"epoch": 1.7412619923080173,
	"grad_norm": 1.0934581756591797,
	"learning_rate": 7.73166192425718e-05,
	"loss": 3.4245,
	"step": 5150
	},
	{
	"epoch": 1.7581674485440177,
	"grad_norm": 1.7236692905426025,
	"learning_rate": 7.68915588141874e-05,
	"loss": 3.4167,
	"step": 5200
	},
	{
	"epoch": 1.7581674485440177,
	"eval_loss": 3.5321877002716064,
	"eval_runtime": 11.6863,
	"eval_samples_per_second": 85.57,
	"eval_steps_per_second": 2.738,
	"step": 5200
	},
	{
	"epoch": 1.7750729047800178,
	"grad_norm": 0.9837960600852966,
	"learning_rate": 7.646392399078647e-05,
	"loss": 3.4196,
	"step": 5250
	},
	{
	"epoch": 1.7919783610160178,
	"grad_norm": 1.0993341207504272,
	"learning_rate": 7.60337650612026e-05,
	"loss": 3.4116,
	"step": 5300
	},
	{
	"epoch": 1.808883817252018,
	"grad_norm": 1.3233968019485474,
	"learning_rate": 7.560113261109827e-05,
	"loss": 3.4118,
	"step": 5350
	},
	{
	"epoch": 1.8257892734880183,
	"grad_norm": 1.250022530555725,
	"learning_rate": 7.516607751701602e-05,
	"loss": 3.3959,
	"step": 5400
	},
	{
	"epoch": 1.8426947297240184,
	"grad_norm": 1.4518115520477295,
	"learning_rate": 7.472865094039555e-05,
	"loss": 3.4155,
	"step": 5450
	},
	{
	"epoch": 1.8596001859600186,
	"grad_norm": 1.307420015335083,
	"learning_rate": 7.428890432155719e-05,
	"loss": 3.3955,
	"step": 5500
	},
	{
	"epoch": 1.876505642196019,
	"grad_norm": 1.255487322807312,
	"learning_rate": 7.384688937365279e-05,
	"loss": 3.3877,
	"step": 5550
	},
	{
	"epoch": 1.893411098432019,
	"grad_norm": 0.999951183795929,
	"learning_rate": 7.340265807658422e-05,
	"loss": 3.3942,
	"step": 5600
	},
	{
	"epoch": 1.893411098432019,
	"eval_loss": 3.4983253479003906,
	"eval_runtime": 11.6754,
	"eval_samples_per_second": 85.65,
	"eval_steps_per_second": 2.741,
	"step": 5600
	},
	{
	"epoch": 1.910316554668019,
	"grad_norm": 1.4537323713302612,
	"learning_rate": 7.29562626708907e-05,
	"loss": 3.4025,
	"step": 5650
	},
	{
	"epoch": 1.9272220109040192,
	"grad_norm": 1.2412198781967163,
	"learning_rate": 7.25077556516055e-05,
	"loss": 3.3924,
	"step": 5700
	},
	{
	"epoch": 1.9441274671400195,
	"grad_norm": 1.592606544494629,
	"learning_rate": 7.205718976208258e-05,
	"loss": 3.3732,
	"step": 5750
	},
	{
	"epoch": 1.9610329233760195,
	"grad_norm": 0.9837318658828735,
	"learning_rate": 7.160461798779413e-05,
	"loss": 3.3909,
	"step": 5800
	},
	{
	"epoch": 1.9779383796120198,
	"grad_norm": 1.1004836559295654,
	"learning_rate": 7.115009355009959e-05,
	"loss": 3.3837,
	"step": 5850
	},
	{
	"epoch": 1.99484383584802,
	"grad_norm": 1.5246398448944092,
	"learning_rate": 7.069366989998692e-05,
	"loss": 3.366,
	"step": 5900
	},
	{
	"epoch": 2.01174929208402,
	"grad_norm": 1.1871501207351685,
	"learning_rate": 7.023540071178697e-05,
	"loss": 3.2107,
	"step": 5950
	},
	{
	"epoch": 2.02865474832002,
	"grad_norm": 1.3174642324447632,
	"learning_rate": 6.977533987686147e-05,
	"loss": 3.1636,
	"step": 6000
	},
	{
	"epoch": 2.02865474832002,
	"eval_loss": 3.476820230484009,
	"eval_runtime": 11.7209,
	"eval_samples_per_second": 85.318,
	"eval_steps_per_second": 2.73,
	"step": 6000
	},
	{
	"epoch": 2.0455602045560206,
	"grad_norm": 1.3271148204803467,
	"learning_rate": 6.931354149726548e-05,
	"loss": 3.145,
	"step": 6050
	},
	{
	"epoch": 2.0624656607920206,
	"grad_norm": 1.0174113512039185,
	"learning_rate": 6.885005987938516e-05,
	"loss": 3.1572,
	"step": 6100
	},
	{
	"epoch": 2.0793711170280207,
	"grad_norm": 1.086552619934082,
	"learning_rate": 6.838494952755154e-05,
	"loss": 3.1499,
	"step": 6150
	},
	{
	"epoch": 2.096276573264021,
	"grad_norm": 0.9986650943756104,
	"learning_rate": 6.791826513763076e-05,
	"loss": 3.1508,
	"step": 6200
	},
	{
	"epoch": 2.113182029500021,
	"grad_norm": 1.0550023317337036,
	"learning_rate": 6.745006159059222e-05,
	"loss": 3.1484,
	"step": 6250
	},
	{
	"epoch": 2.1300874857360212,
	"grad_norm": 0.9948070049285889,
	"learning_rate": 6.69803939460544e-05,
	"loss": 3.1394,
	"step": 6300
	},
	{
	"epoch": 2.1469929419720213,
	"grad_norm": 0.9610317945480347,
	"learning_rate": 6.650931743581033e-05,
	"loss": 3.1438,
	"step": 6350
	},
	{
	"epoch": 2.1638983982080218,
	"grad_norm": 1.1480181217193604,
	"learning_rate": 6.603688745733211e-05,
	"loss": 3.1411,
	"step": 6400
	},
	{
	"epoch": 2.1638983982080218,
	"eval_loss": 3.4495885372161865,
	"eval_runtime": 11.6737,
	"eval_samples_per_second": 85.663,
	"eval_steps_per_second": 2.741,
	"step": 6400
	},
	{
	"epoch": 2.180803854444022,
	"grad_norm": 0.8075036406517029,
	"learning_rate": 6.556315956725662e-05,
	"loss": 3.1346,
	"step": 6450
	},
	{
	"epoch": 2.197709310680022,
	"grad_norm": 1.198843240737915,
	"learning_rate": 6.50881894748519e-05,
	"loss": 3.1739,
	"step": 6500
	},
	{
	"epoch": 2.2146147669160223,
	"grad_norm": 1.3039313554763794,
	"learning_rate": 6.461203303546615e-05,
	"loss": 3.1518,
	"step": 6550
	},
	{
	"epoch": 2.2315202231520224,
	"grad_norm": 1.0603476762771606,
	"learning_rate": 6.413474624395905e-05,
	"loss": 3.1561,
	"step": 6600
	},
	{
	"epoch": 2.2484256793880224,
	"grad_norm": 1.0246437788009644,
	"learning_rate": 6.365638522811704e-05,
	"loss": 3.1361,
	"step": 6650
	},
	{
	"epoch": 2.265331135624023,
	"grad_norm": 1.0935068130493164,
	"learning_rate": 6.317700624205273e-05,
	"loss": 3.1174,
	"step": 6700
	},
	{
	"epoch": 2.282236591860023,
	"grad_norm": 0.9507274031639099,
	"learning_rate": 6.269666565958963e-05,
	"loss": 3.1381,
	"step": 6750
	},
	{
	"epoch": 2.299142048096023,
	"grad_norm": 0.9847383499145508,
	"learning_rate": 6.221541996763269e-05,
	"loss": 3.1154,
	"step": 6800
	},
	{
	"epoch": 2.299142048096023,
	"eval_loss": 3.407775640487671,
	"eval_runtime": 11.6847,
	"eval_samples_per_second": 85.582,
	"eval_steps_per_second": 2.739,
	"step": 6800
	},
	{
	"epoch": 2.316047504332023,
	"grad_norm": 0.9965755343437195,
	"learning_rate": 6.173332575952557e-05,
	"loss": 3.1175,
	"step": 6850
	},
	{
	"epoch": 2.3329529605680235,
	"grad_norm": 0.9966267943382263,
	"learning_rate": 6.125043972839536e-05,
	"loss": 3.1507,
	"step": 6900
	},
	{
	"epoch": 2.3498584168040235,
	"grad_norm": 1.1471587419509888,
	"learning_rate": 6.0766818660485716e-05,
	"loss": 3.1287,
	"step": 6950
	},
	{
	"epoch": 2.3667638730400236,
	"grad_norm": 1.2493683099746704,
	"learning_rate": 6.028251942847882e-05,
	"loss": 3.1202,
	"step": 7000
	},
	{
	"epoch": 2.3836693292760236,
	"grad_norm": 1.0860092639923096,
	"learning_rate": 5.9797598984807335e-05,
	"loss": 3.121,
	"step": 7050
	},
	{
	"epoch": 2.400574785512024,
	"grad_norm": 1.1602693796157837,
	"learning_rate": 5.931211435495694e-05,
	"loss": 3.1282,
	"step": 7100
	},
	{
	"epoch": 2.417480241748024,
	"grad_norm": 0.9266437292098999,
	"learning_rate": 5.882612263076026e-05,
	"loss": 3.1033,
	"step": 7150
	},
	{
	"epoch": 2.434385697984024,
	"grad_norm": 1.0014028549194336,
	"learning_rate": 5.833968096368301e-05,
	"loss": 3.1007,
	"step": 7200
	},
	{
	"epoch": 2.434385697984024,
	"eval_loss": 3.378451108932495,
	"eval_runtime": 11.6786,
	"eval_samples_per_second": 85.627,
	"eval_steps_per_second": 2.74,
	"step": 7200
	},
	{
	"epoch": 2.4512911542200246,
	"grad_norm": 1.0491281747817993,
	"learning_rate": 5.785284655810308e-05,
	"loss": 3.1117,
	"step": 7250
	},
	{
	"epoch": 2.4681966104560247,
	"grad_norm": 0.8672958612442017,
	"learning_rate": 5.7365676664583514e-05,
	"loss": 3.1037,
	"step": 7300
	},
	{
	"epoch": 2.4851020666920247,
	"grad_norm": 1.0733287334442139,
	"learning_rate": 5.687822857313993e-05,
	"loss": 3.1175,
	"step": 7350
	},
	{
	"epoch": 2.502007522928025,
	"grad_norm": 0.8078711032867432,
	"learning_rate": 5.63905596065033e-05,
	"loss": 3.1099,
	"step": 7400
	},
	{
	"epoch": 2.5189129791640252,
	"grad_norm": 1.0341311693191528,
	"learning_rate": 5.590272711337908e-05,
	"loss": 3.1167,
	"step": 7450
	},
	{
	"epoch": 2.5358184354000253,
	"grad_norm": 1.1616711616516113,
	"learning_rate": 5.541478846170298e-05,
	"loss": 3.0931,
	"step": 7500
	},
	{
	"epoch": 2.5527238916360258,
	"grad_norm": 0.8573184609413147,
	"learning_rate": 5.4926801031894734e-05,
	"loss": 3.1002,
	"step": 7550
	},
	{
	"epoch": 2.569629347872026,
	"grad_norm": 0.9128609895706177,
	"learning_rate": 5.4438822210110275e-05,
	"loss": 3.1117,
	"step": 7600
	},
	{
	"epoch": 2.569629347872026,
	"eval_loss": 3.3413400650024414,
	"eval_runtime": 11.683,
	"eval_samples_per_second": 85.595,
	"eval_steps_per_second": 2.739,
	"step": 7600
	},
	{
	"epoch": 2.586534804108026,
	"grad_norm": 0.9771824479103088,
	"learning_rate": 5.395090938149321e-05,
	"loss": 3.0962,
	"step": 7650
	},
	{
	"epoch": 2.603440260344026,
	"grad_norm": 1.0292117595672607,
	"learning_rate": 5.346311992342656e-05,
	"loss": 3.0829,
	"step": 7700
	},
	{
	"epoch": 2.6203457165800264,
	"grad_norm": 0.8531580567359924,
	"learning_rate": 5.297551119878522e-05,
	"loss": 3.0778,
	"step": 7750
	},
	{
	"epoch": 2.6372511728160264,
	"grad_norm": 0.9693793058395386,
	"learning_rate": 5.248814054919031e-05,
	"loss": 3.0678,
	"step": 7800
	},
	{
	"epoch": 2.6541566290520264,
	"grad_norm": 0.999812662601471,
	"learning_rate": 5.200106528826586e-05,
	"loss": 3.0851,
	"step": 7850
	},
	{
	"epoch": 2.6710620852880265,
	"grad_norm": 0.8840042352676392,
	"learning_rate": 5.151434269489889e-05,
	"loss": 3.0775,
	"step": 7900
	},
	{
	"epoch": 2.687967541524027,
	"grad_norm": 0.8592630624771118,
	"learning_rate": 5.102803000650359e-05,
	"loss": 3.0553,
	"step": 7950
	},
	{
	"epoch": 2.704872997760027,
	"grad_norm": 0.8932810425758362,
	"learning_rate": 5.054218441229031e-05,
	"loss": 3.0653,
	"step": 8000
	},
	{
	"epoch": 2.704872997760027,
	"eval_loss": 3.309781551361084,
	"eval_runtime": 11.6906,
	"eval_samples_per_second": 85.538,
	"eval_steps_per_second": 2.737,
	"step": 8000
	},
	{
	"epoch": 2.721778453996027,
	"grad_norm": 0.9920628070831299,
	"learning_rate": 5.005686304654018e-05,
	"loss": 3.0565,
	"step": 8050
	},
	{
	"epoch": 2.7386839102320275,
	"grad_norm": 0.8969925045967102,
	"learning_rate": 4.957212298188638e-05,
	"loss": 3.0684,
	"step": 8100
	},
	{
	"epoch": 2.7555893664680275,
	"grad_norm": 0.9055591821670532,
	"learning_rate": 4.908802122260243e-05,
	"loss": 3.0721,
	"step": 8150
	},
	{
	"epoch": 2.7724948227040276,
	"grad_norm": 1.047692060470581,
	"learning_rate": 4.8604614697898706e-05,
	"loss": 3.0404,
	"step": 8200
	},
	{
	"epoch": 2.789400278940028,
	"grad_norm": 0.9087944626808167,
	"learning_rate": 4.8121960255227603e-05,
	"loss": 3.0607,
	"step": 8250
	},
	{
	"epoch": 2.806305735176028,
	"grad_norm": 0.845425546169281,
	"learning_rate": 4.764011465359851e-05,
	"loss": 3.0396,
	"step": 8300
	},
	{
	"epoch": 2.823211191412028,
	"grad_norm": 0.9913256764411926,
	"learning_rate": 4.715913455690301e-05,
	"loss": 3.0444,
	"step": 8350
	},
	{
	"epoch": 2.8401166476480286,
	"grad_norm": 1.0773906707763672,
	"learning_rate": 4.66790765272514e-05,
	"loss": 3.0378,
	"step": 8400
	},
	{
	"epoch": 2.8401166476480286,
	"eval_loss": 3.284963846206665,
	"eval_runtime": 11.6698,
	"eval_samples_per_second": 85.691,
	"eval_steps_per_second": 2.742,
	"step": 8400
	},
	{
	"epoch": 2.8570221038840287,
	"grad_norm": 0.9364065527915955,
	"learning_rate": 4.619999701832108e-05,
	"loss": 3.0088,
	"step": 8450
	},
	{
	"epoch": 2.8739275601200287,
	"grad_norm": 0.9384069442749023,
	"learning_rate": 4.572195236871777e-05,
	"loss": 3.0226,
	"step": 8500
	},
	{
	"epoch": 2.890833016356029,
	"grad_norm": 0.8556334972381592,
	"learning_rate": 4.524499879535016e-05,
	"loss": 3.0257,
	"step": 8550
	},
	{
	"epoch": 2.907738472592029,
	"grad_norm": 0.9114282131195068,
	"learning_rate": 4.476919238681904e-05,
	"loss": 3.0302,
	"step": 8600
	},
	{
	"epoch": 2.9246439288280293,
	"grad_norm": 0.832721471786499,
	"learning_rate": 4.4294589096821325e-05,
	"loss": 3.0438,
	"step": 8650
	},
	{
	"epoch": 2.9415493850640293,
	"grad_norm": 0.8480991125106812,
	"learning_rate": 4.3821244737570046e-05,
	"loss": 3.0276,
	"step": 8700
	},
	{
	"epoch": 2.9584548413000293,
	"grad_norm": 1.021043300628662,
	"learning_rate": 4.3349214973231024e-05,
	"loss": 3.0216,
	"step": 8750
	},
	{
	"epoch": 2.97536029753603,
	"grad_norm": 0.7957491874694824,
	"learning_rate": 4.287855531337683e-05,
	"loss": 3.0173,
	"step": 8800
	},
	{
	"epoch": 2.97536029753603,
	"eval_loss": 3.2582342624664307,
	"eval_runtime": 11.6907,
	"eval_samples_per_second": 85.538,
	"eval_steps_per_second": 2.737,
	"step": 8800
	},
	{
	"epoch": 2.99226575377203,
	"grad_norm": 1.0264720916748047,
	"learning_rate": 4.2409321106459077e-05,
	"loss": 3.0152,
	"step": 8850
	},
	{
	"epoch": 3.00917121000803,
	"grad_norm": 0.8381086587905884,
	"learning_rate": 4.194156753329942e-05,
	"loss": 2.886,
	"step": 8900
	},
	{
	"epoch": 3.0260766662440304,
	"grad_norm": 0.9872603416442871,
	"learning_rate": 4.147534960060059e-05,
	"loss": 2.7538,
	"step": 8950
	},
	{
	"epoch": 3.0429821224800304,
	"grad_norm": 0.8750160336494446,
	"learning_rate": 4.1010722134477665e-05,
	"loss": 2.791,
	"step": 9000
	},
	{
	"epoch": 3.0598875787160305,
	"grad_norm": 0.7593681216239929,
	"learning_rate": 4.054773977401066e-05,
	"loss": 2.7791,
	"step": 9050
	},
	{
	"epoch": 3.076793034952031,
	"grad_norm": 0.9249379634857178,
	"learning_rate": 4.008645696481903e-05,
	"loss": 2.7693,
	"step": 9100
	},
	{
	"epoch": 3.093698491188031,
	"grad_norm": 1.0219660997390747,
	"learning_rate": 3.962692795265914e-05,
	"loss": 2.7869,
	"step": 9150
	},
	{
	"epoch": 3.110603947424031,
	"grad_norm": 0.8459084630012512,
	"learning_rate": 3.916920677704499e-05,
	"loss": 2.778,
	"step": 9200
	},
	{
	"epoch": 3.110603947424031,
	"eval_loss": 3.247343063354492,
	"eval_runtime": 11.6589,
	"eval_samples_per_second": 85.771,
	"eval_steps_per_second": 2.745,
	"step": 9200
	},
	{
	"epoch": 3.1275094036600315,
	"grad_norm": 0.7969251871109009,
	"learning_rate": 3.8713347264893294e-05,
	"loss": 2.7645,
	"step": 9250
	},
	{
	"epoch": 3.1444148598960315,
	"grad_norm": 0.8492719531059265,
	"learning_rate": 3.8259403024193616e-05,
	"loss": 2.7729,
	"step": 9300
	},
	{
	"epoch": 3.1613203161320316,
	"grad_norm": 0.862267255783081,
	"learning_rate": 3.780742743770417e-05,
	"loss": 2.7825,
	"step": 9350
	},
	{
	"epoch": 3.1782257723680316,
	"grad_norm": 0.9612255692481995,
	"learning_rate": 3.7357473656674126e-05,
	"loss": 2.7848,
	"step": 9400
	},
	{
	"epoch": 3.195131228604032,
	"grad_norm": 0.8228344321250916,
	"learning_rate": 3.6909594594593175e-05,
	"loss": 2.7684,
	"step": 9450
	},
	{
	"epoch": 3.212036684840032,
	"grad_norm": 0.9417145252227783,
	"learning_rate": 3.6463842920969026e-05,
	"loss": 2.7771,
	"step": 9500
	},
	{
	"epoch": 3.228942141076032,
	"grad_norm": 0.7457485795021057,
	"learning_rate": 3.602027105513355e-05,
	"loss": 2.8103,
	"step": 9550
	},
	{
	"epoch": 3.2458475973120327,
	"grad_norm": 0.8420482277870178,
	"learning_rate": 3.557893116007848e-05,
	"loss": 2.7591,
	"step": 9600
	},
	{
	"epoch": 3.2458475973120327,
	"eval_loss": 3.20989990234375,
	"eval_runtime": 11.7,
	"eval_samples_per_second": 85.47,
	"eval_steps_per_second": 2.735,
	"step": 9600
	},
	{
	"epoch": 3.2627530535480327,
	"grad_norm": 0.8763940930366516,
	"learning_rate": 3.5139875136321066e-05,
	"loss": 2.7569,
	"step": 9650
	},
	{
	"epoch": 3.2796585097840327,
	"grad_norm": 0.8527898192405701,
	"learning_rate": 3.470315461580079e-05,
	"loss": 2.7533,
	"step": 9700
	},
	{
	"epoch": 3.2965639660200328,
	"grad_norm": 0.8603160381317139,
	"learning_rate": 3.426882095580751e-05,
	"loss": 2.7438,
	"step": 9750
	},
	{
	"epoch": 3.3134694222560332,
	"grad_norm": 0.8680624961853027,
	"learning_rate": 3.3836925232942005e-05,
	"loss": 2.7353,
	"step": 9800
	},
	{
	"epoch": 3.3303748784920333,
	"grad_norm": 0.9345048666000366,
	"learning_rate": 3.3407518237109456e-05,
	"loss": 2.7667,
	"step": 9850
	},
	{
	"epoch": 3.3472803347280333,
	"grad_norm": 0.838909387588501,
	"learning_rate": 3.29806504655467e-05,
	"loss": 2.7438,
	"step": 9900
	},
	{
	"epoch": 3.364185790964034,
	"grad_norm": 0.8523705005645752,
	"learning_rate": 3.2556372116883874e-05,
	"loss": 2.771,
	"step": 9950
	},
	{
	"epoch": 3.381091247200034,
	"grad_norm": 0.8146962523460388,
	"learning_rate": 3.213473308524115e-05,
	"loss": 2.7634,
	"step": 10000
	},
	{
	"epoch": 3.381091247200034,
	"eval_loss": 3.1767163276672363,
	"eval_runtime": 11.6994,
	"eval_samples_per_second": 85.474,
	"eval_steps_per_second": 2.735,
	"step": 10000
	},
	{
	"epoch": 3.397996703436034,
	"grad_norm": 0.789837121963501,
	"learning_rate": 3.171578295436133e-05,
	"loss": 2.7489,
	"step": 10050
	},
	{
	"epoch": 3.4149021596720344,
	"grad_norm": 0.8918471932411194,
	"learning_rate": 3.129957099177892e-05,
	"loss": 2.7424,
	"step": 10100
	},
	{
	"epoch": 3.4318076159080344,
	"grad_norm": 0.859986424446106,
	"learning_rate": 3.0886146143026346e-05,
	"loss": 2.7504,
	"step": 10150
	},
	{
	"epoch": 3.4487130721440344,
	"grad_norm": 0.8879761695861816,
	"learning_rate": 3.047555702587816e-05,
	"loss": 2.7572,
	"step": 10200
	},
	{
	"epoch": 3.4656185283800345,
	"grad_norm": 0.8334829211235046,
	"learning_rate": 3.0067851924633606e-05,
	"loss": 2.7627,
	"step": 10250
	},
	{
	"epoch": 3.482523984616035,
	"grad_norm": 0.8631997108459473,
	"learning_rate": 2.9663078784438558e-05,
	"loss": 2.7526,
	"step": 10300
	},
	{
	"epoch": 3.499429440852035,
	"grad_norm": 0.8065224885940552,
	"learning_rate": 2.9261285205647283e-05,
	"loss": 2.7353,
	"step": 10350
	},
	{
	"epoch": 3.516334897088035,
	"grad_norm": 0.8405721783638,
	"learning_rate": 2.886251843822475e-05,
	"loss": 2.7255,
	"step": 10400
	},
	{
	"epoch": 3.516334897088035,
	"eval_loss": 3.1594960689544678,
	"eval_runtime": 11.722,
	"eval_samples_per_second": 85.31,
	"eval_steps_per_second": 2.73,
	"step": 10400
	},
	{
	"epoch": 3.533240353324035,
	"grad_norm": 0.8360841274261475,
	"learning_rate": 2.8466825376190122e-05,
	"loss": 2.723,
	"step": 10450
	},
	{
	"epoch": 3.5501458095600356,
	"grad_norm": 0.8372629880905151,
	"learning_rate": 2.8074252552102176e-05,
	"loss": 2.7196,
	"step": 10500
	},
	{
	"epoch": 3.5670512657960356,
	"grad_norm": 0.7810975313186646,
	"learning_rate": 2.768484613158714e-05,
	"loss": 2.7162,
	"step": 10550
	},
	{
	"epoch": 3.5839567220320356,
	"grad_norm": 0.8663210272789001,
	"learning_rate": 2.729865190790975e-05,
	"loss": 2.736,
	"step": 10600
	},
	{
	"epoch": 3.600862178268036,
	"grad_norm": 0.8004422187805176,
	"learning_rate": 2.6915715296588083e-05,
	"loss": 2.7291,
	"step": 10650
	},
	{
	"epoch": 3.617767634504036,
	"grad_norm": 0.7938219308853149,
	"learning_rate": 2.653608133005278e-05,
	"loss": 2.6953,
	"step": 10700
	},
	{
	"epoch": 3.634673090740036,
	"grad_norm": 0.8083840608596802,
	"learning_rate": 2.6159794652351332e-05,
	"loss": 2.7371,
	"step": 10750
	},
	{
	"epoch": 3.6515785469760367,
	"grad_norm": 0.8592216968536377,
	"learning_rate": 2.5786899513898066e-05,
	"loss": 2.7152,
	"step": 10800
	},
	{
	"epoch": 3.6515785469760367,
	"eval_loss": 3.1375598907470703,
	"eval_runtime": 11.6562,
	"eval_samples_per_second": 85.791,
	"eval_steps_per_second": 2.745,
	"step": 10800
	},
	{
	"epoch": 3.6684840032120367,
	"grad_norm": 0.7407676577568054,
	"learning_rate": 2.54174397662704e-05,
	"loss": 2.713,
	"step": 10850
	},
	{
	"epoch": 3.6853894594480368,
	"grad_norm": 0.8212365508079529,
	"learning_rate": 2.5051458857052006e-05,
	"loss": 2.7203,
	"step": 10900
	},
	{
	"epoch": 3.7022949156840372,
	"grad_norm": 0.8753028512001038,
	"learning_rate": 2.468899982472346e-05,
	"loss": 2.7398,
	"step": 10950
	},
	{
	"epoch": 3.7192003719200373,
	"grad_norm": 0.8082839846611023,
	"learning_rate": 2.4330105293601023e-05,
	"loss": 2.7097,
	"step": 11000
	},
	{
	"epoch": 3.7361058281560373,
	"grad_norm": 0.8813438415527344,
	"learning_rate": 2.397481746882414e-05,
	"loss": 2.7213,
	"step": 11050
	},
	{
	"epoch": 3.753011284392038,
	"grad_norm": 0.8139234781265259,
	"learning_rate": 2.36231781313922e-05,
	"loss": 2.7002,
	"step": 11100
	},
	{
	"epoch": 3.769916740628038,
	"grad_norm": 0.800145149230957,
	"learning_rate": 2.3275228633251227e-05,
	"loss": 2.7182,
	"step": 11150
	},
	{
	"epoch": 3.786822196864038,
	"grad_norm": 0.7504892945289612,
	"learning_rate": 2.29310098924309e-05,
	"loss": 2.6992,
	"step": 11200
	},
	{
	"epoch": 3.786822196864038,
	"eval_loss": 3.1104345321655273,
	"eval_runtime": 11.6893,
	"eval_samples_per_second": 85.548,
	"eval_steps_per_second": 2.738,
	"step": 11200
	},
	{
	"epoch": 3.803727653100038,
	"grad_norm": 0.8169353604316711,
	"learning_rate": 2.2590562388232804e-05,
	"loss": 2.7137,
	"step": 11250
	},
	{
	"epoch": 3.820633109336038,
	"grad_norm": 0.8978986144065857,
	"learning_rate": 2.225392615647006e-05,
	"loss": 2.7369,
	"step": 11300
	},
	{
	"epoch": 3.8375385655720384,
	"grad_norm": 0.8523368239402771,
	"learning_rate": 2.1921140784759338e-05,
	"loss": 2.7309,
	"step": 11350
	},
	{
	"epoch": 3.8544440218080385,
	"grad_norm": 0.890410840511322,
	"learning_rate": 2.1592245407865252e-05,
	"loss": 2.6908,
	"step": 11400
	},
	{
	"epoch": 3.8713494780440385,
	"grad_norm": 0.8792175650596619,
	"learning_rate": 2.126727870309841e-05,
	"loss": 2.698,
	"step": 11450
	},
	{
	"epoch": 3.888254934280039,
	"grad_norm": 0.7908258438110352,
	"learning_rate": 2.09462788857669e-05,
	"loss": 2.6956,
	"step": 11500
	},
	{
	"epoch": 3.905160390516039,
	"grad_norm": 0.7934091687202454,
	"learning_rate": 2.0629283704682392e-05,
	"loss": 2.7036,
	"step": 11550
	},
	{
	"epoch": 3.922065846752039,
	"grad_norm": 0.8208107948303223,
	"learning_rate": 2.031633043772086e-05,
	"loss": 2.7007,
	"step": 11600
	},
	{
	"epoch": 3.922065846752039,
	"eval_loss": 3.0899033546447754,
	"eval_runtime": 11.6628,
	"eval_samples_per_second": 85.743,
	"eval_steps_per_second": 2.744,
	"step": 11600
	}
	],
	"logging_steps": 50,
	"max_steps": 14785,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 400,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.925050875573101e+20,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}