Spaces:

Darwinkel
/

gemma-2b-sciq

Runtime error

App Files Files Community

gemma-2b-sciq / trainer_state.json

Darwinkel

Upload 10 files

ead8650 verified over 1 year ago

raw

history blame contribute delete

90.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.8837229214830038,
	"eval_steps": 500,
	"global_step": 5500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 0.5656424760818481,
	"learning_rate": 0.00019972583961617548,
	"loss": 2.6115,
	"step": 10
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.9568225145339966,
	"learning_rate": 0.0001993831391363948,
	"loss": 2.3674,
	"step": 20
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.8508038520812988,
	"learning_rate": 0.00019904043865661412,
	"loss": 2.1487,
	"step": 30
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.0186710357666016,
	"learning_rate": 0.00019869773817683345,
	"loss": 2.1421,
	"step": 40
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.7234398126602173,
	"learning_rate": 0.0001983550376970528,
	"loss": 2.0021,
	"step": 50
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.197520136833191,
	"learning_rate": 0.0001980123372172721,
	"loss": 2.0381,
	"step": 60
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.0739991664886475,
	"learning_rate": 0.00019766963673749144,
	"loss": 1.8883,
	"step": 70
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.0150132179260254,
	"learning_rate": 0.00019732693625771076,
	"loss": 1.8494,
	"step": 80
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.236234426498413,
	"learning_rate": 0.0001969842357779301,
	"loss": 1.9171,
	"step": 90
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.0886958837509155,
	"learning_rate": 0.00019664153529814942,
	"loss": 1.9387,
	"step": 100
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.1191097497940063,
	"learning_rate": 0.00019629883481836875,
	"loss": 1.976,
	"step": 110
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.0738675594329834,
	"learning_rate": 0.00019595613433858808,
	"loss": 1.8378,
	"step": 120
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.648668646812439,
	"learning_rate": 0.0001956134338588074,
	"loss": 1.768,
	"step": 130
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.9386289119720459,
	"learning_rate": 0.00019527073337902674,
	"loss": 2.0067,
	"step": 140
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.1613832712173462,
	"learning_rate": 0.00019492803289924607,
	"loss": 1.9355,
	"step": 150
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.7319044470787048,
	"learning_rate": 0.0001945853324194654,
	"loss": 1.9042,
	"step": 160
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.9041644930839539,
	"learning_rate": 0.00019424263193968473,
	"loss": 1.7163,
	"step": 170
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.9293299317359924,
	"learning_rate": 0.00019389993145990406,
	"loss": 1.807,
	"step": 180
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.9214122295379639,
	"learning_rate": 0.00019355723098012336,
	"loss": 1.9056,
	"step": 190
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.7177646160125732,
	"learning_rate": 0.0001932145305003427,
	"loss": 1.9574,
	"step": 200
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.813965916633606,
	"learning_rate": 0.00019287183002056205,
	"loss": 1.7995,
	"step": 210
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.0333760976791382,
	"learning_rate": 0.00019252912954078138,
	"loss": 1.814,
	"step": 220
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.6691217422485352,
	"learning_rate": 0.0001921864290610007,
	"loss": 1.8261,
	"step": 230
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.1737751960754395,
	"learning_rate": 0.00019184372858122,
	"loss": 1.9473,
	"step": 240
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.1508344411849976,
	"learning_rate": 0.00019150102810143934,
	"loss": 1.9176,
	"step": 250
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.6660133600234985,
	"learning_rate": 0.00019115832762165867,
	"loss": 1.835,
	"step": 260
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.6423531174659729,
	"learning_rate": 0.00019081562714187803,
	"loss": 1.7194,
	"step": 270
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.8241636157035828,
	"learning_rate": 0.00019047292666209733,
	"loss": 1.8679,
	"step": 280
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.7184795141220093,
	"learning_rate": 0.00019013022618231666,
	"loss": 1.8129,
	"step": 290
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.8253782391548157,
	"learning_rate": 0.000189787525702536,
	"loss": 1.8567,
	"step": 300
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.417243242263794,
	"learning_rate": 0.00018944482522275532,
	"loss": 1.7741,
	"step": 310
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.9040454626083374,
	"learning_rate": 0.00018910212474297465,
	"loss": 1.8458,
	"step": 320
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.6580069065093994,
	"learning_rate": 0.00018875942426319398,
	"loss": 1.7982,
	"step": 330
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.8849833011627197,
	"learning_rate": 0.0001884167237834133,
	"loss": 1.8622,
	"step": 340
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.0523239374160767,
	"learning_rate": 0.00018807402330363264,
	"loss": 1.8608,
	"step": 350
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.0496423244476318,
	"learning_rate": 0.00018773132282385194,
	"loss": 1.8245,
	"step": 360
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.9488272070884705,
	"learning_rate": 0.00018738862234407127,
	"loss": 1.8933,
	"step": 370
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.9461072087287903,
	"learning_rate": 0.00018704592186429063,
	"loss": 1.7277,
	"step": 380
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.6415026187896729,
	"learning_rate": 0.00018670322138450996,
	"loss": 1.7843,
	"step": 390
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.0457078218460083,
	"learning_rate": 0.0001863605209047293,
	"loss": 1.8874,
	"step": 400
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.0890721082687378,
	"learning_rate": 0.0001860178204249486,
	"loss": 1.8536,
	"step": 410
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.8896569013595581,
	"learning_rate": 0.00018567511994516792,
	"loss": 1.8297,
	"step": 420
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.9457584023475647,
	"learning_rate": 0.00018533241946538728,
	"loss": 1.8061,
	"step": 430
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.8208130598068237,
	"learning_rate": 0.0001849897189856066,
	"loss": 1.8238,
	"step": 440
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.7884149551391602,
	"learning_rate": 0.0001846470185058259,
	"loss": 1.7419,
	"step": 450
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.5733205080032349,
	"learning_rate": 0.00018430431802604524,
	"loss": 1.8829,
	"step": 460
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.963455319404602,
	"learning_rate": 0.00018396161754626457,
	"loss": 1.822,
	"step": 470
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.616909384727478,
	"learning_rate": 0.0001836189170664839,
	"loss": 1.7923,
	"step": 480
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.5382218360900879,
	"learning_rate": 0.00018327621658670323,
	"loss": 1.719,
	"step": 490
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.171004056930542,
	"learning_rate": 0.00018293351610692256,
	"loss": 1.8522,
	"step": 500
	},
	{
	"epoch": 0.17,
	"eval_loss": 1.9394277334213257,
	"eval_runtime": 33.4276,
	"eval_samples_per_second": 29.915,
	"eval_steps_per_second": 3.739,
	"step": 500
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.7731293439865112,
	"learning_rate": 0.0001825908156271419,
	"loss": 1.9151,
	"step": 510
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.8664043545722961,
	"learning_rate": 0.00018224811514736122,
	"loss": 1.6679,
	"step": 520
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.3886076211929321,
	"learning_rate": 0.00018190541466758055,
	"loss": 1.8509,
	"step": 530
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.7000617384910583,
	"learning_rate": 0.00018156271418779988,
	"loss": 1.8046,
	"step": 540
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.8490706086158752,
	"learning_rate": 0.0001812200137080192,
	"loss": 1.748,
	"step": 550
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.4293190240859985,
	"learning_rate": 0.00018087731322823854,
	"loss": 1.9725,
	"step": 560
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.7126957178115845,
	"learning_rate": 0.00018053461274845787,
	"loss": 1.6888,
	"step": 570
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.9974524974822998,
	"learning_rate": 0.00018019191226867717,
	"loss": 1.8405,
	"step": 580
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.9911081790924072,
	"learning_rate": 0.0001798492117888965,
	"loss": 1.7753,
	"step": 590
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.3659840822219849,
	"learning_rate": 0.00017950651130911585,
	"loss": 1.7435,
	"step": 600
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.4976978302001953,
	"learning_rate": 0.00017916381082933518,
	"loss": 1.759,
	"step": 610
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.7868736982345581,
	"learning_rate": 0.0001788211103495545,
	"loss": 1.7654,
	"step": 620
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.006628155708313,
	"learning_rate": 0.00017847840986977382,
	"loss": 1.7862,
	"step": 630
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.8664697408676147,
	"learning_rate": 0.00017813570938999315,
	"loss": 1.8815,
	"step": 640
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.44789645075798035,
	"learning_rate": 0.00017779300891021248,
	"loss": 1.779,
	"step": 650
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.9740760326385498,
	"learning_rate": 0.00017745030843043183,
	"loss": 1.7026,
	"step": 660
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.9802984595298767,
	"learning_rate": 0.00017710760795065114,
	"loss": 1.8359,
	"step": 670
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.0521053075790405,
	"learning_rate": 0.00017676490747087047,
	"loss": 1.7777,
	"step": 680
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.6399825215339661,
	"learning_rate": 0.0001764222069910898,
	"loss": 1.8129,
	"step": 690
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.1847810745239258,
	"learning_rate": 0.00017607950651130912,
	"loss": 1.8775,
	"step": 700
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.7050787806510925,
	"learning_rate": 0.00017573680603152845,
	"loss": 1.8454,
	"step": 710
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.8241177797317505,
	"learning_rate": 0.00017539410555174778,
	"loss": 1.7047,
	"step": 720
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.743680477142334,
	"learning_rate": 0.00017505140507196711,
	"loss": 1.8251,
	"step": 730
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.776196300983429,
	"learning_rate": 0.00017470870459218644,
	"loss": 1.8341,
	"step": 740
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.6896054744720459,
	"learning_rate": 0.00017436600411240575,
	"loss": 1.7569,
	"step": 750
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.703697919845581,
	"learning_rate": 0.0001740233036326251,
	"loss": 1.7696,
	"step": 760
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.6734452247619629,
	"learning_rate": 0.00017368060315284443,
	"loss": 1.6639,
	"step": 770
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.6856238842010498,
	"learning_rate": 0.00017333790267306376,
	"loss": 1.8419,
	"step": 780
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.1194758415222168,
	"learning_rate": 0.00017299520219328306,
	"loss": 1.7916,
	"step": 790
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.455841064453125,
	"learning_rate": 0.0001726525017135024,
	"loss": 1.7368,
	"step": 800
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.5988683700561523,
	"learning_rate": 0.00017230980123372172,
	"loss": 1.8434,
	"step": 810
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.9031710028648376,
	"learning_rate": 0.00017196710075394108,
	"loss": 1.7447,
	"step": 820
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.2125264406204224,
	"learning_rate": 0.0001716244002741604,
	"loss": 1.9449,
	"step": 830
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.9563066959381104,
	"learning_rate": 0.0001712816997943797,
	"loss": 1.7063,
	"step": 840
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.8778769969940186,
	"learning_rate": 0.00017093899931459904,
	"loss": 1.802,
	"step": 850
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.0570799112319946,
	"learning_rate": 0.00017059629883481837,
	"loss": 1.7331,
	"step": 860
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.8234407305717468,
	"learning_rate": 0.0001702535983550377,
	"loss": 1.7943,
	"step": 870
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.968658983707428,
	"learning_rate": 0.00016991089787525703,
	"loss": 1.8527,
	"step": 880
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.6607180237770081,
	"learning_rate": 0.00016956819739547636,
	"loss": 1.8521,
	"step": 890
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.8055354952812195,
	"learning_rate": 0.0001692254969156957,
	"loss": 1.6901,
	"step": 900
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.8606925010681152,
	"learning_rate": 0.00016888279643591502,
	"loss": 1.7248,
	"step": 910
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.9894892573356628,
	"learning_rate": 0.00016854009595613432,
	"loss": 1.7541,
	"step": 920
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.8559629321098328,
	"learning_rate": 0.00016819739547635368,
	"loss": 1.7803,
	"step": 930
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.8917673826217651,
	"learning_rate": 0.000167854694996573,
	"loss": 1.8224,
	"step": 940
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.2621186971664429,
	"learning_rate": 0.00016751199451679234,
	"loss": 1.8253,
	"step": 950
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.1135177612304688,
	"learning_rate": 0.00016716929403701167,
	"loss": 1.6519,
	"step": 960
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.7034028172492981,
	"learning_rate": 0.00016682659355723097,
	"loss": 1.7079,
	"step": 970
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.7942814826965332,
	"learning_rate": 0.0001664838930774503,
	"loss": 1.828,
	"step": 980
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.9687950611114502,
	"learning_rate": 0.00016614119259766966,
	"loss": 1.7203,
	"step": 990
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.1074302196502686,
	"learning_rate": 0.000165798492117889,
	"loss": 1.7146,
	"step": 1000
	},
	{
	"epoch": 0.34,
	"eval_loss": 1.9078810214996338,
	"eval_runtime": 33.2486,
	"eval_samples_per_second": 30.076,
	"eval_steps_per_second": 3.76,
	"step": 1000
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.9533829689025879,
	"learning_rate": 0.0001654557916381083,
	"loss": 1.7596,
	"step": 1010
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.0547090768814087,
	"learning_rate": 0.00016511309115832762,
	"loss": 1.9113,
	"step": 1020
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.0186220407485962,
	"learning_rate": 0.00016477039067854695,
	"loss": 1.7845,
	"step": 1030
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.9044001698493958,
	"learning_rate": 0.00016442769019876628,
	"loss": 1.8174,
	"step": 1040
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.6433171033859253,
	"learning_rate": 0.0001640849897189856,
	"loss": 1.7702,
	"step": 1050
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.2511520385742188,
	"learning_rate": 0.00016374228923920494,
	"loss": 1.9304,
	"step": 1060
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.7901211977005005,
	"learning_rate": 0.00016339958875942427,
	"loss": 1.8432,
	"step": 1070
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.515535831451416,
	"learning_rate": 0.0001630568882796436,
	"loss": 1.8818,
	"step": 1080
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.9449120759963989,
	"learning_rate": 0.00016271418779986293,
	"loss": 1.8594,
	"step": 1090
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.7776308059692383,
	"learning_rate": 0.00016237148732008226,
	"loss": 1.8896,
	"step": 1100
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.3541969060897827,
	"learning_rate": 0.0001620287868403016,
	"loss": 1.8208,
	"step": 1110
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.7614444494247437,
	"learning_rate": 0.00016168608636052092,
	"loss": 1.759,
	"step": 1120
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.170345425605774,
	"learning_rate": 0.00016134338588074025,
	"loss": 1.6713,
	"step": 1130
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.8094021081924438,
	"learning_rate": 0.00016100068540095955,
	"loss": 1.7394,
	"step": 1140
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.169124722480774,
	"learning_rate": 0.0001606579849211789,
	"loss": 1.7609,
	"step": 1150
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.6766496300697327,
	"learning_rate": 0.00016031528444139824,
	"loss": 1.7812,
	"step": 1160
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.0808138847351074,
	"learning_rate": 0.00015997258396161757,
	"loss": 1.7777,
	"step": 1170
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.6450923681259155,
	"learning_rate": 0.00015962988348183687,
	"loss": 1.8539,
	"step": 1180
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.0518946647644043,
	"learning_rate": 0.0001592871830020562,
	"loss": 1.7799,
	"step": 1190
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.7807414531707764,
	"learning_rate": 0.00015894448252227553,
	"loss": 1.774,
	"step": 1200
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.4259986877441406,
	"learning_rate": 0.00015860178204249488,
	"loss": 1.8153,
	"step": 1210
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.9342586994171143,
	"learning_rate": 0.0001582590815627142,
	"loss": 1.7495,
	"step": 1220
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.7621099948883057,
	"learning_rate": 0.00015791638108293352,
	"loss": 1.7964,
	"step": 1230
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.8253260254859924,
	"learning_rate": 0.00015757368060315285,
	"loss": 1.7669,
	"step": 1240
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.6914420127868652,
	"learning_rate": 0.00015723098012337218,
	"loss": 1.803,
	"step": 1250
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.7147281765937805,
	"learning_rate": 0.0001568882796435915,
	"loss": 1.8226,
	"step": 1260
	},
	{
	"epoch": 0.43,
	"grad_norm": 2.0851213932037354,
	"learning_rate": 0.00015654557916381084,
	"loss": 1.6957,
	"step": 1270
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.6254770159721375,
	"learning_rate": 0.00015620287868403017,
	"loss": 1.75,
	"step": 1280
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.0984652042388916,
	"learning_rate": 0.0001558601782042495,
	"loss": 1.8425,
	"step": 1290
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.0353467464447021,
	"learning_rate": 0.00015551747772446882,
	"loss": 1.7995,
	"step": 1300
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.6647160053253174,
	"learning_rate": 0.00015517477724468813,
	"loss": 1.866,
	"step": 1310
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.6671775579452515,
	"learning_rate": 0.00015483207676490748,
	"loss": 1.6871,
	"step": 1320
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.0024131536483765,
	"learning_rate": 0.00015448937628512681,
	"loss": 1.7424,
	"step": 1330
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.0090551376342773,
	"learning_rate": 0.00015414667580534614,
	"loss": 1.7001,
	"step": 1340
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.9725455045700073,
	"learning_rate": 0.00015380397532556545,
	"loss": 1.7114,
	"step": 1350
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.6556392312049866,
	"learning_rate": 0.00015346127484578478,
	"loss": 1.5969,
	"step": 1360
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.156596302986145,
	"learning_rate": 0.00015311857436600413,
	"loss": 1.7334,
	"step": 1370
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.9172496199607849,
	"learning_rate": 0.00015277587388622346,
	"loss": 1.7373,
	"step": 1380
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.9010474681854248,
	"learning_rate": 0.0001524331734064428,
	"loss": 1.8032,
	"step": 1390
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.9486579298973083,
	"learning_rate": 0.0001520904729266621,
	"loss": 1.6388,
	"step": 1400
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.8411978483200073,
	"learning_rate": 0.00015174777244688142,
	"loss": 1.7671,
	"step": 1410
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.9575003385543823,
	"learning_rate": 0.00015140507196710075,
	"loss": 1.6523,
	"step": 1420
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.7651090025901794,
	"learning_rate": 0.0001510623714873201,
	"loss": 1.812,
	"step": 1430
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.8477165699005127,
	"learning_rate": 0.0001507196710075394,
	"loss": 1.7125,
	"step": 1440
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.9737070202827454,
	"learning_rate": 0.00015037697052775874,
	"loss": 1.7506,
	"step": 1450
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.0645496845245361,
	"learning_rate": 0.00015003427004797807,
	"loss": 1.7335,
	"step": 1460
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.9303259253501892,
	"learning_rate": 0.0001496915695681974,
	"loss": 1.8838,
	"step": 1470
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.6571500897407532,
	"learning_rate": 0.00014934886908841673,
	"loss": 1.8093,
	"step": 1480
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.7994106411933899,
	"learning_rate": 0.00014900616860863606,
	"loss": 1.6691,
	"step": 1490
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.8453437685966492,
	"learning_rate": 0.0001486634681288554,
	"loss": 1.6731,
	"step": 1500
	},
	{
	"epoch": 0.51,
	"eval_loss": 1.8940061330795288,
	"eval_runtime": 33.2126,
	"eval_samples_per_second": 30.109,
	"eval_steps_per_second": 3.764,
	"step": 1500
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.0370814800262451,
	"learning_rate": 0.00014832076764907472,
	"loss": 1.7869,
	"step": 1510
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.0886887311935425,
	"learning_rate": 0.00014797806716929405,
	"loss": 1.7887,
	"step": 1520
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.9058669209480286,
	"learning_rate": 0.00014763536668951335,
	"loss": 1.6781,
	"step": 1530
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.46401920914649963,
	"learning_rate": 0.0001472926662097327,
	"loss": 1.6465,
	"step": 1540
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.6265978813171387,
	"learning_rate": 0.00014694996572995204,
	"loss": 1.8399,
	"step": 1550
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.7882290482521057,
	"learning_rate": 0.00014660726525017137,
	"loss": 1.7707,
	"step": 1560
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.7576068043708801,
	"learning_rate": 0.00014626456477039067,
	"loss": 1.8781,
	"step": 1570
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.8988894820213318,
	"learning_rate": 0.00014592186429061,
	"loss": 1.7109,
	"step": 1580
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.7934654951095581,
	"learning_rate": 0.00014557916381082933,
	"loss": 1.8261,
	"step": 1590
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.9526162147521973,
	"learning_rate": 0.0001452364633310487,
	"loss": 1.7286,
	"step": 1600
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.8650903701782227,
	"learning_rate": 0.000144893762851268,
	"loss": 1.8075,
	"step": 1610
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.8737215399742126,
	"learning_rate": 0.00014455106237148732,
	"loss": 1.7683,
	"step": 1620
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.0927869081497192,
	"learning_rate": 0.00014420836189170665,
	"loss": 1.8238,
	"step": 1630
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.7490981817245483,
	"learning_rate": 0.00014386566141192598,
	"loss": 1.7528,
	"step": 1640
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.6721557974815369,
	"learning_rate": 0.0001435229609321453,
	"loss": 1.7212,
	"step": 1650
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.8125373125076294,
	"learning_rate": 0.00014318026045236464,
	"loss": 1.8369,
	"step": 1660
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.598507821559906,
	"learning_rate": 0.00014283755997258397,
	"loss": 1.8455,
	"step": 1670
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.2567535638809204,
	"learning_rate": 0.0001424948594928033,
	"loss": 1.7656,
	"step": 1680
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.5279853343963623,
	"learning_rate": 0.00014215215901302263,
	"loss": 1.8297,
	"step": 1690
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.1410638093948364,
	"learning_rate": 0.00014180945853324196,
	"loss": 1.7489,
	"step": 1700
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.9007987976074219,
	"learning_rate": 0.0001414667580534613,
	"loss": 1.7473,
	"step": 1710
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.5736974477767944,
	"learning_rate": 0.00014112405757368062,
	"loss": 1.8022,
	"step": 1720
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.6310347318649292,
	"learning_rate": 0.00014078135709389995,
	"loss": 1.7676,
	"step": 1730
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.9788106679916382,
	"learning_rate": 0.00014043865661411925,
	"loss": 1.7303,
	"step": 1740
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.6612042784690857,
	"learning_rate": 0.00014009595613433858,
	"loss": 1.675,
	"step": 1750
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.8740193247795105,
	"learning_rate": 0.00013975325565455794,
	"loss": 1.7945,
	"step": 1760
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.9548364877700806,
	"learning_rate": 0.00013941055517477727,
	"loss": 1.7485,
	"step": 1770
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.6676565408706665,
	"learning_rate": 0.00013906785469499657,
	"loss": 1.7479,
	"step": 1780
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.6287640333175659,
	"learning_rate": 0.0001387251542152159,
	"loss": 1.7007,
	"step": 1790
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.5443295240402222,
	"learning_rate": 0.00013838245373543523,
	"loss": 1.8916,
	"step": 1800
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.9970656037330627,
	"learning_rate": 0.00013803975325565456,
	"loss": 1.6733,
	"step": 1810
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.9320075511932373,
	"learning_rate": 0.00013769705277587391,
	"loss": 1.8622,
	"step": 1820
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.8384440541267395,
	"learning_rate": 0.00013735435229609322,
	"loss": 1.6825,
	"step": 1830
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.1807342767715454,
	"learning_rate": 0.00013701165181631255,
	"loss": 1.6548,
	"step": 1840
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.7640541195869446,
	"learning_rate": 0.00013666895133653188,
	"loss": 1.8134,
	"step": 1850
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.9137887358665466,
	"learning_rate": 0.0001363262508567512,
	"loss": 1.7685,
	"step": 1860
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.8986667394638062,
	"learning_rate": 0.00013598355037697054,
	"loss": 1.7455,
	"step": 1870
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.96836918592453,
	"learning_rate": 0.00013564084989718987,
	"loss": 1.8705,
	"step": 1880
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.381028175354004,
	"learning_rate": 0.0001352981494174092,
	"loss": 1.7644,
	"step": 1890
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.617438018321991,
	"learning_rate": 0.00013495544893762853,
	"loss": 1.6194,
	"step": 1900
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.8686628937721252,
	"learning_rate": 0.00013461274845784783,
	"loss": 1.7171,
	"step": 1910
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.7735409140586853,
	"learning_rate": 0.00013427004797806716,
	"loss": 1.725,
	"step": 1920
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.0692516565322876,
	"learning_rate": 0.00013392734749828651,
	"loss": 1.762,
	"step": 1930
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.763136625289917,
	"learning_rate": 0.00013358464701850584,
	"loss": 1.6546,
	"step": 1940
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.9908429980278015,
	"learning_rate": 0.00013324194653872517,
	"loss": 1.6499,
	"step": 1950
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.9493003487586975,
	"learning_rate": 0.00013289924605894448,
	"loss": 1.5616,
	"step": 1960
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.8336248993873596,
	"learning_rate": 0.0001325565455791638,
	"loss": 1.7914,
	"step": 1970
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.8938840627670288,
	"learning_rate": 0.00013221384509938314,
	"loss": 1.7274,
	"step": 1980
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.0243479013442993,
	"learning_rate": 0.0001318711446196025,
	"loss": 1.6643,
	"step": 1990
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.0226181745529175,
	"learning_rate": 0.0001315284441398218,
	"loss": 1.7626,
	"step": 2000
	},
	{
	"epoch": 0.68,
	"eval_loss": 1.8913378715515137,
	"eval_runtime": 33.1473,
	"eval_samples_per_second": 30.168,
	"eval_steps_per_second": 3.771,
	"step": 2000
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.1059471368789673,
	"learning_rate": 0.00013118574366004112,
	"loss": 1.6362,
	"step": 2010
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.3754314184188843,
	"learning_rate": 0.00013084304318026045,
	"loss": 1.8308,
	"step": 2020
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.3899627923965454,
	"learning_rate": 0.00013050034270047978,
	"loss": 1.6982,
	"step": 2030
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.8804599046707153,
	"learning_rate": 0.00013015764222069911,
	"loss": 1.8138,
	"step": 2040
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.6578095555305481,
	"learning_rate": 0.00012981494174091844,
	"loss": 1.7211,
	"step": 2050
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.5725558996200562,
	"learning_rate": 0.00012947224126113777,
	"loss": 1.8684,
	"step": 2060
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.097717523574829,
	"learning_rate": 0.0001291295407813571,
	"loss": 1.7705,
	"step": 2070
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.7564202547073364,
	"learning_rate": 0.00012878684030157643,
	"loss": 1.5935,
	"step": 2080
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.732243537902832,
	"learning_rate": 0.00012844413982179576,
	"loss": 1.7694,
	"step": 2090
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.6464608907699585,
	"learning_rate": 0.0001281014393420151,
	"loss": 1.8418,
	"step": 2100
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.7090341448783875,
	"learning_rate": 0.00012775873886223442,
	"loss": 1.8122,
	"step": 2110
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.1480237245559692,
	"learning_rate": 0.00012741603838245375,
	"loss": 1.7766,
	"step": 2120
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.6737000346183777,
	"learning_rate": 0.00012707333790267305,
	"loss": 1.7876,
	"step": 2130
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.7794924378395081,
	"learning_rate": 0.00012673063742289238,
	"loss": 1.8529,
	"step": 2140
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.3136320114135742,
	"learning_rate": 0.00012638793694311174,
	"loss": 1.6699,
	"step": 2150
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.884027361869812,
	"learning_rate": 0.00012604523646333107,
	"loss": 1.7689,
	"step": 2160
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.103605031967163,
	"learning_rate": 0.00012570253598355037,
	"loss": 1.8594,
	"step": 2170
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.3322539329528809,
	"learning_rate": 0.0001253598355037697,
	"loss": 1.6765,
	"step": 2180
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.7840645909309387,
	"learning_rate": 0.00012501713502398903,
	"loss": 1.65,
	"step": 2190
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.9259356260299683,
	"learning_rate": 0.00012467443454420836,
	"loss": 1.7805,
	"step": 2200
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.3709288835525513,
	"learning_rate": 0.0001243317340644277,
	"loss": 1.7086,
	"step": 2210
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.6325123310089111,
	"learning_rate": 0.00012398903358464702,
	"loss": 1.7124,
	"step": 2220
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.854541003704071,
	"learning_rate": 0.00012364633310486635,
	"loss": 1.7089,
	"step": 2230
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.8861531019210815,
	"learning_rate": 0.00012330363262508568,
	"loss": 1.8369,
	"step": 2240
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.269750714302063,
	"learning_rate": 0.000122960932145305,
	"loss": 1.7598,
	"step": 2250
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.999598503112793,
	"learning_rate": 0.00012261823166552434,
	"loss": 1.8376,
	"step": 2260
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.7654330134391785,
	"learning_rate": 0.00012227553118574367,
	"loss": 1.7236,
	"step": 2270
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.11728835105896,
	"learning_rate": 0.000121932830705963,
	"loss": 1.7375,
	"step": 2280
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.7219797968864441,
	"learning_rate": 0.00012159013022618233,
	"loss": 1.7786,
	"step": 2290
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.0127757787704468,
	"learning_rate": 0.00012124742974640165,
	"loss": 1.7003,
	"step": 2300
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.0450137853622437,
	"learning_rate": 0.00012090472926662097,
	"loss": 1.7425,
	"step": 2310
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.9303760528564453,
	"learning_rate": 0.0001205620287868403,
	"loss": 1.632,
	"step": 2320
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.7303478717803955,
	"learning_rate": 0.00012021932830705965,
	"loss": 1.6918,
	"step": 2330
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.6323578953742981,
	"learning_rate": 0.00011987662782727895,
	"loss": 1.672,
	"step": 2340
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.715811014175415,
	"learning_rate": 0.00011953392734749828,
	"loss": 1.7613,
	"step": 2350
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.7297527194023132,
	"learning_rate": 0.00011919122686771762,
	"loss": 1.7277,
	"step": 2360
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.0844471454620361,
	"learning_rate": 0.00011884852638793695,
	"loss": 1.8143,
	"step": 2370
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.9260643720626831,
	"learning_rate": 0.00011850582590815628,
	"loss": 1.7228,
	"step": 2380
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.9541537761688232,
	"learning_rate": 0.0001181631254283756,
	"loss": 1.7143,
	"step": 2390
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.0506033897399902,
	"learning_rate": 0.00011782042494859493,
	"loss": 1.7659,
	"step": 2400
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.7201717495918274,
	"learning_rate": 0.00011747772446881427,
	"loss": 1.7257,
	"step": 2410
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.8612362742424011,
	"learning_rate": 0.0001171350239890336,
	"loss": 1.7009,
	"step": 2420
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.8745547533035278,
	"learning_rate": 0.0001167923235092529,
	"loss": 1.733,
	"step": 2430
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.5927043557167053,
	"learning_rate": 0.00011644962302947225,
	"loss": 1.7724,
	"step": 2440
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.6471837162971497,
	"learning_rate": 0.00011610692254969158,
	"loss": 1.7103,
	"step": 2450
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.1340347528457642,
	"learning_rate": 0.0001157642220699109,
	"loss": 1.7053,
	"step": 2460
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.8819349408149719,
	"learning_rate": 0.00011542152159013022,
	"loss": 1.7552,
	"step": 2470
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.6587919592857361,
	"learning_rate": 0.00011507882111034955,
	"loss": 1.6482,
	"step": 2480
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.0057884454727173,
	"learning_rate": 0.00011473612063056888,
	"loss": 1.7711,
	"step": 2490
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.6465263962745667,
	"learning_rate": 0.00011439342015078823,
	"loss": 1.7565,
	"step": 2500
	},
	{
	"epoch": 0.86,
	"eval_loss": 1.8792312145233154,
	"eval_runtime": 33.1087,
	"eval_samples_per_second": 30.204,
	"eval_steps_per_second": 3.775,
	"step": 2500
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.5970360040664673,
	"learning_rate": 0.00011405071967100756,
	"loss": 1.7179,
	"step": 2510
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.3015583753585815,
	"learning_rate": 0.00011370801919122687,
	"loss": 1.7225,
	"step": 2520
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.9235218167304993,
	"learning_rate": 0.0001133653187114462,
	"loss": 1.7657,
	"step": 2530
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.025038480758667,
	"learning_rate": 0.00011302261823166553,
	"loss": 1.7755,
	"step": 2540
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.8988834619522095,
	"learning_rate": 0.00011267991775188486,
	"loss": 1.8187,
	"step": 2550
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.7810622453689575,
	"learning_rate": 0.00011233721727210418,
	"loss": 1.6565,
	"step": 2560
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.6817054748535156,
	"learning_rate": 0.0001119945167923235,
	"loss": 1.7764,
	"step": 2570
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.9688411355018616,
	"learning_rate": 0.00011165181631254285,
	"loss": 1.6599,
	"step": 2580
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.742932915687561,
	"learning_rate": 0.00011130911583276218,
	"loss": 1.7552,
	"step": 2590
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.5261206030845642,
	"learning_rate": 0.0001109664153529815,
	"loss": 1.6432,
	"step": 2600
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.8997339606285095,
	"learning_rate": 0.00011062371487320082,
	"loss": 1.8438,
	"step": 2610
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.8077126741409302,
	"learning_rate": 0.00011028101439342015,
	"loss": 1.8144,
	"step": 2620
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.9872453212738037,
	"learning_rate": 0.00010993831391363948,
	"loss": 1.7427,
	"step": 2630
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.1201390027999878,
	"learning_rate": 0.00010959561343385883,
	"loss": 1.7696,
	"step": 2640
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.1584488153457642,
	"learning_rate": 0.00010925291295407813,
	"loss": 1.6236,
	"step": 2650
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.8254250884056091,
	"learning_rate": 0.00010891021247429747,
	"loss": 1.6214,
	"step": 2660
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.9825947284698486,
	"learning_rate": 0.0001085675119945168,
	"loss": 1.7889,
	"step": 2670
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.0265246629714966,
	"learning_rate": 0.00010822481151473613,
	"loss": 1.7283,
	"step": 2680
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.891777515411377,
	"learning_rate": 0.00010788211103495545,
	"loss": 1.8176,
	"step": 2690
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.8920706510543823,
	"learning_rate": 0.00010753941055517478,
	"loss": 1.7676,
	"step": 2700
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.072204828262329,
	"learning_rate": 0.00010719671007539411,
	"loss": 1.5836,
	"step": 2710
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.9175311923027039,
	"learning_rate": 0.00010685400959561345,
	"loss": 1.8073,
	"step": 2720
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.6199253797531128,
	"learning_rate": 0.00010651130911583275,
	"loss": 1.828,
	"step": 2730
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.653229296207428,
	"learning_rate": 0.0001061686086360521,
	"loss": 1.7308,
	"step": 2740
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.790413498878479,
	"learning_rate": 0.00010582590815627143,
	"loss": 1.8169,
	"step": 2750
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.8657679557800293,
	"learning_rate": 0.00010548320767649076,
	"loss": 1.7453,
	"step": 2760
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.6758552193641663,
	"learning_rate": 0.00010514050719671007,
	"loss": 1.7171,
	"step": 2770
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.0935484170913696,
	"learning_rate": 0.0001047978067169294,
	"loss": 1.6754,
	"step": 2780
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.8095535635948181,
	"learning_rate": 0.00010445510623714873,
	"loss": 1.8387,
	"step": 2790
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.8804395198822021,
	"learning_rate": 0.00010411240575736808,
	"loss": 1.7839,
	"step": 2800
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.945090115070343,
	"learning_rate": 0.0001037697052775874,
	"loss": 1.7196,
	"step": 2810
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.6158414483070374,
	"learning_rate": 0.00010342700479780672,
	"loss": 1.8011,
	"step": 2820
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.7917384505271912,
	"learning_rate": 0.00010308430431802605,
	"loss": 1.744,
	"step": 2830
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.6415919065475464,
	"learning_rate": 0.00010274160383824538,
	"loss": 1.6379,
	"step": 2840
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.6077090501785278,
	"learning_rate": 0.00010239890335846471,
	"loss": 1.657,
	"step": 2850
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.036901593208313,
	"learning_rate": 0.00010205620287868403,
	"loss": 1.7059,
	"step": 2860
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.7633301019668579,
	"learning_rate": 0.00010171350239890336,
	"loss": 1.8085,
	"step": 2870
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.04219651222229,
	"learning_rate": 0.0001013708019191227,
	"loss": 1.6641,
	"step": 2880
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.9899976849555969,
	"learning_rate": 0.00010102810143934203,
	"loss": 1.6819,
	"step": 2890
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.755636990070343,
	"learning_rate": 0.00010068540095956133,
	"loss": 1.7573,
	"step": 2900
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.1326630115509033,
	"learning_rate": 0.00010034270047978068,
	"loss": 1.6942,
	"step": 2910
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.7579949498176575,
	"learning_rate": 0.0001,
	"loss": 1.6903,
	"step": 2920
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.7203909754753113,
	"learning_rate": 9.965729952021933e-05,
	"loss": 1.5946,
	"step": 2930
	},
	{
	"epoch": 1.01,
	"grad_norm": 0.8731165528297424,
	"learning_rate": 9.931459904043866e-05,
	"loss": 1.6224,
	"step": 2940
	},
	{
	"epoch": 1.01,
	"grad_norm": 0.6287246942520142,
	"learning_rate": 9.8971898560658e-05,
	"loss": 1.6279,
	"step": 2950
	},
	{
	"epoch": 1.01,
	"grad_norm": 0.8794381618499756,
	"learning_rate": 9.862919808087731e-05,
	"loss": 1.7103,
	"step": 2960
	},
	{
	"epoch": 1.02,
	"grad_norm": 1.1305402517318726,
	"learning_rate": 9.828649760109665e-05,
	"loss": 1.5876,
	"step": 2970
	},
	{
	"epoch": 1.02,
	"grad_norm": 1.349693775177002,
	"learning_rate": 9.794379712131597e-05,
	"loss": 1.549,
	"step": 2980
	},
	{
	"epoch": 1.02,
	"grad_norm": 1.1124284267425537,
	"learning_rate": 9.76010966415353e-05,
	"loss": 1.5688,
	"step": 2990
	},
	{
	"epoch": 1.03,
	"grad_norm": 0.5864982604980469,
	"learning_rate": 9.725839616175463e-05,
	"loss": 1.6437,
	"step": 3000
	},
	{
	"epoch": 1.03,
	"eval_loss": 1.8886157274246216,
	"eval_runtime": 33.1481,
	"eval_samples_per_second": 30.168,
	"eval_steps_per_second": 3.771,
	"step": 3000
	},
	{
	"epoch": 1.03,
	"grad_norm": 0.8807237148284912,
	"learning_rate": 9.691569568197396e-05,
	"loss": 1.5888,
	"step": 3010
	},
	{
	"epoch": 1.03,
	"grad_norm": 0.8454139232635498,
	"learning_rate": 9.657299520219329e-05,
	"loss": 1.5414,
	"step": 3020
	},
	{
	"epoch": 1.04,
	"grad_norm": 0.9541159272193909,
	"learning_rate": 9.623029472241262e-05,
	"loss": 1.7525,
	"step": 3030
	},
	{
	"epoch": 1.04,
	"grad_norm": 1.38509202003479,
	"learning_rate": 9.588759424263193e-05,
	"loss": 1.5302,
	"step": 3040
	},
	{
	"epoch": 1.04,
	"grad_norm": 1.242966651916504,
	"learning_rate": 9.554489376285128e-05,
	"loss": 1.6085,
	"step": 3050
	},
	{
	"epoch": 1.05,
	"grad_norm": 1.1269468069076538,
	"learning_rate": 9.52021932830706e-05,
	"loss": 1.603,
	"step": 3060
	},
	{
	"epoch": 1.05,
	"grad_norm": 1.1521382331848145,
	"learning_rate": 9.485949280328992e-05,
	"loss": 1.6984,
	"step": 3070
	},
	{
	"epoch": 1.05,
	"grad_norm": 1.3359086513519287,
	"learning_rate": 9.451679232350927e-05,
	"loss": 1.4839,
	"step": 3080
	},
	{
	"epoch": 1.06,
	"grad_norm": 1.057581901550293,
	"learning_rate": 9.417409184372858e-05,
	"loss": 1.5541,
	"step": 3090
	},
	{
	"epoch": 1.06,
	"grad_norm": 1.090909719467163,
	"learning_rate": 9.383139136394791e-05,
	"loss": 1.5811,
	"step": 3100
	},
	{
	"epoch": 1.07,
	"grad_norm": 1.3244885206222534,
	"learning_rate": 9.348869088416724e-05,
	"loss": 1.6006,
	"step": 3110
	},
	{
	"epoch": 1.07,
	"grad_norm": 0.8855965733528137,
	"learning_rate": 9.314599040438657e-05,
	"loss": 1.5577,
	"step": 3120
	},
	{
	"epoch": 1.07,
	"grad_norm": 0.9480008482933044,
	"learning_rate": 9.28032899246059e-05,
	"loss": 1.6064,
	"step": 3130
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.397888422012329,
	"learning_rate": 9.246058944482523e-05,
	"loss": 1.5708,
	"step": 3140
	},
	{
	"epoch": 1.08,
	"grad_norm": 0.8178092241287231,
	"learning_rate": 9.211788896504455e-05,
	"loss": 1.4722,
	"step": 3150
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.3776417970657349,
	"learning_rate": 9.177518848526389e-05,
	"loss": 1.6941,
	"step": 3160
	},
	{
	"epoch": 1.09,
	"grad_norm": 1.3224530220031738,
	"learning_rate": 9.14324880054832e-05,
	"loss": 1.5414,
	"step": 3170
	},
	{
	"epoch": 1.09,
	"grad_norm": 1.3367009162902832,
	"learning_rate": 9.108978752570254e-05,
	"loss": 1.6275,
	"step": 3180
	},
	{
	"epoch": 1.09,
	"grad_norm": 1.0063951015472412,
	"learning_rate": 9.074708704592187e-05,
	"loss": 1.6761,
	"step": 3190
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.320760726928711,
	"learning_rate": 9.04043865661412e-05,
	"loss": 1.5896,
	"step": 3200
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.0159672498703003,
	"learning_rate": 9.006168608636053e-05,
	"loss": 1.5728,
	"step": 3210
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.095314383506775,
	"learning_rate": 8.971898560657985e-05,
	"loss": 1.5329,
	"step": 3220
	},
	{
	"epoch": 1.11,
	"grad_norm": 1.212713360786438,
	"learning_rate": 8.937628512679918e-05,
	"loss": 1.5746,
	"step": 3230
	},
	{
	"epoch": 1.11,
	"grad_norm": 0.8203460574150085,
	"learning_rate": 8.903358464701851e-05,
	"loss": 1.6119,
	"step": 3240
	},
	{
	"epoch": 1.11,
	"grad_norm": 0.9643343091011047,
	"learning_rate": 8.869088416723784e-05,
	"loss": 1.5893,
	"step": 3250
	},
	{
	"epoch": 1.12,
	"grad_norm": 1.2415894269943237,
	"learning_rate": 8.834818368745716e-05,
	"loss": 1.6291,
	"step": 3260
	},
	{
	"epoch": 1.12,
	"grad_norm": 1.826658844947815,
	"learning_rate": 8.80054832076765e-05,
	"loss": 1.6394,
	"step": 3270
	},
	{
	"epoch": 1.12,
	"grad_norm": 1.3455665111541748,
	"learning_rate": 8.766278272789582e-05,
	"loss": 1.568,
	"step": 3280
	},
	{
	"epoch": 1.13,
	"grad_norm": 1.8909701108932495,
	"learning_rate": 8.732008224811515e-05,
	"loss": 1.5733,
	"step": 3290
	},
	{
	"epoch": 1.13,
	"grad_norm": 1.4277849197387695,
	"learning_rate": 8.697738176833448e-05,
	"loss": 1.6339,
	"step": 3300
	},
	{
	"epoch": 1.13,
	"grad_norm": 0.9563093185424805,
	"learning_rate": 8.663468128855381e-05,
	"loss": 1.5775,
	"step": 3310
	},
	{
	"epoch": 1.14,
	"grad_norm": 0.8461637496948242,
	"learning_rate": 8.629198080877314e-05,
	"loss": 1.653,
	"step": 3320
	},
	{
	"epoch": 1.14,
	"grad_norm": 1.0858458280563354,
	"learning_rate": 8.594928032899247e-05,
	"loss": 1.4778,
	"step": 3330
	},
	{
	"epoch": 1.14,
	"grad_norm": 1.1627178192138672,
	"learning_rate": 8.560657984921178e-05,
	"loss": 1.5374,
	"step": 3340
	},
	{
	"epoch": 1.15,
	"grad_norm": 1.196664571762085,
	"learning_rate": 8.526387936943113e-05,
	"loss": 1.6483,
	"step": 3350
	},
	{
	"epoch": 1.15,
	"grad_norm": 1.1990993022918701,
	"learning_rate": 8.492117888965046e-05,
	"loss": 1.5993,
	"step": 3360
	},
	{
	"epoch": 1.15,
	"grad_norm": 1.0623687505722046,
	"learning_rate": 8.457847840986977e-05,
	"loss": 1.5743,
	"step": 3370
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.1684637069702148,
	"learning_rate": 8.423577793008912e-05,
	"loss": 1.5546,
	"step": 3380
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.2448011636734009,
	"learning_rate": 8.389307745030843e-05,
	"loss": 1.496,
	"step": 3390
	},
	{
	"epoch": 1.16,
	"grad_norm": 0.9411953091621399,
	"learning_rate": 8.355037697052776e-05,
	"loss": 1.5966,
	"step": 3400
	},
	{
	"epoch": 1.17,
	"grad_norm": 1.0667563676834106,
	"learning_rate": 8.320767649074709e-05,
	"loss": 1.5128,
	"step": 3410
	},
	{
	"epoch": 1.17,
	"grad_norm": 1.50753653049469,
	"learning_rate": 8.286497601096642e-05,
	"loss": 1.5772,
	"step": 3420
	},
	{
	"epoch": 1.17,
	"grad_norm": 0.9346134662628174,
	"learning_rate": 8.252227553118574e-05,
	"loss": 1.6321,
	"step": 3430
	},
	{
	"epoch": 1.18,
	"grad_norm": 1.304190754890442,
	"learning_rate": 8.217957505140508e-05,
	"loss": 1.5656,
	"step": 3440
	},
	{
	"epoch": 1.18,
	"grad_norm": 1.058018684387207,
	"learning_rate": 8.18368745716244e-05,
	"loss": 1.5413,
	"step": 3450
	},
	{
	"epoch": 1.19,
	"grad_norm": 1.15809166431427,
	"learning_rate": 8.149417409184373e-05,
	"loss": 1.5673,
	"step": 3460
	},
	{
	"epoch": 1.19,
	"grad_norm": 1.092393159866333,
	"learning_rate": 8.115147361206306e-05,
	"loss": 1.5962,
	"step": 3470
	},
	{
	"epoch": 1.19,
	"grad_norm": 0.9390305876731873,
	"learning_rate": 8.080877313228239e-05,
	"loss": 1.5565,
	"step": 3480
	},
	{
	"epoch": 1.2,
	"grad_norm": 1.002120852470398,
	"learning_rate": 8.046607265250173e-05,
	"loss": 1.5803,
	"step": 3490
	},
	{
	"epoch": 1.2,
	"grad_norm": 1.0857172012329102,
	"learning_rate": 8.012337217272105e-05,
	"loss": 1.6345,
	"step": 3500
	},
	{
	"epoch": 1.2,
	"eval_loss": 1.8998303413391113,
	"eval_runtime": 33.1629,
	"eval_samples_per_second": 30.154,
	"eval_steps_per_second": 3.769,
	"step": 3500
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.9931670427322388,
	"learning_rate": 7.978067169294038e-05,
	"loss": 1.605,
	"step": 3510
	},
	{
	"epoch": 1.21,
	"grad_norm": 1.3759890794754028,
	"learning_rate": 7.94379712131597e-05,
	"loss": 1.5059,
	"step": 3520
	},
	{
	"epoch": 1.21,
	"grad_norm": 1.2301968336105347,
	"learning_rate": 7.909527073337903e-05,
	"loss": 1.582,
	"step": 3530
	},
	{
	"epoch": 1.21,
	"grad_norm": 1.1518924236297607,
	"learning_rate": 7.875257025359835e-05,
	"loss": 1.5839,
	"step": 3540
	},
	{
	"epoch": 1.22,
	"grad_norm": 0.9161165952682495,
	"learning_rate": 7.84098697738177e-05,
	"loss": 1.5494,
	"step": 3550
	},
	{
	"epoch": 1.22,
	"grad_norm": 1.250705599784851,
	"learning_rate": 7.806716929403701e-05,
	"loss": 1.5178,
	"step": 3560
	},
	{
	"epoch": 1.22,
	"grad_norm": 0.7702249884605408,
	"learning_rate": 7.772446881425634e-05,
	"loss": 1.644,
	"step": 3570
	},
	{
	"epoch": 1.23,
	"grad_norm": 1.4425973892211914,
	"learning_rate": 7.738176833447567e-05,
	"loss": 1.5009,
	"step": 3580
	},
	{
	"epoch": 1.23,
	"grad_norm": 1.2036337852478027,
	"learning_rate": 7.7039067854695e-05,
	"loss": 1.5456,
	"step": 3590
	},
	{
	"epoch": 1.23,
	"grad_norm": 1.4006402492523193,
	"learning_rate": 7.669636737491433e-05,
	"loss": 1.5511,
	"step": 3600
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.1983481645584106,
	"learning_rate": 7.635366689513366e-05,
	"loss": 1.5645,
	"step": 3610
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.2755049467086792,
	"learning_rate": 7.601096641535297e-05,
	"loss": 1.6512,
	"step": 3620
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.3783161640167236,
	"learning_rate": 7.566826593557232e-05,
	"loss": 1.6747,
	"step": 3630
	},
	{
	"epoch": 1.25,
	"grad_norm": 1.1947081089019775,
	"learning_rate": 7.532556545579165e-05,
	"loss": 1.6605,
	"step": 3640
	},
	{
	"epoch": 1.25,
	"grad_norm": 1.2230151891708374,
	"learning_rate": 7.498286497601096e-05,
	"loss": 1.6187,
	"step": 3650
	},
	{
	"epoch": 1.25,
	"grad_norm": 1.372226595878601,
	"learning_rate": 7.464016449623031e-05,
	"loss": 1.6354,
	"step": 3660
	},
	{
	"epoch": 1.26,
	"grad_norm": 1.2375085353851318,
	"learning_rate": 7.429746401644962e-05,
	"loss": 1.656,
	"step": 3670
	},
	{
	"epoch": 1.26,
	"grad_norm": 0.9703730940818787,
	"learning_rate": 7.395476353666895e-05,
	"loss": 1.5571,
	"step": 3680
	},
	{
	"epoch": 1.26,
	"grad_norm": 1.3475947380065918,
	"learning_rate": 7.361206305688828e-05,
	"loss": 1.5487,
	"step": 3690
	},
	{
	"epoch": 1.27,
	"grad_norm": 1.3879302740097046,
	"learning_rate": 7.326936257710761e-05,
	"loss": 1.6702,
	"step": 3700
	},
	{
	"epoch": 1.27,
	"grad_norm": 1.4043548107147217,
	"learning_rate": 7.292666209732694e-05,
	"loss": 1.5555,
	"step": 3710
	},
	{
	"epoch": 1.27,
	"grad_norm": 1.2937321662902832,
	"learning_rate": 7.258396161754627e-05,
	"loss": 1.5959,
	"step": 3720
	},
	{
	"epoch": 1.28,
	"grad_norm": 1.4525338411331177,
	"learning_rate": 7.224126113776559e-05,
	"loss": 1.6252,
	"step": 3730
	},
	{
	"epoch": 1.28,
	"grad_norm": 1.1089144945144653,
	"learning_rate": 7.189856065798493e-05,
	"loss": 1.5027,
	"step": 3740
	},
	{
	"epoch": 1.28,
	"grad_norm": 1.2625998258590698,
	"learning_rate": 7.155586017820425e-05,
	"loss": 1.5907,
	"step": 3750
	},
	{
	"epoch": 1.29,
	"grad_norm": 1.2458665370941162,
	"learning_rate": 7.121315969842358e-05,
	"loss": 1.54,
	"step": 3760
	},
	{
	"epoch": 1.29,
	"grad_norm": 1.2830859422683716,
	"learning_rate": 7.087045921864292e-05,
	"loss": 1.5867,
	"step": 3770
	},
	{
	"epoch": 1.29,
	"grad_norm": 1.0032719373703003,
	"learning_rate": 7.052775873886224e-05,
	"loss": 1.5374,
	"step": 3780
	},
	{
	"epoch": 1.3,
	"grad_norm": 0.9105421304702759,
	"learning_rate": 7.018505825908157e-05,
	"loss": 1.528,
	"step": 3790
	},
	{
	"epoch": 1.3,
	"grad_norm": 1.3588030338287354,
	"learning_rate": 6.98423577793009e-05,
	"loss": 1.6368,
	"step": 3800
	},
	{
	"epoch": 1.3,
	"grad_norm": 1.4903500080108643,
	"learning_rate": 6.949965729952023e-05,
	"loss": 1.675,
	"step": 3810
	},
	{
	"epoch": 1.31,
	"grad_norm": 1.229722261428833,
	"learning_rate": 6.915695681973956e-05,
	"loss": 1.555,
	"step": 3820
	},
	{
	"epoch": 1.31,
	"grad_norm": 0.9523776769638062,
	"learning_rate": 6.881425633995888e-05,
	"loss": 1.6608,
	"step": 3830
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.986708164215088,
	"learning_rate": 6.84715558601782e-05,
	"loss": 1.7199,
	"step": 3840
	},
	{
	"epoch": 1.32,
	"grad_norm": 0.79183429479599,
	"learning_rate": 6.812885538039754e-05,
	"loss": 1.5034,
	"step": 3850
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.1760715246200562,
	"learning_rate": 6.778615490061686e-05,
	"loss": 1.6812,
	"step": 3860
	},
	{
	"epoch": 1.33,
	"grad_norm": 1.7899055480957031,
	"learning_rate": 6.744345442083619e-05,
	"loss": 1.7389,
	"step": 3870
	},
	{
	"epoch": 1.33,
	"grad_norm": 1.2628593444824219,
	"learning_rate": 6.710075394105552e-05,
	"loss": 1.5317,
	"step": 3880
	},
	{
	"epoch": 1.33,
	"grad_norm": 1.037351131439209,
	"learning_rate": 6.675805346127485e-05,
	"loss": 1.5858,
	"step": 3890
	},
	{
	"epoch": 1.34,
	"grad_norm": 1.2006704807281494,
	"learning_rate": 6.641535298149417e-05,
	"loss": 1.4587,
	"step": 3900
	},
	{
	"epoch": 1.34,
	"grad_norm": 1.0877715349197388,
	"learning_rate": 6.607265250171351e-05,
	"loss": 1.5306,
	"step": 3910
	},
	{
	"epoch": 1.34,
	"grad_norm": 1.4047476053237915,
	"learning_rate": 6.572995202193284e-05,
	"loss": 1.5603,
	"step": 3920
	},
	{
	"epoch": 1.35,
	"grad_norm": 1.2444441318511963,
	"learning_rate": 6.538725154215215e-05,
	"loss": 1.5809,
	"step": 3930
	},
	{
	"epoch": 1.35,
	"grad_norm": 1.5738134384155273,
	"learning_rate": 6.50445510623715e-05,
	"loss": 1.5606,
	"step": 3940
	},
	{
	"epoch": 1.35,
	"grad_norm": 1.4850690364837646,
	"learning_rate": 6.470185058259081e-05,
	"loss": 1.4945,
	"step": 3950
	},
	{
	"epoch": 1.36,
	"grad_norm": 1.3746342658996582,
	"learning_rate": 6.435915010281016e-05,
	"loss": 1.5152,
	"step": 3960
	},
	{
	"epoch": 1.36,
	"grad_norm": 1.139249324798584,
	"learning_rate": 6.401644962302947e-05,
	"loss": 1.6004,
	"step": 3970
	},
	{
	"epoch": 1.36,
	"grad_norm": 1.3590480089187622,
	"learning_rate": 6.36737491432488e-05,
	"loss": 1.4926,
	"step": 3980
	},
	{
	"epoch": 1.37,
	"grad_norm": 1.6366995573043823,
	"learning_rate": 6.333104866346813e-05,
	"loss": 1.6734,
	"step": 3990
	},
	{
	"epoch": 1.37,
	"grad_norm": 1.1154892444610596,
	"learning_rate": 6.298834818368746e-05,
	"loss": 1.5628,
	"step": 4000
	},
	{
	"epoch": 1.37,
	"eval_loss": 1.9075069427490234,
	"eval_runtime": 33.1019,
	"eval_samples_per_second": 30.21,
	"eval_steps_per_second": 3.776,
	"step": 4000
	},
	{
	"epoch": 1.37,
	"grad_norm": 1.123923897743225,
	"learning_rate": 6.264564770390678e-05,
	"loss": 1.6206,
	"step": 4010
	},
	{
	"epoch": 1.38,
	"grad_norm": 1.3015213012695312,
	"learning_rate": 6.230294722412612e-05,
	"loss": 1.6292,
	"step": 4020
	},
	{
	"epoch": 1.38,
	"grad_norm": 1.8867294788360596,
	"learning_rate": 6.196024674434544e-05,
	"loss": 1.6625,
	"step": 4030
	},
	{
	"epoch": 1.38,
	"grad_norm": 1.5840169191360474,
	"learning_rate": 6.161754626456477e-05,
	"loss": 1.6224,
	"step": 4040
	},
	{
	"epoch": 1.39,
	"grad_norm": 0.9141889810562134,
	"learning_rate": 6.12748457847841e-05,
	"loss": 1.5051,
	"step": 4050
	},
	{
	"epoch": 1.39,
	"grad_norm": 1.5261061191558838,
	"learning_rate": 6.093214530500343e-05,
	"loss": 1.4289,
	"step": 4060
	},
	{
	"epoch": 1.39,
	"grad_norm": 1.2253016233444214,
	"learning_rate": 6.0589444825222764e-05,
	"loss": 1.6065,
	"step": 4070
	},
	{
	"epoch": 1.4,
	"grad_norm": 1.7163646221160889,
	"learning_rate": 6.0246744345442087e-05,
	"loss": 1.5978,
	"step": 4080
	},
	{
	"epoch": 1.4,
	"grad_norm": 1.0204969644546509,
	"learning_rate": 5.9904043865661416e-05,
	"loss": 1.6267,
	"step": 4090
	},
	{
	"epoch": 1.4,
	"grad_norm": 1.9314994812011719,
	"learning_rate": 5.956134338588074e-05,
	"loss": 1.6486,
	"step": 4100
	},
	{
	"epoch": 1.41,
	"grad_norm": 1.1685149669647217,
	"learning_rate": 5.9218642906100076e-05,
	"loss": 1.6397,
	"step": 4110
	},
	{
	"epoch": 1.41,
	"grad_norm": 1.422166347503662,
	"learning_rate": 5.88759424263194e-05,
	"loss": 1.6419,
	"step": 4120
	},
	{
	"epoch": 1.41,
	"grad_norm": 1.3074285984039307,
	"learning_rate": 5.853324194653873e-05,
	"loss": 1.565,
	"step": 4130
	},
	{
	"epoch": 1.42,
	"grad_norm": 0.965584933757782,
	"learning_rate": 5.819054146675805e-05,
	"loss": 1.5841,
	"step": 4140
	},
	{
	"epoch": 1.42,
	"grad_norm": 0.9101732969284058,
	"learning_rate": 5.784784098697739e-05,
	"loss": 1.6144,
	"step": 4150
	},
	{
	"epoch": 1.42,
	"grad_norm": 1.183640718460083,
	"learning_rate": 5.750514050719671e-05,
	"loss": 1.5998,
	"step": 4160
	},
	{
	"epoch": 1.43,
	"grad_norm": 1.1072790622711182,
	"learning_rate": 5.716244002741604e-05,
	"loss": 1.4634,
	"step": 4170
	},
	{
	"epoch": 1.43,
	"grad_norm": 1.608017086982727,
	"learning_rate": 5.681973954763536e-05,
	"loss": 1.5629,
	"step": 4180
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.4969751834869385,
	"learning_rate": 5.64770390678547e-05,
	"loss": 1.5966,
	"step": 4190
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.727695107460022,
	"learning_rate": 5.613433858807403e-05,
	"loss": 1.5456,
	"step": 4200
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.4587767124176025,
	"learning_rate": 5.579163810829335e-05,
	"loss": 1.5238,
	"step": 4210
	},
	{
	"epoch": 1.45,
	"grad_norm": 1.5338579416275024,
	"learning_rate": 5.544893762851269e-05,
	"loss": 1.5485,
	"step": 4220
	},
	{
	"epoch": 1.45,
	"grad_norm": 0.8002244234085083,
	"learning_rate": 5.510623714873201e-05,
	"loss": 1.634,
	"step": 4230
	},
	{
	"epoch": 1.45,
	"grad_norm": 1.281417727470398,
	"learning_rate": 5.476353666895134e-05,
	"loss": 1.589,
	"step": 4240
	},
	{
	"epoch": 1.46,
	"grad_norm": 0.906808078289032,
	"learning_rate": 5.4420836189170664e-05,
	"loss": 1.57,
	"step": 4250
	},
	{
	"epoch": 1.46,
	"grad_norm": 1.799028992652893,
	"learning_rate": 5.407813570939e-05,
	"loss": 1.623,
	"step": 4260
	},
	{
	"epoch": 1.46,
	"grad_norm": 1.2560220956802368,
	"learning_rate": 5.3735435229609324e-05,
	"loss": 1.4231,
	"step": 4270
	},
	{
	"epoch": 1.47,
	"grad_norm": 1.315132737159729,
	"learning_rate": 5.339273474982865e-05,
	"loss": 1.553,
	"step": 4280
	},
	{
	"epoch": 1.47,
	"grad_norm": 1.1687719821929932,
	"learning_rate": 5.3050034270047976e-05,
	"loss": 1.691,
	"step": 4290
	},
	{
	"epoch": 1.47,
	"grad_norm": 1.182626724243164,
	"learning_rate": 5.270733379026731e-05,
	"loss": 1.58,
	"step": 4300
	},
	{
	"epoch": 1.48,
	"grad_norm": 0.819560170173645,
	"learning_rate": 5.2364633310486636e-05,
	"loss": 1.574,
	"step": 4310
	},
	{
	"epoch": 1.48,
	"grad_norm": 1.4093881845474243,
	"learning_rate": 5.2021932830705965e-05,
	"loss": 1.5805,
	"step": 4320
	},
	{
	"epoch": 1.48,
	"grad_norm": 2.079927921295166,
	"learning_rate": 5.167923235092529e-05,
	"loss": 1.6296,
	"step": 4330
	},
	{
	"epoch": 1.49,
	"grad_norm": 1.1056098937988281,
	"learning_rate": 5.1336531871144625e-05,
	"loss": 1.4964,
	"step": 4340
	},
	{
	"epoch": 1.49,
	"grad_norm": 1.924827218055725,
	"learning_rate": 5.0993831391363954e-05,
	"loss": 1.5223,
	"step": 4350
	},
	{
	"epoch": 1.49,
	"grad_norm": 1.461719274520874,
	"learning_rate": 5.065113091158328e-05,
	"loss": 1.5323,
	"step": 4360
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.6647108793258667,
	"learning_rate": 5.0308430431802614e-05,
	"loss": 1.6025,
	"step": 4370
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.33492910861969,
	"learning_rate": 4.996572995202194e-05,
	"loss": 1.5554,
	"step": 4380
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.134582757949829,
	"learning_rate": 4.962302947224126e-05,
	"loss": 1.621,
	"step": 4390
	},
	{
	"epoch": 1.51,
	"grad_norm": 1.315508246421814,
	"learning_rate": 4.928032899246059e-05,
	"loss": 1.5828,
	"step": 4400
	},
	{
	"epoch": 1.51,
	"grad_norm": 1.3290214538574219,
	"learning_rate": 4.8937628512679926e-05,
	"loss": 1.578,
	"step": 4410
	},
	{
	"epoch": 1.51,
	"grad_norm": 1.2616337537765503,
	"learning_rate": 4.859492803289925e-05,
	"loss": 1.6177,
	"step": 4420
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.4099230766296387,
	"learning_rate": 4.825222755311858e-05,
	"loss": 1.4926,
	"step": 4430
	},
	{
	"epoch": 1.52,
	"grad_norm": 0.9720429182052612,
	"learning_rate": 4.790952707333791e-05,
	"loss": 1.6552,
	"step": 4440
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.1491189002990723,
	"learning_rate": 4.756682659355723e-05,
	"loss": 1.7001,
	"step": 4450
	},
	{
	"epoch": 1.53,
	"grad_norm": 1.1790263652801514,
	"learning_rate": 4.722412611377656e-05,
	"loss": 1.544,
	"step": 4460
	},
	{
	"epoch": 1.53,
	"grad_norm": 1.1880890130996704,
	"learning_rate": 4.688142563399589e-05,
	"loss": 1.6053,
	"step": 4470
	},
	{
	"epoch": 1.53,
	"grad_norm": 1.0895016193389893,
	"learning_rate": 4.653872515421522e-05,
	"loss": 1.455,
	"step": 4480
	},
	{
	"epoch": 1.54,
	"grad_norm": 1.230600118637085,
	"learning_rate": 4.619602467443454e-05,
	"loss": 1.5752,
	"step": 4490
	},
	{
	"epoch": 1.54,
	"grad_norm": 1.4027129411697388,
	"learning_rate": 4.585332419465387e-05,
	"loss": 1.5461,
	"step": 4500
	},
	{
	"epoch": 1.54,
	"eval_loss": 1.9048413038253784,
	"eval_runtime": 33.129,
	"eval_samples_per_second": 30.185,
	"eval_steps_per_second": 3.773,
	"step": 4500
	},
	{
	"epoch": 1.54,
	"grad_norm": 0.8590341806411743,
	"learning_rate": 4.55106237148732e-05,
	"loss": 1.6303,
	"step": 4510
	},
	{
	"epoch": 1.55,
	"grad_norm": 1.0827935934066772,
	"learning_rate": 4.516792323509253e-05,
	"loss": 1.5712,
	"step": 4520
	},
	{
	"epoch": 1.55,
	"grad_norm": 0.8795824646949768,
	"learning_rate": 4.4825222755311855e-05,
	"loss": 1.4882,
	"step": 4530
	},
	{
	"epoch": 1.55,
	"grad_norm": 1.509653091430664,
	"learning_rate": 4.4482522275531185e-05,
	"loss": 1.5534,
	"step": 4540
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.0400638580322266,
	"learning_rate": 4.413982179575052e-05,
	"loss": 1.5681,
	"step": 4550
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.1006004810333252,
	"learning_rate": 4.3797121315969844e-05,
	"loss": 1.5715,
	"step": 4560
	},
	{
	"epoch": 1.57,
	"grad_norm": 1.1621884107589722,
	"learning_rate": 4.3454420836189174e-05,
	"loss": 1.6373,
	"step": 4570
	},
	{
	"epoch": 1.57,
	"grad_norm": 1.0296626091003418,
	"learning_rate": 4.3111720356408503e-05,
	"loss": 1.6076,
	"step": 4580
	},
	{
	"epoch": 1.57,
	"grad_norm": 1.6784312725067139,
	"learning_rate": 4.276901987662783e-05,
	"loss": 1.6046,
	"step": 4590
	},
	{
	"epoch": 1.58,
	"grad_norm": 1.0730016231536865,
	"learning_rate": 4.2426319396847156e-05,
	"loss": 1.6317,
	"step": 4600
	},
	{
	"epoch": 1.58,
	"grad_norm": 1.0070710182189941,
	"learning_rate": 4.2083618917066486e-05,
	"loss": 1.5472,
	"step": 4610
	},
	{
	"epoch": 1.58,
	"grad_norm": 1.143546462059021,
	"learning_rate": 4.1740918437285815e-05,
	"loss": 1.4993,
	"step": 4620
	},
	{
	"epoch": 1.59,
	"grad_norm": 1.8565304279327393,
	"learning_rate": 4.1398217957505145e-05,
	"loss": 1.6021,
	"step": 4630
	},
	{
	"epoch": 1.59,
	"grad_norm": 1.1914728879928589,
	"learning_rate": 4.105551747772447e-05,
	"loss": 1.7231,
	"step": 4640
	},
	{
	"epoch": 1.59,
	"grad_norm": 1.6387224197387695,
	"learning_rate": 4.07128169979438e-05,
	"loss": 1.5804,
	"step": 4650
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.65473210811615,
	"learning_rate": 4.037011651816313e-05,
	"loss": 1.6404,
	"step": 4660
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.6097077131271362,
	"learning_rate": 4.002741603838245e-05,
	"loss": 1.4651,
	"step": 4670
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.4290515184402466,
	"learning_rate": 3.968471555860178e-05,
	"loss": 1.5668,
	"step": 4680
	},
	{
	"epoch": 1.61,
	"grad_norm": 1.047481894493103,
	"learning_rate": 3.934201507882111e-05,
	"loss": 1.5275,
	"step": 4690
	},
	{
	"epoch": 1.61,
	"grad_norm": 1.3638914823532104,
	"learning_rate": 3.8999314599040446e-05,
	"loss": 1.6588,
	"step": 4700
	},
	{
	"epoch": 1.61,
	"grad_norm": 1.7712153196334839,
	"learning_rate": 3.865661411925977e-05,
	"loss": 1.6079,
	"step": 4710
	},
	{
	"epoch": 1.62,
	"grad_norm": 1.0898468494415283,
	"learning_rate": 3.83139136394791e-05,
	"loss": 1.574,
	"step": 4720
	},
	{
	"epoch": 1.62,
	"grad_norm": 1.4913599491119385,
	"learning_rate": 3.797121315969843e-05,
	"loss": 1.5376,
	"step": 4730
	},
	{
	"epoch": 1.62,
	"grad_norm": 1.225707769393921,
	"learning_rate": 3.762851267991775e-05,
	"loss": 1.5925,
	"step": 4740
	},
	{
	"epoch": 1.63,
	"grad_norm": 1.5699125528335571,
	"learning_rate": 3.728581220013708e-05,
	"loss": 1.593,
	"step": 4750
	},
	{
	"epoch": 1.63,
	"grad_norm": 1.318574070930481,
	"learning_rate": 3.694311172035641e-05,
	"loss": 1.5525,
	"step": 4760
	},
	{
	"epoch": 1.63,
	"grad_norm": 1.4544116258621216,
	"learning_rate": 3.660041124057574e-05,
	"loss": 1.5678,
	"step": 4770
	},
	{
	"epoch": 1.64,
	"grad_norm": 1.7460687160491943,
	"learning_rate": 3.6257710760795063e-05,
	"loss": 1.6081,
	"step": 4780
	},
	{
	"epoch": 1.64,
	"grad_norm": 1.4106998443603516,
	"learning_rate": 3.591501028101439e-05,
	"loss": 1.5687,
	"step": 4790
	},
	{
	"epoch": 1.64,
	"grad_norm": 1.0583499670028687,
	"learning_rate": 3.557230980123372e-05,
	"loss": 1.5467,
	"step": 4800
	},
	{
	"epoch": 1.65,
	"grad_norm": 1.2292665243148804,
	"learning_rate": 3.522960932145305e-05,
	"loss": 1.5491,
	"step": 4810
	},
	{
	"epoch": 1.65,
	"grad_norm": 1.3556251525878906,
	"learning_rate": 3.4886908841672375e-05,
	"loss": 1.5568,
	"step": 4820
	},
	{
	"epoch": 1.65,
	"grad_norm": 1.6374377012252808,
	"learning_rate": 3.4544208361891705e-05,
	"loss": 1.6016,
	"step": 4830
	},
	{
	"epoch": 1.66,
	"grad_norm": 1.0343750715255737,
	"learning_rate": 3.420150788211104e-05,
	"loss": 1.4693,
	"step": 4840
	},
	{
	"epoch": 1.66,
	"grad_norm": 1.378056526184082,
	"learning_rate": 3.3858807402330365e-05,
	"loss": 1.6081,
	"step": 4850
	},
	{
	"epoch": 1.66,
	"grad_norm": 1.370970368385315,
	"learning_rate": 3.3516106922549694e-05,
	"loss": 1.515,
	"step": 4860
	},
	{
	"epoch": 1.67,
	"grad_norm": 1.3780639171600342,
	"learning_rate": 3.3173406442769024e-05,
	"loss": 1.5644,
	"step": 4870
	},
	{
	"epoch": 1.67,
	"grad_norm": 1.0907922983169556,
	"learning_rate": 3.2830705962988354e-05,
	"loss": 1.5701,
	"step": 4880
	},
	{
	"epoch": 1.67,
	"grad_norm": 1.4807682037353516,
	"learning_rate": 3.2488005483207677e-05,
	"loss": 1.5535,
	"step": 4890
	},
	{
	"epoch": 1.68,
	"grad_norm": 1.7207825183868408,
	"learning_rate": 3.2145305003427006e-05,
	"loss": 1.6049,
	"step": 4900
	},
	{
	"epoch": 1.68,
	"grad_norm": 0.8784241676330566,
	"learning_rate": 3.1802604523646336e-05,
	"loss": 1.5213,
	"step": 4910
	},
	{
	"epoch": 1.69,
	"grad_norm": 1.6283917427062988,
	"learning_rate": 3.1459904043865666e-05,
	"loss": 1.4902,
	"step": 4920
	},
	{
	"epoch": 1.69,
	"grad_norm": 1.0017669200897217,
	"learning_rate": 3.111720356408499e-05,
	"loss": 1.5147,
	"step": 4930
	},
	{
	"epoch": 1.69,
	"grad_norm": 1.4256327152252197,
	"learning_rate": 3.077450308430432e-05,
	"loss": 1.518,
	"step": 4940
	},
	{
	"epoch": 1.7,
	"grad_norm": 1.4298090934753418,
	"learning_rate": 3.0431802604523645e-05,
	"loss": 1.5843,
	"step": 4950
	},
	{
	"epoch": 1.7,
	"grad_norm": 1.0894560813903809,
	"learning_rate": 3.0089102124742974e-05,
	"loss": 1.5931,
	"step": 4960
	},
	{
	"epoch": 1.7,
	"grad_norm": 1.8101505041122437,
	"learning_rate": 2.97464016449623e-05,
	"loss": 1.5629,
	"step": 4970
	},
	{
	"epoch": 1.71,
	"grad_norm": 0.966204047203064,
	"learning_rate": 2.9403701165181634e-05,
	"loss": 1.5048,
	"step": 4980
	},
	{
	"epoch": 1.71,
	"grad_norm": 1.2718944549560547,
	"learning_rate": 2.9061000685400963e-05,
	"loss": 1.6685,
	"step": 4990
	},
	{
	"epoch": 1.71,
	"grad_norm": 0.9012284874916077,
	"learning_rate": 2.871830020562029e-05,
	"loss": 1.5769,
	"step": 5000
	},
	{
	"epoch": 1.71,
	"eval_loss": 1.9053254127502441,
	"eval_runtime": 33.1389,
	"eval_samples_per_second": 30.176,
	"eval_steps_per_second": 3.772,
	"step": 5000
	},
	{
	"epoch": 1.72,
	"grad_norm": 1.4876313209533691,
	"learning_rate": 2.837559972583962e-05,
	"loss": 1.4846,
	"step": 5010
	},
	{
	"epoch": 1.72,
	"grad_norm": 0.9953039288520813,
	"learning_rate": 2.8032899246058946e-05,
	"loss": 1.6145,
	"step": 5020
	},
	{
	"epoch": 1.72,
	"grad_norm": 1.4575115442276,
	"learning_rate": 2.7690198766278275e-05,
	"loss": 1.5442,
	"step": 5030
	},
	{
	"epoch": 1.73,
	"grad_norm": 1.3410977125167847,
	"learning_rate": 2.73474982864976e-05,
	"loss": 1.5617,
	"step": 5040
	},
	{
	"epoch": 1.73,
	"grad_norm": 1.5489014387130737,
	"learning_rate": 2.700479780671693e-05,
	"loss": 1.6061,
	"step": 5050
	},
	{
	"epoch": 1.73,
	"grad_norm": 2.2693567276000977,
	"learning_rate": 2.6662097326936258e-05,
	"loss": 1.576,
	"step": 5060
	},
	{
	"epoch": 1.74,
	"grad_norm": 1.776106595993042,
	"learning_rate": 2.6319396847155587e-05,
	"loss": 1.57,
	"step": 5070
	},
	{
	"epoch": 1.74,
	"grad_norm": 1.0588148832321167,
	"learning_rate": 2.5976696367374914e-05,
	"loss": 1.476,
	"step": 5080
	},
	{
	"epoch": 1.74,
	"grad_norm": 1.133484125137329,
	"learning_rate": 2.5633995887594243e-05,
	"loss": 1.5103,
	"step": 5090
	},
	{
	"epoch": 1.75,
	"grad_norm": 1.3961825370788574,
	"learning_rate": 2.529129540781357e-05,
	"loss": 1.59,
	"step": 5100
	},
	{
	"epoch": 1.75,
	"grad_norm": 1.7427486181259155,
	"learning_rate": 2.49485949280329e-05,
	"loss": 1.5608,
	"step": 5110
	},
	{
	"epoch": 1.75,
	"grad_norm": 1.961029291152954,
	"learning_rate": 2.460589444825223e-05,
	"loss": 1.6278,
	"step": 5120
	},
	{
	"epoch": 1.76,
	"grad_norm": 1.2870323657989502,
	"learning_rate": 2.4263193968471555e-05,
	"loss": 1.5877,
	"step": 5130
	},
	{
	"epoch": 1.76,
	"grad_norm": 1.204353928565979,
	"learning_rate": 2.3920493488690885e-05,
	"loss": 1.5,
	"step": 5140
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.9764713644981384,
	"learning_rate": 2.357779300891021e-05,
	"loss": 1.6451,
	"step": 5150
	},
	{
	"epoch": 1.77,
	"grad_norm": 1.2140144109725952,
	"learning_rate": 2.3235092529129544e-05,
	"loss": 1.4958,
	"step": 5160
	},
	{
	"epoch": 1.77,
	"grad_norm": 1.9167425632476807,
	"learning_rate": 2.289239204934887e-05,
	"loss": 1.569,
	"step": 5170
	},
	{
	"epoch": 1.77,
	"grad_norm": 1.864986538887024,
	"learning_rate": 2.25496915695682e-05,
	"loss": 1.5232,
	"step": 5180
	},
	{
	"epoch": 1.78,
	"grad_norm": 1.2421759366989136,
	"learning_rate": 2.2206991089787527e-05,
	"loss": 1.5894,
	"step": 5190
	},
	{
	"epoch": 1.78,
	"grad_norm": 1.412864089012146,
	"learning_rate": 2.1898560657984922e-05,
	"loss": 1.5737,
	"step": 5200
	},
	{
	"epoch": 1.78,
	"grad_norm": 1.105542778968811,
	"learning_rate": 2.1555860178204252e-05,
	"loss": 1.5747,
	"step": 5210
	},
	{
	"epoch": 1.79,
	"grad_norm": 1.7511961460113525,
	"learning_rate": 2.1213159698423578e-05,
	"loss": 1.5455,
	"step": 5220
	},
	{
	"epoch": 1.79,
	"grad_norm": 1.4287422895431519,
	"learning_rate": 2.0870459218642908e-05,
	"loss": 1.4871,
	"step": 5230
	},
	{
	"epoch": 1.79,
	"grad_norm": 0.835995614528656,
	"learning_rate": 2.0527758738862234e-05,
	"loss": 1.6128,
	"step": 5240
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.8323885202407837,
	"learning_rate": 2.0185058259081564e-05,
	"loss": 1.6333,
	"step": 5250
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.5953247547149658,
	"learning_rate": 1.984235777930089e-05,
	"loss": 1.5631,
	"step": 5260
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.4622983932495117,
	"learning_rate": 1.9499657299520223e-05,
	"loss": 1.5065,
	"step": 5270
	},
	{
	"epoch": 1.81,
	"grad_norm": 1.6321667432785034,
	"learning_rate": 1.915695681973955e-05,
	"loss": 1.59,
	"step": 5280
	},
	{
	"epoch": 1.81,
	"grad_norm": 1.3693170547485352,
	"learning_rate": 1.8814256339958876e-05,
	"loss": 1.5847,
	"step": 5290
	},
	{
	"epoch": 1.82,
	"grad_norm": 1.5187667608261108,
	"learning_rate": 1.8471555860178205e-05,
	"loss": 1.541,
	"step": 5300
	},
	{
	"epoch": 1.82,
	"grad_norm": 1.1000255346298218,
	"learning_rate": 1.8128855380397532e-05,
	"loss": 1.4775,
	"step": 5310
	},
	{
	"epoch": 1.82,
	"grad_norm": 1.4071645736694336,
	"learning_rate": 1.778615490061686e-05,
	"loss": 1.6336,
	"step": 5320
	},
	{
	"epoch": 1.83,
	"grad_norm": 1.5703157186508179,
	"learning_rate": 1.7443454420836188e-05,
	"loss": 1.6725,
	"step": 5330
	},
	{
	"epoch": 1.83,
	"grad_norm": 1.0555702447891235,
	"learning_rate": 1.710075394105552e-05,
	"loss": 1.4712,
	"step": 5340
	},
	{
	"epoch": 1.83,
	"grad_norm": 1.4873102903366089,
	"learning_rate": 1.6758053461274847e-05,
	"loss": 1.5741,
	"step": 5350
	},
	{
	"epoch": 1.84,
	"grad_norm": 1.1715468168258667,
	"learning_rate": 1.6415352981494177e-05,
	"loss": 1.4884,
	"step": 5360
	},
	{
	"epoch": 1.84,
	"grad_norm": 1.82741379737854,
	"learning_rate": 1.6072652501713503e-05,
	"loss": 1.5778,
	"step": 5370
	},
	{
	"epoch": 1.84,
	"grad_norm": 1.6479945182800293,
	"learning_rate": 1.5729952021932833e-05,
	"loss": 1.6802,
	"step": 5380
	},
	{
	"epoch": 1.85,
	"grad_norm": 1.0871607065200806,
	"learning_rate": 1.538725154215216e-05,
	"loss": 1.5509,
	"step": 5390
	},
	{
	"epoch": 1.85,
	"grad_norm": 1.7326961755752563,
	"learning_rate": 1.5044551062371487e-05,
	"loss": 1.5746,
	"step": 5400
	},
	{
	"epoch": 1.85,
	"grad_norm": 1.3573588132858276,
	"learning_rate": 1.4701850582590817e-05,
	"loss": 1.6147,
	"step": 5410
	},
	{
	"epoch": 1.86,
	"grad_norm": 1.807897925376892,
	"learning_rate": 1.4359150102810145e-05,
	"loss": 1.6446,
	"step": 5420
	},
	{
	"epoch": 1.86,
	"grad_norm": 1.0243467092514038,
	"learning_rate": 1.4016449623029473e-05,
	"loss": 1.5844,
	"step": 5430
	},
	{
	"epoch": 1.86,
	"grad_norm": 1.709069013595581,
	"learning_rate": 1.36737491432488e-05,
	"loss": 1.5774,
	"step": 5440
	},
	{
	"epoch": 1.87,
	"grad_norm": 1.717564582824707,
	"learning_rate": 1.3331048663468129e-05,
	"loss": 1.5898,
	"step": 5450
	},
	{
	"epoch": 1.87,
	"grad_norm": 1.1066781282424927,
	"learning_rate": 1.2988348183687457e-05,
	"loss": 1.5828,
	"step": 5460
	},
	{
	"epoch": 1.87,
	"grad_norm": 1.119360089302063,
	"learning_rate": 1.2645647703906785e-05,
	"loss": 1.5321,
	"step": 5470
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.0519651174545288,
	"learning_rate": 1.2302947224126114e-05,
	"loss": 1.5691,
	"step": 5480
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.7377208471298218,
	"learning_rate": 1.1960246744345442e-05,
	"loss": 1.5568,
	"step": 5490
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.4080170392990112,
	"learning_rate": 1.1617546264564772e-05,
	"loss": 1.6109,
	"step": 5500
	},
	{
	"epoch": 1.88,
	"eval_loss": 1.9016900062561035,
	"eval_runtime": 33.1979,
	"eval_samples_per_second": 30.122,
	"eval_steps_per_second": 3.765,
	"step": 5500
	}
	],
	"logging_steps": 10,
	"max_steps": 5838,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"total_flos": 2.980420245786624e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}