{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9989717223650385,
  "eval_steps": 500,
  "global_step": 972,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02056555269922879,
      "grad_norm": 9.233743238441296,
      "learning_rate": 1.9994839090452616e-05,
      "loss": 1.5713,
      "step": 10
    },
    {
      "epoch": 0.04113110539845758,
      "grad_norm": 13.69020758087521,
      "learning_rate": 1.9979236966675828e-05,
      "loss": 1.3565,
      "step": 20
    },
    {
      "epoch": 0.061696658097686374,
      "grad_norm": 9.2629201307749,
      "learning_rate": 1.9953209739827946e-05,
      "loss": 1.3132,
      "step": 30
    },
    {
      "epoch": 0.08226221079691516,
      "grad_norm": 5.836967088114798,
      "learning_rate": 1.9916784600016132e-05,
      "loss": 1.2708,
      "step": 40
    },
    {
      "epoch": 0.10282776349614396,
      "grad_norm": 9.00423601885076,
      "learning_rate": 1.9869999599832804e-05,
      "loss": 1.2658,
      "step": 50
    },
    {
      "epoch": 0.12339331619537275,
      "grad_norm": 13.166982152661006,
      "learning_rate": 1.981290361460287e-05,
      "loss": 1.2531,
      "step": 60
    },
    {
      "epoch": 0.14395886889460155,
      "grad_norm": 10.728661259090346,
      "learning_rate": 1.974555629132469e-05,
      "loss": 1.2339,
      "step": 70
    },
    {
      "epoch": 0.16452442159383032,
      "grad_norm": 9.294779587967374,
      "learning_rate": 1.9668027986358082e-05,
      "loss": 1.2372,
      "step": 80
    },
    {
      "epoch": 0.18508997429305912,
      "grad_norm": 6.388693353299931,
      "learning_rate": 1.9580399691924484e-05,
      "loss": 1.2298,
      "step": 90
    },
    {
      "epoch": 0.20565552699228792,
      "grad_norm": 5.685294719278735,
      "learning_rate": 1.9482762951496056e-05,
      "loss": 1.2312,
      "step": 100
    },
    {
      "epoch": 0.2262210796915167,
      "grad_norm": 6.685866232367591,
      "learning_rate": 1.9375219764162096e-05,
      "loss": 1.2316,
      "step": 110
    },
    {
      "epoch": 0.2467866323907455,
      "grad_norm": 7.688018717119547,
      "learning_rate": 1.92578824780727e-05,
      "loss": 1.2337,
      "step": 120
    },
    {
      "epoch": 0.26735218508997427,
      "grad_norm": 3.884064710067138,
      "learning_rate": 1.913087367307095e-05,
      "loss": 1.2136,
      "step": 130
    },
    {
      "epoch": 0.2879177377892031,
      "grad_norm": 9.444686410104936,
      "learning_rate": 1.8994326032636318e-05,
      "loss": 1.2072,
      "step": 140
    },
    {
      "epoch": 0.30848329048843187,
      "grad_norm": 4.864822081558493,
      "learning_rate": 1.8848382205272924e-05,
      "loss": 1.2017,
      "step": 150
    },
    {
      "epoch": 0.32904884318766064,
      "grad_norm": 5.9852253238798605,
      "learning_rate": 1.869319465548762e-05,
      "loss": 1.208,
      "step": 160
    },
    {
      "epoch": 0.3496143958868895,
      "grad_norm": 6.2970547396781225,
      "learning_rate": 1.852892550451345e-05,
      "loss": 1.2012,
      "step": 170
    },
    {
      "epoch": 0.37017994858611825,
      "grad_norm": 7.846752995277368,
      "learning_rate": 1.835574636094494e-05,
      "loss": 1.2035,
      "step": 180
    },
    {
      "epoch": 0.390745501285347,
      "grad_norm": 9.795450293111358,
      "learning_rate": 1.8173838141462145e-05,
      "loss": 1.2147,
      "step": 190
    },
    {
      "epoch": 0.41131105398457585,
      "grad_norm": 7.782933189444834,
      "learning_rate": 1.798339088183071e-05,
      "loss": 1.2126,
      "step": 200
    },
    {
      "epoch": 0.4318766066838046,
      "grad_norm": 5.494144367822917,
      "learning_rate": 1.7784603538375453e-05,
      "loss": 1.2089,
      "step": 210
    },
    {
      "epoch": 0.4524421593830334,
      "grad_norm": 6.609017931196138,
      "learning_rate": 1.7577683780134756e-05,
      "loss": 1.1879,
      "step": 220
    },
    {
      "epoch": 0.4730077120822622,
      "grad_norm": 8.906035242084766,
      "learning_rate": 1.7362847771913035e-05,
      "loss": 1.2097,
      "step": 230
    },
    {
      "epoch": 0.493573264781491,
      "grad_norm": 8.648775336727859,
      "learning_rate": 1.714031994845782e-05,
      "loss": 1.187,
      "step": 240
    },
    {
      "epoch": 0.5141388174807198,
      "grad_norm": 5.843126331449411,
      "learning_rate": 1.6910332779997378e-05,
      "loss": 1.1835,
      "step": 250
    },
    {
      "epoch": 0.5347043701799485,
      "grad_norm": 7.57208189767232,
      "learning_rate": 1.6673126529383905e-05,
      "loss": 1.1906,
      "step": 260
    },
    {
      "epoch": 0.5552699228791774,
      "grad_norm": 5.872037189234157,
      "learning_rate": 1.642894900109584e-05,
      "loss": 1.1736,
      "step": 270
    },
    {
      "epoch": 0.5758354755784062,
      "grad_norm": 5.59549822016061,
      "learning_rate": 1.6178055282361642e-05,
      "loss": 1.19,
      "step": 280
    },
    {
      "epoch": 0.596401028277635,
      "grad_norm": 7.1037529678120785,
      "learning_rate": 1.5920707476675446e-05,
      "loss": 1.1851,
      "step": 290
    },
    {
      "epoch": 0.6169665809768637,
      "grad_norm": 4.7250598751432875,
      "learning_rate": 1.565717442998292e-05,
      "loss": 1.1824,
      "step": 300
    },
    {
      "epoch": 0.6375321336760925,
      "grad_norm": 7.603461950437508,
      "learning_rate": 1.5387731449823474e-05,
      "loss": 1.1543,
      "step": 310
    },
    {
      "epoch": 0.6580976863753213,
      "grad_norm": 7.812378658902085,
      "learning_rate": 1.5112660017722122e-05,
      "loss": 1.1683,
      "step": 320
    },
    {
      "epoch": 0.6786632390745502,
      "grad_norm": 6.866611481508661,
      "learning_rate": 1.4832247495131566e-05,
      "loss": 1.1643,
      "step": 330
    },
    {
      "epoch": 0.699228791773779,
      "grad_norm": 8.447272563997627,
      "learning_rate": 1.45467868232316e-05,
      "loss": 1.1679,
      "step": 340
    },
    {
      "epoch": 0.7197943444730077,
      "grad_norm": 8.29660722849121,
      "learning_rate": 1.4256576216899494e-05,
      "loss": 1.1605,
      "step": 350
    },
    {
      "epoch": 0.7403598971722365,
      "grad_norm": 6.408869669950844,
      "learning_rate": 1.3961918853171073e-05,
      "loss": 1.1681,
      "step": 360
    },
    {
      "epoch": 0.7609254498714653,
      "grad_norm": 7.257507857539118,
      "learning_rate": 1.3663122554517917e-05,
      "loss": 1.1545,
      "step": 370
    },
    {
      "epoch": 0.781491002570694,
      "grad_norm": 6.745599564457566,
      "learning_rate": 1.3360499467271552e-05,
      "loss": 1.167,
      "step": 380
    },
    {
      "epoch": 0.8020565552699229,
      "grad_norm": 4.372254672475978,
      "learning_rate": 1.3054365735530666e-05,
      "loss": 1.1706,
      "step": 390
    },
    {
      "epoch": 0.8226221079691517,
      "grad_norm": 5.9583586806734585,
      "learning_rate": 1.2745041170891827e-05,
      "loss": 1.1512,
      "step": 400
    },
    {
      "epoch": 0.8431876606683805,
      "grad_norm": 8.218488729311929,
      "learning_rate": 1.243284891834894e-05,
      "loss": 1.161,
      "step": 410
    },
    {
      "epoch": 0.8637532133676092,
      "grad_norm": 9.05020466841952,
      "learning_rate": 1.211811511871033e-05,
      "loss": 1.1499,
      "step": 420
    },
    {
      "epoch": 0.884318766066838,
      "grad_norm": 7.133782169539759,
      "learning_rate": 1.1801168567886159e-05,
      "loss": 1.1428,
      "step": 430
    },
    {
      "epoch": 0.9048843187660668,
      "grad_norm": 10.061681353175718,
      "learning_rate": 1.1482340373402128e-05,
      "loss": 1.1548,
      "step": 440
    },
    {
      "epoch": 0.9254498714652957,
      "grad_norm": 5.964595532826752,
      "learning_rate": 1.1161963608498254e-05,
      "loss": 1.1375,
      "step": 450
    },
    {
      "epoch": 0.9460154241645244,
      "grad_norm": 7.682863713931749,
      "learning_rate": 1.0840372964174148e-05,
      "loss": 1.1441,
      "step": 460
    },
    {
      "epoch": 0.9665809768637532,
      "grad_norm": 6.093064442303913,
      "learning_rate": 1.051790439954422e-05,
      "loss": 1.1374,
      "step": 470
    },
    {
      "epoch": 0.987146529562982,
      "grad_norm": 2.859419774137469,
      "learning_rate": 1.0194894790868113e-05,
      "loss": 1.135,
      "step": 480
    },
    {
      "epoch": 1.0077120822622108,
      "grad_norm": 5.504925974002832,
      "learning_rate": 9.871681579623028e-06,
      "loss": 1.1268,
      "step": 490
    },
    {
      "epoch": 1.0282776349614395,
      "grad_norm": 6.006410935514135,
      "learning_rate": 9.548602419985584e-06,
      "loss": 1.0911,
      "step": 500
    },
    {
      "epoch": 1.0488431876606683,
      "grad_norm": 3.2675854341672608,
      "learning_rate": 9.225994826091431e-06,
      "loss": 1.0816,
      "step": 510
    },
    {
      "epoch": 1.069408740359897,
      "grad_norm": 6.801925989140796,
      "learning_rate": 8.904195819441222e-06,
      "loss": 1.0833,
      "step": 520
    },
    {
      "epoch": 1.089974293059126,
      "grad_norm": 3.6643836420434663,
      "learning_rate": 8.583541576821191e-06,
      "loss": 1.081,
      "step": 530
    },
    {
      "epoch": 1.1105398457583548,
      "grad_norm": 6.747377788645208,
      "learning_rate": 8.264367079106194e-06,
      "loss": 1.0793,
      "step": 540
    },
    {
      "epoch": 1.1311053984575836,
      "grad_norm": 6.372537375904327,
      "learning_rate": 7.947005761312097e-06,
      "loss": 1.0979,
      "step": 550
    },
    {
      "epoch": 1.1516709511568124,
      "grad_norm": 6.925714108622525,
      "learning_rate": 7.6317891642631e-06,
      "loss": 1.0868,
      "step": 560
    },
    {
      "epoch": 1.1722365038560412,
      "grad_norm": 7.332135497496814,
      "learning_rate": 7.319046588237864e-06,
      "loss": 1.0613,
      "step": 570
    },
    {
      "epoch": 1.19280205655527,
      "grad_norm": 3.4981756709446454,
      "learning_rate": 7.009104748956304e-06,
      "loss": 1.0801,
      "step": 580
    },
    {
      "epoch": 1.2133676092544987,
      "grad_norm": 5.6660043695937,
      "learning_rate": 6.7022874362664155e-06,
      "loss": 1.0838,
      "step": 590
    },
    {
      "epoch": 1.2339331619537275,
      "grad_norm": 6.6393615146162634,
      "learning_rate": 6.398915175887698e-06,
      "loss": 1.0692,
      "step": 600
    },
    {
      "epoch": 1.2544987146529563,
      "grad_norm": 9.01722626725686,
      "learning_rate": 6.099304894564544e-06,
      "loss": 1.093,
      "step": 610
    },
    {
      "epoch": 1.275064267352185,
      "grad_norm": 7.465032128492785,
      "learning_rate": 5.8037695889794e-06,
      "loss": 1.0781,
      "step": 620
    },
    {
      "epoch": 1.2956298200514138,
      "grad_norm": 8.243642393853053,
      "learning_rate": 5.512617998771598e-06,
      "loss": 1.0833,
      "step": 630
    },
    {
      "epoch": 1.3161953727506428,
      "grad_norm": 3.1779811319825577,
      "learning_rate": 5.226154284003411e-06,
      "loss": 1.0715,
      "step": 640
    },
    {
      "epoch": 1.3367609254498714,
      "grad_norm": 4.120350391737107,
      "learning_rate": 4.944677707410315e-06,
      "loss": 1.0829,
      "step": 650
    },
    {
      "epoch": 1.3573264781491003,
      "grad_norm": 7.105813120974067,
      "learning_rate": 4.668482321767371e-06,
      "loss": 1.0865,
      "step": 660
    },
    {
      "epoch": 1.3778920308483291,
      "grad_norm": 8.035377582845337,
      "learning_rate": 4.397856662698368e-06,
      "loss": 1.0533,
      "step": 670
    },
    {
      "epoch": 1.398457583547558,
      "grad_norm": 8.049531770624485,
      "learning_rate": 4.133083447248599e-06,
      "loss": 1.0745,
      "step": 680
    },
    {
      "epoch": 1.4190231362467867,
      "grad_norm": 7.225962565044245,
      "learning_rate": 3.874439278536187e-06,
      "loss": 1.0899,
      "step": 690
    },
    {
      "epoch": 1.4395886889460154,
      "grad_norm": 7.270761540137814,
      "learning_rate": 3.6221943567905283e-06,
      "loss": 1.0784,
      "step": 700
    },
    {
      "epoch": 1.4601542416452442,
      "grad_norm": 8.705361491327107,
      "learning_rate": 3.3766121970796716e-06,
      "loss": 1.0819,
      "step": 710
    },
    {
      "epoch": 1.480719794344473,
      "grad_norm": 4.183940499981808,
      "learning_rate": 3.1379493540215677e-06,
      "loss": 1.069,
      "step": 720
    },
    {
      "epoch": 1.5012853470437018,
      "grad_norm": 6.398726679627311,
      "learning_rate": 2.906455153766744e-06,
      "loss": 1.0785,
      "step": 730
    },
    {
      "epoch": 1.5218508997429305,
      "grad_norm": 13.601116552168905,
      "learning_rate": 2.6823714335324237e-06,
      "loss": 1.057,
      "step": 740
    },
    {
      "epoch": 1.5424164524421595,
      "grad_norm": 5.5895207138975,
      "learning_rate": 2.46593228896017e-06,
      "loss": 1.0553,
      "step": 750
    },
    {
      "epoch": 1.562982005141388,
      "grad_norm": 6.267057233279022,
      "learning_rate": 2.257363829560986e-06,
      "loss": 1.0542,
      "step": 760
    },
    {
      "epoch": 1.583547557840617,
      "grad_norm": 4.378216644983502,
      "learning_rate": 2.0568839425033906e-06,
      "loss": 1.0799,
      "step": 770
    },
    {
      "epoch": 1.6041131105398456,
      "grad_norm": 7.255472699627192,
      "learning_rate": 1.864702064991173e-06,
      "loss": 1.0571,
      "step": 780
    },
    {
      "epoch": 1.6246786632390746,
      "grad_norm": 6.289474192540149,
      "learning_rate": 1.6810189654686715e-06,
      "loss": 1.0472,
      "step": 790
    },
    {
      "epoch": 1.6452442159383034,
      "grad_norm": 6.589217658649451,
      "learning_rate": 1.5060265338821123e-06,
      "loss": 1.0703,
      "step": 800
    },
    {
      "epoch": 1.6658097686375322,
      "grad_norm": 4.865701816340032,
      "learning_rate": 1.3399075812161488e-06,
      "loss": 1.055,
      "step": 810
    },
    {
      "epoch": 1.686375321336761,
      "grad_norm": 8.65763359081179,
      "learning_rate": 1.1828356485149927e-06,
      "loss": 1.0622,
      "step": 820
    },
    {
      "epoch": 1.7069408740359897,
      "grad_norm": 6.174972638755989,
      "learning_rate": 1.0349748255876536e-06,
      "loss": 1.0526,
      "step": 830
    },
    {
      "epoch": 1.7275064267352185,
      "grad_norm": 4.986705584850829,
      "learning_rate": 8.964795795867176e-07,
      "loss": 1.051,
      "step": 840
    },
    {
      "epoch": 1.7480719794344473,
      "grad_norm": 9.202122011281354,
      "learning_rate": 7.67494593639686e-07,
      "loss": 1.0574,
      "step": 850
    },
    {
      "epoch": 1.7686375321336762,
      "grad_norm": 8.058395431378568,
      "learning_rate": 6.481546157014996e-07,
      "loss": 1.0589,
      "step": 860
    },
    {
      "epoch": 1.7892030848329048,
      "grad_norm": 5.3354582297297135,
      "learning_rate": 5.385843177861261e-07,
      "loss": 1.0578,
      "step": 870
    },
    {
      "epoch": 1.8097686375321338,
      "grad_norm": 3.8239017444437415,
      "learning_rate": 4.388981657242819e-07,
      "loss": 1.0663,
      "step": 880
    },
    {
      "epoch": 1.8303341902313623,
      "grad_norm": 10.032769787716335,
      "learning_rate": 3.4920029958333656e-07,
      "loss": 1.0671,
      "step": 890
    },
    {
      "epoch": 1.8508997429305913,
      "grad_norm": 4.449303124886201,
      "learning_rate": 2.695844248743318e-07,
      "loss": 1.0573,
      "step": 900
    },
    {
      "epoch": 1.87146529562982,
      "grad_norm": 6.5875403409786735,
      "learning_rate": 2.0013371465976816e-07,
      "loss": 1.063,
      "step": 910
    },
    {
      "epoch": 1.8920308483290489,
      "grad_norm": 6.1087849946753545,
      "learning_rate": 1.409207226644227e-07,
      "loss": 1.0703,
      "step": 920
    },
    {
      "epoch": 1.9125964010282777,
      "grad_norm": 9.357948853303002,
      "learning_rate": 9.200730747996211e-08,
      "loss": 1.0615,
      "step": 930
    },
    {
      "epoch": 1.9331619537275064,
      "grad_norm": 6.746455746388351,
      "learning_rate": 5.344456794255881e-08,
      "loss": 1.0591,
      "step": 940
    },
    {
      "epoch": 1.9537275064267352,
      "grad_norm": 4.307020198331092,
      "learning_rate": 2.5272789750980797e-08,
      "loss": 1.0591,
      "step": 950
    },
    {
      "epoch": 1.974293059125964,
      "grad_norm": 2.368072060390636,
      "learning_rate": 7.521403380956748e-09,
      "loss": 1.0602,
      "step": 960
    },
    {
      "epoch": 1.9948586118251928,
      "grad_norm": 6.97337278897093,
      "learning_rate": 2.089533397653387e-10,
      "loss": 1.0495,
      "step": 970
    },
    {
      "epoch": 1.9989717223650385,
      "step": 972,
      "total_flos": 9.034546879177687e+18,
      "train_loss": 1.1365475546675945,
      "train_runtime": 15552.1986,
      "train_samples_per_second": 32.015,
      "train_steps_per_second": 0.062
    }
  ],
  "logging_steps": 10,
  "max_steps": 972,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "total_flos": 9.034546879177687e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}