{
  "best_metric": 0.46374601,
  "best_model_checkpoint": "/home/zhangzhicheng03/code/face-llm/ms-swift/Emo-CFG_bs-1040_data-ATTR_OPEN_EMO_500k_CAP_78k_lr-4e-5/v0-20250512-052808/checkpoint-1050",
  "epoch": 2.913557779799818,
  "eval_steps": 50,
  "global_step": 1600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0018198362147406734,
      "grad_norm": 25.030844046592083,
      "learning_rate": 3.9999963615834764e-05,
      "loss": 2.025822877883911,
      "memory(GiB)": 43.02,
      "step": 1,
      "token_acc": 0.609375,
      "train_speed(iter/s)": 0.005908
    },
    {
      "epoch": 0.009099181073703366,
      "grad_norm": 10.802963796008704,
      "learning_rate": 3.9999090402488034e-05,
      "loss": 2.101142644882202,
      "memory(GiB)": 71.21,
      "step": 5,
      "token_acc": 0.5037481259370314,
      "train_speed(iter/s)": 0.013918
    },
    {
      "epoch": 0.018198362147406732,
      "grad_norm": 4.512540795817656,
      "learning_rate": 3.99963616926889e-05,
      "loss": 2.7770095825195313,
      "memory(GiB)": 71.21,
      "step": 10,
      "token_acc": 0.4725118483412322,
      "train_speed(iter/s)": 0.016736
    },
    {
      "epoch": 0.0272975432211101,
      "grad_norm": 3.2273598665998664,
      "learning_rate": 3.999181411880536e-05,
      "loss": 1.1679546356201171,
      "memory(GiB)": 71.21,
      "step": 15,
      "token_acc": 0.6352619233776388,
      "train_speed(iter/s)": 0.018014
    },
    {
      "epoch": 0.036396724294813464,
      "grad_norm": 2.7344684028279493,
      "learning_rate": 3.99854480944836e-05,
      "loss": 1.0935646057128907,
      "memory(GiB)": 76.02,
      "step": 20,
      "token_acc": 0.6871584699453552,
      "train_speed(iter/s)": 0.018758
    },
    {
      "epoch": 0.04549590536851683,
      "grad_norm": 2.6368838955923546,
      "learning_rate": 3.9977264198775616e-05,
      "loss": 1.0634303092956543,
      "memory(GiB)": 76.02,
      "step": 25,
      "token_acc": 0.6443461781427668,
      "train_speed(iter/s)": 0.019279
    },
    {
      "epoch": 0.0545950864422202,
      "grad_norm": 2.0635877115380987,
      "learning_rate": 3.996726317608652e-05,
      "loss": 1.0315238952636718,
      "memory(GiB)": 76.02,
      "step": 30,
      "token_acc": 0.6216628527841342,
      "train_speed(iter/s)": 0.019641
    },
    {
      "epoch": 0.06369426751592357,
      "grad_norm": 1.769746764765505,
      "learning_rate": 3.995544593610685e-05,
      "loss": 1.0012907981872559,
      "memory(GiB)": 76.02,
      "step": 35,
      "token_acc": 0.6820960698689956,
      "train_speed(iter/s)": 0.019879
    },
    {
      "epoch": 0.07279344858962693,
      "grad_norm": 1.7921148583961297,
      "learning_rate": 3.994181355372981e-05,
      "loss": 1.0219003677368164,
      "memory(GiB)": 76.02,
      "step": 40,
      "token_acc": 0.6666666666666666,
      "train_speed(iter/s)": 0.020113
    },
    {
      "epoch": 0.0818926296633303,
      "grad_norm": 2.3622358395090868,
      "learning_rate": 3.9926367268953514e-05,
      "loss": 0.9893597602844239,
      "memory(GiB)": 76.02,
      "step": 45,
      "token_acc": 0.6443586443586443,
      "train_speed(iter/s)": 0.02023
    },
    {
      "epoch": 0.09099181073703366,
      "grad_norm": 1.8847444781295586,
      "learning_rate": 3.990910848676819e-05,
      "loss": 1.0064857482910157,
      "memory(GiB)": 76.02,
      "step": 50,
      "token_acc": 0.6833550065019506,
      "train_speed(iter/s)": 0.020396
    },
    {
      "epoch": 0.09099181073703366,
      "eval_loss": 0.6069548726081848,
      "eval_runtime": 124.0182,
      "eval_samples_per_second": 46.542,
      "eval_steps_per_second": 0.452,
      "eval_token_acc": 0.6658791259916742,
      "step": 50
    },
    {
      "epoch": 0.10009099181073704,
      "grad_norm": 2.2611595119155297,
      "learning_rate": 3.989003877702835e-05,
      "loss": 1.0090344429016114,
      "memory(GiB)": 76.02,
      "step": 55,
      "token_acc": 0.6743224621038126,
      "train_speed(iter/s)": 0.019334
    },
    {
      "epoch": 0.1091901728844404,
      "grad_norm": 2.155765617865288,
      "learning_rate": 3.986915987431006e-05,
      "loss": 0.9812187194824219,
      "memory(GiB)": 76.02,
      "step": 60,
      "token_acc": 0.6862615587846763,
      "train_speed(iter/s)": 0.019541
    },
    {
      "epoch": 0.11828935395814377,
      "grad_norm": 1.9675392436886496,
      "learning_rate": 3.984647367775312e-05,
      "loss": 0.967503547668457,
      "memory(GiB)": 76.02,
      "step": 65,
      "token_acc": 0.6425840978593272,
      "train_speed(iter/s)": 0.019703
    },
    {
      "epoch": 0.12738853503184713,
      "grad_norm": 1.6136749581314442,
      "learning_rate": 3.9821982250888316e-05,
      "loss": 0.9946205139160156,
      "memory(GiB)": 76.02,
      "step": 70,
      "token_acc": 0.6822200392927309,
      "train_speed(iter/s)": 0.01985
    },
    {
      "epoch": 0.1364877161055505,
      "grad_norm": 2.1416143299162544,
      "learning_rate": 3.9795687821449754e-05,
      "loss": 0.9689006805419922,
      "memory(GiB)": 76.02,
      "step": 75,
      "token_acc": 0.6582365003417635,
      "train_speed(iter/s)": 0.019982
    },
    {
      "epoch": 0.14558689717925385,
      "grad_norm": 2.2094541193048074,
      "learning_rate": 3.9767592781172185e-05,
      "loss": 0.9927925109863281,
      "memory(GiB)": 76.02,
      "step": 80,
      "token_acc": 0.6676557863501483,
      "train_speed(iter/s)": 0.020086
    },
    {
      "epoch": 0.15468607825295724,
      "grad_norm": 1.6788879867996525,
      "learning_rate": 3.973769968557348e-05,
      "loss": 0.9653422355651855,
      "memory(GiB)": 76.02,
      "step": 85,
      "token_acc": 0.6833890746934225,
      "train_speed(iter/s)": 0.020194
    },
    {
      "epoch": 0.1637852593266606,
      "grad_norm": 1.6608567558622684,
      "learning_rate": 3.970601125372218e-05,
      "loss": 0.9711417198181153,
      "memory(GiB)": 76.02,
      "step": 90,
      "token_acc": 0.6648721399730821,
      "train_speed(iter/s)": 0.020273
    },
    {
      "epoch": 0.17288444040036396,
      "grad_norm": 1.8971338914920044,
      "learning_rate": 3.967253036799017e-05,
      "loss": 0.9714339256286622,
      "memory(GiB)": 76.02,
      "step": 95,
      "token_acc": 0.6907407407407408,
      "train_speed(iter/s)": 0.020364
    },
    {
      "epoch": 0.18198362147406733,
      "grad_norm": 2.2276291949458913,
      "learning_rate": 3.963726007379047e-05,
      "loss": 0.9623370170593262,
      "memory(GiB)": 76.02,
      "step": 100,
      "token_acc": 0.6705935659265972,
      "train_speed(iter/s)": 0.02043
    },
    {
      "epoch": 0.18198362147406733,
      "eval_loss": 0.5809512138366699,
      "eval_runtime": 123.9915,
      "eval_samples_per_second": 46.552,
      "eval_steps_per_second": 0.452,
      "eval_token_acc": 0.6707621478823382,
      "step": 100
    },
    {
      "epoch": 0.1910828025477707,
      "grad_norm": 1.7032248137533175,
      "learning_rate": 3.960020357930028e-05,
      "loss": 0.9466117858886719,
      "memory(GiB)": 76.02,
      "step": 105,
      "token_acc": 0.6678478620363808,
      "train_speed(iter/s)": 0.019882
    },
    {
      "epoch": 0.20018198362147407,
      "grad_norm": 1.855445035035624,
      "learning_rate": 3.9561364255169114e-05,
      "loss": 0.9585418701171875,
      "memory(GiB)": 76.02,
      "step": 110,
      "token_acc": 0.666546633057256,
      "train_speed(iter/s)": 0.019966
    },
    {
      "epoch": 0.20928116469517744,
      "grad_norm": 2.271456601509792,
      "learning_rate": 3.9520745634212225e-05,
      "loss": 0.9546641349792481,
      "memory(GiB)": 76.02,
      "step": 115,
      "token_acc": 0.6983430799220273,
      "train_speed(iter/s)": 0.02004
    },
    {
      "epoch": 0.2183803457688808,
      "grad_norm": 1.727865009111447,
      "learning_rate": 3.947835141108928e-05,
      "loss": 0.9411544799804688,
      "memory(GiB)": 76.02,
      "step": 120,
      "token_acc": 0.6998714652956298,
      "train_speed(iter/s)": 0.020118
    },
    {
      "epoch": 0.22747952684258416,
      "grad_norm": 1.5407295558813352,
      "learning_rate": 3.943418544196826e-05,
      "loss": 0.9641068458557129,
      "memory(GiB)": 76.02,
      "step": 125,
      "token_acc": 0.6722915963550455,
      "train_speed(iter/s)": 0.020179
    },
    {
      "epoch": 0.23657870791628755,
      "grad_norm": 1.6770942231997907,
      "learning_rate": 3.938825174417473e-05,
      "loss": 0.956147575378418,
      "memory(GiB)": 76.02,
      "step": 130,
      "token_acc": 0.7067484662576687,
      "train_speed(iter/s)": 0.020251
    },
    {
      "epoch": 0.2456778889899909,
      "grad_norm": 1.799020682507979,
      "learning_rate": 3.934055449582641e-05,
      "loss": 0.9465121269226074,
      "memory(GiB)": 76.02,
      "step": 135,
      "token_acc": 0.6822670674109059,
      "train_speed(iter/s)": 0.020307
    },
    {
      "epoch": 0.25477707006369427,
      "grad_norm": 1.6975378766800486,
      "learning_rate": 3.929109803545315e-05,
      "loss": 0.9593283653259277,
      "memory(GiB)": 76.02,
      "step": 140,
      "token_acc": 0.6935749588138386,
      "train_speed(iter/s)": 0.020367
    },
    {
      "epoch": 0.26387625113739765,
      "grad_norm": 1.6873696015578077,
      "learning_rate": 3.9239886861602265e-05,
      "loss": 0.9509831428527832,
      "memory(GiB)": 76.02,
      "step": 145,
      "token_acc": 0.6785370548604427,
      "train_speed(iter/s)": 0.020417
    },
    {
      "epoch": 0.272975432211101,
      "grad_norm": 1.605433238469568,
      "learning_rate": 3.9186925632429396e-05,
      "loss": 0.9489663124084473,
      "memory(GiB)": 76.02,
      "step": 150,
      "token_acc": 0.6493083807973963,
      "train_speed(iter/s)": 0.020465
    },
    {
      "epoch": 0.272975432211101,
      "eval_loss": 0.556602954864502,
      "eval_runtime": 119.5036,
      "eval_samples_per_second": 48.3,
      "eval_steps_per_second": 0.469,
      "eval_token_acc": 0.6771622643952052,
      "step": 150
    },
    {
      "epoch": 0.2820746132848044,
      "grad_norm": 1.665760265285853,
      "learning_rate": 3.9132219165274786e-05,
      "loss": 0.9691334724426269,
      "memory(GiB)": 76.02,
      "step": 155,
      "token_acc": 0.6817427385892116,
      "train_speed(iter/s)": 0.020097
    },
    {
      "epoch": 0.2911737943585077,
      "grad_norm": 1.4504880716204094,
      "learning_rate": 3.907577243622505e-05,
      "loss": 0.9517691612243653,
      "memory(GiB)": 76.02,
      "step": 160,
      "token_acc": 0.6508152173913043,
      "train_speed(iter/s)": 0.020145
    },
    {
      "epoch": 0.3002729754322111,
      "grad_norm": 1.4909379207696947,
      "learning_rate": 3.901759057966064e-05,
      "loss": 0.9396313667297364,
      "memory(GiB)": 76.02,
      "step": 165,
      "token_acc": 0.6924564796905223,
      "train_speed(iter/s)": 0.0202
    },
    {
      "epoch": 0.3093721565059145,
      "grad_norm": 1.6755025509294692,
      "learning_rate": 3.895767888778874e-05,
      "loss": 0.958685302734375,
      "memory(GiB)": 76.02,
      "step": 170,
      "token_acc": 0.6812801402893468,
      "train_speed(iter/s)": 0.020241
    },
    {
      "epoch": 0.3184713375796178,
      "grad_norm": 1.39424961728271,
      "learning_rate": 3.889604281016194e-05,
      "loss": 0.9179913520812988,
      "memory(GiB)": 76.02,
      "step": 175,
      "token_acc": 0.6434395848776872,
      "train_speed(iter/s)": 0.020291
    },
    {
      "epoch": 0.3275705186533212,
      "grad_norm": 1.810023496149751,
      "learning_rate": 3.883268795318252e-05,
      "loss": 0.95927734375,
      "memory(GiB)": 76.02,
      "step": 180,
      "token_acc": 0.6510866329264662,
      "train_speed(iter/s)": 0.020334
    },
    {
      "epoch": 0.33666969972702454,
      "grad_norm": 2.080560793664787,
      "learning_rate": 3.876762007959253e-05,
      "loss": 0.9460148811340332,
      "memory(GiB)": 76.02,
      "step": 185,
      "token_acc": 0.6614173228346457,
      "train_speed(iter/s)": 0.020378
    },
    {
      "epoch": 0.34576888080072793,
      "grad_norm": 1.6314724313426552,
      "learning_rate": 3.870084510794953e-05,
      "loss": 0.9372352600097656,
      "memory(GiB)": 76.02,
      "step": 190,
      "token_acc": 0.7167736021998167,
      "train_speed(iter/s)": 0.020418
    },
    {
      "epoch": 0.3548680618744313,
      "grad_norm": 1.5214499000610326,
      "learning_rate": 3.863236911208835e-05,
      "loss": 0.9120028495788575,
      "memory(GiB)": 76.02,
      "step": 195,
      "token_acc": 0.6961974110032363,
      "train_speed(iter/s)": 0.020453
    },
    {
      "epoch": 0.36396724294813465,
      "grad_norm": 1.403385243202059,
      "learning_rate": 3.856219832056853e-05,
      "loss": 0.9274997711181641,
      "memory(GiB)": 76.02,
      "step": 200,
      "token_acc": 0.6597971867844292,
      "train_speed(iter/s)": 0.020494
    },
    {
      "epoch": 0.36396724294813465,
      "eval_loss": 0.5442519783973694,
      "eval_runtime": 121.7991,
      "eval_samples_per_second": 47.389,
      "eval_steps_per_second": 0.46,
      "eval_token_acc": 0.6795491599341379,
      "step": 200
    },
    {
      "epoch": 0.37306642402183804,
      "grad_norm": 1.7288195921368568,
      "learning_rate": 3.8490339116107814e-05,
      "loss": 0.9254457473754882,
      "memory(GiB)": 76.02,
      "step": 205,
      "token_acc": 0.6976498547663058,
      "train_speed(iter/s)": 0.020208
    },
    {
      "epoch": 0.3821656050955414,
      "grad_norm": 1.7934469116880778,
      "learning_rate": 3.8416798035001545e-05,
      "loss": 0.9426854133605957,
      "memory(GiB)": 76.02,
      "step": 210,
      "token_acc": 0.6734362307067425,
      "train_speed(iter/s)": 0.020248
    },
    {
      "epoch": 0.39126478616924476,
      "grad_norm": 1.3762724847783987,
      "learning_rate": 3.8341581766528185e-05,
      "loss": 0.949736499786377,
      "memory(GiB)": 76.02,
      "step": 215,
      "token_acc": 0.6799800299550673,
      "train_speed(iter/s)": 0.020279
    },
    {
      "epoch": 0.40036396724294815,
      "grad_norm": 1.8318501236469258,
      "learning_rate": 3.826469715234078e-05,
      "loss": 0.9189864158630371,
      "memory(GiB)": 76.02,
      "step": 220,
      "token_acc": 0.6768424298489053,
      "train_speed(iter/s)": 0.020316
    },
    {
      "epoch": 0.4094631483166515,
      "grad_norm": 1.734985910099827,
      "learning_rate": 3.818615118584472e-05,
      "loss": 0.9207481384277344,
      "memory(GiB)": 76.02,
      "step": 225,
      "token_acc": 0.6853369763205829,
      "train_speed(iter/s)": 0.020349
    },
    {
      "epoch": 0.41856232939035487,
      "grad_norm": 1.46610540352475,
      "learning_rate": 3.810595101156157e-05,
      "loss": 0.949979305267334,
      "memory(GiB)": 76.02,
      "step": 230,
      "token_acc": 0.7674418604651163,
      "train_speed(iter/s)": 0.020378
    },
    {
      "epoch": 0.42766151046405826,
      "grad_norm": 1.4640218284405278,
      "learning_rate": 3.8024103924479225e-05,
      "loss": 0.9503008842468261,
      "memory(GiB)": 76.02,
      "step": 235,
      "token_acc": 0.6691435275713727,
      "train_speed(iter/s)": 0.020412
    },
    {
      "epoch": 0.4367606915377616,
      "grad_norm": 1.3582380492653447,
      "learning_rate": 3.794061736938837e-05,
      "loss": 0.9213446617126465,
      "memory(GiB)": 76.02,
      "step": 240,
      "token_acc": 0.6814469078179697,
      "train_speed(iter/s)": 0.020441
    },
    {
      "epoch": 0.445859872611465,
      "grad_norm": 1.24168837408377,
      "learning_rate": 3.785549894020529e-05,
      "loss": 0.927124309539795,
      "memory(GiB)": 76.02,
      "step": 245,
      "token_acc": 0.7300613496932515,
      "train_speed(iter/s)": 0.020473
    },
    {
      "epoch": 0.4549590536851683,
      "grad_norm": 1.4540581012012834,
      "learning_rate": 3.77687563792811e-05,
      "loss": 0.9168607711791992,
      "memory(GiB)": 76.02,
      "step": 250,
      "token_acc": 0.6800291545189504,
      "train_speed(iter/s)": 0.020497
    },
    {
      "epoch": 0.4549590536851683,
      "eval_loss": 0.5409244894981384,
      "eval_runtime": 120.7512,
      "eval_samples_per_second": 47.801,
      "eval_steps_per_second": 0.464,
      "eval_token_acc": 0.6797271657031431,
      "step": 250
    },
    {
      "epoch": 0.4640582347588717,
      "grad_norm": 1.7178666143628036,
      "learning_rate": 3.768039757669759e-05,
      "loss": 0.9190607070922852,
      "memory(GiB)": 76.02,
      "step": 255,
      "token_acc": 0.6971046770601337,
      "train_speed(iter/s)": 0.020269
    },
    {
      "epoch": 0.4731574158325751,
      "grad_norm": 1.4533539479949111,
      "learning_rate": 3.759043056954943e-05,
      "loss": 0.9371905326843262,
      "memory(GiB)": 76.02,
      "step": 260,
      "token_acc": 0.6667847025495751,
      "train_speed(iter/s)": 0.020296
    },
    {
      "epoch": 0.4822565969062784,
      "grad_norm": 1.8242714144160546,
      "learning_rate": 3.749886354121324e-05,
      "loss": 0.9172127723693848,
      "memory(GiB)": 76.02,
      "step": 265,
      "token_acc": 0.7086137281292059,
      "train_speed(iter/s)": 0.020325
    },
    {
      "epoch": 0.4913557779799818,
      "grad_norm": 1.3386774946853799,
      "learning_rate": 3.740570482060311e-05,
      "loss": 0.9408517837524414,
      "memory(GiB)": 76.02,
      "step": 270,
      "token_acc": 0.7290575916230366,
      "train_speed(iter/s)": 0.020353
    },
    {
      "epoch": 0.5004549590536852,
      "grad_norm": 1.6524604438416564,
      "learning_rate": 3.731096288141309e-05,
      "loss": 0.9067551612854003,
      "memory(GiB)": 76.02,
      "step": 275,
      "token_acc": 0.678743961352657,
      "train_speed(iter/s)": 0.020379
    },
    {
      "epoch": 0.5095541401273885,
      "grad_norm": 1.7068717522460979,
      "learning_rate": 3.721464634134641e-05,
      "loss": 0.9261470794677734,
      "memory(GiB)": 76.02,
      "step": 280,
      "token_acc": 0.7159965782720273,
      "train_speed(iter/s)": 0.020408
    },
    {
      "epoch": 0.5186533212010919,
      "grad_norm": 1.5886442512862196,
      "learning_rate": 3.711676396133158e-05,
      "loss": 0.9242866516113282,
      "memory(GiB)": 76.02,
      "step": 285,
      "token_acc": 0.6532932129722501,
      "train_speed(iter/s)": 0.020431
    },
    {
      "epoch": 0.5277525022747953,
      "grad_norm": 1.3930674320536802,
      "learning_rate": 3.701732464472553e-05,
      "loss": 0.9128170967102051,
      "memory(GiB)": 76.02,
      "step": 290,
      "token_acc": 0.6779987171263631,
      "train_speed(iter/s)": 0.020457
    },
    {
      "epoch": 0.5368516833484986,
      "grad_norm": 1.4564537325119185,
      "learning_rate": 3.691633743650377e-05,
      "loss": 0.9042372703552246,
      "memory(GiB)": 76.02,
      "step": 295,
      "token_acc": 0.6832191780821918,
      "train_speed(iter/s)": 0.020478
    },
    {
      "epoch": 0.545950864422202,
      "grad_norm": 1.4788538883263567,
      "learning_rate": 3.681381152243763e-05,
      "loss": 0.9223553657531738,
      "memory(GiB)": 76.02,
      "step": 300,
      "token_acc": 0.6808054841473865,
      "train_speed(iter/s)": 0.020502
    },
    {
      "epoch": 0.545950864422202,
      "eval_loss": 0.5335711240768433,
      "eval_runtime": 119.2512,
      "eval_samples_per_second": 48.402,
      "eval_steps_per_second": 0.47,
      "eval_token_acc": 0.682199018540919,
      "step": 300
    },
    {
      "epoch": 0.5550500454959054,
      "grad_norm": 1.6525258776892648,
      "learning_rate": 3.6709756228258735e-05,
      "loss": 0.9161547660827637,
      "memory(GiB)": 76.02,
      "step": 305,
      "token_acc": 0.6724870221802737,
      "train_speed(iter/s)": 0.02031
    },
    {
      "epoch": 0.5641492265696088,
      "grad_norm": 1.298480729022936,
      "learning_rate": 3.6604181018810764e-05,
      "loss": 0.8824697494506836,
      "memory(GiB)": 76.02,
      "step": 310,
      "token_acc": 0.6935075885328836,
      "train_speed(iter/s)": 0.020334
    },
    {
      "epoch": 0.5732484076433121,
      "grad_norm": 1.3254867339008374,
      "learning_rate": 3.649709549718849e-05,
      "loss": 0.8925297737121582,
      "memory(GiB)": 76.02,
      "step": 315,
      "token_acc": 0.6668953687821613,
      "train_speed(iter/s)": 0.020357
    },
    {
      "epoch": 0.5823475887170154,
      "grad_norm": 1.4003301586141983,
      "learning_rate": 3.638850940386433e-05,
      "loss": 0.9219451904296875,
      "memory(GiB)": 76.02,
      "step": 320,
      "token_acc": 0.6934164394234515,
      "train_speed(iter/s)": 0.020381
    },
    {
      "epoch": 0.5914467697907189,
      "grad_norm": 1.2198877131221963,
      "learning_rate": 3.627843261580231e-05,
      "loss": 0.9142662048339844,
      "memory(GiB)": 76.02,
      "step": 325,
      "token_acc": 0.6796973518284993,
      "train_speed(iter/s)": 0.020407
    },
    {
      "epoch": 0.6005459508644222,
      "grad_norm": 1.2491149251440654,
      "learning_rate": 3.6166875145559684e-05,
      "loss": 0.9013506889343261,
      "memory(GiB)": 76.02,
      "step": 330,
      "token_acc": 0.7270875763747454,
      "train_speed(iter/s)": 0.020426
    },
    {
      "epoch": 0.6096451319381255,
      "grad_norm": 1.3464860154655747,
      "learning_rate": 3.6053847140376194e-05,
      "loss": 0.9187211990356445,
      "memory(GiB)": 76.02,
      "step": 335,
      "token_acc": 0.6677791262135923,
      "train_speed(iter/s)": 0.020449
    },
    {
      "epoch": 0.618744313011829,
      "grad_norm": 1.3081495464213557,
      "learning_rate": 3.593935888125107e-05,
      "loss": 0.9130012512207031,
      "memory(GiB)": 76.02,
      "step": 340,
      "token_acc": 0.6820603907637656,
      "train_speed(iter/s)": 0.020469
    },
    {
      "epoch": 0.6278434940855323,
      "grad_norm": 1.3056329501412263,
      "learning_rate": 3.582342078200786e-05,
      "loss": 0.903553581237793,
      "memory(GiB)": 76.02,
      "step": 345,
      "token_acc": 0.7179723502304147,
      "train_speed(iter/s)": 0.020488
    },
    {
      "epoch": 0.6369426751592356,
      "grad_norm": 1.2033803940833903,
      "learning_rate": 3.570604338834725e-05,
      "loss": 0.9074154853820801,
      "memory(GiB)": 76.02,
      "step": 350,
      "token_acc": 0.7170805116629044,
      "train_speed(iter/s)": 0.020509
    },
    {
      "epoch": 0.6369426751592356,
      "eval_loss": 0.5156524777412415,
      "eval_runtime": 121.7142,
      "eval_samples_per_second": 47.423,
      "eval_steps_per_second": 0.46,
      "eval_token_acc": 0.6832346884696763,
      "step": 350
    },
    {
      "epoch": 0.6460418562329391,
      "grad_norm": 1.3706427880274294,
      "learning_rate": 3.558723737688775e-05,
      "loss": 0.9084077835083008,
      "memory(GiB)": 76.02,
      "step": 355,
      "token_acc": 0.7012306886619534,
      "train_speed(iter/s)": 0.020344
    },
    {
      "epoch": 0.6551410373066424,
      "grad_norm": 1.4525504674274499,
      "learning_rate": 3.54670135541946e-05,
      "loss": 0.9108301162719726,
      "memory(GiB)": 76.02,
      "step": 360,
      "token_acc": 0.6819548872180451,
      "train_speed(iter/s)": 0.020365
    },
    {
      "epoch": 0.6642402183803457,
      "grad_norm": 1.371067326824918,
      "learning_rate": 3.534538285579681e-05,
      "loss": 0.9166597366333008,
      "memory(GiB)": 76.02,
      "step": 365,
      "token_acc": 0.68828125,
      "train_speed(iter/s)": 0.020383
    },
    {
      "epoch": 0.6733393994540491,
      "grad_norm": 1.404728462002113,
      "learning_rate": 3.522235634519244e-05,
      "loss": 0.8995059967041016,
      "memory(GiB)": 76.02,
      "step": 370,
      "token_acc": 0.6734115742614326,
      "train_speed(iter/s)": 0.020405
    },
    {
      "epoch": 0.6824385805277525,
      "grad_norm": 1.4153346949849819,
      "learning_rate": 3.509794521284228e-05,
      "loss": 0.8986475944519043,
      "memory(GiB)": 76.02,
      "step": 375,
      "token_acc": 0.6696600384862091,
      "train_speed(iter/s)": 0.020423
    },
    {
      "epoch": 0.6915377616014559,
      "grad_norm": 1.357991579405462,
      "learning_rate": 3.497216077515198e-05,
      "loss": 0.914306354522705,
      "memory(GiB)": 76.02,
      "step": 380,
      "token_acc": 0.668999300209937,
      "train_speed(iter/s)": 0.020442
    },
    {
      "epoch": 0.7006369426751592,
      "grad_norm": 1.421643318524058,
      "learning_rate": 3.48450144734427e-05,
      "loss": 0.9151236534118652,
      "memory(GiB)": 76.02,
      "step": 385,
      "token_acc": 0.6687898089171974,
      "train_speed(iter/s)": 0.02046
    },
    {
      "epoch": 0.7097361237488626,
      "grad_norm": 1.1089727601654944,
      "learning_rate": 3.4716517872910405e-05,
      "loss": 0.8921234130859375,
      "memory(GiB)": 76.02,
      "step": 390,
      "token_acc": 0.6953678474114442,
      "train_speed(iter/s)": 0.020478
    },
    {
      "epoch": 0.718835304822566,
      "grad_norm": 1.3211880131463927,
      "learning_rate": 3.45866826615739e-05,
      "loss": 0.9150146484375,
      "memory(GiB)": 76.02,
      "step": 395,
      "token_acc": 0.6571167327034441,
      "train_speed(iter/s)": 0.020496
    },
    {
      "epoch": 0.7279344858962693,
      "grad_norm": 1.4350745291439944,
      "learning_rate": 3.445552064921172e-05,
      "loss": 0.9022627830505371,
      "memory(GiB)": 76.02,
      "step": 400,
      "token_acc": 0.6755852842809364,
      "train_speed(iter/s)": 0.020512
    },
    {
      "epoch": 0.7279344858962693,
      "eval_loss": 0.5100554823875427,
      "eval_runtime": 119.6911,
      "eval_samples_per_second": 48.224,
      "eval_steps_per_second": 0.468,
      "eval_token_acc": 0.6859209573473904,
      "step": 400
    },
    {
      "epoch": 0.7370336669699727,
      "grad_norm": 1.1612524813118632,
      "learning_rate": 3.432304376628787e-05,
      "loss": 0.9135440826416016,
      "memory(GiB)": 76.02,
      "step": 405,
      "token_acc": 0.7024793388429752,
      "train_speed(iter/s)": 0.020366
    },
    {
      "epoch": 0.7461328480436761,
      "grad_norm": 1.3506987538568946,
      "learning_rate": 3.418926406286666e-05,
      "loss": 0.9180900573730468,
      "memory(GiB)": 76.02,
      "step": 410,
      "token_acc": 0.715203426124197,
      "train_speed(iter/s)": 0.020382
    },
    {
      "epoch": 0.7552320291173794,
      "grad_norm": 1.3682849356535443,
      "learning_rate": 3.405419370751663e-05,
      "loss": 0.9025050163269043,
      "memory(GiB)": 76.02,
      "step": 415,
      "token_acc": 0.7220916568742656,
      "train_speed(iter/s)": 0.020402
    },
    {
      "epoch": 0.7643312101910829,
      "grad_norm": 1.4354924987431779,
      "learning_rate": 3.391784498620369e-05,
      "loss": 0.9032191276550293,
      "memory(GiB)": 76.02,
      "step": 420,
      "token_acc": 0.6772521062864549,
      "train_speed(iter/s)": 0.020419
    },
    {
      "epoch": 0.7734303912647862,
      "grad_norm": 1.3319624335350189,
      "learning_rate": 3.378023030117361e-05,
      "loss": 0.9076663970947265,
      "memory(GiB)": 76.02,
      "step": 425,
      "token_acc": 0.6790314270994333,
      "train_speed(iter/s)": 0.020436
    },
    {
      "epoch": 0.7825295723384895,
      "grad_norm": 1.2560401393743486,
      "learning_rate": 3.364136216982391e-05,
      "loss": 0.9036032676696777,
      "memory(GiB)": 76.02,
      "step": 430,
      "token_acc": 0.6832980972515856,
      "train_speed(iter/s)": 0.020453
    },
    {
      "epoch": 0.7916287534121929,
      "grad_norm": 1.331582467821213,
      "learning_rate": 3.350125322356525e-05,
      "loss": 0.9180031776428222,
      "memory(GiB)": 76.02,
      "step": 435,
      "token_acc": 0.6918290043290043,
      "train_speed(iter/s)": 0.020468
    },
    {
      "epoch": 0.8007279344858963,
      "grad_norm": 1.3101601945182637,
      "learning_rate": 3.335991620667254e-05,
      "loss": 0.9090401649475097,
      "memory(GiB)": 76.02,
      "step": 440,
      "token_acc": 0.6886586695747001,
      "train_speed(iter/s)": 0.020484
    },
    {
      "epoch": 0.8098271155595996,
      "grad_norm": 1.490959565832233,
      "learning_rate": 3.321736397512566e-05,
      "loss": 0.8914430618286133,
      "memory(GiB)": 76.02,
      "step": 445,
      "token_acc": 0.7289220917822838,
      "train_speed(iter/s)": 0.020498
    },
    {
      "epoch": 0.818926296633303,
      "grad_norm": 1.6826531523568926,
      "learning_rate": 3.307360949544012e-05,
      "loss": 0.8871423721313476,
      "memory(GiB)": 76.02,
      "step": 450,
      "token_acc": 0.6811023622047244,
      "train_speed(iter/s)": 0.020515
    },
    {
      "epoch": 0.818926296633303,
      "eval_loss": 0.5105797648429871,
      "eval_runtime": 119.2169,
      "eval_samples_per_second": 48.416,
      "eval_steps_per_second": 0.47,
      "eval_token_acc": 0.6859007294190943,
      "step": 450
    },
    {
      "epoch": 0.8280254777070064,
      "grad_norm": 1.5351362870698657,
      "learning_rate": 3.2928665843487646e-05,
      "loss": 0.9084842681884766,
      "memory(GiB)": 76.02,
      "step": 455,
      "token_acc": 0.6964930376482723,
      "train_speed(iter/s)": 0.020387
    },
    {
      "epoch": 0.8371246587807097,
      "grad_norm": 1.76414300067586,
      "learning_rate": 3.278254620330673e-05,
      "loss": 0.8832217216491699,
      "memory(GiB)": 76.02,
      "step": 460,
      "token_acc": 0.6910656620021528,
      "train_speed(iter/s)": 0.020403
    },
    {
      "epoch": 0.8462238398544131,
      "grad_norm": 1.26108516359597,
      "learning_rate": 3.263526386590351e-05,
      "loss": 0.9098955154418945,
      "memory(GiB)": 76.02,
      "step": 465,
      "token_acc": 0.6647430612805716,
      "train_speed(iter/s)": 0.020418
    },
    {
      "epoch": 0.8553230209281165,
      "grad_norm": 1.4539630443562455,
      "learning_rate": 3.248683222804274e-05,
      "loss": 0.8848261833190918,
      "memory(GiB)": 76.02,
      "step": 470,
      "token_acc": 0.7338235294117647,
      "train_speed(iter/s)": 0.020432
    },
    {
      "epoch": 0.8644222020018199,
      "grad_norm": 1.6326834981575191,
      "learning_rate": 3.233726479102927e-05,
      "loss": 0.9008934020996093,
      "memory(GiB)": 76.02,
      "step": 475,
      "token_acc": 0.7064676616915423,
      "train_speed(iter/s)": 0.020448
    },
    {
      "epoch": 0.8735213830755232,
      "grad_norm": 1.2054817005259488,
      "learning_rate": 3.2186575159479966e-05,
      "loss": 0.8803308486938477,
      "memory(GiB)": 76.02,
      "step": 480,
      "token_acc": 0.7033673855467272,
      "train_speed(iter/s)": 0.020462
    },
    {
      "epoch": 0.8826205641492265,
      "grad_norm": 1.1783711102902867,
      "learning_rate": 3.203477704008622e-05,
      "loss": 0.9082450866699219,
      "memory(GiB)": 76.02,
      "step": 485,
      "token_acc": 0.7070333157059757,
      "train_speed(iter/s)": 0.020477
    },
    {
      "epoch": 0.89171974522293,
      "grad_norm": 1.241716165408502,
      "learning_rate": 3.188188424036719e-05,
      "loss": 0.9072214126586914,
      "memory(GiB)": 76.02,
      "step": 490,
      "token_acc": 0.6927956502038967,
      "train_speed(iter/s)": 0.02049
    },
    {
      "epoch": 0.9008189262966333,
      "grad_norm": 1.1673048249036013,
      "learning_rate": 3.172791066741392e-05,
      "loss": 0.886620044708252,
      "memory(GiB)": 76.02,
      "step": 495,
      "token_acc": 0.7046548956661316,
      "train_speed(iter/s)": 0.020505
    },
    {
      "epoch": 0.9099181073703366,
      "grad_norm": 1.5005936662764863,
      "learning_rate": 3.157287032662428e-05,
      "loss": 0.8825222015380859,
      "memory(GiB)": 76.02,
      "step": 500,
      "token_acc": 0.6940532081377152,
      "train_speed(iter/s)": 0.020518
    },
    {
      "epoch": 0.9099181073703366,
      "eval_loss": 0.49878114461898804,
      "eval_runtime": 121.4101,
      "eval_samples_per_second": 47.541,
      "eval_steps_per_second": 0.461,
      "eval_token_acc": 0.6875917842246433,
      "step": 500
    },
    {
      "epoch": 0.9190172884440401,
      "grad_norm": 1.2321769009736276,
      "learning_rate": 3.14167773204291e-05,
      "loss": 0.8877192497253418,
      "memory(GiB)": 76.02,
      "step": 505,
      "token_acc": 0.7100805331852263,
      "train_speed(iter/s)": 0.020401
    },
    {
      "epoch": 0.9281164695177434,
      "grad_norm": 1.2301460920284364,
      "learning_rate": 3.1259645847009384e-05,
      "loss": 0.9063457489013672,
      "memory(GiB)": 76.02,
      "step": 510,
      "token_acc": 0.6885245901639344,
      "train_speed(iter/s)": 0.020414
    },
    {
      "epoch": 0.9372156505914467,
      "grad_norm": 1.4857123341096659,
      "learning_rate": 3.110149019900486e-05,
      "loss": 0.8702260971069335,
      "memory(GiB)": 76.02,
      "step": 515,
      "token_acc": 0.6863874345549739,
      "train_speed(iter/s)": 0.020427
    },
    {
      "epoch": 0.9463148316651502,
      "grad_norm": 1.189993476966276,
      "learning_rate": 3.094232476221392e-05,
      "loss": 0.9034518241882324,
      "memory(GiB)": 76.02,
      "step": 520,
      "token_acc": 0.7082294264339152,
      "train_speed(iter/s)": 0.020441
    },
    {
      "epoch": 0.9554140127388535,
      "grad_norm": 1.3161268491995117,
      "learning_rate": 3.07821640142851e-05,
      "loss": 0.87875394821167,
      "memory(GiB)": 76.02,
      "step": 525,
      "token_acc": 0.683948569058482,
      "train_speed(iter/s)": 0.020453
    },
    {
      "epoch": 0.9645131938125568,
      "grad_norm": 1.1112974134834392,
      "learning_rate": 3.062102252340019e-05,
      "loss": 0.8922388076782226,
      "memory(GiB)": 76.02,
      "step": 530,
      "token_acc": 0.6777905638665133,
      "train_speed(iter/s)": 0.020468
    },
    {
      "epoch": 0.9736123748862603,
      "grad_norm": 1.292894697629211,
      "learning_rate": 3.045891494694908e-05,
      "loss": 0.908051872253418,
      "memory(GiB)": 76.02,
      "step": 535,
      "token_acc": 0.6983343615052436,
      "train_speed(iter/s)": 0.020479
    },
    {
      "epoch": 0.9827115559599636,
      "grad_norm": 1.166045668885059,
      "learning_rate": 3.0295856030196618e-05,
      "loss": 0.9091971397399903,
      "memory(GiB)": 76.02,
      "step": 540,
      "token_acc": 0.7089144936325046,
      "train_speed(iter/s)": 0.020492
    },
    {
      "epoch": 0.991810737033667,
      "grad_norm": 1.3674012690083148,
      "learning_rate": 3.0131860604941287e-05,
      "loss": 0.8997166633605957,
      "memory(GiB)": 76.02,
      "step": 545,
      "token_acc": 0.6767097082735534,
      "train_speed(iter/s)": 0.020504
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4019349528909308,
      "learning_rate": 2.996694358816618e-05,
      "loss": 0.8638315200805664,
      "memory(GiB)": 76.02,
      "step": 550,
      "token_acc": 0.7002042900919305,
      "train_speed(iter/s)": 0.020533
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.4928109347820282,
      "eval_runtime": 119.0212,
      "eval_samples_per_second": 48.496,
      "eval_steps_per_second": 0.471,
      "eval_token_acc": 0.6892747478588738,
      "step": 550
    },
    {
      "epoch": 1.0090991810737033,
      "grad_norm": 1.4220386258897009,
      "learning_rate": 2.9801119980682095e-05,
      "loss": 0.8142873764038085,
      "memory(GiB)": 76.02,
      "step": 555,
      "token_acc": 0.7055921052631579,
      "train_speed(iter/s)": 0.020412
    },
    {
      "epoch": 1.0181983621474067,
      "grad_norm": 1.187181373009717,
      "learning_rate": 2.9634404865763122e-05,
      "loss": 0.7935843467712402,
      "memory(GiB)": 76.02,
      "step": 560,
      "token_acc": 0.7032755298651252,
      "train_speed(iter/s)": 0.02042
    },
    {
      "epoch": 1.02729754322111,
      "grad_norm": 1.0185191433966165,
      "learning_rate": 2.9466813407774627e-05,
      "loss": 0.7965437889099121,
      "memory(GiB)": 76.02,
      "step": 565,
      "token_acc": 0.6973250274825944,
      "train_speed(iter/s)": 0.020432
    },
    {
      "epoch": 1.0363967242948136,
      "grad_norm": 1.2024810924675036,
      "learning_rate": 2.9298360850793944e-05,
      "loss": 0.7800662517547607,
      "memory(GiB)": 76.02,
      "step": 570,
      "token_acc": 0.7089552238805971,
      "train_speed(iter/s)": 0.020443
    },
    {
      "epoch": 1.0454959053685169,
      "grad_norm": 0.9855874534546613,
      "learning_rate": 2.912906251722373e-05,
      "loss": 0.8090152740478516,
      "memory(GiB)": 76.02,
      "step": 575,
      "token_acc": 0.7137375287797391,
      "train_speed(iter/s)": 0.020455
    },
    {
      "epoch": 1.0545950864422202,
      "grad_norm": 1.183729346768703,
      "learning_rate": 2.895893380639829e-05,
      "loss": 0.8083430290222168,
      "memory(GiB)": 76.02,
      "step": 580,
      "token_acc": 0.7071651090342679,
      "train_speed(iter/s)": 0.020466
    },
    {
      "epoch": 1.0636942675159236,
      "grad_norm": 1.527448245905063,
      "learning_rate": 2.878799019318283e-05,
      "loss": 0.787087345123291,
      "memory(GiB)": 76.02,
      "step": 585,
      "token_acc": 0.7470379146919431,
      "train_speed(iter/s)": 0.020477
    },
    {
      "epoch": 1.0727934485896269,
      "grad_norm": 1.2570337520295112,
      "learning_rate": 2.8616247226565888e-05,
      "loss": 0.8103050231933594,
      "memory(GiB)": 76.02,
      "step": 590,
      "token_acc": 0.7105431309904153,
      "train_speed(iter/s)": 0.020489
    },
    {
      "epoch": 1.0818926296633302,
      "grad_norm": 1.1805179088694353,
      "learning_rate": 2.8443720528244964e-05,
      "loss": 0.8091272354125977,
      "memory(GiB)": 76.02,
      "step": 595,
      "token_acc": 0.7236403995560489,
      "train_speed(iter/s)": 0.0205
    },
    {
      "epoch": 1.0909918107370338,
      "grad_norm": 1.3005835459012032,
      "learning_rate": 2.827042579120562e-05,
      "loss": 0.7841366767883301,
      "memory(GiB)": 76.02,
      "step": 600,
      "token_acc": 0.7160133444537115,
      "train_speed(iter/s)": 0.020511
    },
    {
      "epoch": 1.0909918107370338,
      "eval_loss": 0.4980168640613556,
      "eval_runtime": 122.0994,
      "eval_samples_per_second": 47.273,
      "eval_steps_per_second": 0.459,
      "eval_token_acc": 0.68817030297391,
      "step": 600
    },
    {
      "epoch": 1.100090991810737,
      "grad_norm": 1.0825655683949489,
      "learning_rate": 2.809637877829401e-05,
      "loss": 0.8102677345275879,
      "memory(GiB)": 76.02,
      "step": 605,
      "token_acc": 0.7054728756601056,
      "train_speed(iter/s)": 0.020407
    },
    {
      "epoch": 1.1091901728844404,
      "grad_norm": 1.269997926727983,
      "learning_rate": 2.792159532078314e-05,
      "loss": 0.8190704345703125,
      "memory(GiB)": 76.02,
      "step": 610,
      "token_acc": 0.7151929653150952,
      "train_speed(iter/s)": 0.020418
    },
    {
      "epoch": 1.1182893539581438,
      "grad_norm": 1.3197280690186768,
      "learning_rate": 2.7746091316932807e-05,
      "loss": 0.7909206867218017,
      "memory(GiB)": 76.02,
      "step": 615,
      "token_acc": 0.8111888111888111,
      "train_speed(iter/s)": 0.020428
    },
    {
      "epoch": 1.127388535031847,
      "grad_norm": 1.3074486932691716,
      "learning_rate": 2.756988273054354e-05,
      "loss": 0.7989336967468261,
      "memory(GiB)": 76.02,
      "step": 620,
      "token_acc": 0.6923334449280214,
      "train_speed(iter/s)": 0.020439
    },
    {
      "epoch": 1.1364877161055504,
      "grad_norm": 1.09154376619437,
      "learning_rate": 2.7392985589504512e-05,
      "loss": 0.7985887050628662,
      "memory(GiB)": 76.02,
      "step": 625,
      "token_acc": 0.6959603118355776,
      "train_speed(iter/s)": 0.02045
    },
    {
      "epoch": 1.1455868971792538,
      "grad_norm": 1.105083946015695,
      "learning_rate": 2.721541598433567e-05,
      "loss": 0.7879680156707763,
      "memory(GiB)": 76.02,
      "step": 630,
      "token_acc": 0.7151389249545572,
      "train_speed(iter/s)": 0.020461
    },
    {
      "epoch": 1.1546860782529573,
      "grad_norm": 1.1369632866951163,
      "learning_rate": 2.7037190066724108e-05,
      "loss": 0.8013208389282227,
      "memory(GiB)": 76.02,
      "step": 635,
      "token_acc": 0.6987542468856173,
      "train_speed(iter/s)": 0.020471
    },
    {
      "epoch": 1.1637852593266607,
      "grad_norm": 1.084161120288602,
      "learning_rate": 2.6858324048054956e-05,
      "loss": 0.8041671752929688,
      "memory(GiB)": 76.02,
      "step": 640,
      "token_acc": 0.6834153197470133,
      "train_speed(iter/s)": 0.020482
    },
    {
      "epoch": 1.172884440400364,
      "grad_norm": 1.154991176116474,
      "learning_rate": 2.667883419793676e-05,
      "loss": 0.8061488151550293,
      "memory(GiB)": 76.02,
      "step": 645,
      "token_acc": 0.7004991680532446,
      "train_speed(iter/s)": 0.020492
    },
    {
      "epoch": 1.1819836214740673,
      "grad_norm": 1.1196634253017694,
      "learning_rate": 2.649873684272164e-05,
      "loss": 0.8086748123168945,
      "memory(GiB)": 76.02,
      "step": 650,
      "token_acc": 0.6978937441056272,
      "train_speed(iter/s)": 0.020502
    },
    {
      "epoch": 1.1819836214740673,
      "eval_loss": 0.5025342702865601,
      "eval_runtime": 120.6757,
      "eval_samples_per_second": 47.831,
      "eval_steps_per_second": 0.464,
      "eval_token_acc": 0.6888256878507018,
      "step": 650
    },
    {
      "epoch": 1.1910828025477707,
      "grad_norm": 1.1155649313448126,
      "learning_rate": 2.6318048364020214e-05,
      "loss": 0.7836286544799804,
      "memory(GiB)": 76.02,
      "step": 655,
      "token_acc": 0.7220535467844328,
      "train_speed(iter/s)": 0.020409
    },
    {
      "epoch": 1.200181983621474,
      "grad_norm": 1.1072757367187032,
      "learning_rate": 2.613678519721155e-05,
      "loss": 0.7940217018127441,
      "memory(GiB)": 76.02,
      "step": 660,
      "token_acc": 0.7217682020802377,
      "train_speed(iter/s)": 0.02042
    },
    {
      "epoch": 1.2092811646951773,
      "grad_norm": 1.0457391204034119,
      "learning_rate": 2.5954963829948195e-05,
      "loss": 0.7881236553192139,
      "memory(GiB)": 76.02,
      "step": 665,
      "token_acc": 0.7111846946284033,
      "train_speed(iter/s)": 0.020429
    },
    {
      "epoch": 1.2183803457688809,
      "grad_norm": 1.2226481761675059,
      "learning_rate": 2.577260080065649e-05,
      "loss": 0.8019227981567383,
      "memory(GiB)": 76.02,
      "step": 670,
      "token_acc": 0.7422535211267606,
      "train_speed(iter/s)": 0.020438
    },
    {
      "epoch": 1.2274795268425842,
      "grad_norm": 1.27401099270194,
      "learning_rate": 2.558971269703219e-05,
      "loss": 0.7942542552947998,
      "memory(GiB)": 76.02,
      "step": 675,
      "token_acc": 0.7235213204951857,
      "train_speed(iter/s)": 0.020449
    },
    {
      "epoch": 1.2365787079162875,
      "grad_norm": 1.3601936101076058,
      "learning_rate": 2.5406316154531717e-05,
      "loss": 0.8046051025390625,
      "memory(GiB)": 76.02,
      "step": 680,
      "token_acc": 0.7112280701754385,
      "train_speed(iter/s)": 0.020459
    },
    {
      "epoch": 1.2456778889899909,
      "grad_norm": 1.1617605645583995,
      "learning_rate": 2.522242785485893e-05,
      "loss": 0.8000314712524415,
      "memory(GiB)": 76.02,
      "step": 685,
      "token_acc": 0.6886890349360083,
      "train_speed(iter/s)": 0.020469
    },
    {
      "epoch": 1.2547770700636942,
      "grad_norm": 1.3512273187713244,
      "learning_rate": 2.5038064524447827e-05,
      "loss": 0.8067909240722656,
      "memory(GiB)": 76.02,
      "step": 690,
      "token_acc": 0.7467532467532467,
      "train_speed(iter/s)": 0.020479
    },
    {
      "epoch": 1.2638762511373978,
      "grad_norm": 1.3157719287072271,
      "learning_rate": 2.4853242932941064e-05,
      "loss": 0.7853587150573731,
      "memory(GiB)": 76.02,
      "step": 695,
      "token_acc": 0.7197480881691408,
      "train_speed(iter/s)": 0.020488
    },
    {
      "epoch": 1.2729754322111009,
      "grad_norm": 1.1947998857326674,
      "learning_rate": 2.4667979891664625e-05,
      "loss": 0.7679170131683349,
      "memory(GiB)": 76.02,
      "step": 700,
      "token_acc": 0.7413360120542442,
      "train_speed(iter/s)": 0.020498
    },
    {
      "epoch": 1.2729754322111009,
      "eval_loss": 0.4833757281303406,
      "eval_runtime": 119.9805,
      "eval_samples_per_second": 48.108,
      "eval_steps_per_second": 0.467,
      "eval_token_acc": 0.6897318990383643,
      "step": 700
    },
    {
      "epoch": 1.2820746132848044,
      "grad_norm": 1.3268470864740665,
      "learning_rate": 2.448229225209865e-05,
      "loss": 0.788662052154541,
      "memory(GiB)": 76.02,
      "step": 705,
      "token_acc": 0.716280170373876,
      "train_speed(iter/s)": 0.020416
    },
    {
      "epoch": 1.2911737943585078,
      "grad_norm": 1.2466125304642335,
      "learning_rate": 2.429619690434464e-05,
      "loss": 0.7932944297790527,
      "memory(GiB)": 76.02,
      "step": 710,
      "token_acc": 0.7371388301620859,
      "train_speed(iter/s)": 0.020426
    },
    {
      "epoch": 1.300272975432211,
      "grad_norm": 1.3582445751553864,
      "learning_rate": 2.4109710775589104e-05,
      "loss": 0.8029943466186523,
      "memory(GiB)": 76.02,
      "step": 715,
      "token_acc": 0.7082366589327146,
      "train_speed(iter/s)": 0.020435
    },
    {
      "epoch": 1.3093721565059144,
      "grad_norm": 1.098320752598586,
      "learning_rate": 2.392285082856394e-05,
      "loss": 0.8051022529602051,
      "memory(GiB)": 76.02,
      "step": 720,
      "token_acc": 0.6993071593533488,
      "train_speed(iter/s)": 0.020444
    },
    {
      "epoch": 1.3184713375796178,
      "grad_norm": 1.1993515162762007,
      "learning_rate": 2.3735634060003428e-05,
      "loss": 0.7886831760406494,
      "memory(GiB)": 76.02,
      "step": 725,
      "token_acc": 0.7265460664703408,
      "train_speed(iter/s)": 0.020453
    },
    {
      "epoch": 1.3275705186533213,
      "grad_norm": 1.4913459363975115,
      "learning_rate": 2.3548077499098256e-05,
      "loss": 0.7917290687561035,
      "memory(GiB)": 76.02,
      "step": 730,
      "token_acc": 0.7044052863436123,
      "train_speed(iter/s)": 0.020462
    },
    {
      "epoch": 1.3366696997270244,
      "grad_norm": 1.3995123406507142,
      "learning_rate": 2.3360198205946542e-05,
      "loss": 0.788825798034668,
      "memory(GiB)": 76.02,
      "step": 735,
      "token_acc": 0.7135922330097088,
      "train_speed(iter/s)": 0.020471
    },
    {
      "epoch": 1.345768880800728,
      "grad_norm": 1.3354117848213083,
      "learning_rate": 2.3172013270002038e-05,
      "loss": 0.7835997581481934,
      "memory(GiB)": 76.02,
      "step": 740,
      "token_acc": 0.7201051248357424,
      "train_speed(iter/s)": 0.02048
    },
    {
      "epoch": 1.3548680618744313,
      "grad_norm": 1.0749964264738503,
      "learning_rate": 2.2983539808519702e-05,
      "loss": 0.7911547660827637,
      "memory(GiB)": 76.02,
      "step": 745,
      "token_acc": 0.7271609995903319,
      "train_speed(iter/s)": 0.020488
    },
    {
      "epoch": 1.3639672429481347,
      "grad_norm": 0.9437159555687519,
      "learning_rate": 2.2794794964998705e-05,
      "loss": 0.7891970634460449,
      "memory(GiB)": 76.02,
      "step": 750,
      "token_acc": 0.7132644956314536,
      "train_speed(iter/s)": 0.020497
    },
    {
      "epoch": 1.3639672429481347,
      "eval_loss": 0.48184001445770264,
      "eval_runtime": 120.3801,
      "eval_samples_per_second": 47.948,
      "eval_steps_per_second": 0.465,
      "eval_token_acc": 0.6908322983376689,
      "step": 750
    },
    {
      "epoch": 1.373066424021838,
      "grad_norm": 1.3416671636490984,
      "learning_rate": 2.260579590762304e-05,
      "loss": 0.8072065353393555,
      "memory(GiB)": 76.02,
      "step": 755,
      "token_acc": 0.7023445463812437,
      "train_speed(iter/s)": 0.020418
    },
    {
      "epoch": 1.3821656050955413,
      "grad_norm": 1.1639847848783198,
      "learning_rate": 2.2416559827699945e-05,
      "loss": 0.8082324028015136,
      "memory(GiB)": 76.02,
      "step": 760,
      "token_acc": 0.7145284621920136,
      "train_speed(iter/s)": 0.020427
    },
    {
      "epoch": 1.3912647861692449,
      "grad_norm": 1.132127107571287,
      "learning_rate": 2.2227103938096176e-05,
      "loss": 0.7869006156921386,
      "memory(GiB)": 76.02,
      "step": 765,
      "token_acc": 0.7099471830985915,
      "train_speed(iter/s)": 0.020436
    },
    {
      "epoch": 1.4003639672429482,
      "grad_norm": 1.0194297655037412,
      "learning_rate": 2.2037445471672312e-05,
      "loss": 0.8034600257873535,
      "memory(GiB)": 76.02,
      "step": 770,
      "token_acc": 0.7037037037037037,
      "train_speed(iter/s)": 0.020445
    },
    {
      "epoch": 1.4094631483166515,
      "grad_norm": 1.3328252272724603,
      "learning_rate": 2.1847601679715263e-05,
      "loss": 0.8002717971801758,
      "memory(GiB)": 76.02,
      "step": 775,
      "token_acc": 0.7140373750543242,
      "train_speed(iter/s)": 0.020454
    },
    {
      "epoch": 1.4185623293903549,
      "grad_norm": 1.265718534410907,
      "learning_rate": 2.1657589830369113e-05,
      "loss": 0.8017659187316895,
      "memory(GiB)": 76.02,
      "step": 780,
      "token_acc": 0.7063737623762376,
      "train_speed(iter/s)": 0.020462
    },
    {
      "epoch": 1.4276615104640582,
      "grad_norm": 0.9977051429918016,
      "learning_rate": 2.146742720706441e-05,
      "loss": 0.7789717674255371,
      "memory(GiB)": 76.02,
      "step": 785,
      "token_acc": 0.710708782742681,
      "train_speed(iter/s)": 0.02047
    },
    {
      "epoch": 1.4367606915377615,
      "grad_norm": 1.0283878536421338,
      "learning_rate": 2.127713110694606e-05,
      "loss": 0.8202502250671386,
      "memory(GiB)": 76.02,
      "step": 790,
      "token_acc": 0.707347972972973,
      "train_speed(iter/s)": 0.020478
    },
    {
      "epoch": 1.4458598726114649,
      "grad_norm": 1.0457464903588745,
      "learning_rate": 2.1086718839299972e-05,
      "loss": 0.7791718482971192,
      "memory(GiB)": 76.02,
      "step": 795,
      "token_acc": 0.7183828610919143,
      "train_speed(iter/s)": 0.020486
    },
    {
      "epoch": 1.4549590536851684,
      "grad_norm": 1.1827863278388744,
      "learning_rate": 2.0896207723978637e-05,
      "loss": 0.8088536262512207,
      "memory(GiB)": 76.02,
      "step": 800,
      "token_acc": 0.7157598499061913,
      "train_speed(iter/s)": 0.020494
    },
    {
      "epoch": 1.4549590536851684,
      "eval_loss": 0.4799867272377014,
      "eval_runtime": 120.658,
      "eval_samples_per_second": 47.838,
      "eval_steps_per_second": 0.464,
      "eval_token_acc": 0.6916009596129183,
      "step": 800
    },
    {
      "epoch": 1.4640582347588718,
      "grad_norm": 1.1034251914058373,
      "learning_rate": 2.070561508982571e-05,
      "loss": 0.7959201335906982,
      "memory(GiB)": 76.02,
      "step": 805,
      "token_acc": 0.7082542694497154,
      "train_speed(iter/s)": 0.020414
    },
    {
      "epoch": 1.473157415832575,
      "grad_norm": 1.1403649470949677,
      "learning_rate": 2.0514958273099778e-05,
      "loss": 0.8099080085754394,
      "memory(GiB)": 76.02,
      "step": 810,
      "token_acc": 0.6938775510204082,
      "train_speed(iter/s)": 0.020423
    },
    {
      "epoch": 1.4822565969062784,
      "grad_norm": 1.242956861788932,
      "learning_rate": 2.0324254615897438e-05,
      "loss": 0.7870995044708252,
      "memory(GiB)": 76.02,
      "step": 815,
      "token_acc": 0.6989182692307693,
      "train_speed(iter/s)": 0.020431
    },
    {
      "epoch": 1.4913557779799818,
      "grad_norm": 1.2480879646871645,
      "learning_rate": 2.0133521464575915e-05,
      "loss": 0.8157112121582031,
      "memory(GiB)": 76.02,
      "step": 820,
      "token_acc": 0.6917945296864576,
      "train_speed(iter/s)": 0.020438
    },
    {
      "epoch": 1.5004549590536853,
      "grad_norm": 1.4455782166201527,
      "learning_rate": 1.99427761681752e-05,
      "loss": 0.7882473945617676,
      "memory(GiB)": 76.02,
      "step": 825,
      "token_acc": 0.7195308516063234,
      "train_speed(iter/s)": 0.020446
    },
    {
      "epoch": 1.5095541401273884,
      "grad_norm": 1.129414363377021,
      "learning_rate": 1.9752036076839988e-05,
      "loss": 0.7893435955047607,
      "memory(GiB)": 76.02,
      "step": 830,
      "token_acc": 0.7249863313285949,
      "train_speed(iter/s)": 0.020454
    },
    {
      "epoch": 1.518653321201092,
      "grad_norm": 1.1611426190154455,
      "learning_rate": 1.9561318540241528e-05,
      "loss": 0.7893610000610352,
      "memory(GiB)": 76.02,
      "step": 835,
      "token_acc": 0.7279521674140508,
      "train_speed(iter/s)": 0.020463
    },
    {
      "epoch": 1.5277525022747953,
      "grad_norm": 1.387275557971045,
      "learning_rate": 1.93706409059995e-05,
      "loss": 0.7986185073852539,
      "memory(GiB)": 76.02,
      "step": 840,
      "token_acc": 0.7054386661373561,
      "train_speed(iter/s)": 0.02047
    },
    {
      "epoch": 1.5368516833484986,
      "grad_norm": 1.1029714828712447,
      "learning_rate": 1.9180020518104088e-05,
      "loss": 0.7868841171264649,
      "memory(GiB)": 76.02,
      "step": 845,
      "token_acc": 0.7180851063829787,
      "train_speed(iter/s)": 0.020478
    },
    {
      "epoch": 1.545950864422202,
      "grad_norm": 1.055709561997052,
      "learning_rate": 1.898947471533833e-05,
      "loss": 0.7913725852966309,
      "memory(GiB)": 76.02,
      "step": 850,
      "token_acc": 0.6924932167621345,
      "train_speed(iter/s)": 0.020486
    },
    {
      "epoch": 1.545950864422202,
      "eval_loss": 0.4763409495353699,
      "eval_runtime": 119.4883,
      "eval_samples_per_second": 48.306,
      "eval_steps_per_second": 0.469,
      "eval_token_acc": 0.6927134956692006,
      "step": 850
    },
    {
      "epoch": 1.5550500454959053,
      "grad_norm": 1.1281157034877283,
      "learning_rate": 1.8799020829701036e-05,
      "loss": 0.8020171165466309,
      "memory(GiB)": 76.02,
      "step": 855,
      "token_acc": 0.7118734923612973,
      "train_speed(iter/s)": 0.020415
    },
    {
      "epoch": 1.5641492265696089,
      "grad_norm": 1.0786368581164274,
      "learning_rate": 1.860867618483027e-05,
      "loss": 0.7822349071502686,
      "memory(GiB)": 76.02,
      "step": 860,
      "token_acc": 0.6926726410121244,
      "train_speed(iter/s)": 0.020423
    },
    {
      "epoch": 1.573248407643312,
      "grad_norm": 1.2124940318046376,
      "learning_rate": 1.8418458094427567e-05,
      "loss": 0.7907929420471191,
      "memory(GiB)": 76.02,
      "step": 865,
      "token_acc": 0.7004744958481613,
      "train_speed(iter/s)": 0.02043
    },
    {
      "epoch": 1.5823475887170155,
      "grad_norm": 1.087815247895776,
      "learning_rate": 1.82283838606831e-05,
      "loss": 0.78410964012146,
      "memory(GiB)": 76.02,
      "step": 870,
      "token_acc": 0.7159194876486734,
      "train_speed(iter/s)": 0.020438
    },
    {
      "epoch": 1.5914467697907189,
      "grad_norm": 1.033926015572944,
      "learning_rate": 1.803847077270188e-05,
      "loss": 0.786978006362915,
      "memory(GiB)": 76.02,
      "step": 875,
      "token_acc": 0.7101845522898155,
      "train_speed(iter/s)": 0.020445
    },
    {
      "epoch": 1.6005459508644222,
      "grad_norm": 1.162364059290432,
      "learning_rate": 1.7848736104931142e-05,
      "loss": 0.7876530647277832,
      "memory(GiB)": 76.02,
      "step": 880,
      "token_acc": 0.7407407407407407,
      "train_speed(iter/s)": 0.020452
    },
    {
      "epoch": 1.6096451319381255,
      "grad_norm": 1.0965939407284515,
      "learning_rate": 1.765919711558906e-05,
      "loss": 0.7792027473449707,
      "memory(GiB)": 76.02,
      "step": 885,
      "token_acc": 0.7125279642058165,
      "train_speed(iter/s)": 0.020459
    },
    {
      "epoch": 1.6187443130118289,
      "grad_norm": 1.1822482702836845,
      "learning_rate": 1.746987104509494e-05,
      "loss": 0.7893452644348145,
      "memory(GiB)": 76.02,
      "step": 890,
      "token_acc": 0.6998714652956298,
      "train_speed(iter/s)": 0.020466
    },
    {
      "epoch": 1.6278434940855324,
      "grad_norm": 1.0733217293598245,
      "learning_rate": 1.7280775114501057e-05,
      "loss": 0.7864848613739014,
      "memory(GiB)": 76.02,
      "step": 895,
      "token_acc": 0.7469492614001284,
      "train_speed(iter/s)": 0.020474
    },
    {
      "epoch": 1.6369426751592355,
      "grad_norm": 0.9761043125519061,
      "learning_rate": 1.7091926523926205e-05,
      "loss": 0.7935813426971435,
      "memory(GiB)": 76.02,
      "step": 900,
      "token_acc": 0.7378048780487805,
      "train_speed(iter/s)": 0.020481
    },
    {
      "epoch": 1.6369426751592355,
      "eval_loss": 0.4734553098678589,
      "eval_runtime": 120.2875,
      "eval_samples_per_second": 47.985,
      "eval_steps_per_second": 0.466,
      "eval_token_acc": 0.6929117293665017,
      "step": 900
    },
    {
      "epoch": 1.646041856232939,
      "grad_norm": 0.9775890422129749,
      "learning_rate": 1.6903342450991203e-05,
      "loss": 0.7867559909820556,
      "memory(GiB)": 76.02,
      "step": 905,
      "token_acc": 0.7061556329849012,
      "train_speed(iter/s)": 0.020416
    },
    {
      "epoch": 1.6551410373066424,
      "grad_norm": 1.032340730518062,
      "learning_rate": 1.6715040049256393e-05,
      "loss": 0.7743623733520508,
      "memory(GiB)": 76.02,
      "step": 910,
      "token_acc": 0.7131681877444589,
      "train_speed(iter/s)": 0.020423
    },
    {
      "epoch": 1.6642402183803457,
      "grad_norm": 1.0919952776609756,
      "learning_rate": 1.6527036446661396e-05,
      "loss": 0.7813485145568848,
      "memory(GiB)": 76.02,
      "step": 915,
      "token_acc": 0.7281947261663286,
      "train_speed(iter/s)": 0.02043
    },
    {
      "epoch": 1.673339399454049,
      "grad_norm": 1.2303788872377346,
      "learning_rate": 1.6339348743967126e-05,
      "loss": 0.7993118762969971,
      "memory(GiB)": 76.02,
      "step": 920,
      "token_acc": 0.7152953054013125,
      "train_speed(iter/s)": 0.020438
    },
    {
      "epoch": 1.6824385805277524,
      "grad_norm": 1.118393217178591,
      "learning_rate": 1.6151994013200325e-05,
      "loss": 0.7818034648895263,
      "memory(GiB)": 76.02,
      "step": 925,
      "token_acc": 0.7246165084002922,
      "train_speed(iter/s)": 0.020445
    },
    {
      "epoch": 1.691537761601456,
      "grad_norm": 1.2781086578084908,
      "learning_rate": 1.5964989296100682e-05,
      "loss": 0.7822434902191162,
      "memory(GiB)": 76.02,
      "step": 930,
      "token_acc": 0.7342391304347826,
      "train_speed(iter/s)": 0.020452
    },
    {
      "epoch": 1.700636942675159,
      "grad_norm": 1.0706561030394075,
      "learning_rate": 1.5778351602570742e-05,
      "loss": 0.7954679965972901,
      "memory(GiB)": 76.02,
      "step": 935,
      "token_acc": 0.7032355915065723,
      "train_speed(iter/s)": 0.020459
    },
    {
      "epoch": 1.7097361237488626,
      "grad_norm": 1.2217572797748102,
      "learning_rate": 1.5592097909128673e-05,
      "loss": 0.7845365524291992,
      "memory(GiB)": 76.02,
      "step": 940,
      "token_acc": 0.7320365224295355,
      "train_speed(iter/s)": 0.020466
    },
    {
      "epoch": 1.718835304822566,
      "grad_norm": 1.2477451151406387,
      "learning_rate": 1.5406245157364093e-05,
      "loss": 0.7835155010223389,
      "memory(GiB)": 76.02,
      "step": 945,
      "token_acc": 0.7151702786377709,
      "train_speed(iter/s)": 0.020473
    },
    {
      "epoch": 1.7279344858962693,
      "grad_norm": 1.1968781249693217,
      "learning_rate": 1.5220810252397054e-05,
      "loss": 0.7988658905029297,
      "memory(GiB)": 76.02,
      "step": 950,
      "token_acc": 0.7049180327868853,
      "train_speed(iter/s)": 0.020479
    },
    {
      "epoch": 1.7279344858962693,
      "eval_loss": 0.4713653028011322,
      "eval_runtime": 120.1658,
      "eval_samples_per_second": 48.034,
      "eval_steps_per_second": 0.466,
      "eval_token_acc": 0.6942872284906324,
      "step": 950
    },
    {
      "epoch": 1.7370336669699729,
      "grad_norm": 0.9590399831837186,
      "learning_rate": 1.5035810061340376e-05,
      "loss": 0.7818658828735352,
      "memory(GiB)": 76.02,
      "step": 955,
      "token_acc": 0.7186684073107049,
      "train_speed(iter/s)": 0.020417
    },
    {
      "epoch": 1.746132848043676,
      "grad_norm": 1.311812274039409,
      "learning_rate": 1.4851261411765414e-05,
      "loss": 0.7812034130096436,
      "memory(GiB)": 76.02,
      "step": 960,
      "token_acc": 0.7130058696323757,
      "train_speed(iter/s)": 0.020424
    },
    {
      "epoch": 1.7552320291173795,
      "grad_norm": 1.2066428640501157,
      "learning_rate": 1.4667181090171418e-05,
      "loss": 0.7740418910980225,
      "memory(GiB)": 76.02,
      "step": 965,
      "token_acc": 0.7142857142857143,
      "train_speed(iter/s)": 0.02043
    },
    {
      "epoch": 1.7643312101910829,
      "grad_norm": 1.1309046997472656,
      "learning_rate": 1.4483585840458632e-05,
      "loss": 0.7716457843780518,
      "memory(GiB)": 76.02,
      "step": 970,
      "token_acc": 0.7535986452159187,
      "train_speed(iter/s)": 0.020437
    },
    {
      "epoch": 1.7734303912647862,
      "grad_norm": 1.0597243121965947,
      "learning_rate": 1.4300492362405296e-05,
      "loss": 0.7900642871856689,
      "memory(GiB)": 76.02,
      "step": 975,
      "token_acc": 0.7184942716857611,
      "train_speed(iter/s)": 0.020444
    },
    {
      "epoch": 1.7825295723384895,
      "grad_norm": 0.9136761859628779,
      "learning_rate": 1.4117917310148624e-05,
      "loss": 0.7912971019744873,
      "memory(GiB)": 76.02,
      "step": 980,
      "token_acc": 0.7580794090489381,
      "train_speed(iter/s)": 0.02045
    },
    {
      "epoch": 1.7916287534121929,
      "grad_norm": 1.123085792919359,
      "learning_rate": 1.3935877290669932e-05,
      "loss": 0.7823569774627686,
      "memory(GiB)": 76.02,
      "step": 985,
      "token_acc": 0.7234323432343235,
      "train_speed(iter/s)": 0.020457
    },
    {
      "epoch": 1.8007279344858964,
      "grad_norm": 1.1608781306244833,
      "learning_rate": 1.375438886228411e-05,
      "loss": 0.7732644081115723,
      "memory(GiB)": 76.02,
      "step": 990,
      "token_acc": 0.6950644451430368,
      "train_speed(iter/s)": 0.020464
    },
    {
      "epoch": 1.8098271155595995,
      "grad_norm": 1.1283275236864316,
      "learning_rate": 1.3573468533133442e-05,
      "loss": 0.7756358623504639,
      "memory(GiB)": 76.02,
      "step": 995,
      "token_acc": 0.7115031238515251,
      "train_speed(iter/s)": 0.02047
    },
    {
      "epoch": 1.818926296633303,
      "grad_norm": 1.0540865657542784,
      "learning_rate": 1.3393132759686064e-05,
      "loss": 0.7759748935699463,
      "memory(GiB)": 76.02,
      "step": 1000,
      "token_acc": 0.6963375057950858,
      "train_speed(iter/s)": 0.020477
    },
    {
      "epoch": 1.818926296633303,
      "eval_loss": 0.4693294167518616,
      "eval_runtime": 119.7422,
      "eval_samples_per_second": 48.204,
      "eval_steps_per_second": 0.468,
      "eval_token_acc": 0.6942063167774483,
      "step": 1000
    },
    {
      "epoch": 1.8280254777070064,
      "grad_norm": 1.2097721619516764,
      "learning_rate": 1.3213397945239053e-05,
      "loss": 0.7718574047088623,
      "memory(GiB)": 76.02,
      "step": 1005,
      "token_acc": 0.7104117843990626,
      "train_speed(iter/s)": 0.020419
    },
    {
      "epoch": 1.8371246587807097,
      "grad_norm": 1.3429375958388912,
      "learning_rate": 1.303428043842641e-05,
      "loss": 0.7779555320739746,
      "memory(GiB)": 76.02,
      "step": 1010,
      "token_acc": 0.7344594594594595,
      "train_speed(iter/s)": 0.020425
    },
    {
      "epoch": 1.846223839854413,
      "grad_norm": 1.1502202864135298,
      "learning_rate": 1.2855796531731994e-05,
      "loss": 0.784113597869873,
      "memory(GiB)": 76.02,
      "step": 1015,
      "token_acc": 0.7116066903193107,
      "train_speed(iter/s)": 0.020432
    },
    {
      "epoch": 1.8553230209281164,
      "grad_norm": 0.9764736580354538,
      "learning_rate": 1.2677962460007555e-05,
      "loss": 0.769007682800293,
      "memory(GiB)": 76.02,
      "step": 1020,
      "token_acc": 0.7275985663082437,
      "train_speed(iter/s)": 0.020439
    },
    {
      "epoch": 1.86442220200182,
      "grad_norm": 1.0395064733034296,
      "learning_rate": 1.2500794398996004e-05,
      "loss": 0.7842848300933838,
      "memory(GiB)": 76.02,
      "step": 1025,
      "token_acc": 0.7331868131868132,
      "train_speed(iter/s)": 0.020445
    },
    {
      "epoch": 1.873521383075523,
      "grad_norm": 1.1556386067848643,
      "learning_rate": 1.2324308463860089e-05,
      "loss": 0.7766573905944825,
      "memory(GiB)": 76.02,
      "step": 1030,
      "token_acc": 0.729426433915212,
      "train_speed(iter/s)": 0.020451
    },
    {
      "epoch": 1.8826205641492266,
      "grad_norm": 1.261343214410371,
      "learning_rate": 1.2148520707716567e-05,
      "loss": 0.7785522937774658,
      "memory(GiB)": 76.02,
      "step": 1035,
      "token_acc": 0.7095070422535211,
      "train_speed(iter/s)": 0.020458
    },
    {
      "epoch": 1.89171974522293,
      "grad_norm": 1.3077190411896333,
      "learning_rate": 1.1973447120175998e-05,
      "loss": 0.7712287425994873,
      "memory(GiB)": 76.02,
      "step": 1040,
      "token_acc": 0.6994839221913458,
      "train_speed(iter/s)": 0.020464
    },
    {
      "epoch": 1.9008189262966333,
      "grad_norm": 1.0009654605437637,
      "learning_rate": 1.1799103625888342e-05,
      "loss": 0.7672115802764893,
      "memory(GiB)": 76.02,
      "step": 1045,
      "token_acc": 0.7111845210004719,
      "train_speed(iter/s)": 0.020471
    },
    {
      "epoch": 1.9099181073703366,
      "grad_norm": 1.1500066718260178,
      "learning_rate": 1.162550608309446e-05,
      "loss": 0.7593209743499756,
      "memory(GiB)": 76.02,
      "step": 1050,
      "token_acc": 0.7720478325859492,
      "train_speed(iter/s)": 0.020477
    },
    {
      "epoch": 1.9099181073703366,
      "eval_loss": 0.46374601125717163,
      "eval_runtime": 119.6783,
      "eval_samples_per_second": 48.229,
      "eval_steps_per_second": 0.468,
      "eval_token_acc": 0.6953795366186186,
      "step": 1050
    },
    {
      "epoch": 1.91901728844404,
      "grad_norm": 1.0354960902542707,
      "learning_rate": 1.1452670282183664e-05,
      "loss": 0.7757611274719238,
      "memory(GiB)": 76.02,
      "step": 1055,
      "token_acc": 0.7227655986509275,
      "train_speed(iter/s)": 0.02042
    },
    {
      "epoch": 1.9281164695177435,
      "grad_norm": 1.1181099943024946,
      "learning_rate": 1.12806119442574e-05,
      "loss": 0.7624452590942383,
      "memory(GiB)": 76.02,
      "step": 1060,
      "token_acc": 0.7370562130177515,
      "train_speed(iter/s)": 0.020426
    },
    {
      "epoch": 1.9372156505914466,
      "grad_norm": 1.020900947874345,
      "learning_rate": 1.1109346719699263e-05,
      "loss": 0.7685122489929199,
      "memory(GiB)": 76.02,
      "step": 1065,
      "token_acc": 0.7123585726718886,
      "train_speed(iter/s)": 0.020432
    },
    {
      "epoch": 1.9463148316651502,
      "grad_norm": 1.0619107995533037,
      "learning_rate": 1.0938890186751487e-05,
      "loss": 0.7687143325805664,
      "memory(GiB)": 76.02,
      "step": 1070,
      "token_acc": 0.7249620637329287,
      "train_speed(iter/s)": 0.020439
    },
    {
      "epoch": 1.9554140127388535,
      "grad_norm": 1.0950602334931028,
      "learning_rate": 1.0769257850097881e-05,
      "loss": 0.7737876415252686,
      "memory(GiB)": 76.02,
      "step": 1075,
      "token_acc": 0.6985485671752885,
      "train_speed(iter/s)": 0.020445
    },
    {
      "epoch": 1.9645131938125568,
      "grad_norm": 1.307250719010874,
      "learning_rate": 1.060046513945361e-05,
      "loss": 0.7766946792602539,
      "memory(GiB)": 76.02,
      "step": 1080,
      "token_acc": 0.7377892030848329,
      "train_speed(iter/s)": 0.020451
    },
    {
      "epoch": 1.9736123748862604,
      "grad_norm": 1.1430361120086814,
      "learning_rate": 1.0432527408161597e-05,
      "loss": 0.7805325031280518,
      "memory(GiB)": 76.02,
      "step": 1085,
      "token_acc": 0.7078861409239384,
      "train_speed(iter/s)": 0.020457
    },
    {
      "epoch": 1.9827115559599635,
      "grad_norm": 1.002916433279442,
      "learning_rate": 1.026545993179612e-05,
      "loss": 0.7858685493469239,
      "memory(GiB)": 76.02,
      "step": 1090,
      "token_acc": 0.7466666666666667,
      "train_speed(iter/s)": 0.020463
    },
    {
      "epoch": 1.991810737033667,
      "grad_norm": 1.0871219922265896,
      "learning_rate": 1.009927790677327e-05,
      "loss": 0.7784292697906494,
      "memory(GiB)": 76.02,
      "step": 1095,
      "token_acc": 0.7174170616113744,
      "train_speed(iter/s)": 0.020469
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.7655187909978691,
      "learning_rate": 9.933996448968688e-06,
      "loss": 0.7408246994018555,
      "memory(GiB)": 76.02,
      "step": 1100,
      "token_acc": 0.7477064220183486,
      "train_speed(iter/s)": 0.020483
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.4639655649662018,
      "eval_runtime": 118.882,
      "eval_samples_per_second": 48.552,
      "eval_steps_per_second": 0.471,
      "eval_token_acc": 0.6956344085151487,
      "step": 1100
    },
    {
      "epoch": 2.0090991810737036,
      "grad_norm": 1.1083572508394148,
      "learning_rate": 9.769630592342643e-06,
      "loss": 0.6631475925445557,
      "memory(GiB)": 76.02,
      "step": 1105,
      "token_acc": 0.732795337368303,
      "train_speed(iter/s)": 0.020423
    },
    {
      "epoch": 2.0181983621474067,
      "grad_norm": 1.1068844322629663,
      "learning_rate": 9.606195287572577e-06,
      "loss": 0.6467893600463868,
      "memory(GiB)": 76.02,
      "step": 1110,
      "token_acc": 0.7836676217765043,
      "train_speed(iter/s)": 0.020427
    },
    {
      "epoch": 2.02729754322111,
      "grad_norm": 1.1238716711584054,
      "learning_rate": 9.443705400693133e-06,
      "loss": 0.6334795475006103,
      "memory(GiB)": 76.02,
      "step": 1115,
      "token_acc": 0.746772864597638,
      "train_speed(iter/s)": 0.020432
    },
    {
      "epoch": 2.0363967242948133,
      "grad_norm": 0.9545754331665411,
      "learning_rate": 9.282175711744012e-06,
      "loss": 0.643845796585083,
      "memory(GiB)": 76.02,
      "step": 1120,
      "token_acc": 0.783322390019698,
      "train_speed(iter/s)": 0.020438
    },
    {
      "epoch": 2.045495905368517,
      "grad_norm": 1.112189160795635,
      "learning_rate": 9.121620913425508e-06,
      "loss": 0.6376824378967285,
      "memory(GiB)": 76.02,
      "step": 1125,
      "token_acc": 0.7677035076108537,
      "train_speed(iter/s)": 0.020444
    },
    {
      "epoch": 2.05459508644222,
      "grad_norm": 1.069654016986732,
      "learning_rate": 8.962055609762143e-06,
      "loss": 0.6328807353973389,
      "memory(GiB)": 76.02,
      "step": 1130,
      "token_acc": 0.7605409705648369,
      "train_speed(iter/s)": 0.020449
    },
    {
      "epoch": 2.0636942675159236,
      "grad_norm": 1.134992866714782,
      "learning_rate": 8.803494314774241e-06,
      "loss": 0.6297794342041015,
      "memory(GiB)": 76.02,
      "step": 1135,
      "token_acc": 0.7869767441860465,
      "train_speed(iter/s)": 0.020456
    },
    {
      "epoch": 2.072793448589627,
      "grad_norm": 1.1668054237375585,
      "learning_rate": 8.645951451157741e-06,
      "loss": 0.6355114459991456,
      "memory(GiB)": 76.02,
      "step": 1140,
      "token_acc": 0.7761146496815287,
      "train_speed(iter/s)": 0.020462
    },
    {
      "epoch": 2.08189262966333,
      "grad_norm": 1.1864938776830725,
      "learning_rate": 8.489441348972312e-06,
      "loss": 0.6331965923309326,
      "memory(GiB)": 76.02,
      "step": 1145,
      "token_acc": 0.7740963855421686,
      "train_speed(iter/s)": 0.020468
    },
    {
      "epoch": 2.0909918107370338,
      "grad_norm": 1.0454450783179292,
      "learning_rate": 8.333978244337921e-06,
      "loss": 0.6294968605041504,
      "memory(GiB)": 76.02,
      "step": 1150,
      "token_acc": 0.77819937909624,
      "train_speed(iter/s)": 0.020473
    },
    {
      "epoch": 2.0909918107370338,
      "eval_loss": 0.47781530022621155,
      "eval_runtime": 120.0715,
      "eval_samples_per_second": 48.071,
      "eval_steps_per_second": 0.466,
      "eval_token_acc": 0.6904358309430665,
      "step": 1150
    },
    {
      "epoch": 2.100090991810737,
      "grad_norm": 0.9951435698165627,
      "learning_rate": 8.179576278139872e-06,
      "loss": 0.6304058074951172,
      "memory(GiB)": 76.02,
      "step": 1155,
      "token_acc": 0.7404277792447848,
      "train_speed(iter/s)": 0.020422
    },
    {
      "epoch": 2.1091901728844404,
      "grad_norm": 1.067908969484696,
      "learning_rate": 8.026249494742617e-06,
      "loss": 0.6222400665283203,
      "memory(GiB)": 76.02,
      "step": 1160,
      "token_acc": 0.7715277777777778,
      "train_speed(iter/s)": 0.020428
    },
    {
      "epoch": 2.1182893539581436,
      "grad_norm": 1.057238882123902,
      "learning_rate": 7.874011840712197e-06,
      "loss": 0.6318105697631836,
      "memory(GiB)": 76.02,
      "step": 1165,
      "token_acc": 0.7550738007380073,
      "train_speed(iter/s)": 0.020433
    },
    {
      "epoch": 2.127388535031847,
      "grad_norm": 1.0798825041809057,
      "learning_rate": 7.72287716354776e-06,
      "loss": 0.6285967350006103,
      "memory(GiB)": 76.02,
      "step": 1170,
      "token_acc": 0.7547770700636943,
      "train_speed(iter/s)": 0.020439
    },
    {
      "epoch": 2.1364877161055507,
      "grad_norm": 1.0478822425834018,
      "learning_rate": 7.572859210421945e-06,
      "loss": 0.6234595775604248,
      "memory(GiB)": 76.02,
      "step": 1175,
      "token_acc": 0.7690631808278867,
      "train_speed(iter/s)": 0.020444
    },
    {
      "epoch": 2.1455868971792538,
      "grad_norm": 0.9867274025718497,
      "learning_rate": 7.423971626930435e-06,
      "loss": 0.6359669685363769,
      "memory(GiB)": 76.02,
      "step": 1180,
      "token_acc": 0.7695961995249406,
      "train_speed(iter/s)": 0.02045
    },
    {
      "epoch": 2.1546860782529573,
      "grad_norm": 1.0045378569587455,
      "learning_rate": 7.276227955850774e-06,
      "loss": 0.6464476585388184,
      "memory(GiB)": 76.02,
      "step": 1185,
      "token_acc": 0.7841451766953199,
      "train_speed(iter/s)": 0.020455
    },
    {
      "epoch": 2.1637852593266604,
      "grad_norm": 1.022012980465645,
      "learning_rate": 7.12964163591054e-06,
      "loss": 0.6201572895050049,
      "memory(GiB)": 76.02,
      "step": 1190,
      "token_acc": 0.74373795761079,
      "train_speed(iter/s)": 0.020461
    },
    {
      "epoch": 2.172884440400364,
      "grad_norm": 1.2093399237034956,
      "learning_rate": 6.984226000564907e-06,
      "loss": 0.6306787490844726,
      "memory(GiB)": 76.02,
      "step": 1195,
      "token_acc": 0.7755102040816326,
      "train_speed(iter/s)": 0.020467
    },
    {
      "epoch": 2.1819836214740675,
      "grad_norm": 0.966059090473921,
      "learning_rate": 6.8399942767839075e-06,
      "loss": 0.6421105861663818,
      "memory(GiB)": 76.02,
      "step": 1200,
      "token_acc": 0.7779262426509888,
      "train_speed(iter/s)": 0.020473
    },
    {
      "epoch": 2.1819836214740675,
      "eval_loss": 0.47876349091529846,
      "eval_runtime": 119.7281,
      "eval_samples_per_second": 48.209,
      "eval_steps_per_second": 0.468,
      "eval_token_acc": 0.6895983947116104,
      "step": 1200
    },
    {
      "epoch": 2.1910828025477707,
      "grad_norm": 1.069591399453908,
      "learning_rate": 6.696959583849228e-06,
      "loss": 0.6228060245513916,
      "memory(GiB)": 76.02,
      "step": 1205,
      "token_acc": 0.725686591276252,
      "train_speed(iter/s)": 0.020424
    },
    {
      "epoch": 2.200181983621474,
      "grad_norm": 1.0705675997492539,
      "learning_rate": 6.5551349321609585e-06,
      "loss": 0.6346144676208496,
      "memory(GiB)": 76.02,
      "step": 1210,
      "token_acc": 0.7361563517915309,
      "train_speed(iter/s)": 0.020429
    },
    {
      "epoch": 2.2092811646951773,
      "grad_norm": 0.99473395335189,
      "learning_rate": 6.414533222054138e-06,
      "loss": 0.6288974761962891,
      "memory(GiB)": 76.02,
      "step": 1215,
      "token_acc": 0.7661224489795918,
      "train_speed(iter/s)": 0.020435
    },
    {
      "epoch": 2.218380345768881,
      "grad_norm": 1.0273110672808459,
      "learning_rate": 6.275167242625331e-06,
      "loss": 0.6033660411834717,
      "memory(GiB)": 76.02,
      "step": 1220,
      "token_acc": 0.7424931756141947,
      "train_speed(iter/s)": 0.02044
    },
    {
      "epoch": 2.227479526842584,
      "grad_norm": 1.1134175189046431,
      "learning_rate": 6.137049670569344e-06,
      "loss": 0.6237975120544433,
      "memory(GiB)": 76.02,
      "step": 1225,
      "token_acc": 0.7610619469026548,
      "train_speed(iter/s)": 0.020445
    },
    {
      "epoch": 2.2365787079162875,
      "grad_norm": 1.0391880977302441,
      "learning_rate": 6.000193069026181e-06,
      "loss": 0.633206558227539,
      "memory(GiB)": 76.02,
      "step": 1230,
      "token_acc": 0.7656550134460238,
      "train_speed(iter/s)": 0.020451
    },
    {
      "epoch": 2.245677888989991,
      "grad_norm": 1.1575554243921846,
      "learning_rate": 5.8646098864382525e-06,
      "loss": 0.6448534488677978,
      "memory(GiB)": 76.02,
      "step": 1235,
      "token_acc": 0.7768777614138439,
      "train_speed(iter/s)": 0.020456
    },
    {
      "epoch": 2.254777070063694,
      "grad_norm": 1.0130550727371117,
      "learning_rate": 5.730312455418134e-06,
      "loss": 0.6195736408233643,
      "memory(GiB)": 76.02,
      "step": 1240,
      "token_acc": 0.7690447400241838,
      "train_speed(iter/s)": 0.020461
    },
    {
      "epoch": 2.2638762511373978,
      "grad_norm": 1.0895008794001835,
      "learning_rate": 5.597312991626713e-06,
      "loss": 0.6155508041381836,
      "memory(GiB)": 76.02,
      "step": 1245,
      "token_acc": 0.7842149454240135,
      "train_speed(iter/s)": 0.020466
    },
    {
      "epoch": 2.272975432211101,
      "grad_norm": 1.0868616738166854,
      "learning_rate": 5.465623592662137e-06,
      "loss": 0.6290598392486573,
      "memory(GiB)": 76.02,
      "step": 1250,
      "token_acc": 0.7843260188087774,
      "train_speed(iter/s)": 0.020471
    },
    {
      "epoch": 2.272975432211101,
      "eval_loss": 0.47770801186561584,
      "eval_runtime": 119.4212,
      "eval_samples_per_second": 48.333,
      "eval_steps_per_second": 0.469,
      "eval_token_acc": 0.6896631240821578,
      "step": 1250
    },
    {
      "epoch": 2.2820746132848044,
      "grad_norm": 1.0252310733499297,
      "learning_rate": 5.335256236959379e-06,
      "loss": 0.6228739261627197,
      "memory(GiB)": 76.02,
      "step": 1255,
      "token_acc": 0.7295555555555555,
      "train_speed(iter/s)": 0.020423
    },
    {
      "epoch": 2.2911737943585075,
      "grad_norm": 1.1274971851401754,
      "learning_rate": 5.206222782700667e-06,
      "loss": 0.6328925609588623,
      "memory(GiB)": 76.02,
      "step": 1260,
      "token_acc": 0.772992700729927,
      "train_speed(iter/s)": 0.020428
    },
    {
      "epoch": 2.300272975432211,
      "grad_norm": 0.9968940954527525,
      "learning_rate": 5.078534966736895e-06,
      "loss": 0.6318979740142823,
      "memory(GiB)": 76.02,
      "step": 1265,
      "token_acc": 0.766875691626706,
      "train_speed(iter/s)": 0.020433
    },
    {
      "epoch": 2.3093721565059147,
      "grad_norm": 1.0466074457299364,
      "learning_rate": 4.952204403520042e-06,
      "loss": 0.6296024799346924,
      "memory(GiB)": 76.02,
      "step": 1270,
      "token_acc": 0.7647696476964769,
      "train_speed(iter/s)": 0.020438
    },
    {
      "epoch": 2.3184713375796178,
      "grad_norm": 1.059039551077919,
      "learning_rate": 4.827242584046698e-06,
      "loss": 0.6291126251220703,
      "memory(GiB)": 76.02,
      "step": 1275,
      "token_acc": 0.7655979202772963,
      "train_speed(iter/s)": 0.020443
    },
    {
      "epoch": 2.3275705186533213,
      "grad_norm": 1.1223580815679548,
      "learning_rate": 4.70366087481289e-06,
      "loss": 0.620822811126709,
      "memory(GiB)": 76.02,
      "step": 1280,
      "token_acc": 0.7782307378719935,
      "train_speed(iter/s)": 0.020448
    },
    {
      "epoch": 2.3366696997270244,
      "grad_norm": 1.0233004088935174,
      "learning_rate": 4.581470516780115e-06,
      "loss": 0.6297062873840332,
      "memory(GiB)": 76.02,
      "step": 1285,
      "token_acc": 0.7572519083969466,
      "train_speed(iter/s)": 0.020453
    },
    {
      "epoch": 2.345768880800728,
      "grad_norm": 1.0470029791397224,
      "learning_rate": 4.460682624352952e-06,
      "loss": 0.625699806213379,
      "memory(GiB)": 76.02,
      "step": 1290,
      "token_acc": 0.7591605596269154,
      "train_speed(iter/s)": 0.020458
    },
    {
      "epoch": 2.3548680618744315,
      "grad_norm": 0.915808456859335,
      "learning_rate": 4.34130818436805e-06,
      "loss": 0.6242890357971191,
      "memory(GiB)": 76.02,
      "step": 1295,
      "token_acc": 0.7637987012987013,
      "train_speed(iter/s)": 0.020462
    },
    {
      "epoch": 2.3639672429481347,
      "grad_norm": 0.9679022008759249,
      "learning_rate": 4.223358055094762e-06,
      "loss": 0.6215915203094482,
      "memory(GiB)": 76.02,
      "step": 1300,
      "token_acc": 0.7939560439560439,
      "train_speed(iter/s)": 0.020467
    },
    {
      "epoch": 2.3639672429481347,
      "eval_loss": 0.4746646285057068,
      "eval_runtime": 120.7999,
      "eval_samples_per_second": 47.782,
      "eval_steps_per_second": 0.464,
      "eval_token_acc": 0.6904034662577928,
      "step": 1300
    },
    {
      "epoch": 2.3767060964513194,
      "grad_norm": 1.0864039116899251,
      "learning_rate": 4.106842965247497e-06,
      "loss": 0.607478666305542,
      "memory(GiB)": 53.99,
      "step": 1305,
      "token_acc": 0.777601899485556,
      "train_speed(iter/s)": 4.038665
    },
    {
      "epoch": 2.385805277525023,
      "grad_norm": 0.955554735442322,
      "learning_rate": 3.991773513009849e-06,
      "loss": 0.6158496856689453,
      "memory(GiB)": 53.99,
      "step": 1310,
      "token_acc": 0.7964731814842028,
      "train_speed(iter/s)": 2.330085
    },
    {
      "epoch": 2.394904458598726,
      "grad_norm": 1.0615963891170637,
      "learning_rate": 3.87816016507055e-06,
      "loss": 0.6333821296691895,
      "memory(GiB)": 53.99,
      "step": 1315,
      "token_acc": 0.7811782708492732,
      "train_speed(iter/s)": 1.665234
    },
    {
      "epoch": 2.4040036396724296,
      "grad_norm": 1.148829953509744,
      "learning_rate": 3.766013255671479e-06,
      "loss": 0.6272965908050537,
      "memory(GiB)": 53.99,
      "step": 1320,
      "token_acc": 0.7688679245283019,
      "train_speed(iter/s)": 1.297177
    },
    {
      "epoch": 2.4131028207461327,
      "grad_norm": 1.0891236462035252,
      "learning_rate": 3.6553429856675915e-06,
      "loss": 0.6266043663024903,
      "memory(GiB)": 77.52,
      "step": 1325,
      "token_acc": 0.7914959016393442,
      "train_speed(iter/s)": 1.06612
    },
    {
      "epoch": 2.4222020018198362,
      "grad_norm": 1.1117445945203506,
      "learning_rate": 3.5461594215991247e-06,
      "loss": 0.6159255981445313,
      "memory(GiB)": 77.52,
      "step": 1330,
      "token_acc": 0.7893491124260354,
      "train_speed(iter/s)": 0.90399
    },
    {
      "epoch": 2.43130118289354,
      "grad_norm": 0.9824968556280764,
      "learning_rate": 3.438472494775902e-06,
      "loss": 0.6225139141082764,
      "memory(GiB)": 77.52,
      "step": 1335,
      "token_acc": 0.7502756339581036,
      "train_speed(iter/s)": 0.785373
    },
    {
      "epoch": 2.440400363967243,
      "grad_norm": 0.9912665739642537,
      "learning_rate": 3.3322920003739913e-06,
      "loss": 0.6153748989105224,
      "memory(GiB)": 77.52,
      "step": 1340,
      "token_acc": 0.790268456375839,
      "train_speed(iter/s)": 0.696672
    },
    {
      "epoch": 2.4494995450409465,
      "grad_norm": 1.064566119713343,
      "learning_rate": 3.227627596544738e-06,
      "loss": 0.6232125759124756,
      "memory(GiB)": 77.52,
      "step": 1345,
      "token_acc": 0.7880870561282932,
      "train_speed(iter/s)": 0.625452
    },
    {
      "epoch": 2.4585987261146496,
      "grad_norm": 1.0308754966071667,
      "learning_rate": 3.1244888035362875e-06,
      "loss": 0.6144218444824219,
      "memory(GiB)": 77.52,
      "step": 1350,
      "token_acc": 0.7680478428022213,
      "train_speed(iter/s)": 0.569157
    },
    {
      "epoch": 2.4585987261146496,
      "eval_loss": 0.4741266369819641,
      "eval_runtime": 123.1251,
      "eval_samples_per_second": 46.879,
      "eval_steps_per_second": 0.455,
      "eval_token_acc": 0.6901121840903298,
      "step": 1350
    },
    {
      "epoch": 2.467697907188353,
      "grad_norm": 1.1124385874562812,
      "learning_rate": 3.0228850028275803e-06,
      "loss": 0.6197083950042724,
      "memory(GiB)": 77.52,
      "step": 1355,
      "token_acc": 0.7441558441558441,
      "train_speed(iter/s)": 0.491445
    },
    {
      "epoch": 2.4767970882620562,
      "grad_norm": 1.0177391538655736,
      "learning_rate": 2.922825436275061e-06,
      "loss": 0.6326658248901367,
      "memory(GiB)": 77.52,
      "step": 1360,
      "token_acc": 0.774859287054409,
      "train_speed(iter/s)": 0.456689
    },
    {
      "epoch": 2.48589626933576,
      "grad_norm": 0.9939709571788379,
      "learning_rate": 2.8243192052719902e-06,
      "loss": 0.6353094577789307,
      "memory(GiB)": 77.52,
      "step": 1365,
      "token_acc": 0.7515923566878981,
      "train_speed(iter/s)": 0.426316
    },
    {
      "epoch": 2.494995450409463,
      "grad_norm": 1.0864856971626622,
      "learning_rate": 2.72737526992064e-06,
      "loss": 0.6143672466278076,
      "memory(GiB)": 77.52,
      "step": 1370,
      "token_acc": 0.800497203231821,
      "train_speed(iter/s)": 0.399977
    },
    {
      "epoch": 2.5040946314831665,
      "grad_norm": 0.9778765243753255,
      "learning_rate": 2.6320024482172592e-06,
      "loss": 0.6241840362548828,
      "memory(GiB)": 77.52,
      "step": 1375,
      "token_acc": 0.7901711761457758,
      "train_speed(iter/s)": 0.376966
    },
    {
      "epoch": 2.51319381255687,
      "grad_norm": 0.963647645236081,
      "learning_rate": 2.5382094152499705e-06,
      "loss": 0.635280704498291,
      "memory(GiB)": 77.52,
      "step": 1380,
      "token_acc": 0.7607636068237206,
      "train_speed(iter/s)": 0.356417
    },
    {
      "epoch": 2.522292993630573,
      "grad_norm": 0.9666636858906085,
      "learning_rate": 2.4460047024097144e-06,
      "loss": 0.6261641502380371,
      "memory(GiB)": 77.52,
      "step": 1385,
      "token_acc": 0.7655134541460736,
      "train_speed(iter/s)": 0.338341
    },
    {
      "epoch": 2.5313921747042767,
      "grad_norm": 0.9689736671771748,
      "learning_rate": 2.3553966966142384e-06,
      "loss": 0.6166990280151368,
      "memory(GiB)": 77.52,
      "step": 1390,
      "token_acc": 0.7619183556951185,
      "train_speed(iter/s)": 0.321781
    },
    {
      "epoch": 2.54049135577798,
      "grad_norm": 1.0530841209630801,
      "learning_rate": 2.266393639545197e-06,
      "loss": 0.6244637966156006,
      "memory(GiB)": 77.52,
      "step": 1395,
      "token_acc": 0.7679372197309418,
      "train_speed(iter/s)": 0.307132
    },
    {
      "epoch": 2.5495905368516834,
      "grad_norm": 0.9878733985818398,
      "learning_rate": 2.1790036268985284e-06,
      "loss": 0.6239931106567382,
      "memory(GiB)": 77.52,
      "step": 1400,
      "token_acc": 0.7469059405940595,
      "train_speed(iter/s)": 0.293674
    },
    {
      "epoch": 2.5495905368516834,
      "eval_loss": 0.47406768798828125,
      "eval_runtime": 121.0349,
      "eval_samples_per_second": 47.689,
      "eval_steps_per_second": 0.463,
      "eval_token_acc": 0.6900029532775313,
      "step": 1400
    },
    {
      "epoch": 2.558689717925387,
      "grad_norm": 1.0090114818567588,
      "learning_rate": 2.0932346076480314e-06,
      "loss": 0.6187572956085206,
      "memory(GiB)": 77.52,
      "step": 1405,
      "token_acc": 0.7450779851700332,
      "train_speed(iter/s)": 0.272986
    },
    {
      "epoch": 2.56778889899909,
      "grad_norm": 0.9588816991739316,
      "learning_rate": 2.009094383322356e-06,
      "loss": 0.6277956485748291,
      "memory(GiB)": 77.52,
      "step": 1410,
      "token_acc": 0.7810402684563759,
      "train_speed(iter/s)": 0.262478
    },
    {
      "epoch": 2.5768880800727936,
      "grad_norm": 0.9909418694472445,
      "learning_rate": 1.9265906072953822e-06,
      "loss": 0.6175178050994873,
      "memory(GiB)": 77.52,
      "step": 1415,
      "token_acc": 0.7652439024390244,
      "train_speed(iter/s)": 0.252862
    },
    {
      "epoch": 2.5859872611464967,
      "grad_norm": 1.1182023779440498,
      "learning_rate": 1.8457307840900428e-06,
      "loss": 0.6154948711395264,
      "memory(GiB)": 77.52,
      "step": 1420,
      "token_acc": 0.7852161785216178,
      "train_speed(iter/s)": 0.244119
    },
    {
      "epoch": 2.5950864422202002,
      "grad_norm": 1.0404157493617592,
      "learning_rate": 1.7665222686957362e-06,
      "loss": 0.6219567775726318,
      "memory(GiB)": 77.52,
      "step": 1425,
      "token_acc": 0.7628019323671498,
      "train_speed(iter/s)": 0.235826
    },
    {
      "epoch": 2.604185623293904,
      "grad_norm": 1.0786639447035942,
      "learning_rate": 1.6889722658993223e-06,
      "loss": 0.6350451946258545,
      "memory(GiB)": 77.52,
      "step": 1430,
      "token_acc": 0.7704379562043796,
      "train_speed(iter/s)": 0.228331
    },
    {
      "epoch": 2.613284804367607,
      "grad_norm": 1.0095118897080797,
      "learning_rate": 1.6130878296297536e-06,
      "loss": 0.6284623622894288,
      "memory(GiB)": 77.52,
      "step": 1435,
      "token_acc": 0.7636180228648285,
      "train_speed(iter/s)": 0.221176
    },
    {
      "epoch": 2.62238398544131,
      "grad_norm": 0.94070647379727,
      "learning_rate": 1.5388758623164802e-06,
      "loss": 0.6281323432922363,
      "memory(GiB)": 77.52,
      "step": 1440,
      "token_acc": 0.7643463497453311,
      "train_speed(iter/s)": 0.214634
    },
    {
      "epoch": 2.6314831665150136,
      "grad_norm": 1.0651613672971816,
      "learning_rate": 1.4663431142615792e-06,
      "loss": 0.6090371608734131,
      "memory(GiB)": 77.52,
      "step": 1445,
      "token_acc": 0.8246628131021194,
      "train_speed(iter/s)": 0.208466
    },
    {
      "epoch": 2.640582347588717,
      "grad_norm": 1.0004848001888615,
      "learning_rate": 1.3954961830257685e-06,
      "loss": 0.624143123626709,
      "memory(GiB)": 77.52,
      "step": 1450,
      "token_acc": 0.7779850746268657,
      "train_speed(iter/s)": 0.202625
    },
    {
      "epoch": 2.640582347588717,
      "eval_loss": 0.47285741567611694,
      "eval_runtime": 117.6959,
      "eval_samples_per_second": 49.042,
      "eval_steps_per_second": 0.476,
      "eval_token_acc": 0.6904803323853178,
      "step": 1450
    },
    {
      "epoch": 2.6496815286624202,
      "grad_norm": 1.0494169722074018,
      "learning_rate": 1.3263415128282908e-06,
      "loss": 0.6255748271942139,
      "memory(GiB)": 77.52,
      "step": 1455,
      "token_acc": 0.732059542323928,
      "train_speed(iter/s)": 0.193115
    },
    {
      "epoch": 2.658780709736124,
      "grad_norm": 1.0337513224693766,
      "learning_rate": 1.2588853939607338e-06,
      "loss": 0.6212813377380371,
      "memory(GiB)": 77.52,
      "step": 1460,
      "token_acc": 0.7488385598141696,
      "train_speed(iter/s)": 0.188151
    },
    {
      "epoch": 2.667879890809827,
      "grad_norm": 0.9339498438090048,
      "learning_rate": 1.1931339622148897e-06,
      "loss": 0.6209768295288086,
      "memory(GiB)": 77.52,
      "step": 1465,
      "token_acc": 0.7604208822339134,
      "train_speed(iter/s)": 0.183569
    },
    {
      "epoch": 2.6769790718835305,
      "grad_norm": 1.009290828686064,
      "learning_rate": 1.1290931983246334e-06,
      "loss": 0.619508934020996,
      "memory(GiB)": 77.52,
      "step": 1470,
      "token_acc": 0.7703793381759484,
      "train_speed(iter/s)": 0.179159
    },
    {
      "epoch": 2.686078252957234,
      "grad_norm": 0.9092366819727269,
      "learning_rate": 1.0667689274219128e-06,
      "loss": 0.6159298419952393,
      "memory(GiB)": 77.52,
      "step": 1475,
      "token_acc": 0.7770177838577291,
      "train_speed(iter/s)": 0.175056
    },
    {
      "epoch": 2.695177434030937,
      "grad_norm": 0.9840242855378942,
      "learning_rate": 1.0061668185068996e-06,
      "loss": 0.6134575843811035,
      "memory(GiB)": 77.52,
      "step": 1480,
      "token_acc": 0.7733843537414966,
      "train_speed(iter/s)": 0.171104
    },
    {
      "epoch": 2.7042766151046407,
      "grad_norm": 1.0092116973578455,
      "learning_rate": 9.4729238393235e-07,
      "loss": 0.6143134593963623,
      "memory(GiB)": 77.52,
      "step": 1485,
      "token_acc": 0.7900072411296162,
      "train_speed(iter/s)": 0.167358
    },
    {
      "epoch": 2.713375796178344,
      "grad_norm": 1.0868815484832741,
      "learning_rate": 8.901509789021779e-07,
      "loss": 0.600148344039917,
      "memory(GiB)": 77.52,
      "step": 1490,
      "token_acc": 0.7679245283018868,
      "train_speed(iter/s)": 0.163825
    },
    {
      "epoch": 2.7224749772520473,
      "grad_norm": 1.0410901018430865,
      "learning_rate": 8.347478009843746e-07,
      "loss": 0.6201463222503663,
      "memory(GiB)": 77.52,
      "step": 1495,
      "token_acc": 0.738926899531869,
      "train_speed(iter/s)": 0.160424
    },
    {
      "epoch": 2.731574158325751,
      "grad_norm": 0.9884777012197261,
      "learning_rate": 7.810878896382101e-07,
      "loss": 0.6072117805480957,
      "memory(GiB)": 77.52,
      "step": 1500,
      "token_acc": 0.7709691438504997,
      "train_speed(iter/s)": 0.157229
    },
    {
      "epoch": 2.731574158325751,
      "eval_loss": 0.4724496603012085,
      "eval_runtime": 119.0959,
      "eval_samples_per_second": 48.465,
      "eval_steps_per_second": 0.47,
      "eval_token_acc": 0.6903711015725191,
      "step": 1500
    },
    {
      "epoch": 2.740673339399454,
      "grad_norm": 0.9523503494388392,
      "learning_rate": 7.291761257558749e-07,
      "loss": 0.6324088096618652,
      "memory(GiB)": 77.52,
      "step": 1505,
      "token_acc": 0.7417567924030599,
      "train_speed(iter/s)": 0.151702
    },
    {
      "epoch": 2.7497725204731576,
      "grad_norm": 0.9815948952007479,
      "learning_rate": 6.790172312184972e-07,
      "loss": 0.6338190078735352,
      "memory(GiB)": 77.52,
      "step": 1510,
      "token_acc": 0.7562122229684352,
      "train_speed(iter/s)": 0.148878
    },
    {
      "epoch": 2.7588717015468607,
      "grad_norm": 1.0475192921698937,
      "learning_rate": 6.306157684666425e-07,
      "loss": 0.6202810764312744,
      "memory(GiB)": 77.52,
      "step": 1515,
      "token_acc": 0.7550281576830249,
      "train_speed(iter/s)": 0.146148
    },
    {
      "epoch": 2.7679708826205642,
      "grad_norm": 1.0206535695296246,
      "learning_rate": 5.839761400853183e-07,
      "loss": 0.6317409992218017,
      "memory(GiB)": 77.52,
      "step": 1520,
      "token_acc": 0.7529880478087649,
      "train_speed(iter/s)": 0.143534
    },
    {
      "epoch": 2.777070063694268,
      "grad_norm": 0.9666971373448247,
      "learning_rate": 5.391025884035239e-07,
      "loss": 0.6138282775878906,
      "memory(GiB)": 77.52,
      "step": 1525,
      "token_acc": 0.767303609341826,
      "train_speed(iter/s)": 0.141033
    },
    {
      "epoch": 2.786169244767971,
      "grad_norm": 1.002591354360291,
      "learning_rate": 4.959991951083498e-07,
      "loss": 0.617135763168335,
      "memory(GiB)": 77.52,
      "step": 1530,
      "token_acc": 0.8161559888579387,
      "train_speed(iter/s)": 0.13864
    },
    {
      "epoch": 2.795268425841674,
      "grad_norm": 1.006202469505235,
      "learning_rate": 4.5466988087373044e-07,
      "loss": 0.6056863784790039,
      "memory(GiB)": 77.52,
      "step": 1535,
      "token_acc": 0.760498687664042,
      "train_speed(iter/s)": 0.136344
    },
    {
      "epoch": 2.8043676069153776,
      "grad_norm": 0.9830438526460707,
      "learning_rate": 4.151184050038004e-07,
      "loss": 0.6215356349945068,
      "memory(GiB)": 77.52,
      "step": 1540,
      "token_acc": 0.7701478302336672,
      "train_speed(iter/s)": 0.134118
    },
    {
      "epoch": 2.813466787989081,
      "grad_norm": 1.0560207375711046,
      "learning_rate": 3.7734836509096596e-07,
      "loss": 0.6116134643554687,
      "memory(GiB)": 77.52,
      "step": 1545,
      "token_acc": 0.7759115116755428,
      "train_speed(iter/s)": 0.132005
    },
    {
      "epoch": 2.8225659690627842,
      "grad_norm": 1.0225913174286714,
      "learning_rate": 3.4136319668866434e-07,
      "loss": 0.625472116470337,
      "memory(GiB)": 77.52,
      "step": 1550,
      "token_acc": 0.7980769230769231,
      "train_speed(iter/s)": 0.129952
    },
    {
      "epoch": 2.8225659690627842,
      "eval_loss": 0.4721684753894806,
      "eval_runtime": 118.0382,
      "eval_samples_per_second": 48.899,
      "eval_steps_per_second": 0.474,
      "eval_token_acc": 0.6906583381543229,
      "step": 1550
    },
    {
      "epoch": 2.831665150136488,
      "grad_norm": 1.0572860374958588,
      "learning_rate": 3.071661729988584e-07,
      "loss": 0.6085397720336914,
      "memory(GiB)": 77.52,
      "step": 1555,
      "token_acc": 0.7432788613600422,
      "train_speed(iter/s)": 0.126385
    },
    {
      "epoch": 2.840764331210191,
      "grad_norm": 0.977034680594488,
      "learning_rate": 2.747604045743102e-07,
      "loss": 0.6142263889312745,
      "memory(GiB)": 77.52,
      "step": 1560,
      "token_acc": 0.7400581959262852,
      "train_speed(iter/s)": 0.124515
    },
    {
      "epoch": 2.8498635122838945,
      "grad_norm": 0.9902282597829868,
      "learning_rate": 2.4414883903565834e-07,
      "loss": 0.6152991771697998,
      "memory(GiB)": 77.52,
      "step": 1565,
      "token_acc": 0.8156277436347673,
      "train_speed(iter/s)": 0.122739
    },
    {
      "epoch": 2.858962693357598,
      "grad_norm": 1.112609715887069,
      "learning_rate": 2.15334260803286e-07,
      "loss": 0.6211013793945312,
      "memory(GiB)": 77.52,
      "step": 1570,
      "token_acc": 0.7968069666182874,
      "train_speed(iter/s)": 0.121013
    },
    {
      "epoch": 2.868061874431301,
      "grad_norm": 1.007653504358626,
      "learning_rate": 1.8831929084406119e-07,
      "loss": 0.6160074234008789,
      "memory(GiB)": 77.52,
      "step": 1575,
      "token_acc": 0.7956026058631922,
      "train_speed(iter/s)": 0.119343
    },
    {
      "epoch": 2.8771610555050047,
      "grad_norm": 1.0328729828726175,
      "learning_rate": 1.631063864329274e-07,
      "loss": 0.6106714725494384,
      "memory(GiB)": 77.52,
      "step": 1580,
      "token_acc": 0.8102600140548137,
      "train_speed(iter/s)": 0.11774
    },
    {
      "epoch": 2.886260236578708,
      "grad_norm": 0.9727986501836436,
      "learning_rate": 1.3969784092939588e-07,
      "loss": 0.6038858890533447,
      "memory(GiB)": 77.52,
      "step": 1585,
      "token_acc": 0.7294275491949911,
      "train_speed(iter/s)": 0.116161
    },
    {
      "epoch": 2.8953594176524113,
      "grad_norm": 1.0580993770834335,
      "learning_rate": 1.180957835689478e-07,
      "loss": 0.6102193832397461,
      "memory(GiB)": 77.52,
      "step": 1590,
      "token_acc": 0.7574578469520103,
      "train_speed(iter/s)": 0.114662
    },
    {
      "epoch": 2.904458598726115,
      "grad_norm": 0.9841890221890635,
      "learning_rate": 9.83021792693406e-08,
      "loss": 0.6162684917449951,
      "memory(GiB)": 77.52,
      "step": 1595,
      "token_acc": 0.7871674491392802,
      "train_speed(iter/s)": 0.113191
    },
    {
      "epoch": 2.913557779799818,
      "grad_norm": 1.0209356603903383,
      "learning_rate": 8.031882845189743e-08,
      "loss": 0.6077028751373291,
      "memory(GiB)": 77.52,
      "step": 1600,
      "token_acc": 0.7544715447154472,
      "train_speed(iter/s)": 0.111782
    },
    {
      "epoch": 2.913557779799818,
      "eval_loss": 0.4720407724380493,
      "eval_runtime": 116.4832,
      "eval_samples_per_second": 49.552,
      "eval_steps_per_second": 0.481,
      "eval_token_acc": 0.6904317853574072,
      "step": 1600
    }
  ],
  "logging_steps": 5,
  "max_steps": 1647,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.5861721952354304e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}