model trained

Files changed (6) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +426 -168
training_args.bin +2 -2

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9419b0eb7839d5e42ca271954b41f67991b101009766c0844982d592f8182675
 size 1575738181

 version https://git-lfs.github.com/spec/v1
+oid sha256:20fdb5c2c4323d207318908a0c1e872739153bd4b1b3f357b7fd7f3270225435
 size 1575738181

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:472de990d8149c4c98f9c4d9fc04749f29d8f591735c97266ff7ccfb00af577d
 size 787895775

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1ae5619b0c0979a19f537880b5641b0f5fcdc9c9ff5dfa462f2489c466ddfeb
 size 787895775

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fedf0b601049d3e138f125d5ae7fc032c75040b14857ef8bae20f0d3d37de50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad5e0a56dbbaa43f9d8745ae549f2f2bd42a7d1d9f6dc982adb3cb0b96d71acb
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1183dc560918171dd71579eda592900e97fdd64a88c22c27997a4148326cda9f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:4694a64b29aceba9bc01f87f0f202f1ee1c1bba0130df96038ab6f4b43c4c590
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.319148936170213,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,347 +10,605 @@
     {
       "epoch": 0.11,
       "learning_rate": 3e-06,
-      "loss": 3.4862,
       "step": 10
     },
     {
-      "epoch": 0.21,
       "learning_rate": 6e-06,
-      "loss": 3.4466,
       "step": 20
     },
     {
-      "epoch": 0.32,
       "learning_rate": 9e-06,
-      "loss": 3.3785,
       "step": 30
     },
     {
-      "epoch": 0.43,
       "learning_rate": 1.2e-05,
-      "loss": 3.1635,
       "step": 40
     },
     {
-      "epoch": 0.53,
       "learning_rate": 1.5e-05,
-      "loss": 2.7939,
       "step": 50
     },
     {
-      "epoch": 0.64,
       "learning_rate": 1.8e-05,
-      "loss": 2.6209,
       "step": 60
     },
     {
-      "epoch": 0.74,
       "learning_rate": 2.1e-05,
-      "loss": 2.546,
       "step": 70
     },
     {
-      "epoch": 0.85,
       "learning_rate": 2.4e-05,
-      "loss": 2.4935,
       "step": 80
     },
     {
-      "epoch": 0.96,
       "learning_rate": 2.7000000000000002e-05,
-      "loss": 2.5316,
       "step": 90
     },
     {
-      "epoch": 1.06,
       "learning_rate": 3e-05,
-      "loss": 2.2506,
       "step": 100
     },
     {
-      "epoch": 1.06,
-      "eval_loss": 2.3243110179901123,
-      "eval_runtime": 30.5113,
-      "eval_samples_per_second": 5.178,
-      "eval_steps_per_second": 0.164,
       "step": 100
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 2.9642857142857144e-05,
-      "loss": 2.4025,
       "step": 110
     },
     {
-      "epoch": 1.28,
-      "learning_rate": 2.9285714285714284e-05,
-      "loss": 2.1887,
       "step": 120
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 2.892857142857143e-05,
-      "loss": 2.1512,
       "step": 130
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 2.857142857142857e-05,
-      "loss": 1.9806,
       "step": 140
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 2.8214285714285714e-05,
-      "loss": 1.9524,
       "step": 150
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 2.7857142857142858e-05,
-      "loss": 1.9475,
       "step": 160
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 2.75e-05,
-      "loss": 1.927,
       "step": 170
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 2.7142857142857144e-05,
-      "loss": 1.9126,
       "step": 180
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 2.6785714285714288e-05,
-      "loss": 1.8077,
       "step": 190
     },
     {
-      "epoch": 2.13,
-      "learning_rate": 2.6428571428571428e-05,
-      "loss": 1.4381,
       "step": 200
     },
     {
-      "epoch": 2.13,
-      "eval_loss": 1.754191279411316,
-      "eval_runtime": 31.7299,
-      "eval_samples_per_second": 4.98,
-      "eval_steps_per_second": 0.158,
       "step": 200
     },
     {
-      "epoch": 2.23,
-      "learning_rate": 2.607142857142857e-05,
-      "loss": 1.5071,
       "step": 210
     },
     {
-      "epoch": 2.34,
-      "learning_rate": 2.5714285714285714e-05,
-      "loss": 1.426,
       "step": 220
     },
     {
-      "epoch": 2.45,
-      "learning_rate": 2.5357142857142858e-05,
-      "loss": 1.4455,
       "step": 230
     },
     {
-      "epoch": 2.55,
-      "learning_rate": 2.5e-05,
-      "loss": 1.4927,
       "step": 240
     },
     {
-      "epoch": 2.66,
-      "learning_rate": 2.464285714285714e-05,
-      "loss": 1.4041,
       "step": 250
     },
     {
-      "epoch": 2.77,
-      "learning_rate": 2.4285714285714288e-05,
-      "loss": 1.4084,
       "step": 260
     },
     {
-      "epoch": 2.87,
-      "learning_rate": 2.392857142857143e-05,
-      "loss": 1.414,
       "step": 270
     },
     {
-      "epoch": 2.98,
-      "learning_rate": 2.357142857142857e-05,
-      "loss": 1.385,
       "step": 280
     },
     {
-      "epoch": 3.09,
-      "learning_rate": 2.3214285714285715e-05,
-      "loss": 1.0958,
       "step": 290
     },
     {
-      "epoch": 3.19,
-      "learning_rate": 2.2857142857142858e-05,
-      "loss": 1.0876,
       "step": 300
     },
     {
-      "epoch": 3.19,
-      "eval_loss": 1.5441479682922363,
-      "eval_runtime": 42.3423,
-      "eval_samples_per_second": 3.731,
-      "eval_steps_per_second": 0.118,
       "step": 300
     },
     {
-      "epoch": 3.3,
-      "learning_rate": 2.25e-05,
-      "loss": 1.0589,
       "step": 310
     },
     {
-      "epoch": 3.4,
-      "learning_rate": 2.2142857142857145e-05,
-      "loss": 1.137,
       "step": 320
     },
     {
-      "epoch": 3.51,
-      "learning_rate": 2.1785714285714285e-05,
-      "loss": 1.0838,
       "step": 330
     },
     {
-      "epoch": 3.62,
-      "learning_rate": 2.1428571428571428e-05,
-      "loss": 1.1054,
       "step": 340
     },
     {
-      "epoch": 3.72,
-      "learning_rate": 2.107142857142857e-05,
-      "loss": 1.0415,
       "step": 350
     },
     {
-      "epoch": 3.83,
-      "learning_rate": 2.0714285714285715e-05,
-      "loss": 1.0444,
       "step": 360
     },
     {
-      "epoch": 3.94,
-      "learning_rate": 2.0357142857142858e-05,
-      "loss": 0.9463,
       "step": 370
     },
     {
-      "epoch": 4.04,
-      "learning_rate": 1.9999999999999998e-05,
-      "loss": 1.0593,
       "step": 380
     },
     {
-      "epoch": 4.15,
-      "learning_rate": 1.9642857142857145e-05,
-      "loss": 0.8724,
       "step": 390
     },
     {
-      "epoch": 4.26,
-      "learning_rate": 1.928571428571429e-05,
-      "loss": 0.8654,
       "step": 400
     },
     {
-      "epoch": 4.26,
-      "eval_loss": 1.2680882215499878,
-      "eval_runtime": 30.013,
-      "eval_samples_per_second": 5.264,
-      "eval_steps_per_second": 0.167,
       "step": 400
     },
     {
-      "epoch": 4.36,
-      "learning_rate": 1.892857142857143e-05,
-      "loss": 0.8456,
       "step": 410
     },
     {
-      "epoch": 4.47,
-      "learning_rate": 1.8571428571428572e-05,
-      "loss": 0.8181,
       "step": 420
     },
     {
-      "epoch": 4.57,
-      "learning_rate": 1.8214285714285712e-05,
-      "loss": 0.8859,
       "step": 430
     },
     {
-      "epoch": 4.68,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 0.7514,
       "step": 440
     },
     {
-      "epoch": 4.79,
-      "learning_rate": 1.7500000000000002e-05,
-      "loss": 0.8128,
       "step": 450
     },
     {
-      "epoch": 4.89,
-      "learning_rate": 1.7142857142857142e-05,
-      "loss": 0.8051,
       "step": 460
     },
     {
-      "epoch": 5.0,
-      "learning_rate": 1.6785714285714285e-05,
-      "loss": 0.7211,
       "step": 470
     },
     {
-      "epoch": 5.11,
-      "learning_rate": 1.6428571428571432e-05,
-      "loss": 0.6213,
       "step": 480
     },
     {
-      "epoch": 5.21,
-      "learning_rate": 1.6071428571428572e-05,
-      "loss": 0.6465,
       "step": 490
     },
     {
-      "epoch": 5.32,
-      "learning_rate": 1.5714285714285715e-05,
-      "loss": 0.6749,
       "step": 500
     },
     {
-      "epoch": 5.32,
-      "eval_loss": 1.1592129468917847,
-      "eval_runtime": 26.8811,
-      "eval_samples_per_second": 5.878,
-      "eval_steps_per_second": 0.186,
       "step": 500
     }
   ],
-  "max_steps": 940,
   "num_train_epochs": 10,
-  "total_flos": 1325810169734400.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.846153846153847,
+  "global_step": 896,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.11,
       "learning_rate": 3e-06,
+      "loss": 4.0528,
       "step": 10
     },
     {
+      "epoch": 0.22,
       "learning_rate": 6e-06,
+      "loss": 4.0182,
       "step": 20
     },
     {
+      "epoch": 0.33,
       "learning_rate": 9e-06,
+      "loss": 3.9239,
       "step": 30
     },
     {
+      "epoch": 0.44,
       "learning_rate": 1.2e-05,
+      "loss": 3.5011,
       "step": 40
     },
     {
+      "epoch": 0.55,
       "learning_rate": 1.5e-05,
+      "loss": 3.2438,
       "step": 50
     },
     {
+      "epoch": 0.66,
       "learning_rate": 1.8e-05,
+      "loss": 3.1774,
       "step": 60
     },
     {
+      "epoch": 0.77,
       "learning_rate": 2.1e-05,
+      "loss": 3.1056,
       "step": 70
     },
     {
+      "epoch": 0.88,
       "learning_rate": 2.4e-05,
+      "loss": 3.0254,
       "step": 80
     },
     {
+      "epoch": 0.99,
       "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.941,
       "step": 90
     },
     {
+      "epoch": 1.1,
       "learning_rate": 3e-05,
+      "loss": 2.8396,
       "step": 100
     },
     {
+      "epoch": 1.1,
+      "eval_loss": 2.859715223312378,
+      "eval_runtime": 56.6611,
+      "eval_samples_per_second": 4.73,
+      "eval_steps_per_second": 0.088,
       "step": 100
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 2.7745,
       "step": 110
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 2.925925925925926e-05,
+      "loss": 2.6745,
       "step": 120
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 2.6359,
       "step": 130
     },
     {
+      "epoch": 1.54,
+      "learning_rate": 2.851851851851852e-05,
+      "loss": 2.5991,
       "step": 140
     },
     {
+      "epoch": 1.65,
+      "learning_rate": 2.8148148148148147e-05,
+      "loss": 2.6046,
       "step": 150
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 2.4419,
       "step": 160
     },
     {
+      "epoch": 1.87,
+      "learning_rate": 2.7407407407407408e-05,
+      "loss": 2.4514,
       "step": 170
     },
     {
+      "epoch": 1.98,
+      "learning_rate": 2.7037037037037037e-05,
+      "loss": 2.4557,
       "step": 180
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 2.1795,
       "step": 190
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 2.6296296296296296e-05,
+      "loss": 2.1014,
       "step": 200
     },
     {
+      "epoch": 2.2,
+      "eval_loss": 2.2379915714263916,
+      "eval_runtime": 62.1156,
+      "eval_samples_per_second": 4.315,
+      "eval_steps_per_second": 0.08,
       "step": 200
     },
     {
+      "epoch": 2.31,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 2.0129,
       "step": 210
     },
     {
+      "epoch": 2.42,
+      "learning_rate": 2.5555555555555557e-05,
+      "loss": 2.0986,
       "step": 220
     },
     {
+      "epoch": 2.53,
+      "learning_rate": 2.5185185185185183e-05,
+      "loss": 2.0814,
       "step": 230
     },
     {
+      "epoch": 2.64,
+      "learning_rate": 2.4814814814814816e-05,
+      "loss": 1.9973,
       "step": 240
     },
     {
+      "epoch": 2.75,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 1.959,
       "step": 250
     },
     {
+      "epoch": 2.86,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 1.9774,
       "step": 260
     },
     {
+      "epoch": 2.97,
+      "learning_rate": 2.3703703703703703e-05,
+      "loss": 1.9267,
       "step": 270
     },
     {
+      "epoch": 3.08,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 1.8192,
       "step": 280
     },
     {
+      "epoch": 3.19,
+      "learning_rate": 2.296296296296296e-05,
+      "loss": 1.6512,
       "step": 290
     },
     {
+      "epoch": 3.3,
+      "learning_rate": 2.2592592592592594e-05,
+      "loss": 1.5577,
       "step": 300
     },
     {
+      "epoch": 3.3,
+      "eval_loss": 2.048072576522827,
+      "eval_runtime": 55.3343,
+      "eval_samples_per_second": 4.843,
+      "eval_steps_per_second": 0.09,
       "step": 300
     },
     {
+      "epoch": 3.41,
+      "learning_rate": 2.222222222222222e-05,
+      "loss": 1.5442,
       "step": 310
     },
     {
+      "epoch": 3.52,
+      "learning_rate": 2.1851851851851852e-05,
+      "loss": 1.5807,
       "step": 320
     },
     {
+      "epoch": 3.63,
+      "learning_rate": 2.148148148148148e-05,
+      "loss": 1.6009,
       "step": 330
     },
     {
+      "epoch": 3.74,
+      "learning_rate": 2.111111111111111e-05,
+      "loss": 1.5485,
       "step": 340
     },
     {
+      "epoch": 3.85,
+      "learning_rate": 2.074074074074074e-05,
+      "loss": 1.6185,
       "step": 350
     },
     {
+      "epoch": 3.96,
+      "learning_rate": 2.0370370370370372e-05,
+      "loss": 1.5032,
       "step": 360
     },
     {
+      "epoch": 4.07,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 1.2841,
       "step": 370
     },
     {
+      "epoch": 4.18,
+      "learning_rate": 1.962962962962963e-05,
+      "loss": 1.2237,
       "step": 380
     },
     {
+      "epoch": 4.29,
+      "learning_rate": 1.925925925925926e-05,
+      "loss": 1.2177,
       "step": 390
     },
     {
+      "epoch": 4.4,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 1.2009,
       "step": 400
     },
     {
+      "epoch": 4.4,
+      "eval_loss": 1.8517041206359863,
+      "eval_runtime": 56.0224,
+      "eval_samples_per_second": 4.784,
+      "eval_steps_per_second": 0.089,
       "step": 400
     },
     {
+      "epoch": 4.51,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 1.1844,
       "step": 410
     },
     {
+      "epoch": 4.62,
+      "learning_rate": 1.814814814814815e-05,
+      "loss": 1.2252,
       "step": 420
     },
     {
+      "epoch": 4.73,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 1.1829,
       "step": 430
     },
     {
+      "epoch": 4.84,
+      "learning_rate": 1.740740740740741e-05,
+      "loss": 1.177,
       "step": 440
     },
     {
+      "epoch": 4.95,
+      "learning_rate": 1.7037037037037035e-05,
+      "loss": 1.194,
       "step": 450
     },
     {
+      "epoch": 5.05,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.0947,
       "step": 460
     },
     {
+      "epoch": 5.16,
+      "learning_rate": 1.6296296296296297e-05,
+      "loss": 1.0177,
       "step": 470
     },
     {
+      "epoch": 5.27,
+      "learning_rate": 1.5925925925925926e-05,
+      "loss": 0.9692,
       "step": 480
     },
     {
+      "epoch": 5.38,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.9933,
       "step": 490
     },
     {
+      "epoch": 5.49,
+      "learning_rate": 1.5185185185185186e-05,
+      "loss": 0.9451,
       "step": 500
     },
     {
+      "epoch": 5.49,
+      "eval_loss": 1.683161973953247,
+      "eval_runtime": 51.3302,
+      "eval_samples_per_second": 5.221,
+      "eval_steps_per_second": 0.097,
       "step": 500
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.9674,
+      "step": 510
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 1.4444444444444444e-05,
+      "loss": 0.9519,
+      "step": 520
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 1.4074074074074073e-05,
+      "loss": 0.9108,
+      "step": 530
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 1.3703703703703704e-05,
+      "loss": 0.8963,
+      "step": 540
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.8255,
+      "step": 550
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.773,
+      "step": 560
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 1.2592592592592592e-05,
+      "loss": 0.7945,
+      "step": 570
+    },
+    {
+      "epoch": 6.37,
+      "learning_rate": 1.2222222222222222e-05,
+      "loss": 0.7398,
+      "step": 580
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 1.1851851851851852e-05,
+      "loss": 0.7495,
+      "step": 590
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 1.148148148148148e-05,
+      "loss": 0.7491,
+      "step": 600
+    },
+    {
+      "epoch": 6.59,
+      "eval_loss": 1.6291619539260864,
+      "eval_runtime": 56.8018,
+      "eval_samples_per_second": 4.718,
+      "eval_steps_per_second": 0.088,
+      "step": 600
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 1.111111111111111e-05,
+      "loss": 0.7644,
+      "step": 610
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 1.074074074074074e-05,
+      "loss": 0.7328,
+      "step": 620
+    },
+    {
+      "epoch": 6.92,
+      "learning_rate": 1.037037037037037e-05,
+      "loss": 0.7294,
+      "step": 630
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.6665,
+      "step": 640
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 9.62962962962963e-06,
+      "loss": 0.6109,
+      "step": 650
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.6219,
+      "step": 660
+    },
+    {
+      "epoch": 7.36,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.592,
+      "step": 670
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 8.518518518518517e-06,
+      "loss": 0.5722,
+      "step": 680
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 8.148148148148148e-06,
+      "loss": 0.5538,
+      "step": 690
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 7.777777777777777e-06,
+      "loss": 0.5546,
+      "step": 700
+    },
+    {
+      "epoch": 7.69,
+      "eval_loss": 1.5901862382888794,
+      "eval_runtime": 52.5596,
+      "eval_samples_per_second": 5.099,
+      "eval_steps_per_second": 0.095,
+      "step": 700
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.546,
+      "step": 710
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 7.037037037037037e-06,
+      "loss": 0.5322,
+      "step": 720
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.588,
+      "step": 730
+    },
+    {
+      "epoch": 8.13,
+      "learning_rate": 6.296296296296296e-06,
+      "loss": 0.4936,
+      "step": 740
+    },
+    {
+      "epoch": 8.24,
+      "learning_rate": 5.925925925925926e-06,
+      "loss": 0.4625,
+      "step": 750
+    },
+    {
+      "epoch": 8.35,
+      "learning_rate": 5.555555555555555e-06,
+      "loss": 0.4577,
+      "step": 760
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 5.185185185185185e-06,
+      "loss": 0.4619,
+      "step": 770
+    },
+    {
+      "epoch": 8.57,
+      "learning_rate": 4.814814814814815e-06,
+      "loss": 0.5216,
+      "step": 780
+    },
+    {
+      "epoch": 8.68,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.4771,
+      "step": 790
+    },
+    {
+      "epoch": 8.79,
+      "learning_rate": 4.074074074074074e-06,
+      "loss": 0.452,
+      "step": 800
+    },
+    {
+      "epoch": 8.79,
+      "eval_loss": 1.4902839660644531,
+      "eval_runtime": 54.4822,
+      "eval_samples_per_second": 4.919,
+      "eval_steps_per_second": 0.092,
+      "step": 800
+    },
+    {
+      "epoch": 8.9,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.4645,
+      "step": 810
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.4459,
+      "step": 820
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 2.962962962962963e-06,
+      "loss": 0.4157,
+      "step": 830
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 2.5925925925925925e-06,
+      "loss": 0.3948,
+      "step": 840
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.4186,
+      "step": 850
+    },
+    {
+      "epoch": 9.45,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.3841,
+      "step": 860
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 1.4814814814814815e-06,
+      "loss": 0.4086,
+      "step": 870
+    },
+    {
+      "epoch": 9.67,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.4018,
+      "step": 880
+    },
+    {
+      "epoch": 9.78,
+      "learning_rate": 7.407407407407407e-07,
+      "loss": 0.405,
+      "step": 890
     }
   ],
+  "max_steps": 910,
   "num_train_epochs": 10,
+  "total_flos": 4163675271142080.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b898b254fd52b5f76b47c7563c394df3170917e3ca8dbd76b57a13829029972d
-size 3247

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f5cae42c017fd963e96f9cfd9dfe587553a09e551e3e4633e4e56493842b807
+size 3311