Training in progress, step 7500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6f3d2ee2d998af1140cd807dca278a2d638e32c8832a185b3c1c335accaf4d9
 size 1783055976

 version https://git-lfs.github.com/spec/v1
+oid sha256:48ab6fbe729d04037d979e3727d665bb8a3d92ea87dfd2ed84a826f73114e2ff
 size 1783055976

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f3cfb5931120bdb0cf5880d22e5d65a167fb333a2b6082dadeb74986b21b2c6
 size 3566173562

 version https://git-lfs.github.com/spec/v1
+oid sha256:34887632667319441e15da8fbef52c84ef86e33be3a881d2c79ccd5c4dfd7e52
 size 3566173562

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c07c9483d2aaa0e0aa4859fa05bacc55a60e0f30ff9c95a3b76854e880483a96
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cfe3540f24c66f9bc38a546448a9e5d9989705fafc8d4b37aa5dafd0c7460f2
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65756de75e6bd7eadc99b49bf68e2f0250c3d3583565151c3f9ae8bcb8dc720a
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:a43c200beec982be6ba6814f2f475edee50b971e23470ab6b587b0a72dccb9b7
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ce0422a403e43a28bbd9bd594119fd94d3cecadc3ec09cc0340aa8a5d6e984c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:af2924a0eb31db835ecc1090391e433a4e9097b02bdc25d6cb879aecfffdd0e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.015656680314073006,
   "eval_steps": 500,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1100,6 +1100,84 @@
       "eval_samples_per_second": 6.19,
       "eval_steps_per_second": 6.19,
       "step": 7000
     }
   ],
   "logging_steps": 50,
@@ -1119,7 +1197,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.6591354871808e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.016775014622221078,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.19,
       "eval_steps_per_second": 6.19,
       "step": 7000
+    },
+    {
+      "epoch": 0.015768513744887816,
+      "grad_norm": 0.754082977771759,
+      "learning_rate": 8.758915480006959e-06,
+      "loss": 0.3346,
+      "step": 7050
+    },
+    {
+      "epoch": 0.015880347175702622,
+      "grad_norm": 1.140832781791687,
+      "learning_rate": 8.821044260543255e-06,
+      "loss": 0.3276,
+      "step": 7100
+    },
+    {
+      "epoch": 0.015992180606517428,
+      "grad_norm": 1.2793915271759033,
+      "learning_rate": 8.883173041079549e-06,
+      "loss": 0.3247,
+      "step": 7150
+    },
+    {
+      "epoch": 0.016104014037332234,
+      "grad_norm": 1.4779784679412842,
+      "learning_rate": 8.945301821615845e-06,
+      "loss": 0.3184,
+      "step": 7200
+    },
+    {
+      "epoch": 0.016215847468147044,
+      "grad_norm": 0.8328399062156677,
+      "learning_rate": 9.007430602152143e-06,
+      "loss": 0.3283,
+      "step": 7250
+    },
+    {
+      "epoch": 0.01632768089896185,
+      "grad_norm": 1.057673454284668,
+      "learning_rate": 9.069559382688437e-06,
+      "loss": 0.3214,
+      "step": 7300
+    },
+    {
+      "epoch": 0.016439514329776656,
+      "grad_norm": 1.005010724067688,
+      "learning_rate": 9.131688163224733e-06,
+      "loss": 0.314,
+      "step": 7350
+    },
+    {
+      "epoch": 0.016551347760591466,
+      "grad_norm": 1.0946522951126099,
+      "learning_rate": 9.193816943761029e-06,
+      "loss": 0.3425,
+      "step": 7400
+    },
+    {
+      "epoch": 0.016663181191406272,
+      "grad_norm": 0.7940588593482971,
+      "learning_rate": 9.255945724297325e-06,
+      "loss": 0.3276,
+      "step": 7450
+    },
+    {
+      "epoch": 0.016775014622221078,
+      "grad_norm": 0.7163941264152527,
+      "learning_rate": 9.318074504833619e-06,
+      "loss": 0.3222,
+      "step": 7500
+    },
+    {
+      "epoch": 0.016775014622221078,
+      "eval_loss": 0.328526109457016,
+      "eval_runtime": 1452.7965,
+      "eval_samples_per_second": 6.218,
+      "eval_steps_per_second": 6.218,
+      "step": 7500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 8.206216593408e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null