End of training

Files changed (4) hide show

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
     "train_loss": -0.00011151888082939157,
-    "train_runtime": 1741.1334,
     "train_samples": 3,
-    "train_samples_per_second": 0.046,
     "train_steps_per_second": 0.011
 }

 {
     "total_flos": 0.0,
     "train_loss": -0.00011151888082939157,
+    "train_runtime": 1866.5324,
     "train_samples": 3,
+    "train_samples_per_second": 0.043,
     "train_steps_per_second": 0.011
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56d1a1e99e1f798867617ece5a57a07faf17266c01a3511a424e935140830212
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:63073bffd65cd38e2813613d2c79a4a61e3a6b4d1f1c85be273e56e884cfd0c3
 size 1976163472

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
     "train_loss": -0.00011151888082939157,
-    "train_runtime": 1741.1334,
     "train_samples": 3,
-    "train_samples_per_second": 0.046,
     "train_steps_per_second": 0.011
 }

 {
     "total_flos": 0.0,
     "train_loss": -0.00011151888082939157,
+    "train_runtime": 1866.5324,
     "train_samples": 3,
+    "train_samples_per_second": 0.043,
     "train_steps_per_second": 0.011
 }

trainer_state.json CHANGED Viewed

@@ -335,7 +335,7 @@
       "completions/min_length": 77.5,
       "completions/min_terminated_length": 77.5,
       "epoch": 17.666666666666668,
-      "grad_norm": 5.5854172706604,
       "kl": 0.0,
       "learning_rate": 3.013156219837776e-08,
       "loss": -0.0011,
@@ -374,7 +374,7 @@
       "completions/min_length": 89.5,
       "completions/min_terminated_length": 89.5,
       "epoch": 19.666666666666668,
-      "grad_norm": 7.510116120101884e-06,
       "kl": 9.199701889173184e-09,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
@@ -404,8 +404,8 @@
       "step": 20,
       "total_flos": 0.0,
       "train_loss": -0.00011151888082939157,
-      "train_runtime": 1741.1334,
-      "train_samples_per_second": 0.046,
       "train_steps_per_second": 0.011
     }
   ],

       "completions/min_length": 77.5,
       "completions/min_terminated_length": 77.5,
       "epoch": 17.666666666666668,
+      "grad_norm": 5.54299783706665,
       "kl": 0.0,
       "learning_rate": 3.013156219837776e-08,
       "loss": -0.0011,
       "completions/min_length": 89.5,
       "completions/min_terminated_length": 89.5,
       "epoch": 19.666666666666668,
+      "grad_norm": 7.460154847649392e-06,
       "kl": 9.199701889173184e-09,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
       "step": 20,
       "total_flos": 0.0,
       "train_loss": -0.00011151888082939157,
+      "train_runtime": 1866.5324,
+      "train_samples_per_second": 0.043,
       "train_steps_per_second": 0.011
     }
   ],