Training in progress, step 9, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +3 -3
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +23 -23
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "up_proj",
     "k_proj",
-    "gate_proj",
     "o_proj",
     "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "v_proj",
     "k_proj",
     "o_proj",
+    "gate_proj",
+    "q_proj",
     "down_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91675e0edb8fc212240b19dbe4c0dfe4bdd9b5aabe5562193896fdc75be5b749
 size 97307544

 version https://git-lfs.github.com/spec/v1
+oid sha256:1456fe05d4a5f61e4112aa90db1cce20673480e548d9f151a4ab5a551cf4e7a7
 size 97307544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcd3defc66f8366a1638dad92d39c903c00068597515a3d9f671e77030721a16
 size 49846260

 version https://git-lfs.github.com/spec/v1
+oid sha256:42169ad320d4e6831462a4b4e3ff65fbb1ddee54d9b0ad98a74b29f02985694c
 size 49846260

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.11428571428571428,
-      "grad_norm": 0.297858864068985,
       "learning_rate": 3.3333333333333333e-06,
       "loss": 0.9229,
       "step": 1
@@ -18,73 +18,73 @@
     {
       "epoch": 0.11428571428571428,
       "eval_loss": 0.9428475499153137,
-      "eval_runtime": 1.1726,
-      "eval_samples_per_second": 12.792,
-      "eval_steps_per_second": 1.706,
       "step": 1
     },
     {
       "epoch": 0.22857142857142856,
-      "grad_norm": 0.28549230098724365,
       "learning_rate": 6.666666666666667e-06,
       "loss": 0.934,
       "step": 2
     },
     {
       "epoch": 0.34285714285714286,
-      "grad_norm": 0.29542049765586853,
       "learning_rate": 1e-05,
-      "loss": 0.9051,
       "step": 3
     },
     {
       "epoch": 0.45714285714285713,
-      "grad_norm": 0.31487610936164856,
       "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.9611,
       "step": 4
     },
     {
       "epoch": 0.5714285714285714,
-      "grad_norm": 0.28305381536483765,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.8858,
       "step": 5
     },
     {
       "epoch": 0.5714285714285714,
-      "eval_loss": 0.9421737194061279,
-      "eval_runtime": 1.1755,
-      "eval_samples_per_second": 12.761,
-      "eval_steps_per_second": 1.701,
       "step": 5
     },
     {
       "epoch": 0.6857142857142857,
-      "grad_norm": 0.27843713760375977,
       "learning_rate": 2e-05,
-      "loss": 0.8866,
       "step": 6
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.29819053411483765,
       "learning_rate": 2.3333333333333336e-05,
-      "loss": 0.946,
       "step": 7
     },
     {
       "epoch": 0.9142857142857143,
-      "grad_norm": 0.28852030634880066,
       "learning_rate": 2.6666666666666667e-05,
-      "loss": 0.9269,
       "step": 8
     },
     {
       "epoch": 1.0285714285714285,
-      "grad_norm": 0.29183101654052734,
       "learning_rate": 3e-05,
-      "loss": 0.9571,
       "step": 9
     }
   ],

   "log_history": [
     {
       "epoch": 0.11428571428571428,
+      "grad_norm": 0.2845376431941986,
       "learning_rate": 3.3333333333333333e-06,
       "loss": 0.9229,
       "step": 1
     {
       "epoch": 0.11428571428571428,
       "eval_loss": 0.9428475499153137,
+      "eval_runtime": 1.1757,
+      "eval_samples_per_second": 12.759,
+      "eval_steps_per_second": 1.701,
       "step": 1
     },
     {
       "epoch": 0.22857142857142856,
+      "grad_norm": 0.2736399173736572,
       "learning_rate": 6.666666666666667e-06,
       "loss": 0.934,
       "step": 2
     },
     {
       "epoch": 0.34285714285714286,
+      "grad_norm": 0.2849612534046173,
       "learning_rate": 1e-05,
+      "loss": 0.9062,
       "step": 3
     },
     {
       "epoch": 0.45714285714285713,
+      "grad_norm": 0.2999660074710846,
       "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.961,
       "step": 4
     },
     {
       "epoch": 0.5714285714285714,
+      "grad_norm": 0.28077682852745056,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.8859,
       "step": 5
     },
     {
       "epoch": 0.5714285714285714,
+      "eval_loss": 0.9408887624740601,
+      "eval_runtime": 1.173,
+      "eval_samples_per_second": 12.788,
+      "eval_steps_per_second": 1.705,
       "step": 5
     },
     {
       "epoch": 0.6857142857142857,
+      "grad_norm": 0.26969340443611145,
       "learning_rate": 2e-05,
+      "loss": 0.8855,
       "step": 6
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.29263830184936523,
       "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.947,
       "step": 7
     },
     {
       "epoch": 0.9142857142857143,
+      "grad_norm": 0.2760126292705536,
       "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.9271,
       "step": 8
     },
     {
       "epoch": 1.0285714285714285,
+      "grad_norm": 0.28623923659324646,
       "learning_rate": 3e-05,
+      "loss": 0.9583,
       "step": 9
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e99230b71d0796f311dacff19bbd23ce0c156c91f56dcad6d2641c4a67d801b4
 size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ee7c94ea541326b0c9a6f9078d58f0ff70cdf993db3cbf645a326d138dce960
 size 6712