Step 100 checkpoint

Browse files

Files changed (7) hide show

config.json +1 -1
model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +49 -131
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -5,7 +5,7 @@
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
-  "dtype": "float32",
   "eos_token_id": 151645,
   "head_dim": 128,
   "hidden_act": "silu",

   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
+  "dtype": "bfloat16",
   "eos_token_id": 151645,
   "head_dim": 128,
   "hidden_act": "silu",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42c583567aff6763908a4a70c95ed07632a1b3817042ddbb9ad01b7314f01f4c
-size 2383149616

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a7c66986e22717fe2077f209ad1a22a84e7795f69a1c6341faf45ce6fb7cb2
+size 1191592464

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec3ad5c8c396ff7e98c5b9125046e29d8fa5acd301c9b9b512936681dfbc2daf
-size 4766499383

 version https://git-lfs.github.com/spec/v1
+oid sha256:58704f65ae428ad54e53b5abff9d2a289b2e10cdb85a077e65126e7ffdd13fd8
+size 2383380107

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4a9f217e852f439efa6bd32fde98d6867f11aa6ea13ddc021ba10af6a0b0934
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:098b29492211804ab324a36f37466821d948280bb74fce4ba895c03f13ecd878
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23e0a0c2405202381e8a2ca3d56409fadc1c3b478272da41961a648af745ca8f
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f324ed80934e0c10732eee7128f865a736e9560cf0a916edb7195451de6caad4
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,188 +1,106 @@
 {
   "best_global_step": 100,
-  "best_metric": 0.5881340509962598,
-  "best_model_checkpoint": "./experiments/qwen3-0.6b-router-lr1e-5-ep2-batch16-20250917-10:12/checkpoint-100",
-  "epoch": 0.046484601975595584,
   "eval_steps": 100,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.00023242300987797793,
-      "grad_norm": 436.9029846191406,
       "learning_rate": 0.0,
-      "loss": 3.2609,
       "step": 1
     },
     {
-      "epoch": 0.002324230098779779,
-      "grad_norm": 212.0109405517578,
       "learning_rate": 9.000000000000001e-07,
-      "loss": 2.0978,
       "step": 10
     },
     {
-      "epoch": 0.004648460197559558,
-      "grad_norm": 199.0899658203125,
       "learning_rate": 1.9000000000000002e-06,
-      "loss": 1.849,
       "step": 20
     },
     {
-      "epoch": 0.006972690296339338,
-      "grad_norm": 195.7217559814453,
       "learning_rate": 2.9e-06,
-      "loss": 1.8741,
       "step": 30
     },
     {
-      "epoch": 0.009296920395119116,
-      "grad_norm": 200.8784942626953,
       "learning_rate": 3.900000000000001e-06,
-      "loss": 1.8469,
       "step": 40
     },
     {
-      "epoch": 0.011621150493898896,
-      "grad_norm": 219.49838256835938,
       "learning_rate": 4.9000000000000005e-06,
-      "loss": 1.8834,
       "step": 50
     },
     {
-      "epoch": 0.013945380592678676,
-      "grad_norm": 131.50750732421875,
       "learning_rate": 5.9e-06,
-      "loss": 1.9368,
       "step": 60
     },
     {
-      "epoch": 0.016269610691458453,
-      "grad_norm": 75.23955535888672,
       "learning_rate": 6.9e-06,
-      "loss": 1.9056,
       "step": 70
     },
     {
-      "epoch": 0.018593840790238233,
-      "grad_norm": 68.3598861694336,
       "learning_rate": 7.9e-06,
-      "loss": 1.5776,
       "step": 80
     },
     {
-      "epoch": 0.020918070889018012,
-      "grad_norm": 77.42771911621094,
       "learning_rate": 8.900000000000001e-06,
-      "loss": 1.4744,
       "step": 90
     },
     {
-      "epoch": 0.023242300987797792,
-      "grad_norm": 69.98379516601562,
       "learning_rate": 9.9e-06,
-      "loss": 1.7182,
       "step": 100
     },
     {
-      "epoch": 0.023242300987797792,
-      "eval_accuracy": 0.5880728879072336,
-      "eval_f1": 0.5881340509962598,
-      "eval_loss": 0.7600654363632202,
-      "eval_precision": 0.5882081113096272,
-      "eval_recall": 0.5880728879072336,
-      "eval_runtime": 21.2273,
-      "eval_samples_per_second": 85.315,
-      "eval_steps_per_second": 10.694,
       "step": 100
-    },
-    {
-      "epoch": 0.02556653108657757,
-      "grad_norm": 41.54159927368164,
-      "learning_rate": 9.989419233482248e-06,
-      "loss": 1.3959,
-      "step": 110
-    },
-    {
-      "epoch": 0.02789076118535735,
-      "grad_norm": 28.72027015686035,
-      "learning_rate": 9.977662826240301e-06,
-      "loss": 1.5775,
-      "step": 120
-    },
-    {
-      "epoch": 0.03021499128413713,
-      "grad_norm": 25.74260902404785,
-      "learning_rate": 9.965906418998354e-06,
-      "loss": 1.3155,
-      "step": 130
-    },
-    {
-      "epoch": 0.03253922138291691,
-      "grad_norm": 63.235862731933594,
-      "learning_rate": 9.954150011756408e-06,
-      "loss": 1.496,
-      "step": 140
-    },
-    {
-      "epoch": 0.034863451481696686,
-      "grad_norm": 57.411529541015625,
-      "learning_rate": 9.94239360451446e-06,
-      "loss": 1.5263,
-      "step": 150
-    },
-    {
-      "epoch": 0.037187681580476466,
-      "grad_norm": 44.55034255981445,
-      "learning_rate": 9.930637197272515e-06,
-      "loss": 1.2156,
-      "step": 160
-    },
-    {
-      "epoch": 0.039511911679256245,
-      "grad_norm": 44.788516998291016,
-      "learning_rate": 9.918880790030567e-06,
-      "loss": 1.3689,
-      "step": 170
-    },
-    {
-      "epoch": 0.041836141778036025,
-      "grad_norm": 24.783201217651367,
-      "learning_rate": 9.907124382788622e-06,
-      "loss": 1.3457,
-      "step": 180
-    },
-    {
-      "epoch": 0.044160371876815804,
-      "grad_norm": 43.4869384765625,
-      "learning_rate": 9.895367975546673e-06,
-      "loss": 1.392,
-      "step": 190
-    },
-    {
-      "epoch": 0.046484601975595584,
-      "grad_norm": 21.64163589477539,
-      "learning_rate": 9.883611568304728e-06,
-      "loss": 1.2688,
-      "step": 200
-    },
-    {
-      "epoch": 0.046484601975595584,
-      "eval_accuracy": 0.5394809497515185,
-      "eval_f1": 0.4162900198419928,
-      "eval_loss": 0.7904826998710632,
-      "eval_precision": 0.5986918178262048,
-      "eval_recall": 0.5394809497515185,
-      "eval_runtime": 23.8222,
-      "eval_samples_per_second": 76.021,
-      "eval_steps_per_second": 9.529,
-      "step": 200
     }
   ],
   "logging_steps": 10,
-  "max_steps": 8606,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 100,
@@ -198,8 +116,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4883735577526272.0,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_global_step": 100,
+  "best_metric": 0.5420321197439284,
+  "best_model_checkpoint": "./experiments/qwen3-0.6b-router-lr1e-5-ep2-batch20-20250917-11:04/checkpoint-100",
+  "epoch": 0.02905287623474724,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0002905287623474724,
+      "grad_norm": 422.0,
       "learning_rate": 0.0,
+      "loss": 4.1917,
       "step": 1
     },
     {
+      "epoch": 0.002905287623474724,
+      "grad_norm": 260.0,
       "learning_rate": 9.000000000000001e-07,
+      "loss": 3.1155,
       "step": 10
     },
     {
+      "epoch": 0.005810575246949448,
+      "grad_norm": 362.0,
       "learning_rate": 1.9000000000000002e-06,
+      "loss": 3.6823,
       "step": 20
     },
     {
+      "epoch": 0.008715862870424172,
+      "grad_norm": 362.0,
       "learning_rate": 2.9e-06,
+      "loss": 3.5894,
       "step": 30
     },
     {
+      "epoch": 0.011621150493898896,
+      "grad_norm": 286.0,
       "learning_rate": 3.900000000000001e-06,
+      "loss": 2.7935,
       "step": 40
     },
     {
+      "epoch": 0.01452643811737362,
+      "grad_norm": 108.5,
       "learning_rate": 4.9000000000000005e-06,
+      "loss": 2.1466,
       "step": 50
     },
     {
+      "epoch": 0.017431725740848343,
+      "grad_norm": 171.0,
       "learning_rate": 5.9e-06,
+      "loss": 2.174,
       "step": 60
     },
     {
+      "epoch": 0.02033701336432307,
+      "grad_norm": 182.0,
       "learning_rate": 6.9e-06,
+      "loss": 1.9269,
       "step": 70
     },
     {
+      "epoch": 0.023242300987797792,
+      "grad_norm": 152.0,
       "learning_rate": 7.9e-06,
+      "loss": 2.0153,
       "step": 80
     },
     {
+      "epoch": 0.026147588611272515,
+      "grad_norm": 124.5,
       "learning_rate": 8.900000000000001e-06,
+      "loss": 1.7756,
       "step": 90
     },
     {
+      "epoch": 0.02905287623474724,
+      "grad_norm": 220.0,
       "learning_rate": 9.9e-06,
+      "loss": 1.7598,
       "step": 100
     },
     {
+      "epoch": 0.02905287623474724,
+      "eval_accuracy": 0.5466593042517945,
+      "eval_f1": 0.5420321197439284,
+      "eval_loss": 0.8443426489830017,
+      "eval_precision": 0.5556366418233831,
+      "eval_recall": 0.5466593042517945,
+      "eval_runtime": 17.2355,
+      "eval_samples_per_second": 105.074,
+      "eval_steps_per_second": 10.56,
       "step": 100
     }
   ],
   "logging_steps": 10,
+  "max_steps": 6884,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 3475251530219520.0,
+  "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47e77b9b45b10de55d9b76f3adeba1743c0110e08e02f549e795b1c0fe6ff3f3
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:45c8c810968be5df474115cdf0e9ea73d835ad3273bd65a53866a284726a0e67
 size 5905