Model save

Browse files

Files changed (10) hide show

README.md +12 -13
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +18 -18
eval_results.json +13 -13
runs/Jan28_23-26-02_jupyter-dli/events.out.tfevents.1706484442.jupyter-dli.8865.0 +3 -0
runs/Jan28_23-26-02_jupyter-dli/events.out.tfevents.1706485392.jupyter-dli.8865.1 +3 -0
train_results.json +6 -6
trainer_state.json +44 -60
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6874
-- Rewards/chosen: 0.0803
-- Rewards/rejected: 0.0298
-- Rewards/accuracies: 1.0
-- Rewards/margins: 0.0505
-- Logps/rejected: -101.0604
-- Logps/chosen: -102.9630
-- Logits/rejected: -2.2160
-- Logits/chosen: -2.1724
 ## Model description
@@ -60,10 +60,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6931        | 0.8   | 1    | 0.6931          | 0.0            | 0.0              | 0.0                | 0.0             | -101.3584      | -103.7664    | -2.2157         | -2.1717       |
-| 0.6931        | 1.6   | 2    | 0.6948          | 0.0296         | 0.0079           | 0.5                | 0.0217          | -101.2790      | -103.4700    | -2.2147         | -2.1715       |
-| 0.6931        | 2.4   | 3    | 0.6913          | 0.0277         | 0.0090           | 0.75               | 0.0188          | -101.2689      | -103.4891    | -2.2153         | -2.1709       |
-| 0.6931        | 4.0   | 5    | 0.6874          | 0.0803         | 0.0298           | 1.0                | 0.0505          | -101.0604      | -102.9630    | -2.2160         | -2.1724       |
 ### Framework versions

 This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6843
+- Rewards/chosen: 0.0440
+- Rewards/rejected: 0.0071
+- Rewards/accuracies: 0.5
+- Rewards/margins: 0.0369
+- Logps/rejected: -132.8740
+- Logps/chosen: -190.5722
+- Logits/rejected: -2.2999
+- Logits/chosen: -2.2747
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6931        | 0.55  | 1    | 0.6931          | 0.0            | 0.0              | 0.0                | 0.0             | -132.9451      | -191.0126    | -2.3015         | -2.2762       |
+| 0.6931        | 1.66  | 3    | 0.6928          | 0.0185         | -0.0111          | 0.5                | 0.0296          | -133.0566      | -190.8279    | -2.3016         | -2.2755       |
+| 0.6931        | 2.76  | 5    | 0.6843          | 0.0440         | 0.0071           | 0.5                | 0.0369          | -132.8740      | -190.5722    | -2.2999         | -2.2747       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -16,10 +16,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "q_proj",
-    "o_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c85a9785f9eb434dc9c53abbc8850cebbf70813cbc5cdaaee5b484364b861dc6
 size 109086672

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cb25de8d283b4d3824b2d6f79e594ba446eb8d6e26b9965b1a4a2302946c695
 size 109086672

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.1724095344543457,
-    "eval_logits/rejected": -2.2160496711730957,
-    "eval_logps/chosen": -102.96302795410156,
-    "eval_logps/rejected": -101.06044006347656,
-    "eval_loss": 0.6873850226402283,
-    "eval_rewards/accuracies": 1.0,
-    "eval_rewards/chosen": 0.08033924549818039,
-    "eval_rewards/margins": 0.05054035410284996,
-    "eval_rewards/rejected": 0.02979888767004013,
-    "eval_runtime": 6.0716,
     "eval_samples": 30,
-    "eval_samples_per_second": 4.941,
-    "eval_steps_per_second": 0.165,
-    "train_loss": 0.6922631859779358,
-    "train_runtime": 883.8621,
-    "train_samples": 626,
-    "train_samples_per_second": 3.541,
-    "train_steps_per_second": 0.006
 }

 {
+    "epoch": 2.76,
+    "eval_logits/chosen": -2.274653911590576,
+    "eval_logits/rejected": -2.2999308109283447,
+    "eval_logps/chosen": -190.57220458984375,
+    "eval_logps/rejected": -132.8740234375,
+    "eval_loss": 0.68434077501297,
+    "eval_rewards/accuracies": 0.5,
+    "eval_rewards/chosen": 0.04404526203870773,
+    "eval_rewards/margins": 0.03693275526165962,
+    "eval_rewards/rejected": 0.0071125030517578125,
+    "eval_runtime": 6.6846,
     "eval_samples": 30,
+    "eval_samples_per_second": 4.488,
+    "eval_steps_per_second": 0.15,
+    "train_loss": 0.6927925229072571,
+    "train_runtime": 943.7212,
+    "train_samples": 922,
+    "train_samples_per_second": 4.885,
+    "train_steps_per_second": 0.005
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.1724095344543457,
-    "eval_logits/rejected": -2.2160496711730957,
-    "eval_logps/chosen": -102.96302795410156,
-    "eval_logps/rejected": -101.06044006347656,
-    "eval_loss": 0.6873850226402283,
-    "eval_rewards/accuracies": 1.0,
-    "eval_rewards/chosen": 0.08033924549818039,
-    "eval_rewards/margins": 0.05054035410284996,
-    "eval_rewards/rejected": 0.02979888767004013,
-    "eval_runtime": 6.0716,
     "eval_samples": 30,
-    "eval_samples_per_second": 4.941,
-    "eval_steps_per_second": 0.165
 }

 {
+    "epoch": 2.76,
+    "eval_logits/chosen": -2.274653911590576,
+    "eval_logits/rejected": -2.2999308109283447,
+    "eval_logps/chosen": -190.57220458984375,
+    "eval_logps/rejected": -132.8740234375,
+    "eval_loss": 0.68434077501297,
+    "eval_rewards/accuracies": 0.5,
+    "eval_rewards/chosen": 0.04404526203870773,
+    "eval_rewards/margins": 0.03693275526165962,
+    "eval_rewards/rejected": 0.0071125030517578125,
+    "eval_runtime": 6.6846,
     "eval_samples": 30,
+    "eval_samples_per_second": 4.488,
+    "eval_steps_per_second": 0.15
 }

runs/Jan28_23-26-02_jupyter-dli/events.out.tfevents.1706484442.jupyter-dli.8865.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e38ec1850ba6948e7834bd1ecf020e66cabf371e08273f7569b49604edd9d8cb
+size 7537

runs/Jan28_23-26-02_jupyter-dli/events.out.tfevents.1706485392.jupyter-dli.8865.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95cc5d6cbc6f4a1c8879f422c1889917e6aebef9a6138a3db09df604f6d89c49
+size 815

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.6922631859779358,
-    "train_runtime": 883.8621,
-    "train_samples": 626,
-    "train_samples_per_second": 3.541,
-    "train_steps_per_second": 0.006
 }

 {
+    "epoch": 2.76,
+    "train_loss": 0.6927925229072571,
+    "train_runtime": 943.7212,
+    "train_samples": 922,
+    "train_samples_per_second": 4.885,
+    "train_steps_per_second": 0.005
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 100,
   "global_step": 5,
   "is_hyper_param_search": false,
@@ -9,12 +9,12 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.8,
       "learning_rate": 5e-07,
-      "logits/chosen": -2.3972699642181396,
-      "logits/rejected": -2.39332914352417,
-      "logps/chosen": -153.26783752441406,
-      "logps/rejected": -146.77935791015625,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -23,77 +23,61 @@
       "step": 1
     },
     {
-      "epoch": 0.8,
-      "eval_logits/chosen": -2.1716835498809814,
-      "eval_logits/rejected": -2.2157046794891357,
-      "eval_logps/chosen": -103.76641845703125,
-      "eval_logps/rejected": -101.35842895507812,
       "eval_loss": 0.6931473016738892,
       "eval_rewards/accuracies": 0.0,
       "eval_rewards/chosen": 0.0,
       "eval_rewards/margins": 0.0,
       "eval_rewards/rejected": 0.0,
-      "eval_runtime": 6.5465,
-      "eval_samples_per_second": 4.583,
-      "eval_steps_per_second": 0.153,
       "step": 1
     },
     {
-      "epoch": 1.6,
-      "eval_logits/chosen": -2.1715452671051025,
-      "eval_logits/rejected": -2.2146592140197754,
-      "eval_logps/chosen": -103.4699935913086,
-      "eval_logps/rejected": -101.27898406982422,
-      "eval_loss": 0.694814920425415,
       "eval_rewards/accuracies": 0.5,
-      "eval_rewards/chosen": 0.02964324876666069,
-      "eval_rewards/margins": 0.021698763594031334,
-      "eval_rewards/rejected": 0.007944487035274506,
-      "eval_runtime": 6.0506,
-      "eval_samples_per_second": 4.958,
-      "eval_steps_per_second": 0.165,
-      "step": 2
-    },
-    {
-      "epoch": 2.4,
-      "eval_logits/chosen": -2.170850992202759,
-      "eval_logits/rejected": -2.215348482131958,
-      "eval_logps/chosen": -103.48912811279297,
-      "eval_logps/rejected": -101.26887512207031,
-      "eval_loss": 0.6913403868675232,
-      "eval_rewards/accuracies": 0.75,
-      "eval_rewards/chosen": 0.027730178087949753,
-      "eval_rewards/margins": 0.018774602562189102,
-      "eval_rewards/rejected": 0.00895557552576065,
-      "eval_runtime": 6.0481,
-      "eval_samples_per_second": 4.96,
-      "eval_steps_per_second": 0.165,
       "step": 3
     },
     {
-      "epoch": 4.0,
-      "eval_logits/chosen": -2.1724095344543457,
-      "eval_logits/rejected": -2.2160496711730957,
-      "eval_logps/chosen": -102.96302795410156,
-      "eval_logps/rejected": -101.06044006347656,
-      "eval_loss": 0.6873850226402283,
-      "eval_rewards/accuracies": 1.0,
-      "eval_rewards/chosen": 0.08033924549818039,
-      "eval_rewards/margins": 0.05054035410284996,
-      "eval_rewards/rejected": 0.02979888767004013,
-      "eval_runtime": 6.0751,
-      "eval_samples_per_second": 4.938,
-      "eval_steps_per_second": 0.165,
       "step": 5
     },
     {
-      "epoch": 4.0,
       "step": 5,
       "total_flos": 0.0,
-      "train_loss": 0.6922631859779358,
-      "train_runtime": 883.8621,
-      "train_samples_per_second": 3.541,
-      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.7586206896551726,
   "eval_steps": 100,
   "global_step": 5,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.55,
       "learning_rate": 5e-07,
+      "logits/chosen": -2.442253589630127,
+      "logits/rejected": -2.4321861267089844,
+      "logps/chosen": -136.51828002929688,
+      "logps/rejected": -126.99198913574219,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.55,
+      "eval_logits/chosen": -2.2761800289154053,
+      "eval_logits/rejected": -2.3014957904815674,
+      "eval_logps/chosen": -191.0126495361328,
+      "eval_logps/rejected": -132.9451446533203,
       "eval_loss": 0.6931473016738892,
       "eval_rewards/accuracies": 0.0,
       "eval_rewards/chosen": 0.0,
       "eval_rewards/margins": 0.0,
       "eval_rewards/rejected": 0.0,
+      "eval_runtime": 7.3415,
+      "eval_samples_per_second": 4.086,
+      "eval_steps_per_second": 0.136,
       "step": 1
     },
     {
+      "epoch": 1.66,
+      "eval_logits/chosen": -2.2754929065704346,
+      "eval_logits/rejected": -2.3016197681427,
+      "eval_logps/chosen": -190.82786560058594,
+      "eval_logps/rejected": -133.05657958984375,
+      "eval_loss": 0.6928330659866333,
       "eval_rewards/accuracies": 0.5,
+      "eval_rewards/chosen": 0.018478775396943092,
+      "eval_rewards/margins": 0.029622457921504974,
+      "eval_rewards/rejected": -0.011143684387207031,
+      "eval_runtime": 6.7101,
+      "eval_samples_per_second": 4.471,
+      "eval_steps_per_second": 0.149,
       "step": 3
     },
     {
+      "epoch": 2.76,
+      "eval_logits/chosen": -2.274653911590576,
+      "eval_logits/rejected": -2.2999308109283447,
+      "eval_logps/chosen": -190.57220458984375,
+      "eval_logps/rejected": -132.8740234375,
+      "eval_loss": 0.68434077501297,
+      "eval_rewards/accuracies": 0.5,
+      "eval_rewards/chosen": 0.04404526203870773,
+      "eval_rewards/margins": 0.03693275526165962,
+      "eval_rewards/rejected": 0.0071125030517578125,
+      "eval_runtime": 6.6968,
+      "eval_samples_per_second": 4.48,
+      "eval_steps_per_second": 0.149,
       "step": 5
     },
     {
+      "epoch": 2.76,
       "step": 5,
       "total_flos": 0.0,
+      "train_loss": 0.6927925229072571,
+      "train_runtime": 943.7212,
+      "train_samples_per_second": 4.885,
+      "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1679b26c1e5cc6b5a159fba09aee53f44a4515086460ae0d7e21b31df550a03
 size 5752

 version https://git-lfs.github.com/spec/v1
+oid sha256:937607f6ae2ef92e6f4666a16242306f8a950f78c01ae53da59393fcb7964c6d
 size 5752