Ar4l commited on Sep 17, 2024

Commit

e8f5476

verified ·

1 Parent(s): fbd9e64

Upload folder using huggingface_hub

Browse files

Files changed (21) hide show

all_results.json +17 -0
checkpoint-2295/config.json +33 -0
checkpoint-2295/model.safetensors +3 -0
checkpoint-2295/optimizer.pt +3 -0
checkpoint-2295/rng_state.pth +3 -0
checkpoint-2295/scheduler.pt +3 -0
checkpoint-2295/special_tokens_map.json +30 -0
checkpoint-2295/tokenizer.json +0 -0
checkpoint-2295/tokenizer_config.json +67 -0
checkpoint-2295/trainer_state.json +125 -0
checkpoint-2295/training_args.bin +3 -0
config.json +33 -0
eval_results.json +11 -0
model.safetensors +3 -0
predictions.txt +205 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +67 -0
train_results.json +9 -0
trainer_state.json +134 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.7598039507865906,
+    "eval_f1": 0.8403908794788274,
+    "eval_loss": 1.1580651998519897,
+    "eval_mcc": 0.40096662922574366,
+    "eval_runtime": 0.3548,
+    "eval_samples": 204,
+    "eval_samples_per_second": 574.901,
+    "eval_steps_per_second": 73.272,
+    "total_flos": 1082018524016640.0,
+    "train_loss": 0.3891895601692283,
+    "train_runtime": 145.114,
+    "train_samples": 3668,
+    "train_samples_per_second": 126.383,
+    "train_steps_per_second": 15.815
+}

checkpoint-2295/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "/home/ubuntu/utah/babylm-24/data/training/models/10M_babylm_ascii/SPM-Unigram_6144/DebertaV2-Base-10M_babylm-A",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 8,
+  "pad_token_id": 3,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": null,
+  "position_biased_input": true,
+  "relative_attention": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 0,
+  "vocab_size": 6144
+}

checkpoint-2295/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2086746b661a131e39e6951aacc1e99f04aa61166fafdfb875e1bc1909d99044
+size 174103504

checkpoint-2295/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38688b91bcd26286ad5044e60dcca6a43225c94b4b1f02dcfe43f6bca44f19e5
+size 348288250

checkpoint-2295/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24bcc026cb3452a2c941d9bc23542b69acc5a6a3355de450ff213ec3cf4a3c7d
+size 14244

checkpoint-2295/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eed6eb9138c85a080ac5a2612f6b35997bd0454a5909fd854316f550db9b7e74
+size 1064

checkpoint-2295/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2295/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2295/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[PAR]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "[TAB]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

checkpoint-2295/trainer_state.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "best_metric": 0.8403908794788274,
+  "best_model_checkpoint": "/home/ubuntu/utah/babylm-24/src/evaluation/results/finetune/DebertaV2-Base-10M_babylm-A/mrpc/checkpoint-2295",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 2295,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6960784196853638,
+      "eval_f1": 0.8109756097560976,
+      "eval_loss": 0.5777735710144043,
+      "eval_mcc": 0.17012280758673753,
+      "eval_runtime": 0.347,
+      "eval_samples_per_second": 587.838,
+      "eval_steps_per_second": 74.921,
+      "step": 459
+    },
+    {
+      "epoch": 1.0893246187363834,
+      "grad_norm": 2.380143880844116,
+      "learning_rate": 1.5642701525054468e-05,
+      "loss": 0.6139,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.720588207244873,
+      "eval_f1": 0.8235294117647058,
+      "eval_loss": 0.5808757543563843,
+      "eval_mcc": 0.26984949202435965,
+      "eval_runtime": 0.3355,
+      "eval_samples_per_second": 608.081,
+      "eval_steps_per_second": 77.5,
+      "step": 918
+    },
+    {
+      "epoch": 2.178649237472767,
+      "grad_norm": 6.764563083648682,
+      "learning_rate": 1.1285403050108935e-05,
+      "loss": 0.5239,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7598039507865906,
+      "eval_f1": 0.8382838283828383,
+      "eval_loss": 0.6974886655807495,
+      "eval_mcc": 0.4042253913596411,
+      "eval_runtime": 0.3292,
+      "eval_samples_per_second": 619.643,
+      "eval_steps_per_second": 78.974,
+      "step": 1377
+    },
+    {
+      "epoch": 3.2679738562091503,
+      "grad_norm": 30.021303176879883,
+      "learning_rate": 6.928104575163399e-06,
+      "loss": 0.3466,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7549019455909729,
+      "eval_f1": 0.8387096774193549,
+      "eval_loss": 1.0106741189956665,
+      "eval_mcc": 0.3852755834560997,
+      "eval_runtime": 0.3222,
+      "eval_samples_per_second": 633.08,
+      "eval_steps_per_second": 80.687,
+      "step": 1836
+    },
+    {
+      "epoch": 4.357298474945534,
+      "grad_norm": 28.98902702331543,
+      "learning_rate": 2.570806100217865e-06,
+      "loss": 0.2213,
+      "step": 2000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7598039507865906,
+      "eval_f1": 0.8403908794788274,
+      "eval_loss": 1.1580651998519897,
+      "eval_mcc": 0.40096662922574366,
+      "eval_runtime": 0.3547,
+      "eval_samples_per_second": 575.054,
+      "eval_steps_per_second": 73.291,
+      "step": 2295
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2295,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1082018524016640.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2295/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ef98e8ba9bb3c1de25599b0c0ba0b280afed542abc00ad571a5363e04ceb366
+size 5368

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "/home/ubuntu/utah/babylm-24/data/training/models/10M_babylm_ascii/SPM-Unigram_6144/DebertaV2-Base-10M_babylm-A",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 8,
+  "pad_token_id": 3,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": null,
+  "position_biased_input": true,
+  "relative_attention": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 0,
+  "vocab_size": 6144
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.7598039507865906,
+    "eval_f1": 0.8403908794788274,
+    "eval_loss": 1.1580651998519897,
+    "eval_mcc": 0.40096662922574366,
+    "eval_runtime": 0.3548,
+    "eval_samples": 204,
+    "eval_samples_per_second": 574.901,
+    "eval_steps_per_second": 73.272
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2086746b661a131e39e6951aacc1e99f04aa61166fafdfb875e1bc1909d99044
+size 174103504

predictions.txt ADDED Viewed

	@@ -0,0 +1,205 @@

+index	prediction
+0	1
+1	1
+2	0
+3	1
+4	1
+5	1
+6	1
+7	1
+8	1
+9	1
+10	1
+11	1
+12	1
+13	1
+14	1
+15	0
+16	1
+17	1
+18	1
+19	1
+20	1
+21	0
+22	1
+23	1
+24	0
+25	1
+26	1
+27	1
+28	1
+29	1
+30	0
+31	1
+32	1
+33	1
+34	1
+35	1
+36	1
+37	1
+38	1
+39	1
+40	1
+41	1
+42	1
+43	0
+44	1
+45	1
+46	1
+47	1
+48	1
+49	1
+50	1
+51	1
+52	1
+53	0
+54	1
+55	1
+56	1
+57	1
+58	1
+59	1
+60	1
+61	1
+62	1
+63	1
+64	0
+65	1
+66	1
+67	1
+68	1
+69	1
+70	1
+71	1
+72	1
+73	1
+74	0
+75	1
+76	0
+77	0
+78	0
+79	1
+80	1
+81	0
+82	1
+83	0
+84	0
+85	1
+86	1
+87	1
+88	1
+89	1
+90	1
+91	1
+92	1
+93	1
+94	1
+95	1
+96	1
+97	1
+98	0
+99	1
+100	0
+101	1
+102	1
+103	1
+104	1
+105	0
+106	1
+107	1
+108	1
+109	0
+110	1
+111	1
+112	0
+113	0
+114	1
+115	1
+116	1
+117	1
+118	0
+119	1
+120	1
+121	1
+122	1
+123	1
+124	1
+125	1
+126	1
+127	1
+128	1
+129	1
+130	1
+131	0
+132	1
+133	1
+134	1
+135	0
+136	0
+137	1
+138	1
+139	1
+140	1
+141	1
+142	1
+143	1
+144	1
+145	1
+146	1
+147	1
+148	1
+149	1
+150	1
+151	1
+152	0
+153	1
+154	1
+155	1
+156	1
+157	1
+158	1
+159	1
+160	1
+161	1
+162	0
+163	1
+164	1
+165	0
+166	1
+167	1
+168	1
+169	1
+170	1
+171	0
+172	1
+173	1
+174	0
+175	1
+176	1
+177	1
+178	0
+179	1
+180	1
+181	1
+182	1
+183	1
+184	0
+185	1
+186	1
+187	1
+188	0
+189	1
+190	0
+191	1
+192	1
+193	1
+194	0
+195	1
+196	1
+197	1
+198	0
+199	1
+200	1
+201	1
+202	1
+203	1

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[PAR]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "[TAB]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 5.0,
+    "total_flos": 1082018524016640.0,
+    "train_loss": 0.3891895601692283,
+    "train_runtime": 145.114,
+    "train_samples": 3668,
+    "train_samples_per_second": 126.383,
+    "train_steps_per_second": 15.815
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,134 @@

+{
+  "best_metric": 0.8403908794788274,
+  "best_model_checkpoint": "/home/ubuntu/utah/babylm-24/src/evaluation/results/finetune/DebertaV2-Base-10M_babylm-A/mrpc/checkpoint-2295",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 2295,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6960784196853638,
+      "eval_f1": 0.8109756097560976,
+      "eval_loss": 0.5777735710144043,
+      "eval_mcc": 0.17012280758673753,
+      "eval_runtime": 0.347,
+      "eval_samples_per_second": 587.838,
+      "eval_steps_per_second": 74.921,
+      "step": 459
+    },
+    {
+      "epoch": 1.0893246187363834,
+      "grad_norm": 2.380143880844116,
+      "learning_rate": 1.5642701525054468e-05,
+      "loss": 0.6139,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.720588207244873,
+      "eval_f1": 0.8235294117647058,
+      "eval_loss": 0.5808757543563843,
+      "eval_mcc": 0.26984949202435965,
+      "eval_runtime": 0.3355,
+      "eval_samples_per_second": 608.081,
+      "eval_steps_per_second": 77.5,
+      "step": 918
+    },
+    {
+      "epoch": 2.178649237472767,
+      "grad_norm": 6.764563083648682,
+      "learning_rate": 1.1285403050108935e-05,
+      "loss": 0.5239,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7598039507865906,
+      "eval_f1": 0.8382838283828383,
+      "eval_loss": 0.6974886655807495,
+      "eval_mcc": 0.4042253913596411,
+      "eval_runtime": 0.3292,
+      "eval_samples_per_second": 619.643,
+      "eval_steps_per_second": 78.974,
+      "step": 1377
+    },
+    {
+      "epoch": 3.2679738562091503,
+      "grad_norm": 30.021303176879883,
+      "learning_rate": 6.928104575163399e-06,
+      "loss": 0.3466,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7549019455909729,
+      "eval_f1": 0.8387096774193549,
+      "eval_loss": 1.0106741189956665,
+      "eval_mcc": 0.3852755834560997,
+      "eval_runtime": 0.3222,
+      "eval_samples_per_second": 633.08,
+      "eval_steps_per_second": 80.687,
+      "step": 1836
+    },
+    {
+      "epoch": 4.357298474945534,
+      "grad_norm": 28.98902702331543,
+      "learning_rate": 2.570806100217865e-06,
+      "loss": 0.2213,
+      "step": 2000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7598039507865906,
+      "eval_f1": 0.8403908794788274,
+      "eval_loss": 1.1580651998519897,
+      "eval_mcc": 0.40096662922574366,
+      "eval_runtime": 0.3547,
+      "eval_samples_per_second": 575.054,
+      "eval_steps_per_second": 73.291,
+      "step": 2295
+    },
+    {
+      "epoch": 5.0,
+      "step": 2295,
+      "total_flos": 1082018524016640.0,
+      "train_loss": 0.3891895601692283,
+      "train_runtime": 145.114,
+      "train_samples_per_second": 126.383,
+      "train_steps_per_second": 15.815
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2295,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1082018524016640.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ef98e8ba9bb3c1de25599b0c0ba0b280afed542abc00ad571a5363e04ceb366
+size 5368