Maxime Turlot commited on Apr 29

Commit

2e30d56

1 Parent(s): bf39c9c

Add RedSecureBERT weights & tokenizer v1.0

Files changed (34) hide show

checkpoint-3600/config.json +27 -0
checkpoint-3600/merges.txt +0 -0
checkpoint-3600/model.safetensors +3 -0
checkpoint-3600/optimizer.pt +3 -0
checkpoint-3600/rng_state.pth +3 -0
checkpoint-3600/scaler.pt +3 -0
checkpoint-3600/scheduler.pt +3 -0
checkpoint-3600/special_tokens_map.json +51 -0
checkpoint-3600/tokenizer.json +0 -0
checkpoint-3600/tokenizer_config.json +59 -0
checkpoint-3600/trainer_state.json +439 -0
checkpoint-3600/training_args.bin +3 -0
checkpoint-3600/vocab.json +0 -0
checkpoint-3804/config.json +27 -0
checkpoint-3804/merges.txt +0 -0
checkpoint-3804/model.safetensors +3 -0
checkpoint-3804/optimizer.pt +3 -0
checkpoint-3804/rng_state.pth +3 -0
checkpoint-3804/scaler.pt +3 -0
checkpoint-3804/scheduler.pt +3 -0
checkpoint-3804/special_tokens_map.json +51 -0
checkpoint-3804/tokenizer.json +0 -0
checkpoint-3804/tokenizer_config.json +59 -0
checkpoint-3804/trainer_state.json +453 -0
checkpoint-3804/training_args.bin +3 -0
checkpoint-3804/vocab.json +0 -0
config.json +27 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +59 -0
training_args.bin +3 -0
vocab.json +0 -0

checkpoint-3600/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

checkpoint-3600/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3600/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bde84d20a445792ba3a143328eb646557707ffd76c8af96089c3e55bcf92b44
+size 498612824

checkpoint-3600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93c8ca463bb4b02571797dd40657e6a96e2d8e417c5e85113620a29cfa8d61f4
+size 997345530

checkpoint-3600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a1aa251bb255176db30dd4c1c3d83f585db66d30eaa13d0ce5faeab8760db28
+size 14244

checkpoint-3600/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21129cbeed301366e7d1fbac08af9534a54bee0e76cd5c5edced4c89537c6a18
+size 988

checkpoint-3600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6087704a70421504c6fbfaf61abcc4dd4445be298f97b1388cedc65c56f0bd84
+size 1064

checkpoint-3600/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-3600/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3600/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_len": 512,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-3600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,439 @@

+{
+  "best_global_step": 3600,
+  "best_metric": 0.9848043970255416,
+  "best_model_checkpoint": "/workspace/AI/Trend_Primus-FineWeb_Filtering-pipeline/securebert_finetuned/offensive_vs_rest/checkpoint-3600",
+  "epoch": 2.8391167192429023,
+  "eval_steps": 300,
+  "global_step": 3600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07886435331230283,
+      "grad_norm": 1.846426010131836,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.2696,
+      "step": 100
+    },
+    {
+      "epoch": 0.15772870662460567,
+      "grad_norm": 5.872535228729248,
+      "learning_rate": 1.1314285714285715e-05,
+      "loss": 0.1452,
+      "step": 200
+    },
+    {
+      "epoch": 0.23659305993690852,
+      "grad_norm": 1.9362571239471436,
+      "learning_rate": 1.702857142857143e-05,
+      "loss": 0.0772,
+      "step": 300
+    },
+    {
+      "epoch": 0.23659305993690852,
+      "eval_f1": 0.7849643551523007,
+      "eval_f2": 0.8937426210153483,
+      "eval_loss": 0.04672536998987198,
+      "eval_precision": 0.6525862068965518,
+      "eval_recall": 0.9847154471544716,
+      "eval_runtime": 24.5242,
+      "eval_samples_per_second": 735.193,
+      "eval_steps_per_second": 11.499,
+      "step": 300
+    },
+    {
+      "epoch": 0.31545741324921134,
+      "grad_norm": 5.031215667724609,
+      "learning_rate": 1.9722061378112335e-05,
+      "loss": 0.0442,
+      "step": 400
+    },
+    {
+      "epoch": 0.3943217665615142,
+      "grad_norm": 1.0280592441558838,
+      "learning_rate": 1.9143022582513028e-05,
+      "loss": 0.0364,
+      "step": 500
+    },
+    {
+      "epoch": 0.47318611987381703,
+      "grad_norm": 1.5782877206802368,
+      "learning_rate": 1.8563983786913724e-05,
+      "loss": 0.0305,
+      "step": 600
+    },
+    {
+      "epoch": 0.47318611987381703,
+      "eval_f1": 0.8569032979318055,
+      "eval_f2": 0.9358403027898174,
+      "eval_loss": 0.02299814671278,
+      "eval_precision": 0.7512864493996569,
+      "eval_recall": 0.9970731707317073,
+      "eval_runtime": 24.8283,
+      "eval_samples_per_second": 726.188,
+      "eval_steps_per_second": 11.358,
+      "step": 600
+    },
+    {
+      "epoch": 0.5520504731861199,
+      "grad_norm": 1.143188714981079,
+      "learning_rate": 1.798494499131442e-05,
+      "loss": 0.0311,
+      "step": 700
+    },
+    {
+      "epoch": 0.6309148264984227,
+      "grad_norm": 1.4598668813705444,
+      "learning_rate": 1.7405906195715113e-05,
+      "loss": 0.0273,
+      "step": 800
+    },
+    {
+      "epoch": 0.7097791798107256,
+      "grad_norm": 0.9353739619255066,
+      "learning_rate": 1.682686740011581e-05,
+      "loss": 0.0232,
+      "step": 900
+    },
+    {
+      "epoch": 0.7097791798107256,
+      "eval_f1": 0.9401762250734271,
+      "eval_f2": 0.9688415955142092,
+      "eval_loss": 0.01698540337383747,
+      "eval_precision": 0.8959929286977019,
+      "eval_recall": 0.9889430894308943,
+      "eval_runtime": 24.5846,
+      "eval_samples_per_second": 733.386,
+      "eval_steps_per_second": 11.471,
+      "step": 900
+    },
+    {
+      "epoch": 0.7886435331230284,
+      "grad_norm": 1.172129511833191,
+      "learning_rate": 1.6247828604516505e-05,
+      "loss": 0.0232,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8675078864353313,
+      "grad_norm": 0.7822222113609314,
+      "learning_rate": 1.56687898089172e-05,
+      "loss": 0.0217,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9463722397476341,
+      "grad_norm": 0.9808489680290222,
+      "learning_rate": 1.5089751013317892e-05,
+      "loss": 0.0167,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9463722397476341,
+      "eval_f1": 0.9422098936662043,
+      "eval_f2": 0.9726995036273387,
+      "eval_loss": 0.013439147733151913,
+      "eval_precision": 0.8954305799648506,
+      "eval_recall": 0.9941463414634146,
+      "eval_runtime": 25.9737,
+      "eval_samples_per_second": 694.163,
+      "eval_steps_per_second": 10.857,
+      "step": 1200
+    },
+    {
+      "epoch": 1.025236593059937,
+      "grad_norm": 0.4348973035812378,
+      "learning_rate": 1.4510712217718588e-05,
+      "loss": 0.0162,
+      "step": 1300
+    },
+    {
+      "epoch": 1.1041009463722398,
+      "grad_norm": 0.4453680217266083,
+      "learning_rate": 1.3931673422119283e-05,
+      "loss": 0.0135,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1829652996845426,
+      "grad_norm": 1.2444119453430176,
+      "learning_rate": 1.3352634626519977e-05,
+      "loss": 0.0093,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1829652996845426,
+      "eval_f1": 0.9642065251821349,
+      "eval_f2": 0.9794710084304009,
+      "eval_loss": 0.014342821203172207,
+      "eval_precision": 0.939796233405372,
+      "eval_recall": 0.9899186991869918,
+      "eval_runtime": 24.7342,
+      "eval_samples_per_second": 728.949,
+      "eval_steps_per_second": 11.401,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2618296529968454,
+      "grad_norm": 1.2138129472732544,
+      "learning_rate": 1.2773595830920673e-05,
+      "loss": 0.0106,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3406940063091484,
+      "grad_norm": 3.329469680786133,
+      "learning_rate": 1.2194557035321368e-05,
+      "loss": 0.0101,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4195583596214512,
+      "grad_norm": 0.7627914547920227,
+      "learning_rate": 1.1615518239722064e-05,
+      "loss": 0.0118,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4195583596214512,
+      "eval_f1": 0.9513143568206563,
+      "eval_f2": 0.9767471572760955,
+      "eval_loss": 0.01234134566038847,
+      "eval_precision": 0.9117471675611211,
+      "eval_recall": 0.9944715447154472,
+      "eval_runtime": 25.1145,
+      "eval_samples_per_second": 717.911,
+      "eval_steps_per_second": 11.229,
+      "step": 1800
+    },
+    {
+      "epoch": 1.498422712933754,
+      "grad_norm": 0.9591709971427917,
+      "learning_rate": 1.1036479444122757e-05,
+      "loss": 0.0093,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5772870662460567,
+      "grad_norm": 0.4569564759731293,
+      "learning_rate": 1.0457440648523451e-05,
+      "loss": 0.0094,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6561514195583595,
+      "grad_norm": 0.7519212365150452,
+      "learning_rate": 9.88419224088014e-06,
+      "loss": 0.0094,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6561514195583595,
+      "eval_f1": 0.9646464646464646,
+      "eval_f2": 0.9819420345736135,
+      "eval_loss": 0.012274333275854588,
+      "eval_precision": 0.9371358478994174,
+      "eval_recall": 0.9938211382113821,
+      "eval_runtime": 24.295,
+      "eval_samples_per_second": 742.127,
+      "eval_steps_per_second": 11.607,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7350157728706623,
+      "grad_norm": 0.06854517012834549,
+      "learning_rate": 9.305153445280834e-06,
+      "loss": 0.0101,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8138801261829653,
+      "grad_norm": 1.0062646865844727,
+      "learning_rate": 8.726114649681529e-06,
+      "loss": 0.0106,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8927444794952681,
+      "grad_norm": 0.1466594785451889,
+      "learning_rate": 8.147075854082223e-06,
+      "loss": 0.0079,
+      "step": 2400
+    },
+    {
+      "epoch": 1.8927444794952681,
+      "eval_f1": 0.9619496855345911,
+      "eval_f2": 0.9813923644529997,
+      "eval_loss": 0.011407392099499702,
+      "eval_precision": 0.9312024353120244,
+      "eval_recall": 0.9947967479674796,
+      "eval_runtime": 26.3939,
+      "eval_samples_per_second": 683.112,
+      "eval_steps_per_second": 10.684,
+      "step": 2400
+    },
+    {
+      "epoch": 1.971608832807571,
+      "grad_norm": 0.26108694076538086,
+      "learning_rate": 7.568037058482919e-06,
+      "loss": 0.0094,
+      "step": 2500
+    },
+    {
+      "epoch": 2.050473186119874,
+      "grad_norm": 0.024676967412233353,
+      "learning_rate": 6.988998262883614e-06,
+      "loss": 0.0073,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1293375394321767,
+      "grad_norm": 1.5645203590393066,
+      "learning_rate": 6.409959467284309e-06,
+      "loss": 0.0041,
+      "step": 2700
+    },
+    {
+      "epoch": 2.1293375394321767,
+      "eval_f1": 0.9681407513076558,
+      "eval_f2": 0.9830050212437235,
+      "eval_loss": 0.011503643356263638,
+      "eval_precision": 0.9443413729128015,
+      "eval_recall": 0.9931707317073171,
+      "eval_runtime": 25.3938,
+      "eval_samples_per_second": 710.014,
+      "eval_steps_per_second": 11.105,
+      "step": 2700
+    },
+    {
+      "epoch": 2.2082018927444795,
+      "grad_norm": 0.933417022228241,
+      "learning_rate": 5.830920671685003e-06,
+      "loss": 0.0045,
+      "step": 2800
+    },
+    {
+      "epoch": 2.2870662460567823,
+      "grad_norm": 0.7878792881965637,
+      "learning_rate": 5.251881876085698e-06,
+      "loss": 0.0037,
+      "step": 2900
+    },
+    {
+      "epoch": 2.365930599369085,
+      "grad_norm": 0.09505568444728851,
+      "learning_rate": 4.6728430804863925e-06,
+      "loss": 0.0035,
+      "step": 3000
+    },
+    {
+      "epoch": 2.365930599369085,
+      "eval_f1": 0.9727229223161589,
+      "eval_f2": 0.9839292629404931,
+      "eval_loss": 0.013037587516009808,
+      "eval_precision": 0.9546023794614903,
+      "eval_recall": 0.9915447154471545,
+      "eval_runtime": 26.4329,
+      "eval_samples_per_second": 682.105,
+      "eval_steps_per_second": 10.669,
+      "step": 3000
+    },
+    {
+      "epoch": 2.444794952681388,
+      "grad_norm": 0.08773530274629593,
+      "learning_rate": 4.093804284887088e-06,
+      "loss": 0.0029,
+      "step": 3100
+    },
+    {
+      "epoch": 2.5236593059936907,
+      "grad_norm": 0.060790352523326874,
+      "learning_rate": 3.5147654892877827e-06,
+      "loss": 0.0039,
+      "step": 3200
+    },
+    {
+      "epoch": 2.6025236593059935,
+      "grad_norm": 1.6132954359054565,
+      "learning_rate": 2.9357266936884776e-06,
+      "loss": 0.0043,
+      "step": 3300
+    },
+    {
+      "epoch": 2.6025236593059935,
+      "eval_f1": 0.975609756097561,
+      "eval_f2": 0.9833732289577538,
+      "eval_loss": 0.014466837979853153,
+      "eval_precision": 0.9629394995248653,
+      "eval_recall": 0.9886178861788618,
+      "eval_runtime": 26.7793,
+      "eval_samples_per_second": 673.282,
+      "eval_steps_per_second": 10.531,
+      "step": 3300
+    },
+    {
+      "epoch": 2.6813880126182967,
+      "grad_norm": 0.24806837737560272,
+      "learning_rate": 2.356687898089172e-06,
+      "loss": 0.0047,
+      "step": 3400
+    },
+    {
+      "epoch": 2.7602523659305995,
+      "grad_norm": 3.355231523513794,
+      "learning_rate": 1.777649102489867e-06,
+      "loss": 0.0031,
+      "step": 3500
+    },
+    {
+      "epoch": 2.8391167192429023,
+      "grad_norm": 0.44861266016960144,
+      "learning_rate": 1.1986103068905617e-06,
+      "loss": 0.004,
+      "step": 3600
+    },
+    {
+      "epoch": 2.8391167192429023,
+      "eval_f1": 0.9762820512820513,
+      "eval_f2": 0.9848043970255416,
+      "eval_loss": 0.01391169149428606,
+      "eval_precision": 0.9624012638230648,
+      "eval_recall": 0.9905691056910569,
+      "eval_runtime": 26.114,
+      "eval_samples_per_second": 690.435,
+      "eval_steps_per_second": 10.799,
+      "step": 3600
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3804,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2122157786968064e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd899628771df754e988ea5f7948893d128805d0ba8d41adf70edde62e2a37f1
+size 5496

checkpoint-3600/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3804/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

checkpoint-3804/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3804/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71172f6e2b5f78b654120da8b3b00a70dcd3697c4375cfee025ebf1f3cc0cf93
+size 498612824

checkpoint-3804/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61fae529836705567644118b09f9966479a0a067dd564171dffcbbd1d60f0624
+size 997345530

checkpoint-3804/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0221df9a77e7e8d8a3eae8354c62cbbede66a8ce42095aafba80c2afab538970
+size 14244

checkpoint-3804/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:678047e33b981c0fce5eb0814029e08bb444a7c31df70503532fa7964ac9d661
+size 988

checkpoint-3804/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9502a8b983bae7ca729013ff02a191e5739e07e4f66f9b75110407439647582
+size 1064

checkpoint-3804/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-3804/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3804/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_len": 512,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-3804/trainer_state.json ADDED Viewed

	@@ -0,0 +1,453 @@

+{
+  "best_global_step": 3600,
+  "best_metric": 0.9848043970255416,
+  "best_model_checkpoint": "/workspace/AI/Trend_Primus-FineWeb_Filtering-pipeline/securebert_finetuned/offensive_vs_rest/checkpoint-3600",
+  "epoch": 3.0,
+  "eval_steps": 300,
+  "global_step": 3804,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07886435331230283,
+      "grad_norm": 1.846426010131836,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.2696,
+      "step": 100
+    },
+    {
+      "epoch": 0.15772870662460567,
+      "grad_norm": 5.872535228729248,
+      "learning_rate": 1.1314285714285715e-05,
+      "loss": 0.1452,
+      "step": 200
+    },
+    {
+      "epoch": 0.23659305993690852,
+      "grad_norm": 1.9362571239471436,
+      "learning_rate": 1.702857142857143e-05,
+      "loss": 0.0772,
+      "step": 300
+    },
+    {
+      "epoch": 0.23659305993690852,
+      "eval_f1": 0.7849643551523007,
+      "eval_f2": 0.8937426210153483,
+      "eval_loss": 0.04672536998987198,
+      "eval_precision": 0.6525862068965518,
+      "eval_recall": 0.9847154471544716,
+      "eval_runtime": 24.5242,
+      "eval_samples_per_second": 735.193,
+      "eval_steps_per_second": 11.499,
+      "step": 300
+    },
+    {
+      "epoch": 0.31545741324921134,
+      "grad_norm": 5.031215667724609,
+      "learning_rate": 1.9722061378112335e-05,
+      "loss": 0.0442,
+      "step": 400
+    },
+    {
+      "epoch": 0.3943217665615142,
+      "grad_norm": 1.0280592441558838,
+      "learning_rate": 1.9143022582513028e-05,
+      "loss": 0.0364,
+      "step": 500
+    },
+    {
+      "epoch": 0.47318611987381703,
+      "grad_norm": 1.5782877206802368,
+      "learning_rate": 1.8563983786913724e-05,
+      "loss": 0.0305,
+      "step": 600
+    },
+    {
+      "epoch": 0.47318611987381703,
+      "eval_f1": 0.8569032979318055,
+      "eval_f2": 0.9358403027898174,
+      "eval_loss": 0.02299814671278,
+      "eval_precision": 0.7512864493996569,
+      "eval_recall": 0.9970731707317073,
+      "eval_runtime": 24.8283,
+      "eval_samples_per_second": 726.188,
+      "eval_steps_per_second": 11.358,
+      "step": 600
+    },
+    {
+      "epoch": 0.5520504731861199,
+      "grad_norm": 1.143188714981079,
+      "learning_rate": 1.798494499131442e-05,
+      "loss": 0.0311,
+      "step": 700
+    },
+    {
+      "epoch": 0.6309148264984227,
+      "grad_norm": 1.4598668813705444,
+      "learning_rate": 1.7405906195715113e-05,
+      "loss": 0.0273,
+      "step": 800
+    },
+    {
+      "epoch": 0.7097791798107256,
+      "grad_norm": 0.9353739619255066,
+      "learning_rate": 1.682686740011581e-05,
+      "loss": 0.0232,
+      "step": 900
+    },
+    {
+      "epoch": 0.7097791798107256,
+      "eval_f1": 0.9401762250734271,
+      "eval_f2": 0.9688415955142092,
+      "eval_loss": 0.01698540337383747,
+      "eval_precision": 0.8959929286977019,
+      "eval_recall": 0.9889430894308943,
+      "eval_runtime": 24.5846,
+      "eval_samples_per_second": 733.386,
+      "eval_steps_per_second": 11.471,
+      "step": 900
+    },
+    {
+      "epoch": 0.7886435331230284,
+      "grad_norm": 1.172129511833191,
+      "learning_rate": 1.6247828604516505e-05,
+      "loss": 0.0232,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8675078864353313,
+      "grad_norm": 0.7822222113609314,
+      "learning_rate": 1.56687898089172e-05,
+      "loss": 0.0217,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9463722397476341,
+      "grad_norm": 0.9808489680290222,
+      "learning_rate": 1.5089751013317892e-05,
+      "loss": 0.0167,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9463722397476341,
+      "eval_f1": 0.9422098936662043,
+      "eval_f2": 0.9726995036273387,
+      "eval_loss": 0.013439147733151913,
+      "eval_precision": 0.8954305799648506,
+      "eval_recall": 0.9941463414634146,
+      "eval_runtime": 25.9737,
+      "eval_samples_per_second": 694.163,
+      "eval_steps_per_second": 10.857,
+      "step": 1200
+    },
+    {
+      "epoch": 1.025236593059937,
+      "grad_norm": 0.4348973035812378,
+      "learning_rate": 1.4510712217718588e-05,
+      "loss": 0.0162,
+      "step": 1300
+    },
+    {
+      "epoch": 1.1041009463722398,
+      "grad_norm": 0.4453680217266083,
+      "learning_rate": 1.3931673422119283e-05,
+      "loss": 0.0135,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1829652996845426,
+      "grad_norm": 1.2444119453430176,
+      "learning_rate": 1.3352634626519977e-05,
+      "loss": 0.0093,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1829652996845426,
+      "eval_f1": 0.9642065251821349,
+      "eval_f2": 0.9794710084304009,
+      "eval_loss": 0.014342821203172207,
+      "eval_precision": 0.939796233405372,
+      "eval_recall": 0.9899186991869918,
+      "eval_runtime": 24.7342,
+      "eval_samples_per_second": 728.949,
+      "eval_steps_per_second": 11.401,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2618296529968454,
+      "grad_norm": 1.2138129472732544,
+      "learning_rate": 1.2773595830920673e-05,
+      "loss": 0.0106,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3406940063091484,
+      "grad_norm": 3.329469680786133,
+      "learning_rate": 1.2194557035321368e-05,
+      "loss": 0.0101,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4195583596214512,
+      "grad_norm": 0.7627914547920227,
+      "learning_rate": 1.1615518239722064e-05,
+      "loss": 0.0118,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4195583596214512,
+      "eval_f1": 0.9513143568206563,
+      "eval_f2": 0.9767471572760955,
+      "eval_loss": 0.01234134566038847,
+      "eval_precision": 0.9117471675611211,
+      "eval_recall": 0.9944715447154472,
+      "eval_runtime": 25.1145,
+      "eval_samples_per_second": 717.911,
+      "eval_steps_per_second": 11.229,
+      "step": 1800
+    },
+    {
+      "epoch": 1.498422712933754,
+      "grad_norm": 0.9591709971427917,
+      "learning_rate": 1.1036479444122757e-05,
+      "loss": 0.0093,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5772870662460567,
+      "grad_norm": 0.4569564759731293,
+      "learning_rate": 1.0457440648523451e-05,
+      "loss": 0.0094,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6561514195583595,
+      "grad_norm": 0.7519212365150452,
+      "learning_rate": 9.88419224088014e-06,
+      "loss": 0.0094,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6561514195583595,
+      "eval_f1": 0.9646464646464646,
+      "eval_f2": 0.9819420345736135,
+      "eval_loss": 0.012274333275854588,
+      "eval_precision": 0.9371358478994174,
+      "eval_recall": 0.9938211382113821,
+      "eval_runtime": 24.295,
+      "eval_samples_per_second": 742.127,
+      "eval_steps_per_second": 11.607,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7350157728706623,
+      "grad_norm": 0.06854517012834549,
+      "learning_rate": 9.305153445280834e-06,
+      "loss": 0.0101,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8138801261829653,
+      "grad_norm": 1.0062646865844727,
+      "learning_rate": 8.726114649681529e-06,
+      "loss": 0.0106,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8927444794952681,
+      "grad_norm": 0.1466594785451889,
+      "learning_rate": 8.147075854082223e-06,
+      "loss": 0.0079,
+      "step": 2400
+    },
+    {
+      "epoch": 1.8927444794952681,
+      "eval_f1": 0.9619496855345911,
+      "eval_f2": 0.9813923644529997,
+      "eval_loss": 0.011407392099499702,
+      "eval_precision": 0.9312024353120244,
+      "eval_recall": 0.9947967479674796,
+      "eval_runtime": 26.3939,
+      "eval_samples_per_second": 683.112,
+      "eval_steps_per_second": 10.684,
+      "step": 2400
+    },
+    {
+      "epoch": 1.971608832807571,
+      "grad_norm": 0.26108694076538086,
+      "learning_rate": 7.568037058482919e-06,
+      "loss": 0.0094,
+      "step": 2500
+    },
+    {
+      "epoch": 2.050473186119874,
+      "grad_norm": 0.024676967412233353,
+      "learning_rate": 6.988998262883614e-06,
+      "loss": 0.0073,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1293375394321767,
+      "grad_norm": 1.5645203590393066,
+      "learning_rate": 6.409959467284309e-06,
+      "loss": 0.0041,
+      "step": 2700
+    },
+    {
+      "epoch": 2.1293375394321767,
+      "eval_f1": 0.9681407513076558,
+      "eval_f2": 0.9830050212437235,
+      "eval_loss": 0.011503643356263638,
+      "eval_precision": 0.9443413729128015,
+      "eval_recall": 0.9931707317073171,
+      "eval_runtime": 25.3938,
+      "eval_samples_per_second": 710.014,
+      "eval_steps_per_second": 11.105,
+      "step": 2700
+    },
+    {
+      "epoch": 2.2082018927444795,
+      "grad_norm": 0.933417022228241,
+      "learning_rate": 5.830920671685003e-06,
+      "loss": 0.0045,
+      "step": 2800
+    },
+    {
+      "epoch": 2.2870662460567823,
+      "grad_norm": 0.7878792881965637,
+      "learning_rate": 5.251881876085698e-06,
+      "loss": 0.0037,
+      "step": 2900
+    },
+    {
+      "epoch": 2.365930599369085,
+      "grad_norm": 0.09505568444728851,
+      "learning_rate": 4.6728430804863925e-06,
+      "loss": 0.0035,
+      "step": 3000
+    },
+    {
+      "epoch": 2.365930599369085,
+      "eval_f1": 0.9727229223161589,
+      "eval_f2": 0.9839292629404931,
+      "eval_loss": 0.013037587516009808,
+      "eval_precision": 0.9546023794614903,
+      "eval_recall": 0.9915447154471545,
+      "eval_runtime": 26.4329,
+      "eval_samples_per_second": 682.105,
+      "eval_steps_per_second": 10.669,
+      "step": 3000
+    },
+    {
+      "epoch": 2.444794952681388,
+      "grad_norm": 0.08773530274629593,
+      "learning_rate": 4.093804284887088e-06,
+      "loss": 0.0029,
+      "step": 3100
+    },
+    {
+      "epoch": 2.5236593059936907,
+      "grad_norm": 0.060790352523326874,
+      "learning_rate": 3.5147654892877827e-06,
+      "loss": 0.0039,
+      "step": 3200
+    },
+    {
+      "epoch": 2.6025236593059935,
+      "grad_norm": 1.6132954359054565,
+      "learning_rate": 2.9357266936884776e-06,
+      "loss": 0.0043,
+      "step": 3300
+    },
+    {
+      "epoch": 2.6025236593059935,
+      "eval_f1": 0.975609756097561,
+      "eval_f2": 0.9833732289577538,
+      "eval_loss": 0.014466837979853153,
+      "eval_precision": 0.9629394995248653,
+      "eval_recall": 0.9886178861788618,
+      "eval_runtime": 26.7793,
+      "eval_samples_per_second": 673.282,
+      "eval_steps_per_second": 10.531,
+      "step": 3300
+    },
+    {
+      "epoch": 2.6813880126182967,
+      "grad_norm": 0.24806837737560272,
+      "learning_rate": 2.356687898089172e-06,
+      "loss": 0.0047,
+      "step": 3400
+    },
+    {
+      "epoch": 2.7602523659305995,
+      "grad_norm": 3.355231523513794,
+      "learning_rate": 1.777649102489867e-06,
+      "loss": 0.0031,
+      "step": 3500
+    },
+    {
+      "epoch": 2.8391167192429023,
+      "grad_norm": 0.44861266016960144,
+      "learning_rate": 1.1986103068905617e-06,
+      "loss": 0.004,
+      "step": 3600
+    },
+    {
+      "epoch": 2.8391167192429023,
+      "eval_f1": 0.9762820512820513,
+      "eval_f2": 0.9848043970255416,
+      "eval_loss": 0.01391169149428606,
+      "eval_precision": 0.9624012638230648,
+      "eval_recall": 0.9905691056910569,
+      "eval_runtime": 26.114,
+      "eval_samples_per_second": 690.435,
+      "eval_steps_per_second": 10.799,
+      "step": 3600
+    },
+    {
+      "epoch": 2.917981072555205,
+      "grad_norm": 2.625840663909912,
+      "learning_rate": 6.195715112912566e-07,
+      "loss": 0.0032,
+      "step": 3700
+    },
+    {
+      "epoch": 2.996845425867508,
+      "grad_norm": 0.7660179138183594,
+      "learning_rate": 4.053271569195137e-08,
+      "loss": 0.003,
+      "step": 3800
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3804,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2808193552713728e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3804/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd899628771df754e988ea5f7948893d128805d0ba8d41adf70edde62e2a37f1
+size 5496

checkpoint-3804/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bde84d20a445792ba3a143328eb646557707ffd76c8af96089c3e55bcf92b44
+size 498612824

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_len": 512,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd899628771df754e988ea5f7948893d128805d0ba8d41adf70edde62e2a37f1
+size 5496

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff