End of training
Browse files
README.md
CHANGED
|
@@ -4,41 +4,45 @@ tags:
|
|
| 4 |
- sentence-similarity
|
| 5 |
- feature-extraction
|
| 6 |
- generated_from_trainer
|
| 7 |
-
- dataset_size:
|
| 8 |
- loss:ContrastiveLoss
|
| 9 |
- loss:TripletLoss
|
|
|
|
|
|
|
| 10 |
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
| 11 |
widget:
|
| 12 |
-
- source_sentence:
|
| 13 |
sentences:
|
| 14 |
-
-
|
| 15 |
-
-
|
| 16 |
-
-
|
| 17 |
-
|
|
|
|
| 18 |
sentences:
|
| 19 |
-
-
|
| 20 |
-
-
|
| 21 |
-
-
|
| 22 |
-
- source_sentence:
|
| 23 |
sentences:
|
| 24 |
-
-
|
| 25 |
-
-
|
| 26 |
-
|
| 27 |
-
|
| 28 |
-
- source_sentence: DevOps Engineer, kinh nghiệm 4 năm sử dụng Docker, Kubernetes.
|
| 29 |
sentences:
|
| 30 |
-
-
|
| 31 |
-
- Tuyển
|
| 32 |
-
-
|
| 33 |
-
- source_sentence:
|
| 34 |
-
thống thanh toán.
|
| 35 |
sentences:
|
| 36 |
-
- Tuyển
|
| 37 |
-
-
|
| 38 |
-
- Tuyển
|
| 39 |
datasets:
|
| 40 |
-
- HZeroxium/cv-
|
| 41 |
- HZeroxium/cv-job-triplet
|
|
|
|
|
|
|
|
|
|
| 42 |
pipeline_tag: sentence-similarity
|
| 43 |
library_name: sentence-transformers
|
| 44 |
metrics:
|
|
@@ -49,6 +53,8 @@ metrics:
|
|
| 49 |
- cosine_precision
|
| 50 |
- cosine_recall
|
| 51 |
- cosine_ap
|
|
|
|
|
|
|
| 52 |
model-index:
|
| 53 |
- name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
| 54 |
results:
|
|
@@ -60,25 +66,67 @@ model-index:
|
|
| 60 |
type: unknown
|
| 61 |
metrics:
|
| 62 |
- type: cosine_accuracy
|
| 63 |
-
value: 0.
|
| 64 |
name: Cosine Accuracy
|
| 65 |
- type: cosine_accuracy_threshold
|
| 66 |
-
value: 0.
|
| 67 |
name: Cosine Accuracy Threshold
|
| 68 |
- type: cosine_f1
|
| 69 |
-
value: 0.
|
| 70 |
name: Cosine F1
|
| 71 |
- type: cosine_f1_threshold
|
| 72 |
-
value: 0.
|
| 73 |
name: Cosine F1 Threshold
|
| 74 |
- type: cosine_precision
|
| 75 |
-
value: 0.
|
| 76 |
name: Cosine Precision
|
| 77 |
- type: cosine_recall
|
| 78 |
-
value: 0.
|
| 79 |
name: Cosine Recall
|
| 80 |
- type: cosine_ap
|
| 81 |
-
value: 0.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 82 |
name: Cosine Ap
|
| 83 |
- task:
|
| 84 |
type: triplet
|
|
@@ -90,11 +138,24 @@ model-index:
|
|
| 90 |
- type: cosine_accuracy
|
| 91 |
value: 1.0
|
| 92 |
name: Cosine Accuracy
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 93 |
---
|
| 94 |
|
| 95 |
# SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
| 96 |
|
| 97 |
-
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) on the [binary](https://huggingface.co/datasets/HZeroxium/cv-
|
| 98 |
|
| 99 |
## Model Details
|
| 100 |
|
|
@@ -105,8 +166,11 @@ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [s
|
|
| 105 |
- **Output Dimensionality:** 384 dimensions
|
| 106 |
- **Similarity Function:** Cosine Similarity
|
| 107 |
- **Training Datasets:**
|
| 108 |
-
- [binary](https://huggingface.co/datasets/HZeroxium/cv-
|
| 109 |
- [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet)
|
|
|
|
|
|
|
|
|
|
| 110 |
<!-- - **Language:** Unknown -->
|
| 111 |
<!-- - **License:** Unknown -->
|
| 112 |
|
|
@@ -140,12 +204,12 @@ Then you can load this model and run inference.
|
|
| 140 |
from sentence_transformers import SentenceTransformer
|
| 141 |
|
| 142 |
# Download from the 🤗 Hub
|
| 143 |
-
model = SentenceTransformer("
|
| 144 |
# Run inference
|
| 145 |
sentences = [
|
| 146 |
-
'
|
| 147 |
-
'Tuyển
|
| 148 |
-
'Tuyển
|
| 149 |
]
|
| 150 |
embeddings = model.encode(sentences)
|
| 151 |
print(embeddings.shape)
|
|
@@ -191,13 +255,13 @@ You can finetune this model on your own dataset.
|
|
| 191 |
|
| 192 |
| Metric | Value |
|
| 193 |
|:--------------------------|:-----------|
|
| 194 |
-
| cosine_accuracy | 0.
|
| 195 |
-
| cosine_accuracy_threshold | 0.
|
| 196 |
-
| cosine_f1 | 0.
|
| 197 |
-
| cosine_f1_threshold | 0.
|
| 198 |
-
| cosine_precision | 0.
|
| 199 |
-
| cosine_recall | 0.
|
| 200 |
-
| **cosine_ap** | **0.
|
| 201 |
|
| 202 |
#### Triplet
|
| 203 |
|
|
@@ -207,6 +271,43 @@ You can finetune this model on your own dataset.
|
|
| 207 |
|:--------------------|:--------|
|
| 208 |
| **cosine_accuracy** | **1.0** |
|
| 209 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 210 |
<!--
|
| 211 |
## Bias, Risks and Limitations
|
| 212 |
|
|
@@ -225,20 +326,20 @@ You can finetune this model on your own dataset.
|
|
| 225 |
|
| 226 |
#### binary
|
| 227 |
|
| 228 |
-
* Dataset: [binary](https://huggingface.co/datasets/HZeroxium/cv-
|
| 229 |
-
* Size:
|
| 230 |
-
* Columns: <code>
|
| 231 |
* Approximate statistics based on the first 1000 samples:
|
| 232 |
-
| |
|
| 233 |
-
|
| 234 |
-
| type | string
|
| 235 |
-
| details | <ul><li>min:
|
| 236 |
* Samples:
|
| 237 |
-
|
|
| 238 |
-
|
| 239 |
-
| <code>
|
| 240 |
-
| <code>
|
| 241 |
-
| <code>
|
| 242 |
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
| 243 |
```json
|
| 244 |
{
|
|
@@ -250,20 +351,20 @@ You can finetune this model on your own dataset.
|
|
| 250 |
|
| 251 |
#### triplet
|
| 252 |
|
| 253 |
-
* Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [
|
| 254 |
-
* Size:
|
| 255 |
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
| 256 |
-
* Approximate statistics based on the first
|
| 257 |
-
| | anchor | positive
|
| 258 |
-
|
| 259 |
-
| type | string | string
|
| 260 |
-
| details | <ul><li>min:
|
| 261 |
* Samples:
|
| 262 |
-
| anchor
|
| 263 |
-
|
| 264 |
-
| <code>
|
| 265 |
-
| <code>
|
| 266 |
-
| <code>
|
| 267 |
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
| 268 |
```json
|
| 269 |
{
|
|
@@ -272,24 +373,96 @@ You can finetune this model on your own dataset.
|
|
| 272 |
}
|
| 273 |
```
|
| 274 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 275 |
### Evaluation Datasets
|
| 276 |
|
| 277 |
#### binary
|
| 278 |
|
| 279 |
-
* Dataset: [binary](https://huggingface.co/datasets/HZeroxium/cv-
|
| 280 |
-
* Size:
|
| 281 |
-
* Columns: <code>
|
| 282 |
-
* Approximate statistics based on the first
|
| 283 |
-
| |
|
| 284 |
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
|
| 285 |
| type | string | string | int |
|
| 286 |
-
| details | <ul><li>min:
|
| 287 |
* Samples:
|
| 288 |
-
|
|
| 289 |
-
|
| 290 |
-
| <code>
|
| 291 |
-
| <code>
|
| 292 |
-
| <code>
|
| 293 |
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
| 294 |
```json
|
| 295 |
{
|
|
@@ -301,20 +474,20 @@ You can finetune this model on your own dataset.
|
|
| 301 |
|
| 302 |
#### triplet
|
| 303 |
|
| 304 |
-
* Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [
|
| 305 |
-
* Size:
|
| 306 |
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
| 307 |
-
* Approximate statistics based on the first
|
| 308 |
-
| | anchor
|
| 309 |
-
|
| 310 |
-
| type | string
|
| 311 |
-
| details | <ul><li>min: 13 tokens</li><li>mean:
|
| 312 |
* Samples:
|
| 313 |
-
| anchor
|
| 314 |
-
|
| 315 |
-
| <code>
|
| 316 |
-
| <code>
|
| 317 |
-
| <code>
|
| 318 |
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
| 319 |
```json
|
| 320 |
{
|
|
@@ -323,6 +496,78 @@ You can finetune this model on your own dataset.
|
|
| 323 |
}
|
| 324 |
```
|
| 325 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 326 |
### Training Hyperparameters
|
| 327 |
#### Non-Default Hyperparameters
|
| 328 |
|
|
@@ -457,48 +702,31 @@ You can finetune this model on your own dataset.
|
|
| 457 |
</details>
|
| 458 |
|
| 459 |
### Training Logs
|
| 460 |
-
| Epoch | Step | Training Loss | binary loss | triplet loss | cosine_ap | cosine_accuracy |
|
| 461 |
-
|
| 462 |
-
| 0 | 0 | - | - | - |
|
| 463 |
-
| 0.
|
| 464 |
-
| 0.
|
| 465 |
-
| 0.
|
| 466 |
-
| 0.
|
| 467 |
-
|
|
| 468 |
-
| 0.
|
| 469 |
-
|
|
| 470 |
-
| 1.
|
| 471 |
-
|
|
| 472 |
-
|
|
| 473 |
-
|
|
| 474 |
-
| 1.
|
| 475 |
-
|
|
| 476 |
-
|
|
| 477 |
-
|
|
| 478 |
-
|
|
| 479 |
-
|
|
| 480 |
-
|
|
| 481 |
-
|
|
| 482 |
-
|
|
| 483 |
-
|
|
| 484 |
-
|
|
| 485 |
-
| 2.9487 | 230 | 0.003 | - | - | - | - |
|
| 486 |
-
| 3.0769 | 240 | 0.0019 | - | - | - | - |
|
| 487 |
-
| 3.2051 | 250 | 0.0024 | - | - | - | - |
|
| 488 |
-
| 3.3333 | 260 | 0.002 | - | - | - | - |
|
| 489 |
-
| 3.4615 | 270 | 0.0025 | - | - | - | - |
|
| 490 |
-
| 3.5897 | 280 | 0.0022 | - | - | - | - |
|
| 491 |
-
| 3.7179 | 290 | 0.0021 | - | - | - | - |
|
| 492 |
-
| 3.8462 | 300 | 0.0017 | 0.0037 | 0.0162 | 0.9803 | 1.0 |
|
| 493 |
-
| 3.9744 | 310 | 0.0023 | - | - | - | - |
|
| 494 |
-
| 4.1026 | 320 | 0.0017 | - | - | - | - |
|
| 495 |
-
| 4.2308 | 330 | 0.002 | - | - | - | - |
|
| 496 |
-
| 4.3590 | 340 | 0.0022 | - | - | - | - |
|
| 497 |
-
| 4.4872 | 350 | 0.0015 | - | - | - | - |
|
| 498 |
-
| 4.6154 | 360 | 0.0018 | - | - | - | - |
|
| 499 |
-
| 4.7436 | 370 | 0.0021 | - | - | - | - |
|
| 500 |
-
| 4.8718 | 380 | 0.0014 | - | - | - | - |
|
| 501 |
-
| 5.0 | 390 | 0.0022 | - | - | 0.9803 | 1.0 |
|
| 502 |
|
| 503 |
|
| 504 |
### Framework Versions
|
|
@@ -553,6 +781,29 @@ You can finetune this model on your own dataset.
|
|
| 553 |
}
|
| 554 |
```
|
| 555 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 556 |
<!--
|
| 557 |
## Glossary
|
| 558 |
|
|
|
|
| 4 |
- sentence-similarity
|
| 5 |
- feature-extraction
|
| 6 |
- generated_from_trainer
|
| 7 |
+
- dataset_size:22654
|
| 8 |
- loss:ContrastiveLoss
|
| 9 |
- loss:TripletLoss
|
| 10 |
+
- loss:CoSENTLoss
|
| 11 |
+
- loss:MultipleNegativesRankingLoss
|
| 12 |
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
| 13 |
widget:
|
| 14 |
+
- source_sentence: Network Operations Specialist yêu cầu tối ưu hóa mạng.
|
| 15 |
sentences:
|
| 16 |
+
- Actor cần có kỹ năng biểu diễn sân khấu và hóa thân vào nhiều loại nhân vật.
|
| 17 |
+
- Network Operations Specialist cần tối ưu hóa mạng.
|
| 18 |
+
- Nhà tư vấn PR hỗ trợ doanh nghiệp trong việc phát triển hình ảnh công chúng và
|
| 19 |
+
xử lý khủng hoảng.
|
| 20 |
+
- source_sentence: Cybersecurity Specialist với kinh nghiệm bảo mật hệ thống 5 năm.
|
| 21 |
sentences:
|
| 22 |
+
- Kỹ sư cơ khí cần phát triển hệ thống sản xuất tự động hóa.
|
| 23 |
+
- Cybersecurity Engineer, yêu cầu tối thiểu 5 năm trong bảo mật.
|
| 24 |
+
- Data Scientist cần kỹ năng Machine Learning và Python.
|
| 25 |
+
- source_sentence: Tư vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị.
|
| 26 |
sentences:
|
| 27 |
+
- Quản lý chất thải có kinh nghiệm xử lý và tái chế nước.
|
| 28 |
+
- Tư vấn môi trường quản lý chất lượng môi trường đô thị.
|
| 29 |
+
- Illustrator cần có khả năng minh họa cho sách giáo dục và tài liệu học tập.
|
| 30 |
+
- source_sentence: Mobile Developer với kinh nghiệm phát triển ứng dụng iOS và Swift.
|
|
|
|
| 31 |
sentences:
|
| 32 |
+
- Tuyển iOS Developer có kỹ năng làm việc với Swift.
|
| 33 |
+
- Tuyển chuyên viên QA kiểm tra chất lượng phần mềm.
|
| 34 |
+
- Mobile Developer cần biết phát triển ứng dụng đa nền tảng.
|
| 35 |
+
- source_sentence: Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.
|
|
|
|
| 36 |
sentences:
|
| 37 |
+
- Tuyển kỹ sư cơ khí giám sát dây chuyền sản xuất.
|
| 38 |
+
- Công ty XYZ tuyển Data Scientist với tối thiểu 2 năm kinh nghiệm học máy.
|
| 39 |
+
- Tuyển iOS Developer thành thạo Swift.
|
| 40 |
datasets:
|
| 41 |
+
- HZeroxium/job-cv-binary
|
| 42 |
- HZeroxium/cv-job-triplet
|
| 43 |
+
- HZeroxium/cv-job-similarity
|
| 44 |
+
- HZeroxium/job-paraphrase
|
| 45 |
+
- HZeroxium/cv-paraphrase
|
| 46 |
pipeline_tag: sentence-similarity
|
| 47 |
library_name: sentence-transformers
|
| 48 |
metrics:
|
|
|
|
| 53 |
- cosine_precision
|
| 54 |
- cosine_recall
|
| 55 |
- cosine_ap
|
| 56 |
+
- pearson_cosine
|
| 57 |
+
- spearman_cosine
|
| 58 |
model-index:
|
| 59 |
- name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
| 60 |
results:
|
|
|
|
| 66 |
type: unknown
|
| 67 |
metrics:
|
| 68 |
- type: cosine_accuracy
|
| 69 |
+
value: 0.9755351681957186
|
| 70 |
name: Cosine Accuracy
|
| 71 |
- type: cosine_accuracy_threshold
|
| 72 |
+
value: 0.5808850526809692
|
| 73 |
name: Cosine Accuracy Threshold
|
| 74 |
- type: cosine_f1
|
| 75 |
+
value: 0.9779005524861878
|
| 76 |
name: Cosine F1
|
| 77 |
- type: cosine_f1_threshold
|
| 78 |
+
value: 0.5644330978393555
|
| 79 |
name: Cosine F1 Threshold
|
| 80 |
- type: cosine_precision
|
| 81 |
+
value: 0.9833333333333333
|
| 82 |
name: Cosine Precision
|
| 83 |
- type: cosine_recall
|
| 84 |
+
value: 0.9725274725274725
|
| 85 |
name: Cosine Recall
|
| 86 |
- type: cosine_ap
|
| 87 |
+
value: 0.9956042554162885
|
| 88 |
+
name: Cosine Ap
|
| 89 |
+
- type: cosine_accuracy
|
| 90 |
+
value: 0.9968051118210862
|
| 91 |
+
name: Cosine Accuracy
|
| 92 |
+
- type: cosine_accuracy_threshold
|
| 93 |
+
value: 0.7650139331817627
|
| 94 |
+
name: Cosine Accuracy Threshold
|
| 95 |
+
- type: cosine_f1
|
| 96 |
+
value: 0.9984
|
| 97 |
+
name: Cosine F1
|
| 98 |
+
- type: cosine_f1_threshold
|
| 99 |
+
value: 0.7650139331817627
|
| 100 |
+
name: Cosine F1 Threshold
|
| 101 |
+
- type: cosine_precision
|
| 102 |
+
value: 1.0
|
| 103 |
+
name: Cosine Precision
|
| 104 |
+
- type: cosine_recall
|
| 105 |
+
value: 0.9968051118210862
|
| 106 |
+
name: Cosine Recall
|
| 107 |
+
- type: cosine_ap
|
| 108 |
+
value: 0.9999999999999999
|
| 109 |
+
name: Cosine Ap
|
| 110 |
+
- type: cosine_accuracy
|
| 111 |
+
value: 0.9936305732484076
|
| 112 |
+
name: Cosine Accuracy
|
| 113 |
+
- type: cosine_accuracy_threshold
|
| 114 |
+
value: 0.8211346864700317
|
| 115 |
+
name: Cosine Accuracy Threshold
|
| 116 |
+
- type: cosine_f1
|
| 117 |
+
value: 0.9968051118210862
|
| 118 |
+
name: Cosine F1
|
| 119 |
+
- type: cosine_f1_threshold
|
| 120 |
+
value: 0.8211346864700317
|
| 121 |
+
name: Cosine F1 Threshold
|
| 122 |
+
- type: cosine_precision
|
| 123 |
+
value: 1.0
|
| 124 |
+
name: Cosine Precision
|
| 125 |
+
- type: cosine_recall
|
| 126 |
+
value: 0.9936305732484076
|
| 127 |
+
name: Cosine Recall
|
| 128 |
+
- type: cosine_ap
|
| 129 |
+
value: 1.0
|
| 130 |
name: Cosine Ap
|
| 131 |
- task:
|
| 132 |
type: triplet
|
|
|
|
| 138 |
- type: cosine_accuracy
|
| 139 |
value: 1.0
|
| 140 |
name: Cosine Accuracy
|
| 141 |
+
- task:
|
| 142 |
+
type: semantic-similarity
|
| 143 |
+
name: Semantic Similarity
|
| 144 |
+
dataset:
|
| 145 |
+
name: Unknown
|
| 146 |
+
type: unknown
|
| 147 |
+
metrics:
|
| 148 |
+
- type: pearson_cosine
|
| 149 |
+
value: 0.970012297655986
|
| 150 |
+
name: Pearson Cosine
|
| 151 |
+
- type: spearman_cosine
|
| 152 |
+
value: 0.9430534588122865
|
| 153 |
+
name: Spearman Cosine
|
| 154 |
---
|
| 155 |
|
| 156 |
# SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
| 157 |
|
| 158 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) on the [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary), [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet), [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity), [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) and [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 159 |
|
| 160 |
## Model Details
|
| 161 |
|
|
|
|
| 166 |
- **Output Dimensionality:** 384 dimensions
|
| 167 |
- **Similarity Function:** Cosine Similarity
|
| 168 |
- **Training Datasets:**
|
| 169 |
+
- [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary)
|
| 170 |
- [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet)
|
| 171 |
+
- [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity)
|
| 172 |
+
- [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase)
|
| 173 |
+
- [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase)
|
| 174 |
<!-- - **Language:** Unknown -->
|
| 175 |
<!-- - **License:** Unknown -->
|
| 176 |
|
|
|
|
| 204 |
from sentence_transformers import SentenceTransformer
|
| 205 |
|
| 206 |
# Download from the 🤗 Hub
|
| 207 |
+
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset")
|
| 208 |
# Run inference
|
| 209 |
sentences = [
|
| 210 |
+
'Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.',
|
| 211 |
+
'Tuyển iOS Developer thành thạo Swift.',
|
| 212 |
+
'Tuyển kỹ sư cơ khí giám sát dây chuyền sản xuất.',
|
| 213 |
]
|
| 214 |
embeddings = model.encode(sentences)
|
| 215 |
print(embeddings.shape)
|
|
|
|
| 255 |
|
| 256 |
| Metric | Value |
|
| 257 |
|:--------------------------|:-----------|
|
| 258 |
+
| cosine_accuracy | 0.9755 |
|
| 259 |
+
| cosine_accuracy_threshold | 0.5809 |
|
| 260 |
+
| cosine_f1 | 0.9779 |
|
| 261 |
+
| cosine_f1_threshold | 0.5644 |
|
| 262 |
+
| cosine_precision | 0.9833 |
|
| 263 |
+
| cosine_recall | 0.9725 |
|
| 264 |
+
| **cosine_ap** | **0.9956** |
|
| 265 |
|
| 266 |
#### Triplet
|
| 267 |
|
|
|
|
| 271 |
|:--------------------|:--------|
|
| 272 |
| **cosine_accuracy** | **1.0** |
|
| 273 |
|
| 274 |
+
#### Semantic Similarity
|
| 275 |
+
|
| 276 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
| 277 |
+
|
| 278 |
+
| Metric | Value |
|
| 279 |
+
|:--------------------|:-----------|
|
| 280 |
+
| pearson_cosine | 0.97 |
|
| 281 |
+
| **spearman_cosine** | **0.9431** |
|
| 282 |
+
|
| 283 |
+
#### Binary Classification
|
| 284 |
+
|
| 285 |
+
* Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
|
| 286 |
+
|
| 287 |
+
| Metric | Value |
|
| 288 |
+
|:--------------------------|:--------|
|
| 289 |
+
| cosine_accuracy | 0.9968 |
|
| 290 |
+
| cosine_accuracy_threshold | 0.765 |
|
| 291 |
+
| cosine_f1 | 0.9984 |
|
| 292 |
+
| cosine_f1_threshold | 0.765 |
|
| 293 |
+
| cosine_precision | 1.0 |
|
| 294 |
+
| cosine_recall | 0.9968 |
|
| 295 |
+
| **cosine_ap** | **1.0** |
|
| 296 |
+
|
| 297 |
+
#### Binary Classification
|
| 298 |
+
|
| 299 |
+
* Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
|
| 300 |
+
|
| 301 |
+
| Metric | Value |
|
| 302 |
+
|:--------------------------|:--------|
|
| 303 |
+
| cosine_accuracy | 0.9936 |
|
| 304 |
+
| cosine_accuracy_threshold | 0.8211 |
|
| 305 |
+
| cosine_f1 | 0.9968 |
|
| 306 |
+
| cosine_f1_threshold | 0.8211 |
|
| 307 |
+
| cosine_precision | 1.0 |
|
| 308 |
+
| cosine_recall | 0.9936 |
|
| 309 |
+
| **cosine_ap** | **1.0** |
|
| 310 |
+
|
| 311 |
<!--
|
| 312 |
## Bias, Risks and Limitations
|
| 313 |
|
|
|
|
| 326 |
|
| 327 |
#### binary
|
| 328 |
|
| 329 |
+
* Dataset: [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) at [8c79343](https://huggingface.co/datasets/HZeroxium/job-cv-binary/tree/8c79343a3f789fc136bd857209d4b45c498f2ead)
|
| 330 |
+
* Size: 6,197 training samples
|
| 331 |
+
* Columns: <code>text1</code>, <code>text2</code>, and <code>label</code>
|
| 332 |
* Approximate statistics based on the first 1000 samples:
|
| 333 |
+
| | text1 | text2 | label |
|
| 334 |
+
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
|
| 335 |
+
| type | string | string | int |
|
| 336 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 19.5 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 15.91 tokens</li><li>max: 27 tokens</li></ul> | <ul><li>0: ~43.70%</li><li>1: ~56.30%</li></ul> |
|
| 337 |
* Samples:
|
| 338 |
+
| text1 | text2 | label |
|
| 339 |
+
|:---------------------------------------------------------------------------------------------|:------------------------------------------------------------------------|:---------------|
|
| 340 |
+
| <code>Lập trình viên backend, 3 năm kinh nghiệm với Node.js và xây dựng API.</code> | <code>Tuyển Backend Developer có kinh nghiệm với Node.js.</code> | <code>1</code> |
|
| 341 |
+
| <code>Kỹ sư mạng với 6 năm kinh nghiệm quản lý hệ thống mạng lớn.</code> | <code>Cần System Administrator với kinh nghiệm quản lý hệ thống.</code> | <code>0</code> |
|
| 342 |
+
| <code>Lập trình viên JavaScript với 4 năm kinh nghiệm, thành thạo Node.js và Express.</code> | <code>Cần tuyển Backend Developer biết sử dụng PHP và Laravel.</code> | <code>0</code> |
|
| 343 |
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
| 344 |
```json
|
| 345 |
{
|
|
|
|
| 351 |
|
| 352 |
#### triplet
|
| 353 |
|
| 354 |
+
* Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [3100410](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/31004104be298c5f2f1648d8234391e7a5f7d9c0)
|
| 355 |
+
* Size: 2,981 training samples
|
| 356 |
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
| 357 |
+
* Approximate statistics based on the first 1000 samples:
|
| 358 |
+
| | anchor | positive | negative |
|
| 359 |
+
|:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
| 360 |
+
| type | string | string | string |
|
| 361 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 19.51 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.88 tokens</li><li>max: 25 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 14.47 tokens</li><li>max: 22 tokens</li></ul> |
|
| 362 |
* Samples:
|
| 363 |
+
| anchor | positive | negative |
|
| 364 |
+
|:---------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|
|
| 365 |
+
| <code>Account Manager, chuyên quản lý khách hàng B2B và xây dựng mối quan hệ lâu dài.</code> | <code>Tuyển Account Manager có kinh nghiệm quản lý khách hàng doanh nghiệp.</code> | <code>Tuyển chuyên viên pháp lý tư vấn doanh nghiệp.</code> |
|
| 366 |
+
| <code>Chuyên viên tư vấn giáo dục với 10 năm kinh nghiệm định hướng nghề nghiệp.</code> | <code>Cần chuyên viên tư vấn giáo dục có kinh nghiệm định hướng nghề nghiệp.</code> | <code>Nhân viên tổ chức sự kiện giáo dục hỗ trợ triển khai hội thảo.</code> |
|
| 367 |
+
| <code>Actor với nhiều năm kinh nghiệm diễn xuất trên sân khấu và phim truyền hình.</code> | <code>Diễn viên cần có khả năng hóa thân vào các vai diễn phức tạp.</code> | <code>Nhà sản xuất phim cần quản lý và tổ chức các dự án phim tài liệu.</code> |
|
| 368 |
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
| 369 |
```json
|
| 370 |
{
|
|
|
|
| 373 |
}
|
| 374 |
```
|
| 375 |
|
| 376 |
+
#### similarity
|
| 377 |
+
|
| 378 |
+
* Dataset: [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) at [c810681](https://huggingface.co/datasets/HZeroxium/cv-job-similarity/tree/c8106811dc1709bb834a1b59e3cb46f5ab75dfd9)
|
| 379 |
+
* Size: 4,568 training samples
|
| 380 |
+
* Columns: <code>text1</code>, <code>text2</code>, and <code>score</code>
|
| 381 |
+
* Approximate statistics based on the first 1000 samples:
|
| 382 |
+
| | text1 | text2 | score |
|
| 383 |
+
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------|
|
| 384 |
+
| type | string | string | float |
|
| 385 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 18.86 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 16.12 tokens</li><li>max: 27 tokens</li></ul> | <ul><li>min: 0.19</li><li>mean: 0.68</li><li>max: 0.96</li></ul> |
|
| 386 |
+
* Samples:
|
| 387 |
+
| text1 | text2 | score |
|
| 388 |
+
|:-----------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:------------------|
|
| 389 |
+
| <code>Hardware Engineer có khả năng thiết kế hệ thống nhúng.</code> | <code>Embedded Engineer cần có kỹ năng phát triển phần mềm nhúng.</code> | <code>0.74</code> |
|
| 390 |
+
| <code>Kỹ sư phần mềm, chuyên môn trong phát triển hệ thống thời gian thực, 4 năm kinh nghiệm.</code> | <code>Yêu cầu Embedded Software Engineer với kinh nghiệm tối thiểu 3 năm.</code> | <code>0.88</code> |
|
| 391 |
+
| <code>Cần Software Engineer với kinh nghiệm phát triển web.</code> | <code>Frontend Developer cần thành thạo React và JavaScript.</code> | <code>0.34</code> |
|
| 392 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
| 393 |
+
```json
|
| 394 |
+
{
|
| 395 |
+
"scale": 20.0,
|
| 396 |
+
"similarity_fct": "pairwise_cos_sim"
|
| 397 |
+
}
|
| 398 |
+
```
|
| 399 |
+
|
| 400 |
+
#### job_paraphrase
|
| 401 |
+
|
| 402 |
+
* Dataset: [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) at [6872029](https://huggingface.co/datasets/HZeroxium/job-paraphrase/tree/68720291bb9f628792d2f28d4653f03f6de5ef42)
|
| 403 |
+
* Size: 5,939 training samples
|
| 404 |
+
* Columns: <code>text1</code> and <code>text2</code>
|
| 405 |
+
* Approximate statistics based on the first 1000 samples:
|
| 406 |
+
| | text1 | text2 |
|
| 407 |
+
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
| 408 |
+
| type | string | string |
|
| 409 |
+
| details | <ul><li>min: 6 tokens</li><li>mean: 16.25 tokens</li><li>max: 25 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 15.78 tokens</li><li>max: 25 tokens</li></ul> |
|
| 410 |
+
* Samples:
|
| 411 |
+
| text1 | text2 |
|
| 412 |
+
|:------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
| 413 |
+
| <code>Nhân viên hỗ trợ kho thuốc cần kỹ năng quản lý.</code> | <code>Nhân viên kho thuốc cần kỹ năng kiểm kê.</code> |
|
| 414 |
+
| <code>Nhân viên bán hàng cần có kỹ năng giao tiếp và xử lý tình huống.</code> | <code>Salesperson chuyên xử lý đơn hàng và giữ mối quan hệ với khách hàng.</code> |
|
| 415 |
+
| <code>Tuyển kỹ sư cơ khí chuyên thiết kế máy móc công nghiệp.</code> | <code>Kỹ sư cơ khí cần thiết kế hệ thống sản xuất tiên tiến.</code> |
|
| 416 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 417 |
+
```json
|
| 418 |
+
{
|
| 419 |
+
"scale": 20.0,
|
| 420 |
+
"similarity_fct": "cos_sim"
|
| 421 |
+
}
|
| 422 |
+
```
|
| 423 |
+
|
| 424 |
+
#### cv_paraphrase
|
| 425 |
+
|
| 426 |
+
* Dataset: [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) at [22ce02f](https://huggingface.co/datasets/HZeroxium/cv-paraphrase/tree/22ce02ff309bc91193b3fa9c14a51fb3481a5fc2)
|
| 427 |
+
* Size: 2,969 training samples
|
| 428 |
+
* Columns: <code>text1</code> and <code>text2</code>
|
| 429 |
+
* Approximate statistics based on the first 1000 samples:
|
| 430 |
+
| | text1 | text2 |
|
| 431 |
+
|:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
| 432 |
+
| type | string | string |
|
| 433 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 20.6 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 19.52 tokens</li><li>max: 32 tokens</li></ul> |
|
| 434 |
+
* Samples:
|
| 435 |
+
| text1 | text2 |
|
| 436 |
+
|:------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
|
| 437 |
+
| <code>Chuyên viên quản lý danh mục đầu tư với 8 năm kinh nghiệm tối ưu hóa tài sản và phân tích lợi nhuận.</code> | <code>8 năm kinh nghiệm quản lý danh mục đầu tư và phân tích tài chính.</code> |
|
| 438 |
+
| <code>Hotel Manager with strong leadership skills and 5 years of experience.</code> | <code>Hotel manager skilled in optimizing hotel operations and guest services.</code> |
|
| 439 |
+
| <code>7 năm kinh nghiệm phát triển backend và cơ sở dữ liệu.</code> | <code>Backend Developer chuyên về API và cơ sở dữ liệu.</code> |
|
| 440 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 441 |
+
```json
|
| 442 |
+
{
|
| 443 |
+
"scale": 20.0,
|
| 444 |
+
"similarity_fct": "cos_sim"
|
| 445 |
+
}
|
| 446 |
+
```
|
| 447 |
+
|
| 448 |
### Evaluation Datasets
|
| 449 |
|
| 450 |
#### binary
|
| 451 |
|
| 452 |
+
* Dataset: [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) at [8c79343](https://huggingface.co/datasets/HZeroxium/job-cv-binary/tree/8c79343a3f789fc136bd857209d4b45c498f2ead)
|
| 453 |
+
* Size: 327 evaluation samples
|
| 454 |
+
* Columns: <code>text1</code>, <code>text2</code>, and <code>label</code>
|
| 455 |
+
* Approximate statistics based on the first 327 samples:
|
| 456 |
+
| | text1 | text2 | label |
|
| 457 |
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
|
| 458 |
| type | string | string | int |
|
| 459 |
+
| details | <ul><li>min: 11 tokens</li><li>mean: 19.36 tokens</li><li>max: 31 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 16.01 tokens</li><li>max: 26 tokens</li></ul> | <ul><li>0: ~44.34%</li><li>1: ~55.66%</li></ul> |
|
| 460 |
* Samples:
|
| 461 |
+
| text1 | text2 | label |
|
| 462 |
+
|:---------------------------------------------------------------------------|:----------------------------------------------------------------------|:---------------|
|
| 463 |
+
| <code>Tuyển kỹ sư phần mềm nhúng có kinh nghiệm 3 năm trở lên.</code> | <code>Software Developer, yêu cầu hiểu biết về hệ thống nhúng.</code> | <code>0</code> |
|
| 464 |
+
| <code>Tư vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị.</code> | <code>Quản lý chất thải có kinh nghiệm xử lý và tái chế nước.</code> | <code>1</code> |
|
| 465 |
+
| <code>DevOps Engineer với khả năng triển khai trên AWS, Azure.</code> | <code>Cloud Engineer cần quản lý hạ tầng.</code> | <code>1</code> |
|
| 466 |
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
| 467 |
```json
|
| 468 |
{
|
|
|
|
| 474 |
|
| 475 |
#### triplet
|
| 476 |
|
| 477 |
+
* Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [3100410](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/31004104be298c5f2f1648d8234391e7a5f7d9c0)
|
| 478 |
+
* Size: 157 evaluation samples
|
| 479 |
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
| 480 |
+
* Approximate statistics based on the first 157 samples:
|
| 481 |
+
| | anchor | positive | negative |
|
| 482 |
+
|:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
| 483 |
+
| type | string | string | string |
|
| 484 |
+
| details | <ul><li>min: 13 tokens</li><li>mean: 19.6 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.66 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 14.06 tokens</li><li>max: 20 tokens</li></ul> |
|
| 485 |
* Samples:
|
| 486 |
+
| anchor | positive | negative |
|
| 487 |
+
|:---------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------|:----------------------------------------------------------------|
|
| 488 |
+
| <code>Quản lý danh mục đầu tư tài chính trong hơn 6 năm, chuyên gia phân tích đầu tư.</code> | <code>Investment Analyst cần kinh nghiệm quản lý danh mục đầu tư.</code> | <code>Kế toán chi phí phụ trách kiểm soát chi phí.</code> |
|
| 489 |
+
| <code>Chuyên viên quản lý chuỗi cung ứng, thành thạo SAP và tối ưu hóa quy trình.</code> | <code>Supply Chain Manager có kinh nghiệm tối ưu chuỗi cung ứng.</code> | <code>Tuyển lập trình viên Unity phát triển trò chơi 3D.</code> |
|
| 490 |
+
| <code>Nhà phân tích dữ liệu, kinh nghiệm trong lĩnh vực y tế và sinh học.</code> | <code>Data Analyst cần kỹ năng phân tích dữ liệu y tế.</code> | <code>Tuyển nhân viên kinh doanh bất động sản.</code> |
|
| 491 |
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
| 492 |
```json
|
| 493 |
{
|
|
|
|
| 496 |
}
|
| 497 |
```
|
| 498 |
|
| 499 |
+
#### similarity
|
| 500 |
+
|
| 501 |
+
* Dataset: [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) at [c810681](https://huggingface.co/datasets/HZeroxium/cv-job-similarity/tree/c8106811dc1709bb834a1b59e3cb46f5ab75dfd9)
|
| 502 |
+
* Size: 241 evaluation samples
|
| 503 |
+
* Columns: <code>text1</code>, <code>text2</code>, and <code>score</code>
|
| 504 |
+
* Approximate statistics based on the first 241 samples:
|
| 505 |
+
| | text1 | text2 | score |
|
| 506 |
+
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------|
|
| 507 |
+
| type | string | string | float |
|
| 508 |
+
| details | <ul><li>min: 11 tokens</li><li>mean: 18.69 tokens</li><li>max: 28 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 15.93 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 0.2</li><li>mean: 0.67</li><li>max: 0.95</li></ul> |
|
| 509 |
+
* Samples:
|
| 510 |
+
| text1 | text2 | score |
|
| 511 |
+
|:-----------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:------------------|
|
| 512 |
+
| <code>Cần Quản lý đội xe có khả năng giám sát hiệu suất và lập kế hoạch vận hành.</code> | <code>Điều phối viên vận tải yêu cầu giám sát và tối ưu hóa hoạt động vận tải.</code> | <code>0.83</code> |
|
| 513 |
+
| <code>Lập trình viên Python với kỹ năng xây dựng và tối ưu hóa hệ thống backend.</code> | <code>Hỗ trợ kỹ thuật viên IT xử lý lỗi mạng.</code> | <code>0.29</code> |
|
| 514 |
+
| <code>Nhà khoa học nghiên cứu các hệ thống nano tiên tiến cho y học hiện đại.</code> | <code>Kỹ thuật viên thí nghiệm tập trung vào phân tích vật liệu nano.</code> | <code>0.74</code> |
|
| 515 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
| 516 |
+
```json
|
| 517 |
+
{
|
| 518 |
+
"scale": 20.0,
|
| 519 |
+
"similarity_fct": "pairwise_cos_sim"
|
| 520 |
+
}
|
| 521 |
+
```
|
| 522 |
+
|
| 523 |
+
#### job_paraphrase
|
| 524 |
+
|
| 525 |
+
* Dataset: [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) at [6872029](https://huggingface.co/datasets/HZeroxium/job-paraphrase/tree/68720291bb9f628792d2f28d4653f03f6de5ef42)
|
| 526 |
+
* Size: 313 evaluation samples
|
| 527 |
+
* Columns: <code>text1</code> and <code>text2</code>
|
| 528 |
+
* Approximate statistics based on the first 313 samples:
|
| 529 |
+
| | text1 | text2 |
|
| 530 |
+
|:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
| 531 |
+
| type | string | string |
|
| 532 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 16.32 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.74 tokens</li><li>max: 25 tokens</li></ul> |
|
| 533 |
+
* Samples:
|
| 534 |
+
| text1 | text2 |
|
| 535 |
+
|:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
| 536 |
+
| <code>Restaurant Manager chịu trách nhiệm giám sát và tối ưu hóa dịch vụ.</code> | <code>Restaurant Manager có khả năng điều hành và phát triển dịch vụ ăn uống.</code> |
|
| 537 |
+
| <code>Quản lý thương mại điện tử tối ưu hóa quy trình bán hàng.</code> | <code>Quản lý sàn thương mại điện tử cần tối ưu hóa vận hành.</code> |
|
| 538 |
+
| <code>Kỹ thuật viên kiểm tra cần kiểm tra chất lượng hệ thống sản xuất.</code> | <code>Kỹ thuật viên kiểm tra yêu cầu giám sát quy trình sản xuất.</code> |
|
| 539 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 540 |
+
```json
|
| 541 |
+
{
|
| 542 |
+
"scale": 20.0,
|
| 543 |
+
"similarity_fct": "cos_sim"
|
| 544 |
+
}
|
| 545 |
+
```
|
| 546 |
+
|
| 547 |
+
#### cv_paraphrase
|
| 548 |
+
|
| 549 |
+
* Dataset: [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) at [22ce02f](https://huggingface.co/datasets/HZeroxium/cv-paraphrase/tree/22ce02ff309bc91193b3fa9c14a51fb3481a5fc2)
|
| 550 |
+
* Size: 157 evaluation samples
|
| 551 |
+
* Columns: <code>text1</code> and <code>text2</code>
|
| 552 |
+
* Approximate statistics based on the first 157 samples:
|
| 553 |
+
| | text1 | text2 |
|
| 554 |
+
|:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
| 555 |
+
| type | string | string |
|
| 556 |
+
| details | <ul><li>min: 12 tokens</li><li>mean: 20.28 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 19.34 tokens</li><li>max: 28 tokens</li></ul> |
|
| 557 |
+
* Samples:
|
| 558 |
+
| text1 | text2 |
|
| 559 |
+
|:-----------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------|
|
| 560 |
+
| <code>Producer với kinh nghiệm quản lý các dự án phim truyền hình và phim tài liệu.</code> | <code>Chuyên gia sản xuất phim với kỹ năng quản lý các dự án phim lớn.</code> |
|
| 561 |
+
| <code>Chuyên viên xử lý môi trường có kinh nghiệm trong xử lý nước thải và kiểm soát ô nhiễm.</code> | <code>Chuyên gia tư vấn môi trường với kinh nghiệm phát triển các dự án tái chế và xử lý nước thải.</code> |
|
| 562 |
+
| <code>Cybersecurity Expert, chuyên gia bảo mật với 3 năm kinh nghiệm.</code> | <code>Chuyên gia An ninh mạng, 3 năm kinh nghiệm bảo mật hệ thống.</code> |
|
| 563 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 564 |
+
```json
|
| 565 |
+
{
|
| 566 |
+
"scale": 20.0,
|
| 567 |
+
"similarity_fct": "cos_sim"
|
| 568 |
+
}
|
| 569 |
+
```
|
| 570 |
+
|
| 571 |
### Training Hyperparameters
|
| 572 |
#### Non-Default Hyperparameters
|
| 573 |
|
|
|
|
| 702 |
</details>
|
| 703 |
|
| 704 |
### Training Logs
|
| 705 |
+
| Epoch | Step | Training Loss | binary loss | triplet loss | similarity loss | job paraphrase loss | cv paraphrase loss | cosine_ap | cosine_accuracy | spearman_cosine |
|
| 706 |
+
|:------:|:----:|:-------------:|:-----------:|:------------:|:---------------:|:-------------------:|:------------------:|:---------:|:---------------:|:---------------:|
|
| 707 |
+
| 0 | 0 | - | - | - | - | - | - | 1.0 | 0.9682 | 0.5468 |
|
| 708 |
+
| 0.2817 | 200 | 2.401 | - | - | - | - | - | - | - | - |
|
| 709 |
+
| 0.5634 | 400 | 1.5659 | - | - | - | - | - | - | - | - |
|
| 710 |
+
| 0.7042 | 500 | - | 0.0088 | 0.2391 | 6.9067 | 0.1746 | 0.2689 | 1.0 | 0.9936 | 0.9123 |
|
| 711 |
+
| 0.8451 | 600 | 1.8501 | - | - | - | - | - | - | - | - |
|
| 712 |
+
| 1.1268 | 800 | 1.7318 | - | - | - | - | - | - | - | - |
|
| 713 |
+
| 1.4085 | 1000 | 1.3758 | 0.0079 | 0.0367 | 6.2019 | 0.1665 | 0.2657 | 1.0 | 1.0 | 0.9238 |
|
| 714 |
+
| 1.6901 | 1200 | 1.3554 | - | - | - | - | - | - | - | - |
|
| 715 |
+
| 1.9718 | 1400 | 1.5119 | - | - | - | - | - | - | - | - |
|
| 716 |
+
| 2.1127 | 1500 | - | 0.0081 | 0.0144 | 5.7135 | 0.1633 | 0.2295 | 1.0 | 1.0 | 0.9341 |
|
| 717 |
+
| 2.2535 | 1600 | 1.2886 | - | - | - | - | - | - | - | - |
|
| 718 |
+
| 2.5352 | 1800 | 1.1131 | - | - | - | - | - | - | - | - |
|
| 719 |
+
| 2.8169 | 2000 | 1.3962 | 0.0108 | 0.0191 | 6.0231 | 0.1540 | 0.2342 | 1.0 | 1.0 | 0.9396 |
|
| 720 |
+
| 3.0986 | 2200 | 1.2394 | - | - | - | - | - | - | - | - |
|
| 721 |
+
| 3.3803 | 2400 | 1.1392 | - | - | - | - | - | - | - | - |
|
| 722 |
+
| 3.5211 | 2500 | - | 0.0097 | 0.0025 | 5.6361 | 0.1580 | 0.2212 | 1.0 | 1.0 | 0.9410 |
|
| 723 |
+
| 3.6620 | 2600 | 1.1614 | - | - | - | - | - | - | - | - |
|
| 724 |
+
| 3.9437 | 2800 | 1.2351 | - | - | - | - | - | - | - | - |
|
| 725 |
+
| 4.2254 | 3000 | 1.1862 | 0.0100 | 0.0107 | 5.5943 | 0.1517 | 0.2158 | 1.0 | 1.0 | 0.9420 |
|
| 726 |
+
| 4.5070 | 3200 | 0.9371 | - | - | - | - | - | - | - | - |
|
| 727 |
+
| 4.7887 | 3400 | 1.3572 | - | - | - | - | - | - | - | - |
|
| 728 |
+
| 4.9296 | 3500 | - | 0.0104 | 0.0057 | 5.6213 | 0.1539 | 0.2141 | 1.0 | 1.0 | 0.9429 |
|
| 729 |
+
| 5.0 | 3550 | - | - | - | - | - | - | 1.0 | 1.0 | 0.9431 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 730 |
|
| 731 |
|
| 732 |
### Framework Versions
|
|
|
|
| 781 |
}
|
| 782 |
```
|
| 783 |
|
| 784 |
+
#### CoSENTLoss
|
| 785 |
+
```bibtex
|
| 786 |
+
@online{kexuefm-8847,
|
| 787 |
+
title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
|
| 788 |
+
author={Su Jianlin},
|
| 789 |
+
year={2022},
|
| 790 |
+
month={Jan},
|
| 791 |
+
url={https://kexue.fm/archives/8847},
|
| 792 |
+
}
|
| 793 |
+
```
|
| 794 |
+
|
| 795 |
+
#### MultipleNegativesRankingLoss
|
| 796 |
+
```bibtex
|
| 797 |
+
@misc{henderson2017efficient,
|
| 798 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
| 799 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
| 800 |
+
year={2017},
|
| 801 |
+
eprint={1705.00652},
|
| 802 |
+
archivePrefix={arXiv},
|
| 803 |
+
primaryClass={cs.CL}
|
| 804 |
+
}
|
| 805 |
+
```
|
| 806 |
+
|
| 807 |
<!--
|
| 808 |
## Glossary
|
| 809 |
|
model.safetensors
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
size 470637416
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:06de7179a076ef54737d05a716f4e621e3078a7b83a92970e3eaf55dab0ed0a4
|
| 3 |
size 470637416
|
runs/Nov18_22-34-49_DESKTOP-T51O3H3/events.out.tfevents.1731944093.DESKTOP-T51O3H3.12064.0
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:917f900e27a1ccca362cf5f9d02606c0f793ff29960421ca5414fddc246f0340
|
| 3 |
+
size 14276
|
runs/Nov18_22-37-55_DESKTOP-T51O3H3/events.out.tfevents.1731944278.DESKTOP-T51O3H3.22016.0
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:188f029ba96424339a3f086e26e9e3b147445a60ad049cdc0829e3c1461cd5af
|
| 3 |
+
size 22673
|
training_args.bin
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
-
size
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:e7411dec48308d116a10ef6fbd6f62c73bce2ff79de0fb9a3d0033f372d3c79c
|
| 3 |
+
size 5688
|