CrossEncoder based on BAAI/bge-reranker-v2-m3

This is a Cross Encoder model finetuned from BAAI/bge-reranker-v2-m3 using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.

Model Details

Model Description

Model Type: Cross Encoder
Base model: BAAI/bge-reranker-v2-m3
Maximum Sequence Length: 8192 tokens
Number of Output Labels: 1 label

Model Sources

Documentation: Sentence Transformers Documentation
Documentation: Cross Encoder Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Cross Encoders on Hugging Face

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("cross_encoder_model_id")
# Get scores for pairs of texts
pairs = [
    ["What is the significance of Samsung Electronics as a Korean brand in the list of the world's top 100 trademarks?", '由于其正处于产品开发与验证投入阶段，影响了公司的投资收益。\n\n\u3000\u3000设备企业：\n\n\n\u3000\u3000业绩翻倍增长\n\n\u3000\u3000虽然整体半导体板块尚未走出低谷，但国产替代需求推动下，设备环节企业保持逆周期高速增长，龙头设备厂商上半年业绩翻倍增长。国家统计局最新披露，围绕着克服“卡脖子”工程，今年上半年半导体相关行业制造业增长较快，半导体器件专用设备制造业增加值增长30.9%。'],
    ['根据文中提到的上游、中游和下游的不同环节，请简要描述半导体产业链的整体结构。', 'DRAM市场由三星、美光、海力士垄断了95%的份额，目前国产厂商合肥长鑫已经开始量产并在官网上架了相关产品，紫光集团也已建立DRAM事业部准备建厂。\n\nNAND Flash的市场由三星、西数、铠侠等6家企业垄断。目前NAND Flash的发展方向是3D堆叠，国外先进企业均已纷纷开发出100层以上堆叠的NAND Flash。国产厂商长江存储已宣布128层产品研发成功，与国外先进企业的差距越来越小，已成为存储国产自主化的中坚力量。'],
    ['根据上下文信息，提出一个问题。', '半导体材料是制作晶体管、集成电路、光电子器件的重要材料。\n\n按照化学组成不同，半导体材料可以分为元素半导体和化合物半导体两大类。'],
    ['What is the projected annual growth rate of the automotive semiconductor market from 2013 to 2018 according to IHS data?', '长电科技作为A股半导体封装测试龙头，第二季度业绩也环比大幅增长。业绩预告显示，今年上半年公司实现归母净利润为4.46亿元到5.46亿元，同比减少64.65%到71.08%。公司一季度实现归母净利润约1.1亿元，第二季度或实现盈利3.36亿至4.36亿元，环比一季度增长约两倍以上，公司不断投入汽车电子、工业电子及高性能计算等领域，为新一轮应用需求增长做好准备。此前，长电科技介绍，面向高算力芯片公司推出了Chiplet高性能封装技术平台XDFOI。'],
    ['你认为人工智能未来可能在哪些领域发挥作用？', '98亿元，其中，当期汇兑损失造成净利润减少约2.03亿元，剔除该因素，上半年公司净利润为正。通富微电介绍，全球半导体市场疲软,下游需求复苏不及预期，导致封测环节业务承压,公司传统业务亦受到较大影响。作为应对，公司调整产品布局，在高性能计算、新能源、汽车电子、存储、显示驱动等领域实现营收增长，积极推动Chiplet（芯粒）市场化应用,实现了规模性量产。'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)

# Or rank different texts based on similarity to a single text
ranks = model.rank(
    "What is the significance of Samsung Electronics as a Korean brand in the list of the world's top 100 trademarks?",
    [
        '由于其正处于产品开发与验证投入阶段，影响了公司的投资收益。\n\n\u3000\u3000设备企业：\n\n\n\u3000\u3000业绩翻倍增长\n\n\u3000\u3000虽然整体半导体板块尚未走出低谷，但国产替代需求推动下，设备环节企业保持逆周期高速增长，龙头设备厂商上半年业绩翻倍增长。国家统计局最新披露，围绕着克服“卡脖子”工程，今年上半年半导体相关行业制造业增长较快，半导体器件专用设备制造业增加值增长30.9%。',
        'DRAM市场由三星、美光、海力士垄断了95%的份额，目前国产厂商合肥长鑫已经开始量产并在官网上架了相关产品，紫光集团也已建立DRAM事业部准备建厂。\n\nNAND Flash的市场由三星、西数、铠侠等6家企业垄断。目前NAND Flash的发展方向是3D堆叠，国外先进企业均已纷纷开发出100层以上堆叠的NAND Flash。国产厂商长江存储已宣布128层产品研发成功，与国外先进企业的差距越来越小，已成为存储国产自主化的中坚力量。',
        '半导体材料是制作晶体管、集成电路、光电子器件的重要材料。\n\n按照化学组成不同，半导体材料可以分为元素半导体和化合物半导体两大类。',
        '长电科技作为A股半导体封装测试龙头，第二季度业绩也环比大幅增长。业绩预告显示，今年上半年公司实现归母净利润为4.46亿元到5.46亿元，同比减少64.65%到71.08%。公司一季度实现归母净利润约1.1亿元，第二季度或实现盈利3.36亿至4.36亿元，环比一季度增长约两倍以上，公司不断投入汽车电子、工业电子及高性能计算等领域，为新一轮应用需求增长做好准备。此前，长电科技介绍，面向高算力芯片公司推出了Chiplet高性能封装技术平台XDFOI。',
        '98亿元，其中，当期汇兑损失造成净利润减少约2.03亿元，剔除该因素，上半年公司净利润为正。通富微电介绍，全球半导体市场疲软,下游需求复苏不及预期，导致封测环节业务承压,公司传统业务亦受到较大影响。作为应对，公司调整产品布局，在高性能计算、新能源、汽车电子、存储、显示驱动等领域实现营收增长，积极推动Chiplet（芯粒）市场化应用,实现了规模性量产。',
    ]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]

Evaluation

Metrics

Cross Encoder Reranking

Dataset: train-eval
Evaluated with CERerankingEvaluator with these parameters:
```
{
    "at_k": 10
}
```

Metric	Value
map	0.9177
mrr@10	0.9177
ndcg@10	0.9377

Training Details

Training Dataset

Unnamed Dataset

Size: 890 training samples
Columns: sentence_0, sentence_1, and label

Approximate statistics based on the first 890 samples:

	sentence_0	sentence_1	label
type	string	string	int
details	min: 13 characters mean: 55.08 characters max: 237 characters	min: 64 characters mean: 179.63 characters max: 249 characters	0: ~80.00% 1: ~20.00%

Samples:

sentence_0	sentence_1	label
`What is the significance of Samsung Electronics as a Korean brand in the list of the world's top 100 trademarks?`	由于其正处于产品开发与验证投入阶段，影响了公司的投资收益。　　设备企业：　　业绩翻倍增长　　虽然整体半导体板块尚未走出低谷，但国产替代需求推动下，设备环节企业保持逆周期高速增长，龙头设备厂商上半年业绩翻倍增长。国家统计局最新披露，围绕着克服“卡脖子”工程，今年上半年半导体相关行业制造业增长较快，半导体器件专用设备制造业增加值增长30.9%。	`0`
`根据文中提到的上游、中游和下游的不同环节，请简要描述半导体产业链的整体结构。`	DRAM市场由三星、美光、海力士垄断了95%的份额，目前国产厂商合肥长鑫已经开始量产并在官网上架了相关产品，紫光集团也已建立DRAM事业部准备建厂。 NAND Flash的市场由三星、西数、铠侠等6家企业垄断。目前NAND Flash的发展方向是3D堆叠，国外先进企业均已纷纷开发出100层以上堆叠的NAND Flash。国产厂商长江存储已宣布128层产品研发成功，与国外先进企业的差距越来越小，已成为存储国产自主化的中坚力量。	`0`
`根据上下文信息，提出一个问题。`	`半导体材料是制作晶体管、集成电路、光电子器件的重要材料。按照化学组成不同，半导体材料可以分为元素半导体和化合物半导体两大类。`	`0`

Loss: BinaryCrossEntropyLoss with these parameters:

{
    "activation_fn": "torch.nn.modules.linear.Identity",
    "pos_weight": null
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
num_train_epochs: 2
fp16: True

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 8
per_device_eval_batch_size: 8
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1
num_train_epochs: 2
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.0
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: batch_sampler
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Epoch	Step	train-eval_ndcg@10
0.8929	100	0.9377

Framework Versions

Python: 3.9.20
Sentence Transformers: 5.0.0
Transformers: 4.53.1
PyTorch: 2.4.1
Accelerate: 1.8.1
Datasets: 3.6.0
Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

Downloads last month: 6

Safetensors

Model size

0.6B params

Tensor type

F32

Inference Providers NEW

Text Ranking

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Setsuna007/ft-bge-reranker-v2-m3-test

Base model

BAAI/bge-reranker-v2-m3

Finetuned

(33)

this model

Evaluation results

Map on train eval
self-reported

0.918
Mrr@10 on train eval
self-reported

0.918
Ndcg@10 on train eval
self-reported

0.938

View on Papers With Code