SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("whitemouse84/ModernBERT-base-en-ru-v2")
# Run inference
sentences = [
    'They were not harmed, since the pilots managed to react and stop the accelerating plane. The largest participants were the nuclear-powered cruise missile submarine Orel and the large submarine chaser Vice-Admiral Kulakov—they could be seen in the Finnish Gulf. A 68-year-old resident of Huizhou District in the southern Guangdong Province, who kept poultry on his farm, has been infected. It\'s true: he wrote me wonderful letters", - Trump joked.',
    'Они не пострадали, поскольку пилоты успели среагировать и остановить набирающий скорость самолет. А самыми крупными участниками стали атомный подводный ракетный крейсер "Орел" и большой противолодочный корабль "Вице-адмирал Кулаков" - их можно было увидеть в Финском заливе. Инфекцией заразился 68-летний житель городского округа Хуэйчжоу в южной провинции Гуандун, который держал в хозяйстве домашнюю птицу. Правда: он писал мне прекрасные письма", - пошутил Трамп.',
    'Но как художник - вообще не художнику: что бы тут поменять? Я с кобелем (умер давно уже) разговаривала так - если ты готов променять теплый дом, кормежку, ласку, любовь и игры на течную суку, то вперед. К сожалению, видимся все чаще на похоронах. Каждый из нас желал бы быть таким истинно верующим, и каждый старается быть им. А вот медицина была на нуле - пиявки, чеснок и отвары. И также она понимает, что 4 года до следующей олимпиады она не выдержит, т. е. никогда не будет олимпийской чемпионкой. Борис, если не знаешь историю, не пиши. Пособия копеечные и платят их максимум до 3 лет, пенсии 12000, кто-то про стоматологию писал, протезирование у нас давно платное и очень дорого. Только натуральные материалы и натуральные цвета. Но никто не должен говорить ни про себя, ни про тех, которые верят так же, как он, что они одни истинно верующие. Когда встретит своего человека, тогда и взгляды поменяются. Ну поступила в вуз, а что дальше? Когда встретит своего человека, тогда и взгляды поменяются. Если вам безразлична судьба вашей недвижимости в количестве четырех объектов, то почему вы решили, что ваши объекты кому-то интересны и он будет за них радеть? С моей точки зрения, программа по литературе формировалась дамами бальзаковского возраста на основании их интересов. Опять просто и вкусно.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Knowledge Distillation

  • Datasets: small_content and big_content
  • Evaluated with MSEEvaluator
Metric small_content big_content
negative_mse -4.1772 -0.7558

Translation

Metric small_content big_content
src2trg_accuracy 0.9445 0.9345
trg2src_accuracy 0.8625 0.6253
mean_accuracy 0.9035 0.7799

Training Details

Training Dataset

Unnamed Dataset

  • Size: 20,000 training samples
  • Columns: english, non_english, and label
  • Approximate statistics based on the first 1000 samples:
    english non_english label
    type string string list
    details
    • min: 513 tokens
    • mean: 819.54 tokens
    • max: 1075 tokens
    • min: 1050 tokens
    • mean: 1977.62 tokens
    • max: 2840 tokens
    • size: 768 elements
  • Samples:
    english non_english label
    Now our bilateral trade exceeds $10 bln, but these figures could double. One brief look at “Severodvinsk” is enough, - admiral Dave Johnson says, cited by The National Interest. Then many considered it a joke, but forgave the mentor bias at the first stage. I have no such plans at the moment, but down the road, in a year or two, if Boris Borisovich doesn’t mind, I might do a project like this. This has led to economic slowdown in all industries. The blogger ran for Verkhovna Rada from the European Solidarity Party. Great Britain's impressive run in the Rugby 7s was brought to a crashing halt at the final hurdle by Fiji in the final on Thursday night when they were comprehensively beaten 43-7 at the Deodoro Stadium here in Rio. In provisionally recommending ticagrelor we are pleased to be able to increase the treatment options available to the many thousands of people who stand to benefit from it. President of Turkey Recep Tayyip Erdogan took part in the ceremony. Kvyat parked the car i... Сейчас наша двусторонняя торговля превышает 10 млрд долларов США, но эти цифры можно удвоить в два раза. Достаточно только взглянуть на "Северодвинск", - цитирует The National Interest контр-адмирала Дэйва Джонсона. Тогда многие сочли это шуткой, но простили наставнику необъективность на первом этапе. Пока у меня нет подобной задачи, но в будущем, через год-два, если Борис Борисович не станет возражать, я, возможно, сделаю такой проект. Это привело к падению экономической активности во всех отраслях. Блогер баллотировался в Верховную Раду от партии "Европейская солидарность". Впечатляющая серия Великобритании в Регби-7 была сокрушительно остановлена на финальном препятствии командой Фиджи в финале в четверг вечером, когда они были полностью разгромлены 43-7 на стадионе Deodoro здесь в Рио. Предварительно рекомендуя тикагрелор, мы рады иметь возможность увеличить варианты лечения, доступные многим тысячам людей, которые готовы его использовать. В мероприятии принимал участие президент Т... [-0.6823775768280029, -0.613033652305603, -0.10617104917764664, 0.5970029830932617, -0.1097821593284607, ...]
    ‘We're going to have to change our ways’, says the Imam of Burnaevskaya Mosque, Farhat Mavletdinov. Just four years later, as soon as the Soviet Union collapsed, Lisa's parents decided to immigrate to Germany. The protest began earlier Saturday evening with groups such as the "Wall of Moms," similar to a group that formed in Portland, Oregon, as protesters faced off with U.S. agents deployed to that city to guard a federal courthouse. The great loudmouth Rush Limbaugh, a kind of John the Baptist for the coming of Trump, argued in 2010 that Liberty is not inviting anyone in, but is rather an early neocon, taking the American flame out to the benighted world: "Lady Liberty is stepping forward. North Korea's foreign minister told the United Nations on Saturday continued sanctions were deepening its mistrust in the United States and there was no way the country would give up its nuclear weapons unilaterally under such circumstances. For more on the latest IAAF Council report, read the Komm... "Придется перестраиваться", - говорит имам Бурнаевской мечети Фархат Мавлетдинов. Всего через четыре года, как только развалился Советский Союз, родители Лизы приняли решение эмигрировать в Германию. Протест начался ранее в субботу вечером, с таких групп как "Стена Мам", похожая на группу, сформированную в Портленде, Орегон, когда протестующим дали отпор федеральные агенты, присланные в город охранять здание федерального суда. Громогласный Раш Лимбо, своего рода Иоанн Креститель, возвестивший пришествие Трампа, в 2010 рассуждал, что Свобода никого не приглашает, скорее она - ранний неоконсерватор, несущий пламя Америки лежащему во тьме миру: "Свобода идет вперед. Министр иностранных дел Северной Кореи заявил в субботу Организации объединенных наций, что продолжающиеся санкции усугубляют недоверие по отношению к США и что в этих обстоятельствах его страна ни в коем случае не откажется от ядерного оружия в одностороннем порядке. Подробнее о последнем докладе совета IAAF читайте в материа... [-0.6473546028137207, -0.825645923614502, -0.10338561981916428, 0.4768540859222412, -0.0589575469493866, ...]
    Finance Ministry forecasts gradual weakening of the ruble exchange rate But if this doesn’t happen, I don’t intend to pull the plug on anyone. The death knell for our team turned out to be defensive mistakes that enabled the Kalugans to make a series of critical plays. The town of some 19,000 people consists of wooden houses ringed by bamboo fencing, corrugated iron roofs transformed by rust into varying tawny shades. Due to prophylactic measures aimed at preventing the spread of the coronavirus, access to the parade was only by permit. Ticket prices range from 1,200 to 2,600 rubles. "The child was hospitalized with injuries." There, an employee at the Valencia archives, Carlos Recio, managed to not go to work for an entire ten years. The forms are purchased by the Special Designation Center for Traffic Safety (SDCTS) of the Russian Ministry of the Interior, and then they are distributed to departments of the State Traffic Safety Inspectorate. Nevertheless, as of the first half of 2017... Минфин прогнозирует постепенное ослабление курса рубля Но если этого не произойдет, перекрывать кислород никому не собираюсь. Тревожными звоночками для нашей команды стали ошибки в обороне, которые позволили калужанам создать ряд острых моментов. Город с населением около 19 000 человек состоит из деревянных домов, обнесённых бамбуковыми оградами; крыши из гофрированной стали покрашены ржавчиной в разнообразные рыжеватые оттенки. В связи с профилактическими мероприятиями по недопущению распространения коронавируса на парад можно было попасть только по пропускам. Цена билетов: от 1200 до 2600 рублей. - С травмами ребенка госпитализировали. Там сотрудник архива Валенсии Карлес Ресио умудрился целых десять лет не ходить на работу. Бланки закупает Центр специального назначения в области безопасности дорожного движения (ЦСН БДД) МВД РФ и затем поставляет их в подразделения ГИБДД. Тем не менее по состоянию на первое полугодие 2017 года совокупный объем долга по государственным и муниципальным... [-0.8306307792663574, -0.6250832080841064, 0.02941216714680195, 0.36837276816368103, -0.15844981372356415, ...]
  • Loss: MSELoss

Evaluation Datasets

small_content

  • Dataset: small_content
  • Size: 2,000 evaluation samples
  • Columns: english, non_english, and label
  • Approximate statistics based on the first 1000 samples:
    english non_english label
    type string string list
    details
    • min: 2 tokens
    • mean: 65.61 tokens
    • max: 508 tokens
    • min: 6 tokens
    • mean: 156.21 tokens
    • max: 1348 tokens
    • size: 768 elements
  • Samples:
    english non_english label
    The purpose of the ESIA is to assess and manage these potential impacts. Цель отчета ОВОСЭС оценить и управлять данными потенциальными воздействиями. [-0.15439999103546143, -0.33840128779411316, -0.08845899999141693, 0.12196651846170425, 0.08078796416521072, ...]
    All four connectors are too close to each other, that may led to problems with a big device barring a few connectors at once; I recommend to use an external USB hub with a long cord. Немного неудобно, что все 4 разъёма очень близко - большое устройство может загородить сразу несколько разъёмов; приходится вставлять удлинитель/разветвитель USB. [0.44132187962532043, -0.2752993106842041, -0.46529725193977356, 0.5925530791282654, 0.3047070801258087, ...]
    They don't own those facilities. Они не владеют этими фабриками. [0.5349293351173401, -0.2857024073600769, -0.3421732187271118, 0.14369751513004303, -0.06118909642100334, ...]
  • Loss: MSELoss

big_content

  • Dataset: big_content
  • Size: 1,497 evaluation samples
  • Columns: english, non_english, and label
  • Approximate statistics based on the first 1000 samples:
    english non_english label
    type string string list
    details
    • min: 513 tokens
    • mean: 830.34 tokens
    • max: 1246 tokens
    • min: 974 tokens
    • mean: 2005.18 tokens
    • max: 3142 tokens
    • size: 768 elements
  • Samples:
    english non_english label
    According to Onishchenko, "prudishness", the hushing up of "problems of a sexual age" and the lack of a culture of adequate parenting are preventing a solution to the problem. It is important for us to learn from SCO and BRICS countries, including Russia, Kumar said. The US Congress gives the go-ahead to sell F-35 fighter planes to Poland Behind every rowing gold is a battalion of willing hands contributing the incremental gains that make the difference, and no hands were more instrumental than those of a coach who 30 months ago did not know whether he would live to see this day when diagnosed with cancer. But the official claim - that a man once touted as a potential president, suddenly wanted to run Russia's environmental policy - has been met with great scepticism. 'Davlet’ (to exert pressure) or 'dovlet' (to loom over) - which is correct? Kremlin supports smoking ban on residential building balconies Emperor Peter the Great took part in its design. This new way of doing things will... По мнению Онищенко, решению проблемы мешают "ханжество", замалчивание "проблем полового возраста" и отсутствие культуры адекватного воспитания детей. Нам важно учиться у стран ШОС и БРИКС, в том числе у России, - подчеркнул гость из Дели. Конгресс США дал согласие на продажу Польше истребителей F-35 За каждым золотом гребли батальон готовых рук, способствующих постепенно нарастающим победам, которые имеют важное значение, и нет рук, которые были более важную роль, чем руки тренера, который 30 месяцев назад, когда ему поставили диагноз рак, не знал, доживет ли он до того, чтобы увидеть этот день. Но официальное заявление — что человек, за которого когда-то агитировали как за потенциального президента, внезапно захотел управлять российской экологической политикой — было встречено с огромным скептицизмом. Давлеть и довлеть - как правильно? Кремль поддерживает запрет курения на балконах жилых домов В его проектировании принимал участие император Петр I. Новшество коснется всех владельцев т... [-0.7897448539733887, -0.7414067387580872, -0.1330026388168335, 0.47780340909957886, -0.09069588780403137, ...]
    "Worthy of recognition is the influence of apartments at a budget under four million rubles on the commercial successes of the microregion Tsentralny in Noviye Vatutinki and the housing complex Filatov Lug," the research says about two other housing complexes in New Moscow. "On the part of Agutin, this was unprofessional". The collection of funds started on 28 September after Ganza's complaints of a low level of income. Nornikel to allocate 139.8 billion rubles for dividends per results of first half of year The new-type school will open in Khamovniki. The program for the second Skolkovo Jazz Science festival, which will take place on August 26 at the Skolkovo Innovation Center, has been announced. On April 1, the “Old cellar” bar in Kazan was on fire. The Glaswegian 23-year-old was in the anchor role that his fellow Scotsman Sir Chris Hoy made his own and the youngster did the legend proud as he stormed home to snatch victory from the favoured New Zealand outfit. A new incident occurr... "Следует признать влияние квартир с бюджетом менее четырех миллионов рублей на коммерческие успехи микрорайона "Центральный" в "Новых Ватутинках" и ЖК "Филатов Луг", - говорится в исследовании еще о двух ЖК Новой Москвы. "Со стороны Агутина это было непрофессионально". Сбор средств открыли 28 сентября после жалобы Ганзи на низкий уровень доходов. "Норникель" направит на дивиденды 139,8 млрд рублей по итогам первого полугодия Школу нового образца откроют в Хамовниках. Объявлена программа второго фестиваля Skolkovo Jazz Science, который пройдет 26 августа в инновационном центре "Сколково". 1 апреля в трактире "Старый амбар" в Казани произошел пожар. 23-летний уроженец Глазго был в роли сильнейшего, которую его приятель шотландец сэр Крис Хой сделал своей собственной, и юноша гордо вошёл в историю, промчавшись по финишной прямой, чтобы вырвать победу у команды-фаворита из Новой Зеландии. В пятницу утром в Гиришке произошло новое ЧП. Очередной очень качественный матч провел Алексей Сиротин... [-0.689254641532898, -0.6664333343505859, 0.14852283895015717, 0.5063486695289612, -0.16029280424118042, ...]
    If third-party analytics tools promise to increase employee commitment and engagement, it's no wonder they're finding backing. The movie "Quo Vadis, Aida?" by Jasmila Zbanic (Bosnia) received the maximum number of awards this time. He considered that he had a right to the cart, since he started rummaging in the trash first. After the match in St. Petersburg, we held a meeting and agreed that we should leave this game behind us and prepare for Minsk. "It is in no way administratively or financially accountable to the Moscow Patriarchate. Others roundly rejected the anime comparison. One hundred rubles need to be invested in order to earn one ruble, added Evkurov. Pruitt, who was Oklahoma's state attorney general prior to his appointment by President Donald Trump, has long served as a reliable opponent of stricter environmental regulations. Read more about the reshuffles in the Kommersant publication "Maneuver with three horses". Medvedev is certain that the future of children depends pr... Если аналитические инструменты третьей стороны обещают увеличить преданность и вовлечённость сотрудников, то неудивительно, что они находят поддержку. Максимальное количество наград получил в этот раз фильм Ясмилы Жбанич (Босния) "Куда ты идешь, Аида?" Он считал, что может претендовать на тележку, так как первым начал копаться в мусоре. После матча в Санкт-Петербурге мы провели собрание и договорились о том, что должны оставить позади эту игру и готовиться к Минску. Какой-либо административно-финансовой подотчетности Московской патриархии не существует. Другие полностью отвергли сравнение с аниме. Надо 100 рублей вложить, чтобы заработать один рубль, добавил Евкуров. Прюитт, который до того, как был назначен президентом Трампом на свою нынешнюю должность, был генеральным прокурором штата Оклахома, был давно известен как последовательный противник ужесточения экологических норм. Подробнее о перестановках читайте в публикации "Ъ" "Ход тремя конями". Медведев уверен, что именно от воспита... [-0.7000671625137329, -0.6962375640869141, -0.07215329259634018, 0.4740103483200073, 0.044205255806446075, ...]
  • Loss: MSELoss

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 32
  • learning_rate: 1e-06
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • bf16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 32
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss small content loss big content loss small_content_negative_mse small_content_mean_accuracy big_content_negative_mse big_content_mean_accuracy
0.192 60 - 0.0220 0.0041 -4.1764 0.9042 -0.7689 0.7762
0.32 100 0.1174 - - - - - -
0.384 120 - 0.0220 0.0040 -4.1765 0.903 -0.7602 0.7812
0.576 180 - 0.0220 0.0040 -4.1756 0.9027 -0.7582 0.7692
0.64 200 0.113 - - - - - -
0.768 240 - 0.0221 0.0040 -4.1768 0.9038 -0.7579 0.7796
0.96 300 0.1129 0.0220 0.0040 -4.1772 0.9035 -0.7558 0.7799

Framework Versions

  • Python: 3.13.2
  • Sentence Transformers: 3.4.1
  • Transformers: 4.49.0
  • PyTorch: 2.6.0+cu126
  • Accelerate: 1.4.0
  • Datasets: 3.3.2
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MSELoss

@inproceedings{reimers-2020-multilingual-sentence-bert,
    title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2020",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2004.09813",
}
Downloads last month
2
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Evaluation results