metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:60000000
- loss:MultipleNegativesRankingLoss
base_model: dbmdz/bert-base-turkish-cased
widget:
- source_sentence: Tasman Denizi
sentences:
- >-
(Grekçe: Πέργαμον), günümüzde İzmir iline bağlı Bergama ilçesinin
merkezinin yerinde kurulu antik kentin adıdır. , eski çağlarda Misya
bölgesinin önemli merkezlerinden biriydi. MÖ 282-133 arasında da
Krallığı'nın başkentiydi. adı, bir söylence kahramanı olan Pergamos'tan
gelir. Pergamos'un, Teuthrania kralını öldürdükten sonra kenti ele
geçirdiği ve kendi adını verdiği sanılır. Başka bir söylenceye göre de
Teuthrania Kralı Grynos savaşta Pergamos'tan yardım istemiş, zaferden
sonra iki kent kurdurarak birine onun onuruna , ötekine de Gryneion
adını vermiştir.
- ", Okyanusya bölgesinde Büyük Okyanus'a bağlı bir deniz. Avustralya ve Yeni Zelanda arasında yaklaşık 2000\_km boyunca uzanır. Avustralya'nın doğu eyaletleri olan Yeni Güney Galler, Tasmanya, Queensland ve Victoria eyaletleri Yeni Zelanda'nın batısı ve Yeni Kaledonya'ya kıyıları vardır. Queensland ve Yeni Kaledonya arasındaki boğaz ile Mercan Denizi'nden ayrılır."
- >-
(ya da Soundtrack from the Film More), Barbet Schroeder tarafından
yönetilmiş More filminin soundtrack'idir. Pink Floyd'un bu ilk
soundtrack çalışması aynı zamanda Syd Barrett olmadan yapılan ilk
albümdür. Önceki albümlerdeki prodüktör Norman Smith burada yerini Pink
Floyd'un kendisine bırakmışıtr. Pink Floyd bu ve sonraki
soundtrack'lerinde esas albümlerinde kullanmayacakları materyalleri
kullanacak, değişik tarzlarda denemeler yapacaktı. Albüm kısa pop/folk
şarkıları, doğaçlamalar, The Nile Song ve Ibiza Bar gibi hard rock
kategorisinde değerlendirilebilecek parçalardan oluşmaktadır. A Spanish
Piece gibi birçok şarkı ısmarlama şeklinde bestelenmiştir.
- source_sentence: Windows 95
sentences:
- ", Yerküre'de yer alan ana biyom tiplerinden birisidir. , yıllık 250\_mm'den az yağış alan bölgeler için kullanılan bir terimdir."
- >-
, sabit bir sıcaklık ve sabit bir gerilme altında, malzemede oluşan
gerilmenin zamana göre değişimini tespit eden bir deneydir. gerilme
gevşemesi deneyi de Sürünme deneyine benzer olarak uzun zaman
dilimlerinde gerçekleştirilebilen bir deneydir. Son zamanlarda gerilme
gevşemesi deneyi giderek yaygınlık kazanmaktadır özellikle arabaların
amortisör kısımlarında kullanılan çeliklerin geliştirilmesi konusunda
mutlak gereklilik duyulmaktadır çünkü bu malzemelerden istenen temel
özellik herhangi bir gerilim anında oluşan enerjiyi absorbe ederek daha
sonra serbest bırakması istenir. ile malzemenin yoğun olduğu
bölgelerdeki bu bölgeler döküm, plastik şekil verme ve kaynaktır. Isıl
işlemin kalıcı iç gerilmelere ve bunların giderilmesine olan etkisini
test eden bir deneydir.
Gerilme gevşemesi ile malzemelerin mekanik özellikleri arasında bir
ilişki olup bu ilişkiden faydalanarak aktivasyon enerjisi, deformasyon
hızı duyarlılığı üssü, dislokasyon hareketi için gerekli etkin gerilme,
dislokasyon hızı gerilme üssü gibi mekanik özelliklerle ilgili bazı
parametreler de gerilme gevşemesi deneyi ile tespit edilir.
- >-
, Microsoft'un ürettiği işletim sistemi ailesi Windows'un MS-DOS
üzerinde yükselen dördüncü ana sürümüdür.
- source_sentence: Soyuz 18-1
sentences:
- >-
(Soyuz 18a, 5 Nisan anomalisi), Sovyetler Birliği tarafından fırlatılan
insanlı uzay aracı. Arıza nedeniyle yörüngeye ulaşamadan içindeki iki
kozmonotla birlikte düştü. Acil iniş sisteminin çalışması nedeniyle
kozmonotlar Vasili Lazarev ve Oleg Makarov yara almadan kurtuldular.
- >-
(İbranice: חיים רביבו) (d.22 Şubat 1972, Aşdod) İsrailli eski millî
futbolcudur.
- >-
, ilk olarak genel anlamda Perry Anderson'un Üzerine Düşünceler
kitabında bahsettiği anlamda, 19. yüzyıldan ve 20. yüzyıla Marksizmin
Batı'daki hikâyesinden oluşur. Bu anlamda Marks'ın eserinden bugüne
kadarki gelişimi, ayrışmaları, iç bölümlenmeleri, farklılıklarıyla
teorik ve politik bir sistematik öğreti olarak Marksizmin Batı
düşüncesindeki ve pratiğindeki yeri değerlendirilir. Karl Kautsky ve
Lenin'in tartışmaları da bu bağlamda genel anlamdaki bu içinde yer alır.
- source_sentence: Yukarıkarakaya
sentences:
- Doğançam, Antalya ilinin Manavgat ilçesine bağlı bir mahalledir.
- >-
Sultan , III. Mustafa’nın yaptırdığı Laleli Külliyesi'ndedir. Bu türbe
Nuruosmaniye Türbesi'nden sonra Batı etkilerinin görüldüğü ikinci sultan
türbesidir. Ordu caddesi üzerinde Laleli Camii'nin giriş kapısı ile han
bölümünün yan tarafıdır. 1759–1763 yıllarında Mimar Mehmed Tahir Ağa'ya
inşa ettirilmiştir.
- ', Yozgat ilinin Çekerek ilçesine bağlı bir köydür.'
- source_sentence: Aksaz, Manavgat
sentences:
- >-
, (d. Şubat 1882, Mekke, Osmanlı İmparatorluğu - ö. 20 Temmuz 1951,
Kudüs, Filistin), Ürdün Kralı. Arap-İsrail savaşları sırasında
öldürüldü, yerine oğlu 1. Talal geçmiştir.
- (1961, Şereflikoçhisar, Ankara) Türk halk müziği sanatçısı.
- Aksaz, Antalya ilinin Manavgat ilçesine bağlı bir mahalledir.
datasets:
- selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy
- cosine_accuracy_threshold
- cosine_f1
- cosine_f1_threshold
- cosine_precision
- cosine_recall
- cosine_ap
- cosine_mcc
model-index:
- name: SentenceTransformer based on dbmdz/bert-base-turkish-cased
results:
- task:
type: binary-classification
name: Binary Classification
dataset:
name: dev
type: dev
metrics:
- type: cosine_accuracy
value: 0.9999989554433933
name: Cosine Accuracy
- type: cosine_accuracy_threshold
value: -0.10191559791564941
name: Cosine Accuracy Threshold
- type: cosine_f1
value: 0.9999994777214238
name: Cosine F1
- type: cosine_f1_threshold
value: -0.10191559791564941
name: Cosine F1 Threshold
- type: cosine_precision
value: 1
name: Cosine Precision
- type: cosine_recall
value: 0.9999989554433933
name: Cosine Recall
- type: cosine_ap
value: 0.9999999999999996
name: Cosine Ap
- type: cosine_mcc
value: 0
name: Cosine Mcc
SentenceTransformer based on dbmdz/bert-base-turkish-cased
This is a sentence-transformers model finetuned from dbmdz/bert-base-turkish-cased on the turkish_weakly_supervised_contrastive_learning_dataset dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: dbmdz/bert-base-turkish-cased
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/bert-base-turkish-cased_large_scale_contrastive_learning")
# Run inference
sentences = [
'Aksaz, Manavgat',
'Aksaz, Antalya ilinin Manavgat ilçesine bağlı bir mahalledir.',
', (d. Şubat 1882, Mekke, Osmanlı İmparatorluğu - ö. 20 Temmuz 1951, Kudüs, Filistin), Ürdün Kralı. Arap-İsrail savaşları sırasında öldürüldü, yerine oğlu 1. Talal geçmiştir.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Binary Classification
- Dataset:
dev - Evaluated with
BinaryClassificationEvaluator
| Metric | Value |
|---|---|
| cosine_accuracy | 1.0 |
| cosine_accuracy_threshold | -0.1019 |
| cosine_f1 | 1.0 |
| cosine_f1_threshold | -0.1019 |
| cosine_precision | 1.0 |
| cosine_recall | 1.0 |
| cosine_ap | 1.0 |
| cosine_mcc | 0.0 |
Training Details
Training Dataset
turkish_weakly_supervised_contrastive_learning_dataset
- Dataset: turkish_weakly_supervised_contrastive_learning_dataset at bf99eda
- Size: 60,000,000 training samples
- Columns:
anchorandpositive - Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 3 tokens
- mean: 5.02 tokens
- max: 16 tokens
- min: 9 tokens
- mean: 73.1 tokens
- max: 512 tokens
- Samples:
anchor positive Cengiz Han(doğum adıyla Temuçin, – 18 Ağustos 1227), Moğol İmparatorluğu'nun kurucusu ve ilk Kağanı olan Moğol komutan ve hükümdardır. Hükümdarlığı döneminde gerçekleştirdiği hiçbir savaşı kaybetmeyen , dünya tarihinin en büyük askeri liderlerinden birisi olarak kabul edilmektedir. 13. yüzyılın başında Orta Asya'daki tüm göçebe bozkır kavimlerini birleştirip bir ulus hâline getirerek Moğol siyasi kimliği çatısı altında toplamıştır. , hükümdarlığı döneminde, 1206-1227 arasında, Kuzey Çin'deki Batı Xia ve Jin Hanedanı; Türkistan'daki Kara Hıtay, Maveraünnehir; Harezm, Horasan ve İran'daki Harezmşahlar, Kafkasya'daki Gürcüler, Deşt-i Kıpçak'taki Rus Knezlikleri, Kıpçaklar ile İdil Bulgarları üzerine seferler yaptı ve imparatorluğu döneminde gerçekleştirdiği hiçbir savaşı kaybetmedi. Bunların sonucunda Pasifik Okyanusu'ndan Hazar Denizi'ne ve Karadeniz'in kuzeyine kadar uzanan bir imparatorluk kurdu.Mustafa SuphiMehmed Mustafa Subhi (), kısaca , veya bazı kaynaklarda kullanıldığı haliyle Osmanlıca yazıma göre Mustafa Subhi (4 Ağustos 1882 veya 4 Mayıs 1883 - 28 Ocak 1921), Türk komünist ve Türkiye Komünist Partisinin ilk Merkez Komitesi Başkanı.Linux(telaffuz: Lin-uks); çekirdeğine dayalı, açık kaynak kodlu, Unix benzeri bir işletim sistemi ailesidir. GNU Genel Kamu Lisansı versiyon 2 ile sunulan ve Vakfı çatısı altında geliştirilen bir özgür yazılım projesidir. ismi ilk geliştiricisi olan Linus Torvalds tarafından 1991 yılında verilmiştir. Günümüzde süper bilgisayarlarda, akıllı cihazların ve internet altyapısında kullanılan cihazların işletim sistemlerinde yaygın olarak kullanılmaktadır. Bunlardan en popüler olanı Google tarafından geliştirilen Android işletim sistemidir. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
turkish_weakly_supervised_contrastive_learning_dataset
- Dataset: turkish_weakly_supervised_contrastive_learning_dataset at bf99eda
- Size: 957,344 evaluation samples
- Columns:
sentence1,sentence2, andlabel - Approximate statistics based on the first 1000 samples:
sentence1 sentence2 label type string string int details - min: 3 tokens
- mean: 6.67 tokens
- max: 21 tokens
- min: 10 tokens
- mean: 48.63 tokens
- max: 457 tokens
- 1: 100.00%
- Samples:
sentence1 sentence2 label S. Murat Demiral1966 İstanbul doğumlu Türk müzisyen. 1976 yılında İstanbul devlet konservatuvarında Ziya Polat ile trombona başladı 1977 yılında İstanbul Belediye konservatuvarına geçtı burada 1 yıl Mahmut Doğuduyal ile çalıştı 1978 yılında tekrar Ziya Polat ile çalışmaya başladı. 1980 yılında İstanbul Devlet Opera ve Balesi Orkestrası'nın sınavını kazandı.1Türkiye'nin illeriAnadolu yarımadası ile Trakya toprakları üzerine kurulan Türkiye'nin, 81 ili vardır. İller, Türkiye'nin en büyük idari bölümleridir. Bu seksen bir il, dokuz yüz yetmiş üç ilçeye bölünmüştür. Bu ilçeler, en küçük idari birim olan mahalle ve köyleri içinde barındırır. İllerde yönetme ve yürütme görevi, içişleri bakanı tarafından önerilen ve bakanlar kurulunun onayından sonra cumhurbaşkanı tarafından atanan valiler tarafından yerine getirilir.1Cezayir(Arapça: الجزائر al-ġazaʾir; Berberi dilleri: ⴷⵣⴰⵢⴻⵔ Dzayer) ya da resmî adıyla Demokratik Halk Cumhuriyeti (Arapça: الجمهورية الجزائرية الديمقراطية الشّعبية), Kuzey Afrika'da ülke. 2,381,741 kilometre karelik yüzölçümü ile Afrika'nın yüzölçümü olarak en büyük ülkesi olan , dünyanın onuncu, Arap Dünyası ve Afrika Birliği içerisinde ise en büyük ülkedir. Aynı zamanda, 44 milyonluk nüfusuyla da Afrika'nın en kalabalık sekizinci ülkesidir.1 - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 64per_device_eval_batch_size: 64learning_rate: 2e-05num_train_epochs: 1lr_scheduler_type: cosine_with_restartswarmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: cosine_with_restartslr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional
Training Logs
| Epoch | Step | Training Loss | Validation Loss | dev_cosine_ap |
|---|---|---|---|---|
| 0.5333 | 500000 | 0.2938 | 0.2648 | 1.0000 |
| 0.5867 | 550000 | 0.2848 | 0.2557 | 1.0000 |
| 0.64 | 600000 | 0.2757 | 0.2482 | 1.0000 |
| 0.6933 | 650000 | 0.268 | 0.2419 | 1.0000 |
| 0.7467 | 700000 | 0.2619 | 0.2368 | 1.0000 |
| 0.8 | 750000 | 0.257 | 0.2324 | 1.0000 |
| 0.8533 | 800000 | 0.254 | 0.2296 | 1.0000 |
| 0.9067 | 850000 | 0.2507 | 0.2279 | 1.0000 |
| 0.96 | 900000 | 0.2498 | 0.2271 | 1.0000 |
Framework Versions
- Python: 3.10.6
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.7.0+cu126
- Accelerate: 1.6.0
- Datasets: 3.5.1
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}