Sentence Similarity
sentence-transformers
Safetensors
modernbert
feature-extraction
Generated from Trainer
dataset_size:1219201
loss:CachedMultipleNegativesRankingLoss
text-embeddings-inference
Instructions to use BounharAbdelaziz/ModernBERT-Arabic-Embeddings with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use BounharAbdelaziz/ModernBERT-Arabic-Embeddings with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("BounharAbdelaziz/ModernBERT-Arabic-Embeddings") sentences = [ "2300", "https://ar.wikipedia.org/wiki/%D9%82%D8%A7%D8%A6%D9%85%D8%A9%20%D8%A7%D9%84%D8%AF%D9%88%D9%84%20%D8%A7%D9%84%D8%A3%D8%B9%D8%B6%D8%A7%D8%A1%20%D9%81%D9%8A%20%D8%A7%D9%84%D8%A3%D9%85%D9%85%20%D8%A7%D9%84%D9%85%D8%AA%D8%AD%D8%AF%D8%A9", "الدُّوَلُ الأعضاء في الأُمَمِ المُتَّحِدة هي مجموعة الدول ذات السيادة في العالم والبالغ عددها 193 دولة وتتمتع بعضوية في الأمم المتّحدة، تُمثَّل هذه الدول تمثيلًا متساويًا في الجمعية العامة للأمم المتّحدة.\n\nترد معايير قبول الأعضاء الجدد في الأمم المتحدة في الفصل الثاني، المادة 4 من ميثاق الأمم المتّحدة:\n العضوية في الأمم المتحدة مفتوحة لجميع الدول المحبة للسلام التي تقبل الالتزامات المنصوص عليها في الميثاق الحالي، وهي (في رأي المنظمة) قادرة وراغبة في تنفيذها.\n تُقبل أية دولة من هذه الدول في عضوية \"الأمم المتحدة\" بقرار من الجمعية العامة بناءً على توصية مجلس الأمن.\n\nتتطلب التّوصية الصادرة عن مجلس الأمن المُتعلقة بالقبول أن يوافق تسعة على الأقل من أعضاء المجلس الخمسة عشر، مع عدم استخدام أي من الأعضاء الخمسة دائمي العضوية حقهم في النقض. ويحتاج قبول الدولة بعد ذلك للنجاح في تصويت على توصية مجلس الأمن في الجمعية العامة بأغلبية الثلثين.\n\nيمكن فقط أن تُصبح الدّول ذات السيادة أعضاء في الأمم المتّحدة، ولذلك فإن أعضاء الأمم المتّحدة كلهم في الوقت الحالي دول ذات سيادة. مع ذلك، فإن خمسة أعضاء لم يكونوا ذوي سيادة عندما انضموا إلى الأمم المتّحدة، ولكنهم استقلوا تمامًا بين عامي 1946 و1991. وبما أنه لا يمكن قبول أي دولة عضوًا في الأمم المتّحدة إلا بموافقة مجلس الأمن والجمعية العامة، فإن عددًا من الدول ذات السيادة وفقًا لاتفاقية مونتيفيديو ليست أعضاء في الأمم المتّحدة، لأن الأمم المتّحدة لا تعاملها معاملة الدول ذات السيادة، ويرجع ذلك أساسًا إلى الافتقار إلى الاعتراف الدّولي أو بسبب معارضة أحد الأعضاء الدائمين.\n\nبالإضافة إلى الدّول الأعضاء؛ تدعو الأمم المتّحدة أيضًا الدّول غير الأعضاء لتشارك بصفة مراقب في الجمعية العامة (حاليًا: الكرسي الرسولي ودولة فلسطين)، مما يسمح لها بالمشاركة والتكلم في جلسات الجمعية العامة دون أن تصوت. كما يحق للجمعية العامة توجيه دعوة دائمة لمجموعة من المنظمات الحكومية الدولية وكيانات ومنظمات غير حكومية لتكون مراقبة ضمن جلسات وأعمال الجمعية العامة.\n\nالأعضاءُ المؤسِّسون \n\nدخلت الأمم المتحدة رسميًا حيز الوجود في 24 أكتوبر 1945 بعد التصديق على ميثاق الأمم المتحدة من قبل الأعضاء الخمسة الدائمين في مجلس الأمن التابع للأمم المتحدة (جمهورية الصين، وفرنسا، والاتحاد السوفيتي، والمملكة المتحدة، والولايات المتحدة) وأغلبية من الموقعين الآخرين. وانضم ما مجموعه 51 من الأعضاء المؤسسين في ذلك العام؛ ووقع 50 منهم الميثاق في مؤتمر الأمم المتحدة المعني بالمنظمة الدولية في سان فرانسيسكو في 26 يونيو 1945، في حين وقعت بولندا (الّتي لم تكن ممثلة في المؤتمر) في 15 أكتوبر 1945. الأعضاء المؤسسون في الأمم المتحدة هم: فرنسا، وجمهورية الصين، والاتحاد السوفيتي، والمملكة المتحدة، والولايات المتحدة، والأرجنتين، وأستراليا، وبلجيكا، وبوليفيا، والبرازيل، وبيلاروس، وكندا، وتشيلي، وكولومبيا، وكوستاريكا، وكوبا، وتشيكوسلوفاكيا، والدنمارك، والجمهورية الدومينيكية، والإكوادور، والسعودية، ومصر، والسلفادور، وإثيوبيا، واليونان، وغواتيمالا، وهايتي، وهندوراس، والهند، وإيران، والعراق، ولبنان، وليبيريا، ولوكسمبورغ، والمكسيك، وهولندا، ونيوزيلندا، ونيكاراغوا، والنرويج، وبنما، وباراغواي، وبيرو، والفلبين، وبولندا، وجنوب أفريقيا، وسوريا، وتركيا، وأوكرانيا، وأوروغواي، وفنزويلا، ويوغوسلافيا.\n\nومن بين الأعضاء المؤسسين فإنّ 49 منهم إما أنهم لا يزالون أعضاء في الأمم المتحدة أو أن عضويتهم في الأمم المتحدة مستمرة من قبل دولة خلف. على سبيل المثال واصل الاتحاد الروسي عضوية الاتحاد السوفيتي بعد حلّه. العضوين المؤسسين الذين حُلِّت عضويتهما هما تشيكوسلوفاكيا ويوغوسلافيا، فقد توقفت عضويتهما في الأمم المتحدة منذ عام 1992 ولم يخلف أيًا منهما دولة أخرى.\n\nشغلت جمهورية الصين مقعد الصين في الأمم المتحدة وقت تأسيسها، ولكن نتيجة لقرار الجمعية العامة للأمم المتحدة 2758 في عام 1971، تحتفظ اليوم جمهورية الصين الشعبية بهذا المقعد.\n\nلم يكن لبعضٍ من الأعضاء المؤسسين صفة سيادية عندما انضموا إلى الأمم المتحدة، ولم يحصلوا على الاستقلال الكامل إلا في وقت لاحق:\n بيلاروس (جمهورية بيلاروس الاشتراكية السوفيتية السابقة) وأوكرانيا (جمهورية أوكرانيا الاشتراكية السوفيتية سابقًا) كانتا من الجمهوريات المكونة للاتحاد السوفيتي، إلى أن نالتا استقلالهما الكامل في عام 1991.\n خضعت الهند (التي كان إقليمها آنذاك قبل التقسيم يشمل أيضًا أراضي باكستان وبنغلاديش الحالية) للحكم الاستعماري البريطاني إلى أن نالت استقلالها الكامل في عام 1947.\n الفلبين (كومنولث الفلبين آنذاك) كانت منطقة ذات حكم ذاتي تابعة للولايات المتحدة، إلى أن نالت استقلالها الكامل في عام 1946.\n في حين أن نيوزيلندا تتمتع بالسيادة في ذلك الوقت بحكم الواقع، فإنها لم تكتسب القدرة الكاملة على الدخول في علاقات مع الدول الأخرى إلا في عام 1947 عندما أقرت قانون اعتماد لوستمينستر، حدث ذلك بعد مرور 16 سنة على اعتماد البرلمان البريطاني للنظام الأساسي لوستمينستر في عام 1931 الذي اعترف بالاستقلال الذاتي لنيوزيلندا. وفقًا لمعايير اتفاقية مونتيفيديو، وإذا ما حُكِمَ عليها بموجب معايير اتفاقية مونتيفيديو، فإن نيوزيلندا لم تحقق قيام دولة كاملة بحكم القانون حتى عام 1947\".\n\nالأعضاء الحاليون \nالأعضاء الحاليون وتواريخ أنضمامهم مدرجة أدناه بتسمياتهم الرسميَّة باللغة العربيَّة والمستخدمة في الأممِ المتَّحدة.\n\nالمراقبون وغير الأعضاء\n\nالدول المراقبة \nبالإضافة إلى الدول الأعضاء، هناك دولتان مراقبتان غير عضوتين: الكرسي الرسولي ودولة فلسطين.\n يحتفظ الكرسي الرسولي بالسيادة على دولة الفاتيكان ويقيم علاقات دبلوماسية مع 180 دولة أخرى. وقد ظلت دولة بصفة مراقب منذ 6 أبريل 1964، وحصلت على جميع حقوق العضوية الكاملة باستثناء التصويت في 1 يوليو 2004.\n مُنحت منظمة التحرير الفلسطينية صفة مراقب بوصفها «كيانًا غير عضو» في 22 نوفمبر 1974. واعترافًا بإعلان المجلس الوطني الفلسطيني دولة فلسطين في 15 نوفمبر 1988، قرّرت الجمعية العامة للأمم المتحدة اعتبارًا من 15 ديسمبر 1988 بأنه ينبغي استخدام تسمية «دولة فلسطين» بدلًا من تسمية «منظمة التحرير الفلسطينية» في منظومة الأمم المتحدة. في 23 سبتمبر 2011 قدّم محمود عباس رئيس السلطة الوطنية الفلسطينية طلب الحصول على عضوية الأمم المتحدة لدولة فلسطين إلى الأمين العام للأمم المتحدة بان كي مون؛ ولم يصوت مجلس الأمن التابع للأمم المتحدة على الطلب. وفي 31 أكتوبر 2011، صوتت الجمعية العامة لليونسكو على قبول فلسطين كعضو، فأصبحت أول وكالة تابعة للأمم المتحدة تقبل فلسطين كعضو كامل العضوية. أُعترف بدولة فلسطين بوصفها «دولة غير عضو» في 29 نوفمبر 2012، عندما وافقت الجمعية العامة للأمم المتحدة على قرار الجمعية العامة للأمم المتحدة 67/19 بأغلبية 138 صوتًا مقابل 9 أصوات وامتناع 41 عضوًا عن التصويت.\n\nالمنظمات المراقبة \nأصدرت الجمعية العامة للأمم المتحدة مجموعة من الدعوات الدائمة لبعض المنظمات الحكومية الدولية كمراقبين في أعمال وجلسات الجمعية العامة للأمم المتحدة، وتقسّم الأمم المتحدة هذه المنظمات إلى ثلاث تصنيفات أساسية.\n\nالمنظمات الحكومية الدولية المراقبة في دورات وأعمال الجمعية العامة ولديها مكاتب دائمة في المقر\n\nالمنظمات الحكومية الدولية المراقبة في دورات وأعمال الجمعية العامة وليس لها مكاتب دائمة في المقر\n\nالكيانات الأخرى المراقبة في دورات وأعمال الجمعية العامة ولديها مكاتب دائمة في المقر\n\nملاحظات\n\nالمراجع\n\nوصلاتٌ خارجيَّة \n \n\nبلدان حسب المنظمات الدولية\nتاريخ الأمم المتحدة\nدول أعضاء في الأمم المتحدة\nعلاقات الأمم المتحدة\nقوائم متعلقة بالأمم المتحدة", "قائمة الدول الأعضاء في الأمم المتحدة" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
SentenceTransformer based on answerdotai/ModernBERT-base
⚠️ Important note: Caution when using this model, still under eval. It might produce undesired results. Stable version coming soon. Stay tuned!
This is a sentence-transformers model finetuned from answerdotai/ModernBERT-base on the wikipedia dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: answerdotai/ModernBERT-base
- Maximum Sequence Length: 8196 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- Languages: ab, ace, ady, af, alt, am, ami, an, ang, anp, ar, arc, ary, arz, as, ast, atj, av, avk, awa, ay, az, azb, ba, ban, bar, bbc, bcl, be, bg, bh, bi, bjn, blk, bm, bn, bo, bpy, br, bs, bug, bxr, ca, cbk, cdo, ce, ceb, ch, chr, chy, ckb, co, cr, crh, cs, csb, cu, cv, cy, da, dag, de, dga, din, diq, dsb, dty, dv, dz, ee, el, eml, en, eo, es, et, eu, ext, fa, fat, ff, fi, fj, fo, fon, fr, frp, frr, fur, fy, ga, gag, gan, gcr, gd, gl, glk, gn, gom, gor, got, gpe, gsw, gu, guc, gur, guw, gv, ha, hak, haw, hbs, he, hi, hif, hr, hsb, ht, hu, hy, hyw, ia, id, ie, ig, ik, ilo, inh, io, is, it, iu, ja, jam, jbo, jv, ka, kaa, kab, kbd, kbp, kcg, kg, ki, kk, kl, km, kn, ko, koi, krc, ks, ksh, ku, kv, kw, ky, la, lad, lb, lbe, lez, lfn, lg, li, lij, lld, lmo, ln, lo, lt, ltg, lv, lzh, mad, mai, map, mdf, mg, mhr, mi, min, mk, ml, mn, mni, mnw, mr, mrj, ms, mt, mwl, my, myv, mzn, nah, nan, nap, nds, ne, new, nia, nl, nn, no, nov, nqo, nrf, nso, nv, ny, oc, olo, om, or, os, pa, pag, pam, pap, pcd, pcm, pdc, pfl, pi, pih, pl, pms, pnb, pnt, ps, pt, pwn, qu, rm, rmy, rn, ro, ru, rue, rup, rw, sa, sah, sat, sc, scn, sco, sd, se, sg, sgs, shi, shn, si, sk, skr, sl, sm, smn, sn, so, sq, sr, srn, ss, st, stq, su, sv, sw, szl, szy, ta, tay, tcy, te, tet, tg, th, ti, tk, tl, tly, tn, to, tpi, tr, trv, ts, tt, tum, tw, ty, tyv, udm, ug, uk, ur, uz, ve, vec, vep, vi, vls, vo, vro, wa, war, wo, wuu, xal, xh, xmf, yi, yo, yue, za, zea, zgh, zh, zu
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8196, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("BounharAbdelaziz/ModernBERT-Arabic")
# Run inference
sentences = [
'2512',
'https://ar.wikipedia.org/wiki/1%20%D9%81%D8%A8%D8%B1%D8%A7%D9%8A%D8%B1',
'1 فبراير',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
wikipedia
- Dataset: wikipedia at b04c8d1
- Size: 1,219,201 training samples
- Columns:
id,url,title, andtext - Approximate statistics based on the first 1000 samples:
id url title text type string string string string details - min: 3 tokens
- mean: 3.94 tokens
- max: 4 tokens
- min: 13 tokens
- mean: 57.92 tokens
- max: 203 tokens
- min: 3 tokens
- mean: 9.22 tokens
- max: 32 tokens
- min: 10 tokens
- mean: 4799.37 tokens
- max: 8196 tokens
- Samples:
id url title text 7https://ar.wikipedia.org/wiki/%D9%85%D8%A7%D8%A1ماءالماء مادةٌ شفافةٌ عديمة اللون والرائحة، وهو المكوّن الأساسي للجداول والبحيرات والبحار والمحيطات وكذلك للسوائل في جميع الكائنات الحيّة، وهو أكثر المركّبات الكيميائيّة انتشاراً على سطح الأرض. يتألّف جزيء الماء من ذرّة أكسجين مركزية ترتبط بها ذرّتا هيدروجين على طرفيها برابطة تساهميّة بحيث تكون صيغته الكيميائية H2O. عند الظروف القياسية من الضغط ودرجة الحرارة يكون الماء سائلاً؛ أمّا الحالة الصلبة فتتشكّل عند نقطة التجمّد، وتدعى بالجليد؛ أمّا الحالة الغازية فتتشكّل عند نقطة الغليان، وتسمّى بخار الماء.
إنّ الماء هو أساس وجود الحياة على كوكب الأرض، وهو يغطّي 71% من سطحها، وتمثّل مياه البحار والمحيطات أكبر نسبة للماء على الأرض، حيث تبلغ حوالي 96.5%. وتتوزّع النسب الباقية بين المياه الجوفيّة وبين جليد المناطق القطبيّة (1.7% لكليهما)، مع وجود نسبة صغيرة على شكل بخار ماء معلّق في الهواء على هيئة سحاب (غيوم)، وأحياناً أخرى على هيئة ضباب أو ندى، بالإضافة إلى الزخات المطريّة أو الثلجيّة. تبلغ نسبة الماء العذب حوالي 2.5% فقط من الماء الموجود على الأرض، وأغلب هذه الكمّيّة (حوالي 99%) موجودة في الكتل ...38https://ar.wikipedia.org/wiki/%D8%B1%D9%8A%D8%A7%D8%B6%D9%8A%D8%A7%D8%AAرياضياتالرِّيَاضِيَّات هي مجموعة من المعارف المجردة الناتجة عن الاستنتاجات المنطقية المطبقة على مختلف الكائنات الرياضية مثل المجموعات، والأعداد، والأشكال والبنيات والتحويلات. وتهتم الرياضيات أيضًا بدراسة مواضيع مثل الكمية والبنية والفضاء والتغير. ولا يوجد حتى الآن تعريف عام متفق عليه للمصطلح.
يسعى علماء الرياضيات إلى استخدام أنماط رياضية لصياغة فرضيات جديدة؛ من خلال استعمال إثباتات رياضية بهدف الوصول للحقيقة وذرء الفرضيات السابقة أو الخاطئة. فمن خلال استخدام التجريد والمنطق، طُوِّرت الرياضيات من العد والحساب والقياس إلى الدراسة المنهجية للأشكال وحركات الأشياء المادية. لقد كانت الرياضيات العملية نشاطًا إنسانيًا يعود إلى تاريخ وجود السجلات المكتوبة. يمكن أن يستغرق البحث المطلوب لحل المسائل الرياضية سنوات أو حتى قرون من البحث المستمر.
ظهرت الحجج الصارمة أولًا في الرياضيات اليونانية، وعلى الأخص في أصول إقليدس. منذ العمل الرائد لجوزيبه بيانو (1858-1932)، وديفيد هيلبرت (1862-1943)، وغيرهم في النظم البديهية في أواخر القرن التاسع عشر، أصبح من المعتاد النظر إلى الأبحاث الرياضية كإثبات للحقيقة عن طري...62https://ar.wikipedia.org/wiki/%D8%A5%D8%B3%D8%AA%D9%88%D9%86%D9%8A%D8%A7إستونياإستونيا ، رسميًا جمهورية إستونيا ؛ هي دولة تقع في منطقة بحر البلطيق بشمال أوروبا. يحدها من الشمال خليج فنلندا، ومن الغرب بحر البلطيق، ومن الجنوب لاتفيا (343 كم)، وإلى الشرق من بحيرة بيبوس والاتحاد الروسي (338.6 كم). تغطي أراضي إستونيا ما مساحته 45227 كيلومتر مربع (17462 ميل مربع)، ويعدّ مناخها الموسمي معتدلًا. الإستونية هي اللغة الرسمية الوحيدة في الدولة. تٌعتبر إستونيا جمهورية ديمقراطية برلمانية، مقسمة إلى 15 مقاطعة. العاصمة وأكبر مدنها هي تالين. ويبلغ عدد سكانها 1,319,133 مليون نسمة، كما تعدّ واحدة من الأعضاء الأقل نموا من حيث عدد السكان في الاتحاد الأوروبي، ومنطقة اليورو، ومنظمة حلف شمال الأطلسي. ولديها أعلى ناتج محلي إجمالي للفرد الواحد بين جمهوريات الاتحاد السوفيتي السابقة. تم وصف جمهورية إستونيا بأنها «اقتصاد ذو دخل مرتفع» من قبل البنك الدولي وبأنها «اقتصاد متطور» من قبل صندوق النقد الدولي، وقد أصبحت في وقت لاحق عضوًا في منظمة التعاون الاقتصادي والتنمية. تصنف الأمم المتحدة إستونيا كدولة متقدمة، كما يعدّ مؤشرالتنمية البشرية لها عاليًا جدًا. وكذلك أنها تتمتع بمستوى عال بالنسبة لحري... - Loss:
CachedMultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 16per_device_eval_batch_size: 16gradient_accumulation_steps: 4learning_rate: 0.005num_train_epochs: 2warmup_ratio: 0.05bf16: True
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 4eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 0.005weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 2max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.05warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional
Framework Versions
- Python: 3.12.3
- Sentence Transformers: 3.3.1
- Transformers: 4.48.0.dev0
- PyTorch: 2.5.1+cu124
- Accelerate: 1.1.1
- Datasets: 3.1.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
- Downloads last month
- -
Model tree for BounharAbdelaziz/ModernBERT-Arabic-Embeddings
Base model
answerdotai/ModernBERT-baseDataset used to train BounharAbdelaziz/ModernBERT-Arabic-Embeddings
Viewer • Updated • 61.6M • 244k • 1.23k