Qwen/Qwen3-Embedding-0.6B

This is a sentence-transformers model finetuned from Qwen/Qwen3-Embedding-0.6B. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Qwen/Qwen3-Embedding-0.6B
  • Maximum Sequence Length: 192 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity
  • Language: multilingual
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 192, 'do_lower_case': False, 'architecture': 'Qwen3Model'})
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
queries = [
    "\u0645\u0646 \u0647\u0648 \u0631\u062c\u0644 \u0628\u0631\u064a\u0631\u0629 \u0627\u0644\u0630\u064a \u0643\u0627\u0646\u062a \u0632\u0648\u062c\u062a\u0647 \u0644\u0647 \u0642\u062f \u0627\u0639\u062a\u0642\u062a\u061f",
]
documents = [
    'أهل العلم على أنه إذا عتقت الأمة - وزوجها عبد - فلها الخيار في فسخ النكاح لخبر بريرة . قالت عائشة  «كاتبت بريرة فخيرها رسول الله  في زوجها، وكان عبدا فاختارت نفسها»(). ولأن \\n\\nعليها ضررا في كونها حرة تحت عبد. \\n\\nواختلفوا فيما إذا عتقت وزوجها حر، فالجمهور على أنه لا خيار لها، لأنها كافأت زوجها في الكمال، فلم يثبت لها الخيار. \\n\\nوذهب طاوس وابن سيرين ومجاهد والنخعي والثوري والحنفية إلى أن لها الخيار. واستدلوا بما روي في حديث بريرة أن زوجها كان حرا، كما رواه النسائي في سننه(). \\n\\nوأجمع الفقهاء على بقاء نكاح الكتابية التي أسلم زوجها، سواء قبل الدخول أو بعده، لأن للمسلم أن يبتدئ',
    'وفي كلامهم عن الخلع \\n\\nمع غيبة الزوجة لم يأتوا بجديد يخالف حضور الزوجة، ولم يخصوا الوكيل بجديد كذلك(). \\n\\nاتحاد مجلس المخيرة: \\n\\n20 - المخيرة هي التي ملكها زوجها طلاقها بقوله لها مثلا: اختاري نفسك. \\n\\nومذهب الحنفية ورواية عن مالك أنه لو خير امرأته أو جعل أمرها بيدها، فلها أن تختار ما دامت في مجلسها - قال الحنفية: ولو طال يوما أو أكثر - فلو قامت أو أخذت في عمل آخر خرج الأمر من يدها لأنه دليل الإعراض والتخيير يبطل بصريح الإعراض فكذلك بما يدل عليه، غير أن العبرة عند الحنفية بمجلس الزوجة لا بمجلس الزوج؛ لأنه تمليك، والعبرة عند المالكية بمجلسهما معا(). \\n\\nوالشافعية - على الأصح -',
    'كتبسم البكر البالغة، وضحكها ضحك سرور وابتهاج، وسكوتها وقبضها مهرها، عند إعلام وليها إياها أنه زوجها من فلان، فإنها قرينة قوية على إجازتها، بخلاف بكائها بصوت مرتفع وولولتها، فهي قرينة على الرفض.() \\n\\nومن القرائن القوية السكوت في موطن الحاجة إلى الإبطال، كسكوت صاحب الحاجة عند رؤية \\n\\nحاجته يبيعها صغيره المميز في السوق() وغيرها(). \\n\\nالطريقة الخامسة: \\n\\n19 - زوال حالة أوجبت عدم نفاذ التصرف، كما هو الحال في تصرفات الرجل المرتد عن الإسلام من معاوضات مالية كالبيع والإجارة، أو تبرعات كالهبة والوصية والوقف، فإن الإمام أبا حنيفة يعتبر سائر عقود المرتد وتصرفاته المالية موقوفة غير',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 1024] [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.5765, 0.3147, 0.2615]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.3463
cosine_accuracy@3 0.506
cosine_accuracy@5 0.572
cosine_accuracy@10 0.6464
cosine_precision@1 0.3463
cosine_precision@3 0.1687
cosine_precision@5 0.1144
cosine_precision@10 0.0646
cosine_recall@1 0.3463
cosine_recall@3 0.506
cosine_recall@5 0.572
cosine_recall@10 0.6464
cosine_ndcg@10 0.4911
cosine_mrr@10 0.4419
cosine_map@100 0.4498

Information Retrieval

Metric Value
cosine_accuracy@1 0.2849
cosine_accuracy@3 0.4355
cosine_accuracy@5 0.4981
cosine_accuracy@10 0.576
cosine_precision@1 0.2849
cosine_precision@3 0.1452
cosine_precision@5 0.0996
cosine_precision@10 0.0576
cosine_recall@1 0.2849
cosine_recall@3 0.4355
cosine_recall@5 0.4981
cosine_recall@10 0.576
cosine_ndcg@10 0.4239
cosine_mrr@10 0.3759
cosine_map@100 0.3844

Training Details

Training Dataset

Unnamed Dataset

  • Size: 73,994 training samples
  • Columns: anchor, positive, negative_1, negative_2, negative_3, and negative_4
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative_1 negative_2 negative_3 negative_4
    type string string string string string string
    details
    • min: 3 tokens
    • mean: 24.27 tokens
    • max: 52 tokens
    • min: 192 tokens
    • mean: 192.0 tokens
    • max: 192 tokens
    • min: 192 tokens
    • mean: 192.0 tokens
    • max: 192 tokens
    • min: 192 tokens
    • mean: 192.0 tokens
    • max: 192 tokens
    • min: 192 tokens
    • mean: 192.0 tokens
    • max: 192 tokens
    • min: 192 tokens
    • mean: 192.0 tokens
    • max: 192 tokens
  • Samples:
    anchor positive negative_1 negative_2 negative_3 negative_4
    What specific practices did this group of followers engage in according to the given text? هذا الصنف من المتبعين قد كثر في العصور الأخيرة، فهم يعكفون على عبارات الكتب، لا يتجهون إلا إلى الالتقاط منها، من غير قصد لتعرف دليل ما \n\nيلتقطون، ويبنون عليه، بل يكتمون بأن يقولوا: هناك قول بهذا، وإن لم يكن له دليل قوي(). \n\nولقد كان لهذا الفريق أثران مختلفان: أحدهما خير، وهو ما يتعلق بالقضاء، فإنه إذا كان القضاء لا يصح إلا بالراجح من المذهب، فإن هؤلاء عملهم الاتباع لهذا الراجح، وفي ذلك ضبط للقضاء من غير أن يكون الأمر فرطا. وتقييد القضاء في الأزمان التي تنحرف فيها الأفكار واجب، بل إن الاتباع لا يكون حسنا إلا في الأحكام القضائية. \n\nالأثر الثاني: أن هذا فيه تقديس لأقوال ما \n\nجرت به العادة اليوم من الاجتماع، بل جاء الترغيب فيه على الجملة.» فذكر أدلة كثيرة ثم قال: «فتحصل بعد ذلك كله من المجموع أن عمل الأئمة منذ الأزمنة المتقادمة مستمر في مساجد الجماعات، وهي مساجد الجوامع، وفي مساجد القبائل، وهي مساجد الأرباض والروابط، على الجهر بالدعاء بعد الفراغ من الصلوات، على الهيئة المتعارفة الآن، من تشريك الحاضرين، وتأمين السامعين، وبسط الأيدي ومدها عند السؤال والتضرع والابتهال من غير منازع.» \n\nوكرهه مالك وجماعة غيره من المالكية، لما يقع في نفس الإمام من التعاظم. وبقية القائلين بالدعاء عقب الصلاة يسرون به ندبا، على تفصيل(). (ر: دعاء). \n\nآنية من حيث قوة دليلها. \n\nب - المتبعون: \n\nنقصد بهؤلاء الذين يتبعون غيرهم في كل ما يتعلق بالمذهب، فيتبعون من سبقهم في الاجتهاد وفي الترجيح بين الآراء وفي الاستدلال، وفي الترجيح في النقل وفي سلامته. فهؤلاء ليس لهم إلا فهم الكتب التي اشتملت على الترجيح، فلا يستطيعون الترجيح بين الروايات، ولم يؤتوا علما كعلم المرجحين في أي باب من أبواب الترجيح وتمييز درجات الترجيح. وهؤلاء قال فيهم ابن عابدين: لا يفرقون بين الغث والسمين، ولا يميزون الشمال من اليمين، بل يجمعون ما يجدون كحاطب ليل، فالويل كل الويل لمن قلدهم. \n\nوإن هذا الصنف من المتبعين قد كثر في العصور الأخيرة، فهم يعكفون على للاجتهاد من ليس أهلا له، إما رهبة أو رغبة، فسدا للذرائع أفتوا بإقفال باب الاجتهاد. \n\nوتعرض بعض من خالف الأوائل في آرائهم لسخط العامة والخاصة، ولكن مع هذا فقد كان يظهر بين الفينة والفينة من ادعى الاجتهاد أو ادعي له، وكانت لهم اجتهادات لا بأس بها كابن تيمية وتلميذه ابن القيم، والكمال بن الهمام الحنفي المذهب. فقد كانت له اجتهادات خرج فيها على المذهب... ومن هؤلاء تاج الدين السبكي صاحب جمع الجوامع، وأبوه من قبله. وأيا ما كان فقد كان اجتهاد هؤلاء لا يخرج عن ترجيح رأي على رأي، أو حل لمشكلة عارضة لم يتعرض لها الأئمة المتقدمون. \n\nوالذي ندين الله عليه أنه لا بد أن يكون في الأمة بالأعضاء المخصوصة، والصلاة بتلك الهيئة من رفع اليدين والقيام والركوع والسجود، وكونها على بعض الهيئات دون بعض، واختصاص الصيام بالنهار دون الليل، وتعيين أوقات الصلوات في تلك الأحيان المعينة دون سواها من أحيان النهار والليل، واختصاص الحج بتلك الأعمال المعروفة، في الأماكن المعلومة، وإلى مسجد مخصوص، إلى أشباه ذلك مما لا تهتدي العقول إليه بوجه، ولا تحوم حوله، يأتي بعض الناس فيطرق إليه بزعمه حكما، يزعم أنها مقصود الشارع من تلك الأوضاع، وجميعها مبني على ظن وتخمين غير مطرد في بابه، ولا مبني عليه عمل، بل كالتعليل بعد السماع للأمور الشواذ، لجنايته على الشريعة في دعوى ما ليس لنا
    How does this group's approach to understanding religious texts impact legal rulings, particularly in matters related to judicial decisions? هذا الصنف من المتبعين قد كثر في العصور الأخيرة، فهم يعكفون على عبارات الكتب، لا يتجهون إلا إلى الالتقاط منها، من غير قصد لتعرف دليل ما \n\nيلتقطون، ويبنون عليه، بل يكتمون بأن يقولوا: هناك قول بهذا، وإن لم يكن له دليل قوي(). \n\nولقد كان لهذا الفريق أثران مختلفان: أحدهما خير، وهو ما يتعلق بالقضاء، فإنه إذا كان القضاء لا يصح إلا بالراجح من المذهب، فإن هؤلاء عملهم الاتباع لهذا الراجح، وفي ذلك ضبط للقضاء من غير أن يكون الأمر فرطا. وتقييد القضاء في الأزمان التي تنحرف فيها الأفكار واجب، بل إن الاتباع لا يكون حسنا إلا في الأحكام القضائية. \n\nالأثر الثاني: أن هذا فيه تقديس لأقوال المسائل وأحكامها هي طريقة (الاتجاهات الفقهية) وهي تختلف عن فصل المذاهب وتكرار المسألة. \n\nففي الطريقة المختارة تحصر الآراء المتعددة في المسألة، متبوعة بما يندرج تحت \n\nكل اتجاه من مذهب أو أكثر، وإذا كان في المذهب الواحد أكثر من رأي فإنه يتكرر ذكره بحسب تلك الروايات مع الاتجاهات المناسبة لها. \n\nويقدم الاتجاه الذي ذهب إليه أكثر الفقهاء (الجمهور) إلا حيث تقضي منطقية البيان بمخالفة ذلك لتقديم البسيط على ما فيه تركيب أو تفصيل، وكالبدء بما يتوقف عليه فهم ما بعده. \n\nوالباعث على سلوك هذه الطريقة - المعروفة صعوبتها على الكتاب - كفاية المستفيد من الموسوعة مهمة استخلاص مواطن الوفاق أقواها ترجيحا وأكثرها اعتمادا على أصول المذهب، أو ما يكون أكثر عددا، أو ما يكون صاحبه أكثر حجية في المذهب. \n\nوهؤلاء لهم حق الإفتاء كالسابقين، ولكن في دائرة ضيقة عن الأولين. وقد قال فيهم ابن عابدين: ولا شك أن معرفة راجح المختلف من مرجوحه ومراتبه قوة وضعفا هو نهاية مآل المشمرين في تحصيل العلم. فالمفروض على المفتي والقاضي التثبت في الجواب، وعدم المجازفة فيه، خوفا من الافتراء على الله تعالى بتحليل حرامه وتحريم ضده(). \n\nونرى أن هذه الطبقة دراستها دراسة جمع وتصنيف وترتيب للأقوال في المذهب من حيث صحة نقلها، لا من حيث قوة دليلها. \n\nب - المتبعون: \n\nنقصد بهؤلاء الذين يتبعون المعاني القانونية أو العرفية غير المرادة للفقهاء. \n\nب - الترجيح الشخصي: \n\n54 - يقصد بهذا الترجيح الخارج عن شمول الموسوعة كل ما لم ينقل عن فقهاء المذاهب خلال القرون الثلاثة عشر الهجرية، ومحل ذلك ملحق المسائل المستحدثة. ويدخل في المنع بالأولوية رأي الكاتب الشخصي فلا يثبت منه شيئا إلا حين تمس الحاجة لإبداء ما فهمه من المنقول حسب أصول المذاهب، وبعبارة تشعر بذلك. \n\nوهناك بديل عن الترجيح الذي يركن إليه البعض في مواطن الخلاف هو الاتجاه الموافق للجمهور، والمقدم غالبا على غيره عند عرض الاتجاهات. \n\nج - المناقشات المذهبية: \n\n55 - يقتصر في الاستدلال لكل اتجاه بمذاهبه على ما يحتج كما لم يعرف عن أحد من فقهاء هذا العهد أنه بنى رأيا على نظرية قانونية بعيدة عن المصادر الشرعية المعروفة، وإلا فليدلنا هؤلاء المشككون على مسألة واحدة ليس لها مصدر شرعي، من المسائل التي أثيرت في هذا العهد. \n\nوالمسائل المبنية على الأعراف خاضعة للميزان الشرعي، فإن رد الإسلام عرفا منها فلا قيمة له، والأخذ به ضلالة، وإن اعتبره أخذ به، لا على أنه عرف ولكن على أنه معتمد على النص، وإن سكت عنه كان الأخذ به أو رده مبنيا على المصلحة. \n\n21 - وبالرغم من أن هذا العهد كانت فيه فتن كبرى إلا أن هذه الفتن كان تأثيرها يكاد ينحصر في أمر الخلافة وما يتصل بها من أحكام. \n\n22 - وبالرغم من أن
    Can you explain the two contrasting effects mentioned for this group's methodology? هذا الصنف من المتبعين قد كثر في العصور الأخيرة، فهم يعكفون على عبارات الكتب، لا يتجهون إلا إلى الالتقاط منها، من غير قصد لتعرف دليل ما \n\nيلتقطون، ويبنون عليه، بل يكتمون بأن يقولوا: هناك قول بهذا، وإن لم يكن له دليل قوي(). \n\nولقد كان لهذا الفريق أثران مختلفان: أحدهما خير، وهو ما يتعلق بالقضاء، فإنه إذا كان القضاء لا يصح إلا بالراجح من المذهب، فإن هؤلاء عملهم الاتباع لهذا الراجح، وفي ذلك ضبط للقضاء من غير أن يكون الأمر فرطا. وتقييد القضاء في الأزمان التي تنحرف فيها الأفكار واجب، بل إن الاتباع لا يكون حسنا إلا في الأحكام القضائية. \n\nالأثر الثاني: أن هذا فيه تقديس لأقوال يؤخذ بالاعتبار في مصطلحات الموسوعة. ويشار أيضا إلى موطن بحثه في الموسوعة كلما أمكن ذلك. \n\nواستخدام طريقة (الإحالات) لم يكن منه بد لتحقيق أمرين: \n\n(1) تحاشي التكرار للبيانات الواحدة عن المصطلح، مرة مستقلا ومرة مندرجا ضمن أصله مع أشباهه ونظائره.. فاختير التعجيل في أحد الموطنين ببيانات إجمالية: إما أن يكتفى بها وإما أن تمهد للتفصيل الوارد في الموطن الآخر (الأولى بذلك). \n\n(2) مراعاة حاجة غير المختص في إسعافه بمطلبه سواء اتجه إليه من جهة \n\nالأصل أو الفرع بدلا من إهدار بعض الاحتمالات التي قد تتكافأ فيعذر في انصراف ذهنه إلى أحدها. \n\nج - مصطلحات الدلالة: \n\n65 - وهي المصطلحات المواريث إما أن يكونا متماثلين، وإما أن يكونا مختلفين. وفي حال اختلافهما إما أن يفنى الأكثر بالأقل، وإما أن يفنيهما عدد ثالث، وإما أن لا يفنيهما إلا واحد ليس بعدد، بل هو مبدؤه، فهذه أربعة أقسام. وقد وقع التداخل في القسم الثاني منها، وهو ما إذا اختلفا وفني الأكثر بالأقل عند إسقاطه من الأكثر مرتين فأكثر منهما، فيقال حينئذ: إنهما متداخلان، كثلاثة مع ستة أو تسعة أو خمسة عشر، فإن الستة تفنى بإسقاط الثلاثة مرتين، والتسعة بإسقاطها ثلاث مرات، والخمسة عشر بإسقاطها خمس مرات؛ لأنها خمسها، وسميا متداخلين لدخول الأقل في الأكثر. \n\nوحكم الأعداد المتداخلة: أنه يكتفى فيها بالأكبر ويجعل هو مسلك «السبر والتقسيم» فلا يحسن عده نوعا آخر. \n\nورد عليه بأن بينهما فرقا ظاهرا؛ وذلك أن الحصر في دلالة السبر والتقسيم لتعيين العلة إما استقلالا أو اعتبارا، وفي تنقيح المناط لتعيين الفارق وإبطاله، لا لتعيين العلة(). \n\nالحكم الإجمالي: \n\n4 - تنقيح المناط مسلك من مسالك العلة، ولكنه دون تحقيق المناط في المرتبة، وقد أقر به أكثر منكري القياس بل قال أبو حنيفة: \n\nلا قياس في الكفارات، وأثبت هذا النمط من التصرف وسماه استدلالا. \n\nيقول الغزالي: فمن جحد هذا الجنس من منكري القياس وأصحاب الظاهر لم يخف فساد كلامه. \n\nوقد نازع العبدري الغزالي بأن الخلاف فيه ثابت بين من يثبت القياس ذهبوا إليه. وهؤلاء هم الذين يعتمد عليهم في تحقيق المذهب وتثبيت قواعده وجمع شتاته. \n\nد - المجتهدون المرجحون وهؤلاء مهمتهم ترجيح بعض الروايات على بعض، مراعين القواعد التي وضعها المتقدمون في هذا الباب، وبعض العلماء جعلوا هاتين الطبقتين - ج، د - طبقة واحدة. \n\nه - طبقة المستدلين: وهؤلاء لا يستنبطون ولا يرجحون قولا على قول، ولكن يستدلون للأقوال، ويبينون ما اعتمدت عليه، ويوازنون بين الأدلة من غير ترجيح للحكم، ولا بيان لما هو أجدر بالعمل. \n\nوأنت إذا دققت النظر رأيت أن هذه الطبقة لا تقل قدرا عن سابقتيها، إذ \n\nلا يعقل أن يكون اشتغالهم بالاستدلال للأحكام لا ينتهي إلى ترجيح رأي
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            1024,
            256
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 64
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 2
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: True
  • load_best_model_at_end: True
  • gradient_checkpointing: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss dim_1024_cosine_ndcg@10 dim_256_cosine_ndcg@10
-1 -1 - 0.3765 0.3058
0.0345 10 6.2354 - -
0.0691 20 5.817 - -
0.1036 30 5.1753 - -
0.1382 40 4.5321 - -
0.1727 50 4.3993 0.4441 0.3700
0.2073 60 4.2201 - -
0.2418 70 3.9258 - -
0.2763 80 3.7359 - -
0.3109 90 3.5542 - -
0.3454 100 3.5922 0.4758 0.4022
0.3800 110 3.6045 - -
0.4145 120 3.4977 - -
0.4491 130 3.3215 - -
0.4836 140 3.3402 - -
0.5181 150 3.2965 0.4793 0.4113
0.5527 160 3.1349 - -
0.5872 170 3.2717 - -
0.6218 180 3.1613 - -
0.6563 190 3.0922 - -
0.6908 200 3.0056 0.4905 0.4227
0.7254 210 3.0313 - -
0.7599 220 3.0436 - -
0.7945 230 2.9883 - -
0.8290 240 2.9607 - -
0.8636 250 2.8713 0.4932 0.4240
0.8981 260 2.9252 - -
0.9326 270 2.7817 - -
0.9672 280 2.9204 - -
1.0 290 2.2089 - -
1.0345 300 2.5036 0.4921 0.4213
1.0691 310 2.4975 - -
1.1036 320 2.5647 - -
1.1382 330 2.4802 - -
1.1727 340 2.5884 - -
1.2073 350 2.467 0.4924 0.4261
1.2418 360 2.3885 - -
1.2763 370 2.488 - -
1.3109 380 2.5463 - -
1.3454 390 2.5063 - -
1.3800 400 2.4852 0.4923 0.4233
1.4145 410 2.484 - -
1.4491 420 2.457 - -
1.4836 430 2.4815 - -
1.5181 440 2.5038 - -
1.5527 450 2.4566 0.4910 0.4242
1.5872 460 2.4782 - -
1.6218 470 2.431 - -
1.6563 480 2.4818 - -
1.6908 490 2.4863 - -
1.7254 500 2.4198 0.4908 0.4236
1.7599 510 2.4795 - -
1.7945 520 2.5094 - -
1.8290 530 2.4374 - -
1.8636 540 2.4466 - -
1.8981 550 2.5209 0.4911 0.4239
1.9326 560 2.5321 - -
1.9672 570 2.4244 - -
2.0 580 2.2106 - -
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.0
  • Sentence Transformers: 5.1.2
  • Transformers: 4.57.1
  • PyTorch: 2.8.0+cu128
  • Accelerate: 1.11.0
  • Datasets: 4.4.1
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
6
Safetensors
Model size
0.6B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for vsevolodl/qwen3-embed-v4-bashar_docs-192-hn

Finetuned
(79)
this model

Evaluation results