Qwen/Qwen3-Embedding-0.6B
This is a sentence-transformers model finetuned from Qwen/Qwen3-Embedding-0.6B. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: Qwen/Qwen3-Embedding-0.6B
- Maximum Sequence Length: 192 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
- Language: multilingual
- License: apache-2.0
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 192, 'do_lower_case': False, 'architecture': 'Qwen3Model'})
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
queries = [
"\u0645\u0646 \u0647\u0648 \u0631\u062c\u0644 \u0628\u0631\u064a\u0631\u0629 \u0627\u0644\u0630\u064a \u0643\u0627\u0646\u062a \u0632\u0648\u062c\u062a\u0647 \u0644\u0647 \u0642\u062f \u0627\u0639\u062a\u0642\u062a\u061f",
]
documents = [
'أهل العلم على أنه إذا عتقت الأمة - وزوجها عبد - فلها الخيار في فسخ النكاح لخبر بريرة . قالت عائشة «كاتبت بريرة فخيرها رسول الله في زوجها، وكان عبدا فاختارت نفسها»(). ولأن \\n\\nعليها ضررا في كونها حرة تحت عبد. \\n\\nواختلفوا فيما إذا عتقت وزوجها حر، فالجمهور على أنه لا خيار لها، لأنها كافأت زوجها في الكمال، فلم يثبت لها الخيار. \\n\\nوذهب طاوس وابن سيرين ومجاهد والنخعي والثوري والحنفية إلى أن لها الخيار. واستدلوا بما روي في حديث بريرة أن زوجها كان حرا، كما رواه النسائي في سننه(). \\n\\nوأجمع الفقهاء على بقاء نكاح الكتابية التي أسلم زوجها، سواء قبل الدخول أو بعده، لأن للمسلم أن يبتدئ',
'وفي كلامهم عن الخلع \\n\\nمع غيبة الزوجة لم يأتوا بجديد يخالف حضور الزوجة، ولم يخصوا الوكيل بجديد كذلك(). \\n\\nاتحاد مجلس المخيرة: \\n\\n20 - المخيرة هي التي ملكها زوجها طلاقها بقوله لها مثلا: اختاري نفسك. \\n\\nومذهب الحنفية ورواية عن مالك أنه لو خير امرأته أو جعل أمرها بيدها، فلها أن تختار ما دامت في مجلسها - قال الحنفية: ولو طال يوما أو أكثر - فلو قامت أو أخذت في عمل آخر خرج الأمر من يدها لأنه دليل الإعراض والتخيير يبطل بصريح الإعراض فكذلك بما يدل عليه، غير أن العبرة عند الحنفية بمجلس الزوجة لا بمجلس الزوج؛ لأنه تمليك، والعبرة عند المالكية بمجلسهما معا(). \\n\\nوالشافعية - على الأصح -',
'كتبسم البكر البالغة، وضحكها ضحك سرور وابتهاج، وسكوتها وقبضها مهرها، عند إعلام وليها إياها أنه زوجها من فلان، فإنها قرينة قوية على إجازتها، بخلاف بكائها بصوت مرتفع وولولتها، فهي قرينة على الرفض.() \\n\\nومن القرائن القوية السكوت في موطن الحاجة إلى الإبطال، كسكوت صاحب الحاجة عند رؤية \\n\\nحاجته يبيعها صغيره المميز في السوق() وغيرها(). \\n\\nالطريقة الخامسة: \\n\\n19 - زوال حالة أوجبت عدم نفاذ التصرف، كما هو الحال في تصرفات الرجل المرتد عن الإسلام من معاوضات مالية كالبيع والإجارة، أو تبرعات كالهبة والوصية والوقف، فإن الإمام أبا حنيفة يعتبر سائر عقود المرتد وتصرفاته المالية موقوفة غير',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 1024] [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.5765, 0.3147, 0.2615]])
Evaluation
Metrics
Information Retrieval
- Dataset:
dim_1024 - Evaluated with
InformationRetrievalEvaluatorwith these parameters:{ "truncate_dim": 1024 }
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.3463 |
| cosine_accuracy@3 | 0.506 |
| cosine_accuracy@5 | 0.572 |
| cosine_accuracy@10 | 0.6464 |
| cosine_precision@1 | 0.3463 |
| cosine_precision@3 | 0.1687 |
| cosine_precision@5 | 0.1144 |
| cosine_precision@10 | 0.0646 |
| cosine_recall@1 | 0.3463 |
| cosine_recall@3 | 0.506 |
| cosine_recall@5 | 0.572 |
| cosine_recall@10 | 0.6464 |
| cosine_ndcg@10 | 0.4911 |
| cosine_mrr@10 | 0.4419 |
| cosine_map@100 | 0.4498 |
Information Retrieval
- Dataset:
dim_256 - Evaluated with
InformationRetrievalEvaluatorwith these parameters:{ "truncate_dim": 256 }
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.2849 |
| cosine_accuracy@3 | 0.4355 |
| cosine_accuracy@5 | 0.4981 |
| cosine_accuracy@10 | 0.576 |
| cosine_precision@1 | 0.2849 |
| cosine_precision@3 | 0.1452 |
| cosine_precision@5 | 0.0996 |
| cosine_precision@10 | 0.0576 |
| cosine_recall@1 | 0.2849 |
| cosine_recall@3 | 0.4355 |
| cosine_recall@5 | 0.4981 |
| cosine_recall@10 | 0.576 |
| cosine_ndcg@10 | 0.4239 |
| cosine_mrr@10 | 0.3759 |
| cosine_map@100 | 0.3844 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 73,994 training samples
- Columns:
anchor,positive,negative_1,negative_2,negative_3, andnegative_4 - Approximate statistics based on the first 1000 samples:
anchor positive negative_1 negative_2 negative_3 negative_4 type string string string string string string details - min: 3 tokens
- mean: 24.27 tokens
- max: 52 tokens
- min: 192 tokens
- mean: 192.0 tokens
- max: 192 tokens
- min: 192 tokens
- mean: 192.0 tokens
- max: 192 tokens
- min: 192 tokens
- mean: 192.0 tokens
- max: 192 tokens
- min: 192 tokens
- mean: 192.0 tokens
- max: 192 tokens
- min: 192 tokens
- mean: 192.0 tokens
- max: 192 tokens
- Samples:
anchor positive negative_1 negative_2 negative_3 negative_4 What specific practices did this group of followers engage in according to the given text?هذا الصنف من المتبعين قد كثر في العصور الأخيرة، فهم يعكفون على عبارات الكتب، لا يتجهون إلا إلى الالتقاط منها، من غير قصد لتعرف دليل ما \n\nيلتقطون، ويبنون عليه، بل يكتمون بأن يقولوا: هناك قول بهذا، وإن لم يكن له دليل قوي(). \n\nولقد كان لهذا الفريق أثران مختلفان: أحدهما خير، وهو ما يتعلق بالقضاء، فإنه إذا كان القضاء لا يصح إلا بالراجح من المذهب، فإن هؤلاء عملهم الاتباع لهذا الراجح، وفي ذلك ضبط للقضاء من غير أن يكون الأمر فرطا. وتقييد القضاء في الأزمان التي تنحرف فيها الأفكار واجب، بل إن الاتباع لا يكون حسنا إلا في الأحكام القضائية. \n\nالأثر الثاني: أن هذا فيه تقديس لأقوالما \n\nجرت به العادة اليوم من الاجتماع، بل جاء الترغيب فيه على الجملة.» فذكر أدلة كثيرة ثم قال: «فتحصل بعد ذلك كله من المجموع أن عمل الأئمة منذ الأزمنة المتقادمة مستمر في مساجد الجماعات، وهي مساجد الجوامع، وفي مساجد القبائل، وهي مساجد الأرباض والروابط، على الجهر بالدعاء بعد الفراغ من الصلوات، على الهيئة المتعارفة الآن، من تشريك الحاضرين، وتأمين السامعين، وبسط الأيدي ومدها عند السؤال والتضرع والابتهال من غير منازع.» \n\nوكرهه مالك وجماعة غيره من المالكية، لما يقع في نفس الإمام من التعاظم. وبقية القائلين بالدعاء عقب الصلاة يسرون به ندبا، على تفصيل(). (ر: دعاء). \n\nآنيةمن حيث قوة دليلها. \n\nب - المتبعون: \n\nنقصد بهؤلاء الذين يتبعون غيرهم في كل ما يتعلق بالمذهب، فيتبعون من سبقهم في الاجتهاد وفي الترجيح بين الآراء وفي الاستدلال، وفي الترجيح في النقل وفي سلامته. فهؤلاء ليس لهم إلا فهم الكتب التي اشتملت على الترجيح، فلا يستطيعون الترجيح بين الروايات، ولم يؤتوا علما كعلم المرجحين في أي باب من أبواب الترجيح وتمييز درجات الترجيح. وهؤلاء قال فيهم ابن عابدين: لا يفرقون بين الغث والسمين، ولا يميزون الشمال من اليمين، بل يجمعون ما يجدون كحاطب ليل، فالويل كل الويل لمن قلدهم. \n\nوإن هذا الصنف من المتبعين قد كثر في العصور الأخيرة، فهم يعكفون علىللاجتهاد من ليس أهلا له، إما رهبة أو رغبة، فسدا للذرائع أفتوا بإقفال باب الاجتهاد. \n\nوتعرض بعض من خالف الأوائل في آرائهم لسخط العامة والخاصة، ولكن مع هذا فقد كان يظهر بين الفينة والفينة من ادعى الاجتهاد أو ادعي له، وكانت لهم اجتهادات لا بأس بها كابن تيمية وتلميذه ابن القيم، والكمال بن الهمام الحنفي المذهب. فقد كانت له اجتهادات خرج فيها على المذهب... ومن هؤلاء تاج الدين السبكي صاحب جمع الجوامع، وأبوه من قبله. وأيا ما كان فقد كان اجتهاد هؤلاء لا يخرج عن ترجيح رأي على رأي، أو حل لمشكلة عارضة لم يتعرض لها الأئمة المتقدمون. \n\nوالذي ندين الله عليه أنه لا بد أن يكون في الأمةبالأعضاء المخصوصة، والصلاة بتلك الهيئة من رفع اليدين والقيام والركوع والسجود، وكونها على بعض الهيئات دون بعض، واختصاص الصيام بالنهار دون الليل، وتعيين أوقات الصلوات في تلك الأحيان المعينة دون سواها من أحيان النهار والليل، واختصاص الحج بتلك الأعمال المعروفة، في الأماكن المعلومة، وإلى مسجد مخصوص، إلى أشباه ذلك مما لا تهتدي العقول إليه بوجه، ولا تحوم حوله، يأتي بعض الناس فيطرق إليه بزعمه حكما، يزعم أنها مقصود الشارع من تلك الأوضاع، وجميعها مبني على ظن وتخمين غير مطرد في بابه، ولا مبني عليه عمل، بل كالتعليل بعد السماع للأمور الشواذ، لجنايته على الشريعة في دعوى ما ليس لناHow does this group's approach to understanding religious texts impact legal rulings, particularly in matters related to judicial decisions?هذا الصنف من المتبعين قد كثر في العصور الأخيرة، فهم يعكفون على عبارات الكتب، لا يتجهون إلا إلى الالتقاط منها، من غير قصد لتعرف دليل ما \n\nيلتقطون، ويبنون عليه، بل يكتمون بأن يقولوا: هناك قول بهذا، وإن لم يكن له دليل قوي(). \n\nولقد كان لهذا الفريق أثران مختلفان: أحدهما خير، وهو ما يتعلق بالقضاء، فإنه إذا كان القضاء لا يصح إلا بالراجح من المذهب، فإن هؤلاء عملهم الاتباع لهذا الراجح، وفي ذلك ضبط للقضاء من غير أن يكون الأمر فرطا. وتقييد القضاء في الأزمان التي تنحرف فيها الأفكار واجب، بل إن الاتباع لا يكون حسنا إلا في الأحكام القضائية. \n\nالأثر الثاني: أن هذا فيه تقديس لأقوالالمسائل وأحكامها هي طريقة (الاتجاهات الفقهية) وهي تختلف عن فصل المذاهب وتكرار المسألة. \n\nففي الطريقة المختارة تحصر الآراء المتعددة في المسألة، متبوعة بما يندرج تحت \n\nكل اتجاه من مذهب أو أكثر، وإذا كان في المذهب الواحد أكثر من رأي فإنه يتكرر ذكره بحسب تلك الروايات مع الاتجاهات المناسبة لها. \n\nويقدم الاتجاه الذي ذهب إليه أكثر الفقهاء (الجمهور) إلا حيث تقضي منطقية البيان بمخالفة ذلك لتقديم البسيط على ما فيه تركيب أو تفصيل، وكالبدء بما يتوقف عليه فهم ما بعده. \n\nوالباعث على سلوك هذه الطريقة - المعروفة صعوبتها على الكتاب - كفاية المستفيد من الموسوعة مهمة استخلاص مواطن الوفاقأقواها ترجيحا وأكثرها اعتمادا على أصول المذهب، أو ما يكون أكثر عددا، أو ما يكون صاحبه أكثر حجية في المذهب. \n\nوهؤلاء لهم حق الإفتاء كالسابقين، ولكن في دائرة ضيقة عن الأولين. وقد قال فيهم ابن عابدين: ولا شك أن معرفة راجح المختلف من مرجوحه ومراتبه قوة وضعفا هو نهاية مآل المشمرين في تحصيل العلم. فالمفروض على المفتي والقاضي التثبت في الجواب، وعدم المجازفة فيه، خوفا من الافتراء على الله تعالى بتحليل حرامه وتحريم ضده(). \n\nونرى أن هذه الطبقة دراستها دراسة جمع وتصنيف وترتيب للأقوال في المذهب من حيث صحة نقلها، لا من حيث قوة دليلها. \n\nب - المتبعون: \n\nنقصد بهؤلاء الذين يتبعونالمعاني القانونية أو العرفية غير المرادة للفقهاء. \n\nب - الترجيح الشخصي: \n\n54 - يقصد بهذا الترجيح الخارج عن شمول الموسوعة كل ما لم ينقل عن فقهاء المذاهب خلال القرون الثلاثة عشر الهجرية، ومحل ذلك ملحق المسائل المستحدثة. ويدخل في المنع بالأولوية رأي الكاتب الشخصي فلا يثبت منه شيئا إلا حين تمس الحاجة لإبداء ما فهمه من المنقول حسب أصول المذاهب، وبعبارة تشعر بذلك. \n\nوهناك بديل عن الترجيح الذي يركن إليه البعض في مواطن الخلاف هو الاتجاه الموافق للجمهور، والمقدم غالبا على غيره عند عرض الاتجاهات. \n\nج - المناقشات المذهبية: \n\n55 - يقتصر في الاستدلال لكل اتجاه بمذاهبه على ما يحتجكما لم يعرف عن أحد من فقهاء هذا العهد أنه بنى رأيا على نظرية قانونية بعيدة عن المصادر الشرعية المعروفة، وإلا فليدلنا هؤلاء المشككون على مسألة واحدة ليس لها مصدر شرعي، من المسائل التي أثيرت في هذا العهد. \n\nوالمسائل المبنية على الأعراف خاضعة للميزان الشرعي، فإن رد الإسلام عرفا منها فلا قيمة له، والأخذ به ضلالة، وإن اعتبره أخذ به، لا على أنه عرف ولكن على أنه معتمد على النص، وإن سكت عنه كان الأخذ به أو رده مبنيا على المصلحة. \n\n21 - وبالرغم من أن هذا العهد كانت فيه فتن كبرى إلا أن هذه الفتن كان تأثيرها يكاد ينحصر في أمر الخلافة وما يتصل بها من أحكام. \n\n22 - وبالرغم من أنCan you explain the two contrasting effects mentioned for this group's methodology?هذا الصنف من المتبعين قد كثر في العصور الأخيرة، فهم يعكفون على عبارات الكتب، لا يتجهون إلا إلى الالتقاط منها، من غير قصد لتعرف دليل ما \n\nيلتقطون، ويبنون عليه، بل يكتمون بأن يقولوا: هناك قول بهذا، وإن لم يكن له دليل قوي(). \n\nولقد كان لهذا الفريق أثران مختلفان: أحدهما خير، وهو ما يتعلق بالقضاء، فإنه إذا كان القضاء لا يصح إلا بالراجح من المذهب، فإن هؤلاء عملهم الاتباع لهذا الراجح، وفي ذلك ضبط للقضاء من غير أن يكون الأمر فرطا. وتقييد القضاء في الأزمان التي تنحرف فيها الأفكار واجب، بل إن الاتباع لا يكون حسنا إلا في الأحكام القضائية. \n\nالأثر الثاني: أن هذا فيه تقديس لأقواليؤخذ بالاعتبار في مصطلحات الموسوعة. ويشار أيضا إلى موطن بحثه في الموسوعة كلما أمكن ذلك. \n\nواستخدام طريقة (الإحالات) لم يكن منه بد لتحقيق أمرين: \n\n(1) تحاشي التكرار للبيانات الواحدة عن المصطلح، مرة مستقلا ومرة مندرجا ضمن أصله مع أشباهه ونظائره.. فاختير التعجيل في أحد الموطنين ببيانات إجمالية: إما أن يكتفى بها وإما أن تمهد للتفصيل الوارد في الموطن الآخر (الأولى بذلك). \n\n(2) مراعاة حاجة غير المختص في إسعافه بمطلبه سواء اتجه إليه من جهة \n\nالأصل أو الفرع بدلا من إهدار بعض الاحتمالات التي قد تتكافأ فيعذر في انصراف ذهنه إلى أحدها. \n\nج - مصطلحات الدلالة: \n\n65 - وهي المصطلحاتالمواريث إما أن يكونا متماثلين، وإما أن يكونا مختلفين. وفي حال اختلافهما إما أن يفنى الأكثر بالأقل، وإما أن يفنيهما عدد ثالث، وإما أن لا يفنيهما إلا واحد ليس بعدد، بل هو مبدؤه، فهذه أربعة أقسام. وقد وقع التداخل في القسم الثاني منها، وهو ما إذا اختلفا وفني الأكثر بالأقل عند إسقاطه من الأكثر مرتين فأكثر منهما، فيقال حينئذ: إنهما متداخلان، كثلاثة مع ستة أو تسعة أو خمسة عشر، فإن الستة تفنى بإسقاط الثلاثة مرتين، والتسعة بإسقاطها ثلاث مرات، والخمسة عشر بإسقاطها خمس مرات؛ لأنها خمسها، وسميا متداخلين لدخول الأقل في الأكثر. \n\nوحكم الأعداد المتداخلة: أنه يكتفى فيها بالأكبر ويجعلهو مسلك «السبر والتقسيم» فلا يحسن عده نوعا آخر. \n\nورد عليه بأن بينهما فرقا ظاهرا؛ وذلك أن الحصر في دلالة السبر والتقسيم لتعيين العلة إما استقلالا أو اعتبارا، وفي تنقيح المناط لتعيين الفارق وإبطاله، لا لتعيين العلة(). \n\nالحكم الإجمالي: \n\n4 - تنقيح المناط مسلك من مسالك العلة، ولكنه دون تحقيق المناط في المرتبة، وقد أقر به أكثر منكري القياس بل قال أبو حنيفة: \n\nلا قياس في الكفارات، وأثبت هذا النمط من التصرف وسماه استدلالا. \n\nيقول الغزالي: فمن جحد هذا الجنس من منكري القياس وأصحاب الظاهر لم يخف فساد كلامه. \n\nوقد نازع العبدري الغزالي بأن الخلاف فيه ثابت بين من يثبت القياسذهبوا إليه. وهؤلاء هم الذين يعتمد عليهم في تحقيق المذهب وتثبيت قواعده وجمع شتاته. \n\nد - المجتهدون المرجحون وهؤلاء مهمتهم ترجيح بعض الروايات على بعض، مراعين القواعد التي وضعها المتقدمون في هذا الباب، وبعض العلماء جعلوا هاتين الطبقتين - ج، د - طبقة واحدة. \n\nه - طبقة المستدلين: وهؤلاء لا يستنبطون ولا يرجحون قولا على قول، ولكن يستدلون للأقوال، ويبينون ما اعتمدت عليه، ويوازنون بين الأدلة من غير ترجيح للحكم، ولا بيان لما هو أجدر بالعمل. \n\nوأنت إذا دققت النظر رأيت أن هذه الطبقة لا تقل قدرا عن سابقتيها، إذ \n\nلا يعقل أن يكون اشتغالهم بالاستدلال للأحكام لا ينتهي إلى ترجيح رأي - Loss:
MatryoshkaLosswith these parameters:{ "loss": "CachedMultipleNegativesRankingLoss", "matryoshka_dims": [ 1024, 256 ], "matryoshka_weights": [ 1, 1 ], "n_dims_per_step": -1 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 128per_device_eval_batch_size: 64gradient_accumulation_steps: 2learning_rate: 2e-05num_train_epochs: 2lr_scheduler_type: cosinewarmup_ratio: 0.1bf16: Truetf32: Trueload_best_model_at_end: Truegradient_checkpointing: Truebatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 128per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 2eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 2max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Truelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthproject: huggingfacetrackio_space_id: trackioddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Truegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: noneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss | dim_1024_cosine_ndcg@10 | dim_256_cosine_ndcg@10 |
|---|---|---|---|---|
| -1 | -1 | - | 0.3765 | 0.3058 |
| 0.0345 | 10 | 6.2354 | - | - |
| 0.0691 | 20 | 5.817 | - | - |
| 0.1036 | 30 | 5.1753 | - | - |
| 0.1382 | 40 | 4.5321 | - | - |
| 0.1727 | 50 | 4.3993 | 0.4441 | 0.3700 |
| 0.2073 | 60 | 4.2201 | - | - |
| 0.2418 | 70 | 3.9258 | - | - |
| 0.2763 | 80 | 3.7359 | - | - |
| 0.3109 | 90 | 3.5542 | - | - |
| 0.3454 | 100 | 3.5922 | 0.4758 | 0.4022 |
| 0.3800 | 110 | 3.6045 | - | - |
| 0.4145 | 120 | 3.4977 | - | - |
| 0.4491 | 130 | 3.3215 | - | - |
| 0.4836 | 140 | 3.3402 | - | - |
| 0.5181 | 150 | 3.2965 | 0.4793 | 0.4113 |
| 0.5527 | 160 | 3.1349 | - | - |
| 0.5872 | 170 | 3.2717 | - | - |
| 0.6218 | 180 | 3.1613 | - | - |
| 0.6563 | 190 | 3.0922 | - | - |
| 0.6908 | 200 | 3.0056 | 0.4905 | 0.4227 |
| 0.7254 | 210 | 3.0313 | - | - |
| 0.7599 | 220 | 3.0436 | - | - |
| 0.7945 | 230 | 2.9883 | - | - |
| 0.8290 | 240 | 2.9607 | - | - |
| 0.8636 | 250 | 2.8713 | 0.4932 | 0.4240 |
| 0.8981 | 260 | 2.9252 | - | - |
| 0.9326 | 270 | 2.7817 | - | - |
| 0.9672 | 280 | 2.9204 | - | - |
| 1.0 | 290 | 2.2089 | - | - |
| 1.0345 | 300 | 2.5036 | 0.4921 | 0.4213 |
| 1.0691 | 310 | 2.4975 | - | - |
| 1.1036 | 320 | 2.5647 | - | - |
| 1.1382 | 330 | 2.4802 | - | - |
| 1.1727 | 340 | 2.5884 | - | - |
| 1.2073 | 350 | 2.467 | 0.4924 | 0.4261 |
| 1.2418 | 360 | 2.3885 | - | - |
| 1.2763 | 370 | 2.488 | - | - |
| 1.3109 | 380 | 2.5463 | - | - |
| 1.3454 | 390 | 2.5063 | - | - |
| 1.3800 | 400 | 2.4852 | 0.4923 | 0.4233 |
| 1.4145 | 410 | 2.484 | - | - |
| 1.4491 | 420 | 2.457 | - | - |
| 1.4836 | 430 | 2.4815 | - | - |
| 1.5181 | 440 | 2.5038 | - | - |
| 1.5527 | 450 | 2.4566 | 0.4910 | 0.4242 |
| 1.5872 | 460 | 2.4782 | - | - |
| 1.6218 | 470 | 2.431 | - | - |
| 1.6563 | 480 | 2.4818 | - | - |
| 1.6908 | 490 | 2.4863 | - | - |
| 1.7254 | 500 | 2.4198 | 0.4908 | 0.4236 |
| 1.7599 | 510 | 2.4795 | - | - |
| 1.7945 | 520 | 2.5094 | - | - |
| 1.8290 | 530 | 2.4374 | - | - |
| 1.8636 | 540 | 2.4466 | - | - |
| 1.8981 | 550 | 2.5209 | 0.4911 | 0.4239 |
| 1.9326 | 560 | 2.5321 | - | - |
| 1.9672 | 570 | 2.4244 | - | - |
| 2.0 | 580 | 2.2106 | - | - |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.12.0
- Sentence Transformers: 5.1.2
- Transformers: 4.57.1
- PyTorch: 2.8.0+cu128
- Accelerate: 1.11.0
- Datasets: 4.4.1
- Tokenizers: 0.22.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
- Downloads last month
- 6
Model tree for vsevolodl/qwen3-embed-v4-bashar_docs-192-hn
Evaluation results
- Cosine Accuracy@1 on dim 1024self-reported0.346
- Cosine Accuracy@3 on dim 1024self-reported0.506
- Cosine Accuracy@5 on dim 1024self-reported0.572
- Cosine Accuracy@10 on dim 1024self-reported0.646
- Cosine Precision@1 on dim 1024self-reported0.346
- Cosine Precision@3 on dim 1024self-reported0.169
- Cosine Precision@5 on dim 1024self-reported0.114
- Cosine Precision@10 on dim 1024self-reported0.065
- Cosine Recall@1 on dim 1024self-reported0.346
- Cosine Recall@3 on dim 1024self-reported0.506