Update README.md
Browse files
README.md
CHANGED
|
@@ -18,6 +18,8 @@ pipeline_tag: fill-mask
|
|
| 18 |
## 🏛 معرفی
|
| 19 |
این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرسها** است.
|
| 20 |
|
|
|
|
|
|
|
| 21 |
## 📂 دادههای آموزشی
|
| 22 |
این مدل پایه روی حدود **100 گیگابایت دادهی آدرس پاکسازیشده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند:
|
| 23 |
- منابع اطلاعاتی درونسازمانی و برونسازمانی (مطابق ماده 169 مکرر قانون مالیاتهای مستقیم)
|
|
@@ -26,11 +28,15 @@ pipeline_tag: fill-mask
|
|
| 26 |
|
| 27 |
جامع بودن و تنوع دادهها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرسهای فارسی** داشته باشد.
|
| 28 |
|
|
|
|
|
|
|
| 29 |
## ⚙️ معماری مدل
|
| 30 |
- معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small)
|
| 31 |
- تعداد پارامترها: **28.8M**
|
| 32 |
- توکنایزر: **کاملاً اختصاصی** (طراحیشده بر اساس آدرسهای فارسی)
|
| 33 |
|
|
|
|
|
|
|
| 34 |
## 🖥 تنظیمات آموزش
|
| 35 |
مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است.
|
| 36 |
|
|
@@ -42,6 +48,8 @@ pipeline_tag: fill-mask
|
|
| 42 |
- Epochs: `11`
|
| 43 |
- مدت زمان آموزش: ~**35 ساعت**
|
| 44 |
|
|
|
|
|
|
|
| 45 |
## 🎯 کاربردها
|
| 46 |
ریز تنظیم کردن و تولید مدلهای جانبی برای:
|
| 47 |
- **ETL pipelines**: پاکسازی و استانداردسازی آدرسها
|
|
|
|
| 18 |
## 🏛 معرفی
|
| 19 |
این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرسها** است.
|
| 20 |
|
| 21 |
+
---
|
| 22 |
+
|
| 23 |
## 📂 دادههای آموزشی
|
| 24 |
این مدل پایه روی حدود **100 گیگابایت دادهی آدرس پاکسازیشده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند:
|
| 25 |
- منابع اطلاعاتی درونسازمانی و برونسازمانی (مطابق ماده 169 مکرر قانون مالیاتهای مستقیم)
|
|
|
|
| 28 |
|
| 29 |
جامع بودن و تنوع دادهها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرسهای فارسی** داشته باشد.
|
| 30 |
|
| 31 |
+
---
|
| 32 |
+
|
| 33 |
## ⚙️ معماری مدل
|
| 34 |
- معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small)
|
| 35 |
- تعداد پارامترها: **28.8M**
|
| 36 |
- توکنایزر: **کاملاً اختصاصی** (طراحیشده بر اساس آدرسهای فارسی)
|
| 37 |
|
| 38 |
+
---
|
| 39 |
+
|
| 40 |
## 🖥 تنظیمات آموزش
|
| 41 |
مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است.
|
| 42 |
|
|
|
|
| 48 |
- Epochs: `11`
|
| 49 |
- مدت زمان آموزش: ~**35 ساعت**
|
| 50 |
|
| 51 |
+
---
|
| 52 |
+
|
| 53 |
## 🎯 کاربردها
|
| 54 |
ریز تنظیم کردن و تولید مدلهای جانبی برای:
|
| 55 |
- **ETL pipelines**: پاکسازی و استانداردسازی آدرسها
|