IRI2070 commited on
Commit
8d36183
·
verified ·
1 Parent(s): fefb5e0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -0
README.md CHANGED
@@ -18,6 +18,8 @@ pipeline_tag: fill-mask
18
  ## 🏛 معرفی
19
  این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرس‌ها** است.
20
 
 
 
21
  ## 📂 داده‌های آموزشی
22
  این مدل پایه روی حدود **100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند:
23
  - منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
@@ -26,11 +28,15 @@ pipeline_tag: fill-mask
26
 
27
  جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرس‌های فارسی** داشته باشد.
28
 
 
 
29
  ## ⚙️ معماری مدل
30
  - معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small)
31
  - تعداد پارامترها: **28.8M**
32
  - توکنایزر: **کاملاً اختصاصی** (طراحی‌شده بر اساس آدرس‌های فارسی)
33
 
 
 
34
  ## 🖥 تنظیمات آموزش
35
  مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است.
36
 
@@ -42,6 +48,8 @@ pipeline_tag: fill-mask
42
  - Epochs: `11`
43
  - مدت زمان آموزش: ~**35 ساعت**
44
 
 
 
45
  ## 🎯 کاربردها
46
  ریز تنظیم کردن و تولید مدل‌های جانبی برای:
47
  - **ETL pipelines**: پاکسازی و استانداردسازی آدرس‌ها
 
18
  ## 🏛 معرفی
19
  این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرس‌ها** است.
20
 
21
+ ---
22
+
23
  ## 📂 داده‌های آموزشی
24
  این مدل پایه روی حدود **100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند:
25
  - منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
 
28
 
29
  جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرس‌های فارسی** داشته باشد.
30
 
31
+ ---
32
+
33
  ## ⚙️ معماری مدل
34
  - معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small)
35
  - تعداد پارامترها: **28.8M**
36
  - توکنایزر: **کاملاً اختصاصی** (طراحی‌شده بر اساس آدرس‌های فارسی)
37
 
38
+ ---
39
+
40
  ## 🖥 تنظیمات آموزش
41
  مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است.
42
 
 
48
  - Epochs: `11`
49
  - مدت زمان آموزش: ~**35 ساعت**
50
 
51
+ ---
52
+
53
  ## 🎯 کاربردها
54
  ریز تنظیم کردن و تولید مدل‌های جانبی برای:
55
  - **ETL pipelines**: پاکسازی و استانداردسازی آدرس‌ها