📑 مدل BERT-Small اختصاصی آدرس های فارسی

🏛 معرفی

این مدل یک نسخه از BERT-Small (28.8M پارامتر) است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف پاکسازی، استانداردسازی و تطبیق آدرس‌ها است.


📂 داده‌های آموزشی

این مدل پایه روی حدود 100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی آموزش دیده است که از منابع زیر جمع آوری شدند:

  • منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
  • تولید آدرس از دیتاست پروژه GNAF شرکت پست جمهوری اسلامی ایران با روش Random Walk
  • تولید آدرس از گراف OpenStreetMap با روش Random Walk

جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در درک ساختار آدرس‌های فارسی داشته باشد.


⚙️ معماری مدل

  • معماری پایه: BERT-Small
  • تعداد پارامترها: 28.8M
  • توکنایزر: کاملاً اختصاصی (طراحی‌شده بر اساس آدرس‌های فارسی)

🖥 تنظیمات آموزش

مدل روی ابررایانه سیمرغ (Simorgh Cloud) با GPU NVIDIA A100 (40GB) آموزش داده شده است.

مشخصات آموزش

  • Learning rate: 5e-05
  • Train batch size: 450
  • Eval batch size: 450
  • Optimizer: Adam
  • Epochs: 11
  • مدت زمان آموزش: ~35 ساعت

🎯 کاربردها

ریز تنظیم کردن و تولید مدل‌های جانبی برای:

  • ETL pipelines: پاکسازی و استانداردسازی آدرس‌ها
  • Record linkage: تطبیق آدرس‌ها

© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده توسعه یافته است.

Downloads last month
5
Safetensors
Model size
28.8M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for IRI2070/fa-address-bert-small

Base model

lyeonii/bert-small
Finetuned
(2)
this model
Finetunes
2 models

Collection including IRI2070/fa-address-bert-small