📑 مدل BERT-Small اختصاصی آدرس های فارسی

ETL pipelines: پاکسازی و استانداردسازی آدرس‌ها
Record linkage: تطبیق آدرس‌ها

🏛 معرفی

این مدل یک نسخه از BERT-Small (28.8M پارامتر) است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف پاکسازی، استانداردسازی و تطبیق آدرس‌ها است.

📂 داده‌های آموزشی

این مدل پایه روی حدود 100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی آموزش دیده است که از منابع زیر جمع آوری شدند:

منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
تولید آدرس از دیتاست پروژه GNAF شرکت پست جمهوری اسلامی ایران با روش Random Walk
تولید آدرس از گراف OpenStreetMap با روش Random Walk

جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در درک ساختار آدرس‌های فارسی داشته باشد.