--- license: apache-2.0 language: - fa base_model: - IRI2070/fa-address-bert-small pipeline_tag: sentence-similarity tags: - address - etl - record-linkage ---
# 📑 مدل embedding اختصاصی برای آدرس‌های فارسی ## 🏛 معرفی این مدل محصول جانبی و نسخه ریز تنظیم شده مدل پایه [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) است که بر اساس آدرس‌های واقعی توسعه داده شده است. هدف اصلی مدل، **تولید بردار embedding برای هر آدرس فارسی** است تا بتوان از آن در وظایف **شباهت‌سنجی، تطبیق رکورد، خوشه‌بندی و جستجوی معنایی آدرس‌ها** استفاده کرد. --- ## 🎯 کاربردها - محاسبه شباهت معنایی بین آدرس‌های فارسی - استفاده در سیستم‌های تطبیق رکورد و پاکسازی داده - خوشه‌بندی آدرس‌ها - جستجوی هوشمند آدرس در پایگاه‌های داده بزرگ --- ## 📂 داده‌های آموزشی مدل روی دیتاستی با حدود **۱ میلیون رکورد آدرس** آموزش دیده است. فرآیند تولید داده به شرح زیر است: - استخراج آدرس‌های صحت‌سنجی‌شده از **سامانه ثبت‌نام مالیاتی (گام ۴۴ و ۴۵)** - پاکسازی و نرمال‌سازی کامل آدرس‌ها - تطبیق کد پستی این آدرس‌ها با جدول پروژه **GNAF شرکت پست جمهوری اسلامی ایران** - تولید مثال‌های آموزشی به ازای هر آدرس: - **۱ مثال Hard Positive**: آدرس واقعی با کد پستی منطبق در جدول GNAF - **۹ مثال Hard Negative**: آدرس‌های بسیار شبیه از نظر متن ولی با کد پستی متفاوت در جدول GNAF برای تولید مثال‌های Hard Negative از یک مدل **FastText سفارشی** استفاده شد که بر اساس کورپوس ۱۰۰ گیگابایتی آدرس‌های فارسی آموزش دیده بود (همان کورپوسی که برای مدل [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) استفاده شده بود). --- ## ⚙️ معماری و تنظیمات - Base architecture: [SBERT](https://www.sbert.net) - زبان: فارسی - تعداد رکورد آموزشی: ~1,000,000 - نوع مثال‌ها: Hard Positive / Hard Negative - هدف آموزش: Triplet/Contrastive embedding learning برای شباهت‌سنجی دقیق آدرس‌ها --- ## 🧾 نحوه استفاده
```python from sentence_transformers import SentenceTransformer, util model = SentenceTransformer("IRI2070/fa-address-bert-small-embedding") address_1 = "تهران، خیابان آزادی، نبش خوش، پلاک ۱۲" address_2 = "تهران، خ آزادی، تقاطع خوش، پلاک ۱۲" embedding_1 = model.encode(address_1, convert_to_tensor=True) embedding_2 = model.encode(address_2, convert_to_tensor=True) similarity = util.cos_sim(embedding_1, embedding_2) print(f"Similarity score: {similarity.item():.4f}") ``` ---
© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده** توسعه یافته است.