---
license: apache-2.0
language:
- fa
base_model:
- IRI2070/fa-address-bert-small
pipeline_tag: sentence-similarity
tags:
- address
- etl
- record-linkage
---
# 📑 مدل embedding اختصاصی برای آدرسهای فارسی
## 🏛 معرفی
این مدل محصول جانبی و نسخه ریز تنظیم شده مدل پایه [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) است که بر اساس آدرسهای واقعی توسعه داده شده است. هدف اصلی مدل، **تولید بردار embedding برای هر آدرس فارسی** است تا بتوان از آن در وظایف **شباهتسنجی، تطبیق رکورد، خوشهبندی و جستجوی معنایی آدرسها** استفاده کرد.
---
## 🎯 کاربردها
- محاسبه شباهت معنایی بین آدرسهای فارسی
- استفاده در سیستمهای تطبیق رکورد و پاکسازی داده
- خوشهبندی آدرسها
- جستجوی هوشمند آدرس در پایگاههای داده بزرگ
---
## 📂 دادههای آموزشی
مدل روی دیتاستی با حدود **۱ میلیون رکورد آدرس** آموزش دیده است. فرآیند تولید داده به شرح زیر است:
- استخراج آدرسهای صحتسنجیشده از **سامانه ثبتنام مالیاتی (گام ۴۴ و ۴۵)**
- پاکسازی و نرمالسازی کامل آدرسها
- تطبیق کد پستی این آدرسها با جدول پروژه **GNAF شرکت پست جمهوری اسلامی ایران**
- تولید مثالهای آموزشی به ازای هر آدرس:
- **۱ مثال Hard Positive**: آدرس واقعی با کد پستی منطبق در جدول GNAF
- **۹ مثال Hard Negative**: آدرسهای بسیار شبیه از نظر متن ولی با کد پستی متفاوت در جدول GNAF
برای تولید مثالهای Hard Negative از یک مدل **FastText سفارشی** استفاده شد که بر اساس کورپوس ۱۰۰ گیگابایتی آدرسهای فارسی آموزش دیده بود (همان کورپوسی که برای مدل [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) استفاده شده بود).
---
## ⚙️ معماری و تنظیمات
- Base architecture: [SBERT](https://www.sbert.net)
- زبان: فارسی
- تعداد رکورد آموزشی: ~1,000,000
- نوع مثالها: Hard Positive / Hard Negative
- هدف آموزش: Triplet/Contrastive embedding learning برای شباهتسنجی دقیق آدرسها
---
## 🧾 نحوه استفاده
```python
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("IRI2070/fa-address-bert-small-embedding")
address_1 = "تهران، خیابان آزادی، نبش خوش، پلاک ۱۲"
address_2 = "تهران، خ آزادی، تقاطع خوش، پلاک ۱۲"
embedding_1 = model.encode(address_1, convert_to_tensor=True)
embedding_2 = model.encode(address_2, convert_to_tensor=True)
similarity = util.cos_sim(embedding_1, embedding_2)
print(f"Similarity score: {similarity.item():.4f}")
```
---
© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده** توسعه یافته است.