fa-address-bert-small-embedding / README.md

IRI2070

Update README.md

fd43029 verified 14 days ago

preview code

raw

history blame contribute delete

3.63 kB

metadata

license: apache-2.0
language:
  - fa
base_model:
  - IRI2070/fa-address-bert-small
pipeline_tag: sentence-similarity
tags:
  - address
  - etl
  - record-linkage

📑 مدل embedding اختصاصی برای آدرس‌های فارسی

🏛 معرفی

این مدل محصول جانبی و نسخه ریز تنظیم شده مدل پایه fa-address-bert-small است که بر اساس آدرس‌های واقعی توسعه داده شده است. هدف اصلی مدل، تولید بردار embedding برای هر آدرس فارسی است تا بتوان از آن در وظایف شباهت‌سنجی، تطبیق رکورد، خوشه‌بندی و جستجوی معنایی آدرس‌ها استفاده کرد.

🎯 کاربردها

محاسبه شباهت معنایی بین آدرس‌های فارسی
استفاده در سیستم‌های تطبیق رکورد و پاکسازی داده
خوشه‌بندی آدرس‌ها
جستجوی هوشمند آدرس در پایگاه‌های داده بزرگ

📂 داده‌های آموزشی

مدل روی دیتاستی با حدود ۱ میلیون رکورد آدرس آموزش دیده است. فرآیند تولید داده به شرح زیر است:

استخراج آدرس‌های صحت‌سنجی‌شده از سامانه ثبت‌نام مالیاتی (گام ۴۴ و ۴۵)
پاکسازی و نرمال‌سازی کامل آدرس‌ها
تطبیق کد پستی این آدرس‌ها با جدول پروژه GNAF شرکت پست جمهوری اسلامی ایران
تولید مثال‌های آموزشی به ازای هر آدرس:
- ۱ مثال Hard Positive: آدرس واقعی با کد پستی منطبق در جدول GNAF
- ۹ مثال Hard Negative: آدرس‌های بسیار شبیه از نظر متن ولی با کد پستی متفاوت در جدول GNAF

برای تولید مثال‌های Hard Negative از یک مدل FastText سفارشی استفاده شد که بر اساس کورپوس ۱۰۰ گیگابایتی آدرس‌های فارسی آموزش دیده بود (همان کورپوسی که برای مدل fa-address-bert-small استفاده شده بود).

⚙️ معماری و تنظیمات

Base architecture: SBERT
زبان: فارسی
تعداد رکورد آموزشی: ~1,000,000
نوع مثال‌ها: Hard Positive / Hard Negative
هدف آموزش: Triplet/Contrastive embedding learning برای شباهت‌سنجی دقیق آدرس‌ها

🧾 نحوه استفاده

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("IRI2070/fa-address-bert-small-embedding")

address_1 = "تهران، خیابان آزادی، نبش خوش، پلاک ۱۲"
address_2 = "تهران، خ آزادی، تقاطع خوش، پلاک ۱۲"

embedding_1 = model.encode(address_1, convert_to_tensor=True)
embedding_2 = model.encode(address_2, convert_to_tensor=True)

similarity = util.cos_sim(embedding_1, embedding_2)
print(f"Similarity score: {similarity.item():.4f}")