🪶 Wolof → Français — NLLB Fine-Tuned Model
🧠 Présentation du projet
Ce modèle est une version fine-tunée de facebook/nllb-200-distilled-600M, spécialisée pour la traduction automatique du Wolof vers le Français.
Il a été entraîné sur un corpus personnalisé de paires de phrases Wolof–Français, afin d’améliorer la qualité de traduction pour des contextes linguistiques sénégalais et africains, souvent mal couverts par les modèles multilingues génériques.
⚙️ Détails techniques
| Paramètre | Valeur |
|---|---|
| Base model | facebook/nllb-200-distilled-600M |
| Direction | Wolof → Français |
| Taille max. des séquences | 128 tokens |
| Batch size effectif | 20 × accumulation 20 |
| Optimiseur / LR | AdamW / 2e-5 |
| Nombre d’époques | 8 |
| FP16 (GPU) | Activé |
| Meilleur checkpoint | Sélection automatique via BLEU score |
📦 Données d'entraînement
Les données proviennent d’un dataset local train.csv, structuré comme suit :
| inputt (wolof) | target (français) |
|---|---|
| "Naka nga def ?" | "Comment vas-tu ?" |
| "Jërëjëf." | "Merci." |
Un nettoyage automatique a été appliqué pour :
- Supprimer les lignes vides ou invalides.
- Normaliser les colonnes de texte.
- Détecter automatiquement la langue de chaque colonne (Heuristique Wolof/French).
🚀 Utilisation
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model_name = "MaroneAI/nllb-Wolof-to-Frensh-615M"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
text = "Naka nga def?"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=128)
print("🗣️ Traduction:", tokenizer.decode(outputs[0], skip_special_tokens=True))
- Downloads last month
- 47
Model tree for MaroneAI/nllb-Wolof-to-French-615M
Base model
facebook/nllb-200-distilled-600M