🪶 Wolof → Français — NLLB Fine-Tuned Model

🧠 Présentation du projet

Ce modèle est une version fine-tunée de facebook/nllb-200-distilled-600M, spécialisée pour la traduction automatique du Wolof vers le Français.

Il a été entraîné sur un corpus personnalisé de paires de phrases Wolof–Français, afin d’améliorer la qualité de traduction pour des contextes linguistiques sénégalais et africains, souvent mal couverts par les modèles multilingues génériques.


⚙️ Détails techniques

Paramètre Valeur
Base model facebook/nllb-200-distilled-600M
Direction Wolof → Français
Taille max. des séquences 128 tokens
Batch size effectif 20 × accumulation 20
Optimiseur / LR AdamW / 2e-5
Nombre d’époques 8
FP16 (GPU) Activé
Meilleur checkpoint Sélection automatique via BLEU score

📦 Données d'entraînement

Les données proviennent d’un dataset local train.csv, structuré comme suit :

inputt (wolof) target (français)
"Naka nga def ?" "Comment vas-tu ?"
"Jërëjëf." "Merci."

Un nettoyage automatique a été appliqué pour :

  • Supprimer les lignes vides ou invalides.
  • Normaliser les colonnes de texte.
  • Détecter automatiquement la langue de chaque colonne (Heuristique Wolof/French).

🚀 Utilisation

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "MaroneAI/nllb-Wolof-to-Frensh-615M"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

text = "Naka nga def?"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=128)
print("🗣️ Traduction:", tokenizer.decode(outputs[0], skip_special_tokens=True))
Downloads last month
47
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MaroneAI/nllb-Wolof-to-French-615M

Finetuned
(199)
this model

Datasets used to train MaroneAI/nllb-Wolof-to-French-615M

Space using MaroneAI/nllb-Wolof-to-French-615M 1