LLM Course documentation
🤗 <i> Datasets </i> , coché !
0. Configuration
1. Les transformers
2. Utilisation de 🤗 Transformers
3. Finetuner un modèle pré-entraîné
4. Partager des modèles et des tokenizers
5. La bibliothèque 🤗 Datasets
IntroductionQue faire si mon jeu de données n'est pas sur le Hub ?Il est temps de trancher et de découperDonnées massives ? 🤗 Datasets à la rescousse !Création de votre propre jeu de donnéesRecherche sémantique avec FAISS🤗 Datasets, coché !Quiz de fin de chapitre
6. La bibliothèque 🤗 Tokenizer
7. Les principales tâches en NLP
8. Comment demander de l'aide
9. Construire et partager des démos
Evènements liés au cours
Glossaire
🤗 <i> Datasets </i> , coché !
Eh bien, ce fut une sacrée visite de la bibliothèque 🤗 Datasets. Félicitations d’être arrivé jusqu’ici ! Avec les connaissances que vous avez acquises dans ce chapitre, vous devriez être en mesure de :
- charger des jeux de données depuis n’importe où, que ce soit le Hub d’Hugging Face, votre ordinateur portable ou un serveur distant de votre entreprise,
- manipuler vos données en utilisant un mélange des fonctions Dataset.map() et Dataset.filter(),
- passer rapidement d’un format de données à un autre, comme Pandas et NumPy, en utilisant Dataset.set_format(),
- créer votre propre jeu de données et l’envoyer vers le Hub,
- enchâsser vos documents en utilisant un transformer et construire un moteur de recherche sémantique en utilisant FAISS.
Dans le chapitre 7, nous mettrons tout cela à profit en plongeant dans les tâches de traitement du langage naturel de base pour lesquelles les transformers sont parfaits. Avant cela mettez vos connaissances sur la librairie 🤗 Datasets à l’épreuve avec un petit quiz !
Update on GitHub