flax-community
/

gpt-2-german

Model card Files Files and versions

Christopher Akiki commited on Jul 3, 2021

Commit

6e44597

·

1 Parent(s): 57855ac

Add tokenizer script

Files changed (1) hide show

src/train_tokenizer.py +26 -0

src/train_tokenizer.py ADDED Viewed

	@@ -0,0 +1,26 @@

+from datasets import load_dataset
+from tokenizers import trainers, Tokenizer, normalizers, ByteLevelBPETokenizer
+# load dataset
+dataset = load_dataset("german-nlp-group/german_common_crawl")
+# Instantiate tokenizer
+tokenizer = ByteLevelBPETokenizer()
+def batch_iterator(batch_size=1000):
+    for i in range(0, len(dataset), batch_size):
+        yield dataset[i: i + batch_size]["text"]
+# Customized training
+tokenizer.train_from_iterator(batch_iterator(), vocab_size=50265, min_frequency=2, special_tokens=[
+    "<s>",
+    "<pad>",
+    "</s>",
+    "<unk>",
+    "<mask>",
+])
+# Save files to disk
+tokenizer.save(f"./tokenizer.json")