File size: 5,061 Bytes

e5aaad7

{
 "cells": [
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Now training Wordpiece with instructions from huggingface\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "# https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/tokenizer_training.ipynb\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "# join all txt files into a single txt file\n",
    "import os\n",
    "from pathlib import Path\n",
    "import time\n",
    "\n",
    "paths = [str(x) for x in Path(\"./custom_latin_corpus\").glob(\"**/*.txt\")]\n",
    "all_text = []\n",
    "for path in paths:\n",
    "    with open(path, \"r\") as f:\n",
    "        text = f.read()\n",
    "\n",
    "    all_text.append(text)\n",
    "# text batch size\n",
    "batch_size = 100\n",
    "def batch_iterator():\n",
    "    for i in range(0, len(all_text), batch_size):\n",
    "        yield all_text[i : i + batch_size]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "with open(\"03_full_latin_corpus_for_training.txt\", \"w\") as f:\n",
    "    f.writelines(all_text)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "\n",
    "from tokenizers import decoders, models, normalizers, pre_tokenizers, processors, trainers, Tokenizer\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "tokenizer = Tokenizer(models.WordPiece(unk_token=\"[UNK]\"))\n",
    "tokenizer.normalizer = normalizers.BertNormalizer(lowercase=True)\n",
    "tokenizer.pre_tokenizer = pre_tokenizers.BertPreTokenizer()\n",
    "tokenizer.pre_tokenizer.pre_tokenize_str(\"This is an example!\")\n",
    "special_tokens = [\"[UNK]\", \"[PAD]\", \"[CLS]\", \"[SEP]\", \"[MASK]\"]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "\n",
    "trainer = trainers.WordPieceTrainer(\n",
    "    vocab_size=25000, \n",
    "    special_tokens=special_tokens,\n",
    "    min_frequency=2,\n",
    "    limit_alphabet=50\n",
    "    )"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\n",
      "\n",
      "\n"
     ]
    }
   ],
   "source": [
    "\n",
    "\n",
    "\n",
    "tokenizer.train_from_iterator(batch_iterator(), trainer=trainer)\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "2 3\n"
     ]
    }
   ],
   "source": [
    "# now, define the post processor\n",
    "cls_token_id = tokenizer.token_to_id(\"[CLS]\")\n",
    "sep_token_id = tokenizer.token_to_id(\"[SEP]\")\n",
    "print(cls_token_id, sep_token_id)\n",
    "tokenizer.post_processor = processors.TemplateProcessing(\n",
    "    single=f\"[CLS]:0 $A:0 [SEP]:0\",\n",
    "    pair=f\"[CLS]:0 $A:0 [SEP]:0 $B:1 [SEP]:1\",\n",
    "    special_tokens=[\n",
    "        (\"[CLS]\", cls_token_id),\n",
    "        (\"[SEP]\", sep_token_id),\n",
    "    ],\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "# test an example\n",
    "example_encoding = tokenizer.encode(\"Roma in Italia est.\", \"Italia in Europa est.\")\n",
    "example_encoding.tokens\n",
    "tokenizer.decoder = decoders.WordPiece(prefix=\"##\")\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "('latin_WP_tokenizer/tokenizer_config.json',\n",
       " 'latin_WP_tokenizer/special_tokens_map.json',\n",
       " 'latin_WP_tokenizer/vocab.txt',\n",
       " 'latin_WP_tokenizer/added_tokens.json',\n",
       " 'latin_WP_tokenizer/tokenizer.json')"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# wrap it inside transformers object\n",
    "\n",
    "from transformers import BertTokenizerFast\n",
    "\n",
    "new_wp_tokenizer = BertTokenizerFast(tokenizer_object=tokenizer)\n",
    "new_wp_tokenizer.save_pretrained(\n",
    "    \"latin_WP_tokenizer\"\n",
    ")\n"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "bertenv",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.2"
  },
  "orig_nbformat": 4
 },
 "nbformat": 4,
 "nbformat_minor": 2
}