Spaces:

Lyti4
/

skladbot-free-ai

Sleeping

App Files Files Community

Lyti4 commited on Jun 27

Commit

0f1c5d2

verified ·

1 Parent(s): 960f663

Update custom_tokenizers.py

Browse files

Files changed (1) hide show

custom_tokenizers.py +6 -20

custom_tokenizers.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from transformers import T5Tokenizer, PreTrainedTokenizer
 from typing import Dict, List, Optional, Union
 import os
 import logging
@@ -8,7 +8,7 @@ logger = logging.getLogger(__name__)
 class Byt5LangTokenizer(T5Tokenizer):
     """
     Кастомный токенайзер для ByT5 моделей с поддержкой распознавания таблиц.
-    Используется для модели vikp/surya_tablerec
     """
     def __init__(
@@ -23,7 +23,6 @@ class Byt5LangTokenizer(T5Tokenizer):
         sp_model_kwargs=None,
         **kwargs
     ):
-        # Вызываем родительский конструктор
         super().__init__(
             vocab_file=vocab_file,
             tokenizer_file=tokenizer_file,
@@ -40,28 +39,15 @@ class Byt5LangTokenizer(T5Tokenizer):
         self.byte_decoder = {i: bytes([i]) for i in range(256)}
         # Добавляем специальные токены
-        special_tokens = {
             eos_token: self.convert_token_to_id(eos_token),
             unk_token: self.convert_token_to_id(unk_token),
             pad_token: self.convert_token_to_id(pad_token),
         }
-        # Важно: Проверяем, есть ли уже атрибут special_tokens_encoder
-        if not hasattr(self, "special_tokens_encoder"):
-            self.special_tokens_encoder = {}
-        # Обновляем, а не перезаписываем
-        self.special_tokens_encoder.update(special_tokens)
-        # То же для decoder
-        if not hasattr(self, "special_tokens_decoder"):
-            self.special_tokens_decoder = {}
-        self.special_tokens_decoder.update({v: k for k, v in special_tokens.items()})
-        # Добавляем дополнительные атрибуты из родительского класса
-        if not hasattr(self, "all_special_tokens"):
-            self.all_special_tokens = [eos_token, unk_token, pad_token]
-        if not hasattr(self, "all_special_ids"):
-            self.all_special_ids = [self.convert_token_to_id(t) for t in self.all_special_tokens]
     @property
     def vocab_size(self):

+from transformers import T5Tokenizer
 from typing import Dict, List, Optional, Union
 import os
 import logging
 class Byt5LangTokenizer(T5Tokenizer):
     """
     Кастомный токенайзер для ByT5 моделей с поддержкой распознавания таблиц.
+    Используется для модели vikp/surya_table
     """
     def __init__(
         sp_model_kwargs=None,
         **kwargs
     ):
         super().__init__(
             vocab_file=vocab_file,
             tokenizer_file=tokenizer_file,
         self.byte_decoder = {i: bytes([i]) for i in range(256)}
         # Добавляем специальные токены
+        self.special_tokens = {
             eos_token: self.convert_token_to_id(eos_token),
             unk_token: self.convert_token_to_id(unk_token),
             pad_token: self.convert_token_to_id(pad_token),
         }
+        # Реализуем отсутствующие атрибуты
+        self.special_tokens_encoder = self.special_tokens
+        self.special_tokens_decoder = {v: k for k, v in self.special_tokens.items()}
     @property
     def vocab_size(self):