d0rj
/

FRED-T5-large-instruct

@@ -11,6 +11,7 @@ datasets:
 - d0rj/alpaca-cleaned-ru
 - dwarf2/databricks-dolly-15k-ru
 - AlexWortega/flan_translated_300k
 library_name: transformers
 pipeline_tag: text2text-generation
 inference:
@@ -34,7 +35,7 @@ widget:
 > 🚧 WIP, still training...
-Модель, обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.
 Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.
@@ -56,7 +57,9 @@ pipe('<SC6>Придумай сказку про красную лягушку<ex
 ### Data
-Сконкатенировано из разных переведённых инструктивных датасетов. Всего 7506075 примеров system_prompt-question-answer.
 ### Resources

 - d0rj/alpaca-cleaned-ru
 - dwarf2/databricks-dolly-15k-ru
 - AlexWortega/flan_translated_300k
+finetuned_from: ai-forever/FRED-T5-large
 library_name: transformers
 pipeline_tag: text2text-generation
 inference:
 > 🚧 WIP, still training...
+Модель [ai-forever/FRED-T5-large](https://huggingface.co/ai-forever/FRED-T5-large), обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.
 Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.
 ### Data
+Сконкатенировано из разных переведённых инструктивных датасетов.
+Всего 1.1B токенов (1133146852) в обучающем сете, 7506075 примеров system_prompt-question-answer. По Chinchilla статье это ~ в 15 раз меньше, чем нужно (но Chinchilla про претрейн).
 ### Resources