Update README.md
Browse filesДобавил ссылку на оригинальную модель и указал количество токенов в обучающем сете
README.md
CHANGED
|
@@ -11,6 +11,7 @@ datasets:
|
|
| 11 |
- d0rj/alpaca-cleaned-ru
|
| 12 |
- dwarf2/databricks-dolly-15k-ru
|
| 13 |
- AlexWortega/flan_translated_300k
|
|
|
|
| 14 |
library_name: transformers
|
| 15 |
pipeline_tag: text2text-generation
|
| 16 |
inference:
|
|
@@ -34,7 +35,7 @@ widget:
|
|
| 34 |
|
| 35 |
> 🚧 WIP, still training...
|
| 36 |
|
| 37 |
-
|
| 38 |
|
| 39 |
Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.
|
| 40 |
|
|
@@ -56,7 +57,9 @@ pipe('<SC6>Придумай сказку про красную лягушку<ex
|
|
| 56 |
|
| 57 |
### Data
|
| 58 |
|
| 59 |
-
Сконкатенировано из разных переведённых инструктивных датасетов.
|
|
|
|
|
|
|
| 60 |
|
| 61 |
### Resources
|
| 62 |
|
|
|
|
| 11 |
- d0rj/alpaca-cleaned-ru
|
| 12 |
- dwarf2/databricks-dolly-15k-ru
|
| 13 |
- AlexWortega/flan_translated_300k
|
| 14 |
+
finetuned_from: ai-forever/FRED-T5-large
|
| 15 |
library_name: transformers
|
| 16 |
pipeline_tag: text2text-generation
|
| 17 |
inference:
|
|
|
|
| 35 |
|
| 36 |
> 🚧 WIP, still training...
|
| 37 |
|
| 38 |
+
Модель [ai-forever/FRED-T5-large](https://huggingface.co/ai-forever/FRED-T5-large), обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.
|
| 39 |
|
| 40 |
Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.
|
| 41 |
|
|
|
|
| 57 |
|
| 58 |
### Data
|
| 59 |
|
| 60 |
+
Сконкатенировано из разных переведённых инструктивных датасетов.
|
| 61 |
+
|
| 62 |
+
Всего 1.1B токенов (1133146852) в обучающем сете, 7506075 примеров system_prompt-question-answer. По Chinchilla статье это ~ в 15 раз меньше, чем нужно (но Chinchilla про претрейн).
|
| 63 |
|
| 64 |
### Resources
|
| 65 |
|