Update README.md
Browse files
README.md
CHANGED
|
@@ -13,6 +13,72 @@ model-index:
|
|
| 13 |
|
| 14 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
| 15 |
should probably proofread and complete it, then remove this comment. -->
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 16 |
|
| 17 |
# essays
|
| 18 |
|
|
@@ -21,19 +87,6 @@ It achieves the following results on the evaluation set:
|
|
| 21 |
- Loss: 1.9714
|
| 22 |
- Accuracy: 0.4092
|
| 23 |
|
| 24 |
-
## Model description
|
| 25 |
-
|
| 26 |
-
More information needed
|
| 27 |
-
|
| 28 |
-
## Intended uses & limitations
|
| 29 |
-
|
| 30 |
-
More information needed
|
| 31 |
-
|
| 32 |
-
## Training and evaluation data
|
| 33 |
-
|
| 34 |
-
More information needed
|
| 35 |
-
|
| 36 |
-
## Training procedure
|
| 37 |
|
| 38 |
### Training hyperparameters
|
| 39 |
|
|
@@ -60,3 +113,17 @@ The following hyperparameters were used during training:
|
|
| 60 |
- Pytorch 2.5.1+cu124
|
| 61 |
- Datasets 3.3.0
|
| 62 |
- Tokenizers 0.21.0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 13 |
|
| 14 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
| 15 |
should probably proofread and complete it, then remove this comment. -->
|
| 16 |
+
# Модель: Essays Generation (GPT-2 Medium)
|
| 17 |
+
|
| 18 |
+
## Описание
|
| 19 |
+
Модель основана на GPT-2 Medium и предназначена для генерации эссе с использованием настроек обучения, описанных ниже. Используются текстовые данные, загруженные из кастомной конфигурации.
|
| 20 |
+
|
| 21 |
+
## Параметры модели
|
| 22 |
+
- **Модель**: GPT-2 Medium
|
| 23 |
+
- **Размер слоя**: 24
|
| 24 |
+
- **Контекстная длина**: 1024 токенов
|
| 25 |
+
- **Размер скрытого слоя**: 1024
|
| 26 |
+
- **Голов на слой**: 16
|
| 27 |
+
- **Объем словаря**: 50257 токенов
|
| 28 |
+
- **Функция активации**: `gelu_new`
|
| 29 |
+
|
| 30 |
+
## Параметры обучения и оптимизации
|
| 31 |
+
- **Оптимизатор**: AdamW (β1=0.9, β2=0.999, ε=1e-8)
|
| 32 |
+
- **Обучение на устройстве**: `cuda:0`
|
| 33 |
+
- **Количество эпох**: 30
|
| 34 |
+
- **Шагов на прогрев**: 500
|
| 35 |
+
- **Обучение с использованием fp16**: Да
|
| 36 |
+
- **Объем мини-батча на устройство (тренировка/оценка)**: 8
|
| 37 |
+
- **Градиентная аккумуляция**: 8 шагов
|
| 38 |
+
- **Чекпоинты сохранения**: каждые 1000 шагов (максимум 3 чекпоинта)
|
| 39 |
+
- **Стратегия сохранения**: по шагам (steps)
|
| 40 |
+
- **Скорость обучения**: 3e-05
|
| 41 |
+
- **Контроль переполнений**: включен (nan_inf_filter=True)
|
| 42 |
+
|
| 43 |
+
## Логирование и отчетность
|
| 44 |
+
- **Шаги логирования**: каждые 100
|
| 45 |
+
- **Отчеты**: TensorBoard, WandB
|
| 46 |
+
- **Директория логов**: `models/essays/runs/Feb14_18-50-17_4cf0e8a4721b`
|
| 47 |
+
|
| 48 |
+
## Данные
|
| 49 |
+
- **Источник данных**: Кастомная конфигурация `default-b280a7a97da73b33`
|
| 50 |
+
- **Формат данных**: текст
|
| 51 |
+
|
| 52 |
+
## Метрики обучения (Train Metrics)
|
| 53 |
+
- **Эпоха**: 30.0
|
| 54 |
+
- **Общее число FLOPs**: 1037903GF
|
| 55 |
+
- **Средняя потеря (train_loss)**: 2.3499
|
| 56 |
+
- **Время тренировки (train_runtime)**: 0:03:48.80
|
| 57 |
+
- **Количество тренировочных примеров (train_samples)**: 20
|
| 58 |
+
- **Тренировочные примеры в секунду (train_samples_per_second)**: 2.622
|
| 59 |
+
- **Тренировочные шаги в секунду (train_steps_per_second)**: 0.131
|
| 60 |
+
|
| 61 |
+
## Метрики оценки (Eval Metrics)
|
| 62 |
+
- **Эпоха**: 30.0
|
| 63 |
+
- **Точность (eval_accuracy)**: 0.4092
|
| 64 |
+
- **Потери (eval_loss)**: 1.9714
|
| 65 |
+
- **Время оценки (eval_runtime)**: 0:00:00.71
|
| 66 |
+
- **Количество оценочных примеров (eval_samples)**: 7
|
| 67 |
+
- **Оценочные примеры в секунду (eval_samples_per_second)**: 9.854
|
| 68 |
+
- **Оценочные шаги в секунду (eval_steps_per_second)**: 1.408
|
| 69 |
+
- **Перплексия (perplexity)**: 7.1805
|
| 70 |
+
|
| 71 |
+
## Дополнительные настройки
|
| 72 |
+
- **Использование градиентного чекпоинтинга**: Да
|
| 73 |
+
- **Детерминизм обучения**: Выключен
|
| 74 |
+
- **Стратегия планирования LR**: линейная
|
| 75 |
+
- **Распределенное обучение**: False
|
| 76 |
+
- **Точность вычислений**: 16-битное представление (fp16)
|
| 77 |
+
|
| 78 |
+
## Примечания
|
| 79 |
+
При запуске могут возникать предупреждения, связанные с регистрацией CUDA-библиотек (`cuFFT`, `cuDNN`, `cuBLAS`). Эти предупреждения не влияют на корректность работы модели.
|
| 80 |
+
|
| 81 |
+
|
| 82 |
|
| 83 |
# essays
|
| 84 |
|
|
|
|
| 87 |
- Loss: 1.9714
|
| 88 |
- Accuracy: 0.4092
|
| 89 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 90 |
|
| 91 |
### Training hyperparameters
|
| 92 |
|
|
|
|
| 113 |
- Pytorch 2.5.1+cu124
|
| 114 |
- Datasets 3.3.0
|
| 115 |
- Tokenizers 0.21.0
|
| 116 |
+
|
| 117 |
+
|
| 118 |
+
from transformers import GPT2LMHeadModel, GPT2Tokenizer
|
| 119 |
+
|
| 120 |
+
tokenizer = GPT2Tokenizer.from_pretrained("path_to_your_model")
|
| 121 |
+
model = GPT2LMHeadModel.from_pretrained("path_to_your_model")
|
| 122 |
+
|
| 123 |
+
input_text = "The importance of philosophy in daily life"
|
| 124 |
+
inputs = tokenizer(input_text, return_tensors="pt")
|
| 125 |
+
outputs = model.generate(**inputs, max_length=200)
|
| 126 |
+
|
| 127 |
+
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
|
| 128 |
+
|
| 129 |
+
|