DmitryYarov commited on
Commit
3b23be6
·
verified ·
1 Parent(s): 3603793

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +80 -13
README.md CHANGED
@@ -13,6 +13,72 @@ model-index:
13
 
14
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
15
  should probably proofread and complete it, then remove this comment. -->
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
16
 
17
  # essays
18
 
@@ -21,19 +87,6 @@ It achieves the following results on the evaluation set:
21
  - Loss: 1.9714
22
  - Accuracy: 0.4092
23
 
24
- ## Model description
25
-
26
- More information needed
27
-
28
- ## Intended uses & limitations
29
-
30
- More information needed
31
-
32
- ## Training and evaluation data
33
-
34
- More information needed
35
-
36
- ## Training procedure
37
 
38
  ### Training hyperparameters
39
 
@@ -60,3 +113,17 @@ The following hyperparameters were used during training:
60
  - Pytorch 2.5.1+cu124
61
  - Datasets 3.3.0
62
  - Tokenizers 0.21.0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
13
 
14
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
15
  should probably proofread and complete it, then remove this comment. -->
16
+ # Модель: Essays Generation (GPT-2 Medium)
17
+
18
+ ## Описание
19
+ Модель основана на GPT-2 Medium и предназначена для генерации эссе с использованием настроек обучения, описанных ниже. Используются текстовые данные, загруженные из кастомной конфигурации.
20
+
21
+ ## Параметры модели
22
+ - **Модель**: GPT-2 Medium
23
+ - **Размер слоя**: 24
24
+ - **Контекстная длина**: 1024 токенов
25
+ - **Размер скрытого слоя**: 1024
26
+ - **Голов на слой**: 16
27
+ - **Объем словаря**: 50257 токенов
28
+ - **Функция активации**: `gelu_new`
29
+
30
+ ## Параметры обучения и оптимизации
31
+ - **Оптимизатор**: AdamW (β1=0.9, β2=0.999, ε=1e-8)
32
+ - **Обучение на устройстве**: `cuda:0`
33
+ - **Количество эпох**: 30
34
+ - **Шагов на прогрев**: 500
35
+ - **Обучение с использованием fp16**: Да
36
+ - **Объем мини-батча на устройство (тренировка/оценка)**: 8
37
+ - **Градиентная аккумуляция**: 8 шагов
38
+ - **Чекпоинты сохранения**: каждые 1000 шагов (максимум 3 чекпоинта)
39
+ - **Стратегия сохранения**: по шагам (steps)
40
+ - **Скорость обучения**: 3e-05
41
+ - **Контроль переполнений**: включен (nan_inf_filter=True)
42
+
43
+ ## Логирование и отчетность
44
+ - **Шаги логирования**: каждые 100
45
+ - **Отчеты**: TensorBoard, WandB
46
+ - **Директория логов**: `models/essays/runs/Feb14_18-50-17_4cf0e8a4721b`
47
+
48
+ ## Данные
49
+ - **Источник данных**: Кастомная конфигурация `default-b280a7a97da73b33`
50
+ - **Формат данных**: текст
51
+
52
+ ## Метрики обучения (Train Metrics)
53
+ - **Эпоха**: 30.0
54
+ - **Общее число FLOPs**: 1037903GF
55
+ - **Средняя потеря (train_loss)**: 2.3499
56
+ - **Время тренировки (train_runtime)**: 0:03:48.80
57
+ - **Количество тренировочных примеров (train_samples)**: 20
58
+ - **Тренировочные примеры в секунду (train_samples_per_second)**: 2.622
59
+ - **Тренировочные шаги в секунду (train_steps_per_second)**: 0.131
60
+
61
+ ## Метрики оценки (Eval Metrics)
62
+ - **Эпоха**: 30.0
63
+ - **Точность (eval_accuracy)**: 0.4092
64
+ - **Потери (eval_loss)**: 1.9714
65
+ - **Время оценки (eval_runtime)**: 0:00:00.71
66
+ - **Количество оценочных примеров (eval_samples)**: 7
67
+ - **Оценочные примеры в секунду (eval_samples_per_second)**: 9.854
68
+ - **Оценочные шаги в секунду (eval_steps_per_second)**: 1.408
69
+ - **Перплексия (perplexity)**: 7.1805
70
+
71
+ ## Дополнительные настройки
72
+ - **Использование градиентного чекпоинтинга**: Да
73
+ - **Детерминизм обучения**: Выключен
74
+ - **Стратегия планирования LR**: линейная
75
+ - **Распределенное обучение**: False
76
+ - **Точность вычислений**: 16-битное представление (fp16)
77
+
78
+ ## Примечания
79
+ При запуске могут возникать предупреждения, связанные с регистрацией CUDA-библиотек (`cuFFT`, `cuDNN`, `cuBLAS`). Эти предупреждения не влияют на корректность работы модели.
80
+
81
+
82
 
83
  # essays
84
 
 
87
  - Loss: 1.9714
88
  - Accuracy: 0.4092
89
 
 
 
 
 
 
 
 
 
 
 
 
 
 
90
 
91
  ### Training hyperparameters
92
 
 
113
  - Pytorch 2.5.1+cu124
114
  - Datasets 3.3.0
115
  - Tokenizers 0.21.0
116
+
117
+
118
+ from transformers import GPT2LMHeadModel, GPT2Tokenizer
119
+
120
+ tokenizer = GPT2Tokenizer.from_pretrained("path_to_your_model")
121
+ model = GPT2LMHeadModel.from_pretrained("path_to_your_model")
122
+
123
+ input_text = "The importance of philosophy in daily life"
124
+ inputs = tokenizer(input_text, return_tensors="pt")
125
+ outputs = model.generate(**inputs, max_length=200)
126
+
127
+ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
128
+
129
+