DmitryYarov
/

aristotle_full

@@ -13,6 +13,72 @@ model-index:
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
 # essays
@@ -21,19 +87,6 @@ It achieves the following results on the evaluation set:
 - Loss: 1.9714
 - Accuracy: 0.4092
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
 ### Training hyperparameters
@@ -60,3 +113,17 @@ The following hyperparameters were used during training:
 - Pytorch 2.5.1+cu124
 - Datasets 3.3.0
 - Tokenizers 0.21.0

 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# Модель: Essays Generation (GPT-2 Medium)
+## Описание
+Модель основана на GPT-2 Medium и предназначена для генерации эссе с использованием настроек обучения, описанных ниже. Используются текстовые данные, загруженные из кастомной конфигурации.
+## Параметры модели
+- **Модель**: GPT-2 Medium
+- **Размер слоя**: 24
+- **Контекстная длина**: 1024 токенов
+- **Размер скрытого слоя**: 1024
+- **Голов на слой**: 16
+- **Объем словаря**: 50257 токенов
+- **Функция активации**: `gelu_new`
+## Параметры обучения и оптимизации
+- **Оптимизатор**: AdamW (β1=0.9, β2=0.999, ε=1e-8)
+- **Обучение на устройстве**: `cuda:0`
+- **Количество эпох**: 30
+- **Шагов на прогрев**: 500
+- **Обучение с использованием fp16**: Да
+- **Объем мини-батча на устройство (тренировка/оценка)**: 8
+- **Градиентная аккумуляция**: 8 шагов
+- **Чекпоинты сохранения**: каждые 1000 шагов (максимум 3 чекпоинта)
+- **Стратегия сохранения**: по шагам (steps)
+- **Скорость обучения**: 3e-05
+- **Контроль переполнений**: включен (nan_inf_filter=True)
+## Логирование и отчетность
+- **Шаги логирования**: каждые 100
+- **Отчеты**: TensorBoard, WandB
+- **Директория логов**: `models/essays/runs/Feb14_18-50-17_4cf0e8a4721b`
+## Данные
+- **Источник данных**: Кастомная конфигурация `default-b280a7a97da73b33`
+- **Формат данных**: текст
+## Метрики обучения (Train Metrics)
+- **Эпоха**: 30.0
+- **Общее число FLOPs**: 1037903GF
+- **Средняя потеря (train_loss)**: 2.3499
+- **Время тренировки (train_runtime)**: 0:03:48.80
+- **Количество тренировочных примеров (train_samples)**: 20
+- **Тренировочные примеры в секунду (train_samples_per_second)**: 2.622
+- **Тренировочные шаги в секунду (train_steps_per_second)**: 0.131
+## Метрики оценки (Eval Metrics)
+- **Эпоха**: 30.0
+- **Точность (eval_accuracy)**: 0.4092
+- **Потери (eval_loss)**: 1.9714
+- **Время оценки (eval_runtime)**: 0:00:00.71
+- **Количество оценочных примеров (eval_samples)**: 7
+- **Оценочные примеры в секунду (eval_samples_per_second)**: 9.854
+- **Оценочные шаги в секунду (eval_steps_per_second)**: 1.408
+- **Перплексия (perplexity)**: 7.1805
+## Дополнительные настройки
+- **Использование градиентного чекпоинтинга**: Да
+- **Детерминизм обучения**: Выключен
+- **Стратегия планирования LR**: линейная
+- **Распределенное обучение**: False
+- **Точность вычислений**: 16-битное представление (fp16)
+## Примечания
+При запуске могут возникать предупреждения, связанные с регистрацией CUDA-библиотек (`cuFFT`, `cuDNN`, `cuBLAS`). Эти предупреждения не влияют на корректность работы модели.
 # essays
 - Loss: 1.9714
 - Accuracy: 0.4092
 ### Training hyperparameters
 - Pytorch 2.5.1+cu124
 - Datasets 3.3.0
 - Tokenizers 0.21.0
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
+tokenizer = GPT2Tokenizer.from_pretrained("path_to_your_model")
+model = GPT2LMHeadModel.from_pretrained("path_to_your_model")
+input_text = "The importance of philosophy in daily life"
+inputs = tokenizer(input_text, return_tensors="pt")
+outputs = model.generate(**inputs, max_length=200)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))