Model Card for llm-course-hw2-reward-model

This model is a fine-tuned version of HuggingFaceTB/SmolLM-135M-Instruct on the HumanLLMs/Human-Like-DPO-Dataset dataset. It has been trained using TRL.

Scores for chosen and rejected:

Скоры на нулевом элементе датасета получились следующие: (tensor([11.7557]), tensor([-8.5210]))

Losses

Потери данной модели быстро сходятся к нулю, и поэтому можно её обучение сократить до 0.05-0.1 эпохи (в будещем это помогает изебжать переобучения) При этом разница между chosen и rejected не сильно растёт при увеличении времени обучения.

Downloads last month
3
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for gsemenyak/llm-course-hw2-reward-model

Finetuned
(181)
this model

Dataset used to train gsemenyak/llm-course-hw2-reward-model

Collection including gsemenyak/llm-course-hw2-reward-model