Model Card for llm-course-hw2-reward-model

This model is a fine-tuned version of HuggingFaceTB/SmolLM-135M-Instruct on the HumanLLMs/Human-Like-DPO-Dataset dataset. It has been trained using TRL.

Scores for chosen and rejected:

Скоры на нулевом элементе датасета получились следующие: (tensor([11.7557]), tensor([-8.5210]))

Losses

Потери данной модели быстро сходятся к нулю, и поэтому можно её обучение сократить до 0.05-0.1 эпохи (в будещем это помогает изебжать переобучения) При этом разница между chosen и rejected не сильно растёт при увеличении времени обучения.