llm-course-hw2-alignment
Collection
Домашнее задание 2: выравнивание LLM при помощи DPO и PPO
•
3 items
•
Updated
This model is a fine-tuned version of HuggingFaceTB/SmolLM-135M-Instruct on the HumanLLMs/Human-Like-DPO-Dataset dataset. It has been trained using TRL.
Скоры на нулевом элементе датасета получились следующие: (tensor([11.7557]), tensor([-8.5210]))
Потери данной модели быстро сходятся к нулю, и поэтому можно её обучение сократить до 0.05-0.1 эпохи (в будещем это помогает изебжать переобучения) При этом разница между chosen и rejected не сильно растёт при увеличении времени обучения.
Base model
HuggingFaceTB/SmolLM-135M