llm-course-hw2-alignment
Collection
Дообучение моделей с помощью DPO и PPO
•
3 items
•
Updated
В этой домашке была обучена Reward model на основе модели SmolLM-135M-Instruct классификации на датасете Human-Like-DPO-Dataset
device = torch.device("cuda")
REWARD_MODEL_REPO_NAME = f"MurDanya/llm-course-hw2-reward-model"
tokenizer = AutoTokenizer.from_pretrained(REWARD_MODEL_REPO_NAME)
reward_model = AutoModelForSequenceClassification.from_pretrained(REWARD_MODEL_REPO_NAME)
Base model
HuggingFaceTB/SmolLM-135M