hdong0
/

Qwen2.5-Math-1.5B-baseline-Open-R1-GRPO_deepscaler_mu_8_constant_lr

Text Generation

Generated from Trainer

Model card Files Files and versions

Qwen2.5-Math-1.5B-baseline-Open-R1-GRPO_deepscaler_mu_8_constant_lr / train_results.json

Commit History

Model save

dbeaceb
verified

hdong0 commited on Jul 8