hdong0
/

Qwen2.5-Math-1.5B-baseline-Open-R1-GRPO_deepscaler_mu_8_constant_lr

Text Generation

Generated from Trainer

Model card Files Files and versions

Qwen2.5-Math-1.5B-baseline-Open-R1-GRPO_deepscaler_mu_8_constant_lr / config.json

Commit History

End of training

a6a4a74
verified

hdong0 commited on Jul 8

Training in progress, step 50

10d802e
verified

hdong0 commited on Jul 7