DPO-RM
/

Qwen2.5-Math-1.5B-prime-no_logSoftmax_refRM-beta1-eurus_rl_15k-step110-reward

Model card Files Files and versions

Qwen2.5-Math-1.5B-prime-no_logSoftmax_refRM-beta1-eurus_rl_15k-step110-reward / vocab.json

FlippyDora's picture

Add files using upload-large-folder tool

b7e7e91 verified 7 months ago

history contribute delete

2.78 MB

File too large to display, you can check the raw version instead.