pyamy
/

llama3-dpo-pairrm

preference-learning

Model card Files Files and versions

Metrics Training metrics Community

llama3-dpo-pairrm / checkpoint-200 /scheduler.pt

Commit History

Upload DPO PairRM fine-tuned model

b4c71a8
verified

pyamy commited on Aug 12

Upload DPO PairRM fine-tuned model

ca53b0b
verified

pyamy commited on Aug 11