kevinpro
/

R-PRM-7B-DPO

Text Generation

reinforcement-learning

Model card Files Files and versions

kevinpro commited on Mar 28

Commit

acd3d88

·

verified ·

1 Parent(s): 926beb4

Upload README.md with huggingface_hub

Files changed (1) hide show

README.md +11 -0

README.md CHANGED Viewed

@@ -1,3 +1,14 @@
 # R-PRM: Reasoning-Driven Process Reward Modeling
 <p align="center">

+---
+license: apache-2.0
+language: zh
+tags:
+  - reinforcement-learning
+  - reward-model
+  - dpo
+model_name: R-PRM-7B-DPO
+pipeline_tag: text-generation
+---
 # R-PRM: Reasoning-Driven Process Reward Modeling
 <p align="center">