mesolitica
/

Malaysian-Qwen2.5-7B-Dialect-Reasoning-GRPO

Model card Files Files and versions

huseinzol05 commited on Jun 4

Commit

2e1d11d

·

verified ·

1 Parent(s): 57b5710

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ Online Reinforcement learning using GRPO full parameter on warmup reasoning SFT
 ## Improvement
-1. Improve reasoning on Dialects, each datapoint been replicated to 12 generations.
 2. Actual online reinforcement learning.
 ## Better performance

 ## Improvement
+1. Improve reasoning on Dialects, each datapoint been replicated to 6 generations.
 2. Actual online reinforcement learning.
 ## Better performance