mesolitica
/

Malaysian-Qwen2.5-7B-Dialect-Reasoning-GRPO

Model card Files Files and versions

huseinzol05 commited on May 29

Commit

57b5710

·

verified ·

1 Parent(s): b5afa92

Update README.md

Files changed (1) hide show

README.md +4 -0

README.md CHANGED Viewed

@@ -17,6 +17,10 @@ Online Reinforcement learning using GRPO full parameter on warmup reasoning SFT
 1. Improve reasoning on Dialects, each datapoint been replicated to 12 generations.
 2. Actual online reinforcement learning.
 ## Training session
 Finetune on [huseinzol05/malaysian-dialect-qa](https://huggingface.co/datasets/huseinzol05/malaysian-dialect-qa), this is train set from [mesolitica/Malay-Dialect-Reasoning](https://huggingface.co/datasets/mesolitica/Malay-Dialect-Reasoning).

 1. Improve reasoning on Dialects, each datapoint been replicated to 12 generations.
 2. Actual online reinforcement learning.
+## Better performance
+To get better performance, use system prompt `You are going to enter reasoning mode. First, you try to think step-by-step in Malay. After that, put your final answer within $\\boxed{}$.`, you can check how we trained it at https://github.com/mesolitica/malaya/blob/master/session/qwen2.5/grpo.py#L80
 ## Training session
 Finetune on [huseinzol05/malaysian-dialect-qa](https://huggingface.co/datasets/huseinzol05/malaysian-dialect-qa), this is train set from [mesolitica/Malay-Dialect-Reasoning](https://huggingface.co/datasets/mesolitica/Malay-Dialect-Reasoning).