Edit Models filters

Apps

Inference Providers

HF Inference API

Misc

agentica-org/DeepScaleR-Preview-Dataset

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

125

Full-text search

Active filters: agentica-org/DeepScaleR-Preview-Dataset

ZhenghaiXue/Qwen2.5-7B-SimpleTIR

Reinforcement Learning • 8B • Updated Jul 8 • 510 • 1

hdong0/deepseek-Llama-8B-Open-R1-GRPO_deepscaler_acc_mu_8_constant_lr

Text Generation • 8B • Updated Jul 9 • 3

hdong0/Qwen2.5-Math-1.5B-untied-Open-R1-GRPO_deepscaler_mu_8_constant_lr

Text Generation • 2B • Updated Aug 5 • 1

hdong0/Qwen2.5-Math-1.5B-GRPO_deepscaler_temp1_prompt1

Text Generation • 2B • Updated Aug 7 • 1

hdong0/deepseek-Qwen2.5-1.5B-GRPO_deepscaler_temp1_prompt1

Text Generation • 2B • Updated Aug 7 • 1

hdong0/deepseek-Qwen2.5-7B-baseline-thin-Open-R1-GRPO_deepscaler_acc_mu_8_constant_lr

Text Generation • 8B • Updated Aug 10 • 1

amd/Instella-3B-Math

Text Generation • 3B • Updated 4 days ago • 66 • 7

amd/Instella-3B-Math-SFT

Text Generation • 3B • Updated 4 days ago • 54

nvidia/DLER-R1-7B-Research

8B • Updated 24 days ago • 241 • 13

nvidia/DLER-Llama-Nemotron-8B-Merge-Research

8B • Updated 24 days ago • 171 • 11

hdong0/deepseek-Llama-8B-baseline-Open-R1-GRPO_deepscaler_acc_mu_8_constant_lr

Text Generation • 8B • Updated Aug 13 • 1

hdong0/deepseek-Qwen2.5-1.5B-baseline-thin-Open-R1-GRPO_deepscaler_mu_8_constant_lr

Text Generation • 2B • Updated Aug 17 • 1

hdong0/deepseek-Qwen-1.5B-baseline-thin-Open-R1-GRPO_deepscaler_mu_8_constant_lr_warmed

Text Generation • 2B • Updated Aug 19 • 18

hdong0/deepseek-Llama-8B-Open-R1-GRPO_deepscaler_acc_mu_8_constant_lr_no_kl

Text Generation • 8B • Updated Aug 20 • 25

Hsu1023/Qwen2.5-3B-Open-R1-GRPO

Text Generation • Updated Sep 16 • 4

THU-KEG/SIRI-1.5B-low

Text Generation • 2B • Updated Sep 30 • 4 • 2

THU-KEG/SIRI-1.5B-high

Text Generation • 2B • Updated Sep 30 • 3 • 3

THU-KEG/SIRI-7B-low

Text Generation • 8B • Updated Sep 30 • 17 • 2

THU-KEG/SIRI-7B-high

Text Generation • 8B • Updated Sep 30 • 19 • 4

mradermacher/SIRI-1.5B-high-GGUF

Reinforcement Learning • 2B • Updated Sep 27 • 8

mradermacher/SIRI-1.5B-high-i1-GGUF

Reinforcement Learning • 2B • Updated Sep 27 • 169

mradermacher/SIRI-1.5B-low-GGUF

Reinforcement Learning • 2B • Updated Sep 27 • 4

mradermacher/SIRI-7B-low-GGUF

Reinforcement Learning • 8B • Updated Sep 27 • 6

mradermacher/SIRI-7B-high-GGUF

Reinforcement Learning • 8B • Updated Sep 27 • 20

mradermacher/SIRI-7B-low-i1-GGUF

Reinforcement Learning • 8B • Updated Sep 27 • 98

mradermacher/SIRI-1.5B-low-i1-GGUF

Reinforcement Learning • 2B • Updated Sep 27 • 46

mradermacher/SIRI-7B-high-i1-GGUF

Reinforcement Learning • 8B • Updated Sep 27 • 230

haoranhe/ROVER-Qwen3-4B

Text Generation • 4B • Updated Oct 1 • 7

hdong0/deepseek-Qwen-1.5B-Open-R1-GRPO_deepscaler_acc_8196

Text Generation • 2B • Updated Oct 1 • 2

hdong0/deepseek-Qwen-1.5B-Open-R1-GRPO_deepscaler_acc_16384

Text Generation • 2B • Updated Oct 1 • 2