Edit Models filters

Apps

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

HumanLLMs/Human-Like-DPO-Dataset

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

244

Full-text search

Active filters: HumanLLMs/Human-Like-DPO-Dataset

shlapique/llm-course-hw2-reward-model

Text Classification • 0.1B • Updated Apr 27 • 1

thexdk/trainer_output

Text Classification • 0.1B • Updated Apr 28

Bruce1489/Llama-3.2-1B-Instruct-DPO-v1

Text Generation • 1B • Updated Jun 29 • 3

Josh1207/TinyLlama-1.1B-DPO-HumanLike

1B • Updated Aug 5 • 4

Goshik1/trainer_output

Text Classification • 0.1B • Updated Aug 26

mradermacher/TinyLlama-1.1B-DPO-HumanLike-GGUF

1B • Updated Sep 8 • 35

HYDARIM7/SmolLM2_RLHF_PPO_HY

Reinforcement Learning • 0.1B • Updated Sep 21 • 3

entfane/BERT_human_like_RM

Text Classification • 0.1B • Updated 25 days ago • 32

mradermacher/Human-Like-DPO-Qwen3-4B-Instruct-2507-GGUF

4B • Updated 23 days ago • 224

mradermacher/Human-Like-DPO-Qwen3-4B-Instruct-2507-i1-GGUF

4B • Updated 23 days ago • 414

tsmatz/SmolLM2-Instruct-135M-Humanity-RLHF

Text Generation • 0.1B • Updated 10 days ago • 106

mibochkov/reward_model_output

Text Classification • 0.1B • Updated 4 days ago • 33

Johnice/dpo-qwen2-humanlike-best

Text Generation • 0.5B • Updated 12 days ago • 31

missarina/trainer_output

Text Classification • 0.1B • Updated 11 days ago • 11

01eg0/trainer_output

Text Classification • 0.1B • Updated 10 days ago • 13

01eg0/llm-course-hw2-reward-model

Text Classification • 0.1B • Updated 10 days ago • 7

karanny/reward-model-checkpoints

Text Classification • 0.1B • Updated 8 days ago • 31

sodeniZz/llm-course-hw2-dpo

Text Generation • 0.1B • Updated 4 days ago • 60

bod9/trainer_output

Text Classification • 0.1B • Updated 6 days ago • 39

LIQUIDHORSE/llm-course-hw2-reward-model

Text Classification • 0.1B • Updated 5 days ago • 22

gr1tsaenko/trainer_output

Text Classification • 0.1B • Updated 5 days ago • 57

veraslip/trainer_output

Text Classification • 0.1B • Updated 4 days ago • 77

pavlov-erg/llm-course-hw2-reward-model

Text Classification • 0.1B • Updated 4 days ago • 47

dkhhhug/trainer_output

Text Classification • 0.1B • Updated 4 days ago • 13

NickVolya/trainer_output

Text Classification • 0.1B • Updated 4 days ago • 10

nerhneiro/trainer_output

Text Classification • 0.1B • Updated 3 days ago • 15

UlCorn/trainer_output

Text Classification • 0.1B • Updated 3 days ago • 46

estepr/trainer_output

Text Classification • 0.1B • Updated 3 days ago • 9

DanBel1kov/trainer_output

Text Classification • 0.1B • Updated 3 days ago • 41

semeka/llm-course-hw2-reward-model

Text Classification • 0.1B • Updated 3 days ago • 30