Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

audio-text-to-text

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

296

Full-text search

Active filters: audio-text-to-text

stepfun-ai/Step-Audio-R1

Audio-Text-to-Text • 33B • Updated 12 days ago • 590 • 131

google/gemma-3n-E4B-it

Image-Text-to-Text • 8B • Updated Jul 14 • 66.3k • 827

fixie-ai/ultravox-v0_5-llama-3_2-1b

Audio-Text-to-Text • 0.7B • Updated 17 days ago • 425k • 66

Qwen/Qwen2-Audio-7B-Instruct

Audio-Text-to-Text • 8B • Updated Jan 12 • 236k • 501

mistralai/Voxtral-Small-24B-2507

Audio-Text-to-Text • 24B • Updated Jul 28 • 7.68k • 437

ArabicSpeech/Octopus

Audio-Text-to-Text • Updated Nov 8 • 3

nvidia/audio-flamingo-3-hf

Audio-Text-to-Text • 8B • Updated 14 days ago • 11.2k • 134

fixie-ai/ultravox-v0_7-glm-4_6

Audio-Text-to-Text • 0.7B • Updated 5 days ago • 2.73k • 4

NexaAI/OmniAudio-2.6B

Audio-Text-to-Text • 3B • Updated Dec 13, 2024 • 1.28k • 282

SaraAlthubaiti/TinyOctopus

Audio-Text-to-Text • Updated Mar 5 • 10

google/gemma-3n-E4B

Image-Text-to-Text • 8B • Updated Jul 14 • 6.76k • 111

nvidia/music-flamingo-hf

Audio-Text-to-Text • 8B • Updated 9 days ago • 9.23k • 58

Qwen/Qwen2-Audio-7B

Audio-Text-to-Text • 8B • Updated Nov 20, 2024 • 45.7k • 155

NexaAI/Qwen2-Audio-7B-GGUF

Audio-Text-to-Text • 8B • Updated Nov 25, 2024 • 8.38k • 167

nvidia/audio-flamingo-2

Audio-Text-to-Text • Updated Jul 18 • 48

FreedomIntelligence/Soundwave

Audio-Text-to-Text • 9B • Updated Mar 16 • 27 • 14

bartowski/google_gemma-3n-E2B-it-GGUF

Text Generation • 4B • Updated Jun 27 • 2.51k • 11

mlx-community/gemma-3n-E4B-it-lm-bf16

Text Generation • 7B • Updated Jun 29 • 101 • 5

ICTNLP/StreamUni-Phi4

Audio-Text-to-Text • 6B • Updated Jul 14 • 7

nvidia/audio-flamingo-3

Audio-Text-to-Text • Updated 15 days ago • 762 • 136

stduhpf/Voxtral-Small-24B-2507-GGUF

Audio-Text-to-Text • 24B • Updated Jul 28 • 56 • 3

Edge-Quant/gemma-3n-E2B-it-Q4_K_M-GGUF

Image-Text-to-Text • 4B • Updated 14 days ago • 86 • 1

Qwen/Qwen-Audio

Text Generation • 8B • Updated Nov 20, 2024 • 2.88k • 142

Qwen/Qwen-Audio-Chat

Text Generation • 8B • Updated Jan 12 • 1.87k • 94

fixie-ai/ultravox-v0_2

Audio-Text-to-Text • 8B • Updated May 6 • 357 • 51

fixie-ai/ultravox-v0_3

Audio-Text-to-Text • 8B • Updated May 6 • 395 • 17

sarvamai/shuka-1

Audio-Text-to-Text • 9B • Updated Mar 14 • 250 • 75

fixie-ai/ultravox-v0_4

Audio-Text-to-Text • 8B • Updated May 6 • 528 • 49

Menlo/Ichigo-llama3.1-s-base-v0.3

Audio-Text-to-Text • 8B • Updated Nov 19, 2024 • 33 • 4

fixie-ai/ultravox-v0_4-llama-3_1-70b

Audio-Text-to-Text • 50.3M • Updated May 6 • 73 • 4