Audio Multimodal Models - a danielrosehill Collection

danielrosehill 's Collections

Evaluation Datasets

Audio Understanding Datasets

Voxtral Originals (Mistral)

Audio Multimodal Models

My Whisper ACFT Fine Tunes

My Public Audio Datasets

My Whisper Fine-Tunes (V2)

ASR Beyond Whisper

Model Structures

Whisper Hebrish

My-ASR-Finetunes

ASR Benchmarking

Whisper Fine Tunes

API Price Comparisons

Video background removal

Architecture Related Models

STT Fine Tune Resources

Concept Outlines

STT Evaluations

Whisper Base + variants

Whisper variants

Voice Modality Apps

Entertainment Recommendations

Worlds (3D, Games)

Proofs of Concept

Demos

Background Noise Removal

Gemini

Project Indexes

Private Admin UIs

AI UIs

Real Time Video To Video

Voice Enhancement

Context Utilities

Voice Prompting

Veo 3.1

Resume Utilities

Multi LLM Experiments

Geolocation Utilities

Image Generation

Object Detection

Text Processing Utilities

Developer Utilities

Data Visualization

Medical

Hugging Face Utilities

Subtitle generation

Video editing utilities

Audio editing utilities

OSINT

Prompt engineering

Interesting ideas

Data Processing Utilities

Background Removal

Image captioning

Video Generation Quants

TTS With Dialog Support

OCR & Document Processing

Fast video generation

Long speech synthesis

Agentic code generation capable

Browser use capable

Code Generation Models

Video Generation

General LLM Quants

Reasoning Models

Embedding Models

Instructional LLMs

Image Generation Models

Image Generation Quants

LLMs

Local model collection

Vision Language Models

My Image Datasets

Text Transformation

Israel

Reference / Lookup Datasets

Sustainability Projects

Voice Note Audio And Training

Character Creation Datasets

My System Prompt Collections

Israel Photo Galleries

3D Human Digital Humans

QR Art

Generative-AI-Favorites

Single Shot Image To Image (Reference)

Speech To Text (STT)

Text To Speech (TTS)

Image To Video (No Audio)

Music Generation

Image Editing Utilities

Character-Generation

Global Value Factor Database (GVFD) - Visualisation And Data

Text Reformatting Apps

Hebrew AI Spaces

Hebrew datasets

Fav-Code-Generation-Models

Hebrew LLMs & Models

LLM-Experiments

Audio Multimodal Models

updated 3 days ago

Open source models with audio understanding. Tracking mostly vendor releases in the audio and text to text subclassification of multimodal.