FluidInference
/

parakeet-tdt-0.6b-v3-ov

+---
+license: cc-by-4.0
+track_downloads: true
+language:
+- en
+- es
+- fr
+- de
+- bg
+- hr
+- cs
+- da
+- nl
+- et
+- fi
+- el
+- hu
+- it
+- lv
+- lt
+- mt
+- pl
+- pt
+- ro
+- ru
+- sk
+- sl
+- sv
+- uk
+pipeline_tag: automatic-speech-recognition
+library_name: openvino
+datasets:
+- nvidia/Granary
+- nemo/asr-set-3.0
+thumbnail: null
+tags:
+- automatic-speech-recognition
+- speech
+- audio
+- Transducer
+- TDT
+- FastConformer
+- Conformer
+- NeMo
+- OpenVINO
+- Intel NPU
+- hf-asr-leaderboard
+widget:
+- example_title: Librispeech sample 1
+  src: https://cdn-media.huggingface.co/speech_samples/sample1.flac
+- example_title: Librispeech sample 2
+  src: https://cdn-media.huggingface.co/speech_samples/sample2.flac
+base_model:
+- nvidia/parakeet-tdt_1.1b-v3
+---
+# **<span style="color:#5DAF8D">🧃 parakeet-tdt-1.1b-v3: Multilingual Speech-to-Text OpenVINO</span>**
+## Model Details
+- **Architecture**: Parakeet TDT v3 (Token Duration Transducer, 1.1B parameters)
+- **Input audio**: 16 kHz, mono, Float32 PCM in range [-1, 1]
+- **Languages**: 24 European languages (see below)
+- **Precision**: FP16 (CPU/GPU), INT8 (NPU)
+- **Backend**: OpenVINO 2025.x
+## Performance
+### librispeech Benchmark, English
+```
+================================================================================
+BENCHMARK RESULTS
+================================================================================
+   Dataset: librispeech test-clean
+   Model: parakeet-v3
+   Device: NPU
+   Files processed: 2620
+   Average WER: 3.7%
+   Median WER: 0.0%
+   Average CER: 1.9%
+   Median CER: 0.0%
+   Median RTFx: 23.5x
+   Overall RTFx: 25.7x (19452.5s / 756.4s)
+   Benchmark runtime: 789.8s
+   Normalization: OpenAI Whisper English
+================================================================================
+```
+### FLEURS Benchmark (350 samples per 24 languages)
+<details>
+<summary><b>View all 24 languages</b></summary>
+| Language | WER | CER | RTFx |
+|----------|-----|-----|------|
+| Bulgarian (bg_bg) | 16.76% | 4.66% | 41.7× |
+| Finnish (fi_fi) | 16.81% | 3.68% | 41.5× |
+| Romanian (ro_ro) | 17.51% | 5.89% | 38.9× |
+| Croatian (hr_hr) | 17.76% | 5.84% | 41.0× |
+| Czech (cs_cz) | 18.52% | 5.30% | 43.1× |
+| Swedish (sv_se) | 18.88% | 5.64% | 41.5× |
+| Estonian (et_ee) | 20.78% | 4.90% | 43.4× |
+| Hungarian (hu_hu) | 20.74% | 6.39% | 41.1× |
+| Lithuanian (lt_lt) | 24.55% | 6.66% | 40.4× |
+| Danish (da_dk) | 25.44% | 9.31% | 44.1× |
+| Maltese (mt_mt) | 25.29% | 9.17% | 41.3× |
+| Slovenian (sl_si) | 28.06% | 9.42% | 38.7× |
+| Latvian (lv_lv) | 30.64% | 8.09% | 42.6× |
+| Greek (el_gr) | 42.74% | 14.99% | 37.2× |
+**Average**: 16.98% WER, 5.39% CER, 41.1× RTFx
+</details>
+## Usage
+### Installation
+```bash
+git clone https://github.com/FluidInference/eddy.git
+cd eddy
+# Build with vcpkg (handles dependencies)
+cmake -S . -B build -DCMAKE_TOOLCHAIN_FILE=[vcpkg]/scripts/buildsystems/vcpkg.cmake
+cmake --build build --config Release
+```
+Models auto-download on first run. Cache location:
+- **Windows**: `%LOCALAPPDATA%\eddy\models\parakeet-v3\files\`
+- **Linux**: `~/.cache/eddy/models/parakeet-v3/files/`
+### CLI
+```bash
+# CPU inference
+build/examples/cpp/Release/parakeet_cli.exe audio.wav --model parakeet-v3
+# NPU inference (6-10× faster)
+build/examples/cpp/Release/parakeet_cli.exe audio.wav --model parakeet-v3 --device NPU
+# FLEURS benchmark (all 24 languages)
+build/examples/cpp/Release/benchmark_fleurs.exe "%LOCALAPPDATA%\eddy\datasets\FLEURS" --device NPU
+```
+## Supported Languages
+🇮🇹 Italian • 🇪🇸 Spanish • 🇬🇧 English • 🇩🇪 German • 🇫🇷 French • 🇳🇱 Dutch • 🇷🇺 Russian • 🇵🇱 Polish • 🇺🇦 Ukrainian • 🇸🇰 Slovak • 🇧🇬 Bulgarian • 🇫🇮 Finnish • 🇷🇴 Romanian • 🇭🇷 Croatian • 🇨🇿 Czech • 🇸🇪 Swedish • 🇪🇪 Estonian • 🇭🇺 Hungarian • 🇱🇹 Lithuanian • 🇩🇰 Danish • 🇲🇹 Maltese • 🇸🇮 Slovenian • 🇱🇻 Latvian • 🇬🇷 Greek
+## Model Architecture
+4-model FastConformer-RNNT pipeline:
+1. **Mel Spectrogram** (preprocessing)
+   - Converts raw audio → 80 mel-frequency bins
+   - 25ms window, 10ms hop length
+2. **Encoder** (FastConformer)
+   - Processes acoustic features
+   - Outputs embeddings every 80ms
+3. **Decoder** (LSTM)
+   - Prediction network with language model
+   - Maintains state across chunks
+4. **Joint Network**
+   - Combines encoder + decoder outputs
+   - Greedy decoding for token prediction
+**Key Features**:
+- LSTM state continuity across audio chunks
+- Token deduplication via 2D search algorithm
+- Batch chunking: 10s windows with 3s overlap
+- Per-token timestamps (80ms granularity) & confidence scores
+**Recommendation**: Use [V2](https://huggingface.co/FluidInference/parakeet-tdt-0.6b-v2-ov) for English-only applications. Use V3 for multilingual support.
+## Limitations
+- **Language Coverage**: Optimized for 24 European languages; performance may degrade for non-European languages or heavy accents.
+- **Noise Robustness**: Best on clean audio; WER increases with background noise.
+- **Streaming Latency**: ~6 seconds with default buffering (configurable).
+## License
+**CC-BY-4.0** - See [LICENSE](LICENSE) for details.
+## Acknowledgments
+- **Base Model**: NVIDIA NeMo Team for Parakeet TDT architecture
+- **Optimization**: Intel OpenVINO for cross-platform inference
+- **Benchmarks**: Google Research (FLEURS), OpenSLR (LibriSpeech)
+- **Hardware**: Intel Core Ultra NPU acceleration