nvidia
/

parakeet-ctc-0.6b

@@ -18,6 +18,7 @@ datasets:
 - MLCommons/peoples_speech
 thumbnail: null
 tags:
 - automatic-speech-recognition
 - speech
 - audio
@@ -182,6 +183,77 @@ img {
 It is an XL version of FastConformer CTC [1] (around 600M parameters) model.
 See the [model architecture](#model-architecture) section and [NeMo documentation](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/models.html#fast-conformer) for complete architecture details.
 ## NVIDIA NeMo: Training
 To train, fine-tune or play with the model you will need to install [NVIDIA NeMo](https://github.com/NVIDIA/NeMo). We recommend you install it after you've installed latest PyTorch version.

 - MLCommons/peoples_speech
 thumbnail: null
 tags:
+- transformers
 - automatic-speech-recognition
 - speech
 - audio
 It is an XL version of FastConformer CTC [1] (around 600M parameters) model.
 See the [model architecture](#model-architecture) section and [NeMo documentation](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/models.html#fast-conformer) for complete architecture details.
+## Transformers
+You can now run Parakeet CTC natively with [Transformers](https://github.com/huggingface/transformers) 🤗
+```bash
+pip install git+https://github.com/huggingface/transformers
+```
+<details>
+  <summary>➡️ Pipeline usage</summary>
+```python
+from transformers import pipeline
+pipe = pipeline("automatic-speech-recognition", model="nvidia/parakeet-ctc-0.6b")
+out = pipe("https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/bcn_weather.mp3")
+print(out)
+```
+</details>
+<details>
+  <summary>➡️ AutoModel</summary>
+```python
+from transformers import AutoModelForCTC, AutoProcessor
+from datasets import load_dataset, Audio
+import torch
+device = "cuda" if torch.cuda.is_available() else "cpu"
+processor = AutoProcessor.from_pretrained("nvidia/parakeet-ctc-0.6b")
+model = AutoModelForCTC.from_pretrained("nvidia/parakeet-ctc-0.6b", dtype="auto", device_map=device)
+ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
+ds = ds.cast_column("audio", Audio(sampling_rate=processor.feature_extractor.sampling_rate))
+speech_samples = [el['array'] for el in ds["audio"][:5]]
+inputs = processor(speech_samples, sampling_rate=processor.feature_extractor.sampling_rate)
+inputs.to(model.device, dtype=model.dtype)
+outputs = model.generate(**inputs)
+print(processor.batch_decode(outputs))
+```
+</details>
+<details>
+  <summary>➡️ Training</summary>
+```python
+from transformers import AutoModelForCTC, AutoProcessor
+from datasets import load_dataset, Audio
+import torch
+device = "cuda" if torch.cuda.is_available() else "cpu"
+processor = AutoProcessor.from_pretrained("nvidia/parakeet-ctc-0.6b")
+model = AutoModelForCTC.from_pretrained("nvidia/parakeet-ctc-0.6b", dtype="auto", device_map=device)
+ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
+ds = ds.cast_column("audio", Audio(sampling_rate=processor.feature_extractor.sampling_rate))
+speech_samples = [el['array'] for el in ds["audio"][:5]]
+text_samples = [el for el in ds["text"][:5]]
+# passing `text` to the processor will prepare inputs' `labels` key
+inputs = processor(audio=speech_samples, text=text_samples, sampling_rate=processor.feature_extractor.sampling_rate)
+inputs.to(device, dtype=model.dtype)
+outputs = model(**inputs)
+outputs.loss.backward()
+```
+</details>
 ## NVIDIA NeMo: Training
 To train, fine-tune or play with the model you will need to install [NVIDIA NeMo](https://github.com/NVIDIA/NeMo). We recommend you install it after you've installed latest PyTorch version.