VoxFactory-RealTime

Sleeping

App Files Files Community

Joseph Pollack commited on 13 days ago

Commit

617401b

unverified ·

1 Parent(s): 0c53915

update for realtime

Browse files

Files changed (2) hide show

scripts/train.py +14 -1
scripts/train_lora.py +15 -0

scripts/train.py CHANGED Viewed

@@ -29,6 +29,7 @@ from typing import Tuple, Optional
 import torch
 from datasets import load_dataset, Audio, Dataset
 from transformers import (
     VoxtralForConditionalGeneration,
     VoxtralProcessor,
     Trainer,
@@ -254,7 +255,7 @@ def main():
     parser.add_argument("--dataset-config", type=str, default=None, help="HF dataset config/subset")
     parser.add_argument("--train-count", type=int, default=100, help="Number of training samples to use")
     parser.add_argument("--eval-count", type=int, default=50, help="Number of eval samples to use")
-    parser.add_argument("--model-checkpoint", type=str, default="mistralai/Voxtral-Mini-4B-Realtime-2602")
     parser.add_argument("--output-dir", type=str, default="./voxtral-finetuned")
     parser.add_argument("--batch-size", type=int, default=2)
     parser.add_argument("--eval-batch-size", type=int, default=4)
@@ -359,6 +360,18 @@ def main():
             print("⚠️ Training will continue without experiment tracking")
     print("Loading processor and model...")
     processor = VoxtralProcessor.from_pretrained(model_checkpoint)
     model = VoxtralForConditionalGeneration.from_pretrained(
         model_checkpoint,

 import torch
 from datasets import load_dataset, Audio, Dataset
 from transformers import (
+    AutoConfig,
     VoxtralForConditionalGeneration,
     VoxtralProcessor,
     Trainer,
     parser.add_argument("--dataset-config", type=str, default=None, help="HF dataset config/subset")
     parser.add_argument("--train-count", type=int, default=100, help="Number of training samples to use")
     parser.add_argument("--eval-count", type=int, default=50, help="Number of eval samples to use")
+    parser.add_argument("--model-checkpoint", type=str, default="mistralai/Voxtral-Mini-3B-2507")
     parser.add_argument("--output-dir", type=str, default="./voxtral-finetuned")
     parser.add_argument("--batch-size", type=int, default=2)
     parser.add_argument("--eval-batch-size", type=int, default=4)
             print("⚠️ Training will continue without experiment tracking")
     print("Loading processor and model...")
+    # Full fine-tuning supports only the non-Realtime Voxtral (VoxtralForConditionalGeneration).
+    # Voxtral Realtime uses a different architecture and is not supported by this script yet.
+    try:
+        config = AutoConfig.from_pretrained(model_checkpoint)
+    except Exception:
+        config = None
+    if getattr(config, "model_type", None) == "voxtral_realtime":
+        raise ValueError(
+            "Full fine-tuning does not support Voxtral Realtime checkpoints (model_type=voxtral_realtime). "
+            "Use the non-Realtime Voxtral model, e.g.:\n"
+            "  --model-checkpoint mistralai/Voxtral-Mini-3B-2507"
+        )
     processor = VoxtralProcessor.from_pretrained(model_checkpoint)
     model = VoxtralForConditionalGeneration.from_pretrained(
         model_checkpoint,

scripts/train_lora.py CHANGED Viewed

@@ -31,6 +31,7 @@ from typing import Tuple, Optional
 import torch
 from datasets import load_dataset, Audio, Dataset
 from transformers import (
     VoxtralForConditionalGeneration,
     VoxtralProcessor,
     Trainer,
@@ -375,6 +376,20 @@ def main():
             print("⚠️ Training will continue without experiment tracking")
     print("Loading processor and model...")
     processor = VoxtralProcessor.from_pretrained(model_checkpoint)
     lora_cfg = LoraConfig(
         r=args.lora_r,

 import torch
 from datasets import load_dataset, Audio, Dataset
 from transformers import (
+    AutoConfig,
     VoxtralForConditionalGeneration,
     VoxtralProcessor,
     Trainer,
             print("⚠️ Training will continue without experiment tracking")
     print("Loading processor and model...")
+    # LoRA training supports only the non-Realtime Voxtral (e.g. Voxtral-Mini-3B-2507).
+    # Voxtral Realtime (e.g. Voxtral-Mini-4B-Realtime-2602) uses a different config and
+    # is not compatible with VoxtralForConditionalGeneration.
+    try:
+        config = AutoConfig.from_pretrained(model_checkpoint)
+    except Exception:
+        config = None
+    if getattr(config, "model_type", None) == "voxtral_realtime":
+        raise ValueError(
+            "LoRA training does not support Voxtral Realtime checkpoints (model_type=voxtral_realtime). "
+            "Use the non-Realtime Voxtral model for LoRA, e.g.:\n"
+            "  --model-checkpoint mistralai/Voxtral-Mini-3B-2507\n"
+            "For full fine-tuning of the Realtime model, use scripts/train.py instead."
+        )
     processor = VoxtralProcessor.from_pretrained(model_checkpoint)
     lora_cfg = LoraConfig(
         r=args.lora_r,