Spaces:

Gamahea
/

lemm-test-100

Running on Zero

Gamahea commited on 9 days ago

Commit

7c2cd8e

1 Parent(s): b8b7922

Fix training error - validate HF datasets are prepared

Files changed (2) hide show

backend/services/dataset_service.py CHANGED Viewed

@@ -189,7 +189,7 @@ class DatasetService:
             # Download dataset
             dataset = load_dataset(**load_params)
-            # Save dataset info
             dataset_info = {
                 'name': config['name'],
                 'type': config['type'],
@@ -199,7 +199,14 @@ class DatasetService:
                 'splits': list(dataset.keys()) if hasattr(dataset, 'keys') else ['default'],
                 'num_examples': {split: len(dataset[split]) for split in dataset.keys()} if hasattr(dataset, 'keys') else len(dataset),
                 'features': str(dataset[list(dataset.keys())[0]].features) if hasattr(dataset, 'keys') else str(dataset.features),
-                'path': str(dataset_dir)
             }
             # Save metadata

             # Download dataset
             dataset = load_dataset(**load_params)
+            # Save dataset info for LoRA training compatibility
             dataset_info = {
                 'name': config['name'],
                 'type': config['type'],
                 'splits': list(dataset.keys()) if hasattr(dataset, 'keys') else ['default'],
                 'num_examples': {split: len(dataset[split]) for split in dataset.keys()} if hasattr(dataset, 'keys') else len(dataset),
                 'features': str(dataset[list(dataset.keys())[0]].features) if hasattr(dataset, 'keys') else str(dataset.features),
+                'path': str(dataset_dir),
+                # Add placeholders for LoRA training service compatibility
+                'train_files': [],
+                'val_files': [],
+                'train_metadata': [],
+                'val_metadata': [],
+                'prepared': False,  # Indicates dataset needs preparation before training
+                'hf_dataset': True  # Flag that this is a HuggingFace dataset
             }
             # Save metadata

backend/services/lora_training_service.py CHANGED Viewed

@@ -262,6 +262,21 @@ class LoRATrainingService:
             if not dataset_info:
                 raise ValueError(f"Dataset not found: {dataset_name}")
             # Default config
             default_config = {
                 'batch_size': 4,

             if not dataset_info:
                 raise ValueError(f"Dataset not found: {dataset_name}")
+            # Check if dataset is from HuggingFace and needs preparation
+            if dataset_info.get('hf_dataset') and not dataset_info.get('prepared'):
+                raise ValueError(
+                    f"Dataset '{dataset_name}' is a HuggingFace dataset that hasn't been prepared for training yet. "
+                    f"Please use the 'User Audio Training' tab to upload and prepare your own audio files, "
+                    f"or wait for dataset preparation features to be implemented."
+                )
+            # Validate dataset has required fields
+            if 'train_files' not in dataset_info or 'val_files' not in dataset_info:
+                raise ValueError(
+                    f"Dataset '{dataset_name}' is missing required training files. "
+                    f"Please use prepared datasets or upload your own audio in the 'User Audio Training' tab."
+                )
             # Default config
             default_config = {
                 'batch_size': 4,