Spaces:

Gamahea
/

lemm-test-100

Running on Zero

App Files Files Community

Gamahea commited on 8 days ago

Commit

661fe20

1 Parent(s): 9a8320c

Upgrade to complete datasets with 11TB Pro storage

Browse files

Added: Million Song Dataset, FMA Large, MusicCaps, AudioSet Music, complete NSynth/MAESTRO/Common Voice/LibriSpeech

Files changed (2) hide show

app.py +24 -14
backend/services/dataset_service.py +6 -5

app.py CHANGED Viewed

@@ -889,13 +889,18 @@ def download_prepare_datasets(vocal_datasets, symbolic_datasets):
         dataset_map = {
             # Music datasets
             "GTZAN Music Genre (1000 tracks, 10 genres)": "gtzan",
-            "NSynth Musical Notes (Validation set)": "nsynth_valid",
-            "MAESTRO Piano Performances (subset)": "maestro",
             # Vocal & Sound datasets
-            "LJSpeech (13k vocal clips, single speaker)": "ljspeech",
-            "Common Voice English (diverse speakers)": "common_voice_en",
-            "ESC-50 Environmental Sounds (2000 samples)": "esc50",
-            "Google Speech Commands (short words)": "speech_commands"
         }
         status_messages = []
@@ -1565,24 +1570,29 @@ with gr.Blocks(
                         vocal_datasets = gr.CheckboxGroup(
                             choices=[
                                 "GTZAN Music Genre (1000 tracks, 10 genres)",
-                                "NSynth Musical Notes (Validation set)",
-                                "MAESTRO Piano Performances (subset)"
                             ],
                             label="Select Music Datasets",
-                            info="Music and instrument datasets for style learning"
                         )
                     with gr.Column():
                         gr.Markdown("**Vocal & Sound Datasets**")
                         symbolic_datasets = gr.CheckboxGroup(
                             choices=[
-                                "LJSpeech (13k vocal clips, single speaker)",
-                                "Common Voice English (diverse speakers)",
-                                "ESC-50 Environmental Sounds (2000 samples)",
-                                "Google Speech Commands (short words)"
                             ],
                             label="Select Vocal/Sound Datasets",
-                            info="Vocal and sound effect datasets"
                         )
                 dataset_download_btn = gr.Button("📥 Download & Prepare Datasets", variant="secondary")

         dataset_map = {
             # Music datasets
             "GTZAN Music Genre (1000 tracks, 10 genres)": "gtzan",
+            "NSynth Complete (300k+ musical notes)": "nsynth",
+            "MAESTRO Piano Performances (complete)": "maestro",
+            "Million Song Dataset (10k subset)": "million_song",
+            "Free Music Archive Large (106k tracks)": "fma_large",
+            "MusicCaps (5.5k clips with descriptions)": "musiccaps",
+            "AudioSet Music (labeled audio events)": "audioset_music",
             # Vocal & Sound datasets
+            "LJSpeech (13k vocal clips)": "ljspeech",
+            "Common Voice English (complete)": "common_voice_en",
+            "LibriSpeech Complete (1000 hours)": "librispeech",
+            "ESC-50 Environmental Sounds": "esc50",
+            "Google Speech Commands": "speech_commands"
         }
         status_messages = []
                         vocal_datasets = gr.CheckboxGroup(
                             choices=[
                                 "GTZAN Music Genre (1000 tracks, 10 genres)",
+                                "NSynth Complete (300k+ musical notes)",
+                                "MAESTRO Piano Performances (complete)",
+                                "Million Song Dataset (10k subset)",
+                                "Free Music Archive Large (106k tracks)",
+                                "MusicCaps (5.5k clips with descriptions)",
+                                "AudioSet Music (labeled audio events)"
                             ],
                             label="Select Music Datasets",
+                            info="Comprehensive music datasets for training (11TB storage available)"
                         )
                     with gr.Column():
                         gr.Markdown("**Vocal & Sound Datasets**")
                         symbolic_datasets = gr.CheckboxGroup(
                             choices=[
+                                "LJSpeech (13k vocal clips)",
+                                "Common Voice English (complete)",
+                                "LibriSpeech Complete (1000 hours)",
+                                "ESC-50 Environmental Sounds",
+                                "Google Speech Commands"
                             ],
                             label="Select Vocal/Sound Datasets",
+                            info="Complete vocal and sound datasets"
                         )
                 dataset_download_btn = gr.Button("📥 Download & Prepare Datasets", variant="secondary")

backend/services/dataset_service.py CHANGED Viewed

@@ -130,12 +130,13 @@ class DatasetService:
             if progress_callback:
                 progress_callback(f"📦 Starting download: {dataset_name}")
-                # Warn about dataset size
                 size_gb = dataset_config.get('size_gb', 0)
-                if size_gb > 1.0:
-                    progress_callback(f"⚠️  WARNING: Dataset size is {size_gb:.1f} GB")
-                    progress_callback(f"   This exceeds the 1 GB HuggingFace Space limit!")
-                    progress_callback(f"   Download may fail or fill storage completely.")
                 else:
                     progress_callback(f"ℹ️  Dataset size: ~{size_gb:.1f} GB")

             if progress_callback:
                 progress_callback(f"📦 Starting download: {dataset_name}")
+                # Show dataset size info
                 size_gb = dataset_config.get('size_gb', 0)
+                if size_gb > 100.0:
+                    progress_callback(f"⚠️  Large dataset: {size_gb:.1f} GB")
+                    progress_callback(f"   This may take significant time to download.")
+                elif size_gb > 10.0:
+                    progress_callback(f"ℹ️  Dataset size: ~{size_gb:.1f} GB (may take a few minutes)")
                 else:
                     progress_callback(f"ℹ️  Dataset size: ~{size_gb:.1f} GB")