coquiAPI

Sleeping

App Files Files Community

Samit-khedekar commited on Jun 12, 2025

Commit

c8486b0

verified ·

1 Parent(s): 91c3a86

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -17

app.py CHANGED Viewed

@@ -11,9 +11,21 @@ default_models = {
     "YourTTS (Cloning + Multi-speaker)": "tts_models/multilingual/multi-dataset/your_tts",
 }
-# Example speaker IDs for VCTK
 vctk_speakers = ["p225", "p227", "p229", "p230", "p233", "p234", "p236"]
 # Initial model setup
 current_model_key = list(default_models.values())[0]
 tts = TTS(current_model_key, gpu=False)
@@ -21,9 +33,9 @@ tts = TTS(current_model_key, gpu=False)
 def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_path, selected_language):
     global tts, current_model_key
-    # Determine model path
     model_path = custom_model_url if custom_model_url else default_models[selected_model]
     if model_path != current_model_key:
         tts = TTS(model_path, gpu=False)
         current_model_key = model_path
@@ -31,16 +43,29 @@ def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_p
     output_path = "output.wav"
     start_time = time.time()
-    # Text-to-Speech conversion logic
-    if "your_tts" in model_path.lower() and speaker_wav_path:
-        tts.tts_to_file(text=text, speaker_wav=speaker_wav_path, file_path=output_path, language=selected_language.lower())
-        speaker_info = f"WAV Upload: {speaker_wav_path.split('/')[-1]}"
-    elif "vctk" in model_path.lower() and speaker_id and speaker_id != "None":
-        tts.tts_to_file(text=text, speaker=speaker_id, file_path=output_path)
-        speaker_info = speaker_id
-    else:
-        tts.tts_to_file(text=text, file_path=output_path)
-        speaker_info = "Default"
     total_time = time.time() - start_time
     est_duration = len(text.split()) / 2.5
@@ -54,16 +79,16 @@ def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_p
         "speaker_used": speaker_info
     }
-# Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("## 🗣️ TTS App with Model + Speaker Selection + Language + Cloning")
     with gr.Row():
         input_text = gr.Textbox(label="Text", placeholder="Type something...", lines=3)
     with gr.Row():
         language_dropdown = gr.Dropdown(
-            choices=["English", "Hindi", "Japanese", "French", "Spanish"],
             value="English",
             label="Select Language"
         )
@@ -79,7 +104,7 @@ with gr.Blocks() as demo:
         generate_btn = gr.Button("🔊 Generate Speech")
     output_audio = gr.Audio(label="Output Audio", type="filepath")
-    metadata_json = gr.JSON(label="Meta Info (Time, Model, RTF, Language)")
     generate_btn.click(
         fn=synthesize,
@@ -87,5 +112,15 @@ with gr.Blocks() as demo:
         outputs=[output_audio, metadata_json]
     )
-# Enable external access (API access or local LAN sharing)
 demo.launch(share=True, server_name="0.0.0.0", server_port=7860)

     "YourTTS (Cloning + Multi-speaker)": "tts_models/multilingual/multi-dataset/your_tts",
 }
+# Supported speaker IDs for VCTK
 vctk_speakers = ["p225", "p227", "p229", "p230", "p233", "p234", "p236"]
+# Language display name -> model language code
+language_map = {
+    "English": "en",
+    "French": "fr-fr",
+    "Portuguese": "pt-br",
+    "Hindi": "hi",         # Not supported in YourTTS
+    "Japanese": "ja"       # Not supported in YourTTS
+}
+# Supported languages for YourTTS
+yourtts_supported_languages = ["en", "fr-fr", "pt-br"]
 # Initial model setup
 current_model_key = list(default_models.values())[0]
 tts = TTS(current_model_key, gpu=False)
 def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_path, selected_language):
     global tts, current_model_key
     model_path = custom_model_url if custom_model_url else default_models[selected_model]
+    # Load the model only if different from current
     if model_path != current_model_key:
         tts = TTS(model_path, gpu=False)
         current_model_key = model_path
     output_path = "output.wav"
     start_time = time.time()
+    lang_code = language_map.get(selected_language, "en")
+    speaker_info = "Default"
+    try:
+        if "your_tts" in model_path.lower():
+            if lang_code not in yourtts_supported_languages:
+                raise ValueError(f"❌ '{selected_language}' is not supported by YourTTS. Please choose from English, French, or Portuguese.")
+            if not speaker_wav_path:
+                raise ValueError("❌ Speaker WAV file is required for cloning with YourTTS.")
+            tts.tts_to_file(text=text, speaker_wav=speaker_wav_path, file_path=output_path, language=lang_code)
+            speaker_info = f"WAV Upload: {speaker_wav_path.split('/')[-1]}"
+        elif "vctk" in model_path.lower() and speaker_id and speaker_id != "None":
+            tts.tts_to_file(text=text, speaker=speaker_id, file_path=output_path)
+            speaker_info = speaker_id
+        else:
+            tts.tts_to_file(text=text, file_path=output_path)
+    except ValueError as e:
+        return None, {"error": str(e)}
     total_time = time.time() - start_time
     est_duration = len(text.split()) / 2.5
         "speaker_used": speaker_info
     }
+# Gradio UI + API Interface
 with gr.Blocks() as demo:
+    gr.Markdown("## 🗣️ TTS App (Model, Speaker, Language, Cloning, API-ready)")
     with gr.Row():
         input_text = gr.Textbox(label="Text", placeholder="Type something...", lines=3)
     with gr.Row():
         language_dropdown = gr.Dropdown(
+            choices=list(language_map.keys()),
             value="English",
             label="Select Language"
         )
         generate_btn = gr.Button("🔊 Generate Speech")
     output_audio = gr.Audio(label="Output Audio", type="filepath")
+    metadata_json = gr.JSON(label="Meta Info (Time, Model, RTF, Language / Error)")
     generate_btn.click(
         fn=synthesize,
         outputs=[output_audio, metadata_json]
     )
+    # API endpoint setup (backend integration)
+    gr.Markdown("### 🔌 API Endpoint")
+    gr.Interface(
+        fn=synthesize,
+        inputs=[gr.Text(), gr.Text(), gr.Text(), gr.Text(), gr.Audio(type="filepath"), gr.Text()],
+        outputs=[gr.Audio(type="filepath"), gr.JSON()],
+        allow_flagging="never",
+        live=False
+    ).queue().launch(inline=True)
+# Start Gradio server with external access
 demo.launch(share=True, server_name="0.0.0.0", server_port=7860)