coquiAPI

Sleeping

App Files Files Community

Samit-khedekar commited on Jun 11, 2025

Commit

91c3a86

verified ·

1 Parent(s): c30d3ee

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -17

app.py CHANGED Viewed

@@ -6,27 +6,23 @@ import time
 default_models = {
     "FastPitch (Female - LJSpeech)": "tts_models/en/ljspeech/fast_pitch",
     "Glow-TTS (Female - LJSpeech)": "tts_models/en/ljspeech/glow-tts",
-     "Tactron2 (Female- LJSpeaker)": "tts_models/en/ljspeech/tacotron2-DDC",
     "VCTK (Multi-speaker)": "tts_models/en/vctk/vits",
     "YourTTS (Cloning + Multi-speaker)": "tts_models/multilingual/multi-dataset/your_tts",
 }
-# Example speaker IDs (VCTK)
 vctk_speakers = ["p225", "p227", "p229", "p230", "p233", "p234", "p236"]
-# Default state
 current_model_key = list(default_models.values())[0]
 tts = TTS(current_model_key, gpu=False)
-def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_path):
     global tts, current_model_key
-    # Decide model
-    if custom_model_url:
-        model_path = custom_model_url
-    else:
-        model_path = default_models[selected_model]
     if model_path != current_model_key:
         tts = TTS(model_path, gpu=False)
@@ -35,9 +31,9 @@ def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_p
     output_path = "output.wav"
     start_time = time.time()
-    # Handle speaker cloning
     if "your_tts" in model_path.lower() and speaker_wav_path:
-        tts.tts_to_file(text=text, speaker_wav=speaker_wav_path, file_path=output_path)
         speaker_info = f"WAV Upload: {speaker_wav_path.split('/')[-1]}"
     elif "vctk" in model_path.lower() and speaker_id and speaker_id != "None":
         tts.tts_to_file(text=text, speaker=speaker_id, file_path=output_path)
@@ -51,6 +47,7 @@ def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_p
     rtf = round(total_time / est_duration, 3)
     return output_path, {
         "processing_time_sec": round(total_time, 3),
         "real_time_factor": rtf,
         "model_used": model_path,
@@ -59,11 +56,18 @@ def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_p
 # Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("## 🗣️ TTS App with Model + Speaker Selection + Cloning")
     with gr.Row():
         input_text = gr.Textbox(label="Text", placeholder="Type something...", lines=3)
     with gr.Row():
         model_dropdown = gr.Dropdown(choices=list(default_models.keys()), label="Select TTS Model")
         speaker_dropdown = gr.Dropdown(choices=["None"] + vctk_speakers, label="Speaker ID (for VCTK)")
@@ -75,13 +79,13 @@ with gr.Blocks() as demo:
         generate_btn = gr.Button("🔊 Generate Speech")
     output_audio = gr.Audio(label="Output Audio", type="filepath")
-    metadata_json = gr.JSON(label="Meta Info (Time, Model, RTF)")
     generate_btn.click(
         fn=synthesize,
-        inputs=[input_text, model_dropdown, speaker_dropdown, custom_model_box, speaker_wav],
         outputs=[output_audio, metadata_json]
     )
-demo.launch()

 default_models = {
     "FastPitch (Female - LJSpeech)": "tts_models/en/ljspeech/fast_pitch",
     "Glow-TTS (Female - LJSpeech)": "tts_models/en/ljspeech/glow-tts",
+    "Tactron2 (Female - LJSpeaker)": "tts_models/en/ljspeech/tacotron2-DDC",
     "VCTK (Multi-speaker)": "tts_models/en/vctk/vits",
     "YourTTS (Cloning + Multi-speaker)": "tts_models/multilingual/multi-dataset/your_tts",
 }
+# Example speaker IDs for VCTK
 vctk_speakers = ["p225", "p227", "p229", "p230", "p233", "p234", "p236"]
+# Initial model setup
 current_model_key = list(default_models.values())[0]
 tts = TTS(current_model_key, gpu=False)
+def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_path, selected_language):
     global tts, current_model_key
+    # Determine model path
+    model_path = custom_model_url if custom_model_url else default_models[selected_model]
     if model_path != current_model_key:
         tts = TTS(model_path, gpu=False)
     output_path = "output.wav"
     start_time = time.time()
+    # Text-to-Speech conversion logic
     if "your_tts" in model_path.lower() and speaker_wav_path:
+        tts.tts_to_file(text=text, speaker_wav=speaker_wav_path, file_path=output_path, language=selected_language.lower())
         speaker_info = f"WAV Upload: {speaker_wav_path.split('/')[-1]}"
     elif "vctk" in model_path.lower() and speaker_id and speaker_id != "None":
         tts.tts_to_file(text=text, speaker=speaker_id, file_path=output_path)
     rtf = round(total_time / est_duration, 3)
     return output_path, {
+        "language_selected": selected_language,
         "processing_time_sec": round(total_time, 3),
         "real_time_factor": rtf,
         "model_used": model_path,
 # Gradio UI
 with gr.Blocks() as demo:
+    gr.Markdown("## 🗣️ TTS App with Model + Speaker Selection + Language + Cloning")
     with gr.Row():
         input_text = gr.Textbox(label="Text", placeholder="Type something...", lines=3)
+    with gr.Row():
+        language_dropdown = gr.Dropdown(
+            choices=["English", "Hindi", "Japanese", "French", "Spanish"],
+            value="English",
+            label="Select Language"
+        )
     with gr.Row():
         model_dropdown = gr.Dropdown(choices=list(default_models.keys()), label="Select TTS Model")
         speaker_dropdown = gr.Dropdown(choices=["None"] + vctk_speakers, label="Speaker ID (for VCTK)")
         generate_btn = gr.Button("🔊 Generate Speech")
     output_audio = gr.Audio(label="Output Audio", type="filepath")
+    metadata_json = gr.JSON(label="Meta Info (Time, Model, RTF, Language)")
     generate_btn.click(
         fn=synthesize,
+        inputs=[input_text, model_dropdown, speaker_dropdown, custom_model_box, speaker_wav, language_dropdown],
         outputs=[output_audio, metadata_json]
     )
+# Enable external access (API access or local LAN sharing)
+demo.launch(share=True, server_name="0.0.0.0", server_port=7860)