coquiAPI

Sleeping

App Files Files Community

anuj-exe commited on Oct 7

Commit

0d474f0

verified ·

1 Parent(s): fed065a

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -90

app.py CHANGED Viewed

@@ -2,69 +2,27 @@ import gradio as gr
 from TTS.api import TTS
 import time
-# Available models
-default_models = {
-    "FastPitch (Female - LJSpeech)": "tts_models/en/ljspeech/fast_pitch",
-    "Glow-TTS (Female - LJSpeech)": "tts_models/en/ljspeech/glow-tts",
-    "Tactron2 (Female - LJSpeaker)": "tts_models/en/ljspeech/tacotron2-DDC",
-    "VCTK (Multi-speaker)": "tts_models/en/vctk/vits",
-    "YourTTS (Cloning + Multi-speaker)": "tts_models/multilingual/multi-dataset/your_tts",
-}
-# Supported speaker IDs for VCTK
-vctk_speakers = ["p225", "p227", "p229", "p230", "p233", "p234", "p236"]
-# Language display name -> model language code
-language_map = {
-    "English": "en",
-    "French": "fr-fr",
-    "Portuguese": "pt-br",
-    "Hindi": "hi",         # Not supported in YourTTS
-    "Japanese": "ja"       # Not supported in YourTTS
-}
-# Supported languages for YourTTS
-yourtts_supported_languages = ["en", "fr-fr", "pt-br"]
-# Initial model setup
-current_model_key = list(default_models.values())[0]
-tts = TTS(current_model_key, gpu=False)
-def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_path, selected_language):
-    global tts, current_model_key
-    model_path = custom_model_url if custom_model_url else default_models[selected_model]
-    # Load the model only if different from current
-    if model_path != current_model_key:
-        tts = TTS(model_path, gpu=False)
-        current_model_key = model_path
     output_path = "output.wav"
     start_time = time.time()
-    lang_code = language_map.get(selected_language, "en")
-    speaker_info = "Default"
     try:
-        if "your_tts" in model_path.lower():
-            if lang_code not in yourtts_supported_languages:
-                raise ValueError(f"❌ '{selected_language}' is not supported by YourTTS. Please choose from English, French, or Portuguese.")
-            if not speaker_wav_path:
-                raise ValueError("❌ Speaker WAV file is required for cloning with YourTTS.")
-            tts.tts_to_file(text=text, speaker_wav=speaker_wav_path, file_path=output_path, language=lang_code)
-            speaker_info = f"WAV Upload: {speaker_wav_path.split('/')[-1]}"
-        elif "vctk" in model_path.lower() and speaker_id and speaker_id != "None":
-            tts.tts_to_file(text=text, speaker=speaker_id, file_path=output_path)
-            speaker_info = speaker_id
-        else:
-            tts.tts_to_file(text=text, file_path=output_path)
-    except ValueError as e:
         return None, {"error": str(e)}
     total_time = time.time() - start_time
@@ -72,63 +30,50 @@ def synthesize(text, selected_model, speaker_id, custom_model_url, speaker_wav_p
     rtf = round(total_time / est_duration, 3)
     return output_path, {
-        "language_selected": selected_language,
         "processing_time_sec": round(total_time, 3),
         "real_time_factor": rtf,
-        "model_used": model_path,
-        "speaker_used": speaker_info
     }
 # Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("## 🗣️ TTS App (Model, Speaker, Language, Cloning, API-ready)")
-    with gr.Row():
-        input_text = gr.Textbox(label="Text", placeholder="Type something...", lines=3)
-    with gr.Row():
-        language_dropdown = gr.Dropdown(
-            choices=list(language_map.keys()),
-            value="English",
-            label="Select Language"
-        )
-    with gr.Row():
-        model_dropdown = gr.Dropdown(choices=list(default_models.keys()), label="Select TTS Model")
-        speaker_dropdown = gr.Dropdown(choices=["None"] + vctk_speakers, label="Speaker ID (for VCTK)")
-    custom_model_box = gr.Textbox(label="Custom Model URL or Path (optional)")
-    speaker_wav = gr.Audio(label="Upload Speaker Voice (WAV, 5–10s)", type="filepath")
-    with gr.Row():
-        generate_btn = gr.Button("🔊 Generate Speech")
     output_audio = gr.Audio(label="Output Audio", type="filepath")
-    metadata_json = gr.JSON(label="Meta Info (Time, Model, RTF, Language / Error)")
     generate_btn.click(
         fn=synthesize,
-        inputs=[input_text, model_dropdown, speaker_dropdown, custom_model_box, speaker_wav, language_dropdown],
         outputs=[output_audio, metadata_json]
     )
-    gr.Markdown("### 🔌 API Access Available")
-# API Interface
 api = gr.Interface(
     fn=synthesize,
     inputs=[
-        gr.Text(),  # text
-        gr.Text(),  # model
-        gr.Text(),  # speaker id
-        gr.Text(),  # custom model url
-        gr.Audio(type="filepath"),  # speaker wav
-        gr.Text()   # language
     ],
     outputs=[gr.Audio(type="filepath"), gr.JSON()],
 )
-# Launch both
 demo.queue()
 api.queue()
-demo.launch()

 from TTS.api import TTS
 import time
+# Fixed model (YourTTS in English)
+YOURTTS_MODEL = "tts_models/multilingual/multi-dataset/your_tts"
+# Initialize model once
+tts = TTS(YOURTTS_MODEL, gpu=False)
+def synthesize(text, speaker_wav_path):
     output_path = "output.wav"
     start_time = time.time()
+    if not speaker_wav_path:
+        return None, {"error": "❌ Please upload a speaker WAV file for cloning."}
     try:
+        tts.tts_to_file(
+            text=text,
+            speaker_wav=speaker_wav_path,
+            file_path=output_path,
+            language="en"
+        )
+    except Exception as e:
         return None, {"error": str(e)}
     total_time = time.time() - start_time
     rtf = round(total_time / est_duration, 3)
     return output_path, {
+        "language": "English",
         "processing_time_sec": round(total_time, 3),
         "real_time_factor": rtf,
+        "model_used": YOURTTS_MODEL,
+        "speaker_used": speaker_wav_path.split("/")[-1]
     }
 # Gradio UI
 with gr.Blocks() as demo:
+    gr.Markdown("## 🗣️ YourTTS Voice Cloning (English Only)")
+    input_text = gr.Textbox(
+        label="Text",
+        placeholder="Type something to synthesize...",
+        lines=3
+    )
+    speaker_wav = gr.Audio(
+        label="Upload Speaker Voice (WAV, 5–10s)",
+        type="filepath"
+    )
+    generate_btn = gr.Button("🔊 Generate Speech")
     output_audio = gr.Audio(label="Output Audio", type="filepath")
+    metadata_json = gr.JSON(label="Meta Info (Time, Model, RTF, etc.)")
     generate_btn.click(
         fn=synthesize,
+        inputs=[input_text, speaker_wav],
         outputs=[output_audio, metadata_json]
     )
+# API interface (English only)
 api = gr.Interface(
     fn=synthesize,
     inputs=[
+        gr.Text(),                # text
+        gr.Audio(type="filepath") # speaker wav
     ],
     outputs=[gr.Audio(type="filepath"), gr.JSON()],
 )
+# Launch app
 demo.queue()
 api.queue()
+demo.launch()