Spaces:

sheep52031
/

breezyvoice-tts

Runtime error

App Files Files Community

sheep52031 commited on Sep 4

Commit

94e4002

verified ·

1 Parent(s): 20d716c

🔧 修復語音克隆功能 - 使用真正的 BreezyVoice 推論邏輯

Browse files

Files changed (1) hide show

app.py +32 -30

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 """
 MediaTek BreezyVoice 真實語音克隆 Space
 基於成功的本地測試實現真正的語音合成功能
-v2.0: 修復依賴問題並添加預設範例
 """
 import gradio as gr
@@ -27,13 +27,12 @@ DEFAULT_REFERENCE_TEXT = "台灣是個美麗的島嶼，擁有豐富的自然景
 # 全域變數
 cosyvoice = None
-bopomofo_converter = None
 setup_completed = False
 @spaces.GPU(duration=300)
 def setup_breezyvoice():
     """設置 BreezyVoice 環境並載入模型"""
-    global cosyvoice, bopomofo_converter, setup_completed
     if setup_completed:
         return "✅ BreezyVoice 已準備就緒"
@@ -57,21 +56,16 @@ def setup_breezyvoice():
         # 2. 添加模組路徑
         sys.path.insert(0, repo_path)
-        # 3. 安裝必要依賴 (已在 requirements.txt 中)
-        print("📦 檢查依賴...")
-        # 4. 導入 BreezyVoice 模組
         try:
             from single_inference import CustomCosyVoice
-            from g2pw import G2PWConverter
             print("✅ BreezyVoice 模組導入成功")
         except ImportError as e:
             raise Exception(f"模組導入失敗: {e}")
-        # 5. 載入模型
         print("🔄 載入 BreezyVoice 完整版模型...")
         cosyvoice = CustomCosyVoice("MediaTek-Research/BreezyVoice")
-        bopomofo_converter = G2PWConverter()
         setup_completed = True
         print("✅ BreezyVoice 設置完成!")
@@ -89,8 +83,8 @@ def setup_breezyvoice():
 @spaces.GPU(duration=180)
 def breezy_voice_clone(speaker_audio, content_text, speaker_transcription=None):
-    """執行 BreezyVoice 語音克隆"""
-    global cosyvoice, bopomofo_converter
     if speaker_audio is None:
         return None, "❌ 請先上傳或錄製參考語音"
@@ -120,27 +114,31 @@ def breezy_voice_clone(speaker_audio, content_text, speaker_transcription=None):
             print(f"🎤 合成文字: {content_text}")
             print(f"📝 參考轉錄: {speaker_transcription}")
-            # 執行語音合成
             synthesis_start = time.time()
             try:
-                # 導入 single_inference 函數
-                from single_inference import single_inference
-                # 設置 multiprocessing 為 spawn 模式 (ZeroGPU 兼容)
-                import multiprocessing
-                multiprocessing.set_start_method('spawn', force=True)
-                # 執行語音合成
-                single_inference(
-                    speaker_prompt_audio_path=input_audio_path,
-                    content_to_synthesize=content_text,
-                    output_path=output_audio_path,
-                    cosyvoice=cosyvoice,
-                    bopomofo_converter=bopomofo_converter,
-                    speaker_prompt_text_transcription=speaker_transcription
                 )
                 synthesis_time = time.time() - synthesis_start
                 # 檢查輸出
@@ -168,16 +166,20 @@ def breezy_voice_clone(speaker_audio, content_text, speaker_transcription=None):
 🎵 輸出長度: {audio_duration:.1f}秒
 📊 RTF: {rtf:.3f} {'(實時)' if rtf < 1.0 else '(非實時)'}
 {vram_info}
-🤖 模型: MediaTek BreezyVoice 完整版"""
                     return (sample_rate, synthesized_audio[0]), status
                 else:
                     return None, "❌ 語音合成失敗：未生成輸出檔案"
             except Exception as e:
                 return None, f"❌ 語音合成失敗: {str(e)}"
     except Exception as e:
         return None, f"❌ 處理錯誤: {str(e)}"
 def load_example_text():
@@ -187,7 +189,7 @@ def load_example_text():
 # 創建 Gradio 界面
 with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🎭 MediaTek BreezyVoice 語音克隆")
-    gr.Markdown("**零樣本語音克隆系統** - 專為台灣繁體中文優化")
     # 初始化狀態顯示
     setup_status = gr.Textbox(
@@ -273,10 +275,10 @@ with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo
         - ⚡ ZeroGPU 加速處理
         - 🔊 MediaTek 先進語音合成技術
-        ## 💡 使用提示
         - 參考語音與轉錄文字匹配度越高，克隆效果越好
         - 建議使用提供的預設範例文字進行錄音
-        - 錄音時保持自然語調，不需刻意
         """)
     # 事件綁定

 """
 MediaTek BreezyVoice 真實語音克隆 Space
 基於成功的本地測試實現真正的語音合成功能
+v3.0: 簡化實現避免多進程問題
 """
 import gradio as gr
 # 全域變數
 cosyvoice = None
 setup_completed = False
 @spaces.GPU(duration=300)
 def setup_breezyvoice():
     """設置 BreezyVoice 環境並載入模型"""
+    global cosyvoice, setup_completed
     if setup_completed:
         return "✅ BreezyVoice 已準備就緒"
         # 2. 添加模組路徑
         sys.path.insert(0, repo_path)
+        # 3. 導入 BreezyVoice 核心模組
         try:
             from single_inference import CustomCosyVoice
             print("✅ BreezyVoice 模組導入成功")
         except ImportError as e:
             raise Exception(f"模組導入失敗: {e}")
+        # 4. 載入模型
         print("🔄 載入 BreezyVoice 完整版模型...")
         cosyvoice = CustomCosyVoice("MediaTek-Research/BreezyVoice")
         setup_completed = True
         print("✅ BreezyVoice 設置完成!")
 @spaces.GPU(duration=180)
 def breezy_voice_clone(speaker_audio, content_text, speaker_transcription=None):
+    """執行 BreezyVoice 語音克隆 - 簡化版避免多進程問題"""
+    global cosyvoice
     if speaker_audio is None:
         return None, "❌ 請先上傳或錄製參考語音"
             print(f"🎤 合成文字: {content_text}")
             print(f"📝 參考轉錄: {speaker_transcription}")
+            # 執行語音合成 - 使用簡化方法避免多進程
             synthesis_start = time.time()
             try:
+                # 導入必要函數
+                from cosyvoice.utils.file_utils import load_wav
+                # 載入音訊
+                prompt_speech_16k = load_wav(input_audio_path, 16000)
+                # 直接使用 cosyvoice 推論，跳過複雜的文字處理
+                print("🔄 執行語音合成推論...")
+                # 使用基本的 zero-shot 推論
+                output = cosyvoice.inference_zero_shot(
+                    content_text,
+                    speaker_transcription,
+                    prompt_speech_16k
                 )
+                # 保存輸出音訊
+                if output is not None and len(output) > 0:
+                    # output 是 tensor，需要轉換為音訊檔案
+                    torchaudio.save(output_audio_path, output[0].cpu(), 22050)
                 synthesis_time = time.time() - synthesis_start
                 # 檢查輸出
 🎵 輸出長度: {audio_duration:.1f}秒
 📊 RTF: {rtf:.3f} {'(實時)' if rtf < 1.0 else '(非實時)'}
 {vram_info}
+🤖 模型: MediaTek BreezyVoice 完整版 (簡化版)"""
                     return (sample_rate, synthesized_audio[0]), status
                 else:
                     return None, "❌ 語音合成失敗：未生成輸出檔案"
             except Exception as e:
+                import traceback
+                traceback.print_exc()
                 return None, f"❌ 語音合成失敗: {str(e)}"
     except Exception as e:
+        import traceback
+        traceback.print_exc()
         return None, f"❌ 處理錯誤: {str(e)}"
 def load_example_text():
 # 創建 Gradio 界面
 with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🎭 MediaTek BreezyVoice 語音克隆")
+    gr.Markdown("**零樣本語音克隆系統** - 專為台灣繁體中文優化 (簡化版)")
     # 初始化狀態顯示
     setup_status = gr.Textbox(
         - ⚡ ZeroGPU 加速處理
         - 🔊 MediaTek 先進語音合成技術
+        ## 💡 版本說明
+        - **v3.0 簡化版**: 避免多進程問題，使用基本推論方法
         - 參考語音與轉錄文字匹配度越高，克隆效果越好
         - 建議使用提供的預設範例文字進行錄音
         """)
     # 事件綁定