Spaces:

sheep52031
/

breezyvoice-tts

Runtime error

App Files Files Community

sheep52031 commited on Sep 4

Commit

ee1e599

verified ·

1 Parent(s): 6edcecd

🔧 修復語音克隆功能 - 使用真正的 BreezyVoice 推論邏輯

Browse files

Files changed (2) hide show

app.py +52 -38
requirements.txt +4 -1

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 """
 MediaTek BreezyVoice 真實語音克隆 Space
 基於成功的本地測試實現真正的語音合成功能
 """
 import gradio as gr
@@ -14,6 +15,9 @@ import subprocess
 import sys
 from pathlib import Path
 # 全域變數
 cosyvoice = None
 bopomofo_converter = None
@@ -46,22 +50,8 @@ def setup_breezyvoice():
         # 2. 添加模組路徑
         sys.path.insert(0, repo_path)
-        # 3. 安裝必要依賴
-        print("📦 安裝依賴...")
-        dependencies = [
-            "g2pw", "WeTextProcessing", "opencc-python-reimplemented",
-            "hydra-core", "HyperPyYAML", "conformer", "lightning",
-            "diffusers", "einops"
-        ]
-        for dep in dependencies:
-            print(f"安裝 {dep}...")
-            result = subprocess.run(
-                ["pip", "install", dep, "--no-cache-dir"],
-                capture_output=True, timeout=120
-            )
-            if result.returncode != 0:
-                print(f"⚠️ {dep} 安裝失敗，繼續...")
         # 4. 導入 BreezyVoice 模組
         try:
@@ -116,9 +106,9 @@ def breezy_voice_clone(speaker_audio, content_text, speaker_transcription=None):
             sample_rate, audio_data = speaker_audio
             torchaudio.save(input_audio_path, torch.tensor(audio_data).unsqueeze(0), sample_rate)
-            # 如果沒有提供轉錄，使用預設
             if not speaker_transcription or not speaker_transcription.strip():
-                speaker_transcription = "這是一段參考語音，用於語音克隆分析。"
             print(f"🎤 合成文字: {content_text}")
             print(f"📝 參考轉錄: {speaker_transcription}")
@@ -162,6 +152,7 @@ def breezy_voice_clone(speaker_audio, content_text, speaker_transcription=None):
 🎙️ 參考語音: {len(audio_data)/sample_rate:.1f}秒
 📝 合成內容: {content_text}
 ⏱️ 合成時間: {synthesis_time:.1f}秒
 🎵 輸出長度: {audio_duration:.1f}秒
 📊 RTF: {rtf:.3f} {'(實時)' if rtf < 1.0 else '(非實時)'}
@@ -178,6 +169,10 @@ def breezy_voice_clone(speaker_audio, content_text, speaker_transcription=None):
     except Exception as e:
         return None, f"❌ 處理錯誤: {str(e)}"
 # 創建 Gradio 界面
 with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🎭 MediaTek BreezyVoice 語音克隆")
@@ -196,30 +191,41 @@ with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo
     with gr.Row():
         with gr.Column(scale=1):
             gr.Markdown("### 🎙️ 步驟 1: 上傳參考語音")
-            gr.Markdown("上傳 5-20 秒清晰的中文語音作為聲音特徵參考")
             speaker_audio = gr.Audio(
                 sources=["microphone", "upload"],
                 type="numpy",
-                label="參考語音 (5-20秒)"
             )
-            gr.Markdown("### 📝 步驟 2: 輸入文字內容")
             content_text = gr.Textbox(
                 lines=3,
                 placeholder="請輸入要用克隆聲音說出的內容...",
                 label="合成文字內容",
-                value="哈囉！這裡是光鈦廣告的小陳啦，我是林家任創造出來的AI Agent,不是詐騙集團啦。"
             )
-            gr.Markdown("### 🔤 步驟 3: 參考語音轉錄 (可選)")
             speaker_transcription = gr.Textbox(
-                lines=2,
-                placeholder="如果知道參考語音的內容，請輸入轉錄文字以提高品質...",
-                label="參考語音轉錄 (可選)",
-                value=""
             )
             clone_btn = gr.Button("🎭 開始語音克隆", variant="primary", size="lg")
         with gr.Column(scale=1):
@@ -239,24 +245,27 @@ with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo
     # 使用說明
     with gr.Accordion("📖 使用說明", open=False):
-        gr.Markdown("""
-        ## 🎯 操作步驟
-        1. **初始化**: 點擊「初始化 BreezyVoice」按鈕設置模型
-        2. **上傳語音**: 上傳 5-20 秒的清晰中文語音作為參考
-        3. **輸入文字**: 輸入要用克隆聲音說出的內容
-        4. **開始克隆**: 點擊「開始語音克隆」按鈕
-        ## 💡 最佳效果建議
-        - 🎙️ 參考語音清晰、無雜音
-        - 📏 長度適中（5-20秒）
-        - 🗣️ 自然朗讀，發音清楚
-        - 📝 如果知道參考語音的轉錄內容，填寫可提高品質
         ## ⚡ 技術特色
         - 🇹🇼 台灣繁體中文專門優化
         - 🎯 零樣本克隆（無需訓練）
         - ⚡ ZeroGPU 加速處理
         - 🔊 MediaTek 先進語音合成技術
         """)
     # 事件綁定
@@ -265,6 +274,11 @@ with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo
         outputs=[setup_status]
     )
     clone_btn.click(
         fn=breezy_voice_clone,
         inputs=[speaker_audio, content_text, speaker_transcription],

 """
 MediaTek BreezyVoice 真實語音克隆 Space
 基於成功的本地測試實現真正的語音合成功能
+v2.0: 修復依賴問題並添加預設範例
 """
 import gradio as gr
 import sys
 from pathlib import Path
+# 預設參考語音範例 (約20秒朗讀)
+DEFAULT_REFERENCE_TEXT = "台灣是個美麗的島嶼，擁有豐富的自然景觀和多元的文化特色。從北部的陽明山到南部的墾丁，每個地方都有獨特的魅力。四季分明的氣候讓這裡的生活充滿變化，春天櫻花盛開，夏天海灘戲水，秋天楓葉飄香，冬天溫泉暖身。"
 # 全域變數
 cosyvoice = None
 bopomofo_converter = None
         # 2. 添加模組路徑
         sys.path.insert(0, repo_path)
+        # 3. 安裝必要依賴 (已在 requirements.txt 中)
+        print("📦 檢查依賴...")
         # 4. 導入 BreezyVoice 模組
         try:
             sample_rate, audio_data = speaker_audio
             torchaudio.save(input_audio_path, torch.tensor(audio_data).unsqueeze(0), sample_rate)
+            # 使用參考轉錄或預設值
             if not speaker_transcription or not speaker_transcription.strip():
+                speaker_transcription = DEFAULT_REFERENCE_TEXT
             print(f"🎤 合成文字: {content_text}")
             print(f"📝 參考轉錄: {speaker_transcription}")
 🎙️ 參考語音: {len(audio_data)/sample_rate:.1f}秒
 📝 合成內容: {content_text}
+📝 使用轉錄: {speaker_transcription[:30]}...
 ⏱️ 合成時間: {synthesis_time:.1f}秒
 🎵 輸出長度: {audio_duration:.1f}秒
 📊 RTF: {rtf:.3f} {'(實時)' if rtf < 1.0 else '(非實時)'}
     except Exception as e:
         return None, f"❌ 處理錯誤: {str(e)}"
+def load_example_text():
+    """載入預設範例文字"""
+    return DEFAULT_REFERENCE_TEXT
 # 創建 Gradio 界面
 with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🎭 MediaTek BreezyVoice 語音克隆")
     with gr.Row():
         with gr.Column(scale=1):
             gr.Markdown("### 🎙️ 步驟 1: 上傳參考語音")
+            gr.Markdown("請照著下面的範例文字朗讀，上傳 5-20 秒清晰語音")
+            # 顯示範例文字
+            gr.Markdown("#### 📖 建議朗讀範例：")
+            example_display = gr.Textbox(
+                value=DEFAULT_REFERENCE_TEXT,
+                label="請照著這段文字朗讀 (約20秒)",
+                lines=4,
+                interactive=False
+            )
             speaker_audio = gr.Audio(
                 sources=["microphone", "upload"],
                 type="numpy",
+                label="參考語音錄音 (照著上面文字念)"
             )
+            gr.Markdown("### 📝 步驟 2: 輸入合成文字")
             content_text = gr.Textbox(
                 lines=3,
                 placeholder="請輸入要用克隆聲音說出的內容...",
                 label="合成文字內容",
+                value="歡迎來到我們的語音合成系統！這個技術可以模仿任何人的聲音，讓文字轉換成自然流暢的語音。"
             )
+            gr.Markdown("### 🔤 步驟 3: 參考語音轉錄")
             speaker_transcription = gr.Textbox(
+                lines=3,
+                label="參考語音轉錄 (預設範例)",
+                value=DEFAULT_REFERENCE_TEXT
             )
+            # 載入範例按鈕
+            load_example_btn = gr.Button("📄 載入預設範例", variant="secondary")
             clone_btn = gr.Button("🎭 開始語音克隆", variant="primary", size="lg")
         with gr.Column(scale=1):
     # 使用說明
     with gr.Accordion("📖 使用說明", open=False):
+        gr.Markdown(f"""
+        ## 🎯 最佳使用方式
+        1. **📖 朗讀範例**: 請照著範例文字清晰朗讀
+        2. **🎙️ 錄音要求**: 5-20 秒，環境安靜，發音清楚
+        3. **✨ 克隆效果**: 系統會用您的聲音說出任何文字
+        ## 📝 範例文字內容
+        ```
+        {DEFAULT_REFERENCE_TEXT}
+        ```
         ## ⚡ 技術特色
         - 🇹🇼 台灣繁體中文專門優化
         - 🎯 零樣本克隆（無需訓練）
         - ⚡ ZeroGPU 加速處理
         - 🔊 MediaTek 先進語音合成技術
+        ## 💡 使用提示
+        - 參考語音與轉錄文字匹配度越高，克隆效果越好
+        - 建議使用提供的預設範例文字進行錄音
+        - 錄音時保持自然語調，不需刻意
         """)
     # 事件綁定
         outputs=[setup_status]
     )
+    load_example_btn.click(
+        fn=load_example_text,
+        outputs=[speaker_transcription]
+    )
     clone_btn.click(
         fn=breezy_voice_clone,
         inputs=[speaker_audio, content_text, speaker_transcription],

requirements.txt CHANGED Viewed

@@ -6,6 +6,7 @@ transformers>=4.40.0
 soundfile>=0.12.1
 numpy>=1.21.0
 librosa>=0.10.0
 g2pw
 WeTextProcessing
 opencc-python-reimplemented
@@ -14,4 +15,6 @@ HyperPyYAML>=1.2.0
 conformer>=0.3.0
 pytorch-lightning
 diffusers
-einops

 soundfile>=0.12.1
 numpy>=1.21.0
 librosa>=0.10.0
+openai-whisper
 g2pw
 WeTextProcessing
 opencc-python-reimplemented
 conformer>=0.3.0
 pytorch-lightning
 diffusers
+einops
+gdown
+wget