Spaces:

sheep52031
/

breezyvoice-tts

Runtime error

App Files Files Community

breezyvoice-tts / README.md

sheep52031

🔧 修復語音克隆功能 - 使用真正的 BreezyVoice 推論邏輯

6edcecd verified 2 months ago

preview code

raw

history blame

2.61 kB

metadata

title: MediaTek BreezyVoice 語音克隆
emoji: 🎭
colorFrom: purple
colorTo: pink
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
hardware: zerogpu
startup_duration_timeout: 30m
tags:
  - voice-cloning
  - zero-shot
  - taiwanese-mandarin
  - breezyvoice
  - mediatek

🎭 MediaTek BreezyVoice 語音克隆

📋 專案概述

MediaTek BreezyVoice 零樣本語音克隆系統，專為台灣繁體中文優化。使用先進的語音合成技術，能夠從短短 5-20 秒的參考語音中學習聲音特徵，並合成任意文字內容。

🎯 主要功能

零樣本克隆: 無需訓練，直接克隆任何聲音
台灣優化: 專門針對台灣國語和繁體中文優化
高品質合成: MediaTek 先進的語音合成技術
GPU 加速: 使用 ZeroGPU 實現快速處理

🚀 使用方法

初始化: 點擊「初始化 BreezyVoice」按鈕設置模型
上傳語音: 上傳 5-20 秒清晰的中文語音作為參考
輸入文字: 輸入要用克隆聲音說出的內容
轉錄參考 (可選): 輸入參考語音的轉錄文字以提高品質
開始克隆: 點擊「開始語音克隆」按鈕

💡 最佳效果建議

🎙️ 音質: 確保參考語音清晰、無雜音
📏 長度: 推薦 5-20 秒的參考語音
🗣️ 發音: 自然清晰地朗讀，無需刻意
📝 轉錄: 提供參考語音的轉錄文字可顯著提高克隆品質

⚡ 技術規格

模型: MediaTek BreezyVoice 完整版
硬體: ZeroGPU (H200 70GB VRAM)
支援格式: WAV, MP3, M4A
語言: 繁體中文 (台灣)
特色: 零樣本學習、即時推論

🔗 API 使用

from gradio_client import Client

client = Client("sheep52031/breezyvoice-tts")

# 上傳參考語音和合成文字
result = client.predict(
    speaker_audio="reference_audio.wav",
    content_text="要合成的文字內容",
    speaker_transcription="參考語音轉錄 (可選)",
    api_name="/predict"
)

synthesized_audio = result[0]  # 合成的語音
status_info = result[1]        # 處理狀態

📊 應用場景

🎬 影片配音: 製作個人化旁白
🎤 語音助手: 創建專屬聲音的 AI 助手
📚 有聲書籍: 用特定聲音朗讀文字內容
🎮 遊戲配音: 角色語音生成
🏢 商業應用: 品牌專屬語音系統

⚠️ 使用須知

僅供合法用途使用，請勿用於偽造他人聲音進行不當行為
建議在使用前取得聲音原主人的同意
系統生成的語音僅供學習和研究用途