Spaces:
Runtime error
Runtime error
metadata
title: MediaTek BreezyVoice 語音克隆
emoji: 🎭
colorFrom: purple
colorTo: pink
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
hardware: zerogpu
startup_duration_timeout: 30m
tags:
- voice-cloning
- zero-shot
- taiwanese-mandarin
- breezyvoice
- mediatek
🎭 MediaTek BreezyVoice 語音克隆
📋 專案概述
MediaTek BreezyVoice 零樣本語音克隆系統,專為台灣繁體中文優化。使用先進的語音合成技術,能夠從短短 5-20 秒的參考語音中學習聲音特徵,並合成任意文字內容。
🎯 主要功能
- 零樣本克隆: 無需訓練,直接克隆任何聲音
- 台灣優化: 專門針對台灣國語和繁體中文優化
- 高品質合成: MediaTek 先進的語音合成技術
- GPU 加速: 使用 ZeroGPU 實現快速處理
🚀 使用方法
- 初始化: 點擊「初始化 BreezyVoice」按鈕設置模型
- 上傳語音: 上傳 5-20 秒清晰的中文語音作為參考
- 輸入文字: 輸入要用克隆聲音說出的內容
- 轉錄參考 (可選): 輸入參考語音的轉錄文字以提高品質
- 開始克隆: 點擊「開始語音克隆」按鈕
💡 最佳效果建議
- 🎙️ 音質: 確保參考語音清晰、無雜音
- 📏 長度: 推薦 5-20 秒的參考語音
- 🗣️ 發音: 自然清晰地朗讀,無需刻意
- 📝 轉錄: 提供參考語音的轉錄文字可顯著提高克隆品質
⚡ 技術規格
- 模型: MediaTek BreezyVoice 完整版
- 硬體: ZeroGPU (H200 70GB VRAM)
- 支援格式: WAV, MP3, M4A
- 語言: 繁體中文 (台灣)
- 特色: 零樣本學習、即時推論
🔗 API 使用
from gradio_client import Client
client = Client("sheep52031/breezyvoice-tts")
# 上傳參考語音和合成文字
result = client.predict(
speaker_audio="reference_audio.wav",
content_text="要合成的文字內容",
speaker_transcription="參考語音轉錄 (可選)",
api_name="/predict"
)
synthesized_audio = result[0] # 合成的語音
status_info = result[1] # 處理狀態
📊 應用場景
- 🎬 影片配音: 製作個人化旁白
- 🎤 語音助手: 創建專屬聲音的 AI 助手
- 📚 有聲書籍: 用特定聲音朗讀文字內容
- 🎮 遊戲配音: 角色語音生成
- 🏢 商業應用: 品牌專屬語音系統
⚠️ 使用須知
- 僅供合法用途使用,請勿用於偽造他人聲音進行不當行為
- 建議在使用前取得聲音原主人的同意
- 系統生成的語音僅供學習和研究用途