Spaces:
Runtime error
Runtime error
File size: 2,606 Bytes
3268a4e 6edcecd 3268a4e 6edcecd 3268a4e 6edcecd 3268a4e 6edcecd |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 |
---
title: MediaTek BreezyVoice 語音克隆
emoji: 🎭
colorFrom: purple
colorTo: pink
sdk: gradio
sdk_version: "4.44.0"
app_file: app.py
pinned: false
hardware: zerogpu
startup_duration_timeout: 30m
tags:
- voice-cloning
- zero-shot
- taiwanese-mandarin
- breezyvoice
- mediatek
---
# 🎭 MediaTek BreezyVoice 語音克隆
## 📋 專案概述
MediaTek BreezyVoice 零樣本語音克隆系統,專為台灣繁體中文優化。使用先進的語音合成技術,能夠從短短 5-20 秒的參考語音中學習聲音特徵,並合成任意文字內容。
## 🎯 主要功能
- **零樣本克隆**: 無需訓練,直接克隆任何聲音
- **台灣優化**: 專門針對台灣國語和繁體中文優化
- **高品質合成**: MediaTek 先進的語音合成技術
- **GPU 加速**: 使用 ZeroGPU 實現快速處理
## 🚀 使用方法
1. **初始化**: 點擊「初始化 BreezyVoice」按鈕設置模型
2. **上傳語音**: 上傳 5-20 秒清晰的中文語音作為參考
3. **輸入文字**: 輸入要用克隆聲音說出的內容
4. **轉錄參考** (可選): 輸入參考語音的轉錄文字以提高品質
5. **開始克隆**: 點擊「開始語音克隆」按鈕
## 💡 最佳效果建議
- 🎙️ **音質**: 確保參考語音清晰、無雜音
- 📏 **長度**: 推薦 5-20 秒的參考語音
- 🗣️ **發音**: 自然清晰地朗讀,無需刻意
- 📝 **轉錄**: 提供參考語音的轉錄文字可顯著提高克隆品質
## ⚡ 技術規格
- **模型**: MediaTek BreezyVoice 完整版
- **硬體**: ZeroGPU (H200 70GB VRAM)
- **支援格式**: WAV, MP3, M4A
- **語言**: 繁體中文 (台灣)
- **特色**: 零樣本學習、即時推論
## 🔗 API 使用
```python
from gradio_client import Client
client = Client("sheep52031/breezyvoice-tts")
# 上傳參考語音和合成文字
result = client.predict(
speaker_audio="reference_audio.wav",
content_text="要合成的文字內容",
speaker_transcription="參考語音轉錄 (可選)",
api_name="/predict"
)
synthesized_audio = result[0] # 合成的語音
status_info = result[1] # 處理狀態
```
## 📊 應用場景
- 🎬 **影片配音**: 製作個人化旁白
- 🎤 **語音助手**: 創建專屬聲音的 AI 助手
- 📚 **有聲書籍**: 用特定聲音朗讀文字內容
- 🎮 **遊戲配音**: 角色語音生成
- 🏢 **商業應用**: 品牌專屬語音系統
## ⚠️ 使用須知
- 僅供合法用途使用,請勿用於偽造他人聲音進行不當行為
- 建議在使用前取得聲音原主人的同意
- 系統生成的語音僅供學習和研究用途 |