File size: 2,606 Bytes
3268a4e
6edcecd
 
 
 
3268a4e
6edcecd
3268a4e
 
6edcecd
 
 
 
 
 
 
 
3268a4e
 
6edcecd
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
---
title: MediaTek BreezyVoice 語音克隆
emoji: 🎭
colorFrom: purple
colorTo: pink
sdk: gradio
sdk_version: "4.44.0"
app_file: app.py
pinned: false
hardware: zerogpu
startup_duration_timeout: 30m
tags:
- voice-cloning
- zero-shot
- taiwanese-mandarin
- breezyvoice
- mediatek
---

# 🎭 MediaTek BreezyVoice 語音克隆

## 📋 專案概述
MediaTek BreezyVoice 零樣本語音克隆系統,專為台灣繁體中文優化。使用先進的語音合成技術,能夠從短短 5-20 秒的參考語音中學習聲音特徵,並合成任意文字內容。

## 🎯 主要功能
- **零樣本克隆**: 無需訓練,直接克隆任何聲音
- **台灣優化**: 專門針對台灣國語和繁體中文優化
- **高品質合成**: MediaTek 先進的語音合成技術
- **GPU 加速**: 使用 ZeroGPU 實現快速處理

## 🚀 使用方法
1. **初始化**: 點擊「初始化 BreezyVoice」按鈕設置模型
2. **上傳語音**: 上傳 5-20 秒清晰的中文語音作為參考
3. **輸入文字**: 輸入要用克隆聲音說出的內容
4. **轉錄參考** (可選): 輸入參考語音的轉錄文字以提高品質
5. **開始克隆**: 點擊「開始語音克隆」按鈕

## 💡 最佳效果建議
- 🎙️ **音質**: 確保參考語音清晰、無雜音
- 📏 **長度**: 推薦 5-20 秒的參考語音
- 🗣️ **發音**: 自然清晰地朗讀,無需刻意
- 📝 **轉錄**: 提供參考語音的轉錄文字可顯著提高克隆品質

## ⚡ 技術規格
- **模型**: MediaTek BreezyVoice 完整版
- **硬體**: ZeroGPU (H200 70GB VRAM)
- **支援格式**: WAV, MP3, M4A
- **語言**: 繁體中文 (台灣)
- **特色**: 零樣本學習、即時推論

## 🔗 API 使用
```python
from gradio_client import Client

client = Client("sheep52031/breezyvoice-tts")

# 上傳參考語音和合成文字
result = client.predict(
    speaker_audio="reference_audio.wav",
    content_text="要合成的文字內容",
    speaker_transcription="參考語音轉錄 (可選)",
    api_name="/predict"
)

synthesized_audio = result[0]  # 合成的語音
status_info = result[1]        # 處理狀態
```

## 📊 應用場景
- 🎬 **影片配音**: 製作個人化旁白
- 🎤 **語音助手**: 創建專屬聲音的 AI 助手
- 📚 **有聲書籍**: 用特定聲音朗讀文字內容
- 🎮 **遊戲配音**: 角色語音生成
- 🏢 **商業應用**: 品牌專屬語音系統

## ⚠️ 使用須知
- 僅供合法用途使用,請勿用於偽造他人聲音進行不當行為
- 建議在使用前取得聲音原主人的同意
- 系統生成的語音僅供學習和研究用途