breezyvoice-tts / README.md
sheep52031's picture
🔧 修復語音克隆功能 - 使用真正的 BreezyVoice 推論邏輯
6edcecd verified
|
raw
history blame
2.61 kB
metadata
title: MediaTek BreezyVoice 語音克隆
emoji: 🎭
colorFrom: purple
colorTo: pink
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
hardware: zerogpu
startup_duration_timeout: 30m
tags:
  - voice-cloning
  - zero-shot
  - taiwanese-mandarin
  - breezyvoice
  - mediatek

🎭 MediaTek BreezyVoice 語音克隆

📋 專案概述

MediaTek BreezyVoice 零樣本語音克隆系統,專為台灣繁體中文優化。使用先進的語音合成技術,能夠從短短 5-20 秒的參考語音中學習聲音特徵,並合成任意文字內容。

🎯 主要功能

  • 零樣本克隆: 無需訓練,直接克隆任何聲音
  • 台灣優化: 專門針對台灣國語和繁體中文優化
  • 高品質合成: MediaTek 先進的語音合成技術
  • GPU 加速: 使用 ZeroGPU 實現快速處理

🚀 使用方法

  1. 初始化: 點擊「初始化 BreezyVoice」按鈕設置模型
  2. 上傳語音: 上傳 5-20 秒清晰的中文語音作為參考
  3. 輸入文字: 輸入要用克隆聲音說出的內容
  4. 轉錄參考 (可選): 輸入參考語音的轉錄文字以提高品質
  5. 開始克隆: 點擊「開始語音克隆」按鈕

💡 最佳效果建議

  • 🎙️ 音質: 確保參考語音清晰、無雜音
  • 📏 長度: 推薦 5-20 秒的參考語音
  • 🗣️ 發音: 自然清晰地朗讀,無需刻意
  • 📝 轉錄: 提供參考語音的轉錄文字可顯著提高克隆品質

⚡ 技術規格

  • 模型: MediaTek BreezyVoice 完整版
  • 硬體: ZeroGPU (H200 70GB VRAM)
  • 支援格式: WAV, MP3, M4A
  • 語言: 繁體中文 (台灣)
  • 特色: 零樣本學習、即時推論

🔗 API 使用

from gradio_client import Client

client = Client("sheep52031/breezyvoice-tts")

# 上傳參考語音和合成文字
result = client.predict(
    speaker_audio="reference_audio.wav",
    content_text="要合成的文字內容",
    speaker_transcription="參考語音轉錄 (可選)",
    api_name="/predict"
)

synthesized_audio = result[0]  # 合成的語音
status_info = result[1]        # 處理狀態

📊 應用場景

  • 🎬 影片配音: 製作個人化旁白
  • 🎤 語音助手: 創建專屬聲音的 AI 助手
  • 📚 有聲書籍: 用特定聲音朗讀文字內容
  • 🎮 遊戲配音: 角色語音生成
  • 🏢 商業應用: 品牌專屬語音系統

⚠️ 使用須知

  • 僅供合法用途使用,請勿用於偽造他人聲音進行不當行為
  • 建議在使用前取得聲音原主人的同意
  • 系統生成的語音僅供學習和研究用途