Spaces:

ionvop
/

chu2-rvc-api

Sleeping

ionvop commited on Sep 11, 2025

Commit

8182033

verified ·

1 Parent(s): f7f7a9d

Upload 6 files

Files changed (7) hide show

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 models/Chiyu_v2_48k/voice.index filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 models/Chiyu_v2_48k/voice.index filter=lfs diff=lfs merge=lfs -text
+models/added_IVF256_Flat_nprobe_1_Chiyu_v2_48k_v2.index filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

+FROM python:3.10-slim
+WORKDIR /app
+# System deps
+RUN apt-get update && apt-get install -y ffmpeg git && rm -rf /var/lib/apt/lists/*
+# Python deps
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy app + models
+COPY app/ ./app/
+COPY models/ ./models/
+EXPOSE 7860
+CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "7860"]

app/main.py ADDED Viewed

+import os
+import asyncio
+import tempfile
+import subprocess
+from fastapi import FastAPI, Form
+from fastapi.responses import FileResponse
+import edge_tts
+app = FastAPI()
+MODEL_PATH = "models/Chiyu_v2_48k.pth"
+INDEX_PATH = "models/added_IVF256_Flat_nprobe_1_Chiyu_v2_48k_v2.index"
+@app.post("/speak")
+async def speak(text: str = Form(...)):
+    # Step 1: Generate TTS with edge-tts
+    tts = edge_tts.Communicate(text, voice="en-US-AriaNeural")
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_tts:
+        await tts.save(tmp_tts.name)
+        tts_path = tmp_tts.name
+    # Step 2: Run RVC conversion
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_out:
+        out_path = tmp_out.name
+    cmd = [
+        "python3",
+        "app/rvc_infer.py",
+        "--input", tts_path,
+        "--output", out_path,
+        "--model", MODEL_PATH,
+        "--index", INDEX_PATH,
+    ]
+    subprocess.run(cmd, check=True)
+    # Step 3: Return audio file
+    return FileResponse(out_path, media_type="audio/wav", filename="output.wav")

app/rvc_infer.py ADDED Viewed

+import argparse
+import torch
+import librosa
+import soundfile as sf
+import numpy as np
+# Core RVC imports
+from rvc.model_infer import SynthesizerTrn
+from rvc import utils
+from rvc.modules.vc.pipeline import VC
+import faiss
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--input", required=True)
+    parser.add_argument("--output", required=True)
+    parser.add_argument("--model", required=True)
+    parser.add_argument("--index", required=True)
+    args = parser.parse_args()
+    # Load input audio
+    audio, sr = librosa.load(args.input, sr=48000)
+    # Initialize model
+    device = torch.device("cpu")  # <- HF free tier is CPU only
+    vc = VC(args.model, args.index, device)
+    # Convert
+    converted, _ = vc.vc_single(
+        sid=0,            # Speaker ID (default: 0)
+        input_audio=audio,
+        input_sr=sr,
+        f0_up_key=0,      # Pitch shift (0 = none)
+        f0_method="crepe",# Pitch extractor ("pm", "harvest", "crepe")
+        index_rate=0.75,  # Weight for index feature
+        filter_radius=3,
+        resample_sr=0,
+        rms_mix_rate=0.25,
+        protect=0.33,
+    )
+    # Save output
+    sf.write(args.output, converted, 48000)
+if __name__ == "__main__":
+    main()

models/Chiyu_v2_48k.pth ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:69cafbdd228bcd96736f064fc7943d34fcccf8fd8cdf95ef1941559d1a577dfb
+size 57581999

models/added_IVF256_Flat_nprobe_1_Chiyu_v2_48k_v2.index ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c5d3991205e84fd10517ed16ee1cdc738529845effb5e42813f926db6d842eb
+size 31588619

requirements.txt ADDED Viewed

+fastapi
+uvicorn
+edge-tts
+librosa
+soundfile
+torch
+torchaudio
+faiss-cpu
+numpy