Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

Gregniuki commited on Nov 27, 2024

Commit

cad4507

verified ·

1 Parent(s): b05b05b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -60,7 +60,7 @@ target_sample_rate = 24000
 n_mel_channels = 100
 hop_length = 256
 target_rms = 0.1
-nfe_step = 16  # 16, 32
 cfg_strength = 2.0
 ode_method = "euler"
 sway_sampling_coef = -1.0
@@ -200,10 +200,10 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
         ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
         gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
         if len(ref_text.encode('utf-8')) > 2:
-            duration = min(2000, max(300, (ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed))))
             print(f"Duration: {duration} seconds")
         else:
-            duration = min(2000, max(300, int(200 * gen_text_len / (speed * 10))))
             print(f"Duration: {duration} seconds")
         # inference

 n_mel_channels = 100
 hop_length = 256
 target_rms = 0.1
+nfe_step = 10  # 16, 32
 cfg_strength = 2.0
 ode_method = "euler"
 sway_sampling_coef = -1.0
         ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
         gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
         if len(ref_text.encode('utf-8')) > 2:
+            duration = min(2000, max(270, (ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed))))
             print(f"Duration: {duration} seconds")
         else:
+            duration = min(2000, max(270, int(150 * gen_text_len / (speed * 10))))
             print(f"Duration: {duration} seconds")
         # inference