my_whisper_demo

Running

avans06 commited on Nov 12, 2023

Commit

77b92a2

1 Parent(s): 8c8a39e

If the user does not choose a language for Whisper,

the detected language by Whisper will be automatically set for the nllb model to avoid abnormal errors when determining the source language in nllb.

Files changed (3) hide show

app.py +16 -12
src/vad.py +2 -2
webui.bat +1 -1

app.py CHANGED Viewed

@@ -20,9 +20,7 @@ from src.diarization.diarizationContainer import DiarizationContainer
 from src.hooks.progressListener import ProgressListener
 from src.hooks.subTaskProgressListener import SubTaskProgressListener
 from src.hooks.whisperProgressHook import create_progress_listener_handle
-from src.languages import _TO_LANGUAGE_CODE
-from src.languages import get_language_names
-from src.languages import get_language_from_name
 from src.modelCache import ModelCache
 from src.prompts.jsonPromptStrategy import JsonPromptStrategy
 from src.prompts.prependPromptStrategy import PrependPromptStrategy
@@ -269,6 +267,10 @@ class WhisperTranscriber:
                     # Transcribe
                     result = self.transcribe_file(model, source.source_path, selectedLanguage, task, vadOptions, scaled_progress_listener, **decodeOptions)
                     short_name, suffix = source.get_short_name_suffix(max_length=self.app_config.input_max_file_name_length)
                     filePrefix = slugify(source_prefix + short_name, allow_unicode=True)
@@ -700,8 +702,8 @@ def create_ui(app_config: ApplicationConfig):
     common_output = lambda : [
         gr.File(label="Download"),
-        gr.Text(label="Transcription"),
-        gr.Text(label="Segments"),
     ]
     is_queue_mode = app_config.queue_concurrency_count is not None and app_config.queue_concurrency_count > 0
@@ -863,13 +865,15 @@ if __name__ == '__main__':
     updated_config = default_app_config.update(**args)
-    #updated_config.whisper_implementation = "faster-whisper"
-    #updated_config.input_audio_max_duration = -1
-    #updated_config.default_model_name = "large-v2"
-    #updated_config.output_dir = "output"
-    #updated_config.vad_max_merge_size = 90
-    #updated_config.merge_subtitle_with_sources = True
-    #updated_config.autolaunch = True
     if (threads := args.pop("threads")) > 0:
         torch.set_num_threads(threads)

 from src.hooks.progressListener import ProgressListener
 from src.hooks.subTaskProgressListener import SubTaskProgressListener
 from src.hooks.whisperProgressHook import create_progress_listener_handle
+from src.languages import _TO_LANGUAGE_CODE, get_language_names, get_language_from_name, get_language_from_code
 from src.modelCache import ModelCache
 from src.prompts.jsonPromptStrategy import JsonPromptStrategy
 from src.prompts.prependPromptStrategy import PrependPromptStrategy
                     # Transcribe
                     result = self.transcribe_file(model, source.source_path, selectedLanguage, task, vadOptions, scaled_progress_listener, **decodeOptions)
+                    if whisper_lang is None and result["language"] is not None and len(result["language"]) > 0:
+                        whisper_lang = get_language_from_code(result["language"])
+                        nllb_model.whisper_lang = whisper_lang
                     short_name, suffix = source.get_short_name_suffix(max_length=self.app_config.input_max_file_name_length)
                     filePrefix = slugify(source_prefix + short_name, allow_unicode=True)
     common_output = lambda : [
         gr.File(label="Download"),
+        gr.Text(label="Transcription", autoscroll=False),
+        gr.Text(label="Segments", autoscroll=False),
     ]
     is_queue_mode = app_config.queue_concurrency_count is not None and app_config.queue_concurrency_count > 0
     updated_config = default_app_config.update(**args)
+    # updated_config.whisper_implementation = "faster-whisper"
+    # updated_config.input_audio_max_duration = -1
+    # updated_config.default_model_name = "large-v2"
+    # updated_config.output_dir = "output"
+    # updated_config.vad_max_merge_size = 90
+    # updated_config.merge_subtitle_with_sources = False
+    # updated_config.autolaunch = True
+    # updated_config.auto_parallel = False
+    # updated_config.save_downloaded_files = True
     if (threads := args.pop("threads")) > 0:
         torch.set_num_threads(threads)

src/vad.py CHANGED Viewed

@@ -205,7 +205,7 @@ class AbstractTranscription(ABC):
                 # Detected language
                 detected_language = languageCounter.most_common(1)[0][0] if len(languageCounter) > 0 else None
-                print("Running whisper from ", format_timestamp(segment_start), " to ", format_timestamp(segment_end), ", duration: ",
                     segment_duration, "expanded: ", segment_expand_amount, ", prompt: ", segment_prompt, ", detected language: ", detected_language)
                 perf_start_time = time.perf_counter()
@@ -217,7 +217,7 @@ class AbstractTranscription(ABC):
                 segment_result = whisperCallable.invoke(segment_audio, segment_index, segment_prompt, detected_language, progress_listener=scaled_progress_listener)
                 perf_end_time = time.perf_counter()
-                print("Whisper took {} seconds".format(perf_end_time - perf_start_time))
                 adjusted_segments = self.adjust_timestamp(segment_result["segments"], adjust_seconds=segment_start, max_source_time=segment_duration)

                 # Detected language
                 detected_language = languageCounter.most_common(1)[0][0] if len(languageCounter) > 0 else None
+                print(f"Running whisper {idx}: from ", format_timestamp(segment_start), " to ", format_timestamp(segment_end), ", duration: ",
                     segment_duration, "expanded: ", segment_expand_amount, ", prompt: ", segment_prompt, ", detected language: ", detected_language)
                 perf_start_time = time.perf_counter()
                 segment_result = whisperCallable.invoke(segment_audio, segment_index, segment_prompt, detected_language, progress_listener=scaled_progress_listener)
                 perf_end_time = time.perf_counter()
+                print("\tWhisper took {} seconds".format(perf_end_time - perf_start_time))
                 adjusted_segments = self.adjust_timestamp(segment_result["segments"], adjust_seconds=segment_start, max_source_time=segment_duration)

webui.bat CHANGED Viewed

@@ -1,7 +1,7 @@
 @echo off
 :: The source of the webui.bat file is stable-diffusion-webui
-set COMMANDLINE_ARGS=--whisper_implementation faster-whisper --input_audio_max_duration -1 --default_model_name large-v2 --auto_parallel True --output_dir output --vad_max_merge_size 90 --merge_subtitle_with_sources --autolaunch
 if not defined PYTHON (set PYTHON=python)
 if not defined VENV_DIR (set "VENV_DIR=%~dp0%venv")

 @echo off
 :: The source of the webui.bat file is stable-diffusion-webui
+set COMMANDLINE_ARGS=--whisper_implementation faster-whisper --input_audio_max_duration -1 --default_model_name large-v2 --auto_parallel True --output_dir output --vad_max_merge_size 90 --save_downloaded_files --autolaunch
 if not defined PYTHON (set PYTHON=python)
 if not defined VENV_DIR (set "VENV_DIR=%~dp0%venv")