anime-whisper-demo

Sleeping

App Files Files Community

litagin commited on Nov 12, 2024

Commit

5c91bae

1 Parent(s): 07c2d2e

update

Browse files

Files changed (2) hide show

README.md +2 -2
app.py +22 -63

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
-title: Galgame Whisper (WIP) Demo
 emoji: 🥰🎤📝
 colorFrom: blue
 colorTo: pink
 sdk: gradio
-sdk_version: 5.0.2
 app_file: app.py
 pinned: false
 ---

 ---
+title: Anime Whisper Demo
 emoji: 🥰🎤📝
 colorFrom: blue
 colorTo: pink
 sdk: gradio
+sdk_version: 5.5.0
 app_file: app.py
 pinned: false
 ---

app.py CHANGED Viewed

@@ -28,8 +28,6 @@ generate_kwargs = {
 model_dict = {
     "whisper-large-v2": "openai/whisper-large-v2",
     "whisper-large-v3": "openai/whisper-large-v3",
-    "whisper-large-v3-turbo": "openai/whisper-large-v3-turbo",
-    "kotoba-whisper-v1.0": "kotoba-tech/kotoba-whisper-v1.0",
     "kotoba-whisper-v2.0": "kotoba-tech/kotoba-whisper-v2.0",
     "anime-whisper": "litagin/anime-whisper",
 }
@@ -47,9 +45,9 @@ logger.success("Pipelines initialized!")
 @spaces.GPU
-def transcribe_common(audio: str, model: str) -> tuple[str, float]:
     if not audio:
-        return "No audio file", 0
     filename = Path(audio).name
     logger.info(f"Model: {model}")
     logger.info(f"Audio: {filename}")
@@ -60,35 +58,22 @@ def transcribe_common(audio: str, model: str) -> tuple[str, float]:
     logger.info(f"Duration: {duration:.2f}s")
     if duration > 15:
         logger.error(f"Audio too long, limit is 15 seconds, got {duration:.2f}s")
-        return f"Audio too long, limit is 15 seconds, got {duration:.2f}s", 0
     start_time = time.time()
     result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
     end_time = time.time()
     logger.success(f"Finished in {end_time - start_time:.2f}s\n{result}")
-    return result, end_time - start_time
-def transcribe_large_v2(audio) -> tuple[str, float]:
-    return transcribe_common(audio, "whisper-large-v2")
-def transcribe_large_v3(audio) -> tuple[str, float]:
-    return transcribe_common(audio, "whisper-large-v3")
-def transcribe_large_v3_turbo(audio) -> tuple[str, float]:
-    return transcribe_common(audio, "whisper-large-v3-turbo")
-def transcribe_kotoba_v1(audio) -> tuple[str, float]:
-    return transcribe_common(audio, "kotoba-whisper-v1.0")
-def transcribe_kotoba_v2(audio) -> tuple[str, float]:
-    return transcribe_common(audio, "kotoba-whisper-v2.0")
-def transcribe_anime_whisper(audio) -> tuple[str, float]:
     return transcribe_common(audio, "anime-whisper")
@@ -99,17 +84,16 @@ initial_md = """
 - https://huggingface.co/litagin/anime-whisper
 - デモでは**音声は15秒まで**しか受け付けません
 - 日本語のみ対応 (Japanese only)
-- 現在0.1エポックくらい
-- 比較できるように他モデルもついでに試せる
 pipeに渡しているkwargsは以下の最低限のもの:
 ```python
 generate_kwargs = {
     "language": "Japanese",
     "do_sample": False,
-    "num_beams": 1,
     "no_repeat_ngram_size": 0,
-    "max_new_tokens": 64,
 }
 ```
 """
@@ -121,54 +105,29 @@ with gr.Blocks() as app:
         with gr.Column():
             gr.Markdown("### Anime-Whisper")
             button_galgame = gr.Button("Transcribe with Anime-Whisper")
-            time_galgame = gr.Textbox(label="Time taken")
             output_galgame = gr.Textbox(label="Result")
     with gr.Row():
         with gr.Column():
             gr.Markdown("### Whisper-Large-V2")
-            button_v2 = gr.Button("Transcribe with Whisper-Large-V2")
-            time_v2 = gr.Textbox(label="Time taken")
             output_v2 = gr.Textbox(label="Result")
         with gr.Column():
             gr.Markdown("### Whisper-Large-V3")
-            button_v3 = gr.Button("Transcribe with Whisper-Large-V3")
-            time_v3 = gr.Textbox(label="Time taken")
             output_v3 = gr.Textbox(label="Result")
-        with gr.Column():
-            gr.Markdown("### Whisper-Large-V3-Turbo")
-            button_v3_turbo = gr.Button("Transcribe with Whisper-Large-V3-Turbo")
-            time_v3_turbo = gr.Textbox(label="Time taken")
-            output_v3_turbo = gr.Textbox(label="Result")
-    with gr.Row():
-        with gr.Column():
-            gr.Markdown("### Kotoba-Whisper-V1.0")
-            button_kotoba_v1 = gr.Button("Transcribe with Kotoba-Whisper-V1.0")
-            time_kotoba_v1 = gr.Textbox(label="Time taken")
-            output_kotoba_v1 = gr.Textbox(label="Result")
         with gr.Column():
             gr.Markdown("### Kotoba-Whisper-V2.0")
-            button_kotoba_v2 = gr.Button("Transcribe with Kotoba-Whisper-V2.0")
-            time_kotoba_v2 = gr.Textbox(label="Time taken")
             output_kotoba_v2 = gr.Textbox(label="Result")
-    button_v2.click(transcribe_large_v2, inputs=audio, outputs=[output_v2, time_v2])
-    button_v3.click(transcribe_large_v3, inputs=audio, outputs=[output_v3, time_v3])
-    button_v3_turbo.click(
-        transcribe_large_v3_turbo,
-        inputs=audio,
-        outputs=[output_v3_turbo, time_v3_turbo],
-    )
-    button_kotoba_v1.click(
-        transcribe_kotoba_v1, inputs=audio, outputs=[output_kotoba_v1, time_kotoba_v1]
-    )
-    button_kotoba_v2.click(
-        transcribe_kotoba_v2, inputs=audio, outputs=[output_kotoba_v2, time_kotoba_v2]
-    )
     button_galgame.click(
         transcribe_anime_whisper,
-        inputs=audio,
-        outputs=[output_galgame, time_galgame],
     )
-    # app.load(warmup, inputs=[], outputs=[warmup_result], queue=True)
 app.launch(inbrowser=True)

 model_dict = {
     "whisper-large-v2": "openai/whisper-large-v2",
     "whisper-large-v3": "openai/whisper-large-v3",
     "kotoba-whisper-v2.0": "kotoba-tech/kotoba-whisper-v2.0",
     "anime-whisper": "litagin/anime-whisper",
 }
 @spaces.GPU
+def transcribe_common(audio: str, model: str) -> str:
     if not audio:
+        return "No audio file"
     filename = Path(audio).name
     logger.info(f"Model: {model}")
     logger.info(f"Audio: {filename}")
     logger.info(f"Duration: {duration:.2f}s")
     if duration > 15:
         logger.error(f"Audio too long, limit is 15 seconds, got {duration:.2f}s")
+        return f"Audio too long, limit is 15 seconds, got {duration:.2f}s"
     start_time = time.time()
     result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
     end_time = time.time()
     logger.success(f"Finished in {end_time - start_time:.2f}s\n{result}")
+    return result
+def transcribe_others(audio) -> tuple[str, str, str]:
+    result_v2 = transcribe_common(audio, "whisper-large-v2")
+    result_v3 = transcribe_common(audio, "whisper-large-v3")
+    result_kotoba_v2 = transcribe_common(audio, "kotoba-whisper-v2.0")
+    return result_v2, result_v3, result_kotoba_v2
+def transcribe_anime_whisper(audio) -> str:
     return transcribe_common(audio, "anime-whisper")
 - https://huggingface.co/litagin/anime-whisper
 - デモでは**音声は15秒まで**しか受け付けません
 - 日本語のみ対応 (Japanese only)
+- 比較のために [openai/whisper-large-v2](https://huggingface.co/openai/whisper-large-v2) と [openai/whisper-large-v3](https://huggingface.co/openai/whisper-large-v3) と [kotoba-tech/kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) も用意しています
 pipeに渡しているkwargsは以下の最低限のもの:
 ```python
 generate_kwargs = {
     "language": "Japanese",
     "do_sample": False,
+    "num_beams": 1,[openai/whisper-large-v3](https://huggingface.co/openai/whisper-large-v3)
     "no_repeat_ngram_size": 0,
+    "max_new_tokens": 64,  # 結果が長いときは途中で打ち切る
 }
 ```
 """
         with gr.Column():
             gr.Markdown("### Anime-Whisper")
             button_galgame = gr.Button("Transcribe with Anime-Whisper")
             output_galgame = gr.Textbox(label="Result")
     with gr.Row():
+        gr.Markdown("### Comparison")
+        button_others = gr.Button("Transcribe with other models")
         with gr.Column():
             gr.Markdown("### Whisper-Large-V2")
             output_v2 = gr.Textbox(label="Result")
         with gr.Column():
             gr.Markdown("### Whisper-Large-V3")
             output_v3 = gr.Textbox(label="Result")
         with gr.Column():
             gr.Markdown("### Kotoba-Whisper-V2.0")
             output_kotoba_v2 = gr.Textbox(label="Result")
     button_galgame.click(
         transcribe_anime_whisper,
+        inputs=[audio],
+        outputs=[output_galgame],
+    )
+    button_others.click(
+        transcribe_others,
+        inputs=[audio],
+        outputs=[output_v2, output_v3, output_kotoba_v2],
     )
 app.launch(inbrowser=True)