Spaces:

VeuReu
/

engine

Running

App Files Files Community

VeuReu commited on 11 days ago

Commit

648c0b6

verified ·

1 Parent(s): ed7696e

Upload 6 files

Browse files

Files changed (3) hide show

audio_tools.py +12 -1
config.yaml +2 -2
llm_router.py +17 -11

audio_tools.py CHANGED Viewed

@@ -119,7 +119,18 @@ def transcribe_audio_remote(audio_path: str | Path, cfg: Dict[str, Any]) -> Dict
         "timestamps": True,
         "diarization": False,  # diarization stays local
     }
-    result = router.asr_transcribe(str(audio_path), model=model_name, **params)
     if isinstance(result, str):
         return {"text": result, "segments": []}

         "timestamps": True,
         "diarization": False,  # diarization stays local
     }
+    try:
+        result = router.asr_transcribe(str(audio_path), model=model_name, **params)
+    except Exception as e:
+        try:
+            import httpx
+            if isinstance(e, httpx.ReadTimeout):
+                log.warning(f"ASR timeout for {audio_path}: {e}")
+                return {"text": "", "segments": []}
+        except Exception:
+            pass
+        log.warning(f"ASR error for {audio_path}: {e}")
+        return {"text": "", "segments": []}
     if isinstance(result, str):
         return {"text": result, "segments": []}

config.yaml CHANGED Viewed

@@ -55,8 +55,8 @@ audio_processing:
   diarization:
     enabled: true
-    min_segment_duration: 20.0     # en segundos (post-procesado de turnos)
-    max_segment_duration: 50.0
   enable_voice_embeddings: true     # SpeechBrain ECAPA
   speaker_embedding:

   diarization:
     enabled: true
+    min_segment_duration: 0.5      # en segundos (clips cortos)
+    max_segment_duration: 10.0
   enable_voice_embeddings: true     # SpeechBrain ECAPA
   speaker_embedding:

llm_router.py CHANGED Viewed

@@ -23,18 +23,20 @@ class LLMRouter:
         token_enabled = cfg.get("security", {}).get("use_hf_token", False)
         hf_token = os.getenv(cfg.get("security", {}).get("hf_token_env", "HF_TOKEN")) if token_enabled else None
-        def mk(endpoint_key: str, cls):
             info = eps.get(endpoint_key, {})
             base_url = info.get("base_url") or f"https://{base_user}-{info.get('space')}.hf.space"
             use_gradio = (info.get("client", "gradio") == "gradio")
             timeout = int(cfg.get("remote_spaces", {}).get("http", {}).get("timeout_seconds", 180))
-            return cls(base_url=base_url, use_gradio=use_gradio, hf_token=hf_token, timeout=timeout)
-        self.clients = {
-            "salamandra-instruct": mk("salamandra-instruct", InstructClient),
-            "salamandra-vision": mk("salamandra-vision", VisionClient),
-            "salamandra-tools": mk("salamandra-tools", ToolsClient),
-            "whisper-catalan": mk("whisper-catalan", ASRClient),
         }
         self.service_names = {
@@ -56,7 +58,8 @@ class LLMRouter:
         if model in self.rem:
             self._log_connect(model, "connect")
             t0 = time.time()
-            out = self.clients[model].generate(prompt, system=system, **kwargs)  # type: ignore
             self._log_connect(model, "done", time.time() - t0)
             return out
         raise RuntimeError(f"Modelo local no implementado para: {model}")
@@ -66,7 +69,8 @@ class LLMRouter:
         if model in self.rem:
             self._log_connect(model, "connect")
             t0 = time.time()
-            out = self.clients[model].describe(image_paths, context=context, **kwargs)  # type: ignore
             self._log_connect(model, "done", time.time() - t0)
             return out
         raise RuntimeError(f"Modelo local no implementado para: {model}")
@@ -76,7 +80,8 @@ class LLMRouter:
         if model in self.rem:
             self._log_connect(model, "connect")
             t0 = time.time()
-            out = self.clients[model].chat(messages, tools=tools, **kwargs)  # type: ignore
             self._log_connect(model, "done", time.time() - t0)
             return out
         raise RuntimeError(f"Modelo local no implementado para: {model}")
@@ -86,7 +91,8 @@ class LLMRouter:
         if model in self.rem:
             self._log_connect(model, "connect")
             t0 = time.time()
-            out = self.clients[model].transcribe(audio_path, **kwargs)  # type: ignore
             self._log_connect(model, "done", time.time() - t0)
             return out
         raise RuntimeError(f"Modelo local no implementado para: {model}")

         token_enabled = cfg.get("security", {}).get("use_hf_token", False)
         hf_token = os.getenv(cfg.get("security", {}).get("hf_token_env", "HF_TOKEN")) if token_enabled else None
+        def mk_factory(endpoint_key: str, cls):
             info = eps.get(endpoint_key, {})
             base_url = info.get("base_url") or f"https://{base_user}-{info.get('space')}.hf.space"
             use_gradio = (info.get("client", "gradio") == "gradio")
             timeout = int(cfg.get("remote_spaces", {}).get("http", {}).get("timeout_seconds", 180))
+            def _factory():
+                return cls(base_url=base_url, use_gradio=use_gradio, hf_token=hf_token, timeout=timeout)
+            return _factory
+        self.client_factories = {
+            "salamandra-instruct": mk_factory("salamandra-instruct", InstructClient),
+            "salamandra-vision": mk_factory("salamandra-vision", VisionClient),
+            "salamandra-tools": mk_factory("salamandra-tools", ToolsClient),
+            "whisper-catalan": mk_factory("whisper-catalan", ASRClient),
         }
         self.service_names = {
         if model in self.rem:
             self._log_connect(model, "connect")
             t0 = time.time()
+            client = self.client_factories[model]()
+            out = client.generate(prompt, system=system, **kwargs)  # type: ignore
             self._log_connect(model, "done", time.time() - t0)
             return out
         raise RuntimeError(f"Modelo local no implementado para: {model}")
         if model in self.rem:
             self._log_connect(model, "connect")
             t0 = time.time()
+            client = self.client_factories[model]()
+            out = client.describe(image_paths, context=context, **kwargs)  # type: ignore
             self._log_connect(model, "done", time.time() - t0)
             return out
         raise RuntimeError(f"Modelo local no implementado para: {model}")
         if model in self.rem:
             self._log_connect(model, "connect")
             t0 = time.time()
+            client = self.client_factories[model]()
+            out = client.chat(messages, tools=tools, **kwargs)  # type: ignore
             self._log_connect(model, "done", time.time() - t0)
             return out
         raise RuntimeError(f"Modelo local no implementado para: {model}")
         if model in self.rem:
             self._log_connect(model, "connect")
             t0 = time.time()
+            client = self.client_factories[model]()
+            out = client.transcribe(audio_path, **kwargs)  # type: ignore
             self._log_connect(model, "done", time.time() - t0)
             return out
         raise RuntimeError(f"Modelo local no implementado para: {model}")