Spaces:

vikramvasudevan
/

sanatan_ai

Running on CPU Upgrade

App Files Files Community

vikramvasudevan commited on Oct 10

Commit

2ff9f44

verified ·

1 Parent(s): 48189d1

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

db.py +4 -0
server.py +71 -16

db.py CHANGED Viewed

@@ -105,6 +105,10 @@ class SanatanDatabase:
             else None
         )
         data = collection.get(include=["metadatas", "documents"], where=where_clause)
         if data["metadatas"]:

             else None
         )
+        # If the conversion returns an empty dict, treat it as None
+        if isinstance(where_clause, dict) and not where_clause:
+            where_clause = None
         data = collection.get(include=["metadatas", "documents"], where=where_clause)
         if data["metadatas"]:

server.py CHANGED Viewed

@@ -285,52 +285,107 @@ async def get_scripture_configs():
     return {"scriptures": sorted(scriptures, key=lambda s: s["title"])}
 @router.post("/scripture/{scripture_name}/search")
 async def search_scripture_find_first_match(
     scripture_name: str,
-    filter_obj: Optional[MetadataWhereClause] = None,
 ):
     """
-    Search scripture collection with optional filters.
     - `scripture_name`: Name of the collection
     - `filter_obj`: MetadataWhereClause (filters, groups, operator)
-    - `n_results`: number of random results to return
     """
     try:
         logger.info(
-            "search_scripture: searching for %s with filters %s",
             scripture_name,
             filter_obj,
         )
         db = SanatanDatabase()
         config = next(
-            (s for s in SanatanConfig().scriptures if s["name"] == scripture_name), None
         )
         results = db.fetch_first_match(
             collection_name=config["collection_name"],
             metadata_where_clause=filter_obj,
         )
-        # print("results = ", results)
-        # Flatten + canonicalize results
         formatted_results = []
         for i in range(len(results["metadatas"])):
-            id = results["ids"][i]
             metadata_doc = results["metadatas"][i]
-            metadata_doc["id"] = id
-            # print("metadata_doc = ", metadata_doc)
             document_text = (
                 results["documents"][i] if results.get("documents") else None
             )
             canonical_doc = SanatanConfig().canonicalize_document(
                 scripture_name, document_text, metadata_doc
             )
             formatted_results.append(canonical_doc)
-        # print("formatted_results = ", formatted_results)
-        return {"results": formatted_results}
     except Exception as e:
         logger.error("Error while searching %s", e, exc_info=True)
@@ -341,7 +396,7 @@ class ScriptureMultiSearchRequest(BaseModel):
     filter_obj: Optional[MetadataWhereClause] = None
     page: int = 1
     page_size: int = 20
-    has_audio: Optional[AudioType] = None  # new optional field
 @router.post("/scripture/{scripture_name}/search/all")
@@ -367,7 +422,7 @@ async def search_scripture_find_all_matches(
             filter_obj,
             page,
             page_size,
-            has_audio
         )
         db = SanatanDatabase()
@@ -458,7 +513,7 @@ async def search_scripture_find_all_matches(
             "page": page,
             "page_size": page_size,
         }
     except Exception as e:
         logger.error("Error while searching %s", e, exc_info=True)
         return {"error": str(e)}

     return {"scriptures": sorted(scriptures, key=lambda s: s["title"])}
+class ScriptureFirstSearchRequst(BaseModel):
+    filter_obj: Optional[MetadataWhereClause] = None
+    has_audio: Optional[AudioType] = None
 @router.post("/scripture/{scripture_name}/search")
 async def search_scripture_find_first_match(
     scripture_name: str,
+    req: ScriptureFirstSearchRequst,
 ):
     """
+    Search scripture collection and return the first matching result.
     - `scripture_name`: Name of the collection
     - `filter_obj`: MetadataWhereClause (filters, groups, operator)
+    - `has_audio`: optional. can take values any|none|recitation|virutham|upanyasam
     """
+    filter_obj = req.filter_obj
+    has_audio = req.has_audio
     try:
         logger.info(
+            "search_scripture_find_first_match: searching for %s with filters=%s | has_audio=%s",
             scripture_name,
             filter_obj,
+            has_audio,
         )
         db = SanatanDatabase()
         config = next(
+            (s for s in SanatanConfig().scriptures if s["name"] == scripture_name),
+            None,
         )
+        if not config:
+            return {"error": f"Scripture '{scripture_name}' not found"}
+        # 1️⃣ Fetch results (same as before)
         results = db.fetch_first_match(
             collection_name=config["collection_name"],
             metadata_where_clause=filter_obj,
         )
         formatted_results = []
         for i in range(len(results["metadatas"])):
+            doc_id = results["ids"][i]
             metadata_doc = results["metadatas"][i]
+            metadata_doc["id"] = doc_id
             document_text = (
                 results["documents"][i] if results.get("documents") else None
             )
             canonical_doc = SanatanConfig().canonicalize_document(
                 scripture_name, document_text, metadata_doc
             )
             formatted_results.append(canonical_doc)
+        # 2️⃣ Apply has_audio filter (same logic as in search_scripture_find_all_matches)
+        if has_audio and formatted_results:
+            if has_audio == AudioType.none:
+                # Get all indices that have any audio
+                all_audio_indices = set()
+                for atype in [
+                    AudioType.recitation,
+                    AudioType.virutham,
+                    AudioType.upanyasam,
+                    AudioType.santhai,
+                ]:
+                    indices = await svc_get_indices_with_audio(scripture_name, atype)
+                    all_audio_indices.update(indices)
+                # Keep only those without audio
+                formatted_results = [
+                    r
+                    for r in formatted_results
+                    if r["_global_index"] not in all_audio_indices
+                ]
+            else:
+                if has_audio == AudioType.any:
+                    audio_indices = set()
+                    for atype in [
+                        AudioType.recitation,
+                        AudioType.virutham,
+                        AudioType.upanyasam,
+                        AudioType.santhai,
+                    ]:
+                        indices = await svc_get_indices_with_audio(
+                            scripture_name, atype
+                        )
+                        audio_indices.update(indices)
+                else:
+                    audio_indices = set(
+                        await svc_get_indices_with_audio(scripture_name, has_audio)
+                    )
+                formatted_results = [
+                    r for r in formatted_results if r["_global_index"] in audio_indices
+                ]
+        # 3️⃣ Return only the first valid result (if any)
+        return {
+            "results": formatted_results[:1] if formatted_results else [],
+        }
     except Exception as e:
         logger.error("Error while searching %s", e, exc_info=True)
     filter_obj: Optional[MetadataWhereClause] = None
     page: int = 1
     page_size: int = 20
+    has_audio: Optional[AudioType] = None
 @router.post("/scripture/{scripture_name}/search/all")
             filter_obj,
             page,
             page_size,
+            has_audio,
         )
         db = SanatanDatabase()
             "page": page,
             "page_size": page_size,
         }
     except Exception as e:
         logger.error("Error while searching %s", e, exc_info=True)
         return {"error": str(e)}