Spaces:

minhvtt
/

EBD_Fest

Running

App Files Files Community

minhvtt commited on 24 days ago

Commit

757838b

verified ·

1 Parent(s): f056202

Update qdrant_service.py

Browse files

Files changed (1) hide show

qdrant_service.py +137 -20

qdrant_service.py CHANGED Viewed

@@ -106,26 +106,52 @@ class QdrantVectorService:
         else:
             print("✓ Collection already exists")
     def index_data(
         self,
         doc_id: str,
         embedding: np.ndarray,
         metadata: Dict[str, Any]
-    ) -> str:
         """
         Index data vào Qdrant
         Args:
-            doc_id: ID của document (event/social media post)
             embedding: Vector embedding từ Jina CLIP
             metadata: Metadata (text, image_url, event_info, etc.)
         Returns:
-            ID của point đã index
         """
-        # Generate UUID nếu không có ID
-        if not doc_id:
-            doc_id = str(uuid.uuid4())
         # Ensure embedding là 1D array
         if len(embedding.shape) > 1:
@@ -133,7 +159,7 @@ class QdrantVectorService:
         # Create point
         point = PointStruct(
-            id=doc_id,
             vector=embedding.tolist(),
             payload=metadata
         )
@@ -144,41 +170,53 @@ class QdrantVectorService:
             points=[point]
         )
-        return doc_id
     def batch_index(
         self,
         doc_ids: List[str],
         embeddings: np.ndarray,
         metadata_list: List[Dict[str, Any]]
-    ) -> List[str]:
         """
         Batch index nhiều documents cùng lúc
         Args:
-            doc_ids: List of document IDs
             embeddings: Numpy array of embeddings (n_samples, embedding_dim)
             metadata_list: List of metadata dicts
         Returns:
-            List of indexed IDs
         """
         points = []
         for i, (doc_id, embedding, metadata) in enumerate(zip(doc_ids, embeddings, metadata_list)):
-            if not doc_id:
-                doc_id = str(uuid.uuid4())
             # Ensure embedding là 1D
             if len(embedding.shape) > 1:
                 embedding = embedding.flatten()
             points.append(PointStruct(
-                id=doc_id,
                 vector=embedding.tolist(),
                 payload=metadata
             ))
         # Batch upsert
         self.client.upsert(
             collection_name=self.collection_name,
@@ -186,7 +224,7 @@ class QdrantVectorService:
             wait=True  # Wait for indexing to complete
         )
-        return doc_ids
     def search(
         self,
@@ -233,11 +271,15 @@ class QdrantVectorService:
             with_vectors=False  # Không cần return vectors
         )
-        # Format results
         results = []
         for hit in search_result:
             results.append({
-                "id": hit.id,
                 "confidence": float(hit.score),  # Cosine similarity score
                 "metadata": hit.payload
             })
@@ -297,20 +339,95 @@ class QdrantVectorService:
     def delete_by_id(self, doc_id: str) -> bool:
         """
-        Delete document by ID
         Args:
-            doc_id: Document ID to delete
         Returns:
             Success status
         """
         self.client.delete(
             collection_name=self.collection_name,
-            points_selector=[doc_id]
         )
         return True
     def get_collection_info(self) -> Dict[str, Any]:
         """
         Lấy thông tin collection

         else:
             print("✓ Collection already exists")
+    def _convert_to_valid_id(self, doc_id: str) -> str:
+        """
+        Convert bất kỳ string ID nào thành UUID hợp lệ cho Qdrant
+        Args:
+            doc_id: Original ID (có thể là MongoDB ObjectId, string, etc.)
+        Returns:
+            UUID string hợp lệ
+        """
+        if not doc_id:
+            return str(uuid.uuid4())
+        # Nếu đã là UUID hợp lệ, giữ nguyên
+        try:
+            uuid.UUID(doc_id)
+            return doc_id
+        except ValueError:
+            pass
+        # Convert string sang UUID deterministic (cùng input = cùng UUID)
+        # Sử dụng UUID v5 với namespace DNS
+        return str(uuid.uuid5(uuid.NAMESPACE_DNS, doc_id))
     def index_data(
         self,
         doc_id: str,
         embedding: np.ndarray,
         metadata: Dict[str, Any]
+    ) -> Dict[str, str]:
         """
         Index data vào Qdrant
         Args:
+            doc_id: ID của document (MongoDB ObjectId, string, etc.)
             embedding: Vector embedding từ Jina CLIP
             metadata: Metadata (text, image_url, event_info, etc.)
         Returns:
+            Dict với original_id và qdrant_id
         """
+        # Convert ID thành UUID hợp lệ
+        qdrant_id = self._convert_to_valid_id(doc_id)
+        # Lưu original ID vào metadata
+        metadata['original_id'] = doc_id
         # Ensure embedding là 1D array
         if len(embedding.shape) > 1:
         # Create point
         point = PointStruct(
+            id=qdrant_id,
             vector=embedding.tolist(),
             payload=metadata
         )
             points=[point]
         )
+        return {
+            "original_id": doc_id,
+            "qdrant_id": qdrant_id
+        }
     def batch_index(
         self,
         doc_ids: List[str],
         embeddings: np.ndarray,
         metadata_list: List[Dict[str, Any]]
+    ) -> List[Dict[str, str]]:
         """
         Batch index nhiều documents cùng lúc
         Args:
+            doc_ids: List of document IDs (MongoDB ObjectId, string, etc.)
             embeddings: Numpy array of embeddings (n_samples, embedding_dim)
             metadata_list: List of metadata dicts
         Returns:
+            List of dicts với original_id và qdrant_id
         """
         points = []
+        id_mappings = []
         for i, (doc_id, embedding, metadata) in enumerate(zip(doc_ids, embeddings, metadata_list)):
+            # Convert to valid UUID
+            qdrant_id = self._convert_to_valid_id(doc_id)
+            # Lưu original ID vào metadata
+            metadata['original_id'] = doc_id
             # Ensure embedding là 1D
             if len(embedding.shape) > 1:
                 embedding = embedding.flatten()
             points.append(PointStruct(
+                id=qdrant_id,
                 vector=embedding.tolist(),
                 payload=metadata
             ))
+            id_mappings.append({
+                "original_id": doc_id,
+                "qdrant_id": qdrant_id
+            })
         # Batch upsert
         self.client.upsert(
             collection_name=self.collection_name,
             wait=True  # Wait for indexing to complete
         )
+        return id_mappings
     def search(
         self,
             with_vectors=False  # Không cần return vectors
         )
+        # Format results - trả về original_id thay vì UUID
         results = []
         for hit in search_result:
+            # Lấy original_id từ metadata (MongoDB ObjectId)
+            original_id = hit.payload.get('original_id', hit.id)
             results.append({
+                "id": original_id,  # Trả về MongoDB ObjectId
+                "qdrant_id": hit.id,  # UUID trong Qdrant
                 "confidence": float(hit.score),  # Cosine similarity score
                 "metadata": hit.payload
             })
     def delete_by_id(self, doc_id: str) -> bool:
         """
+        Delete document by ID (hỗ trợ cả MongoDB ObjectId và UUID)
         Args:
+            doc_id: Document ID to delete (MongoDB ObjectId hoặc UUID)
         Returns:
             Success status
         """
+        # Convert to UUID nếu là MongoDB ObjectId
+        qdrant_id = self._convert_to_valid_id(doc_id)
         self.client.delete(
             collection_name=self.collection_name,
+            points_selector=[qdrant_id]
         )
         return True
+    def get_by_id(self, doc_id: str) -> Optional[Dict[str, Any]]:
+        """
+        Get document by ID (hỗ trợ cả MongoDB ObjectId và UUID)
+        Args:
+            doc_id: Document ID (MongoDB ObjectId hoặc UUID)
+        Returns:
+            Document data hoặc None nếu không tìm thấy
+        """
+        # Convert to UUID nếu là MongoDB ObjectId
+        qdrant_id = self._convert_to_valid_id(doc_id)
+        try:
+            result = self.client.retrieve(
+                collection_name=self.collection_name,
+                ids=[qdrant_id],
+                with_payload=True,
+                with_vectors=False
+            )
+            if result:
+                point = result[0]
+                original_id = point.payload.get('original_id', point.id)
+                return {
+                    "id": original_id,  # MongoDB ObjectId
+                    "qdrant_id": point.id,  # UUID trong Qdrant
+                    "metadata": point.payload
+                }
+            return None
+        except Exception as e:
+            print(f"Error retrieving document: {e}")
+            return None
+    def search_by_metadata(
+        self,
+        filter_conditions: Dict,
+        limit: int = 100
+    ) -> List[Dict[str, Any]]:
+        """
+        Search documents by metadata conditions (không cần embedding)
+        Args:
+            filter_conditions: Qdrant filter conditions
+            limit: Maximum số results
+        Returns:
+            List of matching documents
+        """
+        try:
+            result = self.client.scroll(
+                collection_name=self.collection_name,
+                scroll_filter=filter_conditions,
+                limit=limit,
+                with_payload=True,
+                with_vectors=False
+            )
+            documents = []
+            for point in result[0]:  # result is tuple (points, next_page_offset)
+                original_id = point.payload.get('original_id', point.id)
+                documents.append({
+                    "id": original_id,  # MongoDB ObjectId
+                    "qdrant_id": point.id,  # UUID trong Qdrant
+                    "metadata": point.payload
+                })
+            return documents
+        except Exception as e:
+            print(f"Error searching by metadata: {e}")
+            return []
     def get_collection_info(self) -> Dict[str, Any]:
         """
         Lấy thông tin collection