nickprock
/

mmarco-bert-base-italian-uncased

@@ -65,34 +65,54 @@ Without [sentence-transformers](https://www.SBERT.net), you can use the model li
 from transformers import AutoTokenizer, AutoModel
 import torch
 #Mean Pooling - Take attention mask into account for correct averaging
 def mean_pooling(model_output, attention_mask):
-    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
     input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
     return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
 # Sentences we want sentence embeddings for
 query = "Quante persone vivono a Londra?"
 docs = ["A Londra vivono circa 9 milioni di persone", "Londra è conosciuta per il suo quartiere finanziario"]
 # Load model from HuggingFace Hub
-tokenizer = AutoTokenizer.from_pretrained('nickprock/sentence-bert-base-italian-uncased')
-model = AutoModel.from_pretrained('nickprock/sentence-bert-base-italian-uncased')
-# Tokenize sentences
-encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
-# Compute token embeddings
-with torch.no_grad():
-    model_output = model(**encoded_input)
-# Perform pooling. In this case, mean pooling.
-sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
-print("Sentence embeddings:")
-print(sentence_embeddings)
 ```

 from transformers import AutoTokenizer, AutoModel
 import torch
 #Mean Pooling - Take attention mask into account for correct averaging
 def mean_pooling(model_output, attention_mask):
+    token_embeddings = model_output.last_hidden_state
     input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
     return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
+#Encode text
+def encode(texts):
+    # Tokenize sentences
+    encoded_input = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
+    # Compute token embeddings
+    with torch.no_grad():
+        model_output = model(**encoded_input, return_dict=True)
+    # Perform pooling
+    embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
+    return embeddings
 # Sentences we want sentence embeddings for
 query = "Quante persone vivono a Londra?"
 docs = ["A Londra vivono circa 9 milioni di persone", "Londra è conosciuta per il suo quartiere finanziario"]
 # Load model from HuggingFace Hub
+tokenizer = AutoTokenizer.from_pretrained("nickprock/mmarco-bert-base-italian-uncased")
+model = AutoModel.from_pretrained("nickprock/mmarco-bert-base-italian-uncased")
+#Encode query and docs
+query_emb = encode(query)
+doc_emb = encode(docs)
+#Compute dot score between query and all document embeddings
+scores = torch.mm(query_emb, doc_emb.transpose(0, 1))[0].cpu().tolist()
+#Combine docs & scores
+doc_score_pairs = list(zip(docs, scores))
+#Sort by decreasing score
+doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
+#Output passages & scores
+print("Query:", query)
+for doc, score in doc_score_pairs:
+    print(score, doc)
 ```