Spaces:

nickmuchi
/

Earnings-Call-Analysis-Whisperer

Running

nickmuchi commited on May 15, 2023

Commit

cac7541

1 Parent(s): 262e678

Update functions.py

Files changed (1) hide show

functions.py CHANGED Viewed

@@ -132,7 +132,7 @@ def load_models():
     ner_tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
     emb_tokenizer = AutoTokenizer.from_pretrained('google/flan-t5-xl')
     sent_pipe = pipeline("text-classification",model=q_model, tokenizer=q_tokenizer)
-    sum_pipe = pipeline("summarization",model="philschmid/flan-t5-base-samsum")
     ner_pipe = pipeline("ner", model=ner_model, tokenizer=ner_tokenizer, grouped_entities=True)
     cross_encoder = CrossEncoder('cross-encoder/mmarco-mMiniLMv2-L12-H384-v1') #cross-encoder/ms-marco-MiniLM-L-12-v2
     sbert = SentenceTransformer('all-MiniLM-L6-v2')
@@ -366,7 +366,12 @@ def chunk_and_preprocess_text(text, model_name= 'philschmid/flan-t5-base-samsum'
 def summarize_text(text_to_summarize,max_len,min_len):
     '''Summarize text with HF model'''
-    summarized_text = sum_pipe(text_to_summarize,max_length=max_len,min_length=min_len,do_sample=False)
     summarized_text = ' '.join([summ['summary_text'] for summ in summarized_text])
     return summarized_text

     ner_tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
     emb_tokenizer = AutoTokenizer.from_pretrained('google/flan-t5-xl')
     sent_pipe = pipeline("text-classification",model=q_model, tokenizer=q_tokenizer)
+    sum_pipe = pipeline("summarization",model="philschmid/flan-t5-base-samsum",clean_up_tokenization_spaces=True)
     ner_pipe = pipeline("ner", model=ner_model, tokenizer=ner_tokenizer, grouped_entities=True)
     cross_encoder = CrossEncoder('cross-encoder/mmarco-mMiniLMv2-L12-H384-v1') #cross-encoder/ms-marco-MiniLM-L-12-v2
     sbert = SentenceTransformer('all-MiniLM-L6-v2')
 def summarize_text(text_to_summarize,max_len,min_len):
     '''Summarize text with HF model'''
+    summarized_text = sum_pipe(text_to_summarize,
+                               max_length=max_len,
+                               min_length=min_len,
+                               do_sample=False,
+                               early_stopping=True,
+                              num_beams=4)
     summarized_text = ' '.join([summ['summary_text'] for summ in summarized_text])
     return summarized_text