Spaces:

teragron
/

docstraction

Sleeping

App Files Files Community

Can Günen commited on May 10, 2023

Commit

dee6fb6

1 Parent(s): 6a757a3

fixed path redirection

Browse files

Files changed (1) hide show

app.py +19 -24

app.py CHANGED Viewed

@@ -1,34 +1,26 @@
-# -*- coding: utf-8 -*-
-"""
-Created on Mon May  8 00:32:30 2023
-@author: ahmet
-"""
-import pdfplumber
-import gradio as gr
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from pathlib import Path
 def respond(pdf_file, upper_page=0):
     pdf_file = Path(pdf_file.name)
-    #pdf_file_name = pdf_file.name
-    all_text = ''
     with pdfplumber.open(pdf_file) as pdf:
         total_pages = len(pdf.pages)
         for idx, pdf_page in enumerate(pdf.pages):
-            if int(upper_page) !=0 and idx<int(upper_page):
-               single_page_text = pdf_page.extract_text()
-               all_text = all_text + '\n' + single_page_text
-               print(idx/total_pages)
-            else:
-                break
     tokenizer=AutoTokenizer.from_pretrained('Einmalumdiewelt/T5-Base_GNAD')
     model=AutoModelForSeq2SeqLM.from_pretrained('Einmalumdiewelt/T5-Base_GNAD', return_dict=True)
-    inputs=tokenizer.encode("sumarize: " +all_text, return_tensors='pt', max_length=512, truncation=True)
     output = model.generate(inputs, min_length=70, max_length=80)
     summary=tokenizer.decode(output[0])
-    return summary
 with gr.Blocks() as demo:
@@ -37,11 +29,14 @@ with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column():
             file_input = gr.File(label="PDF File", type="file")
-            page_input = gr.Text(label="Page Limit")
-            summarize = gr.Button("Summarize")
-        text_output = gr.Textbox(label="Summarized text")
-    summarize.click(fn=respond, inputs=[file_input, page_input], outputs=text_output)
 demo.launch(debug=True)

 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from pathlib import Path
+import pdfplumber
+import gradio as gr
 def respond(pdf_file, upper_page=0):
     pdf_file = Path(pdf_file.name)
+    all_text = ""
     with pdfplumber.open(pdf_file) as pdf:
         total_pages = len(pdf.pages)
         for idx, pdf_page in enumerate(pdf.pages):
+            single_page_text = pdf_page.extract_text()
+            all_text = all_text + "\n" + single_page_text
+            #print(idx / total_pages)
     tokenizer=AutoTokenizer.from_pretrained('Einmalumdiewelt/T5-Base_GNAD')
     model=AutoModelForSeq2SeqLM.from_pretrained('Einmalumdiewelt/T5-Base_GNAD', return_dict=True)
+    inputs=tokenizer.encode("summarize: " +all_text, return_tensors='pt', max_length=512, truncation=True)
     output = model.generate(inputs, min_length=70, max_length=80)
     summary=tokenizer.decode(output[0])
+    return summary, all_text
 with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column():
             file_input = gr.File(label="PDF File", type="file")
+            page_input = gr.Textbox(label="Page Limit")
+            summarize_button = gr.Button(label="Summarize")
+        with gr.Column():
+            summary_output = gr.Textbox(label="Summarized Text")
+        with gr.Column():
+            text_output =gr.Textbox(label="Extracted Text")
+    summarize_button.click(respond, inputs=[file_input, page_input], outputs=[summary_output, text_output])
 demo.launch(debug=True)