LIFineTuned

Paused

App Files Files Community

alexkueck commited on Aug 12, 2023

Commit

c95c225

1 Parent(s): ca8a270

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -1

app.py CHANGED Viewed

@@ -98,7 +98,8 @@ dataset_neu = daten_laden("alexkueck/tis")
 #############################################
 #Vorbereiten für das Training der neuen Daten
 #############################################
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
@@ -138,6 +139,7 @@ metric = evaluate.load("accuracy")   # 3 Arten von gegebener Metrik: f1  oder ro
 ####################################################
 #Training
 ####################################################
 print ("training args")
 #Training Args
 batch_size = 2
@@ -173,6 +175,7 @@ training_args = TrainingArguments(
 ############################################
 #def trainieren_neu(name):
 #Trainer zusammenstellen
 print ("trainer")
 trainer = Trainer(
         model=model,
@@ -204,11 +207,13 @@ trainer = QuestionAnsweringTrainer(
 #trainer ausführen
 trainer.train()
 #Wenn man vom letzten checkpoint aus weiter trainieren möchte: trainer.train(resume_from_checkpoint=True)
 print("trained!!!!!")
 ##################
 #Evaluate the new Model auf evual dataset
 print("Evaluate:")
 trainer.evaluate(eval_dataset=lm_datasets["test"])
 print("Done Eval")
@@ -222,6 +227,7 @@ print("Done Eval")
 #####################################
 #Push to Hub
 print("push to hub")
 login(token=os.environ["HF_WRITE_TOKEN"])
 trainer.push_to_hub("alexkueck/li-tis-tuned-2")

 #############################################
 #Vorbereiten für das Training der neuen Daten
 #############################################
+print ("################################")
+print("Datenset vorbereiten")
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
 ####################################################
 #Training
 ####################################################
+print ("################################")
 print ("training args")
 #Training Args
 batch_size = 2
 ############################################
 #def trainieren_neu(name):
 #Trainer zusammenstellen
+print ("################################")
 print ("trainer")
 trainer = Trainer(
         model=model,
 #trainer ausführen
 trainer.train()
 #Wenn man vom letzten checkpoint aus weiter trainieren möchte: trainer.train(resume_from_checkpoint=True)
+print ("################################")
 print("trained!!!!!")
 ##################
 #Evaluate the new Model auf evual dataset
+print ("################################")
 print("Evaluate:")
 trainer.evaluate(eval_dataset=lm_datasets["test"])
 print("Done Eval")
 #####################################
 #Push to Hub
+print ("################################")
 print("push to hub")
 login(token=os.environ["HF_WRITE_TOKEN"])
 trainer.push_to_hub("alexkueck/li-tis-tuned-2")