Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
|
@@ -98,7 +98,8 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
| 98 |
#############################################
|
| 99 |
#Vorbereiten für das Training der neuen Daten
|
| 100 |
#############################################
|
| 101 |
-
|
|
|
|
| 102 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
| 103 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
| 104 |
|
|
@@ -138,6 +139,7 @@ metric = evaluate.load("accuracy") # 3 Arten von gegebener Metrik: f1 oder ro
|
|
| 138 |
####################################################
|
| 139 |
#Training
|
| 140 |
####################################################
|
|
|
|
| 141 |
print ("training args")
|
| 142 |
#Training Args
|
| 143 |
batch_size = 2
|
|
@@ -173,6 +175,7 @@ training_args = TrainingArguments(
|
|
| 173 |
############################################
|
| 174 |
#def trainieren_neu(name):
|
| 175 |
#Trainer zusammenstellen
|
|
|
|
| 176 |
print ("trainer")
|
| 177 |
trainer = Trainer(
|
| 178 |
model=model,
|
|
@@ -204,11 +207,13 @@ trainer = QuestionAnsweringTrainer(
|
|
| 204 |
#trainer ausführen
|
| 205 |
trainer.train()
|
| 206 |
#Wenn man vom letzten checkpoint aus weiter trainieren möchte: trainer.train(resume_from_checkpoint=True)
|
|
|
|
| 207 |
print("trained!!!!!")
|
| 208 |
|
| 209 |
|
| 210 |
##################
|
| 211 |
#Evaluate the new Model auf evual dataset
|
|
|
|
| 212 |
print("Evaluate:")
|
| 213 |
trainer.evaluate(eval_dataset=lm_datasets["test"])
|
| 214 |
print("Done Eval")
|
|
@@ -222,6 +227,7 @@ print("Done Eval")
|
|
| 222 |
|
| 223 |
#####################################
|
| 224 |
#Push to Hub
|
|
|
|
| 225 |
print("push to hub")
|
| 226 |
login(token=os.environ["HF_WRITE_TOKEN"])
|
| 227 |
trainer.push_to_hub("alexkueck/li-tis-tuned-2")
|
|
|
|
| 98 |
#############################################
|
| 99 |
#Vorbereiten für das Training der neuen Daten
|
| 100 |
#############################################
|
| 101 |
+
print ("################################")
|
| 102 |
+
print("Datenset vorbereiten")
|
| 103 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
| 104 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
| 105 |
|
|
|
|
| 139 |
####################################################
|
| 140 |
#Training
|
| 141 |
####################################################
|
| 142 |
+
print ("################################")
|
| 143 |
print ("training args")
|
| 144 |
#Training Args
|
| 145 |
batch_size = 2
|
|
|
|
| 175 |
############################################
|
| 176 |
#def trainieren_neu(name):
|
| 177 |
#Trainer zusammenstellen
|
| 178 |
+
print ("################################")
|
| 179 |
print ("trainer")
|
| 180 |
trainer = Trainer(
|
| 181 |
model=model,
|
|
|
|
| 207 |
#trainer ausführen
|
| 208 |
trainer.train()
|
| 209 |
#Wenn man vom letzten checkpoint aus weiter trainieren möchte: trainer.train(resume_from_checkpoint=True)
|
| 210 |
+
print ("################################")
|
| 211 |
print("trained!!!!!")
|
| 212 |
|
| 213 |
|
| 214 |
##################
|
| 215 |
#Evaluate the new Model auf evual dataset
|
| 216 |
+
print ("################################")
|
| 217 |
print("Evaluate:")
|
| 218 |
trainer.evaluate(eval_dataset=lm_datasets["test"])
|
| 219 |
print("Done Eval")
|
|
|
|
| 227 |
|
| 228 |
#####################################
|
| 229 |
#Push to Hub
|
| 230 |
+
print ("################################")
|
| 231 |
print("push to hub")
|
| 232 |
login(token=os.environ["HF_WRITE_TOKEN"])
|
| 233 |
trainer.push_to_hub("alexkueck/li-tis-tuned-2")
|