eageringdev commited on
Commit
2822a7d
·
verified ·
1 Parent(s): 6104a3d

Training in progress, step 1113, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:01b33e5779d5c081ee0b4a0d95a6277c802b1773775a70971b595ac00ec453e4
3
  size 59933632
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a70ff39eb45330b1ddbae0149c139b83df07041d2a2d17a82a8769548637cf05
3
  size 59933632
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5d4612193fe89b21222ce58ea2429d3d4c918abc69549c99845a1ace806358d7
3
  size 31823460
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:49b98ec65f885b1f8233988bab550c3af663d282c2f346bee0e514d624f3a5bd
3
  size 31823460
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e59b3ad285615346c056a4551f647306498ddec3822fa41b4697c4a5122e0e21
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f99bb828da8c7c17d7f02755c7a92aa763a6dcb6d8cb0eb635b68af4ff58eb8
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9fa867c095b4a014da7f66b0d54beeb6a8f5dcae3aa3c47a437dc48d09fba731
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3ed33cf7a576c85290ba9fb49df664a3aa86d2fd4fa421aec86f72d269d77c0a
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.2872628726287263,
5
  "eval_steps": 500,
6
- "global_step": 742,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5201,6 +5201,2603 @@
5201
  "learning_rate": 5.0265515372575956e-05,
5202
  "loss": 0.0005,
5203
  "step": 742
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5204
  }
5205
  ],
5206
  "logging_steps": 1,
@@ -5220,7 +7817,7 @@
5220
  "attributes": {}
5221
  }
5222
  },
5223
- "total_flos": 2.114410865712169e+17,
5224
  "train_batch_size": 4,
5225
  "trial_name": null,
5226
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.43089430894308944,
5
  "eval_steps": 500,
6
+ "global_step": 1113,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5201
  "learning_rate": 5.0265515372575956e-05,
5202
  "loss": 0.0005,
5203
  "step": 742
5204
+ },
5205
+ {
5206
+ "epoch": 0.2876500193573364,
5207
+ "grad_norm": 0.001839546370320022,
5208
+ "learning_rate": 5.015930970274277e-05,
5209
+ "loss": 0.0,
5210
+ "step": 743
5211
+ },
5212
+ {
5213
+ "epoch": 0.2880371660859466,
5214
+ "grad_norm": 0.0016663463320583105,
5215
+ "learning_rate": 5.00531033141139e-05,
5216
+ "loss": 0.0,
5217
+ "step": 744
5218
+ },
5219
+ {
5220
+ "epoch": 0.2884243128145567,
5221
+ "grad_norm": 0.0012716924538835883,
5222
+ "learning_rate": 4.99468966858861e-05,
5223
+ "loss": 0.0,
5224
+ "step": 745
5225
+ },
5226
+ {
5227
+ "epoch": 0.28881145954316684,
5228
+ "grad_norm": 0.0038500288501381874,
5229
+ "learning_rate": 4.984069029725723e-05,
5230
+ "loss": 0.0,
5231
+ "step": 746
5232
+ },
5233
+ {
5234
+ "epoch": 0.289198606271777,
5235
+ "grad_norm": 0.3896702229976654,
5236
+ "learning_rate": 4.973448462742405e-05,
5237
+ "loss": 0.0008,
5238
+ "step": 747
5239
+ },
5240
+ {
5241
+ "epoch": 0.28958575300038714,
5242
+ "grad_norm": 0.0010479100747033954,
5243
+ "learning_rate": 4.962828015558006e-05,
5244
+ "loss": 0.0,
5245
+ "step": 748
5246
+ },
5247
+ {
5248
+ "epoch": 0.2899728997289973,
5249
+ "grad_norm": 0.011884471401572227,
5250
+ "learning_rate": 4.952207736091341e-05,
5251
+ "loss": 0.0001,
5252
+ "step": 749
5253
+ },
5254
+ {
5255
+ "epoch": 0.29036004645760743,
5256
+ "grad_norm": 0.2021235078573227,
5257
+ "learning_rate": 4.941587672260461e-05,
5258
+ "loss": 0.0033,
5259
+ "step": 750
5260
+ },
5261
+ {
5262
+ "epoch": 0.29074719318621756,
5263
+ "grad_norm": 0.045500051230192184,
5264
+ "learning_rate": 4.930967871982451e-05,
5265
+ "loss": 0.0055,
5266
+ "step": 751
5267
+ },
5268
+ {
5269
+ "epoch": 0.29113433991482773,
5270
+ "grad_norm": 0.0288743507117033,
5271
+ "learning_rate": 4.9203483831732006e-05,
5272
+ "loss": 0.0007,
5273
+ "step": 752
5274
+ },
5275
+ {
5276
+ "epoch": 0.29152148664343785,
5277
+ "grad_norm": 0.020009569823741913,
5278
+ "learning_rate": 4.909729253747197e-05,
5279
+ "loss": 0.0002,
5280
+ "step": 753
5281
+ },
5282
+ {
5283
+ "epoch": 0.29190863337204803,
5284
+ "grad_norm": 0.006925898138433695,
5285
+ "learning_rate": 4.899110531617311e-05,
5286
+ "loss": 0.0001,
5287
+ "step": 754
5288
+ },
5289
+ {
5290
+ "epoch": 0.29229578010065815,
5291
+ "grad_norm": 0.03738551586866379,
5292
+ "learning_rate": 4.8884922646945656e-05,
5293
+ "loss": 0.0006,
5294
+ "step": 755
5295
+ },
5296
+ {
5297
+ "epoch": 0.2926829268292683,
5298
+ "grad_norm": 0.0020933786872774363,
5299
+ "learning_rate": 4.877874500887938e-05,
5300
+ "loss": 0.0001,
5301
+ "step": 756
5302
+ },
5303
+ {
5304
+ "epoch": 0.29307007355787845,
5305
+ "grad_norm": 0.002445946214720607,
5306
+ "learning_rate": 4.867257288104131e-05,
5307
+ "loss": 0.0,
5308
+ "step": 757
5309
+ },
5310
+ {
5311
+ "epoch": 0.2934572202864886,
5312
+ "grad_norm": 0.01913662999868393,
5313
+ "learning_rate": 4.856640674247363e-05,
5314
+ "loss": 0.0002,
5315
+ "step": 758
5316
+ },
5317
+ {
5318
+ "epoch": 0.2938443670150987,
5319
+ "grad_norm": 0.0019830456003546715,
5320
+ "learning_rate": 4.8460247072191496e-05,
5321
+ "loss": 0.0,
5322
+ "step": 759
5323
+ },
5324
+ {
5325
+ "epoch": 0.2942315137437089,
5326
+ "grad_norm": 0.0007783794426359236,
5327
+ "learning_rate": 4.8354094349180885e-05,
5328
+ "loss": 0.0,
5329
+ "step": 760
5330
+ },
5331
+ {
5332
+ "epoch": 0.294618660472319,
5333
+ "grad_norm": 0.0003296427894383669,
5334
+ "learning_rate": 4.82479490523964e-05,
5335
+ "loss": 0.0,
5336
+ "step": 761
5337
+ },
5338
+ {
5339
+ "epoch": 0.29500580720092917,
5340
+ "grad_norm": 0.0009307400323450565,
5341
+ "learning_rate": 4.8141811660759185e-05,
5342
+ "loss": 0.0,
5343
+ "step": 762
5344
+ },
5345
+ {
5346
+ "epoch": 0.2953929539295393,
5347
+ "grad_norm": 0.0011843329994007945,
5348
+ "learning_rate": 4.8035682653154704e-05,
5349
+ "loss": 0.0,
5350
+ "step": 763
5351
+ },
5352
+ {
5353
+ "epoch": 0.2957801006581494,
5354
+ "grad_norm": 0.001043383264914155,
5355
+ "learning_rate": 4.7929562508430556e-05,
5356
+ "loss": 0.0,
5357
+ "step": 764
5358
+ },
5359
+ {
5360
+ "epoch": 0.2961672473867596,
5361
+ "grad_norm": 0.00028426575590856373,
5362
+ "learning_rate": 4.782345170539441e-05,
5363
+ "loss": 0.0,
5364
+ "step": 765
5365
+ },
5366
+ {
5367
+ "epoch": 0.2965543941153697,
5368
+ "grad_norm": 0.17862246930599213,
5369
+ "learning_rate": 4.7717350722811705e-05,
5370
+ "loss": 0.0013,
5371
+ "step": 766
5372
+ },
5373
+ {
5374
+ "epoch": 0.2969415408439799,
5375
+ "grad_norm": 0.0018550584791228175,
5376
+ "learning_rate": 4.761126003940366e-05,
5377
+ "loss": 0.0,
5378
+ "step": 767
5379
+ },
5380
+ {
5381
+ "epoch": 0.29732868757259,
5382
+ "grad_norm": 0.0009288343135267496,
5383
+ "learning_rate": 4.7505180133844954e-05,
5384
+ "loss": 0.0,
5385
+ "step": 768
5386
+ },
5387
+ {
5388
+ "epoch": 0.29771583430120013,
5389
+ "grad_norm": 0.00047417895984835923,
5390
+ "learning_rate": 4.7399111484761674e-05,
5391
+ "loss": 0.0,
5392
+ "step": 769
5393
+ },
5394
+ {
5395
+ "epoch": 0.2981029810298103,
5396
+ "grad_norm": 0.0017211599042639136,
5397
+ "learning_rate": 4.729305457072913e-05,
5398
+ "loss": 0.0,
5399
+ "step": 770
5400
+ },
5401
+ {
5402
+ "epoch": 0.29849012775842043,
5403
+ "grad_norm": 0.0004953122115693986,
5404
+ "learning_rate": 4.718700987026964e-05,
5405
+ "loss": 0.0,
5406
+ "step": 771
5407
+ },
5408
+ {
5409
+ "epoch": 0.2988772744870306,
5410
+ "grad_norm": 0.0006206472753547132,
5411
+ "learning_rate": 4.708097786185046e-05,
5412
+ "loss": 0.0,
5413
+ "step": 772
5414
+ },
5415
+ {
5416
+ "epoch": 0.29926442121564073,
5417
+ "grad_norm": 0.00035984007990919054,
5418
+ "learning_rate": 4.697495902388154e-05,
5419
+ "loss": 0.0,
5420
+ "step": 773
5421
+ },
5422
+ {
5423
+ "epoch": 0.29965156794425085,
5424
+ "grad_norm": 0.0028558659832924604,
5425
+ "learning_rate": 4.6868953834713456e-05,
5426
+ "loss": 0.0,
5427
+ "step": 774
5428
+ },
5429
+ {
5430
+ "epoch": 0.30003871467286103,
5431
+ "grad_norm": 0.0013832409167662263,
5432
+ "learning_rate": 4.6762962772635125e-05,
5433
+ "loss": 0.0,
5434
+ "step": 775
5435
+ },
5436
+ {
5437
+ "epoch": 0.30042586140147115,
5438
+ "grad_norm": 0.0032838445622473955,
5439
+ "learning_rate": 4.665698631587182e-05,
5440
+ "loss": 0.0,
5441
+ "step": 776
5442
+ },
5443
+ {
5444
+ "epoch": 0.3008130081300813,
5445
+ "grad_norm": 0.0006759579991921782,
5446
+ "learning_rate": 4.655102494258281e-05,
5447
+ "loss": 0.0,
5448
+ "step": 777
5449
+ },
5450
+ {
5451
+ "epoch": 0.30120015485869145,
5452
+ "grad_norm": 0.0005392953753471375,
5453
+ "learning_rate": 4.644507913085942e-05,
5454
+ "loss": 0.0,
5455
+ "step": 778
5456
+ },
5457
+ {
5458
+ "epoch": 0.30158730158730157,
5459
+ "grad_norm": 0.005940568167716265,
5460
+ "learning_rate": 4.633914935872268e-05,
5461
+ "loss": 0.0,
5462
+ "step": 779
5463
+ },
5464
+ {
5465
+ "epoch": 0.30197444831591175,
5466
+ "grad_norm": 0.005116292275488377,
5467
+ "learning_rate": 4.623323610412126e-05,
5468
+ "loss": 0.0,
5469
+ "step": 780
5470
+ },
5471
+ {
5472
+ "epoch": 0.30236159504452187,
5473
+ "grad_norm": 0.0008851262973621488,
5474
+ "learning_rate": 4.612733984492936e-05,
5475
+ "loss": 0.0,
5476
+ "step": 781
5477
+ },
5478
+ {
5479
+ "epoch": 0.302748741773132,
5480
+ "grad_norm": 0.000602389860432595,
5481
+ "learning_rate": 4.602146105894442e-05,
5482
+ "loss": 0.0,
5483
+ "step": 782
5484
+ },
5485
+ {
5486
+ "epoch": 0.30313588850174217,
5487
+ "grad_norm": 0.0011187748750671744,
5488
+ "learning_rate": 4.591560022388511e-05,
5489
+ "loss": 0.0,
5490
+ "step": 783
5491
+ },
5492
+ {
5493
+ "epoch": 0.3035230352303523,
5494
+ "grad_norm": 0.0007747854106128216,
5495
+ "learning_rate": 4.580975781738905e-05,
5496
+ "loss": 0.0,
5497
+ "step": 784
5498
+ },
5499
+ {
5500
+ "epoch": 0.30391018195896247,
5501
+ "grad_norm": 0.021920830011367798,
5502
+ "learning_rate": 4.5703934317010735e-05,
5503
+ "loss": 0.0003,
5504
+ "step": 785
5505
+ },
5506
+ {
5507
+ "epoch": 0.3042973286875726,
5508
+ "grad_norm": 0.0004085338150616735,
5509
+ "learning_rate": 4.559813020021939e-05,
5510
+ "loss": 0.0,
5511
+ "step": 786
5512
+ },
5513
+ {
5514
+ "epoch": 0.3046844754161827,
5515
+ "grad_norm": 0.48235246539115906,
5516
+ "learning_rate": 4.549234594439674e-05,
5517
+ "loss": 0.0031,
5518
+ "step": 787
5519
+ },
5520
+ {
5521
+ "epoch": 0.3050716221447929,
5522
+ "grad_norm": 0.00026683625765144825,
5523
+ "learning_rate": 4.5386582026834906e-05,
5524
+ "loss": 0.0,
5525
+ "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 0.305458768873403,
5529
+ "grad_norm": 0.007353804539889097,
5530
+ "learning_rate": 4.528083892473424e-05,
5531
+ "loss": 0.0001,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 0.3058459156020132,
5536
+ "grad_norm": 0.0011645752238109708,
5537
+ "learning_rate": 4.517511711520121e-05,
5538
+ "loss": 0.0,
5539
+ "step": 790
5540
+ },
5541
+ {
5542
+ "epoch": 0.3062330623306233,
5543
+ "grad_norm": 0.2283429056406021,
5544
+ "learning_rate": 4.506941707524615e-05,
5545
+ "loss": 0.0007,
5546
+ "step": 791
5547
+ },
5548
+ {
5549
+ "epoch": 0.30662020905923343,
5550
+ "grad_norm": 0.0008667742949910462,
5551
+ "learning_rate": 4.496373928178125e-05,
5552
+ "loss": 0.0,
5553
+ "step": 792
5554
+ },
5555
+ {
5556
+ "epoch": 0.3070073557878436,
5557
+ "grad_norm": 0.0012296324130147696,
5558
+ "learning_rate": 4.485808421161823e-05,
5559
+ "loss": 0.0,
5560
+ "step": 793
5561
+ },
5562
+ {
5563
+ "epoch": 0.3073945025164537,
5564
+ "grad_norm": 0.0036023801658302546,
5565
+ "learning_rate": 4.4752452341466395e-05,
5566
+ "loss": 0.0,
5567
+ "step": 794
5568
+ },
5569
+ {
5570
+ "epoch": 0.3077816492450639,
5571
+ "grad_norm": 0.001286810147576034,
5572
+ "learning_rate": 4.4646844147930294e-05,
5573
+ "loss": 0.0,
5574
+ "step": 795
5575
+ },
5576
+ {
5577
+ "epoch": 0.308168795973674,
5578
+ "grad_norm": 0.0008486775914207101,
5579
+ "learning_rate": 4.454126010750766e-05,
5580
+ "loss": 0.0,
5581
+ "step": 796
5582
+ },
5583
+ {
5584
+ "epoch": 0.30855594270228415,
5585
+ "grad_norm": 0.0011814788449555635,
5586
+ "learning_rate": 4.443570069658727e-05,
5587
+ "loss": 0.0,
5588
+ "step": 797
5589
+ },
5590
+ {
5591
+ "epoch": 0.3089430894308943,
5592
+ "grad_norm": 0.011497690342366695,
5593
+ "learning_rate": 4.433016639144676e-05,
5594
+ "loss": 0.0002,
5595
+ "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.30933023615950445,
5599
+ "grad_norm": 0.0019194751512259245,
5600
+ "learning_rate": 4.4224657668250495e-05,
5601
+ "loss": 0.0,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.3097173828881146,
5606
+ "grad_norm": 1.5372258424758911,
5607
+ "learning_rate": 4.411917500304741e-05,
5608
+ "loss": 0.0304,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.31010452961672474,
5613
+ "grad_norm": 0.04230941832065582,
5614
+ "learning_rate": 4.4013718871768855e-05,
5615
+ "loss": 0.0087,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.31049167634533487,
5620
+ "grad_norm": 0.0006967206718400121,
5621
+ "learning_rate": 4.390828975022652e-05,
5622
+ "loss": 0.0,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.31087882307394504,
5627
+ "grad_norm": 0.011427176184952259,
5628
+ "learning_rate": 4.380288811411015e-05,
5629
+ "loss": 0.0001,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.31126596980255516,
5634
+ "grad_norm": 0.007503742817789316,
5635
+ "learning_rate": 4.3697514438985536e-05,
5636
+ "loss": 0.0,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.3116531165311653,
5641
+ "grad_norm": 0.005879178177565336,
5642
+ "learning_rate": 4.359216920029227e-05,
5643
+ "loss": 0.0001,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.31204026325977546,
5648
+ "grad_norm": 0.006521875504404306,
5649
+ "learning_rate": 4.3486852873341676e-05,
5650
+ "loss": 0.0001,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.3124274099883856,
5655
+ "grad_norm": 0.0018767932197079062,
5656
+ "learning_rate": 4.33815659333146e-05,
5657
+ "loss": 0.0,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.31281455671699576,
5662
+ "grad_norm": 0.006302808877080679,
5663
+ "learning_rate": 4.327630885525932e-05,
5664
+ "loss": 0.0001,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.3132017034456059,
5669
+ "grad_norm": 0.0005288548418320715,
5670
+ "learning_rate": 4.3171082114089336e-05,
5671
+ "loss": 0.0,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.313588850174216,
5676
+ "grad_norm": 0.000991316745057702,
5677
+ "learning_rate": 4.306588618458134e-05,
5678
+ "loss": 0.0,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.3139759969028262,
5683
+ "grad_norm": 0.00023478269577026367,
5684
+ "learning_rate": 4.2960721541372964e-05,
5685
+ "loss": 0.0,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.3143631436314363,
5690
+ "grad_norm": 0.007332727778702974,
5691
+ "learning_rate": 4.285558865896065e-05,
5692
+ "loss": 0.0,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.3147502903600465,
5697
+ "grad_norm": 0.0019596214406192303,
5698
+ "learning_rate": 4.275048801169759e-05,
5699
+ "loss": 0.0,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.3151374370886566,
5704
+ "grad_norm": 0.0015021011931821704,
5705
+ "learning_rate": 4.2645420073791496e-05,
5706
+ "loss": 0.0,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.3155245838172667,
5711
+ "grad_norm": 0.0009233247837983072,
5712
+ "learning_rate": 4.254038531930253e-05,
5713
+ "loss": 0.0,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.3159117305458769,
5718
+ "grad_norm": 0.00019637109653558582,
5719
+ "learning_rate": 4.2435384222141085e-05,
5720
+ "loss": 0.0,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.316298877274487,
5725
+ "grad_norm": 0.00023914426856208593,
5726
+ "learning_rate": 4.233041725606572e-05,
5727
+ "loss": 0.0,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.3166860240030972,
5732
+ "grad_norm": 0.00042257452150806785,
5733
+ "learning_rate": 4.222548489468105e-05,
5734
+ "loss": 0.0,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.3170731707317073,
5739
+ "grad_norm": 0.0009111497784033418,
5740
+ "learning_rate": 4.2120587611435445e-05,
5741
+ "loss": 0.0,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.31746031746031744,
5746
+ "grad_norm": 0.0006815852248109877,
5747
+ "learning_rate": 4.201572587961911e-05,
5748
+ "loss": 0.0,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.3178474641889276,
5753
+ "grad_norm": 0.0004083358508069068,
5754
+ "learning_rate": 4.1910900172361764e-05,
5755
+ "loss": 0.0,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.31823461091753774,
5760
+ "grad_norm": 0.001000471180304885,
5761
+ "learning_rate": 4.1806110962630644e-05,
5762
+ "loss": 0.0,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.31862175764614786,
5767
+ "grad_norm": 0.0013421968324109912,
5768
+ "learning_rate": 4.1701358723228266e-05,
5769
+ "loss": 0.0,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.31900890437475804,
5774
+ "grad_norm": 0.0023856195621192455,
5775
+ "learning_rate": 4.159664392679039e-05,
5776
+ "loss": 0.0,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.31939605110336816,
5781
+ "grad_norm": 0.000275084690656513,
5782
+ "learning_rate": 4.1491967045783755e-05,
5783
+ "loss": 0.0,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.31978319783197834,
5788
+ "grad_norm": 0.000643594772554934,
5789
+ "learning_rate": 4.138732855250412e-05,
5790
+ "loss": 0.0,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.32017034456058846,
5795
+ "grad_norm": 0.00018649610865395516,
5796
+ "learning_rate": 4.128272891907401e-05,
5797
+ "loss": 0.0,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.3205574912891986,
5802
+ "grad_norm": 0.004007772076874971,
5803
+ "learning_rate": 4.117816861744057e-05,
5804
+ "loss": 0.0,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.32094463801780876,
5809
+ "grad_norm": 0.000278328952845186,
5810
+ "learning_rate": 4.107364811937355e-05,
5811
+ "loss": 0.0,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.3213317847464189,
5816
+ "grad_norm": 0.0021861272398382425,
5817
+ "learning_rate": 4.096916789646305e-05,
5818
+ "loss": 0.0,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.32171893147502906,
5823
+ "grad_norm": 0.00044286204501986504,
5824
+ "learning_rate": 4.0864728420117505e-05,
5825
+ "loss": 0.0,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.3221060782036392,
5830
+ "grad_norm": 0.00034147806582041085,
5831
+ "learning_rate": 4.0760330161561464e-05,
5832
+ "loss": 0.0,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.3224932249322493,
5837
+ "grad_norm": 0.001119753229431808,
5838
+ "learning_rate": 4.065597359183348e-05,
5839
+ "loss": 0.0,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.3228803716608595,
5844
+ "grad_norm": 0.0005893710185773671,
5845
+ "learning_rate": 4.055165918178412e-05,
5846
+ "loss": 0.0,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.3232675183894696,
5851
+ "grad_norm": 0.013795977458357811,
5852
+ "learning_rate": 4.04473874020736e-05,
5853
+ "loss": 0.0001,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.3236546651180798,
5858
+ "grad_norm": 0.000739909999538213,
5859
+ "learning_rate": 4.034315872316988e-05,
5860
+ "loss": 0.0,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.3240418118466899,
5865
+ "grad_norm": 0.0003141966590192169,
5866
+ "learning_rate": 4.0238973615346395e-05,
5867
+ "loss": 0.0,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.3244289585753,
5872
+ "grad_norm": 0.0013074502348899841,
5873
+ "learning_rate": 4.0134832548680006e-05,
5874
+ "loss": 0.0,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.3248161053039102,
5879
+ "grad_norm": 0.0003308141021989286,
5880
+ "learning_rate": 4.003073599304889e-05,
5881
+ "loss": 0.0,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.3252032520325203,
5886
+ "grad_norm": 0.0002786907716654241,
5887
+ "learning_rate": 3.9926684418130355e-05,
5888
+ "loss": 0.0,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.3255903987611305,
5893
+ "grad_norm": 0.008617997169494629,
5894
+ "learning_rate": 3.982267829339877e-05,
5895
+ "loss": 0.0,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.3259775454897406,
5900
+ "grad_norm": 0.004956826567649841,
5901
+ "learning_rate": 3.971871808812348e-05,
5902
+ "loss": 0.0001,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.32636469221835074,
5907
+ "grad_norm": 0.0003836003306787461,
5908
+ "learning_rate": 3.961480427136656e-05,
5909
+ "loss": 0.0,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.3267518389469609,
5914
+ "grad_norm": 0.0010854278225451708,
5915
+ "learning_rate": 3.951093731198086e-05,
5916
+ "loss": 0.0,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.32713898567557104,
5921
+ "grad_norm": 0.021701844409108162,
5922
+ "learning_rate": 3.9407117678607755e-05,
5923
+ "loss": 0.0002,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.32752613240418116,
5928
+ "grad_norm": 0.0007447968819178641,
5929
+ "learning_rate": 3.930334583967514e-05,
5930
+ "loss": 0.0,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.32791327913279134,
5935
+ "grad_norm": 0.00031065259827300906,
5936
+ "learning_rate": 3.919962226339521e-05,
5937
+ "loss": 0.0,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.32830042586140146,
5942
+ "grad_norm": 0.003032098524272442,
5943
+ "learning_rate": 3.9095947417762465e-05,
5944
+ "loss": 0.0,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.32868757259001163,
5949
+ "grad_norm": 0.0012839855626225471,
5950
+ "learning_rate": 3.899232177055145e-05,
5951
+ "loss": 0.0,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.32907471931862176,
5956
+ "grad_norm": 0.00046888040378689766,
5957
+ "learning_rate": 3.888874578931482e-05,
5958
+ "loss": 0.0,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.3294618660472319,
5963
+ "grad_norm": 0.03994712233543396,
5964
+ "learning_rate": 3.87852199413811e-05,
5965
+ "loss": 0.0035,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.32984901277584205,
5970
+ "grad_norm": 0.00314146070741117,
5971
+ "learning_rate": 3.8681744693852595e-05,
5972
+ "loss": 0.0001,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.3302361595044522,
5977
+ "grad_norm": 0.013279520906507969,
5978
+ "learning_rate": 3.857832051360335e-05,
5979
+ "loss": 0.0003,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.33062330623306235,
5984
+ "grad_norm": 0.028156403452157974,
5985
+ "learning_rate": 3.847494786727694e-05,
5986
+ "loss": 0.0005,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.3310104529616725,
5991
+ "grad_norm": 0.038008369505405426,
5992
+ "learning_rate": 3.8371627221284495e-05,
5993
+ "loss": 0.0006,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.3313975996902826,
5998
+ "grad_norm": 0.006248411722481251,
5999
+ "learning_rate": 3.826835904180244e-05,
6000
+ "loss": 0.0001,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.3317847464188928,
6005
+ "grad_norm": 0.00033054646337404847,
6006
+ "learning_rate": 3.816514379477054e-05,
6007
+ "loss": 0.0,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.3321718931475029,
6012
+ "grad_norm": 0.0008822673698887229,
6013
+ "learning_rate": 3.8061981945889726e-05,
6014
+ "loss": 0.0,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.33255903987611307,
6019
+ "grad_norm": 0.03951540216803551,
6020
+ "learning_rate": 3.795887396061995e-05,
6021
+ "loss": 0.0004,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.3329461866047232,
6026
+ "grad_norm": 0.0011091261403635144,
6027
+ "learning_rate": 3.7855820304178204e-05,
6028
+ "loss": 0.0,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.3333333333333333,
6033
+ "grad_norm": 0.00019632387557066977,
6034
+ "learning_rate": 3.775282144153627e-05,
6035
+ "loss": 0.0,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.3337204800619435,
6040
+ "grad_norm": 0.015141610987484455,
6041
+ "learning_rate": 3.764987783741879e-05,
6042
+ "loss": 0.0001,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.3341076267905536,
6047
+ "grad_norm": 0.0024289898574352264,
6048
+ "learning_rate": 3.754698995630101e-05,
6049
+ "loss": 0.0,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.3344947735191638,
6054
+ "grad_norm": 0.030151624232530594,
6055
+ "learning_rate": 3.7444158262406824e-05,
6056
+ "loss": 0.0001,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.3348819202477739,
6061
+ "grad_norm": 0.00045968167250975966,
6062
+ "learning_rate": 3.734138321970653e-05,
6063
+ "loss": 0.0,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.33526906697638403,
6068
+ "grad_norm": 0.0013369093649089336,
6069
+ "learning_rate": 3.723866529191491e-05,
6070
+ "loss": 0.0,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.3356562137049942,
6075
+ "grad_norm": 0.00015746480494271964,
6076
+ "learning_rate": 3.7136004942489e-05,
6077
+ "loss": 0.0,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.33604336043360433,
6082
+ "grad_norm": 0.0004616810765583068,
6083
+ "learning_rate": 3.703340263462602e-05,
6084
+ "loss": 0.0,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.33643050716221445,
6089
+ "grad_norm": 0.000538064050488174,
6090
+ "learning_rate": 3.693085883126137e-05,
6091
+ "loss": 0.0,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.33681765389082463,
6096
+ "grad_norm": 0.0004215772496536374,
6097
+ "learning_rate": 3.6828373995066436e-05,
6098
+ "loss": 0.0,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.33720480061943475,
6103
+ "grad_norm": 0.00042134601972065866,
6104
+ "learning_rate": 3.672594858844658e-05,
6105
+ "loss": 0.0,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.33759194734804493,
6110
+ "grad_norm": 0.004986919928342104,
6111
+ "learning_rate": 3.6623583073538966e-05,
6112
+ "loss": 0.0001,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.33797909407665505,
6117
+ "grad_norm": 0.0002799661597236991,
6118
+ "learning_rate": 3.65212779122106e-05,
6119
+ "loss": 0.0,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.3383662408052652,
6124
+ "grad_norm": 0.0004925346001982689,
6125
+ "learning_rate": 3.641903356605614e-05,
6126
+ "loss": 0.0,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.33875338753387535,
6131
+ "grad_norm": 0.001601546653546393,
6132
+ "learning_rate": 3.631685049639586e-05,
6133
+ "loss": 0.0,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.33914053426248547,
6138
+ "grad_norm": 0.00030690181301906705,
6139
+ "learning_rate": 3.621472916427354e-05,
6140
+ "loss": 0.0,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.33952768099109565,
6145
+ "grad_norm": 0.00021768384613096714,
6146
+ "learning_rate": 3.611267003045443e-05,
6147
+ "loss": 0.0,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.33991482771970577,
6152
+ "grad_norm": 0.020688867196440697,
6153
+ "learning_rate": 3.601067355542312e-05,
6154
+ "loss": 0.0002,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.3403019744483159,
6159
+ "grad_norm": 0.0002073254290735349,
6160
+ "learning_rate": 3.59087401993815e-05,
6161
+ "loss": 0.0,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.34068912117692607,
6166
+ "grad_norm": 0.0022969204001128674,
6167
+ "learning_rate": 3.580687042224667e-05,
6168
+ "loss": 0.0,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.3410762679055362,
6173
+ "grad_norm": 0.000548949814401567,
6174
+ "learning_rate": 3.5705064683648856e-05,
6175
+ "loss": 0.0,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.34146341463414637,
6180
+ "grad_norm": 0.0054088798351585865,
6181
+ "learning_rate": 3.560332344292938e-05,
6182
+ "loss": 0.0,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.3418505613627565,
6187
+ "grad_norm": 0.00040069175884127617,
6188
+ "learning_rate": 3.550164715913853e-05,
6189
+ "loss": 0.0,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.3422377080913666,
6194
+ "grad_norm": 0.0004740517179016024,
6195
+ "learning_rate": 3.540003629103349e-05,
6196
+ "loss": 0.0,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.3426248548199768,
6201
+ "grad_norm": 0.0020350434351712465,
6202
+ "learning_rate": 3.529849129707633e-05,
6203
+ "loss": 0.0,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.3430120015485869,
6208
+ "grad_norm": 0.0003776460944209248,
6209
+ "learning_rate": 3.519701263543187e-05,
6210
+ "loss": 0.0,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.34339914827719703,
6215
+ "grad_norm": 0.001164233428426087,
6216
+ "learning_rate": 3.5095600763965676e-05,
6217
+ "loss": 0.0,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.3437862950058072,
6222
+ "grad_norm": 0.0004077065095771104,
6223
+ "learning_rate": 3.499425614024191e-05,
6224
+ "loss": 0.0,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.34417344173441733,
6229
+ "grad_norm": 0.002573886886239052,
6230
+ "learning_rate": 3.489297922152136e-05,
6231
+ "loss": 0.0,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.3445605884630275,
6236
+ "grad_norm": 0.02411019243299961,
6237
+ "learning_rate": 3.479177046475935e-05,
6238
+ "loss": 0.0002,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.34494773519163763,
6243
+ "grad_norm": 0.001541433739475906,
6244
+ "learning_rate": 3.4690630326603604e-05,
6245
+ "loss": 0.0,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.34533488192024775,
6250
+ "grad_norm": 0.05096811428666115,
6251
+ "learning_rate": 3.458955926339228e-05,
6252
+ "loss": 0.0003,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.3457220286488579,
6257
+ "grad_norm": 0.0001714549434836954,
6258
+ "learning_rate": 3.448855773115185e-05,
6259
+ "loss": 0.0,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.34610917537746805,
6264
+ "grad_norm": 0.0007654880173504353,
6265
+ "learning_rate": 3.438762618559511e-05,
6266
+ "loss": 0.0,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.3464963221060782,
6271
+ "grad_norm": 0.34326171875,
6272
+ "learning_rate": 3.428676508211902e-05,
6273
+ "loss": 0.0018,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.34688346883468835,
6278
+ "grad_norm": 0.003775347489863634,
6279
+ "learning_rate": 3.418597487580277e-05,
6280
+ "loss": 0.0001,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.34727061556329847,
6285
+ "grad_norm": 0.0011271066032350063,
6286
+ "learning_rate": 3.408525602140561e-05,
6287
+ "loss": 0.0,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.34765776229190865,
6292
+ "grad_norm": 0.00141782162245363,
6293
+ "learning_rate": 3.3984608973364904e-05,
6294
+ "loss": 0.0,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.34804490902051877,
6299
+ "grad_norm": 0.006298588123172522,
6300
+ "learning_rate": 3.388403418579401e-05,
6301
+ "loss": 0.0001,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.34843205574912894,
6306
+ "grad_norm": 0.057084690779447556,
6307
+ "learning_rate": 3.378353211248024e-05,
6308
+ "loss": 0.0006,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.34881920247773907,
6313
+ "grad_norm": 0.03301633149385452,
6314
+ "learning_rate": 3.368310320688284e-05,
6315
+ "loss": 0.0017,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.3492063492063492,
6320
+ "grad_norm": 0.03648944944143295,
6321
+ "learning_rate": 3.358274792213091e-05,
6322
+ "loss": 0.001,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.34959349593495936,
6327
+ "grad_norm": 0.045417048037052155,
6328
+ "learning_rate": 3.34824667110214e-05,
6329
+ "loss": 0.0002,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.3499806426635695,
6334
+ "grad_norm": 0.0014944113790988922,
6335
+ "learning_rate": 3.338226002601703e-05,
6336
+ "loss": 0.0,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.35036778939217966,
6341
+ "grad_norm": 0.0017919113161042333,
6342
+ "learning_rate": 3.328212831924424e-05,
6343
+ "loss": 0.0,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.3507549361207898,
6348
+ "grad_norm": 0.0006082098698243499,
6349
+ "learning_rate": 3.3182072042491244e-05,
6350
+ "loss": 0.0,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.3511420828493999,
6355
+ "grad_norm": 0.010628577321767807,
6356
+ "learning_rate": 3.308209164720584e-05,
6357
+ "loss": 0.0001,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.3515292295780101,
6362
+ "grad_norm": 0.08203943073749542,
6363
+ "learning_rate": 3.2982187584493515e-05,
6364
+ "loss": 0.0019,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.3519163763066202,
6369
+ "grad_norm": 0.0009694083128124475,
6370
+ "learning_rate": 3.2882360305115294e-05,
6371
+ "loss": 0.0,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.3523035230352303,
6376
+ "grad_norm": 0.00442282622680068,
6377
+ "learning_rate": 3.2782610259485813e-05,
6378
+ "loss": 0.0001,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.3526906697638405,
6383
+ "grad_norm": 0.08702477067708969,
6384
+ "learning_rate": 3.268293789767118e-05,
6385
+ "loss": 0.0014,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.3530778164924506,
6390
+ "grad_norm": 0.02207796275615692,
6391
+ "learning_rate": 3.2583343669387046e-05,
6392
+ "loss": 0.0001,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.3534649632210608,
6397
+ "grad_norm": 0.0006780868279747665,
6398
+ "learning_rate": 3.248382802399649e-05,
6399
+ "loss": 0.0,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.3538521099496709,
6404
+ "grad_norm": 0.02841506339609623,
6405
+ "learning_rate": 3.238439141050807e-05,
6406
+ "loss": 0.0003,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.35423925667828104,
6411
+ "grad_norm": 0.00042213572305627167,
6412
+ "learning_rate": 3.228503427757374e-05,
6413
+ "loss": 0.0,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.3546264034068912,
6418
+ "grad_norm": 0.0002454633649904281,
6419
+ "learning_rate": 3.218575707348681e-05,
6420
+ "loss": 0.0,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.35501355013550134,
6425
+ "grad_norm": 0.0027822977863252163,
6426
+ "learning_rate": 3.208656024618002e-05,
6427
+ "loss": 0.0,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.3554006968641115,
6432
+ "grad_norm": 0.020471172407269478,
6433
+ "learning_rate": 3.198744424322338e-05,
6434
+ "loss": 0.0004,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.35578784359272164,
6439
+ "grad_norm": 0.0007699733250774443,
6440
+ "learning_rate": 3.188840951182229e-05,
6441
+ "loss": 0.0,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.35617499032133176,
6446
+ "grad_norm": 0.00015266439004335552,
6447
+ "learning_rate": 3.178945649881543e-05,
6448
+ "loss": 0.0,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.35656213704994194,
6453
+ "grad_norm": 0.00025495782028883696,
6454
+ "learning_rate": 3.169058565067274e-05,
6455
+ "loss": 0.0,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.35694928377855206,
6460
+ "grad_norm": 8.566460019210353e-05,
6461
+ "learning_rate": 3.159179741349354e-05,
6462
+ "loss": 0.0,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.35733643050716224,
6467
+ "grad_norm": 0.00040574869490228593,
6468
+ "learning_rate": 3.149309223300428e-05,
6469
+ "loss": 0.0,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.35772357723577236,
6474
+ "grad_norm": 0.00045708048855885863,
6475
+ "learning_rate": 3.1394470554556764e-05,
6476
+ "loss": 0.0,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.3581107239643825,
6481
+ "grad_norm": 0.0041862414218485355,
6482
+ "learning_rate": 3.1295932823125985e-05,
6483
+ "loss": 0.0,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.35849787069299266,
6488
+ "grad_norm": 0.000689912005327642,
6489
+ "learning_rate": 3.1197479483308214e-05,
6490
+ "loss": 0.0,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.3588850174216028,
6495
+ "grad_norm": 0.003948573488742113,
6496
+ "learning_rate": 3.109911097931891e-05,
6497
+ "loss": 0.0,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.35927216415021296,
6502
+ "grad_norm": 0.00029136036755517125,
6503
+ "learning_rate": 3.1000827754990766e-05,
6504
+ "loss": 0.0,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.3596593108788231,
6509
+ "grad_norm": 0.0020344445947557688,
6510
+ "learning_rate": 3.090263025377173e-05,
6511
+ "loss": 0.0,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.3600464576074332,
6516
+ "grad_norm": 0.0002035750512732193,
6517
+ "learning_rate": 3.080451891872295e-05,
6518
+ "loss": 0.0,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.3604336043360434,
6523
+ "grad_norm": 0.0010056099854409695,
6524
+ "learning_rate": 3.070649419251681e-05,
6525
+ "loss": 0.0,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.3608207510646535,
6530
+ "grad_norm": 0.000317671918310225,
6531
+ "learning_rate": 3.06085565174349e-05,
6532
+ "loss": 0.0,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.3612078977932636,
6537
+ "grad_norm": 0.0009133410057984293,
6538
+ "learning_rate": 3.0510706335366035e-05,
6539
+ "loss": 0.0,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.3615950445218738,
6544
+ "grad_norm": 0.06602532416582108,
6545
+ "learning_rate": 3.041294408780431e-05,
6546
+ "loss": 0.0003,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.3619821912504839,
6551
+ "grad_norm": 0.00024213208234868944,
6552
+ "learning_rate": 3.0315270215847013e-05,
6553
+ "loss": 0.0,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.3623693379790941,
6558
+ "grad_norm": 0.0014147679321467876,
6559
+ "learning_rate": 3.0217685160192734e-05,
6560
+ "loss": 0.0,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.3627564847077042,
6565
+ "grad_norm": 0.0003020058502443135,
6566
+ "learning_rate": 3.0120189361139273e-05,
6567
+ "loss": 0.0,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.36314363143631434,
6572
+ "grad_norm": 0.003151725744828582,
6573
+ "learning_rate": 3.002278325858177e-05,
6574
+ "loss": 0.0,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.3635307781649245,
6579
+ "grad_norm": 0.002396926749497652,
6580
+ "learning_rate": 2.9925467292010644e-05,
6581
+ "loss": 0.0,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.36391792489353464,
6586
+ "grad_norm": 0.0011632463429123163,
6587
+ "learning_rate": 2.982824190050958e-05,
6588
+ "loss": 0.0,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.3643050716221448,
6593
+ "grad_norm": 0.2228887379169464,
6594
+ "learning_rate": 2.973110752275366e-05,
6595
+ "loss": 0.001,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.36469221835075494,
6600
+ "grad_norm": 0.0011429457226768136,
6601
+ "learning_rate": 2.963406459700726e-05,
6602
+ "loss": 0.0,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.36507936507936506,
6607
+ "grad_norm": 0.00012259121285751462,
6608
+ "learning_rate": 2.9537113561122178e-05,
6609
+ "loss": 0.0,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.36546651180797524,
6614
+ "grad_norm": 0.000644800195004791,
6615
+ "learning_rate": 2.944025485253557e-05,
6616
+ "loss": 0.0,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.36585365853658536,
6621
+ "grad_norm": 0.00017125460726674646,
6622
+ "learning_rate": 2.9343488908268034e-05,
6623
+ "loss": 0.0,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.36624080526519553,
6628
+ "grad_norm": 0.00020638681598939002,
6629
+ "learning_rate": 2.9246816164921655e-05,
6630
+ "loss": 0.0,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.36662795199380566,
6635
+ "grad_norm": 0.0005838845972903073,
6636
+ "learning_rate": 2.915023705867794e-05,
6637
+ "loss": 0.0,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.3670150987224158,
6642
+ "grad_norm": 0.000993402791209519,
6643
+ "learning_rate": 2.905375202529594e-05,
6644
+ "loss": 0.0,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.36740224545102595,
6649
+ "grad_norm": 0.00029620109125971794,
6650
+ "learning_rate": 2.895736150011026e-05,
6651
+ "loss": 0.0,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.3677893921796361,
6656
+ "grad_norm": 2.658259153366089,
6657
+ "learning_rate": 2.8861065918029085e-05,
6658
+ "loss": 0.0567,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.3681765389082462,
6663
+ "grad_norm": 0.02834871970117092,
6664
+ "learning_rate": 2.8764865713532234e-05,
6665
+ "loss": 0.0021,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.3685636856368564,
6670
+ "grad_norm": 0.03441345691680908,
6671
+ "learning_rate": 2.8668761320669156e-05,
6672
+ "loss": 0.0008,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.3689508323654665,
6677
+ "grad_norm": 0.07143665105104446,
6678
+ "learning_rate": 2.8572753173057003e-05,
6679
+ "loss": 0.0004,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.3693379790940767,
6684
+ "grad_norm": 0.06644494086503983,
6685
+ "learning_rate": 2.8476841703878772e-05,
6686
+ "loss": 0.0007,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.3697251258226868,
6691
+ "grad_norm": 0.005595757160335779,
6692
+ "learning_rate": 2.8381027345881102e-05,
6693
+ "loss": 0.0001,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.3701122725512969,
6698
+ "grad_norm": 0.13141833245754242,
6699
+ "learning_rate": 2.8285310531372573e-05,
6700
+ "loss": 0.0014,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.3704994192799071,
6705
+ "grad_norm": 0.007661540526896715,
6706
+ "learning_rate": 2.8189691692221627e-05,
6707
+ "loss": 0.0,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.3708865660085172,
6712
+ "grad_norm": 0.0015809281030669808,
6713
+ "learning_rate": 2.809417125985467e-05,
6714
+ "loss": 0.0001,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.3712737127371274,
6719
+ "grad_norm": 0.007457795087248087,
6720
+ "learning_rate": 2.7998749665254033e-05,
6721
+ "loss": 0.0001,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.3716608594657375,
6726
+ "grad_norm": 0.0005789248389191926,
6727
+ "learning_rate": 2.7903427338956177e-05,
6728
+ "loss": 0.0,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.37204800619434764,
6733
+ "grad_norm": 0.00037478163721971214,
6734
+ "learning_rate": 2.7808204711049624e-05,
6735
+ "loss": 0.0,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.3724351529229578,
6740
+ "grad_norm": 0.003515935968607664,
6741
+ "learning_rate": 2.771308221117309e-05,
6742
+ "loss": 0.0,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.37282229965156793,
6747
+ "grad_norm": 0.0019339972641319036,
6748
+ "learning_rate": 2.7618060268513503e-05,
6749
+ "loss": 0.0,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.3732094463801781,
6754
+ "grad_norm": 0.00024095486151054502,
6755
+ "learning_rate": 2.7523139311804074e-05,
6756
+ "loss": 0.0,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.37359659310878823,
6761
+ "grad_norm": 0.0007112721796147525,
6762
+ "learning_rate": 2.742831976932242e-05,
6763
+ "loss": 0.0,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.37398373983739835,
6768
+ "grad_norm": 0.0007284593302756548,
6769
+ "learning_rate": 2.7333602068888496e-05,
6770
+ "loss": 0.0,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.37437088656600853,
6775
+ "grad_norm": 0.006084626540541649,
6776
+ "learning_rate": 2.7238986637862833e-05,
6777
+ "loss": 0.0,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.37475803329461865,
6782
+ "grad_norm": 0.000507039949297905,
6783
+ "learning_rate": 2.7144473903144496e-05,
6784
+ "loss": 0.0,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.37514518002322883,
6789
+ "grad_norm": 0.0019885883666574955,
6790
+ "learning_rate": 2.7050064291169187e-05,
6791
+ "loss": 0.0,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.37553232675183895,
6796
+ "grad_norm": 0.04670470952987671,
6797
+ "learning_rate": 2.6955758227907335e-05,
6798
+ "loss": 0.0002,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.3759194734804491,
6803
+ "grad_norm": 0.00021539766748901457,
6804
+ "learning_rate": 2.6861556138862155e-05,
6805
+ "loss": 0.0,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.37630662020905925,
6810
+ "grad_norm": 0.0003146221279166639,
6811
+ "learning_rate": 2.676745844906776e-05,
6812
+ "loss": 0.0,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.37669376693766937,
6817
+ "grad_norm": 0.0013595115160569549,
6818
+ "learning_rate": 2.6673465583087176e-05,
6819
+ "loss": 0.0,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.3770809136662795,
6824
+ "grad_norm": 0.004096793942153454,
6825
+ "learning_rate": 2.65795779650105e-05,
6826
+ "loss": 0.0,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 0.37746806039488967,
6831
+ "grad_norm": 0.0003931306710001081,
6832
+ "learning_rate": 2.648579601845295e-05,
6833
+ "loss": 0.0,
6834
+ "step": 975
6835
+ },
6836
+ {
6837
+ "epoch": 0.3778552071234998,
6838
+ "grad_norm": 0.00021391961490735412,
6839
+ "learning_rate": 2.6392120166552992e-05,
6840
+ "loss": 0.0,
6841
+ "step": 976
6842
+ },
6843
+ {
6844
+ "epoch": 0.37824235385210997,
6845
+ "grad_norm": 0.00013036343443673104,
6846
+ "learning_rate": 2.629855083197031e-05,
6847
+ "loss": 0.0,
6848
+ "step": 977
6849
+ },
6850
+ {
6851
+ "epoch": 0.3786295005807201,
6852
+ "grad_norm": 0.00223020208068192,
6853
+ "learning_rate": 2.6205088436884095e-05,
6854
+ "loss": 0.0,
6855
+ "step": 978
6856
+ },
6857
+ {
6858
+ "epoch": 0.3790166473093302,
6859
+ "grad_norm": 0.0004039799969177693,
6860
+ "learning_rate": 2.6111733402991e-05,
6861
+ "loss": 0.0,
6862
+ "step": 979
6863
+ },
6864
+ {
6865
+ "epoch": 0.3794037940379404,
6866
+ "grad_norm": 0.004602463450282812,
6867
+ "learning_rate": 2.6018486151503213e-05,
6868
+ "loss": 0.0001,
6869
+ "step": 980
6870
+ },
6871
+ {
6872
+ "epoch": 0.3797909407665505,
6873
+ "grad_norm": 0.00020700599998235703,
6874
+ "learning_rate": 2.592534710314668e-05,
6875
+ "loss": 0.0,
6876
+ "step": 981
6877
+ },
6878
+ {
6879
+ "epoch": 0.3801780874951607,
6880
+ "grad_norm": 0.0005082901916466653,
6881
+ "learning_rate": 2.5832316678159118e-05,
6882
+ "loss": 0.0,
6883
+ "step": 982
6884
+ },
6885
+ {
6886
+ "epoch": 0.3805652342237708,
6887
+ "grad_norm": 0.00023574243823532015,
6888
+ "learning_rate": 2.573939529628816e-05,
6889
+ "loss": 0.0,
6890
+ "step": 983
6891
+ },
6892
+ {
6893
+ "epoch": 0.38095238095238093,
6894
+ "grad_norm": 0.00044681079452857375,
6895
+ "learning_rate": 2.564658337678939e-05,
6896
+ "loss": 0.0,
6897
+ "step": 984
6898
+ },
6899
+ {
6900
+ "epoch": 0.3813395276809911,
6901
+ "grad_norm": 0.00034449860686436296,
6902
+ "learning_rate": 2.555388133842455e-05,
6903
+ "loss": 0.0,
6904
+ "step": 985
6905
+ },
6906
+ {
6907
+ "epoch": 0.38172667440960123,
6908
+ "grad_norm": 0.00018269941210746765,
6909
+ "learning_rate": 2.5461289599459646e-05,
6910
+ "loss": 0.0,
6911
+ "step": 986
6912
+ },
6913
+ {
6914
+ "epoch": 0.3821138211382114,
6915
+ "grad_norm": 0.00023150882043410093,
6916
+ "learning_rate": 2.5368808577662913e-05,
6917
+ "loss": 0.0,
6918
+ "step": 987
6919
+ },
6920
+ {
6921
+ "epoch": 0.38250096786682153,
6922
+ "grad_norm": 0.00035011590807698667,
6923
+ "learning_rate": 2.5276438690303112e-05,
6924
+ "loss": 0.0,
6925
+ "step": 988
6926
+ },
6927
+ {
6928
+ "epoch": 0.38288811459543165,
6929
+ "grad_norm": 0.0003966555814258754,
6930
+ "learning_rate": 2.518418035414756e-05,
6931
+ "loss": 0.0,
6932
+ "step": 989
6933
+ },
6934
+ {
6935
+ "epoch": 0.3832752613240418,
6936
+ "grad_norm": 0.002989868400618434,
6937
+ "learning_rate": 2.5092033985460265e-05,
6938
+ "loss": 0.0,
6939
+ "step": 990
6940
+ },
6941
+ {
6942
+ "epoch": 0.38366240805265195,
6943
+ "grad_norm": 0.0004271006619092077,
6944
+ "learning_rate": 2.500000000000001e-05,
6945
+ "loss": 0.0,
6946
+ "step": 991
6947
+ },
6948
+ {
6949
+ "epoch": 0.3840495547812621,
6950
+ "grad_norm": 0.0008473137859255075,
6951
+ "learning_rate": 2.490807881301855e-05,
6952
+ "loss": 0.0,
6953
+ "step": 992
6954
+ },
6955
+ {
6956
+ "epoch": 0.38443670150987225,
6957
+ "grad_norm": 1.8476226329803467,
6958
+ "learning_rate": 2.481627083925869e-05,
6959
+ "loss": 0.0797,
6960
+ "step": 993
6961
+ },
6962
+ {
6963
+ "epoch": 0.38482384823848237,
6964
+ "grad_norm": 0.00014391196600627154,
6965
+ "learning_rate": 2.472457649295241e-05,
6966
+ "loss": 0.0,
6967
+ "step": 994
6968
+ },
6969
+ {
6970
+ "epoch": 0.38521099496709255,
6971
+ "grad_norm": 0.0013244638685137033,
6972
+ "learning_rate": 2.4632996187819034e-05,
6973
+ "loss": 0.0,
6974
+ "step": 995
6975
+ },
6976
+ {
6977
+ "epoch": 0.38559814169570267,
6978
+ "grad_norm": 0.006371075287461281,
6979
+ "learning_rate": 2.4541530337063325e-05,
6980
+ "loss": 0.0001,
6981
+ "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.3859852884243128,
6985
+ "grad_norm": 0.0009385327575728297,
6986
+ "learning_rate": 2.445017935337365e-05,
6987
+ "loss": 0.0,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.38637243515292297,
6992
+ "grad_norm": 0.01769573800265789,
6993
+ "learning_rate": 2.435894364892005e-05,
6994
+ "loss": 0.0001,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.3867595818815331,
6999
+ "grad_norm": 0.003815864212810993,
7000
+ "learning_rate": 2.42678236353525e-05,
7001
+ "loss": 0.0001,
7002
+ "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.38714672861014326,
7006
+ "grad_norm": 0.020971521735191345,
7007
+ "learning_rate": 2.4176819723798948e-05,
7008
+ "loss": 0.0001,
7009
+ "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 0.3875338753387534,
7013
+ "grad_norm": 0.0321972593665123,
7014
+ "learning_rate": 2.408593232486351e-05,
7015
+ "loss": 0.003,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 0.3879210220673635,
7020
+ "grad_norm": 0.0008187716011889279,
7021
+ "learning_rate": 2.3995161848624597e-05,
7022
+ "loss": 0.0,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 0.3883081687959737,
7027
+ "grad_norm": 0.020097631961107254,
7028
+ "learning_rate": 2.390450870463307e-05,
7029
+ "loss": 0.0004,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 0.3886953155245838,
7034
+ "grad_norm": 0.0003399544220883399,
7035
+ "learning_rate": 2.381397330191043e-05,
7036
+ "loss": 0.0,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 0.389082462253194,
7041
+ "grad_norm": 0.048977453261613846,
7042
+ "learning_rate": 2.372355604894686e-05,
7043
+ "loss": 0.0025,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 0.3894696089818041,
7048
+ "grad_norm": 0.0018951277015730739,
7049
+ "learning_rate": 2.3633257353699524e-05,
7050
+ "loss": 0.0,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 0.3898567557104142,
7055
+ "grad_norm": 0.0007534907781518996,
7056
+ "learning_rate": 2.354307762359064e-05,
7057
+ "loss": 0.0,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 0.3902439024390244,
7062
+ "grad_norm": 0.00365415564738214,
7063
+ "learning_rate": 2.3453017265505673e-05,
7064
+ "loss": 0.0001,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 0.3906310491676345,
7069
+ "grad_norm": 0.07262806594371796,
7070
+ "learning_rate": 2.3363076685791435e-05,
7071
+ "loss": 0.0021,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 0.3910181958962447,
7076
+ "grad_norm": 0.0027157345321029425,
7077
+ "learning_rate": 2.3273256290254402e-05,
7078
+ "loss": 0.0,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 0.3914053426248548,
7083
+ "grad_norm": 0.002876731101423502,
7084
+ "learning_rate": 2.3183556484158736e-05,
7085
+ "loss": 0.0,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.39179248935346495,
7090
+ "grad_norm": 0.0003100191242992878,
7091
+ "learning_rate": 2.309397767222446e-05,
7092
+ "loss": 0.0,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.3921796360820751,
7097
+ "grad_norm": 0.0007354211411438882,
7098
+ "learning_rate": 2.300452025862574e-05,
7099
+ "loss": 0.0,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.39256678281068524,
7104
+ "grad_norm": 0.16168968379497528,
7105
+ "learning_rate": 2.291518464698899e-05,
7106
+ "loss": 0.0013,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.39295392953929537,
7111
+ "grad_norm": 0.0008131096255965531,
7112
+ "learning_rate": 2.282597124039107e-05,
7113
+ "loss": 0.0,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.39334107626790554,
7118
+ "grad_norm": 0.0007273323717527092,
7119
+ "learning_rate": 2.27368804413574e-05,
7120
+ "loss": 0.0,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.39372822299651566,
7125
+ "grad_norm": 0.0019192282343283296,
7126
+ "learning_rate": 2.2647912651860252e-05,
7127
+ "loss": 0.0,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.39411536972512584,
7132
+ "grad_norm": 0.0010810550302267075,
7133
+ "learning_rate": 2.255906827331693e-05,
7134
+ "loss": 0.0,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.39450251645373596,
7139
+ "grad_norm": 0.0015484696486964822,
7140
+ "learning_rate": 2.2470347706587813e-05,
7141
+ "loss": 0.0,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.3948896631823461,
7146
+ "grad_norm": 0.0008098200778476894,
7147
+ "learning_rate": 2.238175135197471e-05,
7148
+ "loss": 0.0,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.39527680991095626,
7153
+ "grad_norm": 0.0020570175256580114,
7154
+ "learning_rate": 2.2293279609219003e-05,
7155
+ "loss": 0.0,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.3956639566395664,
7160
+ "grad_norm": 0.0012723479885607958,
7161
+ "learning_rate": 2.220493287749978e-05,
7162
+ "loss": 0.0,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.39605110336817656,
7167
+ "grad_norm": 0.0003519760794006288,
7168
+ "learning_rate": 2.2116711555432136e-05,
7169
+ "loss": 0.0,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.3964382500967867,
7174
+ "grad_norm": 0.00034122299985028803,
7175
+ "learning_rate": 2.2028616041065304e-05,
7176
+ "loss": 0.0,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.3968253968253968,
7181
+ "grad_norm": 0.026362977921962738,
7182
+ "learning_rate": 2.194064673188089e-05,
7183
+ "loss": 0.0002,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.397212543554007,
7188
+ "grad_norm": 0.00036965496838092804,
7189
+ "learning_rate": 2.185280402479105e-05,
7190
+ "loss": 0.0,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.3975996902826171,
7195
+ "grad_norm": 0.11109102517366409,
7196
+ "learning_rate": 2.1765088316136755e-05,
7197
+ "loss": 0.001,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.3979868370112273,
7202
+ "grad_norm": 0.042729608714580536,
7203
+ "learning_rate": 2.1677500001685945e-05,
7204
+ "loss": 0.0004,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.3983739837398374,
7209
+ "grad_norm": 0.00787183828651905,
7210
+ "learning_rate": 2.159003947663174e-05,
7211
+ "loss": 0.0001,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.3987611304684475,
7216
+ "grad_norm": 0.003600550815463066,
7217
+ "learning_rate": 2.1502707135590723e-05,
7218
+ "loss": 0.0,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.3991482771970577,
7223
+ "grad_norm": 0.007428227458149195,
7224
+ "learning_rate": 2.1415503372601096e-05,
7225
+ "loss": 0.0001,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.3995354239256678,
7230
+ "grad_norm": 0.0009940440068021417,
7231
+ "learning_rate": 2.1328428581120964e-05,
7232
+ "loss": 0.0,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.399922570654278,
7237
+ "grad_norm": 0.00677646417170763,
7238
+ "learning_rate": 2.124148315402642e-05,
7239
+ "loss": 0.0001,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.4003097173828881,
7244
+ "grad_norm": 0.0008721842896193266,
7245
+ "learning_rate": 2.1154667483609998e-05,
7246
+ "loss": 0.0,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.40069686411149824,
7251
+ "grad_norm": 0.00037974066799506545,
7252
+ "learning_rate": 2.106798196157872e-05,
7253
+ "loss": 0.0,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.4010840108401084,
7258
+ "grad_norm": 0.0008370023570023477,
7259
+ "learning_rate": 2.098142697905236e-05,
7260
+ "loss": 0.0,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.40147115756871854,
7265
+ "grad_norm": 0.0004361419996712357,
7266
+ "learning_rate": 2.0895002926561736e-05,
7267
+ "loss": 0.0,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.40185830429732866,
7272
+ "grad_norm": 0.0016112083103507757,
7273
+ "learning_rate": 2.080871019404692e-05,
7274
+ "loss": 0.0,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.40224545102593884,
7279
+ "grad_norm": 0.0007014021975919604,
7280
+ "learning_rate": 2.0722549170855494e-05,
7281
+ "loss": 0.0,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.40263259775454896,
7286
+ "grad_norm": 0.00015222003275994211,
7287
+ "learning_rate": 2.063652024574071e-05,
7288
+ "loss": 0.0,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.40301974448315914,
7293
+ "grad_norm": 0.00020387036784086376,
7294
+ "learning_rate": 2.0550623806859844e-05,
7295
+ "loss": 0.0,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.40340689121176926,
7300
+ "grad_norm": 0.004351683426648378,
7301
+ "learning_rate": 2.0464860241772455e-05,
7302
+ "loss": 0.0,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.4037940379403794,
7307
+ "grad_norm": 0.00455818697810173,
7308
+ "learning_rate": 2.0379229937438477e-05,
7309
+ "loss": 0.0001,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.40418118466898956,
7314
+ "grad_norm": 0.000623556668870151,
7315
+ "learning_rate": 2.0293733280216648e-05,
7316
+ "loss": 0.0,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.4045683313975997,
7321
+ "grad_norm": 0.0013906165258958936,
7322
+ "learning_rate": 2.020837065586269e-05,
7323
+ "loss": 0.0,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.40495547812620986,
7328
+ "grad_norm": 0.003972301259636879,
7329
+ "learning_rate": 2.0123142449527584e-05,
7330
+ "loss": 0.0001,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.40534262485482,
7335
+ "grad_norm": 0.00038339104503393173,
7336
+ "learning_rate": 2.0038049045755775e-05,
7337
+ "loss": 0.0,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.4057297715834301,
7342
+ "grad_norm": 0.00043085686047561467,
7343
+ "learning_rate": 1.995309082848354e-05,
7344
+ "loss": 0.0,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.4061169183120403,
7349
+ "grad_norm": 0.0012404817389324307,
7350
+ "learning_rate": 1.9868268181037185e-05,
7351
+ "loss": 0.0,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.4065040650406504,
7356
+ "grad_norm": 0.0011212611570954323,
7357
+ "learning_rate": 1.978358148613134e-05,
7358
+ "loss": 0.0,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.4068912117692606,
7363
+ "grad_norm": 0.039180099964141846,
7364
+ "learning_rate": 1.9699031125867213e-05,
7365
+ "loss": 0.0023,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.4072783584978707,
7370
+ "grad_norm": 0.02465960942208767,
7371
+ "learning_rate": 1.9614617481730883e-05,
7372
+ "loss": 0.0004,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.4076655052264808,
7377
+ "grad_norm": 0.013811935670673847,
7378
+ "learning_rate": 1.9530340934591608e-05,
7379
+ "loss": 0.0003,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.408052651955091,
7384
+ "grad_norm": 0.008351047523319721,
7385
+ "learning_rate": 1.9446201864699987e-05,
7386
+ "loss": 0.0002,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.4084397986837011,
7391
+ "grad_norm": 0.0017275417922064662,
7392
+ "learning_rate": 1.9362200651686407e-05,
7393
+ "loss": 0.0001,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.4088269454123113,
7398
+ "grad_norm": 0.031212275847792625,
7399
+ "learning_rate": 1.9278337674559237e-05,
7400
+ "loss": 0.0005,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.4092140921409214,
7405
+ "grad_norm": 0.001833677408285439,
7406
+ "learning_rate": 1.919461331170312e-05,
7407
+ "loss": 0.0001,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.40960123886953154,
7412
+ "grad_norm": 0.00048409271403215826,
7413
+ "learning_rate": 1.9111027940877284e-05,
7414
+ "loss": 0.0,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.4099883855981417,
7419
+ "grad_norm": 0.004958099219948053,
7420
+ "learning_rate": 1.902758193921385e-05,
7421
+ "loss": 0.0001,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.41037553232675184,
7426
+ "grad_norm": 0.0003586974926292896,
7427
+ "learning_rate": 1.89442756832161e-05,
7428
+ "loss": 0.0,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.41076267905536196,
7433
+ "grad_norm": 0.004265904892235994,
7434
+ "learning_rate": 1.8861109548756766e-05,
7435
+ "loss": 0.0,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.41114982578397213,
7440
+ "grad_norm": 0.0007765475893393159,
7441
+ "learning_rate": 1.877808391107641e-05,
7442
+ "loss": 0.0,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.41153697251258226,
7447
+ "grad_norm": 0.003014490008354187,
7448
+ "learning_rate": 1.8695199144781645e-05,
7449
+ "loss": 0.0001,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.41192411924119243,
7454
+ "grad_norm": 0.0007445579976774752,
7455
+ "learning_rate": 1.861245562384351e-05,
7456
+ "loss": 0.0,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.41231126596980255,
7461
+ "grad_norm": 0.0004886957467533648,
7462
+ "learning_rate": 1.8529853721595697e-05,
7463
+ "loss": 0.0,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.4126984126984127,
7468
+ "grad_norm": 0.0007616803050041199,
7469
+ "learning_rate": 1.844739381073301e-05,
7470
+ "loss": 0.0,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.41308555942702285,
7475
+ "grad_norm": 0.0005557533586397767,
7476
+ "learning_rate": 1.8365076263309545e-05,
7477
+ "loss": 0.0,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.413472706155633,
7482
+ "grad_norm": 0.00033164405613206327,
7483
+ "learning_rate": 1.8282901450737033e-05,
7484
+ "loss": 0.0,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.41385985288424315,
7489
+ "grad_norm": 0.000697499024681747,
7490
+ "learning_rate": 1.8200869743783245e-05,
7491
+ "loss": 0.0,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.4142469996128533,
7496
+ "grad_norm": 0.008421828970313072,
7497
+ "learning_rate": 1.8118981512570253e-05,
7498
+ "loss": 0.0001,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.4146341463414634,
7503
+ "grad_norm": 0.0010353690013289452,
7504
+ "learning_rate": 1.80372371265728e-05,
7505
+ "loss": 0.0,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.41502129307007357,
7510
+ "grad_norm": 0.0004474584711715579,
7511
+ "learning_rate": 1.795563695461653e-05,
7512
+ "loss": 0.0,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.4154084397986837,
7517
+ "grad_norm": 0.0019867317751049995,
7518
+ "learning_rate": 1.7874181364876464e-05,
7519
+ "loss": 0.0,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.41579558652729387,
7524
+ "grad_norm": 0.001235696254298091,
7525
+ "learning_rate": 1.7792870724875314e-05,
7526
+ "loss": 0.0,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.416182733255904,
7531
+ "grad_norm": 0.0007534808246418834,
7532
+ "learning_rate": 1.77117054014817e-05,
7533
+ "loss": 0.0,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.4165698799845141,
7538
+ "grad_norm": 0.0005520595004782081,
7539
+ "learning_rate": 1.7630685760908622e-05,
7540
+ "loss": 0.0,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.4169570267131243,
7545
+ "grad_norm": 0.0005588960484601557,
7546
+ "learning_rate": 1.7549812168711777e-05,
7547
+ "loss": 0.0,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.4173441734417344,
7552
+ "grad_norm": 0.0007228697068057954,
7553
+ "learning_rate": 1.746908498978791e-05,
7554
+ "loss": 0.0,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.41773132017034453,
7559
+ "grad_norm": 0.00042682827915996313,
7560
+ "learning_rate": 1.73885045883731e-05,
7561
+ "loss": 0.0,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.4181184668989547,
7566
+ "grad_norm": 0.0011390242725610733,
7567
+ "learning_rate": 1.7308071328041243e-05,
7568
+ "loss": 0.0,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.41850561362756483,
7573
+ "grad_norm": 0.00039792185998521745,
7574
+ "learning_rate": 1.7227785571702303e-05,
7575
+ "loss": 0.0,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.418892760356175,
7580
+ "grad_norm": 0.0003800159611273557,
7581
+ "learning_rate": 1.7147647681600738e-05,
7582
+ "loss": 0.0,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.41927990708478513,
7587
+ "grad_norm": 0.0011553197400644422,
7588
+ "learning_rate": 1.7067658019313826e-05,
7589
+ "loss": 0.0,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.41966705381339525,
7594
+ "grad_norm": 0.0001602371339686215,
7595
+ "learning_rate": 1.6987816945750057e-05,
7596
+ "loss": 0.0,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.42005420054200543,
7601
+ "grad_norm": 0.0007585774874314666,
7602
+ "learning_rate": 1.690812482114752e-05,
7603
+ "loss": 0.0,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.42044134727061555,
7608
+ "grad_norm": 0.0005152882658876479,
7609
+ "learning_rate": 1.6828582005072187e-05,
7610
+ "loss": 0.0,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.42082849399922573,
7615
+ "grad_norm": 0.00029434141470119357,
7616
+ "learning_rate": 1.6749188856416425e-05,
7617
+ "loss": 0.0,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.42121564072783585,
7622
+ "grad_norm": 0.0014791539870202541,
7623
+ "learning_rate": 1.666994573339729e-05,
7624
+ "loss": 0.0,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.42160278745644597,
7629
+ "grad_norm": 0.0017479541711509228,
7630
+ "learning_rate": 1.6590852993554935e-05,
7631
+ "loss": 0.0,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.42198993418505615,
7636
+ "grad_norm": 0.0161809790879488,
7637
+ "learning_rate": 1.651191099375099e-05,
7638
+ "loss": 0.0002,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.42237708091366627,
7643
+ "grad_norm": 0.0017758719623088837,
7644
+ "learning_rate": 1.6433120090166943e-05,
7645
+ "loss": 0.0,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.42276422764227645,
7650
+ "grad_norm": 0.0008196650887839496,
7651
+ "learning_rate": 1.6354480638302588e-05,
7652
+ "loss": 0.0,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.42315137437088657,
7657
+ "grad_norm": 0.0007899802876636386,
7658
+ "learning_rate": 1.6275992992974308e-05,
7659
+ "loss": 0.0,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.4235385210994967,
7664
+ "grad_norm": 0.0006489930092357099,
7665
+ "learning_rate": 1.6197657508313597e-05,
7666
+ "loss": 0.0,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.42392566782810687,
7671
+ "grad_norm": 0.0010093534365296364,
7672
+ "learning_rate": 1.6119474537765395e-05,
7673
+ "loss": 0.0,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.424312814556717,
7678
+ "grad_norm": 0.0457945354282856,
7679
+ "learning_rate": 1.604144443408653e-05,
7680
+ "loss": 0.0005,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.42469996128532717,
7685
+ "grad_norm": 0.009583662264049053,
7686
+ "learning_rate": 1.5963567549344028e-05,
7687
+ "loss": 0.0001,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.4250871080139373,
7692
+ "grad_norm": 0.0023053644690662622,
7693
+ "learning_rate": 1.58858442349137e-05,
7694
+ "loss": 0.0,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.4254742547425474,
7699
+ "grad_norm": 0.0012813667999580503,
7700
+ "learning_rate": 1.580827484147842e-05,
7701
+ "loss": 0.0,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.4258614014711576,
7706
+ "grad_norm": 0.001665553660131991,
7707
+ "learning_rate": 1.5730859719026536e-05,
7708
+ "loss": 0.0,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.4262485481997677,
7713
+ "grad_norm": 0.03397725149989128,
7714
+ "learning_rate": 1.5653599216850378e-05,
7715
+ "loss": 0.0026,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.42663569492837783,
7720
+ "grad_norm": 0.0028618781361728907,
7721
+ "learning_rate": 1.557649368354464e-05,
7722
+ "loss": 0.0001,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.427022841656988,
7727
+ "grad_norm": 0.0466277040541172,
7728
+ "learning_rate": 1.5499543467004813e-05,
7729
+ "loss": 0.0011,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.4274099883855981,
7734
+ "grad_norm": 0.0036304357927292585,
7735
+ "learning_rate": 1.5422748914425557e-05,
7736
+ "loss": 0.0001,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.4277971351142083,
7741
+ "grad_norm": 0.0021317729260772467,
7742
+ "learning_rate": 1.5346110372299216e-05,
7743
+ "loss": 0.0,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.4281842818428184,
7748
+ "grad_norm": 0.0051021394319832325,
7749
+ "learning_rate": 1.526962818641428e-05,
7750
+ "loss": 0.0001,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.42857142857142855,
7755
+ "grad_norm": 0.0004642395942937583,
7756
+ "learning_rate": 1.5193302701853673e-05,
7757
+ "loss": 0.0,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.4289585753000387,
7762
+ "grad_norm": 0.0023515617940574884,
7763
+ "learning_rate": 1.5117134262993348e-05,
7764
+ "loss": 0.0,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.42934572202864885,
7769
+ "grad_norm": 0.004486995283514261,
7770
+ "learning_rate": 1.5041123213500674e-05,
7771
+ "loss": 0.0001,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.429732868757259,
7776
+ "grad_norm": 0.03434832766652107,
7777
+ "learning_rate": 1.4965269896332885e-05,
7778
+ "loss": 0.0004,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.43012001548586914,
7783
+ "grad_norm": 0.06803593039512634,
7784
+ "learning_rate": 1.488957465373551e-05,
7785
+ "loss": 0.0015,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.43050716221447927,
7790
+ "grad_norm": 0.0014034640043973923,
7791
+ "learning_rate": 1.4814037827240895e-05,
7792
+ "loss": 0.0,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.43089430894308944,
7797
+ "grad_norm": 0.00042223307536914945,
7798
+ "learning_rate": 1.47386597576666e-05,
7799
+ "loss": 0.0,
7800
+ "step": 1113
7801
  }
7802
  ],
7803
  "logging_steps": 1,
 
7817
  "attributes": {}
7818
  }
7819
  },
7820
+ "total_flos": 3.17298751184044e+17,
7821
  "train_batch_size": 4,
7822
  "trial_name": null,
7823
  "trial_params": null