DGSlow_DialoGPT-small_BST_70epoch / trainer_state.json

Upload 13 files

2a03df6 verified over 1 year ago

18 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 69.94276094276094,
	"global_step": 980,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.94,
	"eval_accuracy": 0.4674227882409832,
	"eval_loss": 2.8955132961273193,
	"eval_runtime": 18.7933,
	"eval_samples_per_second": 105.729,
	"eval_steps_per_second": 0.692,
	"step": 14
	},
	{
	"epoch": 1.94,
	"eval_accuracy": 0.46653443074701806,
	"eval_loss": 0.8548561334609985,
	"eval_runtime": 19.7558,
	"eval_samples_per_second": 100.578,
	"eval_steps_per_second": 0.658,
	"step": 28
	},
	{
	"epoch": 2.94,
	"eval_accuracy": 0.4693885992808441,
	"eval_loss": 0.4985657036304474,
	"eval_runtime": 17.6713,
	"eval_samples_per_second": 112.442,
	"eval_steps_per_second": 0.736,
	"step": 42
	},
	{
	"epoch": 3.94,
	"eval_accuracy": 0.47050840246337,
	"eval_loss": 0.4260375499725342,
	"eval_runtime": 18.6,
	"eval_samples_per_second": 106.828,
	"eval_steps_per_second": 0.699,
	"step": 56
	},
	{
	"epoch": 4.94,
	"eval_accuracy": 0.4770233523775381,
	"eval_loss": 0.28108683228492737,
	"eval_runtime": 20.1989,
	"eval_samples_per_second": 98.372,
	"eval_steps_per_second": 0.644,
	"step": 70
	},
	{
	"epoch": 5.94,
	"eval_accuracy": 0.4891314089527132,
	"eval_loss": 0.14415042102336884,
	"eval_runtime": 17.7108,
	"eval_samples_per_second": 112.191,
	"eval_steps_per_second": 0.734,
	"step": 84
	},
	{
	"epoch": 6.94,
	"eval_accuracy": 0.4952228625005786,
	"eval_loss": 0.07607654482126236,
	"eval_runtime": 20.5293,
	"eval_samples_per_second": 96.788,
	"eval_steps_per_second": 0.633,
	"step": 98
	},
	{
	"epoch": 7.94,
	"eval_accuracy": 0.4971059440177199,
	"eval_loss": 0.044076837599277496,
	"eval_runtime": 19.5255,
	"eval_samples_per_second": 101.764,
	"eval_steps_per_second": 0.666,
	"step": 112
	},
	{
	"epoch": 8.94,
	"eval_accuracy": 0.49830059772080165,
	"eval_loss": 0.028873631730675697,
	"eval_runtime": 18.1929,
	"eval_samples_per_second": 109.218,
	"eval_steps_per_second": 0.715,
	"step": 126
	},
	{
	"epoch": 9.94,
	"eval_accuracy": 0.49892894814336236,
	"eval_loss": 0.02155212126672268,
	"eval_runtime": 21.2728,
	"eval_samples_per_second": 93.406,
	"eval_steps_per_second": 0.611,
	"step": 140
	},
	{
	"epoch": 10.94,
	"eval_accuracy": 0.4993455503827718,
	"eval_loss": 0.01726018451154232,
	"eval_runtime": 18.282,
	"eval_samples_per_second": 108.686,
	"eval_steps_per_second": 0.711,
	"step": 154
	},
	{
	"epoch": 11.94,
	"eval_accuracy": 0.49957699607133255,
	"eval_loss": 0.01476956345140934,
	"eval_runtime": 21.5099,
	"eval_samples_per_second": 92.376,
	"eval_steps_per_second": 0.604,
	"step": 168
	},
	{
	"epoch": 12.94,
	"eval_accuracy": 0.49980450225881146,
	"eval_loss": 0.012352370657026768,
	"eval_runtime": 20.1169,
	"eval_samples_per_second": 98.773,
	"eval_steps_per_second": 0.646,
	"step": 182
	},
	{
	"epoch": 13.94,
	"eval_accuracy": 0.4999542032999231,
	"eval_loss": 0.010818206705152988,
	"eval_runtime": 19.2177,
	"eval_samples_per_second": 103.395,
	"eval_steps_per_second": 0.676,
	"step": 196
	},
	{
	"epoch": 14.94,
	"eval_accuracy": 0.5000457967000769,
	"eval_loss": 0.009764532558619976,
	"eval_runtime": 20.2058,
	"eval_samples_per_second": 98.338,
	"eval_steps_per_second": 0.643,
	"step": 210
	},
	{
	"epoch": 15.94,
	"eval_accuracy": 0.5001354203496898,
	"eval_loss": 0.009084771387279034,
	"eval_runtime": 18.5782,
	"eval_samples_per_second": 106.953,
	"eval_steps_per_second": 0.7,
	"step": 224
	},
	{
	"epoch": 16.94,
	"eval_accuracy": 0.5001925431153772,
	"eval_loss": 0.008187664672732353,
	"eval_runtime": 19.5572,
	"eval_samples_per_second": 101.599,
	"eval_steps_per_second": 0.665,
	"step": 238
	},
	{
	"epoch": 17.94,
	"eval_accuracy": 0.500231938126196,
	"eval_loss": 0.008109861984848976,
	"eval_runtime": 18.7388,
	"eval_samples_per_second": 106.037,
	"eval_steps_per_second": 0.694,
	"step": 252
	},
	{
	"epoch": 18.94,
	"eval_accuracy": 0.500286106266072,
	"eval_loss": 0.00722927413880825,
	"eval_runtime": 18.6903,
	"eval_samples_per_second": 106.312,
	"eval_steps_per_second": 0.696,
	"step": 266
	},
	{
	"epoch": 19.94,
	"eval_accuracy": 0.5003156525241861,
	"eval_loss": 0.00708524277433753,
	"eval_runtime": 22.4973,
	"eval_samples_per_second": 88.322,
	"eval_steps_per_second": 0.578,
	"step": 280
	},
	{
	"epoch": 20.94,
	"eval_accuracy": 0.5003461836575707,
	"eval_loss": 0.006836502812802792,
	"eval_runtime": 18.9858,
	"eval_samples_per_second": 104.657,
	"eval_steps_per_second": 0.685,
	"step": 294
	},
	{
	"epoch": 21.94,
	"eval_accuracy": 0.5003905030447419,
	"eval_loss": 0.006470560096204281,
	"eval_runtime": 21.4277,
	"eval_samples_per_second": 92.73,
	"eval_steps_per_second": 0.607,
	"step": 308
	},
	{
	"epoch": 22.94,
	"eval_accuracy": 0.5004102005501513,
	"eval_loss": 0.00611697556450963,
	"eval_runtime": 18.7742,
	"eval_samples_per_second": 105.837,
	"eval_steps_per_second": 0.692,
	"step": 322
	},
	{
	"epoch": 23.94,
	"eval_accuracy": 0.5004239888039379,
	"eval_loss": 0.006002925336360931,
	"eval_runtime": 17.6523,
	"eval_samples_per_second": 112.563,
	"eval_steps_per_second": 0.736,
	"step": 336
	},
	{
	"epoch": 24.94,
	"eval_accuracy": 0.5004466409351588,
	"eval_loss": 0.0059402757324278355,
	"eval_runtime": 20.2385,
	"eval_samples_per_second": 98.179,
	"eval_steps_per_second": 0.642,
	"step": 350
	},
	{
	"epoch": 25.94,
	"eval_accuracy": 0.5004584594384044,
	"eval_loss": 0.005674673244357109,
	"eval_runtime": 18.6707,
	"eval_samples_per_second": 106.423,
	"eval_steps_per_second": 0.696,
	"step": 364
	},
	{
	"epoch": 26.94,
	"eval_accuracy": 0.5004683081911091,
	"eval_loss": 0.0056230453774333,
	"eval_runtime": 19.1333,
	"eval_samples_per_second": 103.85,
	"eval_steps_per_second": 0.679,
	"step": 378
	},
	{
	"epoch": 27.94,
	"eval_accuracy": 0.5004850510707072,
	"eval_loss": 0.005449134390801191,
	"eval_runtime": 19.2945,
	"eval_samples_per_second": 102.983,
	"eval_steps_per_second": 0.674,
	"step": 392
	},
	{
	"epoch": 28.94,
	"eval_accuracy": 0.5004929300728709,
	"eval_loss": 0.005320119671523571,
	"eval_runtime": 20.0519,
	"eval_samples_per_second": 99.093,
	"eval_steps_per_second": 0.648,
	"step": 406
	},
	{
	"epoch": 29.94,
	"eval_accuracy": 0.5005008090750347,
	"eval_loss": 0.005209068767726421,
	"eval_runtime": 19.9363,
	"eval_samples_per_second": 99.667,
	"eval_steps_per_second": 0.652,
	"step": 420
	},
	{
	"epoch": 30.94,
	"eval_accuracy": 0.5005067183266575,
	"eval_loss": 0.005184635519981384,
	"eval_runtime": 19.4285,
	"eval_samples_per_second": 102.272,
	"eval_steps_per_second": 0.669,
	"step": 434
	},
	{
	"epoch": 31.94,
	"eval_accuracy": 0.5005254309567965,
	"eval_loss": 0.004937352146953344,
	"eval_runtime": 21.1515,
	"eval_samples_per_second": 93.941,
	"eval_steps_per_second": 0.615,
	"step": 448
	},
	{
	"epoch": 32.94,
	"eval_accuracy": 0.5005382343353126,
	"eval_loss": 0.004831444472074509,
	"eval_runtime": 19.1176,
	"eval_samples_per_second": 103.936,
	"eval_steps_per_second": 0.68,
	"step": 462
	},
	{
	"epoch": 33.94,
	"eval_accuracy": 0.500543158711665,
	"eval_loss": 0.004661811515688896,
	"eval_runtime": 21.9936,
	"eval_samples_per_second": 90.345,
	"eval_steps_per_second": 0.591,
	"step": 476
	},
	{
	"epoch": 34.94,
	"eval_accuracy": 0.5005480830880173,
	"eval_loss": 0.00474146893247962,
	"eval_runtime": 18.9478,
	"eval_samples_per_second": 104.867,
	"eval_steps_per_second": 0.686,
	"step": 490
	},
	{
	"epoch": 35.67,
	"learning_rate": 2.448979591836735e-05,
	"loss": 2.3265,
	"step": 500
	},
	{
	"epoch": 35.94,
	"eval_accuracy": 0.5005569469654516,
	"eval_loss": 0.004643740598112345,
	"eval_runtime": 18.6646,
	"eval_samples_per_second": 106.458,
	"eval_steps_per_second": 0.697,
	"step": 504
	},
	{
	"epoch": 36.94,
	"eval_accuracy": 0.5005628562170744,
	"eval_loss": 0.00456605339422822,
	"eval_runtime": 18.4246,
	"eval_samples_per_second": 107.845,
	"eval_steps_per_second": 0.706,
	"step": 518
	},
	{
	"epoch": 37.94,
	"eval_accuracy": 0.5005569469654516,
	"eval_loss": 0.0045891194604337215,
	"eval_runtime": 19.9985,
	"eval_samples_per_second": 99.358,
	"eval_steps_per_second": 0.65,
	"step": 532
	},
	{
	"epoch": 38.94,
	"eval_accuracy": 0.5005677805934268,
	"eval_loss": 0.004413667134940624,
	"eval_runtime": 20.9756,
	"eval_samples_per_second": 94.729,
	"eval_steps_per_second": 0.62,
	"step": 546
	},
	{
	"epoch": 39.94,
	"eval_accuracy": 0.5005717200945087,
	"eval_loss": 0.004356020595878363,
	"eval_runtime": 18.9086,
	"eval_samples_per_second": 105.084,
	"eval_steps_per_second": 0.688,
	"step": 560
	},
	{
	"epoch": 40.94,
	"eval_accuracy": 0.5005707352192381,
	"eval_loss": 0.004351349081844091,
	"eval_runtime": 21.2375,
	"eval_samples_per_second": 93.561,
	"eval_steps_per_second": 0.612,
	"step": 574
	},
	{
	"epoch": 41.94,
	"eval_accuracy": 0.5005727049697791,
	"eval_loss": 0.004294094629585743,
	"eval_runtime": 20.2798,
	"eval_samples_per_second": 97.979,
	"eval_steps_per_second": 0.641,
	"step": 588
	},
	{
	"epoch": 42.94,
	"eval_accuracy": 0.5005795990966724,
	"eval_loss": 0.004292026627808809,
	"eval_runtime": 19.0207,
	"eval_samples_per_second": 104.465,
	"eval_steps_per_second": 0.683,
	"step": 602
	},
	{
	"epoch": 43.94,
	"eval_accuracy": 0.5005815688472134,
	"eval_loss": 0.004189325030893087,
	"eval_runtime": 21.9849,
	"eval_samples_per_second": 90.38,
	"eval_steps_per_second": 0.591,
	"step": 616
	},
	{
	"epoch": 44.94,
	"eval_accuracy": 0.5005815688472134,
	"eval_loss": 0.0041327630169689655,
	"eval_runtime": 19.2534,
	"eval_samples_per_second": 103.203,
	"eval_steps_per_second": 0.675,
	"step": 630
	},
	{
	"epoch": 45.94,
	"eval_accuracy": 0.5005855083482952,
	"eval_loss": 0.004192625638097525,
	"eval_runtime": 21.5055,
	"eval_samples_per_second": 92.395,
	"eval_steps_per_second": 0.604,
	"step": 644
	},
	{
	"epoch": 46.94,
	"eval_accuracy": 0.5005904327246475,
	"eval_loss": 0.004125718027353287,
	"eval_runtime": 19.7387,
	"eval_samples_per_second": 100.665,
	"eval_steps_per_second": 0.659,
	"step": 658
	},
	{
	"epoch": 47.94,
	"eval_accuracy": 0.5005953571009999,
	"eval_loss": 0.0040009464137256145,
	"eval_runtime": 21.0892,
	"eval_samples_per_second": 94.219,
	"eval_steps_per_second": 0.616,
	"step": 672
	},
	{
	"epoch": 48.94,
	"eval_accuracy": 0.5006002814773522,
	"eval_loss": 0.00396856851875782,
	"eval_runtime": 19.1717,
	"eval_samples_per_second": 103.643,
	"eval_steps_per_second": 0.678,
	"step": 686
	},
	{
	"epoch": 49.94,
	"eval_accuracy": 0.5006032361031637,
	"eval_loss": 0.0039261928759515285,
	"eval_runtime": 19.9925,
	"eval_samples_per_second": 99.387,
	"eval_steps_per_second": 0.65,
	"step": 700
	},
	{
	"epoch": 50.94,
	"eval_accuracy": 0.500610130230057,
	"eval_loss": 0.0038781561888754368,
	"eval_runtime": 22.1008,
	"eval_samples_per_second": 89.906,
	"eval_steps_per_second": 0.588,
	"step": 714
	},
	{
	"epoch": 51.94,
	"eval_accuracy": 0.5006071756042456,
	"eval_loss": 0.003933804575353861,
	"eval_runtime": 17.351,
	"eval_samples_per_second": 114.518,
	"eval_steps_per_second": 0.749,
	"step": 728
	},
	{
	"epoch": 52.94,
	"eval_accuracy": 0.500610130230057,
	"eval_loss": 0.003865364473313093,
	"eval_runtime": 20.5119,
	"eval_samples_per_second": 96.871,
	"eval_steps_per_second": 0.634,
	"step": 742
	},
	{
	"epoch": 53.94,
	"eval_accuracy": 0.500612099980598,
	"eval_loss": 0.0038321653846651316,
	"eval_runtime": 17.3408,
	"eval_samples_per_second": 114.585,
	"eval_steps_per_second": 0.75,
	"step": 756
	},
	{
	"epoch": 54.94,
	"eval_accuracy": 0.5006081604795161,
	"eval_loss": 0.003891468746587634,
	"eval_runtime": 19.3846,
	"eval_samples_per_second": 102.504,
	"eval_steps_per_second": 0.671,
	"step": 770
	},
	{
	"epoch": 55.94,
	"eval_accuracy": 0.5006130848558684,
	"eval_loss": 0.0038119996897876263,
	"eval_runtime": 19.846,
	"eval_samples_per_second": 100.121,
	"eval_steps_per_second": 0.655,
	"step": 784
	},
	{
	"epoch": 56.94,
	"eval_accuracy": 0.5006130848558684,
	"eval_loss": 0.003837888827547431,
	"eval_runtime": 18.0294,
	"eval_samples_per_second": 110.209,
	"eval_steps_per_second": 0.721,
	"step": 798
	},
	{
	"epoch": 57.94,
	"eval_accuracy": 0.5006150546064094,
	"eval_loss": 0.0037844169419258833,
	"eval_runtime": 18.0119,
	"eval_samples_per_second": 110.316,
	"eval_steps_per_second": 0.722,
	"step": 812
	},
	{
	"epoch": 58.94,
	"eval_accuracy": 0.5006160394816799,
	"eval_loss": 0.003779872553423047,
	"eval_runtime": 19.4256,
	"eval_samples_per_second": 102.288,
	"eval_steps_per_second": 0.669,
	"step": 826
	},
	{
	"epoch": 59.94,
	"eval_accuracy": 0.5006170243569503,
	"eval_loss": 0.0038144837599247694,
	"eval_runtime": 18.4675,
	"eval_samples_per_second": 107.595,
	"eval_steps_per_second": 0.704,
	"step": 840
	},
	{
	"epoch": 60.94,
	"eval_accuracy": 0.5006180092322208,
	"eval_loss": 0.0037365842144936323,
	"eval_runtime": 20.6911,
	"eval_samples_per_second": 96.031,
	"eval_steps_per_second": 0.628,
	"step": 854
	},
	{
	"epoch": 61.94,
	"eval_accuracy": 0.5006209638580322,
	"eval_loss": 0.0037281711120158434,
	"eval_runtime": 17.8768,
	"eval_samples_per_second": 111.149,
	"eval_steps_per_second": 0.727,
	"step": 868
	},
	{
	"epoch": 62.94,
	"eval_accuracy": 0.5006209638580322,
	"eval_loss": 0.003779030404984951,
	"eval_runtime": 18.2703,
	"eval_samples_per_second": 108.756,
	"eval_steps_per_second": 0.712,
	"step": 882
	},
	{
	"epoch": 63.94,
	"eval_accuracy": 0.5006239184838436,
	"eval_loss": 0.0037230353336781263,
	"eval_runtime": 20.4452,
	"eval_samples_per_second": 97.187,
	"eval_steps_per_second": 0.636,
	"step": 896
	},
	{
	"epoch": 64.94,
	"eval_accuracy": 0.5006249033591141,
	"eval_loss": 0.003699967870488763,
	"eval_runtime": 18.5245,
	"eval_samples_per_second": 107.264,
	"eval_steps_per_second": 0.702,
	"step": 910
	},
	{
	"epoch": 65.94,
	"eval_accuracy": 0.5006249033591141,
	"eval_loss": 0.0036831670440733433,
	"eval_runtime": 17.7233,
	"eval_samples_per_second": 112.112,
	"eval_steps_per_second": 0.733,
	"step": 924
	},
	{
	"epoch": 66.94,
	"eval_accuracy": 0.5006229336085731,
	"eval_loss": 0.0037006225902587175,
	"eval_runtime": 19.5885,
	"eval_samples_per_second": 101.437,
	"eval_steps_per_second": 0.664,
	"step": 938
	},
	{
	"epoch": 67.94,
	"eval_accuracy": 0.5006258882343846,
	"eval_loss": 0.0036684926599264145,
	"eval_runtime": 19.3473,
	"eval_samples_per_second": 102.702,
	"eval_steps_per_second": 0.672,
	"step": 952
	},
	{
	"epoch": 68.94,
	"eval_accuracy": 0.5006249033591141,
	"eval_loss": 0.003660534741356969,
	"eval_runtime": 19.8083,
	"eval_samples_per_second": 100.312,
	"eval_steps_per_second": 0.656,
	"step": 966
	},
	{
	"epoch": 69.94,
	"eval_accuracy": 0.5006249033591141,
	"eval_loss": 0.0036585668567568064,
	"eval_runtime": 17.5658,
	"eval_samples_per_second": 113.118,
	"eval_steps_per_second": 0.74,
	"step": 980
	},
	{
	"epoch": 69.94,
	"step": 980,
	"total_flos": 1.73221462278144e+17,
	"train_loss": 1.1901442605621961,
	"train_runtime": 21048.4328,
	"train_samples_per_second": 31.521,
	"train_steps_per_second": 0.047
	}
	],
	"max_steps": 980,
	"num_train_epochs": 70,
	"total_flos": 1.73221462278144e+17,
	"trial_name": null,
	"trial_params": null
	}