{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 10.0, "eval_steps": 500, "global_step": 300, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.03333333333333333, "grad_norm": 0.8721705675125122, "learning_rate": 6.666666666666667e-06, "loss": 2.5652, "step": 1 }, { "epoch": 0.16666666666666666, "grad_norm": 0.7771564722061157, "learning_rate": 3.3333333333333335e-05, "loss": 2.5757, "step": 5 }, { "epoch": 0.3333333333333333, "grad_norm": 0.4726114273071289, "learning_rate": 6.666666666666667e-05, "loss": 2.5393, "step": 10 }, { "epoch": 0.5, "grad_norm": 0.41005024313926697, "learning_rate": 0.0001, "loss": 2.4619, "step": 15 }, { "epoch": 0.6666666666666666, "grad_norm": 0.359015554189682, "learning_rate": 0.00013333333333333334, "loss": 2.3546, "step": 20 }, { "epoch": 0.8333333333333334, "grad_norm": 0.32825127243995667, "learning_rate": 0.0001666666666666667, "loss": 2.2723, "step": 25 }, { "epoch": 1.0, "grad_norm": 0.2509020268917084, "learning_rate": 0.0002, "loss": 2.1922, "step": 30 }, { "epoch": 1.0, "eval_loss": 2.293870449066162, "eval_runtime": 0.868, "eval_samples_per_second": 2.304, "eval_steps_per_second": 1.152, "step": 30 }, { "epoch": 1.1666666666666667, "grad_norm": 0.17683961987495422, "learning_rate": 0.00019983081582712685, "loss": 2.1372, "step": 35 }, { "epoch": 1.3333333333333333, "grad_norm": 0.13620507717132568, "learning_rate": 0.00019932383577419432, "loss": 2.092, "step": 40 }, { "epoch": 1.5, "grad_norm": 0.1294490098953247, "learning_rate": 0.00019848077530122083, "loss": 2.0612, "step": 45 }, { "epoch": 1.6666666666666665, "grad_norm": 0.12196648120880127, "learning_rate": 0.00019730448705798239, "loss": 2.029, "step": 50 }, { "epoch": 1.8333333333333335, "grad_norm": 0.12746499478816986, "learning_rate": 0.0001957989512315489, "loss": 2.0055, "step": 55 }, { "epoch": 2.0, "grad_norm": 0.11664091795682907, "learning_rate": 0.00019396926207859084, "loss": 1.9883, "step": 60 }, { "epoch": 2.0, "eval_loss": 2.2309093475341797, "eval_runtime": 0.8673, "eval_samples_per_second": 2.306, "eval_steps_per_second": 1.153, "step": 60 }, { "epoch": 2.1666666666666665, "grad_norm": 0.12395822256803513, "learning_rate": 0.00019182161068802741, "loss": 1.9631, "step": 65 }, { "epoch": 2.3333333333333335, "grad_norm": 0.14801518619060516, "learning_rate": 0.00018936326403234125, "loss": 1.9482, "step": 70 }, { "epoch": 2.5, "grad_norm": 0.12537938356399536, "learning_rate": 0.00018660254037844388, "loss": 1.9543, "step": 75 }, { "epoch": 2.6666666666666665, "grad_norm": 0.13340197503566742, "learning_rate": 0.00018354878114129367, "loss": 1.9364, "step": 80 }, { "epoch": 2.8333333333333335, "grad_norm": 0.16110606491565704, "learning_rate": 0.0001802123192755044, "loss": 1.9286, "step": 85 }, { "epoch": 3.0, "grad_norm": 0.14026618003845215, "learning_rate": 0.0001766044443118978, "loss": 1.9261, "step": 90 }, { "epoch": 3.0, "eval_loss": 2.248041868209839, "eval_runtime": 0.8685, "eval_samples_per_second": 2.303, "eval_steps_per_second": 1.151, "step": 90 }, { "epoch": 3.1666666666666665, "grad_norm": 0.13984443247318268, "learning_rate": 0.00017273736415730488, "loss": 1.9053, "step": 95 }, { "epoch": 3.3333333333333335, "grad_norm": 0.17301388084888458, "learning_rate": 0.0001686241637868734, "loss": 1.9071, "step": 100 }, { "epoch": 3.5, "grad_norm": 0.15998174250125885, "learning_rate": 0.00016427876096865394, "loss": 1.896, "step": 105 }, { "epoch": 3.6666666666666665, "grad_norm": 0.17066697776317596, "learning_rate": 0.00015971585917027862, "loss": 1.891, "step": 110 }, { "epoch": 3.8333333333333335, "grad_norm": 0.18711982667446136, "learning_rate": 0.0001549508978070806, "loss": 1.8784, "step": 115 }, { "epoch": 4.0, "grad_norm": 0.18189194798469543, "learning_rate": 0.00015000000000000001, "loss": 1.877, "step": 120 }, { "epoch": 4.0, "eval_loss": 2.246403217315674, "eval_runtime": 0.8876, "eval_samples_per_second": 2.253, "eval_steps_per_second": 1.127, "step": 120 }, { "epoch": 4.166666666666667, "grad_norm": 0.19101205468177795, "learning_rate": 0.00014487991802004623, "loss": 1.8693, "step": 125 }, { "epoch": 4.333333333333333, "grad_norm": 0.18224620819091797, "learning_rate": 0.0001396079766039157, "loss": 1.8717, "step": 130 }, { "epoch": 4.5, "grad_norm": 0.21038778126239777, "learning_rate": 0.00013420201433256689, "loss": 1.865, "step": 135 }, { "epoch": 4.666666666666667, "grad_norm": 0.20972222089767456, "learning_rate": 0.00012868032327110904, "loss": 1.8534, "step": 140 }, { "epoch": 4.833333333333333, "grad_norm": 0.20562510192394257, "learning_rate": 0.00012306158707424403, "loss": 1.8507, "step": 145 }, { "epoch": 5.0, "grad_norm": 0.18542522192001343, "learning_rate": 0.00011736481776669306, "loss": 1.8508, "step": 150 }, { "epoch": 5.0, "eval_loss": 2.251426935195923, "eval_runtime": 0.8697, "eval_samples_per_second": 2.3, "eval_steps_per_second": 1.15, "step": 150 }, { "epoch": 5.166666666666667, "grad_norm": 0.19300299882888794, "learning_rate": 0.00011160929141252303, "loss": 1.8441, "step": 155 }, { "epoch": 5.333333333333333, "grad_norm": 0.17082081735134125, "learning_rate": 0.00010581448289104758, "loss": 1.8406, "step": 160 }, { "epoch": 5.5, "grad_norm": 0.16670560836791992, "learning_rate": 0.0001, "loss": 1.8314, "step": 165 }, { "epoch": 5.666666666666667, "grad_norm": 0.2005225419998169, "learning_rate": 9.418551710895243e-05, "loss": 1.84, "step": 170 }, { "epoch": 5.833333333333333, "grad_norm": 0.17486542463302612, "learning_rate": 8.839070858747697e-05, "loss": 1.8356, "step": 175 }, { "epoch": 6.0, "grad_norm": 0.17715969681739807, "learning_rate": 8.263518223330697e-05, "loss": 1.8357, "step": 180 }, { "epoch": 6.0, "eval_loss": 2.244203805923462, "eval_runtime": 0.8698, "eval_samples_per_second": 2.299, "eval_steps_per_second": 1.15, "step": 180 }, { "epoch": 6.166666666666667, "grad_norm": 0.1805175244808197, "learning_rate": 7.693841292575598e-05, "loss": 1.8293, "step": 185 }, { "epoch": 6.333333333333333, "grad_norm": 0.16339732706546783, "learning_rate": 7.131967672889101e-05, "loss": 1.8289, "step": 190 }, { "epoch": 6.5, "grad_norm": 0.17380179464817047, "learning_rate": 6.579798566743314e-05, "loss": 1.8242, "step": 195 }, { "epoch": 6.666666666666667, "grad_norm": 0.18039536476135254, "learning_rate": 6.039202339608432e-05, "loss": 1.8221, "step": 200 }, { "epoch": 6.833333333333333, "grad_norm": 0.1678876280784607, "learning_rate": 5.5120081979953785e-05, "loss": 1.8182, "step": 205 }, { "epoch": 7.0, "grad_norm": 0.18717928230762482, "learning_rate": 5.000000000000002e-05, "loss": 1.8225, "step": 210 }, { "epoch": 7.0, "eval_loss": 2.2534749507904053, "eval_runtime": 0.8691, "eval_samples_per_second": 2.301, "eval_steps_per_second": 1.151, "step": 210 }, { "epoch": 7.166666666666667, "grad_norm": 0.1713215708732605, "learning_rate": 4.50491021929194e-05, "loss": 1.8162, "step": 215 }, { "epoch": 7.333333333333333, "grad_norm": 0.14658918976783752, "learning_rate": 4.028414082972141e-05, "loss": 1.8146, "step": 220 }, { "epoch": 7.5, "grad_norm": 0.16408003866672516, "learning_rate": 3.5721239031346066e-05, "loss": 1.8179, "step": 225 }, { "epoch": 7.666666666666667, "grad_norm": 0.15933865308761597, "learning_rate": 3.137583621312665e-05, "loss": 1.8101, "step": 230 }, { "epoch": 7.833333333333333, "grad_norm": 0.14181320369243622, "learning_rate": 2.7262635842695127e-05, "loss": 1.8199, "step": 235 }, { "epoch": 8.0, "grad_norm": 0.16157026588916779, "learning_rate": 2.339555568810221e-05, "loss": 1.8153, "step": 240 }, { "epoch": 8.0, "eval_loss": 2.2560064792633057, "eval_runtime": 0.8693, "eval_samples_per_second": 2.301, "eval_steps_per_second": 1.15, "step": 240 }, { "epoch": 8.166666666666666, "grad_norm": 0.14123442769050598, "learning_rate": 1.9787680724495617e-05, "loss": 1.8138, "step": 245 }, { "epoch": 8.333333333333334, "grad_norm": 0.14202268421649933, "learning_rate": 1.6451218858706374e-05, "loss": 1.8143, "step": 250 }, { "epoch": 8.5, "grad_norm": 0.15732887387275696, "learning_rate": 1.339745962155613e-05, "loss": 1.811, "step": 255 }, { "epoch": 8.666666666666666, "grad_norm": 0.13898594677448273, "learning_rate": 1.0636735967658784e-05, "loss": 1.8033, "step": 260 }, { "epoch": 8.833333333333334, "grad_norm": 0.1528938263654709, "learning_rate": 8.178389311972612e-06, "loss": 1.8194, "step": 265 }, { "epoch": 9.0, "grad_norm": 0.14544987678527832, "learning_rate": 6.030737921409169e-06, "loss": 1.8065, "step": 270 }, { "epoch": 9.0, "eval_loss": 2.257399320602417, "eval_runtime": 0.8685, "eval_samples_per_second": 2.303, "eval_steps_per_second": 1.151, "step": 270 }, { "epoch": 9.166666666666666, "grad_norm": 0.13697919249534607, "learning_rate": 4.20104876845111e-06, "loss": 1.8037, "step": 275 }, { "epoch": 9.333333333333334, "grad_norm": 0.134043887257576, "learning_rate": 2.6955129420176196e-06, "loss": 1.8095, "step": 280 }, { "epoch": 9.5, "grad_norm": 0.1406584531068802, "learning_rate": 1.5192246987791981e-06, "loss": 1.8133, "step": 285 }, { "epoch": 9.666666666666666, "grad_norm": 0.1350001096725464, "learning_rate": 6.761642258056978e-07, "loss": 1.8064, "step": 290 }, { "epoch": 9.833333333333334, "grad_norm": 0.13039974868297577, "learning_rate": 1.6918417287318245e-07, "loss": 1.8157, "step": 295 }, { "epoch": 10.0, "grad_norm": 0.12890292704105377, "learning_rate": 0.0, "loss": 1.8084, "step": 300 }, { "epoch": 10.0, "eval_loss": 2.2579641342163086, "eval_runtime": 0.8884, "eval_samples_per_second": 2.251, "eval_steps_per_second": 1.126, "step": 300 }, { "epoch": 10.0, "step": 300, "total_flos": 1.3343811847501906e+18, "train_loss": 1.9245261510213216, "train_runtime": 1578.2466, "train_samples_per_second": 47.958, "train_steps_per_second": 0.19 } ], "logging_steps": 5, "max_steps": 300, "num_input_tokens_seen": 0, "num_train_epochs": 10, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.3343811847501906e+18, "train_batch_size": 16, "trial_name": null, "trial_params": null }