diff --git "a/checkpoint-187500/trainer_state.json" "b/checkpoint-187500/trainer_state.json" new file mode 100644--- /dev/null +++ "b/checkpoint-187500/trainer_state.json" @@ -0,0 +1,13194 @@ +{ + "best_metric": 1.0, + "best_model_checkpoint": "models/pt-ai-detector/checkpoint-62500", + "epoch": 3.0, + "eval_steps": 500, + "global_step": 187500, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0016, + "grad_norm": 0.02673221565783024, + "learning_rate": 1.9989333333333335e-05, + "loss": 0.109, + "step": 100 + }, + { + "epoch": 0.0032, + "grad_norm": 0.017086902633309364, + "learning_rate": 1.997888e-05, + "loss": 0.0036, + "step": 200 + }, + { + "epoch": 0.0048, + "grad_norm": 0.006770299281924963, + "learning_rate": 1.9968213333333335e-05, + "loss": 0.0019, + "step": 300 + }, + { + "epoch": 0.0064, + "grad_norm": 0.00477579515427351, + "learning_rate": 1.995754666666667e-05, + "loss": 0.0022, + "step": 400 + }, + { + "epoch": 0.008, + "grad_norm": 0.0035180049017071724, + "learning_rate": 1.9946880000000002e-05, + "loss": 0.001, + "step": 500 + }, + { + "epoch": 0.0096, + "grad_norm": 0.003077354747802019, + "learning_rate": 1.9936213333333333e-05, + "loss": 0.0003, + "step": 600 + }, + { + "epoch": 0.0112, + "grad_norm": 0.0021210976410657167, + "learning_rate": 1.992554666666667e-05, + "loss": 0.0001, + "step": 700 + }, + { + "epoch": 0.0128, + "grad_norm": 0.001930135884322226, + "learning_rate": 1.991488e-05, + "loss": 0.0001, + "step": 800 + }, + { + "epoch": 0.0144, + "grad_norm": 0.0014129126211628318, + "learning_rate": 1.9904213333333337e-05, + "loss": 0.0001, + "step": 900 + }, + { + "epoch": 0.016, + "grad_norm": 0.0013116322224959731, + "learning_rate": 1.9893546666666667e-05, + "loss": 0.0001, + "step": 1000 + }, + { + "epoch": 0.0176, + "grad_norm": 0.0009962028125301003, + "learning_rate": 1.988288e-05, + "loss": 0.0, + "step": 1100 + }, + { + "epoch": 0.0192, + "grad_norm": 0.0008926771697588265, + "learning_rate": 1.9872213333333335e-05, + "loss": 0.0, + "step": 1200 + }, + { + "epoch": 0.0208, + "grad_norm": 0.0008887408184818923, + "learning_rate": 1.9861546666666668e-05, + "loss": 0.0, + "step": 1300 + }, + { + "epoch": 0.0224, + "grad_norm": 0.000690207933075726, + "learning_rate": 1.9850880000000002e-05, + "loss": 0.0, + "step": 1400 + }, + { + "epoch": 0.024, + "grad_norm": 0.000710649008397013, + "learning_rate": 1.9840213333333336e-05, + "loss": 0.0, + "step": 1500 + }, + { + "epoch": 0.0256, + "grad_norm": 0.0005570728681050241, + "learning_rate": 1.982954666666667e-05, + "loss": 0.0, + "step": 1600 + }, + { + "epoch": 0.0272, + "grad_norm": 0.013599707745015621, + "learning_rate": 1.9818880000000003e-05, + "loss": 0.0032, + "step": 1700 + }, + { + "epoch": 0.0288, + "grad_norm": 0.0010214447975158691, + "learning_rate": 1.9808213333333333e-05, + "loss": 0.0006, + "step": 1800 + }, + { + "epoch": 0.0304, + "grad_norm": 0.0006235586479306221, + "learning_rate": 1.979754666666667e-05, + "loss": 0.0, + "step": 1900 + }, + { + "epoch": 0.032, + "grad_norm": 0.0006887756753712893, + "learning_rate": 1.978688e-05, + "loss": 0.002, + "step": 2000 + }, + { + "epoch": 0.0336, + "grad_norm": 0.5710021257400513, + "learning_rate": 1.9776213333333334e-05, + "loss": 0.0086, + "step": 2100 + }, + { + "epoch": 0.0352, + "grad_norm": 0.0023482097312808037, + "learning_rate": 1.9765546666666668e-05, + "loss": 0.003, + "step": 2200 + }, + { + "epoch": 0.0368, + "grad_norm": 0.0014186076587066054, + "learning_rate": 1.975488e-05, + "loss": 0.0001, + "step": 2300 + }, + { + "epoch": 0.0384, + "grad_norm": 0.0014550117775797844, + "learning_rate": 1.9744213333333335e-05, + "loss": 0.0, + "step": 2400 + }, + { + "epoch": 0.04, + "grad_norm": 0.0006836645770817995, + "learning_rate": 1.973354666666667e-05, + "loss": 0.0, + "step": 2500 + }, + { + "epoch": 0.0416, + "grad_norm": 0.0005004777340218425, + "learning_rate": 1.9722880000000003e-05, + "loss": 0.0, + "step": 2600 + }, + { + "epoch": 0.0432, + "grad_norm": 0.0005360045470297337, + "learning_rate": 1.9712213333333333e-05, + "loss": 0.0005, + "step": 2700 + }, + { + "epoch": 0.0448, + "grad_norm": 0.0010488297557458282, + "learning_rate": 1.970154666666667e-05, + "loss": 0.0031, + "step": 2800 + }, + { + "epoch": 0.0464, + "grad_norm": 0.0006056024576537311, + "learning_rate": 1.969088e-05, + "loss": 0.0018, + "step": 2900 + }, + { + "epoch": 0.048, + "grad_norm": 0.0004962153034284711, + "learning_rate": 1.9680213333333337e-05, + "loss": 0.0, + "step": 3000 + }, + { + "epoch": 0.0496, + "grad_norm": 0.00048244796926155686, + "learning_rate": 1.9669546666666667e-05, + "loss": 0.0, + "step": 3100 + }, + { + "epoch": 0.0512, + "grad_norm": 0.0003251029411330819, + "learning_rate": 1.965888e-05, + "loss": 0.0, + "step": 3200 + }, + { + "epoch": 0.0528, + "grad_norm": 0.0003602537326514721, + "learning_rate": 1.9648213333333335e-05, + "loss": 0.0, + "step": 3300 + }, + { + "epoch": 0.0544, + "grad_norm": 0.00031091648270376027, + "learning_rate": 1.963754666666667e-05, + "loss": 0.0, + "step": 3400 + }, + { + "epoch": 0.056, + "grad_norm": 0.00021150140673853457, + "learning_rate": 1.9626880000000002e-05, + "loss": 0.0, + "step": 3500 + }, + { + "epoch": 0.0576, + "grad_norm": 0.00020159632549621165, + "learning_rate": 1.9616213333333336e-05, + "loss": 0.0, + "step": 3600 + }, + { + "epoch": 0.0592, + "grad_norm": 0.00022669663303531706, + "learning_rate": 1.960554666666667e-05, + "loss": 0.0, + "step": 3700 + }, + { + "epoch": 0.0608, + "grad_norm": 0.00015808363968972117, + "learning_rate": 1.959488e-05, + "loss": 0.0, + "step": 3800 + }, + { + "epoch": 0.0624, + "grad_norm": 0.00016346627671737224, + "learning_rate": 1.9584213333333337e-05, + "loss": 0.0, + "step": 3900 + }, + { + "epoch": 0.064, + "grad_norm": 0.00013883988140150905, + "learning_rate": 1.9573546666666667e-05, + "loss": 0.0, + "step": 4000 + }, + { + "epoch": 0.0656, + "grad_norm": 0.0001542122772661969, + "learning_rate": 1.956288e-05, + "loss": 0.0, + "step": 4100 + }, + { + "epoch": 0.0672, + "grad_norm": 0.00011279522732365876, + "learning_rate": 1.9552213333333334e-05, + "loss": 0.0, + "step": 4200 + }, + { + "epoch": 0.0688, + "grad_norm": 0.00010847948578884825, + "learning_rate": 1.9541546666666668e-05, + "loss": 0.0002, + "step": 4300 + }, + { + "epoch": 0.0704, + "grad_norm": 0.00010385631321696565, + "learning_rate": 1.953088e-05, + "loss": 0.0, + "step": 4400 + }, + { + "epoch": 0.072, + "grad_norm": 0.00011526003072503954, + "learning_rate": 1.9520213333333335e-05, + "loss": 0.0, + "step": 4500 + }, + { + "epoch": 0.0736, + "grad_norm": 9.515963756712154e-05, + "learning_rate": 1.950954666666667e-05, + "loss": 0.0, + "step": 4600 + }, + { + "epoch": 0.0752, + "grad_norm": 9.874672832665965e-05, + "learning_rate": 1.9498880000000003e-05, + "loss": 0.0, + "step": 4700 + }, + { + "epoch": 0.0768, + "grad_norm": 7.66971061239019e-05, + "learning_rate": 1.9488213333333333e-05, + "loss": 0.0, + "step": 4800 + }, + { + "epoch": 0.0784, + "grad_norm": 7.775246922392398e-05, + "learning_rate": 1.947754666666667e-05, + "loss": 0.0, + "step": 4900 + }, + { + "epoch": 0.08, + "grad_norm": 7.147744327085093e-05, + "learning_rate": 1.946688e-05, + "loss": 0.0, + "step": 5000 + }, + { + "epoch": 0.0816, + "grad_norm": 7.22740005585365e-05, + "learning_rate": 1.9456213333333337e-05, + "loss": 0.0, + "step": 5100 + }, + { + "epoch": 0.0832, + "grad_norm": 7.028302206890658e-05, + "learning_rate": 1.9445546666666668e-05, + "loss": 0.0, + "step": 5200 + }, + { + "epoch": 0.0848, + "grad_norm": 5.9161051467526704e-05, + "learning_rate": 1.943488e-05, + "loss": 0.0, + "step": 5300 + }, + { + "epoch": 0.0864, + "grad_norm": 6.208459672052413e-05, + "learning_rate": 1.9424213333333335e-05, + "loss": 0.0, + "step": 5400 + }, + { + "epoch": 0.088, + "grad_norm": 5.193577453610487e-05, + "learning_rate": 1.941354666666667e-05, + "loss": 0.0, + "step": 5500 + }, + { + "epoch": 0.0896, + "grad_norm": 5.222402614890598e-05, + "learning_rate": 1.9402880000000002e-05, + "loss": 0.0, + "step": 5600 + }, + { + "epoch": 0.0912, + "grad_norm": 4.8609777877572924e-05, + "learning_rate": 1.9392213333333332e-05, + "loss": 0.0, + "step": 5700 + }, + { + "epoch": 0.0928, + "grad_norm": 4.5065498852636665e-05, + "learning_rate": 1.938154666666667e-05, + "loss": 0.0, + "step": 5800 + }, + { + "epoch": 0.0944, + "grad_norm": 5.239112942945212e-05, + "learning_rate": 1.937088e-05, + "loss": 0.0, + "step": 5900 + }, + { + "epoch": 0.096, + "grad_norm": 3.7742487620562315e-05, + "learning_rate": 1.9360213333333337e-05, + "loss": 0.0, + "step": 6000 + }, + { + "epoch": 0.0976, + "grad_norm": 3.911816020263359e-05, + "learning_rate": 1.9349546666666667e-05, + "loss": 0.0, + "step": 6100 + }, + { + "epoch": 0.0992, + "grad_norm": 4.1876675823004916e-05, + "learning_rate": 1.933888e-05, + "loss": 0.0, + "step": 6200 + }, + { + "epoch": 0.1008, + "grad_norm": 3.35037948389072e-05, + "learning_rate": 1.9328213333333334e-05, + "loss": 0.0, + "step": 6300 + }, + { + "epoch": 0.1024, + "grad_norm": 3.4527558455010876e-05, + "learning_rate": 1.9317546666666668e-05, + "loss": 0.0, + "step": 6400 + }, + { + "epoch": 0.104, + "grad_norm": 3.605220263125375e-05, + "learning_rate": 1.9306880000000002e-05, + "loss": 0.0, + "step": 6500 + }, + { + "epoch": 0.1056, + "grad_norm": 2.969952765852213e-05, + "learning_rate": 1.9296213333333335e-05, + "loss": 0.0, + "step": 6600 + }, + { + "epoch": 0.1072, + "grad_norm": 3.127843956463039e-05, + "learning_rate": 1.928554666666667e-05, + "loss": 0.0, + "step": 6700 + }, + { + "epoch": 0.1088, + "grad_norm": 2.8357508199405856e-05, + "learning_rate": 1.9274880000000003e-05, + "loss": 0.0, + "step": 6800 + }, + { + "epoch": 0.1104, + "grad_norm": 2.9021906811976805e-05, + "learning_rate": 1.9264213333333336e-05, + "loss": 0.0, + "step": 6900 + }, + { + "epoch": 0.112, + "grad_norm": 2.56488910963526e-05, + "learning_rate": 1.925354666666667e-05, + "loss": 0.0, + "step": 7000 + }, + { + "epoch": 0.1136, + "grad_norm": 2.425051025056746e-05, + "learning_rate": 1.924288e-05, + "loss": 0.0, + "step": 7100 + }, + { + "epoch": 0.1152, + "grad_norm": 2.3250922822626308e-05, + "learning_rate": 1.9232213333333334e-05, + "loss": 0.0, + "step": 7200 + }, + { + "epoch": 0.1168, + "grad_norm": 2.17950018850388e-05, + "learning_rate": 1.9221546666666668e-05, + "loss": 0.0, + "step": 7300 + }, + { + "epoch": 0.1184, + "grad_norm": 1.6155694538610987e-05, + "learning_rate": 1.921088e-05, + "loss": 0.0, + "step": 7400 + }, + { + "epoch": 0.12, + "grad_norm": 1.7884429325931706e-05, + "learning_rate": 1.9200213333333335e-05, + "loss": 0.0, + "step": 7500 + }, + { + "epoch": 0.1216, + "grad_norm": 1.5228806660161354e-05, + "learning_rate": 1.918954666666667e-05, + "loss": 0.0, + "step": 7600 + }, + { + "epoch": 0.1232, + "grad_norm": 0.0004236107924953103, + "learning_rate": 1.9178880000000002e-05, + "loss": 0.0082, + "step": 7700 + }, + { + "epoch": 0.1248, + "grad_norm": 0.001014222507365048, + "learning_rate": 1.9168213333333333e-05, + "loss": 0.0057, + "step": 7800 + }, + { + "epoch": 0.1264, + "grad_norm": 0.0008165242616087198, + "learning_rate": 1.9157653333333336e-05, + "loss": 0.0029, + "step": 7900 + }, + { + "epoch": 0.128, + "grad_norm": 0.0005670466343872249, + "learning_rate": 1.914698666666667e-05, + "loss": 0.0, + "step": 8000 + }, + { + "epoch": 0.1296, + "grad_norm": 0.00030610596877522767, + "learning_rate": 1.9136320000000003e-05, + "loss": 0.0, + "step": 8100 + }, + { + "epoch": 0.1312, + "grad_norm": 0.00035054876934736967, + "learning_rate": 1.9125653333333333e-05, + "loss": 0.0, + "step": 8200 + }, + { + "epoch": 0.1328, + "grad_norm": 0.00023674893600400537, + "learning_rate": 1.9114986666666667e-05, + "loss": 0.0, + "step": 8300 + }, + { + "epoch": 0.1344, + "grad_norm": 0.00020271481480449438, + "learning_rate": 1.910432e-05, + "loss": 0.0, + "step": 8400 + }, + { + "epoch": 0.136, + "grad_norm": 0.00012801923730876297, + "learning_rate": 1.9093653333333334e-05, + "loss": 0.0, + "step": 8500 + }, + { + "epoch": 0.1376, + "grad_norm": 0.00013235829828772694, + "learning_rate": 1.9082986666666668e-05, + "loss": 0.0, + "step": 8600 + }, + { + "epoch": 0.1392, + "grad_norm": 0.0001435764424968511, + "learning_rate": 1.9072320000000002e-05, + "loss": 0.0, + "step": 8700 + }, + { + "epoch": 0.1408, + "grad_norm": 0.00011448346049292013, + "learning_rate": 1.9061653333333335e-05, + "loss": 0.0, + "step": 8800 + }, + { + "epoch": 0.1424, + "grad_norm": 0.000109691551188007, + "learning_rate": 1.905098666666667e-05, + "loss": 0.0, + "step": 8900 + }, + { + "epoch": 0.144, + "grad_norm": 0.00011090271436842158, + "learning_rate": 1.904032e-05, + "loss": 0.0, + "step": 9000 + }, + { + "epoch": 0.1456, + "grad_norm": 9.558543388266116e-05, + "learning_rate": 1.9029653333333336e-05, + "loss": 0.0, + "step": 9100 + }, + { + "epoch": 0.1472, + "grad_norm": 8.690696267876774e-05, + "learning_rate": 1.9018986666666667e-05, + "loss": 0.0, + "step": 9200 + }, + { + "epoch": 0.1488, + "grad_norm": 6.725907587679103e-05, + "learning_rate": 1.9008320000000004e-05, + "loss": 0.0, + "step": 9300 + }, + { + "epoch": 0.1504, + "grad_norm": 6.74678958603181e-05, + "learning_rate": 1.8997653333333334e-05, + "loss": 0.0, + "step": 9400 + }, + { + "epoch": 0.152, + "grad_norm": 6.147296517156065e-05, + "learning_rate": 1.8986986666666668e-05, + "loss": 0.0, + "step": 9500 + }, + { + "epoch": 0.1536, + "grad_norm": 5.8914873079629615e-05, + "learning_rate": 1.897632e-05, + "loss": 0.0, + "step": 9600 + }, + { + "epoch": 0.1552, + "grad_norm": 5.48441348655615e-05, + "learning_rate": 1.8965653333333335e-05, + "loss": 0.0, + "step": 9700 + }, + { + "epoch": 0.1568, + "grad_norm": 6.385787128238007e-05, + "learning_rate": 1.895498666666667e-05, + "loss": 0.0, + "step": 9800 + }, + { + "epoch": 0.1584, + "grad_norm": 5.257723751128651e-05, + "learning_rate": 1.894432e-05, + "loss": 0.0, + "step": 9900 + }, + { + "epoch": 0.16, + "grad_norm": 5.524126754608005e-05, + "learning_rate": 1.8933653333333336e-05, + "loss": 0.0, + "step": 10000 + }, + { + "epoch": 0.1616, + "grad_norm": 4.3862233724212274e-05, + "learning_rate": 1.8922986666666666e-05, + "loss": 0.0, + "step": 10100 + }, + { + "epoch": 0.1632, + "grad_norm": 4.757397255161777e-05, + "learning_rate": 1.8912320000000003e-05, + "loss": 0.0, + "step": 10200 + }, + { + "epoch": 0.1648, + "grad_norm": 0.0006927695358172059, + "learning_rate": 1.8901653333333334e-05, + "loss": 0.004, + "step": 10300 + }, + { + "epoch": 0.1664, + "grad_norm": 0.0002426155551802367, + "learning_rate": 1.8890986666666667e-05, + "loss": 0.0, + "step": 10400 + }, + { + "epoch": 0.168, + "grad_norm": 0.0002200150629505515, + "learning_rate": 1.888032e-05, + "loss": 0.0, + "step": 10500 + }, + { + "epoch": 0.1696, + "grad_norm": 0.00017707289953250438, + "learning_rate": 1.8869653333333335e-05, + "loss": 0.0, + "step": 10600 + }, + { + "epoch": 0.1712, + "grad_norm": 0.000118190873763524, + "learning_rate": 1.8858986666666668e-05, + "loss": 0.0, + "step": 10700 + }, + { + "epoch": 0.1728, + "grad_norm": 0.0001291615335503593, + "learning_rate": 1.8848320000000002e-05, + "loss": 0.0, + "step": 10800 + }, + { + "epoch": 0.1744, + "grad_norm": 0.00015779025852680206, + "learning_rate": 1.883808e-05, + "loss": 0.0415, + "step": 10900 + }, + { + "epoch": 0.176, + "grad_norm": 0.0010131917661055923, + "learning_rate": 1.8827413333333334e-05, + "loss": 0.0044, + "step": 11000 + }, + { + "epoch": 0.1776, + "grad_norm": 0.00028366921469569206, + "learning_rate": 1.8816746666666668e-05, + "loss": 0.0, + "step": 11100 + }, + { + "epoch": 0.1792, + "grad_norm": 0.00023540180700365454, + "learning_rate": 1.880608e-05, + "loss": 0.0, + "step": 11200 + }, + { + "epoch": 0.1808, + "grad_norm": 0.00020333370775915682, + "learning_rate": 1.8795413333333335e-05, + "loss": 0.0, + "step": 11300 + }, + { + "epoch": 0.1824, + "grad_norm": 0.0010605982970446348, + "learning_rate": 1.878474666666667e-05, + "loss": 0.0, + "step": 11400 + }, + { + "epoch": 0.184, + "grad_norm": 0.0002904959546867758, + "learning_rate": 1.8774080000000002e-05, + "loss": 0.0004, + "step": 11500 + }, + { + "epoch": 0.1856, + "grad_norm": 0.00024336307251360267, + "learning_rate": 1.8763413333333336e-05, + "loss": 0.0, + "step": 11600 + }, + { + "epoch": 0.1872, + "grad_norm": 0.0001343002077192068, + "learning_rate": 1.8752746666666666e-05, + "loss": 0.0, + "step": 11700 + }, + { + "epoch": 0.1888, + "grad_norm": 9.551690163789317e-05, + "learning_rate": 1.8742080000000003e-05, + "loss": 0.0, + "step": 11800 + }, + { + "epoch": 0.1904, + "grad_norm": 7.702928996877745e-05, + "learning_rate": 1.8731413333333334e-05, + "loss": 0.0, + "step": 11900 + }, + { + "epoch": 0.192, + "grad_norm": 8.958076796261594e-05, + "learning_rate": 1.872074666666667e-05, + "loss": 0.0, + "step": 12000 + }, + { + "epoch": 0.1936, + "grad_norm": 7.529326830990613e-05, + "learning_rate": 1.871008e-05, + "loss": 0.0, + "step": 12100 + }, + { + "epoch": 0.1952, + "grad_norm": 5.7092009228654206e-05, + "learning_rate": 1.8699413333333335e-05, + "loss": 0.0, + "step": 12200 + }, + { + "epoch": 0.1968, + "grad_norm": 5.631962267216295e-05, + "learning_rate": 1.8688746666666668e-05, + "loss": 0.0, + "step": 12300 + }, + { + "epoch": 0.1984, + "grad_norm": 5.422734466264956e-05, + "learning_rate": 1.8678080000000002e-05, + "loss": 0.0, + "step": 12400 + }, + { + "epoch": 0.2, + "grad_norm": 9.995359869208187e-05, + "learning_rate": 1.8667413333333336e-05, + "loss": 0.0, + "step": 12500 + }, + { + "epoch": 0.2016, + "grad_norm": 4.6004188334336504e-05, + "learning_rate": 1.8656746666666666e-05, + "loss": 0.0, + "step": 12600 + }, + { + "epoch": 0.2032, + "grad_norm": 4.585070564644411e-05, + "learning_rate": 1.8646080000000003e-05, + "loss": 0.0, + "step": 12700 + }, + { + "epoch": 0.2048, + "grad_norm": 4.063411324750632e-05, + "learning_rate": 1.8635413333333333e-05, + "loss": 0.0, + "step": 12800 + }, + { + "epoch": 0.2064, + "grad_norm": 4.030313721159473e-05, + "learning_rate": 1.862474666666667e-05, + "loss": 0.0, + "step": 12900 + }, + { + "epoch": 0.208, + "grad_norm": 3.6798068322241306e-05, + "learning_rate": 1.861408e-05, + "loss": 0.0, + "step": 13000 + }, + { + "epoch": 0.2096, + "grad_norm": 3.58178440365009e-05, + "learning_rate": 1.8603413333333334e-05, + "loss": 0.0, + "step": 13100 + }, + { + "epoch": 0.2112, + "grad_norm": 3.633175219874829e-05, + "learning_rate": 1.8592746666666668e-05, + "loss": 0.0, + "step": 13200 + }, + { + "epoch": 0.2128, + "grad_norm": 2.833498001564294e-05, + "learning_rate": 1.858208e-05, + "loss": 0.0, + "step": 13300 + }, + { + "epoch": 0.2144, + "grad_norm": 3.0395483918255195e-05, + "learning_rate": 1.8571413333333335e-05, + "loss": 0.0, + "step": 13400 + }, + { + "epoch": 0.216, + "grad_norm": 2.7293002858641557e-05, + "learning_rate": 1.856074666666667e-05, + "loss": 0.0, + "step": 13500 + }, + { + "epoch": 0.2176, + "grad_norm": 2.7100266379420646e-05, + "learning_rate": 1.8550080000000002e-05, + "loss": 0.0, + "step": 13600 + }, + { + "epoch": 0.2192, + "grad_norm": 2.9992290365044028e-05, + "learning_rate": 1.8539413333333336e-05, + "loss": 0.0, + "step": 13700 + }, + { + "epoch": 0.2208, + "grad_norm": 2.895161924243439e-05, + "learning_rate": 1.852874666666667e-05, + "loss": 0.0, + "step": 13800 + }, + { + "epoch": 0.2224, + "grad_norm": 2.4209704861277714e-05, + "learning_rate": 1.851808e-05, + "loss": 0.0, + "step": 13900 + }, + { + "epoch": 0.224, + "grad_norm": 2.0423936803126708e-05, + "learning_rate": 1.8507413333333334e-05, + "loss": 0.0, + "step": 14000 + }, + { + "epoch": 0.2256, + "grad_norm": 1.81021387106739e-05, + "learning_rate": 1.8496746666666667e-05, + "loss": 0.0, + "step": 14100 + }, + { + "epoch": 0.2272, + "grad_norm": 1.9862713088514283e-05, + "learning_rate": 1.848608e-05, + "loss": 0.0, + "step": 14200 + }, + { + "epoch": 0.2288, + "grad_norm": 1.785710992407985e-05, + "learning_rate": 1.8475413333333335e-05, + "loss": 0.0, + "step": 14300 + }, + { + "epoch": 0.2304, + "grad_norm": 1.59865176101448e-05, + "learning_rate": 1.846474666666667e-05, + "loss": 0.0, + "step": 14400 + }, + { + "epoch": 0.232, + "grad_norm": 1.3941355064162053e-05, + "learning_rate": 1.8454080000000002e-05, + "loss": 0.0, + "step": 14500 + }, + { + "epoch": 0.2336, + "grad_norm": 1.572091605339665e-05, + "learning_rate": 1.8443413333333336e-05, + "loss": 0.0, + "step": 14600 + }, + { + "epoch": 0.2352, + "grad_norm": 1.866888123913668e-05, + "learning_rate": 1.843274666666667e-05, + "loss": 0.0, + "step": 14700 + }, + { + "epoch": 0.2368, + "grad_norm": 1.7219248547917232e-05, + "learning_rate": 1.8422080000000003e-05, + "loss": 0.0, + "step": 14800 + }, + { + "epoch": 0.2384, + "grad_norm": 1.6731108189560473e-05, + "learning_rate": 1.8411413333333333e-05, + "loss": 0.0, + "step": 14900 + }, + { + "epoch": 0.24, + "grad_norm": 1.463459284423152e-05, + "learning_rate": 1.840074666666667e-05, + "loss": 0.0, + "step": 15000 + }, + { + "epoch": 0.2416, + "grad_norm": 1.5301053281291388e-05, + "learning_rate": 1.839008e-05, + "loss": 0.0, + "step": 15100 + }, + { + "epoch": 0.2432, + "grad_norm": 1.1437626199040096e-05, + "learning_rate": 1.8379413333333334e-05, + "loss": 0.0, + "step": 15200 + }, + { + "epoch": 0.2448, + "grad_norm": 1.2994928511034232e-05, + "learning_rate": 1.8368746666666668e-05, + "loss": 0.0, + "step": 15300 + }, + { + "epoch": 0.2464, + "grad_norm": 1.1984897355432622e-05, + "learning_rate": 1.835808e-05, + "loss": 0.0, + "step": 15400 + }, + { + "epoch": 0.248, + "grad_norm": 1.0545180884946603e-05, + "learning_rate": 1.8347413333333335e-05, + "loss": 0.0, + "step": 15500 + }, + { + "epoch": 0.2496, + "grad_norm": 1.0379474588262383e-05, + "learning_rate": 1.8336746666666666e-05, + "loss": 0.0, + "step": 15600 + }, + { + "epoch": 0.2512, + "grad_norm": 9.962018339138012e-06, + "learning_rate": 1.8326080000000003e-05, + "loss": 0.0, + "step": 15700 + }, + { + "epoch": 0.2528, + "grad_norm": 1.2507619430834893e-05, + "learning_rate": 1.8315413333333333e-05, + "loss": 0.0, + "step": 15800 + }, + { + "epoch": 0.2544, + "grad_norm": 1.1630279914243147e-05, + "learning_rate": 1.830474666666667e-05, + "loss": 0.0, + "step": 15900 + }, + { + "epoch": 0.256, + "grad_norm": 8.16356077848468e-06, + "learning_rate": 1.829408e-05, + "loss": 0.0, + "step": 16000 + }, + { + "epoch": 0.2576, + "grad_norm": 9.179115295410156e-06, + "learning_rate": 1.8283413333333334e-05, + "loss": 0.0, + "step": 16100 + }, + { + "epoch": 0.2592, + "grad_norm": 7.899307092884555e-06, + "learning_rate": 1.8272746666666668e-05, + "loss": 0.0, + "step": 16200 + }, + { + "epoch": 0.2608, + "grad_norm": 8.934203833632637e-06, + "learning_rate": 1.826208e-05, + "loss": 0.0, + "step": 16300 + }, + { + "epoch": 0.2624, + "grad_norm": 6.883318292238982e-06, + "learning_rate": 1.8251413333333335e-05, + "loss": 0.0, + "step": 16400 + }, + { + "epoch": 0.264, + "grad_norm": 6.63133641864988e-06, + "learning_rate": 1.824074666666667e-05, + "loss": 0.0, + "step": 16500 + }, + { + "epoch": 0.2656, + "grad_norm": 7.2985894803423434e-06, + "learning_rate": 1.8230080000000002e-05, + "loss": 0.0, + "step": 16600 + }, + { + "epoch": 0.2672, + "grad_norm": 6.7308114921615925e-06, + "learning_rate": 1.8219413333333336e-05, + "loss": 0.0, + "step": 16700 + }, + { + "epoch": 0.2688, + "grad_norm": 7.756932973279618e-06, + "learning_rate": 1.820874666666667e-05, + "loss": 0.0, + "step": 16800 + }, + { + "epoch": 0.2704, + "grad_norm": 6.190203748701606e-06, + "learning_rate": 1.8198080000000003e-05, + "loss": 0.0, + "step": 16900 + }, + { + "epoch": 0.272, + "grad_norm": 6.483978722826578e-06, + "learning_rate": 1.8187413333333333e-05, + "loss": 0.0, + "step": 17000 + }, + { + "epoch": 0.2736, + "grad_norm": 5.759993655374274e-06, + "learning_rate": 1.817674666666667e-05, + "loss": 0.0, + "step": 17100 + }, + { + "epoch": 0.2752, + "grad_norm": 5.414194674813189e-06, + "learning_rate": 1.816608e-05, + "loss": 0.0, + "step": 17200 + }, + { + "epoch": 0.2768, + "grad_norm": 6.183955520100426e-06, + "learning_rate": 1.8155413333333334e-05, + "loss": 0.0, + "step": 17300 + }, + { + "epoch": 0.2784, + "grad_norm": 5.614017936750315e-06, + "learning_rate": 1.8144746666666668e-05, + "loss": 0.0, + "step": 17400 + }, + { + "epoch": 0.28, + "grad_norm": 4.546806849248242e-06, + "learning_rate": 1.8134080000000002e-05, + "loss": 0.0, + "step": 17500 + }, + { + "epoch": 0.2816, + "grad_norm": 5.248873549135169e-06, + "learning_rate": 1.8123413333333335e-05, + "loss": 0.0, + "step": 17600 + }, + { + "epoch": 0.2832, + "grad_norm": 5.707049695047317e-06, + "learning_rate": 1.811274666666667e-05, + "loss": 0.0, + "step": 17700 + }, + { + "epoch": 0.2848, + "grad_norm": 4.1388898353034165e-06, + "learning_rate": 1.8102080000000003e-05, + "loss": 0.0, + "step": 17800 + }, + { + "epoch": 0.2864, + "grad_norm": 4.138165422773454e-06, + "learning_rate": 1.8091413333333333e-05, + "loss": 0.0, + "step": 17900 + }, + { + "epoch": 0.288, + "grad_norm": 4.807816367247142e-06, + "learning_rate": 1.808074666666667e-05, + "loss": 0.0, + "step": 18000 + }, + { + "epoch": 0.2896, + "grad_norm": 3.953806299250573e-06, + "learning_rate": 1.807008e-05, + "loss": 0.0, + "step": 18100 + }, + { + "epoch": 0.2912, + "grad_norm": 4.514291049417807e-06, + "learning_rate": 1.8059413333333334e-05, + "loss": 0.0, + "step": 18200 + }, + { + "epoch": 0.2928, + "grad_norm": 3.86543206332135e-06, + "learning_rate": 1.8048746666666668e-05, + "loss": 0.0, + "step": 18300 + }, + { + "epoch": 0.2944, + "grad_norm": 4.020656433567638e-06, + "learning_rate": 1.803808e-05, + "loss": 0.0, + "step": 18400 + }, + { + "epoch": 0.296, + "grad_norm": 3.020624490090995e-06, + "learning_rate": 1.8027413333333335e-05, + "loss": 0.0, + "step": 18500 + }, + { + "epoch": 0.2976, + "grad_norm": 3.109249746557907e-06, + "learning_rate": 1.801674666666667e-05, + "loss": 0.0, + "step": 18600 + }, + { + "epoch": 0.2992, + "grad_norm": 3.1550080166198313e-06, + "learning_rate": 1.8006080000000002e-05, + "loss": 0.0, + "step": 18700 + }, + { + "epoch": 0.3008, + "grad_norm": 2.926373326772591e-06, + "learning_rate": 1.7995413333333336e-05, + "loss": 0.0, + "step": 18800 + }, + { + "epoch": 0.3024, + "grad_norm": 2.828928245435236e-06, + "learning_rate": 1.798474666666667e-05, + "loss": 0.0, + "step": 18900 + }, + { + "epoch": 0.304, + "grad_norm": 2.5713843569974415e-06, + "learning_rate": 1.797408e-05, + "loss": 0.0, + "step": 19000 + }, + { + "epoch": 0.3056, + "grad_norm": 2.677134943951387e-06, + "learning_rate": 1.7963413333333334e-05, + "loss": 0.0, + "step": 19100 + }, + { + "epoch": 0.3072, + "grad_norm": 2.3387976852973225e-06, + "learning_rate": 1.7952746666666667e-05, + "loss": 0.0, + "step": 19200 + }, + { + "epoch": 0.3088, + "grad_norm": 2.2587300918530673e-06, + "learning_rate": 1.794208e-05, + "loss": 0.0, + "step": 19300 + }, + { + "epoch": 0.3104, + "grad_norm": 2.2797592009737855e-06, + "learning_rate": 1.7931413333333335e-05, + "loss": 0.0, + "step": 19400 + }, + { + "epoch": 0.312, + "grad_norm": 2.516329004720319e-06, + "learning_rate": 1.7920746666666668e-05, + "loss": 0.0, + "step": 19500 + }, + { + "epoch": 0.3136, + "grad_norm": 2.1884568468522048e-06, + "learning_rate": 1.7910080000000002e-05, + "loss": 0.0, + "step": 19600 + }, + { + "epoch": 0.3152, + "grad_norm": 1.7737016833052621e-06, + "learning_rate": 1.7899413333333335e-05, + "loss": 0.0, + "step": 19700 + }, + { + "epoch": 0.3168, + "grad_norm": 1.8436692243994912e-06, + "learning_rate": 1.788874666666667e-05, + "loss": 0.0, + "step": 19800 + }, + { + "epoch": 0.3184, + "grad_norm": 2.1666396605724003e-06, + "learning_rate": 1.7878080000000003e-05, + "loss": 0.0, + "step": 19900 + }, + { + "epoch": 0.32, + "grad_norm": 1.988582653211779e-06, + "learning_rate": 1.7867413333333333e-05, + "loss": 0.0, + "step": 20000 + }, + { + "epoch": 0.3216, + "grad_norm": 1.9917110876122024e-06, + "learning_rate": 1.785674666666667e-05, + "loss": 0.0, + "step": 20100 + }, + { + "epoch": 0.3232, + "grad_norm": 1.605521674719057e-06, + "learning_rate": 1.7846186666666667e-05, + "loss": 0.0013, + "step": 20200 + }, + { + "epoch": 0.3248, + "grad_norm": 2.1161680706427433e-05, + "learning_rate": 1.7835733333333333e-05, + "loss": 0.0223, + "step": 20300 + }, + { + "epoch": 0.3264, + "grad_norm": 0.0008167960331775248, + "learning_rate": 1.782506666666667e-05, + "loss": 0.0106, + "step": 20400 + }, + { + "epoch": 0.328, + "grad_norm": 0.00030075563699938357, + "learning_rate": 1.78144e-05, + "loss": 0.0004, + "step": 20500 + }, + { + "epoch": 0.3296, + "grad_norm": 0.00021357230434659868, + "learning_rate": 1.7803733333333334e-05, + "loss": 0.0, + "step": 20600 + }, + { + "epoch": 0.3312, + "grad_norm": 0.0021272392477840185, + "learning_rate": 1.7793066666666667e-05, + "loss": 0.005, + "step": 20700 + }, + { + "epoch": 0.3328, + "grad_norm": 0.00031995793688111007, + "learning_rate": 1.77824e-05, + "loss": 0.0, + "step": 20800 + }, + { + "epoch": 0.3344, + "grad_norm": 0.00017301621846854687, + "learning_rate": 1.7771733333333335e-05, + "loss": 0.0001, + "step": 20900 + }, + { + "epoch": 0.336, + "grad_norm": 0.00015349338355008513, + "learning_rate": 1.776106666666667e-05, + "loss": 0.0, + "step": 21000 + }, + { + "epoch": 0.3376, + "grad_norm": 0.00011431697930675, + "learning_rate": 1.7750400000000002e-05, + "loss": 0.0, + "step": 21100 + }, + { + "epoch": 0.3392, + "grad_norm": 0.00010969273716909811, + "learning_rate": 1.7739733333333336e-05, + "loss": 0.0, + "step": 21200 + }, + { + "epoch": 0.3408, + "grad_norm": 9.16854478418827e-05, + "learning_rate": 1.772906666666667e-05, + "loss": 0.0, + "step": 21300 + }, + { + "epoch": 0.3424, + "grad_norm": 7.963561074575409e-05, + "learning_rate": 1.7718400000000003e-05, + "loss": 0.0, + "step": 21400 + }, + { + "epoch": 0.344, + "grad_norm": 7.331543747568503e-05, + "learning_rate": 1.7707733333333333e-05, + "loss": 0.0, + "step": 21500 + }, + { + "epoch": 0.3456, + "grad_norm": 6.28735069767572e-05, + "learning_rate": 1.769706666666667e-05, + "loss": 0.0, + "step": 21600 + }, + { + "epoch": 0.3472, + "grad_norm": 5.47724193893373e-05, + "learning_rate": 1.76864e-05, + "loss": 0.0, + "step": 21700 + }, + { + "epoch": 0.3488, + "grad_norm": 5.209392838878557e-05, + "learning_rate": 1.7675733333333334e-05, + "loss": 0.0, + "step": 21800 + }, + { + "epoch": 0.3504, + "grad_norm": 5.173907629796304e-05, + "learning_rate": 1.7665066666666668e-05, + "loss": 0.0, + "step": 21900 + }, + { + "epoch": 0.352, + "grad_norm": 5.027300721849315e-05, + "learning_rate": 1.76544e-05, + "loss": 0.0, + "step": 22000 + }, + { + "epoch": 0.3536, + "grad_norm": 4.8056979721877724e-05, + "learning_rate": 1.7643733333333335e-05, + "loss": 0.0, + "step": 22100 + }, + { + "epoch": 0.3552, + "grad_norm": 4.373279443825595e-05, + "learning_rate": 1.7633066666666666e-05, + "loss": 0.0, + "step": 22200 + }, + { + "epoch": 0.3568, + "grad_norm": 4.0998969780048355e-05, + "learning_rate": 1.7622400000000003e-05, + "loss": 0.0, + "step": 22300 + }, + { + "epoch": 0.3584, + "grad_norm": 3.9302074583247304e-05, + "learning_rate": 1.7611733333333333e-05, + "loss": 0.0, + "step": 22400 + }, + { + "epoch": 0.36, + "grad_norm": 3.604054290917702e-05, + "learning_rate": 1.760106666666667e-05, + "loss": 0.0, + "step": 22500 + }, + { + "epoch": 0.3616, + "grad_norm": 3.515103890094906e-05, + "learning_rate": 1.75904e-05, + "loss": 0.0, + "step": 22600 + }, + { + "epoch": 0.3632, + "grad_norm": 3.248384018661454e-05, + "learning_rate": 1.7579733333333334e-05, + "loss": 0.0, + "step": 22700 + }, + { + "epoch": 0.3648, + "grad_norm": 3.285553611931391e-05, + "learning_rate": 1.7569066666666667e-05, + "loss": 0.0, + "step": 22800 + }, + { + "epoch": 0.3664, + "grad_norm": 2.9991715564392507e-05, + "learning_rate": 1.75584e-05, + "loss": 0.0, + "step": 22900 + }, + { + "epoch": 0.368, + "grad_norm": 2.546398900449276e-05, + "learning_rate": 1.7547733333333335e-05, + "loss": 0.0, + "step": 23000 + }, + { + "epoch": 0.3696, + "grad_norm": 2.696343290153891e-05, + "learning_rate": 1.753706666666667e-05, + "loss": 0.0, + "step": 23100 + }, + { + "epoch": 0.3712, + "grad_norm": 2.5436993382754736e-05, + "learning_rate": 1.7526400000000002e-05, + "loss": 0.0, + "step": 23200 + }, + { + "epoch": 0.3728, + "grad_norm": 2.3871341909398325e-05, + "learning_rate": 1.7515733333333336e-05, + "loss": 0.0, + "step": 23300 + }, + { + "epoch": 0.3744, + "grad_norm": 2.4206261514336802e-05, + "learning_rate": 1.750506666666667e-05, + "loss": 0.0, + "step": 23400 + }, + { + "epoch": 0.376, + "grad_norm": 2.1603356799460016e-05, + "learning_rate": 1.7494400000000003e-05, + "loss": 0.0, + "step": 23500 + }, + { + "epoch": 0.3776, + "grad_norm": 2.217761539213825e-05, + "learning_rate": 1.7483733333333333e-05, + "loss": 0.0, + "step": 23600 + }, + { + "epoch": 0.3792, + "grad_norm": 2.0118233805987984e-05, + "learning_rate": 1.7473066666666667e-05, + "loss": 0.0, + "step": 23700 + }, + { + "epoch": 0.3808, + "grad_norm": 1.8580089090391994e-05, + "learning_rate": 1.74624e-05, + "loss": 0.0, + "step": 23800 + }, + { + "epoch": 0.3824, + "grad_norm": 2.0107261661905795e-05, + "learning_rate": 1.7451733333333334e-05, + "loss": 0.0, + "step": 23900 + }, + { + "epoch": 0.384, + "grad_norm": 1.8376658772467636e-05, + "learning_rate": 1.7441066666666668e-05, + "loss": 0.0, + "step": 24000 + }, + { + "epoch": 0.3856, + "grad_norm": 1.9588029317674227e-05, + "learning_rate": 1.7430400000000002e-05, + "loss": 0.0, + "step": 24100 + }, + { + "epoch": 0.3872, + "grad_norm": 1.579835770826321e-05, + "learning_rate": 1.7419733333333335e-05, + "loss": 0.0, + "step": 24200 + }, + { + "epoch": 0.3888, + "grad_norm": 1.5347810403909534e-05, + "learning_rate": 1.740906666666667e-05, + "loss": 0.0, + "step": 24300 + }, + { + "epoch": 0.3904, + "grad_norm": 1.552935464133043e-05, + "learning_rate": 1.7398400000000003e-05, + "loss": 0.0, + "step": 24400 + }, + { + "epoch": 0.392, + "grad_norm": 1.485102347942302e-05, + "learning_rate": 1.7387733333333333e-05, + "loss": 0.0, + "step": 24500 + }, + { + "epoch": 0.3936, + "grad_norm": 1.4200339137460105e-05, + "learning_rate": 1.737706666666667e-05, + "loss": 0.0, + "step": 24600 + }, + { + "epoch": 0.3952, + "grad_norm": 1.186304052680498e-05, + "learning_rate": 1.73664e-05, + "loss": 0.0, + "step": 24700 + }, + { + "epoch": 0.3968, + "grad_norm": 1.2428082300175447e-05, + "learning_rate": 1.7355733333333334e-05, + "loss": 0.0, + "step": 24800 + }, + { + "epoch": 0.3984, + "grad_norm": 1.168328890344128e-05, + "learning_rate": 1.7345066666666668e-05, + "loss": 0.0, + "step": 24900 + }, + { + "epoch": 0.4, + "grad_norm": 1.1338147487549577e-05, + "learning_rate": 1.73344e-05, + "loss": 0.0, + "step": 25000 + }, + { + "epoch": 0.4016, + "grad_norm": 1.0833624401129782e-05, + "learning_rate": 1.7323733333333335e-05, + "loss": 0.0, + "step": 25100 + }, + { + "epoch": 0.4032, + "grad_norm": 1.1126129720651079e-05, + "learning_rate": 1.731306666666667e-05, + "loss": 0.0, + "step": 25200 + }, + { + "epoch": 0.4048, + "grad_norm": 1.071280894393567e-05, + "learning_rate": 1.730250666666667e-05, + "loss": 0.0004, + "step": 25300 + }, + { + "epoch": 0.4064, + "grad_norm": 8.747599167691078e-06, + "learning_rate": 1.7291840000000002e-05, + "loss": 0.0, + "step": 25400 + }, + { + "epoch": 0.408, + "grad_norm": 9.405779564986005e-06, + "learning_rate": 1.7281173333333336e-05, + "loss": 0.0, + "step": 25500 + }, + { + "epoch": 0.4096, + "grad_norm": 9.353114364785142e-06, + "learning_rate": 1.727050666666667e-05, + "loss": 0.0, + "step": 25600 + }, + { + "epoch": 0.4112, + "grad_norm": 8.207565770135261e-06, + "learning_rate": 1.725984e-05, + "loss": 0.0, + "step": 25700 + }, + { + "epoch": 0.4128, + "grad_norm": 8.460830940748565e-06, + "learning_rate": 1.7249173333333337e-05, + "loss": 0.0, + "step": 25800 + }, + { + "epoch": 0.4144, + "grad_norm": 7.834319148969371e-06, + "learning_rate": 1.7238506666666667e-05, + "loss": 0.0, + "step": 25900 + }, + { + "epoch": 0.416, + "grad_norm": 7.789364644850139e-06, + "learning_rate": 1.722784e-05, + "loss": 0.0, + "step": 26000 + }, + { + "epoch": 0.4176, + "grad_norm": 7.643193384865299e-06, + "learning_rate": 1.7217173333333334e-05, + "loss": 0.0, + "step": 26100 + }, + { + "epoch": 0.4192, + "grad_norm": 6.989634584897431e-06, + "learning_rate": 1.7206506666666668e-05, + "loss": 0.0, + "step": 26200 + }, + { + "epoch": 0.4208, + "grad_norm": 6.504462362499908e-06, + "learning_rate": 1.7195840000000002e-05, + "loss": 0.0, + "step": 26300 + }, + { + "epoch": 0.4224, + "grad_norm": 6.5619133238215e-06, + "learning_rate": 1.7185173333333335e-05, + "loss": 0.0, + "step": 26400 + }, + { + "epoch": 0.424, + "grad_norm": 6.538786692544818e-06, + "learning_rate": 1.717450666666667e-05, + "loss": 0.0, + "step": 26500 + }, + { + "epoch": 0.4256, + "grad_norm": 5.952290393906878e-06, + "learning_rate": 1.716384e-05, + "loss": 0.0, + "step": 26600 + }, + { + "epoch": 0.4272, + "grad_norm": 5.890806733077625e-06, + "learning_rate": 1.7153173333333336e-05, + "loss": 0.0, + "step": 26700 + }, + { + "epoch": 0.4288, + "grad_norm": 5.5425175560230855e-06, + "learning_rate": 1.7142506666666667e-05, + "loss": 0.0, + "step": 26800 + }, + { + "epoch": 0.4304, + "grad_norm": 5.190961019252427e-06, + "learning_rate": 1.713184e-05, + "loss": 0.0, + "step": 26900 + }, + { + "epoch": 0.432, + "grad_norm": 5.312633220455609e-06, + "learning_rate": 1.7121173333333334e-05, + "loss": 0.0, + "step": 27000 + }, + { + "epoch": 0.4336, + "grad_norm": 4.84698239233694e-06, + "learning_rate": 1.7110506666666668e-05, + "loss": 0.0, + "step": 27100 + }, + { + "epoch": 0.4352, + "grad_norm": 4.822264145332156e-06, + "learning_rate": 1.709984e-05, + "loss": 0.0, + "step": 27200 + }, + { + "epoch": 0.4368, + "grad_norm": 5.0093335630663205e-06, + "learning_rate": 1.7089173333333335e-05, + "loss": 0.0, + "step": 27300 + }, + { + "epoch": 0.4384, + "grad_norm": 4.560034540190827e-06, + "learning_rate": 1.707850666666667e-05, + "loss": 0.0, + "step": 27400 + }, + { + "epoch": 0.44, + "grad_norm": 4.285787326807622e-06, + "learning_rate": 1.7067840000000002e-05, + "loss": 0.0, + "step": 27500 + }, + { + "epoch": 0.4416, + "grad_norm": 4.18266017732094e-06, + "learning_rate": 1.7057173333333336e-05, + "loss": 0.0, + "step": 27600 + }, + { + "epoch": 0.4432, + "grad_norm": 3.8072735151217785e-06, + "learning_rate": 1.704650666666667e-05, + "loss": 0.0, + "step": 27700 + }, + { + "epoch": 0.4448, + "grad_norm": 3.73259058505937e-06, + "learning_rate": 1.703584e-05, + "loss": 0.0, + "step": 27800 + }, + { + "epoch": 0.4464, + "grad_norm": 3.7710021842940478e-06, + "learning_rate": 1.7025173333333337e-05, + "loss": 0.0, + "step": 27900 + }, + { + "epoch": 0.448, + "grad_norm": 3.7697877814935055e-06, + "learning_rate": 1.7014506666666667e-05, + "loss": 0.0, + "step": 28000 + }, + { + "epoch": 0.4496, + "grad_norm": 3.442883553361753e-06, + "learning_rate": 1.700384e-05, + "loss": 0.0, + "step": 28100 + }, + { + "epoch": 0.4512, + "grad_norm": 3.407572421565419e-06, + "learning_rate": 1.6993173333333334e-05, + "loss": 0.0, + "step": 28200 + }, + { + "epoch": 0.4528, + "grad_norm": 3.369181740708882e-06, + "learning_rate": 1.6982506666666668e-05, + "loss": 0.0, + "step": 28300 + }, + { + "epoch": 0.4544, + "grad_norm": 3.2553843993810005e-06, + "learning_rate": 1.6971840000000002e-05, + "loss": 0.0, + "step": 28400 + }, + { + "epoch": 0.456, + "grad_norm": 2.9325344712560764e-06, + "learning_rate": 1.6961173333333335e-05, + "loss": 0.0, + "step": 28500 + }, + { + "epoch": 0.4576, + "grad_norm": 2.814329036482377e-06, + "learning_rate": 1.695050666666667e-05, + "loss": 0.0, + "step": 28600 + }, + { + "epoch": 0.4592, + "grad_norm": 2.932674760813825e-06, + "learning_rate": 1.693984e-05, + "loss": 0.0, + "step": 28700 + }, + { + "epoch": 0.4608, + "grad_norm": 2.8238118829904124e-06, + "learning_rate": 1.6929173333333336e-05, + "loss": 0.0, + "step": 28800 + }, + { + "epoch": 0.4624, + "grad_norm": 2.491308805474546e-06, + "learning_rate": 1.6918506666666667e-05, + "loss": 0.0, + "step": 28900 + }, + { + "epoch": 0.464, + "grad_norm": 2.2496963083540322e-06, + "learning_rate": 1.690784e-05, + "loss": 0.0, + "step": 29000 + }, + { + "epoch": 0.4656, + "grad_norm": 2.2353810891218018e-06, + "learning_rate": 1.6897173333333334e-05, + "loss": 0.0, + "step": 29100 + }, + { + "epoch": 0.4672, + "grad_norm": 2.2871329292684095e-06, + "learning_rate": 1.6886506666666668e-05, + "loss": 0.0, + "step": 29200 + }, + { + "epoch": 0.4688, + "grad_norm": 2.0240684079908533e-06, + "learning_rate": 1.687584e-05, + "loss": 0.0, + "step": 29300 + }, + { + "epoch": 0.4704, + "grad_norm": 2.1123094029462663e-06, + "learning_rate": 1.6865173333333335e-05, + "loss": 0.0, + "step": 29400 + }, + { + "epoch": 0.472, + "grad_norm": 1.2771483852702659e-06, + "learning_rate": 1.685450666666667e-05, + "loss": 0.0, + "step": 29500 + }, + { + "epoch": 0.4736, + "grad_norm": 1.6413683852078975e-06, + "learning_rate": 1.6843840000000002e-05, + "loss": 0.0, + "step": 29600 + }, + { + "epoch": 0.4752, + "grad_norm": 1.272170607080625e-06, + "learning_rate": 1.6833173333333336e-05, + "loss": 0.0, + "step": 29700 + }, + { + "epoch": 0.4768, + "grad_norm": 1.5857983726164093e-06, + "learning_rate": 1.6822506666666666e-05, + "loss": 0.0, + "step": 29800 + }, + { + "epoch": 0.4784, + "grad_norm": 9.906548257276881e-07, + "learning_rate": 1.681184e-05, + "loss": 0.0, + "step": 29900 + }, + { + "epoch": 0.48, + "grad_norm": 1.2207430017951992e-06, + "learning_rate": 1.6801173333333334e-05, + "loss": 0.0, + "step": 30000 + }, + { + "epoch": 0.4816, + "grad_norm": 1.0915376833509072e-06, + "learning_rate": 1.6790506666666667e-05, + "loss": 0.0, + "step": 30100 + }, + { + "epoch": 0.4832, + "grad_norm": 9.879134950097068e-07, + "learning_rate": 1.677984e-05, + "loss": 0.0, + "step": 30200 + }, + { + "epoch": 0.4848, + "grad_norm": 9.498847930444754e-07, + "learning_rate": 1.6769173333333335e-05, + "loss": 0.0, + "step": 30300 + }, + { + "epoch": 0.4864, + "grad_norm": 1.0251242201775312e-06, + "learning_rate": 1.6758506666666668e-05, + "loss": 0.0, + "step": 30400 + }, + { + "epoch": 0.488, + "grad_norm": 1.0169778761337511e-06, + "learning_rate": 1.6747840000000002e-05, + "loss": 0.0, + "step": 30500 + }, + { + "epoch": 0.4896, + "grad_norm": 8.809812470644829e-07, + "learning_rate": 1.6737173333333336e-05, + "loss": 0.0, + "step": 30600 + }, + { + "epoch": 0.4912, + "grad_norm": 5.986374276290007e-07, + "learning_rate": 1.672650666666667e-05, + "loss": 0.0, + "step": 30700 + }, + { + "epoch": 0.4928, + "grad_norm": 7.004752546890813e-07, + "learning_rate": 1.671584e-05, + "loss": 0.0, + "step": 30800 + }, + { + "epoch": 0.4944, + "grad_norm": 6.413148412320879e-07, + "learning_rate": 1.6705173333333337e-05, + "loss": 0.0, + "step": 30900 + }, + { + "epoch": 0.496, + "grad_norm": 5.724415927943483e-07, + "learning_rate": 1.6694506666666667e-05, + "loss": 0.0, + "step": 31000 + }, + { + "epoch": 0.4976, + "grad_norm": 6.884836238896241e-07, + "learning_rate": 1.6683840000000004e-05, + "loss": 0.0, + "step": 31100 + }, + { + "epoch": 0.4992, + "grad_norm": 6.260689247028495e-07, + "learning_rate": 1.6673173333333334e-05, + "loss": 0.0, + "step": 31200 + }, + { + "epoch": 0.5008, + "grad_norm": 5.333803301255102e-07, + "learning_rate": 1.6662506666666668e-05, + "loss": 0.0, + "step": 31300 + }, + { + "epoch": 0.5024, + "grad_norm": 7.12101609678939e-07, + "learning_rate": 1.665184e-05, + "loss": 0.0, + "step": 31400 + }, + { + "epoch": 0.504, + "grad_norm": 5.5784983032936e-07, + "learning_rate": 1.6641173333333335e-05, + "loss": 0.0, + "step": 31500 + }, + { + "epoch": 0.5056, + "grad_norm": 5.744473696722707e-07, + "learning_rate": 1.663050666666667e-05, + "loss": 0.0, + "step": 31600 + }, + { + "epoch": 0.5072, + "grad_norm": 5.516257601811958e-07, + "learning_rate": 1.661984e-05, + "loss": 0.0, + "step": 31700 + }, + { + "epoch": 0.5088, + "grad_norm": 5.83314033519855e-07, + "learning_rate": 1.6609173333333336e-05, + "loss": 0.0, + "step": 31800 + }, + { + "epoch": 0.5104, + "grad_norm": 4.716930277481879e-07, + "learning_rate": 1.6598506666666666e-05, + "loss": 0.0, + "step": 31900 + }, + { + "epoch": 0.512, + "grad_norm": 4.2959382540175284e-07, + "learning_rate": 1.658784e-05, + "loss": 0.0, + "step": 32000 + }, + { + "epoch": 0.5136, + "grad_norm": 4.2993829652004933e-07, + "learning_rate": 1.6577173333333334e-05, + "loss": 0.0, + "step": 32100 + }, + { + "epoch": 0.5152, + "grad_norm": 4.2280382217541046e-07, + "learning_rate": 1.6566506666666667e-05, + "loss": 0.0, + "step": 32200 + }, + { + "epoch": 0.5168, + "grad_norm": 3.871925855492009e-07, + "learning_rate": 1.655584e-05, + "loss": 0.0, + "step": 32300 + }, + { + "epoch": 0.5184, + "grad_norm": 4.4411478938855e-07, + "learning_rate": 1.6545173333333335e-05, + "loss": 0.0, + "step": 32400 + }, + { + "epoch": 0.52, + "grad_norm": 3.928717831058748e-07, + "learning_rate": 1.653450666666667e-05, + "loss": 0.0, + "step": 32500 + }, + { + "epoch": 0.5216, + "grad_norm": 4.015236640952935e-07, + "learning_rate": 1.6523840000000002e-05, + "loss": 0.0, + "step": 32600 + }, + { + "epoch": 0.5232, + "grad_norm": 4.0636822973283415e-07, + "learning_rate": 1.6513173333333336e-05, + "loss": 0.0, + "step": 32700 + }, + { + "epoch": 0.5248, + "grad_norm": 3.822638632300368e-07, + "learning_rate": 1.650250666666667e-05, + "loss": 0.0, + "step": 32800 + }, + { + "epoch": 0.5264, + "grad_norm": 3.445758522957476e-07, + "learning_rate": 1.649184e-05, + "loss": 0.0, + "step": 32900 + }, + { + "epoch": 0.528, + "grad_norm": 3.2311257314177055e-07, + "learning_rate": 1.6481173333333337e-05, + "loss": 0.0, + "step": 33000 + }, + { + "epoch": 0.5296, + "grad_norm": 3.157684318466636e-07, + "learning_rate": 1.6470506666666667e-05, + "loss": 0.0, + "step": 33100 + }, + { + "epoch": 0.5312, + "grad_norm": 2.9879865337534284e-07, + "learning_rate": 1.645984e-05, + "loss": 0.0, + "step": 33200 + }, + { + "epoch": 0.5328, + "grad_norm": 3.35712599053295e-07, + "learning_rate": 1.6449173333333334e-05, + "loss": 0.0, + "step": 33300 + }, + { + "epoch": 0.5344, + "grad_norm": 2.768248918982863e-07, + "learning_rate": 1.6438506666666668e-05, + "loss": 0.0, + "step": 33400 + }, + { + "epoch": 0.536, + "grad_norm": 2.875537177260412e-07, + "learning_rate": 1.642784e-05, + "loss": 0.0, + "step": 33500 + }, + { + "epoch": 0.5376, + "grad_norm": 2.9602924200844427e-07, + "learning_rate": 1.6417173333333335e-05, + "loss": 0.0, + "step": 33600 + }, + { + "epoch": 0.5392, + "grad_norm": 3.1393423682857247e-07, + "learning_rate": 1.640650666666667e-05, + "loss": 0.0, + "step": 33700 + }, + { + "epoch": 0.5408, + "grad_norm": 2.491387078862317e-07, + "learning_rate": 1.639584e-05, + "loss": 0.0, + "step": 33800 + }, + { + "epoch": 0.5424, + "grad_norm": 2.3757078793096298e-07, + "learning_rate": 1.6385173333333336e-05, + "loss": 0.0, + "step": 33900 + }, + { + "epoch": 0.544, + "grad_norm": 2.5188003860421304e-07, + "learning_rate": 1.6374506666666667e-05, + "loss": 0.0, + "step": 34000 + }, + { + "epoch": 0.5456, + "grad_norm": 2.4522555008843483e-07, + "learning_rate": 1.6363840000000004e-05, + "loss": 0.0, + "step": 34100 + }, + { + "epoch": 0.5472, + "grad_norm": 2.2814373323853943e-07, + "learning_rate": 1.6353173333333334e-05, + "loss": 0.0, + "step": 34200 + }, + { + "epoch": 0.5488, + "grad_norm": 2.2816611533471587e-07, + "learning_rate": 1.6342506666666668e-05, + "loss": 0.0, + "step": 34300 + }, + { + "epoch": 0.5504, + "grad_norm": 2.4142485699485405e-07, + "learning_rate": 1.633184e-05, + "loss": 0.0, + "step": 34400 + }, + { + "epoch": 0.552, + "grad_norm": 2.420672728931095e-07, + "learning_rate": 1.6321173333333335e-05, + "loss": 0.0, + "step": 34500 + }, + { + "epoch": 0.5536, + "grad_norm": 1.964133815590685e-07, + "learning_rate": 1.631050666666667e-05, + "loss": 0.0, + "step": 34600 + }, + { + "epoch": 0.5552, + "grad_norm": 1.8994630579527438e-07, + "learning_rate": 1.6299840000000002e-05, + "loss": 0.0, + "step": 34700 + }, + { + "epoch": 0.5568, + "grad_norm": 1.916166212367898e-07, + "learning_rate": 1.6289173333333336e-05, + "loss": 0.0, + "step": 34800 + }, + { + "epoch": 0.5584, + "grad_norm": 1.9209957713428594e-07, + "learning_rate": 1.6278506666666666e-05, + "loss": 0.0, + "step": 34900 + }, + { + "epoch": 0.56, + "grad_norm": 1.820495896254215e-07, + "learning_rate": 1.626784e-05, + "loss": 0.0, + "step": 35000 + }, + { + "epoch": 0.5616, + "grad_norm": 1.488028118501461e-07, + "learning_rate": 1.6257173333333333e-05, + "loss": 0.0, + "step": 35100 + }, + { + "epoch": 0.5632, + "grad_norm": 1.6596105467669986e-07, + "learning_rate": 1.6246506666666667e-05, + "loss": 0.0, + "step": 35200 + }, + { + "epoch": 0.5648, + "grad_norm": 1.5144816245538095e-07, + "learning_rate": 1.623584e-05, + "loss": 0.0, + "step": 35300 + }, + { + "epoch": 0.5664, + "grad_norm": 1.71941024973421e-07, + "learning_rate": 1.6225173333333334e-05, + "loss": 0.0, + "step": 35400 + }, + { + "epoch": 0.568, + "grad_norm": 1.6939323188580602e-07, + "learning_rate": 1.6214506666666668e-05, + "loss": 0.0, + "step": 35500 + }, + { + "epoch": 0.5696, + "grad_norm": 1.3844817203789717e-07, + "learning_rate": 1.6203840000000002e-05, + "loss": 0.0, + "step": 35600 + }, + { + "epoch": 0.5712, + "grad_norm": 1.4256781355470594e-07, + "learning_rate": 1.6193173333333335e-05, + "loss": 0.0, + "step": 35700 + }, + { + "epoch": 0.5728, + "grad_norm": 1.3021079325881146e-07, + "learning_rate": 1.618250666666667e-05, + "loss": 0.0, + "step": 35800 + }, + { + "epoch": 0.5744, + "grad_norm": 1.2057364529027836e-07, + "learning_rate": 1.617184e-05, + "loss": 0.0, + "step": 35900 + }, + { + "epoch": 0.576, + "grad_norm": 1.2874994581579813e-07, + "learning_rate": 1.6161173333333336e-05, + "loss": 0.0, + "step": 36000 + }, + { + "epoch": 0.5776, + "grad_norm": 1.333337138476054e-07, + "learning_rate": 1.6150506666666667e-05, + "loss": 0.0, + "step": 36100 + }, + { + "epoch": 0.5792, + "grad_norm": 1.192641150282725e-07, + "learning_rate": 1.6139840000000004e-05, + "loss": 0.0, + "step": 36200 + }, + { + "epoch": 0.5808, + "grad_norm": 9.963146396785305e-08, + "learning_rate": 1.6129173333333334e-05, + "loss": 0.0, + "step": 36300 + }, + { + "epoch": 0.5824, + "grad_norm": 1.1367530561301464e-07, + "learning_rate": 1.6118506666666668e-05, + "loss": 0.0, + "step": 36400 + }, + { + "epoch": 0.584, + "grad_norm": 9.971628145422073e-08, + "learning_rate": 1.610784e-05, + "loss": 0.0, + "step": 36500 + }, + { + "epoch": 0.5856, + "grad_norm": 9.849477322632083e-08, + "learning_rate": 1.6097173333333335e-05, + "loss": 0.0, + "step": 36600 + }, + { + "epoch": 0.5872, + "grad_norm": 8.821568542316527e-08, + "learning_rate": 1.608650666666667e-05, + "loss": 0.0, + "step": 36700 + }, + { + "epoch": 0.5888, + "grad_norm": 8.860416045308739e-08, + "learning_rate": 1.607584e-05, + "loss": 0.0, + "step": 36800 + }, + { + "epoch": 0.5904, + "grad_norm": 8.838700438218439e-08, + "learning_rate": 1.6065173333333336e-05, + "loss": 0.0, + "step": 36900 + }, + { + "epoch": 0.592, + "grad_norm": 9.879371987153718e-08, + "learning_rate": 1.6054506666666666e-05, + "loss": 0.0, + "step": 37000 + }, + { + "epoch": 0.5936, + "grad_norm": 8.26242469997851e-08, + "learning_rate": 1.6043840000000003e-05, + "loss": 0.0, + "step": 37100 + }, + { + "epoch": 0.5952, + "grad_norm": 7.888654351972946e-08, + "learning_rate": 1.6033173333333334e-05, + "loss": 0.0, + "step": 37200 + }, + { + "epoch": 0.5968, + "grad_norm": 7.877645202825079e-08, + "learning_rate": 1.6022613333333333e-05, + "loss": 0.0, + "step": 37300 + }, + { + "epoch": 0.5984, + "grad_norm": 7.30638873847056e-08, + "learning_rate": 1.601194666666667e-05, + "loss": 0.0, + "step": 37400 + }, + { + "epoch": 0.6, + "grad_norm": 7.81067299726601e-08, + "learning_rate": 1.600128e-05, + "loss": 0.0, + "step": 37500 + }, + { + "epoch": 0.6016, + "grad_norm": 6.583578482377561e-08, + "learning_rate": 1.5990613333333334e-05, + "loss": 0.0, + "step": 37600 + }, + { + "epoch": 0.6032, + "grad_norm": 6.778850547561888e-08, + "learning_rate": 1.5979946666666668e-05, + "loss": 0.0, + "step": 37700 + }, + { + "epoch": 0.6048, + "grad_norm": 6.064895785584667e-08, + "learning_rate": 1.5969280000000002e-05, + "loss": 0.0, + "step": 37800 + }, + { + "epoch": 0.6064, + "grad_norm": 6.343422143118005e-08, + "learning_rate": 1.5958613333333335e-05, + "loss": 0.0, + "step": 37900 + }, + { + "epoch": 0.608, + "grad_norm": 5.385956569625705e-08, + "learning_rate": 1.5947946666666666e-05, + "loss": 0.0, + "step": 38000 + }, + { + "epoch": 0.6096, + "grad_norm": 5.910140643550221e-08, + "learning_rate": 1.5937280000000003e-05, + "loss": 0.0, + "step": 38100 + }, + { + "epoch": 0.6112, + "grad_norm": 5.531205360398417e-08, + "learning_rate": 1.5926613333333333e-05, + "loss": 0.0, + "step": 38200 + }, + { + "epoch": 0.6128, + "grad_norm": 4.7664677538250544e-08, + "learning_rate": 1.591594666666667e-05, + "loss": 0.0, + "step": 38300 + }, + { + "epoch": 0.6144, + "grad_norm": 5.105589906406749e-08, + "learning_rate": 1.590528e-05, + "loss": 0.0, + "step": 38400 + }, + { + "epoch": 0.616, + "grad_norm": 4.647805340596278e-08, + "learning_rate": 1.5894613333333334e-05, + "loss": 0.0, + "step": 38500 + }, + { + "epoch": 0.6176, + "grad_norm": 4.669184150429828e-08, + "learning_rate": 1.5883946666666668e-05, + "loss": 0.0, + "step": 38600 + }, + { + "epoch": 0.6192, + "grad_norm": 4.602827630151296e-08, + "learning_rate": 1.587328e-05, + "loss": 0.0, + "step": 38700 + }, + { + "epoch": 0.6208, + "grad_norm": 4.170912504264379e-08, + "learning_rate": 1.5862613333333335e-05, + "loss": 0.0, + "step": 38800 + }, + { + "epoch": 0.6224, + "grad_norm": 3.930464487211793e-08, + "learning_rate": 1.585194666666667e-05, + "loss": 0.0, + "step": 38900 + }, + { + "epoch": 0.624, + "grad_norm": 5.003272818271398e-08, + "learning_rate": 1.5841280000000002e-05, + "loss": 0.0, + "step": 39000 + }, + { + "epoch": 0.6256, + "grad_norm": 3.810775339729844e-08, + "learning_rate": 1.5830613333333336e-05, + "loss": 0.0, + "step": 39100 + }, + { + "epoch": 0.6272, + "grad_norm": 3.707847540113107e-08, + "learning_rate": 1.581994666666667e-05, + "loss": 0.0, + "step": 39200 + }, + { + "epoch": 0.6288, + "grad_norm": 3.4199096887732594e-08, + "learning_rate": 1.580938666666667e-05, + "loss": 0.0, + "step": 39300 + }, + { + "epoch": 0.6304, + "grad_norm": 3.327440367684176e-08, + "learning_rate": 1.579872e-05, + "loss": 0.0, + "step": 39400 + }, + { + "epoch": 0.632, + "grad_norm": 3.221984101742237e-08, + "learning_rate": 1.5788053333333337e-05, + "loss": 0.0, + "step": 39500 + }, + { + "epoch": 0.6336, + "grad_norm": 3.06969596408635e-08, + "learning_rate": 1.5777386666666667e-05, + "loss": 0.0, + "step": 39600 + }, + { + "epoch": 0.6352, + "grad_norm": 2.9305402549084647e-08, + "learning_rate": 1.576672e-05, + "loss": 0.0, + "step": 39700 + }, + { + "epoch": 0.6368, + "grad_norm": 3.1664541211284813e-08, + "learning_rate": 1.5756053333333334e-05, + "loss": 0.0, + "step": 39800 + }, + { + "epoch": 0.6384, + "grad_norm": 3.058496389485299e-08, + "learning_rate": 1.5745386666666668e-05, + "loss": 0.0, + "step": 39900 + }, + { + "epoch": 0.64, + "grad_norm": 2.8967381382472013e-08, + "learning_rate": 1.5734720000000002e-05, + "loss": 0.0, + "step": 40000 + }, + { + "epoch": 0.6416, + "grad_norm": 2.6066624414511352e-08, + "learning_rate": 1.5724053333333335e-05, + "loss": 0.0, + "step": 40100 + }, + { + "epoch": 0.6432, + "grad_norm": 2.3177223695824978e-08, + "learning_rate": 1.571338666666667e-05, + "loss": 0.0, + "step": 40200 + }, + { + "epoch": 0.6448, + "grad_norm": 2.419685785071124e-08, + "learning_rate": 1.570272e-05, + "loss": 0.0, + "step": 40300 + }, + { + "epoch": 0.6464, + "grad_norm": 2.4422618594144296e-08, + "learning_rate": 1.5692053333333336e-05, + "loss": 0.0, + "step": 40400 + }, + { + "epoch": 0.648, + "grad_norm": 2.526655507040232e-08, + "learning_rate": 1.5681386666666667e-05, + "loss": 0.0, + "step": 40500 + }, + { + "epoch": 0.6496, + "grad_norm": 2.320962089186196e-08, + "learning_rate": 1.567072e-05, + "loss": 0.0, + "step": 40600 + }, + { + "epoch": 0.6512, + "grad_norm": 2.0410428902550848e-08, + "learning_rate": 1.5660053333333334e-05, + "loss": 0.0, + "step": 40700 + }, + { + "epoch": 0.6528, + "grad_norm": 2.2334850413585627e-08, + "learning_rate": 1.5649386666666668e-05, + "loss": 0.0, + "step": 40800 + }, + { + "epoch": 0.6544, + "grad_norm": 2.4193813175088508e-08, + "learning_rate": 1.563872e-05, + "loss": 0.0, + "step": 40900 + }, + { + "epoch": 0.656, + "grad_norm": 1.9213212354429743e-08, + "learning_rate": 1.5628053333333335e-05, + "loss": 0.0, + "step": 41000 + }, + { + "epoch": 0.6576, + "grad_norm": 1.9847044896437183e-08, + "learning_rate": 1.561738666666667e-05, + "loss": 0.0, + "step": 41100 + }, + { + "epoch": 0.6592, + "grad_norm": 1.8384987754416215e-08, + "learning_rate": 1.5606720000000002e-05, + "loss": 0.0, + "step": 41200 + }, + { + "epoch": 0.6608, + "grad_norm": 1.830431983762537e-08, + "learning_rate": 1.559616e-05, + "loss": 0.0, + "step": 41300 + }, + { + "epoch": 0.6624, + "grad_norm": 1.6151531667674135e-08, + "learning_rate": 1.5585493333333336e-05, + "loss": 0.0, + "step": 41400 + }, + { + "epoch": 0.664, + "grad_norm": 1.520500525487023e-08, + "learning_rate": 1.5574826666666666e-05, + "loss": 0.0, + "step": 41500 + }, + { + "epoch": 0.6656, + "grad_norm": 1.400090354763961e-08, + "learning_rate": 1.5564160000000003e-05, + "loss": 0.0, + "step": 41600 + }, + { + "epoch": 0.6672, + "grad_norm": 1.5792524621360826e-08, + "learning_rate": 1.5553493333333333e-05, + "loss": 0.0, + "step": 41700 + }, + { + "epoch": 0.6688, + "grad_norm": 1.325526088891138e-08, + "learning_rate": 1.5542826666666667e-05, + "loss": 0.0, + "step": 41800 + }, + { + "epoch": 0.6704, + "grad_norm": 1.4574178308635055e-08, + "learning_rate": 1.553216e-05, + "loss": 0.0, + "step": 41900 + }, + { + "epoch": 0.672, + "grad_norm": 1.443759423125357e-08, + "learning_rate": 1.5521493333333334e-05, + "loss": 0.0, + "step": 42000 + }, + { + "epoch": 0.6736, + "grad_norm": 1.2646203195743055e-08, + "learning_rate": 1.5510826666666668e-05, + "loss": 0.0, + "step": 42100 + }, + { + "epoch": 0.6752, + "grad_norm": 1.357729839668309e-08, + "learning_rate": 1.5500160000000002e-05, + "loss": 0.0, + "step": 42200 + }, + { + "epoch": 0.6768, + "grad_norm": 1.2999631593402228e-08, + "learning_rate": 1.5489493333333335e-05, + "loss": 0.0, + "step": 42300 + }, + { + "epoch": 0.6784, + "grad_norm": 1.2067292942674612e-08, + "learning_rate": 1.547882666666667e-05, + "loss": 0.0, + "step": 42400 + }, + { + "epoch": 0.68, + "grad_norm": 1.2314631980814283e-08, + "learning_rate": 1.546816e-05, + "loss": 0.0, + "step": 42500 + }, + { + "epoch": 0.6816, + "grad_norm": 1.0934391170280833e-08, + "learning_rate": 1.5457493333333336e-05, + "loss": 0.0, + "step": 42600 + }, + { + "epoch": 0.6832, + "grad_norm": 1.2301041074636032e-08, + "learning_rate": 1.5446826666666667e-05, + "loss": 0.0, + "step": 42700 + }, + { + "epoch": 0.6848, + "grad_norm": 1.130779558877748e-08, + "learning_rate": 1.5436160000000004e-05, + "loss": 0.0, + "step": 42800 + }, + { + "epoch": 0.6864, + "grad_norm": 9.362263853063268e-09, + "learning_rate": 1.5425493333333334e-05, + "loss": 0.0, + "step": 42900 + }, + { + "epoch": 0.688, + "grad_norm": 9.903635245223086e-09, + "learning_rate": 1.5414826666666668e-05, + "loss": 0.0, + "step": 43000 + }, + { + "epoch": 0.6896, + "grad_norm": 1.0525496918489807e-08, + "learning_rate": 1.540416e-05, + "loss": 0.0, + "step": 43100 + }, + { + "epoch": 0.6912, + "grad_norm": 9.31617361032977e-09, + "learning_rate": 1.5393493333333335e-05, + "loss": 0.0, + "step": 43200 + }, + { + "epoch": 0.6928, + "grad_norm": 9.237457909705427e-09, + "learning_rate": 1.5382933333333335e-05, + "loss": 0.0, + "step": 43300 + }, + { + "epoch": 0.6944, + "grad_norm": 8.73692673764026e-09, + "learning_rate": 1.537226666666667e-05, + "loss": 0.0, + "step": 43400 + }, + { + "epoch": 0.696, + "grad_norm": 7.849454419783797e-09, + "learning_rate": 1.5361600000000002e-05, + "loss": 0.0, + "step": 43500 + }, + { + "epoch": 0.6976, + "grad_norm": 9.30858945480395e-09, + "learning_rate": 1.5350933333333336e-05, + "loss": 0.0, + "step": 43600 + }, + { + "epoch": 0.6992, + "grad_norm": 7.977851268492486e-09, + "learning_rate": 1.5340266666666666e-05, + "loss": 0.0, + "step": 43700 + }, + { + "epoch": 0.7008, + "grad_norm": 7.884906061406127e-09, + "learning_rate": 1.5329600000000003e-05, + "loss": 0.0, + "step": 43800 + }, + { + "epoch": 0.7024, + "grad_norm": 7.931284073947609e-09, + "learning_rate": 1.5318933333333333e-05, + "loss": 0.0, + "step": 43900 + }, + { + "epoch": 0.704, + "grad_norm": 8.136783691270466e-09, + "learning_rate": 1.5308266666666667e-05, + "loss": 0.0, + "step": 44000 + }, + { + "epoch": 0.7056, + "grad_norm": 7.810712077116477e-09, + "learning_rate": 1.52976e-05, + "loss": 0.0, + "step": 44100 + }, + { + "epoch": 0.7072, + "grad_norm": 7.457011008682457e-09, + "learning_rate": 1.5286933333333334e-05, + "loss": 0.0, + "step": 44200 + }, + { + "epoch": 0.7088, + "grad_norm": 5.947691228413987e-09, + "learning_rate": 1.5276266666666668e-05, + "loss": 0.0, + "step": 44300 + }, + { + "epoch": 0.7104, + "grad_norm": 5.5936832943359605e-09, + "learning_rate": 1.5265600000000002e-05, + "loss": 0.0, + "step": 44400 + }, + { + "epoch": 0.712, + "grad_norm": 6.387094853010922e-09, + "learning_rate": 1.5254933333333335e-05, + "loss": 0.0, + "step": 44500 + }, + { + "epoch": 0.7136, + "grad_norm": 6.434018207102099e-09, + "learning_rate": 1.5244266666666667e-05, + "loss": 0.0, + "step": 44600 + }, + { + "epoch": 0.7152, + "grad_norm": 7.640887922377715e-09, + "learning_rate": 1.5233600000000001e-05, + "loss": 0.0, + "step": 44700 + }, + { + "epoch": 0.7168, + "grad_norm": 6.9532259949767194e-09, + "learning_rate": 1.5222933333333335e-05, + "loss": 0.0, + "step": 44800 + }, + { + "epoch": 0.7184, + "grad_norm": 5.967400351636343e-09, + "learning_rate": 1.5212266666666668e-05, + "loss": 0.0, + "step": 44900 + }, + { + "epoch": 0.72, + "grad_norm": 6.471727154178097e-09, + "learning_rate": 1.52016e-05, + "loss": 0.0, + "step": 45000 + }, + { + "epoch": 0.7216, + "grad_norm": 6.3445786402382964e-09, + "learning_rate": 1.5190933333333336e-05, + "loss": 0.0, + "step": 45100 + }, + { + "epoch": 0.7232, + "grad_norm": 5.881137354890598e-09, + "learning_rate": 1.5180266666666668e-05, + "loss": 0.0, + "step": 45200 + }, + { + "epoch": 0.7248, + "grad_norm": 6.409100361537412e-09, + "learning_rate": 1.5169706666666667e-05, + "loss": 0.0, + "step": 45300 + }, + { + "epoch": 0.7264, + "grad_norm": 5.837366146010936e-09, + "learning_rate": 1.5159040000000001e-05, + "loss": 0.0, + "step": 45400 + }, + { + "epoch": 0.728, + "grad_norm": 5.142333669994059e-09, + "learning_rate": 1.5148373333333335e-05, + "loss": 0.0, + "step": 45500 + }, + { + "epoch": 0.7296, + "grad_norm": 5.3732072125001196e-09, + "learning_rate": 1.5137706666666667e-05, + "loss": 0.0, + "step": 45600 + }, + { + "epoch": 0.7312, + "grad_norm": 5.1184545490912114e-09, + "learning_rate": 1.5127040000000002e-05, + "loss": 0.0, + "step": 45700 + }, + { + "epoch": 0.7328, + "grad_norm": 4.9866528684106015e-09, + "learning_rate": 1.5116373333333334e-05, + "loss": 0.0, + "step": 45800 + }, + { + "epoch": 0.7344, + "grad_norm": 5.368807620698135e-09, + "learning_rate": 1.5105706666666668e-05, + "loss": 0.0, + "step": 45900 + }, + { + "epoch": 0.736, + "grad_norm": 4.762381600187382e-09, + "learning_rate": 1.5095040000000001e-05, + "loss": 0.0, + "step": 46000 + }, + { + "epoch": 0.7376, + "grad_norm": 4.221057281483809e-09, + "learning_rate": 1.5084373333333335e-05, + "loss": 0.0, + "step": 46100 + }, + { + "epoch": 0.7392, + "grad_norm": 5.685349524497951e-09, + "learning_rate": 1.5073706666666667e-05, + "loss": 0.0, + "step": 46200 + }, + { + "epoch": 0.7408, + "grad_norm": 4.665808184256548e-09, + "learning_rate": 1.5063040000000002e-05, + "loss": 0.0, + "step": 46300 + }, + { + "epoch": 0.7424, + "grad_norm": 4.947431353485854e-09, + "learning_rate": 1.5052373333333334e-05, + "loss": 0.0, + "step": 46400 + }, + { + "epoch": 0.744, + "grad_norm": 4.350499516192485e-09, + "learning_rate": 1.504170666666667e-05, + "loss": 0.0, + "step": 46500 + }, + { + "epoch": 0.7456, + "grad_norm": 4.42672432043878e-09, + "learning_rate": 1.5031040000000002e-05, + "loss": 0.0, + "step": 46600 + }, + { + "epoch": 0.7472, + "grad_norm": 4.635956507570427e-09, + "learning_rate": 1.5020373333333334e-05, + "loss": 0.0, + "step": 46700 + }, + { + "epoch": 0.7488, + "grad_norm": 4.093439365249196e-09, + "learning_rate": 1.5009706666666667e-05, + "loss": 0.0, + "step": 46800 + }, + { + "epoch": 0.7504, + "grad_norm": 4.4049284220193385e-09, + "learning_rate": 1.4999040000000001e-05, + "loss": 0.0, + "step": 46900 + }, + { + "epoch": 0.752, + "grad_norm": 4.6566723810315125e-09, + "learning_rate": 1.4988373333333335e-05, + "loss": 0.0, + "step": 47000 + }, + { + "epoch": 0.7536, + "grad_norm": 3.575250540066577e-09, + "learning_rate": 1.4977706666666667e-05, + "loss": 0.0, + "step": 47100 + }, + { + "epoch": 0.7552, + "grad_norm": 4.647517037881244e-09, + "learning_rate": 1.4967040000000002e-05, + "loss": 0.0, + "step": 47200 + }, + { + "epoch": 0.7568, + "grad_norm": 3.6755953836120625e-09, + "learning_rate": 1.4956480000000002e-05, + "loss": 0.0, + "step": 47300 + }, + { + "epoch": 0.7584, + "grad_norm": 3.9804803897425245e-09, + "learning_rate": 1.4945813333333334e-05, + "loss": 0.0, + "step": 47400 + }, + { + "epoch": 0.76, + "grad_norm": 3.5315350643827514e-09, + "learning_rate": 1.493514666666667e-05, + "loss": 0.0, + "step": 47500 + }, + { + "epoch": 0.7616, + "grad_norm": 3.650338031846445e-09, + "learning_rate": 1.4924480000000001e-05, + "loss": 0.0, + "step": 47600 + }, + { + "epoch": 0.7632, + "grad_norm": 3.916106550150289e-09, + "learning_rate": 1.4913813333333333e-05, + "loss": 0.0, + "step": 47700 + }, + { + "epoch": 0.7648, + "grad_norm": 3.62517726948397e-09, + "learning_rate": 1.4903146666666668e-05, + "loss": 0.0, + "step": 47800 + }, + { + "epoch": 0.7664, + "grad_norm": 3.878641408050498e-09, + "learning_rate": 1.489248e-05, + "loss": 0.0, + "step": 47900 + }, + { + "epoch": 0.768, + "grad_norm": 4.047121304751045e-09, + "learning_rate": 1.4881813333333334e-05, + "loss": 0.0, + "step": 48000 + }, + { + "epoch": 0.7696, + "grad_norm": 3.005124149524363e-09, + "learning_rate": 1.4871146666666668e-05, + "loss": 0.0, + "step": 48100 + }, + { + "epoch": 0.7712, + "grad_norm": 3.664456960095208e-09, + "learning_rate": 1.4860480000000001e-05, + "loss": 0.0, + "step": 48200 + }, + { + "epoch": 0.7728, + "grad_norm": 3.27337112970838e-09, + "learning_rate": 1.4849813333333333e-05, + "loss": 0.0, + "step": 48300 + }, + { + "epoch": 0.7744, + "grad_norm": 3.1061264671450317e-09, + "learning_rate": 1.4839146666666669e-05, + "loss": 0.0, + "step": 48400 + }, + { + "epoch": 0.776, + "grad_norm": 2.910289342850092e-09, + "learning_rate": 1.482848e-05, + "loss": 0.0, + "step": 48500 + }, + { + "epoch": 0.7776, + "grad_norm": 3.726303710038792e-09, + "learning_rate": 1.4817813333333334e-05, + "loss": 0.0, + "step": 48600 + }, + { + "epoch": 0.7792, + "grad_norm": 3.082652577646172e-09, + "learning_rate": 1.4807146666666668e-05, + "loss": 0.0, + "step": 48700 + }, + { + "epoch": 0.7808, + "grad_norm": 2.9859092975925705e-09, + "learning_rate": 1.4796480000000002e-05, + "loss": 0.0, + "step": 48800 + }, + { + "epoch": 0.7824, + "grad_norm": 3.238060486410177e-09, + "learning_rate": 1.4785813333333334e-05, + "loss": 0.0, + "step": 48900 + }, + { + "epoch": 0.784, + "grad_norm": 2.965995005155264e-09, + "learning_rate": 1.4775146666666669e-05, + "loss": 0.0, + "step": 49000 + }, + { + "epoch": 0.7856, + "grad_norm": 2.5330839648063375e-09, + "learning_rate": 1.4764480000000001e-05, + "loss": 0.0, + "step": 49100 + }, + { + "epoch": 0.7872, + "grad_norm": 2.8175941579888786e-09, + "learning_rate": 1.4753813333333336e-05, + "loss": 0.0, + "step": 49200 + }, + { + "epoch": 0.7888, + "grad_norm": 2.6512554374136243e-09, + "learning_rate": 1.4743253333333335e-05, + "loss": 0.0, + "step": 49300 + }, + { + "epoch": 0.7904, + "grad_norm": 3.005082183094032e-09, + "learning_rate": 1.4732586666666668e-05, + "loss": 0.0, + "step": 49400 + }, + { + "epoch": 0.792, + "grad_norm": 2.7331856777834673e-09, + "learning_rate": 1.472192e-05, + "loss": 0.0, + "step": 49500 + }, + { + "epoch": 0.7936, + "grad_norm": 2.535325061003846e-09, + "learning_rate": 1.4711253333333336e-05, + "loss": 0.0, + "step": 49600 + }, + { + "epoch": 0.7952, + "grad_norm": 2.5567281625171745e-09, + "learning_rate": 1.4700586666666667e-05, + "loss": 0.0, + "step": 49700 + }, + { + "epoch": 0.7968, + "grad_norm": 2.561580725313206e-09, + "learning_rate": 1.4689920000000001e-05, + "loss": 0.0, + "step": 49800 + }, + { + "epoch": 0.7984, + "grad_norm": 2.534361831507681e-09, + "learning_rate": 1.4679253333333335e-05, + "loss": 0.0, + "step": 49900 + }, + { + "epoch": 0.8, + "grad_norm": 2.616443062208873e-09, + "learning_rate": 1.4668586666666668e-05, + "loss": 0.0, + "step": 50000 + }, + { + "epoch": 0.8016, + "grad_norm": 3.016526806121078e-09, + "learning_rate": 1.465792e-05, + "loss": 0.0, + "step": 50100 + }, + { + "epoch": 0.8032, + "grad_norm": 2.5457300711906328e-09, + "learning_rate": 1.4647253333333336e-05, + "loss": 0.0, + "step": 50200 + }, + { + "epoch": 0.8048, + "grad_norm": 2.6220687843192536e-09, + "learning_rate": 1.4636586666666668e-05, + "loss": 0.0, + "step": 50300 + }, + { + "epoch": 0.8064, + "grad_norm": 2.8558380105181413e-09, + "learning_rate": 1.462592e-05, + "loss": 0.0, + "step": 50400 + }, + { + "epoch": 0.808, + "grad_norm": 2.5608188902737083e-09, + "learning_rate": 1.4615253333333335e-05, + "loss": 0.0, + "step": 50500 + }, + { + "epoch": 0.8096, + "grad_norm": 2.820969235983739e-09, + "learning_rate": 1.4604586666666667e-05, + "loss": 0.0, + "step": 50600 + }, + { + "epoch": 0.8112, + "grad_norm": 2.7018629555897178e-09, + "learning_rate": 1.459392e-05, + "loss": 0.0, + "step": 50700 + }, + { + "epoch": 0.8128, + "grad_norm": 2.4657107466907746e-09, + "learning_rate": 1.4583253333333334e-05, + "loss": 0.0, + "step": 50800 + }, + { + "epoch": 0.8144, + "grad_norm": 2.240560625921262e-09, + "learning_rate": 1.4572586666666668e-05, + "loss": 0.0, + "step": 50900 + }, + { + "epoch": 0.816, + "grad_norm": 2.1840855790600244e-09, + "learning_rate": 1.456192e-05, + "loss": 0.0, + "step": 51000 + }, + { + "epoch": 0.8176, + "grad_norm": 2.396337350774047e-09, + "learning_rate": 1.4551253333333335e-05, + "loss": 0.0, + "step": 51100 + }, + { + "epoch": 0.8192, + "grad_norm": 2.2762063345282968e-09, + "learning_rate": 1.4540586666666667e-05, + "loss": 0.0, + "step": 51200 + }, + { + "epoch": 0.8208, + "grad_norm": 2.1621027190832365e-09, + "learning_rate": 1.4530026666666667e-05, + "loss": 0.0, + "step": 51300 + }, + { + "epoch": 0.8224, + "grad_norm": 2.2733732674140583e-09, + "learning_rate": 1.4519360000000001e-05, + "loss": 0.0, + "step": 51400 + }, + { + "epoch": 0.824, + "grad_norm": 2.062521931023298e-09, + "learning_rate": 1.4508693333333335e-05, + "loss": 0.0, + "step": 51500 + }, + { + "epoch": 0.8256, + "grad_norm": 2.5127442349059947e-09, + "learning_rate": 1.4498026666666666e-05, + "loss": 0.0, + "step": 51600 + }, + { + "epoch": 0.8272, + "grad_norm": 2.24668172954523e-09, + "learning_rate": 1.4487360000000002e-05, + "loss": 0.0, + "step": 51700 + }, + { + "epoch": 0.8288, + "grad_norm": 2.0432591174568415e-09, + "learning_rate": 1.4476693333333334e-05, + "loss": 0.0, + "step": 51800 + }, + { + "epoch": 0.8304, + "grad_norm": 2.4273549836806296e-09, + "learning_rate": 1.4466026666666667e-05, + "loss": 0.0, + "step": 51900 + }, + { + "epoch": 0.832, + "grad_norm": 2.0034554015779804e-09, + "learning_rate": 1.4455360000000001e-05, + "loss": 0.0, + "step": 52000 + }, + { + "epoch": 0.8336, + "grad_norm": 1.9104446913331685e-09, + "learning_rate": 1.4444693333333335e-05, + "loss": 0.0, + "step": 52100 + }, + { + "epoch": 0.8352, + "grad_norm": 1.9703714215779655e-09, + "learning_rate": 1.4434026666666667e-05, + "loss": 0.0, + "step": 52200 + }, + { + "epoch": 0.8368, + "grad_norm": 1.8734007678489206e-09, + "learning_rate": 1.4423360000000002e-05, + "loss": 0.0, + "step": 52300 + }, + { + "epoch": 0.8384, + "grad_norm": 2.433496959497461e-09, + "learning_rate": 1.4412693333333334e-05, + "loss": 0.0, + "step": 52400 + }, + { + "epoch": 0.84, + "grad_norm": 1.915407166208638e-09, + "learning_rate": 1.440202666666667e-05, + "loss": 0.0, + "step": 52500 + }, + { + "epoch": 0.8416, + "grad_norm": 2.026956380518641e-09, + "learning_rate": 1.4391360000000001e-05, + "loss": 0.0, + "step": 52600 + }, + { + "epoch": 0.8432, + "grad_norm": 1.8809005464248685e-09, + "learning_rate": 1.4380693333333335e-05, + "loss": 0.0, + "step": 52700 + }, + { + "epoch": 0.8448, + "grad_norm": 1.7579672162426618e-09, + "learning_rate": 1.4370026666666667e-05, + "loss": 0.0, + "step": 52800 + }, + { + "epoch": 0.8464, + "grad_norm": 1.972140895034613e-09, + "learning_rate": 1.4359360000000002e-05, + "loss": 0.0, + "step": 52900 + }, + { + "epoch": 0.848, + "grad_norm": 2.309159086166801e-09, + "learning_rate": 1.4348693333333334e-05, + "loss": 0.0, + "step": 53000 + }, + { + "epoch": 0.8496, + "grad_norm": 2.2458994664020793e-09, + "learning_rate": 1.4338026666666666e-05, + "loss": 0.0, + "step": 53100 + }, + { + "epoch": 0.8512, + "grad_norm": 2.3398747384106855e-09, + "learning_rate": 1.4327360000000002e-05, + "loss": 0.0, + "step": 53200 + }, + { + "epoch": 0.8528, + "grad_norm": 1.8828840708806638e-09, + "learning_rate": 1.4316800000000002e-05, + "loss": 0.0, + "step": 53300 + }, + { + "epoch": 0.8544, + "grad_norm": 1.7677028729679023e-09, + "learning_rate": 1.4306133333333334e-05, + "loss": 0.0, + "step": 53400 + }, + { + "epoch": 0.856, + "grad_norm": 1.8229453502272008e-09, + "learning_rate": 1.4295466666666669e-05, + "loss": 0.0, + "step": 53500 + }, + { + "epoch": 0.8576, + "grad_norm": 1.7983363687079645e-09, + "learning_rate": 1.4284800000000001e-05, + "loss": 0.0, + "step": 53600 + }, + { + "epoch": 0.8592, + "grad_norm": 1.6915907563586075e-09, + "learning_rate": 1.4274133333333336e-05, + "loss": 0.0, + "step": 53700 + }, + { + "epoch": 0.8608, + "grad_norm": 2.047505054392218e-09, + "learning_rate": 1.4263466666666668e-05, + "loss": 0.0, + "step": 53800 + }, + { + "epoch": 0.8624, + "grad_norm": 1.645070635269974e-09, + "learning_rate": 1.4252800000000002e-05, + "loss": 0.0, + "step": 53900 + }, + { + "epoch": 0.864, + "grad_norm": 1.6591610307870042e-09, + "learning_rate": 1.4242133333333334e-05, + "loss": 0.0, + "step": 54000 + }, + { + "epoch": 0.8656, + "grad_norm": 1.6760498544599045e-09, + "learning_rate": 1.4231466666666667e-05, + "loss": 0.0, + "step": 54100 + }, + { + "epoch": 0.8672, + "grad_norm": 1.8105128507528434e-09, + "learning_rate": 1.4220800000000001e-05, + "loss": 0.0, + "step": 54200 + }, + { + "epoch": 0.8688, + "grad_norm": 1.724317466589298e-09, + "learning_rate": 1.4210133333333333e-05, + "loss": 0.0, + "step": 54300 + }, + { + "epoch": 0.8704, + "grad_norm": 1.5064500757944188e-09, + "learning_rate": 1.4199466666666668e-05, + "loss": 0.0, + "step": 54400 + }, + { + "epoch": 0.872, + "grad_norm": 2.0849286741508877e-09, + "learning_rate": 1.41888e-05, + "loss": 0.0, + "step": 54500 + }, + { + "epoch": 0.8736, + "grad_norm": 1.595770737772284e-09, + "learning_rate": 1.4178133333333334e-05, + "loss": 0.0, + "step": 54600 + }, + { + "epoch": 0.8752, + "grad_norm": 1.4647668633571698e-09, + "learning_rate": 1.4167466666666668e-05, + "loss": 0.0, + "step": 54700 + }, + { + "epoch": 0.8768, + "grad_norm": 1.5293233346369561e-09, + "learning_rate": 1.4156800000000001e-05, + "loss": 0.0, + "step": 54800 + }, + { + "epoch": 0.8784, + "grad_norm": 1.5121590646316463e-09, + "learning_rate": 1.4146133333333333e-05, + "loss": 0.0, + "step": 54900 + }, + { + "epoch": 0.88, + "grad_norm": 1.7063028767694277e-09, + "learning_rate": 1.4135466666666669e-05, + "loss": 0.0, + "step": 55000 + }, + { + "epoch": 0.8816, + "grad_norm": 1.6600216756756936e-09, + "learning_rate": 1.41248e-05, + "loss": 0.0, + "step": 55100 + }, + { + "epoch": 0.8832, + "grad_norm": 1.6948151770890263e-09, + "learning_rate": 1.4114133333333336e-05, + "loss": 0.0, + "step": 55200 + }, + { + "epoch": 0.8848, + "grad_norm": 1.6159773519319742e-09, + "learning_rate": 1.4103573333333334e-05, + "loss": 0.0, + "step": 55300 + }, + { + "epoch": 0.8864, + "grad_norm": 1.5366856676024554e-09, + "learning_rate": 1.4092906666666668e-05, + "loss": 0.0, + "step": 55400 + }, + { + "epoch": 0.888, + "grad_norm": 1.4232574008232746e-09, + "learning_rate": 1.408224e-05, + "loss": 0.0, + "step": 55500 + }, + { + "epoch": 0.8896, + "grad_norm": 1.7679161468109328e-09, + "learning_rate": 1.4071573333333335e-05, + "loss": 0.0, + "step": 55600 + }, + { + "epoch": 0.8912, + "grad_norm": 1.4493197753040477e-09, + "learning_rate": 1.4060906666666667e-05, + "loss": 0.0, + "step": 55700 + }, + { + "epoch": 0.8928, + "grad_norm": 1.4467651521243852e-09, + "learning_rate": 1.4050240000000001e-05, + "loss": 0.0, + "step": 55800 + }, + { + "epoch": 0.8944, + "grad_norm": 1.46508472020912e-09, + "learning_rate": 1.4039573333333335e-05, + "loss": 0.0, + "step": 55900 + }, + { + "epoch": 0.896, + "grad_norm": 1.4291234862184865e-09, + "learning_rate": 1.4028906666666668e-05, + "loss": 0.0, + "step": 56000 + }, + { + "epoch": 0.8976, + "grad_norm": 1.8533777845775035e-09, + "learning_rate": 1.401824e-05, + "loss": 0.0, + "step": 56100 + }, + { + "epoch": 0.8992, + "grad_norm": 1.6173311578882021e-09, + "learning_rate": 1.4007573333333335e-05, + "loss": 0.0, + "step": 56200 + }, + { + "epoch": 0.9008, + "grad_norm": 1.6096453059333271e-09, + "learning_rate": 1.3996906666666667e-05, + "loss": 0.0, + "step": 56300 + }, + { + "epoch": 0.9024, + "grad_norm": 1.5629680882867092e-09, + "learning_rate": 1.3986240000000003e-05, + "loss": 0.0, + "step": 56400 + }, + { + "epoch": 0.904, + "grad_norm": 1.6487086140770657e-09, + "learning_rate": 1.3975573333333335e-05, + "loss": 0.0, + "step": 56500 + }, + { + "epoch": 0.9056, + "grad_norm": 1.561828555374234e-09, + "learning_rate": 1.3964906666666668e-05, + "loss": 0.0, + "step": 56600 + }, + { + "epoch": 0.9072, + "grad_norm": 1.6236398892033321e-09, + "learning_rate": 1.395424e-05, + "loss": 0.0, + "step": 56700 + }, + { + "epoch": 0.9088, + "grad_norm": 1.3952866639854733e-09, + "learning_rate": 1.3943573333333334e-05, + "loss": 0.0, + "step": 56800 + }, + { + "epoch": 0.9104, + "grad_norm": 1.4216349208950874e-09, + "learning_rate": 1.3932906666666668e-05, + "loss": 0.0, + "step": 56900 + }, + { + "epoch": 0.912, + "grad_norm": 1.4121263047783827e-09, + "learning_rate": 1.392224e-05, + "loss": 0.0, + "step": 57000 + }, + { + "epoch": 0.9136, + "grad_norm": 1.7500071392007044e-09, + "learning_rate": 1.3911573333333335e-05, + "loss": 0.0, + "step": 57100 + }, + { + "epoch": 0.9152, + "grad_norm": 1.6262031721225867e-09, + "learning_rate": 1.3900906666666667e-05, + "loss": 0.0, + "step": 57200 + }, + { + "epoch": 0.9168, + "grad_norm": 1.3557924782858777e-09, + "learning_rate": 1.3890346666666667e-05, + "loss": 0.0, + "step": 57300 + }, + { + "epoch": 0.9184, + "grad_norm": 1.4752008503648995e-09, + "learning_rate": 1.3879680000000002e-05, + "loss": 0.0, + "step": 57400 + }, + { + "epoch": 0.92, + "grad_norm": 1.3589706027161697e-09, + "learning_rate": 1.3869013333333334e-05, + "loss": 0.0, + "step": 57500 + }, + { + "epoch": 0.9216, + "grad_norm": 1.4188084040966942e-09, + "learning_rate": 1.385834666666667e-05, + "loss": 0.0, + "step": 57600 + }, + { + "epoch": 0.9232, + "grad_norm": 1.5505075001698287e-09, + "learning_rate": 1.3847680000000002e-05, + "loss": 0.0, + "step": 57700 + }, + { + "epoch": 0.9248, + "grad_norm": 1.5491343763329724e-09, + "learning_rate": 1.3837013333333334e-05, + "loss": 0.0, + "step": 57800 + }, + { + "epoch": 0.9264, + "grad_norm": 1.2985361674822116e-09, + "learning_rate": 1.3826346666666667e-05, + "loss": 0.0, + "step": 57900 + }, + { + "epoch": 0.928, + "grad_norm": 1.167143826030781e-09, + "learning_rate": 1.3815680000000001e-05, + "loss": 0.0, + "step": 58000 + }, + { + "epoch": 0.9296, + "grad_norm": 1.291968310113134e-09, + "learning_rate": 1.3805013333333335e-05, + "loss": 0.0, + "step": 58100 + }, + { + "epoch": 0.9312, + "grad_norm": 1.3477001736816874e-09, + "learning_rate": 1.3794346666666666e-05, + "loss": 0.0, + "step": 58200 + }, + { + "epoch": 0.9328, + "grad_norm": 1.2875156496505724e-09, + "learning_rate": 1.3783680000000002e-05, + "loss": 0.0, + "step": 58300 + }, + { + "epoch": 0.9344, + "grad_norm": 1.3489318551052065e-09, + "learning_rate": 1.3773013333333334e-05, + "loss": 0.0, + "step": 58400 + }, + { + "epoch": 0.936, + "grad_norm": 1.3920068431261257e-09, + "learning_rate": 1.3762346666666667e-05, + "loss": 0.0, + "step": 58500 + }, + { + "epoch": 0.9376, + "grad_norm": 1.8122923162167126e-09, + "learning_rate": 1.3751680000000001e-05, + "loss": 0.0, + "step": 58600 + }, + { + "epoch": 0.9392, + "grad_norm": 1.2962692030882295e-09, + "learning_rate": 1.3741013333333335e-05, + "loss": 0.0, + "step": 58700 + }, + { + "epoch": 0.9408, + "grad_norm": 1.5180040557893903e-09, + "learning_rate": 1.3730346666666667e-05, + "loss": 0.0, + "step": 58800 + }, + { + "epoch": 0.9424, + "grad_norm": 1.237118185670738e-09, + "learning_rate": 1.3719680000000002e-05, + "loss": 0.0, + "step": 58900 + }, + { + "epoch": 0.944, + "grad_norm": 1.2209625532833002e-09, + "learning_rate": 1.3709013333333334e-05, + "loss": 0.0, + "step": 59000 + }, + { + "epoch": 0.9456, + "grad_norm": 1.1343942452057831e-09, + "learning_rate": 1.369834666666667e-05, + "loss": 0.0, + "step": 59100 + }, + { + "epoch": 0.9472, + "grad_norm": 1.5663039754088004e-09, + "learning_rate": 1.3687680000000001e-05, + "loss": 0.0, + "step": 59200 + }, + { + "epoch": 0.9488, + "grad_norm": 1.328584242621389e-09, + "learning_rate": 1.3677120000000001e-05, + "loss": 0.0, + "step": 59300 + }, + { + "epoch": 0.9504, + "grad_norm": 1.2603350585393969e-09, + "learning_rate": 1.3666453333333333e-05, + "loss": 0.0, + "step": 59400 + }, + { + "epoch": 0.952, + "grad_norm": 1.3242087426590388e-09, + "learning_rate": 1.3655786666666669e-05, + "loss": 0.0, + "step": 59500 + }, + { + "epoch": 0.9536, + "grad_norm": 1.200673116485973e-09, + "learning_rate": 1.364512e-05, + "loss": 0.0, + "step": 59600 + }, + { + "epoch": 0.9552, + "grad_norm": 1.431109231120331e-09, + "learning_rate": 1.3634453333333336e-05, + "loss": 0.0, + "step": 59700 + }, + { + "epoch": 0.9568, + "grad_norm": 1.4143181070735977e-09, + "learning_rate": 1.3623786666666668e-05, + "loss": 0.0, + "step": 59800 + }, + { + "epoch": 0.9584, + "grad_norm": 1.1156711110515971e-09, + "learning_rate": 1.3613120000000002e-05, + "loss": 0.0, + "step": 59900 + }, + { + "epoch": 0.96, + "grad_norm": 1.215820111255539e-09, + "learning_rate": 1.3602453333333334e-05, + "loss": 0.0, + "step": 60000 + }, + { + "epoch": 0.9616, + "grad_norm": 1.0717124965253788e-09, + "learning_rate": 1.3591786666666669e-05, + "loss": 0.0, + "step": 60100 + }, + { + "epoch": 0.9632, + "grad_norm": 1.3140745158679579e-09, + "learning_rate": 1.358112e-05, + "loss": 0.0, + "step": 60200 + }, + { + "epoch": 0.9648, + "grad_norm": 1.3158559797332714e-09, + "learning_rate": 1.3570453333333336e-05, + "loss": 0.0, + "step": 60300 + }, + { + "epoch": 0.9664, + "grad_norm": 1.1407147448849742e-09, + "learning_rate": 1.3559786666666668e-05, + "loss": 0.0, + "step": 60400 + }, + { + "epoch": 0.968, + "grad_norm": 1.2518017733498255e-09, + "learning_rate": 1.354912e-05, + "loss": 0.0, + "step": 60500 + }, + { + "epoch": 0.9696, + "grad_norm": 1.0706601161203366e-09, + "learning_rate": 1.3538453333333334e-05, + "loss": 0.0, + "step": 60600 + }, + { + "epoch": 0.9712, + "grad_norm": 1.2506353730401543e-09, + "learning_rate": 1.3527786666666667e-05, + "loss": 0.0, + "step": 60700 + }, + { + "epoch": 0.9728, + "grad_norm": 1.1973613212035161e-09, + "learning_rate": 1.3517120000000001e-05, + "loss": 0.0, + "step": 60800 + }, + { + "epoch": 0.9744, + "grad_norm": 1.105602609463574e-09, + "learning_rate": 1.3506453333333333e-05, + "loss": 0.0, + "step": 60900 + }, + { + "epoch": 0.976, + "grad_norm": 1.1296757973511262e-09, + "learning_rate": 1.3495786666666668e-05, + "loss": 0.0, + "step": 61000 + }, + { + "epoch": 0.9776, + "grad_norm": 1.1829981438893356e-09, + "learning_rate": 1.348512e-05, + "loss": 0.0, + "step": 61100 + }, + { + "epoch": 0.9792, + "grad_norm": 1.1169806191091425e-09, + "learning_rate": 1.3474453333333336e-05, + "loss": 0.0, + "step": 61200 + }, + { + "epoch": 0.9808, + "grad_norm": 1.0116082416189442e-09, + "learning_rate": 1.3463893333333336e-05, + "loss": 0.0, + "step": 61300 + }, + { + "epoch": 0.9824, + "grad_norm": 1.1309302383466502e-09, + "learning_rate": 1.3453226666666668e-05, + "loss": 0.0, + "step": 61400 + }, + { + "epoch": 0.984, + "grad_norm": 1.0152529927864862e-09, + "learning_rate": 1.344256e-05, + "loss": 0.0, + "step": 61500 + }, + { + "epoch": 0.9856, + "grad_norm": 1.1926426513042543e-09, + "learning_rate": 1.3431893333333335e-05, + "loss": 0.0, + "step": 61600 + }, + { + "epoch": 0.9872, + "grad_norm": 1.0562004604253161e-09, + "learning_rate": 1.3421226666666667e-05, + "loss": 0.0, + "step": 61700 + }, + { + "epoch": 0.9888, + "grad_norm": 1.2290218842636591e-09, + "learning_rate": 1.341056e-05, + "loss": 0.0, + "step": 61800 + }, + { + "epoch": 0.9904, + "grad_norm": 1.3118912622900325e-09, + "learning_rate": 1.3399893333333334e-05, + "loss": 0.0, + "step": 61900 + }, + { + "epoch": 0.992, + "grad_norm": 1.089616175065089e-09, + "learning_rate": 1.3389226666666668e-05, + "loss": 0.0, + "step": 62000 + }, + { + "epoch": 0.9936, + "grad_norm": 1.0423790719471526e-09, + "learning_rate": 1.337856e-05, + "loss": 0.0, + "step": 62100 + }, + { + "epoch": 0.9952, + "grad_norm": 1.2500789292602121e-09, + "learning_rate": 1.3367893333333335e-05, + "loss": 0.0, + "step": 62200 + }, + { + "epoch": 0.9968, + "grad_norm": 1.1556530177259106e-09, + "learning_rate": 1.3357226666666667e-05, + "loss": 0.0, + "step": 62300 + }, + { + "epoch": 0.9984, + "grad_norm": 9.741868423063238e-10, + "learning_rate": 1.3346560000000003e-05, + "loss": 0.0, + "step": 62400 + }, + { + "epoch": 1.0, + "grad_norm": 1.197379306816515e-09, + "learning_rate": 1.3335893333333335e-05, + "loss": 0.0, + "step": 62500 + }, + { + "epoch": 1.0, + "eval_accuracy": 1.0, + "eval_f1": 1.0, + "eval_loss": 0.0, + "eval_precision": 1.0, + "eval_recall": 1.0, + "eval_runtime": 8.1185, + "eval_samples_per_second": 615.878, + "eval_steps_per_second": 19.339, + "step": 62500 + }, + { + "epoch": 1.0016, + "grad_norm": 1.0374306969040958e-09, + "learning_rate": 1.3325226666666668e-05, + "loss": 0.0, + "step": 62600 + }, + { + "epoch": 1.0032, + "grad_norm": 1.1056192628089434e-09, + "learning_rate": 1.331456e-05, + "loss": 0.0, + "step": 62700 + }, + { + "epoch": 1.0048, + "grad_norm": 9.899252528811076e-10, + "learning_rate": 1.3303893333333335e-05, + "loss": 0.0, + "step": 62800 + }, + { + "epoch": 1.0064, + "grad_norm": 1.14032006059972e-09, + "learning_rate": 1.3293226666666667e-05, + "loss": 0.0, + "step": 62900 + }, + { + "epoch": 1.008, + "grad_norm": 1.0051284249357195e-09, + "learning_rate": 1.3282560000000003e-05, + "loss": 0.0, + "step": 63000 + }, + { + "epoch": 1.0096, + "grad_norm": 1.096616464302258e-09, + "learning_rate": 1.3271893333333335e-05, + "loss": 0.0, + "step": 63100 + }, + { + "epoch": 1.0112, + "grad_norm": 1.018887418879899e-09, + "learning_rate": 1.3261226666666667e-05, + "loss": 0.0, + "step": 63200 + }, + { + "epoch": 1.0128, + "grad_norm": 1.2445182662190746e-09, + "learning_rate": 1.3250666666666667e-05, + "loss": 0.0, + "step": 63300 + }, + { + "epoch": 1.0144, + "grad_norm": 1.0842896580598449e-09, + "learning_rate": 1.3240000000000002e-05, + "loss": 0.0, + "step": 63400 + }, + { + "epoch": 1.016, + "grad_norm": 1.0205781775241007e-09, + "learning_rate": 1.3229333333333334e-05, + "loss": 0.0, + "step": 63500 + }, + { + "epoch": 1.0176, + "grad_norm": 9.283709911933613e-10, + "learning_rate": 1.321866666666667e-05, + "loss": 0.0, + "step": 63600 + }, + { + "epoch": 1.0192, + "grad_norm": 9.611859086433583e-10, + "learning_rate": 1.3208000000000001e-05, + "loss": 0.0, + "step": 63700 + }, + { + "epoch": 1.0208, + "grad_norm": 1.0997852628591431e-09, + "learning_rate": 1.3197333333333335e-05, + "loss": 0.0, + "step": 63800 + }, + { + "epoch": 1.0224, + "grad_norm": 9.264469191805347e-10, + "learning_rate": 1.3186666666666667e-05, + "loss": 0.0, + "step": 63900 + }, + { + "epoch": 1.024, + "grad_norm": 1.024118345682723e-09, + "learning_rate": 1.3176000000000002e-05, + "loss": 0.0, + "step": 64000 + }, + { + "epoch": 1.0256, + "grad_norm": 1.1323602056023674e-09, + "learning_rate": 1.3165333333333334e-05, + "loss": 0.0, + "step": 64100 + }, + { + "epoch": 1.0272, + "grad_norm": 9.059453187632016e-10, + "learning_rate": 1.3154666666666666e-05, + "loss": 0.0, + "step": 64200 + }, + { + "epoch": 1.0288, + "grad_norm": 1.2914237457195554e-09, + "learning_rate": 1.3144000000000002e-05, + "loss": 0.0, + "step": 64300 + }, + { + "epoch": 1.0304, + "grad_norm": 1.276821981477383e-09, + "learning_rate": 1.3133333333333334e-05, + "loss": 0.0, + "step": 64400 + }, + { + "epoch": 1.032, + "grad_norm": 1.0085237089896282e-09, + "learning_rate": 1.3122666666666667e-05, + "loss": 0.0, + "step": 64500 + }, + { + "epoch": 1.0336, + "grad_norm": 9.43720768198375e-10, + "learning_rate": 1.3112e-05, + "loss": 0.0, + "step": 64600 + }, + { + "epoch": 1.0352, + "grad_norm": 9.372732590051669e-10, + "learning_rate": 1.3101333333333334e-05, + "loss": 0.0, + "step": 64700 + }, + { + "epoch": 1.0368, + "grad_norm": 9.827507696513749e-10, + "learning_rate": 1.3090666666666666e-05, + "loss": 0.0, + "step": 64800 + }, + { + "epoch": 1.0384, + "grad_norm": 1.0029460595362139e-09, + "learning_rate": 1.3080000000000002e-05, + "loss": 0.0, + "step": 64900 + }, + { + "epoch": 1.04, + "grad_norm": 9.08757957773787e-10, + "learning_rate": 1.3069333333333334e-05, + "loss": 0.0, + "step": 65000 + }, + { + "epoch": 1.0416, + "grad_norm": 9.103614528882531e-10, + "learning_rate": 1.3058666666666669e-05, + "loss": 0.0, + "step": 65100 + }, + { + "epoch": 1.0432, + "grad_norm": 1.0736145306111666e-09, + "learning_rate": 1.3048000000000001e-05, + "loss": 0.0, + "step": 65200 + }, + { + "epoch": 1.0448, + "grad_norm": 9.602840744804553e-10, + "learning_rate": 1.3037440000000001e-05, + "loss": 0.0, + "step": 65300 + }, + { + "epoch": 1.0464, + "grad_norm": 9.235551767794448e-10, + "learning_rate": 1.3026773333333333e-05, + "loss": 0.0, + "step": 65400 + }, + { + "epoch": 1.048, + "grad_norm": 9.633351893967301e-10, + "learning_rate": 1.3016106666666668e-05, + "loss": 0.0, + "step": 65500 + }, + { + "epoch": 1.0496, + "grad_norm": 1.1186043202826568e-09, + "learning_rate": 1.300544e-05, + "loss": 0.0, + "step": 65600 + }, + { + "epoch": 1.0512, + "grad_norm": 1.0211760326228614e-09, + "learning_rate": 1.2994773333333334e-05, + "loss": 0.0, + "step": 65700 + }, + { + "epoch": 1.0528, + "grad_norm": 9.168440451290394e-10, + "learning_rate": 1.2984106666666668e-05, + "loss": 0.0, + "step": 65800 + }, + { + "epoch": 1.0544, + "grad_norm": 8.920100214027116e-10, + "learning_rate": 1.2973440000000001e-05, + "loss": 0.0, + "step": 65900 + }, + { + "epoch": 1.056, + "grad_norm": 1.012602446337496e-09, + "learning_rate": 1.2962773333333333e-05, + "loss": 0.0, + "step": 66000 + }, + { + "epoch": 1.0576, + "grad_norm": 9.479604878848136e-10, + "learning_rate": 1.2952106666666669e-05, + "loss": 0.0, + "step": 66100 + }, + { + "epoch": 1.0592, + "grad_norm": 8.731246836646278e-10, + "learning_rate": 1.294144e-05, + "loss": 0.0, + "step": 66200 + }, + { + "epoch": 1.0608, + "grad_norm": 8.414572372217322e-10, + "learning_rate": 1.2930773333333336e-05, + "loss": 0.0, + "step": 66300 + }, + { + "epoch": 1.0624, + "grad_norm": 8.615465563188707e-10, + "learning_rate": 1.2920106666666668e-05, + "loss": 0.0, + "step": 66400 + }, + { + "epoch": 1.064, + "grad_norm": 8.551171437609639e-10, + "learning_rate": 1.2909440000000002e-05, + "loss": 0.0, + "step": 66500 + }, + { + "epoch": 1.0656, + "grad_norm": 8.412649465938671e-10, + "learning_rate": 1.2898773333333334e-05, + "loss": 0.0, + "step": 66600 + }, + { + "epoch": 1.0672, + "grad_norm": 9.170219583687356e-10, + "learning_rate": 1.2888106666666669e-05, + "loss": 0.0, + "step": 66700 + }, + { + "epoch": 1.0688, + "grad_norm": 9.65918456330428e-10, + "learning_rate": 1.287744e-05, + "loss": 0.0, + "step": 66800 + }, + { + "epoch": 1.0704, + "grad_norm": 9.650189536358766e-10, + "learning_rate": 1.2866773333333333e-05, + "loss": 0.0, + "step": 66900 + }, + { + "epoch": 1.072, + "grad_norm": 1.0463857558207224e-09, + "learning_rate": 1.2856106666666668e-05, + "loss": 0.0, + "step": 67000 + }, + { + "epoch": 1.0735999999999999, + "grad_norm": 1.0233374148072016e-09, + "learning_rate": 1.284544e-05, + "loss": 0.0, + "step": 67100 + }, + { + "epoch": 1.0752, + "grad_norm": 8.434659082290352e-10, + "learning_rate": 1.2834773333333335e-05, + "loss": 0.0, + "step": 67200 + }, + { + "epoch": 1.0768, + "grad_norm": 9.97494087329187e-10, + "learning_rate": 1.2824213333333335e-05, + "loss": 0.0, + "step": 67300 + }, + { + "epoch": 1.0784, + "grad_norm": 9.205015638613645e-10, + "learning_rate": 1.2813546666666667e-05, + "loss": 0.0, + "step": 67400 + }, + { + "epoch": 1.08, + "grad_norm": 8.380530158724753e-10, + "learning_rate": 1.2802880000000003e-05, + "loss": 0.0, + "step": 67500 + }, + { + "epoch": 1.0816, + "grad_norm": 1.011245975846009e-09, + "learning_rate": 1.2792213333333335e-05, + "loss": 0.0, + "step": 67600 + }, + { + "epoch": 1.0832, + "grad_norm": 8.420891206561976e-10, + "learning_rate": 1.2781546666666668e-05, + "loss": 0.0, + "step": 67700 + }, + { + "epoch": 1.0848, + "grad_norm": 8.901164250119109e-10, + "learning_rate": 1.277088e-05, + "loss": 0.0, + "step": 67800 + }, + { + "epoch": 1.0864, + "grad_norm": 1.0247853676759178e-09, + "learning_rate": 1.2760213333333334e-05, + "loss": 0.0, + "step": 67900 + }, + { + "epoch": 1.088, + "grad_norm": 8.465730894080536e-10, + "learning_rate": 1.2749546666666668e-05, + "loss": 0.0, + "step": 68000 + }, + { + "epoch": 1.0896, + "grad_norm": 8.001896922849028e-10, + "learning_rate": 1.273888e-05, + "loss": 0.0, + "step": 68100 + }, + { + "epoch": 1.0912, + "grad_norm": 9.676128787106109e-10, + "learning_rate": 1.2728213333333335e-05, + "loss": 0.0, + "step": 68200 + }, + { + "epoch": 1.0928, + "grad_norm": 1.048631736999539e-09, + "learning_rate": 1.2717653333333335e-05, + "loss": 0.0062, + "step": 68300 + }, + { + "epoch": 1.0944, + "grad_norm": 8.591498623644611e-10, + "learning_rate": 1.2706986666666667e-05, + "loss": 0.0, + "step": 68400 + }, + { + "epoch": 1.096, + "grad_norm": 7.713490401961565e-10, + "learning_rate": 1.2696320000000002e-05, + "loss": 0.0, + "step": 68500 + }, + { + "epoch": 1.0976, + "grad_norm": 8.318906119519909e-10, + "learning_rate": 1.2685653333333334e-05, + "loss": 0.0, + "step": 68600 + }, + { + "epoch": 1.0992, + "grad_norm": 8.382292637776345e-10, + "learning_rate": 1.267498666666667e-05, + "loss": 0.0, + "step": 68700 + }, + { + "epoch": 1.1008, + "grad_norm": 8.728018308090668e-10, + "learning_rate": 1.2664320000000001e-05, + "loss": 0.0, + "step": 68800 + }, + { + "epoch": 1.1024, + "grad_norm": 8.128788753225535e-10, + "learning_rate": 1.2653653333333333e-05, + "loss": 0.0, + "step": 68900 + }, + { + "epoch": 1.104, + "grad_norm": 9.276343582165225e-10, + "learning_rate": 1.2642986666666667e-05, + "loss": 0.0, + "step": 69000 + }, + { + "epoch": 1.1056, + "grad_norm": 9.612994844587774e-10, + "learning_rate": 1.263232e-05, + "loss": 0.0, + "step": 69100 + }, + { + "epoch": 1.1072, + "grad_norm": 8.774414528289753e-10, + "learning_rate": 1.2621653333333334e-05, + "loss": 0.0, + "step": 69200 + }, + { + "epoch": 1.1088, + "grad_norm": 8.03707767005335e-10, + "learning_rate": 1.2610986666666666e-05, + "loss": 0.0, + "step": 69300 + }, + { + "epoch": 1.1104, + "grad_norm": 7.440583704720893e-10, + "learning_rate": 1.2600320000000002e-05, + "loss": 0.0, + "step": 69400 + }, + { + "epoch": 1.112, + "grad_norm": 8.746649515778415e-10, + "learning_rate": 1.2589653333333334e-05, + "loss": 0.0, + "step": 69500 + }, + { + "epoch": 1.1136, + "grad_norm": 9.14446185440454e-10, + "learning_rate": 1.2578986666666669e-05, + "loss": 0.0, + "step": 69600 + }, + { + "epoch": 1.1152, + "grad_norm": 9.497618247422679e-10, + "learning_rate": 1.2568320000000001e-05, + "loss": 0.0, + "step": 69700 + }, + { + "epoch": 1.1168, + "grad_norm": 6.972887267586714e-10, + "learning_rate": 1.2557653333333335e-05, + "loss": 0.0, + "step": 69800 + }, + { + "epoch": 1.1184, + "grad_norm": 7.838346638422422e-10, + "learning_rate": 1.2546986666666667e-05, + "loss": 0.0, + "step": 69900 + }, + { + "epoch": 1.12, + "grad_norm": 9.652738608423306e-10, + "learning_rate": 1.2536320000000002e-05, + "loss": 0.0, + "step": 70000 + }, + { + "epoch": 1.1216, + "grad_norm": 9.003021661513344e-10, + "learning_rate": 1.2525653333333334e-05, + "loss": 0.0, + "step": 70100 + }, + { + "epoch": 1.1232, + "grad_norm": 7.499614262940213e-10, + "learning_rate": 1.251498666666667e-05, + "loss": 0.0, + "step": 70200 + }, + { + "epoch": 1.1248, + "grad_norm": 9.013067514551665e-10, + "learning_rate": 1.2504320000000001e-05, + "loss": 0.0, + "step": 70300 + }, + { + "epoch": 1.1264, + "grad_norm": 7.933402268456291e-10, + "learning_rate": 1.2493653333333335e-05, + "loss": 0.0, + "step": 70400 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 8.555990360648025e-10, + "learning_rate": 1.2482986666666667e-05, + "loss": 0.0, + "step": 70500 + }, + { + "epoch": 1.1296, + "grad_norm": 8.119356853519832e-10, + "learning_rate": 1.247232e-05, + "loss": 0.0, + "step": 70600 + }, + { + "epoch": 1.1312, + "grad_norm": 7.346589447898566e-10, + "learning_rate": 1.2461653333333334e-05, + "loss": 0.0, + "step": 70700 + }, + { + "epoch": 1.1328, + "grad_norm": 7.587566130951018e-10, + "learning_rate": 1.2450986666666666e-05, + "loss": 0.0, + "step": 70800 + }, + { + "epoch": 1.1344, + "grad_norm": 7.846492344754097e-10, + "learning_rate": 1.2440320000000002e-05, + "loss": 0.0, + "step": 70900 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 7.894234155259028e-10, + "learning_rate": 1.2429653333333334e-05, + "loss": 0.0, + "step": 71000 + }, + { + "epoch": 1.1376, + "grad_norm": 8.277507013154661e-10, + "learning_rate": 1.2418986666666669e-05, + "loss": 0.0, + "step": 71100 + }, + { + "epoch": 1.1392, + "grad_norm": 1.0105526415671306e-09, + "learning_rate": 1.240832e-05, + "loss": 0.0, + "step": 71200 + }, + { + "epoch": 1.1408, + "grad_norm": 8.373828852548115e-10, + "learning_rate": 1.2397653333333334e-05, + "loss": 0.0, + "step": 71300 + }, + { + "epoch": 1.1424, + "grad_norm": 7.613104036074958e-10, + "learning_rate": 1.2386986666666666e-05, + "loss": 0.0, + "step": 71400 + }, + { + "epoch": 1.144, + "grad_norm": 7.672882329501363e-10, + "learning_rate": 1.2376320000000002e-05, + "loss": 0.0, + "step": 71500 + }, + { + "epoch": 1.1456, + "grad_norm": 8.460581679692325e-10, + "learning_rate": 1.2365653333333334e-05, + "loss": 0.0, + "step": 71600 + }, + { + "epoch": 1.1472, + "grad_norm": 7.44310335587528e-10, + "learning_rate": 1.2354986666666669e-05, + "loss": 0.0, + "step": 71700 + }, + { + "epoch": 1.1488, + "grad_norm": 1.0604844780104372e-09, + "learning_rate": 1.2344320000000001e-05, + "loss": 0.0, + "step": 71800 + }, + { + "epoch": 1.1504, + "grad_norm": 1.0349415768828862e-09, + "learning_rate": 1.2333653333333335e-05, + "loss": 0.0, + "step": 71900 + }, + { + "epoch": 1.152, + "grad_norm": 6.777969852045374e-10, + "learning_rate": 1.2322986666666667e-05, + "loss": 0.0, + "step": 72000 + }, + { + "epoch": 1.1536, + "grad_norm": 7.222641928983364e-10, + "learning_rate": 1.2312320000000002e-05, + "loss": 0.0, + "step": 72100 + }, + { + "epoch": 1.1552, + "grad_norm": 7.221346853825139e-10, + "learning_rate": 1.2301653333333334e-05, + "loss": 0.0, + "step": 72200 + }, + { + "epoch": 1.1568, + "grad_norm": 7.315776318073119e-10, + "learning_rate": 1.2291093333333336e-05, + "loss": 0.0, + "step": 72300 + }, + { + "epoch": 1.1584, + "grad_norm": 7.50608741828529e-10, + "learning_rate": 1.2280426666666668e-05, + "loss": 0.0, + "step": 72400 + }, + { + "epoch": 1.16, + "grad_norm": 8.917317440015893e-10, + "learning_rate": 1.2269760000000001e-05, + "loss": 0.0, + "step": 72500 + }, + { + "epoch": 1.1616, + "grad_norm": 8.488655889316021e-10, + "learning_rate": 1.2259093333333333e-05, + "loss": 0.0, + "step": 72600 + }, + { + "epoch": 1.1632, + "grad_norm": 8.317495581167123e-10, + "learning_rate": 1.2248426666666669e-05, + "loss": 0.0, + "step": 72700 + }, + { + "epoch": 1.1648, + "grad_norm": 8.380575677868762e-10, + "learning_rate": 1.223776e-05, + "loss": 0.0, + "step": 72800 + }, + { + "epoch": 1.1663999999999999, + "grad_norm": 7.481774644269024e-10, + "learning_rate": 1.2227093333333336e-05, + "loss": 0.0, + "step": 72900 + }, + { + "epoch": 1.168, + "grad_norm": 7.781525424022107e-10, + "learning_rate": 1.2216426666666668e-05, + "loss": 0.0, + "step": 73000 + }, + { + "epoch": 1.1696, + "grad_norm": 7.969014892417192e-10, + "learning_rate": 1.2205760000000002e-05, + "loss": 0.0, + "step": 73100 + }, + { + "epoch": 1.1712, + "grad_norm": 7.775729504722051e-10, + "learning_rate": 1.2195093333333333e-05, + "loss": 0.0, + "step": 73200 + }, + { + "epoch": 1.1728, + "grad_norm": 6.34098329399535e-10, + "learning_rate": 1.2184426666666667e-05, + "loss": 0.0, + "step": 73300 + }, + { + "epoch": 1.1743999999999999, + "grad_norm": 7.285243519561391e-10, + "learning_rate": 1.217376e-05, + "loss": 0.0, + "step": 73400 + }, + { + "epoch": 1.176, + "grad_norm": 6.910694239081749e-10, + "learning_rate": 1.2163093333333333e-05, + "loss": 0.0, + "step": 73500 + }, + { + "epoch": 1.1776, + "grad_norm": 7.225641196484389e-10, + "learning_rate": 1.2152426666666668e-05, + "loss": 0.0, + "step": 73600 + }, + { + "epoch": 1.1792, + "grad_norm": 7.201360063824325e-10, + "learning_rate": 1.214176e-05, + "loss": 0.0, + "step": 73700 + }, + { + "epoch": 1.1808, + "grad_norm": 8.230751080695597e-10, + "learning_rate": 1.2131093333333335e-05, + "loss": 0.0, + "step": 73800 + }, + { + "epoch": 1.1824, + "grad_norm": 6.787413409092835e-10, + "learning_rate": 1.2120426666666667e-05, + "loss": 0.0, + "step": 73900 + }, + { + "epoch": 1.184, + "grad_norm": 7.84307008228069e-10, + "learning_rate": 1.2109760000000001e-05, + "loss": 0.0, + "step": 74000 + }, + { + "epoch": 1.1856, + "grad_norm": 7.790625367043447e-10, + "learning_rate": 1.2099093333333333e-05, + "loss": 0.0, + "step": 74100 + }, + { + "epoch": 1.1872, + "grad_norm": 6.860920165330242e-10, + "learning_rate": 1.2088426666666668e-05, + "loss": 0.0, + "step": 74200 + }, + { + "epoch": 1.1888, + "grad_norm": 7.330959728157893e-10, + "learning_rate": 1.2077866666666667e-05, + "loss": 0.0, + "step": 74300 + }, + { + "epoch": 1.1904, + "grad_norm": 7.594225803764232e-10, + "learning_rate": 1.2067200000000002e-05, + "loss": 0.0, + "step": 74400 + }, + { + "epoch": 1.192, + "grad_norm": 6.988423728593318e-10, + "learning_rate": 1.2056533333333334e-05, + "loss": 0.0, + "step": 74500 + }, + { + "epoch": 1.1936, + "grad_norm": 7.298672222155744e-10, + "learning_rate": 1.2045866666666668e-05, + "loss": 0.0, + "step": 74600 + }, + { + "epoch": 1.1952, + "grad_norm": 8.189103284372834e-10, + "learning_rate": 1.20352e-05, + "loss": 0.0, + "step": 74700 + }, + { + "epoch": 1.1968, + "grad_norm": 7.069017038396908e-10, + "learning_rate": 1.2024533333333335e-05, + "loss": 0.0, + "step": 74800 + }, + { + "epoch": 1.1984, + "grad_norm": 7.00525581986966e-10, + "learning_rate": 1.2013866666666667e-05, + "loss": 0.0, + "step": 74900 + }, + { + "epoch": 1.2, + "grad_norm": 6.524729645462912e-10, + "learning_rate": 1.2003200000000002e-05, + "loss": 0.0, + "step": 75000 + }, + { + "epoch": 1.2016, + "grad_norm": 8.050649036306368e-10, + "learning_rate": 1.1992533333333334e-05, + "loss": 0.0, + "step": 75100 + }, + { + "epoch": 1.2032, + "grad_norm": 6.366120408607401e-10, + "learning_rate": 1.1981866666666668e-05, + "loss": 0.0, + "step": 75200 + }, + { + "epoch": 1.2048, + "grad_norm": 7.503823118426567e-10, + "learning_rate": 1.19712e-05, + "loss": 0.0, + "step": 75300 + }, + { + "epoch": 1.2064, + "grad_norm": 7.408499369532251e-10, + "learning_rate": 1.1960533333333335e-05, + "loss": 0.0, + "step": 75400 + }, + { + "epoch": 1.208, + "grad_norm": 7.222865638922826e-10, + "learning_rate": 1.1949866666666667e-05, + "loss": 0.0, + "step": 75500 + }, + { + "epoch": 1.2096, + "grad_norm": 6.85863921212615e-10, + "learning_rate": 1.1939200000000003e-05, + "loss": 0.0, + "step": 75600 + }, + { + "epoch": 1.2112, + "grad_norm": 7.474298402421198e-10, + "learning_rate": 1.1928533333333334e-05, + "loss": 0.0, + "step": 75700 + }, + { + "epoch": 1.2128, + "grad_norm": 7.375329791337037e-10, + "learning_rate": 1.1917866666666668e-05, + "loss": 0.0, + "step": 75800 + }, + { + "epoch": 1.2144, + "grad_norm": 6.531271079524004e-10, + "learning_rate": 1.1907200000000002e-05, + "loss": 0.0, + "step": 75900 + }, + { + "epoch": 1.216, + "grad_norm": 6.889024350975603e-10, + "learning_rate": 1.1896533333333334e-05, + "loss": 0.0, + "step": 76000 + }, + { + "epoch": 1.2176, + "grad_norm": 7.948841029836728e-10, + "learning_rate": 1.1885866666666667e-05, + "loss": 0.0, + "step": 76100 + }, + { + "epoch": 1.2192, + "grad_norm": 6.737276292412275e-10, + "learning_rate": 1.18752e-05, + "loss": 0.0, + "step": 76200 + }, + { + "epoch": 1.2208, + "grad_norm": 6.623592785359733e-10, + "learning_rate": 1.1864640000000001e-05, + "loss": 0.0, + "step": 76300 + }, + { + "epoch": 1.2224, + "grad_norm": 7.499975640534728e-10, + "learning_rate": 1.1853973333333335e-05, + "loss": 0.0, + "step": 76400 + }, + { + "epoch": 1.224, + "grad_norm": 6.780030425979078e-10, + "learning_rate": 1.1843306666666667e-05, + "loss": 0.0, + "step": 76500 + }, + { + "epoch": 1.2256, + "grad_norm": 6.722285506022274e-10, + "learning_rate": 1.1832640000000002e-05, + "loss": 0.0, + "step": 76600 + }, + { + "epoch": 1.2272, + "grad_norm": 8.135015994170658e-10, + "learning_rate": 1.1821973333333334e-05, + "loss": 0.0, + "step": 76700 + }, + { + "epoch": 1.2288000000000001, + "grad_norm": 6.711602940079331e-10, + "learning_rate": 1.181130666666667e-05, + "loss": 0.0, + "step": 76800 + }, + { + "epoch": 1.2304, + "grad_norm": 6.749571457298487e-10, + "learning_rate": 1.1800640000000001e-05, + "loss": 0.0, + "step": 76900 + }, + { + "epoch": 1.232, + "grad_norm": 6.809800501272889e-10, + "learning_rate": 1.1789973333333333e-05, + "loss": 0.0, + "step": 77000 + }, + { + "epoch": 1.2336, + "grad_norm": 7.227068388182545e-10, + "learning_rate": 1.1779306666666669e-05, + "loss": 0.0, + "step": 77100 + }, + { + "epoch": 1.2352, + "grad_norm": 6.931459295422826e-10, + "learning_rate": 1.176864e-05, + "loss": 0.0, + "step": 77200 + }, + { + "epoch": 1.2368000000000001, + "grad_norm": 7.349219566243903e-10, + "learning_rate": 1.1757973333333334e-05, + "loss": 0.0, + "step": 77300 + }, + { + "epoch": 1.2384, + "grad_norm": 6.904257165984973e-10, + "learning_rate": 1.1747306666666666e-05, + "loss": 0.0, + "step": 77400 + }, + { + "epoch": 1.24, + "grad_norm": 6.707744359957246e-10, + "learning_rate": 1.1736640000000002e-05, + "loss": 0.0, + "step": 77500 + }, + { + "epoch": 1.2416, + "grad_norm": 7.440013050086236e-10, + "learning_rate": 1.1725973333333333e-05, + "loss": 0.0, + "step": 77600 + }, + { + "epoch": 1.2432, + "grad_norm": 6.905128135947791e-10, + "learning_rate": 1.1715306666666669e-05, + "loss": 0.0, + "step": 77700 + }, + { + "epoch": 1.2448, + "grad_norm": 7.121554457256707e-10, + "learning_rate": 1.170464e-05, + "loss": 0.0, + "step": 77800 + }, + { + "epoch": 1.2464, + "grad_norm": 6.614024883333514e-10, + "learning_rate": 1.1693973333333334e-05, + "loss": 0.0, + "step": 77900 + }, + { + "epoch": 1.248, + "grad_norm": 8.201337386992691e-10, + "learning_rate": 1.1683306666666666e-05, + "loss": 0.0, + "step": 78000 + }, + { + "epoch": 1.2496, + "grad_norm": 6.445476374850045e-10, + "learning_rate": 1.1672640000000002e-05, + "loss": 0.0, + "step": 78100 + }, + { + "epoch": 1.2511999999999999, + "grad_norm": 6.423729326243688e-10, + "learning_rate": 1.1661973333333334e-05, + "loss": 0.0, + "step": 78200 + }, + { + "epoch": 1.2528000000000001, + "grad_norm": 6.967155741222086e-10, + "learning_rate": 1.1651413333333335e-05, + "loss": 0.0, + "step": 78300 + }, + { + "epoch": 1.2544, + "grad_norm": 7.263475931829078e-10, + "learning_rate": 1.1640746666666667e-05, + "loss": 0.0, + "step": 78400 + }, + { + "epoch": 1.256, + "grad_norm": 6.611411973445058e-10, + "learning_rate": 1.1630080000000001e-05, + "loss": 0.0, + "step": 78500 + }, + { + "epoch": 1.2576, + "grad_norm": 7.416991465447609e-10, + "learning_rate": 1.1619413333333333e-05, + "loss": 0.0, + "step": 78600 + }, + { + "epoch": 1.2591999999999999, + "grad_norm": 6.979516409266751e-10, + "learning_rate": 1.1608746666666668e-05, + "loss": 0.0, + "step": 78700 + }, + { + "epoch": 1.2608, + "grad_norm": 6.440111222083544e-10, + "learning_rate": 1.159808e-05, + "loss": 0.0, + "step": 78800 + }, + { + "epoch": 1.2624, + "grad_norm": 6.55300813612314e-10, + "learning_rate": 1.1587413333333336e-05, + "loss": 0.0, + "step": 78900 + }, + { + "epoch": 1.264, + "grad_norm": 8.47833137029852e-10, + "learning_rate": 1.1576746666666668e-05, + "loss": 0.0, + "step": 79000 + }, + { + "epoch": 1.2656, + "grad_norm": 6.960564902236399e-10, + "learning_rate": 1.1566080000000001e-05, + "loss": 0.0, + "step": 79100 + }, + { + "epoch": 1.2671999999999999, + "grad_norm": 6.218321413342665e-10, + "learning_rate": 1.1555413333333333e-05, + "loss": 0.0, + "step": 79200 + }, + { + "epoch": 1.2688, + "grad_norm": 6.057512824675371e-10, + "learning_rate": 1.1544746666666669e-05, + "loss": 0.0, + "step": 79300 + }, + { + "epoch": 1.2704, + "grad_norm": 6.84770296022208e-10, + "learning_rate": 1.153408e-05, + "loss": 0.0, + "step": 79400 + }, + { + "epoch": 1.272, + "grad_norm": 6.928757567692401e-10, + "learning_rate": 1.1523413333333336e-05, + "loss": 0.0, + "step": 79500 + }, + { + "epoch": 1.2736, + "grad_norm": 7.145783964546126e-10, + "learning_rate": 1.1512746666666668e-05, + "loss": 0.0, + "step": 79600 + }, + { + "epoch": 1.2752, + "grad_norm": 7.012357916558187e-10, + "learning_rate": 1.150208e-05, + "loss": 0.0, + "step": 79700 + }, + { + "epoch": 1.2768, + "grad_norm": 5.548985715364552e-10, + "learning_rate": 1.1491413333333335e-05, + "loss": 0.0, + "step": 79800 + }, + { + "epoch": 1.2784, + "grad_norm": 6.490817883175737e-10, + "learning_rate": 1.1480746666666667e-05, + "loss": 0.0, + "step": 79900 + }, + { + "epoch": 1.28, + "grad_norm": 7.258327272552378e-10, + "learning_rate": 1.147008e-05, + "loss": 0.0, + "step": 80000 + }, + { + "epoch": 1.2816, + "grad_norm": 6.322843359996e-10, + "learning_rate": 1.1459413333333333e-05, + "loss": 0.0, + "step": 80100 + }, + { + "epoch": 1.2832, + "grad_norm": 5.73928182756589e-10, + "learning_rate": 1.1448746666666668e-05, + "loss": 0.0, + "step": 80200 + }, + { + "epoch": 1.2848, + "grad_norm": 6.66260102644145e-10, + "learning_rate": 1.1438186666666668e-05, + "loss": 0.0, + "step": 80300 + }, + { + "epoch": 1.2864, + "grad_norm": 6.943345898235975e-10, + "learning_rate": 1.1427520000000002e-05, + "loss": 0.0, + "step": 80400 + }, + { + "epoch": 1.288, + "grad_norm": 6.01619698503697e-10, + "learning_rate": 1.1416853333333335e-05, + "loss": 0.0, + "step": 80500 + }, + { + "epoch": 1.2896, + "grad_norm": 6.199550317553815e-10, + "learning_rate": 1.1406186666666667e-05, + "loss": 0.0, + "step": 80600 + }, + { + "epoch": 1.2912, + "grad_norm": 6.131075647175521e-10, + "learning_rate": 1.139552e-05, + "loss": 0.0, + "step": 80700 + }, + { + "epoch": 1.2928, + "grad_norm": 6.558119047817002e-10, + "learning_rate": 1.1384853333333335e-05, + "loss": 0.0, + "step": 80800 + }, + { + "epoch": 1.2944, + "grad_norm": 7.416850467123481e-10, + "learning_rate": 1.1374186666666667e-05, + "loss": 0.0, + "step": 80900 + }, + { + "epoch": 1.296, + "grad_norm": 6.171292921131055e-10, + "learning_rate": 1.1363520000000002e-05, + "loss": 0.0, + "step": 81000 + }, + { + "epoch": 1.2976, + "grad_norm": 6.382306905194923e-10, + "learning_rate": 1.1352853333333334e-05, + "loss": 0.0, + "step": 81100 + }, + { + "epoch": 1.2992, + "grad_norm": 6.83234524512244e-10, + "learning_rate": 1.1342186666666668e-05, + "loss": 0.0, + "step": 81200 + }, + { + "epoch": 1.3008, + "grad_norm": 6.375938110814161e-10, + "learning_rate": 1.133152e-05, + "loss": 0.0, + "step": 81300 + }, + { + "epoch": 1.3024, + "grad_norm": 6.206507530137628e-10, + "learning_rate": 1.1320853333333335e-05, + "loss": 0.0, + "step": 81400 + }, + { + "epoch": 1.304, + "grad_norm": 6.203613733823943e-10, + "learning_rate": 1.1310186666666667e-05, + "loss": 0.0, + "step": 81500 + }, + { + "epoch": 1.3056, + "grad_norm": 6.634810478800546e-10, + "learning_rate": 1.1299520000000002e-05, + "loss": 0.0, + "step": 81600 + }, + { + "epoch": 1.3072, + "grad_norm": 6.436079447169618e-10, + "learning_rate": 1.1288853333333334e-05, + "loss": 0.0, + "step": 81700 + }, + { + "epoch": 1.3088, + "grad_norm": 6.385461603919396e-10, + "learning_rate": 1.1278186666666668e-05, + "loss": 0.0, + "step": 81800 + }, + { + "epoch": 1.3104, + "grad_norm": 6.053507140002523e-10, + "learning_rate": 1.1267520000000002e-05, + "loss": 0.0, + "step": 81900 + }, + { + "epoch": 1.312, + "grad_norm": 5.554394721940525e-10, + "learning_rate": 1.1256853333333335e-05, + "loss": 0.0, + "step": 82000 + }, + { + "epoch": 1.3136, + "grad_norm": 5.886454101933225e-10, + "learning_rate": 1.1246186666666667e-05, + "loss": 0.0, + "step": 82100 + }, + { + "epoch": 1.3152, + "grad_norm": 6.300750476917472e-10, + "learning_rate": 1.1235520000000003e-05, + "loss": 0.0, + "step": 82200 + }, + { + "epoch": 1.3168, + "grad_norm": 6.563332655140641e-10, + "learning_rate": 1.122496e-05, + "loss": 0.0, + "step": 82300 + }, + { + "epoch": 1.3184, + "grad_norm": 7.078077013389361e-10, + "learning_rate": 1.1214293333333334e-05, + "loss": 0.0, + "step": 82400 + }, + { + "epoch": 1.32, + "grad_norm": 6.116768203057177e-10, + "learning_rate": 1.1203626666666666e-05, + "loss": 0.0, + "step": 82500 + }, + { + "epoch": 1.3216, + "grad_norm": 6.549613074113836e-10, + "learning_rate": 1.1192960000000002e-05, + "loss": 0.0, + "step": 82600 + }, + { + "epoch": 1.3232, + "grad_norm": 6.117500950253429e-10, + "learning_rate": 1.1182293333333334e-05, + "loss": 0.0, + "step": 82700 + }, + { + "epoch": 1.3248, + "grad_norm": 5.881409803620841e-10, + "learning_rate": 1.1171626666666669e-05, + "loss": 0.0, + "step": 82800 + }, + { + "epoch": 1.3264, + "grad_norm": 6.678351205380295e-10, + "learning_rate": 1.1160960000000001e-05, + "loss": 0.0, + "step": 82900 + }, + { + "epoch": 1.328, + "grad_norm": 5.966392935263798e-10, + "learning_rate": 1.1150293333333335e-05, + "loss": 0.0, + "step": 83000 + }, + { + "epoch": 1.3296000000000001, + "grad_norm": 7.432381932126475e-10, + "learning_rate": 1.1139626666666668e-05, + "loss": 0.0, + "step": 83100 + }, + { + "epoch": 1.3312, + "grad_norm": 4.739015291299609e-10, + "learning_rate": 1.1128960000000002e-05, + "loss": 0.0, + "step": 83200 + }, + { + "epoch": 1.3328, + "grad_norm": 6.477304803631512e-10, + "learning_rate": 1.1118293333333334e-05, + "loss": 0.0, + "step": 83300 + }, + { + "epoch": 1.3344, + "grad_norm": 5.787638701626463e-10, + "learning_rate": 1.1107626666666666e-05, + "loss": 0.0, + "step": 83400 + }, + { + "epoch": 1.336, + "grad_norm": 7.410624336401384e-10, + "learning_rate": 1.1096960000000001e-05, + "loss": 0.0, + "step": 83500 + }, + { + "epoch": 1.3376000000000001, + "grad_norm": 6.283489284442112e-10, + "learning_rate": 1.1086293333333333e-05, + "loss": 0.0, + "step": 83600 + }, + { + "epoch": 1.3392, + "grad_norm": 5.612005860022862e-10, + "learning_rate": 1.1075626666666669e-05, + "loss": 0.0, + "step": 83700 + }, + { + "epoch": 1.3408, + "grad_norm": 5.851056861239101e-10, + "learning_rate": 1.106496e-05, + "loss": 0.0, + "step": 83800 + }, + { + "epoch": 1.3424, + "grad_norm": 6.839360744415046e-10, + "learning_rate": 1.1054293333333334e-05, + "loss": 0.0, + "step": 83900 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 6.574785715862674e-10, + "learning_rate": 1.1043626666666666e-05, + "loss": 0.0, + "step": 84000 + }, + { + "epoch": 1.3456000000000001, + "grad_norm": 5.788382551052962e-10, + "learning_rate": 1.1032960000000002e-05, + "loss": 0.0, + "step": 84100 + }, + { + "epoch": 1.3472, + "grad_norm": 6.020297038666911e-10, + "learning_rate": 1.1022293333333333e-05, + "loss": 0.0, + "step": 84200 + }, + { + "epoch": 1.3488, + "grad_norm": 5.63116775431638e-10, + "learning_rate": 1.1011733333333335e-05, + "loss": 0.0, + "step": 84300 + }, + { + "epoch": 1.3504, + "grad_norm": 5.54920609463494e-10, + "learning_rate": 1.1001066666666667e-05, + "loss": 0.0, + "step": 84400 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 5.796143565106604e-10, + "learning_rate": 1.09904e-05, + "loss": 0.0, + "step": 84500 + }, + { + "epoch": 1.3536000000000001, + "grad_norm": 6.275900354957287e-10, + "learning_rate": 1.0979733333333333e-05, + "loss": 0.0, + "step": 84600 + }, + { + "epoch": 1.3552, + "grad_norm": 6.258525364621903e-10, + "learning_rate": 1.0969066666666668e-05, + "loss": 0.0, + "step": 84700 + }, + { + "epoch": 1.3568, + "grad_norm": 5.800698255065129e-10, + "learning_rate": 1.09584e-05, + "loss": 0.0, + "step": 84800 + }, + { + "epoch": 1.3584, + "grad_norm": 5.46154343972205e-10, + "learning_rate": 1.0947733333333335e-05, + "loss": 0.0, + "step": 84900 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 6.077560676942539e-10, + "learning_rate": 1.0937066666666667e-05, + "loss": 0.0, + "step": 85000 + }, + { + "epoch": 1.3616, + "grad_norm": 6.742376101875891e-10, + "learning_rate": 1.0926400000000001e-05, + "loss": 0.0, + "step": 85100 + }, + { + "epoch": 1.3632, + "grad_norm": 5.864929653043305e-10, + "learning_rate": 1.0915733333333333e-05, + "loss": 0.0, + "step": 85200 + }, + { + "epoch": 1.3648, + "grad_norm": 5.370006106453218e-10, + "learning_rate": 1.0905066666666668e-05, + "loss": 0.0, + "step": 85300 + }, + { + "epoch": 1.3664, + "grad_norm": 5.971082517319815e-10, + "learning_rate": 1.08944e-05, + "loss": 0.0, + "step": 85400 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 5.998248009397855e-10, + "learning_rate": 1.0883733333333336e-05, + "loss": 0.0, + "step": 85500 + }, + { + "epoch": 1.3696, + "grad_norm": 6.55318577180708e-10, + "learning_rate": 1.0873066666666668e-05, + "loss": 0.0, + "step": 85600 + }, + { + "epoch": 1.3712, + "grad_norm": 5.878185160845817e-10, + "learning_rate": 1.0862400000000001e-05, + "loss": 0.0, + "step": 85700 + }, + { + "epoch": 1.3728, + "grad_norm": 5.754838272586937e-10, + "learning_rate": 1.0851733333333335e-05, + "loss": 0.0, + "step": 85800 + }, + { + "epoch": 1.3744, + "grad_norm": 5.975157590931701e-10, + "learning_rate": 1.0841066666666669e-05, + "loss": 0.0, + "step": 85900 + }, + { + "epoch": 1.376, + "grad_norm": 5.912444978051212e-10, + "learning_rate": 1.08304e-05, + "loss": 0.0, + "step": 86000 + }, + { + "epoch": 1.3776, + "grad_norm": 6.500145977028637e-10, + "learning_rate": 1.0819733333333332e-05, + "loss": 0.0, + "step": 86100 + }, + { + "epoch": 1.3792, + "grad_norm": 5.478087983235014e-10, + "learning_rate": 1.0809066666666668e-05, + "loss": 0.0, + "step": 86200 + }, + { + "epoch": 1.3808, + "grad_norm": 5.46295730874391e-10, + "learning_rate": 1.0798506666666668e-05, + "loss": 0.0, + "step": 86300 + }, + { + "epoch": 1.3824, + "grad_norm": 6.408277797298467e-10, + "learning_rate": 1.078784e-05, + "loss": 0.0, + "step": 86400 + }, + { + "epoch": 1.384, + "grad_norm": 5.362842947498336e-10, + "learning_rate": 1.0777173333333335e-05, + "loss": 0.0, + "step": 86500 + }, + { + "epoch": 1.3856, + "grad_norm": 5.364217958714335e-10, + "learning_rate": 1.0766506666666667e-05, + "loss": 0.0, + "step": 86600 + }, + { + "epoch": 1.3872, + "grad_norm": 6.637624339056458e-10, + "learning_rate": 1.0755840000000002e-05, + "loss": 0.0, + "step": 86700 + }, + { + "epoch": 1.3888, + "grad_norm": 5.608428166326007e-10, + "learning_rate": 1.0745173333333334e-05, + "loss": 0.0, + "step": 86800 + }, + { + "epoch": 1.3904, + "grad_norm": 6.051981693566688e-10, + "learning_rate": 1.0734506666666668e-05, + "loss": 0.0, + "step": 86900 + }, + { + "epoch": 1.392, + "grad_norm": 5.712154638182199e-10, + "learning_rate": 1.0723840000000002e-05, + "loss": 0.0, + "step": 87000 + }, + { + "epoch": 1.3936, + "grad_norm": 5.517986068070968e-10, + "learning_rate": 1.0713173333333334e-05, + "loss": 0.0, + "step": 87100 + }, + { + "epoch": 1.3952, + "grad_norm": 5.077446796342144e-10, + "learning_rate": 1.0702506666666667e-05, + "loss": 0.0, + "step": 87200 + }, + { + "epoch": 1.3968, + "grad_norm": 5.427657212564441e-10, + "learning_rate": 1.069184e-05, + "loss": 0.0, + "step": 87300 + }, + { + "epoch": 1.3984, + "grad_norm": 5.647943224218466e-10, + "learning_rate": 1.0681173333333335e-05, + "loss": 0.0, + "step": 87400 + }, + { + "epoch": 1.4, + "grad_norm": 5.658243318329426e-10, + "learning_rate": 1.0670506666666667e-05, + "loss": 0.0, + "step": 87500 + }, + { + "epoch": 1.4016, + "grad_norm": 6.193895396577886e-10, + "learning_rate": 1.0659840000000002e-05, + "loss": 0.0, + "step": 87600 + }, + { + "epoch": 1.4032, + "grad_norm": 5.246263978797572e-10, + "learning_rate": 1.0649173333333334e-05, + "loss": 0.0, + "step": 87700 + }, + { + "epoch": 1.4048, + "grad_norm": 6.315946654567028e-10, + "learning_rate": 1.0638506666666668e-05, + "loss": 0.0, + "step": 87800 + }, + { + "epoch": 1.4064, + "grad_norm": 6.285246212378581e-10, + "learning_rate": 1.062784e-05, + "loss": 0.0, + "step": 87900 + }, + { + "epoch": 1.408, + "grad_norm": 5.474711239905616e-10, + "learning_rate": 1.0617173333333335e-05, + "loss": 0.0, + "step": 88000 + }, + { + "epoch": 1.4096, + "grad_norm": 5.513302037130074e-10, + "learning_rate": 1.0606506666666667e-05, + "loss": 0.0, + "step": 88100 + }, + { + "epoch": 1.4112, + "grad_norm": 5.629507970894565e-10, + "learning_rate": 1.0595840000000002e-05, + "loss": 0.0, + "step": 88200 + }, + { + "epoch": 1.4128, + "grad_norm": 5.768469035771773e-10, + "learning_rate": 1.058528e-05, + "loss": 0.0, + "step": 88300 + }, + { + "epoch": 1.4144, + "grad_norm": 6.008518682598663e-10, + "learning_rate": 1.0574613333333334e-05, + "loss": 0.0, + "step": 88400 + }, + { + "epoch": 1.416, + "grad_norm": 5.793592272596015e-10, + "learning_rate": 1.0563946666666666e-05, + "loss": 0.0, + "step": 88500 + }, + { + "epoch": 1.4176, + "grad_norm": 5.425913607304267e-10, + "learning_rate": 1.0553280000000001e-05, + "loss": 0.0, + "step": 88600 + }, + { + "epoch": 1.4192, + "grad_norm": 6.409086594771907e-10, + "learning_rate": 1.0542613333333333e-05, + "loss": 0.0, + "step": 88700 + }, + { + "epoch": 1.4208, + "grad_norm": 5.236285849363753e-10, + "learning_rate": 1.0531946666666669e-05, + "loss": 0.0, + "step": 88800 + }, + { + "epoch": 1.4224, + "grad_norm": 6.056585233338296e-10, + "learning_rate": 1.052128e-05, + "loss": 0.0, + "step": 88900 + }, + { + "epoch": 1.424, + "grad_norm": 5.547549086770687e-10, + "learning_rate": 1.0510613333333334e-05, + "loss": 0.0, + "step": 89000 + }, + { + "epoch": 1.4256, + "grad_norm": 5.975334116392617e-10, + "learning_rate": 1.0499946666666668e-05, + "loss": 0.0, + "step": 89100 + }, + { + "epoch": 1.4272, + "grad_norm": 5.109008216486188e-10, + "learning_rate": 1.0489280000000002e-05, + "loss": 0.0, + "step": 89200 + }, + { + "epoch": 1.4288, + "grad_norm": 5.687548210175919e-10, + "learning_rate": 1.0478613333333334e-05, + "loss": 0.0, + "step": 89300 + }, + { + "epoch": 1.4304000000000001, + "grad_norm": 5.137646974517907e-10, + "learning_rate": 1.0467946666666669e-05, + "loss": 0.0, + "step": 89400 + }, + { + "epoch": 1.432, + "grad_norm": 6.048679335179941e-10, + "learning_rate": 1.0457280000000001e-05, + "loss": 0.0, + "step": 89500 + }, + { + "epoch": 1.4336, + "grad_norm": 5.696781379960214e-10, + "learning_rate": 1.0446613333333335e-05, + "loss": 0.0, + "step": 89600 + }, + { + "epoch": 1.4352, + "grad_norm": 4.831122168980073e-10, + "learning_rate": 1.0435946666666668e-05, + "loss": 0.0, + "step": 89700 + }, + { + "epoch": 1.4368, + "grad_norm": 5.424258819886063e-10, + "learning_rate": 1.042528e-05, + "loss": 0.0, + "step": 89800 + }, + { + "epoch": 1.4384000000000001, + "grad_norm": 5.259140345437174e-10, + "learning_rate": 1.0414613333333334e-05, + "loss": 0.0, + "step": 89900 + }, + { + "epoch": 1.44, + "grad_norm": 5.324803931117117e-10, + "learning_rate": 1.0403946666666666e-05, + "loss": 0.0, + "step": 90000 + }, + { + "epoch": 1.4416, + "grad_norm": 4.962464328350791e-10, + "learning_rate": 1.0393280000000001e-05, + "loss": 0.0, + "step": 90100 + }, + { + "epoch": 1.4432, + "grad_norm": 5.588483009688616e-10, + "learning_rate": 1.0382613333333333e-05, + "loss": 0.0, + "step": 90200 + }, + { + "epoch": 1.4447999999999999, + "grad_norm": 5.986189322015889e-10, + "learning_rate": 1.0372053333333335e-05, + "loss": 0.0, + "step": 90300 + }, + { + "epoch": 1.4464000000000001, + "grad_norm": 5.928699198243237e-10, + "learning_rate": 1.0361386666666668e-05, + "loss": 0.0, + "step": 90400 + }, + { + "epoch": 1.448, + "grad_norm": 5.903031952136928e-10, + "learning_rate": 1.035072e-05, + "loss": 0.0, + "step": 90500 + }, + { + "epoch": 1.4496, + "grad_norm": 5.040313166837507e-10, + "learning_rate": 1.0340053333333336e-05, + "loss": 0.0, + "step": 90600 + }, + { + "epoch": 1.4512, + "grad_norm": 5.496075261568478e-10, + "learning_rate": 1.0329386666666668e-05, + "loss": 0.0, + "step": 90700 + }, + { + "epoch": 1.4527999999999999, + "grad_norm": 5.886685028322347e-10, + "learning_rate": 1.031872e-05, + "loss": 0.0, + "step": 90800 + }, + { + "epoch": 1.4544000000000001, + "grad_norm": 6.315082345942358e-10, + "learning_rate": 1.0308053333333335e-05, + "loss": 0.0, + "step": 90900 + }, + { + "epoch": 1.456, + "grad_norm": 5.297525196290565e-10, + "learning_rate": 1.0297386666666667e-05, + "loss": 0.0, + "step": 91000 + }, + { + "epoch": 1.4576, + "grad_norm": 5.356007859447232e-10, + "learning_rate": 1.028672e-05, + "loss": 0.0, + "step": 91100 + }, + { + "epoch": 1.4592, + "grad_norm": 4.88950879784511e-10, + "learning_rate": 1.0276053333333333e-05, + "loss": 0.0, + "step": 91200 + }, + { + "epoch": 1.4607999999999999, + "grad_norm": 5.3139331823715e-10, + "learning_rate": 1.0265386666666668e-05, + "loss": 0.0, + "step": 91300 + }, + { + "epoch": 1.4624, + "grad_norm": 5.54078782855072e-10, + "learning_rate": 1.025472e-05, + "loss": 0.0, + "step": 91400 + }, + { + "epoch": 1.464, + "grad_norm": 5.137185121739662e-10, + "learning_rate": 1.0244053333333335e-05, + "loss": 0.0, + "step": 91500 + }, + { + "epoch": 1.4656, + "grad_norm": 4.941256848134401e-10, + "learning_rate": 1.0233386666666667e-05, + "loss": 0.0, + "step": 91600 + }, + { + "epoch": 1.4672, + "grad_norm": 4.685933308046231e-10, + "learning_rate": 1.0222720000000001e-05, + "loss": 0.0, + "step": 91700 + }, + { + "epoch": 1.4687999999999999, + "grad_norm": 5.587479923185867e-10, + "learning_rate": 1.0212053333333335e-05, + "loss": 0.0, + "step": 91800 + }, + { + "epoch": 1.4704, + "grad_norm": 5.077032128042447e-10, + "learning_rate": 1.0201386666666668e-05, + "loss": 0.0, + "step": 91900 + }, + { + "epoch": 1.472, + "grad_norm": 5.029731076078292e-10, + "learning_rate": 1.019072e-05, + "loss": 0.0, + "step": 92000 + }, + { + "epoch": 1.4736, + "grad_norm": 5.442807315958476e-10, + "learning_rate": 1.0180053333333336e-05, + "loss": 0.0, + "step": 92100 + }, + { + "epoch": 1.4752, + "grad_norm": 5.390694557405595e-10, + "learning_rate": 1.0169386666666668e-05, + "loss": 0.0, + "step": 92200 + }, + { + "epoch": 1.4768, + "grad_norm": 5.623801979659504e-10, + "learning_rate": 1.0158826666666667e-05, + "loss": 0.0, + "step": 92300 + }, + { + "epoch": 1.4784, + "grad_norm": 6.57076393295597e-10, + "learning_rate": 1.014816e-05, + "loss": 0.0, + "step": 92400 + }, + { + "epoch": 1.48, + "grad_norm": 4.5838538520470706e-10, + "learning_rate": 1.0137493333333335e-05, + "loss": 0.0, + "step": 92500 + }, + { + "epoch": 1.4816, + "grad_norm": 5.495686683509859e-10, + "learning_rate": 1.0126826666666667e-05, + "loss": 0.0, + "step": 92600 + }, + { + "epoch": 1.4832, + "grad_norm": 5.727119334331121e-10, + "learning_rate": 1.0116160000000002e-05, + "loss": 0.0, + "step": 92700 + }, + { + "epoch": 1.4848, + "grad_norm": 5.174423667320127e-10, + "learning_rate": 1.0105493333333334e-05, + "loss": 0.0, + "step": 92800 + }, + { + "epoch": 1.4864, + "grad_norm": 5.335489272617622e-10, + "learning_rate": 1.0094826666666668e-05, + "loss": 0.0, + "step": 92900 + }, + { + "epoch": 1.488, + "grad_norm": 5.264799707305201e-10, + "learning_rate": 1.0084160000000001e-05, + "loss": 0.0, + "step": 93000 + }, + { + "epoch": 1.4896, + "grad_norm": 5.720047213664259e-10, + "learning_rate": 1.0073493333333335e-05, + "loss": 0.0, + "step": 93100 + }, + { + "epoch": 1.4912, + "grad_norm": 5.582779238899604e-10, + "learning_rate": 1.0062826666666667e-05, + "loss": 0.0, + "step": 93200 + }, + { + "epoch": 1.4928, + "grad_norm": 4.6262518815787246e-10, + "learning_rate": 1.0052160000000002e-05, + "loss": 0.0, + "step": 93300 + }, + { + "epoch": 1.4944, + "grad_norm": 4.776294915131984e-10, + "learning_rate": 1.0041493333333334e-05, + "loss": 0.0, + "step": 93400 + }, + { + "epoch": 1.496, + "grad_norm": 4.914520457255378e-10, + "learning_rate": 1.0030826666666666e-05, + "loss": 0.0, + "step": 93500 + }, + { + "epoch": 1.4976, + "grad_norm": 6.19320483785657e-10, + "learning_rate": 1.0020160000000002e-05, + "loss": 0.0, + "step": 93600 + }, + { + "epoch": 1.4992, + "grad_norm": 5.20640253132143e-10, + "learning_rate": 1.0009493333333334e-05, + "loss": 0.0, + "step": 93700 + }, + { + "epoch": 1.5008, + "grad_norm": 6.135625896241947e-10, + "learning_rate": 9.998826666666667e-06, + "loss": 0.0, + "step": 93800 + }, + { + "epoch": 1.5024, + "grad_norm": 5.266881930587886e-10, + "learning_rate": 9.988160000000001e-06, + "loss": 0.0, + "step": 93900 + }, + { + "epoch": 1.504, + "grad_norm": 5.349725107350878e-10, + "learning_rate": 9.977493333333335e-06, + "loss": 0.0, + "step": 94000 + }, + { + "epoch": 1.5056, + "grad_norm": 4.890383098477002e-10, + "learning_rate": 9.966826666666668e-06, + "loss": 0.0, + "step": 94100 + }, + { + "epoch": 1.5072, + "grad_norm": 4.4868195270275635e-10, + "learning_rate": 9.95616e-06, + "loss": 0.0, + "step": 94200 + }, + { + "epoch": 1.5088, + "grad_norm": 5.361253108127073e-10, + "learning_rate": 9.9456e-06, + "loss": 0.0, + "step": 94300 + }, + { + "epoch": 1.5104, + "grad_norm": 5.17853149251124e-10, + "learning_rate": 9.934933333333334e-06, + "loss": 0.0, + "step": 94400 + }, + { + "epoch": 1.512, + "grad_norm": 4.967238287356679e-10, + "learning_rate": 9.924266666666667e-06, + "loss": 0.0, + "step": 94500 + }, + { + "epoch": 1.5135999999999998, + "grad_norm": 4.906704487162017e-10, + "learning_rate": 9.913600000000001e-06, + "loss": 0.0, + "step": 94600 + }, + { + "epoch": 1.5152, + "grad_norm": 5.268001035396708e-10, + "learning_rate": 9.902933333333335e-06, + "loss": 0.0, + "step": 94700 + }, + { + "epoch": 1.5168, + "grad_norm": 5.242197786969882e-10, + "learning_rate": 9.892266666666668e-06, + "loss": 0.0, + "step": 94800 + }, + { + "epoch": 1.5184, + "grad_norm": 5.241659883914451e-10, + "learning_rate": 9.8816e-06, + "loss": 0.0, + "step": 94900 + }, + { + "epoch": 1.52, + "grad_norm": 4.4715769975667286e-10, + "learning_rate": 9.870933333333334e-06, + "loss": 0.0, + "step": 95000 + }, + { + "epoch": 1.5215999999999998, + "grad_norm": 4.530822383941313e-10, + "learning_rate": 9.860266666666668e-06, + "loss": 0.0, + "step": 95100 + }, + { + "epoch": 1.5232, + "grad_norm": 5.462981733650452e-10, + "learning_rate": 9.8496e-06, + "loss": 0.0, + "step": 95200 + }, + { + "epoch": 1.5248, + "grad_norm": 4.974491374376555e-10, + "learning_rate": 9.838933333333333e-06, + "loss": 0.0, + "step": 95300 + }, + { + "epoch": 1.5264, + "grad_norm": 5.55941737090393e-10, + "learning_rate": 9.828266666666667e-06, + "loss": 0.0, + "step": 95400 + }, + { + "epoch": 1.528, + "grad_norm": 4.966964617381109e-10, + "learning_rate": 9.8176e-06, + "loss": 0.0, + "step": 95500 + }, + { + "epoch": 1.5295999999999998, + "grad_norm": 4.89033924466753e-10, + "learning_rate": 9.806933333333334e-06, + "loss": 0.0, + "step": 95600 + }, + { + "epoch": 1.5312000000000001, + "grad_norm": 4.738755499111846e-10, + "learning_rate": 9.796266666666668e-06, + "loss": 0.0, + "step": 95700 + }, + { + "epoch": 1.5328, + "grad_norm": 4.927081520555987e-10, + "learning_rate": 9.7856e-06, + "loss": 0.0, + "step": 95800 + }, + { + "epoch": 1.5344, + "grad_norm": 4.789697527485259e-10, + "learning_rate": 9.774933333333334e-06, + "loss": 0.0, + "step": 95900 + }, + { + "epoch": 1.536, + "grad_norm": 5.042264938914798e-10, + "learning_rate": 9.764266666666667e-06, + "loss": 0.0, + "step": 96000 + }, + { + "epoch": 1.5375999999999999, + "grad_norm": 5.888044496416001e-10, + "learning_rate": 9.753600000000001e-06, + "loss": 0.0, + "step": 96100 + }, + { + "epoch": 1.5392000000000001, + "grad_norm": 4.739236780793021e-10, + "learning_rate": 9.742933333333335e-06, + "loss": 0.0, + "step": 96200 + }, + { + "epoch": 1.5408, + "grad_norm": 4.984360146842448e-10, + "learning_rate": 9.732373333333334e-06, + "loss": 0.0, + "step": 96300 + }, + { + "epoch": 1.5424, + "grad_norm": 4.876881676274536e-10, + "learning_rate": 9.721706666666666e-06, + "loss": 0.0, + "step": 96400 + }, + { + "epoch": 1.544, + "grad_norm": 4.751539162128893e-10, + "learning_rate": 9.71104e-06, + "loss": 0.0, + "step": 96500 + }, + { + "epoch": 1.5455999999999999, + "grad_norm": 5.07874187150037e-10, + "learning_rate": 9.700373333333334e-06, + "loss": 0.0, + "step": 96600 + }, + { + "epoch": 1.5472000000000001, + "grad_norm": 5.160135652104714e-10, + "learning_rate": 9.689706666666667e-06, + "loss": 0.0, + "step": 96700 + }, + { + "epoch": 1.5488, + "grad_norm": 5.204631170485641e-10, + "learning_rate": 9.679040000000001e-06, + "loss": 0.0, + "step": 96800 + }, + { + "epoch": 1.5504, + "grad_norm": 4.644329643088696e-10, + "learning_rate": 9.668373333333335e-06, + "loss": 0.0, + "step": 96900 + }, + { + "epoch": 1.552, + "grad_norm": 4.671064646188938e-10, + "learning_rate": 9.657706666666667e-06, + "loss": 0.0, + "step": 97000 + }, + { + "epoch": 1.5535999999999999, + "grad_norm": 4.2251369070100964e-10, + "learning_rate": 9.64704e-06, + "loss": 0.0, + "step": 97100 + }, + { + "epoch": 1.5552000000000001, + "grad_norm": 4.467473335711958e-10, + "learning_rate": 9.636373333333334e-06, + "loss": 0.0, + "step": 97200 + }, + { + "epoch": 1.5568, + "grad_norm": 4.549756682514783e-10, + "learning_rate": 9.625706666666668e-06, + "loss": 0.0, + "step": 97300 + }, + { + "epoch": 1.5584, + "grad_norm": 4.926519192594014e-10, + "learning_rate": 9.615040000000001e-06, + "loss": 0.0, + "step": 97400 + }, + { + "epoch": 1.56, + "grad_norm": 4.958358723605727e-10, + "learning_rate": 9.604373333333335e-06, + "loss": 0.0, + "step": 97500 + }, + { + "epoch": 1.5615999999999999, + "grad_norm": 4.6558790156581153e-10, + "learning_rate": 9.593706666666667e-06, + "loss": 0.0, + "step": 97600 + }, + { + "epoch": 1.5632000000000001, + "grad_norm": 4.873765835355925e-10, + "learning_rate": 9.58304e-06, + "loss": 0.0, + "step": 97700 + }, + { + "epoch": 1.5648, + "grad_norm": 5.526700763702763e-10, + "learning_rate": 9.572373333333334e-06, + "loss": 0.0, + "step": 97800 + }, + { + "epoch": 1.5664, + "grad_norm": 5.036164818505995e-10, + "learning_rate": 9.561706666666666e-06, + "loss": 0.0, + "step": 97900 + }, + { + "epoch": 1.568, + "grad_norm": 5.022996463210916e-10, + "learning_rate": 9.55104e-06, + "loss": 0.0, + "step": 98000 + }, + { + "epoch": 1.5695999999999999, + "grad_norm": 4.1894715474555255e-10, + "learning_rate": 9.540373333333334e-06, + "loss": 0.0, + "step": 98100 + }, + { + "epoch": 1.5712000000000002, + "grad_norm": 5.156983728937803e-10, + "learning_rate": 9.529706666666667e-06, + "loss": 0.0, + "step": 98200 + }, + { + "epoch": 1.5728, + "grad_norm": 6.390084017482422e-10, + "learning_rate": 9.519146666666667e-06, + "loss": 0.0, + "step": 98300 + }, + { + "epoch": 1.5744, + "grad_norm": 4.4025955103776937e-10, + "learning_rate": 9.50848e-06, + "loss": 0.0, + "step": 98400 + }, + { + "epoch": 1.576, + "grad_norm": 4.516456653114176e-10, + "learning_rate": 9.497813333333334e-06, + "loss": 0.0, + "step": 98500 + }, + { + "epoch": 1.5776, + "grad_norm": 5.295929805804178e-10, + "learning_rate": 9.487146666666668e-06, + "loss": 0.0, + "step": 98600 + }, + { + "epoch": 1.5792000000000002, + "grad_norm": 5.199463637417523e-10, + "learning_rate": 9.476480000000002e-06, + "loss": 0.0, + "step": 98700 + }, + { + "epoch": 1.5808, + "grad_norm": 4.967469213745801e-10, + "learning_rate": 9.465813333333335e-06, + "loss": 0.0, + "step": 98800 + }, + { + "epoch": 1.5824, + "grad_norm": 5.326165064545307e-10, + "learning_rate": 9.455146666666667e-06, + "loss": 0.0, + "step": 98900 + }, + { + "epoch": 1.584, + "grad_norm": 4.468987124806034e-10, + "learning_rate": 9.444480000000001e-06, + "loss": 0.0, + "step": 99000 + }, + { + "epoch": 1.5856, + "grad_norm": 4.5896644818022025e-10, + "learning_rate": 9.433813333333333e-06, + "loss": 0.0, + "step": 99100 + }, + { + "epoch": 1.5872000000000002, + "grad_norm": 4.599170211339043e-10, + "learning_rate": 9.423146666666667e-06, + "loss": 0.0, + "step": 99200 + }, + { + "epoch": 1.5888, + "grad_norm": 6.37258690261433e-10, + "learning_rate": 9.41248e-06, + "loss": 0.0, + "step": 99300 + }, + { + "epoch": 1.5904, + "grad_norm": 4.773172967986739e-10, + "learning_rate": 9.401813333333334e-06, + "loss": 0.0, + "step": 99400 + }, + { + "epoch": 1.592, + "grad_norm": 4.815640664013188e-10, + "learning_rate": 9.391146666666668e-06, + "loss": 0.0, + "step": 99500 + }, + { + "epoch": 1.5936, + "grad_norm": 4.2155792745468545e-10, + "learning_rate": 9.380480000000001e-06, + "loss": 0.0, + "step": 99600 + }, + { + "epoch": 1.5952, + "grad_norm": 4.883138338129811e-10, + "learning_rate": 9.369813333333333e-06, + "loss": 0.0, + "step": 99700 + }, + { + "epoch": 1.5968, + "grad_norm": 4.786478990936871e-10, + "learning_rate": 9.359146666666667e-06, + "loss": 0.0, + "step": 99800 + }, + { + "epoch": 1.5984, + "grad_norm": 4.716769197443682e-10, + "learning_rate": 9.34848e-06, + "loss": 0.0, + "step": 99900 + }, + { + "epoch": 1.6, + "grad_norm": 6.381822292844674e-10, + "learning_rate": 9.337813333333334e-06, + "loss": 0.0, + "step": 100000 + }, + { + "epoch": 1.6016, + "grad_norm": 4.4980219549017875e-10, + "learning_rate": 9.327146666666668e-06, + "loss": 0.0, + "step": 100100 + }, + { + "epoch": 1.6032, + "grad_norm": 4.52530068972834e-10, + "learning_rate": 9.316480000000002e-06, + "loss": 0.0, + "step": 100200 + }, + { + "epoch": 1.6048, + "grad_norm": 5.355089705005867e-10, + "learning_rate": 9.30592e-06, + "loss": 0.0, + "step": 100300 + }, + { + "epoch": 1.6064, + "grad_norm": 4.910692963377983e-10, + "learning_rate": 9.295253333333333e-06, + "loss": 0.0, + "step": 100400 + }, + { + "epoch": 1.608, + "grad_norm": 4.659169716703104e-10, + "learning_rate": 9.284586666666667e-06, + "loss": 0.0, + "step": 100500 + }, + { + "epoch": 1.6096, + "grad_norm": 4.666996789026712e-10, + "learning_rate": 9.27392e-06, + "loss": 0.0, + "step": 100600 + }, + { + "epoch": 1.6112, + "grad_norm": 4.879100456989249e-10, + "learning_rate": 9.263253333333334e-06, + "loss": 0.0, + "step": 100700 + }, + { + "epoch": 1.6128, + "grad_norm": 4.6187625946103594e-10, + "learning_rate": 9.252586666666668e-06, + "loss": 0.0, + "step": 100800 + }, + { + "epoch": 1.6143999999999998, + "grad_norm": 4.967702360580972e-10, + "learning_rate": 9.24192e-06, + "loss": 0.0, + "step": 100900 + }, + { + "epoch": 1.616, + "grad_norm": 4.569091494044386e-10, + "learning_rate": 9.231253333333334e-06, + "loss": 0.0, + "step": 101000 + }, + { + "epoch": 1.6176, + "grad_norm": 4.689266197566155e-10, + "learning_rate": 9.220586666666667e-06, + "loss": 0.0, + "step": 101100 + }, + { + "epoch": 1.6192, + "grad_norm": 4.676980469575653e-10, + "learning_rate": 9.209920000000001e-06, + "loss": 0.0, + "step": 101200 + }, + { + "epoch": 1.6208, + "grad_norm": 4.98105279245209e-10, + "learning_rate": 9.199253333333335e-06, + "loss": 0.0, + "step": 101300 + }, + { + "epoch": 1.6223999999999998, + "grad_norm": 4.5279924254515436e-10, + "learning_rate": 9.188586666666668e-06, + "loss": 0.0, + "step": 101400 + }, + { + "epoch": 1.624, + "grad_norm": 4.5119308289542914e-10, + "learning_rate": 9.177920000000002e-06, + "loss": 0.0, + "step": 101500 + }, + { + "epoch": 1.6256, + "grad_norm": 4.940734488201315e-10, + "learning_rate": 9.167253333333334e-06, + "loss": 0.0, + "step": 101600 + }, + { + "epoch": 1.6272, + "grad_norm": 4.655633656369673e-10, + "learning_rate": 9.156586666666668e-06, + "loss": 0.0, + "step": 101700 + }, + { + "epoch": 1.6288, + "grad_norm": 4.491180205512535e-10, + "learning_rate": 9.14592e-06, + "loss": 0.0, + "step": 101800 + }, + { + "epoch": 1.6303999999999998, + "grad_norm": 5.074501374657814e-10, + "learning_rate": 9.135253333333333e-06, + "loss": 0.0, + "step": 101900 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 4.688566757060642e-10, + "learning_rate": 9.124586666666667e-06, + "loss": 0.0, + "step": 102000 + }, + { + "epoch": 1.6336, + "grad_norm": 4.940789444241034e-10, + "learning_rate": 9.11392e-06, + "loss": 0.0, + "step": 102100 + }, + { + "epoch": 1.6352, + "grad_norm": 4.237742101675934e-10, + "learning_rate": 9.103253333333334e-06, + "loss": 0.0, + "step": 102200 + }, + { + "epoch": 1.6368, + "grad_norm": 4.354671345740968e-10, + "learning_rate": 9.092693333333334e-06, + "loss": 0.0, + "step": 102300 + }, + { + "epoch": 1.6383999999999999, + "grad_norm": 4.2457856674893435e-10, + "learning_rate": 9.082026666666668e-06, + "loss": 0.0, + "step": 102400 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 5.333455344036508e-10, + "learning_rate": 9.071360000000002e-06, + "loss": 0.0, + "step": 102500 + }, + { + "epoch": 1.6416, + "grad_norm": 4.5173134677334303e-10, + "learning_rate": 9.060693333333333e-06, + "loss": 0.0, + "step": 102600 + }, + { + "epoch": 1.6432, + "grad_norm": 4.536357955942094e-10, + "learning_rate": 9.050026666666667e-06, + "loss": 0.0, + "step": 102700 + }, + { + "epoch": 1.6448, + "grad_norm": 4.703466505162623e-10, + "learning_rate": 9.03936e-06, + "loss": 0.0, + "step": 102800 + }, + { + "epoch": 1.6463999999999999, + "grad_norm": 5.340259345842924e-10, + "learning_rate": 9.028693333333334e-06, + "loss": 0.0, + "step": 102900 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 4.893057070631812e-10, + "learning_rate": 9.018026666666666e-06, + "loss": 0.0, + "step": 103000 + }, + { + "epoch": 1.6496, + "grad_norm": 5.063186536702347e-10, + "learning_rate": 9.00736e-06, + "loss": 0.0, + "step": 103100 + }, + { + "epoch": 1.6512, + "grad_norm": 4.451939372707159e-10, + "learning_rate": 8.996693333333334e-06, + "loss": 0.0, + "step": 103200 + }, + { + "epoch": 1.6528, + "grad_norm": 4.6109718820908085e-10, + "learning_rate": 8.986026666666667e-06, + "loss": 0.0, + "step": 103300 + }, + { + "epoch": 1.6543999999999999, + "grad_norm": 4.4266854071217665e-10, + "learning_rate": 8.975360000000001e-06, + "loss": 0.0, + "step": 103400 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 4.788144880585321e-10, + "learning_rate": 8.964693333333335e-06, + "loss": 0.0, + "step": 103500 + }, + { + "epoch": 1.6576, + "grad_norm": 4.82060280582175e-10, + "learning_rate": 8.954026666666667e-06, + "loss": 0.0, + "step": 103600 + }, + { + "epoch": 1.6592, + "grad_norm": 4.389811569804891e-10, + "learning_rate": 8.94336e-06, + "loss": 0.0, + "step": 103700 + }, + { + "epoch": 1.6608, + "grad_norm": 4.343586323951598e-10, + "learning_rate": 8.932693333333334e-06, + "loss": 0.0, + "step": 103800 + }, + { + "epoch": 1.6623999999999999, + "grad_norm": 4.671401598876912e-10, + "learning_rate": 8.922026666666668e-06, + "loss": 0.0, + "step": 103900 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 5.315575757336433e-10, + "learning_rate": 8.911360000000001e-06, + "loss": 0.0, + "step": 104000 + }, + { + "epoch": 1.6656, + "grad_norm": 4.899097794108798e-10, + "learning_rate": 8.900693333333335e-06, + "loss": 0.0, + "step": 104100 + }, + { + "epoch": 1.6672, + "grad_norm": 4.712583656640845e-10, + "learning_rate": 8.890026666666669e-06, + "loss": 0.0, + "step": 104200 + }, + { + "epoch": 1.6688, + "grad_norm": 5.255385571167892e-10, + "learning_rate": 8.879466666666667e-06, + "loss": 0.0, + "step": 104300 + }, + { + "epoch": 1.6703999999999999, + "grad_norm": 5.019102355952043e-10, + "learning_rate": 8.8688e-06, + "loss": 0.0, + "step": 104400 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 4.878926707085895e-10, + "learning_rate": 8.858133333333334e-06, + "loss": 0.0, + "step": 104500 + }, + { + "epoch": 1.6736, + "grad_norm": 5.263302016444982e-10, + "learning_rate": 8.847466666666668e-06, + "loss": 0.0, + "step": 104600 + }, + { + "epoch": 1.6752, + "grad_norm": 4.87433815532512e-10, + "learning_rate": 8.836800000000002e-06, + "loss": 0.0, + "step": 104700 + }, + { + "epoch": 1.6768, + "grad_norm": 5.448867468338392e-10, + "learning_rate": 8.826133333333333e-06, + "loss": 0.0, + "step": 104800 + }, + { + "epoch": 1.6784, + "grad_norm": 4.712887857749593e-10, + "learning_rate": 8.815466666666667e-06, + "loss": 0.0, + "step": 104900 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 4.890989280248448e-10, + "learning_rate": 8.8048e-06, + "loss": 0.0, + "step": 105000 + }, + { + "epoch": 1.6816, + "grad_norm": 4.740015047133284e-10, + "learning_rate": 8.794133333333334e-06, + "loss": 0.0, + "step": 105100 + }, + { + "epoch": 1.6832, + "grad_norm": 4.64401378463819e-10, + "learning_rate": 8.783466666666668e-06, + "loss": 0.0, + "step": 105200 + }, + { + "epoch": 1.6848, + "grad_norm": 4.4849124414270136e-10, + "learning_rate": 8.7728e-06, + "loss": 0.0, + "step": 105300 + }, + { + "epoch": 1.6864, + "grad_norm": 4.824929344948714e-10, + "learning_rate": 8.762133333333334e-06, + "loss": 0.0, + "step": 105400 + }, + { + "epoch": 1.688, + "grad_norm": 4.988812141171195e-10, + "learning_rate": 8.751466666666667e-06, + "loss": 0.0, + "step": 105500 + }, + { + "epoch": 1.6896, + "grad_norm": 4.219902483004745e-10, + "learning_rate": 8.740800000000001e-06, + "loss": 0.0, + "step": 105600 + }, + { + "epoch": 1.6912, + "grad_norm": 4.6039519419061037e-10, + "learning_rate": 8.730133333333333e-06, + "loss": 0.0, + "step": 105700 + }, + { + "epoch": 1.6928, + "grad_norm": 4.4612283311984413e-10, + "learning_rate": 8.719466666666667e-06, + "loss": 0.0, + "step": 105800 + }, + { + "epoch": 1.6944, + "grad_norm": 4.724451385662576e-10, + "learning_rate": 8.7088e-06, + "loss": 0.0, + "step": 105900 + }, + { + "epoch": 1.696, + "grad_norm": 4.354032412390296e-10, + "learning_rate": 8.698133333333334e-06, + "loss": 0.0, + "step": 106000 + }, + { + "epoch": 1.6976, + "grad_norm": 4.1531311723019826e-10, + "learning_rate": 8.687466666666668e-06, + "loss": 0.0, + "step": 106100 + }, + { + "epoch": 1.6992, + "grad_norm": 4.632969285989219e-10, + "learning_rate": 8.676800000000001e-06, + "loss": 0.0, + "step": 106200 + }, + { + "epoch": 1.7008, + "grad_norm": 4.3505521407638525e-10, + "learning_rate": 8.66624e-06, + "loss": 0.0, + "step": 106300 + }, + { + "epoch": 1.7024, + "grad_norm": 4.36348734922376e-10, + "learning_rate": 8.655573333333333e-06, + "loss": 0.0, + "step": 106400 + }, + { + "epoch": 1.704, + "grad_norm": 5.153161786175531e-10, + "learning_rate": 8.644906666666667e-06, + "loss": 0.0, + "step": 106500 + }, + { + "epoch": 1.7056, + "grad_norm": 4.2810929801184727e-10, + "learning_rate": 8.63424e-06, + "loss": 0.0, + "step": 106600 + }, + { + "epoch": 1.7072, + "grad_norm": 4.3347678224670005e-10, + "learning_rate": 8.623573333333334e-06, + "loss": 0.0, + "step": 106700 + }, + { + "epoch": 1.7088, + "grad_norm": 4.5993236996721976e-10, + "learning_rate": 8.612906666666668e-06, + "loss": 0.0, + "step": 106800 + }, + { + "epoch": 1.7104, + "grad_norm": 3.921188651556662e-10, + "learning_rate": 8.60224e-06, + "loss": 0.0, + "step": 106900 + }, + { + "epoch": 1.712, + "grad_norm": 4.702156441993566e-10, + "learning_rate": 8.591573333333333e-06, + "loss": 0.0, + "step": 107000 + }, + { + "epoch": 1.7136, + "grad_norm": 4.634352346322146e-10, + "learning_rate": 8.580906666666667e-06, + "loss": 0.0, + "step": 107100 + }, + { + "epoch": 1.7151999999999998, + "grad_norm": 4.677648268724965e-10, + "learning_rate": 8.57024e-06, + "loss": 0.0, + "step": 107200 + }, + { + "epoch": 1.7168, + "grad_norm": 4.1052947152842023e-10, + "learning_rate": 8.559573333333334e-06, + "loss": 0.0, + "step": 107300 + }, + { + "epoch": 1.7184, + "grad_norm": 4.50171316890291e-10, + "learning_rate": 8.548906666666668e-06, + "loss": 0.0, + "step": 107400 + }, + { + "epoch": 1.72, + "grad_norm": 4.4094466966626555e-10, + "learning_rate": 8.538240000000002e-06, + "loss": 0.0, + "step": 107500 + }, + { + "epoch": 1.7216, + "grad_norm": 4.3990203146826445e-10, + "learning_rate": 8.527573333333334e-06, + "loss": 0.0, + "step": 107600 + }, + { + "epoch": 1.7231999999999998, + "grad_norm": 4.527758445949104e-10, + "learning_rate": 8.516906666666667e-06, + "loss": 0.0, + "step": 107700 + }, + { + "epoch": 1.7248, + "grad_norm": 4.432502143103534e-10, + "learning_rate": 8.506240000000001e-06, + "loss": 0.0, + "step": 107800 + }, + { + "epoch": 1.7264, + "grad_norm": 5.320764384642018e-10, + "learning_rate": 8.495573333333335e-06, + "loss": 0.0, + "step": 107900 + }, + { + "epoch": 1.728, + "grad_norm": 5.419791282434971e-10, + "learning_rate": 8.484906666666667e-06, + "loss": 0.0, + "step": 108000 + }, + { + "epoch": 1.7296, + "grad_norm": 4.636018513526352e-10, + "learning_rate": 8.47424e-06, + "loss": 0.0, + "step": 108100 + }, + { + "epoch": 1.7311999999999999, + "grad_norm": 4.347150417416401e-10, + "learning_rate": 8.463573333333334e-06, + "loss": 0.0, + "step": 108200 + }, + { + "epoch": 1.7328000000000001, + "grad_norm": 4.0812139778800827e-10, + "learning_rate": 8.453013333333334e-06, + "loss": 0.0, + "step": 108300 + }, + { + "epoch": 1.7344, + "grad_norm": 4.330950598152583e-10, + "learning_rate": 8.442346666666668e-06, + "loss": 0.0, + "step": 108400 + }, + { + "epoch": 1.736, + "grad_norm": 4.0077227647650204e-10, + "learning_rate": 8.431680000000001e-06, + "loss": 0.0, + "step": 108500 + }, + { + "epoch": 1.7376, + "grad_norm": 3.9647155003486034e-10, + "learning_rate": 8.421013333333335e-06, + "loss": 0.0, + "step": 108600 + }, + { + "epoch": 1.7391999999999999, + "grad_norm": 4.4827672129876817e-10, + "learning_rate": 8.410346666666669e-06, + "loss": 0.0, + "step": 108700 + }, + { + "epoch": 1.7408000000000001, + "grad_norm": 4.3940090455052427e-10, + "learning_rate": 8.39968e-06, + "loss": 0.0, + "step": 108800 + }, + { + "epoch": 1.7424, + "grad_norm": 4.4715203761924727e-10, + "learning_rate": 8.389013333333334e-06, + "loss": 0.0, + "step": 108900 + }, + { + "epoch": 1.744, + "grad_norm": 5.149586312924725e-10, + "learning_rate": 8.378346666666666e-06, + "loss": 0.0, + "step": 109000 + }, + { + "epoch": 1.7456, + "grad_norm": 3.7759578797036397e-10, + "learning_rate": 8.36768e-06, + "loss": 0.0, + "step": 109100 + }, + { + "epoch": 1.7471999999999999, + "grad_norm": 4.5103748513852793e-10, + "learning_rate": 8.357013333333333e-06, + "loss": 0.0, + "step": 109200 + }, + { + "epoch": 1.7488000000000001, + "grad_norm": 3.922396574207454e-10, + "learning_rate": 8.346346666666667e-06, + "loss": 0.0, + "step": 109300 + }, + { + "epoch": 1.7504, + "grad_norm": 4.3240877545258627e-10, + "learning_rate": 8.33568e-06, + "loss": 0.0, + "step": 109400 + }, + { + "epoch": 1.752, + "grad_norm": 4.870079339802658e-10, + "learning_rate": 8.325013333333334e-06, + "loss": 0.0, + "step": 109500 + }, + { + "epoch": 1.7536, + "grad_norm": 4.3274636651879916e-10, + "learning_rate": 8.314346666666666e-06, + "loss": 0.0, + "step": 109600 + }, + { + "epoch": 1.7551999999999999, + "grad_norm": 4.619736815314468e-10, + "learning_rate": 8.30368e-06, + "loss": 0.0, + "step": 109700 + }, + { + "epoch": 1.7568000000000001, + "grad_norm": 4.66312211067077e-10, + "learning_rate": 8.293013333333334e-06, + "loss": 0.0, + "step": 109800 + }, + { + "epoch": 1.7584, + "grad_norm": 4.596607261486696e-10, + "learning_rate": 8.282346666666667e-06, + "loss": 0.0, + "step": 109900 + }, + { + "epoch": 1.76, + "grad_norm": 4.215601479007347e-10, + "learning_rate": 8.271680000000001e-06, + "loss": 0.0, + "step": 110000 + }, + { + "epoch": 1.7616, + "grad_norm": 4.482559601282077e-10, + "learning_rate": 8.261013333333335e-06, + "loss": 0.0, + "step": 110100 + }, + { + "epoch": 1.7631999999999999, + "grad_norm": 5.197632879649916e-10, + "learning_rate": 8.250346666666668e-06, + "loss": 0.0, + "step": 110200 + }, + { + "epoch": 1.7648000000000001, + "grad_norm": 4.0586969896061476e-10, + "learning_rate": 8.239786666666667e-06, + "loss": 0.0, + "step": 110300 + }, + { + "epoch": 1.7664, + "grad_norm": 4.2740991301748466e-10, + "learning_rate": 8.22912e-06, + "loss": 0.0, + "step": 110400 + }, + { + "epoch": 1.768, + "grad_norm": 4.692780053439094e-10, + "learning_rate": 8.218453333333334e-06, + "loss": 0.0, + "step": 110500 + }, + { + "epoch": 1.7696, + "grad_norm": 4.822203747423259e-10, + "learning_rate": 8.207786666666668e-06, + "loss": 0.0, + "step": 110600 + }, + { + "epoch": 1.7711999999999999, + "grad_norm": 4.1366046699131687e-10, + "learning_rate": 8.197120000000001e-06, + "loss": 0.0, + "step": 110700 + }, + { + "epoch": 1.7728000000000002, + "grad_norm": 4.547510146224454e-10, + "learning_rate": 8.186453333333333e-06, + "loss": 0.0, + "step": 110800 + }, + { + "epoch": 1.7744, + "grad_norm": 4.710006273889178e-10, + "learning_rate": 8.175786666666667e-06, + "loss": 0.0, + "step": 110900 + }, + { + "epoch": 1.776, + "grad_norm": 4.019528043741616e-10, + "learning_rate": 8.16512e-06, + "loss": 0.0, + "step": 111000 + }, + { + "epoch": 1.7776, + "grad_norm": 4.4090189832424187e-10, + "learning_rate": 8.154453333333334e-06, + "loss": 0.0, + "step": 111100 + }, + { + "epoch": 1.7792, + "grad_norm": 3.623143174369403e-10, + "learning_rate": 8.143786666666668e-06, + "loss": 0.0, + "step": 111200 + }, + { + "epoch": 1.7808000000000002, + "grad_norm": 4.729666658320753e-10, + "learning_rate": 8.133120000000002e-06, + "loss": 0.0, + "step": 111300 + }, + { + "epoch": 1.7824, + "grad_norm": 4.4260373144311416e-10, + "learning_rate": 8.122453333333335e-06, + "loss": 0.0, + "step": 111400 + }, + { + "epoch": 1.784, + "grad_norm": 4.167254319398239e-10, + "learning_rate": 8.111786666666667e-06, + "loss": 0.0, + "step": 111500 + }, + { + "epoch": 1.7856, + "grad_norm": 3.742823273533702e-10, + "learning_rate": 8.10112e-06, + "loss": 0.0, + "step": 111600 + }, + { + "epoch": 1.7872, + "grad_norm": 3.949512938916655e-10, + "learning_rate": 8.090453333333333e-06, + "loss": 0.0, + "step": 111700 + }, + { + "epoch": 1.7888, + "grad_norm": 4.0243700039077623e-10, + "learning_rate": 8.079786666666666e-06, + "loss": 0.0, + "step": 111800 + }, + { + "epoch": 1.7904, + "grad_norm": 4.3016451511945775e-10, + "learning_rate": 8.06912e-06, + "loss": 0.0, + "step": 111900 + }, + { + "epoch": 1.792, + "grad_norm": 5.145310288945382e-10, + "learning_rate": 8.058453333333334e-06, + "loss": 0.0, + "step": 112000 + }, + { + "epoch": 1.7936, + "grad_norm": 4.136258835440998e-10, + "learning_rate": 8.047786666666667e-06, + "loss": 0.0, + "step": 112100 + }, + { + "epoch": 1.7952, + "grad_norm": 4.291315636173465e-10, + "learning_rate": 8.037120000000001e-06, + "loss": 0.0, + "step": 112200 + }, + { + "epoch": 1.7968, + "grad_norm": 4.4781267583005047e-10, + "learning_rate": 8.026560000000001e-06, + "loss": 0.0, + "step": 112300 + }, + { + "epoch": 1.7984, + "grad_norm": 4.1648379189851426e-10, + "learning_rate": 8.015893333333335e-06, + "loss": 0.0, + "step": 112400 + }, + { + "epoch": 1.8, + "grad_norm": 3.5812414145297566e-10, + "learning_rate": 8.005226666666668e-06, + "loss": 0.0, + "step": 112500 + }, + { + "epoch": 1.8016, + "grad_norm": 3.9350600555820847e-10, + "learning_rate": 7.994560000000002e-06, + "loss": 0.0, + "step": 112600 + }, + { + "epoch": 1.8032, + "grad_norm": 5.302043804000789e-10, + "learning_rate": 7.983893333333334e-06, + "loss": 0.0, + "step": 112700 + }, + { + "epoch": 1.8048, + "grad_norm": 4.2428871527278034e-10, + "learning_rate": 7.973226666666668e-06, + "loss": 0.0, + "step": 112800 + }, + { + "epoch": 1.8064, + "grad_norm": 4.075805526415621e-10, + "learning_rate": 7.96256e-06, + "loss": 0.0, + "step": 112900 + }, + { + "epoch": 1.808, + "grad_norm": 3.9440761767650656e-10, + "learning_rate": 7.951893333333333e-06, + "loss": 0.0, + "step": 113000 + }, + { + "epoch": 1.8096, + "grad_norm": 4.301925204952539e-10, + "learning_rate": 7.941226666666667e-06, + "loss": 0.0, + "step": 113100 + }, + { + "epoch": 1.8112, + "grad_norm": 4.331336123097884e-10, + "learning_rate": 7.93056e-06, + "loss": 0.0, + "step": 113200 + }, + { + "epoch": 1.8128, + "grad_norm": 4.014021059983719e-10, + "learning_rate": 7.919893333333334e-06, + "loss": 0.0, + "step": 113300 + }, + { + "epoch": 1.8144, + "grad_norm": 4.0218645080969395e-10, + "learning_rate": 7.909226666666668e-06, + "loss": 0.0, + "step": 113400 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 3.9455977374203144e-10, + "learning_rate": 7.898560000000002e-06, + "loss": 0.0, + "step": 113500 + }, + { + "epoch": 1.8176, + "grad_norm": 4.237443729238066e-10, + "learning_rate": 7.887893333333333e-06, + "loss": 0.0, + "step": 113600 + }, + { + "epoch": 1.8192, + "grad_norm": 4.090339178475233e-10, + "learning_rate": 7.877226666666667e-06, + "loss": 0.0, + "step": 113700 + }, + { + "epoch": 1.8208, + "grad_norm": 4.000908215839871e-10, + "learning_rate": 7.86656e-06, + "loss": 0.0, + "step": 113800 + }, + { + "epoch": 1.8224, + "grad_norm": 5.131250979673041e-10, + "learning_rate": 7.855893333333334e-06, + "loss": 0.0, + "step": 113900 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 4.795586705519383e-10, + "learning_rate": 7.845226666666668e-06, + "loss": 0.0, + "step": 114000 + }, + { + "epoch": 1.8256000000000001, + "grad_norm": 4.0907541243306866e-10, + "learning_rate": 7.834560000000002e-06, + "loss": 0.0, + "step": 114100 + }, + { + "epoch": 1.8272, + "grad_norm": 3.9622685688023296e-10, + "learning_rate": 7.823893333333334e-06, + "loss": 0.0, + "step": 114200 + }, + { + "epoch": 1.8288, + "grad_norm": 4.1976641607099907e-10, + "learning_rate": 7.813333333333334e-06, + "loss": 0.0, + "step": 114300 + }, + { + "epoch": 1.8304, + "grad_norm": 4.1367503866851507e-10, + "learning_rate": 7.802666666666667e-06, + "loss": 0.0, + "step": 114400 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 4.634559958027751e-10, + "learning_rate": 7.792000000000001e-06, + "loss": 0.0, + "step": 114500 + }, + { + "epoch": 1.8336000000000001, + "grad_norm": 3.870982423492819e-10, + "learning_rate": 7.781333333333335e-06, + "loss": 0.0, + "step": 114600 + }, + { + "epoch": 1.8352, + "grad_norm": 4.067195191748141e-10, + "learning_rate": 7.770666666666668e-06, + "loss": 0.0, + "step": 114700 + }, + { + "epoch": 1.8368, + "grad_norm": 4.756415816764559e-10, + "learning_rate": 7.76e-06, + "loss": 0.0, + "step": 114800 + }, + { + "epoch": 1.8384, + "grad_norm": 3.771707113298106e-10, + "learning_rate": 7.749333333333334e-06, + "loss": 0.0, + "step": 114900 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 4.661844243969426e-10, + "learning_rate": 7.738666666666668e-06, + "loss": 0.0, + "step": 115000 + }, + { + "epoch": 1.8416000000000001, + "grad_norm": 3.889114308375241e-10, + "learning_rate": 7.728000000000001e-06, + "loss": 0.0, + "step": 115100 + }, + { + "epoch": 1.8432, + "grad_norm": 4.98358521117126e-10, + "learning_rate": 7.717333333333335e-06, + "loss": 0.0, + "step": 115200 + }, + { + "epoch": 1.8448, + "grad_norm": 4.00487337737232e-10, + "learning_rate": 7.706666666666669e-06, + "loss": 0.0, + "step": 115300 + }, + { + "epoch": 1.8464, + "grad_norm": 4.590608726484646e-10, + "learning_rate": 7.696e-06, + "loss": 0.0, + "step": 115400 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 4.706336431681279e-10, + "learning_rate": 7.685333333333334e-06, + "loss": 0.0, + "step": 115500 + }, + { + "epoch": 1.8496000000000001, + "grad_norm": 4.2912273734430073e-10, + "learning_rate": 7.674666666666666e-06, + "loss": 0.0, + "step": 115600 + }, + { + "epoch": 1.8512, + "grad_norm": 4.348189308611694e-10, + "learning_rate": 7.664e-06, + "loss": 0.0, + "step": 115700 + }, + { + "epoch": 1.8528, + "grad_norm": 4.2325393190267846e-10, + "learning_rate": 7.653333333333333e-06, + "loss": 0.0, + "step": 115800 + }, + { + "epoch": 1.8544, + "grad_norm": 3.974467699396911e-10, + "learning_rate": 7.642666666666667e-06, + "loss": 0.0, + "step": 115900 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 3.9203501556173137e-10, + "learning_rate": 7.632e-06, + "loss": 0.0, + "step": 116000 + }, + { + "epoch": 1.8576000000000001, + "grad_norm": 3.9661945949731603e-10, + "learning_rate": 7.621333333333334e-06, + "loss": 0.0, + "step": 116100 + }, + { + "epoch": 1.8592, + "grad_norm": 3.812622439980373e-10, + "learning_rate": 7.610666666666667e-06, + "loss": 0.0, + "step": 116200 + }, + { + "epoch": 1.8608, + "grad_norm": 3.698427120113479e-10, + "learning_rate": 7.600106666666667e-06, + "loss": 0.0, + "step": 116300 + }, + { + "epoch": 1.8624, + "grad_norm": 4.232131312065235e-10, + "learning_rate": 7.58944e-06, + "loss": 0.0, + "step": 116400 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 4.4403153376393334e-10, + "learning_rate": 7.578773333333334e-06, + "loss": 0.0, + "step": 116500 + }, + { + "epoch": 1.8656000000000001, + "grad_norm": 4.1083020319021557e-10, + "learning_rate": 7.568106666666667e-06, + "loss": 0.0, + "step": 116600 + }, + { + "epoch": 1.8672, + "grad_norm": 3.7283290343914643e-10, + "learning_rate": 7.55744e-06, + "loss": 0.0, + "step": 116700 + }, + { + "epoch": 1.8688, + "grad_norm": 3.569435857997405e-10, + "learning_rate": 7.546773333333334e-06, + "loss": 0.0, + "step": 116800 + }, + { + "epoch": 1.8704, + "grad_norm": 3.854363495037205e-10, + "learning_rate": 7.536106666666667e-06, + "loss": 0.0, + "step": 116900 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 4.250739205069465e-10, + "learning_rate": 7.52544e-06, + "loss": 0.0, + "step": 117000 + }, + { + "epoch": 1.8736000000000002, + "grad_norm": 3.892854649745203e-10, + "learning_rate": 7.514773333333334e-06, + "loss": 0.0, + "step": 117100 + }, + { + "epoch": 1.8752, + "grad_norm": 3.700696971087325e-10, + "learning_rate": 7.5041066666666676e-06, + "loss": 0.0, + "step": 117200 + }, + { + "epoch": 1.8768, + "grad_norm": 3.9235820148419975e-10, + "learning_rate": 7.49344e-06, + "loss": 0.0, + "step": 117300 + }, + { + "epoch": 1.8784, + "grad_norm": 4.3322692655500816e-10, + "learning_rate": 7.482773333333334e-06, + "loss": 0.0, + "step": 117400 + }, + { + "epoch": 1.88, + "grad_norm": 3.9536091067660095e-10, + "learning_rate": 7.472106666666668e-06, + "loss": 0.0, + "step": 117500 + }, + { + "epoch": 1.8816000000000002, + "grad_norm": 4.2368120123370545e-10, + "learning_rate": 7.4614400000000005e-06, + "loss": 0.0, + "step": 117600 + }, + { + "epoch": 1.8832, + "grad_norm": 3.6490577226544474e-10, + "learning_rate": 7.450773333333334e-06, + "loss": 0.0, + "step": 117700 + }, + { + "epoch": 1.8848, + "grad_norm": 4.5185730157548676e-10, + "learning_rate": 7.440106666666668e-06, + "loss": 0.0, + "step": 117800 + }, + { + "epoch": 1.8864, + "grad_norm": 4.394575814359314e-10, + "learning_rate": 7.4294400000000015e-06, + "loss": 0.0, + "step": 117900 + }, + { + "epoch": 1.888, + "grad_norm": 3.9389899675335016e-10, + "learning_rate": 7.418773333333334e-06, + "loss": 0.0, + "step": 118000 + }, + { + "epoch": 1.8896, + "grad_norm": 3.721323804661836e-10, + "learning_rate": 7.408106666666667e-06, + "loss": 0.0, + "step": 118100 + }, + { + "epoch": 1.8912, + "grad_norm": 3.776292334389808e-10, + "learning_rate": 7.39744e-06, + "loss": 0.0, + "step": 118200 + }, + { + "epoch": 1.8928, + "grad_norm": 5.135606384598645e-10, + "learning_rate": 7.386880000000001e-06, + "loss": 0.0, + "step": 118300 + }, + { + "epoch": 1.8944, + "grad_norm": 3.89065391015464e-10, + "learning_rate": 7.376213333333334e-06, + "loss": 0.0, + "step": 118400 + }, + { + "epoch": 1.896, + "grad_norm": 4.307231238342979e-10, + "learning_rate": 7.365546666666667e-06, + "loss": 0.0, + "step": 118500 + }, + { + "epoch": 1.8976, + "grad_norm": 3.7099379124327925e-10, + "learning_rate": 7.354880000000001e-06, + "loss": 0.0, + "step": 118600 + }, + { + "epoch": 1.8992, + "grad_norm": 3.781083501852578e-10, + "learning_rate": 7.3442133333333345e-06, + "loss": 0.0, + "step": 118700 + }, + { + "epoch": 1.9008, + "grad_norm": 3.7049530110522255e-10, + "learning_rate": 7.333546666666667e-06, + "loss": 0.0, + "step": 118800 + }, + { + "epoch": 1.9024, + "grad_norm": 4.3801351434780145e-10, + "learning_rate": 7.322880000000001e-06, + "loss": 0.0, + "step": 118900 + }, + { + "epoch": 1.904, + "grad_norm": 3.7083930370940266e-10, + "learning_rate": 7.312213333333334e-06, + "loss": 0.0, + "step": 119000 + }, + { + "epoch": 1.9056, + "grad_norm": 3.9448730393409903e-10, + "learning_rate": 7.3015466666666666e-06, + "loss": 0.0, + "step": 119100 + }, + { + "epoch": 1.9072, + "grad_norm": 3.2575211972307727e-10, + "learning_rate": 7.29088e-06, + "loss": 0.0, + "step": 119200 + }, + { + "epoch": 1.9088, + "grad_norm": 4.2201819816511943e-10, + "learning_rate": 7.280213333333334e-06, + "loss": 0.0, + "step": 119300 + }, + { + "epoch": 1.9104, + "grad_norm": 3.909043089223019e-10, + "learning_rate": 7.269546666666667e-06, + "loss": 0.0, + "step": 119400 + }, + { + "epoch": 1.912, + "grad_norm": 4.1434686237629137e-10, + "learning_rate": 7.25888e-06, + "loss": 0.0, + "step": 119500 + }, + { + "epoch": 1.9136, + "grad_norm": 3.6153977034381057e-10, + "learning_rate": 7.248213333333334e-06, + "loss": 0.0, + "step": 119600 + }, + { + "epoch": 1.9152, + "grad_norm": 3.851917951269712e-10, + "learning_rate": 7.237546666666667e-06, + "loss": 0.0, + "step": 119700 + }, + { + "epoch": 1.9167999999999998, + "grad_norm": 3.6602923469963855e-10, + "learning_rate": 7.2268800000000005e-06, + "loss": 0.0, + "step": 119800 + }, + { + "epoch": 1.9184, + "grad_norm": 3.5369218664982327e-10, + "learning_rate": 7.216213333333334e-06, + "loss": 0.0, + "step": 119900 + }, + { + "epoch": 1.92, + "grad_norm": 3.881550636464226e-10, + "learning_rate": 7.205546666666667e-06, + "loss": 0.0, + "step": 120000 + }, + { + "epoch": 1.9216, + "grad_norm": 3.5312691659683537e-10, + "learning_rate": 7.194880000000001e-06, + "loss": 0.0, + "step": 120100 + }, + { + "epoch": 1.9232, + "grad_norm": 4.049090229774066e-10, + "learning_rate": 7.184213333333334e-06, + "loss": 0.0, + "step": 120200 + }, + { + "epoch": 1.9247999999999998, + "grad_norm": 3.724604513699603e-10, + "learning_rate": 7.173653333333333e-06, + "loss": 0.0, + "step": 120300 + }, + { + "epoch": 1.9264000000000001, + "grad_norm": 4.271837328317929e-10, + "learning_rate": 7.162986666666667e-06, + "loss": 0.0, + "step": 120400 + }, + { + "epoch": 1.928, + "grad_norm": 3.5024760869362126e-10, + "learning_rate": 7.152320000000001e-06, + "loss": 0.0, + "step": 120500 + }, + { + "epoch": 1.9296, + "grad_norm": 3.967563222406767e-10, + "learning_rate": 7.1416533333333335e-06, + "loss": 0.0, + "step": 120600 + }, + { + "epoch": 1.9312, + "grad_norm": 3.7704683819583806e-10, + "learning_rate": 7.130986666666667e-06, + "loss": 0.0, + "step": 120700 + }, + { + "epoch": 1.9327999999999999, + "grad_norm": 4.5326434272574545e-10, + "learning_rate": 7.120320000000001e-06, + "loss": 0.0, + "step": 120800 + }, + { + "epoch": 1.9344000000000001, + "grad_norm": 4.3631270818522694e-10, + "learning_rate": 7.109653333333334e-06, + "loss": 0.0, + "step": 120900 + }, + { + "epoch": 1.936, + "grad_norm": 3.850170182673196e-10, + "learning_rate": 7.098986666666667e-06, + "loss": 0.0, + "step": 121000 + }, + { + "epoch": 1.9376, + "grad_norm": 3.7997033297543226e-10, + "learning_rate": 7.088320000000001e-06, + "loss": 0.0, + "step": 121100 + }, + { + "epoch": 1.9392, + "grad_norm": 3.596896946955752e-10, + "learning_rate": 7.077653333333334e-06, + "loss": 0.0, + "step": 121200 + }, + { + "epoch": 1.9407999999999999, + "grad_norm": 4.466108038947425e-10, + "learning_rate": 7.066986666666667e-06, + "loss": 0.0, + "step": 121300 + }, + { + "epoch": 1.9424000000000001, + "grad_norm": 3.7888384096795846e-10, + "learning_rate": 7.056320000000001e-06, + "loss": 0.0, + "step": 121400 + }, + { + "epoch": 1.944, + "grad_norm": 4.121096519593692e-10, + "learning_rate": 7.045653333333335e-06, + "loss": 0.0, + "step": 121500 + }, + { + "epoch": 1.9456, + "grad_norm": 3.6524303026475025e-10, + "learning_rate": 7.0349866666666676e-06, + "loss": 0.0, + "step": 121600 + }, + { + "epoch": 1.9472, + "grad_norm": 3.782101298810403e-10, + "learning_rate": 7.02432e-06, + "loss": 0.0, + "step": 121700 + }, + { + "epoch": 1.9487999999999999, + "grad_norm": 3.848371066261791e-10, + "learning_rate": 7.013653333333333e-06, + "loss": 0.0, + "step": 121800 + }, + { + "epoch": 1.9504000000000001, + "grad_norm": 4.2844633396654785e-10, + "learning_rate": 7.002986666666667e-06, + "loss": 0.0, + "step": 121900 + }, + { + "epoch": 1.952, + "grad_norm": 3.7923861273547743e-10, + "learning_rate": 6.9923200000000005e-06, + "loss": 0.0, + "step": 122000 + }, + { + "epoch": 1.9536, + "grad_norm": 3.8374092792281544e-10, + "learning_rate": 6.981653333333333e-06, + "loss": 0.0, + "step": 122100 + }, + { + "epoch": 1.9552, + "grad_norm": 3.8730768592287745e-10, + "learning_rate": 6.970986666666667e-06, + "loss": 0.0, + "step": 122200 + }, + { + "epoch": 1.9567999999999999, + "grad_norm": 3.046911334347868e-10, + "learning_rate": 6.960426666666668e-06, + "loss": 0.0, + "step": 122300 + }, + { + "epoch": 1.9584000000000001, + "grad_norm": 4.0943107237900733e-10, + "learning_rate": 6.949760000000001e-06, + "loss": 0.0, + "step": 122400 + }, + { + "epoch": 1.96, + "grad_norm": 3.87526372103153e-10, + "learning_rate": 6.939093333333334e-06, + "loss": 0.0, + "step": 122500 + }, + { + "epoch": 1.9616, + "grad_norm": 3.5078512317099353e-10, + "learning_rate": 6.928426666666668e-06, + "loss": 0.0, + "step": 122600 + }, + { + "epoch": 1.9632, + "grad_norm": 3.851710339564107e-10, + "learning_rate": 6.91776e-06, + "loss": 0.0, + "step": 122700 + }, + { + "epoch": 1.9647999999999999, + "grad_norm": 4.2831735380666203e-10, + "learning_rate": 6.9070933333333335e-06, + "loss": 0.0, + "step": 122800 + }, + { + "epoch": 1.9664000000000001, + "grad_norm": 4.133291209296175e-10, + "learning_rate": 6.896426666666667e-06, + "loss": 0.0, + "step": 122900 + }, + { + "epoch": 1.968, + "grad_norm": 3.5069580572866244e-10, + "learning_rate": 6.88576e-06, + "loss": 0.0, + "step": 123000 + }, + { + "epoch": 1.9696, + "grad_norm": 4.440373624348126e-10, + "learning_rate": 6.875093333333334e-06, + "loss": 0.0, + "step": 123100 + }, + { + "epoch": 1.9712, + "grad_norm": 4.2887132734037436e-10, + "learning_rate": 6.864426666666667e-06, + "loss": 0.0, + "step": 123200 + }, + { + "epoch": 1.9727999999999999, + "grad_norm": 3.9255546036010003e-10, + "learning_rate": 6.85376e-06, + "loss": 0.0, + "step": 123300 + }, + { + "epoch": 1.9744000000000002, + "grad_norm": 3.361030898041406e-10, + "learning_rate": 6.843200000000001e-06, + "loss": 0.0012, + "step": 123400 + }, + { + "epoch": 1.976, + "grad_norm": 4.0181064031585834e-10, + "learning_rate": 6.8325333333333345e-06, + "loss": 0.0, + "step": 123500 + }, + { + "epoch": 1.9776, + "grad_norm": 3.394372005693924e-10, + "learning_rate": 6.821866666666668e-06, + "loss": 0.0, + "step": 123600 + }, + { + "epoch": 1.9792, + "grad_norm": 3.51736029191585e-10, + "learning_rate": 6.8112e-06, + "loss": 0.0, + "step": 123700 + }, + { + "epoch": 1.9808, + "grad_norm": 4.138572817780073e-10, + "learning_rate": 6.800533333333334e-06, + "loss": 0.0, + "step": 123800 + }, + { + "epoch": 1.9824000000000002, + "grad_norm": 3.4377134472407533e-10, + "learning_rate": 6.789866666666667e-06, + "loss": 0.0, + "step": 123900 + }, + { + "epoch": 1.984, + "grad_norm": 3.4477956600831305e-10, + "learning_rate": 6.7792e-06, + "loss": 0.0, + "step": 124000 + }, + { + "epoch": 1.9856, + "grad_norm": 3.550735816482131e-10, + "learning_rate": 6.768533333333334e-06, + "loss": 0.0, + "step": 124100 + }, + { + "epoch": 1.9872, + "grad_norm": 3.8030351090512227e-10, + "learning_rate": 6.757866666666667e-06, + "loss": 0.0, + "step": 124200 + }, + { + "epoch": 1.9888, + "grad_norm": 3.70059261012301e-10, + "learning_rate": 6.7472e-06, + "loss": 0.0, + "step": 124300 + }, + { + "epoch": 1.9904, + "grad_norm": 4.0140915591457826e-10, + "learning_rate": 6.736533333333334e-06, + "loss": 0.0, + "step": 124400 + }, + { + "epoch": 1.992, + "grad_norm": 3.9125461204214673e-10, + "learning_rate": 6.725866666666667e-06, + "loss": 0.0, + "step": 124500 + }, + { + "epoch": 1.9936, + "grad_norm": 3.850074148381566e-10, + "learning_rate": 6.7152000000000005e-06, + "loss": 0.0, + "step": 124600 + }, + { + "epoch": 1.9952, + "grad_norm": 3.167325290931444e-10, + "learning_rate": 6.704533333333334e-06, + "loss": 0.0, + "step": 124700 + }, + { + "epoch": 1.9968, + "grad_norm": 3.8711692185167124e-10, + "learning_rate": 6.693866666666667e-06, + "loss": 0.0, + "step": 124800 + }, + { + "epoch": 1.9984, + "grad_norm": 4.977473988532211e-10, + "learning_rate": 6.683200000000001e-06, + "loss": 0.0, + "step": 124900 + }, + { + "epoch": 2.0, + "grad_norm": 4.150200183516972e-10, + "learning_rate": 6.672533333333334e-06, + "loss": 0.0, + "step": 125000 + }, + { + "epoch": 2.0, + "eval_accuracy": 1.0, + "eval_f1": 1.0, + "eval_loss": 0.0, + "eval_precision": 1.0, + "eval_recall": 1.0, + "eval_runtime": 8.0963, + "eval_samples_per_second": 617.568, + "eval_steps_per_second": 19.392, + "step": 125000 + }, + { + "epoch": 2.0016, + "grad_norm": 3.991003638681434e-10, + "learning_rate": 6.661866666666668e-06, + "loss": 0.0, + "step": 125100 + }, + { + "epoch": 2.0032, + "grad_norm": 3.1487351614956083e-10, + "learning_rate": 6.651200000000001e-06, + "loss": 0.0, + "step": 125200 + }, + { + "epoch": 2.0048, + "grad_norm": 4.1273645612349696e-10, + "learning_rate": 6.6405333333333345e-06, + "loss": 0.0, + "step": 125300 + }, + { + "epoch": 2.0064, + "grad_norm": 3.750386945444717e-10, + "learning_rate": 6.6298666666666664e-06, + "loss": 0.0, + "step": 125400 + }, + { + "epoch": 2.008, + "grad_norm": 4.321738800161512e-10, + "learning_rate": 6.6192e-06, + "loss": 0.0, + "step": 125500 + }, + { + "epoch": 2.0096, + "grad_norm": 4.4668596599350963e-10, + "learning_rate": 6.608533333333334e-06, + "loss": 0.0, + "step": 125600 + }, + { + "epoch": 2.0112, + "grad_norm": 7.448987844327348e-07, + "learning_rate": 6.5978666666666666e-06, + "loss": 0.0, + "step": 125700 + }, + { + "epoch": 2.0128, + "grad_norm": 4.136745113125784e-10, + "learning_rate": 6.5872e-06, + "loss": 0.0, + "step": 125800 + }, + { + "epoch": 2.0144, + "grad_norm": 3.8429967541553367e-10, + "learning_rate": 6.576533333333334e-06, + "loss": 0.0, + "step": 125900 + }, + { + "epoch": 2.016, + "grad_norm": 3.879069843115701e-10, + "learning_rate": 6.565866666666667e-06, + "loss": 0.0, + "step": 126000 + }, + { + "epoch": 2.0176, + "grad_norm": 4.6280776433427206e-10, + "learning_rate": 6.5552e-06, + "loss": 0.0, + "step": 126100 + }, + { + "epoch": 2.0192, + "grad_norm": 3.790135427728103e-10, + "learning_rate": 6.544533333333334e-06, + "loss": 0.0, + "step": 126200 + }, + { + "epoch": 2.0208, + "grad_norm": 7.234312038306712e-10, + "learning_rate": 6.533866666666667e-06, + "loss": 0.0, + "step": 126300 + }, + { + "epoch": 2.0224, + "grad_norm": 3.8614270114756266e-10, + "learning_rate": 6.5232000000000005e-06, + "loss": 0.0, + "step": 126400 + }, + { + "epoch": 2.024, + "grad_norm": 3.2542066263907543e-10, + "learning_rate": 6.512533333333334e-06, + "loss": 0.0, + "step": 126500 + }, + { + "epoch": 2.0256, + "grad_norm": 3.9041017640961684e-10, + "learning_rate": 6.501866666666668e-06, + "loss": 0.0, + "step": 126600 + }, + { + "epoch": 2.0272, + "grad_norm": 3.871179210523934e-10, + "learning_rate": 6.491200000000001e-06, + "loss": 0.0, + "step": 126700 + }, + { + "epoch": 2.0288, + "grad_norm": 3.9133457585549536e-10, + "learning_rate": 6.480533333333334e-06, + "loss": 0.0, + "step": 126800 + }, + { + "epoch": 2.0304, + "grad_norm": 3.894175260032995e-10, + "learning_rate": 6.469866666666668e-06, + "loss": 0.0, + "step": 126900 + }, + { + "epoch": 2.032, + "grad_norm": 3.497703515709105e-10, + "learning_rate": 6.459200000000001e-06, + "loss": 0.0, + "step": 127000 + }, + { + "epoch": 2.0336, + "grad_norm": 4.0571357384777684e-10, + "learning_rate": 6.448533333333334e-06, + "loss": 0.0, + "step": 127100 + }, + { + "epoch": 2.0352, + "grad_norm": 3.678700954967695e-10, + "learning_rate": 6.437866666666666e-06, + "loss": 0.0, + "step": 127200 + }, + { + "epoch": 2.0368, + "grad_norm": 3.897554778919954e-10, + "learning_rate": 6.4272e-06, + "loss": 0.0, + "step": 127300 + }, + { + "epoch": 2.0384, + "grad_norm": 3.3333188986794937e-10, + "learning_rate": 6.416640000000001e-06, + "loss": 0.0, + "step": 127400 + }, + { + "epoch": 2.04, + "grad_norm": 3.4666983173003985e-10, + "learning_rate": 6.4059733333333345e-06, + "loss": 0.0, + "step": 127500 + }, + { + "epoch": 2.0416, + "grad_norm": 3.371311285693679e-10, + "learning_rate": 6.395306666666667e-06, + "loss": 0.0, + "step": 127600 + }, + { + "epoch": 2.0432, + "grad_norm": 3.766844614006004e-10, + "learning_rate": 6.384640000000001e-06, + "loss": 0.0, + "step": 127700 + }, + { + "epoch": 2.0448, + "grad_norm": 3.6131420078078236e-10, + "learning_rate": 6.373973333333335e-06, + "loss": 0.0, + "step": 127800 + }, + { + "epoch": 2.0464, + "grad_norm": 4.013271381886341e-10, + "learning_rate": 6.363306666666667e-06, + "loss": 0.0, + "step": 127900 + }, + { + "epoch": 2.048, + "grad_norm": 3.822734351288659e-10, + "learning_rate": 6.352640000000001e-06, + "loss": 0.0, + "step": 128000 + }, + { + "epoch": 2.0496, + "grad_norm": 4.073744674926161e-10, + "learning_rate": 6.341973333333333e-06, + "loss": 0.0, + "step": 128100 + }, + { + "epoch": 2.0512, + "grad_norm": 3.558728589592164e-10, + "learning_rate": 6.331306666666667e-06, + "loss": 0.0, + "step": 128200 + }, + { + "epoch": 2.0528, + "grad_norm": 3.589773478474001e-10, + "learning_rate": 6.32064e-06, + "loss": 0.0, + "step": 128300 + }, + { + "epoch": 2.0544, + "grad_norm": 3.087334277118714e-10, + "learning_rate": 6.309973333333333e-06, + "loss": 0.0, + "step": 128400 + }, + { + "epoch": 2.056, + "grad_norm": 3.6877820241976167e-10, + "learning_rate": 6.299306666666667e-06, + "loss": 0.0, + "step": 128500 + }, + { + "epoch": 2.0576, + "grad_norm": 3.531880898854922e-10, + "learning_rate": 6.2886400000000005e-06, + "loss": 0.0, + "step": 128600 + }, + { + "epoch": 2.0592, + "grad_norm": 3.710859119987475e-10, + "learning_rate": 6.277973333333333e-06, + "loss": 0.0, + "step": 128700 + }, + { + "epoch": 2.0608, + "grad_norm": 3.6059405461585925e-10, + "learning_rate": 6.267306666666667e-06, + "loss": 0.0, + "step": 128800 + }, + { + "epoch": 2.0624, + "grad_norm": 3.2803604277376053e-10, + "learning_rate": 6.256640000000001e-06, + "loss": 0.0, + "step": 128900 + }, + { + "epoch": 2.064, + "grad_norm": 4.3225656387591016e-10, + "learning_rate": 6.245973333333334e-06, + "loss": 0.0, + "step": 129000 + }, + { + "epoch": 2.0656, + "grad_norm": 3.9650888128406336e-10, + "learning_rate": 6.235306666666667e-06, + "loss": 0.0, + "step": 129100 + }, + { + "epoch": 2.0672, + "grad_norm": 4.1305875386754565e-10, + "learning_rate": 6.224640000000001e-06, + "loss": 0.0, + "step": 129200 + }, + { + "epoch": 2.0688, + "grad_norm": 4.3229009261125384e-10, + "learning_rate": 6.2139733333333344e-06, + "loss": 0.0, + "step": 129300 + }, + { + "epoch": 2.0704, + "grad_norm": 3.881890087154005e-10, + "learning_rate": 6.2034133333333335e-06, + "loss": 0.0, + "step": 129400 + }, + { + "epoch": 2.072, + "grad_norm": 3.4428457307278393e-10, + "learning_rate": 6.192746666666667e-06, + "loss": 0.0, + "step": 129500 + }, + { + "epoch": 2.0736, + "grad_norm": 3.849046081860763e-10, + "learning_rate": 6.18208e-06, + "loss": 0.0, + "step": 129600 + }, + { + "epoch": 2.0752, + "grad_norm": 3.721246366605868e-10, + "learning_rate": 6.171413333333334e-06, + "loss": 0.0, + "step": 129700 + }, + { + "epoch": 2.0768, + "grad_norm": 3.6488290167113746e-10, + "learning_rate": 6.160746666666667e-06, + "loss": 0.0, + "step": 129800 + }, + { + "epoch": 2.0784, + "grad_norm": 4.0296502246128796e-10, + "learning_rate": 6.15008e-06, + "loss": 0.0, + "step": 129900 + }, + { + "epoch": 2.08, + "grad_norm": 3.0108482373947254e-10, + "learning_rate": 6.139413333333334e-06, + "loss": 0.0, + "step": 130000 + }, + { + "epoch": 2.0816, + "grad_norm": 3.71706887491996e-10, + "learning_rate": 6.128746666666667e-06, + "loss": 0.0, + "step": 130100 + }, + { + "epoch": 2.0832, + "grad_norm": 3.201095222227224e-10, + "learning_rate": 6.118080000000001e-06, + "loss": 0.0, + "step": 130200 + }, + { + "epoch": 2.0848, + "grad_norm": 3.1688793256101633e-10, + "learning_rate": 6.107413333333334e-06, + "loss": 0.0, + "step": 130300 + }, + { + "epoch": 2.0864, + "grad_norm": 3.278495530611991e-10, + "learning_rate": 6.0967466666666675e-06, + "loss": 0.0, + "step": 130400 + }, + { + "epoch": 2.088, + "grad_norm": 3.553420335755675e-10, + "learning_rate": 6.086080000000001e-06, + "loss": 0.0, + "step": 130500 + }, + { + "epoch": 2.0896, + "grad_norm": 3.181967467291713e-10, + "learning_rate": 6.075413333333334e-06, + "loss": 0.0, + "step": 130600 + }, + { + "epoch": 2.0912, + "grad_norm": 4.235712058875407e-10, + "learning_rate": 6.064746666666668e-06, + "loss": 0.0, + "step": 130700 + }, + { + "epoch": 2.0928, + "grad_norm": 3.167354711841597e-10, + "learning_rate": 6.05408e-06, + "loss": 0.0, + "step": 130800 + }, + { + "epoch": 2.0944, + "grad_norm": 3.328254616352666e-10, + "learning_rate": 6.043413333333333e-06, + "loss": 0.0, + "step": 130900 + }, + { + "epoch": 2.096, + "grad_norm": 3.5349256854999567e-10, + "learning_rate": 6.032746666666667e-06, + "loss": 0.0, + "step": 131000 + }, + { + "epoch": 2.0976, + "grad_norm": 3.653969349315389e-10, + "learning_rate": 6.02208e-06, + "loss": 0.0, + "step": 131100 + }, + { + "epoch": 2.0992, + "grad_norm": 3.267140447071881e-10, + "learning_rate": 6.0114133333333334e-06, + "loss": 0.0, + "step": 131200 + }, + { + "epoch": 2.1008, + "grad_norm": 3.5367314632495095e-10, + "learning_rate": 6.000746666666667e-06, + "loss": 0.0, + "step": 131300 + }, + { + "epoch": 2.1024, + "grad_norm": 4.173340284463478e-10, + "learning_rate": 5.990186666666668e-06, + "loss": 0.0, + "step": 131400 + }, + { + "epoch": 2.104, + "grad_norm": 3.092436307028379e-10, + "learning_rate": 5.979520000000001e-06, + "loss": 0.0, + "step": 131500 + }, + { + "epoch": 2.1056, + "grad_norm": 3.255921643408044e-10, + "learning_rate": 5.968853333333334e-06, + "loss": 0.0, + "step": 131600 + }, + { + "epoch": 2.1072, + "grad_norm": 3.18639781227148e-10, + "learning_rate": 5.958186666666668e-06, + "loss": 0.0, + "step": 131700 + }, + { + "epoch": 2.1088, + "grad_norm": 3.323397113064175e-10, + "learning_rate": 5.94752e-06, + "loss": 0.0, + "step": 131800 + }, + { + "epoch": 2.1104, + "grad_norm": 3.9191597189791594e-10, + "learning_rate": 5.936853333333334e-06, + "loss": 0.0, + "step": 131900 + }, + { + "epoch": 2.112, + "grad_norm": 3.7129835317450954e-10, + "learning_rate": 5.926186666666666e-06, + "loss": 0.0, + "step": 132000 + }, + { + "epoch": 2.1136, + "grad_norm": 3.4218919364725764e-10, + "learning_rate": 5.91552e-06, + "loss": 0.0, + "step": 132100 + }, + { + "epoch": 2.1152, + "grad_norm": 3.935327064219507e-10, + "learning_rate": 5.904853333333334e-06, + "loss": 0.0, + "step": 132200 + }, + { + "epoch": 2.1168, + "grad_norm": 3.9517442096403954e-10, + "learning_rate": 5.8941866666666665e-06, + "loss": 0.0, + "step": 132300 + }, + { + "epoch": 2.1184, + "grad_norm": 4.338248094093444e-10, + "learning_rate": 5.88352e-06, + "loss": 0.0, + "step": 132400 + }, + { + "epoch": 2.12, + "grad_norm": 3.169141893355487e-10, + "learning_rate": 5.872853333333334e-06, + "loss": 0.0, + "step": 132500 + }, + { + "epoch": 2.1216, + "grad_norm": 3.3418851019817453e-10, + "learning_rate": 5.8621866666666675e-06, + "loss": 0.0, + "step": 132600 + }, + { + "epoch": 2.1232, + "grad_norm": 3.151207073059936e-10, + "learning_rate": 5.85152e-06, + "loss": 0.0, + "step": 132700 + }, + { + "epoch": 2.1248, + "grad_norm": 3.551595406658947e-10, + "learning_rate": 5.840853333333334e-06, + "loss": 0.0, + "step": 132800 + }, + { + "epoch": 2.1264, + "grad_norm": 3.8189740259042537e-10, + "learning_rate": 5.830186666666668e-06, + "loss": 0.0, + "step": 132900 + }, + { + "epoch": 2.128, + "grad_norm": 3.3512673192070963e-10, + "learning_rate": 5.8195200000000005e-06, + "loss": 0.0, + "step": 133000 + }, + { + "epoch": 2.1296, + "grad_norm": 3.79571318820382e-10, + "learning_rate": 5.808853333333334e-06, + "loss": 0.0, + "step": 133100 + }, + { + "epoch": 2.1312, + "grad_norm": 3.7049241452535853e-10, + "learning_rate": 5.798186666666668e-06, + "loss": 0.0, + "step": 133200 + }, + { + "epoch": 2.1328, + "grad_norm": 3.589487318489404e-10, + "learning_rate": 5.787520000000001e-06, + "loss": 0.0, + "step": 133300 + }, + { + "epoch": 2.1344, + "grad_norm": 3.515325253111712e-10, + "learning_rate": 5.7769600000000005e-06, + "loss": 0.0, + "step": 133400 + }, + { + "epoch": 2.136, + "grad_norm": 2.953911559799849e-10, + "learning_rate": 5.766293333333333e-06, + "loss": 0.0, + "step": 133500 + }, + { + "epoch": 2.1376, + "grad_norm": 3.7348593662223095e-10, + "learning_rate": 5.755626666666667e-06, + "loss": 0.0, + "step": 133600 + }, + { + "epoch": 2.1391999999999998, + "grad_norm": 3.207605847599382e-10, + "learning_rate": 5.744960000000001e-06, + "loss": 0.0, + "step": 133700 + }, + { + "epoch": 2.1408, + "grad_norm": 3.6121028390567744e-10, + "learning_rate": 5.734293333333334e-06, + "loss": 0.0, + "step": 133800 + }, + { + "epoch": 2.1424, + "grad_norm": 3.1161104252497296e-10, + "learning_rate": 5.723626666666667e-06, + "loss": 0.0, + "step": 133900 + }, + { + "epoch": 2.144, + "grad_norm": 3.2392713511519844e-10, + "learning_rate": 5.712960000000001e-06, + "loss": 0.0, + "step": 134000 + }, + { + "epoch": 2.1456, + "grad_norm": 3.302331463839181e-10, + "learning_rate": 5.7022933333333344e-06, + "loss": 0.0, + "step": 134100 + }, + { + "epoch": 2.1471999999999998, + "grad_norm": 3.19793053149553e-10, + "learning_rate": 5.691626666666667e-06, + "loss": 0.0, + "step": 134200 + }, + { + "epoch": 2.1488, + "grad_norm": 3.187430319684381e-10, + "learning_rate": 5.680960000000001e-06, + "loss": 0.0, + "step": 134300 + }, + { + "epoch": 2.1504, + "grad_norm": 3.623960298515527e-10, + "learning_rate": 5.670293333333335e-06, + "loss": 0.0, + "step": 134400 + }, + { + "epoch": 2.152, + "grad_norm": 3.3849512082184674e-10, + "learning_rate": 5.6596266666666665e-06, + "loss": 0.0, + "step": 134500 + }, + { + "epoch": 2.1536, + "grad_norm": 3.606306919756719e-10, + "learning_rate": 5.64896e-06, + "loss": 0.0, + "step": 134600 + }, + { + "epoch": 2.1552, + "grad_norm": 4.167296230317419e-10, + "learning_rate": 5.638293333333333e-06, + "loss": 0.0, + "step": 134700 + }, + { + "epoch": 2.1568, + "grad_norm": 3.812472559872049e-10, + "learning_rate": 5.627626666666667e-06, + "loss": 0.0, + "step": 134800 + }, + { + "epoch": 2.1584, + "grad_norm": 3.74777847644836e-10, + "learning_rate": 5.61696e-06, + "loss": 0.0, + "step": 134900 + }, + { + "epoch": 2.16, + "grad_norm": 3.498955569725126e-10, + "learning_rate": 5.606293333333334e-06, + "loss": 0.0, + "step": 135000 + }, + { + "epoch": 2.1616, + "grad_norm": 3.2129504612399273e-10, + "learning_rate": 5.595626666666667e-06, + "loss": 0.0, + "step": 135100 + }, + { + "epoch": 2.1632, + "grad_norm": 3.180447016859489e-10, + "learning_rate": 5.5849600000000005e-06, + "loss": 0.0, + "step": 135200 + }, + { + "epoch": 2.1648, + "grad_norm": 3.785192992378228e-10, + "learning_rate": 5.574293333333334e-06, + "loss": 0.0, + "step": 135300 + }, + { + "epoch": 2.1664, + "grad_norm": 3.1428346036754817e-10, + "learning_rate": 5.563733333333334e-06, + "loss": 0.0, + "step": 135400 + }, + { + "epoch": 2.168, + "grad_norm": 3.4921379676866593e-10, + "learning_rate": 5.553066666666667e-06, + "loss": 0.0, + "step": 135500 + }, + { + "epoch": 2.1696, + "grad_norm": 3.6303696160366883e-10, + "learning_rate": 5.5424e-06, + "loss": 0.0, + "step": 135600 + }, + { + "epoch": 2.1712, + "grad_norm": 3.6458880359191426e-10, + "learning_rate": 5.531733333333333e-06, + "loss": 0.0, + "step": 135700 + }, + { + "epoch": 2.1728, + "grad_norm": 3.6211800225061097e-10, + "learning_rate": 5.521066666666667e-06, + "loss": 0.0, + "step": 135800 + }, + { + "epoch": 2.1744, + "grad_norm": 3.0631719383222844e-10, + "learning_rate": 5.5104e-06, + "loss": 0.0, + "step": 135900 + }, + { + "epoch": 2.176, + "grad_norm": 3.3581656899706047e-10, + "learning_rate": 5.4997333333333335e-06, + "loss": 0.0, + "step": 136000 + }, + { + "epoch": 2.1776, + "grad_norm": 3.078323707050856e-10, + "learning_rate": 5.489066666666667e-06, + "loss": 0.0, + "step": 136100 + }, + { + "epoch": 2.1792, + "grad_norm": 3.726907671364188e-10, + "learning_rate": 5.478400000000001e-06, + "loss": 0.0, + "step": 136200 + }, + { + "epoch": 2.1808, + "grad_norm": 3.7740641167793854e-10, + "learning_rate": 5.467733333333334e-06, + "loss": 0.0, + "step": 136300 + }, + { + "epoch": 2.1824, + "grad_norm": 3.2373426162024543e-10, + "learning_rate": 5.457066666666667e-06, + "loss": 0.0, + "step": 136400 + }, + { + "epoch": 2.184, + "grad_norm": 2.981603852703074e-10, + "learning_rate": 5.446400000000001e-06, + "loss": 0.0, + "step": 136500 + }, + { + "epoch": 2.1856, + "grad_norm": 3.636410339513674e-10, + "learning_rate": 5.435733333333334e-06, + "loss": 0.0, + "step": 136600 + }, + { + "epoch": 2.1872, + "grad_norm": 3.115487867688671e-10, + "learning_rate": 5.425066666666667e-06, + "loss": 0.0, + "step": 136700 + }, + { + "epoch": 2.1888, + "grad_norm": 3.5186684121946143e-10, + "learning_rate": 5.414400000000001e-06, + "loss": 0.0, + "step": 136800 + }, + { + "epoch": 2.1904, + "grad_norm": 2.877695304270844e-10, + "learning_rate": 5.403733333333334e-06, + "loss": 0.0, + "step": 136900 + }, + { + "epoch": 2.192, + "grad_norm": 3.407149284928579e-10, + "learning_rate": 5.3930666666666675e-06, + "loss": 0.0, + "step": 137000 + }, + { + "epoch": 2.1936, + "grad_norm": 3.9003689167316224e-10, + "learning_rate": 5.382400000000001e-06, + "loss": 0.0, + "step": 137100 + }, + { + "epoch": 2.1952, + "grad_norm": 3.3503388952027535e-10, + "learning_rate": 5.371733333333333e-06, + "loss": 0.0, + "step": 137200 + }, + { + "epoch": 2.1968, + "grad_norm": 3.3567607027329416e-10, + "learning_rate": 5.361066666666667e-06, + "loss": 0.0, + "step": 137300 + }, + { + "epoch": 2.1984, + "grad_norm": 3.1499045038962947e-10, + "learning_rate": 5.3505066666666675e-06, + "loss": 0.0, + "step": 137400 + }, + { + "epoch": 2.2, + "grad_norm": 3.2844049702163147e-10, + "learning_rate": 5.33984e-06, + "loss": 0.0, + "step": 137500 + }, + { + "epoch": 2.2016, + "grad_norm": 3.623423783238877e-10, + "learning_rate": 5.329173333333334e-06, + "loss": 0.0, + "step": 137600 + }, + { + "epoch": 2.2032, + "grad_norm": 3.3017180656180756e-10, + "learning_rate": 5.318506666666668e-06, + "loss": 0.0, + "step": 137700 + }, + { + "epoch": 2.2048, + "grad_norm": 3.403816117852898e-10, + "learning_rate": 5.3078400000000005e-06, + "loss": 0.0, + "step": 137800 + }, + { + "epoch": 2.2064, + "grad_norm": 3.070988463527158e-10, + "learning_rate": 5.297173333333334e-06, + "loss": 0.0, + "step": 137900 + }, + { + "epoch": 2.208, + "grad_norm": 3.51049161961825e-10, + "learning_rate": 5.286506666666668e-06, + "loss": 0.0, + "step": 138000 + }, + { + "epoch": 2.2096, + "grad_norm": 3.7242220418676197e-10, + "learning_rate": 5.275840000000001e-06, + "loss": 0.0, + "step": 138100 + }, + { + "epoch": 2.2112, + "grad_norm": 3.1819114010289695e-10, + "learning_rate": 5.2651733333333334e-06, + "loss": 0.0, + "step": 138200 + }, + { + "epoch": 2.2128, + "grad_norm": 3.6323183350006616e-10, + "learning_rate": 5.254506666666666e-06, + "loss": 0.0, + "step": 138300 + }, + { + "epoch": 2.2144, + "grad_norm": 3.8500166943400416e-10, + "learning_rate": 5.24384e-06, + "loss": 0.0, + "step": 138400 + }, + { + "epoch": 2.216, + "grad_norm": 3.3075234218138405e-10, + "learning_rate": 5.233173333333334e-06, + "loss": 0.0, + "step": 138500 + }, + { + "epoch": 2.2176, + "grad_norm": 3.574484874757644e-10, + "learning_rate": 5.222506666666667e-06, + "loss": 0.0, + "step": 138600 + }, + { + "epoch": 2.2192, + "grad_norm": 3.007455950942983e-10, + "learning_rate": 5.21184e-06, + "loss": 0.0, + "step": 138700 + }, + { + "epoch": 2.2208, + "grad_norm": 3.1821018042776927e-10, + "learning_rate": 5.201173333333334e-06, + "loss": 0.0, + "step": 138800 + }, + { + "epoch": 2.2224, + "grad_norm": 2.9769092746434467e-10, + "learning_rate": 5.190506666666667e-06, + "loss": 0.0, + "step": 138900 + }, + { + "epoch": 2.224, + "grad_norm": 2.9204330620480334e-10, + "learning_rate": 5.17984e-06, + "loss": 0.0, + "step": 139000 + }, + { + "epoch": 2.2256, + "grad_norm": 3.189616348819868e-10, + "learning_rate": 5.169173333333334e-06, + "loss": 0.0, + "step": 139100 + }, + { + "epoch": 2.2272, + "grad_norm": 4.2649478393386175e-10, + "learning_rate": 5.1585066666666675e-06, + "loss": 0.0, + "step": 139200 + }, + { + "epoch": 2.2288, + "grad_norm": 3.4308908491986756e-10, + "learning_rate": 5.14784e-06, + "loss": 0.0, + "step": 139300 + }, + { + "epoch": 2.2304, + "grad_norm": 3.1920646681449227e-10, + "learning_rate": 5.13728e-06, + "loss": 0.0, + "step": 139400 + }, + { + "epoch": 2.232, + "grad_norm": 3.259533476462906e-10, + "learning_rate": 5.126613333333333e-06, + "loss": 0.0, + "step": 139500 + }, + { + "epoch": 2.2336, + "grad_norm": 3.543887405754731e-10, + "learning_rate": 5.115946666666667e-06, + "loss": 0.0, + "step": 139600 + }, + { + "epoch": 2.2352, + "grad_norm": 3.4216449118495973e-10, + "learning_rate": 5.10528e-06, + "loss": 0.0, + "step": 139700 + }, + { + "epoch": 2.2368, + "grad_norm": 3.952222715764009e-10, + "learning_rate": 5.094613333333334e-06, + "loss": 0.0, + "step": 139800 + }, + { + "epoch": 2.2384, + "grad_norm": 3.5622177430028046e-10, + "learning_rate": 5.083946666666667e-06, + "loss": 0.0, + "step": 139900 + }, + { + "epoch": 2.24, + "grad_norm": 3.49989620618274e-10, + "learning_rate": 5.0732800000000005e-06, + "loss": 0.0, + "step": 140000 + }, + { + "epoch": 2.2416, + "grad_norm": 3.104675683207603e-10, + "learning_rate": 5.062613333333334e-06, + "loss": 0.0, + "step": 140100 + }, + { + "epoch": 2.2432, + "grad_norm": 3.764113465365426e-10, + "learning_rate": 5.051946666666667e-06, + "loss": 0.0, + "step": 140200 + }, + { + "epoch": 2.2448, + "grad_norm": 3.194480235890751e-10, + "learning_rate": 5.041280000000001e-06, + "loss": 0.0, + "step": 140300 + }, + { + "epoch": 2.2464, + "grad_norm": 3.6820582693941617e-10, + "learning_rate": 5.030613333333334e-06, + "loss": 0.0, + "step": 140400 + }, + { + "epoch": 2.248, + "grad_norm": 3.392682523806201e-10, + "learning_rate": 5.019946666666667e-06, + "loss": 0.0, + "step": 140500 + }, + { + "epoch": 2.2496, + "grad_norm": 3.164263018273772e-10, + "learning_rate": 5.009280000000001e-06, + "loss": 0.0, + "step": 140600 + }, + { + "epoch": 2.2512, + "grad_norm": 3.436536888390407e-10, + "learning_rate": 4.998613333333334e-06, + "loss": 0.0, + "step": 140700 + }, + { + "epoch": 2.2528, + "grad_norm": 3.2565580787569104e-10, + "learning_rate": 4.987946666666667e-06, + "loss": 0.0, + "step": 140800 + }, + { + "epoch": 2.2544, + "grad_norm": 3.506593349023035e-10, + "learning_rate": 4.97728e-06, + "loss": 0.0, + "step": 140900 + }, + { + "epoch": 2.2560000000000002, + "grad_norm": 3.463666298220147e-10, + "learning_rate": 4.966613333333334e-06, + "loss": 0.0, + "step": 141000 + }, + { + "epoch": 2.2576, + "grad_norm": 3.1316282900206716e-10, + "learning_rate": 4.955946666666667e-06, + "loss": 0.0, + "step": 141100 + }, + { + "epoch": 2.2592, + "grad_norm": 3.7461786450698753e-10, + "learning_rate": 4.945280000000001e-06, + "loss": 0.0, + "step": 141200 + }, + { + "epoch": 2.2608, + "grad_norm": 3.8401357094208777e-10, + "learning_rate": 4.934613333333334e-06, + "loss": 0.0, + "step": 141300 + }, + { + "epoch": 2.2624, + "grad_norm": 3.144419447043134e-10, + "learning_rate": 4.924053333333334e-06, + "loss": 0.0, + "step": 141400 + }, + { + "epoch": 2.2640000000000002, + "grad_norm": 3.2484614997940753e-10, + "learning_rate": 4.9133866666666666e-06, + "loss": 0.0, + "step": 141500 + }, + { + "epoch": 2.2656, + "grad_norm": 3.531926417998932e-10, + "learning_rate": 4.90272e-06, + "loss": 0.0, + "step": 141600 + }, + { + "epoch": 2.2672, + "grad_norm": 3.318923746942204e-10, + "learning_rate": 4.892053333333334e-06, + "loss": 0.0, + "step": 141700 + }, + { + "epoch": 2.2688, + "grad_norm": 3.0195415612332965e-10, + "learning_rate": 4.881386666666667e-06, + "loss": 0.0, + "step": 141800 + }, + { + "epoch": 2.2704, + "grad_norm": 3.548563942690208e-10, + "learning_rate": 4.87072e-06, + "loss": 0.0, + "step": 141900 + }, + { + "epoch": 2.2720000000000002, + "grad_norm": 2.8433891352541707e-10, + "learning_rate": 4.860053333333334e-06, + "loss": 0.0, + "step": 142000 + }, + { + "epoch": 2.2736, + "grad_norm": 3.305513640583513e-10, + "learning_rate": 4.849386666666667e-06, + "loss": 0.0, + "step": 142100 + }, + { + "epoch": 2.2752, + "grad_norm": 2.9917573973747835e-10, + "learning_rate": 4.8387200000000005e-06, + "loss": 0.0, + "step": 142200 + }, + { + "epoch": 2.2768, + "grad_norm": 3.306266926905721e-10, + "learning_rate": 4.828053333333333e-06, + "loss": 0.0, + "step": 142300 + }, + { + "epoch": 2.2784, + "grad_norm": 3.230272438425885e-10, + "learning_rate": 4.817386666666667e-06, + "loss": 0.0, + "step": 142400 + }, + { + "epoch": 2.2800000000000002, + "grad_norm": 3.4481820176957e-10, + "learning_rate": 4.806720000000001e-06, + "loss": 0.0, + "step": 142500 + }, + { + "epoch": 2.2816, + "grad_norm": 3.329036213362002e-10, + "learning_rate": 4.7960533333333334e-06, + "loss": 0.0, + "step": 142600 + }, + { + "epoch": 2.2832, + "grad_norm": 3.2530245164252847e-10, + "learning_rate": 4.785386666666667e-06, + "loss": 0.0, + "step": 142700 + }, + { + "epoch": 2.2848, + "grad_norm": 3.4515673652535384e-10, + "learning_rate": 4.774720000000001e-06, + "loss": 0.0, + "step": 142800 + }, + { + "epoch": 2.2864, + "grad_norm": 3.2469293920200926e-10, + "learning_rate": 4.764053333333334e-06, + "loss": 0.0, + "step": 142900 + }, + { + "epoch": 2.288, + "grad_norm": 4.765293160069461e-10, + "learning_rate": 4.753386666666667e-06, + "loss": 0.0, + "step": 143000 + }, + { + "epoch": 2.2896, + "grad_norm": 3.307053519918668e-10, + "learning_rate": 4.742720000000001e-06, + "loss": 0.0, + "step": 143100 + }, + { + "epoch": 2.2912, + "grad_norm": 3.125607273002373e-10, + "learning_rate": 4.732053333333334e-06, + "loss": 0.0, + "step": 143200 + }, + { + "epoch": 2.2928, + "grad_norm": 3.246035384929513e-10, + "learning_rate": 4.7213866666666665e-06, + "loss": 0.0, + "step": 143300 + }, + { + "epoch": 2.2944, + "grad_norm": 3.260721970210767e-10, + "learning_rate": 4.710826666666667e-06, + "loss": 0.0, + "step": 143400 + }, + { + "epoch": 2.296, + "grad_norm": 3.4822336680839783e-10, + "learning_rate": 4.70016e-06, + "loss": 0.0, + "step": 143500 + }, + { + "epoch": 2.2976, + "grad_norm": 3.2709840391831335e-10, + "learning_rate": 4.689493333333334e-06, + "loss": 0.0, + "step": 143600 + }, + { + "epoch": 2.2992, + "grad_norm": 3.454010688574982e-10, + "learning_rate": 4.678826666666667e-06, + "loss": 0.0, + "step": 143700 + }, + { + "epoch": 2.3008, + "grad_norm": 3.6283540061354813e-10, + "learning_rate": 4.66816e-06, + "loss": 0.0, + "step": 143800 + }, + { + "epoch": 2.3024, + "grad_norm": 3.1457095261977486e-10, + "learning_rate": 4.657493333333334e-06, + "loss": 0.0, + "step": 143900 + }, + { + "epoch": 2.304, + "grad_norm": 2.9043575877629735e-10, + "learning_rate": 4.6468266666666675e-06, + "loss": 0.0, + "step": 144000 + }, + { + "epoch": 2.3056, + "grad_norm": 3.0756566737899504e-10, + "learning_rate": 4.63616e-06, + "loss": 0.0, + "step": 144100 + }, + { + "epoch": 2.3072, + "grad_norm": 3.5682767851596964e-10, + "learning_rate": 4.625493333333333e-06, + "loss": 0.0, + "step": 144200 + }, + { + "epoch": 2.3088, + "grad_norm": 3.389039049395137e-10, + "learning_rate": 4.614826666666667e-06, + "loss": 0.0, + "step": 144300 + }, + { + "epoch": 2.3104, + "grad_norm": 2.8128110951541885e-10, + "learning_rate": 4.6041600000000005e-06, + "loss": 0.0, + "step": 144400 + }, + { + "epoch": 2.312, + "grad_norm": 3.24759247272155e-10, + "learning_rate": 4.593493333333333e-06, + "loss": 0.0, + "step": 144500 + }, + { + "epoch": 2.3136, + "grad_norm": 3.1841473902005646e-10, + "learning_rate": 4.582826666666667e-06, + "loss": 0.0, + "step": 144600 + }, + { + "epoch": 2.3152, + "grad_norm": 3.4204841736773517e-10, + "learning_rate": 4.572160000000001e-06, + "loss": 0.0, + "step": 144700 + }, + { + "epoch": 2.3168, + "grad_norm": 3.4004746241045325e-10, + "learning_rate": 4.561493333333334e-06, + "loss": 0.0, + "step": 144800 + }, + { + "epoch": 2.3184, + "grad_norm": 3.2099969904386683e-10, + "learning_rate": 4.550826666666667e-06, + "loss": 0.0, + "step": 144900 + }, + { + "epoch": 2.32, + "grad_norm": 3.011644822414894e-10, + "learning_rate": 4.54016e-06, + "loss": 0.0, + "step": 145000 + }, + { + "epoch": 2.3216, + "grad_norm": 3.725202923909876e-10, + "learning_rate": 4.5294933333333336e-06, + "loss": 0.0, + "step": 145100 + }, + { + "epoch": 2.3232, + "grad_norm": 3.4397809600683615e-10, + "learning_rate": 4.518826666666667e-06, + "loss": 0.0, + "step": 145200 + }, + { + "epoch": 2.3247999999999998, + "grad_norm": 3.7204120340028624e-10, + "learning_rate": 4.50816e-06, + "loss": 0.0, + "step": 145300 + }, + { + "epoch": 2.3264, + "grad_norm": 3.074286658577563e-10, + "learning_rate": 4.4976e-06, + "loss": 0.0, + "step": 145400 + }, + { + "epoch": 2.328, + "grad_norm": 3.4369265766720503e-10, + "learning_rate": 4.486933333333334e-06, + "loss": 0.0, + "step": 145500 + }, + { + "epoch": 2.3296, + "grad_norm": 3.143056648280407e-10, + "learning_rate": 4.476266666666667e-06, + "loss": 0.0, + "step": 145600 + }, + { + "epoch": 2.3312, + "grad_norm": 3.2501737412538034e-10, + "learning_rate": 4.4656e-06, + "loss": 0.0, + "step": 145700 + }, + { + "epoch": 2.3327999999999998, + "grad_norm": 3.110080248891478e-10, + "learning_rate": 4.454933333333334e-06, + "loss": 0.0, + "step": 145800 + }, + { + "epoch": 2.3344, + "grad_norm": 3.790766311961846e-10, + "learning_rate": 4.444266666666667e-06, + "loss": 0.0, + "step": 145900 + }, + { + "epoch": 2.336, + "grad_norm": 3.4419955774467326e-10, + "learning_rate": 4.4336e-06, + "loss": 0.0, + "step": 146000 + }, + { + "epoch": 2.3376, + "grad_norm": 3.3076669181397733e-10, + "learning_rate": 4.422933333333334e-06, + "loss": 0.0, + "step": 146100 + }, + { + "epoch": 2.3392, + "grad_norm": 3.4487371292080127e-10, + "learning_rate": 4.412266666666667e-06, + "loss": 0.0, + "step": 146200 + }, + { + "epoch": 2.3407999999999998, + "grad_norm": 3.1364211228179784e-10, + "learning_rate": 4.4016e-06, + "loss": 0.0, + "step": 146300 + }, + { + "epoch": 2.3424, + "grad_norm": 3.1019614654681504e-10, + "learning_rate": 4.390933333333334e-06, + "loss": 0.0, + "step": 146400 + }, + { + "epoch": 2.344, + "grad_norm": 3.2614189127144755e-10, + "learning_rate": 4.380266666666667e-06, + "loss": 0.0, + "step": 146500 + }, + { + "epoch": 2.3456, + "grad_norm": 3.3636157747984896e-10, + "learning_rate": 4.3696000000000005e-06, + "loss": 0.0, + "step": 146600 + }, + { + "epoch": 2.3472, + "grad_norm": 3.7909245187428553e-10, + "learning_rate": 4.358933333333334e-06, + "loss": 0.0, + "step": 146700 + }, + { + "epoch": 2.3487999999999998, + "grad_norm": 2.948243038591869e-10, + "learning_rate": 4.348266666666667e-06, + "loss": 0.0, + "step": 146800 + }, + { + "epoch": 2.3504, + "grad_norm": 3.4089084333110975e-10, + "learning_rate": 4.3376e-06, + "loss": 0.0, + "step": 146900 + }, + { + "epoch": 2.352, + "grad_norm": 3.189335739950394e-10, + "learning_rate": 4.3269333333333334e-06, + "loss": 0.0, + "step": 147000 + }, + { + "epoch": 2.3536, + "grad_norm": 3.215777089060623e-10, + "learning_rate": 4.316266666666667e-06, + "loss": 0.0, + "step": 147100 + }, + { + "epoch": 2.3552, + "grad_norm": 3.7832489918621093e-10, + "learning_rate": 4.305600000000001e-06, + "loss": 0.0, + "step": 147200 + }, + { + "epoch": 2.3568, + "grad_norm": 3.410358107025502e-10, + "learning_rate": 4.2949333333333336e-06, + "loss": 0.0, + "step": 147300 + }, + { + "epoch": 2.3584, + "grad_norm": 2.979992641538587e-10, + "learning_rate": 4.2843733333333335e-06, + "loss": 0.0, + "step": 147400 + }, + { + "epoch": 2.36, + "grad_norm": 3.2437472152757607e-10, + "learning_rate": 4.273706666666667e-06, + "loss": 0.0, + "step": 147500 + }, + { + "epoch": 2.3616, + "grad_norm": 3.4929428793795125e-10, + "learning_rate": 4.263040000000001e-06, + "loss": 0.0, + "step": 147600 + }, + { + "epoch": 2.3632, + "grad_norm": 3.505996326591543e-10, + "learning_rate": 4.252373333333334e-06, + "loss": 0.0, + "step": 147700 + }, + { + "epoch": 2.3648, + "grad_norm": 3.3485769712626734e-10, + "learning_rate": 4.241706666666666e-06, + "loss": 0.0, + "step": 147800 + }, + { + "epoch": 2.3664, + "grad_norm": 3.0993388411282297e-10, + "learning_rate": 4.23104e-06, + "loss": 0.0, + "step": 147900 + }, + { + "epoch": 2.368, + "grad_norm": 3.327347009030035e-10, + "learning_rate": 4.220373333333334e-06, + "loss": 0.0, + "step": 148000 + }, + { + "epoch": 2.3696, + "grad_norm": 3.4363320522423635e-10, + "learning_rate": 4.2097066666666665e-06, + "loss": 0.0, + "step": 148100 + }, + { + "epoch": 2.3712, + "grad_norm": 3.2631153334961027e-10, + "learning_rate": 4.19904e-06, + "loss": 0.0, + "step": 148200 + }, + { + "epoch": 2.3728, + "grad_norm": 3.1324579041758227e-10, + "learning_rate": 4.188373333333334e-06, + "loss": 0.0, + "step": 148300 + }, + { + "epoch": 2.3744, + "grad_norm": 3.6043637519078686e-10, + "learning_rate": 4.1777066666666675e-06, + "loss": 0.0, + "step": 148400 + }, + { + "epoch": 2.376, + "grad_norm": 3.4278183069780255e-10, + "learning_rate": 4.16704e-06, + "loss": 0.0, + "step": 148500 + }, + { + "epoch": 2.3776, + "grad_norm": 3.1465618999249045e-10, + "learning_rate": 4.156373333333334e-06, + "loss": 0.0, + "step": 148600 + }, + { + "epoch": 2.3792, + "grad_norm": 3.033701345689366e-10, + "learning_rate": 4.145706666666667e-06, + "loss": 0.0, + "step": 148700 + }, + { + "epoch": 2.3808, + "grad_norm": 3.0445052034977493e-10, + "learning_rate": 4.1350400000000005e-06, + "loss": 0.0, + "step": 148800 + }, + { + "epoch": 2.3824, + "grad_norm": 3.720963814846101e-10, + "learning_rate": 4.124373333333333e-06, + "loss": 0.0, + "step": 148900 + }, + { + "epoch": 2.384, + "grad_norm": 3.356656341768627e-10, + "learning_rate": 4.113706666666667e-06, + "loss": 0.0, + "step": 149000 + }, + { + "epoch": 2.3856, + "grad_norm": 3.3748148720036397e-10, + "learning_rate": 4.103040000000001e-06, + "loss": 0.0, + "step": 149100 + }, + { + "epoch": 2.3872, + "grad_norm": 3.6574512862763697e-10, + "learning_rate": 4.0923733333333334e-06, + "loss": 0.0, + "step": 149200 + }, + { + "epoch": 2.3888, + "grad_norm": 3.182066832252417e-10, + "learning_rate": 4.081706666666667e-06, + "loss": 0.0, + "step": 149300 + }, + { + "epoch": 2.3904, + "grad_norm": 3.3478983474388713e-10, + "learning_rate": 4.071146666666667e-06, + "loss": 0.0, + "step": 149400 + }, + { + "epoch": 2.392, + "grad_norm": 3.3549257816289924e-10, + "learning_rate": 4.060480000000001e-06, + "loss": 0.0, + "step": 149500 + }, + { + "epoch": 2.3936, + "grad_norm": 3.11757480941921e-10, + "learning_rate": 4.049813333333334e-06, + "loss": 0.0, + "step": 149600 + }, + { + "epoch": 2.3952, + "grad_norm": 3.0566157938061167e-10, + "learning_rate": 4.039146666666667e-06, + "loss": 0.0, + "step": 149700 + }, + { + "epoch": 2.3968, + "grad_norm": 3.4185942965336835e-10, + "learning_rate": 4.02848e-06, + "loss": 0.0, + "step": 149800 + }, + { + "epoch": 2.3984, + "grad_norm": 3.158525108126753e-10, + "learning_rate": 4.017813333333334e-06, + "loss": 0.0, + "step": 149900 + }, + { + "epoch": 2.4, + "grad_norm": 3.0210917101314294e-10, + "learning_rate": 4.007146666666667e-06, + "loss": 0.0, + "step": 150000 + }, + { + "epoch": 2.4016, + "grad_norm": 3.4216451894053534e-10, + "learning_rate": 3.99648e-06, + "loss": 0.0, + "step": 150100 + }, + { + "epoch": 2.4032, + "grad_norm": 3.0805921702459216e-10, + "learning_rate": 3.985813333333334e-06, + "loss": 0.0, + "step": 150200 + }, + { + "epoch": 2.4048, + "grad_norm": 2.72425942915433e-10, + "learning_rate": 3.975146666666667e-06, + "loss": 0.0, + "step": 150300 + }, + { + "epoch": 2.4064, + "grad_norm": 3.6067646091986205e-10, + "learning_rate": 3.96448e-06, + "loss": 0.0, + "step": 150400 + }, + { + "epoch": 2.408, + "grad_norm": 3.0487212754337634e-10, + "learning_rate": 3.953813333333333e-06, + "loss": 0.0, + "step": 150500 + }, + { + "epoch": 2.4096, + "grad_norm": 3.5418193378156104e-10, + "learning_rate": 3.943146666666667e-06, + "loss": 0.0, + "step": 150600 + }, + { + "epoch": 2.4112, + "grad_norm": 3.4485947431051045e-10, + "learning_rate": 3.93248e-06, + "loss": 0.0, + "step": 150700 + }, + { + "epoch": 2.4128, + "grad_norm": 3.2224070634079283e-10, + "learning_rate": 3.921813333333334e-06, + "loss": 0.0, + "step": 150800 + }, + { + "epoch": 2.4144, + "grad_norm": 3.079188570787039e-10, + "learning_rate": 3.911146666666667e-06, + "loss": 0.0, + "step": 150900 + }, + { + "epoch": 2.416, + "grad_norm": 3.194769726544422e-10, + "learning_rate": 3.9004800000000005e-06, + "loss": 0.0, + "step": 151000 + }, + { + "epoch": 2.4176, + "grad_norm": 2.930619358298969e-10, + "learning_rate": 3.889813333333334e-06, + "loss": 0.0, + "step": 151100 + }, + { + "epoch": 2.4192, + "grad_norm": 2.899386286614458e-10, + "learning_rate": 3.879146666666667e-06, + "loss": 0.0, + "step": 151200 + }, + { + "epoch": 2.4208, + "grad_norm": 2.9698660197752247e-10, + "learning_rate": 3.868480000000001e-06, + "loss": 0.0, + "step": 151300 + }, + { + "epoch": 2.4224, + "grad_norm": 3.791341407488602e-10, + "learning_rate": 3.8579200000000005e-06, + "loss": 0.0, + "step": 151400 + }, + { + "epoch": 2.424, + "grad_norm": 3.556027972084763e-10, + "learning_rate": 3.847253333333333e-06, + "loss": 0.0, + "step": 151500 + }, + { + "epoch": 2.4256, + "grad_norm": 2.987325942171992e-10, + "learning_rate": 3.836586666666667e-06, + "loss": 0.0, + "step": 151600 + }, + { + "epoch": 2.4272, + "grad_norm": 3.233907308608508e-10, + "learning_rate": 3.82592e-06, + "loss": 0.0, + "step": 151700 + }, + { + "epoch": 2.4288, + "grad_norm": 2.877357796471358e-10, + "learning_rate": 3.8152533333333334e-06, + "loss": 0.0, + "step": 151800 + }, + { + "epoch": 2.4304, + "grad_norm": 3.761882749753198e-10, + "learning_rate": 3.804586666666667e-06, + "loss": 0.0, + "step": 151900 + }, + { + "epoch": 2.432, + "grad_norm": 2.952665334454707e-10, + "learning_rate": 3.7939200000000003e-06, + "loss": 0.0, + "step": 152000 + }, + { + "epoch": 2.4336, + "grad_norm": 3.567107720314766e-10, + "learning_rate": 3.7832533333333336e-06, + "loss": 0.0, + "step": 152100 + }, + { + "epoch": 2.4352, + "grad_norm": 3.655786229295188e-10, + "learning_rate": 3.7725866666666672e-06, + "loss": 0.0, + "step": 152200 + }, + { + "epoch": 2.4368, + "grad_norm": 3.540001625168543e-10, + "learning_rate": 3.7619200000000005e-06, + "loss": 0.0, + "step": 152300 + }, + { + "epoch": 2.4384, + "grad_norm": 3.111925717114161e-10, + "learning_rate": 3.7512533333333333e-06, + "loss": 0.0, + "step": 152400 + }, + { + "epoch": 2.44, + "grad_norm": 3.0528768402149353e-10, + "learning_rate": 3.740586666666667e-06, + "loss": 0.0, + "step": 152500 + }, + { + "epoch": 2.4416, + "grad_norm": 3.0782795756856274e-10, + "learning_rate": 3.72992e-06, + "loss": 0.0, + "step": 152600 + }, + { + "epoch": 2.4432, + "grad_norm": 3.2485475420784837e-10, + "learning_rate": 3.7192533333333334e-06, + "loss": 0.0, + "step": 152700 + }, + { + "epoch": 2.4448, + "grad_norm": 2.8426982989770977e-10, + "learning_rate": 3.708586666666667e-06, + "loss": 0.0, + "step": 152800 + }, + { + "epoch": 2.4464, + "grad_norm": 2.7763535914715476e-10, + "learning_rate": 3.6979200000000003e-06, + "loss": 0.0, + "step": 152900 + }, + { + "epoch": 2.448, + "grad_norm": 3.22074394931704e-10, + "learning_rate": 3.687253333333334e-06, + "loss": 0.0, + "step": 153000 + }, + { + "epoch": 2.4496, + "grad_norm": 3.303696760603714e-10, + "learning_rate": 3.6765866666666672e-06, + "loss": 0.0, + "step": 153100 + }, + { + "epoch": 2.4512, + "grad_norm": 3.110529611660695e-10, + "learning_rate": 3.66592e-06, + "loss": 0.0, + "step": 153200 + }, + { + "epoch": 2.4528, + "grad_norm": 3.2933264448864463e-10, + "learning_rate": 3.6552533333333333e-06, + "loss": 0.0, + "step": 153300 + }, + { + "epoch": 2.4544, + "grad_norm": 3.6721090057589834e-10, + "learning_rate": 3.6446933333333336e-06, + "loss": 0.0, + "step": 153400 + }, + { + "epoch": 2.456, + "grad_norm": 3.254415903430896e-10, + "learning_rate": 3.634026666666667e-06, + "loss": 0.0, + "step": 153500 + }, + { + "epoch": 2.4576000000000002, + "grad_norm": 3.1462457639186425e-10, + "learning_rate": 3.62336e-06, + "loss": 0.0, + "step": 153600 + }, + { + "epoch": 2.4592, + "grad_norm": 3.077621490987781e-10, + "learning_rate": 3.6126933333333337e-06, + "loss": 0.0, + "step": 153700 + }, + { + "epoch": 2.4608, + "grad_norm": 3.5332825554235114e-10, + "learning_rate": 3.602026666666667e-06, + "loss": 0.0, + "step": 153800 + }, + { + "epoch": 2.4624, + "grad_norm": 3.209556231897892e-10, + "learning_rate": 3.59136e-06, + "loss": 0.0, + "step": 153900 + }, + { + "epoch": 2.464, + "grad_norm": 3.7852632139845355e-10, + "learning_rate": 3.580693333333334e-06, + "loss": 0.0, + "step": 154000 + }, + { + "epoch": 2.4656000000000002, + "grad_norm": 3.4514857638612284e-10, + "learning_rate": 3.570026666666667e-06, + "loss": 0.0, + "step": 154100 + }, + { + "epoch": 2.4672, + "grad_norm": 3.091882583294847e-10, + "learning_rate": 3.55936e-06, + "loss": 0.0, + "step": 154200 + }, + { + "epoch": 2.4688, + "grad_norm": 3.4811420412950156e-10, + "learning_rate": 3.5486933333333336e-06, + "loss": 0.0, + "step": 154300 + }, + { + "epoch": 2.4704, + "grad_norm": 3.116397417901595e-10, + "learning_rate": 3.538026666666667e-06, + "loss": 0.0, + "step": 154400 + }, + { + "epoch": 2.472, + "grad_norm": 2.872356796856934e-10, + "learning_rate": 3.52736e-06, + "loss": 0.0, + "step": 154500 + }, + { + "epoch": 2.4736000000000002, + "grad_norm": 3.2320165987975713e-10, + "learning_rate": 3.5166933333333337e-06, + "loss": 0.0, + "step": 154600 + }, + { + "epoch": 2.4752, + "grad_norm": 3.3538322119497366e-10, + "learning_rate": 3.506026666666667e-06, + "loss": 0.0, + "step": 154700 + }, + { + "epoch": 2.4768, + "grad_norm": 3.744046739306839e-10, + "learning_rate": 3.4953600000000006e-06, + "loss": 0.0, + "step": 154800 + }, + { + "epoch": 2.4784, + "grad_norm": 2.965843959312764e-10, + "learning_rate": 3.484693333333334e-06, + "loss": 0.0, + "step": 154900 + }, + { + "epoch": 2.48, + "grad_norm": 3.1988514614944563e-10, + "learning_rate": 3.474026666666667e-06, + "loss": 0.0, + "step": 155000 + }, + { + "epoch": 2.4816, + "grad_norm": 3.640237833391069e-10, + "learning_rate": 3.46336e-06, + "loss": 0.0, + "step": 155100 + }, + { + "epoch": 2.4832, + "grad_norm": 2.8467697643641543e-10, + "learning_rate": 3.4526933333333336e-06, + "loss": 0.0, + "step": 155200 + }, + { + "epoch": 2.4848, + "grad_norm": 3.281006577537937e-10, + "learning_rate": 3.442026666666667e-06, + "loss": 0.0, + "step": 155300 + }, + { + "epoch": 2.4864, + "grad_norm": 3.1727054317087777e-10, + "learning_rate": 3.4314666666666667e-06, + "loss": 0.0, + "step": 155400 + }, + { + "epoch": 2.488, + "grad_norm": 3.803219961184823e-10, + "learning_rate": 3.4208000000000004e-06, + "loss": 0.0, + "step": 155500 + }, + { + "epoch": 2.4896, + "grad_norm": 3.896810651937699e-10, + "learning_rate": 3.4101333333333336e-06, + "loss": 0.0, + "step": 155600 + }, + { + "epoch": 2.4912, + "grad_norm": 3.4157138228962936e-10, + "learning_rate": 3.399466666666667e-06, + "loss": 0.0, + "step": 155700 + }, + { + "epoch": 2.4928, + "grad_norm": 3.626851319271651e-10, + "learning_rate": 3.3888000000000005e-06, + "loss": 0.0, + "step": 155800 + }, + { + "epoch": 2.4944, + "grad_norm": 3.071512488794781e-10, + "learning_rate": 3.3781333333333337e-06, + "loss": 0.0, + "step": 155900 + }, + { + "epoch": 2.496, + "grad_norm": 3.259466585525672e-10, + "learning_rate": 3.3674666666666674e-06, + "loss": 0.0, + "step": 156000 + }, + { + "epoch": 2.4976, + "grad_norm": 3.360231815019432e-10, + "learning_rate": 3.3568e-06, + "loss": 0.0, + "step": 156100 + }, + { + "epoch": 2.4992, + "grad_norm": 3.38830158375103e-10, + "learning_rate": 3.3461333333333334e-06, + "loss": 0.0, + "step": 156200 + }, + { + "epoch": 2.5008, + "grad_norm": 3.0782598692269403e-10, + "learning_rate": 3.3354666666666667e-06, + "loss": 0.0, + "step": 156300 + }, + { + "epoch": 2.5023999999999997, + "grad_norm": 3.367198742054711e-10, + "learning_rate": 3.3248000000000003e-06, + "loss": 0.0, + "step": 156400 + }, + { + "epoch": 2.504, + "grad_norm": 3.5758634941984724e-10, + "learning_rate": 3.3141333333333336e-06, + "loss": 0.0, + "step": 156500 + }, + { + "epoch": 2.5056000000000003, + "grad_norm": 3.5063280057201496e-10, + "learning_rate": 3.3034666666666672e-06, + "loss": 0.0, + "step": 156600 + }, + { + "epoch": 2.5072, + "grad_norm": 2.8604343893512407e-10, + "learning_rate": 3.2928000000000005e-06, + "loss": 0.0, + "step": 156700 + }, + { + "epoch": 2.5088, + "grad_norm": 3.1860986071663433e-10, + "learning_rate": 3.2821333333333337e-06, + "loss": 0.0, + "step": 156800 + }, + { + "epoch": 2.5103999999999997, + "grad_norm": 3.663347680760154e-10, + "learning_rate": 3.2714666666666665e-06, + "loss": 0.0, + "step": 156900 + }, + { + "epoch": 2.512, + "grad_norm": 3.2278060779766804e-10, + "learning_rate": 3.2608e-06, + "loss": 0.0, + "step": 157000 + }, + { + "epoch": 2.5136, + "grad_norm": 3.3043481839634126e-10, + "learning_rate": 3.2501333333333334e-06, + "loss": 0.0, + "step": 157100 + }, + { + "epoch": 2.5152, + "grad_norm": 3.427513828313522e-10, + "learning_rate": 3.2394666666666667e-06, + "loss": 0.0, + "step": 157200 + }, + { + "epoch": 2.5168, + "grad_norm": 3.475399412700142e-10, + "learning_rate": 3.2288000000000003e-06, + "loss": 0.0, + "step": 157300 + }, + { + "epoch": 2.5183999999999997, + "grad_norm": 3.4616973176859744e-10, + "learning_rate": 3.21824e-06, + "loss": 0.0, + "step": 157400 + }, + { + "epoch": 2.52, + "grad_norm": 3.012316229789036e-10, + "learning_rate": 3.2075733333333334e-06, + "loss": 0.0, + "step": 157500 + }, + { + "epoch": 2.5216, + "grad_norm": 3.3836475288318013e-10, + "learning_rate": 3.196906666666667e-06, + "loss": 0.0, + "step": 157600 + }, + { + "epoch": 2.5232, + "grad_norm": 3.5830757805221936e-10, + "learning_rate": 3.1862400000000003e-06, + "loss": 0.0, + "step": 157700 + }, + { + "epoch": 2.5248, + "grad_norm": 3.121401193073581e-10, + "learning_rate": 3.175573333333334e-06, + "loss": 0.0, + "step": 157800 + }, + { + "epoch": 2.5263999999999998, + "grad_norm": 3.5878758297691604e-10, + "learning_rate": 3.164906666666667e-06, + "loss": 0.0, + "step": 157900 + }, + { + "epoch": 2.528, + "grad_norm": 2.77461387199196e-10, + "learning_rate": 3.15424e-06, + "loss": 0.0, + "step": 158000 + }, + { + "epoch": 2.5296, + "grad_norm": 4.2493125684828215e-10, + "learning_rate": 3.1435733333333333e-06, + "loss": 0.0, + "step": 158100 + }, + { + "epoch": 2.5312, + "grad_norm": 3.1830102442675923e-10, + "learning_rate": 3.132906666666667e-06, + "loss": 0.0, + "step": 158200 + }, + { + "epoch": 2.5328, + "grad_norm": 3.199037423851081e-10, + "learning_rate": 3.12224e-06, + "loss": 0.0, + "step": 158300 + }, + { + "epoch": 2.5343999999999998, + "grad_norm": 3.1074989803592246e-10, + "learning_rate": 3.111573333333334e-06, + "loss": 0.0, + "step": 158400 + }, + { + "epoch": 2.536, + "grad_norm": 3.299244766274967e-10, + "learning_rate": 3.100906666666667e-06, + "loss": 0.0, + "step": 158500 + }, + { + "epoch": 2.5376, + "grad_norm": 3.205687937324342e-10, + "learning_rate": 3.0902400000000003e-06, + "loss": 0.0, + "step": 158600 + }, + { + "epoch": 2.5392, + "grad_norm": 2.560223699710207e-10, + "learning_rate": 3.079573333333334e-06, + "loss": 0.0, + "step": 158700 + }, + { + "epoch": 2.5408, + "grad_norm": 3.500878476003777e-10, + "learning_rate": 3.068906666666667e-06, + "loss": 0.0, + "step": 158800 + }, + { + "epoch": 2.5423999999999998, + "grad_norm": 3.036198514827504e-10, + "learning_rate": 3.05824e-06, + "loss": 0.0, + "step": 158900 + }, + { + "epoch": 2.544, + "grad_norm": 3.001844051109259e-10, + "learning_rate": 3.0475733333333333e-06, + "loss": 0.0, + "step": 159000 + }, + { + "epoch": 2.5456, + "grad_norm": 3.1711988590643614e-10, + "learning_rate": 3.036906666666667e-06, + "loss": 0.0, + "step": 159100 + }, + { + "epoch": 2.5472, + "grad_norm": 3.079087262936042e-10, + "learning_rate": 3.02624e-06, + "loss": 0.0, + "step": 159200 + }, + { + "epoch": 2.5488, + "grad_norm": 3.1119368193444075e-10, + "learning_rate": 3.015573333333334e-06, + "loss": 0.0, + "step": 159300 + }, + { + "epoch": 2.5504, + "grad_norm": 3.303222972927955e-10, + "learning_rate": 3.0050133333333337e-06, + "loss": 0.0, + "step": 159400 + }, + { + "epoch": 2.552, + "grad_norm": 3.4466504650332297e-10, + "learning_rate": 2.994346666666667e-06, + "loss": 0.0, + "step": 159500 + }, + { + "epoch": 2.5536, + "grad_norm": 3.401476877940013e-10, + "learning_rate": 2.9836800000000006e-06, + "loss": 0.0, + "step": 159600 + }, + { + "epoch": 2.5552, + "grad_norm": 3.2524985482673685e-10, + "learning_rate": 2.9730133333333334e-06, + "loss": 0.0, + "step": 159700 + }, + { + "epoch": 2.5568, + "grad_norm": 2.806732624094366e-10, + "learning_rate": 2.9623466666666667e-06, + "loss": 0.0, + "step": 159800 + }, + { + "epoch": 2.5584, + "grad_norm": 3.5666730680006253e-10, + "learning_rate": 2.95168e-06, + "loss": 0.0, + "step": 159900 + }, + { + "epoch": 2.56, + "grad_norm": 2.9318042438220004e-10, + "learning_rate": 2.9410133333333336e-06, + "loss": 0.0, + "step": 160000 + }, + { + "epoch": 2.5616, + "grad_norm": 3.1851063453380846e-10, + "learning_rate": 2.930346666666667e-06, + "loss": 0.0, + "step": 160100 + }, + { + "epoch": 2.5632, + "grad_norm": 3.4052025088548987e-10, + "learning_rate": 2.9196800000000005e-06, + "loss": 0.0, + "step": 160200 + }, + { + "epoch": 2.5648, + "grad_norm": 3.1797589561399775e-10, + "learning_rate": 2.9090133333333337e-06, + "loss": 0.0, + "step": 160300 + }, + { + "epoch": 2.5664, + "grad_norm": 3.850268159855119e-10, + "learning_rate": 2.898346666666667e-06, + "loss": 0.0, + "step": 160400 + }, + { + "epoch": 2.568, + "grad_norm": 2.8383859151936974e-10, + "learning_rate": 2.8876800000000006e-06, + "loss": 0.0, + "step": 160500 + }, + { + "epoch": 2.5696, + "grad_norm": 2.8885893676999785e-10, + "learning_rate": 2.8770133333333334e-06, + "loss": 0.0, + "step": 160600 + }, + { + "epoch": 2.5712, + "grad_norm": 3.1816874135337514e-10, + "learning_rate": 2.8663466666666667e-06, + "loss": 0.0, + "step": 160700 + }, + { + "epoch": 2.5728, + "grad_norm": 3.38191530335763e-10, + "learning_rate": 2.8556800000000003e-06, + "loss": 0.0, + "step": 160800 + }, + { + "epoch": 2.5744, + "grad_norm": 3.401935400049183e-10, + "learning_rate": 2.8450133333333336e-06, + "loss": 0.0, + "step": 160900 + }, + { + "epoch": 2.576, + "grad_norm": 3.421747052367863e-10, + "learning_rate": 2.834346666666667e-06, + "loss": 0.0, + "step": 161000 + }, + { + "epoch": 2.5776, + "grad_norm": 3.2532287974618157e-10, + "learning_rate": 2.8236800000000005e-06, + "loss": 0.0, + "step": 161100 + }, + { + "epoch": 2.5792, + "grad_norm": 2.8875057900279444e-10, + "learning_rate": 2.8130133333333337e-06, + "loss": 0.0, + "step": 161200 + }, + { + "epoch": 2.5808, + "grad_norm": 3.3930924736580437e-10, + "learning_rate": 2.802346666666667e-06, + "loss": 0.0, + "step": 161300 + }, + { + "epoch": 2.5824, + "grad_norm": 3.2473287947532015e-10, + "learning_rate": 2.7917866666666672e-06, + "loss": 0.0, + "step": 161400 + }, + { + "epoch": 2.584, + "grad_norm": 3.1654698307015394e-10, + "learning_rate": 2.7811200000000005e-06, + "loss": 0.0, + "step": 161500 + }, + { + "epoch": 2.5856, + "grad_norm": 3.292897898798941e-10, + "learning_rate": 2.7704533333333333e-06, + "loss": 0.0, + "step": 161600 + }, + { + "epoch": 2.5872, + "grad_norm": 3.099091261393738e-10, + "learning_rate": 2.7597866666666665e-06, + "loss": 0.0, + "step": 161700 + }, + { + "epoch": 2.5888, + "grad_norm": 3.0858771093988935e-10, + "learning_rate": 2.74912e-06, + "loss": 0.0, + "step": 161800 + }, + { + "epoch": 2.5904, + "grad_norm": 2.997130599258213e-10, + "learning_rate": 2.7384533333333334e-06, + "loss": 0.0, + "step": 161900 + }, + { + "epoch": 2.592, + "grad_norm": 3.0101576786734086e-10, + "learning_rate": 2.727786666666667e-06, + "loss": 0.0, + "step": 162000 + }, + { + "epoch": 2.5936, + "grad_norm": 3.2170247021845455e-10, + "learning_rate": 2.7171200000000003e-06, + "loss": 0.0, + "step": 162100 + }, + { + "epoch": 2.5952, + "grad_norm": 3.3759031681235285e-10, + "learning_rate": 2.7064533333333336e-06, + "loss": 0.0, + "step": 162200 + }, + { + "epoch": 2.5968, + "grad_norm": 3.295141104420196e-10, + "learning_rate": 2.6957866666666672e-06, + "loss": 0.0, + "step": 162300 + }, + { + "epoch": 2.5984, + "grad_norm": 2.904882445697865e-10, + "learning_rate": 2.68512e-06, + "loss": 0.0, + "step": 162400 + }, + { + "epoch": 2.6, + "grad_norm": 3.2209068745459035e-10, + "learning_rate": 2.6744533333333333e-06, + "loss": 0.0, + "step": 162500 + }, + { + "epoch": 2.6016, + "grad_norm": 3.050981134400388e-10, + "learning_rate": 2.663786666666667e-06, + "loss": 0.0, + "step": 162600 + }, + { + "epoch": 2.6032, + "grad_norm": 3.24024002074097e-10, + "learning_rate": 2.65312e-06, + "loss": 0.0, + "step": 162700 + }, + { + "epoch": 2.6048, + "grad_norm": 3.0734637057605596e-10, + "learning_rate": 2.6424533333333334e-06, + "loss": 0.0, + "step": 162800 + }, + { + "epoch": 2.6064, + "grad_norm": 3.1203578609861893e-10, + "learning_rate": 2.631786666666667e-06, + "loss": 0.0, + "step": 162900 + }, + { + "epoch": 2.608, + "grad_norm": 2.9264501932857456e-10, + "learning_rate": 2.6211200000000003e-06, + "loss": 0.0, + "step": 163000 + }, + { + "epoch": 2.6096, + "grad_norm": 3.4552544159183185e-10, + "learning_rate": 2.6104533333333336e-06, + "loss": 0.0, + "step": 163100 + }, + { + "epoch": 2.6112, + "grad_norm": 3.059253683712626e-10, + "learning_rate": 2.5997866666666672e-06, + "loss": 0.0, + "step": 163200 + }, + { + "epoch": 2.6128, + "grad_norm": 3.136606807618847e-10, + "learning_rate": 2.58912e-06, + "loss": 0.0, + "step": 163300 + }, + { + "epoch": 2.6144, + "grad_norm": NaN, + "learning_rate": 2.57856e-06, + "loss": 0.0, + "step": 163400 + }, + { + "epoch": 2.616, + "grad_norm": 3.3314806469064706e-10, + "learning_rate": 2.567893333333333e-06, + "loss": 0.0, + "step": 163500 + }, + { + "epoch": 2.6176, + "grad_norm": 3.2303265617983357e-10, + "learning_rate": 2.557226666666667e-06, + "loss": 0.0, + "step": 163600 + }, + { + "epoch": 2.6192, + "grad_norm": 3.2077226985727236e-10, + "learning_rate": 2.54656e-06, + "loss": 0.0, + "step": 163700 + }, + { + "epoch": 2.6208, + "grad_norm": 3.371652124162239e-10, + "learning_rate": 2.5358933333333337e-06, + "loss": 0.0, + "step": 163800 + }, + { + "epoch": 2.6224, + "grad_norm": 2.8985713829143833e-10, + "learning_rate": 2.525226666666667e-06, + "loss": 0.0, + "step": 163900 + }, + { + "epoch": 2.624, + "grad_norm": 3.8369069033095116e-10, + "learning_rate": 2.51456e-06, + "loss": 0.0, + "step": 164000 + }, + { + "epoch": 2.6256, + "grad_norm": 3.600154063754246e-10, + "learning_rate": 2.503893333333334e-06, + "loss": 0.0, + "step": 164100 + }, + { + "epoch": 2.6272, + "grad_norm": 3.504948553612053e-10, + "learning_rate": 2.4932266666666667e-06, + "loss": 0.0, + "step": 164200 + }, + { + "epoch": 2.6288, + "grad_norm": 2.935369169954072e-10, + "learning_rate": 2.4825600000000003e-06, + "loss": 0.0, + "step": 164300 + }, + { + "epoch": 2.6304, + "grad_norm": 3.1506069975151263e-10, + "learning_rate": 2.4718933333333336e-06, + "loss": 0.0, + "step": 164400 + }, + { + "epoch": 2.632, + "grad_norm": 2.9718971727987764e-10, + "learning_rate": 2.461226666666667e-06, + "loss": 0.0, + "step": 164500 + }, + { + "epoch": 2.6336, + "grad_norm": 3.534537384997094e-10, + "learning_rate": 2.45056e-06, + "loss": 0.0, + "step": 164600 + }, + { + "epoch": 2.6352, + "grad_norm": 3.0352545477008164e-10, + "learning_rate": 2.4398933333333337e-06, + "loss": 0.0, + "step": 164700 + }, + { + "epoch": 2.6368, + "grad_norm": 3.1973865222134634e-10, + "learning_rate": 2.429226666666667e-06, + "loss": 0.0, + "step": 164800 + }, + { + "epoch": 2.6384, + "grad_norm": 3.0601232658966637e-10, + "learning_rate": 2.41856e-06, + "loss": 0.0, + "step": 164900 + }, + { + "epoch": 2.64, + "grad_norm": 3.0535610151538606e-10, + "learning_rate": 2.4078933333333334e-06, + "loss": 0.0, + "step": 165000 + }, + { + "epoch": 2.6416, + "grad_norm": 2.988440606088716e-10, + "learning_rate": 2.3972266666666667e-06, + "loss": 0.0, + "step": 165100 + }, + { + "epoch": 2.6432, + "grad_norm": 3.361895761777589e-10, + "learning_rate": 2.3865600000000003e-06, + "loss": 0.0, + "step": 165200 + }, + { + "epoch": 2.6448, + "grad_norm": 3.0815813789608626e-10, + "learning_rate": 2.3758933333333336e-06, + "loss": 0.0, + "step": 165300 + }, + { + "epoch": 2.6464, + "grad_norm": 3.3706906710229134e-10, + "learning_rate": 2.365226666666667e-06, + "loss": 0.0, + "step": 165400 + }, + { + "epoch": 2.648, + "grad_norm": 3.0773777970338756e-10, + "learning_rate": 2.3546666666666667e-06, + "loss": 0.0, + "step": 165500 + }, + { + "epoch": 2.6496, + "grad_norm": 3.276991178413624e-10, + "learning_rate": 2.3440000000000003e-06, + "loss": 0.0, + "step": 165600 + }, + { + "epoch": 2.6512000000000002, + "grad_norm": 3.143424964768826e-10, + "learning_rate": 2.3334400000000002e-06, + "loss": 0.0065, + "step": 165700 + }, + { + "epoch": 2.6528, + "grad_norm": 2.6370494676797307e-10, + "learning_rate": 2.3227733333333335e-06, + "loss": 0.0, + "step": 165800 + }, + { + "epoch": 2.6544, + "grad_norm": 3.018688354838872e-10, + "learning_rate": 2.312106666666667e-06, + "loss": 0.0, + "step": 165900 + }, + { + "epoch": 2.656, + "grad_norm": 3.181157282039493e-10, + "learning_rate": 2.30144e-06, + "loss": 0.0, + "step": 166000 + }, + { + "epoch": 2.6576, + "grad_norm": 3.319764185771845e-10, + "learning_rate": 2.2907733333333336e-06, + "loss": 0.0, + "step": 166100 + }, + { + "epoch": 2.6592000000000002, + "grad_norm": 3.4610175836391477e-10, + "learning_rate": 2.280106666666667e-06, + "loss": 0.0, + "step": 166200 + }, + { + "epoch": 2.6608, + "grad_norm": 3.190221975479801e-10, + "learning_rate": 2.26944e-06, + "loss": 0.0, + "step": 166300 + }, + { + "epoch": 2.6624, + "grad_norm": 3.556514249769549e-10, + "learning_rate": 2.2587733333333337e-06, + "loss": 0.0, + "step": 166400 + }, + { + "epoch": 2.664, + "grad_norm": 3.342463805733331e-10, + "learning_rate": 2.248106666666667e-06, + "loss": 0.0, + "step": 166500 + }, + { + "epoch": 2.6656, + "grad_norm": 3.412072568931279e-10, + "learning_rate": 2.2374400000000002e-06, + "loss": 0.0, + "step": 166600 + }, + { + "epoch": 2.6672000000000002, + "grad_norm": 3.020536876174873e-10, + "learning_rate": 2.2267733333333335e-06, + "loss": 0.0, + "step": 166700 + }, + { + "epoch": 2.6688, + "grad_norm": 2.9516125654716063e-10, + "learning_rate": 2.216106666666667e-06, + "loss": 0.0, + "step": 166800 + }, + { + "epoch": 2.6704, + "grad_norm": 2.6047011769669837e-10, + "learning_rate": 2.20544e-06, + "loss": 0.0, + "step": 166900 + }, + { + "epoch": 2.672, + "grad_norm": 3.233562584359362e-10, + "learning_rate": 2.1947733333333336e-06, + "loss": 0.0, + "step": 167000 + }, + { + "epoch": 2.6736, + "grad_norm": 2.978616242543808e-10, + "learning_rate": 2.184106666666667e-06, + "loss": 0.0, + "step": 167100 + }, + { + "epoch": 2.6752000000000002, + "grad_norm": 2.8724889133968645e-10, + "learning_rate": 2.17344e-06, + "loss": 0.0, + "step": 167200 + }, + { + "epoch": 2.6768, + "grad_norm": 3.096752021480853e-10, + "learning_rate": 2.1627733333333333e-06, + "loss": 0.0, + "step": 167300 + }, + { + "epoch": 2.6784, + "grad_norm": 2.9209235030691616e-10, + "learning_rate": 2.152106666666667e-06, + "loss": 0.0, + "step": 167400 + }, + { + "epoch": 2.68, + "grad_norm": 3.190720465617858e-10, + "learning_rate": 2.14144e-06, + "loss": 0.0, + "step": 167500 + }, + { + "epoch": 2.6816, + "grad_norm": 2.834701917642235e-10, + "learning_rate": 2.1307733333333334e-06, + "loss": 0.0, + "step": 167600 + }, + { + "epoch": 2.6832000000000003, + "grad_norm": 3.2131677873969977e-10, + "learning_rate": 2.1201066666666667e-06, + "loss": 0.0, + "step": 167700 + }, + { + "epoch": 2.6848, + "grad_norm": 2.9026087089434327e-10, + "learning_rate": 2.10944e-06, + "loss": 0.0, + "step": 167800 + }, + { + "epoch": 2.6864, + "grad_norm": 3.167019146932404e-10, + "learning_rate": 2.0987733333333336e-06, + "loss": 0.0, + "step": 167900 + }, + { + "epoch": 2.6879999999999997, + "grad_norm": 3.771067347280166e-10, + "learning_rate": 2.088106666666667e-06, + "loss": 0.0, + "step": 168000 + }, + { + "epoch": 2.6896, + "grad_norm": 2.836681722850898e-10, + "learning_rate": 2.0774400000000005e-06, + "loss": 0.0, + "step": 168100 + }, + { + "epoch": 2.6912000000000003, + "grad_norm": 3.2491470625117813e-10, + "learning_rate": 2.0667733333333333e-06, + "loss": 0.0, + "step": 168200 + }, + { + "epoch": 2.6928, + "grad_norm": 3.443764717836473e-10, + "learning_rate": 2.056106666666667e-06, + "loss": 0.0, + "step": 168300 + }, + { + "epoch": 2.6944, + "grad_norm": 3.0836522224575447e-10, + "learning_rate": 2.04544e-06, + "loss": 0.0, + "step": 168400 + }, + { + "epoch": 2.6959999999999997, + "grad_norm": 3.2039593200750005e-10, + "learning_rate": 2.0347733333333334e-06, + "loss": 0.0, + "step": 168500 + }, + { + "epoch": 2.6976, + "grad_norm": 3.1799221589245974e-10, + "learning_rate": 2.0241066666666667e-06, + "loss": 0.0, + "step": 168600 + }, + { + "epoch": 2.6992000000000003, + "grad_norm": 3.134203729882046e-10, + "learning_rate": 2.0134400000000003e-06, + "loss": 0.0, + "step": 168700 + }, + { + "epoch": 2.7008, + "grad_norm": 3.483126009840021e-10, + "learning_rate": 2.0027733333333336e-06, + "loss": 0.0, + "step": 168800 + }, + { + "epoch": 2.7024, + "grad_norm": 3.3253999554005986e-10, + "learning_rate": 1.992106666666667e-06, + "loss": 0.0, + "step": 168900 + }, + { + "epoch": 2.7039999999999997, + "grad_norm": 2.893058015374095e-10, + "learning_rate": 1.98144e-06, + "loss": 0.0, + "step": 169000 + }, + { + "epoch": 2.7056, + "grad_norm": 3.5999400682662497e-10, + "learning_rate": 1.9707733333333333e-06, + "loss": 0.0, + "step": 169100 + }, + { + "epoch": 2.7072000000000003, + "grad_norm": 2.9116584143729085e-10, + "learning_rate": 1.960106666666667e-06, + "loss": 0.0, + "step": 169200 + }, + { + "epoch": 2.7088, + "grad_norm": 2.9615879193478634e-10, + "learning_rate": 1.94944e-06, + "loss": 0.0, + "step": 169300 + }, + { + "epoch": 2.7104, + "grad_norm": 3.2400795935139115e-10, + "learning_rate": 1.9387733333333334e-06, + "loss": 0.0, + "step": 169400 + }, + { + "epoch": 2.7119999999999997, + "grad_norm": 3.4416630656508573e-10, + "learning_rate": 1.9281066666666667e-06, + "loss": 0.0, + "step": 169500 + }, + { + "epoch": 2.7136, + "grad_norm": 2.6389568308360367e-10, + "learning_rate": 1.9174400000000003e-06, + "loss": 0.0, + "step": 169600 + }, + { + "epoch": 2.7152, + "grad_norm": 3.7343853009907946e-10, + "learning_rate": 1.9068800000000002e-06, + "loss": 0.0, + "step": 169700 + }, + { + "epoch": 2.7168, + "grad_norm": 3.046977115062077e-10, + "learning_rate": 1.8962133333333334e-06, + "loss": 0.0, + "step": 169800 + }, + { + "epoch": 2.7184, + "grad_norm": 3.1630034702523346e-10, + "learning_rate": 1.8855466666666669e-06, + "loss": 0.0, + "step": 169900 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 3.278470273038181e-10, + "learning_rate": 1.8748800000000001e-06, + "loss": 0.0, + "step": 170000 + }, + { + "epoch": 2.7216, + "grad_norm": 2.769589557694019e-10, + "learning_rate": 1.8642133333333334e-06, + "loss": 0.0, + "step": 170100 + }, + { + "epoch": 2.7232, + "grad_norm": 2.7673438540709583e-10, + "learning_rate": 1.8535466666666668e-06, + "loss": 0.0, + "step": 170200 + }, + { + "epoch": 2.7248, + "grad_norm": 3.0530780681381486e-10, + "learning_rate": 1.8428800000000003e-06, + "loss": 0.0, + "step": 170300 + }, + { + "epoch": 2.7264, + "grad_norm": 3.48880035971888e-10, + "learning_rate": 1.8322133333333337e-06, + "loss": 0.0, + "step": 170400 + }, + { + "epoch": 2.7279999999999998, + "grad_norm": 3.5415781418635106e-10, + "learning_rate": 1.8215466666666667e-06, + "loss": 0.0, + "step": 170500 + }, + { + "epoch": 2.7296, + "grad_norm": 3.4133662563107237e-10, + "learning_rate": 1.8108800000000002e-06, + "loss": 0.0, + "step": 170600 + }, + { + "epoch": 2.7312, + "grad_norm": 3.358066602565657e-10, + "learning_rate": 1.8002133333333336e-06, + "loss": 0.0, + "step": 170700 + }, + { + "epoch": 2.7328, + "grad_norm": 3.0527436134519803e-10, + "learning_rate": 1.7895466666666669e-06, + "loss": 0.0, + "step": 170800 + }, + { + "epoch": 2.7344, + "grad_norm": 2.903139950660716e-10, + "learning_rate": 1.7788800000000001e-06, + "loss": 0.0, + "step": 170900 + }, + { + "epoch": 2.7359999999999998, + "grad_norm": 2.8370572557889773e-10, + "learning_rate": 1.7682133333333333e-06, + "loss": 0.0, + "step": 171000 + }, + { + "epoch": 2.7376, + "grad_norm": 3.0924088290085194e-10, + "learning_rate": 1.7575466666666668e-06, + "loss": 0.0, + "step": 171100 + }, + { + "epoch": 2.7392, + "grad_norm": 3.4553179761864783e-10, + "learning_rate": 1.7468800000000002e-06, + "loss": 0.0, + "step": 171200 + }, + { + "epoch": 2.7408, + "grad_norm": 3.1518021526011353e-10, + "learning_rate": 1.7362133333333333e-06, + "loss": 0.0, + "step": 171300 + }, + { + "epoch": 2.7424, + "grad_norm": 3.2573624353382513e-10, + "learning_rate": 1.7255466666666667e-06, + "loss": 0.0, + "step": 171400 + }, + { + "epoch": 2.7439999999999998, + "grad_norm": 3.714730190118587e-10, + "learning_rate": 1.7148800000000002e-06, + "loss": 0.0, + "step": 171500 + }, + { + "epoch": 2.7456, + "grad_norm": 2.9144306412653975e-10, + "learning_rate": 1.7042133333333336e-06, + "loss": 0.0, + "step": 171600 + }, + { + "epoch": 2.7472, + "grad_norm": 3.304731210906908e-10, + "learning_rate": 1.6936533333333335e-06, + "loss": 0.0, + "step": 171700 + }, + { + "epoch": 2.7488, + "grad_norm": 3.540435444815415e-10, + "learning_rate": 1.682986666666667e-06, + "loss": 0.0, + "step": 171800 + }, + { + "epoch": 2.7504, + "grad_norm": 2.9305965987269644e-10, + "learning_rate": 1.67232e-06, + "loss": 0.0, + "step": 171900 + }, + { + "epoch": 2.752, + "grad_norm": 3.110870727685011e-10, + "learning_rate": 1.6616533333333334e-06, + "loss": 0.0, + "step": 172000 + }, + { + "epoch": 2.7536, + "grad_norm": 2.9710356397316673e-10, + "learning_rate": 1.6509866666666669e-06, + "loss": 0.0, + "step": 172100 + }, + { + "epoch": 2.7552, + "grad_norm": 2.9852809113606327e-10, + "learning_rate": 1.6403200000000003e-06, + "loss": 0.0, + "step": 172200 + }, + { + "epoch": 2.7568, + "grad_norm": 3.2862107479658675e-10, + "learning_rate": 1.6296533333333334e-06, + "loss": 0.0, + "step": 172300 + }, + { + "epoch": 2.7584, + "grad_norm": 2.9260555090004914e-10, + "learning_rate": 1.6189866666666668e-06, + "loss": 0.0, + "step": 172400 + }, + { + "epoch": 2.76, + "grad_norm": 3.2232441715684956e-10, + "learning_rate": 1.6083200000000003e-06, + "loss": 0.0, + "step": 172500 + }, + { + "epoch": 2.7616, + "grad_norm": 2.7783192413366464e-10, + "learning_rate": 1.5976533333333335e-06, + "loss": 0.0, + "step": 172600 + }, + { + "epoch": 2.7632, + "grad_norm": 3.396289915968964e-10, + "learning_rate": 1.5869866666666667e-06, + "loss": 0.0, + "step": 172700 + }, + { + "epoch": 2.7648, + "grad_norm": 2.938864429591348e-10, + "learning_rate": 1.57632e-06, + "loss": 0.0, + "step": 172800 + }, + { + "epoch": 2.7664, + "grad_norm": 3.236617363011618e-10, + "learning_rate": 1.5656533333333334e-06, + "loss": 0.0, + "step": 172900 + }, + { + "epoch": 2.768, + "grad_norm": 2.997008197169748e-10, + "learning_rate": 1.5549866666666669e-06, + "loss": 0.0, + "step": 173000 + }, + { + "epoch": 2.7696, + "grad_norm": 3.379546642534592e-10, + "learning_rate": 1.5443200000000003e-06, + "loss": 0.0, + "step": 173100 + }, + { + "epoch": 2.7712, + "grad_norm": 3.4065286702578135e-10, + "learning_rate": 1.5336533333333333e-06, + "loss": 0.0, + "step": 173200 + }, + { + "epoch": 2.7728, + "grad_norm": 3.1768268571319425e-10, + "learning_rate": 1.5229866666666668e-06, + "loss": 0.0, + "step": 173300 + }, + { + "epoch": 2.7744, + "grad_norm": 2.9884877905672624e-10, + "learning_rate": 1.5123200000000002e-06, + "loss": 0.0, + "step": 173400 + }, + { + "epoch": 2.776, + "grad_norm": 3.123230840618163e-10, + "learning_rate": 1.5016533333333335e-06, + "loss": 0.0, + "step": 173500 + }, + { + "epoch": 2.7776, + "grad_norm": 3.99788341320928e-10, + "learning_rate": 1.4909866666666667e-06, + "loss": 0.0, + "step": 173600 + }, + { + "epoch": 2.7792, + "grad_norm": 3.0887808977198006e-10, + "learning_rate": 1.4804266666666666e-06, + "loss": 0.0, + "step": 173700 + }, + { + "epoch": 2.7808, + "grad_norm": 3.095281531084737e-10, + "learning_rate": 1.46976e-06, + "loss": 0.0, + "step": 173800 + }, + { + "epoch": 2.7824, + "grad_norm": 3.384535152139989e-10, + "learning_rate": 1.4590933333333335e-06, + "loss": 0.0, + "step": 173900 + }, + { + "epoch": 2.784, + "grad_norm": 2.8974864174635684e-10, + "learning_rate": 1.448426666666667e-06, + "loss": 0.0, + "step": 174000 + }, + { + "epoch": 2.7856, + "grad_norm": 3.2321445520011594e-10, + "learning_rate": 1.43776e-06, + "loss": 0.0, + "step": 174100 + }, + { + "epoch": 2.7872, + "grad_norm": 2.992701086945715e-10, + "learning_rate": 1.4270933333333334e-06, + "loss": 0.0, + "step": 174200 + }, + { + "epoch": 2.7888, + "grad_norm": 3.1115673926329634e-10, + "learning_rate": 1.4164266666666669e-06, + "loss": 0.0, + "step": 174300 + }, + { + "epoch": 2.7904, + "grad_norm": 3.2644395520087244e-10, + "learning_rate": 1.4057600000000001e-06, + "loss": 0.0, + "step": 174400 + }, + { + "epoch": 2.792, + "grad_norm": 3.723112929066019e-10, + "learning_rate": 1.3950933333333336e-06, + "loss": 0.0, + "step": 174500 + }, + { + "epoch": 2.7936, + "grad_norm": 3.703586048953156e-10, + "learning_rate": 1.3844266666666666e-06, + "loss": 0.0, + "step": 174600 + }, + { + "epoch": 2.7952, + "grad_norm": 3.0897059910550695e-10, + "learning_rate": 1.37376e-06, + "loss": 0.0, + "step": 174700 + }, + { + "epoch": 2.7968, + "grad_norm": 3.2070224253999413e-10, + "learning_rate": 1.3630933333333335e-06, + "loss": 0.0, + "step": 174800 + }, + { + "epoch": 2.7984, + "grad_norm": 3.071203569238179e-10, + "learning_rate": 1.352426666666667e-06, + "loss": 0.0, + "step": 174900 + }, + { + "epoch": 2.8, + "grad_norm": 3.2045224807042416e-10, + "learning_rate": 1.34176e-06, + "loss": 0.0, + "step": 175000 + }, + { + "epoch": 2.8016, + "grad_norm": 3.4741520771319756e-10, + "learning_rate": 1.3310933333333334e-06, + "loss": 0.0, + "step": 175100 + }, + { + "epoch": 2.8032, + "grad_norm": 3.2869723609607604e-10, + "learning_rate": 1.3204266666666669e-06, + "loss": 0.0, + "step": 175200 + }, + { + "epoch": 2.8048, + "grad_norm": 2.76132644527749e-10, + "learning_rate": 1.30976e-06, + "loss": 0.0, + "step": 175300 + }, + { + "epoch": 2.8064, + "grad_norm": 3.2736943711419997e-10, + "learning_rate": 1.2990933333333333e-06, + "loss": 0.0, + "step": 175400 + }, + { + "epoch": 2.808, + "grad_norm": 3.0595809219491343e-10, + "learning_rate": 1.2884266666666668e-06, + "loss": 0.0, + "step": 175500 + }, + { + "epoch": 2.8096, + "grad_norm": 3.424497907467128e-10, + "learning_rate": 1.27776e-06, + "loss": 0.0, + "step": 175600 + }, + { + "epoch": 2.8112, + "grad_norm": 2.9743957297156953e-10, + "learning_rate": 1.2672000000000001e-06, + "loss": 0.0, + "step": 175700 + }, + { + "epoch": 2.8128, + "grad_norm": 2.664946319175243e-10, + "learning_rate": 1.2565333333333336e-06, + "loss": 0.0, + "step": 175800 + }, + { + "epoch": 2.8144, + "grad_norm": 3.0223282210251057e-10, + "learning_rate": 1.2458666666666668e-06, + "loss": 0.0, + "step": 175900 + }, + { + "epoch": 2.816, + "grad_norm": 2.9249402899722554e-10, + "learning_rate": 1.2352e-06, + "loss": 0.0, + "step": 176000 + }, + { + "epoch": 2.8176, + "grad_norm": 2.851926472757782e-10, + "learning_rate": 1.2245333333333335e-06, + "loss": 0.0, + "step": 176100 + }, + { + "epoch": 2.8192, + "grad_norm": 2.9747673768731886e-10, + "learning_rate": 1.2138666666666667e-06, + "loss": 0.0, + "step": 176200 + }, + { + "epoch": 2.8208, + "grad_norm": 2.775578655800359e-10, + "learning_rate": 1.2032e-06, + "loss": 0.0, + "step": 176300 + }, + { + "epoch": 2.8224, + "grad_norm": 3.2689842499600275e-10, + "learning_rate": 1.1925333333333334e-06, + "loss": 0.0, + "step": 176400 + }, + { + "epoch": 2.824, + "grad_norm": 3.107768209442696e-10, + "learning_rate": 1.1818666666666667e-06, + "loss": 0.0, + "step": 176500 + }, + { + "epoch": 2.8256, + "grad_norm": 2.765416229344453e-10, + "learning_rate": 1.1712000000000001e-06, + "loss": 0.0, + "step": 176600 + }, + { + "epoch": 2.8272, + "grad_norm": 2.9883207020020564e-10, + "learning_rate": 1.1605333333333333e-06, + "loss": 0.0, + "step": 176700 + }, + { + "epoch": 2.8288, + "grad_norm": 2.687223221720103e-10, + "learning_rate": 1.1498666666666668e-06, + "loss": 0.0, + "step": 176800 + }, + { + "epoch": 2.8304, + "grad_norm": 3.4705982532301505e-10, + "learning_rate": 1.1392e-06, + "loss": 0.0, + "step": 176900 + }, + { + "epoch": 2.832, + "grad_norm": 3.4595928899427975e-10, + "learning_rate": 1.1285333333333335e-06, + "loss": 0.0, + "step": 177000 + }, + { + "epoch": 2.8336, + "grad_norm": 2.6898216987092383e-10, + "learning_rate": 1.1178666666666667e-06, + "loss": 0.0, + "step": 177100 + }, + { + "epoch": 2.8352, + "grad_norm": 3.076772725485455e-10, + "learning_rate": 1.1072000000000002e-06, + "loss": 0.0, + "step": 177200 + }, + { + "epoch": 2.8368, + "grad_norm": 2.87662615949813e-10, + "learning_rate": 1.0965333333333334e-06, + "loss": 0.0, + "step": 177300 + }, + { + "epoch": 2.8384, + "grad_norm": 3.1225497187925555e-10, + "learning_rate": 1.0858666666666666e-06, + "loss": 0.0, + "step": 177400 + }, + { + "epoch": 2.84, + "grad_norm": 2.779325103396957e-10, + "learning_rate": 1.0752e-06, + "loss": 0.0, + "step": 177500 + }, + { + "epoch": 2.8416, + "grad_norm": 3.217659194643119e-10, + "learning_rate": 1.0645333333333333e-06, + "loss": 0.0, + "step": 177600 + }, + { + "epoch": 2.8432, + "grad_norm": 2.779845797995506e-10, + "learning_rate": 1.0539733333333334e-06, + "loss": 0.0, + "step": 177700 + }, + { + "epoch": 2.8448, + "grad_norm": 3.087359257136768e-10, + "learning_rate": 1.0433066666666667e-06, + "loss": 0.0, + "step": 177800 + }, + { + "epoch": 2.8464, + "grad_norm": 2.981088154108136e-10, + "learning_rate": 1.0326400000000001e-06, + "loss": 0.0, + "step": 177900 + }, + { + "epoch": 2.848, + "grad_norm": 3.757291699990617e-10, + "learning_rate": 1.0219733333333334e-06, + "loss": 0.0, + "step": 178000 + }, + { + "epoch": 2.8496, + "grad_norm": 2.870534365762012e-10, + "learning_rate": 1.0113066666666666e-06, + "loss": 0.0, + "step": 178100 + }, + { + "epoch": 2.8512, + "grad_norm": 3.126409686693421e-10, + "learning_rate": 1.00064e-06, + "loss": 0.0, + "step": 178200 + }, + { + "epoch": 2.8528000000000002, + "grad_norm": 3.276486582048932e-10, + "learning_rate": 9.899733333333335e-07, + "loss": 0.0, + "step": 178300 + }, + { + "epoch": 2.8544, + "grad_norm": 3.364022949092771e-10, + "learning_rate": 9.793066666666667e-07, + "loss": 0.0, + "step": 178400 + }, + { + "epoch": 2.856, + "grad_norm": 3.248622482132646e-10, + "learning_rate": 9.686400000000002e-07, + "loss": 0.0, + "step": 178500 + }, + { + "epoch": 2.8576, + "grad_norm": 2.9944829949002383e-10, + "learning_rate": 9.579733333333334e-07, + "loss": 0.0, + "step": 178600 + }, + { + "epoch": 2.8592, + "grad_norm": 3.2465563570838185e-10, + "learning_rate": 9.473066666666668e-07, + "loss": 0.0, + "step": 178700 + }, + { + "epoch": 2.8608000000000002, + "grad_norm": 3.592756925296925e-10, + "learning_rate": 9.3664e-07, + "loss": 0.0, + "step": 178800 + }, + { + "epoch": 2.8624, + "grad_norm": 2.940521437455601e-10, + "learning_rate": 9.259733333333335e-07, + "loss": 0.0, + "step": 178900 + }, + { + "epoch": 2.864, + "grad_norm": 2.9644403598538815e-10, + "learning_rate": 9.153066666666667e-07, + "loss": 0.0, + "step": 179000 + }, + { + "epoch": 2.8656, + "grad_norm": 3.20295345801469e-10, + "learning_rate": 9.046400000000001e-07, + "loss": 0.0, + "step": 179100 + }, + { + "epoch": 2.8672, + "grad_norm": 2.8825888898076357e-10, + "learning_rate": 8.939733333333334e-07, + "loss": 0.0, + "step": 179200 + }, + { + "epoch": 2.8688000000000002, + "grad_norm": 3.144571547597508e-10, + "learning_rate": 8.833066666666667e-07, + "loss": 0.0, + "step": 179300 + }, + { + "epoch": 2.8704, + "grad_norm": 3.102469947613429e-10, + "learning_rate": 8.726400000000001e-07, + "loss": 0.0, + "step": 179400 + }, + { + "epoch": 2.872, + "grad_norm": 3.037401163918929e-10, + "learning_rate": 8.619733333333334e-07, + "loss": 0.0, + "step": 179500 + }, + { + "epoch": 2.8736, + "grad_norm": 3.0520783123044737e-10, + "learning_rate": 8.513066666666666e-07, + "loss": 0.0, + "step": 179600 + }, + { + "epoch": 2.8752, + "grad_norm": 2.939050669503729e-10, + "learning_rate": 8.407466666666668e-07, + "loss": 0.0, + "step": 179700 + }, + { + "epoch": 2.8768000000000002, + "grad_norm": 2.9050467587055095e-10, + "learning_rate": 8.300800000000001e-07, + "loss": 0.0, + "step": 179800 + }, + { + "epoch": 2.8784, + "grad_norm": 3.5562225386698287e-10, + "learning_rate": 8.194133333333334e-07, + "loss": 0.0, + "step": 179900 + }, + { + "epoch": 2.88, + "grad_norm": 3.6935587921504975e-10, + "learning_rate": 8.087466666666667e-07, + "loss": 0.0, + "step": 180000 + }, + { + "epoch": 2.8816, + "grad_norm": 2.9167768200721866e-10, + "learning_rate": 7.980800000000001e-07, + "loss": 0.0, + "step": 180100 + }, + { + "epoch": 2.8832, + "grad_norm": 2.7785679312941625e-10, + "learning_rate": 7.874133333333334e-07, + "loss": 0.0, + "step": 180200 + }, + { + "epoch": 2.8848000000000003, + "grad_norm": 3.365799305932171e-10, + "learning_rate": 7.767466666666668e-07, + "loss": 0.0, + "step": 180300 + }, + { + "epoch": 2.8864, + "grad_norm": 2.958106259942639e-10, + "learning_rate": 7.6608e-07, + "loss": 0.0, + "step": 180400 + }, + { + "epoch": 2.888, + "grad_norm": 3.182503427456851e-10, + "learning_rate": 7.554133333333334e-07, + "loss": 0.0, + "step": 180500 + }, + { + "epoch": 2.8895999999999997, + "grad_norm": 2.977778024160216e-10, + "learning_rate": 7.447466666666666e-07, + "loss": 0.0, + "step": 180600 + }, + { + "epoch": 2.8912, + "grad_norm": 2.9371657883636715e-10, + "learning_rate": 7.340800000000001e-07, + "loss": 0.0, + "step": 180700 + }, + { + "epoch": 2.8928000000000003, + "grad_norm": 3.1584304616139036e-10, + "learning_rate": 7.234133333333333e-07, + "loss": 0.0, + "step": 180800 + }, + { + "epoch": 2.8944, + "grad_norm": 3.3145206024265406e-10, + "learning_rate": 7.127466666666668e-07, + "loss": 0.0, + "step": 180900 + }, + { + "epoch": 2.896, + "grad_norm": 4.0209749418984586e-10, + "learning_rate": 7.020800000000001e-07, + "loss": 0.0, + "step": 181000 + }, + { + "epoch": 2.8975999999999997, + "grad_norm": 3.7493083637762936e-10, + "learning_rate": 6.914133333333333e-07, + "loss": 0.0, + "step": 181100 + }, + { + "epoch": 2.8992, + "grad_norm": 3.5330660619337095e-10, + "learning_rate": 6.807466666666668e-07, + "loss": 0.0, + "step": 181200 + }, + { + "epoch": 2.9008000000000003, + "grad_norm": 3.2444374964413214e-10, + "learning_rate": 6.7008e-07, + "loss": 0.0, + "step": 181300 + }, + { + "epoch": 2.9024, + "grad_norm": 3.0567312570006777e-10, + "learning_rate": 6.594133333333335e-07, + "loss": 0.0, + "step": 181400 + }, + { + "epoch": 2.904, + "grad_norm": 3.1928157340210817e-10, + "learning_rate": 6.487466666666667e-07, + "loss": 0.0, + "step": 181500 + }, + { + "epoch": 2.9055999999999997, + "grad_norm": 3.26211974099877e-10, + "learning_rate": 6.380800000000001e-07, + "loss": 0.0, + "step": 181600 + }, + { + "epoch": 2.9072, + "grad_norm": 3.2589808629523986e-10, + "learning_rate": 6.2752e-07, + "loss": 0.0, + "step": 181700 + }, + { + "epoch": 2.9088000000000003, + "grad_norm": 3.1860600269162376e-10, + "learning_rate": 6.168533333333334e-07, + "loss": 0.0, + "step": 181800 + }, + { + "epoch": 2.9104, + "grad_norm": 3.009393012565198e-10, + "learning_rate": 6.061866666666667e-07, + "loss": 0.0, + "step": 181900 + }, + { + "epoch": 2.912, + "grad_norm": 3.2634150937127515e-10, + "learning_rate": 5.955200000000001e-07, + "loss": 0.0, + "step": 182000 + }, + { + "epoch": 2.9135999999999997, + "grad_norm": 3.224905342769091e-10, + "learning_rate": 5.848533333333334e-07, + "loss": 0.0, + "step": 182100 + }, + { + "epoch": 2.9152, + "grad_norm": 2.895942097236315e-10, + "learning_rate": 5.741866666666667e-07, + "loss": 0.0, + "step": 182200 + }, + { + "epoch": 2.9168, + "grad_norm": 2.7783936262792963e-10, + "learning_rate": 5.6352e-07, + "loss": 0.0, + "step": 182300 + }, + { + "epoch": 2.9184, + "grad_norm": 3.2582775366662986e-10, + "learning_rate": 5.528533333333333e-07, + "loss": 0.0, + "step": 182400 + }, + { + "epoch": 2.92, + "grad_norm": 3.0822577823386155e-10, + "learning_rate": 5.421866666666667e-07, + "loss": 0.0, + "step": 182500 + }, + { + "epoch": 2.9215999999999998, + "grad_norm": 3.2398525529053757e-10, + "learning_rate": 5.3152e-07, + "loss": 0.0, + "step": 182600 + }, + { + "epoch": 2.9232, + "grad_norm": 3.0330368772091276e-10, + "learning_rate": 5.208533333333334e-07, + "loss": 0.0, + "step": 182700 + }, + { + "epoch": 2.9248, + "grad_norm": 3.256079295077541e-10, + "learning_rate": 5.101866666666667e-07, + "loss": 0.0, + "step": 182800 + }, + { + "epoch": 2.9264, + "grad_norm": 2.909952279139816e-10, + "learning_rate": 4.995200000000001e-07, + "loss": 0.0, + "step": 182900 + }, + { + "epoch": 2.928, + "grad_norm": 2.7164465121742865e-10, + "learning_rate": 4.888533333333334e-07, + "loss": 0.0, + "step": 183000 + }, + { + "epoch": 2.9295999999999998, + "grad_norm": 3.245701207799101e-10, + "learning_rate": 4.781866666666668e-07, + "loss": 0.0, + "step": 183100 + }, + { + "epoch": 2.9312, + "grad_norm": 3.332680520440334e-10, + "learning_rate": 4.6752000000000005e-07, + "loss": 0.0, + "step": 183200 + }, + { + "epoch": 2.9328, + "grad_norm": 2.8932620188548697e-10, + "learning_rate": 4.568533333333334e-07, + "loss": 0.0, + "step": 183300 + }, + { + "epoch": 2.9344, + "grad_norm": 2.787366448764317e-10, + "learning_rate": 4.4618666666666673e-07, + "loss": 0.0, + "step": 183400 + }, + { + "epoch": 2.936, + "grad_norm": 3.472513943059141e-10, + "learning_rate": 4.3552e-07, + "loss": 0.0, + "step": 183500 + }, + { + "epoch": 2.9375999999999998, + "grad_norm": 3.371311840805191e-10, + "learning_rate": 4.2485333333333337e-07, + "loss": 0.0, + "step": 183600 + }, + { + "epoch": 2.9392, + "grad_norm": 3.422269689856705e-10, + "learning_rate": 4.1429333333333336e-07, + "loss": 0.0, + "step": 183700 + }, + { + "epoch": 2.9408, + "grad_norm": 3.1237873399092564e-10, + "learning_rate": 4.036266666666667e-07, + "loss": 0.0, + "step": 183800 + }, + { + "epoch": 2.9424, + "grad_norm": 3.3619818040619975e-10, + "learning_rate": 3.9296e-07, + "loss": 0.0, + "step": 183900 + }, + { + "epoch": 2.944, + "grad_norm": 3.111698398949869e-10, + "learning_rate": 3.8229333333333334e-07, + "loss": 0.0, + "step": 184000 + }, + { + "epoch": 2.9455999999999998, + "grad_norm": 3.256781511140616e-10, + "learning_rate": 3.716266666666667e-07, + "loss": 0.0, + "step": 184100 + }, + { + "epoch": 2.9472, + "grad_norm": 3.9609435176224395e-10, + "learning_rate": 3.609600000000001e-07, + "loss": 0.0, + "step": 184200 + }, + { + "epoch": 2.9488, + "grad_norm": 2.9709257276522294e-10, + "learning_rate": 3.5029333333333337e-07, + "loss": 0.0, + "step": 184300 + }, + { + "epoch": 2.9504, + "grad_norm": 2.97150914985167e-10, + "learning_rate": 3.396266666666667e-07, + "loss": 0.0, + "step": 184400 + }, + { + "epoch": 2.952, + "grad_norm": 3.056662700728907e-10, + "learning_rate": 3.2896000000000006e-07, + "loss": 0.0, + "step": 184500 + }, + { + "epoch": 2.9536, + "grad_norm": 3.337160825456209e-10, + "learning_rate": 3.1829333333333335e-07, + "loss": 0.0, + "step": 184600 + }, + { + "epoch": 2.9552, + "grad_norm": 3.3306263302890216e-10, + "learning_rate": 3.076266666666667e-07, + "loss": 0.0, + "step": 184700 + }, + { + "epoch": 2.9568, + "grad_norm": 3.291365235913446e-10, + "learning_rate": 2.9696000000000003e-07, + "loss": 0.0, + "step": 184800 + }, + { + "epoch": 2.9584, + "grad_norm": 2.6660021412716617e-10, + "learning_rate": 2.862933333333334e-07, + "loss": 0.0, + "step": 184900 + }, + { + "epoch": 2.96, + "grad_norm": 2.935547083193768e-10, + "learning_rate": 2.7562666666666667e-07, + "loss": 0.0, + "step": 185000 + }, + { + "epoch": 2.9616, + "grad_norm": 3.3383265596320655e-10, + "learning_rate": 2.6496e-07, + "loss": 0.0, + "step": 185100 + }, + { + "epoch": 2.9632, + "grad_norm": 3.1544342138367654e-10, + "learning_rate": 2.5429333333333336e-07, + "loss": 0.0, + "step": 185200 + }, + { + "epoch": 2.9648, + "grad_norm": 3.275996141027804e-10, + "learning_rate": 2.436266666666667e-07, + "loss": 0.0, + "step": 185300 + }, + { + "epoch": 2.9664, + "grad_norm": 2.9899530074040115e-10, + "learning_rate": 2.3296000000000002e-07, + "loss": 0.0, + "step": 185400 + }, + { + "epoch": 2.968, + "grad_norm": 2.873679905146531e-10, + "learning_rate": 2.2229333333333336e-07, + "loss": 0.0, + "step": 185500 + }, + { + "epoch": 2.9696, + "grad_norm": 3.144275395605689e-10, + "learning_rate": 2.1162666666666668e-07, + "loss": 0.0, + "step": 185600 + }, + { + "epoch": 2.9712, + "grad_norm": 3.3020397527394607e-10, + "learning_rate": 2.0106666666666667e-07, + "loss": 0.0, + "step": 185700 + }, + { + "epoch": 2.9728, + "grad_norm": 2.937960708049303e-10, + "learning_rate": 1.9040000000000004e-07, + "loss": 0.0, + "step": 185800 + }, + { + "epoch": 2.9744, + "grad_norm": 2.8714305932986406e-10, + "learning_rate": 1.7973333333333335e-07, + "loss": 0.0, + "step": 185900 + }, + { + "epoch": 2.976, + "grad_norm": 3.4568850559857367e-10, + "learning_rate": 1.6906666666666667e-07, + "loss": 0.0, + "step": 186000 + }, + { + "epoch": 2.9776, + "grad_norm": 2.7149829606720743e-10, + "learning_rate": 1.5840000000000002e-07, + "loss": 0.0, + "step": 186100 + }, + { + "epoch": 2.9792, + "grad_norm": 3.0772803749634647e-10, + "learning_rate": 1.4773333333333333e-07, + "loss": 0.0, + "step": 186200 + }, + { + "epoch": 2.9808, + "grad_norm": 3.5528918695959533e-10, + "learning_rate": 1.3706666666666668e-07, + "loss": 0.0, + "step": 186300 + }, + { + "epoch": 2.9824, + "grad_norm": 3.321697916724986e-10, + "learning_rate": 1.2640000000000002e-07, + "loss": 0.0, + "step": 186400 + }, + { + "epoch": 2.984, + "grad_norm": 3.187401176329985e-10, + "learning_rate": 1.1573333333333334e-07, + "loss": 0.0, + "step": 186500 + }, + { + "epoch": 2.9856, + "grad_norm": 3.20163923150929e-10, + "learning_rate": 1.0506666666666667e-07, + "loss": 0.0, + "step": 186600 + }, + { + "epoch": 2.9872, + "grad_norm": 2.883562832955988e-10, + "learning_rate": 9.440000000000001e-08, + "loss": 0.0, + "step": 186700 + }, + { + "epoch": 2.9888, + "grad_norm": 3.246740098994394e-10, + "learning_rate": 8.373333333333334e-08, + "loss": 0.0, + "step": 186800 + }, + { + "epoch": 2.9904, + "grad_norm": 2.876126559137049e-10, + "learning_rate": 7.306666666666667e-08, + "loss": 0.0, + "step": 186900 + }, + { + "epoch": 2.992, + "grad_norm": 3.1197847083497265e-10, + "learning_rate": 6.24e-08, + "loss": 0.0, + "step": 187000 + }, + { + "epoch": 2.9936, + "grad_norm": 2.827717504594318e-10, + "learning_rate": 5.173333333333334e-08, + "loss": 0.0, + "step": 187100 + }, + { + "epoch": 2.9952, + "grad_norm": 3.21663806701622e-10, + "learning_rate": 4.106666666666667e-08, + "loss": 0.0, + "step": 187200 + }, + { + "epoch": 2.9968, + "grad_norm": 3.1668853650579365e-10, + "learning_rate": 3.04e-08, + "loss": 0.0, + "step": 187300 + }, + { + "epoch": 2.9984, + "grad_norm": 2.990403202840497e-10, + "learning_rate": 1.9733333333333335e-08, + "loss": 0.0, + "step": 187400 + }, + { + "epoch": 3.0, + "grad_norm": 3.1560415392206664e-10, + "learning_rate": 9.066666666666667e-09, + "loss": 0.0, + "step": 187500 + }, + { + "epoch": 3.0, + "eval_accuracy": 1.0, + "eval_f1": 1.0, + "eval_loss": 0.0, + "eval_precision": 1.0, + "eval_recall": 1.0, + "eval_runtime": 8.048, + "eval_samples_per_second": 621.276, + "eval_steps_per_second": 19.508, + "step": 187500 + } + ], + "logging_steps": 100, + "max_steps": 187500, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 1.578579357511762e+18, + "train_batch_size": 32, + "trial_name": null, + "trial_params": null +}