Loading tokenizer... Loading dataset from ./Dataset.jsonl Loaded 29500 samples Training on all 29500 samples Loading model... Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:03<00:00, 1.11it/s] /venv/main/lib/python3.12/site-packages/peft/tuners/tuners_utils.py:693: UserWarning: Model with `tie_word_embeddings=True` and the tied_target_modules=['lm_head'] are part of the adapter. This can lead to complications, for example when merging the adapter or converting your model to formats other than safetensors. See for example https://github.com/huggingface/peft/issues/2018. warnings.warn( Trainable parameters: 100,663,520 (1.22% of 8,271,528,160) Starting training... Total training steps: 29496 {'loss': 1.3178, 'grad_norm': 1.5987845659255981, 'learning_rate': 1.2195121951219514e-07, 'epoch': 0.0} {'loss': 1.3162, 'grad_norm': 1.4865044355392456, 'learning_rate': 2.574525745257453e-07, 'epoch': 0.01} {'loss': 1.3188, 'grad_norm': 1.4293071031570435, 'learning_rate': 3.929539295392954e-07, 'epoch': 0.01} {'loss': 1.3659, 'grad_norm': 1.2218579053878784, 'learning_rate': 5.284552845528456e-07, 'epoch': 0.01} {'loss': 1.2898, 'grad_norm': 1.1413049697875977, 'learning_rate': 6.639566395663957e-07, 'epoch': 0.01} {'loss': 1.2978, 'grad_norm': 1.230034589767456, 'learning_rate': 7.994579945799459e-07, 'epoch': 0.02} {'loss': 1.2693, 'grad_norm': 1.0722839832305908, 'learning_rate': 9.349593495934959e-07, 'epoch': 0.02} {'loss': 1.28, 'grad_norm': 0.9222140312194824, 'learning_rate': 1.0704607046070462e-06, 'epoch': 0.02} {'loss': 1.2336, 'grad_norm': 0.8869948387145996, 'learning_rate': 1.2059620596205964e-06, 'epoch': 0.02} {'loss': 1.1629, 'grad_norm': 0.7323665618896484, 'learning_rate': 1.3414634146341465e-06, 'epoch': 0.03} {'loss': 1.2123, 'grad_norm': 0.8023465275764465, 'learning_rate': 1.4769647696476967e-06, 'epoch': 0.03} {'loss': 1.1678, 'grad_norm': 0.7385525703430176, 'learning_rate': 1.6124661246612466e-06, 'epoch': 0.03} {'loss': 1.1769, 'grad_norm': 0.699712336063385, 'learning_rate': 1.747967479674797e-06, 'epoch': 0.04} {'loss': 1.1032, 'grad_norm': 0.6564196348190308, 'learning_rate': 1.8834688346883471e-06, 'epoch': 0.04} {'loss': 1.097, 'grad_norm': 0.5308247208595276, 'learning_rate': 2.018970189701897e-06, 'epoch': 0.04} {'loss': 1.0836, 'grad_norm': 0.5433064103126526, 'learning_rate': 2.154471544715447e-06, 'epoch': 0.04} {'loss': 1.099, 'grad_norm': 0.45351269841194153, 'learning_rate': 2.2899728997289974e-06, 'epoch': 0.05} {'loss': 1.1064, 'grad_norm': 0.621354877948761, 'learning_rate': 2.4254742547425475e-06, 'epoch': 0.05} {'loss': 1.0562, 'grad_norm': 0.44536092877388, 'learning_rate': 2.5609756097560977e-06, 'epoch': 0.05} {'loss': 1.0425, 'grad_norm': 0.3759281635284424, 'learning_rate': 2.6964769647696482e-06, 'epoch': 0.05} {'loss': 1.0812, 'grad_norm': 0.4211093485355377, 'learning_rate': 2.831978319783198e-06, 'epoch': 0.06} {'loss': 1.0648, 'grad_norm': 0.4463433623313904, 'learning_rate': 2.967479674796748e-06, 'epoch': 0.06} {'loss': 1.0519, 'grad_norm': 0.38594216108322144, 'learning_rate': 3.1029810298102987e-06, 'epoch': 0.06} {'loss': 1.0657, 'grad_norm': 0.41464173793792725, 'learning_rate': 3.2384823848238484e-06, 'epoch': 0.07} {'loss': 1.0354, 'grad_norm': 0.3788861036300659, 'learning_rate': 3.3739837398373986e-06, 'epoch': 0.07} {'loss': 1.0065, 'grad_norm': 0.3758848011493683, 'learning_rate': 3.509485094850949e-06, 'epoch': 0.07} {'loss': 1.0399, 'grad_norm': 0.3548066020011902, 'learning_rate': 3.644986449864499e-06, 'epoch': 0.07} {'loss': 1.0149, 'grad_norm': 0.4010354280471802, 'learning_rate': 3.780487804878049e-06, 'epoch': 0.08} {'loss': 1.0133, 'grad_norm': 0.47476497292518616, 'learning_rate': 3.915989159891599e-06, 'epoch': 0.08} {'loss': 1.0354, 'grad_norm': 0.39808404445648193, 'learning_rate': 4.051490514905149e-06, 'epoch': 0.08} {'loss': 1.021, 'grad_norm': 0.41681766510009766, 'learning_rate': 4.1869918699186995e-06, 'epoch': 0.08} {'loss': 1.0128, 'grad_norm': 0.392661452293396, 'learning_rate': 4.32249322493225e-06, 'epoch': 0.09} {'loss': 0.9798, 'grad_norm': 0.4758758544921875, 'learning_rate': 4.4579945799458e-06, 'epoch': 0.09} {'loss': 0.9871, 'grad_norm': 0.36403632164001465, 'learning_rate': 4.59349593495935e-06, 'epoch': 0.09} {'loss': 1.0076, 'grad_norm': 0.3676963150501251, 'learning_rate': 4.7289972899729e-06, 'epoch': 0.09} {'loss': 0.9948, 'grad_norm': 0.45225849747657776, 'learning_rate': 4.86449864498645e-06, 'epoch': 0.1} {'loss': 0.9595, 'grad_norm': 0.4513948857784271, 'learning_rate': 5e-06, 'epoch': 0.1} {'loss': 0.9938, 'grad_norm': 0.3839133381843567, 'learning_rate': 5.13550135501355e-06, 'epoch': 0.1} {'loss': 1.0064, 'grad_norm': 0.47010451555252075, 'learning_rate': 5.271002710027101e-06, 'epoch': 0.11} {'loss': 0.9755, 'grad_norm': 0.47888365387916565, 'learning_rate': 5.4065040650406504e-06, 'epoch': 0.11} {'loss': 0.9746, 'grad_norm': 0.4873267412185669, 'learning_rate': 5.542005420054201e-06, 'epoch': 0.11} {'loss': 0.947, 'grad_norm': 0.5072148442268372, 'learning_rate': 5.677506775067752e-06, 'epoch': 0.11} {'loss': 0.9604, 'grad_norm': 0.47816550731658936, 'learning_rate': 5.813008130081301e-06, 'epoch': 0.12} {'loss': 0.9548, 'grad_norm': 0.5356708765029907, 'learning_rate': 5.948509485094851e-06, 'epoch': 0.12} {'loss': 0.9879, 'grad_norm': 0.5369699001312256, 'learning_rate': 6.084010840108402e-06, 'epoch': 0.12} {'loss': 0.9531, 'grad_norm': 0.4853675663471222, 'learning_rate': 6.219512195121951e-06, 'epoch': 0.12} {'loss': 1.0024, 'grad_norm': 0.5217297673225403, 'learning_rate': 6.355013550135501e-06, 'epoch': 0.13} {'loss': 1.0174, 'grad_norm': 0.5235888957977295, 'learning_rate': 6.4905149051490525e-06, 'epoch': 0.13} {'loss': 0.9727, 'grad_norm': 0.5251590013504028, 'learning_rate': 6.626016260162602e-06, 'epoch': 0.13} {'loss': 0.9518, 'grad_norm': 0.4769938290119171, 'learning_rate': 6.761517615176152e-06, 'epoch': 0.14} {'loss': 0.9828, 'grad_norm': 0.5025352835655212, 'learning_rate': 6.8970189701897025e-06, 'epoch': 0.14} {'loss': 0.9484, 'grad_norm': 0.5751634240150452, 'learning_rate': 7.032520325203252e-06, 'epoch': 0.14} {'loss': 0.9696, 'grad_norm': 0.5404447913169861, 'learning_rate': 7.168021680216802e-06, 'epoch': 0.14} {'loss': 0.9509, 'grad_norm': 0.5173763632774353, 'learning_rate': 7.303523035230353e-06, 'epoch': 0.15} {'loss': 0.9597, 'grad_norm': 0.6112823486328125, 'learning_rate': 7.439024390243903e-06, 'epoch': 0.15} {'loss': 1.0047, 'grad_norm': 0.5615066885948181, 'learning_rate': 7.574525745257453e-06, 'epoch': 0.15} {'loss': 0.9472, 'grad_norm': 0.5186672806739807, 'learning_rate': 7.710027100271004e-06, 'epoch': 0.15} {'loss': 0.9532, 'grad_norm': 0.6720909476280212, 'learning_rate': 7.845528455284554e-06, 'epoch': 0.16} {'loss': 0.9441, 'grad_norm': 0.5448353886604309, 'learning_rate': 7.981029810298104e-06, 'epoch': 0.16} {'loss': 0.9657, 'grad_norm': 0.5107543468475342, 'learning_rate': 8.116531165311653e-06, 'epoch': 0.16} {'loss': 0.9558, 'grad_norm': 0.5203464031219482, 'learning_rate': 8.252032520325203e-06, 'epoch': 0.17} {'loss': 0.9285, 'grad_norm': 0.6758378744125366, 'learning_rate': 8.387533875338753e-06, 'epoch': 0.17} {'loss': 0.9056, 'grad_norm': 0.6145910620689392, 'learning_rate': 8.523035230352304e-06, 'epoch': 0.17} {'loss': 0.9306, 'grad_norm': 0.6286699771881104, 'learning_rate': 8.658536585365854e-06, 'epoch': 0.17} {'loss': 0.86, 'grad_norm': 0.6427586674690247, 'learning_rate': 8.794037940379404e-06, 'epoch': 0.18} {'loss': 0.9097, 'grad_norm': 0.651358962059021, 'learning_rate': 8.929539295392955e-06, 'epoch': 0.18} {'loss': 0.9842, 'grad_norm': 0.6285607218742371, 'learning_rate': 9.065040650406505e-06, 'epoch': 0.18} {'loss': 0.8908, 'grad_norm': 0.5996576547622681, 'learning_rate': 9.200542005420055e-06, 'epoch': 0.18} {'loss': 0.91, 'grad_norm': 0.6292259693145752, 'learning_rate': 9.336043360433606e-06, 'epoch': 0.19} {'loss': 0.93, 'grad_norm': 0.690459668636322, 'learning_rate': 9.471544715447156e-06, 'epoch': 0.19} {'loss': 0.9291, 'grad_norm': 0.5453143119812012, 'learning_rate': 9.607046070460706e-06, 'epoch': 0.19} {'loss': 0.934, 'grad_norm': 0.5518179535865784, 'learning_rate': 9.742547425474255e-06, 'epoch': 0.2} {'loss': 0.8906, 'grad_norm': 0.5451986789703369, 'learning_rate': 9.878048780487805e-06, 'epoch': 0.2} {'loss': 0.9045, 'grad_norm': 0.64577716588974, 'learning_rate': 1.0013550135501355e-05, 'epoch': 0.2} {'loss': 0.9243, 'grad_norm': 0.589823305606842, 'learning_rate': 1.0149051490514905e-05, 'epoch': 0.2} {'loss': 0.8893, 'grad_norm': 0.6106377243995667, 'learning_rate': 1.0284552845528458e-05, 'epoch': 0.21} {'loss': 0.8871, 'grad_norm': 0.605635941028595, 'learning_rate': 1.0420054200542007e-05, 'epoch': 0.21} {'loss': 0.8766, 'grad_norm': 0.680891215801239, 'learning_rate': 1.0555555555555557e-05, 'epoch': 0.21} {'loss': 0.9081, 'grad_norm': 0.6265649199485779, 'learning_rate': 1.0691056910569107e-05, 'epoch': 0.21} {'loss': 0.917, 'grad_norm': 0.6000871062278748, 'learning_rate': 1.0826558265582657e-05, 'epoch': 0.22} {'loss': 0.8886, 'grad_norm': 0.5551093220710754, 'learning_rate': 1.0962059620596206e-05, 'epoch': 0.22} {'loss': 0.8869, 'grad_norm': 0.5780580043792725, 'learning_rate': 1.1097560975609758e-05, 'epoch': 0.22} {'loss': 0.8919, 'grad_norm': 0.6500385403633118, 'learning_rate': 1.1233062330623307e-05, 'epoch': 0.23} {'loss': 0.949, 'grad_norm': 0.6747811436653137, 'learning_rate': 1.1368563685636857e-05, 'epoch': 0.23} {'loss': 0.9192, 'grad_norm': 0.667030930519104, 'learning_rate': 1.1504065040650407e-05, 'epoch': 0.23} {'loss': 0.9525, 'grad_norm': 0.6803078651428223, 'learning_rate': 1.1639566395663957e-05, 'epoch': 0.23} {'loss': 0.8988, 'grad_norm': 0.6654538512229919, 'learning_rate': 1.1775067750677506e-05, 'epoch': 0.24} {'loss': 0.9278, 'grad_norm': 0.6414161324501038, 'learning_rate': 1.191056910569106e-05, 'epoch': 0.24} {'loss': 0.8923, 'grad_norm': 0.6145522594451904, 'learning_rate': 1.204607046070461e-05, 'epoch': 0.24} {'loss': 0.916, 'grad_norm': 0.639001727104187, 'learning_rate': 1.2181571815718159e-05, 'epoch': 0.24} {'loss': 0.8962, 'grad_norm': 0.6300646066665649, 'learning_rate': 1.2317073170731709e-05, 'epoch': 0.25} {'loss': 0.8612, 'grad_norm': 0.6227229237556458, 'learning_rate': 1.2452574525745258e-05, 'epoch': 0.25} {'loss': 0.924, 'grad_norm': 0.6686049699783325, 'learning_rate': 1.2588075880758808e-05, 'epoch': 0.25} {'loss': 0.8945, 'grad_norm': 0.6577019691467285, 'learning_rate': 1.272357723577236e-05, 'epoch': 0.25} {'loss': 0.9563, 'grad_norm': 0.6950984001159668, 'learning_rate': 1.285907859078591e-05, 'epoch': 0.26} {'loss': 0.8784, 'grad_norm': 0.6140334606170654, 'learning_rate': 1.2994579945799459e-05, 'epoch': 0.26} {'loss': 0.9023, 'grad_norm': 0.6590627431869507, 'learning_rate': 1.3130081300813009e-05, 'epoch': 0.26} {'loss': 0.869, 'grad_norm': 0.6753455996513367, 'learning_rate': 1.3265582655826558e-05, 'epoch': 0.27} {'loss': 0.8788, 'grad_norm': 0.735410749912262, 'learning_rate': 1.3401084010840108e-05, 'epoch': 0.27} {'loss': 0.8905, 'grad_norm': 0.6536259651184082, 'learning_rate': 1.3536585365853661e-05, 'epoch': 0.27} {'loss': 0.9198, 'grad_norm': 0.7190057039260864, 'learning_rate': 1.3672086720867211e-05, 'epoch': 0.27} {'loss': 0.8744, 'grad_norm': 0.6269470453262329, 'learning_rate': 1.380758807588076e-05, 'epoch': 0.28} {'loss': 0.8926, 'grad_norm': 0.7403397560119629, 'learning_rate': 1.394308943089431e-05, 'epoch': 0.28} {'loss': 0.8662, 'grad_norm': 0.6318647265434265, 'learning_rate': 1.407859078590786e-05, 'epoch': 0.28} {'loss': 0.8641, 'grad_norm': 0.7141433954238892, 'learning_rate': 1.421409214092141e-05, 'epoch': 0.28} {'loss': 0.8393, 'grad_norm': 0.5864580869674683, 'learning_rate': 1.4349593495934961e-05, 'epoch': 0.29} {'loss': 0.9045, 'grad_norm': 0.6742857098579407, 'learning_rate': 1.4485094850948511e-05, 'epoch': 0.29} {'loss': 0.8692, 'grad_norm': 0.6422802209854126, 'learning_rate': 1.462059620596206e-05, 'epoch': 0.29} {'loss': 0.9252, 'grad_norm': 0.6168281435966492, 'learning_rate': 1.475609756097561e-05, 'epoch': 0.3} {'loss': 0.8849, 'grad_norm': 0.5848317742347717, 'learning_rate': 1.489159891598916e-05, 'epoch': 0.3} {'loss': 0.8798, 'grad_norm': 0.6537775993347168, 'learning_rate': 1.502710027100271e-05, 'epoch': 0.3} {'loss': 0.8812, 'grad_norm': 0.7969778776168823, 'learning_rate': 1.5162601626016263e-05, 'epoch': 0.3} {'loss': 0.8651, 'grad_norm': 0.699952244758606, 'learning_rate': 1.5298102981029813e-05, 'epoch': 0.31} {'loss': 0.8886, 'grad_norm': 0.6566609740257263, 'learning_rate': 1.5433604336043363e-05, 'epoch': 0.31} {'loss': 0.9308, 'grad_norm': 0.6421216130256653, 'learning_rate': 1.5569105691056912e-05, 'epoch': 0.31} {'loss': 0.9069, 'grad_norm': 0.5997747182846069, 'learning_rate': 1.5704607046070462e-05, 'epoch': 0.31} {'loss': 0.8929, 'grad_norm': 0.6059186458587646, 'learning_rate': 1.5840108401084012e-05, 'epoch': 0.32} {'loss': 0.8605, 'grad_norm': 0.5404813289642334, 'learning_rate': 1.597560975609756e-05, 'epoch': 0.32} {'loss': 0.8777, 'grad_norm': 0.7051651477813721, 'learning_rate': 1.6111111111111115e-05, 'epoch': 0.32} {'loss': 0.894, 'grad_norm': 0.6979568600654602, 'learning_rate': 1.6246612466124664e-05, 'epoch': 0.33} {'loss': 0.9179, 'grad_norm': 0.7328687310218811, 'learning_rate': 1.6382113821138214e-05, 'epoch': 0.33} {'loss': 0.8619, 'grad_norm': 0.5931991338729858, 'learning_rate': 1.6517615176151764e-05, 'epoch': 0.33} {'loss': 0.8511, 'grad_norm': 0.5969998836517334, 'learning_rate': 1.6653116531165314e-05, 'epoch': 0.33} {'loss': 0.8946, 'grad_norm': 0.6804554462432861, 'learning_rate': 1.6788617886178863e-05, 'epoch': 0.34} {'loss': 0.8834, 'grad_norm': 0.6354110240936279, 'learning_rate': 1.6924119241192413e-05, 'epoch': 0.34} {'loss': 0.8766, 'grad_norm': 0.6956201195716858, 'learning_rate': 1.7059620596205963e-05, 'epoch': 0.34} {'loss': 0.8862, 'grad_norm': 0.7028366327285767, 'learning_rate': 1.7195121951219512e-05, 'epoch': 0.34} {'loss': 0.8873, 'grad_norm': 0.5723832845687866, 'learning_rate': 1.7330623306233062e-05, 'epoch': 0.35} {'loss': 0.8782, 'grad_norm': 0.6680249571800232, 'learning_rate': 1.7466124661246612e-05, 'epoch': 0.35} {'loss': 0.8943, 'grad_norm': 0.6161017417907715, 'learning_rate': 1.7601626016260165e-05, 'epoch': 0.35} {'loss': 0.8846, 'grad_norm': 0.7187572121620178, 'learning_rate': 1.7737127371273715e-05, 'epoch': 0.36} {'loss': 0.883, 'grad_norm': 0.698298990726471, 'learning_rate': 1.7872628726287264e-05, 'epoch': 0.36} {'loss': 0.9023, 'grad_norm': 0.7198627591133118, 'learning_rate': 1.8008130081300814e-05, 'epoch': 0.36} {'loss': 0.8818, 'grad_norm': 0.5645079612731934, 'learning_rate': 1.8143631436314364e-05, 'epoch': 0.36} {'loss': 0.8837, 'grad_norm': 0.6629393100738525, 'learning_rate': 1.8279132791327914e-05, 'epoch': 0.37} {'loss': 0.8965, 'grad_norm': 0.6590218544006348, 'learning_rate': 1.8414634146341467e-05, 'epoch': 0.37} {'loss': 0.9073, 'grad_norm': 0.6902285218238831, 'learning_rate': 1.8550135501355016e-05, 'epoch': 0.37} {'loss': 0.9193, 'grad_norm': 0.6327630281448364, 'learning_rate': 1.8685636856368566e-05, 'epoch': 0.37} {'loss': 0.8642, 'grad_norm': 0.5737306475639343, 'learning_rate': 1.8821138211382116e-05, 'epoch': 0.38} {'loss': 0.9231, 'grad_norm': 0.6669430136680603, 'learning_rate': 1.8956639566395666e-05, 'epoch': 0.38} {'loss': 0.845, 'grad_norm': 0.6602444052696228, 'learning_rate': 1.9092140921409215e-05, 'epoch': 0.38} {'loss': 0.9213, 'grad_norm': 0.7143387794494629, 'learning_rate': 1.9227642276422765e-05, 'epoch': 0.39} {'loss': 0.8864, 'grad_norm': 0.5914658904075623, 'learning_rate': 1.9363143631436315e-05, 'epoch': 0.39} {'loss': 0.8458, 'grad_norm': 0.6613304615020752, 'learning_rate': 1.9498644986449865e-05, 'epoch': 0.39} {'loss': 0.9232, 'grad_norm': 0.6704584956169128, 'learning_rate': 1.9634146341463414e-05, 'epoch': 0.39} {'loss': 0.8911, 'grad_norm': 0.70993572473526, 'learning_rate': 1.9769647696476964e-05, 'epoch': 0.4} {'loss': 0.8709, 'grad_norm': 0.735563337802887, 'learning_rate': 1.9905149051490514e-05, 'epoch': 0.4} {'loss': 0.9347, 'grad_norm': 0.6507001519203186, 'learning_rate': 1.9999999434636148e-05, 'epoch': 0.4} {'loss': 0.8507, 'grad_norm': 0.646320641040802, 'learning_rate': 1.9999989383725002e-05, 'epoch': 0.4} {'loss': 0.8762, 'grad_norm': 0.5988004207611084, 'learning_rate': 1.9999966769187226e-05, 'epoch': 0.41} {'loss': 0.8723, 'grad_norm': 0.6452310085296631, 'learning_rate': 1.9999931591051242e-05, 'epoch': 0.41} {'loss': 0.8349, 'grad_norm': 0.6058514714241028, 'learning_rate': 1.9999883849361243e-05, 'epoch': 0.41} {'loss': 0.9058, 'grad_norm': 0.6394093632698059, 'learning_rate': 1.9999823544177202e-05, 'epoch': 0.41} {'loss': 0.8727, 'grad_norm': 0.6397307515144348, 'learning_rate': 1.99997506755749e-05, 'epoch': 0.42} {'loss': 0.8452, 'grad_norm': 0.6446034908294678, 'learning_rate': 1.999966524364587e-05, 'epoch': 0.42} {'loss': 0.8622, 'grad_norm': 0.5727367401123047, 'learning_rate': 1.999956724849746e-05, 'epoch': 0.42} {'loss': 0.8841, 'grad_norm': 0.5650833249092102, 'learning_rate': 1.999945669025278e-05, 'epoch': 0.43} {'loss': 0.8727, 'grad_norm': 0.82917320728302, 'learning_rate': 1.999933356905073e-05, 'epoch': 0.43} {'loss': 0.8658, 'grad_norm': 0.6030641198158264, 'learning_rate': 1.9999197885046e-05, 'epoch': 0.43} {'loss': 0.8292, 'grad_norm': 0.6280534267425537, 'learning_rate': 1.9999049638409054e-05, 'epoch': 0.43} {'loss': 0.9236, 'grad_norm': 0.64320307970047, 'learning_rate': 1.999888882932615e-05, 'epoch': 0.44} {'loss': 0.8711, 'grad_norm': 0.560965895652771, 'learning_rate': 1.9998715457999313e-05, 'epoch': 0.44} {'loss': 0.8946, 'grad_norm': 0.6419996619224548, 'learning_rate': 1.9998529524646367e-05, 'epoch': 0.44} {'loss': 0.858, 'grad_norm': 0.6435355544090271, 'learning_rate': 1.9998331029500914e-05, 'epoch': 0.44} {'loss': 0.8835, 'grad_norm': 0.6522897481918335, 'learning_rate': 1.9998119972812332e-05, 'epoch': 0.45} {'loss': 0.8343, 'grad_norm': 0.6329607963562012, 'learning_rate': 1.9997896354845787e-05, 'epoch': 0.45} {'loss': 0.8648, 'grad_norm': 0.6681025624275208, 'learning_rate': 1.9997660175882225e-05, 'epoch': 0.45} {'loss': 0.8842, 'grad_norm': 0.6679193377494812, 'learning_rate': 1.9997411436218366e-05, 'epoch': 0.46} {'loss': 0.8511, 'grad_norm': 0.5679541230201721, 'learning_rate': 1.999715013616673e-05, 'epoch': 0.46} {'loss': 0.8548, 'grad_norm': 0.6605594754219055, 'learning_rate': 1.9996876276055592e-05, 'epoch': 0.46} {'loss': 0.864, 'grad_norm': 0.5683242082595825, 'learning_rate': 1.9996589856229026e-05, 'epoch': 0.46} {'loss': 0.8216, 'grad_norm': 0.6251316070556641, 'learning_rate': 1.9996290877046885e-05, 'epoch': 0.47} {'loss': 0.8766, 'grad_norm': 0.6759148240089417, 'learning_rate': 1.999597933888479e-05, 'epoch': 0.47} {'loss': 0.8674, 'grad_norm': 0.6529135704040527, 'learning_rate': 1.9995655242134142e-05, 'epoch': 0.47} {'loss': 0.8575, 'grad_norm': 0.6399463415145874, 'learning_rate': 1.9995318587202132e-05, 'epoch': 0.47} {'loss': 0.8431, 'grad_norm': 0.558411180973053, 'learning_rate': 1.9994969374511714e-05, 'epoch': 0.48} {'loss': 0.8999, 'grad_norm': 0.6292242407798767, 'learning_rate': 1.9994607604501633e-05, 'epoch': 0.48} {'loss': 0.8355, 'grad_norm': 0.6478763222694397, 'learning_rate': 1.9994233277626405e-05, 'epoch': 0.48} {'loss': 0.8913, 'grad_norm': 0.7215830683708191, 'learning_rate': 1.9993846394356315e-05, 'epoch': 0.49} {'loss': 0.9177, 'grad_norm': 0.6528322100639343, 'learning_rate': 1.9993446955177428e-05, 'epoch': 0.49} {'loss': 0.9033, 'grad_norm': 0.5752719640731812, 'learning_rate': 1.999303496059159e-05, 'epoch': 0.49} {'loss': 0.8649, 'grad_norm': 0.6193737387657166, 'learning_rate': 1.9992610411116416e-05, 'epoch': 0.49} {'loss': 0.8665, 'grad_norm': 0.6802307963371277, 'learning_rate': 1.9992173307285292e-05, 'epoch': 0.5} {'loss': 0.8912, 'grad_norm': 0.666532576084137, 'learning_rate': 1.9991723649647382e-05, 'epoch': 0.5} {'loss': 0.8528, 'grad_norm': 0.6821956634521484, 'learning_rate': 1.9991261438767616e-05, 'epoch': 0.5} {'loss': 0.8547, 'grad_norm': 0.5630505681037903, 'learning_rate': 1.9990786675226703e-05, 'epoch': 0.5} {'loss': 0.8504, 'grad_norm': 0.585030734539032, 'learning_rate': 1.9990299359621117e-05, 'epoch': 0.51} {'loss': 0.835, 'grad_norm': 0.5606564879417419, 'learning_rate': 1.9989799492563103e-05, 'epoch': 0.51} {'loss': 0.8674, 'grad_norm': 0.6770903468132019, 'learning_rate': 1.9989287074680682e-05, 'epoch': 0.51} {'loss': 0.8436, 'grad_norm': 0.6332198977470398, 'learning_rate': 1.9988762106617626e-05, 'epoch': 0.52} {'loss': 0.9137, 'grad_norm': 0.6970524787902832, 'learning_rate': 1.9988224589033496e-05, 'epoch': 0.52} {'loss': 0.8816, 'grad_norm': 0.717556357383728, 'learning_rate': 1.9987674522603605e-05, 'epoch': 0.52} {'loss': 0.8847, 'grad_norm': 0.6050024628639221, 'learning_rate': 1.9987111908019035e-05, 'epoch': 0.52} {'loss': 0.8682, 'grad_norm': 0.6487194299697876, 'learning_rate': 1.998653674598664e-05, 'epoch': 0.53} {'loss': 0.8534, 'grad_norm': 0.6720033288002014, 'learning_rate': 1.9985949037229035e-05, 'epoch': 0.53} {'loss': 0.8664, 'grad_norm': 0.6232390999794006, 'learning_rate': 1.9985348782484583e-05, 'epoch': 0.53} {'loss': 0.8877, 'grad_norm': 0.6996815800666809, 'learning_rate': 1.998473598250744e-05, 'epoch': 0.53} {'loss': 0.8606, 'grad_norm': 0.6765912175178528, 'learning_rate': 1.9984110638067488e-05, 'epoch': 0.54} {'loss': 0.8806, 'grad_norm': 0.5855668187141418, 'learning_rate': 1.99834727499504e-05, 'epoch': 0.54} {'loss': 0.8651, 'grad_norm': 0.6547240018844604, 'learning_rate': 1.9982822318957593e-05, 'epoch': 0.54} {'loss': 0.8756, 'grad_norm': 0.5905475616455078, 'learning_rate': 1.9982159345906244e-05, 'epoch': 0.55} {'loss': 0.8774, 'grad_norm': 0.609245240688324, 'learning_rate': 1.9981483831629282e-05, 'epoch': 0.55} {'loss': 0.9015, 'grad_norm': 0.6374444365501404, 'learning_rate': 1.998079577697541e-05, 'epoch': 0.55} {'loss': 0.8748, 'grad_norm': 0.6237425804138184, 'learning_rate': 1.9980095182809068e-05, 'epoch': 0.55} {'loss': 0.8504, 'grad_norm': 0.49753624200820923, 'learning_rate': 1.9979382050010466e-05, 'epoch': 0.56} {'loss': 0.8935, 'grad_norm': 0.5722464323043823, 'learning_rate': 1.9978656379475546e-05, 'epoch': 0.56} {'loss': 0.8803, 'grad_norm': 0.5976553559303284, 'learning_rate': 1.997791817211602e-05, 'epoch': 0.56} {'loss': 0.8628, 'grad_norm': 0.6053595542907715, 'learning_rate': 1.9977167428859346e-05, 'epoch': 0.56} {'loss': 0.8315, 'grad_norm': 0.6442150473594666, 'learning_rate': 1.9976404150648728e-05, 'epoch': 0.57} {'loss': 0.8953, 'grad_norm': 0.7230936884880066, 'learning_rate': 1.9975628338443126e-05, 'epoch': 0.57} {'loss': 0.8634, 'grad_norm': 0.5536103248596191, 'learning_rate': 1.997483999321724e-05, 'epoch': 0.57} {'loss': 0.8875, 'grad_norm': 0.6410644054412842, 'learning_rate': 1.997403911596152e-05, 'epoch': 0.57} {'loss': 0.9234, 'grad_norm': 0.6451976895332336, 'learning_rate': 1.9973225707682152e-05, 'epoch': 0.58} {'loss': 0.8348, 'grad_norm': 0.5967068076133728, 'learning_rate': 1.9972399769401083e-05, 'epoch': 0.58} {'loss': 0.8841, 'grad_norm': 0.621802031993866, 'learning_rate': 1.997156130215599e-05, 'epoch': 0.58} {'loss': 0.8845, 'grad_norm': 0.6332947611808777, 'learning_rate': 1.9970710307000284e-05, 'epoch': 0.59} {'loss': 0.845, 'grad_norm': 0.5977321863174438, 'learning_rate': 1.9969846785003134e-05, 'epoch': 0.59} {'loss': 0.8619, 'grad_norm': 0.654753565788269, 'learning_rate': 1.9968970737249437e-05, 'epoch': 0.59} {'loss': 0.8931, 'grad_norm': 0.5573782920837402, 'learning_rate': 1.9968082164839825e-05, 'epoch': 0.59} {'loss': 0.9101, 'grad_norm': 0.6511846780776978, 'learning_rate': 1.9967181068890672e-05, 'epoch': 0.6} {'loss': 0.8829, 'grad_norm': 0.5608382225036621, 'learning_rate': 1.996626745053408e-05, 'epoch': 0.6} {'loss': 0.8764, 'grad_norm': 0.623482346534729, 'learning_rate': 1.9965341310917882e-05, 'epoch': 0.6} {'loss': 0.8774, 'grad_norm': 0.619782567024231, 'learning_rate': 1.9964402651205656e-05, 'epoch': 0.6} {'loss': 0.8777, 'grad_norm': 0.6854621767997742, 'learning_rate': 1.9963451472576692e-05, 'epoch': 0.61} {'loss': 0.8365, 'grad_norm': 0.5888906121253967, 'learning_rate': 1.996248777622602e-05, 'epoch': 0.61} {'loss': 0.8612, 'grad_norm': 0.6141200661659241, 'learning_rate': 1.9961511563364397e-05, 'epoch': 0.61} {'loss': 0.8633, 'grad_norm': 0.5863164663314819, 'learning_rate': 1.996052283521829e-05, 'epoch': 0.62} {'loss': 0.8616, 'grad_norm': 0.5506576299667358, 'learning_rate': 1.9959521593029916e-05, 'epoch': 0.62} {'loss': 0.872, 'grad_norm': 0.6286251544952393, 'learning_rate': 1.995850783805719e-05, 'epoch': 0.62} {'loss': 0.8415, 'grad_norm': 0.5848579406738281, 'learning_rate': 1.995748157157376e-05, 'epoch': 0.62} {'loss': 0.8396, 'grad_norm': 0.6014610528945923, 'learning_rate': 1.995644279486899e-05, 'epoch': 0.63} {'loss': 0.8435, 'grad_norm': 0.6634086966514587, 'learning_rate': 1.995539150924797e-05, 'epoch': 0.63} {'loss': 0.8508, 'grad_norm': 0.653768002986908, 'learning_rate': 1.995432771603148e-05, 'epoch': 0.63} {'loss': 0.8649, 'grad_norm': 0.6425677537918091, 'learning_rate': 1.995325141655604e-05, 'epoch': 0.63} {'loss': 0.8787, 'grad_norm': 0.619557797908783, 'learning_rate': 1.995216261217388e-05, 'epoch': 0.64} {'loss': 0.8868, 'grad_norm': 0.5643874406814575, 'learning_rate': 1.9951061304252926e-05, 'epoch': 0.64} {'loss': 0.8961, 'grad_norm': 0.595325231552124, 'learning_rate': 1.9949947494176828e-05, 'epoch': 0.64} {'loss': 0.8186, 'grad_norm': 0.6054632663726807, 'learning_rate': 1.9948821183344935e-05, 'epoch': 0.65} {'loss': 0.8598, 'grad_norm': 0.6475244760513306, 'learning_rate': 1.99476823731723e-05, 'epoch': 0.65} {'loss': 0.8254, 'grad_norm': 0.5163389444351196, 'learning_rate': 1.9946531065089685e-05, 'epoch': 0.65} {'loss': 0.8449, 'grad_norm': 0.6411247253417969, 'learning_rate': 1.9945367260543557e-05, 'epoch': 0.65} {'loss': 0.8717, 'grad_norm': 0.5506559014320374, 'learning_rate': 1.9944190960996067e-05, 'epoch': 0.66} {'loss': 0.8794, 'grad_norm': 0.6811321377754211, 'learning_rate': 1.9943002167925086e-05, 'epoch': 0.66} {'loss': 0.8384, 'grad_norm': 0.6073872447013855, 'learning_rate': 1.9941800882824165e-05, 'epoch': 0.66} {'loss': 0.8713, 'grad_norm': 0.595054566860199, 'learning_rate': 1.9940587107202558e-05, 'epoch': 0.66} {'loss': 0.8702, 'grad_norm': 0.598228394985199, 'learning_rate': 1.993936084258521e-05, 'epoch': 0.67} {'loss': 0.8647, 'grad_norm': 0.6575029492378235, 'learning_rate': 1.993812209051275e-05, 'epoch': 0.67} {'loss': 0.849, 'grad_norm': 0.6523375511169434, 'learning_rate': 1.9936870852541504e-05, 'epoch': 0.67} {'loss': 0.8362, 'grad_norm': 0.5921449065208435, 'learning_rate': 1.993560713024349e-05, 'epoch': 0.68} {'loss': 0.8988, 'grad_norm': 0.5498477220535278, 'learning_rate': 1.9934330925206392e-05, 'epoch': 0.68} {'loss': 0.8578, 'grad_norm': 0.5715180039405823, 'learning_rate': 1.9933042239033598e-05, 'epoch': 0.68} {'loss': 0.8434, 'grad_norm': 0.6305596828460693, 'learning_rate': 1.9931741073344156e-05, 'epoch': 0.68} {'loss': 0.8691, 'grad_norm': 0.6534203290939331, 'learning_rate': 1.9930427429772813e-05, 'epoch': 0.69} {'loss': 0.8304, 'grad_norm': 0.618671178817749, 'learning_rate': 1.992910130996998e-05, 'epoch': 0.69} {'loss': 0.8566, 'grad_norm': 0.6280946135520935, 'learning_rate': 1.9927762715601747e-05, 'epoch': 0.69} {'loss': 0.8492, 'grad_norm': 0.5980151295661926, 'learning_rate': 1.9926411648349873e-05, 'epoch': 0.69} {'loss': 0.8343, 'grad_norm': 0.5615530014038086, 'learning_rate': 1.9925048109911793e-05, 'epoch': 0.7} {'loss': 0.8743, 'grad_norm': 0.6569309830665588, 'learning_rate': 1.9923672102000606e-05, 'epoch': 0.7} {'loss': 0.839, 'grad_norm': 0.6423014402389526, 'learning_rate': 1.992228362634508e-05, 'epoch': 0.7} {'loss': 0.8647, 'grad_norm': 0.5583564639091492, 'learning_rate': 1.9920882684689645e-05, 'epoch': 0.71} {'loss': 0.8578, 'grad_norm': 0.5388317108154297, 'learning_rate': 1.9919469278794396e-05, 'epoch': 0.71} {'loss': 0.8718, 'grad_norm': 0.5971290469169617, 'learning_rate': 1.9918043410435086e-05, 'epoch': 0.71} {'loss': 0.8285, 'grad_norm': 0.5844610333442688, 'learning_rate': 1.9916605081403118e-05, 'epoch': 0.71} {'loss': 0.892, 'grad_norm': 0.5758851170539856, 'learning_rate': 1.9915154293505562e-05, 'epoch': 0.72} {'loss': 0.854, 'grad_norm': 0.6387630701065063, 'learning_rate': 1.9913691048565133e-05, 'epoch': 0.72} {'loss': 0.9029, 'grad_norm': 0.6157282590866089, 'learning_rate': 1.99122153484202e-05, 'epoch': 0.72} {'loss': 0.8389, 'grad_norm': 0.6034079790115356, 'learning_rate': 1.9910727194924785e-05, 'epoch': 0.72} {'loss': 0.8755, 'grad_norm': 0.5959351658821106, 'learning_rate': 1.990922658994854e-05, 'epoch': 0.73} {'loss': 0.8576, 'grad_norm': 0.7053916454315186, 'learning_rate': 1.9907713535376784e-05, 'epoch': 0.73} {'loss': 0.8368, 'grad_norm': 0.5473361015319824, 'learning_rate': 1.9906188033110453e-05, 'epoch': 0.73} {'loss': 0.84, 'grad_norm': 0.6430816054344177, 'learning_rate': 1.9904650085066136e-05, 'epoch': 0.73} {'loss': 0.8517, 'grad_norm': 0.6208659410476685, 'learning_rate': 1.9903099693176063e-05, 'epoch': 0.74} {'loss': 0.8882, 'grad_norm': 0.635735034942627, 'learning_rate': 1.990153685938808e-05, 'epoch': 0.74} {'loss': 0.8793, 'grad_norm': 0.5788131356239319, 'learning_rate': 1.9899961585665677e-05, 'epoch': 0.74} {'loss': 0.8251, 'grad_norm': 0.5855569243431091, 'learning_rate': 1.9898373873987977e-05, 'epoch': 0.75} {'loss': 0.8374, 'grad_norm': 0.5351022481918335, 'learning_rate': 1.9896773726349724e-05, 'epoch': 0.75} {'loss': 0.8713, 'grad_norm': 0.621877133846283, 'learning_rate': 1.9895161144761274e-05, 'epoch': 0.75} {'loss': 0.9022, 'grad_norm': 0.5443993210792542, 'learning_rate': 1.9893536131248633e-05, 'epoch': 0.75} {'loss': 0.8815, 'grad_norm': 0.5525001883506775, 'learning_rate': 1.9891898687853396e-05, 'epoch': 0.76} {'loss': 0.9492, 'grad_norm': 0.6343979239463806, 'learning_rate': 1.9890248816632795e-05, 'epoch': 0.76} {'loss': 0.876, 'grad_norm': 0.659991443157196, 'learning_rate': 1.9888586519659666e-05, 'epoch': 0.76} {'loss': 0.8384, 'grad_norm': 0.6350448727607727, 'learning_rate': 1.9886911799022464e-05, 'epoch': 0.76} {'loss': 0.8558, 'grad_norm': 0.6413330435752869, 'learning_rate': 1.988522465682524e-05, 'epoch': 0.77} {'loss': 0.8819, 'grad_norm': 0.5804146528244019, 'learning_rate': 1.9883525095187664e-05, 'epoch': 0.77} {'loss': 0.8695, 'grad_norm': 0.5597716569900513, 'learning_rate': 1.9881813116245e-05, 'epoch': 0.77} {'loss': 0.8657, 'grad_norm': 0.6250863671302795, 'learning_rate': 1.9880088722148124e-05, 'epoch': 0.78} {'loss': 0.8737, 'grad_norm': 0.5358148813247681, 'learning_rate': 1.9878351915063495e-05, 'epoch': 0.78} {'loss': 0.8332, 'grad_norm': 0.5707776546478271, 'learning_rate': 1.987660269717318e-05, 'epoch': 0.78} {'loss': 0.8243, 'grad_norm': 0.5751229524612427, 'learning_rate': 1.9874841070674827e-05, 'epoch': 0.78} {'loss': 0.8663, 'grad_norm': 0.5831080675125122, 'learning_rate': 1.987306703778169e-05, 'epoch': 0.79} {'loss': 0.8714, 'grad_norm': 0.5763766765594482, 'learning_rate': 1.987128060072259e-05, 'epoch': 0.79} {'loss': 0.8352, 'grad_norm': 0.6302029490470886, 'learning_rate': 1.9869481761741945e-05, 'epoch': 0.79} {'loss': 0.8139, 'grad_norm': 0.5284777283668518, 'learning_rate': 1.986767052309976e-05, 'epoch': 0.79} {'loss': 0.8495, 'grad_norm': 0.5992189049720764, 'learning_rate': 1.9865846887071596e-05, 'epoch': 0.8} {'loss': 0.8382, 'grad_norm': 0.564197838306427, 'learning_rate': 1.9864010855948615e-05, 'epoch': 0.8} {'loss': 0.8719, 'grad_norm': 0.5557004809379578, 'learning_rate': 1.9862162432037534e-05, 'epoch': 0.8} {'loss': 0.8611, 'grad_norm': 0.5843466520309448, 'learning_rate': 1.986030161766065e-05, 'epoch': 0.81} {'loss': 0.8222, 'grad_norm': 0.5848052501678467, 'learning_rate': 1.985842841515582e-05, 'epoch': 0.81} {'loss': 0.8167, 'grad_norm': 0.5923579335212708, 'learning_rate': 1.9856542826876474e-05, 'epoch': 0.81} {'loss': 0.881, 'grad_norm': 0.6020235419273376, 'learning_rate': 1.985464485519159e-05, 'epoch': 0.81} {'loss': 0.8462, 'grad_norm': 0.6872364282608032, 'learning_rate': 1.9852734502485715e-05, 'epoch': 0.82} {'loss': 0.8358, 'grad_norm': 0.5919126272201538, 'learning_rate': 1.9850811771158948e-05, 'epoch': 0.82} {'loss': 0.8289, 'grad_norm': 0.5808220505714417, 'learning_rate': 1.9848876663626933e-05, 'epoch': 0.82} {'loss': 0.8586, 'grad_norm': 0.47942405939102173, 'learning_rate': 1.9846929182320878e-05, 'epoch': 0.82} {'loss': 0.8646, 'grad_norm': 0.5941640734672546, 'learning_rate': 1.9844969329687526e-05, 'epoch': 0.83} {'loss': 0.8628, 'grad_norm': 0.5859202146530151, 'learning_rate': 1.9842997108189165e-05, 'epoch': 0.83} {'loss': 0.8816, 'grad_norm': 0.6371726393699646, 'learning_rate': 1.984101252030362e-05, 'epoch': 0.83} {'loss': 0.8761, 'grad_norm': 0.5507919192314148, 'learning_rate': 1.9839015568524257e-05, 'epoch': 0.84} {'loss': 0.847, 'grad_norm': 0.6408331990242004, 'learning_rate': 1.9837006255359976e-05, 'epoch': 0.84} {'loss': 0.9232, 'grad_norm': 0.6203089356422424, 'learning_rate': 1.9834984583335208e-05, 'epoch': 0.84} {'loss': 0.893, 'grad_norm': 0.5718522071838379, 'learning_rate': 1.9832950554989903e-05, 'epoch': 0.84} {'loss': 0.8591, 'grad_norm': 0.583077073097229, 'learning_rate': 1.9830904172879544e-05, 'epoch': 0.85} {'loss': 0.8604, 'grad_norm': 0.6931044459342957, 'learning_rate': 1.9828845439575133e-05, 'epoch': 0.85} {'loss': 0.8303, 'grad_norm': 0.5817733407020569, 'learning_rate': 1.982677435766319e-05, 'epoch': 0.85} {'loss': 0.8662, 'grad_norm': 0.5962349772453308, 'learning_rate': 1.982469092974574e-05, 'epoch': 0.85} {'loss': 0.8778, 'grad_norm': 0.6102823615074158, 'learning_rate': 1.9822595158440334e-05, 'epoch': 0.86} {'loss': 0.8421, 'grad_norm': 0.5224533677101135, 'learning_rate': 1.9820487046380023e-05, 'epoch': 0.86} {'loss': 0.8633, 'grad_norm': 0.5860036015510559, 'learning_rate': 1.981836659621336e-05, 'epoch': 0.86} {'loss': 0.8555, 'grad_norm': 0.6635854244232178, 'learning_rate': 1.98162338106044e-05, 'epoch': 0.87} {'loss': 0.8329, 'grad_norm': 0.4965840280056, 'learning_rate': 1.9814088692232707e-05, 'epoch': 0.87} {'loss': 0.8174, 'grad_norm': 0.5928810238838196, 'learning_rate': 1.981193124379332e-05, 'epoch': 0.87} {'loss': 0.8605, 'grad_norm': 1.505823016166687, 'learning_rate': 1.9809761467996794e-05, 'epoch': 0.87} {'loss': 0.8447, 'grad_norm': 0.6232828497886658, 'learning_rate': 1.980757936756914e-05, 'epoch': 0.88} {'loss': 0.8556, 'grad_norm': 0.5991947650909424, 'learning_rate': 1.980538494525188e-05, 'epoch': 0.88} {'loss': 0.8302, 'grad_norm': 0.4636569619178772, 'learning_rate': 1.9803178203802006e-05, 'epoch': 0.88} {'loss': 0.8229, 'grad_norm': 0.5354868769645691, 'learning_rate': 1.980095914599199e-05, 'epoch': 0.88} {'loss': 0.8595, 'grad_norm': 0.6195859313011169, 'learning_rate': 1.9798727774609775e-05, 'epoch': 0.89} {'loss': 0.8184, 'grad_norm': 0.5988561511039734, 'learning_rate': 1.9796484092458775e-05, 'epoch': 0.89} {'loss': 0.8608, 'grad_norm': 0.58103346824646, 'learning_rate': 1.9794228102357868e-05, 'epoch': 0.89} {'loss': 0.8471, 'grad_norm': 0.6026789546012878, 'learning_rate': 1.9791959807141406e-05, 'epoch': 0.89} {'loss': 0.838, 'grad_norm': 0.5862488746643066, 'learning_rate': 1.9789679209659188e-05, 'epoch': 0.9} {'loss': 0.8031, 'grad_norm': 0.5073851943016052, 'learning_rate': 1.9787386312776475e-05, 'epoch': 0.9} {'loss': 0.8491, 'grad_norm': 0.5798654556274414, 'learning_rate': 1.9785081119373982e-05, 'epoch': 0.9} {'loss': 0.8335, 'grad_norm': 0.6322434544563293, 'learning_rate': 1.9782763632347875e-05, 'epoch': 0.91} {'loss': 0.8426, 'grad_norm': 0.5931921005249023, 'learning_rate': 1.9780433854609753e-05, 'epoch': 0.91} {'loss': 0.8422, 'grad_norm': 0.7450644969940186, 'learning_rate': 1.977809178908667e-05, 'epoch': 0.91} {'loss': 0.873, 'grad_norm': 0.5737094283103943, 'learning_rate': 1.9775737438721107e-05, 'epoch': 0.91} {'loss': 0.8601, 'grad_norm': 0.5132965445518494, 'learning_rate': 1.9773370806470993e-05, 'epoch': 0.92} {'loss': 0.8339, 'grad_norm': 0.64096599817276, 'learning_rate': 1.9770991895309678e-05, 'epoch': 0.92} {'loss': 0.8688, 'grad_norm': 0.655239999294281, 'learning_rate': 1.9768600708225937e-05, 'epoch': 0.92} {'loss': 0.8877, 'grad_norm': 0.5923803448677063, 'learning_rate': 1.976619724822397e-05, 'epoch': 0.92} {'loss': 0.8755, 'grad_norm': 0.5853500366210938, 'learning_rate': 1.97637815183234e-05, 'epoch': 0.93} {'loss': 0.8734, 'grad_norm': 0.5500953197479248, 'learning_rate': 1.9761353521559265e-05, 'epoch': 0.93} {'loss': 0.8436, 'grad_norm': 0.5237683057785034, 'learning_rate': 1.9758913260982012e-05, 'epoch': 0.93} {'loss': 0.8267, 'grad_norm': 0.6789421439170837, 'learning_rate': 1.9756460739657495e-05, 'epoch': 0.94} {'loss': 0.8448, 'grad_norm': 0.594571053981781, 'learning_rate': 1.9753995960666975e-05, 'epoch': 0.94} {'loss': 0.8653, 'grad_norm': 0.5802611708641052, 'learning_rate': 1.975151892710711e-05, 'epoch': 0.94} {'loss': 0.8133, 'grad_norm': 0.5374495387077332, 'learning_rate': 1.9749029642089957e-05, 'epoch': 0.94} {'loss': 0.8627, 'grad_norm': 0.6250522136688232, 'learning_rate': 1.9746528108742962e-05, 'epoch': 0.95} {'loss': 0.9128, 'grad_norm': 0.6619899272918701, 'learning_rate': 1.9744014330208965e-05, 'epoch': 0.95} {'loss': 0.8507, 'grad_norm': 0.5980607271194458, 'learning_rate': 1.9741488309646183e-05, 'epoch': 0.95} {'loss': 0.8161, 'grad_norm': 0.4835008978843689, 'learning_rate': 1.973895005022822e-05, 'epoch': 0.95} {'loss': 0.9077, 'grad_norm': 0.6443251967430115, 'learning_rate': 1.973639955514405e-05, 'epoch': 0.96} {'loss': 0.8403, 'grad_norm': 0.6321430206298828, 'learning_rate': 1.973383682759803e-05, 'epoch': 0.96} {'loss': 0.8475, 'grad_norm': 0.5905365347862244, 'learning_rate': 1.9731261870809872e-05, 'epoch': 0.96} {'loss': 0.8537, 'grad_norm': 0.6008893251419067, 'learning_rate': 1.9728674688014663e-05, 'epoch': 0.97} {'loss': 0.8732, 'grad_norm': 0.6242995858192444, 'learning_rate': 1.9726075282462847e-05, 'epoch': 0.97} {'loss': 0.8259, 'grad_norm': 0.526276171207428, 'learning_rate': 1.9723463657420218e-05, 'epoch': 0.97} {'loss': 0.871, 'grad_norm': 0.6731019020080566, 'learning_rate': 1.9720839816167933e-05, 'epoch': 0.97} {'loss': 0.8817, 'grad_norm': 0.6140623092651367, 'learning_rate': 1.971820376200249e-05, 'epoch': 0.98} {'loss': 0.8039, 'grad_norm': 0.5084602236747742, 'learning_rate': 1.971555549823573e-05, 'epoch': 0.98} {'loss': 0.8451, 'grad_norm': 0.5887939929962158, 'learning_rate': 1.9712895028194842e-05, 'epoch': 0.98} {'loss': 0.8228, 'grad_norm': 0.6528313755989075, 'learning_rate': 1.9710222355222338e-05, 'epoch': 0.98} {'loss': 0.8051, 'grad_norm': 0.6189748048782349, 'learning_rate': 1.9707537482676072e-05, 'epoch': 0.99} {'loss': 0.8589, 'grad_norm': 0.6164290904998779, 'learning_rate': 1.9704840413929224e-05, 'epoch': 0.99} {'loss': 0.8346, 'grad_norm': 0.6212752461433411, 'learning_rate': 1.970213115237029e-05, 'epoch': 0.99} {'loss': 0.8205, 'grad_norm': 0.5596139430999756, 'learning_rate': 1.969940970140309e-05, 'epoch': 1.0} {'loss': 0.8329, 'grad_norm': 0.6198735237121582, 'learning_rate': 1.9696676064446754e-05, 'epoch': 1.0} 12%|███████████████ | 3688/29504 [9:40:25<53:54:31, 7.52s/it]/venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") {'loss': 0.8245, 'grad_norm': 0.5841825604438782, 'learning_rate': 1.9693930244935728e-05, 'epoch': 1.0} {'loss': 0.819, 'grad_norm': 0.7086033225059509, 'learning_rate': 1.969117224631976e-05, 'epoch': 1.0} {'loss': 0.7953, 'grad_norm': 0.5707154870033264, 'learning_rate': 1.9688402072063905e-05, 'epoch': 1.01} {'loss': 0.7703, 'grad_norm': 0.5952984094619751, 'learning_rate': 1.96856197256485e-05, 'epoch': 1.01} {'loss': 0.8208, 'grad_norm': 0.5810210108757019, 'learning_rate': 1.9682825210569195e-05, 'epoch': 1.01} {'loss': 0.8159, 'grad_norm': 0.6136285066604614, 'learning_rate': 1.968001853033691e-05, 'epoch': 1.01} {'loss': 0.8518, 'grad_norm': 0.6078589558601379, 'learning_rate': 1.9677199688477862e-05, 'epoch': 1.02} {'loss': 0.8538, 'grad_norm': 0.6277697682380676, 'learning_rate': 1.9674368688533542e-05, 'epoch': 1.02} {'loss': 0.816, 'grad_norm': 0.5825332403182983, 'learning_rate': 1.9671525534060712e-05, 'epoch': 1.02} {'loss': 0.8267, 'grad_norm': 0.5657969117164612, 'learning_rate': 1.9668670228631416e-05, 'epoch': 1.02} {'loss': 0.8176, 'grad_norm': 0.6089386940002441, 'learning_rate': 1.9665802775832953e-05, 'epoch': 1.03} {'loss': 0.8408, 'grad_norm': 0.6215984225273132, 'learning_rate': 1.9662923179267887e-05, 'epoch': 1.03} {'loss': 0.8303, 'grad_norm': 0.7287639379501343, 'learning_rate': 1.966003144255404e-05, 'epoch': 1.03} {'loss': 0.8236, 'grad_norm': 0.5595918297767639, 'learning_rate': 1.9657127569324487e-05, 'epoch': 1.04} {'loss': 0.8472, 'grad_norm': 0.6025189757347107, 'learning_rate': 1.965421156322755e-05, 'epoch': 1.04} {'loss': 0.7887, 'grad_norm': 0.5743151903152466, 'learning_rate': 1.965128342792679e-05, 'epoch': 1.04} {'loss': 0.8378, 'grad_norm': 0.6362122893333435, 'learning_rate': 1.9648343167101017e-05, 'epoch': 1.04} {'loss': 0.8162, 'grad_norm': 0.538293182849884, 'learning_rate': 1.9645390784444262e-05, 'epoch': 1.05} {'loss': 0.8225, 'grad_norm': 0.7048225998878479, 'learning_rate': 1.96424262836658e-05, 'epoch': 1.05} {'loss': 0.818, 'grad_norm': 0.5739440321922302, 'learning_rate': 1.9639449668490116e-05, 'epoch': 1.05} {'loss': 0.8185, 'grad_norm': 0.5800130367279053, 'learning_rate': 1.9636460942656924e-05, 'epoch': 1.05} {'loss': 0.8364, 'grad_norm': 0.583075761795044, 'learning_rate': 1.9633460109921158e-05, 'epoch': 1.06} {'loss': 0.8179, 'grad_norm': 0.6148843765258789, 'learning_rate': 1.9630447174052944e-05, 'epoch': 1.06} {'loss': 0.8369, 'grad_norm': 0.6017066240310669, 'learning_rate': 1.9627422138837636e-05, 'epoch': 1.06} {'loss': 0.8175, 'grad_norm': 0.5265188813209534, 'learning_rate': 1.962438500807578e-05, 'epoch': 1.07} {'loss': 0.8003, 'grad_norm': 0.6319634318351746, 'learning_rate': 1.962133578558311e-05, 'epoch': 1.07} {'loss': 0.8206, 'grad_norm': 0.6505174040794373, 'learning_rate': 1.9618274475190563e-05, 'epoch': 1.07} {'loss': 0.8062, 'grad_norm': 0.545939564704895, 'learning_rate': 1.961520108074426e-05, 'epoch': 1.07} {'loss': 0.8527, 'grad_norm': 0.6149289011955261, 'learning_rate': 1.9612115606105504e-05, 'epoch': 1.08} {'loss': 0.8076, 'grad_norm': 0.6312094926834106, 'learning_rate': 1.9609018055150773e-05, 'epoch': 1.08} {'loss': 0.8162, 'grad_norm': 0.5636793971061707, 'learning_rate': 1.9605908431771718e-05, 'epoch': 1.08} {'loss': 0.8626, 'grad_norm': 0.610170841217041, 'learning_rate': 1.9602786739875154e-05, 'epoch': 1.08} {'loss': 0.8452, 'grad_norm': 0.6328344345092773, 'learning_rate': 1.9599652983383073e-05, 'epoch': 1.09} {'loss': 0.835, 'grad_norm': 0.650608241558075, 'learning_rate': 1.9596507166232605e-05, 'epoch': 1.09} {'loss': 0.84, 'grad_norm': 0.6125383377075195, 'learning_rate': 1.9593349292376043e-05, 'epoch': 1.09} {'loss': 0.8373, 'grad_norm': 0.6549943089485168, 'learning_rate': 1.9590179365780828e-05, 'epoch': 1.1} {'loss': 0.8477, 'grad_norm': 0.6538410186767578, 'learning_rate': 1.958699739042954e-05, 'epoch': 1.1} {'loss': 0.8142, 'grad_norm': 0.5478715300559998, 'learning_rate': 1.95838033703199e-05, 'epoch': 1.1} {'loss': 0.8163, 'grad_norm': 0.5872273445129395, 'learning_rate': 1.9580597309464756e-05, 'epoch': 1.1} {'loss': 0.7883, 'grad_norm': 0.6501805186271667, 'learning_rate': 1.957737921189209e-05, 'epoch': 1.11} {'loss': 0.8258, 'grad_norm': 0.6267895102500916, 'learning_rate': 1.9574149081645008e-05, 'epoch': 1.11} {'loss': 0.8311, 'grad_norm': 0.6156176924705505, 'learning_rate': 1.957090692278172e-05, 'epoch': 1.11} {'loss': 0.8422, 'grad_norm': 0.561718225479126, 'learning_rate': 1.9567652739375566e-05, 'epoch': 1.11} {'loss': 0.8008, 'grad_norm': 0.6303171515464783, 'learning_rate': 1.9564386535514982e-05, 'epoch': 1.12} {'loss': 0.7698, 'grad_norm': 0.651835560798645, 'learning_rate': 1.956110831530351e-05, 'epoch': 1.12} {'loss': 0.8252, 'grad_norm': 0.5109974145889282, 'learning_rate': 1.9557818082859782e-05, 'epoch': 1.12} {'loss': 0.8467, 'grad_norm': 0.6007665395736694, 'learning_rate': 1.9554515842317537e-05, 'epoch': 1.13} {'loss': 0.7813, 'grad_norm': 0.6509625911712646, 'learning_rate': 1.9551201597825584e-05, 'epoch': 1.13} {'loss': 0.8047, 'grad_norm': 0.5242351293563843, 'learning_rate': 1.9547875353547823e-05, 'epoch': 1.13} {'loss': 0.8165, 'grad_norm': 0.5201049447059631, 'learning_rate': 1.9544537113663226e-05, 'epoch': 1.13} {'loss': 0.802, 'grad_norm': 0.7519638538360596, 'learning_rate': 1.9541186882365843e-05, 'epoch': 1.14} {'loss': 0.8421, 'grad_norm': 0.7950822114944458, 'learning_rate': 1.9537824663864776e-05, 'epoch': 1.14} {'loss': 0.8162, 'grad_norm': 0.6693769693374634, 'learning_rate': 1.9534450462384197e-05, 'epoch': 1.14} {'loss': 0.8364, 'grad_norm': 0.667799711227417, 'learning_rate': 1.953106428216334e-05, 'epoch': 1.14} {'loss': 0.8511, 'grad_norm': 0.6374843120574951, 'learning_rate': 1.952766612745647e-05, 'epoch': 1.15} {'loss': 0.8628, 'grad_norm': 0.6273001432418823, 'learning_rate': 1.9524256002532908e-05, 'epoch': 1.15} {'loss': 0.8169, 'grad_norm': 0.6354482173919678, 'learning_rate': 1.9520833911677012e-05, 'epoch': 1.15} {'loss': 0.8379, 'grad_norm': 0.5850977897644043, 'learning_rate': 1.951739985918818e-05, 'epoch': 1.16} {'loss': 0.8484, 'grad_norm': 0.6517396569252014, 'learning_rate': 1.9513953849380826e-05, 'epoch': 1.16} {'loss': 0.7791, 'grad_norm': 0.6608861684799194, 'learning_rate': 1.951049588658439e-05, 'epoch': 1.16} {'loss': 0.8002, 'grad_norm': 0.6669021248817444, 'learning_rate': 1.950702597514334e-05, 'epoch': 1.16} {'loss': 0.8479, 'grad_norm': 0.716221034526825, 'learning_rate': 1.9503544119417142e-05, 'epoch': 1.17} {'loss': 0.8306, 'grad_norm': 0.6016847491264343, 'learning_rate': 1.9500050323780275e-05, 'epoch': 1.17} {'loss': 0.8412, 'grad_norm': 0.6551607251167297, 'learning_rate': 1.949654459262222e-05, 'epoch': 1.17} {'loss': 0.8249, 'grad_norm': 0.5953757166862488, 'learning_rate': 1.9493026930347453e-05, 'epoch': 1.17} {'loss': 0.8346, 'grad_norm': 0.5586349964141846, 'learning_rate': 1.9489497341375432e-05, 'epoch': 1.18} {'loss': 0.798, 'grad_norm': 0.6168404817581177, 'learning_rate': 1.948595583014061e-05, 'epoch': 1.18} {'loss': 0.8452, 'grad_norm': 0.6949303150177002, 'learning_rate': 1.9482402401092412e-05, 'epoch': 1.18} {'loss': 0.7959, 'grad_norm': 0.38480356335639954, 'learning_rate': 1.9478837058695238e-05, 'epoch': 1.18} {'loss': 0.8491, 'grad_norm': 0.5804716348648071, 'learning_rate': 1.9475259807428462e-05, 'epoch': 1.19} {'loss': 0.8144, 'grad_norm': 0.5634225606918335, 'learning_rate': 1.9471670651786408e-05, 'epoch': 1.19} {'loss': 0.8286, 'grad_norm': 0.5173108577728271, 'learning_rate': 1.946806959627836e-05, 'epoch': 1.19} {'loss': 0.8104, 'grad_norm': 0.6508489847183228, 'learning_rate': 1.946445664542856e-05, 'epoch': 1.2} {'loss': 0.8778, 'grad_norm': 0.6863489151000977, 'learning_rate': 1.9460831803776184e-05, 'epoch': 1.2} {'loss': 0.847, 'grad_norm': 0.6520341038703918, 'learning_rate': 1.9457195075875362e-05, 'epoch': 1.2} {'loss': 0.835, 'grad_norm': 0.5658304691314697, 'learning_rate': 1.9453546466295136e-05, 'epoch': 1.2} {'loss': 0.8414, 'grad_norm': 0.6995821595191956, 'learning_rate': 1.9449885979619493e-05, 'epoch': 1.21} {'loss': 0.8247, 'grad_norm': 0.6654220223426819, 'learning_rate': 1.9446213620447337e-05, 'epoch': 1.21} {'loss': 0.7744, 'grad_norm': 0.6220892667770386, 'learning_rate': 1.9442529393392487e-05, 'epoch': 1.21} {'loss': 0.8208, 'grad_norm': 0.715772271156311, 'learning_rate': 1.9438833303083677e-05, 'epoch': 1.21} {'loss': 0.855, 'grad_norm': 0.5802282691001892, 'learning_rate': 1.9435125354164538e-05, 'epoch': 1.22} {'loss': 0.7801, 'grad_norm': 0.6112691760063171, 'learning_rate': 1.94314055512936e-05, 'epoch': 1.22} {'loss': 0.8203, 'grad_norm': 0.749311625957489, 'learning_rate': 1.9427673899144298e-05, 'epoch': 1.22} {'loss': 0.8539, 'grad_norm': 0.5031793117523193, 'learning_rate': 1.942393040240494e-05, 'epoch': 1.23} {'loss': 0.8346, 'grad_norm': 0.6427908539772034, 'learning_rate': 1.942017506577872e-05, 'epoch': 1.23} {'loss': 0.781, 'grad_norm': 0.5566282868385315, 'learning_rate': 1.941640789398371e-05, 'epoch': 1.23} {'loss': 0.806, 'grad_norm': 0.5294527411460876, 'learning_rate': 1.941262889175285e-05, 'epoch': 1.23} {'loss': 0.8188, 'grad_norm': 0.6152069568634033, 'learning_rate': 1.9408838063833938e-05, 'epoch': 1.24} {'loss': 0.825, 'grad_norm': 0.5852449536323547, 'learning_rate': 1.9405035414989637e-05, 'epoch': 1.24} {'loss': 0.8227, 'grad_norm': 0.6351260542869568, 'learning_rate': 1.9401220949997457e-05, 'epoch': 1.24} {'loss': 0.8073, 'grad_norm': 0.6252602934837341, 'learning_rate': 1.9397394673649757e-05, 'epoch': 1.24} {'loss': 0.8388, 'grad_norm': 0.6303697824478149, 'learning_rate': 1.939355659075373e-05, 'epoch': 1.25} {'loss': 0.8464, 'grad_norm': 0.7026388645172119, 'learning_rate': 1.9389706706131403e-05, 'epoch': 1.25} {'loss': 0.7904, 'grad_norm': 0.5833548307418823, 'learning_rate': 1.938584502461964e-05, 'epoch': 1.25} {'loss': 0.7743, 'grad_norm': 0.6113384962081909, 'learning_rate': 1.938197155107011e-05, 'epoch': 1.26} {'loss': 0.829, 'grad_norm': 0.6096922159194946, 'learning_rate': 1.937808629034931e-05, 'epoch': 1.26} {'loss': 0.8324, 'grad_norm': 0.7021676301956177, 'learning_rate': 1.9374189247338542e-05, 'epoch': 1.26} {'loss': 0.817, 'grad_norm': 0.599080502986908, 'learning_rate': 1.937028042693391e-05, 'epoch': 1.26} {'loss': 0.7894, 'grad_norm': 0.6436633467674255, 'learning_rate': 1.9366359834046315e-05, 'epoch': 1.27} {'loss': 0.8102, 'grad_norm': 0.6778590083122253, 'learning_rate': 1.936242747360145e-05, 'epoch': 1.27} {'loss': 0.8027, 'grad_norm': 0.6449417471885681, 'learning_rate': 1.935848335053979e-05, 'epoch': 1.27} {'loss': 0.8241, 'grad_norm': 0.6659684777259827, 'learning_rate': 1.9354527469816585e-05, 'epoch': 1.27} {'loss': 0.7939, 'grad_norm': 0.6524550318717957, 'learning_rate': 1.935055983640187e-05, 'epoch': 1.28} {'loss': 0.7902, 'grad_norm': 0.6710517406463623, 'learning_rate': 1.9346580455280427e-05, 'epoch': 1.28} {'loss': 0.7783, 'grad_norm': 0.5069913864135742, 'learning_rate': 1.9342589331451815e-05, 'epoch': 1.28} {'loss': 0.8004, 'grad_norm': 0.5989558696746826, 'learning_rate': 1.933858646993034e-05, 'epoch': 1.29} {'loss': 0.8381, 'grad_norm': 0.6678231358528137, 'learning_rate': 1.933457187574504e-05, 'epoch': 1.29} {'loss': 0.8088, 'grad_norm': 0.6063205599784851, 'learning_rate': 1.933054555393972e-05, 'epoch': 1.29} {'loss': 0.7911, 'grad_norm': 0.6824402809143066, 'learning_rate': 1.93265075095729e-05, 'epoch': 1.29} {'loss': 0.8125, 'grad_norm': 0.6937515139579773, 'learning_rate': 1.9322457747717832e-05, 'epoch': 1.3} {'loss': 0.7746, 'grad_norm': 0.6800796389579773, 'learning_rate': 1.93183962734625e-05, 'epoch': 1.3} {'loss': 0.8178, 'grad_norm': 0.6388120055198669, 'learning_rate': 1.9314323091909582e-05, 'epoch': 1.3} {'loss': 0.797, 'grad_norm': 0.6103799939155579, 'learning_rate': 1.9310238208176484e-05, 'epoch': 1.3} {'loss': 0.8095, 'grad_norm': 0.6609655022621155, 'learning_rate': 1.9306141627395302e-05, 'epoch': 1.31} {'loss': 0.7886, 'grad_norm': 0.6346316933631897, 'learning_rate': 1.930203335471284e-05, 'epoch': 1.31} {'loss': 0.8152, 'grad_norm': 0.6227517127990723, 'learning_rate': 1.9297913395290577e-05, 'epoch': 1.31} {'loss': 0.8244, 'grad_norm': 0.7441206574440002, 'learning_rate': 1.9293781754304682e-05, 'epoch': 1.32} {'loss': 0.8196, 'grad_norm': 0.7042255401611328, 'learning_rate': 1.9289638436946008e-05, 'epoch': 1.32} {'loss': 0.8231, 'grad_norm': 0.5976410508155823, 'learning_rate': 1.928548344842006e-05, 'epoch': 1.32} {'loss': 0.8207, 'grad_norm': 0.5708774328231812, 'learning_rate': 1.928131679394702e-05, 'epoch': 1.32} {'loss': 0.8007, 'grad_norm': 0.5550462603569031, 'learning_rate': 1.9277138478761724e-05, 'epoch': 1.33} {'loss': 0.8304, 'grad_norm': 0.6005685925483704, 'learning_rate': 1.9272948508113653e-05, 'epoch': 1.33} {'loss': 0.7861, 'grad_norm': 0.659631609916687, 'learning_rate': 1.9268746887266938e-05, 'epoch': 1.33} {'loss': 0.8321, 'grad_norm': 0.6008719801902771, 'learning_rate': 1.9264533621500344e-05, 'epoch': 1.33} {'loss': 0.7779, 'grad_norm': 0.5872020125389099, 'learning_rate': 1.926030871610727e-05, 'epoch': 1.34} {'loss': 0.82, 'grad_norm': 0.5809406042098999, 'learning_rate': 1.9256072176395726e-05, 'epoch': 1.34} {'loss': 0.8355, 'grad_norm': 0.5556138157844543, 'learning_rate': 1.9251824007688355e-05, 'epoch': 1.34} {'loss': 0.7959, 'grad_norm': 0.6081497669219971, 'learning_rate': 1.9247564215322402e-05, 'epoch': 1.34} {'loss': 0.8039, 'grad_norm': 0.6515299081802368, 'learning_rate': 1.9243292804649713e-05, 'epoch': 1.35} {'loss': 0.8095, 'grad_norm': 0.6539772748947144, 'learning_rate': 1.923900978103674e-05, 'epoch': 1.35} {'loss': 0.8584, 'grad_norm': 0.6031132936477661, 'learning_rate': 1.9234715149864514e-05, 'epoch': 1.35} {'loss': 0.8128, 'grad_norm': 0.6571087837219238, 'learning_rate': 1.9230408916528663e-05, 'epoch': 1.36} {'loss': 0.774, 'grad_norm': 0.6356621980667114, 'learning_rate': 1.922609108643938e-05, 'epoch': 1.36} {'loss': 0.8471, 'grad_norm': 0.7230141162872314, 'learning_rate': 1.9221761665021426e-05, 'epoch': 1.36} {'loss': 0.8174, 'grad_norm': 0.634671688079834, 'learning_rate': 1.9217420657714136e-05, 'epoch': 1.36} {'loss': 0.7939, 'grad_norm': 0.6672242283821106, 'learning_rate': 1.9213068069971396e-05, 'epoch': 1.37} {'loss': 0.7922, 'grad_norm': 0.6155692338943481, 'learning_rate': 1.920870390726163e-05, 'epoch': 1.37} {'loss': 0.8531, 'grad_norm': 0.6544708013534546, 'learning_rate': 1.920432817506783e-05, 'epoch': 1.37} {'loss': 0.8244, 'grad_norm': 0.6674018502235413, 'learning_rate': 1.9199940878887503e-05, 'epoch': 1.37} {'loss': 0.8276, 'grad_norm': 0.6462014317512512, 'learning_rate': 1.9195542024232682e-05, 'epoch': 1.38} {'loss': 0.7716, 'grad_norm': 0.6451952457427979, 'learning_rate': 1.9191131616629938e-05, 'epoch': 1.38} {'loss': 0.8205, 'grad_norm': 0.5508321523666382, 'learning_rate': 1.9186709661620347e-05, 'epoch': 1.38} {'loss': 0.8532, 'grad_norm': 0.6595607399940491, 'learning_rate': 1.9182276164759494e-05, 'epoch': 1.39} {'loss': 0.813, 'grad_norm': 0.6898101568222046, 'learning_rate': 1.9177831131617464e-05, 'epoch': 1.39} {'loss': 0.8135, 'grad_norm': 0.5794757008552551, 'learning_rate': 1.9173374567778836e-05, 'epoch': 1.39} {'loss': 0.8373, 'grad_norm': 0.6818537712097168, 'learning_rate': 1.916890647884268e-05, 'epoch': 1.39} {'loss': 0.8023, 'grad_norm': 0.6927791833877563, 'learning_rate': 1.9164426870422536e-05, 'epoch': 1.4} {'loss': 0.8052, 'grad_norm': 0.6060357093811035, 'learning_rate': 1.9159935748146426e-05, 'epoch': 1.4} {'loss': 0.8527, 'grad_norm': 0.5895192623138428, 'learning_rate': 1.9155433117656837e-05, 'epoch': 1.4} {'loss': 0.8362, 'grad_norm': 0.6122015714645386, 'learning_rate': 1.9150918984610708e-05, 'epoch': 1.4} {'loss': 0.8125, 'grad_norm': 0.6827197074890137, 'learning_rate': 1.9146393354679432e-05, 'epoch': 1.41} {'loss': 0.8182, 'grad_norm': 0.5452509522438049, 'learning_rate': 1.914185623354885e-05, 'epoch': 1.41} {'loss': 0.8094, 'grad_norm': 0.6695367693901062, 'learning_rate': 1.9137307626919242e-05, 'epoch': 1.41} {'loss': 0.8417, 'grad_norm': 0.6795042157173157, 'learning_rate': 1.9132747540505306e-05, 'epoch': 1.42} {'loss': 0.7811, 'grad_norm': 0.7157260179519653, 'learning_rate': 1.912817598003617e-05, 'epoch': 1.42} {'loss': 0.8059, 'grad_norm': 0.6676037311553955, 'learning_rate': 1.9123592951255387e-05, 'epoch': 1.42} {'loss': 0.8285, 'grad_norm': 0.5723512172698975, 'learning_rate': 1.91189984599209e-05, 'epoch': 1.42} {'loss': 0.8572, 'grad_norm': 0.6362597346305847, 'learning_rate': 1.9114392511805072e-05, 'epoch': 1.43} {'loss': 0.8494, 'grad_norm': 0.6369635462760925, 'learning_rate': 1.910977511269464e-05, 'epoch': 1.43} {'loss': 0.8547, 'grad_norm': 0.5770928263664246, 'learning_rate': 1.910514626839074e-05, 'epoch': 1.43} {'loss': 0.8045, 'grad_norm': 0.5824934244155884, 'learning_rate': 1.9100505984708895e-05, 'epoch': 1.43} {'loss': 0.8165, 'grad_norm': 0.6146742105484009, 'learning_rate': 1.909585426747898e-05, 'epoch': 1.44} {'loss': 0.8189, 'grad_norm': 0.6877671480178833, 'learning_rate': 1.909119112254525e-05, 'epoch': 1.44} {'loss': 0.8401, 'grad_norm': 0.6298898458480835, 'learning_rate': 1.9086516555766307e-05, 'epoch': 1.44} {'loss': 0.7825, 'grad_norm': 0.7257100939750671, 'learning_rate': 1.9081830573015115e-05, 'epoch': 1.45} {'loss': 0.7863, 'grad_norm': 0.6779277324676514, 'learning_rate': 1.907713318017897e-05, 'epoch': 1.45} {'loss': 0.7984, 'grad_norm': 0.6922721266746521, 'learning_rate': 1.907242438315951e-05, 'epoch': 1.45} {'loss': 0.794, 'grad_norm': 0.5412895083427429, 'learning_rate': 1.9067704187872692e-05, 'epoch': 1.45} {'loss': 0.7909, 'grad_norm': 0.620728611946106, 'learning_rate': 1.906297260024881e-05, 'epoch': 1.46} {'loss': 0.8316, 'grad_norm': 0.5644276142120361, 'learning_rate': 1.9058229626232453e-05, 'epoch': 1.46} {'loss': 0.8454, 'grad_norm': 0.716931164264679, 'learning_rate': 1.9053475271782523e-05, 'epoch': 1.46} {'loss': 0.763, 'grad_norm': 0.5971083045005798, 'learning_rate': 1.904870954287222e-05, 'epoch': 1.46} {'loss': 0.792, 'grad_norm': 0.6486918330192566, 'learning_rate': 1.9043932445489037e-05, 'epoch': 1.47} {'loss': 0.8548, 'grad_norm': 0.5736139416694641, 'learning_rate': 1.9039143985634744e-05, 'epoch': 1.47} {'loss': 0.8233, 'grad_norm': 0.777929425239563, 'learning_rate': 1.9034344169325388e-05, 'epoch': 1.47} {'loss': 0.8295, 'grad_norm': 0.6148034334182739, 'learning_rate': 1.902953300259129e-05, 'epoch': 1.48} {'loss': 0.794, 'grad_norm': 0.5983071327209473, 'learning_rate': 1.902471049147703e-05, 'epoch': 1.48} {'loss': 0.8285, 'grad_norm': 0.5857149362564087, 'learning_rate': 1.9019876642041425e-05, 'epoch': 1.48} {'loss': 0.7805, 'grad_norm': 0.6479992866516113, 'learning_rate': 1.9015031460357557e-05, 'epoch': 1.48} {'loss': 0.8128, 'grad_norm': 0.628755509853363, 'learning_rate': 1.9010174952512742e-05, 'epoch': 1.49} {'loss': 0.7988, 'grad_norm': 0.6356487274169922, 'learning_rate': 1.9005307124608513e-05, 'epoch': 1.49} {'loss': 0.813, 'grad_norm': 0.5814028978347778, 'learning_rate': 1.9000427982760642e-05, 'epoch': 1.49} {'loss': 0.8015, 'grad_norm': 0.6626162528991699, 'learning_rate': 1.8995537533099097e-05, 'epoch': 1.49} {'loss': 0.8166, 'grad_norm': 0.6479038000106812, 'learning_rate': 1.8990635781768073e-05, 'epoch': 1.5} {'loss': 0.8702, 'grad_norm': 0.6648207902908325, 'learning_rate': 1.8985722734925945e-05, 'epoch': 1.5} {'loss': 0.7952, 'grad_norm': 0.644700825214386, 'learning_rate': 1.8980798398745297e-05, 'epoch': 1.5} {'loss': 0.8287, 'grad_norm': 0.6097299456596375, 'learning_rate': 1.8975862779412882e-05, 'epoch': 1.5} {'loss': 0.8034, 'grad_norm': 0.6207801699638367, 'learning_rate': 1.897091588312964e-05, 'epoch': 1.51} {'loss': 0.8622, 'grad_norm': 0.5582205653190613, 'learning_rate': 1.8965957716110663e-05, 'epoch': 1.51} {'loss': 0.8244, 'grad_norm': 0.6866624355316162, 'learning_rate': 1.8960988284585226e-05, 'epoch': 1.51} {'loss': 0.8059, 'grad_norm': 0.5877643823623657, 'learning_rate': 1.895600759479673e-05, 'epoch': 1.52} {'loss': 0.8003, 'grad_norm': 0.6252442598342896, 'learning_rate': 1.8951015653002747e-05, 'epoch': 1.52} {'loss': 0.8302, 'grad_norm': 0.6721310019493103, 'learning_rate': 1.8946012465474966e-05, 'epoch': 1.52} {'loss': 0.8495, 'grad_norm': 0.6398699879646301, 'learning_rate': 1.8940998038499218e-05, 'epoch': 1.52} {'loss': 0.8501, 'grad_norm': 0.8064070343971252, 'learning_rate': 1.8935972378375438e-05, 'epoch': 1.53} {'loss': 0.8296, 'grad_norm': 0.6413718461990356, 'learning_rate': 1.8930935491417695e-05, 'epoch': 1.53} {'loss': 0.8075, 'grad_norm': 0.6013394594192505, 'learning_rate': 1.8925887383954145e-05, 'epoch': 1.53} {'loss': 0.8252, 'grad_norm': 0.6842344403266907, 'learning_rate': 1.8920828062327053e-05, 'epoch': 1.53} {'loss': 0.7839, 'grad_norm': 0.5883032083511353, 'learning_rate': 1.8915757532892766e-05, 'epoch': 1.54} {'loss': 0.8052, 'grad_norm': 0.623795211315155, 'learning_rate': 1.8910675802021715e-05, 'epoch': 1.54} {'loss': 0.7642, 'grad_norm': 0.568168580532074, 'learning_rate': 1.8905582876098407e-05, 'epoch': 1.54} {'loss': 0.8319, 'grad_norm': 0.6155668497085571, 'learning_rate': 1.8900478761521406e-05, 'epoch': 1.55} {'loss': 0.828, 'grad_norm': 0.641603410243988, 'learning_rate': 1.889536346470334e-05, 'epoch': 1.55} {'loss': 0.7946, 'grad_norm': 0.7097503542900085, 'learning_rate': 1.8890236992070883e-05, 'epoch': 1.55} {'loss': 0.8254, 'grad_norm': 0.6906926035881042, 'learning_rate': 1.888509935006475e-05, 'epoch': 1.55} {'loss': 0.8129, 'grad_norm': 0.5629128217697144, 'learning_rate': 1.8879950545139697e-05, 'epoch': 1.56} {'loss': 0.8247, 'grad_norm': 0.6466451287269592, 'learning_rate': 1.8874790583764486e-05, 'epoch': 1.56} {'loss': 0.7798, 'grad_norm': 0.6366239786148071, 'learning_rate': 1.886961947242191e-05, 'epoch': 1.56} {'loss': 0.8802, 'grad_norm': 0.647546648979187, 'learning_rate': 1.8864437217608774e-05, 'epoch': 1.56} {'loss': 0.8356, 'grad_norm': 0.692133367061615, 'learning_rate': 1.8859243825835868e-05, 'epoch': 1.57} {'loss': 0.8414, 'grad_norm': 0.600895345211029, 'learning_rate': 1.8854039303627982e-05, 'epoch': 1.57} {'loss': 0.7722, 'grad_norm': 0.7561846971511841, 'learning_rate': 1.88488236575239e-05, 'epoch': 1.57} {'loss': 0.8359, 'grad_norm': 0.6446990966796875, 'learning_rate': 1.884359689407636e-05, 'epoch': 1.58} {'loss': 0.8297, 'grad_norm': 0.75503009557724, 'learning_rate': 1.8838359019852088e-05, 'epoch': 1.58} {'loss': 0.8652, 'grad_norm': 0.6494858860969543, 'learning_rate': 1.8833110041431758e-05, 'epoch': 1.58} {'loss': 0.8225, 'grad_norm': 0.6679443717002869, 'learning_rate': 1.8827849965409996e-05, 'epoch': 1.58} {'loss': 0.7904, 'grad_norm': 0.5401656031608582, 'learning_rate': 1.8822578798395375e-05, 'epoch': 1.59} {'loss': 0.8165, 'grad_norm': 0.7154684066772461, 'learning_rate': 1.8817296547010397e-05, 'epoch': 1.59} {'loss': 0.7854, 'grad_norm': 0.6992867588996887, 'learning_rate': 1.8812003217891494e-05, 'epoch': 1.59} {'loss': 0.806, 'grad_norm': 0.7113097310066223, 'learning_rate': 1.8806698817689014e-05, 'epoch': 1.59} {'loss': 0.7902, 'grad_norm': 0.5787865519523621, 'learning_rate': 1.880138335306721e-05, 'epoch': 1.6} {'loss': 0.8383, 'grad_norm': 0.6071568727493286, 'learning_rate': 1.8796056830704247e-05, 'epoch': 1.6} {'loss': 0.8331, 'grad_norm': 0.6767206192016602, 'learning_rate': 1.8790719257292175e-05, 'epoch': 1.6} {'loss': 0.8086, 'grad_norm': 0.5636341571807861, 'learning_rate': 1.8785370639536925e-05, 'epoch': 1.61} {'loss': 0.8015, 'grad_norm': 0.5473988056182861, 'learning_rate': 1.878001098415831e-05, 'epoch': 1.61} {'loss': 0.8616, 'grad_norm': 0.6713427901268005, 'learning_rate': 1.8774640297890006e-05, 'epoch': 1.61} {'loss': 0.8154, 'grad_norm': 0.549285888671875, 'learning_rate': 1.8769258587479557e-05, 'epoch': 1.61} {'loss': 0.8049, 'grad_norm': 0.6506665349006653, 'learning_rate': 1.876386585968834e-05, 'epoch': 1.62} {'loss': 0.8136, 'grad_norm': 0.6829430460929871, 'learning_rate': 1.875846212129159e-05, 'epoch': 1.62} {'loss': 0.8243, 'grad_norm': 0.7114303112030029, 'learning_rate': 1.875304737907837e-05, 'epoch': 1.62} {'loss': 0.81, 'grad_norm': 0.7138090133666992, 'learning_rate': 1.8747621639851566e-05, 'epoch': 1.62} {'loss': 0.8213, 'grad_norm': 0.6152413487434387, 'learning_rate': 1.874218491042788e-05, 'epoch': 1.63} {'loss': 0.8318, 'grad_norm': 0.5597079992294312, 'learning_rate': 1.8736737197637826e-05, 'epoch': 1.63} {'loss': 0.8483, 'grad_norm': 0.5622033476829529, 'learning_rate': 1.873127850832571e-05, 'epoch': 1.63} {'loss': 0.8516, 'grad_norm': 0.6331853270530701, 'learning_rate': 1.8725808849349635e-05, 'epoch': 1.64} {'loss': 0.8231, 'grad_norm': 0.6878509521484375, 'learning_rate': 1.8720328227581484e-05, 'epoch': 1.64} {'loss': 0.8487, 'grad_norm': 0.609682559967041, 'learning_rate': 1.8714836649906914e-05, 'epoch': 1.64} {'loss': 0.847, 'grad_norm': 0.657010018825531, 'learning_rate': 1.8709334123225344e-05, 'epoch': 1.64} {'loss': 0.8313, 'grad_norm': 0.5910162925720215, 'learning_rate': 1.870382065444995e-05, 'epoch': 1.65} {'loss': 0.8278, 'grad_norm': 0.7107388377189636, 'learning_rate': 1.8698296250507656e-05, 'epoch': 1.65} {'loss': 0.79, 'grad_norm': 0.6619822978973389, 'learning_rate': 1.8692760918339124e-05, 'epoch': 1.65} {'loss': 0.8368, 'grad_norm': 0.6927970051765442, 'learning_rate': 1.8687214664898747e-05, 'epoch': 1.65} {'loss': 0.7748, 'grad_norm': 0.6289088726043701, 'learning_rate': 1.8681657497154638e-05, 'epoch': 1.66} {'loss': 0.7819, 'grad_norm': 0.6817496418952942, 'learning_rate': 1.8676089422088622e-05, 'epoch': 1.66} {'loss': 0.8353, 'grad_norm': 0.7057543396949768, 'learning_rate': 1.867051044669623e-05, 'epoch': 1.66} {'loss': 0.8056, 'grad_norm': 0.7047576308250427, 'learning_rate': 1.8664920577986677e-05, 'epoch': 1.66} {'loss': 0.8173, 'grad_norm': 0.526459813117981, 'learning_rate': 1.8659319822982885e-05, 'epoch': 1.67} {'loss': 0.8213, 'grad_norm': 0.6175658106803894, 'learning_rate': 1.8653708188721437e-05, 'epoch': 1.67} {'loss': 0.8301, 'grad_norm': 0.6376397013664246, 'learning_rate': 1.864808568225258e-05, 'epoch': 1.67} {'loss': 0.8269, 'grad_norm': 0.586211621761322, 'learning_rate': 1.864245231064024e-05, 'epoch': 1.68} {'loss': 0.7926, 'grad_norm': 0.5864193439483643, 'learning_rate': 1.863680808096198e-05, 'epoch': 1.68} {'loss': 0.8316, 'grad_norm': 0.6225534081459045, 'learning_rate': 1.8631153000309e-05, 'epoch': 1.68} {'loss': 0.8198, 'grad_norm': 0.6894177794456482, 'learning_rate': 1.862548707578615e-05, 'epoch': 1.68} {'loss': 0.8391, 'grad_norm': 0.6161338686943054, 'learning_rate': 1.8619810314511883e-05, 'epoch': 1.69} {'loss': 0.7865, 'grad_norm': 0.6919470429420471, 'learning_rate': 1.8614122723618284e-05, 'epoch': 1.69} {'loss': 0.821, 'grad_norm': 0.7289943099021912, 'learning_rate': 1.8608424310251037e-05, 'epoch': 1.69} {'loss': 0.7719, 'grad_norm': 0.6304196715354919, 'learning_rate': 1.8602715081569424e-05, 'epoch': 1.69} {'loss': 0.8182, 'grad_norm': 0.6385020613670349, 'learning_rate': 1.859699504474631e-05, 'epoch': 1.7} {'loss': 0.8168, 'grad_norm': 0.609693169593811, 'learning_rate': 1.8591264206968148e-05, 'epoch': 1.7} {'loss': 0.7668, 'grad_norm': 0.6369811296463013, 'learning_rate': 1.858552257543495e-05, 'epoch': 1.7} {'loss': 0.8063, 'grad_norm': 0.6397724151611328, 'learning_rate': 1.8579770157360303e-05, 'epoch': 1.71} {'loss': 0.8034, 'grad_norm': 0.6836608648300171, 'learning_rate': 1.8574006959971335e-05, 'epoch': 1.71} {'loss': 0.8134, 'grad_norm': 0.5702518820762634, 'learning_rate': 1.8568232990508718e-05, 'epoch': 1.71} {'loss': 0.8241, 'grad_norm': 0.7001146674156189, 'learning_rate': 1.856244825622666e-05, 'epoch': 1.71} {'loss': 0.8614, 'grad_norm': 0.639083743095398, 'learning_rate': 1.8556652764392893e-05, 'epoch': 1.72} {'loss': 0.8235, 'grad_norm': 0.5529534816741943, 'learning_rate': 1.8550846522288665e-05, 'epoch': 1.72} {'loss': 0.811, 'grad_norm': 0.6964722871780396, 'learning_rate': 1.8545029537208728e-05, 'epoch': 1.72} {'loss': 0.8538, 'grad_norm': 0.6913998126983643, 'learning_rate': 1.8539201816461336e-05, 'epoch': 1.72} {'loss': 0.8075, 'grad_norm': 0.6796714067459106, 'learning_rate': 1.8533363367368225e-05, 'epoch': 1.73} {'loss': 0.8349, 'grad_norm': 0.7008503675460815, 'learning_rate': 1.8527514197264612e-05, 'epoch': 1.73} {'loss': 0.8191, 'grad_norm': 0.6538084745407104, 'learning_rate': 1.8521654313499186e-05, 'epoch': 1.73} {'loss': 0.8874, 'grad_norm': 0.5498859882354736, 'learning_rate': 1.8515783723434086e-05, 'epoch': 1.74} {'loss': 0.8031, 'grad_norm': 0.5972874760627747, 'learning_rate': 1.8509902434444922e-05, 'epoch': 1.74} {'loss': 0.8118, 'grad_norm': 0.6675229668617249, 'learning_rate': 1.8504010453920726e-05, 'epoch': 1.74} {'loss': 0.8248, 'grad_norm': 0.6223755478858948, 'learning_rate': 1.8498107789263976e-05, 'epoch': 1.74} {'loss': 0.7927, 'grad_norm': 0.44773024320602417, 'learning_rate': 1.8492194447890557e-05, 'epoch': 1.75} {'loss': 0.829, 'grad_norm': 0.6550729274749756, 'learning_rate': 1.848627043722979e-05, 'epoch': 1.75} {'loss': 0.8016, 'grad_norm': 0.5579083561897278, 'learning_rate': 1.848033576472438e-05, 'epoch': 1.75} {'loss': 0.774, 'grad_norm': 0.6050400137901306, 'learning_rate': 1.847439043783044e-05, 'epoch': 1.75} {'loss': 0.8289, 'grad_norm': 0.6891000270843506, 'learning_rate': 1.8468434464017466e-05, 'epoch': 1.76} {'loss': 0.7833, 'grad_norm': 0.6283241510391235, 'learning_rate': 1.8462467850768323e-05, 'epoch': 1.76} {'loss': 0.7868, 'grad_norm': 0.6503275036811829, 'learning_rate': 1.8456490605579258e-05, 'epoch': 1.76} {'loss': 0.8217, 'grad_norm': 0.6776890158653259, 'learning_rate': 1.8450502735959858e-05, 'epoch': 1.77} {'loss': 0.7863, 'grad_norm': 0.6584873795509338, 'learning_rate': 1.8444504249433073e-05, 'epoch': 1.77} {'loss': 0.8491, 'grad_norm': 0.5990650653839111, 'learning_rate': 1.8438495153535184e-05, 'epoch': 1.77} {'loss': 0.801, 'grad_norm': 0.6385806202888489, 'learning_rate': 1.84324754558158e-05, 'epoch': 1.77} {'loss': 0.8114, 'grad_norm': 0.5848139524459839, 'learning_rate': 1.8426445163837853e-05, 'epoch': 1.78} {'loss': 0.7724, 'grad_norm': 0.6025248169898987, 'learning_rate': 1.8420404285177587e-05, 'epoch': 1.78} {'loss': 0.797, 'grad_norm': 0.5471833348274231, 'learning_rate': 1.841435282742454e-05, 'epoch': 1.78} {'loss': 0.8486, 'grad_norm': 0.5673701763153076, 'learning_rate': 1.8408290798181552e-05, 'epoch': 1.78} {'loss': 0.7947, 'grad_norm': 0.6091431975364685, 'learning_rate': 1.8402218205064736e-05, 'epoch': 1.79} {'loss': 0.8323, 'grad_norm': 0.6211215853691101, 'learning_rate': 1.8396135055703483e-05, 'epoch': 1.79} {'loss': 0.8278, 'grad_norm': 0.6260560750961304, 'learning_rate': 1.8390041357740432e-05, 'epoch': 1.79} {'loss': 0.8124, 'grad_norm': 0.6365605592727661, 'learning_rate': 1.8383937118831495e-05, 'epoch': 1.8} {'loss': 0.7967, 'grad_norm': 0.5553223490715027, 'learning_rate': 1.8377822346645813e-05, 'epoch': 1.8} {'loss': 0.8423, 'grad_norm': 0.6567427515983582, 'learning_rate': 1.8371697048865772e-05, 'epoch': 1.8} {'loss': 0.7799, 'grad_norm': 0.7095246315002441, 'learning_rate': 1.8365561233186967e-05, 'epoch': 1.8} {'loss': 0.8229, 'grad_norm': 0.7076904773712158, 'learning_rate': 1.8359414907318224e-05, 'epoch': 1.81} {'loss': 0.8745, 'grad_norm': 0.6446849703788757, 'learning_rate': 1.835325807898156e-05, 'epoch': 1.81} {'loss': 0.8421, 'grad_norm': 0.6254628896713257, 'learning_rate': 1.8347090755912194e-05, 'epoch': 1.81} {'loss': 0.8067, 'grad_norm': 0.6979681253433228, 'learning_rate': 1.834091294585853e-05, 'epoch': 1.81} {'loss': 0.8056, 'grad_norm': 0.7349145412445068, 'learning_rate': 1.8334724656582144e-05, 'epoch': 1.82} {'loss': 0.797, 'grad_norm': 0.5763530135154724, 'learning_rate': 1.8328525895857784e-05, 'epoch': 1.82} {'loss': 0.8384, 'grad_norm': 0.6918905377388, 'learning_rate': 1.8322316671473344e-05, 'epoch': 1.82} {'loss': 0.8432, 'grad_norm': 0.6326884627342224, 'learning_rate': 1.8316096991229873e-05, 'epoch': 1.82} {'loss': 0.7742, 'grad_norm': 0.6711444854736328, 'learning_rate': 1.8309866862941553e-05, 'epoch': 1.83} {'loss': 0.8213, 'grad_norm': 0.686231255531311, 'learning_rate': 1.8303626294435696e-05, 'epoch': 1.83} {'loss': 0.8538, 'grad_norm': 0.6617816090583801, 'learning_rate': 1.829737529355272e-05, 'epoch': 1.83} {'loss': 0.8196, 'grad_norm': 0.5839574337005615, 'learning_rate': 1.8291113868146166e-05, 'epoch': 1.84} {'loss': 0.8464, 'grad_norm': 0.5693731307983398, 'learning_rate': 1.8284842026082655e-05, 'epoch': 1.84} {'loss': 0.8246, 'grad_norm': 0.5950191617012024, 'learning_rate': 1.827855977524191e-05, 'epoch': 1.84} {'loss': 0.805, 'grad_norm': 0.5896313786506653, 'learning_rate': 1.8272267123516724e-05, 'epoch': 1.84} {'loss': 0.8094, 'grad_norm': 0.6649801135063171, 'learning_rate': 1.8265964078812956e-05, 'epoch': 1.85} {'loss': 0.8057, 'grad_norm': 0.6873810291290283, 'learning_rate': 1.8259650649049527e-05, 'epoch': 1.85} {'loss': 0.7789, 'grad_norm': 0.7241279482841492, 'learning_rate': 1.82533268421584e-05, 'epoch': 1.85} {'loss': 0.7866, 'grad_norm': 0.5660692453384399, 'learning_rate': 1.8246992666084576e-05, 'epoch': 1.85} {'loss': 0.8153, 'grad_norm': 0.6268630027770996, 'learning_rate': 1.8240648128786095e-05, 'epoch': 1.86} {'loss': 0.806, 'grad_norm': 0.7016773819923401, 'learning_rate': 1.8234293238233997e-05, 'epoch': 1.86} {'loss': 0.8593, 'grad_norm': 0.6363435983657837, 'learning_rate': 1.822792800241234e-05, 'epoch': 1.86} {'loss': 0.8342, 'grad_norm': 0.8004396557807922, 'learning_rate': 1.8221552429318176e-05, 'epoch': 1.87} {'loss': 0.8464, 'grad_norm': 0.6707345247268677, 'learning_rate': 1.8215166526961546e-05, 'epoch': 1.87} {'loss': 0.7621, 'grad_norm': 0.6043509244918823, 'learning_rate': 1.8208770303365472e-05, 'epoch': 1.87} {'loss': 0.7893, 'grad_norm': 0.6057547330856323, 'learning_rate': 1.820236376656593e-05, 'epoch': 1.87} {'loss': 0.8045, 'grad_norm': 0.6776596903800964, 'learning_rate': 1.8195946924611874e-05, 'epoch': 1.88} {'loss': 0.8496, 'grad_norm': 0.699935793876648, 'learning_rate': 1.8189519785565184e-05, 'epoch': 1.88} {'loss': 0.8176, 'grad_norm': 0.6471282243728638, 'learning_rate': 1.818308235750069e-05, 'epoch': 1.88} {'loss': 0.8632, 'grad_norm': 0.6615891456604004, 'learning_rate': 1.8176634648506142e-05, 'epoch': 1.88} {'loss': 0.8114, 'grad_norm': 0.6092565655708313, 'learning_rate': 1.8170176666682216e-05, 'epoch': 1.89} {'loss': 0.7836, 'grad_norm': 0.6758636832237244, 'learning_rate': 1.816370842014248e-05, 'epoch': 1.89} {'loss': 0.8314, 'grad_norm': 0.7273504137992859, 'learning_rate': 1.815722991701341e-05, 'epoch': 1.89} {'loss': 0.8564, 'grad_norm': 0.7025173306465149, 'learning_rate': 1.8150741165434362e-05, 'epoch': 1.9} {'loss': 0.7779, 'grad_norm': 0.6193057298660278, 'learning_rate': 1.814424217355757e-05, 'epoch': 1.9} {'loss': 0.8, 'grad_norm': 0.6752192378044128, 'learning_rate': 1.8137732949548134e-05, 'epoch': 1.9} {'loss': 0.8017, 'grad_norm': 0.6310927867889404, 'learning_rate': 1.8131213501584013e-05, 'epoch': 1.9} {'loss': 0.7733, 'grad_norm': 0.691156804561615, 'learning_rate': 1.8124683837856002e-05, 'epoch': 1.91} {'loss': 0.7984, 'grad_norm': 0.5593004822731018, 'learning_rate': 1.8118143966567734e-05, 'epoch': 1.91} {'loss': 0.8492, 'grad_norm': 0.6736042499542236, 'learning_rate': 1.811159389593567e-05, 'epoch': 1.91} {'loss': 0.7488, 'grad_norm': 0.5789459347724915, 'learning_rate': 1.8105033634189086e-05, 'epoch': 1.91} {'loss': 0.8134, 'grad_norm': 0.7080506086349487, 'learning_rate': 1.8098463189570058e-05, 'epoch': 1.92} {'loss': 0.7898, 'grad_norm': 0.6605755686759949, 'learning_rate': 1.809188257033345e-05, 'epoch': 1.92} {'loss': 0.839, 'grad_norm': 0.6433629393577576, 'learning_rate': 1.8085291784746918e-05, 'epoch': 1.92} {'loss': 0.7898, 'grad_norm': 0.4055821895599365, 'learning_rate': 1.8078690841090892e-05, 'epoch': 1.93} {'loss': 0.7858, 'grad_norm': 0.6696195602416992, 'learning_rate': 1.8072079747658553e-05, 'epoch': 1.93} {'loss': 0.7888, 'grad_norm': 0.5989769697189331, 'learning_rate': 1.8065458512755847e-05, 'epoch': 1.93} {'loss': 0.8044, 'grad_norm': 0.55302494764328, 'learning_rate': 1.8058827144701455e-05, 'epoch': 1.93} {'loss': 0.8172, 'grad_norm': 0.6368618011474609, 'learning_rate': 1.805218565182678e-05, 'epoch': 1.94} {'loss': 0.8332, 'grad_norm': 0.6965955495834351, 'learning_rate': 1.8045534042475966e-05, 'epoch': 1.94} {'loss': 0.8094, 'grad_norm': 0.5529112815856934, 'learning_rate': 1.803887232500585e-05, 'epoch': 1.94} {'loss': 0.8144, 'grad_norm': 0.6962450742721558, 'learning_rate': 1.8032200507785972e-05, 'epoch': 1.94} {'loss': 0.7421, 'grad_norm': 0.6619862914085388, 'learning_rate': 1.8025518599198566e-05, 'epoch': 1.95} {'loss': 0.8176, 'grad_norm': 0.6555277109146118, 'learning_rate': 1.8018826607638545e-05, 'epoch': 1.95} {'loss': 0.8355, 'grad_norm': 0.7476374506950378, 'learning_rate': 1.8012124541513478e-05, 'epoch': 1.95} {'loss': 0.8024, 'grad_norm': 0.7061533331871033, 'learning_rate': 1.8005412409243604e-05, 'epoch': 1.96} {'loss': 0.7988, 'grad_norm': 0.6613872647285461, 'learning_rate': 1.7998690219261807e-05, 'epoch': 1.96} {'loss': 0.8406, 'grad_norm': 0.7087440490722656, 'learning_rate': 1.79919579800136e-05, 'epoch': 1.96} {'loss': 0.8043, 'grad_norm': 0.7318193316459656, 'learning_rate': 1.7985215699957127e-05, 'epoch': 1.96} {'loss': 0.7824, 'grad_norm': 0.7270962595939636, 'learning_rate': 1.7978463387563147e-05, 'epoch': 1.97} {'loss': 0.7746, 'grad_norm': 0.6083847284317017, 'learning_rate': 1.7971701051315023e-05, 'epoch': 1.97} {'loss': 0.7817, 'grad_norm': 0.5849003791809082, 'learning_rate': 1.7964928699708705e-05, 'epoch': 1.97} {'loss': 0.8054, 'grad_norm': 0.657326340675354, 'learning_rate': 1.795814634125274e-05, 'epoch': 1.97} {'loss': 0.8125, 'grad_norm': 0.4167584478855133, 'learning_rate': 1.7951353984468234e-05, 'epoch': 1.98} {'loss': 0.803, 'grad_norm': 0.5461832284927368, 'learning_rate': 1.7944551637888864e-05, 'epoch': 1.98} {'loss': 0.7914, 'grad_norm': 0.67461758852005, 'learning_rate': 1.7937739310060845e-05, 'epoch': 1.98} {'loss': 0.7837, 'grad_norm': 0.5655549168586731, 'learning_rate': 1.793091700954295e-05, 'epoch': 1.98} {'loss': 0.8472, 'grad_norm': 0.578811526298523, 'learning_rate': 1.792408474490646e-05, 'epoch': 1.99} {'loss': 0.7815, 'grad_norm': 0.5797436237335205, 'learning_rate': 1.79172425247352e-05, 'epoch': 1.99} {'loss': 0.8051, 'grad_norm': 0.6709566712379456, 'learning_rate': 1.791039035762548e-05, 'epoch': 1.99} {'loss': 0.8309, 'grad_norm': 0.6973153352737427, 'learning_rate': 1.790352825218612e-05, 'epoch': 2.0} {'loss': 0.8257, 'grad_norm': 0.580874502658844, 'learning_rate': 1.7896656217038417e-05, 'epoch': 2.0} 25%|█████████████████████████████▊ | 7376/29504 [19:04:33<44:43:13, 7.28s/it]/venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") {'loss': 0.8166, 'grad_norm': 0.647803783416748, 'learning_rate': 1.7889774260816154e-05, 'epoch': 2.0} {'loss': 0.7718, 'grad_norm': 0.6501180529594421, 'learning_rate': 1.7882882392165574e-05, 'epoch': 2.0} {'loss': 0.7814, 'grad_norm': 0.6158413290977478, 'learning_rate': 1.787598061974537e-05, 'epoch': 2.01} {'loss': 0.7459, 'grad_norm': 0.6740495562553406, 'learning_rate': 1.7869068952226678e-05, 'epoch': 2.01} {'loss': 0.7606, 'grad_norm': 0.7294186949729919, 'learning_rate': 1.7862147398293074e-05, 'epoch': 2.01} {'loss': 0.747, 'grad_norm': 0.6438219547271729, 'learning_rate': 1.785521596664054e-05, 'epoch': 2.01} {'loss': 0.7608, 'grad_norm': 0.6342811584472656, 'learning_rate': 1.784827466597749e-05, 'epoch': 2.02} {'loss': 0.8271, 'grad_norm': 0.6578803062438965, 'learning_rate': 1.7841323505024714e-05, 'epoch': 2.02} {'loss': 0.7432, 'grad_norm': 0.612848162651062, 'learning_rate': 1.78343624925154e-05, 'epoch': 2.02} {'loss': 0.7905, 'grad_norm': 0.6806563138961792, 'learning_rate': 1.782739163719512e-05, 'epoch': 2.03} {'loss': 0.7336, 'grad_norm': 0.5880846977233887, 'learning_rate': 1.78204109478218e-05, 'epoch': 2.03} {'loss': 0.7801, 'grad_norm': 0.611304759979248, 'learning_rate': 1.7813420433165737e-05, 'epoch': 2.03} {'loss': 0.7805, 'grad_norm': 0.7434304356575012, 'learning_rate': 1.7806420102009548e-05, 'epoch': 2.03} {'loss': 0.8127, 'grad_norm': 0.722037136554718, 'learning_rate': 1.7799409963148204e-05, 'epoch': 2.04} {'loss': 0.734, 'grad_norm': 0.6154472231864929, 'learning_rate': 1.779239002538899e-05, 'epoch': 2.04} {'loss': 0.7365, 'grad_norm': 0.6447513103485107, 'learning_rate': 1.7785360297551505e-05, 'epoch': 2.04} {'loss': 0.7698, 'grad_norm': 0.6596498489379883, 'learning_rate': 1.7778320788467646e-05, 'epoch': 2.04} {'loss': 0.7956, 'grad_norm': 0.6913473606109619, 'learning_rate': 1.7771271506981597e-05, 'epoch': 2.05} {'loss': 0.7462, 'grad_norm': 0.6679360866546631, 'learning_rate': 1.776421246194982e-05, 'epoch': 2.05} {'loss': 0.7148, 'grad_norm': 0.596493661403656, 'learning_rate': 1.7757143662241045e-05, 'epoch': 2.05} {'loss': 0.8344, 'grad_norm': 0.7331039905548096, 'learning_rate': 1.775006511673626e-05, 'epoch': 2.06} {'loss': 0.7583, 'grad_norm': 0.6415188312530518, 'learning_rate': 1.7742976834328697e-05, 'epoch': 2.06} {'loss': 0.7917, 'grad_norm': 0.6835433840751648, 'learning_rate': 1.7735878823923812e-05, 'epoch': 2.06} {'loss': 0.7726, 'grad_norm': 0.7596042156219482, 'learning_rate': 1.7728771094439297e-05, 'epoch': 2.06} {'loss': 0.7643, 'grad_norm': 0.6334631443023682, 'learning_rate': 1.7721653654805042e-05, 'epoch': 2.07} {'loss': 0.7882, 'grad_norm': 0.5654064416885376, 'learning_rate': 1.7714526513963145e-05, 'epoch': 2.07} {'loss': 0.7585, 'grad_norm': 0.6550995707511902, 'learning_rate': 1.7707389680867884e-05, 'epoch': 2.07} {'loss': 0.7919, 'grad_norm': 0.7449838519096375, 'learning_rate': 1.770024316448573e-05, 'epoch': 2.07} {'loss': 0.7388, 'grad_norm': 0.6728507876396179, 'learning_rate': 1.7693086973795294e-05, 'epoch': 2.08} {'loss': 0.761, 'grad_norm': 0.756769061088562, 'learning_rate': 1.768592111778737e-05, 'epoch': 2.08} {'loss': 0.8049, 'grad_norm': 0.7378446459770203, 'learning_rate': 1.7678745605464877e-05, 'epoch': 2.08} {'loss': 0.8029, 'grad_norm': 0.6984208822250366, 'learning_rate': 1.7671560445842862e-05, 'epoch': 2.09} {'loss': 0.7844, 'grad_norm': 0.5413820743560791, 'learning_rate': 1.7664365647948513e-05, 'epoch': 2.09} {'loss': 0.7667, 'grad_norm': 0.7304958701133728, 'learning_rate': 1.765716122082111e-05, 'epoch': 2.09} {'loss': 0.8135, 'grad_norm': 0.5526221394538879, 'learning_rate': 1.7649947173512037e-05, 'epoch': 2.09} {'loss': 0.7482, 'grad_norm': 0.7046669125556946, 'learning_rate': 1.764272351508476e-05, 'epoch': 2.1} {'loss': 0.761, 'grad_norm': 0.7722747921943665, 'learning_rate': 1.763549025461482e-05, 'epoch': 2.1} {'loss': 0.7861, 'grad_norm': 0.6433967351913452, 'learning_rate': 1.762824740118984e-05, 'epoch': 2.1} {'loss': 0.8047, 'grad_norm': 0.7347900867462158, 'learning_rate': 1.7620994963909467e-05, 'epoch': 2.1} {'loss': 0.7541, 'grad_norm': 0.6370494365692139, 'learning_rate': 1.761373295188541e-05, 'epoch': 2.11} {'loss': 0.8125, 'grad_norm': 0.7143123149871826, 'learning_rate': 1.7606461374241387e-05, 'epoch': 2.11} {'loss': 0.7438, 'grad_norm': 0.6989836692810059, 'learning_rate': 1.759918024011316e-05, 'epoch': 2.11} {'loss': 0.8109, 'grad_norm': 0.6258662343025208, 'learning_rate': 1.7591889558648478e-05, 'epoch': 2.11} {'loss': 0.7809, 'grad_norm': 0.6776777505874634, 'learning_rate': 1.758458933900709e-05, 'epoch': 2.12} {'loss': 0.7843, 'grad_norm': 0.7231066823005676, 'learning_rate': 1.757727959036073e-05, 'epoch': 2.12} {'loss': 0.7693, 'grad_norm': 0.7511590123176575, 'learning_rate': 1.7569960321893106e-05, 'epoch': 2.12} {'loss': 0.7715, 'grad_norm': 0.5963882207870483, 'learning_rate': 1.7562631542799877e-05, 'epoch': 2.13} {'loss': 0.8137, 'grad_norm': 0.7123979330062866, 'learning_rate': 1.7555293262288664e-05, 'epoch': 2.13} {'loss': 0.7636, 'grad_norm': 0.6612545847892761, 'learning_rate': 1.7547945489579014e-05, 'epoch': 2.13} {'loss': 0.7799, 'grad_norm': 0.7042349576950073, 'learning_rate': 1.7540588233902405e-05, 'epoch': 2.13} {'loss': 0.7868, 'grad_norm': 0.6922259330749512, 'learning_rate': 1.753322150450223e-05, 'epoch': 2.14} {'loss': 0.7692, 'grad_norm': 0.6079518795013428, 'learning_rate': 1.752584531063378e-05, 'epoch': 2.14} {'loss': 0.7594, 'grad_norm': 0.6999654173851013, 'learning_rate': 1.751845966156424e-05, 'epoch': 2.14} {'loss': 0.7761, 'grad_norm': 0.7867269515991211, 'learning_rate': 1.751106456657268e-05, 'epoch': 2.14} {'loss': 0.8045, 'grad_norm': 0.742490828037262, 'learning_rate': 1.750366003495002e-05, 'epoch': 2.15} {'loss': 0.794, 'grad_norm': 0.7343133091926575, 'learning_rate': 1.749624607599905e-05, 'epoch': 2.15} {'loss': 0.7598, 'grad_norm': 0.6872853636741638, 'learning_rate': 1.7488822699034405e-05, 'epoch': 2.15} {'loss': 0.7959, 'grad_norm': 0.553248941898346, 'learning_rate': 1.7481389913382547e-05, 'epoch': 2.16} {'loss': 0.7714, 'grad_norm': 0.6884130835533142, 'learning_rate': 1.7473947728381762e-05, 'epoch': 2.16} {'loss': 0.7973, 'grad_norm': 0.7108222842216492, 'learning_rate': 1.746649615338214e-05, 'epoch': 2.16} {'loss': 0.7958, 'grad_norm': 0.619006872177124, 'learning_rate': 1.7459035197745573e-05, 'epoch': 2.16} {'loss': 0.8071, 'grad_norm': 0.7716801166534424, 'learning_rate': 1.7451564870845736e-05, 'epoch': 2.17} {'loss': 0.7576, 'grad_norm': 0.7093653082847595, 'learning_rate': 1.7444085182068082e-05, 'epoch': 2.17} {'loss': 0.7494, 'grad_norm': 0.6382220387458801, 'learning_rate': 1.743659614080982e-05, 'epoch': 2.17} {'loss': 0.7444, 'grad_norm': 0.6701858043670654, 'learning_rate': 1.7429097756479908e-05, 'epoch': 2.17} {'loss': 0.7681, 'grad_norm': 0.6775065064430237, 'learning_rate': 1.7421590038499056e-05, 'epoch': 2.18} {'loss': 0.7634, 'grad_norm': 0.6960490345954895, 'learning_rate': 1.741407299629968e-05, 'epoch': 2.18} {'loss': 0.7974, 'grad_norm': 0.824708104133606, 'learning_rate': 1.7406546639325933e-05, 'epoch': 2.18} {'loss': 0.8065, 'grad_norm': 0.6456320285797119, 'learning_rate': 1.7399010977033644e-05, 'epoch': 2.19} {'loss': 0.7484, 'grad_norm': 0.5920194983482361, 'learning_rate': 1.739146601889036e-05, 'epoch': 2.19} {'loss': 0.7723, 'grad_norm': 0.6973685622215271, 'learning_rate': 1.738391177437529e-05, 'epoch': 2.19} {'loss': 0.8152, 'grad_norm': 0.6921389698982239, 'learning_rate': 1.7376348252979315e-05, 'epoch': 2.19} {'loss': 0.7676, 'grad_norm': 0.5892946124076843, 'learning_rate': 1.7368775464204972e-05, 'epoch': 2.2} {'loss': 0.7766, 'grad_norm': 0.7247059941291809, 'learning_rate': 1.7361193417566436e-05, 'epoch': 2.2} {'loss': 0.7841, 'grad_norm': 0.6481062769889832, 'learning_rate': 1.7353602122589528e-05, 'epoch': 2.2} {'loss': 0.7721, 'grad_norm': 0.5267914533615112, 'learning_rate': 1.7346001588811666e-05, 'epoch': 2.2} {'loss': 0.774, 'grad_norm': 0.6775901317596436, 'learning_rate': 1.7338391825781892e-05, 'epoch': 2.21} {'loss': 0.774, 'grad_norm': 0.7010031342506409, 'learning_rate': 1.7330772843060837e-05, 'epoch': 2.21} {'loss': 0.7623, 'grad_norm': 0.6948935985565186, 'learning_rate': 1.732314465022072e-05, 'epoch': 2.21} {'loss': 0.745, 'grad_norm': 0.7125750780105591, 'learning_rate': 1.7315507256845322e-05, 'epoch': 2.22} {'loss': 0.7762, 'grad_norm': 0.6700145602226257, 'learning_rate': 1.7307860672529996e-05, 'epoch': 2.22} {'loss': 0.7815, 'grad_norm': 0.8220118880271912, 'learning_rate': 1.7300204906881627e-05, 'epoch': 2.22} {'loss': 0.7296, 'grad_norm': 0.7705186605453491, 'learning_rate': 1.7292539969518652e-05, 'epoch': 2.22} {'loss': 0.7454, 'grad_norm': 0.6998857259750366, 'learning_rate': 1.7284865870071016e-05, 'epoch': 2.23} {'loss': 0.7761, 'grad_norm': 0.6632644534111023, 'learning_rate': 1.7277182618180185e-05, 'epoch': 2.23} {'loss': 0.7697, 'grad_norm': 0.7007341980934143, 'learning_rate': 1.7269490223499117e-05, 'epoch': 2.23} {'loss': 0.7612, 'grad_norm': 0.6429125070571899, 'learning_rate': 1.726178869569226e-05, 'epoch': 2.23} {'loss': 0.7697, 'grad_norm': 0.6993412971496582, 'learning_rate': 1.7254078044435543e-05, 'epoch': 2.24} {'loss': 0.8274, 'grad_norm': 0.7004043459892273, 'learning_rate': 1.7246358279416342e-05, 'epoch': 2.24} {'loss': 0.7968, 'grad_norm': 0.7748202085494995, 'learning_rate': 1.7238629410333494e-05, 'epoch': 2.24} {'loss': 0.7457, 'grad_norm': 0.7123965620994568, 'learning_rate': 1.7230891446897273e-05, 'epoch': 2.25} {'loss': 0.7736, 'grad_norm': 0.6113370656967163, 'learning_rate': 1.7223144398829378e-05, 'epoch': 2.25} {'loss': 0.7537, 'grad_norm': 0.6309161186218262, 'learning_rate': 1.7215388275862922e-05, 'epoch': 2.25} {'loss': 0.7757, 'grad_norm': 0.5903828740119934, 'learning_rate': 1.7207623087742416e-05, 'epoch': 2.25} {'loss': 0.8076, 'grad_norm': 0.7106330394744873, 'learning_rate': 1.7199848844223765e-05, 'epoch': 2.26} {'loss': 0.7788, 'grad_norm': 0.7981621623039246, 'learning_rate': 1.7192065555074248e-05, 'epoch': 2.26} {'loss': 0.7079, 'grad_norm': 0.5866801738739014, 'learning_rate': 1.7184273230072506e-05, 'epoch': 2.26} {'loss': 0.7692, 'grad_norm': 0.7142913937568665, 'learning_rate': 1.7176471879008544e-05, 'epoch': 2.26} {'loss': 0.7859, 'grad_norm': 0.6810557842254639, 'learning_rate': 1.716866151168369e-05, 'epoch': 2.27} {'loss': 0.7356, 'grad_norm': 0.567590594291687, 'learning_rate': 1.716084213791061e-05, 'epoch': 2.27} {'loss': 0.7722, 'grad_norm': 0.6206532716751099, 'learning_rate': 1.7153013767513286e-05, 'epoch': 2.27} {'loss': 0.7753, 'grad_norm': 0.7345346212387085, 'learning_rate': 1.7145176410327003e-05, 'epoch': 2.27} {'loss': 0.8013, 'grad_norm': 0.8122425079345703, 'learning_rate': 1.713733007619833e-05, 'epoch': 2.28} {'loss': 0.7848, 'grad_norm': 0.7756953835487366, 'learning_rate': 1.712947477498512e-05, 'epoch': 2.28} {'loss': 0.7634, 'grad_norm': 0.7643291354179382, 'learning_rate': 1.712161051655649e-05, 'epoch': 2.28} {'loss': 0.7506, 'grad_norm': 0.7127123475074768, 'learning_rate': 1.7113737310792814e-05, 'epoch': 2.29} {'loss': 0.7558, 'grad_norm': 0.7257840633392334, 'learning_rate': 1.7105855167585698e-05, 'epoch': 2.29} {'loss': 0.8119, 'grad_norm': 0.7421923875808716, 'learning_rate': 1.709796409683799e-05, 'epoch': 2.29} {'loss': 0.7487, 'grad_norm': 0.5610274076461792, 'learning_rate': 1.7090064108463744e-05, 'epoch': 2.29} {'loss': 0.7804, 'grad_norm': 0.7113544940948486, 'learning_rate': 1.708215521238822e-05, 'epoch': 2.3} {'loss': 0.73, 'grad_norm': 0.6868439316749573, 'learning_rate': 1.7074237418547874e-05, 'epoch': 2.3} {'loss': 0.7465, 'grad_norm': 0.6382175087928772, 'learning_rate': 1.706631073689033e-05, 'epoch': 2.3} {'loss': 0.7349, 'grad_norm': 0.7119717597961426, 'learning_rate': 1.7058375177374395e-05, 'epoch': 2.3} {'loss': 0.8346, 'grad_norm': 0.8008071780204773, 'learning_rate': 1.7050430749970013e-05, 'epoch': 2.31} {'loss': 0.808, 'grad_norm': 0.6512951850891113, 'learning_rate': 1.704247746465828e-05, 'epoch': 2.31} {'loss': 0.7458, 'grad_norm': 0.704023003578186, 'learning_rate': 1.7034515331431414e-05, 'epoch': 2.31} {'loss': 0.7996, 'grad_norm': 0.6955876350402832, 'learning_rate': 1.7026544360292756e-05, 'epoch': 2.32} {'loss': 0.8005, 'grad_norm': 0.7536711692810059, 'learning_rate': 1.7018564561256745e-05, 'epoch': 2.32} {'loss': 0.7655, 'grad_norm': 0.7358953356742859, 'learning_rate': 1.7010575944348916e-05, 'epoch': 2.32} {'loss': 0.7792, 'grad_norm': 0.7023262977600098, 'learning_rate': 1.7002578519605875e-05, 'epoch': 2.32} {'loss': 0.7834, 'grad_norm': 0.790798544883728, 'learning_rate': 1.6994572297075303e-05, 'epoch': 2.33} {'loss': 0.7698, 'grad_norm': 0.630567193031311, 'learning_rate': 1.6986557286815927e-05, 'epoch': 2.33} {'loss': 0.7594, 'grad_norm': 0.6988657116889954, 'learning_rate': 1.697853349889752e-05, 'epoch': 2.33} {'loss': 0.7933, 'grad_norm': 0.8134470582008362, 'learning_rate': 1.6970500943400878e-05, 'epoch': 2.33} {'loss': 0.7877, 'grad_norm': 0.7642098069190979, 'learning_rate': 1.6962459630417814e-05, 'epoch': 2.34} {'loss': 0.7872, 'grad_norm': 0.7638725638389587, 'learning_rate': 1.6954409570051143e-05, 'epoch': 2.34} {'loss': 0.7341, 'grad_norm': 0.7855921387672424, 'learning_rate': 1.694635077241468e-05, 'epoch': 2.34} {'loss': 0.7793, 'grad_norm': 0.7480388283729553, 'learning_rate': 1.6938283247633196e-05, 'epoch': 2.35} {'loss': 0.7585, 'grad_norm': 0.7554408311843872, 'learning_rate': 1.6930207005842445e-05, 'epoch': 2.35} {'loss': 0.7741, 'grad_norm': 0.6841967701911926, 'learning_rate': 1.6922122057189126e-05, 'epoch': 2.35} {'loss': 0.7938, 'grad_norm': 0.564013659954071, 'learning_rate': 1.691402841183088e-05, 'epoch': 2.35} {'loss': 0.8113, 'grad_norm': 0.7167467474937439, 'learning_rate': 1.6905926079936262e-05, 'epoch': 2.36} {'loss': 0.7544, 'grad_norm': 0.7344302535057068, 'learning_rate': 1.6897815071684758e-05, 'epoch': 2.36} {'loss': 0.7852, 'grad_norm': 0.7150697112083435, 'learning_rate': 1.6889695397266748e-05, 'epoch': 2.36} {'loss': 0.7811, 'grad_norm': 0.7849718928337097, 'learning_rate': 1.6881567066883494e-05, 'epoch': 2.36} {'loss': 0.817, 'grad_norm': 0.5243140459060669, 'learning_rate': 1.687343009074714e-05, 'epoch': 2.37} {'loss': 0.7895, 'grad_norm': 0.7567853927612305, 'learning_rate': 1.686528447908069e-05, 'epoch': 2.37} {'loss': 0.7851, 'grad_norm': 0.7223370671272278, 'learning_rate': 1.6857130242117995e-05, 'epoch': 2.37} {'loss': 0.7728, 'grad_norm': 0.7807087898254395, 'learning_rate': 1.684896739010375e-05, 'epoch': 2.38} {'loss': 0.7352, 'grad_norm': 0.6967737674713135, 'learning_rate': 1.6840795933293464e-05, 'epoch': 2.38} {'loss': 0.7683, 'grad_norm': 0.6058109998703003, 'learning_rate': 1.683261588195346e-05, 'epoch': 2.38} {'loss': 0.7898, 'grad_norm': 0.7938016653060913, 'learning_rate': 1.682442724636086e-05, 'epoch': 2.38} {'loss': 0.7646, 'grad_norm': 0.8058837652206421, 'learning_rate': 1.6816230036803577e-05, 'epoch': 2.39} {'loss': 0.7562, 'grad_norm': 0.6046848297119141, 'learning_rate': 1.6808024263580283e-05, 'epoch': 2.39} {'loss': 0.7678, 'grad_norm': 0.7552445530891418, 'learning_rate': 1.679980993700042e-05, 'epoch': 2.39} {'loss': 0.7676, 'grad_norm': 0.5738740563392639, 'learning_rate': 1.679158706738417e-05, 'epoch': 2.39} {'loss': 0.7744, 'grad_norm': 0.4913598895072937, 'learning_rate': 1.6783355665062453e-05, 'epoch': 2.4} {'loss': 0.782, 'grad_norm': 0.8408632874488831, 'learning_rate': 1.6775115740376902e-05, 'epoch': 2.4} {'loss': 0.8063, 'grad_norm': 0.7858216762542725, 'learning_rate': 1.676686730367987e-05, 'epoch': 2.4} {'loss': 0.7768, 'grad_norm': 0.6736693978309631, 'learning_rate': 1.6758610365334383e-05, 'epoch': 2.41} {'loss': 0.7595, 'grad_norm': 0.7779924869537354, 'learning_rate': 1.6750344935714175e-05, 'epoch': 2.41} {'loss': 0.7854, 'grad_norm': 0.7812755703926086, 'learning_rate': 1.6742071025203622e-05, 'epoch': 2.41} {'loss': 0.7816, 'grad_norm': 0.8133838176727295, 'learning_rate': 1.673378864419778e-05, 'epoch': 2.41} {'loss': 0.7633, 'grad_norm': 0.7012097835540771, 'learning_rate': 1.6725497803102318e-05, 'epoch': 2.42} {'loss': 0.7872, 'grad_norm': 0.8446528911590576, 'learning_rate': 1.6717198512333568e-05, 'epoch': 2.42} {'loss': 0.7659, 'grad_norm': 0.7822437882423401, 'learning_rate': 1.6708890782318445e-05, 'epoch': 2.42} {'loss': 0.7827, 'grad_norm': 0.7865297794342041, 'learning_rate': 1.670057462349449e-05, 'epoch': 2.42} {'loss': 0.7821, 'grad_norm': 0.8095062375068665, 'learning_rate': 1.6692250046309828e-05, 'epoch': 2.43} {'loss': 0.7992, 'grad_norm': 0.7030543684959412, 'learning_rate': 1.6683917061223153e-05, 'epoch': 2.43} {'loss': 0.8122, 'grad_norm': 0.7404820919036865, 'learning_rate': 1.6675575678703724e-05, 'epoch': 2.43} {'loss': 0.7583, 'grad_norm': 0.5735782384872437, 'learning_rate': 1.6667225909231363e-05, 'epoch': 2.43} {'loss': 0.7509, 'grad_norm': 0.6583287119865417, 'learning_rate': 1.6658867763296412e-05, 'epoch': 2.44} {'loss': 0.7918, 'grad_norm': 0.7595877647399902, 'learning_rate': 1.665050125139975e-05, 'epoch': 2.44} {'loss': 0.7872, 'grad_norm': 0.6928350329399109, 'learning_rate': 1.664212638405276e-05, 'epoch': 2.44} {'loss': 0.7529, 'grad_norm': 0.7300941348075867, 'learning_rate': 1.663374317177732e-05, 'epoch': 2.45} {'loss': 0.7796, 'grad_norm': 0.6240524053573608, 'learning_rate': 1.6625351625105796e-05, 'epoch': 2.45} {'loss': 0.7136, 'grad_norm': 0.8043151497840881, 'learning_rate': 1.6616951754581032e-05, 'epoch': 2.45} {'loss': 0.7874, 'grad_norm': 0.7253313064575195, 'learning_rate': 1.660854357075632e-05, 'epoch': 2.45} {'loss': 0.7717, 'grad_norm': 0.7980982065200806, 'learning_rate': 1.6600127084195395e-05, 'epoch': 2.46} {'loss': 0.7736, 'grad_norm': 0.6430087089538574, 'learning_rate': 1.6591702305472432e-05, 'epoch': 2.46} {'loss': 0.7795, 'grad_norm': 0.8941456079483032, 'learning_rate': 1.658326924517202e-05, 'epoch': 2.46} {'loss': 0.778, 'grad_norm': 0.6906942129135132, 'learning_rate': 1.6574827913889146e-05, 'epoch': 2.46} {'loss': 0.7563, 'grad_norm': 0.7339440584182739, 'learning_rate': 1.6566378322229203e-05, 'epoch': 2.47} {'loss': 0.7616, 'grad_norm': 0.848777174949646, 'learning_rate': 1.655792048080795e-05, 'epoch': 2.47} {'loss': 0.7797, 'grad_norm': 0.6187182664871216, 'learning_rate': 1.6549454400251517e-05, 'epoch': 2.47} {'loss': 0.7445, 'grad_norm': 0.7958171963691711, 'learning_rate': 1.6540980091196377e-05, 'epoch': 2.48} {'loss': 0.8126, 'grad_norm': 0.6528550982475281, 'learning_rate': 1.6532497564289355e-05, 'epoch': 2.48} {'loss': 0.7469, 'grad_norm': 0.6316114664077759, 'learning_rate': 1.6524006830187582e-05, 'epoch': 2.48} {'loss': 0.6943, 'grad_norm': 0.7129644155502319, 'learning_rate': 1.651550789955852e-05, 'epoch': 2.48} {'loss': 0.7805, 'grad_norm': 0.7017474174499512, 'learning_rate': 1.6507000783079913e-05, 'epoch': 2.49} {'loss': 0.8153, 'grad_norm': 0.7350785732269287, 'learning_rate': 1.6498485491439805e-05, 'epoch': 2.49} {'loss': 0.7735, 'grad_norm': 0.7233595252037048, 'learning_rate': 1.648996203533649e-05, 'epoch': 2.49} {'loss': 0.7822, 'grad_norm': 0.6164568066596985, 'learning_rate': 1.6481430425478537e-05, 'epoch': 2.49} {'loss': 0.7628, 'grad_norm': 0.6672796607017517, 'learning_rate': 1.6472890672584755e-05, 'epoch': 2.5} {'loss': 0.8107, 'grad_norm': 0.6774216294288635, 'learning_rate': 1.646434278738418e-05, 'epoch': 2.5} {'loss': 0.7526, 'grad_norm': 0.7612836956977844, 'learning_rate': 1.6455786780616068e-05, 'epoch': 2.5} {'loss': 0.7678, 'grad_norm': 0.7929026484489441, 'learning_rate': 1.6447222663029877e-05, 'epoch': 2.51} {'loss': 0.7807, 'grad_norm': 0.8498673439025879, 'learning_rate': 1.6438650445385257e-05, 'epoch': 2.51} {'loss': 0.791, 'grad_norm': 0.8173245191574097, 'learning_rate': 1.6430070138452033e-05, 'epoch': 2.51} {'loss': 0.7606, 'grad_norm': 0.7131097912788391, 'learning_rate': 1.6421481753010193e-05, 'epoch': 2.51} {'loss': 0.7918, 'grad_norm': 0.7081708312034607, 'learning_rate': 1.641288529984988e-05, 'epoch': 2.52} {'loss': 0.738, 'grad_norm': 0.6980406641960144, 'learning_rate': 1.6404280789771362e-05, 'epoch': 2.52} {'loss': 0.7891, 'grad_norm': 0.817905604839325, 'learning_rate': 1.6395668233585034e-05, 'epoch': 2.52} {'loss': 0.7915, 'grad_norm': 0.6949744820594788, 'learning_rate': 1.6387047642111407e-05, 'epoch': 2.52} {'loss': 0.7416, 'grad_norm': 0.7158978581428528, 'learning_rate': 1.6378419026181085e-05, 'epoch': 2.53} {'loss': 0.7223, 'grad_norm': 0.7224909663200378, 'learning_rate': 1.6369782396634742e-05, 'epoch': 2.53} {'loss': 0.7883, 'grad_norm': 0.6968260407447815, 'learning_rate': 1.636113776432313e-05, 'epoch': 2.53} {'loss': 0.8025, 'grad_norm': 0.6998022794723511, 'learning_rate': 1.635248514010706e-05, 'epoch': 2.54} {'loss': 0.7613, 'grad_norm': 0.7288296222686768, 'learning_rate': 1.6343824534857376e-05, 'epoch': 2.54} {'loss': 0.7707, 'grad_norm': 0.7813764214515686, 'learning_rate': 1.6335155959454944e-05, 'epoch': 2.54} {'loss': 0.7437, 'grad_norm': 0.7495973110198975, 'learning_rate': 1.632647942479065e-05, 'epoch': 2.54} {'loss': 0.7848, 'grad_norm': 0.8694667220115662, 'learning_rate': 1.6317794941765392e-05, 'epoch': 2.55} {'loss': 0.7869, 'grad_norm': 0.7467909455299377, 'learning_rate': 1.6309102521290027e-05, 'epoch': 2.55} {'loss': 0.801, 'grad_norm': 0.644557535648346, 'learning_rate': 1.6300402174285407e-05, 'epoch': 2.55} {'loss': 0.7834, 'grad_norm': 0.7858425378799438, 'learning_rate': 1.6291693911682337e-05, 'epoch': 2.55} {'loss': 0.7542, 'grad_norm': 0.7793777585029602, 'learning_rate': 1.6282977744421557e-05, 'epoch': 2.56} {'loss': 0.7753, 'grad_norm': 0.866325318813324, 'learning_rate': 1.6274253683453754e-05, 'epoch': 2.56} {'loss': 0.7685, 'grad_norm': 0.7160521745681763, 'learning_rate': 1.6265521739739517e-05, 'epoch': 2.56} {'loss': 0.7327, 'grad_norm': 0.6562756299972534, 'learning_rate': 1.625678192424935e-05, 'epoch': 2.57} {'loss': 0.8047, 'grad_norm': 0.6412480473518372, 'learning_rate': 1.624803424796364e-05, 'epoch': 2.57} {'loss': 0.775, 'grad_norm': 0.7577318549156189, 'learning_rate': 1.6239278721872654e-05, 'epoch': 2.57} {'loss': 0.7624, 'grad_norm': 0.6633349061012268, 'learning_rate': 1.623051535697652e-05, 'epoch': 2.57} {'loss': 0.803, 'grad_norm': 0.7687056064605713, 'learning_rate': 1.6221744164285213e-05, 'epoch': 2.58} {'loss': 0.7654, 'grad_norm': 0.677679717540741, 'learning_rate': 1.6212965154818544e-05, 'epoch': 2.58} {'loss': 0.8151, 'grad_norm': 0.6233170628547668, 'learning_rate': 1.6204178339606144e-05, 'epoch': 2.58} {'loss': 0.7687, 'grad_norm': 0.6413081288337708, 'learning_rate': 1.6195383729687453e-05, 'epoch': 2.58} {'loss': 0.7267, 'grad_norm': 0.641186535358429, 'learning_rate': 1.6186581336111703e-05, 'epoch': 2.59} {'loss': 0.7843, 'grad_norm': 0.7269697785377502, 'learning_rate': 1.61777711699379e-05, 'epoch': 2.59} {'loss': 0.8387, 'grad_norm': 0.8015072345733643, 'learning_rate': 1.6168953242234823e-05, 'epoch': 2.59} {'loss': 0.8051, 'grad_norm': 0.7353004813194275, 'learning_rate': 1.6160127564080997e-05, 'epoch': 2.59} {'loss': 0.7359, 'grad_norm': 0.7936559915542603, 'learning_rate': 1.6151294146564685e-05, 'epoch': 2.6} {'loss': 0.7865, 'grad_norm': 0.700383186340332, 'learning_rate': 1.6142453000783883e-05, 'epoch': 2.6} {'loss': 0.7933, 'grad_norm': 0.7878381013870239, 'learning_rate': 1.613360413784628e-05, 'epoch': 2.6} {'loss': 0.7662, 'grad_norm': 0.6339976787567139, 'learning_rate': 1.6124747568869272e-05, 'epoch': 2.61} {'loss': 0.7443, 'grad_norm': 0.7608273029327393, 'learning_rate': 1.6115883304979928e-05, 'epoch': 2.61} {'loss': 0.7869, 'grad_norm': 0.8096188902854919, 'learning_rate': 1.6107011357314998e-05, 'epoch': 2.61} {'loss': 0.7767, 'grad_norm': 0.756508469581604, 'learning_rate': 1.6098131737020873e-05, 'epoch': 2.61} {'loss': 0.7341, 'grad_norm': 0.7468616366386414, 'learning_rate': 1.608924445525359e-05, 'epoch': 2.62} {'loss': 0.7729, 'grad_norm': 0.8016692399978638, 'learning_rate': 1.608034952317881e-05, 'epoch': 2.62} {'loss': 0.7595, 'grad_norm': 0.6100760698318481, 'learning_rate': 1.6071446951971807e-05, 'epoch': 2.62} {'loss': 0.753, 'grad_norm': 0.7451143860816956, 'learning_rate': 1.6062536752817445e-05, 'epoch': 2.62} {'loss': 0.7945, 'grad_norm': 0.7515224814414978, 'learning_rate': 1.605361893691018e-05, 'epoch': 2.63} {'loss': 0.7474, 'grad_norm': 0.6074909567832947, 'learning_rate': 1.6044693515454036e-05, 'epoch': 2.63} {'loss': 0.7574, 'grad_norm': 0.69577556848526, 'learning_rate': 1.6035760499662595e-05, 'epoch': 2.63} {'loss': 0.7207, 'grad_norm': 0.6941227316856384, 'learning_rate': 1.602681990075897e-05, 'epoch': 2.64} {'loss': 0.7608, 'grad_norm': 0.6956490874290466, 'learning_rate': 1.6017871729975808e-05, 'epoch': 2.64} {'loss': 0.7633, 'grad_norm': 0.6236304640769958, 'learning_rate': 1.6008915998555272e-05, 'epoch': 2.64} {'loss': 0.785, 'grad_norm': 0.8647505044937134, 'learning_rate': 1.5999952717749022e-05, 'epoch': 2.64} {'loss': 0.7834, 'grad_norm': 0.7759619951248169, 'learning_rate': 1.5990981898818195e-05, 'epoch': 2.65} {'loss': 0.7749, 'grad_norm': 0.64537513256073, 'learning_rate': 1.5982003553033407e-05, 'epoch': 2.65} {'loss': 0.81, 'grad_norm': 0.8573727011680603, 'learning_rate': 1.597301769167473e-05, 'epoch': 2.65} {'loss': 0.7826, 'grad_norm': 0.7877121567726135, 'learning_rate': 1.596402432603168e-05, 'epoch': 2.65} {'loss': 0.773, 'grad_norm': 0.6142024397850037, 'learning_rate': 1.595502346740319e-05, 'epoch': 2.66} {'loss': 0.7892, 'grad_norm': 0.6580196022987366, 'learning_rate': 1.5946015127097623e-05, 'epoch': 2.66} {'loss': 0.7788, 'grad_norm': 0.7402262687683105, 'learning_rate': 1.5936999316432723e-05, 'epoch': 2.66} {'loss': 0.771, 'grad_norm': 0.5875056385993958, 'learning_rate': 1.5927976046735644e-05, 'epoch': 2.67} {'loss': 0.7796, 'grad_norm': 0.7942023277282715, 'learning_rate': 1.5918945329342884e-05, 'epoch': 2.67} {'loss': 0.759, 'grad_norm': 0.7587712407112122, 'learning_rate': 1.5909907175600322e-05, 'epoch': 2.67} {'loss': 0.7904, 'grad_norm': 0.7431420087814331, 'learning_rate': 1.5900861596863158e-05, 'epoch': 2.67} {'loss': 0.7519, 'grad_norm': 0.5720853209495544, 'learning_rate': 1.5891808604495936e-05, 'epoch': 2.68} {'loss': 0.8187, 'grad_norm': 0.7378911972045898, 'learning_rate': 1.5882748209872515e-05, 'epoch': 2.68} {'loss': 0.7593, 'grad_norm': 0.6290819644927979, 'learning_rate': 1.5873680424376045e-05, 'epoch': 2.68} {'loss': 0.7394, 'grad_norm': 0.7156382203102112, 'learning_rate': 1.586460525939896e-05, 'epoch': 2.68} {'loss': 0.8017, 'grad_norm': 0.7816430330276489, 'learning_rate': 1.5855522726342978e-05, 'epoch': 2.69} {'loss': 0.7974, 'grad_norm': 0.6063433289527893, 'learning_rate': 1.5846432836619062e-05, 'epoch': 2.69} {'loss': 0.7884, 'grad_norm': 0.6764875054359436, 'learning_rate': 1.5837335601647422e-05, 'epoch': 2.69} {'loss': 0.7923, 'grad_norm': 0.667929470539093, 'learning_rate': 1.5828231032857503e-05, 'epoch': 2.7} {'loss': 0.795, 'grad_norm': 0.7480797171592712, 'learning_rate': 1.5819119141687952e-05, 'epoch': 2.7} {'loss': 0.7595, 'grad_norm': 0.7407980561256409, 'learning_rate': 1.580999993958662e-05, 'epoch': 2.7} {'loss': 0.769, 'grad_norm': 0.6869950294494629, 'learning_rate': 1.5800873438010548e-05, 'epoch': 2.7} {'loss': 0.8013, 'grad_norm': 0.5981056094169617, 'learning_rate': 1.5791739648425934e-05, 'epoch': 2.71} {'loss': 0.8123, 'grad_norm': 0.77880859375, 'learning_rate': 1.578259858230816e-05, 'epoch': 2.71} {'loss': 0.7904, 'grad_norm': 0.7359727621078491, 'learning_rate': 1.5773450251141715e-05, 'epoch': 2.71} {'loss': 0.7745, 'grad_norm': 0.7961989045143127, 'learning_rate': 1.5764294666420245e-05, 'epoch': 2.71} {'loss': 0.7666, 'grad_norm': 0.8752305507659912, 'learning_rate': 1.575513183964649e-05, 'epoch': 2.72} {'loss': 0.8005, 'grad_norm': 0.6385184526443481, 'learning_rate': 1.5745961782332303e-05, 'epoch': 2.72} {'loss': 0.7211, 'grad_norm': 0.7207528352737427, 'learning_rate': 1.5736784505998605e-05, 'epoch': 2.72} {'loss': 0.7453, 'grad_norm': 0.702488899230957, 'learning_rate': 1.57276000221754e-05, 'epoch': 2.73} {'loss': 0.7269, 'grad_norm': 0.7083529233932495, 'learning_rate': 1.571840834240174e-05, 'epoch': 2.73} {'loss': 0.7556, 'grad_norm': 0.6946362853050232, 'learning_rate': 1.5709209478225725e-05, 'epoch': 2.73} {'loss': 0.7751, 'grad_norm': 0.6995648145675659, 'learning_rate': 1.5700003441204473e-05, 'epoch': 2.73} {'loss': 0.7926, 'grad_norm': 0.8709317445755005, 'learning_rate': 1.5690790242904124e-05, 'epoch': 2.74} {'loss': 0.7845, 'grad_norm': 0.7580553889274597, 'learning_rate': 1.56815698948998e-05, 'epoch': 2.74} {'loss': 0.7777, 'grad_norm': 0.7460126876831055, 'learning_rate': 1.567234240877562e-05, 'epoch': 2.74} {'loss': 0.7905, 'grad_norm': 0.7375261783599854, 'learning_rate': 1.566310779612466e-05, 'epoch': 2.74} {'loss': 0.7685, 'grad_norm': 0.7750034332275391, 'learning_rate': 1.565386606854896e-05, 'epoch': 2.75} {'loss': 0.749, 'grad_norm': 0.6394248008728027, 'learning_rate': 1.564461723765949e-05, 'epoch': 2.75} {'loss': 0.7384, 'grad_norm': 0.7862036824226379, 'learning_rate': 1.5635361315076157e-05, 'epoch': 2.75} {'loss': 0.7469, 'grad_norm': 0.7716096043586731, 'learning_rate': 1.5626098312427754e-05, 'epoch': 2.75} {'loss': 0.7968, 'grad_norm': 0.8355086445808411, 'learning_rate': 1.5616828241352e-05, 'epoch': 2.76} {'loss': 0.7959, 'grad_norm': 0.7706970572471619, 'learning_rate': 1.560847914350414e-05, 'epoch': 2.76} {'loss': 0.7535, 'grad_norm': 0.7436323165893555, 'learning_rate': 1.5599195674510067e-05, 'epoch': 2.76} {'loss': 0.7662, 'grad_norm': 0.8212364912033081, 'learning_rate': 1.5589905170888136e-05, 'epoch': 2.77} {'loss': 0.7484, 'grad_norm': 0.7595052123069763, 'learning_rate': 1.558060764431061e-05, 'epoch': 2.77} {'loss': 0.7655, 'grad_norm': 0.8616979718208313, 'learning_rate': 1.557130310645856e-05, 'epoch': 2.77} {'loss': 0.7756, 'grad_norm': 0.7546272277832031, 'learning_rate': 1.5561991569021877e-05, 'epoch': 2.77} {'loss': 0.7716, 'grad_norm': 0.554817795753479, 'learning_rate': 1.5552673043699237e-05, 'epoch': 2.78} {'loss': 0.8163, 'grad_norm': 0.5275525450706482, 'learning_rate': 1.5543347542198105e-05, 'epoch': 2.78} {'loss': 0.7776, 'grad_norm': 0.6974525451660156, 'learning_rate': 1.5534015076234702e-05, 'epoch': 2.78} {'loss': 0.7726, 'grad_norm': 0.718517541885376, 'learning_rate': 1.5524675657534e-05, 'epoch': 2.78} {'loss': 0.7496, 'grad_norm': 0.8664847612380981, 'learning_rate': 1.5515329297829713e-05, 'epoch': 2.79} {'loss': 0.776, 'grad_norm': 0.8431841135025024, 'learning_rate': 1.550597600886427e-05, 'epoch': 2.79} {'loss': 0.7979, 'grad_norm': 0.7042801380157471, 'learning_rate': 1.5496615802388803e-05, 'epoch': 2.79} {'loss': 0.7646, 'grad_norm': 0.8103284239768982, 'learning_rate': 1.548724869016314e-05, 'epoch': 2.8} {'loss': 0.7815, 'grad_norm': 0.8150709271430969, 'learning_rate': 1.547787468395579e-05, 'epoch': 2.8} {'loss': 0.8203, 'grad_norm': 0.7040372490882874, 'learning_rate': 1.5468493795543905e-05, 'epoch': 2.8} {'loss': 0.7923, 'grad_norm': 0.6534053087234497, 'learning_rate': 1.5459106036713304e-05, 'epoch': 2.8} {'loss': 0.7991, 'grad_norm': 0.6855390667915344, 'learning_rate': 1.5449711419258428e-05, 'epoch': 2.81} {'loss': 0.7751, 'grad_norm': 0.6688184142112732, 'learning_rate': 1.5440309954982333e-05, 'epoch': 2.81} {'loss': 0.7549, 'grad_norm': 0.6427990794181824, 'learning_rate': 1.5430901655696683e-05, 'epoch': 2.81} {'loss': 0.7992, 'grad_norm': 0.6838005185127258, 'learning_rate': 1.5421486533221724e-05, 'epoch': 2.81} {'loss': 0.7822, 'grad_norm': 0.7932133674621582, 'learning_rate': 1.5412064599386286e-05, 'epoch': 2.82} {'loss': 0.7427, 'grad_norm': 0.61109858751297, 'learning_rate': 1.5402635866027732e-05, 'epoch': 2.82} {'loss': 0.7636, 'grad_norm': 0.7142514586448669, 'learning_rate': 1.5393200344991993e-05, 'epoch': 2.82} {'loss': 0.7579, 'grad_norm': 0.7095200419425964, 'learning_rate': 1.538375804813352e-05, 'epoch': 2.83} {'loss': 0.778, 'grad_norm': 0.7809803485870361, 'learning_rate': 1.5374308987315266e-05, 'epoch': 2.83} {'loss': 0.7369, 'grad_norm': 0.7473878860473633, 'learning_rate': 1.5364853174408696e-05, 'epoch': 2.83} {'loss': 0.7611, 'grad_norm': 0.6324819922447205, 'learning_rate': 1.5355390621293755e-05, 'epoch': 2.83} {'loss': 0.7764, 'grad_norm': 0.7213466167449951, 'learning_rate': 1.534592133985885e-05, 'epoch': 2.84} {'loss': 0.7678, 'grad_norm': 0.7832670211791992, 'learning_rate': 1.533644534200085e-05, 'epoch': 2.84} {'loss': 0.7839, 'grad_norm': 0.7111945748329163, 'learning_rate': 1.5326962639625048e-05, 'epoch': 2.84} {'loss': 0.7718, 'grad_norm': 0.7842445373535156, 'learning_rate': 1.5317473244645185e-05, 'epoch': 2.84} {'loss': 0.7494, 'grad_norm': 0.7296090722084045, 'learning_rate': 1.5307977168983385e-05, 'epoch': 2.85} {'loss': 0.7902, 'grad_norm': 0.8660221099853516, 'learning_rate': 1.529847442457017e-05, 'epoch': 2.85} {'loss': 0.8358, 'grad_norm': 0.9862285852432251, 'learning_rate': 1.5288965023344458e-05, 'epoch': 2.85} {'loss': 0.7806, 'grad_norm': 0.8104241490364075, 'learning_rate': 1.5279448977253515e-05, 'epoch': 2.86} {'loss': 0.784, 'grad_norm': 0.7749743461608887, 'learning_rate': 1.526992629825295e-05, 'epoch': 2.86} {'loss': 0.7726, 'grad_norm': 0.7815987467765808, 'learning_rate': 1.526039699830673e-05, 'epoch': 2.86} {'loss': 0.7876, 'grad_norm': 0.7634648680686951, 'learning_rate': 1.525086108938711e-05, 'epoch': 2.86} {'loss': 0.7672, 'grad_norm': 0.7209242582321167, 'learning_rate': 1.5241318583474672e-05, 'epoch': 2.87} {'loss': 0.7499, 'grad_norm': 0.8157589435577393, 'learning_rate': 1.5231769492558269e-05, 'epoch': 2.87} {'loss': 0.7624, 'grad_norm': 0.7707594037055969, 'learning_rate': 1.522221382863504e-05, 'epoch': 2.87} {'loss': 0.7457, 'grad_norm': 0.7500439286231995, 'learning_rate': 1.5212651603710375e-05, 'epoch': 2.87} {'loss': 0.7465, 'grad_norm': 0.6925296783447266, 'learning_rate': 1.5203082829797913e-05, 'epoch': 2.88} {'loss': 0.7702, 'grad_norm': 0.7257989048957825, 'learning_rate': 1.5193507518919513e-05, 'epoch': 2.88} {'loss': 0.7747, 'grad_norm': 0.7689418792724609, 'learning_rate': 1.5183925683105254e-05, 'epoch': 2.88} {'loss': 0.8048, 'grad_norm': 0.7571545243263245, 'learning_rate': 1.5174337334393406e-05, 'epoch': 2.89} {'loss': 0.7606, 'grad_norm': 0.7013002634048462, 'learning_rate': 1.5164742484830423e-05, 'epoch': 2.89} {'loss': 0.7479, 'grad_norm': 0.7319855690002441, 'learning_rate': 1.5155141146470937e-05, 'epoch': 2.89} {'loss': 0.762, 'grad_norm': 0.7556444406509399, 'learning_rate': 1.514553333137772e-05, 'epoch': 2.89} {'loss': 0.7502, 'grad_norm': 0.8199083805084229, 'learning_rate': 1.513591905162168e-05, 'epoch': 2.9} {'loss': 0.7798, 'grad_norm': 0.6115996241569519, 'learning_rate': 1.5126298319281859e-05, 'epoch': 2.9} {'loss': 0.7843, 'grad_norm': 0.7407699227333069, 'learning_rate': 1.5116671146445394e-05, 'epoch': 2.9} {'loss': 0.8071, 'grad_norm': 0.8065510392189026, 'learning_rate': 1.5107037545207521e-05, 'epoch': 2.9} {'loss': 0.7773, 'grad_norm': 0.6967304348945618, 'learning_rate': 1.5098361817813449e-05, 'epoch': 2.91} {'loss': 0.7755, 'grad_norm': 0.7545986175537109, 'learning_rate': 1.508871603596418e-05, 'epoch': 2.91} {'loss': 0.7698, 'grad_norm': 0.7572400569915771, 'learning_rate': 1.5079063860835295e-05, 'epoch': 2.91} {'loss': 0.7858, 'grad_norm': 0.8061432242393494, 'learning_rate': 1.5069405304553444e-05, 'epoch': 2.91} {'loss': 0.7704, 'grad_norm': 0.8423951268196106, 'learning_rate': 1.5059740379253283e-05, 'epoch': 2.92} {'loss': 0.7332, 'grad_norm': 0.6641693711280823, 'learning_rate': 1.5050069097077479e-05, 'epoch': 2.92} {'loss': 0.7787, 'grad_norm': 0.7511463761329651, 'learning_rate': 1.5040391470176687e-05, 'epoch': 2.92} {'loss': 0.7786, 'grad_norm': 0.8395470380783081, 'learning_rate': 1.5030707510709524e-05, 'epoch': 2.93} {'loss': 0.7679, 'grad_norm': 0.6965402364730835, 'learning_rate': 1.5021017230842566e-05, 'epoch': 2.93} {'loss': 0.7465, 'grad_norm': 0.7105647921562195, 'learning_rate': 1.5011320642750335e-05, 'epoch': 2.93} {'loss': 0.8037, 'grad_norm': 0.7377470135688782, 'learning_rate': 1.5001617758615276e-05, 'epoch': 2.93} {'loss': 0.7722, 'grad_norm': 0.8496032953262329, 'learning_rate': 1.4991908590627742e-05, 'epoch': 2.94} {'loss': 0.7778, 'grad_norm': 0.7910975217819214, 'learning_rate': 1.4982193150985984e-05, 'epoch': 2.94} {'loss': 0.7954, 'grad_norm': 0.7295973896980286, 'learning_rate': 1.4972471451896126e-05, 'epoch': 2.94} {'loss': 0.7265, 'grad_norm': 0.7860162854194641, 'learning_rate': 1.4962743505572166e-05, 'epoch': 2.94} {'loss': 0.758, 'grad_norm': 0.8054883480072021, 'learning_rate': 1.4953009324235944e-05, 'epoch': 2.95} {'loss': 0.7617, 'grad_norm': 0.6462415456771851, 'learning_rate': 1.494326892011713e-05, 'epoch': 2.95} {'loss': 0.7409, 'grad_norm': 0.7419580221176147, 'learning_rate': 1.4933522305453224e-05, 'epoch': 2.95} {'loss': 0.7811, 'grad_norm': 0.6780064105987549, 'learning_rate': 1.4923769492489519e-05, 'epoch': 2.96} {'loss': 0.8138, 'grad_norm': 0.6693557500839233, 'learning_rate': 1.4914010493479093e-05, 'epoch': 2.96} {'loss': 0.7801, 'grad_norm': 1.0930713415145874, 'learning_rate': 1.4904245320682813e-05, 'epoch': 2.96} {'loss': 0.7755, 'grad_norm': 0.8880392909049988, 'learning_rate': 1.489447398636928e-05, 'epoch': 2.96} {'loss': 0.7296, 'grad_norm': 0.7278251051902771, 'learning_rate': 1.488469650281485e-05, 'epoch': 2.97} {'loss': 0.7557, 'grad_norm': 0.8121229410171509, 'learning_rate': 1.48749128823036e-05, 'epoch': 2.97} {'loss': 0.761, 'grad_norm': 0.7880802154541016, 'learning_rate': 1.4865123137127321e-05, 'epoch': 2.97} {'loss': 0.7641, 'grad_norm': 0.7435881495475769, 'learning_rate': 1.4855327279585498e-05, 'epoch': 2.97} {'loss': 0.8017, 'grad_norm': 0.7135417461395264, 'learning_rate': 1.4845525321985291e-05, 'epoch': 2.98} {'loss': 0.7688, 'grad_norm': 0.727699875831604, 'learning_rate': 1.4835717276641524e-05, 'epoch': 2.98} {'loss': 0.8267, 'grad_norm': 0.7763904333114624, 'learning_rate': 1.4825903155876676e-05, 'epoch': 2.98} {'loss': 0.7433, 'grad_norm': 0.7688823342323303, 'learning_rate': 1.4816082972020854e-05, 'epoch': 2.99} {'loss': 0.7499, 'grad_norm': 0.6814772486686707, 'learning_rate': 1.480625673741178e-05, 'epoch': 2.99} {'loss': 0.7703, 'grad_norm': 0.7651371955871582, 'learning_rate': 1.4796424464394785e-05, 'epoch': 2.99} {'loss': 0.7823, 'grad_norm': 0.8109784722328186, 'learning_rate': 1.4786586165322788e-05, 'epoch': 2.99} {'loss': 0.757, 'grad_norm': 0.7167613506317139, 'learning_rate': 1.477674185255626e-05, 'epoch': 3.0} {'loss': 0.7584, 'grad_norm': 0.6852039694786072, 'learning_rate': 1.4766891538463255e-05, 'epoch': 3.0} 38%|████████████████████████████████████████████▎ | 11064/29504 [28:29:39<36:44:20, 7.17s/it]/venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") {'loss': 0.7549, 'grad_norm': 0.7386584281921387, 'learning_rate': 1.4757035235419345e-05, 'epoch': 3.0} {'loss': 0.7666, 'grad_norm': 0.7173887491226196, 'learning_rate': 1.4747172955807636e-05, 'epoch': 3.0} {'loss': 0.7478, 'grad_norm': 0.6211129426956177, 'learning_rate': 1.4737304712018743e-05, 'epoch': 3.01} {'loss': 0.7107, 'grad_norm': 0.745624840259552, 'learning_rate': 1.4727430516450771e-05, 'epoch': 3.01} {'loss': 0.6989, 'grad_norm': 0.6036845445632935, 'learning_rate': 1.47175503815093e-05, 'epoch': 3.01} {'loss': 0.7263, 'grad_norm': 0.7166563868522644, 'learning_rate': 1.4707664319607384e-05, 'epoch': 3.02} {'loss': 0.7444, 'grad_norm': 0.808390736579895, 'learning_rate': 1.4697772343165509e-05, 'epoch': 3.02} {'loss': 0.7051, 'grad_norm': 0.6857040524482727, 'learning_rate': 1.4687874464611598e-05, 'epoch': 3.02} {'loss': 0.7099, 'grad_norm': 0.7790309190750122, 'learning_rate': 1.4677970696380992e-05, 'epoch': 3.02} {'loss': 0.694, 'grad_norm': 0.7899872064590454, 'learning_rate': 1.4668061050916427e-05, 'epoch': 3.03} {'loss': 0.7203, 'grad_norm': 0.7520288825035095, 'learning_rate': 1.4658145540668024e-05, 'epoch': 3.03} {'loss': 0.7366, 'grad_norm': 0.6718308329582214, 'learning_rate': 1.464822417809328e-05, 'epoch': 3.03} {'loss': 0.7198, 'grad_norm': 0.8221465349197388, 'learning_rate': 1.4638296975657027e-05, 'epoch': 3.03} {'loss': 0.7018, 'grad_norm': 0.7322915196418762, 'learning_rate': 1.4628363945831452e-05, 'epoch': 3.04} {'loss': 0.741, 'grad_norm': 0.8366560935974121, 'learning_rate': 1.4618425101096053e-05, 'epoch': 3.04} {'loss': 0.7253, 'grad_norm': 0.8797725439071655, 'learning_rate': 1.4608480453937638e-05, 'epoch': 3.04} {'loss': 0.7315, 'grad_norm': 0.6087292432785034, 'learning_rate': 1.4598530016850302e-05, 'epoch': 3.05} {'loss': 0.7359, 'grad_norm': 0.7887700200080872, 'learning_rate': 1.4588573802335423e-05, 'epoch': 3.05} {'loss': 0.716, 'grad_norm': 0.782606840133667, 'learning_rate': 1.4578611822901615e-05, 'epoch': 3.05} {'loss': 0.7317, 'grad_norm': 0.7521464228630066, 'learning_rate': 1.456964112274974e-05, 'epoch': 3.05} {'loss': 0.7244, 'grad_norm': 0.7581706643104553, 'learning_rate': 1.4559668224457193e-05, 'epoch': 3.06} {'loss': 0.7236, 'grad_norm': 0.8986368179321289, 'learning_rate': 1.4549689597561652e-05, 'epoch': 3.06} {'loss': 0.7652, 'grad_norm': 0.8674092888832092, 'learning_rate': 1.4539705254599907e-05, 'epoch': 3.06} {'loss': 0.7145, 'grad_norm': 0.8247489333152771, 'learning_rate': 1.452971520811593e-05, 'epoch': 3.06} {'loss': 0.7143, 'grad_norm': 0.7235738039016724, 'learning_rate': 1.451971947066085e-05, 'epoch': 3.07} {'loss': 0.7588, 'grad_norm': 0.7428467273712158, 'learning_rate': 1.4509718054792954e-05, 'epoch': 3.07} {'loss': 0.738, 'grad_norm': 0.8250604271888733, 'learning_rate': 1.449971097307766e-05, 'epoch': 3.07} {'loss': 0.7234, 'grad_norm': 0.6222082376480103, 'learning_rate': 1.4489698238087508e-05, 'epoch': 3.07} {'loss': 0.7014, 'grad_norm': 0.7492109537124634, 'learning_rate': 1.4479679862402134e-05, 'epoch': 3.08} {'loss': 0.7228, 'grad_norm': 0.7665925621986389, 'learning_rate': 1.4469655858608267e-05, 'epoch': 3.08} {'loss': 0.745, 'grad_norm': 0.7687555551528931, 'learning_rate': 1.4459626239299705e-05, 'epoch': 3.08} {'loss': 0.7562, 'grad_norm': 0.9882718324661255, 'learning_rate': 1.44495910170773e-05, 'epoch': 3.09} {'loss': 0.7277, 'grad_norm': 0.7747461199760437, 'learning_rate': 1.4439550204548937e-05, 'epoch': 3.09} {'loss': 0.775, 'grad_norm': 0.7272694706916809, 'learning_rate': 1.4429503814329543e-05, 'epoch': 3.09} {'loss': 0.7236, 'grad_norm': 0.8159533739089966, 'learning_rate': 1.4419451859041036e-05, 'epoch': 3.09} {'loss': 0.7751, 'grad_norm': 0.8933035135269165, 'learning_rate': 1.4409394351312329e-05, 'epoch': 3.1} {'loss': 0.7217, 'grad_norm': 0.7585245370864868, 'learning_rate': 1.4399331303779314e-05, 'epoch': 3.1} {'loss': 0.7271, 'grad_norm': 0.8155983686447144, 'learning_rate': 1.4389262729084843e-05, 'epoch': 3.1} {'loss': 0.7156, 'grad_norm': 0.6673611402511597, 'learning_rate': 1.4379188639878706e-05, 'epoch': 3.1} {'loss': 0.6923, 'grad_norm': 0.8047562837600708, 'learning_rate': 1.4369109048817632e-05, 'epoch': 3.11} {'loss': 0.7316, 'grad_norm': 0.7275456786155701, 'learning_rate': 1.435902396856525e-05, 'epoch': 3.11} {'loss': 0.7338, 'grad_norm': 0.8327465057373047, 'learning_rate': 1.4348933411792097e-05, 'epoch': 3.11} {'loss': 0.7215, 'grad_norm': 0.8575055599212646, 'learning_rate': 1.4338837391175582e-05, 'epoch': 3.12} {'loss': 0.7586, 'grad_norm': 0.837209165096283, 'learning_rate': 1.4328735919399986e-05, 'epoch': 3.12} {'loss': 0.697, 'grad_norm': 0.795741856098175, 'learning_rate': 1.4318629009156428e-05, 'epoch': 3.12} {'loss': 0.7519, 'grad_norm': 0.791229248046875, 'learning_rate': 1.4308516673142876e-05, 'epoch': 3.12} {'loss': 0.7504, 'grad_norm': 0.7609810829162598, 'learning_rate': 1.4298398924064092e-05, 'epoch': 3.13} {'loss': 0.7379, 'grad_norm': 0.9034254550933838, 'learning_rate': 1.4288275774631664e-05, 'epoch': 3.13} {'loss': 0.7538, 'grad_norm': 0.8400722742080688, 'learning_rate': 1.4278147237563944e-05, 'epoch': 3.13} {'loss': 0.753, 'grad_norm': 0.6760261654853821, 'learning_rate': 1.4268013325586063e-05, 'epoch': 3.13} {'loss': 0.7127, 'grad_norm': 0.7324851751327515, 'learning_rate': 1.4257874051429906e-05, 'epoch': 3.14} {'loss': 0.7478, 'grad_norm': 0.7744485139846802, 'learning_rate': 1.4247729427834092e-05, 'epoch': 3.14} {'loss': 0.715, 'grad_norm': 0.7954735159873962, 'learning_rate': 1.4237579467543954e-05, 'epoch': 3.14} {'loss': 0.7839, 'grad_norm': 0.8250058889389038, 'learning_rate': 1.4227424183311546e-05, 'epoch': 3.15} {'loss': 0.7621, 'grad_norm': 0.9151874780654907, 'learning_rate': 1.4217263587895598e-05, 'epoch': 3.15} {'loss': 0.7047, 'grad_norm': 0.7412384152412415, 'learning_rate': 1.4207097694061514e-05, 'epoch': 3.15} {'loss': 0.7093, 'grad_norm': 0.7427173256874084, 'learning_rate': 1.4196926514581357e-05, 'epoch': 3.15} {'loss': 0.7291, 'grad_norm': 0.9328509569168091, 'learning_rate': 1.4186750062233836e-05, 'epoch': 3.16} {'loss': 0.71, 'grad_norm': 0.8529789447784424, 'learning_rate': 1.4176568349804272e-05, 'epoch': 3.16} {'loss': 0.7198, 'grad_norm': 0.7662271857261658, 'learning_rate': 1.4166381390084607e-05, 'epoch': 3.16} {'loss': 0.7617, 'grad_norm': 0.6611500978469849, 'learning_rate': 1.4156189195873369e-05, 'epoch': 3.16} {'loss': 0.7447, 'grad_norm': 0.8290953040122986, 'learning_rate': 1.4145991779975663e-05, 'epoch': 3.17} {'loss': 0.7392, 'grad_norm': 0.8508483171463013, 'learning_rate': 1.4135789155203157e-05, 'epoch': 3.17} {'loss': 0.7827, 'grad_norm': 0.78224778175354, 'learning_rate': 1.412558133437406e-05, 'epoch': 3.17} {'loss': 0.7289, 'grad_norm': 0.8532412648200989, 'learning_rate': 1.4115368330313111e-05, 'epoch': 3.18} {'loss': 0.7484, 'grad_norm': 0.7826198935508728, 'learning_rate': 1.4105150155851562e-05, 'epoch': 3.18} {'loss': 0.6966, 'grad_norm': 0.9898056387901306, 'learning_rate': 1.4094926823827156e-05, 'epoch': 3.18} {'loss': 0.7066, 'grad_norm': 0.6724561452865601, 'learning_rate': 1.4084698347084122e-05, 'epoch': 3.18} {'loss': 0.7435, 'grad_norm': 0.8488313555717468, 'learning_rate': 1.407446473847315e-05, 'epoch': 3.19} {'loss': 0.7186, 'grad_norm': 0.8341981768608093, 'learning_rate': 1.4064226010851374e-05, 'epoch': 3.19} {'loss': 0.7033, 'grad_norm': 0.861798882484436, 'learning_rate': 1.4053982177082369e-05, 'epoch': 3.19} {'loss': 0.7468, 'grad_norm': 0.8749969601631165, 'learning_rate': 1.4043733250036114e-05, 'epoch': 3.19} {'loss': 0.7672, 'grad_norm': 0.9173964858055115, 'learning_rate': 1.4033479242588992e-05, 'epoch': 3.2} {'loss': 0.7711, 'grad_norm': 0.8147724270820618, 'learning_rate': 1.4023220167623773e-05, 'epoch': 3.2} {'loss': 0.7765, 'grad_norm': 0.76629638671875, 'learning_rate': 1.4012956038029583e-05, 'epoch': 3.2} {'loss': 0.7114, 'grad_norm': 0.8139888048171997, 'learning_rate': 1.4002686866701912e-05, 'epoch': 3.21} {'loss': 0.6957, 'grad_norm': 0.7456299066543579, 'learning_rate': 1.399241266654257e-05, 'epoch': 3.21} {'loss': 0.7839, 'grad_norm': 0.8718665838241577, 'learning_rate': 1.3982133450459699e-05, 'epoch': 3.21} {'loss': 0.7124, 'grad_norm': 0.7490055561065674, 'learning_rate': 1.3971849231367729e-05, 'epoch': 3.21} {'loss': 0.7687, 'grad_norm': 0.610472559928894, 'learning_rate': 1.396156002218739e-05, 'epoch': 3.22} {'loss': 0.7702, 'grad_norm': 0.8911371827125549, 'learning_rate': 1.3951265835845669e-05, 'epoch': 3.22} {'loss': 0.7964, 'grad_norm': 0.8912273645401001, 'learning_rate': 1.3940966685275812e-05, 'epoch': 3.22} {'loss': 0.7037, 'grad_norm': 0.7447736859321594, 'learning_rate': 1.39306625834173e-05, 'epoch': 3.22} {'loss': 0.7527, 'grad_norm': 0.888676106929779, 'learning_rate': 1.3920353543215837e-05, 'epoch': 3.23} {'loss': 0.728, 'grad_norm': 0.8233622908592224, 'learning_rate': 1.3910039577623331e-05, 'epoch': 3.23} {'loss': 0.7503, 'grad_norm': 0.9556632041931152, 'learning_rate': 1.3899720699597876e-05, 'epoch': 3.23} {'loss': 0.7354, 'grad_norm': 0.7252323031425476, 'learning_rate': 1.388939692210374e-05, 'epoch': 3.23} {'loss': 0.7424, 'grad_norm': 0.8207757472991943, 'learning_rate': 1.3879068258111339e-05, 'epoch': 3.24} {'loss': 0.7521, 'grad_norm': 0.7896901369094849, 'learning_rate': 1.3868734720597245e-05, 'epoch': 3.24} {'loss': 0.7142, 'grad_norm': 0.7422956824302673, 'learning_rate': 1.3858396322544134e-05, 'epoch': 3.24} {'loss': 0.7492, 'grad_norm': 0.740772008895874, 'learning_rate': 1.3848053076940802e-05, 'epoch': 3.25} {'loss': 0.7187, 'grad_norm': 0.8436154127120972, 'learning_rate': 1.3837704996782127e-05, 'epoch': 3.25} {'loss': 0.7609, 'grad_norm': 0.8336666822433472, 'learning_rate': 1.3827352095069067e-05, 'epoch': 3.25} {'loss': 0.7513, 'grad_norm': 0.771708607673645, 'learning_rate': 1.3816994384808634e-05, 'epoch': 3.25} {'loss': 0.7183, 'grad_norm': 0.6604255437850952, 'learning_rate': 1.3806631879013883e-05, 'epoch': 3.26} {'loss': 0.7505, 'grad_norm': 0.8781054615974426, 'learning_rate': 1.3796264590703888e-05, 'epoch': 3.26} {'loss': 0.7627, 'grad_norm': 0.8115010857582092, 'learning_rate': 1.3785892532903746e-05, 'epoch': 3.26} {'loss': 0.71, 'grad_norm': 0.7726511359214783, 'learning_rate': 1.377551571864453e-05, 'epoch': 3.26} {'loss': 0.6912, 'grad_norm': 0.7205424904823303, 'learning_rate': 1.3765134160963298e-05, 'epoch': 3.27} {'loss': 0.7258, 'grad_norm': 0.7168182730674744, 'learning_rate': 1.3754747872903064e-05, 'epoch': 3.27} {'loss': 0.7494, 'grad_norm': 0.9244015216827393, 'learning_rate': 1.374435686751279e-05, 'epoch': 3.27} {'loss': 0.7079, 'grad_norm': 0.7187045812606812, 'learning_rate': 1.3733961157847357e-05, 'epoch': 3.28} {'loss': 0.7611, 'grad_norm': 0.989520251750946, 'learning_rate': 1.3723560756967564e-05, 'epoch': 3.28} {'loss': 0.7595, 'grad_norm': 0.8080344200134277, 'learning_rate': 1.3713155677940095e-05, 'epoch': 3.28} {'loss': 0.7521, 'grad_norm': 0.7352149486541748, 'learning_rate': 1.3702745933837522e-05, 'epoch': 3.28} {'loss': 0.7425, 'grad_norm': 0.7140423655509949, 'learning_rate': 1.3692331537738271e-05, 'epoch': 3.29} {'loss': 0.7748, 'grad_norm': 0.8922591209411621, 'learning_rate': 1.3681912502726614e-05, 'epoch': 3.29} {'loss': 0.7349, 'grad_norm': 0.6861690878868103, 'learning_rate': 1.3671488841892648e-05, 'epoch': 3.29} {'loss': 0.73, 'grad_norm': 0.9451531171798706, 'learning_rate': 1.3661060568332292e-05, 'epoch': 3.29} {'loss': 0.7307, 'grad_norm': 0.7441936135292053, 'learning_rate': 1.365062769514725e-05, 'epoch': 3.3} {'loss': 0.7515, 'grad_norm': 0.7373689413070679, 'learning_rate': 1.3640190235445006e-05, 'epoch': 3.3} {'loss': 0.718, 'grad_norm': 0.7349741458892822, 'learning_rate': 1.3629748202338811e-05, 'epoch': 3.3} {'loss': 0.6938, 'grad_norm': 0.8797123432159424, 'learning_rate': 1.3619301608947659e-05, 'epoch': 3.31} {'loss': 0.7538, 'grad_norm': 1.030884861946106, 'learning_rate': 1.3608850468396275e-05, 'epoch': 3.31} {'loss': 0.7665, 'grad_norm': 0.7621607184410095, 'learning_rate': 1.3598394793815097e-05, 'epoch': 3.31} {'loss': 0.7352, 'grad_norm': 0.8268575668334961, 'learning_rate': 1.3587934598340251e-05, 'epoch': 3.31} {'loss': 0.713, 'grad_norm': 0.8337624073028564, 'learning_rate': 1.3577469895113558e-05, 'epoch': 3.32} {'loss': 0.766, 'grad_norm': 0.7373268604278564, 'learning_rate': 1.3567000697282492e-05, 'epoch': 3.32} {'loss': 0.724, 'grad_norm': 0.8479686379432678, 'learning_rate': 1.3556527018000172e-05, 'epoch': 3.32} {'loss': 0.7183, 'grad_norm': 0.8221561312675476, 'learning_rate': 1.3546048870425356e-05, 'epoch': 3.32} {'loss': 0.7878, 'grad_norm': 0.8727735280990601, 'learning_rate': 1.3535566267722415e-05, 'epoch': 3.33} {'loss': 0.6989, 'grad_norm': 0.7841692566871643, 'learning_rate': 1.3525079223061301e-05, 'epoch': 3.33} {'loss': 0.7115, 'grad_norm': 0.7911773324012756, 'learning_rate': 1.3514587749617574e-05, 'epoch': 3.33} {'loss': 0.7517, 'grad_norm': 0.7345585823059082, 'learning_rate': 1.3504091860572334e-05, 'epoch': 3.34} {'loss': 0.7929, 'grad_norm': 1.0267367362976074, 'learning_rate': 1.3493591569112241e-05, 'epoch': 3.34} {'loss': 0.73, 'grad_norm': 0.6672304272651672, 'learning_rate': 1.3483086888429483e-05, 'epoch': 3.34} {'loss': 0.6689, 'grad_norm': 0.8232340812683105, 'learning_rate': 1.3472577831721765e-05, 'epoch': 3.34} {'loss': 0.7425, 'grad_norm': 0.8672451376914978, 'learning_rate': 1.346206441219228e-05, 'epoch': 3.35} {'loss': 0.6946, 'grad_norm': 0.8642718195915222, 'learning_rate': 1.345154664304972e-05, 'epoch': 3.35} {'loss': 0.7755, 'grad_norm': 0.6952816843986511, 'learning_rate': 1.3441024537508224e-05, 'epoch': 3.35} {'loss': 0.7156, 'grad_norm': 0.720496654510498, 'learning_rate': 1.3430498108787388e-05, 'epoch': 3.35} {'loss': 0.7343, 'grad_norm': 0.8239845037460327, 'learning_rate': 1.341996737011224e-05, 'epoch': 3.36} {'loss': 0.7277, 'grad_norm': 0.7975578904151917, 'learning_rate': 1.3409432334713221e-05, 'epoch': 3.36} {'loss': 0.7134, 'grad_norm': 0.7787168025970459, 'learning_rate': 1.3398893015826166e-05, 'epoch': 3.36} {'loss': 0.7544, 'grad_norm': 0.8703823685646057, 'learning_rate': 1.3388349426692304e-05, 'epoch': 3.37} {'loss': 0.76, 'grad_norm': 0.8846654891967773, 'learning_rate': 1.3377801580558212e-05, 'epoch': 3.37} {'loss': 0.6841, 'grad_norm': 0.7548115849494934, 'learning_rate': 1.3367249490675831e-05, 'epoch': 3.37} {'loss': 0.7246, 'grad_norm': 0.6721587181091309, 'learning_rate': 1.335669317030242e-05, 'epoch': 3.37} {'loss': 0.7425, 'grad_norm': 0.7743901014328003, 'learning_rate': 1.3346132632700564e-05, 'epoch': 3.38} {'loss': 0.7433, 'grad_norm': 0.9685893058776855, 'learning_rate': 1.3335567891138142e-05, 'epoch': 3.38} {'loss': 0.754, 'grad_norm': 0.5590097308158875, 'learning_rate': 1.3324998958888315e-05, 'epoch': 3.38} {'loss': 0.7221, 'grad_norm': 0.9255804419517517, 'learning_rate': 1.3314425849229508e-05, 'epoch': 3.38} {'loss': 0.7039, 'grad_norm': 0.7719941735267639, 'learning_rate': 1.33038485754454e-05, 'epoch': 3.39} {'loss': 0.6961, 'grad_norm': 0.5419900417327881, 'learning_rate': 1.3293267150824887e-05, 'epoch': 3.39} {'loss': 0.7373, 'grad_norm': 0.9250754117965698, 'learning_rate': 1.3282681588662096e-05, 'epoch': 3.39} {'loss': 0.7221, 'grad_norm': 0.5992715954780579, 'learning_rate': 1.327209190225635e-05, 'epoch': 3.39} {'loss': 0.7067, 'grad_norm': 0.7834493517875671, 'learning_rate': 1.3261498104912145e-05, 'epoch': 3.4} {'loss': 0.7361, 'grad_norm': 0.714022159576416, 'learning_rate': 1.3250900209939144e-05, 'epoch': 3.4} {'loss': 0.7146, 'grad_norm': 0.8486925363540649, 'learning_rate': 1.3240298230652166e-05, 'epoch': 3.4} {'loss': 0.7309, 'grad_norm': 0.6751686334609985, 'learning_rate': 1.3229692180371154e-05, 'epoch': 3.41} {'loss': 0.7099, 'grad_norm': 0.7910336256027222, 'learning_rate': 1.3219082072421166e-05, 'epoch': 3.41} {'loss': 0.7239, 'grad_norm': 0.8620944023132324, 'learning_rate': 1.3208467920132364e-05, 'epoch': 3.41} {'loss': 0.7271, 'grad_norm': 0.7894165515899658, 'learning_rate': 1.3197849736839983e-05, 'epoch': 3.41} {'loss': 0.7119, 'grad_norm': 0.8921718597412109, 'learning_rate': 1.3187227535884325e-05, 'epoch': 3.42} {'loss': 0.7066, 'grad_norm': 0.6724561452865601, 'learning_rate': 1.4084698347084122e-05, 'epoch': 3.18} {'loss': 0.7435, 'grad_norm': 0.8488313555717468, 'learning_rate': 1.407446473847315e-05, 'epoch': 3.19} {'loss': 0.7186, 'grad_norm': 0.8341981768608093, 'learning_rate': 1.4064226010851374e-05, 'epoch': 3.19} {'loss': 0.7033, 'grad_norm': 0.861798882484436, 'learning_rate': 1.4053982177082369e-05, 'epoch': 3.19} {'loss': 0.7468, 'grad_norm': 0.8749969601631165, 'learning_rate': 1.4043733250036114e-05, 'epoch': 3.19} {'loss': 0.7672, 'grad_norm': 0.9173964858055115, 'learning_rate': 1.4033479242588992e-05, 'epoch': 3.2} {'loss': 0.7711, 'grad_norm': 0.8147724270820618, 'learning_rate': 1.4023220167623773e-05, 'epoch': 3.2} {'loss': 0.7765, 'grad_norm': 0.76629638671875, 'learning_rate': 1.4012956038029583e-05, 'epoch': 3.2} {'loss': 0.7114, 'grad_norm': 0.8139888048171997, 'learning_rate': 1.4002686866701912e-05, 'epoch': 3.21} {'loss': 0.6957, 'grad_norm': 0.7456299066543579, 'learning_rate': 1.399241266654257e-05, 'epoch': 3.21} {'loss': 0.7839, 'grad_norm': 0.8718665838241577, 'learning_rate': 1.3982133450459699e-05, 'epoch': 3.21} {'loss': 0.7124, 'grad_norm': 0.7490055561065674, 'learning_rate': 1.3971849231367729e-05, 'epoch': 3.21} {'loss': 0.7687, 'grad_norm': 0.610472559928894, 'learning_rate': 1.396156002218739e-05, 'epoch': 3.22} {'loss': 0.7702, 'grad_norm': 0.8911371827125549, 'learning_rate': 1.3951265835845669e-05, 'epoch': 3.22} {'loss': 0.7964, 'grad_norm': 0.8912273645401001, 'learning_rate': 1.3940966685275812e-05, 'epoch': 3.22} {'loss': 0.7037, 'grad_norm': 0.7447736859321594, 'learning_rate': 1.39306625834173e-05, 'epoch': 3.22} {'loss': 0.7527, 'grad_norm': 0.888676106929779, 'learning_rate': 1.3920353543215837e-05, 'epoch': 3.23} {'loss': 0.728, 'grad_norm': 0.8233622908592224, 'learning_rate': 1.3910039577623331e-05, 'epoch': 3.23} {'loss': 0.7503, 'grad_norm': 0.9556632041931152, 'learning_rate': 1.3899720699597876e-05, 'epoch': 3.23} {'loss': 0.7354, 'grad_norm': 0.7252323031425476, 'learning_rate': 1.388939692210374e-05, 'epoch': 3.23} {'loss': 0.7424, 'grad_norm': 0.8207757472991943, 'learning_rate': 1.3879068258111339e-05, 'epoch': 3.24} {'loss': 0.7521, 'grad_norm': 0.7896901369094849, 'learning_rate': 1.3868734720597245e-05, 'epoch': 3.24} {'loss': 0.7142, 'grad_norm': 0.7422956824302673, 'learning_rate': 1.3858396322544134e-05, 'epoch': 3.24} {'loss': 0.7492, 'grad_norm': 0.740772008895874, 'learning_rate': 1.3848053076940802e-05, 'epoch': 3.25} {'loss': 0.7187, 'grad_norm': 0.8436154127120972, 'learning_rate': 1.3837704996782127e-05, 'epoch': 3.25} {'loss': 0.7609, 'grad_norm': 0.8336666822433472, 'learning_rate': 1.3827352095069067e-05, 'epoch': 3.25} {'loss': 0.7513, 'grad_norm': 0.771708607673645, 'learning_rate': 1.3816994384808634e-05, 'epoch': 3.25} {'loss': 0.7183, 'grad_norm': 0.6604255437850952, 'learning_rate': 1.3806631879013883e-05, 'epoch': 3.26} {'loss': 0.7505, 'grad_norm': 0.8781054615974426, 'learning_rate': 1.3796264590703888e-05, 'epoch': 3.26} {'loss': 0.7627, 'grad_norm': 0.8115010857582092, 'learning_rate': 1.3785892532903746e-05, 'epoch': 3.26} {'loss': 0.71, 'grad_norm': 0.7726511359214783, 'learning_rate': 1.377551571864453e-05, 'epoch': 3.26} {'loss': 0.6912, 'grad_norm': 0.7205424904823303, 'learning_rate': 1.3765134160963298e-05, 'epoch': 3.27} {'loss': 0.7258, 'grad_norm': 0.7168182730674744, 'learning_rate': 1.3754747872903064e-05, 'epoch': 3.27} {'loss': 0.7494, 'grad_norm': 0.9244015216827393, 'learning_rate': 1.374435686751279e-05, 'epoch': 3.27} {'loss': 0.7079, 'grad_norm': 0.7187045812606812, 'learning_rate': 1.3733961157847357e-05, 'epoch': 3.28} {'loss': 0.7611, 'grad_norm': 0.989520251750946, 'learning_rate': 1.3723560756967564e-05, 'epoch': 3.28} {'loss': 0.7595, 'grad_norm': 0.8080344200134277, 'learning_rate': 1.3713155677940095e-05, 'epoch': 3.28} {'loss': 0.7521, 'grad_norm': 0.7352149486541748, 'learning_rate': 1.3702745933837522e-05, 'epoch': 3.28} {'loss': 0.7425, 'grad_norm': 0.7140423655509949, 'learning_rate': 1.3692331537738271e-05, 'epoch': 3.29} {'loss': 0.7748, 'grad_norm': 0.8922591209411621, 'learning_rate': 1.3681912502726614e-05, 'epoch': 3.29} {'loss': 0.7349, 'grad_norm': 0.6861690878868103, 'learning_rate': 1.3671488841892648e-05, 'epoch': 3.29} {'loss': 0.73, 'grad_norm': 0.9451531171798706, 'learning_rate': 1.3661060568332292e-05, 'epoch': 3.29} {'loss': 0.7307, 'grad_norm': 0.7441936135292053, 'learning_rate': 1.365062769514725e-05, 'epoch': 3.3} {'loss': 0.7515, 'grad_norm': 0.7373689413070679, 'learning_rate': 1.3640190235445006e-05, 'epoch': 3.3} {'loss': 0.718, 'grad_norm': 0.7349741458892822, 'learning_rate': 1.3629748202338811e-05, 'epoch': 3.3} {'loss': 0.6938, 'grad_norm': 0.8797123432159424, 'learning_rate': 1.3619301608947659e-05, 'epoch': 3.31} {'loss': 0.7538, 'grad_norm': 1.030884861946106, 'learning_rate': 1.3608850468396275e-05, 'epoch': 3.31} {'loss': 0.7665, 'grad_norm': 0.7621607184410095, 'learning_rate': 1.3598394793815097e-05, 'epoch': 3.31} {'loss': 0.7352, 'grad_norm': 0.8268575668334961, 'learning_rate': 1.3587934598340251e-05, 'epoch': 3.31} {'loss': 0.713, 'grad_norm': 0.8337624073028564, 'learning_rate': 1.3577469895113558e-05, 'epoch': 3.32} {'loss': 0.766, 'grad_norm': 0.7373268604278564, 'learning_rate': 1.3567000697282492e-05, 'epoch': 3.32} {'loss': 0.724, 'grad_norm': 0.8479686379432678, 'learning_rate': 1.3556527018000172e-05, 'epoch': 3.32} {'loss': 0.7183, 'grad_norm': 0.8221561312675476, 'learning_rate': 1.3546048870425356e-05, 'epoch': 3.32} {'loss': 0.7878, 'grad_norm': 0.8727735280990601, 'learning_rate': 1.3535566267722415e-05, 'epoch': 3.33} {'loss': 0.6989, 'grad_norm': 0.7841692566871643, 'learning_rate': 1.3525079223061301e-05, 'epoch': 3.33} {'loss': 0.7115, 'grad_norm': 0.7911773324012756, 'learning_rate': 1.3514587749617574e-05, 'epoch': 3.33} {'loss': 0.7517, 'grad_norm': 0.7345585823059082, 'learning_rate': 1.3504091860572334e-05, 'epoch': 3.34} {'loss': 0.7929, 'grad_norm': 1.0267367362976074, 'learning_rate': 1.3493591569112241e-05, 'epoch': 3.34} {'loss': 0.73, 'grad_norm': 0.6672304272651672, 'learning_rate': 1.3483086888429483e-05, 'epoch': 3.34} {'loss': 0.6689, 'grad_norm': 0.8232340812683105, 'learning_rate': 1.3472577831721765e-05, 'epoch': 3.34} {'loss': 0.7425, 'grad_norm': 0.8672451376914978, 'learning_rate': 1.346206441219228e-05, 'epoch': 3.35} {'loss': 0.6946, 'grad_norm': 0.8642718195915222, 'learning_rate': 1.345154664304972e-05, 'epoch': 3.35} {'loss': 0.7755, 'grad_norm': 0.6952816843986511, 'learning_rate': 1.3441024537508224e-05, 'epoch': 3.35} {'loss': 0.7156, 'grad_norm': 0.720496654510498, 'learning_rate': 1.3430498108787388e-05, 'epoch': 3.35} {'loss': 0.7343, 'grad_norm': 0.8239845037460327, 'learning_rate': 1.341996737011224e-05, 'epoch': 3.36} {'loss': 0.7277, 'grad_norm': 0.7975578904151917, 'learning_rate': 1.3409432334713221e-05, 'epoch': 3.36} {'loss': 0.7134, 'grad_norm': 0.7787168025970459, 'learning_rate': 1.3398893015826166e-05, 'epoch': 3.36} {'loss': 0.7544, 'grad_norm': 0.8703823685646057, 'learning_rate': 1.3388349426692304e-05, 'epoch': 3.37} {'loss': 0.76, 'grad_norm': 0.8846654891967773, 'learning_rate': 1.3377801580558212e-05, 'epoch': 3.37} {'loss': 0.6841, 'grad_norm': 0.7548115849494934, 'learning_rate': 1.3367249490675831e-05, 'epoch': 3.37} {'loss': 0.7246, 'grad_norm': 0.6721587181091309, 'learning_rate': 1.335669317030242e-05, 'epoch': 3.37} {'loss': 0.7425, 'grad_norm': 0.7743901014328003, 'learning_rate': 1.3346132632700564e-05, 'epoch': 3.38} {'loss': 0.7433, 'grad_norm': 0.9685893058776855, 'learning_rate': 1.3335567891138142e-05, 'epoch': 3.38} {'loss': 0.754, 'grad_norm': 0.5590097308158875, 'learning_rate': 1.3324998958888315e-05, 'epoch': 3.38} {'loss': 0.7221, 'grad_norm': 0.9255804419517517, 'learning_rate': 1.3314425849229508e-05, 'epoch': 3.38} {'loss': 0.7039, 'grad_norm': 0.7719941735267639, 'learning_rate': 1.33038485754454e-05, 'epoch': 3.39} {'loss': 0.6961, 'grad_norm': 0.5419900417327881, 'learning_rate': 1.3293267150824887e-05, 'epoch': 3.39} {'loss': 0.7373, 'grad_norm': 0.9250754117965698, 'learning_rate': 1.3282681588662096e-05, 'epoch': 3.39} {'loss': 0.7221, 'grad_norm': 0.5992715954780579, 'learning_rate': 1.327209190225635e-05, 'epoch': 3.39} {'loss': 0.7067, 'grad_norm': 0.7834493517875671, 'learning_rate': 1.3261498104912145e-05, 'epoch': 3.4} {'loss': 0.7361, 'grad_norm': 0.714022159576416, 'learning_rate': 1.3250900209939144e-05, 'epoch': 3.4} {'loss': 0.7146, 'grad_norm': 0.8486925363540649, 'learning_rate': 1.3240298230652166e-05, 'epoch': 3.4} {'loss': 0.7309, 'grad_norm': 0.6751686334609985, 'learning_rate': 1.3229692180371154e-05, 'epoch': 3.41} {'loss': 0.7099, 'grad_norm': 0.7910336256027222, 'learning_rate': 1.3219082072421166e-05, 'epoch': 3.41} {'loss': 0.7239, 'grad_norm': 0.8620944023132324, 'learning_rate': 1.3208467920132364e-05, 'epoch': 3.41} {'loss': 0.7271, 'grad_norm': 0.7894165515899658, 'learning_rate': 1.3197849736839983e-05, 'epoch': 3.41} {'loss': 0.7119, 'grad_norm': 0.8921718597412109, 'learning_rate': 1.3187227535884325e-05, 'epoch': 3.42} {'loss': 0.775, 'grad_norm': 0.9964521527290344, 'learning_rate': 1.3176601330610747e-05, 'epoch': 3.42} {'loss': 0.7056, 'grad_norm': 0.9307519197463989, 'learning_rate': 1.3165971134369624e-05, 'epoch': 3.42} {'loss': 0.7134, 'grad_norm': 0.7404794692993164, 'learning_rate': 1.3155336960516356e-05, 'epoch': 3.42} {'loss': 0.6717, 'grad_norm': 0.6323437094688416, 'learning_rate': 1.3144698822411335e-05, 'epoch': 3.43} {'loss': 0.7707, 'grad_norm': 0.7499504685401917, 'learning_rate': 1.3134056733419933e-05, 'epoch': 3.43} {'loss': 0.7161, 'grad_norm': 0.7772714495658875, 'learning_rate': 1.312341070691249e-05, 'epoch': 3.43} {'loss': 0.7196, 'grad_norm': 0.6838346123695374, 'learning_rate': 1.3112760756264292e-05, 'epoch': 3.44} {'loss': 0.7327, 'grad_norm': 0.9109451174736023, 'learning_rate': 1.3102106894855546e-05, 'epoch': 3.44} {'loss': 0.7451, 'grad_norm': 0.9652372598648071, 'learning_rate': 1.3091449136071388e-05, 'epoch': 3.44} {'loss': 0.7441, 'grad_norm': 0.8903042674064636, 'learning_rate': 1.3080787493301839e-05, 'epoch': 3.44} {'loss': 0.7724, 'grad_norm': 0.8630936145782471, 'learning_rate': 1.3070121979941803e-05, 'epoch': 3.45} {'loss': 0.6982, 'grad_norm': 0.9463033676147461, 'learning_rate': 1.3059452609391045e-05, 'epoch': 3.45} {'loss': 0.7249, 'grad_norm': 0.8619441390037537, 'learning_rate': 1.3048779395054187e-05, 'epoch': 3.45} {'loss': 0.7793, 'grad_norm': 0.86009681224823, 'learning_rate': 1.3038102350340657e-05, 'epoch': 3.45} {'loss': 0.771, 'grad_norm': 0.7811834812164307, 'learning_rate': 1.3027421488664723e-05, 'epoch': 3.46} {'loss': 0.777, 'grad_norm': 0.79848313331604, 'learning_rate': 1.3016736823445426e-05, 'epoch': 3.46} {'loss': 0.7041, 'grad_norm': 0.7722993493080139, 'learning_rate': 1.3006048368106599e-05, 'epoch': 3.46} {'loss': 0.7294, 'grad_norm': 0.9256371855735779, 'learning_rate': 1.2995356136076831e-05, 'epoch': 3.47} {'loss': 0.7398, 'grad_norm': 0.7144718766212463, 'learning_rate': 1.2984660140789458e-05, 'epoch': 3.47} {'loss': 0.7274, 'grad_norm': 0.728020966053009, 'learning_rate': 1.2973960395682541e-05, 'epoch': 3.47} {'loss': 0.6785, 'grad_norm': 0.9203888177871704, 'learning_rate': 1.296325691419886e-05, 'epoch': 3.47} {'loss': 0.7218, 'grad_norm': 0.8032426834106445, 'learning_rate': 1.295254970978588e-05, 'epoch': 3.48} {'loss': 0.7459, 'grad_norm': 0.9628775715827942, 'learning_rate': 1.2941838795895746e-05, 'epoch': 3.48} {'loss': 0.7527, 'grad_norm': 0.9828507304191589, 'learning_rate': 1.2931124185985267e-05, 'epoch': 3.48} {'loss': 0.8114, 'grad_norm': 0.9288485050201416, 'learning_rate': 1.292040589351589e-05, 'epoch': 3.48} {'loss': 0.7598, 'grad_norm': 0.9263812899589539, 'learning_rate': 1.2909683931953699e-05, 'epoch': 3.49} {'loss': 0.7138, 'grad_norm': 0.7346068620681763, 'learning_rate': 1.2898958314769373e-05, 'epoch': 3.49} {'loss': 0.741, 'grad_norm': 0.9274605512619019, 'learning_rate': 1.288822905543819e-05, 'epoch': 3.49} {'loss': 0.6872, 'grad_norm': 0.6841679811477661, 'learning_rate': 1.2877496167440015e-05, 'epoch': 3.5} {'loss': 0.7485, 'grad_norm': 0.7279515266418457, 'learning_rate': 1.2866759664259254e-05, 'epoch': 3.5} {'loss': 0.7548, 'grad_norm': 0.8773059844970703, 'learning_rate': 1.2856019559384862e-05, 'epoch': 3.5} {'loss': 0.8018, 'grad_norm': 0.6743305921554565, 'learning_rate': 1.2845275866310325e-05, 'epoch': 3.5} {'loss': 0.7512, 'grad_norm': 0.7804867625236511, 'learning_rate': 1.2834528598533634e-05, 'epoch': 3.51} {'loss': 0.7256, 'grad_norm': 0.6820378303527832, 'learning_rate': 1.2823777769557259e-05, 'epoch': 3.51} {'loss': 0.7169, 'grad_norm': 0.842195451259613, 'learning_rate': 1.2813023392888164e-05, 'epoch': 3.51} {'loss': 0.7276, 'grad_norm': 0.9137687087059021, 'learning_rate': 1.2802265482037758e-05, 'epoch': 3.51} {'loss': 0.7571, 'grad_norm': 0.9608502984046936, 'learning_rate': 1.2791504050521892e-05, 'epoch': 3.52} {'loss': 0.7512, 'grad_norm': 0.8798710703849792, 'learning_rate': 1.2780739111860843e-05, 'epoch': 3.52} {'loss': 0.7129, 'grad_norm': 0.762008786201477, 'learning_rate': 1.2769970679579288e-05, 'epoch': 3.52} {'loss': 0.7575, 'grad_norm': 0.8965917825698853, 'learning_rate': 1.2759198767206302e-05, 'epoch': 3.53} {'loss': 0.7415, 'grad_norm': 0.7783277630805969, 'learning_rate': 1.2748423388275328e-05, 'epoch': 3.53} {'loss': 0.7693, 'grad_norm': 0.8260339498519897, 'learning_rate': 1.2737644556324162e-05, 'epoch': 3.53} {'loss': 0.7476, 'grad_norm': 0.978858232498169, 'learning_rate': 1.2726862284894939e-05, 'epoch': 3.53} {'loss': 0.7313, 'grad_norm': 0.7325674891471863, 'learning_rate': 1.271607658753412e-05, 'epoch': 3.54} {'loss': 0.749, 'grad_norm': 0.7695534825325012, 'learning_rate': 1.2705287477792466e-05, 'epoch': 3.54} {'loss': 0.7088, 'grad_norm': 0.8008836507797241, 'learning_rate': 1.2694494969225024e-05, 'epoch': 3.54} {'loss': 0.7505, 'grad_norm': 0.9960277676582336, 'learning_rate': 1.2683699075391115e-05, 'epoch': 3.54} {'loss': 0.7197, 'grad_norm': 0.7175117135047913, 'learning_rate': 1.267289980985431e-05, 'epoch': 3.55} {'loss': 0.7062, 'grad_norm': 0.7940517663955688, 'learning_rate': 1.2662097186182423e-05, 'epoch': 3.55} {'loss': 0.7503, 'grad_norm': 0.5658614039421082, 'learning_rate': 1.2651291217947472e-05, 'epoch': 3.55} {'loss': 0.729, 'grad_norm': 0.7375475764274597, 'learning_rate': 1.2640481918725694e-05, 'epoch': 3.55} {'loss': 0.7442, 'grad_norm': 0.8062806129455566, 'learning_rate': 1.2629669302097498e-05, 'epoch': 3.56} {'loss': 0.7154, 'grad_norm': 0.9332322478294373, 'learning_rate': 1.2618853381647473e-05, 'epoch': 3.56} {'loss': 0.7131, 'grad_norm': 0.7945476770401001, 'learning_rate': 1.2608034170964342e-05, 'epoch': 3.56} {'loss': 0.7367, 'grad_norm': 0.78815096616745, 'learning_rate': 1.2597211683640982e-05, 'epoch': 3.57} {'loss': 0.7194, 'grad_norm': 1.0077238082885742, 'learning_rate': 1.2586385933274372e-05, 'epoch': 3.57} {'loss': 0.7348, 'grad_norm': 0.9114944338798523, 'learning_rate': 1.2575556933465594e-05, 'epoch': 3.57} {'loss': 0.7759, 'grad_norm': 0.8687109351158142, 'learning_rate': 1.2564724697819814e-05, 'epoch': 3.57} {'loss': 0.7856, 'grad_norm': 0.8134276270866394, 'learning_rate': 1.2553889239946262e-05, 'epoch': 3.58} {'loss': 0.7949, 'grad_norm': 0.9506794214248657, 'learning_rate': 1.2543050573458222e-05, 'epoch': 3.58} {'loss': 0.7671, 'grad_norm': 0.8643717169761658, 'learning_rate': 1.2532208711973e-05, 'epoch': 3.58} {'loss': 0.7549, 'grad_norm': 0.7823302149772644, 'learning_rate': 1.252136366911192e-05, 'epoch': 3.58} {'loss': 0.7014, 'grad_norm': 0.8544135093688965, 'learning_rate': 1.2510515458500307e-05, 'epoch': 3.59} {'loss': 0.7278, 'grad_norm': 0.7650847434997559, 'learning_rate': 1.2499664093767458e-05, 'epoch': 3.59} {'loss': 0.7277, 'grad_norm': 0.8448117971420288, 'learning_rate': 1.248880958854664e-05, 'epoch': 3.59} {'loss': 0.7391, 'grad_norm': 0.7225284576416016, 'learning_rate': 1.2477951956475061e-05, 'epoch': 3.6} {'loss': 0.7101, 'grad_norm': 0.8013312816619873, 'learning_rate': 1.246709121119386e-05, 'epoch': 3.6} {'loss': 0.7496, 'grad_norm': 0.7416946291923523, 'learning_rate': 1.2456227366348084e-05, 'epoch': 3.6} {'loss': 0.747, 'grad_norm': 0.8285821080207825, 'learning_rate': 1.2445360435586681e-05, 'epoch': 3.6} {'loss': 0.7153, 'grad_norm': 0.8129992485046387, 'learning_rate': 1.2434490432562467e-05, 'epoch': 3.61} {'loss': 0.7302, 'grad_norm': 0.875571072101593, 'learning_rate': 1.2423617370932127e-05, 'epoch': 3.61} {'loss': 0.7235, 'grad_norm': 0.8204701542854309, 'learning_rate': 1.2412741264356179e-05, 'epoch': 3.61} {'loss': 0.7444, 'grad_norm': 0.6311979293823242, 'learning_rate': 1.2401862126498975e-05, 'epoch': 3.61} {'loss': 0.7389, 'grad_norm': 0.7649227976799011, 'learning_rate': 1.2390979971028669e-05, 'epoch': 3.62} {'loss': 0.7226, 'grad_norm': 0.7637301683425903, 'learning_rate': 1.2380094811617216e-05, 'epoch': 3.62} {'loss': 0.7667, 'grad_norm': 0.8125251531600952, 'learning_rate': 1.2369206661940332e-05, 'epoch': 3.62} {'loss': 0.7135, 'grad_norm': 0.9254458546638489, 'learning_rate': 1.2358315535677496e-05, 'epoch': 3.63} {'loss': 0.7501, 'grad_norm': 0.8871062397956848, 'learning_rate': 1.2347421446511931e-05, 'epoch': 3.63} {'loss': 0.7617, 'grad_norm': 0.902233898639679, 'learning_rate': 1.233652440813058e-05, 'epoch': 3.63} {'loss': 0.7102, 'grad_norm': 0.7257744669914246, 'learning_rate': 1.2325624434224081e-05, 'epoch': 3.63} {'loss': 0.812, 'grad_norm': 0.943066418170929, 'learning_rate': 1.2314721538486776e-05, 'epoch': 3.64} {'loss': 0.7943, 'grad_norm': 0.871594250202179, 'learning_rate': 1.2303815734616671e-05, 'epoch': 3.64} {'loss': 0.7746, 'grad_norm': 0.8150391578674316, 'learning_rate': 1.2292907036315421e-05, 'epoch': 3.64} {'loss': 0.7419, 'grad_norm': 0.8351205587387085, 'learning_rate': 1.2281995457288324e-05, 'epoch': 3.64} {'loss': 0.7568, 'grad_norm': 0.9403390288352966, 'learning_rate': 1.2271081011244296e-05, 'epoch': 3.65} {'loss': 0.7309, 'grad_norm': 0.8561320900917053, 'learning_rate': 1.2260163711895851e-05, 'epoch': 3.65} {'loss': 0.7516, 'grad_norm': 0.895522952079773, 'learning_rate': 1.2249243572959095e-05, 'epoch': 3.65} {'loss': 0.7079, 'grad_norm': 0.8434509038925171, 'learning_rate': 1.2238320608153694e-05, 'epoch': 3.66} {'loss': 0.7709, 'grad_norm': 0.8255086541175842, 'learning_rate': 1.2227394831202868e-05, 'epoch': 3.66} {'loss': 0.7693, 'grad_norm': 0.8357929587364197, 'learning_rate': 1.2216466255833375e-05, 'epoch': 3.66} {'loss': 0.7421, 'grad_norm': 0.9680687189102173, 'learning_rate': 1.2205534895775475e-05, 'epoch': 3.66} {'loss': 0.7245, 'grad_norm': 0.8667675256729126, 'learning_rate': 1.2194600764762941e-05, 'epoch': 3.67} {'loss': 0.7253, 'grad_norm': 0.6363958120346069, 'learning_rate': 1.2183663876533018e-05, 'epoch': 3.67} {'loss': 0.7285, 'grad_norm': 0.9956313371658325, 'learning_rate': 1.2172724244826422e-05, 'epoch': 3.67} {'loss': 0.7216, 'grad_norm': 0.8513411283493042, 'learning_rate': 1.216178188338731e-05, 'epoch': 3.67} {'loss': 0.707, 'grad_norm': 0.7825967669487, 'learning_rate': 1.2150836805963278e-05, 'epoch': 3.68} {'loss': 0.7281, 'grad_norm': 0.9104489088058472, 'learning_rate': 1.2139889026305312e-05, 'epoch': 3.68} {'loss': 0.7444, 'grad_norm': 0.9077840447425842, 'learning_rate': 1.2128938558167825e-05, 'epoch': 3.68} {'loss': 0.7518, 'grad_norm': 0.8549604415893555, 'learning_rate': 1.211798541530858e-05, 'epoch': 3.69} {'loss': 0.7237, 'grad_norm': 0.6883172392845154, 'learning_rate': 1.2107029611488715e-05, 'epoch': 3.69} {'loss': 0.7456, 'grad_norm': 0.8765542507171631, 'learning_rate': 1.2096071160472706e-05, 'epoch': 3.69} {'loss': 0.7429, 'grad_norm': 0.9073786735534668, 'learning_rate': 1.208511007602836e-05, 'epoch': 3.69} {'loss': 0.7335, 'grad_norm': 0.8570960164070129, 'learning_rate': 1.2074146371926783e-05, 'epoch': 3.7} {'loss': 0.6907, 'grad_norm': 0.9121600389480591, 'learning_rate': 1.2063180061942386e-05, 'epoch': 3.7} {'loss': 0.7928, 'grad_norm': 0.8422689437866211, 'learning_rate': 1.2052211159852838e-05, 'epoch': 3.7} {'loss': 0.7326, 'grad_norm': 0.9525855779647827, 'learning_rate': 1.2041239679439077e-05, 'epoch': 3.7} {'loss': 0.7424, 'grad_norm': 0.9763060808181763, 'learning_rate': 1.2030265634485274e-05, 'epoch': 3.71} {'loss': 0.718, 'grad_norm': 0.9611210227012634, 'learning_rate': 1.2019289038778825e-05, 'epoch': 3.71} {'loss': 0.7249, 'grad_norm': 1.0013023614883423, 'learning_rate': 1.2008309906110332e-05, 'epoch': 3.71} {'loss': 0.7456, 'grad_norm': 0.8883393406867981, 'learning_rate': 1.1997328250273582e-05, 'epoch': 3.71} {'loss': 0.7347, 'grad_norm': 0.9406822919845581, 'learning_rate': 1.1986344085065524e-05, 'epoch': 3.72} {'loss': 0.7224, 'grad_norm': 0.9318776726722717, 'learning_rate': 1.1975357424286275e-05, 'epoch': 3.72} {'loss': 0.7905, 'grad_norm': 1.0048198699951172, 'learning_rate': 1.1964368281739078e-05, 'epoch': 3.72} {'loss': 0.7079, 'grad_norm': 0.7849481105804443, 'learning_rate': 1.1953376671230296e-05, 'epoch': 3.73} {'loss': 0.7591, 'grad_norm': 0.8561134338378906, 'learning_rate': 1.1942382606569396e-05, 'epoch': 3.73} {'loss': 0.7085, 'grad_norm': 0.9114775061607361, 'learning_rate': 1.1931386101568922e-05, 'epoch': 3.73} {'loss': 0.7262, 'grad_norm': 0.6904955506324768, 'learning_rate': 1.1920387170044485e-05, 'epoch': 3.73} {'loss': 0.7265, 'grad_norm': 1.0228376388549805, 'learning_rate': 1.1909385825814752e-05, 'epoch': 3.74} {'loss': 0.7198, 'grad_norm': 0.8904497027397156, 'learning_rate': 1.1898382082701409e-05, 'epoch': 3.74} {'loss': 0.745, 'grad_norm': 0.7391414642333984, 'learning_rate': 1.1887375954529167e-05, 'epoch': 3.74} {'loss': 0.7717, 'grad_norm': 1.0093247890472412, 'learning_rate': 1.187636745512573e-05, 'epoch': 3.74} {'loss': 0.7772, 'grad_norm': 0.9256494045257568, 'learning_rate': 1.186535659832178e-05, 'epoch': 3.75} {'loss': 0.6973, 'grad_norm': 0.888484537601471, 'learning_rate': 1.1854343397950954e-05, 'epoch': 3.75} {'loss': 0.7145, 'grad_norm': 0.9957082271575928, 'learning_rate': 1.1843327867849852e-05, 'epoch': 3.75} {'loss': 0.7195, 'grad_norm': 1.1135895252227783, 'learning_rate': 1.1832310021857981e-05, 'epoch': 3.76} {'loss': 0.7327, 'grad_norm': 0.7824906706809998, 'learning_rate': 1.1821289873817767e-05, 'epoch': 3.76} {'loss': 0.7402, 'grad_norm': 0.7897424101829529, 'learning_rate': 1.1810267437574531e-05, 'epoch': 3.76} {'loss': 0.707, 'grad_norm': 0.8496272563934326, 'learning_rate': 1.1799242726976463e-05, 'epoch': 3.76} {'loss': 0.7542, 'grad_norm': 0.7363254427909851, 'learning_rate': 1.178821575587461e-05, 'epoch': 3.77} {'loss': 0.7285, 'grad_norm': 0.8917753100395203, 'learning_rate': 1.1777186538122869e-05, 'epoch': 3.77} {'loss': 0.7306, 'grad_norm': 0.6597273349761963, 'learning_rate': 1.1766155087577944e-05, 'epoch': 3.77} {'loss': 0.8008, 'grad_norm': 0.829342782497406, 'learning_rate': 1.1755121418099353e-05, 'epoch': 3.77} {'loss': 0.7069, 'grad_norm': 0.7523367404937744, 'learning_rate': 1.1744085543549406e-05, 'epoch': 3.78} {'loss': 0.7321, 'grad_norm': 0.8295141458511353, 'learning_rate': 1.1733047477793174e-05, 'epoch': 3.78} {'loss': 0.7335, 'grad_norm': 0.8207385540008545, 'learning_rate': 1.1722007234698487e-05, 'epoch': 3.78} {'loss': 0.7199, 'grad_norm': 0.9151015877723694, 'learning_rate': 1.1710964828135913e-05, 'epoch': 3.79} {'loss': 0.7032, 'grad_norm': 0.7252810001373291, 'learning_rate': 1.1699920271978724e-05, 'epoch': 3.79} {'loss': 0.7625, 'grad_norm': 0.7346132397651672, 'learning_rate': 1.1688873580102915e-05, 'epoch': 3.79} {'loss': 0.7336, 'grad_norm': 0.9881386756896973, 'learning_rate': 1.1677824766387143e-05, 'epoch': 3.79} {'loss': 0.755, 'grad_norm': 0.8800092339515686, 'learning_rate': 1.1666773844712742e-05, 'epoch': 3.8} {'loss': 0.7608, 'grad_norm': 0.7793638110160828, 'learning_rate': 1.1655720828963692e-05, 'epoch': 3.8} {'loss': 0.7146, 'grad_norm': 0.5860689878463745, 'learning_rate': 1.1644665733026608e-05, 'epoch': 3.8} {'loss': 0.7564, 'grad_norm': 0.9437234997749329, 'learning_rate': 1.1633608570790707e-05, 'epoch': 3.8} {'loss': 0.7214, 'grad_norm': 0.800844132900238, 'learning_rate': 1.1622549356147817e-05, 'epoch': 3.81} {'loss': 0.7236, 'grad_norm': 0.9404584169387817, 'learning_rate': 1.1611488102992333e-05, 'epoch': 3.81} {'loss': 0.7105, 'grad_norm': 0.9333188533782959, 'learning_rate': 1.1600424825221214e-05, 'epoch': 3.81} {'loss': 0.7381, 'grad_norm': 0.8560354113578796, 'learning_rate': 1.1589359536733968e-05, 'epoch': 3.82} {'loss': 0.7092, 'grad_norm': 0.8195720911026001, 'learning_rate': 1.1578292251432622e-05, 'epoch': 3.82} {'loss': 0.7063, 'grad_norm': 0.6799541115760803, 'learning_rate': 1.1567222983221715e-05, 'epoch': 3.82} {'loss': 0.7626, 'grad_norm': 0.8583950996398926, 'learning_rate': 1.1556151746008282e-05, 'epoch': 3.82} {'loss': 0.7159, 'grad_norm': 0.8461191058158875, 'learning_rate': 1.1545078553701818e-05, 'epoch': 3.83} {'loss': 0.7673, 'grad_norm': 0.7399824261665344, 'learning_rate': 1.153400342021429e-05, 'epoch': 3.83} {'loss': 0.7386, 'grad_norm': 0.7932648658752441, 'learning_rate': 1.1522926359460094e-05, 'epoch': 3.83} {'loss': 0.7056, 'grad_norm': 0.91954106092453, 'learning_rate': 1.151184738535605e-05, 'epoch': 3.83} {'loss': 0.7149, 'grad_norm': 0.6805985569953918, 'learning_rate': 1.1500766511821383e-05, 'epoch': 3.84} {'loss': 0.7303, 'grad_norm': 0.9301934838294983, 'learning_rate': 1.1489683752777709e-05, 'epoch': 3.84} {'loss': 0.7044, 'grad_norm': 0.7542403936386108, 'learning_rate': 1.1478599122148996e-05, 'epoch': 3.84} {'loss': 0.7336, 'grad_norm': 0.9061843752861023, 'learning_rate': 1.1467512633861586e-05, 'epoch': 3.85} {'loss': 0.7393, 'grad_norm': 0.9478297829627991, 'learning_rate': 1.1456424301844136e-05, 'epoch': 3.85} {'loss': 0.7086, 'grad_norm': 0.7630545496940613, 'learning_rate': 1.1445334140027631e-05, 'epoch': 3.85} {'loss': 0.756, 'grad_norm': 0.8322663903236389, 'learning_rate': 1.1434242162345348e-05, 'epoch': 3.85} {'loss': 0.7398, 'grad_norm': 0.8374993801116943, 'learning_rate': 1.1423148382732854e-05, 'epoch': 3.86} {'loss': 0.7406, 'grad_norm': 0.7680459022521973, 'learning_rate': 1.1412052815127965e-05, 'epoch': 3.86} {'loss': 0.7097, 'grad_norm': 0.8712277412414551, 'learning_rate': 1.1400955473470765e-05, 'epoch': 3.86} {'loss': 0.7395, 'grad_norm': 1.0116322040557861, 'learning_rate': 1.1389856371703545e-05, 'epoch': 3.86} {'loss': 0.7483, 'grad_norm': 0.9440482258796692, 'learning_rate': 1.1378755523770818e-05, 'epoch': 3.87} {'loss': 0.7346, 'grad_norm': 0.7210174202919006, 'learning_rate': 1.1367652943619291e-05, 'epoch': 3.87} {'loss': 0.7439, 'grad_norm': 0.8213814496994019, 'learning_rate': 1.1356548645197849e-05, 'epoch': 3.87} {'loss': 0.7795, 'grad_norm': 0.6824864149093628, 'learning_rate': 1.134544264245753e-05, 'epoch': 3.87} {'loss': 0.7359, 'grad_norm': 0.7779446840286255, 'learning_rate': 1.1334334949351516e-05, 'epoch': 3.88} {'loss': 0.779, 'grad_norm': 0.9669508337974548, 'learning_rate': 1.132322557983511e-05, 'epoch': 3.88} {'loss': 0.729, 'grad_norm': 0.8351122736930847, 'learning_rate': 1.131211454786573e-05, 'epoch': 3.88} {'loss': 0.761, 'grad_norm': 0.8194541335105896, 'learning_rate': 1.130100186740287e-05, 'epoch': 3.89} {'loss': 0.7291, 'grad_norm': 0.9311946630477905, 'learning_rate': 1.1289887552408105e-05, 'epoch': 3.89} {'loss': 0.7651, 'grad_norm': 0.7395778894424438, 'learning_rate': 1.1278771616845061e-05, 'epoch': 3.89} {'loss': 0.7246, 'grad_norm': 0.8718698024749756, 'learning_rate': 1.12676540746794e-05, 'epoch': 3.89} {'loss': 0.7039, 'grad_norm': 0.7830480933189392, 'learning_rate': 1.1256534939878796e-05, 'epoch': 3.9} {'loss': 0.7009, 'grad_norm': 0.89268958568573, 'learning_rate': 1.124541422641294e-05, 'epoch': 3.9} {'loss': 0.7688, 'grad_norm': 0.9052330851554871, 'learning_rate': 1.1234291948253482e-05, 'epoch': 3.9} {'loss': 0.7143, 'grad_norm': 0.6889221668243408, 'learning_rate': 1.1223168119374065e-05, 'epoch': 3.9} {'loss': 0.6965, 'grad_norm': 0.8674991130828857, 'learning_rate': 1.1212042753750256e-05, 'epoch': 3.91} {'loss': 0.7623, 'grad_norm': 0.8833134174346924, 'learning_rate': 1.1200915865359577e-05, 'epoch': 3.91} {'loss': 0.7365, 'grad_norm': 1.0059571266174316, 'learning_rate': 1.1189787468181433e-05, 'epoch': 3.91} {'loss': 0.7684, 'grad_norm': 0.7340434193611145, 'learning_rate': 1.1178657576197158e-05, 'epoch': 3.92} {'loss': 0.7557, 'grad_norm': 0.9972130060195923, 'learning_rate': 1.1167526203389938e-05, 'epoch': 3.92} {'loss': 0.7501, 'grad_norm': 0.9139713048934937, 'learning_rate': 1.1156393363744831e-05, 'epoch': 3.92} {'loss': 0.712, 'grad_norm': 0.8413928151130676, 'learning_rate': 1.1145259071248735e-05, 'epoch': 3.92} {'loss': 0.7385, 'grad_norm': 0.9047664403915405, 'learning_rate': 1.1134123339890376e-05, 'epoch': 3.93} {'loss': 0.6903, 'grad_norm': 0.7972396612167358, 'learning_rate': 1.1122986183660287e-05, 'epoch': 3.93} {'loss': 0.7226, 'grad_norm': 0.8898835182189941, 'learning_rate': 1.111184761655079e-05, 'epoch': 3.93} {'loss': 0.7151, 'grad_norm': 0.7831372022628784, 'learning_rate': 1.1100707652555978e-05, 'epoch': 3.93} {'loss': 0.7107, 'grad_norm': 0.7816934585571289, 'learning_rate': 1.10895663056717e-05, 'epoch': 3.94} {'loss': 0.7741, 'grad_norm': 0.9468695521354675, 'learning_rate': 1.1078423589895542e-05, 'epoch': 3.94} {'loss': 0.7641, 'grad_norm': 0.8393468856811523, 'learning_rate': 1.1067279519226815e-05, 'epoch': 3.94} {'loss': 0.6831, 'grad_norm': 0.6352878212928772, 'learning_rate': 1.1056134107666524e-05, 'epoch': 3.95} {'loss': 0.7383, 'grad_norm': 0.777974545955658, 'learning_rate': 1.1044987369217369e-05, 'epoch': 3.95} {'loss': 0.7485, 'grad_norm': 0.8484581708908081, 'learning_rate': 1.10338393178837e-05, 'epoch': 3.95} {'loss': 0.6955, 'grad_norm': 0.7794533371925354, 'learning_rate': 1.1022689967671542e-05, 'epoch': 3.95} {'loss': 0.7163, 'grad_norm': 0.8389063477516174, 'learning_rate': 1.1011539332588526e-05, 'epoch': 3.96} {'loss': 0.6959, 'grad_norm': 0.746748685836792, 'learning_rate': 1.100038742664391e-05, 'epoch': 3.96} {'loss': 0.751, 'grad_norm': 0.9659948348999023, 'learning_rate': 1.0989234263848552e-05, 'epoch': 3.96} {'loss': 0.7737, 'grad_norm': 0.9066212773323059, 'learning_rate': 1.097807985821488e-05, 'epoch': 3.96} {'loss': 0.7736, 'grad_norm': 0.9153642654418945, 'learning_rate': 1.0966924223756888e-05, 'epoch': 3.97} {'loss': 0.7522, 'grad_norm': 0.9354016184806824, 'learning_rate': 1.0955767374490116e-05, 'epoch': 3.97} {'loss': 0.7485, 'grad_norm': 0.7488165497779846, 'learning_rate': 1.0944609324431623e-05, 'epoch': 3.97} {'loss': 0.7428, 'grad_norm': 0.7280739545822144, 'learning_rate': 1.0933450087599986e-05, 'epoch': 3.98} {'loss': 0.7324, 'grad_norm': 0.698952317237854, 'learning_rate': 1.0922289678015265e-05, 'epoch': 3.98} {'loss': 0.7281, 'grad_norm': 0.8795066475868225, 'learning_rate': 1.0911128109699003e-05, 'epoch': 3.98} {'loss': 0.7316, 'grad_norm': 0.8931750059127808, 'learning_rate': 1.089996539667418e-05, 'epoch': 3.98} {'loss': 0.7426, 'grad_norm': 0.9644343852996826, 'learning_rate': 1.0888801552965242e-05, 'epoch': 3.99} {'loss': 0.6942, 'grad_norm': 0.8757298588752747, 'learning_rate': 1.087763659259803e-05, 'epoch': 3.99} {'loss': 0.7586, 'grad_norm': 0.9585029482841492, 'learning_rate': 1.0866470529599801e-05, 'epoch': 3.99} {'loss': 0.7013, 'grad_norm': 0.7968918085098267, 'learning_rate': 1.0855303377999197e-05, 'epoch': 3.99} {'loss': 0.7182, 'grad_norm': 0.7872638702392578, 'learning_rate': 1.084413515182622e-05, 'epoch': 4.0} {'loss': 0.7644, 'grad_norm': 0.882142186164856, 'learning_rate': 1.0832965865112232e-05, 'epoch': 4.0} 50%|███████████████████████████████████████████████████████████ | 14752/29504 [37:57:34<25:19:23, 6.18s/it]/venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") {'loss': 0.7232, 'grad_norm': 0.7534805536270142, 'learning_rate': 1.0821795531889924e-05, 'epoch': 4.0} {'loss': 0.6929, 'grad_norm': 1.1003698110580444, 'learning_rate': 1.0810624166193294e-05, 'epoch': 4.0} {'loss': 0.7023, 'grad_norm': 0.8588640093803406, 'learning_rate': 1.0799451782057648e-05, 'epoch': 4.01} {'loss': 0.7212, 'grad_norm': 0.9973605871200562, 'learning_rate': 1.0788278393519565e-05, 'epoch': 4.01} {'loss': 0.6733, 'grad_norm': 1.0426708459854126, 'learning_rate': 1.077710401461689e-05, 'epoch': 4.01} {'loss': 0.7188, 'grad_norm': 0.7467441558837891, 'learning_rate': 1.0765928659388711e-05, 'epoch': 4.02} {'loss': 0.6923, 'grad_norm': 0.8748636245727539, 'learning_rate': 1.0754752341875341e-05, 'epoch': 4.02} {'loss': 0.7168, 'grad_norm': 0.9874834418296814, 'learning_rate': 1.07435750761183e-05, 'epoch': 4.02} {'loss': 0.7028, 'grad_norm': 0.9899656176567078, 'learning_rate': 1.0732396876160308e-05, 'epoch': 4.02} {'loss': 0.7482, 'grad_norm': 0.8502885103225708, 'learning_rate': 1.0721217756045246e-05, 'epoch': 4.03} {'loss': 0.6914, 'grad_norm': 0.8731020092964172, 'learning_rate': 1.0710037729818163e-05, 'epoch': 4.03} {'loss': 0.6658, 'grad_norm': 0.8226652145385742, 'learning_rate': 1.0698856811525243e-05, 'epoch': 4.03} {'loss': 0.6949, 'grad_norm': 0.9795783162117004, 'learning_rate': 1.0687675015213785e-05, 'epoch': 4.03} {'loss': 0.6587, 'grad_norm': 0.9600344896316528, 'learning_rate': 1.0676492354932196e-05, 'epoch': 4.04} {'loss': 0.7243, 'grad_norm': 0.8309148550033569, 'learning_rate': 1.0665308844729968e-05, 'epoch': 4.04} {'loss': 0.6784, 'grad_norm': 0.9364655613899231, 'learning_rate': 1.0654124498657663e-05, 'epoch': 4.04} {'loss': 0.7178, 'grad_norm': 0.9507046937942505, 'learning_rate': 1.0642939330766885e-05, 'epoch': 4.05} {'loss': 0.6711, 'grad_norm': 1.0465521812438965, 'learning_rate': 1.0631753355110286e-05, 'epoch': 4.05} {'loss': 0.6665, 'grad_norm': 0.7120895981788635, 'learning_rate': 1.0620566585741514e-05, 'epoch': 4.05} {'loss': 0.6899, 'grad_norm': 0.9470062255859375, 'learning_rate': 1.0609379036715226e-05, 'epoch': 4.05} {'loss': 0.6991, 'grad_norm': 0.8707419037818909, 'learning_rate': 1.0598190722087057e-05, 'epoch': 4.06} {'loss': 0.7044, 'grad_norm': 1.0674364566802979, 'learning_rate': 1.05870016559136e-05, 'epoch': 4.06} {'loss': 0.7072, 'grad_norm': 0.9529558420181274, 'learning_rate': 1.05758118522524e-05, 'epoch': 4.06} {'loss': 0.7412, 'grad_norm': 0.8150131702423096, 'learning_rate': 1.056462132516192e-05, 'epoch': 4.06} {'loss': 0.6792, 'grad_norm': 0.9769965410232544, 'learning_rate': 1.0553430088701533e-05, 'epoch': 4.07} {'loss': 0.6861, 'grad_norm': 0.9072549939155579, 'learning_rate': 1.054223815693151e-05, 'epoch': 4.07} {'loss': 0.7499, 'grad_norm': 0.8621532917022705, 'learning_rate': 1.0531045543912987e-05, 'epoch': 4.07} {'loss': 0.6957, 'grad_norm': 0.8593334555625916, 'learning_rate': 1.0519852263707963e-05, 'epoch': 4.08} {'loss': 0.6706, 'grad_norm': 1.0515049695968628, 'learning_rate': 1.0508658330379274e-05, 'epoch': 4.08} {'loss': 0.7413, 'grad_norm': 0.9395893812179565, 'learning_rate': 1.0497463757990572e-05, 'epoch': 4.08} {'loss': 0.7172, 'grad_norm': 0.9502637386322021, 'learning_rate': 1.0486268560606312e-05, 'epoch': 4.08} {'loss': 0.7144, 'grad_norm': 0.8555474877357483, 'learning_rate': 1.0475072752291744e-05, 'epoch': 4.09} {'loss': 0.6742, 'grad_norm': 0.8223090767860413, 'learning_rate': 1.0463876347112871e-05, 'epoch': 4.09} {'loss': 0.7318, 'grad_norm': 1.0633258819580078, 'learning_rate': 1.0452679359136457e-05, 'epoch': 4.09} {'loss': 0.7195, 'grad_norm': 1.023728609085083, 'learning_rate': 1.0441481802429996e-05, 'epoch': 4.09} {'loss': 0.6625, 'grad_norm': 0.9660924077033997, 'learning_rate': 1.0430283691061694e-05, 'epoch': 4.1} {'loss': 0.7378, 'grad_norm': 1.0820735692977905, 'learning_rate': 1.0419085039100451e-05, 'epoch': 4.1} {'loss': 0.7443, 'grad_norm': 1.1019651889801025, 'learning_rate': 1.0407885860615859e-05, 'epoch': 4.1} {'loss': 0.7028, 'grad_norm': 0.7436420321464539, 'learning_rate': 1.0396686169678152e-05, 'epoch': 4.11} {'loss': 0.7484, 'grad_norm': 0.8900678753852844, 'learning_rate': 1.0385485980358225e-05, 'epoch': 4.11} {'loss': 0.691, 'grad_norm': 0.9475988745689392, 'learning_rate': 1.0374285306727592e-05, 'epoch': 4.11} {'loss': 0.6967, 'grad_norm': 1.00381338596344, 'learning_rate': 1.0363084162858375e-05, 'epoch': 4.11} {'loss': 0.7288, 'grad_norm': 0.949488639831543, 'learning_rate': 1.0351882562823287e-05, 'epoch': 4.12} {'loss': 0.6891, 'grad_norm': 0.9516027569770813, 'learning_rate': 1.0340680520695618e-05, 'epoch': 4.12} {'loss': 0.6741, 'grad_norm': 0.822101354598999, 'learning_rate': 1.0329478050549208e-05, 'epoch': 4.12} {'loss': 0.6737, 'grad_norm': 1.132954716682434, 'learning_rate': 1.0318275166458438e-05, 'epoch': 4.12} {'loss': 0.6813, 'grad_norm': 0.9497905373573303, 'learning_rate': 1.0307071882498207e-05, 'epoch': 4.13} {'loss': 0.6717, 'grad_norm': 0.856217622756958, 'learning_rate': 1.029586821274392e-05, 'epoch': 4.13} {'loss': 0.6857, 'grad_norm': 0.8923627138137817, 'learning_rate': 1.0284664171271461e-05, 'epoch': 4.13} {'loss': 0.7242, 'grad_norm': 0.8077932596206665, 'learning_rate': 1.0273459772157188e-05, 'epoch': 4.14} {'loss': 0.7156, 'grad_norm': 1.000266671180725, 'learning_rate': 1.02622550294779e-05, 'epoch': 4.14} {'loss': 0.6854, 'grad_norm': 0.7149984240531921, 'learning_rate': 1.025104995731084e-05, 'epoch': 4.14} {'loss': 0.7269, 'grad_norm': 1.0032649040222168, 'learning_rate': 1.023984456973365e-05, 'epoch': 4.14} {'loss': 0.7341, 'grad_norm': 0.9310562014579773, 'learning_rate': 1.0228638880824378e-05, 'epoch': 4.15} {'loss': 0.6889, 'grad_norm': 0.8867287039756775, 'learning_rate': 1.0217432904661446e-05, 'epoch': 4.15} {'loss': 0.7146, 'grad_norm': 0.9732469320297241, 'learning_rate': 1.0206226655323643e-05, 'epoch': 4.15} {'loss': 0.6962, 'grad_norm': 0.9302858114242554, 'learning_rate': 1.0195020146890093e-05, 'epoch': 4.15} {'loss': 0.715, 'grad_norm': 0.8655353784561157, 'learning_rate': 1.0183813393440256e-05, 'epoch': 4.16} {'loss': 0.7281, 'grad_norm': 1.0768390893936157, 'learning_rate': 1.0172606409053887e-05, 'epoch': 4.16} {'loss': 0.7635, 'grad_norm': 0.9641149044036865, 'learning_rate': 1.016139920781104e-05, 'epoch': 4.16} {'loss': 0.6693, 'grad_norm': 0.8618749976158142, 'learning_rate': 1.0150191803792037e-05, 'epoch': 4.16} {'loss': 0.7239, 'grad_norm': 0.9523313641548157, 'learning_rate': 1.0138984211077463e-05, 'epoch': 4.17} {'loss': 0.677, 'grad_norm': 0.9761143922805786, 'learning_rate': 1.012777644374813e-05, 'epoch': 4.17} {'loss': 0.6938, 'grad_norm': 1.0304828882217407, 'learning_rate': 1.0116568515885072e-05, 'epoch': 4.17} {'loss': 0.7251, 'grad_norm': 0.8359509110450745, 'learning_rate': 1.010536044156953e-05, 'epoch': 4.18} {'loss': 0.7242, 'grad_norm': 1.0169107913970947, 'learning_rate': 1.0094152234882918e-05, 'epoch': 4.18} {'loss': 0.6869, 'grad_norm': 1.1097735166549683, 'learning_rate': 1.008294390990683e-05, 'epoch': 4.18} {'loss': 0.6956, 'grad_norm': 0.7728602886199951, 'learning_rate': 1.0071735480723002e-05, 'epoch': 4.18} {'loss': 0.7042, 'grad_norm': 0.8905001878738403, 'learning_rate': 1.0060526961413296e-05, 'epoch': 4.19} {'loss': 0.6957, 'grad_norm': 0.8943288922309875, 'learning_rate': 1.0049318366059698e-05, 'epoch': 4.19} {'loss': 0.6868, 'grad_norm': 0.738845705986023, 'learning_rate': 1.0038109708744274e-05, 'epoch': 4.19} {'loss': 0.6823, 'grad_norm': 1.0837444067001343, 'learning_rate': 1.0026901003549192e-05, 'epoch': 4.19} {'loss': 0.7046, 'grad_norm': 0.9614525437355042, 'learning_rate': 1.0015692264556653e-05, 'epoch': 4.2} {'loss': 0.6839, 'grad_norm': 0.8356913924217224, 'learning_rate': 1.0004483505848919e-05, 'epoch': 4.2} {'loss': 0.7054, 'grad_norm': 1.0133601427078247, 'learning_rate': 9.99327474150827e-06, 'epoch': 4.2} {'loss': 0.7441, 'grad_norm': 1.100933313369751, 'learning_rate': 9.982065985616992e-06, 'epoch': 4.21} {'loss': 0.6912, 'grad_norm': 0.9062264561653137, 'learning_rate': 9.970857252257368e-06, 'epoch': 4.21} {'loss': 0.6898, 'grad_norm': 1.00151789188385, 'learning_rate': 9.959648555511639e-06, 'epoch': 4.21} {'loss': 0.6578, 'grad_norm': 0.941653847694397, 'learning_rate': 9.948439909462013e-06, 'epoch': 4.21} {'loss': 0.6635, 'grad_norm': 0.83924800157547, 'learning_rate': 9.937231328190627e-06, 'epoch': 4.22} {'loss': 0.6828, 'grad_norm': 0.9875262975692749, 'learning_rate': 9.926022825779547e-06, 'epoch': 4.22} {'loss': 0.6485, 'grad_norm': 0.8676891922950745, 'learning_rate': 9.914814416310719e-06, 'epoch': 4.22} {'loss': 0.6979, 'grad_norm': 0.9433853030204773, 'learning_rate': 9.90360611386599e-06, 'epoch': 4.22} {'loss': 0.6955, 'grad_norm': 0.8295300006866455, 'learning_rate': 9.892397932527071e-06, 'epoch': 4.23} {'loss': 0.6831, 'grad_norm': 0.9730319380760193, 'learning_rate': 9.881189886375518e-06, 'epoch': 4.23} {'loss': 0.7048, 'grad_norm': 0.8666236400604248, 'learning_rate': 9.869981989492713e-06, 'epoch': 4.23} {'loss': 0.6679, 'grad_norm': 0.8294933438301086, 'learning_rate': 9.858774255959855e-06, 'epoch': 4.24} {'loss': 0.7263, 'grad_norm': 1.0712002515792847, 'learning_rate': 9.847566699857936e-06, 'epoch': 4.24} {'loss': 0.7353, 'grad_norm': 0.9605984687805176, 'learning_rate': 9.836359335267728e-06, 'epoch': 4.24} {'loss': 0.6849, 'grad_norm': 1.0167313814163208, 'learning_rate': 9.82515217626976e-06, 'epoch': 4.24} {'loss': 0.6979, 'grad_norm': 0.9748632907867432, 'learning_rate': 9.813945236944298e-06, 'epoch': 4.25} {'loss': 0.7154, 'grad_norm': 0.72358238697052, 'learning_rate': 9.802738531371346e-06, 'epoch': 4.25} {'loss': 0.7005, 'grad_norm': 1.0516870021820068, 'learning_rate': 9.791532073630606e-06, 'epoch': 4.25} {'loss': 0.6654, 'grad_norm': 0.708367645740509, 'learning_rate': 9.780325877801455e-06, 'epoch': 4.25} {'loss': 0.6828, 'grad_norm': 0.9462490081787109, 'learning_rate': 9.769119957962963e-06, 'epoch': 4.26} {'loss': 0.713, 'grad_norm': 0.914050817489624, 'learning_rate': 9.757914328193846e-06, 'epoch': 4.26} {'loss': 0.6882, 'grad_norm': 0.996240496635437, 'learning_rate': 9.746709002572452e-06, 'epoch': 4.26} {'loss': 0.6748, 'grad_norm': 0.7216172814369202, 'learning_rate': 9.735503995176743e-06, 'epoch': 4.27} {'loss': 0.6846, 'grad_norm': 0.8614278435707092, 'learning_rate': 9.724299320084294e-06, 'epoch': 4.27} {'loss': 0.7289, 'grad_norm': 1.0972000360488892, 'learning_rate': 9.713094991372251e-06, 'epoch': 4.27} {'loss': 0.7248, 'grad_norm': 0.7961187362670898, 'learning_rate': 9.701891023117338e-06, 'epoch': 4.27} {'loss': 0.7175, 'grad_norm': 0.8233743906021118, 'learning_rate': 9.690687429395807e-06, 'epoch': 4.28} {'loss': 0.7234, 'grad_norm': 0.8971406817436218, 'learning_rate': 9.67948422428345e-06, 'epoch': 4.28} {'loss': 0.7481, 'grad_norm': 1.0916619300842285, 'learning_rate': 9.668281421855574e-06, 'epoch': 4.28} {'loss': 0.6901, 'grad_norm': 0.7455514073371887, 'learning_rate': 9.657079036186981e-06, 'epoch': 4.28} {'loss': 0.6708, 'grad_norm': 0.962520182132721, 'learning_rate': 9.645877081351938e-06, 'epoch': 4.29} {'loss': 0.7223, 'grad_norm': 0.9359778165817261, 'learning_rate': 9.634675571424179e-06, 'epoch': 4.29} {'loss': 0.6962, 'grad_norm': 0.8644680380821228, 'learning_rate': 9.623474520476881e-06, 'epoch': 4.29} {'loss': 0.6956, 'grad_norm': 0.9273335933685303, 'learning_rate': 9.61227394258264e-06, 'epoch': 4.3} {'loss': 0.7168, 'grad_norm': 0.8046469688415527, 'learning_rate': 9.601073851813455e-06, 'epoch': 4.3} {'loss': 0.7074, 'grad_norm': 1.012192726135254, 'learning_rate': 9.58987426224072e-06, 'epoch': 4.3} {'loss': 0.6973, 'grad_norm': 1.0606250762939453, 'learning_rate': 9.578675187935197e-06, 'epoch': 4.3} {'loss': 0.7131, 'grad_norm': 0.8981483578681946, 'learning_rate': 9.567476642967002e-06, 'epoch': 4.31} {'loss': 0.7309, 'grad_norm': 0.9818210601806641, 'learning_rate': 9.556278641405574e-06, 'epoch': 4.31} {'loss': 0.679, 'grad_norm': 0.8318604230880737, 'learning_rate': 9.545081197319687e-06, 'epoch': 4.31} {'loss': 0.7251, 'grad_norm': 1.0397639274597168, 'learning_rate': 9.533884324777406e-06, 'epoch': 4.31} {'loss': 0.689, 'grad_norm': 0.9545111060142517, 'learning_rate': 9.52268803784608e-06, 'epoch': 4.32} {'loss': 0.6715, 'grad_norm': 0.9449877738952637, 'learning_rate': 9.511492350592316e-06, 'epoch': 4.32} {'loss': 0.6706, 'grad_norm': 0.883969783782959, 'learning_rate': 9.500297277081973e-06, 'epoch': 4.32} {'loss': 0.6786, 'grad_norm': 0.8295623064041138, 'learning_rate': 9.489102831380138e-06, 'epoch': 4.32} {'loss': 0.7059, 'grad_norm': 0.8844619989395142, 'learning_rate': 9.477909027551118e-06, 'epoch': 4.33} {'loss': 0.7031, 'grad_norm': 0.9397619962692261, 'learning_rate': 9.466715879658396e-06, 'epoch': 4.33} {'loss': 0.682, 'grad_norm': 0.9514744281768799, 'learning_rate': 9.45552340176464e-06, 'epoch': 4.33} {'loss': 0.6776, 'grad_norm': 0.8191724419593811, 'learning_rate': 9.444331607931679e-06, 'epoch': 4.34} {'loss': 0.7017, 'grad_norm': 0.8804934620857239, 'learning_rate': 9.433140512220483e-06, 'epoch': 4.34} {'loss': 0.7096, 'grad_norm': 1.072270393371582, 'learning_rate': 9.421950128691136e-06, 'epoch': 4.34} {'loss': 0.699, 'grad_norm': 0.876554012298584, 'learning_rate': 9.410760471402836e-06, 'epoch': 4.34} {'loss': 0.7037, 'grad_norm': 1.0587306022644043, 'learning_rate': 9.399571554413865e-06, 'epoch': 4.35} {'loss': 0.6914, 'grad_norm': 0.7776628136634827, 'learning_rate': 9.388383391781576e-06, 'epoch': 4.35} {'loss': 0.7115, 'grad_norm': 0.8546010851860046, 'learning_rate': 9.377195997562371e-06, 'epoch': 4.35} {'loss': 0.6567, 'grad_norm': 0.9451851844787598, 'learning_rate': 9.36600938581169e-06, 'epoch': 4.35} {'loss': 0.6614, 'grad_norm': 0.847683310508728, 'learning_rate': 9.354823570583992e-06, 'epoch': 4.36} {'loss': 0.6682, 'grad_norm': 0.8888994455337524, 'learning_rate': 9.343638565932738e-06, 'epoch': 4.36} {'loss': 0.745, 'grad_norm': 1.0850619077682495, 'learning_rate': 9.33245438591035e-06, 'epoch': 4.36} {'loss': 0.7281, 'grad_norm': 0.9958977103233337, 'learning_rate': 9.321271044568238e-06, 'epoch': 4.37} {'loss': 0.667, 'grad_norm': 0.9201116561889648, 'learning_rate': 9.310088555956751e-06, 'epoch': 4.37} {'loss': 0.7432, 'grad_norm': 1.0100436210632324, 'learning_rate': 9.298906934125164e-06, 'epoch': 4.37} {'loss': 0.703, 'grad_norm': 0.8329498767852783, 'learning_rate': 9.287726193121662e-06, 'epoch': 4.37} {'loss': 0.7047, 'grad_norm': 0.7902025580406189, 'learning_rate': 9.276546346993326e-06, 'epoch': 4.38} {'loss': 0.6918, 'grad_norm': 0.9104951024055481, 'learning_rate': 9.26536740978611e-06, 'epoch': 4.38} {'loss': 0.7081, 'grad_norm': 0.6334898471832275, 'learning_rate': 9.254189395544837e-06, 'epoch': 4.38} {'loss': 0.7052, 'grad_norm': 0.8802775740623474, 'learning_rate': 9.243012318313151e-06, 'epoch': 4.38} {'loss': 0.7551, 'grad_norm': 0.9156317114830017, 'learning_rate': 9.231836192133532e-06, 'epoch': 4.39} {'loss': 0.6955, 'grad_norm': 0.7741524577140808, 'learning_rate': 9.220661031047267e-06, 'epoch': 4.39} {'loss': 0.7396, 'grad_norm': 0.9993162751197815, 'learning_rate': 9.209486849094426e-06, 'epoch': 4.39} {'loss': 0.7156, 'grad_norm': 0.9762659072875977, 'learning_rate': 9.198313660313843e-06, 'epoch': 4.4} {'loss': 0.6916, 'grad_norm': 1.026556372642517, 'learning_rate': 9.187141478743114e-06, 'epoch': 4.4} {'loss': 0.6947, 'grad_norm': 0.8966359496116638, 'learning_rate': 9.175970318418565e-06, 'epoch': 4.4} {'loss': 0.681, 'grad_norm': 1.051875352859497, 'learning_rate': 9.164800193375242e-06, 'epoch': 4.4} {'loss': 0.7196, 'grad_norm': 0.691317617893219, 'learning_rate': 9.153631117646884e-06, 'epoch': 4.41} {'loss': 0.7034, 'grad_norm': 0.8509737253189087, 'learning_rate': 9.142463105265914e-06, 'epoch': 4.41} {'loss': 0.7036, 'grad_norm': 0.9246897101402283, 'learning_rate': 9.131296170263427e-06, 'epoch': 4.41} {'loss': 0.6915, 'grad_norm': 0.9125774502754211, 'learning_rate': 9.120130326669159e-06, 'epoch': 4.41} {'loss': 0.7226, 'grad_norm': 0.7912415862083435, 'learning_rate': 9.108965588511464e-06, 'epoch': 4.42} {'loss': 0.6764, 'grad_norm': 0.867767333984375, 'learning_rate': 9.097801969817324e-06, 'epoch': 4.42} {'loss': 0.6917, 'grad_norm': 1.112255334854126, 'learning_rate': 9.086639484612308e-06, 'epoch': 4.42} {'loss': 0.7087, 'grad_norm': 0.8725970983505249, 'learning_rate': 9.075478146920561e-06, 'epoch': 4.43} {'loss': 0.7064, 'grad_norm': 1.155462622642517, 'learning_rate': 9.064317970764781e-06, 'epoch': 4.43} {'loss': 0.7267, 'grad_norm': 1.0043895244598389, 'learning_rate': 9.053158970166215e-06, 'epoch': 4.43} {'loss': 0.6993, 'grad_norm': 0.9061834216117859, 'learning_rate': 9.042001159144626e-06, 'epoch': 4.43} {'loss': 0.69, 'grad_norm': 0.9877394437789917, 'learning_rate': 9.030844551718297e-06, 'epoch': 4.44} {'loss': 0.7392, 'grad_norm': 0.9514290690422058, 'learning_rate': 9.019689161903976e-06, 'epoch': 4.44} {'loss': 0.6754, 'grad_norm': 0.9842886328697205, 'learning_rate': 9.008535003716893e-06, 'epoch': 4.44} {'loss': 0.6633, 'grad_norm': 0.9620710015296936, 'learning_rate': 8.997382091170737e-06, 'epoch': 4.44} {'loss': 0.7114, 'grad_norm': 0.8175634741783142, 'learning_rate': 8.986230438277626e-06, 'epoch': 4.45} {'loss': 0.6879, 'grad_norm': 1.0257868766784668, 'learning_rate': 8.975080059048093e-06, 'epoch': 4.45} {'loss': 0.7281, 'grad_norm': 0.8809911012649536, 'learning_rate': 8.96393096749107e-06, 'epoch': 4.45} {'loss': 0.6934, 'grad_norm': 0.9106749892234802, 'learning_rate': 8.95278317761388e-06, 'epoch': 4.46} {'loss': 0.7068, 'grad_norm': 1.1197091341018677, 'learning_rate': 8.941636703422197e-06, 'epoch': 4.46} {'loss': 0.7163, 'grad_norm': 0.856410801410675, 'learning_rate': 8.930491558920063e-06, 'epoch': 4.46} {'loss': 0.7076, 'grad_norm': 0.8107126951217651, 'learning_rate': 8.919347758109824e-06, 'epoch': 4.46} {'loss': 0.7069, 'grad_norm': 1.0865356922149658, 'learning_rate': 8.90820531499215e-06, 'epoch': 4.47} {'loss': 0.7213, 'grad_norm': 1.085245132446289, 'learning_rate': 8.897064243566013e-06, 'epoch': 4.47} {'loss': 0.7175, 'grad_norm': 0.9573116898536682, 'learning_rate': 8.885924557828651e-06, 'epoch': 4.47} {'loss': 0.7064, 'grad_norm': 0.8947001099586487, 'learning_rate': 8.874786271775563e-06, 'epoch': 4.47} {'loss': 0.705, 'grad_norm': 0.8607715368270874, 'learning_rate': 8.863649399400492e-06, 'epoch': 4.48} {'loss': 0.7073, 'grad_norm': 0.989449143409729, 'learning_rate': 8.852513954695401e-06, 'epoch': 4.48} {'loss': 0.6905, 'grad_norm': 0.8794740438461304, 'learning_rate': 8.841379951650467e-06, 'epoch': 4.48} {'loss': 0.7133, 'grad_norm': 1.1251400709152222, 'learning_rate': 8.830247404254042e-06, 'epoch': 4.48} {'loss': 0.7133, 'grad_norm': 0.9552284479141235, 'learning_rate': 8.819116326492663e-06, 'epoch': 4.49} {'loss': 0.7054, 'grad_norm': 0.9416201710700989, 'learning_rate': 8.807986732351018e-06, 'epoch': 4.49} {'loss': 0.6887, 'grad_norm': 0.8994563221931458, 'learning_rate': 8.79685863581193e-06, 'epoch': 4.49} {'loss': 0.6986, 'grad_norm': 1.0280370712280273, 'learning_rate': 8.785732050856326e-06, 'epoch': 4.5} {'loss': 0.6564, 'grad_norm': 0.7883342504501343, 'learning_rate': 8.774606991463258e-06, 'epoch': 4.5} {'loss': 0.7113, 'grad_norm': 0.9672771096229553, 'learning_rate': 8.763483471609848e-06, 'epoch': 4.5} {'loss': 0.7279, 'grad_norm': 0.7373795509338379, 'learning_rate': 8.752361505271285e-06, 'epoch': 4.5} {'loss': 0.7102, 'grad_norm': 1.042310357093811, 'learning_rate': 8.741241106420807e-06, 'epoch': 4.51} {'loss': 0.7097, 'grad_norm': 1.0336145162582397, 'learning_rate': 8.730122289029681e-06, 'epoch': 4.51} {'loss': 0.6878, 'grad_norm': 0.956516683101654, 'learning_rate': 8.71900506706719e-06, 'epoch': 4.51} {'loss': 0.6886, 'grad_norm': 0.9789018630981445, 'learning_rate': 8.707889454500619e-06, 'epoch': 4.51} {'loss': 0.7423, 'grad_norm': 1.0335427522659302, 'learning_rate': 8.696775465295211e-06, 'epoch': 4.52} {'loss': 0.712, 'grad_norm': 0.8325095176696777, 'learning_rate': 8.685663113414186e-06, 'epoch': 4.52} {'loss': 0.7124, 'grad_norm': 1.1992663145065308, 'learning_rate': 8.674552412818705e-06, 'epoch': 4.52} {'loss': 0.6958, 'grad_norm': 1.178719401359558, 'learning_rate': 8.663443377467854e-06, 'epoch': 4.53} {'loss': 0.6823, 'grad_norm': 0.8052583336830139, 'learning_rate': 8.652336021318622e-06, 'epoch': 4.53} {'loss': 0.6843, 'grad_norm': 1.032385230064392, 'learning_rate': 8.64123035832589e-06, 'epoch': 4.53} {'loss': 0.7158, 'grad_norm': 0.9594995379447937, 'learning_rate': 8.630126402442416e-06, 'epoch': 4.53} {'loss': 0.7099, 'grad_norm': 0.9466574788093567, 'learning_rate': 8.619024167618812e-06, 'epoch': 4.54} {'loss': 0.6975, 'grad_norm': 0.8476364612579346, 'learning_rate': 8.607923667803519e-06, 'epoch': 4.54} {'loss': 0.6945, 'grad_norm': 0.8745402097702026, 'learning_rate': 8.59682491694281e-06, 'epoch': 4.54} {'loss': 0.705, 'grad_norm': 0.8881970047950745, 'learning_rate': 8.585727928980756e-06, 'epoch': 4.54} {'loss': 0.6797, 'grad_norm': 1.0841785669326782, 'learning_rate': 8.57463271785922e-06, 'epoch': 4.55} {'loss': 0.7059, 'grad_norm': 0.965508222579956, 'learning_rate': 8.563539297517809e-06, 'epoch': 4.55} {'loss': 0.7581, 'grad_norm': 0.9642159342765808, 'learning_rate': 8.552447681893911e-06, 'epoch': 4.55} {'loss': 0.6667, 'grad_norm': 0.9437785744667053, 'learning_rate': 8.541357884922627e-06, 'epoch': 4.56} {'loss': 0.718, 'grad_norm': 1.0442107915878296, 'learning_rate': 8.530269920536783e-06, 'epoch': 4.56} {'loss': 0.7093, 'grad_norm': 1.0264109373092651, 'learning_rate': 8.519183802666891e-06, 'epoch': 4.56} {'loss': 0.6609, 'grad_norm': 0.9432843327522278, 'learning_rate': 8.508099545241156e-06, 'epoch': 4.56} {'loss': 0.707, 'grad_norm': 1.0669537782669067, 'learning_rate': 8.497017162185435e-06, 'epoch': 4.57} {'loss': 0.6957, 'grad_norm': 1.038805365562439, 'learning_rate': 8.485936667423244e-06, 'epoch': 4.57} {'loss': 0.7156, 'grad_norm': 0.8447429537773132, 'learning_rate': 8.474858074875711e-06, 'epoch': 4.57} {'loss': 0.7305, 'grad_norm': 1.0505276918411255, 'learning_rate': 8.463781398461576e-06, 'epoch': 4.57} {'loss': 0.7133, 'grad_norm': 1.1430854797363281, 'learning_rate': 8.452706652097187e-06, 'epoch': 4.58} {'loss': 0.7461, 'grad_norm': 1.0510984659194946, 'learning_rate': 8.441633849696453e-06, 'epoch': 4.58} {'loss': 0.6797, 'grad_norm': 0.978050947189331, 'learning_rate': 8.430563005170842e-06, 'epoch': 4.58} {'loss': 0.7362, 'grad_norm': 0.9139097332954407, 'learning_rate': 8.419494132429366e-06, 'epoch': 4.59} {'loss': 0.7526, 'grad_norm': 1.1064071655273438, 'learning_rate': 8.408427245378556e-06, 'epoch': 4.59} {'loss': 0.6939, 'grad_norm': 1.0447417497634888, 'learning_rate': 8.397362357922455e-06, 'epoch': 4.59} {'loss': 0.6985, 'grad_norm': 0.8054973483085632, 'learning_rate': 8.386299483962585e-06, 'epoch': 4.59} {'loss': 0.724, 'grad_norm': 0.9336777925491333, 'learning_rate': 8.375238637397942e-06, 'epoch': 4.6} {'loss': 0.7443, 'grad_norm': 0.9957910180091858, 'learning_rate': 8.364179832124979e-06, 'epoch': 4.6} {'loss': 0.6925, 'grad_norm': 0.9546891450881958, 'learning_rate': 8.353123082037585e-06, 'epoch': 4.6} {'loss': 0.6979, 'grad_norm': 0.8908085823059082, 'learning_rate': 8.342068401027048e-06, 'epoch': 4.6} {'loss': 0.7109, 'grad_norm': 0.8634397983551025, 'learning_rate': 8.331015802982084e-06, 'epoch': 4.61} {'loss': 0.6967, 'grad_norm': 0.8593484163284302, 'learning_rate': 8.319965301788773e-06, 'epoch': 4.61} {'loss': 0.6973, 'grad_norm': 0.9572892189025879, 'learning_rate': 8.308916911330574e-06, 'epoch': 4.61} {'loss': 0.6922, 'grad_norm': 0.8820880055427551, 'learning_rate': 8.29787064548828e-06, 'epoch': 4.62} {'loss': 0.6692, 'grad_norm': 1.0723800659179688, 'learning_rate': 8.286826518140023e-06, 'epoch': 4.62} {'loss': 0.664, 'grad_norm': 1.0068753957748413, 'learning_rate': 8.275784543161245e-06, 'epoch': 4.62} {'loss': 0.7147, 'grad_norm': 1.0773402452468872, 'learning_rate': 8.264744734424697e-06, 'epoch': 4.62} {'loss': 0.6848, 'grad_norm': 1.0329467058181763, 'learning_rate': 8.253707105800384e-06, 'epoch': 4.63} {'loss': 0.7578, 'grad_norm': 0.8300316333770752, 'learning_rate': 8.242671671155587e-06, 'epoch': 4.63} {'loss': 0.6802, 'grad_norm': 0.9396711587905884, 'learning_rate': 8.231638444354836e-06, 'epoch': 4.63} {'loss': 0.6703, 'grad_norm': 0.45746999979019165, 'learning_rate': 8.220607439259877e-06, 'epoch': 4.63} {'loss': 0.7012, 'grad_norm': 0.9658699631690979, 'learning_rate': 8.209578669729663e-06, 'epoch': 4.64} {'loss': 0.6782, 'grad_norm': 0.9615799784660339, 'learning_rate': 8.198552149620349e-06, 'epoch': 4.64} {'loss': 0.6909, 'grad_norm': 0.8904567360877991, 'learning_rate': 8.187527892785254e-06, 'epoch': 4.64} {'loss': 0.6932, 'grad_norm': 0.6392651200294495, 'learning_rate': 8.17650591307486e-06, 'epoch': 4.64} {'loss': 0.693, 'grad_norm': 0.8169950842857361, 'learning_rate': 8.165486224336783e-06, 'epoch': 4.65} {'loss': 0.7119, 'grad_norm': 1.1581264734268188, 'learning_rate': 8.154468840415762e-06, 'epoch': 4.65} {'loss': 0.6821, 'grad_norm': 1.6275166273117065, 'learning_rate': 8.143453775153646e-06, 'epoch': 4.65} {'loss': 0.6771, 'grad_norm': 0.9060969948768616, 'learning_rate': 8.132441042389368e-06, 'epoch': 4.66} {'loss': 0.7136, 'grad_norm': 0.8841169476509094, 'learning_rate': 8.12143065595892e-06, 'epoch': 4.66} {'loss': 0.6637, 'grad_norm': 1.0440117120742798, 'learning_rate': 8.11042262969536e-06, 'epoch': 4.66} {'loss': 0.6873, 'grad_norm': 1.075777530670166, 'learning_rate': 8.099416977428778e-06, 'epoch': 4.66} {'loss': 0.689, 'grad_norm': 0.9968600869178772, 'learning_rate': 8.08841371298628e-06, 'epoch': 4.67} {'loss': 0.7075, 'grad_norm': 0.9013130068778992, 'learning_rate': 8.077412850191965e-06, 'epoch': 4.67} {'loss': 0.7092, 'grad_norm': 0.9929642081260681, 'learning_rate': 8.066414402866926e-06, 'epoch': 4.67} {'loss': 0.686, 'grad_norm': 0.7729802131652832, 'learning_rate': 8.055418384829211e-06, 'epoch': 4.67} {'loss': 0.7215, 'grad_norm': 0.9526394009590149, 'learning_rate': 8.044424809893833e-06, 'epoch': 4.68} {'loss': 0.6604, 'grad_norm': 0.9654462337493896, 'learning_rate': 8.03343369187271e-06, 'epoch': 4.68} {'loss': 0.6894, 'grad_norm': 0.8086165189743042, 'learning_rate': 8.022445044574693e-06, 'epoch': 4.68} {'loss': 0.7407, 'grad_norm': 0.9167711734771729, 'learning_rate': 8.011458881805523e-06, 'epoch': 4.69} {'loss': 0.6693, 'grad_norm': 0.7268100380897522, 'learning_rate': 8.000475217367822e-06, 'epoch': 4.69} {'loss': 0.6705, 'grad_norm': 0.9820871353149414, 'learning_rate': 7.989494065061064e-06, 'epoch': 4.69} {'loss': 0.6779, 'grad_norm': 0.9176385998725891, 'learning_rate': 7.978515438681578e-06, 'epoch': 4.69} {'loss': 0.7064, 'grad_norm': 1.0466372966766357, 'learning_rate': 7.96863684600796e-06, 'epoch': 4.7} {'loss': 0.7087, 'grad_norm': 0.8980921506881714, 'learning_rate': 7.957663056887785e-06, 'epoch': 4.7} {'loss': 0.7073, 'grad_norm': 1.0620293617248535, 'learning_rate': 7.94669183368621e-06, 'epoch': 4.7} {'loss': 0.6772, 'grad_norm': 1.0264908075332642, 'learning_rate': 7.935723190187088e-06, 'epoch': 4.7} {'loss': 0.6983, 'grad_norm': 1.223175287246704, 'learning_rate': 7.924757140171029e-06, 'epoch': 4.71} {'loss': 0.7505, 'grad_norm': 1.1869720220565796, 'learning_rate': 7.913793697415385e-06, 'epoch': 4.71} {'loss': 0.7202, 'grad_norm': 1.0100802183151245, 'learning_rate': 7.902832875694226e-06, 'epoch': 4.71} {'loss': 0.7295, 'grad_norm': 1.0712474584579468, 'learning_rate': 7.891874688778335e-06, 'epoch': 4.72} {'loss': 0.6763, 'grad_norm': 0.9612695574760437, 'learning_rate': 7.880919150435186e-06, 'epoch': 4.72} {'loss': 0.6969, 'grad_norm': 0.7464120984077454, 'learning_rate': 7.869966274428923e-06, 'epoch': 4.72} {'loss': 0.671, 'grad_norm': 0.9457665085792542, 'learning_rate': 7.85901607452034e-06, 'epoch': 4.72} {'loss': 0.6905, 'grad_norm': 0.8344587087631226, 'learning_rate': 7.84806856446688e-06, 'epoch': 4.73} {'loss': 0.6906, 'grad_norm': 0.8632122874259949, 'learning_rate': 7.837123758022594e-06, 'epoch': 4.73} {'loss': 0.6854, 'grad_norm': 0.9666354060173035, 'learning_rate': 7.826181668938154e-06, 'epoch': 4.73} {'loss': 0.6917, 'grad_norm': 0.9099335074424744, 'learning_rate': 7.815242310960793e-06, 'epoch': 4.73} {'loss': 0.7065, 'grad_norm': 0.9661810994148254, 'learning_rate': 7.804305697834336e-06, 'epoch': 4.74} {'loss': 0.6874, 'grad_norm': 0.8875393867492676, 'learning_rate': 7.793371843299144e-06, 'epoch': 4.74} {'loss': 0.7055, 'grad_norm': 1.2567400932312012, 'learning_rate': 7.782440761092125e-06, 'epoch': 4.74} {'loss': 0.7005, 'grad_norm': 0.9377003312110901, 'learning_rate': 7.772605168797135e-06, 'epoch': 4.75} {'loss': 0.6819, 'grad_norm': 0.7873551845550537, 'learning_rate': 7.76167939184631e-06, 'epoch': 4.75} {'loss': 0.7013, 'grad_norm': 0.8005658388137817, 'learning_rate': 7.750756427040907e-06, 'epoch': 4.75} {'loss': 0.7707, 'grad_norm': 0.9226978421211243, 'learning_rate': 7.739836288104154e-06, 'epoch': 4.75} {'loss': 0.7287, 'grad_norm': 0.9723309278488159, 'learning_rate': 7.728918988755707e-06, 'epoch': 4.76} {'loss': 0.7438, 'grad_norm': 0.8007157444953918, 'learning_rate': 7.718004542711677e-06, 'epoch': 4.76} {'loss': 0.7337, 'grad_norm': 0.9309170246124268, 'learning_rate': 7.70709296368458e-06, 'epoch': 4.76} {'loss': 0.6711, 'grad_norm': 0.9964651465415955, 'learning_rate': 7.696184265383332e-06, 'epoch': 4.76} {'loss': 0.6873, 'grad_norm': 0.8571804165840149, 'learning_rate': 7.685278461513225e-06, 'epoch': 4.77} {'loss': 0.6829, 'grad_norm': 1.055174708366394, 'learning_rate': 7.674375565775922e-06, 'epoch': 4.77} {'loss': 0.7268, 'grad_norm': 1.045886516571045, 'learning_rate': 7.663475591869426e-06, 'epoch': 4.77} {'loss': 0.6938, 'grad_norm': 1.160090446472168, 'learning_rate': 7.652578553488069e-06, 'epoch': 4.78} {'loss': 0.6923, 'grad_norm': 0.9484176635742188, 'learning_rate': 7.641684464322507e-06, 'epoch': 4.78} {'loss': 0.6828, 'grad_norm': 1.1363413333892822, 'learning_rate': 7.630793338059673e-06, 'epoch': 4.78} {'loss': 0.6859, 'grad_norm': 0.8532650470733643, 'learning_rate': 7.619905188382788e-06, 'epoch': 4.78} {'loss': 0.7037, 'grad_norm': 1.1061737537384033, 'learning_rate': 7.609020028971332e-06, 'epoch': 4.79} {'loss': 0.7051, 'grad_norm': 0.6978658437728882, 'learning_rate': 7.59813787350103e-06, 'epoch': 4.79} {'loss': 0.6626, 'grad_norm': 0.9021679759025574, 'learning_rate': 7.587258735643826e-06, 'epoch': 4.79} {'loss': 0.728, 'grad_norm': 0.9859822988510132, 'learning_rate': 7.576382629067877e-06, 'epoch': 4.79} {'loss': 0.6977, 'grad_norm': 0.990676760673523, 'learning_rate': 7.5655095674375335e-06, 'epoch': 4.8} {'loss': 0.7097, 'grad_norm': 0.9053857326507568, 'learning_rate': 7.5546395644133246e-06, 'epoch': 4.8} {'loss': 0.7163, 'grad_norm': 0.9019285440444946, 'learning_rate': 7.543772633651919e-06, 'epoch': 4.8} {'loss': 0.7284, 'grad_norm': 0.8634575605392456, 'learning_rate': 7.532908788806143e-06, 'epoch': 4.8} {'loss': 0.6946, 'grad_norm': 0.9775410890579224, 'learning_rate': 7.522048043524941e-06, 'epoch': 4.81} {'loss': 0.7052, 'grad_norm': 1.0583959817886353, 'learning_rate': 7.511190411453364e-06, 'epoch': 4.81} {'loss': 0.6984, 'grad_norm': 0.9304887652397156, 'learning_rate': 7.500335906232544e-06, 'epoch': 4.81} {'loss': 0.6855, 'grad_norm': 1.0637022256851196, 'learning_rate': 7.489484541499697e-06, 'epoch': 4.82} {'loss': 0.7014, 'grad_norm': 0.9668214321136475, 'learning_rate': 7.47863633088808e-06, 'epoch': 4.82} {'loss': 0.7116, 'grad_norm': 1.1744885444641113, 'learning_rate': 7.467791288027004e-06, 'epoch': 4.82} {'loss': 0.7078, 'grad_norm': 1.0168805122375488, 'learning_rate': 7.456949426541782e-06, 'epoch': 4.82} {'loss': 0.7081, 'grad_norm': 1.06342613697052, 'learning_rate': 7.44611076005374e-06, 'epoch': 4.83} {'loss': 0.694, 'grad_norm': 1.1431043148040771, 'learning_rate': 7.435275302180187e-06, 'epoch': 4.83} {'loss': 0.7177, 'grad_norm': 0.9385346174240112, 'learning_rate': 7.424443066534412e-06, 'epoch': 4.83} {'loss': 0.6733, 'grad_norm': 0.905578076839447, 'learning_rate': 7.4136140667256316e-06, 'epoch': 4.83} {'loss': 0.7048, 'grad_norm': 0.9889963865280151, 'learning_rate': 7.40278831635902e-06, 'epoch': 4.84} {'loss': 0.6778, 'grad_norm': 0.964329719543457, 'learning_rate': 7.3919658290356585e-06, 'epoch': 4.84} {'loss': 0.7069, 'grad_norm': 0.884742259979248, 'learning_rate': 7.381146618352532e-06, 'epoch': 4.84} {'loss': 0.699, 'grad_norm': 0.878213107585907, 'learning_rate': 7.3703306979025045e-06, 'epoch': 4.85} {'loss': 0.7441, 'grad_norm': 1.121094822883606, 'learning_rate': 7.35951808127431e-06, 'epoch': 4.85} {'loss': 0.7482, 'grad_norm': 1.1176313161849976, 'learning_rate': 7.348708782052528e-06, 'epoch': 4.85} {'loss': 0.6822, 'grad_norm': 0.8996345400810242, 'learning_rate': 7.337902813817584e-06, 'epoch': 4.85} {'loss': 0.7426, 'grad_norm': 0.9105017781257629, 'learning_rate': 7.327100190145693e-06, 'epoch': 4.86} {'loss': 0.7169, 'grad_norm': 0.9476820826530457, 'learning_rate': 7.3163009246088855e-06, 'epoch': 4.86} {'loss': 0.6864, 'grad_norm': 0.9776606559753418, 'learning_rate': 7.305505030774977e-06, 'epoch': 4.86} {'loss': 0.6702, 'grad_norm': 0.967439591884613, 'learning_rate': 7.294712522207538e-06, 'epoch': 4.86} {'loss': 0.7, 'grad_norm': 1.1411700248718262, 'learning_rate': 7.283923412465883e-06, 'epoch': 4.87} {'loss': 0.6937, 'grad_norm': 0.9622204303741455, 'learning_rate': 7.273137715105063e-06, 'epoch': 4.87} {'loss': 0.7058, 'grad_norm': 1.15694260597229, 'learning_rate': 7.262355443675841e-06, 'epoch': 4.87} {'loss': 0.6784, 'grad_norm': 0.7069321274757385, 'learning_rate': 7.251576611724676e-06, 'epoch': 4.88} {'loss': 0.664, 'grad_norm': 0.9300811886787415, 'learning_rate': 7.240801232793701e-06, 'epoch': 4.88} {'loss': 0.7334, 'grad_norm': 0.9969112873077393, 'learning_rate': 7.230029320420715e-06, 'epoch': 4.88} {'loss': 0.7331, 'grad_norm': 0.9307776689529419, 'learning_rate': 7.219260888139159e-06, 'epoch': 4.88} {'loss': 0.6799, 'grad_norm': 1.0200036764144897, 'learning_rate': 7.208495949478113e-06, 'epoch': 4.89} {'loss': 0.7255, 'grad_norm': 1.152100682258606, 'learning_rate': 7.197734517962245e-06, 'epoch': 4.89} {'loss': 0.7015, 'grad_norm': 0.9193766713142395, 'learning_rate': 7.1869766071118375e-06, 'epoch': 4.89} {'loss': 0.6881, 'grad_norm': 1.019104242324829, 'learning_rate': 7.176222230442742e-06, 'epoch': 4.89} {'loss': 0.6716, 'grad_norm': 0.9920900464057922, 'learning_rate': 7.1654714014663714e-06, 'epoch': 4.9} {'loss': 0.6688, 'grad_norm': 1.1763228178024292, 'learning_rate': 7.154724133689677e-06, 'epoch': 4.9} {'loss': 0.7196, 'grad_norm': 1.0439828634262085, 'learning_rate': 7.143980440615141e-06, 'epoch': 4.9} {'loss': 0.7172, 'grad_norm': 0.8808082342147827, 'learning_rate': 7.13324033574075e-06, 'epoch': 4.91} {'loss': 0.7269, 'grad_norm': 1.1090277433395386, 'learning_rate': 7.122503832559991e-06, 'epoch': 4.91} {'loss': 0.6664, 'grad_norm': 1.034162163734436, 'learning_rate': 7.111770944561812e-06, 'epoch': 4.91} {'loss': 0.705, 'grad_norm': 0.756206214427948, 'learning_rate': 7.10104168523063e-06, 'epoch': 4.91} {'loss': 0.6436, 'grad_norm': 0.6970604658126831, 'learning_rate': 7.090316068046304e-06, 'epoch': 4.92} {'loss': 0.7015, 'grad_norm': 0.8050552010536194, 'learning_rate': 7.079594106484111e-06, 'epoch': 4.92} {'loss': 0.7116, 'grad_norm': 0.6844387054443359, 'learning_rate': 7.068875814014735e-06, 'epoch': 4.92} {'loss': 0.7493, 'grad_norm': 1.0573502779006958, 'learning_rate': 7.058161204104257e-06, 'epoch': 4.92} {'loss': 0.6932, 'grad_norm': 0.9803782105445862, 'learning_rate': 7.047450290214123e-06, 'epoch': 4.93} {'loss': 0.7021, 'grad_norm': 0.9608429074287415, 'learning_rate': 7.0367430858011435e-06, 'epoch': 4.93} {'loss': 0.6792, 'grad_norm': 1.0414938926696777, 'learning_rate': 7.0260396043174606e-06, 'epoch': 4.93} {'loss': 0.7531, 'grad_norm': 1.0368412733078003, 'learning_rate': 7.0153398592105455e-06, 'epoch': 4.94} {'loss': 0.7048, 'grad_norm': 0.8378851413726807, 'learning_rate': 7.00464386392317e-06, 'epoch': 4.94} {'loss': 0.7049, 'grad_norm': 1.0544440746307373, 'learning_rate': 6.993951631893406e-06, 'epoch': 4.94} {'loss': 0.7362, 'grad_norm': 1.0017945766448975, 'learning_rate': 6.983263176554577e-06, 'epoch': 4.94} {'loss': 0.6841, 'grad_norm': 1.1765013933181763, 'learning_rate': 6.97257851133528e-06, 'epoch': 4.95} {'loss': 0.6878, 'grad_norm': 0.7532070875167847, 'learning_rate': 6.961897649659344e-06, 'epoch': 4.95} {'loss': 0.6861, 'grad_norm': 1.1545295715332031, 'learning_rate': 6.951220604945818e-06, 'epoch': 4.95} {'loss': 0.6762, 'grad_norm': 0.9413840174674988, 'learning_rate': 6.940547390608956e-06, 'epoch': 4.95} {'loss': 0.6904, 'grad_norm': 0.9784284234046936, 'learning_rate': 6.9298780200582e-06, 'epoch': 4.96} {'loss': 0.6872, 'grad_norm': 0.9097364544868469, 'learning_rate': 6.919212506698163e-06, 'epoch': 4.96} {'loss': 0.6828, 'grad_norm': 1.0134464502334595, 'learning_rate': 6.908550863928616e-06, 'epoch': 4.96} {'loss': 0.6887, 'grad_norm': 1.0874933004379272, 'learning_rate': 6.897893105144458e-06, 'epoch': 4.96} {'loss': 0.7263, 'grad_norm': 0.9284923076629639, 'learning_rate': 6.887239243735711e-06, 'epoch': 4.97} {'loss': 0.7248, 'grad_norm': 1.1552696228027344, 'learning_rate': 6.87658929308751e-06, 'epoch': 4.97} {'loss': 0.7295, 'grad_norm': 1.046865701675415, 'learning_rate': 6.865943266580068e-06, 'epoch': 4.97} {'loss': 0.7003, 'grad_norm': 1.1610164642333984, 'learning_rate': 6.855301177588668e-06, 'epoch': 4.98} {'loss': 0.6716, 'grad_norm': 0.9148304462432861, 'learning_rate': 6.844663039483646e-06, 'epoch': 4.98} {'loss': 0.6741, 'grad_norm': 0.9851683378219604, 'learning_rate': 6.834028865630377e-06, 'epoch': 4.98} {'loss': 0.6824, 'grad_norm': 1.136448621749878, 'learning_rate': 6.823398669389257e-06, 'epoch': 4.98} {'loss': 0.6821, 'grad_norm': 0.9937544465065002, 'learning_rate': 6.812772464115678e-06, 'epoch': 4.99} {'loss': 0.6853, 'grad_norm': 0.7197884917259216, 'learning_rate': 6.802150263160021e-06, 'epoch': 4.99} {'loss': 0.6779, 'grad_norm': 0.8252743482589722, 'learning_rate': 6.791532079867638e-06, 'epoch': 4.99} {'loss': 0.7022, 'grad_norm': 1.0250513553619385, 'learning_rate': 6.780917927578839e-06, 'epoch': 4.99} {'loss': 0.7264, 'grad_norm': 0.9041262269020081, 'learning_rate': 6.77030781962885e-06, 'epoch': 5.0} {'loss': 0.7177, 'grad_norm': 1.5755311250686646, 'learning_rate': 6.759701769347836e-06, 'epoch': 5.0} 62%|█████████████████████████████████████████████████████████████████████████▊ | 18440/29504 [47:17:47<22:42:41, 7.39s/it]/venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") {'loss': 0.6729, 'grad_norm': 0.9601308703422546, 'learning_rate': 6.749099790060858e-06, 'epoch': 5.0} {'loss': 0.6834, 'grad_norm': 1.0382592678070068, 'learning_rate': 6.738501895087861e-06, 'epoch': 5.01} {'loss': 0.6519, 'grad_norm': 1.0232369899749756, 'learning_rate': 6.727908097743654e-06, 'epoch': 5.01} {'loss': 0.6579, 'grad_norm': 0.8723575472831726, 'learning_rate': 6.717318411337905e-06, 'epoch': 5.01} {'loss': 0.6291, 'grad_norm': 0.9821402430534363, 'learning_rate': 6.706732849175116e-06, 'epoch': 5.01} {'loss': 0.7045, 'grad_norm': 0.8587449193000793, 'learning_rate': 6.696151424554607e-06, 'epoch': 5.02} {'loss': 0.7148, 'grad_norm': 1.0756858587265015, 'learning_rate': 6.6855741507704955e-06, 'epoch': 5.02} {'loss': 0.6683, 'grad_norm': 0.9160169959068298, 'learning_rate': 6.675001041111686e-06, 'epoch': 5.02} {'loss': 0.7032, 'grad_norm': 0.7447562217712402, 'learning_rate': 6.664432108861858e-06, 'epoch': 5.02} {'loss': 0.6665, 'grad_norm': 0.9535813927650452, 'learning_rate': 6.653867367299438e-06, 'epoch': 5.03} {'loss': 0.6783, 'grad_norm': 1.1946237087249756, 'learning_rate': 6.643306829697583e-06, 'epoch': 5.03} {'loss': 0.7165, 'grad_norm': 0.9198237657546997, 'learning_rate': 6.632750509324173e-06, 'epoch': 5.03} {'loss': 0.6783, 'grad_norm': 1.0614444017410278, 'learning_rate': 6.62219841944179e-06, 'epoch': 5.04} {'loss': 0.6766, 'grad_norm': 1.1853413581848145, 'learning_rate': 6.6116505733077e-06, 'epoch': 5.04} {'loss': 0.6954, 'grad_norm': 1.0925462245941162, 'learning_rate': 6.601106984173835e-06, 'epoch': 5.04} {'loss': 0.7129, 'grad_norm': 1.095646619796753, 'learning_rate': 6.5905676652867825e-06, 'epoch': 5.04} {'loss': 0.6505, 'grad_norm': 0.9873242378234863, 'learning_rate': 6.58003262988776e-06, 'epoch': 5.05} {'loss': 0.6578, 'grad_norm': 0.9616162776947021, 'learning_rate': 6.569501891212615e-06, 'epoch': 5.05} {'loss': 0.6822, 'grad_norm': 0.858078122138977, 'learning_rate': 6.558975462491779e-06, 'epoch': 5.05} {'loss': 0.6925, 'grad_norm': 1.0124670267105103, 'learning_rate': 6.548453356950283e-06, 'epoch': 5.05} {'loss': 0.6687, 'grad_norm': 0.981367290019989, 'learning_rate': 6.53793558780772e-06, 'epoch': 5.06} {'loss': 0.7049, 'grad_norm': 0.9494974613189697, 'learning_rate': 6.5274221682782405e-06, 'epoch': 5.06} {'loss': 0.5843, 'grad_norm': 1.363767385482788, 'learning_rate': 6.51691311157052e-06, 'epoch': 5.06} {'loss': 0.635, 'grad_norm': 1.026912808418274, 'learning_rate': 6.506408430887762e-06, 'epoch': 5.07} {'loss': 0.6959, 'grad_norm': 0.9440352320671082, 'learning_rate': 6.495908139427669e-06, 'epoch': 5.07} {'loss': 0.6758, 'grad_norm': 0.9397085309028625, 'learning_rate': 6.48541225038243e-06, 'epoch': 5.07} {'loss': 0.6473, 'grad_norm': 1.005974531173706, 'learning_rate': 6.4749207769387e-06, 'epoch': 5.07} {'loss': 0.6596, 'grad_norm': 1.0808881521224976, 'learning_rate': 6.464433732277588e-06, 'epoch': 5.08} {'loss': 0.6797, 'grad_norm': 1.056351900100708, 'learning_rate': 6.453951129574644e-06, 'epoch': 5.08} {'loss': 0.7255, 'grad_norm': 1.2733126878738403, 'learning_rate': 6.44347298199983e-06, 'epoch': 5.08} {'loss': 0.6522, 'grad_norm': 0.9560198187828064, 'learning_rate': 6.432999302717512e-06, 'epoch': 5.08} {'loss': 0.6794, 'grad_norm': 0.9661357998847961, 'learning_rate': 6.422530104886444e-06, 'epoch': 5.09} {'loss': 0.6927, 'grad_norm': 1.1409353017807007, 'learning_rate': 6.412065401659751e-06, 'epoch': 5.09} {'loss': 0.7132, 'grad_norm': 1.0820403099060059, 'learning_rate': 6.4016052061849084e-06, 'epoch': 5.09} {'loss': 0.6275, 'grad_norm': 1.037035584449768, 'learning_rate': 6.3911495316037285e-06, 'epoch': 5.09} {'loss': 0.6558, 'grad_norm': 1.237284541130066, 'learning_rate': 6.380698391052344e-06, 'epoch': 5.1} {'loss': 0.649, 'grad_norm': 1.2076181173324585, 'learning_rate': 6.37025179766119e-06, 'epoch': 5.1} {'loss': 0.6257, 'grad_norm': 0.7979004979133606, 'learning_rate': 6.359809764555e-06, 'epoch': 5.1} {'loss': 0.6402, 'grad_norm': 1.0904022455215454, 'learning_rate': 6.349372304852755e-06, 'epoch': 5.11} {'loss': 0.7143, 'grad_norm': 1.0223796367645264, 'learning_rate': 6.33893943166771e-06, 'epoch': 5.11} {'loss': 0.6885, 'grad_norm': 0.9233527183532715, 'learning_rate': 6.3285111581073535e-06, 'epoch': 5.11} {'loss': 0.6526, 'grad_norm': 1.1144888401031494, 'learning_rate': 6.3180874972733904e-06, 'epoch': 5.11} {'loss': 0.6641, 'grad_norm': 1.2709159851074219, 'learning_rate': 6.307668462261732e-06, 'epoch': 5.12} {'loss': 0.6361, 'grad_norm': 1.0699326992034912, 'learning_rate': 6.29725406616248e-06, 'epoch': 5.12} {'loss': 0.6497, 'grad_norm': 0.7990347743034363, 'learning_rate': 6.2868443220599066e-06, 'epoch': 5.12} {'loss': 0.6943, 'grad_norm': 1.2006256580352783, 'learning_rate': 6.276439243032441e-06, 'epoch': 5.12} {'loss': 0.655, 'grad_norm': 0.9797224998474121, 'learning_rate': 6.266038842152646e-06, 'epoch': 5.13} {'loss': 0.6531, 'grad_norm': 0.8411282300949097, 'learning_rate': 6.255643132487212e-06, 'epoch': 5.13} {'loss': 0.6945, 'grad_norm': 0.887937605381012, 'learning_rate': 6.245252127096936e-06, 'epoch': 5.13} {'loss': 0.6282, 'grad_norm': 1.0660005807876587, 'learning_rate': 6.234865839036706e-06, 'epoch': 5.14} {'loss': 0.6402, 'grad_norm': 1.049612283706665, 'learning_rate': 6.224484281355473e-06, 'epoch': 5.14} {'loss': 0.6904, 'grad_norm': 1.1078805923461914, 'learning_rate': 6.214107467096257e-06, 'epoch': 5.14} {'loss': 0.7181, 'grad_norm': 1.2513253688812256, 'learning_rate': 6.203735409296112e-06, 'epoch': 5.14} {'loss': 0.6552, 'grad_norm': 1.0728414058685303, 'learning_rate': 6.193368120986123e-06, 'epoch': 5.15} {'loss': 0.6614, 'grad_norm': 0.8019025325775146, 'learning_rate': 6.18300561519137e-06, 'epoch': 5.15} {'loss': 0.6516, 'grad_norm': 1.1404134035110474, 'learning_rate': 6.172647904930936e-06, 'epoch': 5.15} {'loss': 0.6389, 'grad_norm': 0.9911457300186157, 'learning_rate': 6.162295003217873e-06, 'epoch': 5.15} {'loss': 0.6911, 'grad_norm': 0.855913519859314, 'learning_rate': 6.151946923059203e-06, 'epoch': 5.16} {'loss': 0.6115, 'grad_norm': 1.0116339921951294, 'learning_rate': 6.1416036774558675e-06, 'epoch': 5.16} {'loss': 0.6802, 'grad_norm': 1.0690733194351196, 'learning_rate': 6.131265279402758e-06, 'epoch': 5.16} {'loss': 0.6713, 'grad_norm': 1.0890051126480103, 'learning_rate': 6.120931741888661e-06, 'epoch': 5.17} {'loss': 0.6749, 'grad_norm': 0.995167076587677, 'learning_rate': 6.1106030778962655e-06, 'epoch': 5.17} {'loss': 0.679, 'grad_norm': 0.7456363439559937, 'learning_rate': 6.100279300402128e-06, 'epoch': 5.17} {'loss': 0.6512, 'grad_norm': 1.0148416757583618, 'learning_rate': 6.089960422376673e-06, 'epoch': 5.17} {'loss': 0.6413, 'grad_norm': 0.8804479241371155, 'learning_rate': 6.0796464567841655e-06, 'epoch': 5.18} {'loss': 0.7072, 'grad_norm': 1.1390173435211182, 'learning_rate': 6.069337416582701e-06, 'epoch': 5.18} {'loss': 0.7009, 'grad_norm': 1.1635563373565674, 'learning_rate': 6.059033314724194e-06, 'epoch': 5.18} {'loss': 0.6491, 'grad_norm': 1.1914788484573364, 'learning_rate': 6.048734164154335e-06, 'epoch': 5.18} {'loss': 0.6911, 'grad_norm': 1.0900810956954956, 'learning_rate': 6.038439977812614e-06, 'epoch': 5.19} {'loss': 0.6658, 'grad_norm': 1.0295636653900146, 'learning_rate': 6.028150768632272e-06, 'epoch': 5.19} {'loss': 0.6818, 'grad_norm': 0.9078555703163147, 'learning_rate': 6.0178665495403055e-06, 'epoch': 5.19} {'loss': 0.666, 'grad_norm': 1.1809265613555908, 'learning_rate': 6.007587333457432e-06, 'epoch': 5.2} {'loss': 0.6526, 'grad_norm': 1.152430534362793, 'learning_rate': 5.997313133298092e-06, 'epoch': 5.2} {'loss': 0.6671, 'grad_norm': 1.025913953781128, 'learning_rate': 5.987043961970419e-06, 'epoch': 5.2} {'loss': 0.6719, 'grad_norm': 0.9257127046585083, 'learning_rate': 5.9767798323762315e-06, 'epoch': 5.2} {'loss': 0.6612, 'grad_norm': 1.0024490356445312, 'learning_rate': 5.966520757411012e-06, 'epoch': 5.21} {'loss': 0.6757, 'grad_norm': 1.0988999605178833, 'learning_rate': 5.956266749963888e-06, 'epoch': 5.21} {'loss': 0.6491, 'grad_norm': 1.092415452003479, 'learning_rate': 5.946017822917632e-06, 'epoch': 5.21} {'loss': 0.6471, 'grad_norm': 0.9250696897506714, 'learning_rate': 5.9357739891486276e-06, 'epoch': 5.21} {'loss': 0.6997, 'grad_norm': 1.097847580909729, 'learning_rate': 5.925535261526854e-06, 'epoch': 5.22} {'loss': 0.6852, 'grad_norm': 1.2147014141082764, 'learning_rate': 5.915301652915881e-06, 'epoch': 5.22} {'loss': 0.6625, 'grad_norm': 0.7877543568611145, 'learning_rate': 5.905073176172846e-06, 'epoch': 5.22} {'loss': 0.7012, 'grad_norm': 1.1491100788116455, 'learning_rate': 5.894849844148442e-06, 'epoch': 5.23} {'loss': 0.6348, 'grad_norm': 1.2097493410110474, 'learning_rate': 5.884631669686892e-06, 'epoch': 5.23} {'loss': 0.6924, 'grad_norm': 0.9115278720855713, 'learning_rate': 5.874418665625942e-06, 'epoch': 5.23} {'loss': 0.6511, 'grad_norm': 1.0208014249801636, 'learning_rate': 5.864210844796844e-06, 'epoch': 5.23} {'loss': 0.6466, 'grad_norm': 1.0088727474212646, 'learning_rate': 5.854008220024341e-06, 'epoch': 5.24} {'loss': 0.7386, 'grad_norm': 1.033296823501587, 'learning_rate': 5.843810804126633e-06, 'epoch': 5.24} {'loss': 0.7141, 'grad_norm': 0.8026655912399292, 'learning_rate': 5.8336186099153965e-06, 'epoch': 5.24} {'loss': 0.7025, 'grad_norm': 0.8942638635635376, 'learning_rate': 5.8234316501957276e-06, 'epoch': 5.24} {'loss': 0.6972, 'grad_norm': 1.0841223001480103, 'learning_rate': 5.813249937766169e-06, 'epoch': 5.25} {'loss': 0.6492, 'grad_norm': 1.2000120878219604, 'learning_rate': 5.803073485418646e-06, 'epoch': 5.25} {'loss': 0.683, 'grad_norm': 1.2410506010055542, 'learning_rate': 5.792902305938491e-06, 'epoch': 5.25} {'loss': 0.71, 'grad_norm': 1.2087985277175903, 'learning_rate': 5.782736412104406e-06, 'epoch': 5.25} {'loss': 0.6675, 'grad_norm': 0.9749526977539062, 'learning_rate': 5.772575816688455e-06, 'epoch': 5.26} {'loss': 0.6747, 'grad_norm': 1.2517132759094238, 'learning_rate': 5.7624205324560455e-06, 'epoch': 5.26} {'loss': 0.6851, 'grad_norm': 0.9451830387115479, 'learning_rate': 5.752270572165911e-06, 'epoch': 5.26} {'loss': 0.6793, 'grad_norm': 1.0964679718017578, 'learning_rate': 5.742125948570094e-06, 'epoch': 5.27} {'loss': 0.6693, 'grad_norm': 0.8829273581504822, 'learning_rate': 5.731986674413941e-06, 'epoch': 5.27} {'loss': 0.685, 'grad_norm': 1.0009968280792236, 'learning_rate': 5.721852762436062e-06, 'epoch': 5.27} {'loss': 0.6491, 'grad_norm': 1.1254370212554932, 'learning_rate': 5.711724225368338e-06, 'epoch': 5.27} {'loss': 0.6809, 'grad_norm': 1.0267857313156128, 'learning_rate': 5.7016010759359066e-06, 'epoch': 5.28} {'loss': 0.6737, 'grad_norm': 1.1616997718811035, 'learning_rate': 5.69148332685713e-06, 'epoch': 5.28} {'loss': 0.7011, 'grad_norm': 0.9983019232749939, 'learning_rate': 5.681370990843573e-06, 'epoch': 5.28} {'loss': 0.6752, 'grad_norm': 1.0366829633712769, 'learning_rate': 5.671264080600017e-06, 'epoch': 5.28} {'loss': 0.6577, 'grad_norm': 1.0097565650939941, 'learning_rate': 5.66116260882442e-06, 'epoch': 5.29} {'loss': 0.6924, 'grad_norm': 1.1276531219482422, 'learning_rate': 5.651066588207906e-06, 'epoch': 5.29} {'loss': 0.7001, 'grad_norm': 1.2992526292800903, 'learning_rate': 5.640976031434753e-06, 'epoch': 5.29} {'loss': 0.6816, 'grad_norm': 0.9114861488342285, 'learning_rate': 5.630890951182373e-06, 'epoch': 5.3} {'loss': 0.6339, 'grad_norm': 1.0467520952224731, 'learning_rate': 5.620811360121297e-06, 'epoch': 5.3} {'loss': 0.685, 'grad_norm': 0.7279308438301086, 'learning_rate': 5.610737270915165e-06, 'epoch': 5.3} {'loss': 0.6878, 'grad_norm': 1.0994758605957031, 'learning_rate': 5.6006686962206914e-06, 'epoch': 5.3} {'loss': 0.6862, 'grad_norm': 0.7887360453605652, 'learning_rate': 5.590605648687673e-06, 'epoch': 5.31} {'loss': 0.6886, 'grad_norm': 1.051248550415039, 'learning_rate': 5.580548140958963e-06, 'epoch': 5.31} {'loss': 0.7136, 'grad_norm': 1.2727484703063965, 'learning_rate': 5.57049618567046e-06, 'epoch': 5.31} {'loss': 0.7109, 'grad_norm': 1.169470191001892, 'learning_rate': 5.560449795451064e-06, 'epoch': 5.31} {'loss': 0.686, 'grad_norm': 1.2007893323898315, 'learning_rate': 5.550408982922706e-06, 'epoch': 5.32} {'loss': 0.6555, 'grad_norm': 1.0768625736236572, 'learning_rate': 5.540373760700297e-06, 'epoch': 5.32} {'loss': 0.7107, 'grad_norm': 1.1084346771240234, 'learning_rate': 5.530344141391735e-06, 'epoch': 5.32} {'loss': 0.6471, 'grad_norm': 1.1734317541122437, 'learning_rate': 5.520320137597868e-06, 'epoch': 5.33} {'loss': 0.6273, 'grad_norm': 1.1060822010040283, 'learning_rate': 5.510301761912493e-06, 'epoch': 5.33} {'loss': 0.6527, 'grad_norm': 1.000968098640442, 'learning_rate': 5.50028902692234e-06, 'epoch': 5.33} {'loss': 0.7138, 'grad_norm': 1.1588445901870728, 'learning_rate': 5.490281945207052e-06, 'epoch': 5.33} {'loss': 0.6363, 'grad_norm': 1.0665380954742432, 'learning_rate': 5.480280529339153e-06, 'epoch': 5.34} {'loss': 0.6417, 'grad_norm': 0.946001410484314, 'learning_rate': 5.4702847918840715e-06, 'epoch': 5.34} {'loss': 0.6499, 'grad_norm': 1.0608453750610352, 'learning_rate': 5.460294745400092e-06, 'epoch': 5.34} {'loss': 0.6816, 'grad_norm': 1.1005555391311646, 'learning_rate': 5.450310402438353e-06, 'epoch': 5.34} {'loss': 0.6664, 'grad_norm': 0.9565461277961731, 'learning_rate': 5.4403317755428134e-06, 'epoch': 5.35} {'loss': 0.7075, 'grad_norm': 1.3205113410949707, 'learning_rate': 5.4303588772502656e-06, 'epoch': 5.35} {'loss': 0.6792, 'grad_norm': 1.0606889724731445, 'learning_rate': 5.4203917200902965e-06, 'epoch': 5.35} {'loss': 0.6817, 'grad_norm': 0.8949228525161743, 'learning_rate': 5.410430316585293e-06, 'epoch': 5.36} {'loss': 0.6687, 'grad_norm': 1.0223928689956665, 'learning_rate': 5.400474679250397e-06, 'epoch': 5.36} {'loss': 0.6675, 'grad_norm': 1.170226812362671, 'learning_rate': 5.390524820593513e-06, 'epoch': 5.36} {'loss': 0.6858, 'grad_norm': 1.043290615081787, 'learning_rate': 5.380580753115285e-06, 'epoch': 5.36} {'loss': 0.6772, 'grad_norm': 0.8806403875350952, 'learning_rate': 5.3706424893090825e-06, 'epoch': 5.37} {'loss': 0.7467, 'grad_norm': 1.0320565700531006, 'learning_rate': 5.360710041660982e-06, 'epoch': 5.37} {'loss': 0.6829, 'grad_norm': 1.168562889099121, 'learning_rate': 5.350783422649754e-06, 'epoch': 5.37} {'loss': 0.6435, 'grad_norm': 1.3129304647445679, 'learning_rate': 5.340862644746844e-06, 'epoch': 5.37} {'loss': 0.6969, 'grad_norm': 0.8980957269668579, 'learning_rate': 5.330947720416364e-06, 'epoch': 5.38} {'loss': 0.6758, 'grad_norm': 1.0788037776947021, 'learning_rate': 5.321038662115061e-06, 'epoch': 5.38} {'loss': 0.68, 'grad_norm': 1.0947942733764648, 'learning_rate': 5.311135482292319e-06, 'epoch': 5.38} {'loss': 0.7178, 'grad_norm': 1.2448943853378296, 'learning_rate': 5.3012381933901435e-06, 'epoch': 5.39} {'loss': 0.6909, 'grad_norm': 1.0136877298355103, 'learning_rate': 5.291346807843134e-06, 'epoch': 5.39} {'loss': 0.6997, 'grad_norm': 0.854796290397644, 'learning_rate': 5.281461338078459e-06, 'epoch': 5.39} {'loss': 0.6644, 'grad_norm': 1.1009749174118042, 'learning_rate': 5.271581796515877e-06, 'epoch': 5.39} {'loss': 0.695, 'grad_norm': 1.114585518836975, 'learning_rate': 5.261708195567683e-06, 'epoch': 5.4} {'loss': 0.6591, 'grad_norm': 0.9246742725372314, 'learning_rate': 5.251840547638717e-06, 'epoch': 5.4} {'loss': 0.6692, 'grad_norm': 0.8291510343551636, 'learning_rate': 5.241978865126334e-06, 'epoch': 5.4} {'loss': 0.6641, 'grad_norm': 1.0105035305023193, 'learning_rate': 5.232123160420399e-06, 'epoch': 5.4} {'loss': 0.6353, 'grad_norm': 0.9429757595062256, 'learning_rate': 5.222273445903263e-06, 'epoch': 5.41} {'loss': 0.6529, 'grad_norm': 1.1166590452194214, 'learning_rate': 5.212429733949757e-06, 'epoch': 5.41} {'loss': 0.7117, 'grad_norm': 1.0034515857696533, 'learning_rate': 5.202592036927161e-06, 'epoch': 5.41} {'loss': 0.6785, 'grad_norm': 0.9126425385475159, 'learning_rate': 5.1927603671952e-06, 'epoch': 5.41} {'loss': 0.6778, 'grad_norm': 1.1441423892974854, 'learning_rate': 5.182934737106038e-06, 'epoch': 5.42} {'loss': 0.6712, 'grad_norm': 1.076314926147461, 'learning_rate': 5.173115159004244e-06, 'epoch': 5.42} {'loss': 0.6505, 'grad_norm': 0.8637809753417969, 'learning_rate': 5.1633016452267746e-06, 'epoch': 5.42} {'loss': 0.6725, 'grad_norm': 0.8459166288375854, 'learning_rate': 5.153494208102978e-06, 'epoch': 5.43} {'loss': 0.7241, 'grad_norm': 1.2096757888793945, 'learning_rate': 5.1436928599545655e-06, 'epoch': 5.43} {'loss': 0.6734, 'grad_norm': 1.1322234869003296, 'learning_rate': 5.1338976130956e-06, 'epoch': 5.43} {'loss': 0.77, 'grad_norm': 1.2437227964401245, 'learning_rate': 5.124108479832475e-06, 'epoch': 5.43} {'loss': 0.6723, 'grad_norm': 1.036041498184204, 'learning_rate': 5.114325472463904e-06, 'epoch': 5.44} {'loss': 0.6769, 'grad_norm': 0.7578497529029846, 'learning_rate': 5.104548603280908e-06, 'epoch': 5.44} {'loss': 0.6851, 'grad_norm': 1.1566717624664307, 'learning_rate': 5.094777884566795e-06, 'epoch': 5.44} {'loss': 0.6415, 'grad_norm': 0.909378170967102, 'learning_rate': 5.085013328597135e-06, 'epoch': 5.44} {'loss': 0.651, 'grad_norm': 0.9618132710456848, 'learning_rate': 5.075254947639774e-06, 'epoch': 5.45} {'loss': 0.6948, 'grad_norm': 1.0347577333450317, 'learning_rate': 5.0655027539547876e-06, 'epoch': 5.45} {'loss': 0.6859, 'grad_norm': 1.094049096107483, 'learning_rate': 5.055756759794483e-06, 'epoch': 5.45} {'loss': 0.6567, 'grad_norm': 1.0991886854171753, 'learning_rate': 5.046016977403372e-06, 'epoch': 5.46} {'loss': 0.6916, 'grad_norm': 1.3134976625442505, 'learning_rate': 5.0362834190181685e-06, 'epoch': 5.46} {'loss': 0.6609, 'grad_norm': 0.9510497450828552, 'learning_rate': 5.026556096867761e-06, 'epoch': 5.46} {'loss': 0.6823, 'grad_norm': 1.1089212894439697, 'learning_rate': 5.016835023173216e-06, 'epoch': 5.46} {'loss': 0.6582, 'grad_norm': 1.0109988451004028, 'learning_rate': 5.007120210147734e-06, 'epoch': 5.47} {'loss': 0.7251, 'grad_norm': 1.1234883069992065, 'learning_rate': 4.997411669996656e-06, 'epoch': 5.47} {'loss': 0.6776, 'grad_norm': 0.9707416296005249, 'learning_rate': 4.9877094149174444e-06, 'epoch': 5.47} {'loss': 0.6754, 'grad_norm': 1.1487467288970947, 'learning_rate': 4.9780134570996615e-06, 'epoch': 5.47} {'loss': 0.6789, 'grad_norm': 0.9628332257270813, 'learning_rate': 4.968323808724962e-06, 'epoch': 5.48} {'loss': 0.6468, 'grad_norm': 1.0043551921844482, 'learning_rate': 4.958640481967069e-06, 'epoch': 5.48} {'loss': 0.6365, 'grad_norm': 1.254773497581482, 'learning_rate': 4.948963488991767e-06, 'epoch': 5.48} {'loss': 0.6825, 'grad_norm': 0.9030924439430237, 'learning_rate': 4.9392928419568856e-06, 'epoch': 5.49} {'loss': 0.6538, 'grad_norm': 1.1885442733764648, 'learning_rate': 4.9296285530122675e-06, 'epoch': 5.49} {'loss': 0.7479, 'grad_norm': 1.1471831798553467, 'learning_rate': 4.919970634299783e-06, 'epoch': 5.49} {'loss': 0.672, 'grad_norm': 1.151808738708496, 'learning_rate': 4.910319097953291e-06, 'epoch': 5.49} {'loss': 0.6851, 'grad_norm': 0.9446248412132263, 'learning_rate': 4.900673956098644e-06, 'epoch': 5.5} {'loss': 0.6685, 'grad_norm': 1.1551746129989624, 'learning_rate': 4.891035220853639e-06, 'epoch': 5.5} {'loss': 0.7063, 'grad_norm': 1.144644021987915, 'learning_rate': 4.8814029043280405e-06, 'epoch': 5.5} {'loss': 0.7113, 'grad_norm': 1.1792335510253906, 'learning_rate': 4.871777018623545e-06, 'epoch': 5.5} {'loss': 0.6841, 'grad_norm': 1.162401556968689, 'learning_rate': 4.862157575833767e-06, 'epoch': 5.51} {'loss': 0.6635, 'grad_norm': 1.2223119735717773, 'learning_rate': 4.852544588044229e-06, 'epoch': 5.51} {'loss': 0.6555, 'grad_norm': 1.1709258556365967, 'learning_rate': 4.8429380673323435e-06, 'epoch': 5.51} {'loss': 0.6428, 'grad_norm': 0.9928402304649353, 'learning_rate': 4.833338025767396e-06, 'epoch': 5.52} {'loss': 0.719, 'grad_norm': 0.9455342292785645, 'learning_rate': 4.823744475410538e-06, 'epoch': 5.52} {'loss': 0.6767, 'grad_norm': 1.1681654453277588, 'learning_rate': 4.814157428314752e-06, 'epoch': 5.52} {'loss': 0.7054, 'grad_norm': 0.972430408000946, 'learning_rate': 4.804576896524859e-06, 'epoch': 5.52} {'loss': 0.6523, 'grad_norm': 1.1988167762756348, 'learning_rate': 4.795002892077502e-06, 'epoch': 5.53} {'loss': 0.7327, 'grad_norm': 0.9253522753715515, 'learning_rate': 4.785435427001117e-06, 'epoch': 5.53} {'loss': 0.7022, 'grad_norm': 1.0714372396469116, 'learning_rate': 4.7758745133159124e-06, 'epoch': 5.53} {'loss': 0.6481, 'grad_norm': 0.9657543301582336, 'learning_rate': 4.767275302366769e-06, 'epoch': 5.53} {'loss': 0.7043, 'grad_norm': 1.2230238914489746, 'learning_rate': 4.757726869411029e-06, 'epoch': 5.54} {'loss': 0.6395, 'grad_norm': 1.0650755167007446, 'learning_rate': 4.748185022658508e-06, 'epoch': 5.54} {'loss': 0.6797, 'grad_norm': 1.126784324645996, 'learning_rate': 4.738649774097244e-06, 'epoch': 5.54} {'loss': 0.6956, 'grad_norm': 1.24331796169281, 'learning_rate': 4.729121135706967e-06, 'epoch': 5.55} {'loss': 0.6918, 'grad_norm': 0.875568151473999, 'learning_rate': 4.719599119459127e-06, 'epoch': 5.55} {'loss': 0.6751, 'grad_norm': 1.1435240507125854, 'learning_rate': 4.710083737316841e-06, 'epoch': 5.55} {'loss': 0.6606, 'grad_norm': 0.950495183467865, 'learning_rate': 4.700575001234891e-06, 'epoch': 5.55} {'loss': 0.6576, 'grad_norm': 1.3306925296783447, 'learning_rate': 4.69107292315971e-06, 'epoch': 5.56} {'loss': 0.6856, 'grad_norm': 1.0306847095489502, 'learning_rate': 4.681577515029364e-06, 'epoch': 5.56} {'loss': 0.6838, 'grad_norm': 1.059166669845581, 'learning_rate': 4.672088788773542e-06, 'epoch': 5.56} {'loss': 0.6814, 'grad_norm': 0.8586631417274475, 'learning_rate': 4.662606756313549e-06, 'epoch': 5.56} {'loss': 0.6509, 'grad_norm': 0.995019257068634, 'learning_rate': 4.653131429562258e-06, 'epoch': 5.57} {'loss': 0.6669, 'grad_norm': 1.0777760744094849, 'learning_rate': 4.643662820424129e-06, 'epoch': 5.57} {'loss': 0.6817, 'grad_norm': 1.0800517797470093, 'learning_rate': 4.634200940795186e-06, 'epoch': 5.57} {'loss': 0.6528, 'grad_norm': 0.9280907511711121, 'learning_rate': 4.624745802562991e-06, 'epoch': 5.57} {'loss': 0.6634, 'grad_norm': 0.9807502031326294, 'learning_rate': 4.6152974176066415e-06, 'epoch': 5.58} {'loss': 0.6761, 'grad_norm': 1.2429141998291016, 'learning_rate': 4.605855797796745e-06, 'epoch': 5.58} {'loss': 0.6679, 'grad_norm': 0.9374796748161316, 'learning_rate': 4.596420954995416e-06, 'epoch': 5.58} {'loss': 0.6723, 'grad_norm': 1.1690996885299683, 'learning_rate': 4.586992901056253e-06, 'epoch': 5.59} {'loss': 0.7049, 'grad_norm': 1.062878131866455, 'learning_rate': 4.577571647824317e-06, 'epoch': 5.59} {'loss': 0.6576, 'grad_norm': 1.0597137212753296, 'learning_rate': 4.568157207136136e-06, 'epoch': 5.59} {'loss': 0.669, 'grad_norm': 0.7853736281394958, 'learning_rate': 4.558749590819668e-06, 'epoch': 5.59} {'loss': 0.6809, 'grad_norm': 0.9436920285224915, 'learning_rate': 4.549348810694315e-06, 'epoch': 5.6} {'loss': 0.652, 'grad_norm': 1.0172401666641235, 'learning_rate': 4.53995487857087e-06, 'epoch': 5.6} {'loss': 0.6615, 'grad_norm': 1.0790314674377441, 'learning_rate': 4.530567806251534e-06, 'epoch': 5.6} {'loss': 0.6572, 'grad_norm': 0.9740642309188843, 'learning_rate': 4.521187605529884e-06, 'epoch': 5.6} {'loss': 0.7109, 'grad_norm': 1.2242827415466309, 'learning_rate': 4.51181428819087e-06, 'epoch': 5.61} {'loss': 0.6511, 'grad_norm': 1.1948885917663574, 'learning_rate': 4.502447866010789e-06, 'epoch': 5.61} {'loss': 0.6649, 'grad_norm': 1.2182846069335938, 'learning_rate': 4.493088350757275e-06, 'epoch': 5.61} {'loss': 0.6449, 'grad_norm': 0.9778072237968445, 'learning_rate': 4.483735754189289e-06, 'epoch': 5.62} {'loss': 0.6291, 'grad_norm': 1.0018374919891357, 'learning_rate': 4.474390088057098e-06, 'epoch': 5.62} {'loss': 0.6845, 'grad_norm': 1.0947303771972656, 'learning_rate': 4.465051364102254e-06, 'epoch': 5.62} {'loss': 0.6491, 'grad_norm': 1.2597625255584717, 'learning_rate': 4.455719594057594e-06, 'epoch': 5.62} {'loss': 0.6861, 'grad_norm': 0.8896854519844055, 'learning_rate': 4.446394789647224e-06, 'epoch': 5.63} {'loss': 0.673, 'grad_norm': 1.0863115787506104, 'learning_rate': 4.437076962586494e-06, 'epoch': 5.63} {'loss': 0.6711, 'grad_norm': 1.0874567031860352, 'learning_rate': 4.4277661245819766e-06, 'epoch': 5.63} {'loss': 0.6797, 'grad_norm': 1.1825710535049438, 'learning_rate': 4.418462287331481e-06, 'epoch': 5.63} {'loss': 0.6676, 'grad_norm': 0.9522733688354492, 'learning_rate': 4.40916546252401e-06, 'epoch': 5.64} {'loss': 0.7178, 'grad_norm': 1.2666237354278564, 'learning_rate': 4.399875661839761e-06, 'epoch': 5.64} {'loss': 0.6317, 'grad_norm': 0.881546676158905, 'learning_rate': 4.3905928969501054e-06, 'epoch': 5.64} {'loss': 0.6891, 'grad_norm': 1.0713574886322021, 'learning_rate': 4.381317179517573e-06, 'epoch': 5.65} {'loss': 0.6944, 'grad_norm': 0.805420458316803, 'learning_rate': 4.372048521195843e-06, 'epoch': 5.65} {'loss': 0.6464, 'grad_norm': 1.0691181421279907, 'learning_rate': 4.362786933629728e-06, 'epoch': 5.65} {'loss': 0.6495, 'grad_norm': 1.1832317113876343, 'learning_rate': 4.353532428455141e-06, 'epoch': 5.65} {'loss': 0.6669, 'grad_norm': 0.9858182072639465, 'learning_rate': 4.344285017299119e-06, 'epoch': 5.66} {'loss': 0.6536, 'grad_norm': 1.1790145635604858, 'learning_rate': 4.335044711779775e-06, 'epoch': 5.66} {'loss': 0.6991, 'grad_norm': 1.2578164339065552, 'learning_rate': 4.325811523506299e-06, 'epoch': 5.66} {'loss': 0.7164, 'grad_norm': 0.9932687878608704, 'learning_rate': 4.316585464078929e-06, 'epoch': 5.66} {'loss': 0.6686, 'grad_norm': 0.8085119724273682, 'learning_rate': 4.307366545088959e-06, 'epoch': 5.67} {'loss': 0.7142, 'grad_norm': 1.2570416927337646, 'learning_rate': 4.2981547781187005e-06, 'epoch': 5.67} {'loss': 0.655, 'grad_norm': 0.9857622981071472, 'learning_rate': 4.288950174741498e-06, 'epoch': 5.67} {'loss': 0.6935, 'grad_norm': 1.025707483291626, 'learning_rate': 4.279752746521674e-06, 'epoch': 5.68} {'loss': 0.6655, 'grad_norm': 1.1975404024124146, 'learning_rate': 4.270562505014547e-06, 'epoch': 5.68} {'loss': 0.6946, 'grad_norm': 0.7319482564926147, 'learning_rate': 4.2613794617664084e-06, 'epoch': 5.68} {'loss': 0.6679, 'grad_norm': 1.0521405935287476, 'learning_rate': 4.252203628314502e-06, 'epoch': 5.68} {'loss': 0.6932, 'grad_norm': 1.0243744850158691, 'learning_rate': 4.2430350161870145e-06, 'epoch': 5.69} {'loss': 0.6818, 'grad_norm': 1.270596981048584, 'learning_rate': 4.233873636903061e-06, 'epoch': 5.69} {'loss': 0.6985, 'grad_norm': 1.0211067199707031, 'learning_rate': 4.2247195019726664e-06, 'epoch': 5.69} {'loss': 0.7125, 'grad_norm': 1.0068163871765137, 'learning_rate': 4.215572622896762e-06, 'epoch': 5.69} {'loss': 0.6824, 'grad_norm': 1.0359879732131958, 'learning_rate': 4.206433011167149e-06, 'epoch': 5.7} {'loss': 0.7016, 'grad_norm': 1.120712399482727, 'learning_rate': 4.197300678266512e-06, 'epoch': 5.7} {'loss': 0.686, 'grad_norm': 0.9118121266365051, 'learning_rate': 4.188175635668377e-06, 'epoch': 5.7} {'loss': 0.668, 'grad_norm': 0.9915757775306702, 'learning_rate': 4.1790578948371365e-06, 'epoch': 5.71} {'loss': 0.65, 'grad_norm': 1.0193790197372437, 'learning_rate': 4.169947467227975e-06, 'epoch': 5.71} {'loss': 0.6454, 'grad_norm': 0.8497682809829712, 'learning_rate': 4.160844364286913e-06, 'epoch': 5.71} {'loss': 0.693, 'grad_norm': 1.017444372177124, 'learning_rate': 4.15174859745076e-06, 'epoch': 5.71} {'loss': 0.6677, 'grad_norm': 1.0483853816986084, 'learning_rate': 4.14266017814711e-06, 'epoch': 5.72} {'loss': 0.6372, 'grad_norm': 1.1627088785171509, 'learning_rate': 4.1335791177943255e-06, 'epoch': 5.72} {'loss': 0.6604, 'grad_norm': 1.0324500799179077, 'learning_rate': 4.124505427801524e-06, 'epoch': 5.72} {'loss': 0.6971, 'grad_norm': 1.3328254222869873, 'learning_rate': 4.115439119568563e-06, 'epoch': 5.72} {'loss': 0.6824, 'grad_norm': 1.0273385047912598, 'learning_rate': 4.106380204486029e-06, 'epoch': 5.73} {'loss': 0.707, 'grad_norm': 1.0926363468170166, 'learning_rate': 4.097328693935211e-06, 'epoch': 5.73} {'loss': 0.6724, 'grad_norm': 0.891326904296875, 'learning_rate': 4.0882845992881e-06, 'epoch': 5.73} {'loss': 0.6481, 'grad_norm': 0.7815597653388977, 'learning_rate': 4.079247931907377e-06, 'epoch': 5.73} {'loss': 0.6767, 'grad_norm': 0.9766875505447388, 'learning_rate': 4.070218703146387e-06, 'epoch': 5.74} {'loss': 0.6925, 'grad_norm': 1.1740238666534424, 'learning_rate': 4.06119692434912e-06, 'epoch': 5.74} {'loss': 0.6859, 'grad_norm': 1.2245829105377197, 'learning_rate': 4.0521826068502175e-06, 'epoch': 5.74} {'loss': 0.6402, 'grad_norm': 1.2739521265029907, 'learning_rate': 4.043175761974945e-06, 'epoch': 5.75} {'loss': 0.661, 'grad_norm': 1.0842105150222778, 'learning_rate': 4.034176401039177e-06, 'epoch': 5.75} {'loss': 0.6496, 'grad_norm': 1.0007723569869995, 'learning_rate': 4.025184535349385e-06, 'epoch': 5.75} {'loss': 0.6721, 'grad_norm': 1.119916558265686, 'learning_rate': 4.016200176202629e-06, 'epoch': 5.75} {'loss': 0.6603, 'grad_norm': 1.1720000505447388, 'learning_rate': 4.007223334886531e-06, 'epoch': 5.76} {'loss': 0.6524, 'grad_norm': 1.3392540216445923, 'learning_rate': 3.998254022679276e-06, 'epoch': 5.76} {'loss': 0.6187, 'grad_norm': 0.9610071778297424, 'learning_rate': 3.989292250849575e-06, 'epoch': 5.76} {'loss': 0.6785, 'grad_norm': 1.029121994972229, 'learning_rate': 3.980338030656685e-06, 'epoch': 5.76} {'loss': 0.6527, 'grad_norm': 1.0655062198638916, 'learning_rate': 3.971391373350363e-06, 'epoch': 5.77} {'loss': 0.6754, 'grad_norm': 0.9008738398551941, 'learning_rate': 3.9624522901708695e-06, 'epoch': 5.77} {'loss': 0.681, 'grad_norm': 1.2655107975006104, 'learning_rate': 3.9535207923489415e-06, 'epoch': 5.77} {'loss': 0.6168, 'grad_norm': 0.9687525629997253, 'learning_rate': 3.944596891105794e-06, 'epoch': 5.78} {'loss': 0.7013, 'grad_norm': 1.1901956796646118, 'learning_rate': 3.935680597653091e-06, 'epoch': 5.78} {'loss': 0.6918, 'grad_norm': 1.2570819854736328, 'learning_rate': 3.926771923192953e-06, 'epoch': 5.78} {'loss': 0.6607, 'grad_norm': 1.1371731758117676, 'learning_rate': 3.91787087891791e-06, 'epoch': 5.78} {'loss': 0.674, 'grad_norm': 0.644198477268219, 'learning_rate': 3.908977476010914e-06, 'epoch': 5.79} {'loss': 0.6736, 'grad_norm': 1.1008628606796265, 'learning_rate': 3.900091725645318e-06, 'epoch': 5.79} {'loss': 0.6476, 'grad_norm': 1.0004408359527588, 'learning_rate': 3.891213638984858e-06, 'epoch': 5.79} {'loss': 0.6827, 'grad_norm': 1.0988104343414307, 'learning_rate': 3.882343227183642e-06, 'epoch': 5.79} {'loss': 0.6619, 'grad_norm': 1.2047200202941895, 'learning_rate': 3.8734805013861375e-06, 'epoch': 5.8} {'loss': 0.6397, 'grad_norm': 1.0303705930709839, 'learning_rate': 3.864625472727153e-06, 'epoch': 5.8} {'loss': 0.6891, 'grad_norm': 1.0820722579956055, 'learning_rate': 3.85577815233183e-06, 'epoch': 5.8} {'loss': 0.6409, 'grad_norm': 0.8680232763290405, 'learning_rate': 3.84693855131562e-06, 'epoch': 5.81} {'loss': 0.6937, 'grad_norm': 1.1761058568954468, 'learning_rate': 3.838106680784279e-06, 'epoch': 5.81} {'loss': 0.693, 'grad_norm': 1.0185431241989136, 'learning_rate': 3.82928255183385e-06, 'epoch': 5.81} {'loss': 0.7019, 'grad_norm': 1.1697584390640259, 'learning_rate': 3.820466175550661e-06, 'epoch': 5.81} {'loss': 0.6445, 'grad_norm': 0.8220495581626892, 'learning_rate': 3.8116575630112784e-06, 'epoch': 5.82} {'loss': 0.6788, 'grad_norm': 0.9788574576377869, 'learning_rate': 3.802856725282531e-06, 'epoch': 5.82} {'loss': 0.6653, 'grad_norm': 1.2039622068405151, 'learning_rate': 3.794063673421472e-06, 'epoch': 5.82} {'loss': 0.6718, 'grad_norm': 1.0402270555496216, 'learning_rate': 3.7852784184753776e-06, 'epoch': 5.82} {'loss': 0.6408, 'grad_norm': 1.2620885372161865, 'learning_rate': 3.7765009714817246e-06, 'epoch': 5.83} {'loss': 0.6791, 'grad_norm': 1.091088891029358, 'learning_rate': 3.7677313434681816e-06, 'epoch': 5.83} {'loss': 0.669, 'grad_norm': 0.9509056806564331, 'learning_rate': 3.7589695454525933e-06, 'epoch': 5.83} {'loss': 0.6443, 'grad_norm': 1.1129956245422363, 'learning_rate': 3.7502155884429715e-06, 'epoch': 5.84} {'loss': 0.6755, 'grad_norm': 1.1374247074127197, 'learning_rate': 3.741469483437464e-06, 'epoch': 5.84} {'loss': 0.6937, 'grad_norm': 1.1217975616455078, 'learning_rate': 3.7327312414243643e-06, 'epoch': 5.84} {'loss': 0.6585, 'grad_norm': 0.9709171652793884, 'learning_rate': 3.7240008733820897e-06, 'epoch': 5.84} {'loss': 0.6833, 'grad_norm': 1.1641696691513062, 'learning_rate': 3.7152783902791634e-06, 'epoch': 5.85} {'loss': 0.6738, 'grad_norm': 0.9361814260482788, 'learning_rate': 3.706563803074189e-06, 'epoch': 5.85} {'loss': 0.6762, 'grad_norm': 1.1240298748016357, 'learning_rate': 3.6978571227158655e-06, 'epoch': 5.85} {'loss': 0.7476, 'grad_norm': 1.1949968338012695, 'learning_rate': 3.6891583601429524e-06, 'epoch': 5.85} {'loss': 0.6972, 'grad_norm': 0.814967691898346, 'learning_rate': 3.6804675262842616e-06, 'epoch': 5.86} {'loss': 0.6507, 'grad_norm': 1.1561201810836792, 'learning_rate': 3.6717846320586425e-06, 'epoch': 5.86} {'loss': 0.6653, 'grad_norm': 0.8636119961738586, 'learning_rate': 3.6631096883749727e-06, 'epoch': 5.86} {'loss': 0.6636, 'grad_norm': 1.0351769924163818, 'learning_rate': 3.6544427061321386e-06, 'epoch': 5.87} {'loss': 0.6469, 'grad_norm': 1.115352988243103, 'learning_rate': 3.6457836962190284e-06, 'epoch': 5.87} {'loss': 0.6808, 'grad_norm': 1.138600468635559, 'learning_rate': 3.6371326695144994e-06, 'epoch': 5.87} {'loss': 0.7083, 'grad_norm': 1.3335922956466675, 'learning_rate': 3.6284896368874e-06, 'epoch': 5.87} {'loss': 0.6758, 'grad_norm': 1.1759870052337646, 'learning_rate': 3.6198546091965238e-06, 'epoch': 5.88} {'loss': 0.708, 'grad_norm': 1.1656649112701416, 'learning_rate': 3.6112275972906097e-06, 'epoch': 5.88} {'loss': 0.6922, 'grad_norm': 0.9770891070365906, 'learning_rate': 3.6026086120083182e-06, 'epoch': 5.88} {'loss': 0.7089, 'grad_norm': 1.1592636108398438, 'learning_rate': 3.593997664178238e-06, 'epoch': 5.88} {'loss': 0.6753, 'grad_norm': 1.1140080690383911, 'learning_rate': 3.5853947646188512e-06, 'epoch': 5.89} {'loss': 0.6368, 'grad_norm': 1.174478530883789, 'learning_rate': 3.576799924138532e-06, 'epoch': 5.89} {'loss': 0.6862, 'grad_norm': 1.0999168157577515, 'learning_rate': 3.568213153535529e-06, 'epoch': 5.89} {'loss': 0.6676, 'grad_norm': 1.0411545038223267, 'learning_rate': 3.559634463597952e-06, 'epoch': 5.89} {'loss': 0.6666, 'grad_norm': 0.9661642909049988, 'learning_rate': 3.5510638651037567e-06, 'epoch': 5.9} {'loss': 0.6659, 'grad_norm': 0.9680834412574768, 'learning_rate': 3.5425013688207354e-06, 'epoch': 5.9} {'loss': 0.6838, 'grad_norm': 1.2359358072280884, 'learning_rate': 3.5339469855065e-06, 'epoch': 5.9} {'loss': 0.6804, 'grad_norm': 1.3470420837402344, 'learning_rate': 3.52540072590847e-06, 'epoch': 5.91} {'loss': 0.6415, 'grad_norm': 0.9545279145240784, 'learning_rate': 3.5168626007638586e-06, 'epoch': 5.91} {'loss': 0.6812, 'grad_norm': 1.2354594469070435, 'learning_rate': 3.5083326207996606e-06, 'epoch': 5.91} {'loss': 0.7381, 'grad_norm': 1.1258877515792847, 'learning_rate': 3.499810796732629e-06, 'epoch': 5.91} {'loss': 0.6304, 'grad_norm': 1.1026332378387451, 'learning_rate': 3.491297139269283e-06, 'epoch': 5.92} {'loss': 0.6796, 'grad_norm': 1.0821393728256226, 'learning_rate': 3.4827916591058684e-06, 'epoch': 5.92} {'loss': 0.6499, 'grad_norm': 0.9675941467285156, 'learning_rate': 3.474294366928377e-06, 'epoch': 5.92} {'loss': 0.6782, 'grad_norm': 1.1877474784851074, 'learning_rate': 3.4658052734124893e-06, 'epoch': 5.92} {'loss': 0.6785, 'grad_norm': 1.2057251930236816, 'learning_rate': 3.4573243892235995e-06, 'epoch': 5.93} {'loss': 0.6482, 'grad_norm': 1.0280520915985107, 'learning_rate': 3.4488517250167876e-06, 'epoch': 5.93} {'loss': 0.6297, 'grad_norm': 1.0318363904953003, 'learning_rate': 3.440387291436802e-06, 'epoch': 5.93} {'loss': 0.6539, 'grad_norm': 1.0191012620925903, 'learning_rate': 3.4319310991180522e-06, 'epoch': 5.94} {'loss': 0.6782, 'grad_norm': 0.786944568157196, 'learning_rate': 3.423483158684594e-06, 'epoch': 5.94} {'loss': 0.6565, 'grad_norm': 0.9862946271896362, 'learning_rate': 3.4150434807501155e-06, 'epoch': 5.94} {'loss': 0.7194, 'grad_norm': 1.3351794481277466, 'learning_rate': 3.4066120759179254e-06, 'epoch': 5.94} {'loss': 0.6753, 'grad_norm': 1.1107031106948853, 'learning_rate': 3.398188954780939e-06, 'epoch': 5.95} {'loss': 0.6474, 'grad_norm': 0.9944462180137634, 'learning_rate': 3.3897741279216536e-06, 'epoch': 5.95} {'loss': 0.7021, 'grad_norm': 0.922100841999054, 'learning_rate': 3.3813676059121635e-06, 'epoch': 5.95} {'loss': 0.6433, 'grad_norm': 0.8111031651496887, 'learning_rate': 3.3729693993141177e-06, 'epoch': 5.95} {'loss': 0.6834, 'grad_norm': 1.1330766677856445, 'learning_rate': 3.3645795186787245e-06, 'epoch': 5.96} {'loss': 0.6839, 'grad_norm': 1.208741545677185, 'learning_rate': 3.3561979745467198e-06, 'epoch': 5.96} {'loss': 0.6623, 'grad_norm': 1.2023868560791016, 'learning_rate': 3.3478247774483785e-06, 'epoch': 5.96} {'loss': 0.6493, 'grad_norm': 1.038907766342163, 'learning_rate': 3.33945993790348e-06, 'epoch': 5.97} {'loss': 0.6401, 'grad_norm': 1.0406116247177124, 'learning_rate': 3.331103466421317e-06, 'epoch': 5.97} {'loss': 0.6258, 'grad_norm': 1.1941823959350586, 'learning_rate': 3.322755373500651e-06, 'epoch': 5.97} {'loss': 0.6621, 'grad_norm': 1.1549179553985596, 'learning_rate': 3.314415669629727e-06, 'epoch': 5.97} {'loss': 0.6842, 'grad_norm': 1.1354153156280518, 'learning_rate': 3.3060843652862496e-06, 'epoch': 5.98} {'loss': 0.6755, 'grad_norm': 1.1112046241760254, 'learning_rate': 3.2977614709373696e-06, 'epoch': 5.98} {'loss': 0.7095, 'grad_norm': 1.085850477218628, 'learning_rate': 3.2894469970396716e-06, 'epoch': 5.98} {'loss': 0.6528, 'grad_norm': 1.1565165519714355, 'learning_rate': 3.2811409540391604e-06, 'epoch': 5.98} {'loss': 0.6976, 'grad_norm': 1.1658111810684204, 'learning_rate': 3.272843352371251e-06, 'epoch': 5.99} {'loss': 0.6666, 'grad_norm': 0.9002963900566101, 'learning_rate': 3.2645542024607547e-06, 'epoch': 5.99} {'loss': 0.6528, 'grad_norm': 0.6739630103111267, 'learning_rate': 3.256273514721853e-06, 'epoch': 5.99} {'loss': 0.6689, 'grad_norm': 1.2693885564804077, 'learning_rate': 3.248001299558107e-06, 'epoch': 6.0} {'loss': 0.6221, 'grad_norm': 1.2382041215896606, 'learning_rate': 3.2397375673624286e-06, 'epoch': 6.0} 75%|████████████████████████████████████████████████████████████████████████████████████████▌ | 22128/29504 [56:48:30<20:33:41, 10.04s/it]/venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") {'loss': 0.673, 'grad_norm': 1.1256091594696045, 'learning_rate': 3.2314823285170816e-06, 'epoch': 6.0} {'loss': 0.667, 'grad_norm': 1.1085352897644043, 'learning_rate': 3.223235593393642e-06, 'epoch': 6.0} {'loss': 0.6153, 'grad_norm': 1.092118740081787, 'learning_rate': 3.2149973723530136e-06, 'epoch': 6.01} {'loss': 0.6689, 'grad_norm': 1.0758737325668335, 'learning_rate': 3.2067676757454e-06, 'epoch': 6.01} {'loss': 0.6564, 'grad_norm': 1.0259771347045898, 'learning_rate': 3.198546513910298e-06, 'epoch': 6.01} {'loss': 0.6488, 'grad_norm': 1.2058442831039429, 'learning_rate': 3.1903338971764774e-06, 'epoch': 6.01} {'loss': 0.6682, 'grad_norm': 1.107812523841858, 'learning_rate': 3.1821298358619745e-06, 'epoch': 6.02} {'loss': 0.6839, 'grad_norm': 1.171984314918518, 'learning_rate': 3.1739343402740773e-06, 'epoch': 6.02} {'loss': 0.6783, 'grad_norm': 1.3953306674957275, 'learning_rate': 3.1657474207093144e-06, 'epoch': 6.02} {'loss': 0.6468, 'grad_norm': 1.1378076076507568, 'learning_rate': 3.1575690874534293e-06, 'epoch': 6.02} {'loss': 0.6214, 'grad_norm': 0.9493044018745422, 'learning_rate': 3.1493993507813856e-06, 'epoch': 6.03} {'loss': 0.6881, 'grad_norm': 1.0815459489822388, 'learning_rate': 3.1412382209573546e-06, 'epoch': 6.03} {'loss': 0.637, 'grad_norm': 1.0517946481704712, 'learning_rate': 3.133085708234683e-06, 'epoch': 6.03} {'loss': 0.637, 'grad_norm': 1.1489818096160889, 'learning_rate': 3.1249418228558915e-06, 'epoch': 6.04} {'loss': 0.6506, 'grad_norm': 1.202041506767273, 'learning_rate': 3.1168065750526645e-06, 'epoch': 6.04} {'loss': 0.6543, 'grad_norm': 1.3973305225372314, 'learning_rate': 3.108679975045836e-06, 'epoch': 6.04} {'loss': 0.7075, 'grad_norm': 1.0139752626419067, 'learning_rate': 3.1005620330453733e-06, 'epoch': 6.04} {'loss': 0.6465, 'grad_norm': 1.0161678791046143, 'learning_rate': 3.0924527592503663e-06, 'epoch': 6.05} {'loss': 0.7111, 'grad_norm': 1.2960288524627686, 'learning_rate': 3.084352163849015e-06, 'epoch': 6.05} {'loss': 0.6598, 'grad_norm': 1.2269301414489746, 'learning_rate': 3.0762602570186163e-06, 'epoch': 6.05} {'loss': 0.6756, 'grad_norm': 1.0793782472610474, 'learning_rate': 3.0681770489255523e-06, 'epoch': 6.05} {'loss': 0.6704, 'grad_norm': 1.257630705833435, 'learning_rate': 3.0601025497252656e-06, 'epoch': 6.06} {'loss': 0.6856, 'grad_norm': 0.9898492097854614, 'learning_rate': 3.0520367695622766e-06, 'epoch': 6.06} {'loss': 0.6484, 'grad_norm': 1.1118303537368774, 'learning_rate': 3.043979718570138e-06, 'epoch': 6.06} {'loss': 0.6449, 'grad_norm': 1.0730376243591309, 'learning_rate': 3.035931406871441e-06, 'epoch': 6.07} {'loss': 0.6496, 'grad_norm': 1.2601629495620728, 'learning_rate': 3.0278918445777873e-06, 'epoch': 6.07} {'loss': 0.6235, 'grad_norm': 1.1660250425338745, 'learning_rate': 3.019861041789799e-06, 'epoch': 6.07} {'loss': 0.6495, 'grad_norm': 0.9655682444572449, 'learning_rate': 3.011839008597086e-06, 'epoch': 6.07} {'loss': 0.641, 'grad_norm': 1.0393352508544922, 'learning_rate': 3.0038257550782424e-06, 'epoch': 6.08} {'loss': 0.6487, 'grad_norm': 1.3289463520050049, 'learning_rate': 2.995821291300831e-06, 'epoch': 6.08} {'loss': 0.6768, 'grad_norm': 1.1747972965240479, 'learning_rate': 2.9878256273213735e-06, 'epoch': 6.08} {'loss': 0.6624, 'grad_norm': 1.1768685579299927, 'learning_rate': 2.979838773185332e-06, 'epoch': 6.08} {'loss': 0.648, 'grad_norm': 1.0864572525024414, 'learning_rate': 2.9718607389271046e-06, 'epoch': 6.09} {'loss': 0.6389, 'grad_norm': 1.2129625082015991, 'learning_rate': 2.9638915345700046e-06, 'epoch': 6.09} {'loss': 0.7008, 'grad_norm': 1.219167947769165, 'learning_rate': 2.955931170126254e-06, 'epoch': 6.09} {'loss': 0.6356, 'grad_norm': 1.2876248359680176, 'learning_rate': 2.9479796555969685e-06, 'epoch': 6.1} {'loss': 0.6344, 'grad_norm': 1.264655590057373, 'learning_rate': 2.940037000972148e-06, 'epoch': 6.1} {'loss': 0.6806, 'grad_norm': 1.0918099880218506, 'learning_rate': 2.9321032162306505e-06, 'epoch': 6.1} {'loss': 0.6777, 'grad_norm': 0.8027573823928833, 'learning_rate': 2.924178311340201e-06, 'epoch': 6.1} {'loss': 0.6526, 'grad_norm': 1.184350848197937, 'learning_rate': 2.9162622962573616e-06, 'epoch': 6.11} {'loss': 0.6222, 'grad_norm': 1.354627013206482, 'learning_rate': 2.9083551809275388e-06, 'epoch': 6.11} {'loss': 0.6011, 'grad_norm': 1.2038028240203857, 'learning_rate': 2.9004569752849367e-06, 'epoch': 6.11} {'loss': 0.6597, 'grad_norm': 0.7711929678916931, 'learning_rate': 2.892567689252581e-06, 'epoch': 6.11} {'loss': 0.6858, 'grad_norm': 1.4561113119125366, 'learning_rate': 2.884687332742286e-06, 'epoch': 6.12} {'loss': 0.6664, 'grad_norm': 0.9866273403167725, 'learning_rate': 2.8768159156546484e-06, 'epoch': 6.12} {'loss': 0.6155, 'grad_norm': 1.041805386543274, 'learning_rate': 2.8689534478790328e-06, 'epoch': 6.12} {'loss': 0.6455, 'grad_norm': 0.7957900166511536, 'learning_rate': 2.861099939293561e-06, 'epoch': 6.13} {'loss': 0.6565, 'grad_norm': 1.0567721128463745, 'learning_rate': 2.853255399765098e-06, 'epoch': 6.13} {'loss': 0.6765, 'grad_norm': 1.2085695266723633, 'learning_rate': 2.8454198391492438e-06, 'epoch': 6.13} {'loss': 0.6541, 'grad_norm': 0.9236467480659485, 'learning_rate': 2.8375932672903082e-06, 'epoch': 6.13} {'loss': 0.7074, 'grad_norm': 1.1246411800384521, 'learning_rate': 2.829775694021315e-06, 'epoch': 6.14} {'loss': 0.6666, 'grad_norm': 1.1957051753997803, 'learning_rate': 2.8227475799915126e-06, 'epoch': 6.14} {'loss': 0.6697, 'grad_norm': 1.0205320119857788, 'learning_rate': 2.814947131092898e-06, 'epoch': 6.14} {'loss': 0.6475, 'grad_norm': 1.1388695240020752, 'learning_rate': 2.807155709236017e-06, 'epoch': 6.14} {'loss': 0.672, 'grad_norm': 1.3162014484405518, 'learning_rate': 2.7993733242097343e-06, 'epoch': 6.15} {'loss': 0.6459, 'grad_norm': 1.3074489831924438, 'learning_rate': 2.7915999857915577e-06, 'epoch': 6.15} {'loss': 0.6251, 'grad_norm': 1.291331171989441, 'learning_rate': 2.7838357037476315e-06, 'epoch': 6.15} {'loss': 0.6186, 'grad_norm': 1.012669324874878, 'learning_rate': 2.776080487832715e-06, 'epoch': 6.16} {'loss': 0.6636, 'grad_norm': 1.1653943061828613, 'learning_rate': 2.7683343477901826e-06, 'epoch': 6.16} {'loss': 0.6829, 'grad_norm': 1.2660667896270752, 'learning_rate': 2.760597293352012e-06, 'epoch': 6.16} {'loss': 0.6419, 'grad_norm': 1.0554888248443604, 'learning_rate': 2.752869334238758e-06, 'epoch': 6.16} {'loss': 0.669, 'grad_norm': 1.2684859037399292, 'learning_rate': 2.745150480159546e-06, 'epoch': 6.17} {'loss': 0.655, 'grad_norm': 1.0564982891082764, 'learning_rate': 2.7374407408120685e-06, 'epoch': 6.17} {'loss': 0.6542, 'grad_norm': 1.0756207704544067, 'learning_rate': 2.729740125882565e-06, 'epoch': 6.17} {'loss': 0.6714, 'grad_norm': 1.37608802318573, 'learning_rate': 2.7220486450458106e-06, 'epoch': 6.17} {'loss': 0.707, 'grad_norm': 1.1025216579437256, 'learning_rate': 2.714366307965105e-06, 'epoch': 6.18} {'loss': 0.6245, 'grad_norm': 1.261997103691101, 'learning_rate': 2.706693124292259e-06, 'epoch': 6.18} {'loss': 0.6436, 'grad_norm': 1.21912682056427, 'learning_rate': 2.6990291036675866e-06, 'epoch': 6.18} {'loss': 0.677, 'grad_norm': 1.2667690515518188, 'learning_rate': 2.6913742557198874e-06, 'epoch': 6.18} {'loss': 0.6029, 'grad_norm': 1.2711360454559326, 'learning_rate': 2.6837285900664302e-06, 'epoch': 6.19} {'loss': 0.6266, 'grad_norm': 1.4443765878677368, 'learning_rate': 2.6760921163129603e-06, 'epoch': 6.19} {'loss': 0.6859, 'grad_norm': 1.0379904508590698, 'learning_rate': 2.6684648440536688e-06, 'epoch': 6.19} {'loss': 0.659, 'grad_norm': 1.1520475149154663, 'learning_rate': 2.660846782871187e-06, 'epoch': 6.2} {'loss': 0.66, 'grad_norm': 0.9791125059127808, 'learning_rate': 2.6532379423365673e-06, 'epoch': 6.2} {'loss': 0.6596, 'grad_norm': 1.05303955078125, 'learning_rate': 2.645638332009285e-06, 'epoch': 6.2} {'loss': 0.6803, 'grad_norm': 1.1543757915496826, 'learning_rate': 2.638047961437218e-06, 'epoch': 6.2} {'loss': 0.6648, 'grad_norm': 1.3486789464950562, 'learning_rate': 2.6304668401566334e-06, 'epoch': 6.21} {'loss': 0.6391, 'grad_norm': 1.2016379833221436, 'learning_rate': 2.6228949776921807e-06, 'epoch': 6.21} {'loss': 0.6411, 'grad_norm': 1.1628105640411377, 'learning_rate': 2.6153323835568746e-06, 'epoch': 6.21} {'loss': 0.6532, 'grad_norm': 1.1093395948410034, 'learning_rate': 2.6077790672520853e-06, 'epoch': 6.21} {'loss': 0.6915, 'grad_norm': 1.1608740091323853, 'learning_rate': 2.6002350382675277e-06, 'epoch': 6.22} {'loss': 0.6361, 'grad_norm': 1.3010575771331787, 'learning_rate': 2.5927003060812493e-06, 'epoch': 6.22} {'loss': 0.6564, 'grad_norm': 1.0759358406066895, 'learning_rate': 2.5851748801596155e-06, 'epoch': 6.22} {'loss': 0.6532, 'grad_norm': 1.3859961032867432, 'learning_rate': 2.5776587699573007e-06, 'epoch': 6.23} {'loss': 0.6649, 'grad_norm': 1.021849513053894, 'learning_rate': 2.5701519849172772e-06, 'epoch': 6.23} {'loss': 0.6309, 'grad_norm': 1.1337900161743164, 'learning_rate': 2.5626545344707954e-06, 'epoch': 6.23} {'loss': 0.6038, 'grad_norm': 1.1333929300308228, 'learning_rate': 2.5551664280373833e-06, 'epoch': 6.23} {'loss': 0.6591, 'grad_norm': 1.0343598127365112, 'learning_rate': 2.5476876750248257e-06, 'epoch': 6.24} {'loss': 0.6375, 'grad_norm': 0.9294472336769104, 'learning_rate': 2.540218284829169e-06, 'epoch': 6.24} {'loss': 0.6847, 'grad_norm': 1.191303014755249, 'learning_rate': 2.532758266834675e-06, 'epoch': 6.24} {'loss': 0.6398, 'grad_norm': 1.3067700862884521, 'learning_rate': 2.5253076304138456e-06, 'epoch': 6.24} {'loss': 0.6357, 'grad_norm': 1.1588730812072754, 'learning_rate': 2.517866384927393e-06, 'epoch': 6.25} {'loss': 0.6328, 'grad_norm': 1.0992599725723267, 'learning_rate': 2.510434539724228e-06, 'epoch': 6.25} {'loss': 0.667, 'grad_norm': 1.2880820035934448, 'learning_rate': 2.5030121041414556e-06, 'epoch': 6.25} {'loss': 0.6896, 'grad_norm': 1.0902336835861206, 'learning_rate': 2.4955990875043557e-06, 'epoch': 6.26} {'loss': 0.683, 'grad_norm': 1.1138314008712769, 'learning_rate': 2.4881954991263757e-06, 'epoch': 6.26} {'loss': 0.6624, 'grad_norm': 1.1582157611846924, 'learning_rate': 2.48080134830912e-06, 'epoch': 6.26} {'loss': 0.629, 'grad_norm': 1.1559864282608032, 'learning_rate': 2.473416644342328e-06, 'epoch': 6.26} {'loss': 0.6248, 'grad_norm': 1.2975153923034668, 'learning_rate': 2.4660413965038753e-06, 'epoch': 6.27} {'loss': 0.6355, 'grad_norm': 1.3870669603347778, 'learning_rate': 2.4586756140597646e-06, 'epoch': 6.27} {'loss': 0.6438, 'grad_norm': 1.0013266801834106, 'learning_rate': 2.451319306264098e-06, 'epoch': 6.27} {'loss': 0.6253, 'grad_norm': 1.0304558277130127, 'learning_rate': 2.4439724823590714e-06, 'epoch': 6.27} {'loss': 0.6416, 'grad_norm': 0.996395468711853, 'learning_rate': 2.436635151574973e-06, 'epoch': 6.28} {'loss': 0.6527, 'grad_norm': 0.9138954281806946, 'learning_rate': 2.429307323130161e-06, 'epoch': 6.28} {'loss': 0.6522, 'grad_norm': 1.1170265674591064, 'learning_rate': 2.4219890062310536e-06, 'epoch': 6.28} {'loss': 0.6577, 'grad_norm': 1.160711646080017, 'learning_rate': 2.4146802100721235e-06, 'epoch': 6.29} {'loss': 0.6457, 'grad_norm': 0.9903466701507568, 'learning_rate': 2.4073809438358754e-06, 'epoch': 6.29} {'loss': 0.7094, 'grad_norm': 0.8105939626693726, 'learning_rate': 2.400091216692847e-06, 'epoch': 6.29} {'loss': 0.6249, 'grad_norm': 1.2953506708145142, 'learning_rate': 2.3928110378015925e-06, 'epoch': 6.29} {'loss': 0.6485, 'grad_norm': 0.9680172204971313, 'learning_rate': 2.3855404163086558e-06, 'epoch': 6.3} {'loss': 0.6796, 'grad_norm': 1.326884388923645, 'learning_rate': 2.378279361348593e-06, 'epoch': 6.3} {'loss': 0.6464, 'grad_norm': 0.9837319254875183, 'learning_rate': 2.3710278820439313e-06, 'epoch': 6.3} {'loss': 0.6923, 'grad_norm': 0.9968470335006714, 'learning_rate': 2.3637859875051694e-06, 'epoch': 6.3} {'loss': 0.6333, 'grad_norm': 0.9221671223640442, 'learning_rate': 2.356553686830757e-06, 'epoch': 6.31} {'loss': 0.6113, 'grad_norm': 1.2829464673995972, 'learning_rate': 2.3493309891071003e-06, 'epoch': 6.31} {'loss': 0.6342, 'grad_norm': 1.2387598752975464, 'learning_rate': 2.3421179034085352e-06, 'epoch': 6.31} {'loss': 0.6777, 'grad_norm': 1.2112383842468262, 'learning_rate': 2.334914438797321e-06, 'epoch': 6.32} {'loss': 0.6599, 'grad_norm': 0.919604480266571, 'learning_rate': 2.327720604323639e-06, 'epoch': 6.32} {'loss': 0.645, 'grad_norm': 0.8139984011650085, 'learning_rate': 2.3205364090255566e-06, 'epoch': 6.32} {'loss': 0.6342, 'grad_norm': 0.909156322479248, 'learning_rate': 2.31336186192904e-06, 'epoch': 6.32} {'loss': 0.668, 'grad_norm': 1.0486869812011719, 'learning_rate': 2.306196972047933e-06, 'epoch': 6.33} {'loss': 0.6422, 'grad_norm': 0.9371660947799683, 'learning_rate': 2.2990417483839433e-06, 'epoch': 6.33} {'loss': 0.6703, 'grad_norm': 1.1665679216384888, 'learning_rate': 2.2918961999266374e-06, 'epoch': 6.33} {'loss': 0.6405, 'grad_norm': 1.2273540496826172, 'learning_rate': 2.2847603356534253e-06, 'epoch': 6.33} {'loss': 0.6314, 'grad_norm': 1.1395220756530762, 'learning_rate': 2.2776341645295496e-06, 'epoch': 6.34} {'loss': 0.6435, 'grad_norm': 1.1313284635543823, 'learning_rate': 2.2705176955080775e-06, 'epoch': 6.34} {'loss': 0.6383, 'grad_norm': 1.3080766201019287, 'learning_rate': 2.263410937529881e-06, 'epoch': 6.34} {'loss': 0.6101, 'grad_norm': 1.1437050104141235, 'learning_rate': 2.2563138995236324e-06, 'epoch': 6.34} {'loss': 0.6134, 'grad_norm': 1.0241620540618896, 'learning_rate': 2.249226590405801e-06, 'epoch': 6.35} {'loss': 0.6662, 'grad_norm': 1.2161424160003662, 'learning_rate': 2.2421490190806284e-06, 'epoch': 6.35} {'loss': 0.6894, 'grad_norm': 0.8826665878295898, 'learning_rate': 2.2350811944401117e-06, 'epoch': 6.35} {'loss': 0.6737, 'grad_norm': 1.1976325511932373, 'learning_rate': 2.228023125364017e-06, 'epoch': 6.36} {'loss': 0.6498, 'grad_norm': 1.1049046516418457, 'learning_rate': 2.2209748207198477e-06, 'epoch': 6.36} {'loss': 0.653, 'grad_norm': 1.072994351387024, 'learning_rate': 2.213936289362838e-06, 'epoch': 6.36} {'loss': 0.6415, 'grad_norm': 0.8392840027809143, 'learning_rate': 2.2069075401359473e-06, 'epoch': 6.36} {'loss': 0.6285, 'grad_norm': 1.3621442317962646, 'learning_rate': 2.1998885818698434e-06, 'epoch': 6.37} {'loss': 0.6238, 'grad_norm': 1.088502049446106, 'learning_rate': 2.192879423382891e-06, 'epoch': 6.37} {'loss': 0.6365, 'grad_norm': 0.6864522099494934, 'learning_rate': 2.185880073481147e-06, 'epoch': 6.37} {'loss': 0.658, 'grad_norm': 1.2165038585662842, 'learning_rate': 2.1788905409583373e-06, 'epoch': 6.37} {'loss': 0.6423, 'grad_norm': 1.0176901817321777, 'learning_rate': 2.171910834595864e-06, 'epoch': 6.38} {'loss': 0.6428, 'grad_norm': 1.1205060482025146, 'learning_rate': 2.164940963162777e-06, 'epoch': 6.38} {'loss': 0.6437, 'grad_norm': 1.0037575960159302, 'learning_rate': 2.1579809354157753e-06, 'epoch': 6.38} {'loss': 0.6721, 'grad_norm': 0.9172428846359253, 'learning_rate': 2.151030760099182e-06, 'epoch': 6.39} {'loss': 0.6681, 'grad_norm': 1.131280541419983, 'learning_rate': 2.1440904459449486e-06, 'epoch': 6.39} {'loss': 0.6509, 'grad_norm': 0.9065238237380981, 'learning_rate': 2.137160001672637e-06, 'epoch': 6.39} {'loss': 0.6352, 'grad_norm': 1.30608332157135, 'learning_rate': 2.1302394359894073e-06, 'epoch': 6.39} {'loss': 0.6373, 'grad_norm': 0.9214881062507629, 'learning_rate': 2.1233287575900085e-06, 'epoch': 6.4} {'loss': 0.6539, 'grad_norm': 1.0409621000289917, 'learning_rate': 2.1164279751567694e-06, 'epoch': 6.4} {'loss': 0.6378, 'grad_norm': 1.091308355331421, 'learning_rate': 2.109537097359584e-06, 'epoch': 6.4} {'loss': 0.6847, 'grad_norm': 1.291955590248108, 'learning_rate': 2.1026561328559026e-06, 'epoch': 6.4} {'loss': 0.632, 'grad_norm': 1.0797117948532104, 'learning_rate': 2.095785090290722e-06, 'epoch': 6.41} {'loss': 0.6823, 'grad_norm': 1.0173447132110596, 'learning_rate': 2.088923978296572e-06, 'epoch': 6.41} {'loss': 0.6547, 'grad_norm': 1.0549958944320679, 'learning_rate': 2.082072805493508e-06, 'epoch': 6.41} {'loss': 0.6394, 'grad_norm': 1.1519633531570435, 'learning_rate': 2.075231580489098e-06, 'epoch': 6.42} {'loss': 0.6488, 'grad_norm': 1.1841837167739868, 'learning_rate': 2.0684003118784057e-06, 'epoch': 6.42} {'loss': 0.6115, 'grad_norm': 1.2253292798995972, 'learning_rate': 2.0615790082439946e-06, 'epoch': 6.42} {'loss': 0.7033, 'grad_norm': 1.27637779712677, 'learning_rate': 2.054767678155901e-06, 'epoch': 6.42} {'loss': 0.614, 'grad_norm': 0.9901120662689209, 'learning_rate': 2.0479663301716446e-06, 'epoch': 6.43} {'loss': 0.6075, 'grad_norm': 1.0729554891586304, 'learning_rate': 2.041174972836184e-06, 'epoch': 6.43} {'loss': 0.645, 'grad_norm': 1.249501347541809, 'learning_rate': 2.034393614681941e-06, 'epoch': 6.43} {'loss': 0.6348, 'grad_norm': 1.152071475982666, 'learning_rate': 2.027622264228768e-06, 'epoch': 6.43} {'loss': 0.6591, 'grad_norm': 1.5196539163589478, 'learning_rate': 2.0208609299839465e-06, 'epoch': 6.44} {'loss': 0.6134, 'grad_norm': 1.0851860046386719, 'learning_rate': 2.014109620442173e-06, 'epoch': 6.44} {'loss': 0.6839, 'grad_norm': 1.241626262664795, 'learning_rate': 2.0073683440855507e-06, 'epoch': 6.44} {'loss': 0.6869, 'grad_norm': 1.050216794013977, 'learning_rate': 2.0006371093835765e-06, 'epoch': 6.45} {'loss': 0.6807, 'grad_norm': 0.9377833008766174, 'learning_rate': 1.9939159247931327e-06, 'epoch': 6.45} {'loss': 0.6285, 'grad_norm': 1.1546037197113037, 'learning_rate': 1.9872047987584698e-06, 'epoch': 6.45} {'loss': 0.6688, 'grad_norm': 1.113691806793213, 'learning_rate': 1.9805037397112036e-06, 'epoch': 6.45} {'loss': 0.705, 'grad_norm': 1.1108415126800537, 'learning_rate': 1.973812756070309e-06, 'epoch': 6.46} {'loss': 0.7084, 'grad_norm': 1.0513696670532227, 'learning_rate': 1.9671318562420982e-06, 'epoch': 6.46} {'loss': 0.6822, 'grad_norm': 1.1823225021362305, 'learning_rate': 1.960461048620207e-06, 'epoch': 6.46} {'loss': 0.6455, 'grad_norm': 0.980862021446228, 'learning_rate': 1.9538003415856e-06, 'epoch': 6.46} {'loss': 0.6525, 'grad_norm': 1.4700055122375488, 'learning_rate': 1.94714974350655e-06, 'epoch': 6.47} {'loss': 0.6114, 'grad_norm': 1.2152137756347656, 'learning_rate': 1.9405092627386303e-06, 'epoch': 6.47} {'loss': 0.6866, 'grad_norm': 1.005247712135315, 'learning_rate': 1.9338789076247e-06, 'epoch': 6.47} {'loss': 0.6453, 'grad_norm': 1.28885018825531, 'learning_rate': 1.9272586864948993e-06, 'epoch': 6.48} {'loss': 0.6656, 'grad_norm': 1.0507149696350098, 'learning_rate': 1.9206486076666362e-06, 'epoch': 6.48} {'loss': 0.6474, 'grad_norm': 1.1823152303695679, 'learning_rate': 1.914048679444578e-06, 'epoch': 6.48} {'loss': 0.6463, 'grad_norm': 1.0759779214859009, 'learning_rate': 1.9074589101206287e-06, 'epoch': 6.48} {'loss': 0.6972, 'grad_norm': 0.9589935541152954, 'learning_rate': 1.9008793079739453e-06, 'epoch': 6.49} {'loss': 0.6654, 'grad_norm': 1.1763213872909546, 'learning_rate': 1.8943098812709004e-06, 'epoch': 6.49} {'loss': 0.6593, 'grad_norm': 1.1752920150756836, 'learning_rate': 1.8877506382650879e-06, 'epoch': 6.49} {'loss': 0.6464, 'grad_norm': 0.9084352850914001, 'learning_rate': 1.8812015871973e-06, 'epoch': 6.49} {'loss': 0.6696, 'grad_norm': 1.2386764287948608, 'learning_rate': 1.8746627362955293e-06, 'epoch': 6.5} {'loss': 0.6608, 'grad_norm': 1.0260697603225708, 'learning_rate': 1.8681340937749547e-06, 'epoch': 6.5} {'loss': 0.6892, 'grad_norm': 1.0834463834762573, 'learning_rate': 1.8616156678379272e-06, 'epoch': 6.5} {'loss': 0.6644, 'grad_norm': 1.3080933094024658, 'learning_rate': 1.855107466673961e-06, 'epoch': 6.5} {'loss': 0.6356, 'grad_norm': 1.2662055492401123, 'learning_rate': 1.8486094984597268e-06, 'epoch': 6.51} {'loss': 0.6337, 'grad_norm': 1.4600611925125122, 'learning_rate': 1.8421217713590388e-06, 'epoch': 6.51} {'loss': 0.6262, 'grad_norm': 1.2506661415100098, 'learning_rate': 1.8356442935228424e-06, 'epoch': 6.51} {'loss': 0.6929, 'grad_norm': 1.3040140867233276, 'learning_rate': 1.8291770730892088e-06, 'epoch': 6.52} {'loss': 0.6402, 'grad_norm': 1.2085810899734497, 'learning_rate': 1.8227201181833187e-06, 'epoch': 6.52} {'loss': 0.6454, 'grad_norm': 0.9809965491294861, 'learning_rate': 1.8162734369174606e-06, 'epoch': 6.52} {'loss': 0.687, 'grad_norm': 1.3502225875854492, 'learning_rate': 1.8098370373910135e-06, 'epoch': 6.52} {'loss': 0.6473, 'grad_norm': 1.1823185682296753, 'learning_rate': 1.8034109276904321e-06, 'epoch': 6.53} {'loss': 0.6657, 'grad_norm': 1.1486048698425293, 'learning_rate': 1.796995115889254e-06, 'epoch': 6.53} {'loss': 0.7044, 'grad_norm': 1.102803111076355, 'learning_rate': 1.7905896100480713e-06, 'epoch': 6.53} {'loss': 0.6484, 'grad_norm': 1.1018092632293701, 'learning_rate': 1.7841944182145366e-06, 'epoch': 6.53} {'loss': 0.6861, 'grad_norm': 1.1992032527923584, 'learning_rate': 1.7778095484233327e-06, 'epoch': 6.54} {'loss': 0.6282, 'grad_norm': 0.9851320385932922, 'learning_rate': 1.771435008696183e-06, 'epoch': 6.54} {'loss': 0.6711, 'grad_norm': 1.1522128582000732, 'learning_rate': 1.7650708070418277e-06, 'epoch': 6.54} {'loss': 0.6348, 'grad_norm': 0.9158728718757629, 'learning_rate': 1.7587169514560232e-06, 'epoch': 6.55} {'loss': 0.6207, 'grad_norm': 1.1567515134811401, 'learning_rate': 1.7523734499215228e-06, 'epoch': 6.55} {'loss': 0.6329, 'grad_norm': 1.2986024618148804, 'learning_rate': 1.7460403104080748e-06, 'epoch': 6.55} {'loss': 0.6697, 'grad_norm': 0.9051125645637512, 'learning_rate': 1.7397175408724066e-06, 'epoch': 6.55} {'loss': 0.6537, 'grad_norm': 0.9526339769363403, 'learning_rate': 1.7334051492582215e-06, 'epoch': 6.56} {'loss': 0.6408, 'grad_norm': 1.1153717041015625, 'learning_rate': 1.727103143496175e-06, 'epoch': 6.56} {'loss': 0.6709, 'grad_norm': 0.9700170755386353, 'learning_rate': 1.720811531503882e-06, 'epoch': 6.56} {'loss': 0.6536, 'grad_norm': 0.9393854737281799, 'learning_rate': 1.7145303211859011e-06, 'epoch': 6.56} {'loss': 0.6751, 'grad_norm': 1.1458650827407837, 'learning_rate': 1.7082595204337183e-06, 'epoch': 6.57} {'loss': 0.6586, 'grad_norm': 1.362913727760315, 'learning_rate': 1.7019991371257383e-06, 'epoch': 6.57} {'loss': 0.7296, 'grad_norm': 0.9934278130531311, 'learning_rate': 1.695749179127283e-06, 'epoch': 6.57} {'loss': 0.6925, 'grad_norm': 1.0818175077438354, 'learning_rate': 1.6895096542905742e-06, 'epoch': 6.58} {'loss': 0.6347, 'grad_norm': 0.9445083141326904, 'learning_rate': 1.6832805704547272e-06, 'epoch': 6.58} {'loss': 0.6981, 'grad_norm': 1.2742335796356201, 'learning_rate': 1.6770619354457385e-06, 'epoch': 6.58} {'loss': 0.6918, 'grad_norm': 1.3670700788497925, 'learning_rate': 1.670853757076476e-06, 'epoch': 6.58} {'loss': 0.6034, 'grad_norm': 0.9835840463638306, 'learning_rate': 1.6646560431466729e-06, 'epoch': 6.59} {'loss': 0.6727, 'grad_norm': 1.3769338130950928, 'learning_rate': 1.6584688014429162e-06, 'epoch': 6.59} {'loss': 0.6388, 'grad_norm': 0.8290426135063171, 'learning_rate': 1.6522920397386255e-06, 'epoch': 6.59} {'loss': 0.6431, 'grad_norm': 1.174959421157837, 'learning_rate': 1.6461257657940699e-06, 'epoch': 6.59} {'loss': 0.656, 'grad_norm': 1.130484700202942, 'learning_rate': 1.63996998735633e-06, 'epoch': 6.6} {'loss': 0.6411, 'grad_norm': 1.1237659454345703, 'learning_rate': 1.6338247121593087e-06, 'epoch': 6.6} {'loss': 0.6478, 'grad_norm': 1.142572283744812, 'learning_rate': 1.627689947923703e-06, 'epoch': 6.6} {'loss': 0.6579, 'grad_norm': 0.8263173699378967, 'learning_rate': 1.6215657023570118e-06, 'epoch': 6.61} {'loss': 0.6476, 'grad_norm': 1.2248749732971191, 'learning_rate': 1.6154519831535165e-06, 'epoch': 6.61} {'loss': 0.6339, 'grad_norm': 0.9880480766296387, 'learning_rate': 1.6093487979942747e-06, 'epoch': 6.61} {'loss': 0.6284, 'grad_norm': 1.0942875146865845, 'learning_rate': 1.603256154547108e-06, 'epoch': 6.61} {'loss': 0.6679, 'grad_norm': 1.0790058374404907, 'learning_rate': 1.597174060466594e-06, 'epoch': 6.62} {'loss': 0.6539, 'grad_norm': 1.0372602939605713, 'learning_rate': 1.591102523394057e-06, 'epoch': 6.62} {'loss': 0.6911, 'grad_norm': 1.4802284240722656, 'learning_rate': 1.58504155095756e-06, 'epoch': 6.62} {'loss': 0.6164, 'grad_norm': 0.9708362221717834, 'learning_rate': 1.5789911507718824e-06, 'epoch': 6.62} {'loss': 0.6266, 'grad_norm': 1.1267226934432983, 'learning_rate': 1.572951330438539e-06, 'epoch': 6.63} {'loss': 0.6567, 'grad_norm': 1.205955982208252, 'learning_rate': 1.5669220975457378e-06, 'epoch': 6.63} {'loss': 0.6331, 'grad_norm': 1.0391358137130737, 'learning_rate': 1.5609034596683925e-06, 'epoch': 6.63} {'loss': 0.6286, 'grad_norm': 1.0630195140838623, 'learning_rate': 1.5548954243680992e-06, 'epoch': 6.64} {'loss': 0.6766, 'grad_norm': 0.9197445511817932, 'learning_rate': 1.5488979991931385e-06, 'epoch': 6.64} {'loss': 0.7097, 'grad_norm': 1.19839608669281, 'learning_rate': 1.542911191678459e-06, 'epoch': 6.64} {'loss': 0.6365, 'grad_norm': 1.0837583541870117, 'learning_rate': 1.5369350093456747e-06, 'epoch': 6.64} {'loss': 0.6581, 'grad_norm': 1.1503093242645264, 'learning_rate': 1.53096945970304e-06, 'epoch': 6.65} {'loss': 0.6521, 'grad_norm': 1.24180006980896, 'learning_rate': 1.5250145502454594e-06, 'epoch': 6.65} {'loss': 0.6459, 'grad_norm': 1.3521111011505127, 'learning_rate': 1.5190702884544673e-06, 'epoch': 6.65} {'loss': 0.6458, 'grad_norm': 1.1949518918991089, 'learning_rate': 1.5131366817982186e-06, 'epoch': 6.65} {'loss': 0.5895, 'grad_norm': 1.1596990823745728, 'learning_rate': 1.5072137377314834e-06, 'epoch': 6.66} {'loss': 0.6274, 'grad_norm': 1.3504265546798706, 'learning_rate': 1.5013014636956358e-06, 'epoch': 6.66} {'loss': 0.6503, 'grad_norm': 1.1855369806289673, 'learning_rate': 1.4953998671186443e-06, 'epoch': 6.66} {'loss': 0.6291, 'grad_norm': 1.2734075784683228, 'learning_rate': 1.4895089554150644e-06, 'epoch': 6.66} {'loss': 0.7178, 'grad_norm': 1.1356117725372314, 'learning_rate': 1.4836287359860203e-06, 'epoch': 6.67} {'loss': 0.6716, 'grad_norm': 0.9928479194641113, 'learning_rate': 1.4777592162192089e-06, 'epoch': 6.67} {'loss': 0.6381, 'grad_norm': 1.1679195165634155, 'learning_rate': 1.4719004034888885e-06, 'epoch': 6.67} {'loss': 0.6976, 'grad_norm': 1.3271877765655518, 'learning_rate': 1.4660523051558584e-06, 'epoch': 6.68} {'loss': 0.6946, 'grad_norm': 1.4427909851074219, 'learning_rate': 1.4602149285674561e-06, 'epoch': 6.68} {'loss': 0.6517, 'grad_norm': 1.3018202781677246, 'learning_rate': 1.4543882810575527e-06, 'epoch': 6.68} {'loss': 0.6679, 'grad_norm': 1.1755238771438599, 'learning_rate': 1.4485723699465392e-06, 'epoch': 6.68} {'loss': 0.6472, 'grad_norm': 1.2623392343521118, 'learning_rate': 1.4427672025413163e-06, 'epoch': 6.69} {'loss': 0.6701, 'grad_norm': 1.233411192893982, 'learning_rate': 1.4369727861352878e-06, 'epoch': 6.69} {'loss': 0.6422, 'grad_norm': 1.0776374340057373, 'learning_rate': 1.4311891280083489e-06, 'epoch': 6.69} {'loss': 0.6357, 'grad_norm': 1.1392873525619507, 'learning_rate': 1.4254162354268797e-06, 'epoch': 6.69} {'loss': 0.6193, 'grad_norm': 0.849471390247345, 'learning_rate': 1.4196541156437383e-06, 'epoch': 6.7} {'loss': 0.6622, 'grad_norm': 0.984921932220459, 'learning_rate': 1.413902775898236e-06, 'epoch': 6.7} {'loss': 0.666, 'grad_norm': 1.1545588970184326, 'learning_rate': 1.4081622234161562e-06, 'epoch': 6.7} {'loss': 0.6885, 'grad_norm': 1.0365163087844849, 'learning_rate': 1.402432465409721e-06, 'epoch': 6.71} {'loss': 0.6341, 'grad_norm': 1.0481476783752441, 'learning_rate': 1.396713509077593e-06, 'epoch': 6.71} {'loss': 0.6218, 'grad_norm': 1.311402678489685, 'learning_rate': 1.3910053616048603e-06, 'epoch': 6.71} {'loss': 0.633, 'grad_norm': 0.8713832497596741, 'learning_rate': 1.385308030163034e-06, 'epoch': 6.71} {'loss': 0.6645, 'grad_norm': 1.2206612825393677, 'learning_rate': 1.3796215219100373e-06, 'epoch': 6.72} {'loss': 0.6501, 'grad_norm': 0.9720123410224915, 'learning_rate': 1.373945843990192e-06, 'epoch': 6.72} {'loss': 0.7028, 'grad_norm': 1.2236617803573608, 'learning_rate': 1.368281003534222e-06, 'epoch': 6.72} {'loss': 0.6595, 'grad_norm': 1.0192073583602905, 'learning_rate': 1.362627007659223e-06, 'epoch': 6.72} {'loss': 0.6355, 'grad_norm': 0.9352213740348816, 'learning_rate': 1.3569838634686738e-06, 'epoch': 6.73} {'loss': 0.6452, 'grad_norm': 1.2961608171463013, 'learning_rate': 1.3513515780524167e-06, 'epoch': 6.73} {'loss': 0.6507, 'grad_norm': 1.263005256652832, 'learning_rate': 1.3457301584866533e-06, 'epoch': 6.73} {'loss': 0.7397, 'grad_norm': 1.5644664764404297, 'learning_rate': 1.340119611833932e-06, 'epoch': 6.74} {'loss': 0.6674, 'grad_norm': 0.9541850686073303, 'learning_rate': 1.3345199451431423e-06, 'epoch': 6.74} {'loss': 0.6989, 'grad_norm': 1.1413973569869995, 'learning_rate': 1.328931165449504e-06, 'epoch': 6.74} {'loss': 0.6701, 'grad_norm': 1.039396047592163, 'learning_rate': 1.3233532797745597e-06, 'epoch': 6.74} {'loss': 0.6583, 'grad_norm': 1.3524023294448853, 'learning_rate': 1.3177862951261612e-06, 'epoch': 6.75} {'loss': 0.6736, 'grad_norm': 1.2714879512786865, 'learning_rate': 1.3122302184984658e-06, 'epoch': 6.75} {'loss': 0.6424, 'grad_norm': 1.4531303644180298, 'learning_rate': 1.3066850568719348e-06, 'epoch': 6.75} {'loss': 0.6782, 'grad_norm': 1.2099334001541138, 'learning_rate': 1.301150817213308e-06, 'epoch': 6.75} {'loss': 0.6585, 'grad_norm': 0.9050024151802063, 'learning_rate': 1.2956275064756007e-06, 'epoch': 6.76} {'loss': 0.6613, 'grad_norm': 1.0664936304092407, 'learning_rate': 1.2901151315981042e-06, 'epoch': 6.76} {'loss': 0.6153, 'grad_norm': 1.163994550704956, 'learning_rate': 1.2846136995063673e-06, 'epoch': 6.76} {'loss': 0.627, 'grad_norm': 1.1985509395599365, 'learning_rate': 1.2791232171121914e-06, 'epoch': 6.77} {'loss': 0.6711, 'grad_norm': 1.1906540393829346, 'learning_rate': 1.273643691313622e-06, 'epoch': 6.77} {'loss': 0.6644, 'grad_norm': 1.2098878622055054, 'learning_rate': 1.2681751289949363e-06, 'epoch': 6.77} {'loss': 0.6986, 'grad_norm': 1.4189772605895996, 'learning_rate': 1.2627175370266398e-06, 'epoch': 6.77} {'loss': 0.6318, 'grad_norm': 1.1746288537979126, 'learning_rate': 1.2572709222654567e-06, 'epoch': 6.78} {'loss': 0.6497, 'grad_norm': 0.9813181161880493, 'learning_rate': 1.251835291554312e-06, 'epoch': 6.78} {'loss': 0.6937, 'grad_norm': 1.3138089179992676, 'learning_rate': 1.2464106517223417e-06, 'epoch': 6.78} {'loss': 0.6706, 'grad_norm': 1.0089389085769653, 'learning_rate': 1.2409970095848666e-06, 'epoch': 6.78} {'loss': 0.6517, 'grad_norm': 1.125251054763794, 'learning_rate': 1.2355943719433928e-06, 'epoch': 6.79} {'loss': 0.6418, 'grad_norm': 1.0677322149276733, 'learning_rate': 1.2302027455855969e-06, 'epoch': 6.79} {'loss': 0.6086, 'grad_norm': 1.048020601272583, 'learning_rate': 1.2248221372853265e-06, 'epoch': 6.79} {'loss': 0.6837, 'grad_norm': 1.2743839025497437, 'learning_rate': 1.2194525538025826e-06, 'epoch': 6.8} {'loss': 0.6502, 'grad_norm': 1.2331185340881348, 'learning_rate': 1.2140940018835169e-06, 'epoch': 6.8} {'loss': 0.6544, 'grad_norm': 1.1571874618530273, 'learning_rate': 1.2087464882604216e-06, 'epoch': 6.8} {'loss': 0.652, 'grad_norm': 1.1212016344070435, 'learning_rate': 1.2034100196517207e-06, 'epoch': 6.8} {'loss': 0.6923, 'grad_norm': 1.1437052488327026, 'learning_rate': 1.1980846027619598e-06, 'epoch': 6.81} {'loss': 0.6568, 'grad_norm': 1.2148767709732056, 'learning_rate': 1.1927702442818046e-06, 'epoch': 6.81} {'loss': 0.6256, 'grad_norm': 1.2010456323623657, 'learning_rate': 1.1874669508880165e-06, 'epoch': 6.81} {'loss': 0.6727, 'grad_norm': 1.0087164640426636, 'learning_rate': 1.1821747292434693e-06, 'epoch': 6.81} {'loss': 0.6505, 'grad_norm': 1.3195408582687378, 'learning_rate': 1.1768935859971164e-06, 'epoch': 6.82} {'loss': 0.6572, 'grad_norm': 1.0341176986694336, 'learning_rate': 1.1716235277840004e-06, 'epoch': 6.82} {'loss': 0.651, 'grad_norm': 0.9363918304443359, 'learning_rate': 1.1663645612252261e-06, 'epoch': 6.82} {'loss': 0.663, 'grad_norm': 1.1040513515472412, 'learning_rate': 1.1611166929279726e-06, 'epoch': 6.82} {'loss': 0.6657, 'grad_norm': 1.2894071340560913, 'learning_rate': 1.1558799294854716e-06, 'epoch': 6.83} {'loss': 0.6192, 'grad_norm': 1.1250354051589966, 'learning_rate': 1.15065427747701e-06, 'epoch': 6.83} {'loss': 0.6477, 'grad_norm': 1.085538625717163, 'learning_rate': 1.1454397434679022e-06, 'epoch': 6.83} {'loss': 0.6343, 'grad_norm': 1.2539578676223755, 'learning_rate': 1.1402363340095024e-06, 'epoch': 6.84} {'loss': 0.6329, 'grad_norm': 1.2476392984390259, 'learning_rate': 1.1350440556391873e-06, 'epoch': 6.84} {'loss': 0.656, 'grad_norm': 1.180131435394287, 'learning_rate': 1.1298629148803496e-06, 'epoch': 6.84} {'loss': 0.6827, 'grad_norm': 1.2055851221084595, 'learning_rate': 1.124692918242387e-06, 'epoch': 6.84} {'loss': 0.659, 'grad_norm': 1.1029247045516968, 'learning_rate': 1.1195340722206982e-06, 'epoch': 6.85} {'loss': 0.6207, 'grad_norm': 1.232038140296936, 'learning_rate': 1.1143863832966694e-06, 'epoch': 6.85} {'loss': 0.6836, 'grad_norm': 0.8811635375022888, 'learning_rate': 1.1092498579376765e-06, 'epoch': 6.85} {'loss': 0.6729, 'grad_norm': 1.425176978111267, 'learning_rate': 1.1041245025970582e-06, 'epoch': 6.85} {'loss': 0.6589, 'grad_norm': 1.1006126403808594, 'learning_rate': 1.099010323714128e-06, 'epoch': 6.86} {'loss': 0.6357, 'grad_norm': 0.8641343116760254, 'learning_rate': 1.0939073277141598e-06, 'epoch': 6.86} {'loss': 0.6375, 'grad_norm': 0.9485895037651062, 'learning_rate': 1.088815521008375e-06, 'epoch': 6.86} {'loss': 0.6897, 'grad_norm': 1.105820655822754, 'learning_rate': 1.083734909993931e-06, 'epoch': 6.87} {'loss': 0.6294, 'grad_norm': 0.8518816828727722, 'learning_rate': 1.078665501053926e-06, 'epoch': 6.87} {'loss': 0.6656, 'grad_norm': 1.0588542222976685, 'learning_rate': 1.0736073005573856e-06, 'epoch': 6.87} {'loss': 0.6546, 'grad_norm': 1.112725853919983, 'learning_rate': 1.0685603148592472e-06, 'epoch': 6.87} {'loss': 0.6648, 'grad_norm': 1.249474287033081, 'learning_rate': 1.0635245503003644e-06, 'epoch': 6.88} {'loss': 0.643, 'grad_norm': 0.9228728413581848, 'learning_rate': 1.0585000132074897e-06, 'epoch': 6.88} {'loss': 0.6811, 'grad_norm': 1.1925787925720215, 'learning_rate': 1.05348670989327e-06, 'epoch': 6.88} {'loss': 0.6985, 'grad_norm': 1.4137766361236572, 'learning_rate': 1.0484846466562426e-06, 'epoch': 6.88} {'loss': 0.664, 'grad_norm': 0.9922411441802979, 'learning_rate': 1.0434938297808128e-06, 'epoch': 6.89} {'loss': 0.6824, 'grad_norm': 1.0084996223449707, 'learning_rate': 1.0385142655372693e-06, 'epoch': 6.89} {'loss': 0.6453, 'grad_norm': 1.188844919204712, 'learning_rate': 1.0335459601817544e-06, 'epoch': 6.89} {'loss': 0.6675, 'grad_norm': 1.1757858991622925, 'learning_rate': 1.0285889199562715e-06, 'epoch': 6.9} {'loss': 0.6185, 'grad_norm': 1.2114170789718628, 'learning_rate': 1.0236431510886636e-06, 'epoch': 6.9} {'loss': 0.678, 'grad_norm': 1.5567868947982788, 'learning_rate': 1.0187086597926166e-06, 'epoch': 6.9} {'loss': 0.6465, 'grad_norm': 1.1018619537353516, 'learning_rate': 1.0137854522676504e-06, 'epoch': 6.9} {'loss': 0.6432, 'grad_norm': 0.8982253074645996, 'learning_rate': 1.008873534699103e-06, 'epoch': 6.91} {'loss': 0.6917, 'grad_norm': 1.3601443767547607, 'learning_rate': 1.0039729132581332e-06, 'epoch': 6.91} {'loss': 0.6877, 'grad_norm': 0.9485403895378113, 'learning_rate': 9.990835941017042e-07, 'epoch': 6.91} {'loss': 0.6919, 'grad_norm': 1.0868805646896362, 'learning_rate': 9.942055833725805e-07, 'epoch': 6.91} {'loss': 0.654, 'grad_norm': 0.6984462738037109, 'learning_rate': 9.893388871993203e-07, 'epoch': 6.92} {'loss': 0.6628, 'grad_norm': 1.1457674503326416, 'learning_rate': 9.844835116962614e-07, 'epoch': 6.92} {'loss': 0.6655, 'grad_norm': 1.2178621292114258, 'learning_rate': 9.796394629635276e-07, 'epoch': 6.92} {'loss': 0.623, 'grad_norm': 0.8929232954978943, 'learning_rate': 9.74806747087006e-07, 'epoch': 6.93} {'loss': 0.6426, 'grad_norm': 1.1922796964645386, 'learning_rate': 9.699853701383477e-07, 'epoch': 6.93} {'loss': 0.6779, 'grad_norm': 1.1667649745941162, 'learning_rate': 9.65175338174954e-07, 'epoch': 6.93} {'loss': 0.6409, 'grad_norm': 1.2577401399612427, 'learning_rate': 9.603766572399774e-07, 'epoch': 6.93} {'loss': 0.7153, 'grad_norm': 1.40068519115448, 'learning_rate': 9.555893333623067e-07, 'epoch': 6.94} {'loss': 0.6076, 'grad_norm': 1.1266852617263794, 'learning_rate': 9.508133725565683e-07, 'epoch': 6.94} {'loss': 0.6513, 'grad_norm': 1.2427884340286255, 'learning_rate': 9.460487808231011e-07, 'epoch': 6.94} {'loss': 0.6809, 'grad_norm': 1.1000306606292725, 'learning_rate': 9.412955641479704e-07, 'epoch': 6.94} {'loss': 0.6401, 'grad_norm': 1.2634669542312622, 'learning_rate': 9.365537285029447e-07, 'epoch': 6.95} {'loss': 0.6562, 'grad_norm': 1.110644817352295, 'learning_rate': 9.322958121273084e-07, 'epoch': 6.95} {'loss': 0.6546, 'grad_norm': 0.9492865204811096, 'learning_rate': 9.275756168404937e-07, 'epoch': 6.95} {'loss': 0.6568, 'grad_norm': 1.108302116394043, 'learning_rate': 9.228668198210333e-07, 'epoch': 6.96} {'loss': 0.6762, 'grad_norm': 1.322933554649353, 'learning_rate': 9.181694269848862e-07, 'epoch': 6.96} {'loss': 0.627, 'grad_norm': 1.2151514291763306, 'learning_rate': 9.13483444233696e-07, 'epoch': 6.96} {'loss': 0.662, 'grad_norm': 0.9541465640068054, 'learning_rate': 9.088088774547543e-07, 'epoch': 6.96} {'loss': 0.6604, 'grad_norm': 1.3278995752334595, 'learning_rate': 9.041457325210223e-07, 'epoch': 6.97} {'loss': 0.6936, 'grad_norm': 1.1133980751037598, 'learning_rate': 8.99494015291108e-07, 'epoch': 6.97} {'loss': 0.6692, 'grad_norm': 1.2319109439849854, 'learning_rate': 8.948537316092587e-07, 'epoch': 6.97} {'loss': 0.6262, 'grad_norm': 1.2379835844039917, 'learning_rate': 8.902248873053621e-07, 'epoch': 6.97} {'loss': 0.6753, 'grad_norm': 1.2472718954086304, 'learning_rate': 8.856074881949317e-07, 'epoch': 6.98} {'loss': 0.6922, 'grad_norm': 1.1632347106933594, 'learning_rate': 8.810015400790994e-07, 'epoch': 6.98} {'loss': 0.6446, 'grad_norm': 1.1164740324020386, 'learning_rate': 8.764070487446153e-07, 'epoch': 6.98} {'loss': 0.6538, 'grad_norm': 1.0885282754898071, 'learning_rate': 8.718240199638306e-07, 'epoch': 6.98} {'loss': 0.6866, 'grad_norm': 1.2328274250030518, 'learning_rate': 8.672524594946963e-07, 'epoch': 6.99} {'loss': 0.6746, 'grad_norm': 1.094144582748413, 'learning_rate': 8.626923730807601e-07, 'epoch': 6.99} {'loss': 0.6746, 'grad_norm': 1.0914517641067505, 'learning_rate': 8.581437664511505e-07, 'epoch': 6.99} {'loss': 0.6557, 'grad_norm': 1.188475251197815, 'learning_rate': 8.536066453205705e-07, 'epoch': 7.0} {'loss': 0.6747, 'grad_norm': 0.9813830256462097, 'learning_rate': 8.490810153892959e-07, 'epoch': 7.0} 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 25816/29504 [66:13:53<5:26:30, 5.31s/it]/venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") {'loss': 0.6737, 'grad_norm': 0.9421141147613525, 'learning_rate': 8.445668823431663e-07, 'epoch': 7.0} {'loss': 0.65, 'grad_norm': 1.0980095863342285, 'learning_rate': 8.400642518535751e-07, 'epoch': 7.0} {'loss': 0.6589, 'grad_norm': 1.3485389947891235, 'learning_rate': 8.35573129577466e-07, 'epoch': 7.01} {'loss': 0.6171, 'grad_norm': 1.294105052947998, 'learning_rate': 8.310935211573224e-07, 'epoch': 7.01} {'loss': 0.6565, 'grad_norm': 1.1446611881256104, 'learning_rate': 8.266254322211642e-07, 'epoch': 7.01} {'loss': 0.6616, 'grad_norm': 1.3016828298568726, 'learning_rate': 8.22168868382538e-07, 'epoch': 7.01} {'loss': 0.6587, 'grad_norm': 1.2967026233673096, 'learning_rate': 8.177238352405081e-07, 'epoch': 7.02} {'loss': 0.6903, 'grad_norm': 1.372800350189209, 'learning_rate': 8.132903383796531e-07, 'epoch': 7.02} {'loss': 0.6525, 'grad_norm': 1.1636182069778442, 'learning_rate': 8.088683833700617e-07, 'epoch': 7.02} {'loss': 0.6654, 'grad_norm': 1.2726470232009888, 'learning_rate': 8.04457975767321e-07, 'epoch': 7.03} {'loss': 0.6037, 'grad_norm': 1.1328215599060059, 'learning_rate': 8.00059121112502e-07, 'epoch': 7.03} {'loss': 0.6401, 'grad_norm': 1.2220182418823242, 'learning_rate': 7.956718249321715e-07, 'epoch': 7.03} {'loss': 0.6492, 'grad_norm': 1.0992591381072998, 'learning_rate': 7.912960927383706e-07, 'epoch': 7.03} {'loss': 0.6519, 'grad_norm': 1.0827692747116089, 'learning_rate': 7.869319300286093e-07, 'epoch': 7.04} {'loss': 0.6184, 'grad_norm': 1.1321310997009277, 'learning_rate': 7.825793422858663e-07, 'epoch': 7.04} {'loss': 0.6605, 'grad_norm': 1.3127223253250122, 'learning_rate': 7.782383349785761e-07, 'epoch': 7.04} {'loss': 0.6444, 'grad_norm': 1.0410773754119873, 'learning_rate': 7.739089135606226e-07, 'epoch': 7.04} {'loss': 0.661, 'grad_norm': 1.2233951091766357, 'learning_rate': 7.695910834713394e-07, 'epoch': 7.05} {'loss': 0.6362, 'grad_norm': 1.163852572441101, 'learning_rate': 7.652848501354848e-07, 'epoch': 7.05} {'loss': 0.6182, 'grad_norm': 1.3462711572647095, 'learning_rate': 7.609902189632612e-07, 'epoch': 7.05} {'loss': 0.653, 'grad_norm': 1.0388323068618774, 'learning_rate': 7.56707195350288e-07, 'epoch': 7.06} {'loss': 0.6729, 'grad_norm': 1.3279191255569458, 'learning_rate': 7.524357846776032e-07, 'epoch': 7.06} {'loss': 0.6573, 'grad_norm': 1.3254810571670532, 'learning_rate': 7.481759923116482e-07, 'epoch': 7.06} {'loss': 0.6636, 'grad_norm': 1.0589160919189453, 'learning_rate': 7.439278236042768e-07, 'epoch': 7.06} {'loss': 0.6006, 'grad_norm': 0.9226019978523254, 'learning_rate': 7.396912838927328e-07, 'epoch': 7.07} {'loss': 0.658, 'grad_norm': 1.388094186782837, 'learning_rate': 7.354663784996574e-07, 'epoch': 7.07} {'loss': 0.6586, 'grad_norm': 1.3670659065246582, 'learning_rate': 7.312531127330636e-07, 'epoch': 7.07} {'loss': 0.6882, 'grad_norm': 1.0462883710861206, 'learning_rate': 7.270514918863491e-07, 'epoch': 7.07} {'loss': 0.6542, 'grad_norm': 1.2122936248779297, 'learning_rate': 7.228615212382794e-07, 'epoch': 7.08} {'loss': 0.6288, 'grad_norm': 1.3405694961547852, 'learning_rate': 7.186832060529813e-07, 'epoch': 7.08} {'loss': 0.6827, 'grad_norm': 1.2102376222610474, 'learning_rate': 7.145165515799424e-07, 'epoch': 7.08} {'loss': 0.6329, 'grad_norm': 1.1318835020065308, 'learning_rate': 7.103615630539939e-07, 'epoch': 7.09} {'loss': 0.6959, 'grad_norm': 1.1746008396148682, 'learning_rate': 7.062182456953171e-07, 'epoch': 7.09} {'loss': 0.6094, 'grad_norm': 1.2778030633926392, 'learning_rate': 7.020866047094243e-07, 'epoch': 7.09} {'loss': 0.629, 'grad_norm': 1.2559279203414917, 'learning_rate': 6.979666452871636e-07, 'epoch': 7.09} {'loss': 0.6297, 'grad_norm': 0.9007035493850708, 'learning_rate': 6.938583726046977e-07, 'epoch': 7.1} {'loss': 0.6247, 'grad_norm': 0.8695140480995178, 'learning_rate': 6.897617918235178e-07, 'epoch': 7.1} {'loss': 0.6264, 'grad_norm': 1.1673277616500854, 'learning_rate': 6.856769080904191e-07, 'epoch': 7.1} {'loss': 0.6411, 'grad_norm': 1.1690753698349, 'learning_rate': 6.816037265375042e-07, 'epoch': 7.1} {'loss': 0.6615, 'grad_norm': 1.2628318071365356, 'learning_rate': 6.775422522821672e-07, 'epoch': 7.11} {'loss': 0.6428, 'grad_norm': 1.2966409921646118, 'learning_rate': 6.734924904271023e-07, 'epoch': 7.11} {'loss': 0.6934, 'grad_norm': 1.163122534751892, 'learning_rate': 6.694544460602825e-07, 'epoch': 7.11} {'loss': 0.6811, 'grad_norm': 1.115747332572937, 'learning_rate': 6.654281242549609e-07, 'epoch': 7.11} {'loss': 0.6576, 'grad_norm': 1.2331726551055908, 'learning_rate': 6.614135300696656e-07, 'epoch': 7.12} {'loss': 0.6529, 'grad_norm': 1.128298282623291, 'learning_rate': 6.574106685481851e-07, 'epoch': 7.12} {'loss': 0.6345, 'grad_norm': 1.3711928129196167, 'learning_rate': 6.534195447195735e-07, 'epoch': 7.12} {'loss': 0.6382, 'grad_norm': 1.4361621141433716, 'learning_rate': 6.494401635981352e-07, 'epoch': 7.13} {'loss': 0.6497, 'grad_norm': 1.1766128540039062, 'learning_rate': 6.454725301834164e-07, 'epoch': 7.13} {'loss': 0.669, 'grad_norm': 1.1844100952148438, 'learning_rate': 6.415166494602143e-07, 'epoch': 7.13} {'loss': 0.6498, 'grad_norm': 1.3189105987548828, 'learning_rate': 6.375725263985522e-07, 'epoch': 7.13} {'loss': 0.6046, 'grad_norm': 1.2473758459091187, 'learning_rate': 6.336401659536873e-07, 'epoch': 7.14} {'loss': 0.7107, 'grad_norm': 1.1733839511871338, 'learning_rate': 6.297195730660921e-07, 'epoch': 7.14} {'loss': 0.6196, 'grad_norm': 0.9783371686935425, 'learning_rate': 6.258107526614598e-07, 'epoch': 7.14} {'loss': 0.6338, 'grad_norm': 1.3640310764312744, 'learning_rate': 6.219137096506911e-07, 'epoch': 7.14} {'loss': 0.6265, 'grad_norm': 1.2012375593185425, 'learning_rate': 6.180284489298927e-07, 'epoch': 7.15} {'loss': 0.6345, 'grad_norm': 1.0515731573104858, 'learning_rate': 6.141549753803644e-07, 'epoch': 7.15} {'loss': 0.6333, 'grad_norm': 1.210422158241272, 'learning_rate': 6.102932938685979e-07, 'epoch': 7.15} {'loss': 0.6329, 'grad_norm': 1.2633644342422485, 'learning_rate': 6.064434092462734e-07, 'epoch': 7.16} {'loss': 0.6443, 'grad_norm': 1.2228686809539795, 'learning_rate': 6.026053263502452e-07, 'epoch': 7.16} {'loss': 0.6227, 'grad_norm': 1.0719401836395264, 'learning_rate': 5.987790500025437e-07, 'epoch': 7.16} {'loss': 0.7112, 'grad_norm': 1.2249442338943481, 'learning_rate': 5.949645850103635e-07, 'epoch': 7.16} {'loss': 0.6528, 'grad_norm': 0.7922900319099426, 'learning_rate': 5.911619361660625e-07, 'epoch': 7.17} {'loss': 0.6003, 'grad_norm': 0.8571121096611023, 'learning_rate': 5.873711082471534e-07, 'epoch': 7.17} {'loss': 0.6628, 'grad_norm': 1.1096949577331543, 'learning_rate': 5.835921060162919e-07, 'epoch': 7.17} {'loss': 0.683, 'grad_norm': 1.204217791557312, 'learning_rate': 5.798249342212802e-07, 'epoch': 7.17} {'loss': 0.6529, 'grad_norm': 1.1072635650634766, 'learning_rate': 5.760695975950614e-07, 'epoch': 7.18} {'loss': 0.647, 'grad_norm': 1.2507365942001343, 'learning_rate': 5.723261008557035e-07, 'epoch': 7.18} {'loss': 0.6664, 'grad_norm': 1.17863130569458, 'learning_rate': 5.685944487063999e-07, 'epoch': 7.18} {'loss': 0.6335, 'grad_norm': 1.3170324563980103, 'learning_rate': 5.648746458354648e-07, 'epoch': 7.19} {'loss': 0.6129, 'grad_norm': 1.3104299306869507, 'learning_rate': 5.611666969163243e-07, 'epoch': 7.19} {'loss': 0.6635, 'grad_norm': 0.9333875179290771, 'learning_rate': 5.57470606607513e-07, 'epoch': 7.19} {'loss': 0.694, 'grad_norm': 1.1774802207946777, 'learning_rate': 5.537863795526644e-07, 'epoch': 7.19} {'loss': 0.6607, 'grad_norm': 1.4402409791946411, 'learning_rate': 5.501140203805089e-07, 'epoch': 7.2} {'loss': 0.6606, 'grad_norm': 1.1848191022872925, 'learning_rate': 5.464535337048671e-07, 'epoch': 7.2} {'loss': 0.6029, 'grad_norm': 1.3095377683639526, 'learning_rate': 5.428049241246436e-07, 'epoch': 7.2} {'loss': 0.6401, 'grad_norm': 1.106324553489685, 'learning_rate': 5.39168196223816e-07, 'epoch': 7.2} {'loss': 0.6617, 'grad_norm': 1.1851286888122559, 'learning_rate': 5.355433545714417e-07, 'epoch': 7.21} {'loss': 0.6341, 'grad_norm': 1.2321875095367432, 'learning_rate': 5.3193040372164e-07, 'epoch': 7.21} {'loss': 0.6404, 'grad_norm': 1.2284330129623413, 'learning_rate': 5.283293482135954e-07, 'epoch': 7.21} {'loss': 0.6703, 'grad_norm': 1.2307096719741821, 'learning_rate': 5.247401925715401e-07, 'epoch': 7.22} {'loss': 0.6122, 'grad_norm': 1.230995535850525, 'learning_rate': 5.211629413047626e-07, 'epoch': 7.22} {'loss': 0.6615, 'grad_norm': 1.3088068962097168, 'learning_rate': 5.175975989075909e-07, 'epoch': 7.22} {'loss': 0.6284, 'grad_norm': 0.8414157032966614, 'learning_rate': 5.140441698593934e-07, 'epoch': 7.22} {'loss': 0.6515, 'grad_norm': 1.0594518184661865, 'learning_rate': 5.105026586245709e-07, 'epoch': 7.23} {'loss': 0.6829, 'grad_norm': 1.0532441139221191, 'learning_rate': 5.06973069652551e-07, 'epoch': 7.23} {'loss': 0.6397, 'grad_norm': 1.02061128616333, 'learning_rate': 5.034554073777809e-07, 'epoch': 7.23} {'loss': 0.6675, 'grad_norm': 1.2215546369552612, 'learning_rate': 4.999496762197276e-07, 'epoch': 7.23} {'loss': 0.5815, 'grad_norm': 1.0192822217941284, 'learning_rate': 4.964558805828601e-07, 'epoch': 7.24} {'loss': 0.6884, 'grad_norm': 0.9524738788604736, 'learning_rate': 4.929740248566617e-07, 'epoch': 7.24} {'loss': 0.6441, 'grad_norm': 1.2372233867645264, 'learning_rate': 4.895041134156109e-07, 'epoch': 7.24} {'loss': 0.6579, 'grad_norm': 1.3565953969955444, 'learning_rate': 4.860461506191782e-07, 'epoch': 7.25} {'loss': 0.6538, 'grad_norm': 1.1751347780227661, 'learning_rate': 4.826001408118231e-07, 'epoch': 7.25} {'loss': 0.6639, 'grad_norm': 1.0082385540008545, 'learning_rate': 4.791660883229887e-07, 'epoch': 7.25} {'loss': 0.6783, 'grad_norm': 1.3457274436950684, 'learning_rate': 4.757439974670941e-07, 'epoch': 7.25} {'loss': 0.6577, 'grad_norm': 0.9500861167907715, 'learning_rate': 4.723338725435345e-07, 'epoch': 7.26} {'loss': 0.6513, 'grad_norm': 1.2025654315948486, 'learning_rate': 4.689357178366638e-07, 'epoch': 7.26} {'loss': 0.6332, 'grad_norm': 1.3201725482940674, 'learning_rate': 4.655495376158026e-07, 'epoch': 7.26} {'loss': 0.6716, 'grad_norm': 1.1522011756896973, 'learning_rate': 4.621753361352266e-07, 'epoch': 7.26} {'loss': 0.6472, 'grad_norm': 1.1973220109939575, 'learning_rate': 4.588131176341604e-07, 'epoch': 7.27} {'loss': 0.6573, 'grad_norm': 1.074695110321045, 'learning_rate': 4.554628863367749e-07, 'epoch': 7.27} {'loss': 0.6229, 'grad_norm': 1.117292046546936, 'learning_rate': 4.521246464521789e-07, 'epoch': 7.27} {'loss': 0.6562, 'grad_norm': 1.0546131134033203, 'learning_rate': 4.487984021744185e-07, 'epoch': 7.27} {'loss': 0.6202, 'grad_norm': 0.9569852948188782, 'learning_rate': 4.4548415768246644e-07, 'epoch': 7.28} {'loss': 0.6202, 'grad_norm': 0.8888862729072571, 'learning_rate': 4.4218191714021976e-07, 'epoch': 7.28} {'loss': 0.6472, 'grad_norm': 1.2442517280578613, 'learning_rate': 4.38891684696493e-07, 'epoch': 7.28} {'loss': 0.6247, 'grad_norm': 1.1482558250427246, 'learning_rate': 4.3561346448501963e-07, 'epoch': 7.29} {'loss': 0.6162, 'grad_norm': 1.2422715425491333, 'learning_rate': 4.323472606244361e-07, 'epoch': 7.29} {'loss': 0.6729, 'grad_norm': 1.28970205783844, 'learning_rate': 4.290930772182811e-07, 'epoch': 7.29} {'loss': 0.6284, 'grad_norm': 0.9250714182853699, 'learning_rate': 4.258509183549964e-07, 'epoch': 7.29} {'loss': 0.5793, 'grad_norm': 1.2013535499572754, 'learning_rate': 4.226207881079114e-07, 'epoch': 7.3} {'loss': 0.614, 'grad_norm': 1.140634536743164, 'learning_rate': 4.194026905352466e-07, 'epoch': 7.3} {'loss': 0.6543, 'grad_norm': 1.0666877031326294, 'learning_rate': 4.1619662968010343e-07, 'epoch': 7.3} {'loss': 0.6402, 'grad_norm': 1.029529094696045, 'learning_rate': 4.13002609570462e-07, 'epoch': 7.3} {'loss': 0.6393, 'grad_norm': 1.173255443572998, 'learning_rate': 4.098206342191735e-07, 'epoch': 7.31} {'loss': 0.6506, 'grad_norm': 1.4154640436172485, 'learning_rate': 4.0665070762396007e-07, 'epoch': 7.31} {'loss': 0.6455, 'grad_norm': 1.2692769765853882, 'learning_rate': 4.034928337673982e-07, 'epoch': 7.31} {'loss': 0.6657, 'grad_norm': 1.0700736045837402, 'learning_rate': 4.0034701661692875e-07, 'epoch': 7.32} {'loss': 0.6454, 'grad_norm': 1.0482299327850342, 'learning_rate': 3.972132601248446e-07, 'epoch': 7.32} {'loss': 0.631, 'grad_norm': 0.9263431429862976, 'learning_rate': 3.940915682282864e-07, 'epoch': 7.32} {'loss': 0.6313, 'grad_norm': 1.4345648288726807, 'learning_rate': 3.9098194484923024e-07, 'epoch': 7.32} {'loss': 0.6873, 'grad_norm': 1.3778562545776367, 'learning_rate': 3.878843938944987e-07, 'epoch': 7.33} {'loss': 0.7062, 'grad_norm': 1.2242369651794434, 'learning_rate': 3.847989192557411e-07, 'epoch': 7.33} {'loss': 0.7079, 'grad_norm': 1.1950141191482544, 'learning_rate': 3.817255248094387e-07, 'epoch': 7.33} {'loss': 0.6252, 'grad_norm': 1.0926265716552734, 'learning_rate': 3.7866421441689285e-07, 'epoch': 7.33} {'loss': 0.6715, 'grad_norm': 1.1795743703842163, 'learning_rate': 3.7561499192422355e-07, 'epoch': 7.34} {'loss': 0.6404, 'grad_norm': 1.1785025596618652, 'learning_rate': 3.725778611623643e-07, 'epoch': 7.34} {'loss': 0.6928, 'grad_norm': 1.2633875608444214, 'learning_rate': 3.695528259470571e-07, 'epoch': 7.34} {'loss': 0.6708, 'grad_norm': 1.2298142910003662, 'learning_rate': 3.665398900788453e-07, 'epoch': 7.35} {'loss': 0.6865, 'grad_norm': 1.3049362897872925, 'learning_rate': 3.6353905734307524e-07, 'epoch': 7.35} {'loss': 0.6558, 'grad_norm': 1.0726640224456787, 'learning_rate': 3.6055033150988574e-07, 'epoch': 7.35} {'loss': 0.6177, 'grad_norm': 1.2240389585494995, 'learning_rate': 3.57573716334203e-07, 'epoch': 7.35} {'loss': 0.6486, 'grad_norm': 1.3299221992492676, 'learning_rate': 3.5460921555573904e-07, 'epoch': 7.36} {'loss': 0.5747, 'grad_norm': 1.3294306993484497, 'learning_rate': 3.516568328989867e-07, 'epoch': 7.36} {'loss': 0.6748, 'grad_norm': 1.3348665237426758, 'learning_rate': 3.4871657207321e-07, 'epoch': 7.36} {'loss': 0.6964, 'grad_norm': 1.310113787651062, 'learning_rate': 3.457884367724529e-07, 'epoch': 7.36} {'loss': 0.6234, 'grad_norm': 0.9558871984481812, 'learning_rate': 3.428724306755149e-07, 'epoch': 7.37} {'loss': 0.6557, 'grad_norm': 1.268629550933838, 'learning_rate': 3.3996855744596105e-07, 'epoch': 7.37} {'loss': 0.6298, 'grad_norm': 1.0903984308242798, 'learning_rate': 3.3707682073211514e-07, 'epoch': 7.37} {'loss': 0.6692, 'grad_norm': 1.2248831987380981, 'learning_rate': 3.341972241670488e-07, 'epoch': 7.38} {'loss': 0.6229, 'grad_norm': 0.9262446761131287, 'learning_rate': 3.313297713685859e-07, 'epoch': 7.38} {'loss': 0.5974, 'grad_norm': 1.0879982709884644, 'learning_rate': 3.28474465939288e-07, 'epoch': 7.38} {'loss': 0.6557, 'grad_norm': 1.0925922393798828, 'learning_rate': 3.2563131146646107e-07, 'epoch': 7.38} {'loss': 0.67, 'grad_norm': 1.3197828531265259, 'learning_rate': 3.228003115221412e-07, 'epoch': 7.39} {'loss': 0.6529, 'grad_norm': 1.3017966747283936, 'learning_rate': 3.199814696630932e-07, 'epoch': 7.39} {'loss': 0.6533, 'grad_norm': 1.2851593494415283, 'learning_rate': 3.1717478943080973e-07, 'epoch': 7.39} {'loss': 0.6473, 'grad_norm': 1.2465792894363403, 'learning_rate': 3.143802743515012e-07, 'epoch': 7.39} {'loss': 0.6071, 'grad_norm': 1.1593507528305054, 'learning_rate': 3.115979279360992e-07, 'epoch': 7.4} {'loss': 0.6893, 'grad_norm': 1.2157814502716064, 'learning_rate': 3.088277536802409e-07, 'epoch': 7.4} {'loss': 0.6413, 'grad_norm': 1.0182088613510132, 'learning_rate': 3.060697550642733e-07, 'epoch': 7.4} {'loss': 0.6459, 'grad_norm': 1.312677264213562, 'learning_rate': 3.03323935553248e-07, 'epoch': 7.41} {'loss': 0.6126, 'grad_norm': 0.9933605790138245, 'learning_rate': 3.0059029859691337e-07, 'epoch': 7.41} {'loss': 0.6429, 'grad_norm': 1.049750804901123, 'learning_rate': 2.9786884762971204e-07, 'epoch': 7.41} {'loss': 0.6606, 'grad_norm': 1.0749667882919312, 'learning_rate': 2.951595860707768e-07, 'epoch': 7.41} {'loss': 0.6519, 'grad_norm': 1.1231037378311157, 'learning_rate': 2.9246251732392704e-07, 'epoch': 7.42} {'loss': 0.6435, 'grad_norm': 1.056580662727356, 'learning_rate': 2.8977764477766346e-07, 'epoch': 7.42} {'loss': 0.6649, 'grad_norm': 1.1650183200836182, 'learning_rate': 2.8710497180516104e-07, 'epoch': 7.42} {'loss': 0.6394, 'grad_norm': 1.2186745405197144, 'learning_rate': 2.844445017642705e-07, 'epoch': 7.42} {'loss': 0.6405, 'grad_norm': 0.9897665977478027, 'learning_rate': 2.8179623799751254e-07, 'epoch': 7.43} {'loss': 0.6425, 'grad_norm': 1.353864312171936, 'learning_rate': 2.791601838320701e-07, 'epoch': 7.43} {'loss': 0.6342, 'grad_norm': 1.2748568058013916, 'learning_rate': 2.76536342579784e-07, 'epoch': 7.43} {'loss': 0.6383, 'grad_norm': 1.1719754934310913, 'learning_rate': 2.7392471753715623e-07, 'epoch': 7.43} {'loss': 0.6421, 'grad_norm': 1.185219168663025, 'learning_rate': 2.7132531198533873e-07, 'epoch': 7.44} {'loss': 0.6892, 'grad_norm': 1.3825877904891968, 'learning_rate': 2.687381291901292e-07, 'epoch': 7.44} {'loss': 0.6502, 'grad_norm': 1.2263062000274658, 'learning_rate': 2.66163172401972e-07, 'epoch': 7.44} {'loss': 0.6477, 'grad_norm': 1.092063546180725, 'learning_rate': 2.636004448559504e-07, 'epoch': 7.45} {'loss': 0.6665, 'grad_norm': 0.9567961096763611, 'learning_rate': 2.6104994977178333e-07, 'epoch': 7.45} {'loss': 0.6731, 'grad_norm': 0.9690940976142883, 'learning_rate': 2.5851169035382095e-07, 'epoch': 7.45} {'loss': 0.6235, 'grad_norm': 0.9458472728729248, 'learning_rate': 2.559856697910379e-07, 'epoch': 7.45} {'loss': 0.6172, 'grad_norm': 1.3042129278182983, 'learning_rate': 2.5347189125703997e-07, 'epoch': 7.46} {'loss': 0.6404, 'grad_norm': 1.1883257627487183, 'learning_rate': 2.509703579100453e-07, 'epoch': 7.46} {'loss': 0.6408, 'grad_norm': 1.0855718851089478, 'learning_rate': 2.4848107289289214e-07, 'epoch': 7.46} {'loss': 0.6551, 'grad_norm': 1.019219994544983, 'learning_rate': 2.460040393330276e-07, 'epoch': 7.46} {'loss': 0.6182, 'grad_norm': 1.1760039329528809, 'learning_rate': 2.4353926034250686e-07, 'epoch': 7.47} {'loss': 0.6175, 'grad_norm': 0.8678629398345947, 'learning_rate': 2.410867390179883e-07, 'epoch': 7.47} {'loss': 0.6725, 'grad_norm': 1.2502142190933228, 'learning_rate': 2.386464784407361e-07, 'epoch': 7.47} {'loss': 0.6854, 'grad_norm': 1.3642033338546753, 'learning_rate': 2.362184816766011e-07, 'epoch': 7.48} {'loss': 0.6357, 'grad_norm': 1.4420896768569946, 'learning_rate': 2.3380275177603328e-07, 'epoch': 7.48} {'loss': 0.6525, 'grad_norm': 1.4268039464950562, 'learning_rate': 2.3139929177406706e-07, 'epoch': 7.48} {'loss': 0.6353, 'grad_norm': 1.3405711650848389, 'learning_rate': 2.2900810469032586e-07, 'epoch': 7.48} {'loss': 0.6282, 'grad_norm': 1.160381555557251, 'learning_rate': 2.266291935290077e-07, 'epoch': 7.49} {'loss': 0.5954, 'grad_norm': 0.9625226259231567, 'learning_rate': 2.24262561278894e-07, 'epoch': 7.49} {'loss': 0.6703, 'grad_norm': 1.0036680698394775, 'learning_rate': 2.2190821091333413e-07, 'epoch': 7.49} {'loss': 0.6139, 'grad_norm': 1.4048949480056763, 'learning_rate': 2.1956614539024978e-07, 'epoch': 7.49} {'loss': 0.6238, 'grad_norm': 1.071476936340332, 'learning_rate': 2.172363676521294e-07, 'epoch': 7.5} {'loss': 0.6328, 'grad_norm': 1.231929063796997, 'learning_rate': 2.149188806260183e-07, 'epoch': 7.5} {'loss': 0.6538, 'grad_norm': 0.9783535599708557, 'learning_rate': 2.1261368722352625e-07, 'epoch': 7.5} {'loss': 0.6295, 'grad_norm': 1.1648263931274414, 'learning_rate': 2.1032079034081443e-07, 'epoch': 7.51} {'loss': 0.7118, 'grad_norm': 1.2097601890563965, 'learning_rate': 2.0804019285859734e-07, 'epoch': 7.51} {'loss': 0.6574, 'grad_norm': 1.181107521057129, 'learning_rate': 2.057718976421341e-07, 'epoch': 7.51} {'loss': 0.6397, 'grad_norm': 1.0230072736740112, 'learning_rate': 2.0351590754122852e-07, 'epoch': 7.51} {'loss': 0.6545, 'grad_norm': 1.064101219177246, 'learning_rate': 2.0127222539022773e-07, 'epoch': 7.52} {'loss': 0.6536, 'grad_norm': 0.8990136981010437, 'learning_rate': 1.9904085400801022e-07, 'epoch': 7.52} {'loss': 0.6884, 'grad_norm': 1.0143144130706787, 'learning_rate': 1.9682179619799346e-07, 'epoch': 7.52} {'loss': 0.6449, 'grad_norm': 1.353464126586914, 'learning_rate': 1.946150547481196e-07, 'epoch': 7.52} {'loss': 0.6355, 'grad_norm': 0.9300180673599243, 'learning_rate': 1.9263952022292366e-07, 'epoch': 7.53} {'loss': 0.6443, 'grad_norm': 1.026429533958435, 'learning_rate': 1.9045618748268825e-07, 'epoch': 7.53} {'loss': 0.6625, 'grad_norm': 1.3385381698608398, 'learning_rate': 1.8828517910011835e-07, 'epoch': 7.53} {'loss': 0.6784, 'grad_norm': 0.9994498491287231, 'learning_rate': 1.861264978027899e-07, 'epoch': 7.54} {'loss': 0.6255, 'grad_norm': 1.2568528652191162, 'learning_rate': 1.8398014630279348e-07, 'epoch': 7.54} {'loss': 0.6807, 'grad_norm': 1.341949224472046, 'learning_rate': 1.8184612729672756e-07, 'epoch': 7.54} {'loss': 0.6719, 'grad_norm': 1.3223367929458618, 'learning_rate': 1.7972444346569752e-07, 'epoch': 7.54} {'loss': 0.617, 'grad_norm': 1.2253068685531616, 'learning_rate': 1.776150974753088e-07, 'epoch': 7.55} {'loss': 0.6385, 'grad_norm': 1.1066854000091553, 'learning_rate': 1.7551809197566828e-07, 'epoch': 7.55} {'loss': 0.6528, 'grad_norm': 1.108211636543274, 'learning_rate': 1.7343342960138064e-07, 'epoch': 7.55} {'loss': 0.6954, 'grad_norm': 1.3116859197616577, 'learning_rate': 1.7136111297153536e-07, 'epoch': 7.55} {'loss': 0.6603, 'grad_norm': 1.2519826889038086, 'learning_rate': 1.6930114468972192e-07, 'epoch': 7.56} {'loss': 0.6358, 'grad_norm': 1.3163843154907227, 'learning_rate': 1.672535273440068e-07, 'epoch': 7.56} {'loss': 0.6102, 'grad_norm': 1.0310804843902588, 'learning_rate': 1.6521826350694548e-07, 'epoch': 7.56} {'loss': 0.6533, 'grad_norm': 1.1200467348098755, 'learning_rate': 1.6319535573556811e-07, 'epoch': 7.57} {'loss': 0.6166, 'grad_norm': 1.0826352834701538, 'learning_rate': 1.6118480657138392e-07, 'epoch': 7.57} {'loss': 0.6, 'grad_norm': 1.015417456626892, 'learning_rate': 1.5918661854037232e-07, 'epoch': 7.57} {'loss': 0.6747, 'grad_norm': 1.1460930109024048, 'learning_rate': 1.572007941529896e-07, 'epoch': 7.57} {'loss': 0.6798, 'grad_norm': 1.104053258895874, 'learning_rate': 1.5522733590414895e-07, 'epoch': 7.58} {'loss': 0.6746, 'grad_norm': 1.0794157981872559, 'learning_rate': 1.5326624627323595e-07, 'epoch': 7.58} {'loss': 0.6165, 'grad_norm': 1.367480993270874, 'learning_rate': 1.513175277240908e-07, 'epoch': 7.58} {'loss': 0.6863, 'grad_norm': 1.2251354455947876, 'learning_rate': 1.49381182705014e-07, 'epoch': 7.58} {'loss': 0.6569, 'grad_norm': 0.9995898008346558, 'learning_rate': 1.4745721364875953e-07, 'epoch': 7.59} {'loss': 0.6182, 'grad_norm': 1.0994755029678345, 'learning_rate': 1.4554562297253383e-07, 'epoch': 7.59} {'loss': 0.6237, 'grad_norm': 1.3032647371292114, 'learning_rate': 1.4364641307799022e-07, 'epoch': 7.59} {'loss': 0.6135, 'grad_norm': 1.005332112312317, 'learning_rate': 1.4175958635122777e-07, 'epoch': 7.59} {'loss': 0.6611, 'grad_norm': 0.9665431976318359, 'learning_rate': 1.3988514516278584e-07, 'epoch': 7.6} {'loss': 0.6769, 'grad_norm': 1.1595762968063354, 'learning_rate': 1.3802309186764619e-07, 'epoch': 7.6} {'loss': 0.6571, 'grad_norm': 1.2306544780731201, 'learning_rate': 1.3617342880522523e-07, 'epoch': 7.6} {'loss': 0.6291, 'grad_norm': 0.8390796184539795, 'learning_rate': 1.3433615829937518e-07, 'epoch': 7.61} {'loss': 0.6771, 'grad_norm': 1.290680170059204, 'learning_rate': 1.3251128265837299e-07, 'epoch': 7.61} {'loss': 0.6249, 'grad_norm': 1.08976149559021, 'learning_rate': 1.306988041749291e-07, 'epoch': 7.61} {'loss': 0.6569, 'grad_norm': 1.109196662902832, 'learning_rate': 1.288987251261753e-07, 'epoch': 7.61} {'loss': 0.62, 'grad_norm': 1.1962149143218994, 'learning_rate': 1.27111047773667e-07, 'epoch': 7.62} {'loss': 0.6161, 'grad_norm': 1.052668809890747, 'learning_rate': 1.253357743633765e-07, 'epoch': 7.62} {'loss': 0.6245, 'grad_norm': 1.1189910173416138, 'learning_rate': 1.2357290712569304e-07, 'epoch': 7.62} {'loss': 0.6386, 'grad_norm': 1.2159996032714844, 'learning_rate': 1.2182244827542155e-07, 'epoch': 7.62} {'loss': 0.6852, 'grad_norm': 1.0043662786483765, 'learning_rate': 1.2008440001177513e-07, 'epoch': 7.63} {'loss': 0.6585, 'grad_norm': 1.0380034446716309, 'learning_rate': 1.1835876451837258e-07, 'epoch': 7.63} {'loss': 0.6717, 'grad_norm': 1.039443016052246, 'learning_rate': 1.166455439632419e-07, 'epoch': 7.63} {'loss': 0.6161, 'grad_norm': 1.1930073499679565, 'learning_rate': 1.1494474049881243e-07, 'epoch': 7.64} {'loss': 0.6337, 'grad_norm': 1.2611325979232788, 'learning_rate': 1.1325635626191267e-07, 'epoch': 7.64} {'loss': 0.6244, 'grad_norm': 1.088516354560852, 'learning_rate': 1.115803933737658e-07, 'epoch': 7.64} {'loss': 0.632, 'grad_norm': 0.9305428266525269, 'learning_rate': 1.0991685393999308e-07, 'epoch': 7.64} {'loss': 0.6564, 'grad_norm': 1.1320936679840088, 'learning_rate': 1.0826574005060375e-07, 'epoch': 7.65} {'loss': 0.6624, 'grad_norm': 1.255043387413025, 'learning_rate': 1.066270537799996e-07, 'epoch': 7.65} {'loss': 0.6942, 'grad_norm': 1.1795768737792969, 'learning_rate': 1.0500079718696487e-07, 'epoch': 7.65} {'loss': 0.6605, 'grad_norm': 1.0333927869796753, 'learning_rate': 1.0338697231467298e-07, 'epoch': 7.65} {'loss': 0.6465, 'grad_norm': 0.8695141673088074, 'learning_rate': 1.0178558119067316e-07, 'epoch': 7.66} {'loss': 0.6636, 'grad_norm': 0.9583102464675903, 'learning_rate': 1.0019662582689605e-07, 'epoch': 7.66} {'loss': 0.6109, 'grad_norm': 1.1414716243743896, 'learning_rate': 9.862010821964696e-08, 'epoch': 7.66} {'loss': 0.6521, 'grad_norm': 1.0444583892822266, 'learning_rate': 9.70560303496082e-08, 'epoch': 7.67} {'loss': 0.6726, 'grad_norm': 1.3592342138290405, 'learning_rate': 9.5504394181829e-08, 'epoch': 7.67} {'loss': 0.6204, 'grad_norm': 0.8530866503715515, 'learning_rate': 9.396520166572997e-08, 'epoch': 7.67} {'loss': 0.6364, 'grad_norm': 1.2146391868591309, 'learning_rate': 9.24384547350965e-08, 'epoch': 7.67} {'loss': 0.6571, 'grad_norm': 1.285942792892456, 'learning_rate': 9.092415530807975e-08, 'epoch': 7.68} {'loss': 0.6672, 'grad_norm': 1.1654040813446045, 'learning_rate': 8.942230528718898e-08, 'epoch': 7.68} {'loss': 0.6538, 'grad_norm': 1.1407593488693237, 'learning_rate': 8.793290655929599e-08, 'epoch': 7.68} {'loss': 0.661, 'grad_norm': 1.3756427764892578, 'learning_rate': 8.645596099562836e-08, 'epoch': 7.68} {'loss': 0.6505, 'grad_norm': 1.1662132740020752, 'learning_rate': 8.499147045176515e-08, 'epoch': 7.69} {'loss': 0.6441, 'grad_norm': 1.134442687034607, 'learning_rate': 8.353943676764121e-08, 'epoch': 7.69} {'loss': 0.6595, 'grad_norm': 1.0967282056808472, 'learning_rate': 8.209986176753947e-08, 'epoch': 7.69} {'loss': 0.6433, 'grad_norm': 1.0038249492645264, 'learning_rate': 8.067274726008878e-08, 'epoch': 7.7} {'loss': 0.6281, 'grad_norm': 1.0783101320266724, 'learning_rate': 7.925809503826487e-08, 'epoch': 7.7} {'loss': 0.6337, 'grad_norm': 1.2354488372802734, 'learning_rate': 7.785590687938715e-08, 'epoch': 7.7} {'loss': 0.7007, 'grad_norm': 1.2145817279815674, 'learning_rate': 7.646618454511312e-08, 'epoch': 7.7} {'loss': 0.6488, 'grad_norm': 1.3847661018371582, 'learning_rate': 7.508892978144055e-08, 'epoch': 7.71} {'loss': 0.6649, 'grad_norm': 1.4808231592178345, 'learning_rate': 7.372414431870201e-08, 'epoch': 7.71} {'loss': 0.6656, 'grad_norm': 1.1706373691558838, 'learning_rate': 7.237182987156476e-08, 'epoch': 7.71} {'loss': 0.6643, 'grad_norm': 0.97328782081604, 'learning_rate': 7.103198813902867e-08, 'epoch': 7.71} {'loss': 0.6593, 'grad_norm': 1.135111927986145, 'learning_rate': 6.970462080442276e-08, 'epoch': 7.72} {'loss': 0.6777, 'grad_norm': 1.1022416353225708, 'learning_rate': 6.83897295354019e-08, 'epoch': 7.72} {'loss': 0.6639, 'grad_norm': 1.367931842803955, 'learning_rate': 6.708731598395024e-08, 'epoch': 7.72} {'loss': 0.6492, 'grad_norm': 1.0165674686431885, 'learning_rate': 6.579738178637329e-08, 'epoch': 7.73} {'loss': 0.6445, 'grad_norm': 0.9371873140335083, 'learning_rate': 6.451992856329581e-08, 'epoch': 7.73} {'loss': 0.6004, 'grad_norm': 1.3373794555664062, 'learning_rate': 6.325495791966618e-08, 'epoch': 7.73} {'loss': 0.7058, 'grad_norm': 1.0043293237686157, 'learning_rate': 6.200247144474647e-08, 'epoch': 7.73} {'loss': 0.6407, 'grad_norm': 0.9085186123847961, 'learning_rate': 6.076247071211683e-08, 'epoch': 7.74} {'loss': 0.6661, 'grad_norm': 1.2214797735214233, 'learning_rate': 5.9534957279668845e-08, 'epoch': 7.74} {'loss': 0.6726, 'grad_norm': 1.1299394369125366, 'learning_rate': 5.831993268960556e-08, 'epoch': 7.74} {'loss': 0.6345, 'grad_norm': 1.1795176267623901, 'learning_rate': 5.711739846844033e-08, 'epoch': 7.74} {'loss': 0.6326, 'grad_norm': 1.1158374547958374, 'learning_rate': 5.5927356126996844e-08, 'epoch': 7.75} {'loss': 0.6334, 'grad_norm': 0.9658446907997131, 'learning_rate': 5.4749807160396904e-08, 'epoch': 7.75} {'loss': 0.6752, 'grad_norm': 1.063051462173462, 'learning_rate': 5.3584753048073756e-08, 'epoch': 7.75} {'loss': 0.6216, 'grad_norm': 1.140186071395874, 'learning_rate': 5.2432195253757646e-08, 'epoch': 7.75} {'loss': 0.6598, 'grad_norm': 0.9558790326118469, 'learning_rate': 5.1292135225481375e-08, 'epoch': 7.76} {'loss': 0.6576, 'grad_norm': 1.2742061614990234, 'learning_rate': 5.016457439557587e-08, 'epoch': 7.76} {'loss': 0.6518, 'grad_norm': 0.9746222496032715, 'learning_rate': 4.904951418066684e-08, 'epoch': 7.76} {'loss': 0.6134, 'grad_norm': 1.2025998830795288, 'learning_rate': 4.794695598167698e-08, 'epoch': 7.77} {'loss': 0.6369, 'grad_norm': 0.9307165741920471, 'learning_rate': 4.685690118382047e-08, 'epoch': 7.77} {'loss': 0.6512, 'grad_norm': 0.8879151940345764, 'learning_rate': 4.577935115660181e-08, 'epoch': 7.77} {'loss': 0.621, 'grad_norm': 1.35867440700531, 'learning_rate': 4.471430725381809e-08, 'epoch': 7.77} {'loss': 0.6656, 'grad_norm': 1.3000568151474, 'learning_rate': 4.3661770813550056e-08, 'epoch': 7.78} {'loss': 0.6117, 'grad_norm': 0.857491135597229, 'learning_rate': 4.2621743158167697e-08, 'epoch': 7.78} {'loss': 0.6328, 'grad_norm': 1.1346759796142578, 'learning_rate': 4.1594225594323576e-08, 'epoch': 7.78} {'loss': 0.6403, 'grad_norm': 1.298036813735962, 'learning_rate': 4.057921941295395e-08, 'epoch': 7.78} {'loss': 0.651, 'grad_norm': 0.8759152889251709, 'learning_rate': 3.9576725889277636e-08, 'epoch': 7.79} {'loss': 0.636, 'grad_norm': 1.3307101726531982, 'learning_rate': 3.858674628278825e-08, 'epoch': 7.79} {'loss': 0.6688, 'grad_norm': 1.0769785642623901, 'learning_rate': 3.76092818372642e-08, 'epoch': 7.79} {'loss': 0.6314, 'grad_norm': 1.3851776123046875, 'learning_rate': 3.664433378075316e-08, 'epoch': 7.8} {'loss': 0.6546, 'grad_norm': 1.0504980087280273, 'learning_rate': 3.5691903325584256e-08, 'epoch': 7.8} {'loss': 0.6349, 'grad_norm': 1.4200177192687988, 'learning_rate': 3.475199166835475e-08, 'epoch': 7.8} {'loss': 0.652, 'grad_norm': 1.130555272102356, 'learning_rate': 3.382459998993559e-08, 'epoch': 7.8} {'loss': 0.6727, 'grad_norm': 1.4790505170822144, 'learning_rate': 3.2909729455470326e-08, 'epoch': 7.81} {'loss': 0.6484, 'grad_norm': 1.255200743675232, 'learning_rate': 3.2007381214367306e-08, 'epoch': 7.81} {'loss': 0.6678, 'grad_norm': 1.0405994653701782, 'learning_rate': 3.111755640030634e-08, 'epoch': 7.81} {'loss': 0.6596, 'grad_norm': 1.222203016281128, 'learning_rate': 3.024025613122872e-08, 'epoch': 7.81} {'loss': 0.6299, 'grad_norm': 0.9495989680290222, 'learning_rate': 2.9375481509344993e-08, 'epoch': 7.82} {'loss': 0.6148, 'grad_norm': 1.0079162120819092, 'learning_rate': 2.8523233621124967e-08, 'epoch': 7.82} {'loss': 0.6285, 'grad_norm': 1.3329743146896362, 'learning_rate': 2.7683513537305472e-08, 'epoch': 7.82} {'loss': 0.6784, 'grad_norm': 0.8871381878852844, 'learning_rate': 2.685632231287705e-08, 'epoch': 7.83} {'loss': 0.684, 'grad_norm': 1.281076192855835, 'learning_rate': 2.604166098709504e-08, 'epoch': 7.83} {'loss': 0.619, 'grad_norm': 1.2190383672714233, 'learning_rate': 2.5239530583470727e-08, 'epoch': 7.83} {'loss': 0.6231, 'grad_norm': 1.0344507694244385, 'learning_rate': 2.44499321097702e-08, 'epoch': 7.83} {'loss': 0.6397, 'grad_norm': 1.3099615573883057, 'learning_rate': 2.3672866558017705e-08, 'epoch': 7.84} {'loss': 0.6591, 'grad_norm': 1.0259225368499756, 'learning_rate': 2.290833490449007e-08, 'epoch': 7.84} {'loss': 0.64, 'grad_norm': 1.0046159029006958, 'learning_rate': 2.2156338109717844e-08, 'epoch': 7.84} {'loss': 0.6264, 'grad_norm': 1.156174898147583, 'learning_rate': 2.141687711848195e-08, 'epoch': 7.84} {'loss': 0.6461, 'grad_norm': 1.2676475048065186, 'learning_rate': 2.06899528598159e-08, 'epoch': 7.85} {'loss': 0.6383, 'grad_norm': 1.0029616355895996, 'learning_rate': 1.9975566246999145e-08, 'epoch': 7.85} {'loss': 0.632, 'grad_norm': 1.3878883123397827, 'learning_rate': 1.927371817756374e-08, 'epoch': 7.85} {'loss': 0.6242, 'grad_norm': 0.9766309261322021, 'learning_rate': 1.858440953328322e-08, 'epoch': 7.86} {'loss': 0.6862, 'grad_norm': 1.0673803091049194, 'learning_rate': 1.7907641180183732e-08, 'epoch': 7.86} {'loss': 0.6451, 'grad_norm': 1.2397006750106812, 'learning_rate': 1.7243413968529577e-08, 'epoch': 7.86} {'loss': 0.6782, 'grad_norm': 1.1874091625213623, 'learning_rate': 1.659172873283432e-08, 'epoch': 7.86} {'loss': 0.6909, 'grad_norm': 1.2929881811141968, 'learning_rate': 1.5952586291849703e-08, 'epoch': 7.87} {'loss': 0.6578, 'grad_norm': 1.160638451576233, 'learning_rate': 1.5325987448573386e-08, 'epoch': 7.87} {'loss': 0.6503, 'grad_norm': 1.0756460428237915, 'learning_rate': 1.4711932990238986e-08, 'epoch': 7.87} {'loss': 0.6353, 'grad_norm': 0.9261255264282227, 'learning_rate': 1.4110423688324938e-08, 'epoch': 7.87} {'loss': 0.6117, 'grad_norm': 1.099928617477417, 'learning_rate': 1.3521460298544508e-08, 'epoch': 7.88} {'loss': 0.6574, 'grad_norm': 1.2581251859664917, 'learning_rate': 1.2945043560851357e-08, 'epoch': 7.88} {'loss': 0.6601, 'grad_norm': 1.0503100156784058, 'learning_rate': 1.2381174199432855e-08, 'epoch': 7.88} {'loss': 0.664, 'grad_norm': 1.430468201637268, 'learning_rate': 1.1829852922715657e-08, 'epoch': 7.89} {'loss': 0.6386, 'grad_norm': 1.4149518013000488, 'learning_rate': 1.1291080423359024e-08, 'epoch': 7.89} {'loss': 0.6022, 'grad_norm': 1.0575833320617676, 'learning_rate': 1.0764857378258165e-08, 'epoch': 7.89} {'loss': 0.656, 'grad_norm': 0.8987192511558533, 'learning_rate': 1.0251184448539787e-08, 'epoch': 7.89} {'loss': 0.5898, 'grad_norm': 1.0282026529312134, 'learning_rate': 9.75006227956432e-09, 'epoch': 7.9} {'loss': 0.6463, 'grad_norm': 1.243451476097107, 'learning_rate': 9.261491500924813e-09, 'epoch': 7.9} {'loss': 0.6471, 'grad_norm': 1.153281569480896, 'learning_rate': 8.785472726442478e-09, 'epoch': 7.9} {'loss': 0.6768, 'grad_norm': 1.0844305753707886, 'learning_rate': 8.322006554171147e-09, 'epoch': 7.9} {'loss': 0.6643, 'grad_norm': 1.23170804977417, 'learning_rate': 7.871093566392818e-09, 'epoch': 7.91} {'loss': 0.6922, 'grad_norm': 1.0495508909225464, 'learning_rate': 7.432734329617663e-09, 'epoch': 7.91} {'loss': 0.6411, 'grad_norm': 1.1978029012680054, 'learning_rate': 7.006929394585138e-09, 'epoch': 7.91} {'loss': 0.648, 'grad_norm': 1.2853024005889893, 'learning_rate': 6.593679296261757e-09, 'epoch': 7.91} {'loss': 0.6933, 'grad_norm': 0.924237847328186, 'learning_rate': 6.192984553838877e-09, 'epoch': 7.92} {'loss': 0.6378, 'grad_norm': 1.125971794128418, 'learning_rate': 5.804845670734915e-09, 'epoch': 7.92} {'loss': 0.6425, 'grad_norm': 1.2799667119979858, 'learning_rate': 5.429263134594242e-09, 'epoch': 7.92} {'loss': 0.6615, 'grad_norm': 0.9830585718154907, 'learning_rate': 5.066237417286068e-09, 'epoch': 7.93} {'loss': 0.6547, 'grad_norm': 1.2941880226135254, 'learning_rate': 4.715768974901114e-09, 'epoch': 7.93} {'loss': 0.6352, 'grad_norm': 0.9775596261024475, 'learning_rate': 4.377858247756051e-09, 'epoch': 7.93} {'loss': 0.6156, 'grad_norm': 0.7878546118736267, 'learning_rate': 4.052505660390171e-09, 'epoch': 7.93} {'loss': 0.6527, 'grad_norm': 1.1529579162597656, 'learning_rate': 3.739711621563169e-09, 'epoch': 7.94} {'loss': 0.6661, 'grad_norm': 1.3191437721252441, 'learning_rate': 3.4394765242606874e-09, 'epoch': 7.94} {'loss': 0.5946, 'grad_norm': 0.9848331212997437, 'learning_rate': 3.1518007456854404e-09, 'epoch': 7.94} {'loss': 0.6502, 'grad_norm': 1.058648705482483, 'learning_rate': 2.876684647263872e-09, 'epoch': 7.94} {'loss': 0.632, 'grad_norm': 1.1743125915527344, 'learning_rate': 2.6141285746417165e-09, 'epoch': 7.95} {'loss': 0.6102, 'grad_norm': 1.2333083152770996, 'learning_rate': 2.364132857683998e-09, 'epoch': 7.95} {'loss': 0.6808, 'grad_norm': 1.0802185535430908, 'learning_rate': 2.126697810477252e-09, 'epoch': 7.95} {'loss': 0.6597, 'grad_norm': 1.4693493843078613, 'learning_rate': 1.9018237313273013e-09, 'epoch': 7.96} {'loss': 0.6606, 'grad_norm': 1.2643176317214966, 'learning_rate': 1.6895109027559308e-09, 'epoch': 7.96} {'loss': 0.6518, 'grad_norm': 1.223159670829773, 'learning_rate': 1.4897595915053242e-09, 'epoch': 7.96} {'loss': 0.6404, 'grad_norm': 1.1316368579864502, 'learning_rate': 1.3025700485380654e-09, 'epoch': 7.96} {'loss': 0.6744, 'grad_norm': 1.4541122913360596, 'learning_rate': 1.1279425090304775e-09, 'epoch': 7.97} {'loss': 0.6331, 'grad_norm': 1.1427558660507202, 'learning_rate': 9.658771923792832e-10, 'epoch': 7.97} {'loss': 0.6405, 'grad_norm': 1.0106642246246338, 'learning_rate': 8.163743021960546e-10, 'epoch': 7.97} {'loss': 0.6247, 'grad_norm': 1.0068538188934326, 'learning_rate': 6.794340263127641e-10, 'epoch': 7.97} {'loss': 0.625, 'grad_norm': 1.208261251449585, 'learning_rate': 5.550565367740124e-10, 'epoch': 7.98} {'loss': 0.6772, 'grad_norm': 1.2945061922073364, 'learning_rate': 4.432419898459106e-10, 'epoch': 7.98} {'loss': 0.6426, 'grad_norm': 1.4463691711425781, 'learning_rate': 3.439905260060883e-10, 'epoch': 7.98} {'loss': 0.6848, 'grad_norm': 1.013238549232483, 'learning_rate': 2.573022699503547e-10, 'epoch': 7.99} {'loss': 0.6547, 'grad_norm': 1.196363925933838, 'learning_rate': 1.8317733059269872e-10, 'epoch': 7.99} {'loss': 0.6299, 'grad_norm': 1.2256839275360107, 'learning_rate': 1.2161580105973791e-10, 'epoch': 7.99} {'loss': 0.6126, 'grad_norm': 0.9940093755722046, 'learning_rate': 7.26177586951593e-11, 'epoch': 7.99} {'loss': 0.7102, 'grad_norm': 1.2093374729156494, 'learning_rate': 3.618326505860914e-11, 'epoch': 8.0} {'loss': 0.6214, 'grad_norm': 0.9497407674789429, 'learning_rate': 1.231236592569296e-11, 'epoch': 8.0} 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29504/29504 [75:48:37<00:00, 9.24s/it]/venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") {'train_runtime': 272919.206, 'train_samples_per_second': 0.865, 'train_steps_per_second': 0.108, 'train_loss': 0.7383394307353879, 'epoch': 8.0} 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29504/29504 [75:48:39<00:00, 9.25s/it] Saving model... /venv/main/lib/python3.12/site-packages/peft/utils/save_and_load.py:270: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`. warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.") Model saved to ./ClinicalThought-AI-8B_LoRA_adapter