diff --git "a/checkpoint-3125/trainer_state.json" "b/checkpoint-3125/trainer_state.json" new file mode 100644--- /dev/null +++ "b/checkpoint-3125/trainer_state.json" @@ -0,0 +1,17842 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 1.0, + "eval_steps": 500, + "global_step": 3125, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "grad_norm": 0.5536133151525399, + "loss": 0.3708624839782715, + "step": 0 + }, + { + "grad_norm": 0.2212176342784598, + "loss": 0.24399735033512115, + "step": 1 + }, + { + "grad_norm": 0.31304363285360515, + "loss": 0.3989734947681427, + "step": 2 + }, + { + "grad_norm": 0.3011949116619789, + "loss": 0.3303907513618469, + "step": 3 + }, + { + "grad_norm": 0.29895549409151984, + "loss": 0.3909619152545929, + "step": 4 + }, + { + "grad_norm": 0.4121773253251505, + "loss": 0.30540019273757935, + "step": 5 + }, + { + "grad_norm": 0.2663393566990145, + "loss": 0.3689001202583313, + "step": 6 + }, + { + "grad_norm": 0.2857677594770164, + "loss": 0.3365735411643982, + "step": 7 + }, + { + "grad_norm": 0.34742936373783345, + "loss": 0.36756619811058044, + "step": 8 + }, + { + "grad_norm": 0.32071906827697766, + "loss": 0.4438783526420593, + "step": 9 + }, + { + "epoch": 0.0032, + "grad_norm": 0.32071906328201294, + "learning_rate": 2.132196162046908e-06, + "loss": 0.3558, + "step": 10 + }, + { + "grad_norm": 0.18338009947264336, + "loss": 0.2615654766559601, + "step": 10 + }, + { + "grad_norm": 0.22303771934992786, + "loss": 0.31481629610061646, + "step": 11 + }, + { + "grad_norm": 0.22726280362232243, + "loss": 0.3072388768196106, + "step": 12 + }, + { + "grad_norm": 0.4191877419924546, + "loss": 0.36146610975265503, + "step": 13 + }, + { + "grad_norm": 0.21884399985344682, + "loss": 0.39391815662384033, + "step": 14 + }, + { + "grad_norm": 0.33811268788836757, + "loss": 0.35161131620407104, + "step": 15 + }, + { + "grad_norm": 0.34632114472063347, + "loss": 0.3002413511276245, + "step": 16 + }, + { + "grad_norm": 0.3591227752638313, + "loss": 0.3756169080734253, + "step": 17 + }, + { + "grad_norm": 0.20054719246766056, + "loss": 0.2292073518037796, + "step": 18 + }, + { + "grad_norm": 0.27940657038933225, + "loss": 0.273600310087204, + "step": 19 + }, + { + "epoch": 0.0064, + "grad_norm": 0.2794065475463867, + "learning_rate": 4.264392324093816e-06, + "loss": 0.3169, + "step": 20 + }, + { + "grad_norm": 0.4457414623786181, + "loss": 0.3755911588668823, + "step": 20 + }, + { + "grad_norm": 0.2503405581409215, + "loss": 0.2660144865512848, + "step": 21 + }, + { + "grad_norm": 0.30147744109831687, + "loss": 0.3510676324367523, + "step": 22 + }, + { + "grad_norm": 0.30637283920989133, + "loss": 0.36258113384246826, + "step": 23 + }, + { + "grad_norm": 0.3464263186623427, + "loss": 0.3379804491996765, + "step": 24 + }, + { + "grad_norm": 0.21136411381342166, + "loss": 0.2490980327129364, + "step": 25 + }, + { + "grad_norm": 0.2509691627656792, + "loss": 0.297111839056015, + "step": 26 + }, + { + "grad_norm": 0.2546542679857259, + "loss": 0.3297400176525116, + "step": 27 + }, + { + "grad_norm": 0.310155791405743, + "loss": 0.35510268807411194, + "step": 28 + }, + { + "grad_norm": 0.25563814660009215, + "loss": 0.28179648518562317, + "step": 29 + }, + { + "epoch": 0.0096, + "grad_norm": 0.25563815236091614, + "learning_rate": 6.396588486140726e-06, + "loss": 0.3206, + "step": 30 + }, + { + "grad_norm": 0.3447855363745076, + "loss": 0.2669423222541809, + "step": 30 + }, + { + "grad_norm": 0.27077775165614076, + "loss": 0.3370567858219147, + "step": 31 + }, + { + "grad_norm": 0.336167872607943, + "loss": 0.3632642328739166, + "step": 32 + }, + { + "grad_norm": 0.2578666982838611, + "loss": 0.27509137988090515, + "step": 33 + }, + { + "grad_norm": 0.21814643689593993, + "loss": 0.27442073822021484, + "step": 34 + }, + { + "grad_norm": 0.4003861761199945, + "loss": 0.3449748158454895, + "step": 35 + }, + { + "grad_norm": 0.30805052971710034, + "loss": 0.3716391324996948, + "step": 36 + }, + { + "grad_norm": 0.3733799939056587, + "loss": 0.3228437304496765, + "step": 37 + }, + { + "grad_norm": 0.3071272028136154, + "loss": 0.32987114787101746, + "step": 38 + }, + { + "grad_norm": 0.44173325550405285, + "loss": 0.35518646240234375, + "step": 39 + }, + { + "epoch": 0.0128, + "grad_norm": 0.4417332410812378, + "learning_rate": 8.528784648187633e-06, + "loss": 0.3241, + "step": 40 + }, + { + "grad_norm": 0.2753251268958973, + "loss": 0.2816518545150757, + "step": 40 + }, + { + "grad_norm": 0.3499839509556036, + "loss": 0.3735724687576294, + "step": 41 + }, + { + "grad_norm": 0.3135912735328624, + "loss": 0.29386311769485474, + "step": 42 + }, + { + "grad_norm": 0.2726923027562194, + "loss": 0.30694183707237244, + "step": 43 + }, + { + "grad_norm": 0.25510739560781914, + "loss": 0.3702244758605957, + "step": 44 + }, + { + "grad_norm": 0.32376163360630933, + "loss": 0.33253687620162964, + "step": 45 + }, + { + "grad_norm": 0.35281730060703653, + "loss": 0.27522987127304077, + "step": 46 + }, + { + "grad_norm": 0.6372556245255704, + "loss": 0.3961457312107086, + "step": 47 + }, + { + "grad_norm": 0.17289927245827788, + "loss": 0.22831004858016968, + "step": 48 + }, + { + "grad_norm": 0.3764575009141926, + "loss": 0.3313542604446411, + "step": 49 + }, + { + "epoch": 0.016, + "grad_norm": 0.37645748257637024, + "learning_rate": 1.0660980810234541e-05, + "loss": 0.319, + "step": 50 + }, + { + "grad_norm": 0.30773449193667485, + "loss": 0.3483988046646118, + "step": 50 + }, + { + "grad_norm": 0.369521372407099, + "loss": 0.3945808410644531, + "step": 51 + }, + { + "grad_norm": 0.28318544958121106, + "loss": 0.3076119124889374, + "step": 52 + }, + { + "grad_norm": 0.29420529349590574, + "loss": 0.3477367162704468, + "step": 53 + }, + { + "grad_norm": 0.18648383794565457, + "loss": 0.26483386754989624, + "step": 54 + }, + { + "grad_norm": 0.4655810486053093, + "loss": 0.3240055441856384, + "step": 55 + }, + { + "grad_norm": 0.19797459427938116, + "loss": 0.2554873824119568, + "step": 56 + }, + { + "grad_norm": 0.25293173323095636, + "loss": 0.3029537796974182, + "step": 57 + }, + { + "grad_norm": 0.20730172423295576, + "loss": 0.2895534634590149, + "step": 58 + }, + { + "grad_norm": 0.3131221824230528, + "loss": 0.3173685073852539, + "step": 59 + }, + { + "epoch": 0.0192, + "grad_norm": 0.3131222128868103, + "learning_rate": 1.2793176972281452e-05, + "loss": 0.3153, + "step": 60 + }, + { + "grad_norm": 0.33606362278951474, + "loss": 0.3524510860443115, + "step": 60 + }, + { + "grad_norm": 0.5546663530375456, + "loss": 0.4135338068008423, + "step": 61 + }, + { + "grad_norm": 0.3280705963992293, + "loss": 0.4045245051383972, + "step": 62 + }, + { + "grad_norm": 0.43266527171264835, + "loss": 0.3298313021659851, + "step": 63 + }, + { + "grad_norm": 0.48480223092608726, + "loss": 0.28346890211105347, + "step": 64 + }, + { + "grad_norm": 0.3452992229706492, + "loss": 0.36792153120040894, + "step": 65 + }, + { + "grad_norm": 0.20394383624863616, + "loss": 0.24594631791114807, + "step": 66 + }, + { + "grad_norm": 0.3104373209216829, + "loss": 0.3010438084602356, + "step": 67 + }, + { + "grad_norm": 0.25998282402204675, + "loss": 0.31575828790664673, + "step": 68 + }, + { + "grad_norm": 0.26749795622995853, + "loss": 0.3404635488986969, + "step": 69 + }, + { + "epoch": 0.0224, + "grad_norm": 0.2674979567527771, + "learning_rate": 1.4925373134328357e-05, + "loss": 0.3355, + "step": 70 + }, + { + "grad_norm": 0.3354400950781426, + "loss": 0.3170691132545471, + "step": 70 + }, + { + "grad_norm": 0.29526477725338457, + "loss": 0.40635013580322266, + "step": 71 + }, + { + "grad_norm": 0.3132078288637114, + "loss": 0.31103795766830444, + "step": 72 + }, + { + "grad_norm": 0.3659206277670272, + "loss": 0.3925366699695587, + "step": 73 + }, + { + "grad_norm": 0.2058405707908927, + "loss": 0.28406965732574463, + "step": 74 + }, + { + "grad_norm": 0.337229993801567, + "loss": 0.37655162811279297, + "step": 75 + }, + { + "grad_norm": 0.1956684427849354, + "loss": 0.22687271237373352, + "step": 76 + }, + { + "grad_norm": 0.40714877301119506, + "loss": 0.382968932390213, + "step": 77 + }, + { + "grad_norm": 0.3361764880692555, + "loss": 0.29354047775268555, + "step": 78 + }, + { + "grad_norm": 0.37434847446530123, + "loss": 0.33171218633651733, + "step": 79 + }, + { + "epoch": 0.0256, + "grad_norm": 0.3743484616279602, + "learning_rate": 1.7057569296375266e-05, + "loss": 0.3323, + "step": 80 + }, + { + "grad_norm": 0.5014146817967664, + "loss": 0.29892727732658386, + "step": 80 + }, + { + "grad_norm": 0.3897250593566172, + "loss": 0.30672749876976013, + "step": 81 + }, + { + "grad_norm": 0.2903820598255727, + "loss": 0.25385794043540955, + "step": 82 + }, + { + "grad_norm": 0.3999037571341217, + "loss": 0.3181111216545105, + "step": 83 + }, + { + "grad_norm": 0.2943163018768115, + "loss": 0.3400014340877533, + "step": 84 + }, + { + "grad_norm": 0.19793582170190627, + "loss": 0.2489314079284668, + "step": 85 + }, + { + "grad_norm": 0.24891670668814422, + "loss": 0.2870589792728424, + "step": 86 + }, + { + "grad_norm": 0.33408322505007515, + "loss": 0.2500114440917969, + "step": 87 + }, + { + "grad_norm": 0.5054581083736861, + "loss": 0.25761842727661133, + "step": 88 + }, + { + "grad_norm": 0.34157515944963557, + "loss": 0.2516409158706665, + "step": 89 + }, + { + "epoch": 0.0288, + "grad_norm": 0.34157514572143555, + "learning_rate": 1.9189765458422178e-05, + "loss": 0.2813, + "step": 90 + }, + { + "grad_norm": 0.4071999142230744, + "loss": 0.24587275087833405, + "step": 90 + }, + { + "grad_norm": 0.30486850339843935, + "loss": 0.29508861899375916, + "step": 91 + }, + { + "grad_norm": 0.578119478588592, + "loss": 0.26081565022468567, + "step": 92 + }, + { + "grad_norm": 0.5284644344811266, + "loss": 0.23615635931491852, + "step": 93 + }, + { + "grad_norm": 0.41434540267878744, + "loss": 0.346882700920105, + "step": 94 + }, + { + "grad_norm": 0.26149020782691096, + "loss": 0.3587176203727722, + "step": 95 + }, + { + "grad_norm": 0.21697292024607256, + "loss": 0.26691746711730957, + "step": 96 + }, + { + "grad_norm": 0.17671256485807138, + "loss": 0.2093111276626587, + "step": 97 + }, + { + "grad_norm": 0.19230433606115555, + "loss": 0.21746277809143066, + "step": 98 + }, + { + "grad_norm": 0.5245288647590777, + "loss": 0.34911835193634033, + "step": 99 + }, + { + "epoch": 0.032, + "grad_norm": 0.5245288610458374, + "learning_rate": 2.1321961620469083e-05, + "loss": 0.2786, + "step": 100 + }, + { + "grad_norm": 0.3026546603572228, + "loss": 0.2581595778465271, + "step": 100 + }, + { + "grad_norm": 0.22125961558974813, + "loss": 0.2571811079978943, + "step": 101 + }, + { + "grad_norm": 0.26015357570002967, + "loss": 0.29844948649406433, + "step": 102 + }, + { + "grad_norm": 0.30351183460838144, + "loss": 0.23214280605316162, + "step": 103 + }, + { + "grad_norm": 0.3203615779492844, + "loss": 0.25398528575897217, + "step": 104 + }, + { + "grad_norm": 0.23027027704633715, + "loss": 0.23818470537662506, + "step": 105 + }, + { + "grad_norm": 0.33050082425373867, + "loss": 0.1900961995124817, + "step": 106 + }, + { + "grad_norm": 0.3135647072940478, + "loss": 0.21113978326320648, + "step": 107 + }, + { + "grad_norm": 0.3421247162243669, + "loss": 0.32359015941619873, + "step": 108 + }, + { + "grad_norm": 0.18150065096868734, + "loss": 0.28072845935821533, + "step": 109 + }, + { + "epoch": 0.0352, + "grad_norm": 0.181500643491745, + "learning_rate": 2.345415778251599e-05, + "loss": 0.2544, + "step": 110 + }, + { + "grad_norm": 0.18540419362624516, + "loss": 0.25409427285194397, + "step": 110 + }, + { + "grad_norm": 0.21017503795600972, + "loss": 0.22596441209316254, + "step": 111 + }, + { + "grad_norm": 0.12009391641139212, + "loss": 0.19371211528778076, + "step": 112 + }, + { + "grad_norm": 0.48630406617007177, + "loss": 0.25296443700790405, + "step": 113 + }, + { + "grad_norm": 0.27747767625669406, + "loss": 0.2364136278629303, + "step": 114 + }, + { + "grad_norm": 0.2574304026935295, + "loss": 0.3045104444026947, + "step": 115 + }, + { + "grad_norm": 0.1789998334951453, + "loss": 0.23065385222434998, + "step": 116 + }, + { + "grad_norm": 0.17577969571854044, + "loss": 0.22989816963672638, + "step": 117 + }, + { + "grad_norm": 0.24626749190394034, + "loss": 0.2642713189125061, + "step": 118 + }, + { + "grad_norm": 0.2266779462443175, + "loss": 0.26325055956840515, + "step": 119 + }, + { + "epoch": 0.0384, + "grad_norm": 0.22667795419692993, + "learning_rate": 2.5586353944562904e-05, + "loss": 0.2456, + "step": 120 + }, + { + "grad_norm": 0.23111020756235987, + "loss": 0.2502365708351135, + "step": 120 + }, + { + "grad_norm": 0.12086444354724711, + "loss": 0.21520811319351196, + "step": 121 + }, + { + "grad_norm": 0.34206102848537323, + "loss": 0.29883700609207153, + "step": 122 + }, + { + "grad_norm": 0.2628306934863328, + "loss": 0.19272729754447937, + "step": 123 + }, + { + "grad_norm": 0.24486018917268124, + "loss": 0.2465619146823883, + "step": 124 + }, + { + "grad_norm": 0.22180415950742882, + "loss": 0.2782256603240967, + "step": 125 + }, + { + "grad_norm": 0.20263758227778303, + "loss": 0.1928013414144516, + "step": 126 + }, + { + "grad_norm": 0.44120487585213825, + "loss": 0.2473897486925125, + "step": 127 + }, + { + "grad_norm": 0.4719348453170229, + "loss": 0.25750046968460083, + "step": 128 + }, + { + "grad_norm": 0.24403645189475934, + "loss": 0.21893270313739777, + "step": 129 + }, + { + "epoch": 0.0416, + "grad_norm": 0.244036465883255, + "learning_rate": 2.771855010660981e-05, + "loss": 0.2398, + "step": 130 + }, + { + "grad_norm": 0.2187918519743507, + "loss": 0.21502530574798584, + "step": 130 + }, + { + "grad_norm": 0.22079973708499154, + "loss": 0.2763238847255707, + "step": 131 + }, + { + "grad_norm": 0.18310292845741977, + "loss": 0.21491064131259918, + "step": 132 + }, + { + "grad_norm": 0.17234162930992705, + "loss": 0.2347767949104309, + "step": 133 + }, + { + "grad_norm": 0.3447813987675936, + "loss": 0.2794274091720581, + "step": 134 + }, + { + "grad_norm": 0.15165788507306893, + "loss": 0.2245802879333496, + "step": 135 + }, + { + "grad_norm": 0.5661085743558489, + "loss": 0.3378247916698456, + "step": 136 + }, + { + "grad_norm": 0.24450713927686687, + "loss": 0.29693368077278137, + "step": 137 + }, + { + "grad_norm": 0.24459864573031, + "loss": 0.21665900945663452, + "step": 138 + }, + { + "grad_norm": 0.12225144521688905, + "loss": 0.20968973636627197, + "step": 139 + }, + { + "epoch": 0.0448, + "grad_norm": 0.12225145101547241, + "learning_rate": 2.9850746268656714e-05, + "loss": 0.2506, + "step": 140 + }, + { + "grad_norm": 0.19383484623076583, + "loss": 0.24891167879104614, + "step": 140 + }, + { + "grad_norm": 0.27679932313941963, + "loss": 0.2395983785390854, + "step": 141 + }, + { + "grad_norm": 0.15436495936681274, + "loss": 0.21341197192668915, + "step": 142 + }, + { + "grad_norm": 0.24058869177356962, + "loss": 0.2405565232038498, + "step": 143 + }, + { + "grad_norm": 0.1789079544857426, + "loss": 0.21896883845329285, + "step": 144 + }, + { + "grad_norm": 0.22727145889859202, + "loss": 0.3206729292869568, + "step": 145 + }, + { + "grad_norm": 0.46878453894376604, + "loss": 0.2377719283103943, + "step": 146 + }, + { + "grad_norm": 0.38482610843116316, + "loss": 0.27564576268196106, + "step": 147 + }, + { + "grad_norm": 0.17296240380458633, + "loss": 0.2929536700248718, + "step": 148 + }, + { + "grad_norm": 0.4552425799243461, + "loss": 0.3256741166114807, + "step": 149 + }, + { + "epoch": 0.048, + "grad_norm": 0.4552425742149353, + "learning_rate": 3.1982942430703626e-05, + "loss": 0.2614, + "step": 150 + }, + { + "grad_norm": 0.3265114392134235, + "loss": 0.25547268986701965, + "step": 150 + }, + { + "grad_norm": 0.3827773425564464, + "loss": 0.23354819416999817, + "step": 151 + }, + { + "grad_norm": 0.16167322561923395, + "loss": 0.26218685507774353, + "step": 152 + }, + { + "grad_norm": 0.1622930069688615, + "loss": 0.27106499671936035, + "step": 153 + }, + { + "grad_norm": 0.635227559657528, + "loss": 0.24284608662128448, + "step": 154 + }, + { + "grad_norm": 0.27676165536437597, + "loss": 0.22969019412994385, + "step": 155 + }, + { + "grad_norm": 0.33382788708350064, + "loss": 0.2248910367488861, + "step": 156 + }, + { + "grad_norm": 0.2151026527985979, + "loss": 0.2526739537715912, + "step": 157 + }, + { + "grad_norm": 0.25450917633432396, + "loss": 0.2629184126853943, + "step": 158 + }, + { + "grad_norm": 0.18883612204881342, + "loss": 0.24125415086746216, + "step": 159 + }, + { + "epoch": 0.0512, + "grad_norm": 0.18883612751960754, + "learning_rate": 3.411513859275053e-05, + "loss": 0.2477, + "step": 160 + }, + { + "grad_norm": 0.1635741583333246, + "loss": 0.1980268657207489, + "step": 160 + }, + { + "grad_norm": 0.5549715173920299, + "loss": 0.334247350692749, + "step": 161 + }, + { + "grad_norm": 0.22039105190890937, + "loss": 0.22422704100608826, + "step": 162 + }, + { + "grad_norm": 0.38382263721441107, + "loss": 0.27998659014701843, + "step": 163 + }, + { + "grad_norm": 0.35594039971869296, + "loss": 0.267429918050766, + "step": 164 + }, + { + "grad_norm": 0.2297792155181461, + "loss": 0.21902859210968018, + "step": 165 + }, + { + "grad_norm": 0.23453454376357358, + "loss": 0.31117984652519226, + "step": 166 + }, + { + "grad_norm": 0.17262204967798786, + "loss": 0.22829413414001465, + "step": 167 + }, + { + "grad_norm": 0.2643724322062184, + "loss": 0.20366686582565308, + "step": 168 + }, + { + "grad_norm": 0.27790087144219666, + "loss": 0.2732614576816559, + "step": 169 + }, + { + "epoch": 0.0544, + "grad_norm": 0.2779008746147156, + "learning_rate": 3.624733475479744e-05, + "loss": 0.2539, + "step": 170 + }, + { + "grad_norm": 0.17377179520145855, + "loss": 0.2523546516895294, + "step": 170 + }, + { + "grad_norm": 0.22150071954802975, + "loss": 0.3146454691886902, + "step": 171 + }, + { + "grad_norm": 0.2646883497234059, + "loss": 0.2518746852874756, + "step": 172 + }, + { + "grad_norm": 0.16588599188961042, + "loss": 0.22488680481910706, + "step": 173 + }, + { + "grad_norm": 0.5121894758978752, + "loss": 0.2384159117937088, + "step": 174 + }, + { + "grad_norm": 0.2526299480079654, + "loss": 0.2986481487751007, + "step": 175 + }, + { + "grad_norm": 0.17975394095946817, + "loss": 0.28892746567726135, + "step": 176 + }, + { + "grad_norm": 0.5908585851145699, + "loss": 0.23795735836029053, + "step": 177 + }, + { + "grad_norm": 0.18755247072725623, + "loss": 0.188047856092453, + "step": 178 + }, + { + "grad_norm": 0.13845632364765456, + "loss": 0.18743455410003662, + "step": 179 + }, + { + "epoch": 0.0576, + "grad_norm": 0.138456329703331, + "learning_rate": 3.8379530916844355e-05, + "loss": 0.2483, + "step": 180 + }, + { + "grad_norm": 0.2702309813166674, + "loss": 0.2252814918756485, + "step": 180 + }, + { + "grad_norm": 0.27589654786740364, + "loss": 0.24529971182346344, + "step": 181 + }, + { + "grad_norm": 0.1861013857965208, + "loss": 0.22937873005867004, + "step": 182 + }, + { + "grad_norm": 0.2447756776845582, + "loss": 0.2860068082809448, + "step": 183 + }, + { + "grad_norm": 0.47030090907277067, + "loss": 0.2624228298664093, + "step": 184 + }, + { + "grad_norm": 0.22793250159988787, + "loss": 0.20272263884544373, + "step": 185 + }, + { + "grad_norm": 0.5787661519028534, + "loss": 0.22647202014923096, + "step": 186 + }, + { + "grad_norm": 0.18617361816840244, + "loss": 0.23429237306118011, + "step": 187 + }, + { + "grad_norm": 0.14548031829282693, + "loss": 0.22088445723056793, + "step": 188 + }, + { + "grad_norm": 0.12943268431096838, + "loss": 0.18227708339691162, + "step": 189 + }, + { + "epoch": 0.0608, + "grad_norm": 0.12943269312381744, + "learning_rate": 4.051172707889126e-05, + "loss": 0.2315, + "step": 190 + }, + { + "grad_norm": 0.29148152222296303, + "loss": 0.21756938099861145, + "step": 190 + }, + { + "grad_norm": 0.11077985497577719, + "loss": 0.186189204454422, + "step": 191 + }, + { + "grad_norm": 0.14081095077027167, + "loss": 0.2125082165002823, + "step": 192 + }, + { + "grad_norm": 0.21792482447178438, + "loss": 0.1734430193901062, + "step": 193 + }, + { + "grad_norm": 0.26407564850781867, + "loss": 0.2382436990737915, + "step": 194 + }, + { + "grad_norm": 0.22313808035326227, + "loss": 0.295537531375885, + "step": 195 + }, + { + "grad_norm": 0.20716380590150138, + "loss": 0.24605512619018555, + "step": 196 + }, + { + "grad_norm": 0.18172159256385653, + "loss": 0.27955830097198486, + "step": 197 + }, + { + "grad_norm": 0.27037134847674454, + "loss": 0.20275840163230896, + "step": 198 + }, + { + "grad_norm": 0.16588016078270895, + "loss": 0.23169082403182983, + "step": 199 + }, + { + "epoch": 0.064, + "grad_norm": 0.16588015854358673, + "learning_rate": 4.2643923240938166e-05, + "loss": 0.2284, + "step": 200 + }, + { + "grad_norm": 0.37884786791384595, + "loss": 0.2527273893356323, + "step": 200 + }, + { + "grad_norm": 0.2951665765646221, + "loss": 0.1842259168624878, + "step": 201 + }, + { + "grad_norm": 0.1405541008677915, + "loss": 0.21307826042175293, + "step": 202 + }, + { + "grad_norm": 0.18605342263701538, + "loss": 0.22915302217006683, + "step": 203 + }, + { + "grad_norm": 0.13607709525260783, + "loss": 0.19496271014213562, + "step": 204 + }, + { + "grad_norm": 0.15262456673844577, + "loss": 0.2915180027484894, + "step": 205 + }, + { + "grad_norm": 0.44474346627440936, + "loss": 0.25262245535850525, + "step": 206 + }, + { + "grad_norm": 0.18563951315901156, + "loss": 0.2321382611989975, + "step": 207 + }, + { + "grad_norm": 0.22405003850990665, + "loss": 0.18976783752441406, + "step": 208 + }, + { + "grad_norm": 0.2964286762002226, + "loss": 0.22796331346035004, + "step": 209 + }, + { + "epoch": 0.0672, + "grad_norm": 0.2964286804199219, + "learning_rate": 4.477611940298508e-05, + "loss": 0.2268, + "step": 210 + }, + { + "grad_norm": 0.1910172800897423, + "loss": 0.19039607048034668, + "step": 210 + }, + { + "grad_norm": 0.16371094541538977, + "loss": 0.24314460158348083, + "step": 211 + }, + { + "grad_norm": 0.2150878717491605, + "loss": 0.20173221826553345, + "step": 212 + }, + { + "grad_norm": 0.11026872475520075, + "loss": 0.19084715843200684, + "step": 213 + }, + { + "grad_norm": 0.1607581957206316, + "loss": 0.23968219757080078, + "step": 214 + }, + { + "grad_norm": 0.39006044398682793, + "loss": 0.251247763633728, + "step": 215 + }, + { + "grad_norm": 0.23236867722660814, + "loss": 0.2554571032524109, + "step": 216 + }, + { + "grad_norm": 0.12400231195695294, + "loss": 0.25094446539878845, + "step": 217 + }, + { + "grad_norm": 0.2112978809453746, + "loss": 0.308035671710968, + "step": 218 + }, + { + "grad_norm": 0.15502123728939027, + "loss": 0.22689871490001678, + "step": 219 + }, + { + "epoch": 0.0704, + "grad_norm": 0.15502123534679413, + "learning_rate": 4.690831556503198e-05, + "loss": 0.2358, + "step": 220 + }, + { + "grad_norm": 0.21209658594974154, + "loss": 0.2501450181007385, + "step": 220 + }, + { + "grad_norm": 0.3203616294926566, + "loss": 0.17394614219665527, + "step": 221 + }, + { + "grad_norm": 0.5737211924654498, + "loss": 0.2687298059463501, + "step": 222 + }, + { + "grad_norm": 0.21506437411623439, + "loss": 0.24580976366996765, + "step": 223 + }, + { + "grad_norm": 0.23941474889762726, + "loss": 0.21726591885089874, + "step": 224 + }, + { + "grad_norm": 0.1975919445362517, + "loss": 0.22556734085083008, + "step": 225 + }, + { + "grad_norm": 0.3473432932262617, + "loss": 0.23221176862716675, + "step": 226 + }, + { + "grad_norm": 0.22206864950007918, + "loss": 0.19124940037727356, + "step": 227 + }, + { + "grad_norm": 0.13025532980143273, + "loss": 0.20178377628326416, + "step": 228 + }, + { + "grad_norm": 0.22678081959414711, + "loss": 0.2604370713233948, + "step": 229 + }, + { + "epoch": 0.0736, + "grad_norm": 0.22678083181381226, + "learning_rate": 4.904051172707889e-05, + "loss": 0.2267, + "step": 230 + }, + { + "grad_norm": 0.3883954660177321, + "loss": 0.22564537823200226, + "step": 230 + }, + { + "grad_norm": 0.4511847419362972, + "loss": 0.20020532608032227, + "step": 231 + }, + { + "grad_norm": 0.3343430149698058, + "loss": 0.24852347373962402, + "step": 232 + }, + { + "grad_norm": 0.14588226574540478, + "loss": 0.28023186326026917, + "step": 233 + }, + { + "grad_norm": 0.3282903269461008, + "loss": 0.3165372908115387, + "step": 234 + }, + { + "grad_norm": 0.15137207160677013, + "loss": 0.28145483136177063, + "step": 235 + }, + { + "grad_norm": 0.1783527530023172, + "loss": 0.20048804581165314, + "step": 236 + }, + { + "grad_norm": 0.34748748454851003, + "loss": 0.27594202756881714, + "step": 237 + }, + { + "grad_norm": 0.14598503291168788, + "loss": 0.17573274672031403, + "step": 238 + }, + { + "grad_norm": 0.2653590210808124, + "loss": 0.2331797480583191, + "step": 239 + }, + { + "epoch": 0.0768, + "grad_norm": 0.2653590440750122, + "learning_rate": 5.117270788912581e-05, + "loss": 0.2438, + "step": 240 + }, + { + "grad_norm": 0.12080365583650603, + "loss": 0.19570666551589966, + "step": 240 + }, + { + "grad_norm": 0.15174737737060556, + "loss": 0.23350122570991516, + "step": 241 + }, + { + "grad_norm": 0.1709142065601553, + "loss": 0.22145983576774597, + "step": 242 + }, + { + "grad_norm": 0.3221985476044211, + "loss": 0.22935771942138672, + "step": 243 + }, + { + "grad_norm": 0.3430022642221584, + "loss": 0.1783292144536972, + "step": 244 + }, + { + "grad_norm": 0.39707533289786806, + "loss": 0.2434493601322174, + "step": 245 + }, + { + "grad_norm": 0.11765738392479995, + "loss": 0.21114946901798248, + "step": 246 + }, + { + "grad_norm": 0.1719816575016205, + "loss": 0.25217539072036743, + "step": 247 + }, + { + "grad_norm": 0.33851343895723185, + "loss": 0.24082911014556885, + "step": 248 + }, + { + "grad_norm": 0.15436981892433968, + "loss": 0.19922006130218506, + "step": 249 + }, + { + "epoch": 0.08, + "grad_norm": 0.15436983108520508, + "learning_rate": 5.330490405117271e-05, + "loss": 0.2205, + "step": 250 + }, + { + "grad_norm": 0.311570015861076, + "loss": 0.2734605371952057, + "step": 250 + }, + { + "grad_norm": 0.1932780387376242, + "loss": 0.19997206330299377, + "step": 251 + }, + { + "grad_norm": 0.22173004794797893, + "loss": 0.2355659306049347, + "step": 252 + }, + { + "grad_norm": 0.4270010950768204, + "loss": 0.2408018708229065, + "step": 253 + }, + { + "grad_norm": 0.5371725407722437, + "loss": 0.2313995659351349, + "step": 254 + }, + { + "grad_norm": 0.16347533459688893, + "loss": 0.27257704734802246, + "step": 255 + }, + { + "grad_norm": 0.40616199157623106, + "loss": 0.20181575417518616, + "step": 256 + }, + { + "grad_norm": 0.33083202992426586, + "loss": 0.33871203660964966, + "step": 257 + }, + { + "grad_norm": 0.321663668548808, + "loss": 0.21657608449459076, + "step": 258 + }, + { + "grad_norm": 0.3681298024652894, + "loss": 0.19027605652809143, + "step": 259 + }, + { + "epoch": 0.0832, + "grad_norm": 0.36812978982925415, + "learning_rate": 5.543710021321962e-05, + "loss": 0.2401, + "step": 260 + }, + { + "grad_norm": 0.11507859414588761, + "loss": 0.22552582621574402, + "step": 260 + }, + { + "grad_norm": 0.27822371610077806, + "loss": 0.28975430130958557, + "step": 261 + }, + { + "grad_norm": 0.16534979509651845, + "loss": 0.22162821888923645, + "step": 262 + }, + { + "grad_norm": 0.44917884071261277, + "loss": 0.24822726845741272, + "step": 263 + }, + { + "grad_norm": 0.19101330831509233, + "loss": 0.24076494574546814, + "step": 264 + }, + { + "grad_norm": 0.18374831931697536, + "loss": 0.20076431334018707, + "step": 265 + }, + { + "grad_norm": 0.183203560005309, + "loss": 0.22612585127353668, + "step": 266 + }, + { + "grad_norm": 0.2992048594447469, + "loss": 0.19368647038936615, + "step": 267 + }, + { + "grad_norm": 0.18633574282479878, + "loss": 0.19141890108585358, + "step": 268 + }, + { + "grad_norm": 0.2327456107822633, + "loss": 0.23707211017608643, + "step": 269 + }, + { + "epoch": 0.0864, + "grad_norm": 0.23274561762809753, + "learning_rate": 5.756929637526652e-05, + "loss": 0.2275, + "step": 270 + }, + { + "grad_norm": 0.3072939783948589, + "loss": 0.23924654722213745, + "step": 270 + }, + { + "grad_norm": 0.29615717175442824, + "loss": 0.26916342973709106, + "step": 271 + }, + { + "grad_norm": 0.42441118950622814, + "loss": 0.3106023669242859, + "step": 272 + }, + { + "grad_norm": 0.26577092350670883, + "loss": 0.2082309126853943, + "step": 273 + }, + { + "grad_norm": 0.1803785525022083, + "loss": 0.25350189208984375, + "step": 274 + }, + { + "grad_norm": 0.17689503286929456, + "loss": 0.25956863164901733, + "step": 275 + }, + { + "grad_norm": 0.1554692525147459, + "loss": 0.3000234067440033, + "step": 276 + }, + { + "grad_norm": 0.3176749122063416, + "loss": 0.2806628346443176, + "step": 277 + }, + { + "grad_norm": 0.15827598703754225, + "loss": 0.21207013726234436, + "step": 278 + }, + { + "grad_norm": 0.3396410596087678, + "loss": 0.2109941691160202, + "step": 279 + }, + { + "epoch": 0.0896, + "grad_norm": 0.3396410644054413, + "learning_rate": 5.970149253731343e-05, + "loss": 0.2544, + "step": 280 + }, + { + "grad_norm": 0.2462016242145768, + "loss": 0.23559199273586273, + "step": 280 + }, + { + "grad_norm": 0.1435551642564259, + "loss": 0.23012898862361908, + "step": 281 + }, + { + "grad_norm": 0.2874607450683119, + "loss": 0.21999605000019073, + "step": 282 + }, + { + "grad_norm": 0.3843571074137457, + "loss": 0.16119885444641113, + "step": 283 + }, + { + "grad_norm": 0.12640465441415427, + "loss": 0.20995944738388062, + "step": 284 + }, + { + "grad_norm": 0.24911012284531964, + "loss": 0.2254563421010971, + "step": 285 + }, + { + "grad_norm": 0.23370594554008953, + "loss": 0.21833735704421997, + "step": 286 + }, + { + "grad_norm": 0.13432930630679013, + "loss": 0.19602817296981812, + "step": 287 + }, + { + "grad_norm": 0.16502954646600712, + "loss": 0.19517667591571808, + "step": 288 + }, + { + "grad_norm": 0.11065306242499907, + "loss": 0.1888304054737091, + "step": 289 + }, + { + "epoch": 0.0928, + "grad_norm": 0.11065305769443512, + "learning_rate": 6.183368869936035e-05, + "loss": 0.2081, + "step": 290 + }, + { + "grad_norm": 0.21453472561705172, + "loss": 0.24674773216247559, + "step": 290 + }, + { + "grad_norm": 0.24925427533859193, + "loss": 0.2734052836894989, + "step": 291 + }, + { + "grad_norm": 0.19383061419322636, + "loss": 0.20328599214553833, + "step": 292 + }, + { + "grad_norm": 0.12363766362090078, + "loss": 0.17625868320465088, + "step": 293 + }, + { + "grad_norm": 0.1133868538567869, + "loss": 0.21412403881549835, + "step": 294 + }, + { + "grad_norm": 0.21718884782818135, + "loss": 0.20800411701202393, + "step": 295 + }, + { + "grad_norm": 0.2613617168186208, + "loss": 0.22740139067173004, + "step": 296 + }, + { + "grad_norm": 0.4221133900307377, + "loss": 0.26429060101509094, + "step": 297 + }, + { + "grad_norm": 0.15160675288794911, + "loss": 0.2722736895084381, + "step": 298 + }, + { + "grad_norm": 0.20382929501474872, + "loss": 0.22328615188598633, + "step": 299 + }, + { + "epoch": 0.096, + "grad_norm": 0.20382928848266602, + "learning_rate": 6.396588486140725e-05, + "loss": 0.2309, + "step": 300 + }, + { + "grad_norm": 0.24230065673608783, + "loss": 0.2009337842464447, + "step": 300 + }, + { + "grad_norm": 0.44281967575089326, + "loss": 0.2098526656627655, + "step": 301 + }, + { + "grad_norm": 0.1947779388169012, + "loss": 0.2717430591583252, + "step": 302 + }, + { + "grad_norm": 0.2978895596170971, + "loss": 0.22701087594032288, + "step": 303 + }, + { + "grad_norm": 0.1676935285808238, + "loss": 0.2329089343547821, + "step": 304 + }, + { + "grad_norm": 0.14984564002320866, + "loss": 0.17245851457118988, + "step": 305 + }, + { + "grad_norm": 0.30086197669810766, + "loss": 0.23149408400058746, + "step": 306 + }, + { + "grad_norm": 0.12941324711700686, + "loss": 0.20491832494735718, + "step": 307 + }, + { + "grad_norm": 0.11903953169811876, + "loss": 0.1909656673669815, + "step": 308 + }, + { + "grad_norm": 0.4722406848969054, + "loss": 0.29418790340423584, + "step": 309 + }, + { + "epoch": 0.0992, + "grad_norm": 0.472240686416626, + "learning_rate": 6.609808102345416e-05, + "loss": 0.2236, + "step": 310 + }, + { + "grad_norm": 0.34200877380816525, + "loss": 0.19337432086467743, + "step": 310 + }, + { + "grad_norm": 0.2764399033289485, + "loss": 0.22316110134124756, + "step": 311 + }, + { + "grad_norm": 0.1917042363962088, + "loss": 0.1901799589395523, + "step": 312 + }, + { + "grad_norm": 0.3130288780527515, + "loss": 0.24364827573299408, + "step": 313 + }, + { + "grad_norm": 0.12950054898295627, + "loss": 0.19790761172771454, + "step": 314 + }, + { + "grad_norm": 0.18819856659031228, + "loss": 0.1810389757156372, + "step": 315 + }, + { + "grad_norm": 0.28603267853510744, + "loss": 0.20265254378318787, + "step": 316 + }, + { + "grad_norm": 0.19000153416003154, + "loss": 0.22803369164466858, + "step": 317 + }, + { + "grad_norm": 0.19372612817761004, + "loss": 0.18754440546035767, + "step": 318 + }, + { + "grad_norm": 0.13398939051177913, + "loss": 0.19570869207382202, + "step": 319 + }, + { + "epoch": 0.1024, + "grad_norm": 0.1339893788099289, + "learning_rate": 6.823027718550106e-05, + "loss": 0.2043, + "step": 320 + }, + { + "grad_norm": 0.18036030314818208, + "loss": 0.21091905236244202, + "step": 320 + }, + { + "grad_norm": 0.14152991337468077, + "loss": 0.2810242474079132, + "step": 321 + }, + { + "grad_norm": 0.39012143599693655, + "loss": 0.25728243589401245, + "step": 322 + }, + { + "grad_norm": 0.18801251379497444, + "loss": 0.17545288801193237, + "step": 323 + }, + { + "grad_norm": 0.31728251875287244, + "loss": 0.24643677473068237, + "step": 324 + }, + { + "grad_norm": 0.17673994832349357, + "loss": 0.2101391702890396, + "step": 325 + }, + { + "grad_norm": 0.3359860920111972, + "loss": 0.2357688546180725, + "step": 326 + }, + { + "grad_norm": 0.20775113956737842, + "loss": 0.21685293316841125, + "step": 327 + }, + { + "grad_norm": 0.12781405532233148, + "loss": 0.2516498565673828, + "step": 328 + }, + { + "grad_norm": 0.2382353820545841, + "loss": 0.35508447885513306, + "step": 329 + }, + { + "epoch": 0.1056, + "grad_norm": 0.23823536932468414, + "learning_rate": 7.036247334754798e-05, + "loss": 0.2441, + "step": 330 + }, + { + "grad_norm": 0.18809555934668556, + "loss": 0.2608185410499573, + "step": 330 + }, + { + "grad_norm": 0.30586683242511065, + "loss": 0.23981116712093353, + "step": 331 + }, + { + "grad_norm": 0.6062164864809358, + "loss": 0.27031081914901733, + "step": 332 + }, + { + "grad_norm": 0.20495296058848955, + "loss": 0.27620601654052734, + "step": 333 + }, + { + "grad_norm": 0.21407426866367418, + "loss": 0.21327728033065796, + "step": 334 + }, + { + "grad_norm": 0.18808044043006475, + "loss": 0.2163642942905426, + "step": 335 + }, + { + "grad_norm": 0.22092070689455848, + "loss": 0.24081382155418396, + "step": 336 + }, + { + "grad_norm": 0.1936997797197272, + "loss": 0.23924726247787476, + "step": 337 + }, + { + "grad_norm": 0.20176301634295482, + "loss": 0.2111281305551529, + "step": 338 + }, + { + "grad_norm": 0.12380513928384244, + "loss": 0.22368483245372772, + "step": 339 + }, + { + "epoch": 0.1088, + "grad_norm": 0.12380514293909073, + "learning_rate": 7.249466950959489e-05, + "loss": 0.2392, + "step": 340 + }, + { + "grad_norm": 0.23130750803666222, + "loss": 0.225681334733963, + "step": 340 + }, + { + "grad_norm": 0.203982618452657, + "loss": 0.22413182258605957, + "step": 341 + }, + { + "grad_norm": 0.4821160720557002, + "loss": 0.25655630230903625, + "step": 342 + }, + { + "grad_norm": 0.4120457947685202, + "loss": 0.1851409524679184, + "step": 343 + }, + { + "grad_norm": 0.1489177418387608, + "loss": 0.1778731495141983, + "step": 344 + }, + { + "grad_norm": 0.22361655069351918, + "loss": 0.24274301528930664, + "step": 345 + }, + { + "grad_norm": 0.22290758422535661, + "loss": 0.20416764914989471, + "step": 346 + }, + { + "grad_norm": 0.3427370929796637, + "loss": 0.2302722930908203, + "step": 347 + }, + { + "grad_norm": 0.250645385232568, + "loss": 0.22519391775131226, + "step": 348 + }, + { + "grad_norm": 0.346379371661519, + "loss": 0.1807844340801239, + "step": 349 + }, + { + "epoch": 0.112, + "grad_norm": 0.3463793694972992, + "learning_rate": 7.46268656716418e-05, + "loss": 0.2153, + "step": 350 + }, + { + "grad_norm": 0.24914430630342035, + "loss": 0.17866748571395874, + "step": 350 + }, + { + "grad_norm": 0.2502197898169322, + "loss": 0.1887190341949463, + "step": 351 + }, + { + "grad_norm": 0.3205093825222394, + "loss": 0.2603793740272522, + "step": 352 + }, + { + "grad_norm": 0.12326385720775145, + "loss": 0.1601804494857788, + "step": 353 + }, + { + "grad_norm": 0.15461901793560595, + "loss": 0.20794254541397095, + "step": 354 + }, + { + "grad_norm": 0.1375301403725542, + "loss": 0.22723513841629028, + "step": 355 + }, + { + "grad_norm": 0.29338684758200656, + "loss": 0.1956748366355896, + "step": 356 + }, + { + "grad_norm": 0.10907412188794813, + "loss": 0.16887935996055603, + "step": 357 + }, + { + "grad_norm": 0.12768789943101116, + "loss": 0.21864758431911469, + "step": 358 + }, + { + "grad_norm": 0.19888959659810435, + "loss": 0.20640476047992706, + "step": 359 + }, + { + "epoch": 0.1152, + "grad_norm": 0.1988895982503891, + "learning_rate": 7.675906183368871e-05, + "loss": 0.2013, + "step": 360 + }, + { + "grad_norm": 0.1729701043282166, + "loss": 0.1989647001028061, + "step": 360 + }, + { + "grad_norm": 0.2781653752205883, + "loss": 0.1777271181344986, + "step": 361 + }, + { + "grad_norm": 0.24997105134505382, + "loss": 0.28300565481185913, + "step": 362 + }, + { + "grad_norm": 0.2365629770399323, + "loss": 0.2204105406999588, + "step": 363 + }, + { + "grad_norm": 0.17433571549878227, + "loss": 0.18997418880462646, + "step": 364 + }, + { + "grad_norm": 0.34239652791492264, + "loss": 0.21338365972042084, + "step": 365 + }, + { + "grad_norm": 0.2697691232867481, + "loss": 0.20674321055412292, + "step": 366 + }, + { + "grad_norm": 0.1380527626137025, + "loss": 0.21481068432331085, + "step": 367 + }, + { + "grad_norm": 0.21841188011898666, + "loss": 0.21531876921653748, + "step": 368 + }, + { + "grad_norm": 0.3201592327203185, + "loss": 0.19152355194091797, + "step": 369 + }, + { + "epoch": 0.1184, + "grad_norm": 0.3201592266559601, + "learning_rate": 7.889125799573562e-05, + "loss": 0.2112, + "step": 370 + }, + { + "grad_norm": 0.30114174082068695, + "loss": 0.2192099690437317, + "step": 370 + }, + { + "grad_norm": 0.1787821539788488, + "loss": 0.21392184495925903, + "step": 371 + }, + { + "grad_norm": 0.1702164268610751, + "loss": 0.16610664129257202, + "step": 372 + }, + { + "grad_norm": 0.17873609116457082, + "loss": 0.1812136322259903, + "step": 373 + }, + { + "grad_norm": 0.1406219092636863, + "loss": 0.21665962040424347, + "step": 374 + }, + { + "grad_norm": 0.35777513446106285, + "loss": 0.263590931892395, + "step": 375 + }, + { + "grad_norm": 0.20847893051338298, + "loss": 0.2511001527309418, + "step": 376 + }, + { + "grad_norm": 0.2420023949197598, + "loss": 0.19420358538627625, + "step": 377 + }, + { + "grad_norm": 0.16809208910894652, + "loss": 0.22241659462451935, + "step": 378 + }, + { + "grad_norm": 0.11386834230116007, + "loss": 0.16958346962928772, + "step": 379 + }, + { + "epoch": 0.1216, + "grad_norm": 0.1138683408498764, + "learning_rate": 8.102345415778252e-05, + "loss": 0.2098, + "step": 380 + }, + { + "grad_norm": 0.15368577697719374, + "loss": 0.19518548250198364, + "step": 380 + }, + { + "grad_norm": 0.20416321023889944, + "loss": 0.24475616216659546, + "step": 381 + }, + { + "grad_norm": 0.17425921166853794, + "loss": 0.1729656606912613, + "step": 382 + }, + { + "grad_norm": 0.3556116074435639, + "loss": 0.21481147408485413, + "step": 383 + }, + { + "grad_norm": 0.21475082150275143, + "loss": 0.2392093539237976, + "step": 384 + }, + { + "grad_norm": 0.16308959529980557, + "loss": 0.21606923639774323, + "step": 385 + }, + { + "grad_norm": 0.1689524322578538, + "loss": 0.22800298035144806, + "step": 386 + }, + { + "grad_norm": 0.19651824191517808, + "loss": 0.20502181351184845, + "step": 387 + }, + { + "grad_norm": 0.353528693158162, + "loss": 0.23310992121696472, + "step": 388 + }, + { + "grad_norm": 0.33196474130898757, + "loss": 0.2480693906545639, + "step": 389 + }, + { + "epoch": 0.1248, + "grad_norm": 0.33196476101875305, + "learning_rate": 8.315565031982943e-05, + "loss": 0.2197, + "step": 390 + }, + { + "grad_norm": 0.1521191592080953, + "loss": 0.20970094203948975, + "step": 390 + }, + { + "grad_norm": 0.37018111652362956, + "loss": 0.22515249252319336, + "step": 391 + }, + { + "grad_norm": 0.15388932194209465, + "loss": 0.2270672470331192, + "step": 392 + }, + { + "grad_norm": 0.26523207690006484, + "loss": 0.20337137579917908, + "step": 393 + }, + { + "grad_norm": 0.4695725274936805, + "loss": 0.1872236132621765, + "step": 394 + }, + { + "grad_norm": 0.18704075192558964, + "loss": 0.2384491264820099, + "step": 395 + }, + { + "grad_norm": 0.3127970157602157, + "loss": 0.20431645214557648, + "step": 396 + }, + { + "grad_norm": 0.2835841012090526, + "loss": 0.21749231219291687, + "step": 397 + }, + { + "grad_norm": 0.18382478631479057, + "loss": 0.1674613058567047, + "step": 398 + }, + { + "grad_norm": 0.2857055284228172, + "loss": 0.2744169235229492, + "step": 399 + }, + { + "epoch": 0.128, + "grad_norm": 0.2857055068016052, + "learning_rate": 8.528784648187633e-05, + "loss": 0.2155, + "step": 400 + }, + { + "grad_norm": 0.1813657125245492, + "loss": 0.172776460647583, + "step": 400 + }, + { + "grad_norm": 0.25626595270218866, + "loss": 0.20743483304977417, + "step": 401 + }, + { + "grad_norm": 0.23478808546270974, + "loss": 0.20644861459732056, + "step": 402 + }, + { + "grad_norm": 0.2224708393721226, + "loss": 0.2312731146812439, + "step": 403 + }, + { + "grad_norm": 0.23007846584446495, + "loss": 0.27052822709083557, + "step": 404 + }, + { + "grad_norm": 0.564568861564043, + "loss": 0.22670051455497742, + "step": 405 + }, + { + "grad_norm": 0.26365468736368164, + "loss": 0.2232551872730255, + "step": 406 + }, + { + "grad_norm": 0.14391962460851815, + "loss": 0.2668100893497467, + "step": 407 + }, + { + "grad_norm": 0.14898736347762248, + "loss": 0.2159198522567749, + "step": 408 + }, + { + "grad_norm": 0.7026212122732396, + "loss": 0.33025145530700684, + "step": 409 + }, + { + "epoch": 0.1312, + "grad_norm": 0.7026212215423584, + "learning_rate": 8.742004264392325e-05, + "loss": 0.2351, + "step": 410 + }, + { + "grad_norm": 0.3313602138912618, + "loss": 0.20002348721027374, + "step": 410 + }, + { + "grad_norm": 0.3072094698566593, + "loss": 0.2024374008178711, + "step": 411 + }, + { + "grad_norm": 0.18126550116925094, + "loss": 0.1818808764219284, + "step": 412 + }, + { + "grad_norm": 0.14853991528928073, + "loss": 0.20011809468269348, + "step": 413 + }, + { + "grad_norm": 0.25225462769603135, + "loss": 0.19772452116012573, + "step": 414 + }, + { + "grad_norm": 0.3955446431593653, + "loss": 0.1747240424156189, + "step": 415 + }, + { + "grad_norm": 0.3818662239608442, + "loss": 0.22130939364433289, + "step": 416 + }, + { + "grad_norm": 0.2535824426105575, + "loss": 0.17632821202278137, + "step": 417 + }, + { + "grad_norm": 0.16064008092596924, + "loss": 0.1690073013305664, + "step": 418 + }, + { + "grad_norm": 0.1584784810583246, + "loss": 0.16627280414104462, + "step": 419 + }, + { + "epoch": 0.1344, + "grad_norm": 0.1584784835577011, + "learning_rate": 8.955223880597016e-05, + "loss": 0.189, + "step": 420 + }, + { + "grad_norm": 0.20346529416005418, + "loss": 0.17563961446285248, + "step": 420 + }, + { + "grad_norm": 0.3497048358426433, + "loss": 0.23664520680904388, + "step": 421 + }, + { + "grad_norm": 0.3477707414031888, + "loss": 0.24842680990695953, + "step": 422 + }, + { + "grad_norm": 0.3572452624878862, + "loss": 0.23244501650333405, + "step": 423 + }, + { + "grad_norm": 0.126115987182428, + "loss": 0.2219901978969574, + "step": 424 + }, + { + "grad_norm": 0.21576429647902332, + "loss": 0.23514209687709808, + "step": 425 + }, + { + "grad_norm": 0.3160259966068021, + "loss": 0.22332215309143066, + "step": 426 + }, + { + "grad_norm": 0.4579246978192911, + "loss": 0.19335299730300903, + "step": 427 + }, + { + "grad_norm": 0.3703687937064297, + "loss": 0.18396185338497162, + "step": 428 + }, + { + "grad_norm": 0.3569210632513338, + "loss": 0.22314327955245972, + "step": 429 + }, + { + "epoch": 0.1376, + "grad_norm": 0.3569210469722748, + "learning_rate": 9.168443496801706e-05, + "loss": 0.2174, + "step": 430 + }, + { + "grad_norm": 0.13108139809365113, + "loss": 0.22839395701885223, + "step": 430 + }, + { + "grad_norm": 0.18705636564942935, + "loss": 0.2328292280435562, + "step": 431 + }, + { + "grad_norm": 0.21400617319335172, + "loss": 0.2551964819431305, + "step": 432 + }, + { + "grad_norm": 0.14939114922654545, + "loss": 0.24083130061626434, + "step": 433 + }, + { + "grad_norm": 0.29596027706180583, + "loss": 0.247333824634552, + "step": 434 + }, + { + "grad_norm": 0.3045629683025137, + "loss": 0.18941384553909302, + "step": 435 + }, + { + "grad_norm": 0.3820733231054509, + "loss": 0.2547655701637268, + "step": 436 + }, + { + "grad_norm": 0.10984238457295784, + "loss": 0.22178378701210022, + "step": 437 + }, + { + "grad_norm": 0.16384281715516644, + "loss": 0.20636001229286194, + "step": 438 + }, + { + "grad_norm": 0.1218563512191694, + "loss": 0.21429748833179474, + "step": 439 + }, + { + "epoch": 0.1408, + "grad_norm": 0.12185634672641754, + "learning_rate": 9.381663113006397e-05, + "loss": 0.2291, + "step": 440 + }, + { + "grad_norm": 0.38001975787092557, + "loss": 0.27491307258605957, + "step": 440 + }, + { + "grad_norm": 0.15308389659517715, + "loss": 0.23774631321430206, + "step": 441 + }, + { + "grad_norm": 0.22811893346490203, + "loss": 0.2426730990409851, + "step": 442 + }, + { + "grad_norm": 0.31287817159820613, + "loss": 0.20705893635749817, + "step": 443 + }, + { + "grad_norm": 0.2659518874435724, + "loss": 0.22389385104179382, + "step": 444 + }, + { + "grad_norm": 0.2190420098896666, + "loss": 0.21358805894851685, + "step": 445 + }, + { + "grad_norm": 0.3344890390124026, + "loss": 0.24487733840942383, + "step": 446 + }, + { + "grad_norm": 0.1922624449063476, + "loss": 0.2142653614282608, + "step": 447 + }, + { + "grad_norm": 0.23696982967995364, + "loss": 0.1907060146331787, + "step": 448 + }, + { + "grad_norm": 0.2053037321682217, + "loss": 0.19809189438819885, + "step": 449 + }, + { + "epoch": 0.144, + "grad_norm": 0.20530372858047485, + "learning_rate": 9.594882729211087e-05, + "loss": 0.2248, + "step": 450 + }, + { + "grad_norm": 0.16912367101796205, + "loss": 0.18749308586120605, + "step": 450 + }, + { + "grad_norm": 0.2719384918713939, + "loss": 0.20186394453048706, + "step": 451 + }, + { + "grad_norm": 0.22628232876565346, + "loss": 0.22526752948760986, + "step": 452 + }, + { + "grad_norm": 0.21181041422281988, + "loss": 0.19297786056995392, + "step": 453 + }, + { + "grad_norm": 0.45735943990235844, + "loss": 0.23908929526805878, + "step": 454 + }, + { + "grad_norm": 0.2078809531729785, + "loss": 0.21621060371398926, + "step": 455 + }, + { + "grad_norm": 0.6254257858872171, + "loss": 0.3236102759838104, + "step": 456 + }, + { + "grad_norm": 0.27681425499521284, + "loss": 0.20019619166851044, + "step": 457 + }, + { + "grad_norm": 0.3189533701551848, + "loss": 0.227547287940979, + "step": 458 + }, + { + "grad_norm": 0.3720776212947042, + "loss": 0.20503796637058258, + "step": 459 + }, + { + "epoch": 0.1472, + "grad_norm": 0.3720776438713074, + "learning_rate": 9.808102345415778e-05, + "loss": 0.2219, + "step": 460 + }, + { + "grad_norm": 0.20581238269440744, + "loss": 0.19870582222938538, + "step": 460 + }, + { + "grad_norm": 0.5028307371909672, + "loss": 0.24581538140773773, + "step": 461 + }, + { + "grad_norm": 0.20545212923193126, + "loss": 0.2387309968471527, + "step": 462 + }, + { + "grad_norm": 0.19834423257063166, + "loss": 0.1929241418838501, + "step": 463 + }, + { + "grad_norm": 0.12812834919624422, + "loss": 0.20780326426029205, + "step": 464 + }, + { + "grad_norm": 0.28724687134364796, + "loss": 0.20817500352859497, + "step": 465 + }, + { + "grad_norm": 0.1633307240324502, + "loss": 0.20272046327590942, + "step": 466 + }, + { + "grad_norm": 0.3907535085724796, + "loss": 0.18568891286849976, + "step": 467 + }, + { + "grad_norm": 0.20559214672187404, + "loss": 0.2174505740404129, + "step": 468 + }, + { + "grad_norm": 0.2163982171047193, + "loss": 0.2397756576538086, + "step": 469 + }, + { + "epoch": 0.1504, + "grad_norm": 0.2163982093334198, + "learning_rate": 9.998877161464182e-05, + "loss": 0.2138, + "step": 470 + }, + { + "grad_norm": 0.577574051821889, + "loss": 0.26081863045692444, + "step": 470 + }, + { + "grad_norm": 0.17165810186353386, + "loss": 0.23301950097084045, + "step": 471 + }, + { + "grad_norm": 0.44965909337839927, + "loss": 0.19803039729595184, + "step": 472 + }, + { + "grad_norm": 0.6484628746556494, + "loss": 0.22305510938167572, + "step": 473 + }, + { + "grad_norm": 0.2980118241510806, + "loss": 0.26489946246147156, + "step": 474 + }, + { + "grad_norm": 0.32729750879825004, + "loss": 0.19376157224178314, + "step": 475 + }, + { + "grad_norm": 0.2556772546819145, + "loss": 0.23705609142780304, + "step": 476 + }, + { + "grad_norm": 0.24806804952439515, + "loss": 0.20403757691383362, + "step": 477 + }, + { + "grad_norm": 0.26877008656193346, + "loss": 0.21113498508930206, + "step": 478 + }, + { + "grad_norm": 0.18278161735960666, + "loss": 0.1991771161556244, + "step": 479 + }, + { + "epoch": 0.1536, + "grad_norm": 0.1827816218137741, + "learning_rate": 9.987648776105997e-05, + "loss": 0.2225, + "step": 480 + }, + { + "grad_norm": 0.259125303914029, + "loss": 0.2513143718242645, + "step": 480 + }, + { + "grad_norm": 0.4736413951244784, + "loss": 0.27539265155792236, + "step": 481 + }, + { + "grad_norm": 0.26557798283478556, + "loss": 0.18509167432785034, + "step": 482 + }, + { + "grad_norm": 0.15895313468544528, + "loss": 0.16909882426261902, + "step": 483 + }, + { + "grad_norm": 0.2583543367278534, + "loss": 0.2376404106616974, + "step": 484 + }, + { + "grad_norm": 0.2508377296670825, + "loss": 0.2528817653656006, + "step": 485 + }, + { + "grad_norm": 0.23778265021187808, + "loss": 0.1956116259098053, + "step": 486 + }, + { + "grad_norm": 0.5558035197864369, + "loss": 0.1869448721408844, + "step": 487 + }, + { + "grad_norm": 0.5301295562440388, + "loss": 0.20494727790355682, + "step": 488 + }, + { + "grad_norm": 0.33974064546504323, + "loss": 0.18934249877929688, + "step": 489 + }, + { + "epoch": 0.1568, + "grad_norm": 0.3397406339645386, + "learning_rate": 9.97642039074781e-05, + "loss": 0.2148, + "step": 490 + }, + { + "grad_norm": 0.3302328334704434, + "loss": 0.20656588673591614, + "step": 490 + }, + { + "grad_norm": 0.27381548821704627, + "loss": 0.17269232869148254, + "step": 491 + }, + { + "grad_norm": 0.283879577603325, + "loss": 0.18192358314990997, + "step": 492 + }, + { + "grad_norm": 0.19979354618269504, + "loss": 0.20419268310070038, + "step": 493 + }, + { + "grad_norm": 0.3630770698520835, + "loss": 0.20060423016548157, + "step": 494 + }, + { + "grad_norm": 0.253716817786488, + "loss": 0.19294320046901703, + "step": 495 + }, + { + "grad_norm": 0.36769003488337126, + "loss": 0.2643932104110718, + "step": 496 + }, + { + "grad_norm": 0.482792009656945, + "loss": 0.20644310116767883, + "step": 497 + }, + { + "grad_norm": 0.17753002367498472, + "loss": 0.2691408395767212, + "step": 498 + }, + { + "grad_norm": 0.28261841309901997, + "loss": 0.19298610091209412, + "step": 499 + }, + { + "epoch": 0.16, + "grad_norm": 0.2826184034347534, + "learning_rate": 9.965192005389625e-05, + "loss": 0.2092, + "step": 500 + }, + { + "grad_norm": 0.24983232647653145, + "loss": 0.18586717545986176, + "step": 500 + }, + { + "grad_norm": 0.3772546713353796, + "loss": 0.2433023452758789, + "step": 501 + }, + { + "grad_norm": 0.47135677275133614, + "loss": 0.20586803555488586, + "step": 502 + }, + { + "grad_norm": 0.15487490029384327, + "loss": 0.27501192688941956, + "step": 503 + }, + { + "grad_norm": 0.4036523988166591, + "loss": 0.19285260140895844, + "step": 504 + }, + { + "grad_norm": 0.2565253485661981, + "loss": 0.16491752862930298, + "step": 505 + }, + { + "grad_norm": 0.18299583982174675, + "loss": 0.21847602725028992, + "step": 506 + }, + { + "grad_norm": 0.38843885157661884, + "loss": 0.2414567768573761, + "step": 507 + }, + { + "grad_norm": 0.34683035772096993, + "loss": 0.18821939826011658, + "step": 508 + }, + { + "grad_norm": 0.17477303012592196, + "loss": 0.20393185317516327, + "step": 509 + }, + { + "epoch": 0.1632, + "grad_norm": 0.17477303743362427, + "learning_rate": 9.95396362003144e-05, + "loss": 0.212, + "step": 510 + }, + { + "grad_norm": 0.13992269213939856, + "loss": 0.17699748277664185, + "step": 510 + }, + { + "grad_norm": 0.20368160876280067, + "loss": 0.16818669438362122, + "step": 511 + }, + { + "grad_norm": 0.24995657947762287, + "loss": 0.1786920726299286, + "step": 512 + }, + { + "grad_norm": 0.32058720820571107, + "loss": 0.24110537767410278, + "step": 513 + }, + { + "grad_norm": 0.22605602436415417, + "loss": 0.24567262828350067, + "step": 514 + }, + { + "grad_norm": 0.24961244611702643, + "loss": 0.1848776489496231, + "step": 515 + }, + { + "grad_norm": 0.21096936168555425, + "loss": 0.21696415543556213, + "step": 516 + }, + { + "grad_norm": 0.39525694915970916, + "loss": 0.21483974158763885, + "step": 517 + }, + { + "grad_norm": 0.13928774902050167, + "loss": 0.21296022832393646, + "step": 518 + }, + { + "grad_norm": 0.14256269965014443, + "loss": 0.1868196725845337, + "step": 519 + }, + { + "epoch": 0.1664, + "grad_norm": 0.14256270229816437, + "learning_rate": 9.942735234673256e-05, + "loss": 0.2027, + "step": 520 + }, + { + "grad_norm": 0.4106257743778763, + "loss": 0.2758306860923767, + "step": 520 + }, + { + "grad_norm": 0.14462882809298627, + "loss": 0.20114514231681824, + "step": 521 + }, + { + "grad_norm": 0.15320754048992258, + "loss": 0.2240072786808014, + "step": 522 + }, + { + "grad_norm": 0.1298924105232317, + "loss": 0.20207421481609344, + "step": 523 + }, + { + "grad_norm": 0.28316823717629247, + "loss": 0.25807374715805054, + "step": 524 + }, + { + "grad_norm": 0.11390010201630162, + "loss": 0.19925826787948608, + "step": 525 + }, + { + "grad_norm": 0.35410946562419315, + "loss": 0.21753722429275513, + "step": 526 + }, + { + "grad_norm": 0.12639404057187967, + "loss": 0.16735029220581055, + "step": 527 + }, + { + "grad_norm": 0.2220430280629675, + "loss": 0.16132497787475586, + "step": 528 + }, + { + "grad_norm": 0.20557594126205758, + "loss": 0.2500706613063812, + "step": 529 + }, + { + "epoch": 0.1696, + "grad_norm": 0.20557594299316406, + "learning_rate": 9.931506849315069e-05, + "loss": 0.2157, + "step": 530 + }, + { + "grad_norm": 0.17725029074232682, + "loss": 0.24334655702114105, + "step": 530 + }, + { + "grad_norm": 0.10653184348759685, + "loss": 0.16072335839271545, + "step": 531 + }, + { + "grad_norm": 0.11904773667049594, + "loss": 0.20746302604675293, + "step": 532 + }, + { + "grad_norm": 0.1552297324398382, + "loss": 0.1970917135477066, + "step": 533 + }, + { + "grad_norm": 0.17466543257104125, + "loss": 0.20936423540115356, + "step": 534 + }, + { + "grad_norm": 0.1724825250128506, + "loss": 0.21076948940753937, + "step": 535 + }, + { + "grad_norm": 0.20719608866059308, + "loss": 0.19139930605888367, + "step": 536 + }, + { + "grad_norm": 0.4139299408947599, + "loss": 0.2672972083091736, + "step": 537 + }, + { + "grad_norm": 0.16205578182527186, + "loss": 0.22373266518115997, + "step": 538 + }, + { + "grad_norm": 0.19155051480573018, + "loss": 0.2311933934688568, + "step": 539 + }, + { + "epoch": 0.1728, + "grad_norm": 0.19155050814151764, + "learning_rate": 9.920278463956883e-05, + "loss": 0.2142, + "step": 540 + }, + { + "grad_norm": 0.5798699508914333, + "loss": 0.1626231074333191, + "step": 540 + }, + { + "grad_norm": 0.43906879482676264, + "loss": 0.3058236539363861, + "step": 541 + }, + { + "grad_norm": 0.4144533168914001, + "loss": 0.18347671627998352, + "step": 542 + }, + { + "grad_norm": 0.23226056241937074, + "loss": 0.19636251032352448, + "step": 543 + }, + { + "grad_norm": 0.12055223536328828, + "loss": 0.20431004464626312, + "step": 544 + }, + { + "grad_norm": 0.1902866334592834, + "loss": 0.2056966871023178, + "step": 545 + }, + { + "grad_norm": 0.2819408825800737, + "loss": 0.20325732231140137, + "step": 546 + }, + { + "grad_norm": 0.3233922832501084, + "loss": 0.19263345003128052, + "step": 547 + }, + { + "grad_norm": 0.3312092410420903, + "loss": 0.18759937584400177, + "step": 548 + }, + { + "grad_norm": 0.1431547867611657, + "loss": 0.18554309010505676, + "step": 549 + }, + { + "epoch": 0.176, + "grad_norm": 0.1431547850370407, + "learning_rate": 9.909050078598698e-05, + "loss": 0.2027, + "step": 550 + }, + { + "grad_norm": 0.33058399130139227, + "loss": 0.23099155724048615, + "step": 550 + }, + { + "grad_norm": 0.19748597901214673, + "loss": 0.2411402016878128, + "step": 551 + }, + { + "grad_norm": 0.13908543571438536, + "loss": 0.19571462273597717, + "step": 552 + }, + { + "grad_norm": 0.12680711380422624, + "loss": 0.1634690910577774, + "step": 553 + }, + { + "grad_norm": 0.1908780650364373, + "loss": 0.19211478531360626, + "step": 554 + }, + { + "grad_norm": 0.17347714717371224, + "loss": 0.1983051747083664, + "step": 555 + }, + { + "grad_norm": 0.2741460758177996, + "loss": 0.1785309910774231, + "step": 556 + }, + { + "grad_norm": 0.2600592926958696, + "loss": 0.2073313593864441, + "step": 557 + }, + { + "grad_norm": 0.26351799531778214, + "loss": 0.21231578290462494, + "step": 558 + }, + { + "grad_norm": 0.17494995982313172, + "loss": 0.17609494924545288, + "step": 559 + }, + { + "epoch": 0.1792, + "grad_norm": 0.17494995892047882, + "learning_rate": 9.897821693240512e-05, + "loss": 0.1996, + "step": 560 + }, + { + "grad_norm": 0.16029151281311732, + "loss": 0.19439361989498138, + "step": 560 + }, + { + "grad_norm": 0.19701427502425342, + "loss": 0.1919352412223816, + "step": 561 + }, + { + "grad_norm": 0.2687545669904091, + "loss": 0.23789888620376587, + "step": 562 + }, + { + "grad_norm": 0.29593638192199717, + "loss": 0.30245518684387207, + "step": 563 + }, + { + "grad_norm": 0.27707739006739435, + "loss": 0.27042943239212036, + "step": 564 + }, + { + "grad_norm": 0.5537750574957768, + "loss": 0.3291202783584595, + "step": 565 + }, + { + "grad_norm": 0.10741283670244854, + "loss": 0.18859243392944336, + "step": 566 + }, + { + "grad_norm": 0.1501993133796011, + "loss": 0.24083566665649414, + "step": 567 + }, + { + "grad_norm": 0.353717766358819, + "loss": 0.22329989075660706, + "step": 568 + }, + { + "grad_norm": 0.21769669379681944, + "loss": 0.24299083650112152, + "step": 569 + }, + { + "epoch": 0.1824, + "grad_norm": 0.21769669651985168, + "learning_rate": 9.886593307882327e-05, + "loss": 0.2422, + "step": 570 + }, + { + "grad_norm": 0.5523797928234256, + "loss": 0.2339523732662201, + "step": 570 + }, + { + "grad_norm": 0.3632783498727065, + "loss": 0.1916469931602478, + "step": 571 + }, + { + "grad_norm": 0.16613574254863983, + "loss": 0.1868484914302826, + "step": 572 + }, + { + "grad_norm": 0.3181467470525448, + "loss": 0.24784523248672485, + "step": 573 + }, + { + "grad_norm": 0.23148771397431897, + "loss": 0.23552767932415009, + "step": 574 + }, + { + "grad_norm": 0.17456572351457716, + "loss": 0.17988666892051697, + "step": 575 + }, + { + "grad_norm": 0.20716938026029183, + "loss": 0.2631847858428955, + "step": 576 + }, + { + "grad_norm": 0.30084862207472235, + "loss": 0.16896742582321167, + "step": 577 + }, + { + "grad_norm": 0.14105148356101616, + "loss": 0.19940637052059174, + "step": 578 + }, + { + "grad_norm": 0.5145639297176408, + "loss": 0.25065964460372925, + "step": 579 + }, + { + "epoch": 0.1856, + "grad_norm": 0.5145639181137085, + "learning_rate": 9.875364922524142e-05, + "loss": 0.2158, + "step": 580 + }, + { + "grad_norm": 0.19153405737434, + "loss": 0.16486486792564392, + "step": 580 + }, + { + "grad_norm": 0.13279027642257243, + "loss": 0.20186758041381836, + "step": 581 + }, + { + "grad_norm": 0.4109573105452901, + "loss": 0.1982104480266571, + "step": 582 + }, + { + "grad_norm": 0.33488102012201143, + "loss": 0.20829446613788605, + "step": 583 + }, + { + "grad_norm": 0.18335363681328065, + "loss": 0.18825799226760864, + "step": 584 + }, + { + "grad_norm": 0.18303634778221162, + "loss": 0.17467878758907318, + "step": 585 + }, + { + "grad_norm": 0.579256985145621, + "loss": 0.27322667837142944, + "step": 586 + }, + { + "grad_norm": 0.20134148776344848, + "loss": 0.18703755736351013, + "step": 587 + }, + { + "grad_norm": 0.5296901831092437, + "loss": 0.2936621308326721, + "step": 588 + }, + { + "grad_norm": 0.1949733297969044, + "loss": 0.19634269177913666, + "step": 589 + }, + { + "epoch": 0.1888, + "grad_norm": 0.19497331976890564, + "learning_rate": 9.864136537165956e-05, + "loss": 0.2086, + "step": 590 + }, + { + "grad_norm": 0.195231824937206, + "loss": 0.1856149435043335, + "step": 590 + }, + { + "grad_norm": 0.22077487550836083, + "loss": 0.2452094852924347, + "step": 591 + }, + { + "grad_norm": 0.30144795754901255, + "loss": 0.20015351474285126, + "step": 592 + }, + { + "grad_norm": 0.21981381929842383, + "loss": 0.23336568474769592, + "step": 593 + }, + { + "grad_norm": 0.2040500765515633, + "loss": 0.20937480032444, + "step": 594 + }, + { + "grad_norm": 0.5085816858604002, + "loss": 0.23643743991851807, + "step": 595 + }, + { + "grad_norm": 0.18380191316776165, + "loss": 0.19243119657039642, + "step": 596 + }, + { + "grad_norm": 0.1605234148457638, + "loss": 0.24195528030395508, + "step": 597 + }, + { + "grad_norm": 0.18087425117230022, + "loss": 0.1520039290189743, + "step": 598 + }, + { + "grad_norm": 0.2112557470782321, + "loss": 0.19659289717674255, + "step": 599 + }, + { + "epoch": 0.192, + "grad_norm": 0.211255744099617, + "learning_rate": 9.852908151807771e-05, + "loss": 0.2093, + "step": 600 + }, + { + "grad_norm": 0.27616673860169544, + "loss": 0.19125846028327942, + "step": 600 + }, + { + "grad_norm": 0.45017467497271685, + "loss": 0.2431926429271698, + "step": 601 + }, + { + "grad_norm": 0.2109038001448238, + "loss": 0.19643306732177734, + "step": 602 + }, + { + "grad_norm": 0.17738697211907317, + "loss": 0.20698124170303345, + "step": 603 + }, + { + "grad_norm": 0.33146256366694143, + "loss": 0.22959665954113007, + "step": 604 + }, + { + "grad_norm": 0.26540450707008395, + "loss": 0.2493821233510971, + "step": 605 + }, + { + "grad_norm": 0.18011185695583443, + "loss": 0.17183475196361542, + "step": 606 + }, + { + "grad_norm": 0.22918611315352105, + "loss": 0.2321891337633133, + "step": 607 + }, + { + "grad_norm": 0.23252333985241597, + "loss": 0.21537519991397858, + "step": 608 + }, + { + "grad_norm": 0.4832595751991381, + "loss": 0.21162591874599457, + "step": 609 + }, + { + "epoch": 0.1952, + "grad_norm": 0.4832595884799957, + "learning_rate": 9.841679766449586e-05, + "loss": 0.2148, + "step": 610 + }, + { + "grad_norm": 0.6581511536872209, + "loss": 0.20331858098506927, + "step": 610 + }, + { + "grad_norm": 0.17044155780393258, + "loss": 0.20061755180358887, + "step": 611 + }, + { + "grad_norm": 0.32488732463713005, + "loss": 0.17762061953544617, + "step": 612 + }, + { + "grad_norm": 0.16192585415998847, + "loss": 0.25486984848976135, + "step": 613 + }, + { + "grad_norm": 0.47431803803273104, + "loss": 0.24865901470184326, + "step": 614 + }, + { + "grad_norm": 0.2734689999080053, + "loss": 0.2501664161682129, + "step": 615 + }, + { + "grad_norm": 0.3186595807605771, + "loss": 0.2219168096780777, + "step": 616 + }, + { + "grad_norm": 0.41434591795046977, + "loss": 0.29847627878189087, + "step": 617 + }, + { + "grad_norm": 0.24905620598140799, + "loss": 0.17622020840644836, + "step": 618 + }, + { + "grad_norm": 0.24792829195037563, + "loss": 0.21027593314647675, + "step": 619 + }, + { + "epoch": 0.1984, + "grad_norm": 0.24792829155921936, + "learning_rate": 9.8304513810914e-05, + "loss": 0.2242, + "step": 620 + }, + { + "grad_norm": 0.2339183389788072, + "loss": 0.2116771787405014, + "step": 620 + }, + { + "grad_norm": 0.3125008212514068, + "loss": 0.17710524797439575, + "step": 621 + }, + { + "grad_norm": 0.17011453254199554, + "loss": 0.16284197568893433, + "step": 622 + }, + { + "grad_norm": 0.13581118916220478, + "loss": 0.18419799208641052, + "step": 623 + }, + { + "grad_norm": 0.20998153112932882, + "loss": 0.19298267364501953, + "step": 624 + }, + { + "grad_norm": 0.27026008631766224, + "loss": 0.17749273777008057, + "step": 625 + }, + { + "grad_norm": 0.15225813171642033, + "loss": 0.20737990736961365, + "step": 626 + }, + { + "grad_norm": 0.198753167032075, + "loss": 0.18726693093776703, + "step": 627 + }, + { + "grad_norm": 0.24345410816185184, + "loss": 0.2735573947429657, + "step": 628 + }, + { + "grad_norm": 0.48613138080528406, + "loss": 0.26005086302757263, + "step": 629 + }, + { + "epoch": 0.2016, + "grad_norm": 0.48613137006759644, + "learning_rate": 9.819222995733213e-05, + "loss": 0.2035, + "step": 630 + }, + { + "grad_norm": 0.16026060867873815, + "loss": 0.17595626413822174, + "step": 630 + }, + { + "grad_norm": 0.11316484372304499, + "loss": 0.17662185430526733, + "step": 631 + }, + { + "grad_norm": 0.1292310339304219, + "loss": 0.2053198516368866, + "step": 632 + }, + { + "grad_norm": 0.46882792994106604, + "loss": 0.17537137866020203, + "step": 633 + }, + { + "grad_norm": 0.1452671002102821, + "loss": 0.19654735922813416, + "step": 634 + }, + { + "grad_norm": 0.27886146234617465, + "loss": 0.18756508827209473, + "step": 635 + }, + { + "grad_norm": 0.3056903877663334, + "loss": 0.17757461965084076, + "step": 636 + }, + { + "grad_norm": 0.38837195458580703, + "loss": 0.22943544387817383, + "step": 637 + }, + { + "grad_norm": 0.1461557462128025, + "loss": 0.19508570432662964, + "step": 638 + }, + { + "grad_norm": 0.20214977604017087, + "loss": 0.2432159185409546, + "step": 639 + }, + { + "epoch": 0.2048, + "grad_norm": 0.20214977860450745, + "learning_rate": 9.807994610375028e-05, + "loss": 0.1963, + "step": 640 + }, + { + "grad_norm": 0.38428207917102286, + "loss": 0.23071593046188354, + "step": 640 + }, + { + "grad_norm": 0.23392330028311917, + "loss": 0.24716752767562866, + "step": 641 + }, + { + "grad_norm": 0.3636613183205858, + "loss": 0.23409156501293182, + "step": 642 + }, + { + "grad_norm": 0.17030845488490615, + "loss": 0.17096780240535736, + "step": 643 + }, + { + "grad_norm": 0.2160059104398285, + "loss": 0.2441152185201645, + "step": 644 + }, + { + "grad_norm": 0.2766558374450753, + "loss": 0.19044600427150726, + "step": 645 + }, + { + "grad_norm": 0.16368319964333894, + "loss": 0.1955822855234146, + "step": 646 + }, + { + "grad_norm": 0.15911088173637272, + "loss": 0.2329016923904419, + "step": 647 + }, + { + "grad_norm": 0.28534168866632714, + "loss": 0.20548997819423676, + "step": 648 + }, + { + "grad_norm": 0.18677652119195828, + "loss": 0.20838938653469086, + "step": 649 + }, + { + "epoch": 0.208, + "grad_norm": 0.1867765188217163, + "learning_rate": 9.796766225016843e-05, + "loss": 0.216, + "step": 650 + }, + { + "grad_norm": 0.10664438082795388, + "loss": 0.15428301692008972, + "step": 650 + }, + { + "grad_norm": 0.4219740832823198, + "loss": 0.19194157421588898, + "step": 651 + }, + { + "grad_norm": 0.09441666189909263, + "loss": 0.18831782042980194, + "step": 652 + }, + { + "grad_norm": 0.25380855766695426, + "loss": 0.24005475640296936, + "step": 653 + }, + { + "grad_norm": 0.2222391131464447, + "loss": 0.2086753398180008, + "step": 654 + }, + { + "grad_norm": 0.26238905976761073, + "loss": 0.1666259914636612, + "step": 655 + }, + { + "grad_norm": 0.310382056936813, + "loss": 0.18008774518966675, + "step": 656 + }, + { + "grad_norm": 0.17006558475210626, + "loss": 0.164903923869133, + "step": 657 + }, + { + "grad_norm": 0.15516244334897325, + "loss": 0.15555483102798462, + "step": 658 + }, + { + "grad_norm": 0.2786971069885076, + "loss": 0.19163458049297333, + "step": 659 + }, + { + "epoch": 0.2112, + "grad_norm": 0.27869710326194763, + "learning_rate": 9.785537839658657e-05, + "loss": 0.1842, + "step": 660 + }, + { + "grad_norm": 0.19169305531274894, + "loss": 0.1811373084783554, + "step": 660 + }, + { + "grad_norm": 0.1580219401767991, + "loss": 0.18746525049209595, + "step": 661 + }, + { + "grad_norm": 0.23916238055377825, + "loss": 0.1873500496149063, + "step": 662 + }, + { + "grad_norm": 0.22884057993911502, + "loss": 0.1852532923221588, + "step": 663 + }, + { + "grad_norm": 0.2488619167129747, + "loss": 0.2027014046907425, + "step": 664 + }, + { + "grad_norm": 0.3451655626610161, + "loss": 0.2315656542778015, + "step": 665 + }, + { + "grad_norm": 0.3764462701797929, + "loss": 0.1833888590335846, + "step": 666 + }, + { + "grad_norm": 0.4373813981944856, + "loss": 0.2070915699005127, + "step": 667 + }, + { + "grad_norm": 0.13297326955399705, + "loss": 0.22270239889621735, + "step": 668 + }, + { + "grad_norm": 0.21029245285923545, + "loss": 0.2266363501548767, + "step": 669 + }, + { + "epoch": 0.2144, + "grad_norm": 0.21029245853424072, + "learning_rate": 9.774309454300472e-05, + "loss": 0.2015, + "step": 670 + }, + { + "grad_norm": 0.327900228320456, + "loss": 0.2492714524269104, + "step": 670 + }, + { + "grad_norm": 0.14394154882813448, + "loss": 0.20404008030891418, + "step": 671 + }, + { + "grad_norm": 0.20308242239197957, + "loss": 0.21560508012771606, + "step": 672 + }, + { + "grad_norm": 0.37769247265088157, + "loss": 0.1697385162115097, + "step": 673 + }, + { + "grad_norm": 0.35169379869779055, + "loss": 0.23052439093589783, + "step": 674 + }, + { + "grad_norm": 0.12756866884315807, + "loss": 0.2127888798713684, + "step": 675 + }, + { + "grad_norm": 0.15714469232622805, + "loss": 0.19070658087730408, + "step": 676 + }, + { + "grad_norm": 0.2074035032204061, + "loss": 0.21286340057849884, + "step": 677 + }, + { + "grad_norm": 0.18494732273801148, + "loss": 0.21866412460803986, + "step": 678 + }, + { + "grad_norm": 0.18919136273246054, + "loss": 0.16689440608024597, + "step": 679 + }, + { + "epoch": 0.2176, + "grad_norm": 0.18919135630130768, + "learning_rate": 9.763081068942287e-05, + "loss": 0.2071, + "step": 680 + }, + { + "grad_norm": 0.20815934741411513, + "loss": 0.24982602894306183, + "step": 680 + }, + { + "grad_norm": 0.19779897990603057, + "loss": 0.2090117633342743, + "step": 681 + }, + { + "grad_norm": 0.18872048534718755, + "loss": 0.18512986600399017, + "step": 682 + }, + { + "grad_norm": 0.34536024954937267, + "loss": 0.16509461402893066, + "step": 683 + }, + { + "grad_norm": 0.20475154448298918, + "loss": 0.1819901317358017, + "step": 684 + }, + { + "grad_norm": 0.1064915420859291, + "loss": 0.15765322744846344, + "step": 685 + }, + { + "grad_norm": 0.14410865832625466, + "loss": 0.1885453760623932, + "step": 686 + }, + { + "grad_norm": 0.19794556504071503, + "loss": 0.17933443188667297, + "step": 687 + }, + { + "grad_norm": 0.13971354291300464, + "loss": 0.21933980286121368, + "step": 688 + }, + { + "grad_norm": 0.14328770902758728, + "loss": 0.22263920307159424, + "step": 689 + }, + { + "epoch": 0.2208, + "grad_norm": 0.14328770339488983, + "learning_rate": 9.751852683584101e-05, + "loss": 0.1959, + "step": 690 + }, + { + "grad_norm": 0.16027338829049564, + "loss": 0.19189077615737915, + "step": 690 + }, + { + "grad_norm": 0.5755060081578932, + "loss": 0.2503487169742584, + "step": 691 + }, + { + "grad_norm": 0.16881599674888398, + "loss": 0.21601282060146332, + "step": 692 + }, + { + "grad_norm": 0.19315821571915853, + "loss": 0.19591160118579865, + "step": 693 + }, + { + "grad_norm": 0.3463467471212879, + "loss": 0.2256205976009369, + "step": 694 + }, + { + "grad_norm": 0.2244430651444613, + "loss": 0.17374403774738312, + "step": 695 + }, + { + "grad_norm": 0.39782878582434616, + "loss": 0.18983669579029083, + "step": 696 + }, + { + "grad_norm": 0.13789484662476453, + "loss": 0.1861743927001953, + "step": 697 + }, + { + "grad_norm": 0.14227910443210198, + "loss": 0.20612969994544983, + "step": 698 + }, + { + "grad_norm": 0.23997553615877296, + "loss": 0.17974087595939636, + "step": 699 + }, + { + "epoch": 0.224, + "grad_norm": 0.23997552692890167, + "learning_rate": 9.740624298225916e-05, + "loss": 0.2015, + "step": 700 + }, + { + "grad_norm": 0.1573435968245027, + "loss": 0.18873929977416992, + "step": 700 + }, + { + "grad_norm": 0.21834933189649922, + "loss": 0.25340789556503296, + "step": 701 + }, + { + "grad_norm": 0.18843580515103556, + "loss": 0.22690953314304352, + "step": 702 + }, + { + "grad_norm": 0.1947906228470814, + "loss": 0.18581905961036682, + "step": 703 + }, + { + "grad_norm": 0.31077118169570106, + "loss": 0.2290669083595276, + "step": 704 + }, + { + "grad_norm": 0.20650087568758932, + "loss": 0.2652716636657715, + "step": 705 + }, + { + "grad_norm": 0.4289658450152476, + "loss": 0.20856836438179016, + "step": 706 + }, + { + "grad_norm": 0.18923077949471018, + "loss": 0.18529900908470154, + "step": 707 + }, + { + "grad_norm": 0.23269529316525053, + "loss": 0.23882336914539337, + "step": 708 + }, + { + "grad_norm": 0.22771386946874003, + "loss": 0.1733851581811905, + "step": 709 + }, + { + "epoch": 0.2272, + "grad_norm": 0.22771386802196503, + "learning_rate": 9.729395912867731e-05, + "loss": 0.2155, + "step": 710 + }, + { + "grad_norm": 0.255284417588878, + "loss": 0.18110749125480652, + "step": 710 + }, + { + "grad_norm": 0.32240717760146426, + "loss": 0.1951826810836792, + "step": 711 + }, + { + "grad_norm": 0.14065714519109143, + "loss": 0.1893186867237091, + "step": 712 + }, + { + "grad_norm": 0.26545173720284354, + "loss": 0.20652757585048676, + "step": 713 + }, + { + "grad_norm": 0.16036109814164906, + "loss": 0.1777648776769638, + "step": 714 + }, + { + "grad_norm": 0.10572505511488711, + "loss": 0.17684923112392426, + "step": 715 + }, + { + "grad_norm": 0.2850261911747037, + "loss": 0.1897803246974945, + "step": 716 + }, + { + "grad_norm": 0.11731688089080732, + "loss": 0.19603130221366882, + "step": 717 + }, + { + "grad_norm": 0.36614929133165947, + "loss": 0.22944289445877075, + "step": 718 + }, + { + "grad_norm": 0.15411153350467166, + "loss": 0.17479023337364197, + "step": 719 + }, + { + "epoch": 0.2304, + "grad_norm": 0.15411153435707092, + "learning_rate": 9.718167527509545e-05, + "loss": 0.1917, + "step": 720 + }, + { + "grad_norm": 0.4946560762379752, + "loss": 0.25585320591926575, + "step": 720 + }, + { + "grad_norm": 0.14368546468507545, + "loss": 0.21899618208408356, + "step": 721 + }, + { + "grad_norm": 0.1708940184457384, + "loss": 0.17329052090644836, + "step": 722 + }, + { + "grad_norm": 0.2792054389048256, + "loss": 0.16504868865013123, + "step": 723 + }, + { + "grad_norm": 0.16143713847878918, + "loss": 0.20771649479866028, + "step": 724 + }, + { + "grad_norm": 0.2561162601778399, + "loss": 0.19322481751441956, + "step": 725 + }, + { + "grad_norm": 0.500178040494593, + "loss": 0.1919710636138916, + "step": 726 + }, + { + "grad_norm": 0.16509688226098393, + "loss": 0.22941960394382477, + "step": 727 + }, + { + "grad_norm": 0.13422368795435075, + "loss": 0.22285260260105133, + "step": 728 + }, + { + "grad_norm": 0.21476821245769903, + "loss": 0.1975434124469757, + "step": 729 + }, + { + "epoch": 0.2336, + "grad_norm": 0.2147682160139084, + "learning_rate": 9.706939142151358e-05, + "loss": 0.2056, + "step": 730 + }, + { + "grad_norm": 0.15962431646944603, + "loss": 0.16308170557022095, + "step": 730 + }, + { + "grad_norm": 0.1288800653939941, + "loss": 0.22893807291984558, + "step": 731 + }, + { + "grad_norm": 0.11146689858154497, + "loss": 0.17899073660373688, + "step": 732 + }, + { + "grad_norm": 0.25695105231236454, + "loss": 0.24882428348064423, + "step": 733 + }, + { + "grad_norm": 0.1657225724725619, + "loss": 0.21293118596076965, + "step": 734 + }, + { + "grad_norm": 0.1938766212394098, + "loss": 0.1715710461139679, + "step": 735 + }, + { + "grad_norm": 0.27691242455141124, + "loss": 0.23208144307136536, + "step": 736 + }, + { + "grad_norm": 0.23217597347223942, + "loss": 0.21098598837852478, + "step": 737 + }, + { + "grad_norm": 0.15178779715753554, + "loss": 0.20511817932128906, + "step": 738 + }, + { + "grad_norm": 0.22184569830097947, + "loss": 0.19661131501197815, + "step": 739 + }, + { + "epoch": 0.2368, + "grad_norm": 0.22184568643569946, + "learning_rate": 9.695710756793174e-05, + "loss": 0.2049, + "step": 740 + }, + { + "grad_norm": 0.3125518341213695, + "loss": 0.236094668507576, + "step": 740 + }, + { + "grad_norm": 0.3568120071748959, + "loss": 0.1931118220090866, + "step": 741 + }, + { + "grad_norm": 0.48291249661980723, + "loss": 0.34631606936454773, + "step": 742 + }, + { + "grad_norm": 0.15172068999102312, + "loss": 0.16412778198719025, + "step": 743 + }, + { + "grad_norm": 0.2696388247029412, + "loss": 0.19631759822368622, + "step": 744 + }, + { + "grad_norm": 0.40158593137923254, + "loss": 0.1804228127002716, + "step": 745 + }, + { + "grad_norm": 0.293698071312186, + "loss": 0.18391340970993042, + "step": 746 + }, + { + "grad_norm": 0.13861266483424456, + "loss": 0.18967580795288086, + "step": 747 + }, + { + "grad_norm": 0.16986049701581962, + "loss": 0.2495822310447693, + "step": 748 + }, + { + "grad_norm": 0.3097254802385791, + "loss": 0.18193288147449493, + "step": 749 + }, + { + "epoch": 0.24, + "grad_norm": 0.30972549319267273, + "learning_rate": 9.684482371434989e-05, + "loss": 0.2121, + "step": 750 + }, + { + "grad_norm": 0.13169724305432473, + "loss": 0.19556887447834015, + "step": 750 + }, + { + "grad_norm": 0.2671792988139203, + "loss": 0.1709252893924713, + "step": 751 + }, + { + "grad_norm": 0.3243042309763926, + "loss": 0.22410330176353455, + "step": 752 + }, + { + "grad_norm": 0.25762962066741807, + "loss": 0.2014685422182083, + "step": 753 + }, + { + "grad_norm": 0.18445085111338336, + "loss": 0.18327690660953522, + "step": 754 + }, + { + "grad_norm": 0.20908167815203174, + "loss": 0.23555131256580353, + "step": 755 + }, + { + "grad_norm": 0.13490360467585952, + "loss": 0.18711763620376587, + "step": 756 + }, + { + "grad_norm": 0.16015678751780543, + "loss": 0.2588728964328766, + "step": 757 + }, + { + "grad_norm": 0.23137036602531058, + "loss": 0.3093162775039673, + "step": 758 + }, + { + "grad_norm": 0.2378196786236688, + "loss": 0.21333393454551697, + "step": 759 + }, + { + "epoch": 0.2432, + "grad_norm": 0.23781967163085938, + "learning_rate": 9.673253986076802e-05, + "loss": 0.218, + "step": 760 + }, + { + "grad_norm": 0.24523579799249973, + "loss": 0.24791157245635986, + "step": 760 + }, + { + "grad_norm": 0.18835465294310808, + "loss": 0.20800480246543884, + "step": 761 + }, + { + "grad_norm": 0.2693778672619276, + "loss": 0.22472169995307922, + "step": 762 + }, + { + "grad_norm": 0.36826250803673427, + "loss": 0.18050360679626465, + "step": 763 + }, + { + "grad_norm": 0.3627512526550216, + "loss": 0.20226231217384338, + "step": 764 + }, + { + "grad_norm": 0.21288954526152395, + "loss": 0.18820814788341522, + "step": 765 + }, + { + "grad_norm": 0.26824141722579353, + "loss": 0.2200409471988678, + "step": 766 + }, + { + "grad_norm": 0.18935153510962163, + "loss": 0.2093738317489624, + "step": 767 + }, + { + "grad_norm": 0.2368836757940587, + "loss": 0.19441944360733032, + "step": 768 + }, + { + "grad_norm": 0.16071753336805067, + "loss": 0.14333893358707428, + "step": 769 + }, + { + "epoch": 0.2464, + "grad_norm": 0.16071753203868866, + "learning_rate": 9.662025600718617e-05, + "loss": 0.2019, + "step": 770 + }, + { + "grad_norm": 0.2644120887208448, + "loss": 0.1847812831401825, + "step": 770 + }, + { + "grad_norm": 0.19072596043558232, + "loss": 0.1845780313014984, + "step": 771 + }, + { + "grad_norm": 0.26308404148396924, + "loss": 0.21343398094177246, + "step": 772 + }, + { + "grad_norm": 0.2351960885321833, + "loss": 0.20011292397975922, + "step": 773 + }, + { + "grad_norm": 0.3663696452852136, + "loss": 0.19376572966575623, + "step": 774 + }, + { + "grad_norm": 0.23395116180467743, + "loss": 0.35717225074768066, + "step": 775 + }, + { + "grad_norm": 0.1846670845496552, + "loss": 0.21963290870189667, + "step": 776 + }, + { + "grad_norm": 0.49437982153046345, + "loss": 0.2695569694042206, + "step": 777 + }, + { + "grad_norm": 0.1883202276824854, + "loss": 0.18600067496299744, + "step": 778 + }, + { + "grad_norm": 0.2155902147238145, + "loss": 0.1767023503780365, + "step": 779 + }, + { + "epoch": 0.2496, + "grad_norm": 0.2155902236700058, + "learning_rate": 9.650797215360432e-05, + "loss": 0.2186, + "step": 780 + }, + { + "grad_norm": 0.19929287837633036, + "loss": 0.23876763880252838, + "step": 780 + }, + { + "grad_norm": 0.17343962623750134, + "loss": 0.23487210273742676, + "step": 781 + }, + { + "grad_norm": 0.27029598650781744, + "loss": 0.22994846105575562, + "step": 782 + }, + { + "grad_norm": 0.12735417240276978, + "loss": 0.21566979587078094, + "step": 783 + }, + { + "grad_norm": 0.4617392722094203, + "loss": 0.17286115884780884, + "step": 784 + }, + { + "grad_norm": 0.23965940565428384, + "loss": 0.19806498289108276, + "step": 785 + }, + { + "grad_norm": 0.29910485654216457, + "loss": 0.17757034301757812, + "step": 786 + }, + { + "grad_norm": 0.20448073905974198, + "loss": 0.17854364216327667, + "step": 787 + }, + { + "grad_norm": 0.13700176339425166, + "loss": 0.20492970943450928, + "step": 788 + }, + { + "grad_norm": 0.5538204456213977, + "loss": 0.21496443450450897, + "step": 789 + }, + { + "epoch": 0.2528, + "grad_norm": 0.5538204312324524, + "learning_rate": 9.639568830002246e-05, + "loss": 0.2066, + "step": 790 + }, + { + "grad_norm": 0.28141720557038713, + "loss": 0.17373771965503693, + "step": 790 + }, + { + "grad_norm": 0.41489778867990074, + "loss": 0.20139145851135254, + "step": 791 + }, + { + "grad_norm": 0.1130453404449799, + "loss": 0.18469291925430298, + "step": 792 + }, + { + "grad_norm": 0.23585732937385245, + "loss": 0.2777079939842224, + "step": 793 + }, + { + "grad_norm": 0.12460260253096002, + "loss": 0.18755865097045898, + "step": 794 + }, + { + "grad_norm": 0.2568968822354146, + "loss": 0.2485884577035904, + "step": 795 + }, + { + "grad_norm": 0.38647356921071097, + "loss": 0.17265433073043823, + "step": 796 + }, + { + "grad_norm": 0.4737017028527615, + "loss": 0.24440321326255798, + "step": 797 + }, + { + "grad_norm": 0.1033833890584752, + "loss": 0.17943261563777924, + "step": 798 + }, + { + "grad_norm": 0.2163044969324066, + "loss": 0.16920211911201477, + "step": 799 + }, + { + "epoch": 0.256, + "grad_norm": 0.2163044959306717, + "learning_rate": 9.628340444644061e-05, + "loss": 0.2039, + "step": 800 + }, + { + "grad_norm": 0.15399656324877706, + "loss": 0.19924752414226532, + "step": 800 + }, + { + "grad_norm": 0.24922707083473228, + "loss": 0.31228315830230713, + "step": 801 + }, + { + "grad_norm": 0.20188921459158649, + "loss": 0.18851666152477264, + "step": 802 + }, + { + "grad_norm": 0.10587993426231639, + "loss": 0.18313713371753693, + "step": 803 + }, + { + "grad_norm": 0.3067917801197769, + "loss": 0.21475322544574738, + "step": 804 + }, + { + "grad_norm": 0.2685355542232823, + "loss": 0.17747756838798523, + "step": 805 + }, + { + "grad_norm": 0.27090584242607874, + "loss": 0.1743682324886322, + "step": 806 + }, + { + "grad_norm": 0.1371940429757816, + "loss": 0.17424938082695007, + "step": 807 + }, + { + "grad_norm": 0.14788367028560756, + "loss": 0.1819332093000412, + "step": 808 + }, + { + "grad_norm": 0.16447102532548016, + "loss": 0.1797923445701599, + "step": 809 + }, + { + "epoch": 0.2592, + "grad_norm": 0.16447103023529053, + "learning_rate": 9.617112059285875e-05, + "loss": 0.1986, + "step": 810 + }, + { + "grad_norm": 0.2198197119728412, + "loss": 0.1913243681192398, + "step": 810 + }, + { + "grad_norm": 0.14957307719609841, + "loss": 0.16028569638729095, + "step": 811 + }, + { + "grad_norm": 0.17139320705501604, + "loss": 0.2369081676006317, + "step": 812 + }, + { + "grad_norm": 0.24980624770413185, + "loss": 0.18767118453979492, + "step": 813 + }, + { + "grad_norm": 0.2867338589406554, + "loss": 0.22280001640319824, + "step": 814 + }, + { + "grad_norm": 0.20737613273996494, + "loss": 0.18930265307426453, + "step": 815 + }, + { + "grad_norm": 0.3041254862340048, + "loss": 0.18999773263931274, + "step": 816 + }, + { + "grad_norm": 0.21248783694123125, + "loss": 0.16638538241386414, + "step": 817 + }, + { + "grad_norm": 0.1609698367363098, + "loss": 0.20448553562164307, + "step": 818 + }, + { + "grad_norm": 0.12731256423779935, + "loss": 0.1875884085893631, + "step": 819 + }, + { + "epoch": 0.2624, + "grad_norm": 0.1273125559091568, + "learning_rate": 9.605883673927689e-05, + "loss": 0.1937, + "step": 820 + }, + { + "grad_norm": 0.21971477017031824, + "loss": 0.19849741458892822, + "step": 820 + }, + { + "grad_norm": 0.19446674658140362, + "loss": 0.234658345580101, + "step": 821 + }, + { + "grad_norm": 0.10032110705240779, + "loss": 0.19000835716724396, + "step": 822 + }, + { + "grad_norm": 0.17198296799863233, + "loss": 0.17483757436275482, + "step": 823 + }, + { + "grad_norm": 0.489638298858131, + "loss": 0.2816373109817505, + "step": 824 + }, + { + "grad_norm": 0.14758196945095975, + "loss": 0.2572239637374878, + "step": 825 + }, + { + "grad_norm": 0.2111081417754206, + "loss": 0.1591225117444992, + "step": 826 + }, + { + "grad_norm": 0.31632728270161986, + "loss": 0.25989454984664917, + "step": 827 + }, + { + "grad_norm": 0.2918127089808445, + "loss": 0.22942933440208435, + "step": 828 + }, + { + "grad_norm": 0.12841354311513484, + "loss": 0.2057284116744995, + "step": 829 + }, + { + "epoch": 0.2656, + "grad_norm": 0.12841354310512543, + "learning_rate": 9.594655288569504e-05, + "loss": 0.2191, + "step": 830 + }, + { + "grad_norm": 0.1394120464934644, + "loss": 0.1844150573015213, + "step": 830 + }, + { + "grad_norm": 0.20257514597145787, + "loss": 0.15599168837070465, + "step": 831 + }, + { + "grad_norm": 0.09024313430027013, + "loss": 0.13162462413311005, + "step": 832 + }, + { + "grad_norm": 0.11353109891402507, + "loss": 0.1872008889913559, + "step": 833 + }, + { + "grad_norm": 0.39587189032792325, + "loss": 0.1490982472896576, + "step": 834 + }, + { + "grad_norm": 0.18821209623949803, + "loss": 0.19087690114974976, + "step": 835 + }, + { + "grad_norm": 0.18579681222173527, + "loss": 0.1554957628250122, + "step": 836 + }, + { + "grad_norm": 0.17451671132012775, + "loss": 0.21654731035232544, + "step": 837 + }, + { + "grad_norm": 0.22145496139476684, + "loss": 0.22077403962612152, + "step": 838 + }, + { + "grad_norm": 0.20279746885848898, + "loss": 0.19647055864334106, + "step": 839 + }, + { + "epoch": 0.2688, + "grad_norm": 0.20279747247695923, + "learning_rate": 9.583426903211319e-05, + "loss": 0.1788, + "step": 840 + }, + { + "grad_norm": 0.28164840324929696, + "loss": 0.19807842373847961, + "step": 840 + }, + { + "grad_norm": 0.24324166155349655, + "loss": 0.2115071564912796, + "step": 841 + }, + { + "grad_norm": 0.2726581638115209, + "loss": 0.22474810481071472, + "step": 842 + }, + { + "grad_norm": 0.16997360997952743, + "loss": 0.20440198481082916, + "step": 843 + }, + { + "grad_norm": 0.10891178157915014, + "loss": 0.21142713725566864, + "step": 844 + }, + { + "grad_norm": 0.24581898586256137, + "loss": 0.2286456674337387, + "step": 845 + }, + { + "grad_norm": 0.11490886861423491, + "loss": 0.21173006296157837, + "step": 846 + }, + { + "grad_norm": 0.22522691943753345, + "loss": 0.21512649953365326, + "step": 847 + }, + { + "grad_norm": 0.25955303088430454, + "loss": 0.23846974968910217, + "step": 848 + }, + { + "grad_norm": 0.26678864902264676, + "loss": 0.2533102333545685, + "step": 849 + }, + { + "epoch": 0.272, + "grad_norm": 0.26678866147994995, + "learning_rate": 9.572198517853134e-05, + "loss": 0.2197, + "step": 850 + }, + { + "grad_norm": 0.400388180175457, + "loss": 0.21513116359710693, + "step": 850 + }, + { + "grad_norm": 0.18959248685478955, + "loss": 0.19835756719112396, + "step": 851 + }, + { + "grad_norm": 0.15973714094020466, + "loss": 0.18631920218467712, + "step": 852 + }, + { + "grad_norm": 0.21867701686025554, + "loss": 0.2376704216003418, + "step": 853 + }, + { + "grad_norm": 0.3554930085775109, + "loss": 0.2449622005224228, + "step": 854 + }, + { + "grad_norm": 0.35370806582509534, + "loss": 0.25647228956222534, + "step": 855 + }, + { + "grad_norm": 0.12994728148150184, + "loss": 0.18936264514923096, + "step": 856 + }, + { + "grad_norm": 0.192361426828749, + "loss": 0.26476964354515076, + "step": 857 + }, + { + "grad_norm": 0.16696441036301576, + "loss": 0.16991132497787476, + "step": 858 + }, + { + "grad_norm": 0.4068812711652993, + "loss": 0.1790560781955719, + "step": 859 + }, + { + "epoch": 0.2752, + "grad_norm": 0.4068812429904938, + "learning_rate": 9.560970132494948e-05, + "loss": 0.2142, + "step": 860 + }, + { + "grad_norm": 0.176686838783184, + "loss": 0.19493570923805237, + "step": 860 + }, + { + "grad_norm": 0.2183472549279445, + "loss": 0.19455386698246002, + "step": 861 + }, + { + "grad_norm": 0.28025725821102826, + "loss": 0.2356686294078827, + "step": 862 + }, + { + "grad_norm": 0.21767875481185864, + "loss": 0.1623743176460266, + "step": 863 + }, + { + "grad_norm": 0.3063964086745779, + "loss": 0.2421790510416031, + "step": 864 + }, + { + "grad_norm": 0.28883170016133686, + "loss": 0.21656209230422974, + "step": 865 + }, + { + "grad_norm": 0.19900308937796737, + "loss": 0.22618936002254486, + "step": 866 + }, + { + "grad_norm": 0.13900457878075795, + "loss": 0.1869446039199829, + "step": 867 + }, + { + "grad_norm": 0.17335552752766922, + "loss": 0.16496458649635315, + "step": 868 + }, + { + "grad_norm": 0.2554845764949716, + "loss": 0.23389996588230133, + "step": 869 + }, + { + "epoch": 0.2784, + "grad_norm": 0.25548458099365234, + "learning_rate": 9.549741747136763e-05, + "loss": 0.2058, + "step": 870 + }, + { + "grad_norm": 0.16599827734747055, + "loss": 0.16294874250888824, + "step": 870 + }, + { + "grad_norm": 0.27871332570652263, + "loss": 0.2130710780620575, + "step": 871 + }, + { + "grad_norm": 0.2576316724236201, + "loss": 0.22942546010017395, + "step": 872 + }, + { + "grad_norm": 0.15309757892074508, + "loss": 0.2513943612575531, + "step": 873 + }, + { + "grad_norm": 0.13365904567500722, + "loss": 0.2262468785047531, + "step": 874 + }, + { + "grad_norm": 0.1693596507907381, + "loss": 0.18636904656887054, + "step": 875 + }, + { + "grad_norm": 0.13297597096741476, + "loss": 0.20317596197128296, + "step": 876 + }, + { + "grad_norm": 0.19562460856933542, + "loss": 0.19176039099693298, + "step": 877 + }, + { + "grad_norm": 0.23791234184841756, + "loss": 0.15994995832443237, + "step": 878 + }, + { + "grad_norm": 0.2944235955596016, + "loss": 0.1840604543685913, + "step": 879 + }, + { + "epoch": 0.2816, + "grad_norm": 0.2944236099720001, + "learning_rate": 9.538513361778578e-05, + "loss": 0.2008, + "step": 880 + }, + { + "grad_norm": 0.1687689875195892, + "loss": 0.18145738542079926, + "step": 880 + }, + { + "grad_norm": 0.2513609526546667, + "loss": 0.2059285193681717, + "step": 881 + }, + { + "grad_norm": 0.12840205129332186, + "loss": 0.21373456716537476, + "step": 882 + }, + { + "grad_norm": 0.10932668151529629, + "loss": 0.16962581872940063, + "step": 883 + }, + { + "grad_norm": 0.40586676365034524, + "loss": 0.2616739869117737, + "step": 884 + }, + { + "grad_norm": 0.15236027440885186, + "loss": 0.1696230173110962, + "step": 885 + }, + { + "grad_norm": 0.451344032875857, + "loss": 0.1957392692565918, + "step": 886 + }, + { + "grad_norm": 0.2670443351583672, + "loss": 0.19968819618225098, + "step": 887 + }, + { + "grad_norm": 0.18683811406483836, + "loss": 0.1779995858669281, + "step": 888 + }, + { + "grad_norm": 0.22015960047333547, + "loss": 0.23881381750106812, + "step": 889 + }, + { + "epoch": 0.2848, + "grad_norm": 0.2201596051454544, + "learning_rate": 9.527284976420391e-05, + "loss": 0.2014, + "step": 890 + }, + { + "grad_norm": 0.14278763481575024, + "loss": 0.19583819806575775, + "step": 890 + }, + { + "grad_norm": 0.3025461858742457, + "loss": 0.22837579250335693, + "step": 891 + }, + { + "grad_norm": 0.1346974044973535, + "loss": 0.22176668047904968, + "step": 892 + }, + { + "grad_norm": 0.40917580743040466, + "loss": 0.20848047733306885, + "step": 893 + }, + { + "grad_norm": 0.13824639061298724, + "loss": 0.18340113759040833, + "step": 894 + }, + { + "grad_norm": 0.2863315137203407, + "loss": 0.20579694211483002, + "step": 895 + }, + { + "grad_norm": 0.6035995736364393, + "loss": 0.2027128040790558, + "step": 896 + }, + { + "grad_norm": 0.3029387966812252, + "loss": 0.18201586604118347, + "step": 897 + }, + { + "grad_norm": 0.200027860412727, + "loss": 0.17313452064990997, + "step": 898 + }, + { + "grad_norm": 0.13156562856236165, + "loss": 0.19191709160804749, + "step": 899 + }, + { + "epoch": 0.288, + "grad_norm": 0.1315656304359436, + "learning_rate": 9.516056591062205e-05, + "loss": 0.1993, + "step": 900 + }, + { + "grad_norm": 0.39854450473211467, + "loss": 0.2533757984638214, + "step": 900 + }, + { + "grad_norm": 0.22166338478610975, + "loss": 0.17919281125068665, + "step": 901 + }, + { + "grad_norm": 0.2149143165651921, + "loss": 0.23200997710227966, + "step": 902 + }, + { + "grad_norm": 0.18176076270311614, + "loss": 0.20095013082027435, + "step": 903 + }, + { + "grad_norm": 0.20641575798402267, + "loss": 0.19875334203243256, + "step": 904 + }, + { + "grad_norm": 0.4391893420658394, + "loss": 0.23885804414749146, + "step": 905 + }, + { + "grad_norm": 0.1514347509512964, + "loss": 0.21086491644382477, + "step": 906 + }, + { + "grad_norm": 0.24554525466810603, + "loss": 0.2210840880870819, + "step": 907 + }, + { + "grad_norm": 0.27450174479067635, + "loss": 0.19395920634269714, + "step": 908 + }, + { + "grad_norm": 0.5913531039784712, + "loss": 0.20465087890625, + "step": 909 + }, + { + "epoch": 0.2912, + "grad_norm": 0.5913531184196472, + "learning_rate": 9.50482820570402e-05, + "loss": 0.2134, + "step": 910 + }, + { + "grad_norm": 0.18618197748006082, + "loss": 0.2114611119031906, + "step": 910 + }, + { + "grad_norm": 0.23094254206573903, + "loss": 0.2093985378742218, + "step": 911 + }, + { + "grad_norm": 0.6008312310452373, + "loss": 0.20418860018253326, + "step": 912 + }, + { + "grad_norm": 0.30762563238381285, + "loss": 0.2666188180446625, + "step": 913 + }, + { + "grad_norm": 0.27308199991674204, + "loss": 0.18852019309997559, + "step": 914 + }, + { + "grad_norm": 0.22838875634176872, + "loss": 0.22548553347587585, + "step": 915 + }, + { + "grad_norm": 0.719572297296196, + "loss": 0.19288384914398193, + "step": 916 + }, + { + "grad_norm": 0.5631900278565379, + "loss": 0.2558152675628662, + "step": 917 + }, + { + "grad_norm": 0.31511824367443425, + "loss": 0.2526927888393402, + "step": 918 + }, + { + "grad_norm": 0.22978710639855746, + "loss": 0.16334867477416992, + "step": 919 + }, + { + "epoch": 0.2944, + "grad_norm": 0.22978711128234863, + "learning_rate": 9.493599820345834e-05, + "loss": 0.217, + "step": 920 + }, + { + "grad_norm": 0.2088420614493369, + "loss": 0.1997087150812149, + "step": 920 + }, + { + "grad_norm": 0.27672100220111295, + "loss": 0.24921265244483948, + "step": 921 + }, + { + "grad_norm": 0.3477273564612345, + "loss": 0.20273089408874512, + "step": 922 + }, + { + "grad_norm": 0.13308829542938053, + "loss": 0.19969883561134338, + "step": 923 + }, + { + "grad_norm": 0.23543286543059244, + "loss": 0.20166146755218506, + "step": 924 + }, + { + "grad_norm": 0.18331890144867602, + "loss": 0.15544646978378296, + "step": 925 + }, + { + "grad_norm": 0.22723492559303207, + "loss": 0.20733249187469482, + "step": 926 + }, + { + "grad_norm": 0.19226642525962975, + "loss": 0.22735081613063812, + "step": 927 + }, + { + "grad_norm": 0.360096565916497, + "loss": 0.19084277749061584, + "step": 928 + }, + { + "grad_norm": 0.35202392758106105, + "loss": 0.17750057578086853, + "step": 929 + }, + { + "epoch": 0.2976, + "grad_norm": 0.3520239293575287, + "learning_rate": 9.482371434987649e-05, + "loss": 0.2011, + "step": 930 + }, + { + "grad_norm": 0.5764170779507498, + "loss": 0.27927064895629883, + "step": 930 + }, + { + "grad_norm": 0.31475092428176077, + "loss": 0.17662116885185242, + "step": 931 + }, + { + "grad_norm": 0.4635560181665219, + "loss": 0.18168401718139648, + "step": 932 + }, + { + "grad_norm": 0.2932669989372997, + "loss": 0.19431106746196747, + "step": 933 + }, + { + "grad_norm": 0.34728462349844424, + "loss": 0.20062625408172607, + "step": 934 + }, + { + "grad_norm": 0.28467120978749055, + "loss": 0.1861715316772461, + "step": 935 + }, + { + "grad_norm": 0.30151213449774233, + "loss": 0.1606101393699646, + "step": 936 + }, + { + "grad_norm": 0.4249206480708637, + "loss": 0.18563807010650635, + "step": 937 + }, + { + "grad_norm": 0.19964600889401504, + "loss": 0.20637542009353638, + "step": 938 + }, + { + "grad_norm": 0.15617959535284828, + "loss": 0.2359684556722641, + "step": 939 + }, + { + "epoch": 0.3008, + "grad_norm": 0.15617959201335907, + "learning_rate": 9.471143049629464e-05, + "loss": 0.2007, + "step": 940 + }, + { + "grad_norm": 0.13206359174061272, + "loss": 0.20933525264263153, + "step": 940 + }, + { + "grad_norm": 0.32058949532321096, + "loss": 0.18244394659996033, + "step": 941 + }, + { + "grad_norm": 0.2768249534828377, + "loss": 0.2097378671169281, + "step": 942 + }, + { + "grad_norm": 0.1747536087345169, + "loss": 0.1860795021057129, + "step": 943 + }, + { + "grad_norm": 0.21445179880958617, + "loss": 0.22214514017105103, + "step": 944 + }, + { + "grad_norm": 0.3137596960254534, + "loss": 0.16475501656532288, + "step": 945 + }, + { + "grad_norm": 0.5019775165173861, + "loss": 0.1774531453847885, + "step": 946 + }, + { + "grad_norm": 0.27411654438543476, + "loss": 0.1977555751800537, + "step": 947 + }, + { + "grad_norm": 0.15596801367278493, + "loss": 0.22483369708061218, + "step": 948 + }, + { + "grad_norm": 0.2585041787251722, + "loss": 0.19374699890613556, + "step": 949 + }, + { + "epoch": 0.304, + "grad_norm": 0.258504182100296, + "learning_rate": 9.459914664271278e-05, + "loss": 0.1968, + "step": 950 + }, + { + "grad_norm": 0.16700984006917388, + "loss": 0.18438750505447388, + "step": 950 + }, + { + "grad_norm": 0.16468929230548088, + "loss": 0.21044239401817322, + "step": 951 + }, + { + "grad_norm": 0.5259467425215296, + "loss": 0.29623866081237793, + "step": 952 + }, + { + "grad_norm": 0.22243502740090526, + "loss": 0.19045385718345642, + "step": 953 + }, + { + "grad_norm": 0.24974212633355186, + "loss": 0.14924216270446777, + "step": 954 + }, + { + "grad_norm": 0.1792947887292911, + "loss": 0.24063335359096527, + "step": 955 + }, + { + "grad_norm": 0.17766957389618496, + "loss": 0.1867731660604477, + "step": 956 + }, + { + "grad_norm": 0.28100269228953273, + "loss": 0.19985169172286987, + "step": 957 + }, + { + "grad_norm": 0.2491658964308942, + "loss": 0.1667182445526123, + "step": 958 + }, + { + "grad_norm": 0.1337056941866837, + "loss": 0.1980840563774109, + "step": 959 + }, + { + "epoch": 0.3072, + "grad_norm": 0.13370569050312042, + "learning_rate": 9.448686278913093e-05, + "loss": 0.2023, + "step": 960 + }, + { + "grad_norm": 0.27709671469969116, + "loss": 0.20829185843467712, + "step": 960 + }, + { + "grad_norm": 0.22657066081339272, + "loss": 0.22878798842430115, + "step": 961 + }, + { + "grad_norm": 0.15118104201333882, + "loss": 0.21306979656219482, + "step": 962 + }, + { + "grad_norm": 0.13852528993259125, + "loss": 0.2069133222103119, + "step": 963 + }, + { + "grad_norm": 0.29213176991978046, + "loss": 0.21925407648086548, + "step": 964 + }, + { + "grad_norm": 0.2278807345806746, + "loss": 0.19559386372566223, + "step": 965 + }, + { + "grad_norm": 0.2609891586607001, + "loss": 0.16747310757637024, + "step": 966 + }, + { + "grad_norm": 0.3058049341991445, + "loss": 0.18501444160938263, + "step": 967 + }, + { + "grad_norm": 0.11541790651915972, + "loss": 0.1767912358045578, + "step": 968 + }, + { + "grad_norm": 0.14209232646181807, + "loss": 0.18745523691177368, + "step": 969 + }, + { + "epoch": 0.3104, + "grad_norm": 0.14209233224391937, + "learning_rate": 9.437457893554908e-05, + "loss": 0.1989, + "step": 970 + }, + { + "grad_norm": 0.4508748406705985, + "loss": 0.23245954513549805, + "step": 970 + }, + { + "grad_norm": 0.2777092560893046, + "loss": 0.22460119426250458, + "step": 971 + }, + { + "grad_norm": 0.1472017276808704, + "loss": 0.16932488977909088, + "step": 972 + }, + { + "grad_norm": 0.2220470565061967, + "loss": 0.17704129219055176, + "step": 973 + }, + { + "grad_norm": 0.15388381265083334, + "loss": 0.17169347405433655, + "step": 974 + }, + { + "grad_norm": 0.09246624177697683, + "loss": 0.1711859405040741, + "step": 975 + }, + { + "grad_norm": 0.18047133308939378, + "loss": 0.19957967102527618, + "step": 976 + }, + { + "grad_norm": 0.37925986191567956, + "loss": 0.17685994505882263, + "step": 977 + }, + { + "grad_norm": 0.10562269884152926, + "loss": 0.23402246832847595, + "step": 978 + }, + { + "grad_norm": 0.21416629947622653, + "loss": 0.1916263997554779, + "step": 979 + }, + { + "epoch": 0.3136, + "grad_norm": 0.2141662985086441, + "learning_rate": 9.426229508196722e-05, + "loss": 0.1948, + "step": 980 + }, + { + "grad_norm": 0.202152182460119, + "loss": 0.18471986055374146, + "step": 980 + }, + { + "grad_norm": 0.17394964559306061, + "loss": 0.1909387856721878, + "step": 981 + }, + { + "grad_norm": 0.22248448004937718, + "loss": 0.17601534724235535, + "step": 982 + }, + { + "grad_norm": 0.09057023786471464, + "loss": 0.18140169978141785, + "step": 983 + }, + { + "grad_norm": 0.16571191650155342, + "loss": 0.15760532021522522, + "step": 984 + }, + { + "grad_norm": 0.16101745737866438, + "loss": 0.17923495173454285, + "step": 985 + }, + { + "grad_norm": 0.27466072183815654, + "loss": 0.1892775297164917, + "step": 986 + }, + { + "grad_norm": 0.5101282886042309, + "loss": 0.223111093044281, + "step": 987 + }, + { + "grad_norm": 0.09571384185310827, + "loss": 0.1782720535993576, + "step": 988 + }, + { + "grad_norm": 0.26815689644969587, + "loss": 0.23687593638896942, + "step": 989 + }, + { + "epoch": 0.3168, + "grad_norm": 0.26815688610076904, + "learning_rate": 9.415001122838537e-05, + "loss": 0.1897, + "step": 990 + }, + { + "grad_norm": 0.1555817253458551, + "loss": 0.1807766556739807, + "step": 990 + }, + { + "grad_norm": 0.17382733923846325, + "loss": 0.1772674322128296, + "step": 991 + }, + { + "grad_norm": 0.19909621202482677, + "loss": 0.21266497671604156, + "step": 992 + }, + { + "grad_norm": 0.22494261769095875, + "loss": 0.21214154362678528, + "step": 993 + }, + { + "grad_norm": 0.14217144579791044, + "loss": 0.25903230905532837, + "step": 994 + }, + { + "grad_norm": 0.21135566830853783, + "loss": 0.22698871791362762, + "step": 995 + }, + { + "grad_norm": 0.2716044440660484, + "loss": 0.2517058849334717, + "step": 996 + }, + { + "grad_norm": 0.41206294936124993, + "loss": 0.16674162447452545, + "step": 997 + }, + { + "grad_norm": 0.4570201042345981, + "loss": 0.1876024603843689, + "step": 998 + }, + { + "grad_norm": 0.6075823819183868, + "loss": 0.1909256875514984, + "step": 999 + }, + { + "epoch": 0.32, + "grad_norm": 0.6075823903083801, + "learning_rate": 9.40377273748035e-05, + "loss": 0.2066, + "step": 1000 + }, + { + "grad_norm": 0.14612940301867522, + "loss": 0.2367427945137024, + "step": 1000 + }, + { + "grad_norm": 0.15677163530096103, + "loss": 0.18266573548316956, + "step": 1001 + }, + { + "grad_norm": 0.2586029465282819, + "loss": 0.18569839000701904, + "step": 1002 + }, + { + "grad_norm": 0.33506287675175805, + "loss": 0.21066346764564514, + "step": 1003 + }, + { + "grad_norm": 0.4135891804930093, + "loss": 0.18173755705356598, + "step": 1004 + }, + { + "grad_norm": 0.5005144268741294, + "loss": 0.2968069911003113, + "step": 1005 + }, + { + "grad_norm": 0.2803097763475026, + "loss": 0.18763722479343414, + "step": 1006 + }, + { + "grad_norm": 0.40203833897204294, + "loss": 0.21287785470485687, + "step": 1007 + }, + { + "grad_norm": 0.22632529137752758, + "loss": 0.20718379318714142, + "step": 1008 + }, + { + "grad_norm": 0.1918363953050081, + "loss": 0.18484053015708923, + "step": 1009 + }, + { + "epoch": 0.3232, + "grad_norm": 0.1918363869190216, + "learning_rate": 9.392544352122165e-05, + "loss": 0.2087, + "step": 1010 + }, + { + "grad_norm": 0.26398139750013017, + "loss": 0.1908593624830246, + "step": 1010 + }, + { + "grad_norm": 0.27730286189247766, + "loss": 0.18975642323493958, + "step": 1011 + }, + { + "grad_norm": 0.29686027468706994, + "loss": 0.18891572952270508, + "step": 1012 + }, + { + "grad_norm": 0.3132606601866954, + "loss": 0.19208884239196777, + "step": 1013 + }, + { + "grad_norm": 0.14201466063275692, + "loss": 0.2666919529438019, + "step": 1014 + }, + { + "grad_norm": 0.3311935826078119, + "loss": 0.15285976231098175, + "step": 1015 + }, + { + "grad_norm": 0.18515316872973514, + "loss": 0.15717121958732605, + "step": 1016 + }, + { + "grad_norm": 0.29156770730943676, + "loss": 0.21807290613651276, + "step": 1017 + }, + { + "grad_norm": 0.46682422575307847, + "loss": 0.25278475880622864, + "step": 1018 + }, + { + "grad_norm": 0.37172294731322664, + "loss": 0.20198282599449158, + "step": 1019 + }, + { + "epoch": 0.3264, + "grad_norm": 0.371722936630249, + "learning_rate": 9.381315966763979e-05, + "loss": 0.2011, + "step": 1020 + }, + { + "grad_norm": 0.23452569809851526, + "loss": 0.1903514713048935, + "step": 1020 + }, + { + "grad_norm": 0.18280804461010156, + "loss": 0.21651726961135864, + "step": 1021 + }, + { + "grad_norm": 0.26805979141998176, + "loss": 0.19984209537506104, + "step": 1022 + }, + { + "grad_norm": 0.23365593083973812, + "loss": 0.18297332525253296, + "step": 1023 + }, + { + "grad_norm": 0.28388410573020517, + "loss": 0.16721941530704498, + "step": 1024 + }, + { + "grad_norm": 0.17666679510537067, + "loss": 0.1725386083126068, + "step": 1025 + }, + { + "grad_norm": 0.27878657049975325, + "loss": 0.19703902304172516, + "step": 1026 + }, + { + "grad_norm": 0.3344209100653726, + "loss": 0.17808093130588531, + "step": 1027 + }, + { + "grad_norm": 0.28889441628018525, + "loss": 0.1999892294406891, + "step": 1028 + }, + { + "grad_norm": 0.10379657024942618, + "loss": 0.15643683075904846, + "step": 1029 + }, + { + "epoch": 0.3296, + "grad_norm": 0.1037965714931488, + "learning_rate": 9.370087581405794e-05, + "loss": 0.1861, + "step": 1030 + }, + { + "grad_norm": 0.13268683218975919, + "loss": 0.18175724148750305, + "step": 1030 + }, + { + "grad_norm": 0.4411507610206073, + "loss": 0.21328313648700714, + "step": 1031 + }, + { + "grad_norm": 0.26357879984333954, + "loss": 0.2058783918619156, + "step": 1032 + }, + { + "grad_norm": 0.2395173104429881, + "loss": 0.17193499207496643, + "step": 1033 + }, + { + "grad_norm": 0.25407157186924506, + "loss": 0.233384907245636, + "step": 1034 + }, + { + "grad_norm": 0.18193360996563893, + "loss": 0.2167913168668747, + "step": 1035 + }, + { + "grad_norm": 0.23431291839000395, + "loss": 0.20144066214561462, + "step": 1036 + }, + { + "grad_norm": 0.14829625425713616, + "loss": 0.20433133840560913, + "step": 1037 + }, + { + "grad_norm": 0.2276247781931457, + "loss": 0.15164393186569214, + "step": 1038 + }, + { + "grad_norm": 0.10061015597904086, + "loss": 0.1853788197040558, + "step": 1039 + }, + { + "epoch": 0.3328, + "grad_norm": 0.1006101593375206, + "learning_rate": 9.358859196047609e-05, + "loss": 0.1966, + "step": 1040 + }, + { + "grad_norm": 0.22355903257020807, + "loss": 0.1711616814136505, + "step": 1040 + }, + { + "grad_norm": 0.37510680763775633, + "loss": 0.2617904841899872, + "step": 1041 + }, + { + "grad_norm": 0.19484913701280676, + "loss": 0.20054462552070618, + "step": 1042 + }, + { + "grad_norm": 0.4595078757354925, + "loss": 0.1954609453678131, + "step": 1043 + }, + { + "grad_norm": 0.241633137866554, + "loss": 0.16741745173931122, + "step": 1044 + }, + { + "grad_norm": 0.13217785572960886, + "loss": 0.164027139544487, + "step": 1045 + }, + { + "grad_norm": 0.269985325068052, + "loss": 0.21122559905052185, + "step": 1046 + }, + { + "grad_norm": 0.2738784716076889, + "loss": 0.21636344492435455, + "step": 1047 + }, + { + "grad_norm": 0.5186786625351859, + "loss": 0.24763703346252441, + "step": 1048 + }, + { + "grad_norm": 0.31892770158006334, + "loss": 0.19627121090888977, + "step": 1049 + }, + { + "epoch": 0.336, + "grad_norm": 0.31892770528793335, + "learning_rate": 9.347630810689423e-05, + "loss": 0.2032, + "step": 1050 + }, + { + "grad_norm": 0.16106217583739205, + "loss": 0.30460745096206665, + "step": 1050 + }, + { + "grad_norm": 0.3383413941737608, + "loss": 0.20117244124412537, + "step": 1051 + }, + { + "grad_norm": 0.13932307280310943, + "loss": 0.20074981451034546, + "step": 1052 + }, + { + "grad_norm": 0.2623348575461021, + "loss": 0.19095204770565033, + "step": 1053 + }, + { + "grad_norm": 0.28815424056354816, + "loss": 0.18333129584789276, + "step": 1054 + }, + { + "grad_norm": 0.1391269589550612, + "loss": 0.20705753564834595, + "step": 1055 + }, + { + "grad_norm": 0.13773192883257118, + "loss": 0.19602662324905396, + "step": 1056 + }, + { + "grad_norm": 0.24731228985990744, + "loss": 0.18164320290088654, + "step": 1057 + }, + { + "grad_norm": 0.11431588426336342, + "loss": 0.17272770404815674, + "step": 1058 + }, + { + "grad_norm": 0.12998708247083782, + "loss": 0.16880232095718384, + "step": 1059 + }, + { + "epoch": 0.3392, + "grad_norm": 0.12998707592487335, + "learning_rate": 9.336402425331238e-05, + "loss": 0.2007, + "step": 1060 + }, + { + "grad_norm": 0.3774416447411241, + "loss": 0.21734881401062012, + "step": 1060 + }, + { + "grad_norm": 0.17511432482221806, + "loss": 0.2074488401412964, + "step": 1061 + }, + { + "grad_norm": 0.6680627750194044, + "loss": 0.3122621178627014, + "step": 1062 + }, + { + "grad_norm": 0.14650071912412344, + "loss": 0.20323103666305542, + "step": 1063 + }, + { + "grad_norm": 0.16103247805819423, + "loss": 0.22157227993011475, + "step": 1064 + }, + { + "grad_norm": 0.3330862946974188, + "loss": 0.2271917462348938, + "step": 1065 + }, + { + "grad_norm": 0.15994879322363417, + "loss": 0.23386117815971375, + "step": 1066 + }, + { + "grad_norm": 0.5988416218117667, + "loss": 0.17643533647060394, + "step": 1067 + }, + { + "grad_norm": 0.6603973075835502, + "loss": 0.2175336480140686, + "step": 1068 + }, + { + "grad_norm": 0.3464085523393333, + "loss": 0.1874910145998001, + "step": 1069 + }, + { + "epoch": 0.3424, + "grad_norm": 0.34640854597091675, + "learning_rate": 9.325174039973053e-05, + "loss": 0.2204, + "step": 1070 + }, + { + "grad_norm": 0.12337692893601675, + "loss": 0.1554597020149231, + "step": 1070 + }, + { + "grad_norm": 0.1516596272142545, + "loss": 0.1890210509300232, + "step": 1071 + }, + { + "grad_norm": 0.17651715313187805, + "loss": 0.23109892010688782, + "step": 1072 + }, + { + "grad_norm": 0.31555516655439775, + "loss": 0.20090317726135254, + "step": 1073 + }, + { + "grad_norm": 0.14982438758034064, + "loss": 0.22078445553779602, + "step": 1074 + }, + { + "grad_norm": 0.1457844607377023, + "loss": 0.18708005547523499, + "step": 1075 + }, + { + "grad_norm": 0.15180655816228278, + "loss": 0.1864997148513794, + "step": 1076 + }, + { + "grad_norm": 0.12170418780367301, + "loss": 0.1812649965286255, + "step": 1077 + }, + { + "grad_norm": 0.3816822679536802, + "loss": 0.21168094873428345, + "step": 1078 + }, + { + "grad_norm": 0.348044010768202, + "loss": 0.2309393286705017, + "step": 1079 + }, + { + "epoch": 0.3456, + "grad_norm": 0.3480440080165863, + "learning_rate": 9.313945654614867e-05, + "loss": 0.1995, + "step": 1080 + }, + { + "grad_norm": 0.21789792524710225, + "loss": 0.21562926471233368, + "step": 1080 + }, + { + "grad_norm": 0.20038791087715874, + "loss": 0.17407402396202087, + "step": 1081 + }, + { + "grad_norm": 0.2373675098562449, + "loss": 0.23107172548770905, + "step": 1082 + }, + { + "grad_norm": 0.1624331494722017, + "loss": 0.21995188295841217, + "step": 1083 + }, + { + "grad_norm": 0.20295696535014632, + "loss": 0.1973477154970169, + "step": 1084 + }, + { + "grad_norm": 0.27482503495005417, + "loss": 0.22212915122509003, + "step": 1085 + }, + { + "grad_norm": 0.33472523265106313, + "loss": 0.21642060577869415, + "step": 1086 + }, + { + "grad_norm": 0.17350593310836934, + "loss": 0.20575109124183655, + "step": 1087 + }, + { + "grad_norm": 0.12974608510217633, + "loss": 0.2385876178741455, + "step": 1088 + }, + { + "grad_norm": 0.16862376177775423, + "loss": 0.2517106533050537, + "step": 1089 + }, + { + "epoch": 0.3488, + "grad_norm": 0.16862376034259796, + "learning_rate": 9.30271726925668e-05, + "loss": 0.2173, + "step": 1090 + }, + { + "grad_norm": 0.49552279662315024, + "loss": 0.19375227391719818, + "step": 1090 + }, + { + "grad_norm": 0.18673071614224204, + "loss": 0.20242050290107727, + "step": 1091 + }, + { + "grad_norm": 0.32874243117923974, + "loss": 0.17522236704826355, + "step": 1092 + }, + { + "grad_norm": 0.16937663770016534, + "loss": 0.20459583401679993, + "step": 1093 + }, + { + "grad_norm": 0.3986222934113607, + "loss": 0.1746143400669098, + "step": 1094 + }, + { + "grad_norm": 0.23786003089944344, + "loss": 0.20959487557411194, + "step": 1095 + }, + { + "grad_norm": 0.12392366990335393, + "loss": 0.20124489068984985, + "step": 1096 + }, + { + "grad_norm": 0.1331504951713425, + "loss": 0.1551220566034317, + "step": 1097 + }, + { + "grad_norm": 0.265615814259773, + "loss": 0.187661275267601, + "step": 1098 + }, + { + "grad_norm": 0.33683709073071494, + "loss": 0.23162730038166046, + "step": 1099 + }, + { + "epoch": 0.352, + "grad_norm": 0.3368370831012726, + "learning_rate": 9.291488883898496e-05, + "loss": 0.1936, + "step": 1100 + }, + { + "grad_norm": 0.17772419497325578, + "loss": 0.16870352625846863, + "step": 1100 + }, + { + "grad_norm": 0.20521942205028482, + "loss": 0.18010132014751434, + "step": 1101 + }, + { + "grad_norm": 0.20148409490805697, + "loss": 0.22562247514724731, + "step": 1102 + }, + { + "grad_norm": 0.25622841264132284, + "loss": 0.18258480727672577, + "step": 1103 + }, + { + "grad_norm": 0.5872847260845402, + "loss": 0.20765316486358643, + "step": 1104 + }, + { + "grad_norm": 0.141689588458795, + "loss": 0.20945428311824799, + "step": 1105 + }, + { + "grad_norm": 0.1692726109830922, + "loss": 0.1692129373550415, + "step": 1106 + }, + { + "grad_norm": 0.11688851688819729, + "loss": 0.21634864807128906, + "step": 1107 + }, + { + "grad_norm": 0.12744745098655147, + "loss": 0.19146043062210083, + "step": 1108 + }, + { + "grad_norm": 0.41733115666723847, + "loss": 0.16575001180171967, + "step": 1109 + }, + { + "epoch": 0.3552, + "grad_norm": 0.41733112931251526, + "learning_rate": 9.280260498540311e-05, + "loss": 0.1917, + "step": 1110 + }, + { + "grad_norm": 0.22938746126262674, + "loss": 0.1982688158750534, + "step": 1110 + }, + { + "grad_norm": 0.12409063541375757, + "loss": 0.20140497386455536, + "step": 1111 + }, + { + "grad_norm": 0.09620154246764552, + "loss": 0.1906050741672516, + "step": 1112 + }, + { + "grad_norm": 0.220528352031185, + "loss": 0.22772613167762756, + "step": 1113 + }, + { + "grad_norm": 0.2504788439524336, + "loss": 0.23981086909770966, + "step": 1114 + }, + { + "grad_norm": 0.16326245672469733, + "loss": 0.1640377789735794, + "step": 1115 + }, + { + "grad_norm": 0.14377228858247718, + "loss": 0.23571160435676575, + "step": 1116 + }, + { + "grad_norm": 0.1409984367666969, + "loss": 0.20749962329864502, + "step": 1117 + }, + { + "grad_norm": 0.17498251223123445, + "loss": 0.18706759810447693, + "step": 1118 + }, + { + "grad_norm": 0.16220297590624902, + "loss": 0.2185591161251068, + "step": 1119 + }, + { + "epoch": 0.3584, + "grad_norm": 0.16220298409461975, + "learning_rate": 9.269032113182124e-05, + "loss": 0.2071, + "step": 1120 + }, + { + "grad_norm": 0.3367268609702951, + "loss": 0.2083633542060852, + "step": 1120 + }, + { + "grad_norm": 0.1421965490221192, + "loss": 0.23098520934581757, + "step": 1121 + }, + { + "grad_norm": 0.2246826456234509, + "loss": 0.17601065337657928, + "step": 1122 + }, + { + "grad_norm": 0.16662578728064914, + "loss": 0.2381012737751007, + "step": 1123 + }, + { + "grad_norm": 0.31425057397230943, + "loss": 0.16575083136558533, + "step": 1124 + }, + { + "grad_norm": 0.27715384495945944, + "loss": 0.22059136629104614, + "step": 1125 + }, + { + "grad_norm": 0.1644035808708291, + "loss": 0.19537502527236938, + "step": 1126 + }, + { + "grad_norm": 0.1268424909202677, + "loss": 0.19955161213874817, + "step": 1127 + }, + { + "grad_norm": 0.19449075293789905, + "loss": 0.26702967286109924, + "step": 1128 + }, + { + "grad_norm": 0.2908920493224652, + "loss": 0.1975056231021881, + "step": 1129 + }, + { + "epoch": 0.3616, + "grad_norm": 0.2908920645713806, + "learning_rate": 9.25780372782394e-05, + "loss": 0.2099, + "step": 1130 + }, + { + "grad_norm": 0.18438708011037946, + "loss": 0.21095487475395203, + "step": 1130 + }, + { + "grad_norm": 0.1511463636263398, + "loss": 0.20675089955329895, + "step": 1131 + }, + { + "grad_norm": 0.1209296010151314, + "loss": 0.1888558566570282, + "step": 1132 + }, + { + "grad_norm": 0.11202310204094999, + "loss": 0.19356325268745422, + "step": 1133 + }, + { + "grad_norm": 0.48152189956930275, + "loss": 0.24690328538417816, + "step": 1134 + }, + { + "grad_norm": 0.16483395843817997, + "loss": 0.2026970088481903, + "step": 1135 + }, + { + "grad_norm": 0.19218024192503574, + "loss": 0.17978274822235107, + "step": 1136 + }, + { + "grad_norm": 0.4804142402718619, + "loss": 0.3027162551879883, + "step": 1137 + }, + { + "grad_norm": 0.41683957202826577, + "loss": 0.18410256505012512, + "step": 1138 + }, + { + "grad_norm": 0.19403678837005606, + "loss": 0.1958305388689041, + "step": 1139 + }, + { + "epoch": 0.3648, + "grad_norm": 0.1940367966890335, + "learning_rate": 9.246575342465755e-05, + "loss": 0.2112, + "step": 1140 + }, + { + "grad_norm": 0.21504787029614453, + "loss": 0.21649932861328125, + "step": 1140 + }, + { + "grad_norm": 0.43245589070548746, + "loss": 0.17892327904701233, + "step": 1141 + }, + { + "grad_norm": 0.23306919350982816, + "loss": 0.19862666726112366, + "step": 1142 + }, + { + "grad_norm": 0.14849041915048566, + "loss": 0.19050107896327972, + "step": 1143 + }, + { + "grad_norm": 0.15763544302509416, + "loss": 0.16571390628814697, + "step": 1144 + }, + { + "grad_norm": 0.18095352566565687, + "loss": 0.21190738677978516, + "step": 1145 + }, + { + "grad_norm": 0.23458731522380377, + "loss": 0.19326099753379822, + "step": 1146 + }, + { + "grad_norm": 0.32600884200605557, + "loss": 0.18909089267253876, + "step": 1147 + }, + { + "grad_norm": 0.19638992081892995, + "loss": 0.2564845383167267, + "step": 1148 + }, + { + "grad_norm": 0.5486603179231392, + "loss": 0.2946456968784332, + "step": 1149 + }, + { + "epoch": 0.368, + "grad_norm": 0.5486602783203125, + "learning_rate": 9.235346957107568e-05, + "loss": 0.2096, + "step": 1150 + }, + { + "grad_norm": 0.17977322958973915, + "loss": 0.21299734711647034, + "step": 1150 + }, + { + "grad_norm": 0.22698976650019176, + "loss": 0.21939650177955627, + "step": 1151 + }, + { + "grad_norm": 0.15599799165134892, + "loss": 0.1900368332862854, + "step": 1152 + }, + { + "grad_norm": 0.19570436836144303, + "loss": 0.23440226912498474, + "step": 1153 + }, + { + "grad_norm": 0.25722420017926706, + "loss": 0.2557809352874756, + "step": 1154 + }, + { + "grad_norm": 0.15431199733599088, + "loss": 0.19441059231758118, + "step": 1155 + }, + { + "grad_norm": 0.11331102291957575, + "loss": 0.19041015207767487, + "step": 1156 + }, + { + "grad_norm": 0.14390488441077753, + "loss": 0.22349470853805542, + "step": 1157 + }, + { + "grad_norm": 0.28152583035910733, + "loss": 0.20978249609470367, + "step": 1158 + }, + { + "grad_norm": 0.36824262263409197, + "loss": 0.17935024201869965, + "step": 1159 + }, + { + "epoch": 0.3712, + "grad_norm": 0.36824262142181396, + "learning_rate": 9.224118571749383e-05, + "loss": 0.211, + "step": 1160 + }, + { + "grad_norm": 0.2504763889609264, + "loss": 0.18755602836608887, + "step": 1160 + }, + { + "grad_norm": 0.19712529123538022, + "loss": 0.2448435127735138, + "step": 1161 + }, + { + "grad_norm": 0.1996678827513873, + "loss": 0.22126322984695435, + "step": 1162 + }, + { + "grad_norm": 0.3866891527880422, + "loss": 0.2083159238100052, + "step": 1163 + }, + { + "grad_norm": 0.12293793522256907, + "loss": 0.18622919917106628, + "step": 1164 + }, + { + "grad_norm": 0.20120555842057866, + "loss": 0.1637835055589676, + "step": 1165 + }, + { + "grad_norm": 0.3901388571877309, + "loss": 0.2181008756160736, + "step": 1166 + }, + { + "grad_norm": 0.5601337984003252, + "loss": 0.2632687985897064, + "step": 1167 + }, + { + "grad_norm": 0.2724472226274353, + "loss": 0.19062724709510803, + "step": 1168 + }, + { + "grad_norm": 0.15705338169719912, + "loss": 0.18261754512786865, + "step": 1169 + }, + { + "epoch": 0.3744, + "grad_norm": 0.1570533812046051, + "learning_rate": 9.212890186391197e-05, + "loss": 0.2067, + "step": 1170 + }, + { + "grad_norm": 0.3189138359848681, + "loss": 0.2535853981971741, + "step": 1170 + }, + { + "grad_norm": 0.20757146570103857, + "loss": 0.19894562661647797, + "step": 1171 + }, + { + "grad_norm": 0.23130865116133156, + "loss": 0.2149081975221634, + "step": 1172 + }, + { + "grad_norm": 0.13514685830038245, + "loss": 0.18970058858394623, + "step": 1173 + }, + { + "grad_norm": 0.2191878174906616, + "loss": 0.2600434124469757, + "step": 1174 + }, + { + "grad_norm": 0.507682612408716, + "loss": 0.17337459325790405, + "step": 1175 + }, + { + "grad_norm": 0.18763563298699754, + "loss": 0.2419625222682953, + "step": 1176 + }, + { + "grad_norm": 0.18240857659930443, + "loss": 0.19966980814933777, + "step": 1177 + }, + { + "grad_norm": 0.2691671989391888, + "loss": 0.17559610307216644, + "step": 1178 + }, + { + "grad_norm": 0.17821207594766797, + "loss": 0.14320158958435059, + "step": 1179 + }, + { + "epoch": 0.3776, + "grad_norm": 0.17821206152439117, + "learning_rate": 9.201661801033011e-05, + "loss": 0.2051, + "step": 1180 + }, + { + "grad_norm": 0.21326244677267292, + "loss": 0.14633743464946747, + "step": 1180 + }, + { + "grad_norm": 0.1734689305739547, + "loss": 0.19557875394821167, + "step": 1181 + }, + { + "grad_norm": 0.13412769954623102, + "loss": 0.19878463447093964, + "step": 1182 + }, + { + "grad_norm": 0.17223761883914987, + "loss": 0.20389318466186523, + "step": 1183 + }, + { + "grad_norm": 0.541993959558911, + "loss": 0.2381640374660492, + "step": 1184 + }, + { + "grad_norm": 0.6677577070185027, + "loss": 0.28943169116973877, + "step": 1185 + }, + { + "grad_norm": 0.13984746906313839, + "loss": 0.218010812997818, + "step": 1186 + }, + { + "grad_norm": 0.39093840265887186, + "loss": 0.23011425137519836, + "step": 1187 + }, + { + "grad_norm": 0.18928205597997264, + "loss": 0.2815581262111664, + "step": 1188 + }, + { + "grad_norm": 0.23451495187718605, + "loss": 0.18328504264354706, + "step": 1189 + }, + { + "epoch": 0.3808, + "grad_norm": 0.23451495170593262, + "learning_rate": 9.190433415674826e-05, + "loss": 0.2185, + "step": 1190 + }, + { + "grad_norm": 0.4740872027825141, + "loss": 0.2050350457429886, + "step": 1190 + }, + { + "grad_norm": 0.3134800803079158, + "loss": 0.19426316022872925, + "step": 1191 + }, + { + "grad_norm": 0.322132231406249, + "loss": 0.18893542885780334, + "step": 1192 + }, + { + "grad_norm": 0.410699226410885, + "loss": 0.19649647176265717, + "step": 1193 + }, + { + "grad_norm": 0.18874649987532127, + "loss": 0.20560893416404724, + "step": 1194 + }, + { + "grad_norm": 0.16110874259280525, + "loss": 0.1658567190170288, + "step": 1195 + }, + { + "grad_norm": 0.19700257096660376, + "loss": 0.15860803425312042, + "step": 1196 + }, + { + "grad_norm": 0.27468664322801345, + "loss": 0.2014860212802887, + "step": 1197 + }, + { + "grad_norm": 0.376808480053202, + "loss": 0.20037321746349335, + "step": 1198 + }, + { + "grad_norm": 0.13405710267619614, + "loss": 0.13748060166835785, + "step": 1199 + }, + { + "epoch": 0.384, + "grad_norm": 0.13405710458755493, + "learning_rate": 9.179205030316641e-05, + "loss": 0.1854, + "step": 1200 + }, + { + "grad_norm": 0.16295097864891503, + "loss": 0.2052190750837326, + "step": 1200 + }, + { + "grad_norm": 0.14919547232754354, + "loss": 0.25522345304489136, + "step": 1201 + }, + { + "grad_norm": 0.162737385780572, + "loss": 0.18729545176029205, + "step": 1202 + }, + { + "grad_norm": 0.30026152134063444, + "loss": 0.24034366011619568, + "step": 1203 + }, + { + "grad_norm": 0.11014228467870225, + "loss": 0.16358867287635803, + "step": 1204 + }, + { + "grad_norm": 0.19816656025820656, + "loss": 0.15370675921440125, + "step": 1205 + }, + { + "grad_norm": 0.18494105307660033, + "loss": 0.19463378190994263, + "step": 1206 + }, + { + "grad_norm": 0.22132949219621983, + "loss": 0.2298462986946106, + "step": 1207 + }, + { + "grad_norm": 0.1611177975633361, + "loss": 0.20845791697502136, + "step": 1208 + }, + { + "grad_norm": 0.2502352709898924, + "loss": 0.19858211278915405, + "step": 1209 + }, + { + "epoch": 0.3872, + "grad_norm": 0.25023525953292847, + "learning_rate": 9.167976644958456e-05, + "loss": 0.2037, + "step": 1210 + }, + { + "grad_norm": 0.2834939812902437, + "loss": 0.1781633347272873, + "step": 1210 + }, + { + "grad_norm": 0.19281706513764152, + "loss": 0.23551422357559204, + "step": 1211 + }, + { + "grad_norm": 0.42800070947102087, + "loss": 0.1643822193145752, + "step": 1212 + }, + { + "grad_norm": 0.4364925419387394, + "loss": 0.23938652873039246, + "step": 1213 + }, + { + "grad_norm": 0.1255228820013053, + "loss": 0.2070753127336502, + "step": 1214 + }, + { + "grad_norm": 0.20606792125363865, + "loss": 0.1824677288532257, + "step": 1215 + }, + { + "grad_norm": 0.2970109063625816, + "loss": 0.21121206879615784, + "step": 1216 + }, + { + "grad_norm": 0.1444557318185465, + "loss": 0.1664683222770691, + "step": 1217 + }, + { + "grad_norm": 0.23571018296324214, + "loss": 0.26608806848526, + "step": 1218 + }, + { + "grad_norm": 0.08981674553118357, + "loss": 0.16442802548408508, + "step": 1219 + }, + { + "epoch": 0.3904, + "grad_norm": 0.08981674164533615, + "learning_rate": 9.15674825960027e-05, + "loss": 0.2015, + "step": 1220 + }, + { + "grad_norm": 0.33225544207395624, + "loss": 0.2128671109676361, + "step": 1220 + }, + { + "grad_norm": 0.16677945199516192, + "loss": 0.1695430427789688, + "step": 1221 + }, + { + "grad_norm": 0.14387855801065572, + "loss": 0.17156578600406647, + "step": 1222 + }, + { + "grad_norm": 0.18048443199655853, + "loss": 0.19577054679393768, + "step": 1223 + }, + { + "grad_norm": 0.12304582642177517, + "loss": 0.1930341273546219, + "step": 1224 + }, + { + "grad_norm": 0.1029370178550048, + "loss": 0.18185469508171082, + "step": 1225 + }, + { + "grad_norm": 0.35730088507757235, + "loss": 0.21150556206703186, + "step": 1226 + }, + { + "grad_norm": 0.14810062377935487, + "loss": 0.15369240939617157, + "step": 1227 + }, + { + "grad_norm": 0.1537020625870823, + "loss": 0.1733514964580536, + "step": 1228 + }, + { + "grad_norm": 0.19145346753670503, + "loss": 0.17509928345680237, + "step": 1229 + }, + { + "epoch": 0.3936, + "grad_norm": 0.1914534717798233, + "learning_rate": 9.145519874242085e-05, + "loss": 0.1838, + "step": 1230 + }, + { + "grad_norm": 0.22123839842373813, + "loss": 0.17257235944271088, + "step": 1230 + }, + { + "grad_norm": 0.28687488716955956, + "loss": 0.21783074736595154, + "step": 1231 + }, + { + "grad_norm": 0.3319652975305976, + "loss": 0.2648008167743683, + "step": 1232 + }, + { + "grad_norm": 0.13042841009571893, + "loss": 0.18466031551361084, + "step": 1233 + }, + { + "grad_norm": 0.20194559037193752, + "loss": 0.17304660379886627, + "step": 1234 + }, + { + "grad_norm": 0.12028192452715288, + "loss": 0.2413826882839203, + "step": 1235 + }, + { + "grad_norm": 0.23704454873995587, + "loss": 0.3052140474319458, + "step": 1236 + }, + { + "grad_norm": 0.2183450428854758, + "loss": 0.21141694486141205, + "step": 1237 + }, + { + "grad_norm": 0.32740700949718143, + "loss": 0.2106851488351822, + "step": 1238 + }, + { + "grad_norm": 0.15704376157772898, + "loss": 0.2138277143239975, + "step": 1239 + }, + { + "epoch": 0.3968, + "grad_norm": 0.15704376995563507, + "learning_rate": 9.1342914888839e-05, + "loss": 0.2195, + "step": 1240 + }, + { + "grad_norm": 0.22759319674388762, + "loss": 0.2313537299633026, + "step": 1240 + }, + { + "grad_norm": 0.4948525487516799, + "loss": 0.18232287466526031, + "step": 1241 + }, + { + "grad_norm": 0.24151363708623927, + "loss": 0.16159719228744507, + "step": 1242 + }, + { + "grad_norm": 0.25639995788418496, + "loss": 0.1574125736951828, + "step": 1243 + }, + { + "grad_norm": 0.18047910219395322, + "loss": 0.2263982892036438, + "step": 1244 + }, + { + "grad_norm": 0.1375837209209748, + "loss": 0.17497989535331726, + "step": 1245 + }, + { + "grad_norm": 0.35144032550226456, + "loss": 0.2002110779285431, + "step": 1246 + }, + { + "grad_norm": 0.28630326618072066, + "loss": 0.1990223228931427, + "step": 1247 + }, + { + "grad_norm": 0.2653716557655574, + "loss": 0.1796901375055313, + "step": 1248 + }, + { + "grad_norm": 0.3957077875300973, + "loss": 0.20594440400600433, + "step": 1249 + }, + { + "epoch": 0.4, + "grad_norm": 0.39570775628089905, + "learning_rate": 9.123063103525713e-05, + "loss": 0.1919, + "step": 1250 + }, + { + "grad_norm": 0.23585405867125225, + "loss": 0.19862928986549377, + "step": 1250 + }, + { + "grad_norm": 0.181728051639474, + "loss": 0.18423804640769958, + "step": 1251 + }, + { + "grad_norm": 0.27520893901866617, + "loss": 0.17932939529418945, + "step": 1252 + }, + { + "grad_norm": 0.24310271573428727, + "loss": 0.15624240040779114, + "step": 1253 + }, + { + "grad_norm": 0.14041667313644032, + "loss": 0.21468721330165863, + "step": 1254 + }, + { + "grad_norm": 0.1071039655724296, + "loss": 0.23160579800605774, + "step": 1255 + }, + { + "grad_norm": 0.38947700608465596, + "loss": 0.20810231566429138, + "step": 1256 + }, + { + "grad_norm": 0.24646936208386475, + "loss": 0.1820230334997177, + "step": 1257 + }, + { + "grad_norm": 0.1553523657604597, + "loss": 0.26695218682289124, + "step": 1258 + }, + { + "grad_norm": 0.17061888262793704, + "loss": 0.27899980545043945, + "step": 1259 + }, + { + "epoch": 0.4032, + "grad_norm": 0.17061889171600342, + "learning_rate": 9.111834718167527e-05, + "loss": 0.2101, + "step": 1260 + }, + { + "grad_norm": 0.19610685247001314, + "loss": 0.2005070298910141, + "step": 1260 + }, + { + "grad_norm": 0.3708342216642322, + "loss": 0.18171560764312744, + "step": 1261 + }, + { + "grad_norm": 0.25863747486212907, + "loss": 0.1932872086763382, + "step": 1262 + }, + { + "grad_norm": 0.2845429776461574, + "loss": 0.1966428905725479, + "step": 1263 + }, + { + "grad_norm": 0.2297119950390638, + "loss": 0.18059112131595612, + "step": 1264 + }, + { + "grad_norm": 0.14848354631824986, + "loss": 0.2004001885652542, + "step": 1265 + }, + { + "grad_norm": 0.1399641988565317, + "loss": 0.1809517741203308, + "step": 1266 + }, + { + "grad_norm": 0.20577448472767368, + "loss": 0.19611509144306183, + "step": 1267 + }, + { + "grad_norm": 0.12014030207448785, + "loss": 0.19947701692581177, + "step": 1268 + }, + { + "grad_norm": 0.12707690082487366, + "loss": 0.19758844375610352, + "step": 1269 + }, + { + "epoch": 0.4064, + "grad_norm": 0.1270769089460373, + "learning_rate": 9.100606332809342e-05, + "loss": 0.1927, + "step": 1270 + }, + { + "grad_norm": 0.1240338212229818, + "loss": 0.15935657918453217, + "step": 1270 + }, + { + "grad_norm": 0.14060111584929916, + "loss": 0.1988687813282013, + "step": 1271 + }, + { + "grad_norm": 0.25146393276411555, + "loss": 0.19320610165596008, + "step": 1272 + }, + { + "grad_norm": 0.1594985995206543, + "loss": 0.25431185960769653, + "step": 1273 + }, + { + "grad_norm": 0.25294446408341165, + "loss": 0.20270001888275146, + "step": 1274 + }, + { + "grad_norm": 0.23594808545831558, + "loss": 0.19048717617988586, + "step": 1275 + }, + { + "grad_norm": 0.1869882993515996, + "loss": 0.20475450158119202, + "step": 1276 + }, + { + "grad_norm": 0.19349432371304806, + "loss": 0.19588831067085266, + "step": 1277 + }, + { + "grad_norm": 0.3475248222778207, + "loss": 0.17571750283241272, + "step": 1278 + }, + { + "grad_norm": 0.1551214111429981, + "loss": 0.24780815839767456, + "step": 1279 + }, + { + "epoch": 0.4096, + "grad_norm": 0.15512141585350037, + "learning_rate": 9.089377947451156e-05, + "loss": 0.2023, + "step": 1280 + }, + { + "grad_norm": 0.106956634513963, + "loss": 0.1834591031074524, + "step": 1280 + }, + { + "grad_norm": 0.2934679821100225, + "loss": 0.24754586815834045, + "step": 1281 + }, + { + "grad_norm": 0.10287945933309992, + "loss": 0.14529578387737274, + "step": 1282 + }, + { + "grad_norm": 0.21295568567299086, + "loss": 0.20173177123069763, + "step": 1283 + }, + { + "grad_norm": 0.13310470068197042, + "loss": 0.20208263397216797, + "step": 1284 + }, + { + "grad_norm": 0.1402602457742417, + "loss": 0.19930072128772736, + "step": 1285 + }, + { + "grad_norm": 0.38517332955470396, + "loss": 0.18476831912994385, + "step": 1286 + }, + { + "grad_norm": 0.35941095378491117, + "loss": 0.18966853618621826, + "step": 1287 + }, + { + "grad_norm": 0.22842341990902162, + "loss": 0.31777167320251465, + "step": 1288 + }, + { + "grad_norm": 0.2662179841072055, + "loss": 0.16381487250328064, + "step": 1289 + }, + { + "epoch": 0.4128, + "grad_norm": 0.266217976808548, + "learning_rate": 9.078149562092971e-05, + "loss": 0.2035, + "step": 1290 + }, + { + "grad_norm": 0.1806001871036084, + "loss": 0.19276019930839539, + "step": 1290 + }, + { + "grad_norm": 0.15558262819012095, + "loss": 0.227116197347641, + "step": 1291 + }, + { + "grad_norm": 0.19293455783644886, + "loss": 0.24691718816757202, + "step": 1292 + }, + { + "grad_norm": 0.26111227412136867, + "loss": 0.18383026123046875, + "step": 1293 + }, + { + "grad_norm": 0.3321597971800014, + "loss": 0.2607182264328003, + "step": 1294 + }, + { + "grad_norm": 0.22425779703959714, + "loss": 0.25310394167900085, + "step": 1295 + }, + { + "grad_norm": 0.261123100958337, + "loss": 0.20402181148529053, + "step": 1296 + }, + { + "grad_norm": 0.25865914496661097, + "loss": 0.23108932375907898, + "step": 1297 + }, + { + "grad_norm": 0.1865756700329638, + "loss": 0.17219623923301697, + "step": 1298 + }, + { + "grad_norm": 0.5519210938775875, + "loss": 0.33121857047080994, + "step": 1299 + }, + { + "epoch": 0.416, + "grad_norm": 0.5519210696220398, + "learning_rate": 9.066921176734786e-05, + "loss": 0.2303, + "step": 1300 + }, + { + "grad_norm": 0.4083992960552419, + "loss": 0.2652629613876343, + "step": 1300 + }, + { + "grad_norm": 0.14424599225079413, + "loss": 0.1991356909275055, + "step": 1301 + }, + { + "grad_norm": 0.38185380743135916, + "loss": 0.22088509798049927, + "step": 1302 + }, + { + "grad_norm": 0.21056878460284295, + "loss": 0.18175679445266724, + "step": 1303 + }, + { + "grad_norm": 0.13359300702018587, + "loss": 0.16816896200180054, + "step": 1304 + }, + { + "grad_norm": 0.4583995160876442, + "loss": 0.21948370337486267, + "step": 1305 + }, + { + "grad_norm": 0.2172409666664232, + "loss": 0.1848749816417694, + "step": 1306 + }, + { + "grad_norm": 0.4380018652557251, + "loss": 0.1772986650466919, + "step": 1307 + }, + { + "grad_norm": 0.3495689165204745, + "loss": 0.16382399201393127, + "step": 1308 + }, + { + "grad_norm": 0.23824502907007686, + "loss": 0.20538705587387085, + "step": 1309 + }, + { + "epoch": 0.4192, + "grad_norm": 0.23824504017829895, + "learning_rate": 9.055692791376601e-05, + "loss": 0.1986, + "step": 1310 + }, + { + "grad_norm": 0.3133877190884318, + "loss": 0.16053873300552368, + "step": 1310 + }, + { + "grad_norm": 0.1726742406142277, + "loss": 0.2078474462032318, + "step": 1311 + }, + { + "grad_norm": 0.452313618541112, + "loss": 0.22442683577537537, + "step": 1312 + }, + { + "grad_norm": 0.23402246244221417, + "loss": 0.22204391658306122, + "step": 1313 + }, + { + "grad_norm": 0.5901993001876236, + "loss": 0.2696843147277832, + "step": 1314 + }, + { + "grad_norm": 0.36703141048593746, + "loss": 0.19289594888687134, + "step": 1315 + }, + { + "grad_norm": 0.10314713697150639, + "loss": 0.20123854279518127, + "step": 1316 + }, + { + "grad_norm": 0.32006707245517313, + "loss": 0.20394274592399597, + "step": 1317 + }, + { + "grad_norm": 0.2601438461166467, + "loss": 0.20014163851737976, + "step": 1318 + }, + { + "grad_norm": 0.20419193460212684, + "loss": 0.242193341255188, + "step": 1319 + }, + { + "epoch": 0.4224, + "grad_norm": 0.2041919231414795, + "learning_rate": 9.044464406018415e-05, + "loss": 0.2125, + "step": 1320 + }, + { + "grad_norm": 0.1973333164834291, + "loss": 0.21313515305519104, + "step": 1320 + }, + { + "grad_norm": 0.48754475363897415, + "loss": 0.1749364733695984, + "step": 1321 + }, + { + "grad_norm": 0.2061071369122693, + "loss": 0.21022073924541473, + "step": 1322 + }, + { + "grad_norm": 0.11989020680271643, + "loss": 0.23914498090744019, + "step": 1323 + }, + { + "grad_norm": 0.1696903447760694, + "loss": 0.18719244003295898, + "step": 1324 + }, + { + "grad_norm": 0.3373869996651761, + "loss": 0.18789677321910858, + "step": 1325 + }, + { + "grad_norm": 0.39465953416993904, + "loss": 0.2916887104511261, + "step": 1326 + }, + { + "grad_norm": 0.1817988580398491, + "loss": 0.18675857782363892, + "step": 1327 + }, + { + "grad_norm": 0.21247908459081963, + "loss": 0.1960948258638382, + "step": 1328 + }, + { + "grad_norm": 0.42089743126342677, + "loss": 0.20324616134166718, + "step": 1329 + }, + { + "epoch": 0.4256, + "grad_norm": 0.4208974540233612, + "learning_rate": 9.03323602066023e-05, + "loss": 0.209, + "step": 1330 + }, + { + "grad_norm": 0.17184345955223562, + "loss": 0.2060212790966034, + "step": 1330 + }, + { + "grad_norm": 0.19908030304348656, + "loss": 0.16987203061580658, + "step": 1331 + }, + { + "grad_norm": 0.2767264101287708, + "loss": 0.16846297681331635, + "step": 1332 + }, + { + "grad_norm": 0.20443865625107355, + "loss": 0.20554175972938538, + "step": 1333 + }, + { + "grad_norm": 0.27052344896594244, + "loss": 0.16310438513755798, + "step": 1334 + }, + { + "grad_norm": 0.2330704806031058, + "loss": 0.19821485877037048, + "step": 1335 + }, + { + "grad_norm": 0.275466107322984, + "loss": 0.20267289876937866, + "step": 1336 + }, + { + "grad_norm": 0.2597454497901952, + "loss": 0.2018827497959137, + "step": 1337 + }, + { + "grad_norm": 0.194311620858932, + "loss": 0.14966906607151031, + "step": 1338 + }, + { + "grad_norm": 0.14202352408020977, + "loss": 0.21070705354213715, + "step": 1339 + }, + { + "epoch": 0.4288, + "grad_norm": 0.14202351868152618, + "learning_rate": 9.022007635302045e-05, + "loss": 0.1876, + "step": 1340 + }, + { + "grad_norm": 0.14227545231165234, + "loss": 0.16802282631397247, + "step": 1340 + }, + { + "grad_norm": 0.17051410488507174, + "loss": 0.23212261497974396, + "step": 1341 + }, + { + "grad_norm": 0.10099504035704765, + "loss": 0.1637849062681198, + "step": 1342 + }, + { + "grad_norm": 0.15039159676897393, + "loss": 0.16832825541496277, + "step": 1343 + }, + { + "grad_norm": 0.21549784758667082, + "loss": 0.19473232328891754, + "step": 1344 + }, + { + "grad_norm": 0.1703222417041235, + "loss": 0.17995953559875488, + "step": 1345 + }, + { + "grad_norm": 0.2725062893127943, + "loss": 0.23503538966178894, + "step": 1346 + }, + { + "grad_norm": 0.21798734157986227, + "loss": 0.200187087059021, + "step": 1347 + }, + { + "grad_norm": 0.13261401471938697, + "loss": 0.19522012770175934, + "step": 1348 + }, + { + "grad_norm": 0.3176891596072556, + "loss": 0.22970892488956451, + "step": 1349 + }, + { + "epoch": 0.432, + "grad_norm": 0.3176891505718231, + "learning_rate": 9.010779249943859e-05, + "loss": 0.1967, + "step": 1350 + }, + { + "grad_norm": 0.24679359856856847, + "loss": 0.18500623106956482, + "step": 1350 + }, + { + "grad_norm": 0.19992597433759354, + "loss": 0.17315256595611572, + "step": 1351 + }, + { + "grad_norm": 0.14256006269750376, + "loss": 0.16900357604026794, + "step": 1352 + }, + { + "grad_norm": 0.12382674701490884, + "loss": 0.18913409113883972, + "step": 1353 + }, + { + "grad_norm": 0.3331756336395646, + "loss": 0.21685096621513367, + "step": 1354 + }, + { + "grad_norm": 0.1816694677813138, + "loss": 0.17200781404972076, + "step": 1355 + }, + { + "grad_norm": 0.2693085597825389, + "loss": 0.2886621057987213, + "step": 1356 + }, + { + "grad_norm": 0.34670854332949186, + "loss": 0.2275918424129486, + "step": 1357 + }, + { + "grad_norm": 0.20883132226371484, + "loss": 0.2121773511171341, + "step": 1358 + }, + { + "grad_norm": 0.16158700733013492, + "loss": 0.19109699130058289, + "step": 1359 + }, + { + "epoch": 0.4352, + "grad_norm": 0.16158701479434967, + "learning_rate": 8.999550864585672e-05, + "loss": 0.2025, + "step": 1360 + }, + { + "grad_norm": 0.12370815321898924, + "loss": 0.18005765974521637, + "step": 1360 + }, + { + "grad_norm": 0.16221918230769514, + "loss": 0.1685120165348053, + "step": 1361 + }, + { + "grad_norm": 0.12133520112140865, + "loss": 0.16833165287971497, + "step": 1362 + }, + { + "grad_norm": 0.12406515948278224, + "loss": 0.16516365110874176, + "step": 1363 + }, + { + "grad_norm": 0.1172233825373365, + "loss": 0.20094910264015198, + "step": 1364 + }, + { + "grad_norm": 0.2452608036838739, + "loss": 0.17158642411231995, + "step": 1365 + }, + { + "grad_norm": 0.3676389172306445, + "loss": 0.20026150345802307, + "step": 1366 + }, + { + "grad_norm": 0.4036848855477633, + "loss": 0.2150043547153473, + "step": 1367 + }, + { + "grad_norm": 0.11209722894734052, + "loss": 0.240310400724411, + "step": 1368 + }, + { + "grad_norm": 0.12525490734399236, + "loss": 0.1727960854768753, + "step": 1369 + }, + { + "epoch": 0.4384, + "grad_norm": 0.12525491416454315, + "learning_rate": 8.988322479227488e-05, + "loss": 0.1883, + "step": 1370 + }, + { + "grad_norm": 0.11083133582073167, + "loss": 0.1934005320072174, + "step": 1370 + }, + { + "grad_norm": 0.16311197671394792, + "loss": 0.23225568234920502, + "step": 1371 + }, + { + "grad_norm": 0.2988873027183492, + "loss": 0.26148080825805664, + "step": 1372 + }, + { + "grad_norm": 0.12694119891570402, + "loss": 0.224916011095047, + "step": 1373 + }, + { + "grad_norm": 0.42917620983328264, + "loss": 0.2194364219903946, + "step": 1374 + }, + { + "grad_norm": 0.3501914320869242, + "loss": 0.18626438081264496, + "step": 1375 + }, + { + "grad_norm": 0.2865822491538599, + "loss": 0.14820195734500885, + "step": 1376 + }, + { + "grad_norm": 0.2905090913772637, + "loss": 0.2785956561565399, + "step": 1377 + }, + { + "grad_norm": 0.33155236750504385, + "loss": 0.2658662796020508, + "step": 1378 + }, + { + "grad_norm": 0.2564144721605889, + "loss": 0.18308043479919434, + "step": 1379 + }, + { + "epoch": 0.4416, + "grad_norm": 0.2564144730567932, + "learning_rate": 8.977094093869301e-05, + "loss": 0.2193, + "step": 1380 + }, + { + "grad_norm": 0.15876318637677797, + "loss": 0.2371370941400528, + "step": 1380 + }, + { + "grad_norm": 0.4096970276783958, + "loss": 0.23056508600711823, + "step": 1381 + }, + { + "grad_norm": 0.1646017308151422, + "loss": 0.15496277809143066, + "step": 1382 + }, + { + "grad_norm": 0.21263540261829045, + "loss": 0.20002275705337524, + "step": 1383 + }, + { + "grad_norm": 0.14809709666171236, + "loss": 0.1926899254322052, + "step": 1384 + }, + { + "grad_norm": 0.24000258923936166, + "loss": 0.22897911071777344, + "step": 1385 + }, + { + "grad_norm": 0.16991139451064524, + "loss": 0.20526590943336487, + "step": 1386 + }, + { + "grad_norm": 0.1526041211942202, + "loss": 0.191679447889328, + "step": 1387 + }, + { + "grad_norm": 0.21350135923053964, + "loss": 0.21529486775398254, + "step": 1388 + }, + { + "grad_norm": 0.197888132437985, + "loss": 0.18534785509109497, + "step": 1389 + }, + { + "epoch": 0.4448, + "grad_norm": 0.19788813591003418, + "learning_rate": 8.965865708511116e-05, + "loss": 0.2042, + "step": 1390 + }, + { + "grad_norm": 0.5064752014826889, + "loss": 0.20398306846618652, + "step": 1390 + }, + { + "grad_norm": 0.2293538803821008, + "loss": 0.17340779304504395, + "step": 1391 + }, + { + "grad_norm": 0.2091940552165263, + "loss": 0.1956290751695633, + "step": 1392 + }, + { + "grad_norm": 0.1415195055453653, + "loss": 0.20951427519321442, + "step": 1393 + }, + { + "grad_norm": 0.19499902859989995, + "loss": 0.183614581823349, + "step": 1394 + }, + { + "grad_norm": 0.22275158044955884, + "loss": 0.2368287742137909, + "step": 1395 + }, + { + "grad_norm": 0.21726639444679918, + "loss": 0.18370214104652405, + "step": 1396 + }, + { + "grad_norm": 0.2844197710103699, + "loss": 0.15440693497657776, + "step": 1397 + }, + { + "grad_norm": 0.21952844008205588, + "loss": 0.22351987659931183, + "step": 1398 + }, + { + "grad_norm": 0.18375135839529766, + "loss": 0.18940091133117676, + "step": 1399 + }, + { + "epoch": 0.448, + "grad_norm": 0.18375135958194733, + "learning_rate": 8.954637323152931e-05, + "loss": 0.1954, + "step": 1400 + }, + { + "grad_norm": 0.29267100377093946, + "loss": 0.2146906852722168, + "step": 1400 + }, + { + "grad_norm": 0.5324679200708132, + "loss": 0.2548893988132477, + "step": 1401 + }, + { + "grad_norm": 0.15133460658013093, + "loss": 0.18773797154426575, + "step": 1402 + }, + { + "grad_norm": 0.09199497778451124, + "loss": 0.1449151486158371, + "step": 1403 + }, + { + "grad_norm": 0.38920429048980076, + "loss": 0.22831740975379944, + "step": 1404 + }, + { + "grad_norm": 0.23577889579027922, + "loss": 0.19330087304115295, + "step": 1405 + }, + { + "grad_norm": 0.116916179271744, + "loss": 0.20733386278152466, + "step": 1406 + }, + { + "grad_norm": 0.2134463386547835, + "loss": 0.16853399574756622, + "step": 1407 + }, + { + "grad_norm": 0.11294918743139695, + "loss": 0.19615721702575684, + "step": 1408 + }, + { + "grad_norm": 0.3567545942579564, + "loss": 0.16962838172912598, + "step": 1409 + }, + { + "epoch": 0.4512, + "grad_norm": 0.3567545711994171, + "learning_rate": 8.943408937794746e-05, + "loss": 0.1966, + "step": 1410 + }, + { + "grad_norm": 0.17440359859533974, + "loss": 0.19337697327136993, + "step": 1410 + }, + { + "grad_norm": 0.36793613142117115, + "loss": 0.1712762713432312, + "step": 1411 + }, + { + "grad_norm": 0.15787247522676087, + "loss": 0.23881107568740845, + "step": 1412 + }, + { + "grad_norm": 0.16941622524720581, + "loss": 0.19301164150238037, + "step": 1413 + }, + { + "grad_norm": 0.17393809260153759, + "loss": 0.2128582000732422, + "step": 1414 + }, + { + "grad_norm": 0.18857990743156933, + "loss": 0.15846002101898193, + "step": 1415 + }, + { + "grad_norm": 0.1712970634786415, + "loss": 0.19838926196098328, + "step": 1416 + }, + { + "grad_norm": 0.1791740860135487, + "loss": 0.15436993539333344, + "step": 1417 + }, + { + "grad_norm": 0.12653768199394855, + "loss": 0.1474095731973648, + "step": 1418 + }, + { + "grad_norm": 0.3742877316317282, + "loss": 0.25280699133872986, + "step": 1419 + }, + { + "epoch": 0.4544, + "grad_norm": 0.3742877244949341, + "learning_rate": 8.93218055243656e-05, + "loss": 0.1921, + "step": 1420 + }, + { + "grad_norm": 0.20519813481131785, + "loss": 0.2215920090675354, + "step": 1420 + }, + { + "grad_norm": 0.23913297287028717, + "loss": 0.1787823587656021, + "step": 1421 + }, + { + "grad_norm": 0.38456929240713966, + "loss": 0.20132996141910553, + "step": 1422 + }, + { + "grad_norm": 0.2008434034436277, + "loss": 0.1853608787059784, + "step": 1423 + }, + { + "grad_norm": 0.5943924754292035, + "loss": 0.3005455732345581, + "step": 1424 + }, + { + "grad_norm": 0.203076576394001, + "loss": 0.19202715158462524, + "step": 1425 + }, + { + "grad_norm": 0.12439949396225757, + "loss": 0.20934653282165527, + "step": 1426 + }, + { + "grad_norm": 0.30764751639298576, + "loss": 0.2086239755153656, + "step": 1427 + }, + { + "grad_norm": 0.12567229697612625, + "loss": 0.18307647109031677, + "step": 1428 + }, + { + "grad_norm": 0.48642040486926263, + "loss": 0.20521752536296844, + "step": 1429 + }, + { + "epoch": 0.4576, + "grad_norm": 0.4864203929901123, + "learning_rate": 8.920952167078375e-05, + "loss": 0.2086, + "step": 1430 + }, + { + "grad_norm": 0.6896257410270871, + "loss": 0.2598416805267334, + "step": 1430 + }, + { + "grad_norm": 0.59172102495089, + "loss": 0.1937696933746338, + "step": 1431 + }, + { + "grad_norm": 0.3276049780447304, + "loss": 0.20856885612010956, + "step": 1432 + }, + { + "grad_norm": 0.2575791444474945, + "loss": 0.2264598309993744, + "step": 1433 + }, + { + "grad_norm": 0.18028681551601994, + "loss": 0.1852359175682068, + "step": 1434 + }, + { + "grad_norm": 0.26930412983024254, + "loss": 0.1875796616077423, + "step": 1435 + }, + { + "grad_norm": 0.1837894140554047, + "loss": 0.2068072408437729, + "step": 1436 + }, + { + "grad_norm": 0.1915805359277843, + "loss": 0.21628770232200623, + "step": 1437 + }, + { + "grad_norm": 0.3227705033473827, + "loss": 0.24723032116889954, + "step": 1438 + }, + { + "grad_norm": 0.5981997768365996, + "loss": 0.2874242067337036, + "step": 1439 + }, + { + "epoch": 0.4608, + "grad_norm": 0.5981997847557068, + "learning_rate": 8.909723781720189e-05, + "loss": 0.2219, + "step": 1440 + }, + { + "grad_norm": 0.23515864470922848, + "loss": 0.2045535296201706, + "step": 1440 + }, + { + "grad_norm": 0.2685240292843767, + "loss": 0.2311839908361435, + "step": 1441 + }, + { + "grad_norm": 0.2295675674781293, + "loss": 0.16987797617912292, + "step": 1442 + }, + { + "grad_norm": 0.21091070216917088, + "loss": 0.16776664555072784, + "step": 1443 + }, + { + "grad_norm": 0.2978207499156741, + "loss": 0.18015849590301514, + "step": 1444 + }, + { + "grad_norm": 0.18258006088462103, + "loss": 0.171584814786911, + "step": 1445 + }, + { + "grad_norm": 0.17860783256217047, + "loss": 0.1947779655456543, + "step": 1446 + }, + { + "grad_norm": 0.29349293452972874, + "loss": 0.22049711644649506, + "step": 1447 + }, + { + "grad_norm": 0.30528707751875167, + "loss": 0.16300752758979797, + "step": 1448 + }, + { + "grad_norm": 0.15906871071662784, + "loss": 0.15251660346984863, + "step": 1449 + }, + { + "epoch": 0.464, + "grad_norm": 0.15906871855258942, + "learning_rate": 8.898495396362003e-05, + "loss": 0.1856, + "step": 1450 + }, + { + "grad_norm": 0.1849291903131674, + "loss": 0.2133215218782425, + "step": 1450 + }, + { + "grad_norm": 0.15565014945645692, + "loss": 0.20561277866363525, + "step": 1451 + }, + { + "grad_norm": 0.11860804841867514, + "loss": 0.17278441786766052, + "step": 1452 + }, + { + "grad_norm": 0.2711756655885758, + "loss": 0.3179495930671692, + "step": 1453 + }, + { + "grad_norm": 0.33018358174071366, + "loss": 0.18270143866539001, + "step": 1454 + }, + { + "grad_norm": 0.2734167824654227, + "loss": 0.19220378994941711, + "step": 1455 + }, + { + "grad_norm": 0.13654810152350705, + "loss": 0.23835527896881104, + "step": 1456 + }, + { + "grad_norm": 0.11632313882032724, + "loss": 0.15060295164585114, + "step": 1457 + }, + { + "grad_norm": 0.17587002632504894, + "loss": 0.2389780879020691, + "step": 1458 + }, + { + "grad_norm": 0.4181679620155914, + "loss": 0.26033613085746765, + "step": 1459 + }, + { + "epoch": 0.4672, + "grad_norm": 0.41816794872283936, + "learning_rate": 8.887267011003818e-05, + "loss": 0.2173, + "step": 1460 + }, + { + "grad_norm": 0.17330145931117186, + "loss": 0.21549907326698303, + "step": 1460 + }, + { + "grad_norm": 0.3107162060965066, + "loss": 0.17209230363368988, + "step": 1461 + }, + { + "grad_norm": 0.22194819238877136, + "loss": 0.2084588259458542, + "step": 1462 + }, + { + "grad_norm": 0.19755654435624811, + "loss": 0.1828346848487854, + "step": 1463 + }, + { + "grad_norm": 0.17422083617831738, + "loss": 0.26120802760124207, + "step": 1464 + }, + { + "grad_norm": 0.5221464528909099, + "loss": 0.1748238503932953, + "step": 1465 + }, + { + "grad_norm": 0.1261460099535081, + "loss": 0.23167330026626587, + "step": 1466 + }, + { + "grad_norm": 0.25519038852391224, + "loss": 0.21683216094970703, + "step": 1467 + }, + { + "grad_norm": 0.24299204419491532, + "loss": 0.17438089847564697, + "step": 1468 + }, + { + "grad_norm": 0.18362512539893777, + "loss": 0.17167501151561737, + "step": 1469 + }, + { + "epoch": 0.4704, + "grad_norm": 0.18362511694431305, + "learning_rate": 8.876038625645633e-05, + "loss": 0.2009, + "step": 1470 + }, + { + "grad_norm": 0.14274051454250078, + "loss": 0.17161986231803894, + "step": 1470 + }, + { + "grad_norm": 0.22160581832310625, + "loss": 0.1792735755443573, + "step": 1471 + }, + { + "grad_norm": 0.289234942903596, + "loss": 0.18202297389507294, + "step": 1472 + }, + { + "grad_norm": 0.3956898377524231, + "loss": 0.17789766192436218, + "step": 1473 + }, + { + "grad_norm": 0.2998851119890955, + "loss": 0.20259691774845123, + "step": 1474 + }, + { + "grad_norm": 0.46612975448360544, + "loss": 0.2751806378364563, + "step": 1475 + }, + { + "grad_norm": 0.27879666156590405, + "loss": 0.1597978174686432, + "step": 1476 + }, + { + "grad_norm": 0.5886193227693068, + "loss": 0.16575562953948975, + "step": 1477 + }, + { + "grad_norm": 0.16655334714927372, + "loss": 0.2596772313117981, + "step": 1478 + }, + { + "grad_norm": 0.15626974108567301, + "loss": 0.1471017450094223, + "step": 1479 + }, + { + "epoch": 0.4736, + "grad_norm": 0.15626972913742065, + "learning_rate": 8.864810240287447e-05, + "loss": 0.1921, + "step": 1480 + }, + { + "grad_norm": 0.5020556279213931, + "loss": 0.2678540050983429, + "step": 1480 + }, + { + "grad_norm": 0.21869263949807913, + "loss": 0.1576799899339676, + "step": 1481 + }, + { + "grad_norm": 0.1908216237959505, + "loss": 0.20095542073249817, + "step": 1482 + }, + { + "grad_norm": 0.1498537753893728, + "loss": 0.18174096941947937, + "step": 1483 + }, + { + "grad_norm": 0.20497034751545823, + "loss": 0.23057161271572113, + "step": 1484 + }, + { + "grad_norm": 0.11860777028430386, + "loss": 0.1683044582605362, + "step": 1485 + }, + { + "grad_norm": 0.26907301993017774, + "loss": 0.19415053725242615, + "step": 1486 + }, + { + "grad_norm": 0.3055351493780402, + "loss": 0.16753405332565308, + "step": 1487 + }, + { + "grad_norm": 0.2155827833298858, + "loss": 0.26707273721694946, + "step": 1488 + }, + { + "grad_norm": 0.23124927361240113, + "loss": 0.20416301488876343, + "step": 1489 + }, + { + "epoch": 0.4768, + "grad_norm": 0.23124927282333374, + "learning_rate": 8.853581854929262e-05, + "loss": 0.204, + "step": 1490 + }, + { + "grad_norm": 0.14259664032091873, + "loss": 0.2041398584842682, + "step": 1490 + }, + { + "grad_norm": 0.15175007375075628, + "loss": 0.17000216245651245, + "step": 1491 + }, + { + "grad_norm": 0.2778585527844154, + "loss": 0.16975191235542297, + "step": 1492 + }, + { + "grad_norm": 0.23604008482112526, + "loss": 0.19846996665000916, + "step": 1493 + }, + { + "grad_norm": 0.22775477805071623, + "loss": 0.20318683981895447, + "step": 1494 + }, + { + "grad_norm": 0.20908832821584153, + "loss": 0.17818143963813782, + "step": 1495 + }, + { + "grad_norm": 0.117932020021577, + "loss": 0.1976407766342163, + "step": 1496 + }, + { + "grad_norm": 0.30931370413434156, + "loss": 0.17691633105278015, + "step": 1497 + }, + { + "grad_norm": 0.20466076846438563, + "loss": 0.22566547989845276, + "step": 1498 + }, + { + "grad_norm": 0.11154084510406562, + "loss": 0.18638703227043152, + "step": 1499 + }, + { + "epoch": 0.48, + "grad_norm": 0.11154084652662277, + "learning_rate": 8.842353469571077e-05, + "loss": 0.191, + "step": 1500 + }, + { + "grad_norm": 0.11849890158863487, + "loss": 0.20142686367034912, + "step": 1500 + }, + { + "grad_norm": 0.17348132529938792, + "loss": 0.18093647062778473, + "step": 1501 + }, + { + "grad_norm": 0.15016741209071907, + "loss": 0.22497259080410004, + "step": 1502 + }, + { + "grad_norm": 0.12813478809907386, + "loss": 0.17904026806354523, + "step": 1503 + }, + { + "grad_norm": 0.1858333929829386, + "loss": 0.17351630330085754, + "step": 1504 + }, + { + "grad_norm": 0.3030624733588622, + "loss": 0.20181778073310852, + "step": 1505 + }, + { + "grad_norm": 0.46884044236427885, + "loss": 0.1785731315612793, + "step": 1506 + }, + { + "grad_norm": 0.16594770041026521, + "loss": 0.1673845648765564, + "step": 1507 + }, + { + "grad_norm": 0.14558638299907203, + "loss": 0.18069905042648315, + "step": 1508 + }, + { + "grad_norm": 0.30430415695744634, + "loss": 0.2104497104883194, + "step": 1509 + }, + { + "epoch": 0.4832, + "grad_norm": 0.3043041527271271, + "learning_rate": 8.83112508421289e-05, + "loss": 0.1899, + "step": 1510 + }, + { + "grad_norm": 0.2496276329280306, + "loss": 0.18588420748710632, + "step": 1510 + }, + { + "grad_norm": 0.2951543194060597, + "loss": 0.18336591124534607, + "step": 1511 + }, + { + "grad_norm": 0.12824154920633596, + "loss": 0.15623344480991364, + "step": 1512 + }, + { + "grad_norm": 0.2707587415092628, + "loss": 0.28461477160453796, + "step": 1513 + }, + { + "grad_norm": 0.20793271663045826, + "loss": 0.17886614799499512, + "step": 1514 + }, + { + "grad_norm": 0.2654271524178889, + "loss": 0.21926328539848328, + "step": 1515 + }, + { + "grad_norm": 0.14556020862087224, + "loss": 0.24608135223388672, + "step": 1516 + }, + { + "grad_norm": 0.20707318615266684, + "loss": 0.1787663698196411, + "step": 1517 + }, + { + "grad_norm": 0.455514535136102, + "loss": 0.24375134706497192, + "step": 1518 + }, + { + "grad_norm": 0.32614458706806404, + "loss": 0.16970884799957275, + "step": 1519 + }, + { + "epoch": 0.4864, + "grad_norm": 0.32614457607269287, + "learning_rate": 8.819896698854705e-05, + "loss": 0.2047, + "step": 1520 + }, + { + "grad_norm": 0.2720316572017175, + "loss": 0.23296049237251282, + "step": 1520 + }, + { + "grad_norm": 0.20050048587443453, + "loss": 0.18863457441329956, + "step": 1521 + }, + { + "grad_norm": 0.12258240753834007, + "loss": 0.24604038894176483, + "step": 1522 + }, + { + "grad_norm": 0.13252550214616085, + "loss": 0.20046290755271912, + "step": 1523 + }, + { + "grad_norm": 0.19199592836324697, + "loss": 0.1898770034313202, + "step": 1524 + }, + { + "grad_norm": 0.2570452466371154, + "loss": 0.17093747854232788, + "step": 1525 + }, + { + "grad_norm": 0.1448902737712196, + "loss": 0.1897280514240265, + "step": 1526 + }, + { + "grad_norm": 0.21061036202194958, + "loss": 0.14898274838924408, + "step": 1527 + }, + { + "grad_norm": 0.2103838507539526, + "loss": 0.20232555270195007, + "step": 1528 + }, + { + "grad_norm": 0.26729866531778496, + "loss": 0.1476299911737442, + "step": 1529 + }, + { + "epoch": 0.4896, + "grad_norm": 0.2672986686229706, + "learning_rate": 8.808668313496519e-05, + "loss": 0.1918, + "step": 1530 + }, + { + "grad_norm": 0.2189652470159954, + "loss": 0.19802501797676086, + "step": 1530 + }, + { + "grad_norm": 0.42007632119983507, + "loss": 0.21210375428199768, + "step": 1531 + }, + { + "grad_norm": 0.26405666699845126, + "loss": 0.20291778445243835, + "step": 1532 + }, + { + "grad_norm": 0.42480422725664274, + "loss": 0.2565368711948395, + "step": 1533 + }, + { + "grad_norm": 0.2631733730664756, + "loss": 0.19028860330581665, + "step": 1534 + }, + { + "grad_norm": 0.19412408172993437, + "loss": 0.20742416381835938, + "step": 1535 + }, + { + "grad_norm": 0.19355699049831163, + "loss": 0.18187715113162994, + "step": 1536 + }, + { + "grad_norm": 0.2622256409325529, + "loss": 0.238579660654068, + "step": 1537 + }, + { + "grad_norm": 0.3075231242949744, + "loss": 0.19763273000717163, + "step": 1538 + }, + { + "grad_norm": 0.17536531509368808, + "loss": 0.20684055984020233, + "step": 1539 + }, + { + "epoch": 0.4928, + "grad_norm": 0.17536531388759613, + "learning_rate": 8.797439928138334e-05, + "loss": 0.2092, + "step": 1540 + }, + { + "grad_norm": 0.23728340458656105, + "loss": 0.19399622082710266, + "step": 1540 + }, + { + "grad_norm": 0.22369693129845986, + "loss": 0.22108739614486694, + "step": 1541 + }, + { + "grad_norm": 0.3034736346920651, + "loss": 0.22376862168312073, + "step": 1542 + }, + { + "grad_norm": 0.11323093849339981, + "loss": 0.19470788538455963, + "step": 1543 + }, + { + "grad_norm": 0.12652751465686524, + "loss": 0.2035755217075348, + "step": 1544 + }, + { + "grad_norm": 0.3034195058580138, + "loss": 0.21009144186973572, + "step": 1545 + }, + { + "grad_norm": 0.1746836695087989, + "loss": 0.2954166531562805, + "step": 1546 + }, + { + "grad_norm": 0.16097681244975195, + "loss": 0.24054713547229767, + "step": 1547 + }, + { + "grad_norm": 0.24859248616763333, + "loss": 0.19861802458763123, + "step": 1548 + }, + { + "grad_norm": 0.20693922122253447, + "loss": 0.20664089918136597, + "step": 1549 + }, + { + "epoch": 0.496, + "grad_norm": 0.2069392204284668, + "learning_rate": 8.786211542780148e-05, + "loss": 0.2188, + "step": 1550 + }, + { + "grad_norm": 0.15250513850126002, + "loss": 0.1837879717350006, + "step": 1550 + }, + { + "grad_norm": 0.2963866808063092, + "loss": 0.178726464509964, + "step": 1551 + }, + { + "grad_norm": 0.33875225701482936, + "loss": 0.1809120923280716, + "step": 1552 + }, + { + "grad_norm": 0.15807660014427063, + "loss": 0.14738324284553528, + "step": 1553 + }, + { + "grad_norm": 0.1172471679251936, + "loss": 0.22028250992298126, + "step": 1554 + }, + { + "grad_norm": 0.3146961512477068, + "loss": 0.23183219134807587, + "step": 1555 + }, + { + "grad_norm": 0.27137804311069386, + "loss": 0.18380951881408691, + "step": 1556 + }, + { + "grad_norm": 0.11628065156669666, + "loss": 0.15176521241664886, + "step": 1557 + }, + { + "grad_norm": 0.32363754261185884, + "loss": 0.22704792022705078, + "step": 1558 + }, + { + "grad_norm": 0.12836001263039784, + "loss": 0.1717996746301651, + "step": 1559 + }, + { + "epoch": 0.4992, + "grad_norm": 0.12836001813411713, + "learning_rate": 8.774983157421963e-05, + "loss": 0.1877, + "step": 1560 + }, + { + "grad_norm": 0.17549386416590385, + "loss": 0.14573080837726593, + "step": 1560 + }, + { + "grad_norm": 0.14289347786009737, + "loss": 0.16691160202026367, + "step": 1561 + }, + { + "grad_norm": 0.15474412600515094, + "loss": 0.16377222537994385, + "step": 1562 + }, + { + "grad_norm": 0.2307049427913873, + "loss": 0.237425297498703, + "step": 1563 + }, + { + "grad_norm": 0.12304095125991882, + "loss": 0.19714580476284027, + "step": 1564 + }, + { + "grad_norm": 0.19785401223023366, + "loss": 0.18012750148773193, + "step": 1565 + }, + { + "grad_norm": 0.27389790862921065, + "loss": 0.23467648029327393, + "step": 1566 + }, + { + "grad_norm": 0.1356900984874437, + "loss": 0.1395430713891983, + "step": 1567 + }, + { + "grad_norm": 0.2380226180623522, + "loss": 0.21417614817619324, + "step": 1568 + }, + { + "grad_norm": 0.16351207206744442, + "loss": 0.17090186476707458, + "step": 1569 + }, + { + "epoch": 0.5024, + "grad_norm": 0.16351206600666046, + "learning_rate": 8.763754772063778e-05, + "loss": 0.185, + "step": 1570 + }, + { + "grad_norm": 0.28495379582400576, + "loss": 0.18442478775978088, + "step": 1570 + }, + { + "grad_norm": 0.203428706032467, + "loss": 0.19208136200904846, + "step": 1571 + }, + { + "grad_norm": 0.14674791765777068, + "loss": 0.17152951657772064, + "step": 1572 + }, + { + "grad_norm": 0.3449194723204057, + "loss": 0.19118033349514008, + "step": 1573 + }, + { + "grad_norm": 0.18074139184287574, + "loss": 0.2111126184463501, + "step": 1574 + }, + { + "grad_norm": 0.19883263492011366, + "loss": 0.23144268989562988, + "step": 1575 + }, + { + "grad_norm": 0.1911354253881041, + "loss": 0.2049071341753006, + "step": 1576 + }, + { + "grad_norm": 0.13170375233201626, + "loss": 0.18033599853515625, + "step": 1577 + }, + { + "grad_norm": 0.21735812475561073, + "loss": 0.15980207920074463, + "step": 1578 + }, + { + "grad_norm": 0.12821668345962867, + "loss": 0.16974222660064697, + "step": 1579 + }, + { + "epoch": 0.5056, + "grad_norm": 0.1282166838645935, + "learning_rate": 8.752526386705592e-05, + "loss": 0.1897, + "step": 1580 + }, + { + "grad_norm": 0.19990392882527883, + "loss": 0.21295182406902313, + "step": 1580 + }, + { + "grad_norm": 0.1375416695040495, + "loss": 0.18420957028865814, + "step": 1581 + }, + { + "grad_norm": 0.11211663628805535, + "loss": 0.16859708726406097, + "step": 1582 + }, + { + "grad_norm": 0.38679627045907844, + "loss": 0.1987018883228302, + "step": 1583 + }, + { + "grad_norm": 0.23398059393624693, + "loss": 0.2471240758895874, + "step": 1584 + }, + { + "grad_norm": 0.15030410729601307, + "loss": 0.19217988848686218, + "step": 1585 + }, + { + "grad_norm": 0.13794535295297533, + "loss": 0.152713343501091, + "step": 1586 + }, + { + "grad_norm": 0.20398320952416568, + "loss": 0.2314068228006363, + "step": 1587 + }, + { + "grad_norm": 0.2934073385389365, + "loss": 0.17073547840118408, + "step": 1588 + }, + { + "grad_norm": 0.14068758953602756, + "loss": 0.1968151032924652, + "step": 1589 + }, + { + "epoch": 0.5088, + "grad_norm": 0.14068758487701416, + "learning_rate": 8.741298001347407e-05, + "loss": 0.1955, + "step": 1590 + }, + { + "grad_norm": 0.15240978700497154, + "loss": 0.2166956663131714, + "step": 1590 + }, + { + "grad_norm": 0.40258210059119626, + "loss": 0.23618973791599274, + "step": 1591 + }, + { + "grad_norm": 0.2801740440410125, + "loss": 0.23183433711528778, + "step": 1592 + }, + { + "grad_norm": 0.15750242557083463, + "loss": 0.2287745475769043, + "step": 1593 + }, + { + "grad_norm": 0.14180020261197607, + "loss": 0.20037424564361572, + "step": 1594 + }, + { + "grad_norm": 0.20042025792292448, + "loss": 0.23440615832805634, + "step": 1595 + }, + { + "grad_norm": 0.16146019971961525, + "loss": 0.21260198950767517, + "step": 1596 + }, + { + "grad_norm": 0.1812646783534359, + "loss": 0.19681337475776672, + "step": 1597 + }, + { + "grad_norm": 0.21666011211016004, + "loss": 0.1638006865978241, + "step": 1598 + }, + { + "grad_norm": 0.312120467056794, + "loss": 0.26571717858314514, + "step": 1599 + }, + { + "epoch": 0.512, + "grad_norm": 0.3121204674243927, + "learning_rate": 8.730069615989222e-05, + "loss": 0.2187, + "step": 1600 + }, + { + "grad_norm": 0.26546636080934916, + "loss": 0.20078988373279572, + "step": 1600 + }, + { + "grad_norm": 0.37127454265699, + "loss": 0.17385521531105042, + "step": 1601 + }, + { + "grad_norm": 0.18526034601848781, + "loss": 0.2108578383922577, + "step": 1602 + }, + { + "grad_norm": 0.18211896213558798, + "loss": 0.2125639021396637, + "step": 1603 + }, + { + "grad_norm": 0.19290774999922627, + "loss": 0.15971997380256653, + "step": 1604 + }, + { + "grad_norm": 0.15536229002836166, + "loss": 0.1667071133852005, + "step": 1605 + }, + { + "grad_norm": 0.13680790305896046, + "loss": 0.2104240357875824, + "step": 1606 + }, + { + "grad_norm": 0.15909458272719756, + "loss": 0.18882282078266144, + "step": 1607 + }, + { + "grad_norm": 0.2128754455633284, + "loss": 0.183546245098114, + "step": 1608 + }, + { + "grad_norm": 0.18099539149625907, + "loss": 0.1838466227054596, + "step": 1609 + }, + { + "epoch": 0.5152, + "grad_norm": 0.1809954047203064, + "learning_rate": 8.718841230631036e-05, + "loss": 0.1891, + "step": 1610 + }, + { + "grad_norm": 0.21077398263611705, + "loss": 0.17943082749843597, + "step": 1610 + }, + { + "grad_norm": 0.27044859233875035, + "loss": 0.16404779255390167, + "step": 1611 + }, + { + "grad_norm": 0.3399778525885843, + "loss": 0.2021811604499817, + "step": 1612 + }, + { + "grad_norm": 0.23709722293071278, + "loss": 0.23408837616443634, + "step": 1613 + }, + { + "grad_norm": 0.10021870910429606, + "loss": 0.18932697176933289, + "step": 1614 + }, + { + "grad_norm": 0.2863285318534329, + "loss": 0.21275706589221954, + "step": 1615 + }, + { + "grad_norm": 0.1289605619973735, + "loss": 0.2716374099254608, + "step": 1616 + }, + { + "grad_norm": 0.2715608348432045, + "loss": 0.16681063175201416, + "step": 1617 + }, + { + "grad_norm": 0.1578778954639324, + "loss": 0.20558243989944458, + "step": 1618 + }, + { + "grad_norm": 0.15994557069397364, + "loss": 0.23776696622371674, + "step": 1619 + }, + { + "epoch": 0.5184, + "grad_norm": 0.15994557738304138, + "learning_rate": 8.70761284527285e-05, + "loss": 0.2064, + "step": 1620 + }, + { + "grad_norm": 0.49122652817461826, + "loss": 0.23851947486400604, + "step": 1620 + }, + { + "grad_norm": 0.5155259280513165, + "loss": 0.22095130383968353, + "step": 1621 + }, + { + "grad_norm": 0.2626654892994616, + "loss": 0.19040174782276154, + "step": 1622 + }, + { + "grad_norm": 0.40527162248085274, + "loss": 0.24607181549072266, + "step": 1623 + }, + { + "grad_norm": 0.22347442597977724, + "loss": 0.22016853094100952, + "step": 1624 + }, + { + "grad_norm": 0.15710279803624153, + "loss": 0.2018282562494278, + "step": 1625 + }, + { + "grad_norm": 0.3535122766029477, + "loss": 0.23730266094207764, + "step": 1626 + }, + { + "grad_norm": 0.263942110984886, + "loss": 0.1676890254020691, + "step": 1627 + }, + { + "grad_norm": 0.4318078193130133, + "loss": 0.2499936819076538, + "step": 1628 + }, + { + "grad_norm": 0.1973052968457925, + "loss": 0.18312743306159973, + "step": 1629 + }, + { + "epoch": 0.5216, + "grad_norm": 0.19730529189109802, + "learning_rate": 8.696384459914664e-05, + "loss": 0.2156, + "step": 1630 + }, + { + "grad_norm": 0.19427234300822158, + "loss": 0.21500878036022186, + "step": 1630 + }, + { + "grad_norm": 0.45170782101616896, + "loss": 0.2822719216346741, + "step": 1631 + }, + { + "grad_norm": 0.27238075634974124, + "loss": 0.24937354028224945, + "step": 1632 + }, + { + "grad_norm": 0.36385347765576986, + "loss": 0.21998652815818787, + "step": 1633 + }, + { + "grad_norm": 0.20548141620311228, + "loss": 0.18526571989059448, + "step": 1634 + }, + { + "grad_norm": 0.4137902293934074, + "loss": 0.21160945296287537, + "step": 1635 + }, + { + "grad_norm": 0.2556511841368546, + "loss": 0.22081904113292694, + "step": 1636 + }, + { + "grad_norm": 0.5668095966657868, + "loss": 0.1789630651473999, + "step": 1637 + }, + { + "grad_norm": 0.4497491505582023, + "loss": 0.24211569130420685, + "step": 1638 + }, + { + "grad_norm": 0.3479260972469481, + "loss": 0.19078029692173004, + "step": 1639 + }, + { + "epoch": 0.5248, + "grad_norm": 0.3479261100292206, + "learning_rate": 8.68515607455648e-05, + "loss": 0.2196, + "step": 1640 + }, + { + "grad_norm": 0.46345786941524636, + "loss": 0.19569389522075653, + "step": 1640 + }, + { + "grad_norm": 0.20381221801318344, + "loss": 0.23698118329048157, + "step": 1641 + }, + { + "grad_norm": 0.32423707753799813, + "loss": 0.2446531504392624, + "step": 1642 + }, + { + "grad_norm": 0.13128189929529194, + "loss": 0.1676757037639618, + "step": 1643 + }, + { + "grad_norm": 0.22825618992211083, + "loss": 0.1895393431186676, + "step": 1644 + }, + { + "grad_norm": 0.11725497956763496, + "loss": 0.14841115474700928, + "step": 1645 + }, + { + "grad_norm": 0.2695303039294607, + "loss": 0.20071566104888916, + "step": 1646 + }, + { + "grad_norm": 0.15511535704318086, + "loss": 0.1771494597196579, + "step": 1647 + }, + { + "grad_norm": 0.11274924837603535, + "loss": 0.18077972531318665, + "step": 1648 + }, + { + "grad_norm": 0.1410961847974827, + "loss": 0.2032839059829712, + "step": 1649 + }, + { + "epoch": 0.528, + "grad_norm": 0.14109618961811066, + "learning_rate": 8.673927689198293e-05, + "loss": 0.1945, + "step": 1650 + }, + { + "grad_norm": 0.2745261029068033, + "loss": 0.16854330897331238, + "step": 1650 + }, + { + "grad_norm": 0.23410093802823492, + "loss": 0.2109047770500183, + "step": 1651 + }, + { + "grad_norm": 0.16748672122676894, + "loss": 0.18549856543540955, + "step": 1652 + }, + { + "grad_norm": 0.13517068546267202, + "loss": 0.18297690153121948, + "step": 1653 + }, + { + "grad_norm": 0.15506592299811686, + "loss": 0.1703801155090332, + "step": 1654 + }, + { + "grad_norm": 0.12576594347800238, + "loss": 0.22226251661777496, + "step": 1655 + }, + { + "grad_norm": 0.1305206121741281, + "loss": 0.17301473021507263, + "step": 1656 + }, + { + "grad_norm": 0.2064169005856432, + "loss": 0.1926172375679016, + "step": 1657 + }, + { + "grad_norm": 0.1989258406641597, + "loss": 0.18813319504261017, + "step": 1658 + }, + { + "grad_norm": 0.24992234435433175, + "loss": 0.1706847846508026, + "step": 1659 + }, + { + "epoch": 0.5312, + "grad_norm": 0.24992233514785767, + "learning_rate": 8.662699303840108e-05, + "loss": 0.1865, + "step": 1660 + }, + { + "grad_norm": 0.39742734465159407, + "loss": 0.17386206984519958, + "step": 1660 + }, + { + "grad_norm": 0.2346371221265223, + "loss": 0.18618178367614746, + "step": 1661 + }, + { + "grad_norm": 0.28437217926192493, + "loss": 0.17894935607910156, + "step": 1662 + }, + { + "grad_norm": 0.5162868930416188, + "loss": 0.29333803057670593, + "step": 1663 + }, + { + "grad_norm": 0.22264908273829037, + "loss": 0.1811511516571045, + "step": 1664 + }, + { + "grad_norm": 0.124436534623869, + "loss": 0.15889638662338257, + "step": 1665 + }, + { + "grad_norm": 0.202774106220674, + "loss": 0.24655625224113464, + "step": 1666 + }, + { + "grad_norm": 0.15898763890157783, + "loss": 0.19241607189178467, + "step": 1667 + }, + { + "grad_norm": 0.21004132110566504, + "loss": 0.19294477999210358, + "step": 1668 + }, + { + "grad_norm": 0.16332762737868112, + "loss": 0.1711413860321045, + "step": 1669 + }, + { + "epoch": 0.5344, + "grad_norm": 0.1633276343345642, + "learning_rate": 8.651470918481923e-05, + "loss": 0.1975, + "step": 1670 + }, + { + "grad_norm": 0.1468907076853275, + "loss": 0.17034631967544556, + "step": 1670 + }, + { + "grad_norm": 0.2110500862951718, + "loss": 0.2235872745513916, + "step": 1671 + }, + { + "grad_norm": 0.1270501705100962, + "loss": 0.1793578565120697, + "step": 1672 + }, + { + "grad_norm": 0.1958453324561759, + "loss": 0.2238445281982422, + "step": 1673 + }, + { + "grad_norm": 0.11623106871103206, + "loss": 0.18116168677806854, + "step": 1674 + }, + { + "grad_norm": 0.1262808400063074, + "loss": 0.18141166865825653, + "step": 1675 + }, + { + "grad_norm": 0.18623652886227263, + "loss": 0.18230028450489044, + "step": 1676 + }, + { + "grad_norm": 0.18354022413481327, + "loss": 0.23190341889858246, + "step": 1677 + }, + { + "grad_norm": 0.14533409864940583, + "loss": 0.1611611247062683, + "step": 1678 + }, + { + "grad_norm": 0.128612155249041, + "loss": 0.21151572465896606, + "step": 1679 + }, + { + "epoch": 0.5376, + "grad_norm": 0.12861216068267822, + "learning_rate": 8.640242533123737e-05, + "loss": 0.1947, + "step": 1680 + }, + { + "grad_norm": 0.13556352508261432, + "loss": 0.22022384405136108, + "step": 1680 + }, + { + "grad_norm": 0.2749189771831234, + "loss": 0.17733053863048553, + "step": 1681 + }, + { + "grad_norm": 0.23455671568936218, + "loss": 0.1743158996105194, + "step": 1682 + }, + { + "grad_norm": 0.1260969735767002, + "loss": 0.1690223217010498, + "step": 1683 + }, + { + "grad_norm": 0.1836921326990405, + "loss": 0.13247272372245789, + "step": 1684 + }, + { + "grad_norm": 0.2794722636664369, + "loss": 0.21848224103450775, + "step": 1685 + }, + { + "grad_norm": 0.2278426173214257, + "loss": 0.19317440688610077, + "step": 1686 + }, + { + "grad_norm": 0.20708764470091, + "loss": 0.18703588843345642, + "step": 1687 + }, + { + "grad_norm": 0.3380146010126082, + "loss": 0.1685236692428589, + "step": 1688 + }, + { + "grad_norm": 0.22408679824117456, + "loss": 0.1946675032377243, + "step": 1689 + }, + { + "epoch": 0.5408, + "grad_norm": 0.22408680617809296, + "learning_rate": 8.629014147765552e-05, + "loss": 0.1835, + "step": 1690 + }, + { + "grad_norm": 0.14407812620458682, + "loss": 0.19701449573040009, + "step": 1690 + }, + { + "grad_norm": 0.23201138220353193, + "loss": 0.15233036875724792, + "step": 1691 + }, + { + "grad_norm": 0.2138544411226118, + "loss": 0.2278563231229782, + "step": 1692 + }, + { + "grad_norm": 0.1269743356740814, + "loss": 0.1922791451215744, + "step": 1693 + }, + { + "grad_norm": 0.1262287535885198, + "loss": 0.16886663436889648, + "step": 1694 + }, + { + "grad_norm": 0.1917080812199076, + "loss": 0.1808830350637436, + "step": 1695 + }, + { + "grad_norm": 0.1865178037103091, + "loss": 0.29852917790412903, + "step": 1696 + }, + { + "grad_norm": 0.1398166340638551, + "loss": 0.1912505179643631, + "step": 1697 + }, + { + "grad_norm": 0.0848595498510493, + "loss": 0.16831883788108826, + "step": 1698 + }, + { + "grad_norm": 0.299084904267393, + "loss": 0.19890239834785461, + "step": 1699 + }, + { + "epoch": 0.544, + "grad_norm": 0.2990849018096924, + "learning_rate": 8.617785762407367e-05, + "loss": 0.1976, + "step": 1700 + }, + { + "grad_norm": 0.15785705660841384, + "loss": 0.18725064396858215, + "step": 1700 + }, + { + "grad_norm": 0.19537449106592472, + "loss": 0.22482991218566895, + "step": 1701 + }, + { + "grad_norm": 0.19754985097822111, + "loss": 0.21694597601890564, + "step": 1702 + }, + { + "grad_norm": 0.14655022498148565, + "loss": 0.21147148311138153, + "step": 1703 + }, + { + "grad_norm": 0.35507697715168673, + "loss": 0.15455110371112823, + "step": 1704 + }, + { + "grad_norm": 0.18488565086199824, + "loss": 0.1530788242816925, + "step": 1705 + }, + { + "grad_norm": 0.14862147309525547, + "loss": 0.1867016851902008, + "step": 1706 + }, + { + "grad_norm": 0.23620013835949438, + "loss": 0.19092625379562378, + "step": 1707 + }, + { + "grad_norm": 0.26559717142858746, + "loss": 0.19093912839889526, + "step": 1708 + }, + { + "grad_norm": 0.22186445972248747, + "loss": 0.16676507890224457, + "step": 1709 + }, + { + "epoch": 0.5472, + "grad_norm": 0.2218644618988037, + "learning_rate": 8.606557377049181e-05, + "loss": 0.1883, + "step": 1710 + }, + { + "grad_norm": 0.12861412261273056, + "loss": 0.16172584891319275, + "step": 1710 + }, + { + "grad_norm": 0.2455949044971628, + "loss": 0.20195457339286804, + "step": 1711 + }, + { + "grad_norm": 0.27695278585631083, + "loss": 0.18573342263698578, + "step": 1712 + }, + { + "grad_norm": 0.25641208038512164, + "loss": 0.1890680193901062, + "step": 1713 + }, + { + "grad_norm": 0.14091346771404342, + "loss": 0.17397132515907288, + "step": 1714 + }, + { + "grad_norm": 0.19885979101162377, + "loss": 0.23515906929969788, + "step": 1715 + }, + { + "grad_norm": 0.2008313911207831, + "loss": 0.188056081533432, + "step": 1716 + }, + { + "grad_norm": 0.2566268457934213, + "loss": 0.1901218295097351, + "step": 1717 + }, + { + "grad_norm": 0.115748118858977, + "loss": 0.17118366062641144, + "step": 1718 + }, + { + "grad_norm": 0.26112665095903603, + "loss": 0.2519630193710327, + "step": 1719 + }, + { + "epoch": 0.5504, + "grad_norm": 0.26112663745880127, + "learning_rate": 8.595328991690995e-05, + "loss": 0.1949, + "step": 1720 + }, + { + "grad_norm": 0.27247597585740524, + "loss": 0.24362297356128693, + "step": 1720 + }, + { + "grad_norm": 0.17588161243598782, + "loss": 0.21215468645095825, + "step": 1721 + }, + { + "grad_norm": 0.17818315627491285, + "loss": 0.1848008930683136, + "step": 1722 + }, + { + "grad_norm": 0.37467929801418837, + "loss": 0.17798498272895813, + "step": 1723 + }, + { + "grad_norm": 0.11135706664148892, + "loss": 0.174269899725914, + "step": 1724 + }, + { + "grad_norm": 0.18328171309780814, + "loss": 0.17617852985858917, + "step": 1725 + }, + { + "grad_norm": 0.11735569881629827, + "loss": 0.1352417767047882, + "step": 1726 + }, + { + "grad_norm": 0.15754058805447813, + "loss": 0.15255090594291687, + "step": 1727 + }, + { + "grad_norm": 0.13626937075055018, + "loss": 0.170379638671875, + "step": 1728 + }, + { + "grad_norm": 0.3367884679967896, + "loss": 0.22714070975780487, + "step": 1729 + }, + { + "epoch": 0.5536, + "grad_norm": 0.33678847551345825, + "learning_rate": 8.58410060633281e-05, + "loss": 0.1854, + "step": 1730 + }, + { + "grad_norm": 0.24370252503243928, + "loss": 0.17088057100772858, + "step": 1730 + }, + { + "grad_norm": 0.18360442386014497, + "loss": 0.21351853013038635, + "step": 1731 + }, + { + "grad_norm": 0.17350828113903857, + "loss": 0.17561715841293335, + "step": 1732 + }, + { + "grad_norm": 0.15547065974841698, + "loss": 0.21028651297092438, + "step": 1733 + }, + { + "grad_norm": 0.10755451647602514, + "loss": 0.18585892021656036, + "step": 1734 + }, + { + "grad_norm": 0.11571482820753076, + "loss": 0.18570449948310852, + "step": 1735 + }, + { + "grad_norm": 0.19215698465523257, + "loss": 0.2428404986858368, + "step": 1736 + }, + { + "grad_norm": 0.2105676410301785, + "loss": 0.21120426058769226, + "step": 1737 + }, + { + "grad_norm": 0.16210678422521005, + "loss": 0.20884573459625244, + "step": 1738 + }, + { + "grad_norm": 0.1794002531024852, + "loss": 0.1802872121334076, + "step": 1739 + }, + { + "epoch": 0.5568, + "grad_norm": 0.1794002503156662, + "learning_rate": 8.572872220974623e-05, + "loss": 0.1985, + "step": 1740 + }, + { + "grad_norm": 0.32100797235243295, + "loss": 0.2464832216501236, + "step": 1740 + }, + { + "grad_norm": 0.12528915196576274, + "loss": 0.1716284453868866, + "step": 1741 + }, + { + "grad_norm": 0.29402041499290943, + "loss": 0.17581698298454285, + "step": 1742 + }, + { + "grad_norm": 0.4532360905470526, + "loss": 0.18682286143302917, + "step": 1743 + }, + { + "grad_norm": 0.1893829385797966, + "loss": 0.18813341856002808, + "step": 1744 + }, + { + "grad_norm": 0.3999193731184675, + "loss": 0.18609391152858734, + "step": 1745 + }, + { + "grad_norm": 0.21150558825633692, + "loss": 0.28728601336479187, + "step": 1746 + }, + { + "grad_norm": 0.4616631793176792, + "loss": 0.31002429127693176, + "step": 1747 + }, + { + "grad_norm": 0.29553476071868756, + "loss": 0.1976025104522705, + "step": 1748 + }, + { + "grad_norm": 0.4900450663377169, + "loss": 0.24181556701660156, + "step": 1749 + }, + { + "epoch": 0.56, + "grad_norm": 0.49004507064819336, + "learning_rate": 8.561643835616438e-05, + "loss": 0.2192, + "step": 1750 + }, + { + "grad_norm": 0.21815859352093725, + "loss": 0.19550763070583344, + "step": 1750 + }, + { + "grad_norm": 0.24460841051433974, + "loss": 0.2001384198665619, + "step": 1751 + }, + { + "grad_norm": 0.519928920703845, + "loss": 0.17150279879570007, + "step": 1752 + }, + { + "grad_norm": 0.3061151879820864, + "loss": 0.20291322469711304, + "step": 1753 + }, + { + "grad_norm": 0.42922988393087047, + "loss": 0.18065901100635529, + "step": 1754 + }, + { + "grad_norm": 0.18217919926600792, + "loss": 0.22670823335647583, + "step": 1755 + }, + { + "grad_norm": 0.5159375004821435, + "loss": 0.2565833628177643, + "step": 1756 + }, + { + "grad_norm": 0.290750790404893, + "loss": 0.2503660023212433, + "step": 1757 + }, + { + "grad_norm": 0.15304037191469938, + "loss": 0.2257433533668518, + "step": 1758 + }, + { + "grad_norm": 0.16954212361545118, + "loss": 0.20003247261047363, + "step": 1759 + }, + { + "epoch": 0.5632, + "grad_norm": 0.1695421189069748, + "learning_rate": 8.550415450258253e-05, + "loss": 0.211, + "step": 1760 + }, + { + "grad_norm": 0.1562846172884408, + "loss": 0.183083638548851, + "step": 1760 + }, + { + "grad_norm": 0.2056327044445846, + "loss": 0.16013959050178528, + "step": 1761 + }, + { + "grad_norm": 0.27427652152358034, + "loss": 0.1717659831047058, + "step": 1762 + }, + { + "grad_norm": 0.11928788776368968, + "loss": 0.22863608598709106, + "step": 1763 + }, + { + "grad_norm": 0.2463126441339945, + "loss": 0.1678730845451355, + "step": 1764 + }, + { + "grad_norm": 0.15927172662809536, + "loss": 0.16111187636852264, + "step": 1765 + }, + { + "grad_norm": 0.29450995454117357, + "loss": 0.16012245416641235, + "step": 1766 + }, + { + "grad_norm": 0.18888928360457163, + "loss": 0.17165067791938782, + "step": 1767 + }, + { + "grad_norm": 0.3224918247967545, + "loss": 0.18649837374687195, + "step": 1768 + }, + { + "grad_norm": 0.13455153566898506, + "loss": 0.21523059904575348, + "step": 1769 + }, + { + "epoch": 0.5664, + "grad_norm": 0.134551540017128, + "learning_rate": 8.539187064900069e-05, + "loss": 0.1806, + "step": 1770 + }, + { + "grad_norm": 0.10829978975576424, + "loss": 0.17818155884742737, + "step": 1770 + }, + { + "grad_norm": 0.22589516398707926, + "loss": 0.1652306169271469, + "step": 1771 + }, + { + "grad_norm": 0.1836667634387822, + "loss": 0.150312140583992, + "step": 1772 + }, + { + "grad_norm": 0.3167047526629152, + "loss": 0.20538724958896637, + "step": 1773 + }, + { + "grad_norm": 0.3745731838061011, + "loss": 0.2472493052482605, + "step": 1774 + }, + { + "grad_norm": 0.3827411303962407, + "loss": 0.2317257970571518, + "step": 1775 + }, + { + "grad_norm": 0.14647869527189206, + "loss": 0.20060114562511444, + "step": 1776 + }, + { + "grad_norm": 0.41183899253126605, + "loss": 0.23167359828948975, + "step": 1777 + }, + { + "grad_norm": 0.18508028044698796, + "loss": 0.1740179806947708, + "step": 1778 + }, + { + "grad_norm": 0.14868737459091186, + "loss": 0.29756829142570496, + "step": 1779 + }, + { + "epoch": 0.5696, + "grad_norm": 0.14868737757205963, + "learning_rate": 8.527958679541882e-05, + "loss": 0.2082, + "step": 1780 + }, + { + "grad_norm": 0.5912428897212928, + "loss": 0.18590675294399261, + "step": 1780 + }, + { + "grad_norm": 0.6792436997773884, + "loss": 0.173908993601799, + "step": 1781 + }, + { + "grad_norm": 0.2674274883339419, + "loss": 0.21385666728019714, + "step": 1782 + }, + { + "grad_norm": 0.25658213266604885, + "loss": 0.17488451302051544, + "step": 1783 + }, + { + "grad_norm": 0.30962321395156733, + "loss": 0.18484719097614288, + "step": 1784 + }, + { + "grad_norm": 0.15320042897359262, + "loss": 0.17796027660369873, + "step": 1785 + }, + { + "grad_norm": 0.3273249224460408, + "loss": 0.2711126506328583, + "step": 1786 + }, + { + "grad_norm": 0.2036021689859896, + "loss": 0.18830907344818115, + "step": 1787 + }, + { + "grad_norm": 0.2816842802531508, + "loss": 0.24002738296985626, + "step": 1788 + }, + { + "grad_norm": 0.33741534484421354, + "loss": 0.17543435096740723, + "step": 1789 + }, + { + "epoch": 0.5728, + "grad_norm": 0.33741533756256104, + "learning_rate": 8.516730294183697e-05, + "loss": 0.1986, + "step": 1790 + }, + { + "grad_norm": 0.16899693786878747, + "loss": 0.1763477772474289, + "step": 1790 + }, + { + "grad_norm": 0.46022783425808655, + "loss": 0.2443421483039856, + "step": 1791 + }, + { + "grad_norm": 0.151122537355488, + "loss": 0.20696255564689636, + "step": 1792 + }, + { + "grad_norm": 0.24469965706497002, + "loss": 0.24330037832260132, + "step": 1793 + }, + { + "grad_norm": 0.24017931813731722, + "loss": 0.1832103431224823, + "step": 1794 + }, + { + "grad_norm": 0.2858356083126966, + "loss": 0.17823614180088043, + "step": 1795 + }, + { + "grad_norm": 0.23179983752172412, + "loss": 0.20121784508228302, + "step": 1796 + }, + { + "grad_norm": 0.41148862180354784, + "loss": 0.1943286508321762, + "step": 1797 + }, + { + "grad_norm": 0.4328487426554363, + "loss": 0.1959463208913803, + "step": 1798 + }, + { + "grad_norm": 0.1819734943458276, + "loss": 0.19203050434589386, + "step": 1799 + }, + { + "epoch": 0.576, + "grad_norm": 0.18197348713874817, + "learning_rate": 8.505501908825511e-05, + "loss": 0.2016, + "step": 1800 + }, + { + "grad_norm": 0.31019008831495576, + "loss": 0.15436367690563202, + "step": 1800 + }, + { + "grad_norm": 0.21603384802396539, + "loss": 0.15670828521251678, + "step": 1801 + }, + { + "grad_norm": 0.3054423937870456, + "loss": 0.21018248796463013, + "step": 1802 + }, + { + "grad_norm": 0.5203766981140845, + "loss": 0.21317672729492188, + "step": 1803 + }, + { + "grad_norm": 0.1544376075399005, + "loss": 0.16287662088871002, + "step": 1804 + }, + { + "grad_norm": 0.12837089460601142, + "loss": 0.1762816309928894, + "step": 1805 + }, + { + "grad_norm": 0.11805485931259854, + "loss": 0.167014479637146, + "step": 1806 + }, + { + "grad_norm": 0.10795784604339259, + "loss": 0.19169896841049194, + "step": 1807 + }, + { + "grad_norm": 0.38312087891126895, + "loss": 0.2694980204105377, + "step": 1808 + }, + { + "grad_norm": 0.20263691393435143, + "loss": 0.23522722721099854, + "step": 1809 + }, + { + "epoch": 0.5792, + "grad_norm": 0.2026369273662567, + "learning_rate": 8.494273523467325e-05, + "loss": 0.1937, + "step": 1810 + }, + { + "grad_norm": 0.24632498063668967, + "loss": 0.19980478286743164, + "step": 1810 + }, + { + "grad_norm": 0.1728647596072623, + "loss": 0.1819823980331421, + "step": 1811 + }, + { + "grad_norm": 0.10635954854859052, + "loss": 0.1567695140838623, + "step": 1812 + }, + { + "grad_norm": 0.29318556838134585, + "loss": 0.18482893705368042, + "step": 1813 + }, + { + "grad_norm": 0.20312265421959128, + "loss": 0.21305137872695923, + "step": 1814 + }, + { + "grad_norm": 0.17235340236188126, + "loss": 0.21516695618629456, + "step": 1815 + }, + { + "grad_norm": 0.5324357945101456, + "loss": 0.2564863860607147, + "step": 1816 + }, + { + "grad_norm": 0.1754358677717438, + "loss": 0.16001862287521362, + "step": 1817 + }, + { + "grad_norm": 0.1406613008420593, + "loss": 0.2009308636188507, + "step": 1818 + }, + { + "grad_norm": 0.17229503601659155, + "loss": 0.2034585326910019, + "step": 1819 + }, + { + "epoch": 0.5824, + "grad_norm": 0.17229503393173218, + "learning_rate": 8.48304513810914e-05, + "loss": 0.1972, + "step": 1820 + }, + { + "grad_norm": 0.1539724122201636, + "loss": 0.20377932488918304, + "step": 1820 + }, + { + "grad_norm": 0.11142619230521107, + "loss": 0.21198037266731262, + "step": 1821 + }, + { + "grad_norm": 0.26609785828996013, + "loss": 0.23207557201385498, + "step": 1822 + }, + { + "grad_norm": 0.5052232387914648, + "loss": 0.3032008707523346, + "step": 1823 + }, + { + "grad_norm": 0.11207937032358029, + "loss": 0.16492895781993866, + "step": 1824 + }, + { + "grad_norm": 0.13823119153652288, + "loss": 0.24649755656719208, + "step": 1825 + }, + { + "grad_norm": 0.17733321102743424, + "loss": 0.2386101931333542, + "step": 1826 + }, + { + "grad_norm": 0.5179797715475036, + "loss": 0.17330464720726013, + "step": 1827 + }, + { + "grad_norm": 0.34676327428107395, + "loss": 0.19344300031661987, + "step": 1828 + }, + { + "grad_norm": 0.5893935777951376, + "loss": 0.19860610365867615, + "step": 1829 + }, + { + "epoch": 0.5856, + "grad_norm": 0.5893936157226562, + "learning_rate": 8.471816752750955e-05, + "loss": 0.2166, + "step": 1830 + }, + { + "grad_norm": 0.21367875939594677, + "loss": 0.23635560274124146, + "step": 1830 + }, + { + "grad_norm": 0.353323895684077, + "loss": 0.21257224678993225, + "step": 1831 + }, + { + "grad_norm": 0.23415171943271249, + "loss": 0.15342774987220764, + "step": 1832 + }, + { + "grad_norm": 0.17246253753341997, + "loss": 0.184858500957489, + "step": 1833 + }, + { + "grad_norm": 0.11522317652270635, + "loss": 0.1886061131954193, + "step": 1834 + }, + { + "grad_norm": 0.13545649783322258, + "loss": 0.18577641248703003, + "step": 1835 + }, + { + "grad_norm": 0.5070643026858768, + "loss": 0.18281948566436768, + "step": 1836 + }, + { + "grad_norm": 0.48371701905583875, + "loss": 0.2380012720823288, + "step": 1837 + }, + { + "grad_norm": 0.13977161584310277, + "loss": 0.20335334539413452, + "step": 1838 + }, + { + "grad_norm": 0.18323489504430357, + "loss": 0.20950105786323547, + "step": 1839 + }, + { + "epoch": 0.5888, + "grad_norm": 0.18323490023612976, + "learning_rate": 8.460588367392769e-05, + "loss": 0.1995, + "step": 1840 + }, + { + "grad_norm": 0.14034715067212472, + "loss": 0.1748853623867035, + "step": 1840 + }, + { + "grad_norm": 0.19950242782613642, + "loss": 0.15208473801612854, + "step": 1841 + }, + { + "grad_norm": 0.15769367929385542, + "loss": 0.19637836515903473, + "step": 1842 + }, + { + "grad_norm": 0.11115835155221909, + "loss": 0.15018649399280548, + "step": 1843 + }, + { + "grad_norm": 0.1377448969056957, + "loss": 0.1712849736213684, + "step": 1844 + }, + { + "grad_norm": 0.2523822184830573, + "loss": 0.22605952620506287, + "step": 1845 + }, + { + "grad_norm": 0.14819179138700136, + "loss": 0.22160646319389343, + "step": 1846 + }, + { + "grad_norm": 0.1873130803451787, + "loss": 0.17041853070259094, + "step": 1847 + }, + { + "grad_norm": 0.12378435297020554, + "loss": 0.17277657985687256, + "step": 1848 + }, + { + "grad_norm": 0.13337317350920969, + "loss": 0.22878049314022064, + "step": 1849 + }, + { + "epoch": 0.592, + "grad_norm": 0.1333731710910797, + "learning_rate": 8.449359982034584e-05, + "loss": 0.1864, + "step": 1850 + }, + { + "grad_norm": 0.09790238069843259, + "loss": 0.20383316278457642, + "step": 1850 + }, + { + "grad_norm": 0.2301118246207773, + "loss": 0.16131362318992615, + "step": 1851 + }, + { + "grad_norm": 0.1627721384708304, + "loss": 0.21616347134113312, + "step": 1852 + }, + { + "grad_norm": 0.27866804316858196, + "loss": 0.19093841314315796, + "step": 1853 + }, + { + "grad_norm": 0.09544861515850563, + "loss": 0.19087713956832886, + "step": 1854 + }, + { + "grad_norm": 0.09622480599091283, + "loss": 0.18624290823936462, + "step": 1855 + }, + { + "grad_norm": 0.0995581901266407, + "loss": 0.18033701181411743, + "step": 1856 + }, + { + "grad_norm": 0.29006653482862865, + "loss": 0.1931513547897339, + "step": 1857 + }, + { + "grad_norm": 0.14479334845218908, + "loss": 0.2018687129020691, + "step": 1858 + }, + { + "grad_norm": 0.1417042601385227, + "loss": 0.18431393802165985, + "step": 1859 + }, + { + "epoch": 0.5952, + "grad_norm": 0.141704261302948, + "learning_rate": 8.438131596676399e-05, + "loss": 0.1909, + "step": 1860 + }, + { + "grad_norm": 0.2917312994555373, + "loss": 0.16899637877941132, + "step": 1860 + }, + { + "grad_norm": 0.4187319274127362, + "loss": 0.24310874938964844, + "step": 1861 + }, + { + "grad_norm": 0.13273708766218198, + "loss": 0.17808832228183746, + "step": 1862 + }, + { + "grad_norm": 0.15222127054459578, + "loss": 0.1672646701335907, + "step": 1863 + }, + { + "grad_norm": 0.11236107062552365, + "loss": 0.1842842698097229, + "step": 1864 + }, + { + "grad_norm": 0.12643674263335014, + "loss": 0.23592263460159302, + "step": 1865 + }, + { + "grad_norm": 0.4173999552211929, + "loss": 0.20294910669326782, + "step": 1866 + }, + { + "grad_norm": 0.12834241901126675, + "loss": 0.22949793934822083, + "step": 1867 + }, + { + "grad_norm": 0.14071217361837682, + "loss": 0.2055431306362152, + "step": 1868 + }, + { + "grad_norm": 0.3868229295100408, + "loss": 0.1608695089817047, + "step": 1869 + }, + { + "epoch": 0.5984, + "grad_norm": 0.3868229389190674, + "learning_rate": 8.426903211318214e-05, + "loss": 0.1977, + "step": 1870 + }, + { + "grad_norm": 0.20155148883756516, + "loss": 0.22758743166923523, + "step": 1870 + }, + { + "grad_norm": 0.19294914429370627, + "loss": 0.18853798508644104, + "step": 1871 + }, + { + "grad_norm": 0.13558914688812737, + "loss": 0.16974516212940216, + "step": 1872 + }, + { + "grad_norm": 0.15607998641739282, + "loss": 0.20561528205871582, + "step": 1873 + }, + { + "grad_norm": 0.17017812098142177, + "loss": 0.23502223193645477, + "step": 1874 + }, + { + "grad_norm": 0.1769721531702649, + "loss": 0.21628302335739136, + "step": 1875 + }, + { + "grad_norm": 0.12703344924829618, + "loss": 0.21584069728851318, + "step": 1876 + }, + { + "grad_norm": 0.11090852482864329, + "loss": 0.1875985562801361, + "step": 1877 + }, + { + "grad_norm": 0.09434666930383122, + "loss": 0.14488288760185242, + "step": 1878 + }, + { + "grad_norm": 0.2665703710633932, + "loss": 0.18833574652671814, + "step": 1879 + }, + { + "epoch": 0.6016, + "grad_norm": 0.2665703594684601, + "learning_rate": 8.415674825960028e-05, + "loss": 0.1979, + "step": 1880 + }, + { + "grad_norm": 0.35359305668257707, + "loss": 0.2073986828327179, + "step": 1880 + }, + { + "grad_norm": 0.3202617027105425, + "loss": 0.20971961319446564, + "step": 1881 + }, + { + "grad_norm": 0.3960245487029627, + "loss": 0.2306823432445526, + "step": 1882 + }, + { + "grad_norm": 0.1251626525613586, + "loss": 0.1961778700351715, + "step": 1883 + }, + { + "grad_norm": 0.22044648004572331, + "loss": 0.19084414839744568, + "step": 1884 + }, + { + "grad_norm": 0.4906285602769315, + "loss": 0.17503514885902405, + "step": 1885 + }, + { + "grad_norm": 0.30289959291481433, + "loss": 0.2095125913619995, + "step": 1886 + }, + { + "grad_norm": 0.296527237078479, + "loss": 0.1958279013633728, + "step": 1887 + }, + { + "grad_norm": 0.27360890500311896, + "loss": 0.1895800083875656, + "step": 1888 + }, + { + "grad_norm": 0.23620041406264566, + "loss": 0.17076535522937775, + "step": 1889 + }, + { + "epoch": 0.6048, + "grad_norm": 0.23620040714740753, + "learning_rate": 8.404446440601843e-05, + "loss": 0.1976, + "step": 1890 + }, + { + "grad_norm": 0.2063120120544444, + "loss": 0.22791483998298645, + "step": 1890 + }, + { + "grad_norm": 0.19084575435149811, + "loss": 0.1834121197462082, + "step": 1891 + }, + { + "grad_norm": 0.37862087321696686, + "loss": 0.19373059272766113, + "step": 1892 + }, + { + "grad_norm": 0.22486437984843008, + "loss": 0.17733149230480194, + "step": 1893 + }, + { + "grad_norm": 0.1564900886876532, + "loss": 0.17437876760959625, + "step": 1894 + }, + { + "grad_norm": 0.3890159018925168, + "loss": 0.25723934173583984, + "step": 1895 + }, + { + "grad_norm": 0.22493253654605075, + "loss": 0.16136468946933746, + "step": 1896 + }, + { + "grad_norm": 0.3568864174056336, + "loss": 0.20029975473880768, + "step": 1897 + }, + { + "grad_norm": 0.3239658486580483, + "loss": 0.19052457809448242, + "step": 1898 + }, + { + "grad_norm": 0.2317592901777859, + "loss": 0.17677968740463257, + "step": 1899 + }, + { + "epoch": 0.608, + "grad_norm": 0.23175929486751556, + "learning_rate": 8.393218055243656e-05, + "loss": 0.1943, + "step": 1900 + }, + { + "grad_norm": 0.292522585368399, + "loss": 0.2033277153968811, + "step": 1900 + }, + { + "grad_norm": 0.28952839297927446, + "loss": 0.16465047001838684, + "step": 1901 + }, + { + "grad_norm": 0.13274503071703897, + "loss": 0.16905155777931213, + "step": 1902 + }, + { + "grad_norm": 0.08942393176594055, + "loss": 0.18626269698143005, + "step": 1903 + }, + { + "grad_norm": 0.20599474051170633, + "loss": 0.20134475827217102, + "step": 1904 + }, + { + "grad_norm": 0.30323819165148314, + "loss": 0.1715647429227829, + "step": 1905 + }, + { + "grad_norm": 0.09817965649871058, + "loss": 0.2029935121536255, + "step": 1906 + }, + { + "grad_norm": 0.4021814236142478, + "loss": 0.22085916996002197, + "step": 1907 + }, + { + "grad_norm": 0.11946178246892378, + "loss": 0.25103145837783813, + "step": 1908 + }, + { + "grad_norm": 0.17958830944264276, + "loss": 0.18051303923130035, + "step": 1909 + }, + { + "epoch": 0.6112, + "grad_norm": 0.17958831787109375, + "learning_rate": 8.38198966988547e-05, + "loss": 0.1952, + "step": 1910 + }, + { + "grad_norm": 0.25346543957924106, + "loss": 0.18316340446472168, + "step": 1910 + }, + { + "grad_norm": 0.18315497528327268, + "loss": 0.19820359349250793, + "step": 1911 + }, + { + "grad_norm": 0.21264992181812628, + "loss": 0.26132965087890625, + "step": 1912 + }, + { + "grad_norm": 0.26505941694599117, + "loss": 0.17933043837547302, + "step": 1913 + }, + { + "grad_norm": 0.11895037494336212, + "loss": 0.2031639814376831, + "step": 1914 + }, + { + "grad_norm": 0.2133457402351242, + "loss": 0.17998403310775757, + "step": 1915 + }, + { + "grad_norm": 0.2034406012742779, + "loss": 0.21060001850128174, + "step": 1916 + }, + { + "grad_norm": 0.22762257493632254, + "loss": 0.19736693799495697, + "step": 1917 + }, + { + "grad_norm": 0.23934223101160731, + "loss": 0.16829264163970947, + "step": 1918 + }, + { + "grad_norm": 0.30648849711308956, + "loss": 0.26060646772384644, + "step": 1919 + }, + { + "epoch": 0.6144, + "grad_norm": 0.3064885139465332, + "learning_rate": 8.370761284527285e-05, + "loss": 0.2042, + "step": 1920 + }, + { + "grad_norm": 0.20287059768692542, + "loss": 0.211575448513031, + "step": 1920 + }, + { + "grad_norm": 0.13020798924395105, + "loss": 0.20148234069347382, + "step": 1921 + }, + { + "grad_norm": 0.49442591047254164, + "loss": 0.3468914330005646, + "step": 1922 + }, + { + "grad_norm": 0.4171140979511083, + "loss": 0.16738004982471466, + "step": 1923 + }, + { + "grad_norm": 0.25489600388362754, + "loss": 0.3127540647983551, + "step": 1924 + }, + { + "grad_norm": 0.3775583515249921, + "loss": 0.18774233758449554, + "step": 1925 + }, + { + "grad_norm": 0.14772694713756068, + "loss": 0.17508384585380554, + "step": 1926 + }, + { + "grad_norm": 0.2439256157791167, + "loss": 0.17234352231025696, + "step": 1927 + }, + { + "grad_norm": 0.16672691276915497, + "loss": 0.15260261297225952, + "step": 1928 + }, + { + "grad_norm": 0.1401405021872573, + "loss": 0.23123329877853394, + "step": 1929 + }, + { + "epoch": 0.6176, + "grad_norm": 0.14014050364494324, + "learning_rate": 8.3595328991691e-05, + "loss": 0.2159, + "step": 1930 + }, + { + "grad_norm": 0.15747839322521656, + "loss": 0.17836132645606995, + "step": 1930 + }, + { + "grad_norm": 0.22996586570559066, + "loss": 0.25539684295654297, + "step": 1931 + }, + { + "grad_norm": 0.5714499538126773, + "loss": 0.24813565611839294, + "step": 1932 + }, + { + "grad_norm": 0.23969478968420235, + "loss": 0.27548664808273315, + "step": 1933 + }, + { + "grad_norm": 0.14875858309172194, + "loss": 0.16089104115962982, + "step": 1934 + }, + { + "grad_norm": 0.1796530681426159, + "loss": 0.18515649437904358, + "step": 1935 + }, + { + "grad_norm": 0.2705865438121434, + "loss": 0.19171461462974548, + "step": 1936 + }, + { + "grad_norm": 0.38094505594687955, + "loss": 0.22939947247505188, + "step": 1937 + }, + { + "grad_norm": 0.1676100009035032, + "loss": 0.17179346084594727, + "step": 1938 + }, + { + "grad_norm": 0.11555980394298751, + "loss": 0.18046891689300537, + "step": 1939 + }, + { + "epoch": 0.6208, + "grad_norm": 0.11555980890989304, + "learning_rate": 8.348304513810914e-05, + "loss": 0.2077, + "step": 1940 + }, + { + "grad_norm": 0.2726248132546738, + "loss": 0.1793494075536728, + "step": 1940 + }, + { + "grad_norm": 0.3914870242629467, + "loss": 0.23665830492973328, + "step": 1941 + }, + { + "grad_norm": 0.1298349661239071, + "loss": 0.1966528594493866, + "step": 1942 + }, + { + "grad_norm": 0.3497126529929935, + "loss": 0.23955252766609192, + "step": 1943 + }, + { + "grad_norm": 0.2475030236928889, + "loss": 0.16702629625797272, + "step": 1944 + }, + { + "grad_norm": 0.3132203163995561, + "loss": 0.1950860619544983, + "step": 1945 + }, + { + "grad_norm": 0.13538002064633906, + "loss": 0.17123740911483765, + "step": 1946 + }, + { + "grad_norm": 0.2437258086850325, + "loss": 0.18492645025253296, + "step": 1947 + }, + { + "grad_norm": 0.09242383508254164, + "loss": 0.17859560251235962, + "step": 1948 + }, + { + "grad_norm": 0.24481887295191573, + "loss": 0.1942434012889862, + "step": 1949 + }, + { + "epoch": 0.624, + "grad_norm": 0.24481888115406036, + "learning_rate": 8.337076128452729e-05, + "loss": 0.1943, + "step": 1950 + }, + { + "grad_norm": 0.22733770375534895, + "loss": 0.18952950835227966, + "step": 1950 + }, + { + "grad_norm": 0.41235091504623167, + "loss": 0.21767766773700714, + "step": 1951 + }, + { + "grad_norm": 0.2215067807745242, + "loss": 0.1536071002483368, + "step": 1952 + }, + { + "grad_norm": 0.2192412527169411, + "loss": 0.24488565325737, + "step": 1953 + }, + { + "grad_norm": 0.22448523025204897, + "loss": 0.24136081337928772, + "step": 1954 + }, + { + "grad_norm": 0.34085281984064314, + "loss": 0.24645152688026428, + "step": 1955 + }, + { + "grad_norm": 0.12329329028727078, + "loss": 0.19587023556232452, + "step": 1956 + }, + { + "grad_norm": 0.14678745533661547, + "loss": 0.14476600289344788, + "step": 1957 + }, + { + "grad_norm": 0.31856628065077236, + "loss": 0.16107091307640076, + "step": 1958 + }, + { + "grad_norm": 0.26040998318921277, + "loss": 0.15516474843025208, + "step": 1959 + }, + { + "epoch": 0.6272, + "grad_norm": 0.26040998101234436, + "learning_rate": 8.325847743094544e-05, + "loss": 0.195, + "step": 1960 + }, + { + "grad_norm": 0.31189614093483486, + "loss": 0.20376864075660706, + "step": 1960 + }, + { + "grad_norm": 0.2284478430598619, + "loss": 0.17827005684375763, + "step": 1961 + }, + { + "grad_norm": 0.22541825769727947, + "loss": 0.17528407275676727, + "step": 1962 + }, + { + "grad_norm": 0.19914886860635642, + "loss": 0.2542025148868561, + "step": 1963 + }, + { + "grad_norm": 0.5071450985698148, + "loss": 0.208909273147583, + "step": 1964 + }, + { + "grad_norm": 0.42646554734340447, + "loss": 0.22109735012054443, + "step": 1965 + }, + { + "grad_norm": 0.1923774959580456, + "loss": 0.23280468583106995, + "step": 1966 + }, + { + "grad_norm": 0.3544290263103958, + "loss": 0.1831718534231186, + "step": 1967 + }, + { + "grad_norm": 0.36673713354174137, + "loss": 0.19224077463150024, + "step": 1968 + }, + { + "grad_norm": 0.3638281517530609, + "loss": 0.17628905177116394, + "step": 1969 + }, + { + "epoch": 0.6304, + "grad_norm": 0.3638281524181366, + "learning_rate": 8.314619357736358e-05, + "loss": 0.2026, + "step": 1970 + }, + { + "grad_norm": 0.2718489822757787, + "loss": 0.16644251346588135, + "step": 1970 + }, + { + "grad_norm": 0.4805707264208757, + "loss": 0.16009804606437683, + "step": 1971 + }, + { + "grad_norm": 0.1726194693560222, + "loss": 0.17944714426994324, + "step": 1972 + }, + { + "grad_norm": 0.4586058658913693, + "loss": 0.22546716034412384, + "step": 1973 + }, + { + "grad_norm": 0.30884117458314886, + "loss": 0.1923200488090515, + "step": 1974 + }, + { + "grad_norm": 0.2899535222934274, + "loss": 0.1541939526796341, + "step": 1975 + }, + { + "grad_norm": 0.17005740621876175, + "loss": 0.18396776914596558, + "step": 1976 + }, + { + "grad_norm": 0.24790028929506333, + "loss": 0.21115893125534058, + "step": 1977 + }, + { + "grad_norm": 0.18051226566653475, + "loss": 0.16106253862380981, + "step": 1978 + }, + { + "grad_norm": 0.1487650605576651, + "loss": 0.15978844463825226, + "step": 1979 + }, + { + "epoch": 0.6336, + "grad_norm": 0.14876505732536316, + "learning_rate": 8.303390972378173e-05, + "loss": 0.1794, + "step": 1980 + }, + { + "grad_norm": 0.1150625709033271, + "loss": 0.16909220814704895, + "step": 1980 + }, + { + "grad_norm": 0.2500220938763234, + "loss": 0.2595948874950409, + "step": 1981 + }, + { + "grad_norm": 0.26336630411961787, + "loss": 0.1581028401851654, + "step": 1982 + }, + { + "grad_norm": 0.16839748959025908, + "loss": 0.18577329814434052, + "step": 1983 + }, + { + "grad_norm": 0.11923841760118752, + "loss": 0.1563870906829834, + "step": 1984 + }, + { + "grad_norm": 0.13661534769228698, + "loss": 0.16609877347946167, + "step": 1985 + }, + { + "grad_norm": 0.10323848091276028, + "loss": 0.20264771580696106, + "step": 1986 + }, + { + "grad_norm": 0.30185888081388385, + "loss": 0.18063905835151672, + "step": 1987 + }, + { + "grad_norm": 0.16688825430770682, + "loss": 0.22957295179367065, + "step": 1988 + }, + { + "grad_norm": 0.26840996569787606, + "loss": 0.1515076756477356, + "step": 1989 + }, + { + "epoch": 0.6368, + "grad_norm": 0.26840996742248535, + "learning_rate": 8.292162587019986e-05, + "loss": 0.1859, + "step": 1990 + }, + { + "grad_norm": 0.26659289802354813, + "loss": 0.20477069914340973, + "step": 1990 + }, + { + "grad_norm": 0.31117563819933813, + "loss": 0.17694130539894104, + "step": 1991 + }, + { + "grad_norm": 0.47296070180039607, + "loss": 0.18617209792137146, + "step": 1992 + }, + { + "grad_norm": 0.1323226214803944, + "loss": 0.1822231411933899, + "step": 1993 + }, + { + "grad_norm": 0.20202187127173407, + "loss": 0.1755945086479187, + "step": 1994 + }, + { + "grad_norm": 0.17703755388167391, + "loss": 0.1876717209815979, + "step": 1995 + }, + { + "grad_norm": 0.1926954254724107, + "loss": 0.301532506942749, + "step": 1996 + }, + { + "grad_norm": 0.10425039340149062, + "loss": 0.20234104990959167, + "step": 1997 + }, + { + "grad_norm": 0.20465688354337938, + "loss": 0.21379044651985168, + "step": 1998 + }, + { + "grad_norm": 0.23965294204707516, + "loss": 0.16716571152210236, + "step": 1999 + }, + { + "epoch": 0.64, + "grad_norm": 0.23965291678905487, + "learning_rate": 8.280934201661802e-05, + "loss": 0.1998, + "step": 2000 + }, + { + "grad_norm": 0.17764419197589232, + "loss": 0.19095981121063232, + "step": 2000 + }, + { + "grad_norm": 0.29299101595102955, + "loss": 0.21349415183067322, + "step": 2001 + }, + { + "grad_norm": 0.22748690638858865, + "loss": 0.15170541405677795, + "step": 2002 + }, + { + "grad_norm": 0.18289838876380946, + "loss": 0.21137294173240662, + "step": 2003 + }, + { + "grad_norm": 0.5651101343506189, + "loss": 0.28650280833244324, + "step": 2004 + }, + { + "grad_norm": 0.14027535892198165, + "loss": 0.14387863874435425, + "step": 2005 + }, + { + "grad_norm": 0.22679682118402333, + "loss": 0.15947487950325012, + "step": 2006 + }, + { + "grad_norm": 0.35172772176760314, + "loss": 0.17558565735816956, + "step": 2007 + }, + { + "grad_norm": 0.19101408772081813, + "loss": 0.18897590041160583, + "step": 2008 + }, + { + "grad_norm": 0.14806679288259858, + "loss": 0.20565681159496307, + "step": 2009 + }, + { + "epoch": 0.6432, + "grad_norm": 0.14806678891181946, + "learning_rate": 8.269705816303615e-05, + "loss": 0.1928, + "step": 2010 + }, + { + "grad_norm": 0.19301603689883873, + "loss": 0.20822353661060333, + "step": 2010 + }, + { + "grad_norm": 0.5246379972031944, + "loss": 0.24082833528518677, + "step": 2011 + }, + { + "grad_norm": 0.4030187027883124, + "loss": 0.17889875173568726, + "step": 2012 + }, + { + "grad_norm": 0.13107850982263738, + "loss": 0.2287617325782776, + "step": 2013 + }, + { + "grad_norm": 0.18952173847740866, + "loss": 0.19422991573810577, + "step": 2014 + }, + { + "grad_norm": 0.14555034091481944, + "loss": 0.2017430067062378, + "step": 2015 + }, + { + "grad_norm": 0.16843552616009985, + "loss": 0.19452185928821564, + "step": 2016 + }, + { + "grad_norm": 0.17408493835991434, + "loss": 0.207024484872818, + "step": 2017 + }, + { + "grad_norm": 0.3145190325932145, + "loss": 0.19636176526546478, + "step": 2018 + }, + { + "grad_norm": 0.27742015918530405, + "loss": 0.253328800201416, + "step": 2019 + }, + { + "epoch": 0.6464, + "grad_norm": 0.27742016315460205, + "learning_rate": 8.25847743094543e-05, + "loss": 0.2104, + "step": 2020 + }, + { + "grad_norm": 0.1790095571893297, + "loss": 0.15703946352005005, + "step": 2020 + }, + { + "grad_norm": 0.31073127670342393, + "loss": 0.15801994502544403, + "step": 2021 + }, + { + "grad_norm": 0.15516540218957361, + "loss": 0.17879082262516022, + "step": 2022 + }, + { + "grad_norm": 0.39023883430584894, + "loss": 0.17748229205608368, + "step": 2023 + }, + { + "grad_norm": 0.11352619893658224, + "loss": 0.155146986246109, + "step": 2024 + }, + { + "grad_norm": 0.12761170706031763, + "loss": 0.2122308909893036, + "step": 2025 + }, + { + "grad_norm": 0.25083696061562044, + "loss": 0.18949812650680542, + "step": 2026 + }, + { + "grad_norm": 0.13133895570624032, + "loss": 0.19015924632549286, + "step": 2027 + }, + { + "grad_norm": 0.45785694227036977, + "loss": 0.1867268830537796, + "step": 2028 + }, + { + "grad_norm": 0.1819436797446233, + "loss": 0.16891369223594666, + "step": 2029 + }, + { + "epoch": 0.6496, + "grad_norm": 0.18194366991519928, + "learning_rate": 8.247249045587245e-05, + "loss": 0.1774, + "step": 2030 + }, + { + "grad_norm": 0.11594748127259474, + "loss": 0.18711581826210022, + "step": 2030 + }, + { + "grad_norm": 0.10276699780959321, + "loss": 0.15858499705791473, + "step": 2031 + }, + { + "grad_norm": 0.20014992028044584, + "loss": 0.19634169340133667, + "step": 2032 + }, + { + "grad_norm": 0.2865526050597729, + "loss": 0.1840846985578537, + "step": 2033 + }, + { + "grad_norm": 0.14104381847373548, + "loss": 0.16245372593402863, + "step": 2034 + }, + { + "grad_norm": 0.20287362485016022, + "loss": 0.17652300000190735, + "step": 2035 + }, + { + "grad_norm": 0.1962422656154409, + "loss": 0.1658300757408142, + "step": 2036 + }, + { + "grad_norm": 0.2728006055654524, + "loss": 0.2738510072231293, + "step": 2037 + }, + { + "grad_norm": 0.37927065489957806, + "loss": 0.19602927565574646, + "step": 2038 + }, + { + "grad_norm": 0.1287308115554831, + "loss": 0.21542730927467346, + "step": 2039 + }, + { + "epoch": 0.6528, + "grad_norm": 0.12873081862926483, + "learning_rate": 8.236020660229059e-05, + "loss": 0.1916, + "step": 2040 + }, + { + "grad_norm": 0.14762230895425832, + "loss": 0.1872713565826416, + "step": 2040 + }, + { + "grad_norm": 0.37054100814589075, + "loss": 0.18762454390525818, + "step": 2041 + }, + { + "grad_norm": 0.1991833015124027, + "loss": 0.17852015793323517, + "step": 2042 + }, + { + "grad_norm": 0.3486392112693446, + "loss": 0.2202746421098709, + "step": 2043 + }, + { + "grad_norm": 0.10332926010226037, + "loss": 0.20661690831184387, + "step": 2044 + }, + { + "grad_norm": 0.1867333655811672, + "loss": 0.2029849886894226, + "step": 2045 + }, + { + "grad_norm": 0.10917340428405863, + "loss": 0.17889413237571716, + "step": 2046 + }, + { + "grad_norm": 0.12559495486281821, + "loss": 0.15934528410434723, + "step": 2047 + }, + { + "grad_norm": 0.17969403555809715, + "loss": 0.1899183690547943, + "step": 2048 + }, + { + "grad_norm": 0.46400421052312935, + "loss": 0.257525771856308, + "step": 2049 + }, + { + "epoch": 0.656, + "grad_norm": 0.46400418877601624, + "learning_rate": 8.224792274870874e-05, + "loss": 0.1969, + "step": 2050 + }, + { + "grad_norm": 0.1789402257693396, + "loss": 0.18887145817279816, + "step": 2050 + }, + { + "grad_norm": 0.3924595018775132, + "loss": 0.1606256067752838, + "step": 2051 + }, + { + "grad_norm": 0.22467221460096667, + "loss": 0.1762285828590393, + "step": 2052 + }, + { + "grad_norm": 0.21340534717190537, + "loss": 0.17959755659103394, + "step": 2053 + }, + { + "grad_norm": 0.21015430062689994, + "loss": 0.27350571751594543, + "step": 2054 + }, + { + "grad_norm": 0.17210221102076892, + "loss": 0.18721075356006622, + "step": 2055 + }, + { + "grad_norm": 0.29791786128166914, + "loss": 0.1715981811285019, + "step": 2056 + }, + { + "grad_norm": 0.3311893963791658, + "loss": 0.21358510851860046, + "step": 2057 + }, + { + "grad_norm": 0.1415347212045272, + "loss": 0.23597615957260132, + "step": 2058 + }, + { + "grad_norm": 0.2966617665977906, + "loss": 0.18967778980731964, + "step": 2059 + }, + { + "epoch": 0.6592, + "grad_norm": 0.29666176438331604, + "learning_rate": 8.213563889512689e-05, + "loss": 0.1977, + "step": 2060 + }, + { + "grad_norm": 0.3300689359672412, + "loss": 0.20467399060726166, + "step": 2060 + }, + { + "grad_norm": 0.2387610211071543, + "loss": 0.202520951628685, + "step": 2061 + }, + { + "grad_norm": 0.17022441130165694, + "loss": 0.1705920547246933, + "step": 2062 + }, + { + "grad_norm": 0.13091286733816693, + "loss": 0.15584132075309753, + "step": 2063 + }, + { + "grad_norm": 0.3717916917045933, + "loss": 0.28450149297714233, + "step": 2064 + }, + { + "grad_norm": 0.40358059551154607, + "loss": 0.15537722408771515, + "step": 2065 + }, + { + "grad_norm": 0.12221855420753495, + "loss": 0.1867464929819107, + "step": 2066 + }, + { + "grad_norm": 0.12281762049252021, + "loss": 0.18517978489398956, + "step": 2067 + }, + { + "grad_norm": 0.23122251626482715, + "loss": 0.16125120222568512, + "step": 2068 + }, + { + "grad_norm": 0.1975684046919261, + "loss": 0.19455835223197937, + "step": 2069 + }, + { + "epoch": 0.6624, + "grad_norm": 0.1975684016942978, + "learning_rate": 8.202335504154503e-05, + "loss": 0.1901, + "step": 2070 + }, + { + "grad_norm": 0.19366394600319198, + "loss": 0.18369632959365845, + "step": 2070 + }, + { + "grad_norm": 0.10573791680513325, + "loss": 0.21102668344974518, + "step": 2071 + }, + { + "grad_norm": 0.21639581321903203, + "loss": 0.1570015400648117, + "step": 2072 + }, + { + "grad_norm": 0.3188048341542196, + "loss": 0.1572149246931076, + "step": 2073 + }, + { + "grad_norm": 0.18857593217978705, + "loss": 0.19722974300384521, + "step": 2074 + }, + { + "grad_norm": 0.14340116829307115, + "loss": 0.21646827459335327, + "step": 2075 + }, + { + "grad_norm": 0.14225917035897004, + "loss": 0.22601333260536194, + "step": 2076 + }, + { + "grad_norm": 0.12497826927334163, + "loss": 0.15335626900196075, + "step": 2077 + }, + { + "grad_norm": 0.2624092282046907, + "loss": 0.16765716671943665, + "step": 2078 + }, + { + "grad_norm": 0.12535278820131515, + "loss": 0.16909059882164001, + "step": 2079 + }, + { + "epoch": 0.6656, + "grad_norm": 0.12535278499126434, + "learning_rate": 8.191107118796317e-05, + "loss": 0.1839, + "step": 2080 + }, + { + "grad_norm": 0.4462919437242677, + "loss": 0.20825736224651337, + "step": 2080 + }, + { + "grad_norm": 0.48070199856520696, + "loss": 0.25833550095558167, + "step": 2081 + }, + { + "grad_norm": 0.13564815325334445, + "loss": 0.21708551049232483, + "step": 2082 + }, + { + "grad_norm": 0.43783547668155626, + "loss": 0.1594187468290329, + "step": 2083 + }, + { + "grad_norm": 0.36238505840526763, + "loss": 0.22860026359558105, + "step": 2084 + }, + { + "grad_norm": 0.17636638689738277, + "loss": 0.17841127514839172, + "step": 2085 + }, + { + "grad_norm": 0.08838913525994876, + "loss": 0.15775781869888306, + "step": 2086 + }, + { + "grad_norm": 0.2736102802596101, + "loss": 0.13075610995292664, + "step": 2087 + }, + { + "grad_norm": 0.3564368073025871, + "loss": 0.18252480030059814, + "step": 2088 + }, + { + "grad_norm": 0.10966223774062302, + "loss": 0.16747041046619415, + "step": 2089 + }, + { + "epoch": 0.6688, + "grad_norm": 0.1096622422337532, + "learning_rate": 8.179878733438132e-05, + "loss": 0.1889, + "step": 2090 + }, + { + "grad_norm": 0.27642799142297747, + "loss": 0.18754734098911285, + "step": 2090 + }, + { + "grad_norm": 0.2050346787715216, + "loss": 0.17520871758460999, + "step": 2091 + }, + { + "grad_norm": 0.37746786333907784, + "loss": 0.20544138550758362, + "step": 2092 + }, + { + "grad_norm": 0.13746423891058618, + "loss": 0.16262227296829224, + "step": 2093 + }, + { + "grad_norm": 0.4237229517869027, + "loss": 0.24720698595046997, + "step": 2094 + }, + { + "grad_norm": 0.19957364860786414, + "loss": 0.215402752161026, + "step": 2095 + }, + { + "grad_norm": 0.13393019918576685, + "loss": 0.16320502758026123, + "step": 2096 + }, + { + "grad_norm": 0.15646797428874926, + "loss": 0.1844249665737152, + "step": 2097 + }, + { + "grad_norm": 0.13812163326094823, + "loss": 0.18829721212387085, + "step": 2098 + }, + { + "grad_norm": 0.19239232928880978, + "loss": 0.1824595332145691, + "step": 2099 + }, + { + "epoch": 0.672, + "grad_norm": 0.19239233434200287, + "learning_rate": 8.168650348079947e-05, + "loss": 0.1912, + "step": 2100 + }, + { + "grad_norm": 0.21792555974231362, + "loss": 0.2616528868675232, + "step": 2100 + }, + { + "grad_norm": 0.22282523576337834, + "loss": 0.19970709085464478, + "step": 2101 + }, + { + "grad_norm": 0.3704672055123349, + "loss": 0.18832561373710632, + "step": 2102 + }, + { + "grad_norm": 0.30497896322125884, + "loss": 0.23548591136932373, + "step": 2103 + }, + { + "grad_norm": 0.12324984099545214, + "loss": 0.18632888793945312, + "step": 2104 + }, + { + "grad_norm": 0.10217602352369318, + "loss": 0.18940448760986328, + "step": 2105 + }, + { + "grad_norm": 0.22542355013769674, + "loss": 0.2623468041419983, + "step": 2106 + }, + { + "grad_norm": 0.1293070084193908, + "loss": 0.17335918545722961, + "step": 2107 + }, + { + "grad_norm": 0.26722898593580663, + "loss": 0.2047784924507141, + "step": 2108 + }, + { + "grad_norm": 0.10907316782917717, + "loss": 0.24158106744289398, + "step": 2109 + }, + { + "epoch": 0.6752, + "grad_norm": 0.10907316207885742, + "learning_rate": 8.15742196272176e-05, + "loss": 0.2143, + "step": 2110 + }, + { + "grad_norm": 0.3179042059849463, + "loss": 0.24000957608222961, + "step": 2110 + }, + { + "grad_norm": 0.41909211745315894, + "loss": 0.19240590929985046, + "step": 2111 + }, + { + "grad_norm": 0.2460174006852003, + "loss": 0.15213654935359955, + "step": 2112 + }, + { + "grad_norm": 0.270052153272032, + "loss": 0.21234381198883057, + "step": 2113 + }, + { + "grad_norm": 0.22777211736963235, + "loss": 0.18931281566619873, + "step": 2114 + }, + { + "grad_norm": 0.19985915008937957, + "loss": 0.1708957701921463, + "step": 2115 + }, + { + "grad_norm": 0.4186823658732736, + "loss": 0.18375805020332336, + "step": 2116 + }, + { + "grad_norm": 0.26854125978271126, + "loss": 0.2130318433046341, + "step": 2117 + }, + { + "grad_norm": 0.24491450885799695, + "loss": 0.19878315925598145, + "step": 2118 + }, + { + "grad_norm": 0.18554593381344064, + "loss": 0.23990751802921295, + "step": 2119 + }, + { + "epoch": 0.6784, + "grad_norm": 0.1855459362268448, + "learning_rate": 8.146193577363576e-05, + "loss": 0.1993, + "step": 2120 + }, + { + "grad_norm": 0.2368261340480879, + "loss": 0.18806058168411255, + "step": 2120 + }, + { + "grad_norm": 0.18589844666396785, + "loss": 0.18246977031230927, + "step": 2121 + }, + { + "grad_norm": 0.21542460850011044, + "loss": 0.18106253445148468, + "step": 2122 + }, + { + "grad_norm": 0.24778380034665493, + "loss": 0.24035729467868805, + "step": 2123 + }, + { + "grad_norm": 0.15343956490370592, + "loss": 0.16966775059700012, + "step": 2124 + }, + { + "grad_norm": 0.1702964530955877, + "loss": 0.18032532930374146, + "step": 2125 + }, + { + "grad_norm": 0.27464381509214525, + "loss": 0.19561973214149475, + "step": 2126 + }, + { + "grad_norm": 0.35128006399612716, + "loss": 0.19159851968288422, + "step": 2127 + }, + { + "grad_norm": 0.3844370274501046, + "loss": 0.19396983087062836, + "step": 2128 + }, + { + "grad_norm": 0.1505884408027304, + "loss": 0.2113141417503357, + "step": 2129 + }, + { + "epoch": 0.6816, + "grad_norm": 0.15058843791484833, + "learning_rate": 8.13496519200539e-05, + "loss": 0.1934, + "step": 2130 + }, + { + "grad_norm": 0.2901726703049049, + "loss": 0.15579581260681152, + "step": 2130 + }, + { + "grad_norm": 0.15764471529683236, + "loss": 0.16499459743499756, + "step": 2131 + }, + { + "grad_norm": 0.24285553232121598, + "loss": 0.18698334693908691, + "step": 2132 + }, + { + "grad_norm": 0.2103910282515529, + "loss": 0.1921001374721527, + "step": 2133 + }, + { + "grad_norm": 0.223903811315579, + "loss": 0.1848335564136505, + "step": 2134 + }, + { + "grad_norm": 0.22909382162863934, + "loss": 0.18555793166160583, + "step": 2135 + }, + { + "grad_norm": 0.2868397964314708, + "loss": 0.172138512134552, + "step": 2136 + }, + { + "grad_norm": 0.1777607974226467, + "loss": 0.17443904280662537, + "step": 2137 + }, + { + "grad_norm": 0.20432656738399502, + "loss": 0.21098878979682922, + "step": 2138 + }, + { + "grad_norm": 0.14411176309606116, + "loss": 0.16341432929039001, + "step": 2139 + }, + { + "epoch": 0.6848, + "grad_norm": 0.1441117525100708, + "learning_rate": 8.123736806647204e-05, + "loss": 0.1791, + "step": 2140 + }, + { + "grad_norm": 0.30146587961972793, + "loss": 0.23557311296463013, + "step": 2140 + }, + { + "grad_norm": 0.21527069095348716, + "loss": 0.16802147030830383, + "step": 2141 + }, + { + "grad_norm": 0.2668436128951297, + "loss": 0.21267029643058777, + "step": 2142 + }, + { + "grad_norm": 0.36642579926808333, + "loss": 0.1644337922334671, + "step": 2143 + }, + { + "grad_norm": 0.1589421974268972, + "loss": 0.27366891503334045, + "step": 2144 + }, + { + "grad_norm": 0.35944444280369825, + "loss": 0.18490193784236908, + "step": 2145 + }, + { + "grad_norm": 0.14604577737736477, + "loss": 0.18381556868553162, + "step": 2146 + }, + { + "grad_norm": 0.21348307356815888, + "loss": 0.15856575965881348, + "step": 2147 + }, + { + "grad_norm": 0.17518641495923096, + "loss": 0.1643889993429184, + "step": 2148 + }, + { + "grad_norm": 0.1117197367718066, + "loss": 0.2012987732887268, + "step": 2149 + }, + { + "epoch": 0.688, + "grad_norm": 0.11171973496675491, + "learning_rate": 8.11250842128902e-05, + "loss": 0.1947, + "step": 2150 + }, + { + "grad_norm": 0.19262947050232676, + "loss": 0.23460297286510468, + "step": 2150 + }, + { + "grad_norm": 0.13342854506762228, + "loss": 0.18602058291435242, + "step": 2151 + }, + { + "grad_norm": 0.09629178002398181, + "loss": 0.16796566545963287, + "step": 2152 + }, + { + "grad_norm": 0.41042269592295194, + "loss": 0.22228804230690002, + "step": 2153 + }, + { + "grad_norm": 0.4510024185280393, + "loss": 0.20566701889038086, + "step": 2154 + }, + { + "grad_norm": 0.29497422238250043, + "loss": 0.18633073568344116, + "step": 2155 + }, + { + "grad_norm": 0.17295668359250507, + "loss": 0.15643459558486938, + "step": 2156 + }, + { + "grad_norm": 0.2865714236391996, + "loss": 0.23729369044303894, + "step": 2157 + }, + { + "grad_norm": 0.23846176479578984, + "loss": 0.1750568151473999, + "step": 2158 + }, + { + "grad_norm": 0.14469866918185986, + "loss": 0.1613667905330658, + "step": 2159 + }, + { + "epoch": 0.6912, + "grad_norm": 0.14469866454601288, + "learning_rate": 8.101280035930835e-05, + "loss": 0.1933, + "step": 2160 + }, + { + "grad_norm": 0.3619952291374148, + "loss": 0.24260655045509338, + "step": 2160 + }, + { + "grad_norm": 0.2500196739376838, + "loss": 0.17394579946994781, + "step": 2161 + }, + { + "grad_norm": 0.15391301563600865, + "loss": 0.2134108543395996, + "step": 2162 + }, + { + "grad_norm": 0.14890340332002852, + "loss": 0.18691635131835938, + "step": 2163 + }, + { + "grad_norm": 0.1627971398332094, + "loss": 0.2124839723110199, + "step": 2164 + }, + { + "grad_norm": 0.33347844977696706, + "loss": 0.2261912077665329, + "step": 2165 + }, + { + "grad_norm": 0.25240368484032755, + "loss": 0.18492987751960754, + "step": 2166 + }, + { + "grad_norm": 0.23946151239855462, + "loss": 0.23047488927841187, + "step": 2167 + }, + { + "grad_norm": 0.3392000599271242, + "loss": 0.18253234028816223, + "step": 2168 + }, + { + "grad_norm": 0.26807868355253456, + "loss": 0.19431859254837036, + "step": 2169 + }, + { + "epoch": 0.6944, + "grad_norm": 0.26807868480682373, + "learning_rate": 8.090051650572648e-05, + "loss": 0.2048, + "step": 2170 + }, + { + "grad_norm": 0.11425264830749549, + "loss": 0.167709618806839, + "step": 2170 + }, + { + "grad_norm": 0.24280934740392784, + "loss": 0.16885735094547272, + "step": 2171 + }, + { + "grad_norm": 0.22173245458230562, + "loss": 0.17200924456119537, + "step": 2172 + }, + { + "grad_norm": 0.17372755355427327, + "loss": 0.14306260645389557, + "step": 2173 + }, + { + "grad_norm": 0.21201985560937983, + "loss": 0.2108403444290161, + "step": 2174 + }, + { + "grad_norm": 0.12264271943566672, + "loss": 0.1609952747821808, + "step": 2175 + }, + { + "grad_norm": 0.19708357687668118, + "loss": 0.15195682644844055, + "step": 2176 + }, + { + "grad_norm": 0.12935604491490016, + "loss": 0.18042591214179993, + "step": 2177 + }, + { + "grad_norm": 0.21967259464435449, + "loss": 0.20836126804351807, + "step": 2178 + }, + { + "grad_norm": 0.13813794621511838, + "loss": 0.15760323405265808, + "step": 2179 + }, + { + "epoch": 0.6976, + "grad_norm": 0.13813795149326324, + "learning_rate": 8.078823265214462e-05, + "loss": 0.1722, + "step": 2180 + }, + { + "grad_norm": 0.1518847587054228, + "loss": 0.21458935737609863, + "step": 2180 + }, + { + "grad_norm": 0.20830361710875098, + "loss": 0.191806823015213, + "step": 2181 + }, + { + "grad_norm": 0.16651209757959234, + "loss": 0.23317572474479675, + "step": 2182 + }, + { + "grad_norm": 0.14216014872017935, + "loss": 0.1770182102918625, + "step": 2183 + }, + { + "grad_norm": 0.15263322867863413, + "loss": 0.15705931186676025, + "step": 2184 + }, + { + "grad_norm": 0.364198156232753, + "loss": 0.14435990154743195, + "step": 2185 + }, + { + "grad_norm": 0.30872623016855966, + "loss": 0.17987948656082153, + "step": 2186 + }, + { + "grad_norm": 0.1292196748246302, + "loss": 0.17501601576805115, + "step": 2187 + }, + { + "grad_norm": 0.412246314913848, + "loss": 0.21430186927318573, + "step": 2188 + }, + { + "grad_norm": 0.20169722612001828, + "loss": 0.22446708381175995, + "step": 2189 + }, + { + "epoch": 0.7008, + "grad_norm": 0.2016972154378891, + "learning_rate": 8.067594879856277e-05, + "loss": 0.1912, + "step": 2190 + }, + { + "grad_norm": 0.21028428188022036, + "loss": 0.22964082658290863, + "step": 2190 + }, + { + "grad_norm": 0.2147507798340379, + "loss": 0.20415984094142914, + "step": 2191 + }, + { + "grad_norm": 0.22944558153243544, + "loss": 0.21695968508720398, + "step": 2192 + }, + { + "grad_norm": 0.1249947783067661, + "loss": 0.1911974847316742, + "step": 2193 + }, + { + "grad_norm": 0.14939358214911855, + "loss": 0.2104453146457672, + "step": 2194 + }, + { + "grad_norm": 0.16979515077769824, + "loss": 0.18701663613319397, + "step": 2195 + }, + { + "grad_norm": 0.21573089276200696, + "loss": 0.17654237151145935, + "step": 2196 + }, + { + "grad_norm": 0.20573261870726844, + "loss": 0.18123866617679596, + "step": 2197 + }, + { + "grad_norm": 0.19025662895070042, + "loss": 0.16536769270896912, + "step": 2198 + }, + { + "grad_norm": 0.16099380516536252, + "loss": 0.1980331540107727, + "step": 2199 + }, + { + "epoch": 0.704, + "grad_norm": 0.1609937995672226, + "learning_rate": 8.056366494498092e-05, + "loss": 0.1961, + "step": 2200 + }, + { + "grad_norm": 0.2279094009766891, + "loss": 0.21067045629024506, + "step": 2200 + }, + { + "grad_norm": 0.20177469811435622, + "loss": 0.1944393664598465, + "step": 2201 + }, + { + "grad_norm": 0.34601511307744826, + "loss": 0.19525833427906036, + "step": 2202 + }, + { + "grad_norm": 0.10603207366466513, + "loss": 0.16462954878807068, + "step": 2203 + }, + { + "grad_norm": 0.1127908333785197, + "loss": 0.17898383736610413, + "step": 2204 + }, + { + "grad_norm": 0.21887537278413446, + "loss": 0.17761604487895966, + "step": 2205 + }, + { + "grad_norm": 0.4885417648557104, + "loss": 0.1800171434879303, + "step": 2206 + }, + { + "grad_norm": 0.31614188886948935, + "loss": 0.1810085028409958, + "step": 2207 + }, + { + "grad_norm": 0.14214100882859448, + "loss": 0.1869136393070221, + "step": 2208 + }, + { + "grad_norm": 0.14046932445774082, + "loss": 0.14145827293395996, + "step": 2209 + }, + { + "epoch": 0.7072, + "grad_norm": 0.14046931266784668, + "learning_rate": 8.045138109139906e-05, + "loss": 0.1811, + "step": 2210 + }, + { + "grad_norm": 0.17159790576493214, + "loss": 0.19135580956935883, + "step": 2210 + }, + { + "grad_norm": 0.20715787679080044, + "loss": 0.16626572608947754, + "step": 2211 + }, + { + "grad_norm": 0.2853123324321573, + "loss": 0.2414291799068451, + "step": 2212 + }, + { + "grad_norm": 0.26522956756837357, + "loss": 0.217931866645813, + "step": 2213 + }, + { + "grad_norm": 0.21038236091268533, + "loss": 0.20696023106575012, + "step": 2214 + }, + { + "grad_norm": 0.23169940736288747, + "loss": 0.18212291598320007, + "step": 2215 + }, + { + "grad_norm": 0.2316740302354797, + "loss": 0.24823012948036194, + "step": 2216 + }, + { + "grad_norm": 0.25961371714325, + "loss": 0.19560766220092773, + "step": 2217 + }, + { + "grad_norm": 0.1633808735072889, + "loss": 0.19570225477218628, + "step": 2218 + }, + { + "grad_norm": 0.335269351020507, + "loss": 0.2259034812450409, + "step": 2219 + }, + { + "epoch": 0.7104, + "grad_norm": 0.33526933193206787, + "learning_rate": 8.033909723781721e-05, + "loss": 0.2072, + "step": 2220 + }, + { + "grad_norm": 0.26657926310717145, + "loss": 0.1695934236049652, + "step": 2220 + }, + { + "grad_norm": 0.3380570967259449, + "loss": 0.15421034395694733, + "step": 2221 + }, + { + "grad_norm": 0.17529648956595462, + "loss": 0.17866000533103943, + "step": 2222 + }, + { + "grad_norm": 0.2020762843929358, + "loss": 0.22936062514781952, + "step": 2223 + }, + { + "grad_norm": 0.26518265218530696, + "loss": 0.17739884555339813, + "step": 2224 + }, + { + "grad_norm": 0.2907839187243378, + "loss": 0.1833103746175766, + "step": 2225 + }, + { + "grad_norm": 0.1422266554981456, + "loss": 0.16034646332263947, + "step": 2226 + }, + { + "grad_norm": 0.2272145119594466, + "loss": 0.18429598212242126, + "step": 2227 + }, + { + "grad_norm": 0.16462040452443158, + "loss": 0.18488284945487976, + "step": 2228 + }, + { + "grad_norm": 0.16152957087255462, + "loss": 0.1642339527606964, + "step": 2229 + }, + { + "epoch": 0.7136, + "grad_norm": 0.1615295708179474, + "learning_rate": 8.022681338423536e-05, + "loss": 0.1786, + "step": 2230 + }, + { + "grad_norm": 0.4061928184089762, + "loss": 0.2047497034072876, + "step": 2230 + }, + { + "grad_norm": 0.12260011766990939, + "loss": 0.1771603673696518, + "step": 2231 + }, + { + "grad_norm": 0.3152173233033652, + "loss": 0.1900026500225067, + "step": 2232 + }, + { + "grad_norm": 0.28777649466497474, + "loss": 0.22568988800048828, + "step": 2233 + }, + { + "grad_norm": 0.19391141009981855, + "loss": 0.17656072974205017, + "step": 2234 + }, + { + "grad_norm": 0.15471196975419182, + "loss": 0.20062275230884552, + "step": 2235 + }, + { + "grad_norm": 0.18260520330639374, + "loss": 0.1658916175365448, + "step": 2236 + }, + { + "grad_norm": 0.1547015356121767, + "loss": 0.18858960270881653, + "step": 2237 + }, + { + "grad_norm": 0.21231603623784334, + "loss": 0.21272516250610352, + "step": 2238 + }, + { + "grad_norm": 0.34492354505396344, + "loss": 0.17993402481079102, + "step": 2239 + }, + { + "epoch": 0.7168, + "grad_norm": 0.34492355585098267, + "learning_rate": 8.01145295306535e-05, + "loss": 0.1922, + "step": 2240 + }, + { + "grad_norm": 0.17995598713556282, + "loss": 0.18622177839279175, + "step": 2240 + }, + { + "grad_norm": 0.22089774421101108, + "loss": 0.2215178906917572, + "step": 2241 + }, + { + "grad_norm": 0.326753345449314, + "loss": 0.2551371455192566, + "step": 2242 + }, + { + "grad_norm": 0.2514290045914509, + "loss": 0.1949976682662964, + "step": 2243 + }, + { + "grad_norm": 0.23553040931383137, + "loss": 0.22479745745658875, + "step": 2244 + }, + { + "grad_norm": 0.11368820780014534, + "loss": 0.20136398077011108, + "step": 2245 + }, + { + "grad_norm": 0.15109343145426127, + "loss": 0.2451806515455246, + "step": 2246 + }, + { + "grad_norm": 0.24037915561104023, + "loss": 0.23164065182209015, + "step": 2247 + }, + { + "grad_norm": 0.39168535003563526, + "loss": 0.17697446048259735, + "step": 2248 + }, + { + "grad_norm": 0.1636076544528261, + "loss": 0.17206421494483948, + "step": 2249 + }, + { + "epoch": 0.72, + "grad_norm": 0.163607656955719, + "learning_rate": 8.000224567707165e-05, + "loss": 0.211, + "step": 2250 + }, + { + "grad_norm": 0.19317824116206814, + "loss": 0.19173139333724976, + "step": 2250 + }, + { + "grad_norm": 0.15725893709762662, + "loss": 0.20338621735572815, + "step": 2251 + }, + { + "grad_norm": 0.3896135568335308, + "loss": 0.1771060824394226, + "step": 2252 + }, + { + "grad_norm": 0.17690983998240928, + "loss": 0.2043290138244629, + "step": 2253 + }, + { + "grad_norm": 0.3687450955921381, + "loss": 0.2624008059501648, + "step": 2254 + }, + { + "grad_norm": 0.2126150982889236, + "loss": 0.20212920010089874, + "step": 2255 + }, + { + "grad_norm": 0.1726387974460473, + "loss": 0.21461111307144165, + "step": 2256 + }, + { + "grad_norm": 0.14516713972103826, + "loss": 0.17639540135860443, + "step": 2257 + }, + { + "grad_norm": 0.12198850323641212, + "loss": 0.19669294357299805, + "step": 2258 + }, + { + "grad_norm": 0.2812877436661674, + "loss": 0.2783401310443878, + "step": 2259 + }, + { + "epoch": 0.7232, + "grad_norm": 0.2812877297401428, + "learning_rate": 7.988996182348978e-05, + "loss": 0.2107, + "step": 2260 + }, + { + "grad_norm": 0.28796870270371205, + "loss": 0.2037392258644104, + "step": 2260 + }, + { + "grad_norm": 0.2958554894694785, + "loss": 0.27510249614715576, + "step": 2261 + }, + { + "grad_norm": 0.12184867212965517, + "loss": 0.19319742918014526, + "step": 2262 + }, + { + "grad_norm": 0.2641931892328202, + "loss": 0.16360628604888916, + "step": 2263 + }, + { + "grad_norm": 0.2917068417105781, + "loss": 0.18091262876987457, + "step": 2264 + }, + { + "grad_norm": 0.202315693825312, + "loss": 0.1787208765745163, + "step": 2265 + }, + { + "grad_norm": 0.14258891243209382, + "loss": 0.18424630165100098, + "step": 2266 + }, + { + "grad_norm": 0.1773314062811406, + "loss": 0.1599508821964264, + "step": 2267 + }, + { + "grad_norm": 0.14899429098899164, + "loss": 0.18876159191131592, + "step": 2268 + }, + { + "grad_norm": 0.4210022076440026, + "loss": 0.18921199440956116, + "step": 2269 + }, + { + "epoch": 0.7264, + "grad_norm": 0.42100223898887634, + "learning_rate": 7.977767796990792e-05, + "loss": 0.1917, + "step": 2270 + }, + { + "grad_norm": 0.2613952507444748, + "loss": 0.22591175138950348, + "step": 2270 + }, + { + "grad_norm": 0.20619143873901752, + "loss": 0.1733570545911789, + "step": 2271 + }, + { + "grad_norm": 0.2793354667981477, + "loss": 0.1869281381368637, + "step": 2272 + }, + { + "grad_norm": 0.16057306087556533, + "loss": 0.19986343383789062, + "step": 2273 + }, + { + "grad_norm": 0.11193258013660104, + "loss": 0.21137608587741852, + "step": 2274 + }, + { + "grad_norm": 0.47837498153755603, + "loss": 0.24738964438438416, + "step": 2275 + }, + { + "grad_norm": 0.17308047585349867, + "loss": 0.16830770671367645, + "step": 2276 + }, + { + "grad_norm": 0.12971065804806003, + "loss": 0.17069393396377563, + "step": 2277 + }, + { + "grad_norm": 0.3630334039121471, + "loss": 0.17607234418392181, + "step": 2278 + }, + { + "grad_norm": 0.2709417711544989, + "loss": 0.1580410599708557, + "step": 2279 + }, + { + "epoch": 0.7296, + "grad_norm": 0.27094176411628723, + "learning_rate": 7.966539411632607e-05, + "loss": 0.1918, + "step": 2280 + }, + { + "grad_norm": 0.1529310276629266, + "loss": 0.18839529156684875, + "step": 2280 + }, + { + "grad_norm": 0.11721111872101887, + "loss": 0.15745171904563904, + "step": 2281 + }, + { + "grad_norm": 0.2597752696352109, + "loss": 0.1956767588853836, + "step": 2282 + }, + { + "grad_norm": 0.1623506962872859, + "loss": 0.1865565925836563, + "step": 2283 + }, + { + "grad_norm": 0.17610816449333852, + "loss": 0.1692342609167099, + "step": 2284 + }, + { + "grad_norm": 0.512845051756907, + "loss": 0.2544480860233307, + "step": 2285 + }, + { + "grad_norm": 0.19988170421060608, + "loss": 0.14924725890159607, + "step": 2286 + }, + { + "grad_norm": 0.35194963919182093, + "loss": 0.15358063578605652, + "step": 2287 + }, + { + "grad_norm": 0.12998964418019832, + "loss": 0.15743809938430786, + "step": 2288 + }, + { + "grad_norm": 0.37242258232659714, + "loss": 0.2418486773967743, + "step": 2289 + }, + { + "epoch": 0.7328, + "grad_norm": 0.37242257595062256, + "learning_rate": 7.955311026274422e-05, + "loss": 0.1854, + "step": 2290 + }, + { + "grad_norm": 0.13924033406899566, + "loss": 0.18669186532497406, + "step": 2290 + }, + { + "grad_norm": 0.26567616992395415, + "loss": 0.21497488021850586, + "step": 2291 + }, + { + "grad_norm": 0.22320710634538377, + "loss": 0.1864190697669983, + "step": 2292 + }, + { + "grad_norm": 0.439593683016467, + "loss": 0.15064570307731628, + "step": 2293 + }, + { + "grad_norm": 0.29943071526122045, + "loss": 0.1822209656238556, + "step": 2294 + }, + { + "grad_norm": 0.1420774532094003, + "loss": 0.21304559707641602, + "step": 2295 + }, + { + "grad_norm": 0.3232443444393004, + "loss": 0.206412211060524, + "step": 2296 + }, + { + "grad_norm": 0.09451463523839837, + "loss": 0.167199045419693, + "step": 2297 + }, + { + "grad_norm": 0.1330306975887877, + "loss": 0.16303451359272003, + "step": 2298 + }, + { + "grad_norm": 0.21011948047215695, + "loss": 0.15602749586105347, + "step": 2299 + }, + { + "epoch": 0.736, + "grad_norm": 0.21011948585510254, + "learning_rate": 7.944082640916236e-05, + "loss": 0.1827, + "step": 2300 + }, + { + "grad_norm": 0.13670907199597584, + "loss": 0.19114889204502106, + "step": 2300 + }, + { + "grad_norm": 0.17244527391112563, + "loss": 0.19420264661312103, + "step": 2301 + }, + { + "grad_norm": 0.3182676466832993, + "loss": 0.2474704533815384, + "step": 2302 + }, + { + "grad_norm": 0.1364040596487299, + "loss": 0.1544393002986908, + "step": 2303 + }, + { + "grad_norm": 0.48521446471451474, + "loss": 0.21828952431678772, + "step": 2304 + }, + { + "grad_norm": 0.1581924458394258, + "loss": 0.2110922932624817, + "step": 2305 + }, + { + "grad_norm": 0.23863837158810128, + "loss": 0.21362930536270142, + "step": 2306 + }, + { + "grad_norm": 0.36715665880859444, + "loss": 0.17093691229820251, + "step": 2307 + }, + { + "grad_norm": 0.3103641493076608, + "loss": 0.22648248076438904, + "step": 2308 + }, + { + "grad_norm": 0.124026958846053, + "loss": 0.19230622053146362, + "step": 2309 + }, + { + "epoch": 0.7392, + "grad_norm": 0.12402696162462234, + "learning_rate": 7.932854255558051e-05, + "loss": 0.202, + "step": 2310 + }, + { + "grad_norm": 0.16953308794134164, + "loss": 0.19397450983524323, + "step": 2310 + }, + { + "grad_norm": 0.3474090275243752, + "loss": 0.2035464495420456, + "step": 2311 + }, + { + "grad_norm": 0.2753643410919171, + "loss": 0.18547970056533813, + "step": 2312 + }, + { + "grad_norm": 0.19201011673420465, + "loss": 0.22602060437202454, + "step": 2313 + }, + { + "grad_norm": 0.3340340356233227, + "loss": 0.15457333624362946, + "step": 2314 + }, + { + "grad_norm": 0.26355416055253195, + "loss": 0.1631719022989273, + "step": 2315 + }, + { + "grad_norm": 0.23689927171840777, + "loss": 0.17158403992652893, + "step": 2316 + }, + { + "grad_norm": 0.3388247304775436, + "loss": 0.20460307598114014, + "step": 2317 + }, + { + "grad_norm": 0.15481614239435493, + "loss": 0.24239349365234375, + "step": 2318 + }, + { + "grad_norm": 0.14612216906706982, + "loss": 0.1774066984653473, + "step": 2319 + }, + { + "epoch": 0.7424, + "grad_norm": 0.14612217247486115, + "learning_rate": 7.921625870199866e-05, + "loss": 0.1923, + "step": 2320 + }, + { + "grad_norm": 0.20800412414506106, + "loss": 0.1455424576997757, + "step": 2320 + }, + { + "grad_norm": 0.508551438955952, + "loss": 0.2169066071510315, + "step": 2321 + }, + { + "grad_norm": 0.26002900727640177, + "loss": 0.17338603734970093, + "step": 2322 + }, + { + "grad_norm": 0.20447097536804293, + "loss": 0.16165515780448914, + "step": 2323 + }, + { + "grad_norm": 0.10092831846827978, + "loss": 0.1591705083847046, + "step": 2324 + }, + { + "grad_norm": 0.12836167850498537, + "loss": 0.16513678431510925, + "step": 2325 + }, + { + "grad_norm": 0.48201587354060327, + "loss": 0.26300257444381714, + "step": 2326 + }, + { + "grad_norm": 0.40385909558449656, + "loss": 0.22107231616973877, + "step": 2327 + }, + { + "grad_norm": 0.3759215807651523, + "loss": 0.16614964604377747, + "step": 2328 + }, + { + "grad_norm": 0.24147266498727116, + "loss": 0.19492921233177185, + "step": 2329 + }, + { + "epoch": 0.7456, + "grad_norm": 0.24147266149520874, + "learning_rate": 7.910397484841681e-05, + "loss": 0.1867, + "step": 2330 + }, + { + "grad_norm": 0.20098339160209827, + "loss": 0.23296281695365906, + "step": 2330 + }, + { + "grad_norm": 0.20950214045499407, + "loss": 0.16605304181575775, + "step": 2331 + }, + { + "grad_norm": 0.34184322965468, + "loss": 0.169793963432312, + "step": 2332 + }, + { + "grad_norm": 0.11933529255584988, + "loss": 0.15073058009147644, + "step": 2333 + }, + { + "grad_norm": 0.11621533699628286, + "loss": 0.19360162317752838, + "step": 2334 + }, + { + "grad_norm": 0.30555113339448037, + "loss": 0.22207576036453247, + "step": 2335 + }, + { + "grad_norm": 0.1811829218514506, + "loss": 0.17512187361717224, + "step": 2336 + }, + { + "grad_norm": 0.2791797202259722, + "loss": 0.18083922564983368, + "step": 2337 + }, + { + "grad_norm": 0.5816981649275984, + "loss": 0.36108797788619995, + "step": 2338 + }, + { + "grad_norm": 0.21704956448097418, + "loss": 0.153050035238266, + "step": 2339 + }, + { + "epoch": 0.7488, + "grad_norm": 0.21704956889152527, + "learning_rate": 7.899169099483495e-05, + "loss": 0.2005, + "step": 2340 + }, + { + "grad_norm": 0.2277966608467068, + "loss": 0.1679949164390564, + "step": 2340 + }, + { + "grad_norm": 0.38477006646540324, + "loss": 0.24850255250930786, + "step": 2341 + }, + { + "grad_norm": 0.22930566791099763, + "loss": 0.16037237644195557, + "step": 2342 + }, + { + "grad_norm": 0.3320664176211695, + "loss": 0.1712416112422943, + "step": 2343 + }, + { + "grad_norm": 0.179316119041946, + "loss": 0.15608389675617218, + "step": 2344 + }, + { + "grad_norm": 0.1591828165197384, + "loss": 0.18716830015182495, + "step": 2345 + }, + { + "grad_norm": 0.19253309515387595, + "loss": 0.2094016671180725, + "step": 2346 + }, + { + "grad_norm": 0.24405741021641672, + "loss": 0.1972004771232605, + "step": 2347 + }, + { + "grad_norm": 0.3558830288950077, + "loss": 0.22814197838306427, + "step": 2348 + }, + { + "grad_norm": 0.1305401135553298, + "loss": 0.17807897925376892, + "step": 2349 + }, + { + "epoch": 0.752, + "grad_norm": 0.13054011762142181, + "learning_rate": 7.887940714125309e-05, + "loss": 0.1904, + "step": 2350 + }, + { + "grad_norm": 0.13510600658947575, + "loss": 0.2018793225288391, + "step": 2350 + }, + { + "grad_norm": 0.100440939584505, + "loss": 0.1564496010541916, + "step": 2351 + }, + { + "grad_norm": 0.1843967437497678, + "loss": 0.2646336555480957, + "step": 2352 + }, + { + "grad_norm": 0.17262362938278453, + "loss": 0.21489308774471283, + "step": 2353 + }, + { + "grad_norm": 0.10599072935801264, + "loss": 0.20805642008781433, + "step": 2354 + }, + { + "grad_norm": 0.6817909314696299, + "loss": 0.19350826740264893, + "step": 2355 + }, + { + "grad_norm": 0.4370831425367261, + "loss": 0.25329554080963135, + "step": 2356 + }, + { + "grad_norm": 0.18947899752818909, + "loss": 0.2266385406255722, + "step": 2357 + }, + { + "grad_norm": 0.1411995044240613, + "loss": 0.200705885887146, + "step": 2358 + }, + { + "grad_norm": 0.20976079596786615, + "loss": 0.17137563228607178, + "step": 2359 + }, + { + "epoch": 0.7552, + "grad_norm": 0.20976080000400543, + "learning_rate": 7.876712328767124e-05, + "loss": 0.2091, + "step": 2360 + }, + { + "grad_norm": 0.1416939537789551, + "loss": 0.1853485405445099, + "step": 2360 + }, + { + "grad_norm": 0.17373606153760826, + "loss": 0.14795997738838196, + "step": 2361 + }, + { + "grad_norm": 0.1374410287876688, + "loss": 0.17304867506027222, + "step": 2362 + }, + { + "grad_norm": 0.15921332599076873, + "loss": 0.17299595475196838, + "step": 2363 + }, + { + "grad_norm": 0.2499568938294738, + "loss": 0.20604288578033447, + "step": 2364 + }, + { + "grad_norm": 0.20273524007376306, + "loss": 0.19354873895645142, + "step": 2365 + }, + { + "grad_norm": 0.1853410425905592, + "loss": 0.1720321923494339, + "step": 2366 + }, + { + "grad_norm": 0.14454101639187322, + "loss": 0.1855611503124237, + "step": 2367 + }, + { + "grad_norm": 0.15313089570065758, + "loss": 0.15014857053756714, + "step": 2368 + }, + { + "grad_norm": 0.18724185396256593, + "loss": 0.23202048242092133, + "step": 2369 + }, + { + "epoch": 0.7584, + "grad_norm": 0.1872418373823166, + "learning_rate": 7.865483943408937e-05, + "loss": 0.1819, + "step": 2370 + }, + { + "grad_norm": 0.16585294382964735, + "loss": 0.18417325615882874, + "step": 2370 + }, + { + "grad_norm": 0.18070274076057447, + "loss": 0.2025052309036255, + "step": 2371 + }, + { + "grad_norm": 0.16067098867455817, + "loss": 0.20611928403377533, + "step": 2372 + }, + { + "grad_norm": 0.29849167731745635, + "loss": 0.16478028893470764, + "step": 2373 + }, + { + "grad_norm": 0.16071977923477548, + "loss": 0.2207719087600708, + "step": 2374 + }, + { + "grad_norm": 0.45577225771545254, + "loss": 0.20684313774108887, + "step": 2375 + }, + { + "grad_norm": 0.1357741871731322, + "loss": 0.17197415232658386, + "step": 2376 + }, + { + "grad_norm": 0.1799530990239102, + "loss": 0.20859864354133606, + "step": 2377 + }, + { + "grad_norm": 0.1477904355498706, + "loss": 0.23799848556518555, + "step": 2378 + }, + { + "grad_norm": 0.11212967307690701, + "loss": 0.1576927900314331, + "step": 2379 + }, + { + "epoch": 0.7616, + "grad_norm": 0.11212967336177826, + "learning_rate": 7.854255558050752e-05, + "loss": 0.1961, + "step": 2380 + }, + { + "grad_norm": 0.35063430800649376, + "loss": 0.2524051070213318, + "step": 2380 + }, + { + "grad_norm": 0.191437414893708, + "loss": 0.17361244559288025, + "step": 2381 + }, + { + "grad_norm": 0.2643348395334709, + "loss": 0.20467180013656616, + "step": 2382 + }, + { + "grad_norm": 0.1994364385672045, + "loss": 0.2550029158592224, + "step": 2383 + }, + { + "grad_norm": 0.6433120112637583, + "loss": 0.20825693011283875, + "step": 2384 + }, + { + "grad_norm": 0.28032181293866704, + "loss": 0.19256897270679474, + "step": 2385 + }, + { + "grad_norm": 0.4659950560494387, + "loss": 0.17220035195350647, + "step": 2386 + }, + { + "grad_norm": 0.26976139795348997, + "loss": 0.17594239115715027, + "step": 2387 + }, + { + "grad_norm": 0.4586285869404247, + "loss": 0.2438645362854004, + "step": 2388 + }, + { + "grad_norm": 0.5194988653607732, + "loss": 0.18987330794334412, + "step": 2389 + }, + { + "epoch": 0.7648, + "grad_norm": 0.519498884677887, + "learning_rate": 7.843027172692568e-05, + "loss": 0.2068, + "step": 2390 + }, + { + "grad_norm": 0.46704628395202424, + "loss": 0.22294095158576965, + "step": 2390 + }, + { + "grad_norm": 0.17326398314700883, + "loss": 0.1986466497182846, + "step": 2391 + }, + { + "grad_norm": 0.3000807750386081, + "loss": 0.1472892165184021, + "step": 2392 + }, + { + "grad_norm": 0.23302805396404316, + "loss": 0.2025948464870453, + "step": 2393 + }, + { + "grad_norm": 0.18434102020663742, + "loss": 0.18144644796848297, + "step": 2394 + }, + { + "grad_norm": 0.12901552207969094, + "loss": 0.19968880712985992, + "step": 2395 + }, + { + "grad_norm": 0.2812332087842872, + "loss": 0.13950587809085846, + "step": 2396 + }, + { + "grad_norm": 0.17287025819897567, + "loss": 0.20148082077503204, + "step": 2397 + }, + { + "grad_norm": 0.27044960576436544, + "loss": 0.22105124592781067, + "step": 2398 + }, + { + "grad_norm": 0.1346292850790653, + "loss": 0.21533919870853424, + "step": 2399 + }, + { + "epoch": 0.768, + "grad_norm": 0.1346292942762375, + "learning_rate": 7.831798787334381e-05, + "loss": 0.193, + "step": 2400 + }, + { + "grad_norm": 0.4190064732231446, + "loss": 0.17872318625450134, + "step": 2400 + }, + { + "grad_norm": 0.20566268576082558, + "loss": 0.17720235884189606, + "step": 2401 + }, + { + "grad_norm": 0.2675904870692631, + "loss": 0.1843869984149933, + "step": 2402 + }, + { + "grad_norm": 0.23732810630997567, + "loss": 0.2265213131904602, + "step": 2403 + }, + { + "grad_norm": 0.3754512331751758, + "loss": 0.16307076811790466, + "step": 2404 + }, + { + "grad_norm": 0.14894287445581103, + "loss": 0.20074836909770966, + "step": 2405 + }, + { + "grad_norm": 0.22532051155003271, + "loss": 0.19511866569519043, + "step": 2406 + }, + { + "grad_norm": 0.14472616007202266, + "loss": 0.15454179048538208, + "step": 2407 + }, + { + "grad_norm": 0.21356593088492282, + "loss": 0.19787642359733582, + "step": 2408 + }, + { + "grad_norm": 0.09624541167656309, + "loss": 0.18292206525802612, + "step": 2409 + }, + { + "epoch": 0.7712, + "grad_norm": 0.0962454080581665, + "learning_rate": 7.820570401976196e-05, + "loss": 0.1861, + "step": 2410 + }, + { + "grad_norm": 0.18018532857941494, + "loss": 0.21353311836719513, + "step": 2410 + }, + { + "grad_norm": 0.5069053962145211, + "loss": 0.1962195187807083, + "step": 2411 + }, + { + "grad_norm": 0.18152018650997112, + "loss": 0.20473745465278625, + "step": 2412 + }, + { + "grad_norm": 0.20542270283477973, + "loss": 0.16998794674873352, + "step": 2413 + }, + { + "grad_norm": 0.11757227237282497, + "loss": 0.1310596466064453, + "step": 2414 + }, + { + "grad_norm": 0.23273555896143508, + "loss": 0.17240770161151886, + "step": 2415 + }, + { + "grad_norm": 0.23603729384031444, + "loss": 0.2115565538406372, + "step": 2416 + }, + { + "grad_norm": 0.25702087402269996, + "loss": 0.14719542860984802, + "step": 2417 + }, + { + "grad_norm": 0.20947989289109664, + "loss": 0.20442861318588257, + "step": 2418 + }, + { + "grad_norm": 0.12570427915760435, + "loss": 0.1555142104625702, + "step": 2419 + }, + { + "epoch": 0.7744, + "grad_norm": 0.12570427358150482, + "learning_rate": 7.809342016618011e-05, + "loss": 0.1807, + "step": 2420 + }, + { + "grad_norm": 0.11997455103372899, + "loss": 0.1679193675518036, + "step": 2420 + }, + { + "grad_norm": 0.26054668023482214, + "loss": 0.19849073886871338, + "step": 2421 + }, + { + "grad_norm": 0.2562061539802867, + "loss": 0.21714149415493011, + "step": 2422 + }, + { + "grad_norm": 0.20003212555417554, + "loss": 0.1601707637310028, + "step": 2423 + }, + { + "grad_norm": 0.18520275325067243, + "loss": 0.21564961969852448, + "step": 2424 + }, + { + "grad_norm": 0.09638927682868127, + "loss": 0.1805133819580078, + "step": 2425 + }, + { + "grad_norm": 0.15840239411436335, + "loss": 0.1482921838760376, + "step": 2426 + }, + { + "grad_norm": 0.20654623832022675, + "loss": 0.17563267052173615, + "step": 2427 + }, + { + "grad_norm": 0.15391633746938027, + "loss": 0.1626269519329071, + "step": 2428 + }, + { + "grad_norm": 0.16203444901808, + "loss": 0.16969852149486542, + "step": 2429 + }, + { + "epoch": 0.7776, + "grad_norm": 0.16203445196151733, + "learning_rate": 7.798113631259825e-05, + "loss": 0.1796, + "step": 2430 + }, + { + "grad_norm": 0.33866022953518393, + "loss": 0.22487765550613403, + "step": 2430 + }, + { + "grad_norm": 0.19654281149709915, + "loss": 0.1967431902885437, + "step": 2431 + }, + { + "grad_norm": 0.2465982167208326, + "loss": 0.2990081310272217, + "step": 2432 + }, + { + "grad_norm": 0.38645477732210565, + "loss": 0.16634076833724976, + "step": 2433 + }, + { + "grad_norm": 0.22397665536092992, + "loss": 0.16661390662193298, + "step": 2434 + }, + { + "grad_norm": 0.21329882213594312, + "loss": 0.23527085781097412, + "step": 2435 + }, + { + "grad_norm": 0.18924717628713827, + "loss": 0.1645980030298233, + "step": 2436 + }, + { + "grad_norm": 0.1662877721451272, + "loss": 0.16409321129322052, + "step": 2437 + }, + { + "grad_norm": 0.1445218019247525, + "loss": 0.1843785047531128, + "step": 2438 + }, + { + "grad_norm": 0.2533161742169476, + "loss": 0.18514259159564972, + "step": 2439 + }, + { + "epoch": 0.7808, + "grad_norm": 0.253316193819046, + "learning_rate": 7.78688524590164e-05, + "loss": 0.1987, + "step": 2440 + }, + { + "grad_norm": 0.20199772912481148, + "loss": 0.20987196266651154, + "step": 2440 + }, + { + "grad_norm": 0.16582530335486553, + "loss": 0.21222694218158722, + "step": 2441 + }, + { + "grad_norm": 0.1258770740780711, + "loss": 0.195374995470047, + "step": 2442 + }, + { + "grad_norm": 0.28231353110101093, + "loss": 0.20530156791210175, + "step": 2443 + }, + { + "grad_norm": 0.10343621614213828, + "loss": 0.18373644351959229, + "step": 2444 + }, + { + "grad_norm": 0.15698506275114255, + "loss": 0.15053126215934753, + "step": 2445 + }, + { + "grad_norm": 0.42321147753049165, + "loss": 0.2409266233444214, + "step": 2446 + }, + { + "grad_norm": 0.32284580277279723, + "loss": 0.28951331973075867, + "step": 2447 + }, + { + "grad_norm": 0.4112941947101392, + "loss": 0.18387335538864136, + "step": 2448 + }, + { + "grad_norm": 0.2773669257309108, + "loss": 0.2021891474723816, + "step": 2449 + }, + { + "epoch": 0.784, + "grad_norm": 0.27736690640449524, + "learning_rate": 7.775656860543454e-05, + "loss": 0.2074, + "step": 2450 + }, + { + "grad_norm": 0.34483528892328813, + "loss": 0.17905443906784058, + "step": 2450 + }, + { + "grad_norm": 0.27618836554068954, + "loss": 0.20005670189857483, + "step": 2451 + }, + { + "grad_norm": 0.09921413047937915, + "loss": 0.15230172872543335, + "step": 2452 + }, + { + "grad_norm": 0.15228740479403807, + "loss": 0.17824478447437286, + "step": 2453 + }, + { + "grad_norm": 0.3499711862404411, + "loss": 0.24191692471504211, + "step": 2454 + }, + { + "grad_norm": 0.1489883193391274, + "loss": 0.15638187527656555, + "step": 2455 + }, + { + "grad_norm": 0.1187883266822508, + "loss": 0.18726736307144165, + "step": 2456 + }, + { + "grad_norm": 0.2791470543905815, + "loss": 0.2278619408607483, + "step": 2457 + }, + { + "grad_norm": 0.13596840337038446, + "loss": 0.2189207822084427, + "step": 2458 + }, + { + "grad_norm": 0.29609182220584573, + "loss": 0.21180111169815063, + "step": 2459 + }, + { + "epoch": 0.7872, + "grad_norm": 0.29609182476997375, + "learning_rate": 7.764428475185269e-05, + "loss": 0.1954, + "step": 2460 + }, + { + "grad_norm": 0.24385108826550692, + "loss": 0.19718316197395325, + "step": 2460 + }, + { + "grad_norm": 0.2340819838021374, + "loss": 0.19392022490501404, + "step": 2461 + }, + { + "grad_norm": 0.33732085616656404, + "loss": 0.20256873965263367, + "step": 2462 + }, + { + "grad_norm": 0.20946511072780777, + "loss": 0.17755642533302307, + "step": 2463 + }, + { + "grad_norm": 0.11176978618427909, + "loss": 0.19790145754814148, + "step": 2464 + }, + { + "grad_norm": 0.19597459867135222, + "loss": 0.20376639068126678, + "step": 2465 + }, + { + "grad_norm": 0.10582671725642406, + "loss": 0.2078700065612793, + "step": 2466 + }, + { + "grad_norm": 0.1466352519472616, + "loss": 0.1696387678384781, + "step": 2467 + }, + { + "grad_norm": 0.3539973646196595, + "loss": 0.23017562925815582, + "step": 2468 + }, + { + "grad_norm": 0.12556336538868104, + "loss": 0.17538154125213623, + "step": 2469 + }, + { + "epoch": 0.7904, + "grad_norm": 0.1255633682012558, + "learning_rate": 7.753200089827083e-05, + "loss": 0.1956, + "step": 2470 + }, + { + "grad_norm": 0.4212882608233082, + "loss": 0.23498894274234772, + "step": 2470 + }, + { + "grad_norm": 0.2558531671550493, + "loss": 0.17969824373722076, + "step": 2471 + }, + { + "grad_norm": 0.19533903340330416, + "loss": 0.17883412539958954, + "step": 2472 + }, + { + "grad_norm": 0.34858796395258007, + "loss": 0.21504059433937073, + "step": 2473 + }, + { + "grad_norm": 0.27110433957958524, + "loss": 0.1895417422056198, + "step": 2474 + }, + { + "grad_norm": 0.11545512232359324, + "loss": 0.161823570728302, + "step": 2475 + }, + { + "grad_norm": 0.23593176089775073, + "loss": 0.1572137176990509, + "step": 2476 + }, + { + "grad_norm": 0.24010476237260095, + "loss": 0.21980968117713928, + "step": 2477 + }, + { + "grad_norm": 0.3692085946802319, + "loss": 0.21501734852790833, + "step": 2478 + }, + { + "grad_norm": 0.15914911402930937, + "loss": 0.2523110806941986, + "step": 2479 + }, + { + "epoch": 0.7936, + "grad_norm": 0.15914912521839142, + "learning_rate": 7.741971704468898e-05, + "loss": 0.2004, + "step": 2480 + }, + { + "grad_norm": 0.1161382137795871, + "loss": 0.2374461591243744, + "step": 2480 + }, + { + "grad_norm": 0.15803723896254615, + "loss": 0.22683817148208618, + "step": 2481 + }, + { + "grad_norm": 0.14554284579847576, + "loss": 0.16827233135700226, + "step": 2482 + }, + { + "grad_norm": 0.38504419086254366, + "loss": 0.1839408129453659, + "step": 2483 + }, + { + "grad_norm": 0.12965310559976756, + "loss": 0.2204049527645111, + "step": 2484 + }, + { + "grad_norm": 0.24626790772115542, + "loss": 0.17684313654899597, + "step": 2485 + }, + { + "grad_norm": 0.1506195525621317, + "loss": 0.15489636361598969, + "step": 2486 + }, + { + "grad_norm": 0.4544671335180102, + "loss": 0.20437949895858765, + "step": 2487 + }, + { + "grad_norm": 0.1466127681358269, + "loss": 0.23050688207149506, + "step": 2488 + }, + { + "grad_norm": 0.2549080187531724, + "loss": 0.2463371902704239, + "step": 2489 + }, + { + "epoch": 0.7968, + "grad_norm": 0.25490802526474, + "learning_rate": 7.730743319110713e-05, + "loss": 0.205, + "step": 2490 + }, + { + "grad_norm": 0.24121411193746375, + "loss": 0.22128266096115112, + "step": 2490 + }, + { + "grad_norm": 0.15014830458153117, + "loss": 0.2554340362548828, + "step": 2491 + }, + { + "grad_norm": 0.29249892196071486, + "loss": 0.23370333015918732, + "step": 2492 + }, + { + "grad_norm": 0.37442313184489556, + "loss": 0.24349671602249146, + "step": 2493 + }, + { + "grad_norm": 0.21898522219617253, + "loss": 0.17360253632068634, + "step": 2494 + }, + { + "grad_norm": 0.177999312296515, + "loss": 0.22612273693084717, + "step": 2495 + }, + { + "grad_norm": 0.26941469724471795, + "loss": 0.18542364239692688, + "step": 2496 + }, + { + "grad_norm": 0.2772505120483847, + "loss": 0.2293226271867752, + "step": 2497 + }, + { + "grad_norm": 0.161671378552688, + "loss": 0.22431142628192902, + "step": 2498 + }, + { + "grad_norm": 0.24118031738302975, + "loss": 0.19390426576137543, + "step": 2499 + }, + { + "epoch": 0.8, + "grad_norm": 0.24118031561374664, + "learning_rate": 7.719514933752526e-05, + "loss": 0.2187, + "step": 2500 + }, + { + "grad_norm": 0.20019592384189888, + "loss": 0.18147921562194824, + "step": 2500 + }, + { + "grad_norm": 0.16987095254266693, + "loss": 0.1461363583803177, + "step": 2501 + }, + { + "grad_norm": 0.1201223595158917, + "loss": 0.1856459379196167, + "step": 2502 + }, + { + "grad_norm": 0.17547834341128424, + "loss": 0.16910600662231445, + "step": 2503 + }, + { + "grad_norm": 0.19633265591583612, + "loss": 0.17277048528194427, + "step": 2504 + }, + { + "grad_norm": 0.18916824445195482, + "loss": 0.189712792634964, + "step": 2505 + }, + { + "grad_norm": 0.18143038508813183, + "loss": 0.17496174573898315, + "step": 2506 + }, + { + "grad_norm": 0.7110720031988801, + "loss": 0.2864551246166229, + "step": 2507 + }, + { + "grad_norm": 0.19006754515477062, + "loss": 0.20573528110980988, + "step": 2508 + }, + { + "grad_norm": 0.18467594866513107, + "loss": 0.18371912837028503, + "step": 2509 + }, + { + "epoch": 0.8032, + "grad_norm": 0.18467594683170319, + "learning_rate": 7.708286548394342e-05, + "loss": 0.1896, + "step": 2510 + }, + { + "grad_norm": 0.08972858536915101, + "loss": 0.19191843271255493, + "step": 2510 + }, + { + "grad_norm": 0.3734867323616851, + "loss": 0.18793106079101562, + "step": 2511 + }, + { + "grad_norm": 0.2902305352637147, + "loss": 0.19334621727466583, + "step": 2512 + }, + { + "grad_norm": 0.27363808610048274, + "loss": 0.22997212409973145, + "step": 2513 + }, + { + "grad_norm": 0.17577593081173354, + "loss": 0.2599559426307678, + "step": 2514 + }, + { + "grad_norm": 0.5020872011197169, + "loss": 0.18497201800346375, + "step": 2515 + }, + { + "grad_norm": 0.12559090286661953, + "loss": 0.20986972749233246, + "step": 2516 + }, + { + "grad_norm": 0.13975092297074565, + "loss": 0.19740046560764313, + "step": 2517 + }, + { + "grad_norm": 0.24383842371871975, + "loss": 0.19868215918540955, + "step": 2518 + }, + { + "grad_norm": 0.20041191821355409, + "loss": 0.18745404481887817, + "step": 2519 + }, + { + "epoch": 0.8064, + "grad_norm": 0.20041191577911377, + "learning_rate": 7.697058163036157e-05, + "loss": 0.2042, + "step": 2520 + }, + { + "grad_norm": 0.320055852046674, + "loss": 0.22689424455165863, + "step": 2520 + }, + { + "grad_norm": 0.3719663152852424, + "loss": 0.15643976628780365, + "step": 2521 + }, + { + "grad_norm": 0.3587179572787083, + "loss": 0.18605753779411316, + "step": 2522 + }, + { + "grad_norm": 0.568242970624657, + "loss": 0.2172328680753708, + "step": 2523 + }, + { + "grad_norm": 0.45032027471495556, + "loss": 0.3429926633834839, + "step": 2524 + }, + { + "grad_norm": 0.12509669954563643, + "loss": 0.17824338376522064, + "step": 2525 + }, + { + "grad_norm": 0.20310689833008516, + "loss": 0.2303164303302765, + "step": 2526 + }, + { + "grad_norm": 0.18790182557315518, + "loss": 0.2111031711101532, + "step": 2527 + }, + { + "grad_norm": 0.22574780692547372, + "loss": 0.19817796349525452, + "step": 2528 + }, + { + "grad_norm": 0.12200062709627882, + "loss": 0.2587401568889618, + "step": 2529 + }, + { + "epoch": 0.8096, + "grad_norm": 0.12200062721967697, + "learning_rate": 7.68582977767797e-05, + "loss": 0.2206, + "step": 2530 + }, + { + "grad_norm": 0.6236003380267149, + "loss": 0.17938172817230225, + "step": 2530 + }, + { + "grad_norm": 0.483921604959761, + "loss": 0.22083264589309692, + "step": 2531 + }, + { + "grad_norm": 0.3918696824135353, + "loss": 0.20969994366168976, + "step": 2532 + }, + { + "grad_norm": 0.21825676273949182, + "loss": 0.1785406768321991, + "step": 2533 + }, + { + "grad_norm": 0.22223816154880127, + "loss": 0.20490336418151855, + "step": 2534 + }, + { + "grad_norm": 0.13969869886370867, + "loss": 0.19347073137760162, + "step": 2535 + }, + { + "grad_norm": 0.23118312541329494, + "loss": 0.21395303308963776, + "step": 2536 + }, + { + "grad_norm": 0.133600301592525, + "loss": 0.16656845808029175, + "step": 2537 + }, + { + "grad_norm": 0.13607899267881027, + "loss": 0.2025756537914276, + "step": 2538 + }, + { + "grad_norm": 0.5114597499612763, + "loss": 0.16932439804077148, + "step": 2539 + }, + { + "epoch": 0.8128, + "grad_norm": 0.5114597678184509, + "learning_rate": 7.674601392319784e-05, + "loss": 0.1939, + "step": 2540 + }, + { + "grad_norm": 0.2646175996012034, + "loss": 0.2547536790370941, + "step": 2540 + }, + { + "grad_norm": 0.15419027621791798, + "loss": 0.17076179385185242, + "step": 2541 + }, + { + "grad_norm": 0.22178635007394537, + "loss": 0.2078361064195633, + "step": 2542 + }, + { + "grad_norm": 0.18011835205853807, + "loss": 0.151405930519104, + "step": 2543 + }, + { + "grad_norm": 0.08572652748593408, + "loss": 0.17878341674804688, + "step": 2544 + }, + { + "grad_norm": 0.35292412141638435, + "loss": 0.2006874829530716, + "step": 2545 + }, + { + "grad_norm": 0.15898595619635522, + "loss": 0.25374117493629456, + "step": 2546 + }, + { + "grad_norm": 0.31322173093412087, + "loss": 0.20694181323051453, + "step": 2547 + }, + { + "grad_norm": 0.4365771202699354, + "loss": 0.17872737348079681, + "step": 2548 + }, + { + "grad_norm": 0.20554993450292514, + "loss": 0.1793847680091858, + "step": 2549 + }, + { + "epoch": 0.816, + "grad_norm": 0.2055499255657196, + "learning_rate": 7.663373006961599e-05, + "loss": 0.1983, + "step": 2550 + }, + { + "grad_norm": 0.16637282898921682, + "loss": 0.15056690573692322, + "step": 2550 + }, + { + "grad_norm": 0.2745849383102997, + "loss": 0.2207706719636917, + "step": 2551 + }, + { + "grad_norm": 0.3207496471842331, + "loss": 0.20791815221309662, + "step": 2552 + }, + { + "grad_norm": 0.24497904836909473, + "loss": 0.19033846259117126, + "step": 2553 + }, + { + "grad_norm": 0.23752140012628148, + "loss": 0.20035415887832642, + "step": 2554 + }, + { + "grad_norm": 0.3231399404691465, + "loss": 0.19335240125656128, + "step": 2555 + }, + { + "grad_norm": 0.2493762505318695, + "loss": 0.2660973072052002, + "step": 2556 + }, + { + "grad_norm": 0.3031878835895195, + "loss": 0.3383900225162506, + "step": 2557 + }, + { + "grad_norm": 0.18901685728009163, + "loss": 0.1675207018852234, + "step": 2558 + }, + { + "grad_norm": 0.14392282588546834, + "loss": 0.1896902173757553, + "step": 2559 + }, + { + "epoch": 0.8192, + "grad_norm": 0.143922820687294, + "learning_rate": 7.652144621603414e-05, + "loss": 0.2125, + "step": 2560 + }, + { + "grad_norm": 0.12854331051384665, + "loss": 0.26729071140289307, + "step": 2560 + }, + { + "grad_norm": 0.19746018512067462, + "loss": 0.1603640913963318, + "step": 2561 + }, + { + "grad_norm": 0.1466781877430107, + "loss": 0.15591369569301605, + "step": 2562 + }, + { + "grad_norm": 0.09762932911204841, + "loss": 0.19218407571315765, + "step": 2563 + }, + { + "grad_norm": 0.21068044338376277, + "loss": 0.21190285682678223, + "step": 2564 + }, + { + "grad_norm": 0.09652121839904726, + "loss": 0.1679086685180664, + "step": 2565 + }, + { + "grad_norm": 0.10773485680835612, + "loss": 0.1725420355796814, + "step": 2566 + }, + { + "grad_norm": 0.3866282445011417, + "loss": 0.1731904149055481, + "step": 2567 + }, + { + "grad_norm": 0.3116207103406902, + "loss": 0.31296655535697937, + "step": 2568 + }, + { + "grad_norm": 0.23457649332571545, + "loss": 0.2272181212902069, + "step": 2569 + }, + { + "epoch": 0.8224, + "grad_norm": 0.2345764935016632, + "learning_rate": 7.640916236245228e-05, + "loss": 0.2041, + "step": 2570 + }, + { + "grad_norm": 0.16022216769621123, + "loss": 0.24353337287902832, + "step": 2570 + }, + { + "grad_norm": 0.26961293364804295, + "loss": 0.1584969162940979, + "step": 2571 + }, + { + "grad_norm": 0.1634143262886655, + "loss": 0.223127543926239, + "step": 2572 + }, + { + "grad_norm": 0.14342999036408646, + "loss": 0.1798396110534668, + "step": 2573 + }, + { + "grad_norm": 0.12766362635248185, + "loss": 0.17877990007400513, + "step": 2574 + }, + { + "grad_norm": 0.3973003995854436, + "loss": 0.2385917603969574, + "step": 2575 + }, + { + "grad_norm": 0.16428669341302912, + "loss": 0.21909907460212708, + "step": 2576 + }, + { + "grad_norm": 0.15285476754735464, + "loss": 0.1710287481546402, + "step": 2577 + }, + { + "grad_norm": 0.12360492923832414, + "loss": 0.17086893320083618, + "step": 2578 + }, + { + "grad_norm": 0.14161275356879383, + "loss": 0.19965805113315582, + "step": 2579 + }, + { + "epoch": 0.8256, + "grad_norm": 0.14161275327205658, + "learning_rate": 7.629687850887043e-05, + "loss": 0.1983, + "step": 2580 + }, + { + "grad_norm": 0.11977988753578012, + "loss": 0.18157541751861572, + "step": 2580 + }, + { + "grad_norm": 0.10119129445403946, + "loss": 0.20804353058338165, + "step": 2581 + }, + { + "grad_norm": 0.2834099670497886, + "loss": 0.17161615192890167, + "step": 2582 + }, + { + "grad_norm": 0.30989949059292293, + "loss": 0.1708582639694214, + "step": 2583 + }, + { + "grad_norm": 0.18519717150234596, + "loss": 0.16088193655014038, + "step": 2584 + }, + { + "grad_norm": 0.13856389050172646, + "loss": 0.19679203629493713, + "step": 2585 + }, + { + "grad_norm": 0.17552379267193874, + "loss": 0.17225360870361328, + "step": 2586 + }, + { + "grad_norm": 0.2065735469493425, + "loss": 0.20370489358901978, + "step": 2587 + }, + { + "grad_norm": 0.32228341950567946, + "loss": 0.1942352056503296, + "step": 2588 + }, + { + "grad_norm": 0.447735674273594, + "loss": 0.23595571517944336, + "step": 2589 + }, + { + "epoch": 0.8288, + "grad_norm": 0.4477356970310211, + "learning_rate": 7.618459465528858e-05, + "loss": 0.1896, + "step": 2590 + }, + { + "grad_norm": 0.31852204981967236, + "loss": 0.23061484098434448, + "step": 2590 + }, + { + "grad_norm": 0.1602149182609113, + "loss": 0.18389256298542023, + "step": 2591 + }, + { + "grad_norm": 0.2751404570026716, + "loss": 0.15980994701385498, + "step": 2592 + }, + { + "grad_norm": 0.18295516688754743, + "loss": 0.22198186814785004, + "step": 2593 + }, + { + "grad_norm": 0.4155008314887196, + "loss": 0.17673322558403015, + "step": 2594 + }, + { + "grad_norm": 0.2626079605845628, + "loss": 0.21097882091999054, + "step": 2595 + }, + { + "grad_norm": 0.11178194898104303, + "loss": 0.20477639138698578, + "step": 2596 + }, + { + "grad_norm": 0.11462185644035298, + "loss": 0.1823522299528122, + "step": 2597 + }, + { + "grad_norm": 0.26225312516639226, + "loss": 0.27642565965652466, + "step": 2598 + }, + { + "grad_norm": 0.32437454274235183, + "loss": 0.16490571200847626, + "step": 2599 + }, + { + "epoch": 0.832, + "grad_norm": 0.32437455654144287, + "learning_rate": 7.607231080170672e-05, + "loss": 0.2012, + "step": 2600 + }, + { + "grad_norm": 0.20425750481185465, + "loss": 0.1903066784143448, + "step": 2600 + }, + { + "grad_norm": 0.1262701648533719, + "loss": 0.20966410636901855, + "step": 2601 + }, + { + "grad_norm": 0.20182086365519103, + "loss": 0.23897670209407806, + "step": 2602 + }, + { + "grad_norm": 0.32226494872743355, + "loss": 0.18104560673236847, + "step": 2603 + }, + { + "grad_norm": 0.23414682274573603, + "loss": 0.2747890055179596, + "step": 2604 + }, + { + "grad_norm": 0.38960266102902436, + "loss": 0.2035956233739853, + "step": 2605 + }, + { + "grad_norm": 0.11810538076647598, + "loss": 0.1972474306821823, + "step": 2606 + }, + { + "grad_norm": 0.45767354674049976, + "loss": 0.2648038864135742, + "step": 2607 + }, + { + "grad_norm": 0.16252996911791961, + "loss": 0.20380455255508423, + "step": 2608 + }, + { + "grad_norm": 0.24398133537335573, + "loss": 0.2741450369358063, + "step": 2609 + }, + { + "epoch": 0.8352, + "grad_norm": 0.24398133158683777, + "learning_rate": 7.596002694812487e-05, + "loss": 0.2238, + "step": 2610 + }, + { + "grad_norm": 0.23129716502079165, + "loss": 0.16160739958286285, + "step": 2610 + }, + { + "grad_norm": 0.20400017350719668, + "loss": 0.17454893887043, + "step": 2611 + }, + { + "grad_norm": 0.18419396112409578, + "loss": 0.18563386797904968, + "step": 2612 + }, + { + "grad_norm": 0.20120421212926815, + "loss": 0.19879329204559326, + "step": 2613 + }, + { + "grad_norm": 0.144233901946767, + "loss": 0.2129984200000763, + "step": 2614 + }, + { + "grad_norm": 0.12585649118477066, + "loss": 0.1794969141483307, + "step": 2615 + }, + { + "grad_norm": 0.16794619373850758, + "loss": 0.14581310749053955, + "step": 2616 + }, + { + "grad_norm": 0.12082556058454325, + "loss": 0.2080976963043213, + "step": 2617 + }, + { + "grad_norm": 0.5258845383604018, + "loss": 0.21435225009918213, + "step": 2618 + }, + { + "grad_norm": 0.48176452097416783, + "loss": 0.1880662441253662, + "step": 2619 + }, + { + "epoch": 0.8384, + "grad_norm": 0.481764554977417, + "learning_rate": 7.5847743094543e-05, + "loss": 0.1869, + "step": 2620 + }, + { + "grad_norm": 0.16297506900102016, + "loss": 0.2026081085205078, + "step": 2620 + }, + { + "grad_norm": 0.27258682180400184, + "loss": 0.16666068136692047, + "step": 2621 + }, + { + "grad_norm": 0.2374403827440251, + "loss": 0.15676730871200562, + "step": 2622 + }, + { + "grad_norm": 0.18106345458808248, + "loss": 0.237959086894989, + "step": 2623 + }, + { + "grad_norm": 0.2208543366042096, + "loss": 0.15812762081623077, + "step": 2624 + }, + { + "grad_norm": 0.1750292928808384, + "loss": 0.1640646904706955, + "step": 2625 + }, + { + "grad_norm": 0.23319549974061465, + "loss": 0.19256101548671722, + "step": 2626 + }, + { + "grad_norm": 0.2322744085029916, + "loss": 0.1772729903459549, + "step": 2627 + }, + { + "grad_norm": 0.10897865533749279, + "loss": 0.16029465198516846, + "step": 2628 + }, + { + "grad_norm": 0.14867210420804935, + "loss": 0.19471997022628784, + "step": 2629 + }, + { + "epoch": 0.8416, + "grad_norm": 0.14867210388183594, + "learning_rate": 7.573545924096114e-05, + "loss": 0.1811, + "step": 2630 + }, + { + "grad_norm": 0.17641323262469646, + "loss": 0.19279144704341888, + "step": 2630 + }, + { + "grad_norm": 0.2209090495070704, + "loss": 0.25258350372314453, + "step": 2631 + }, + { + "grad_norm": 0.22146377854914143, + "loss": 0.26773256063461304, + "step": 2632 + }, + { + "grad_norm": 0.12708969072188211, + "loss": 0.17137162387371063, + "step": 2633 + }, + { + "grad_norm": 0.14897063938899716, + "loss": 0.21910057961940765, + "step": 2634 + }, + { + "grad_norm": 0.3203322983067786, + "loss": 0.2219187319278717, + "step": 2635 + }, + { + "grad_norm": 0.14683286366754628, + "loss": 0.1904347836971283, + "step": 2636 + }, + { + "grad_norm": 0.12526000846139887, + "loss": 0.251639187335968, + "step": 2637 + }, + { + "grad_norm": 0.26390007210119015, + "loss": 0.17421604692935944, + "step": 2638 + }, + { + "grad_norm": 0.13860155664800525, + "loss": 0.21038322150707245, + "step": 2639 + }, + { + "epoch": 0.8448, + "grad_norm": 0.13860155642032623, + "learning_rate": 7.562317538737929e-05, + "loss": 0.2152, + "step": 2640 + }, + { + "grad_norm": 0.22522585502673806, + "loss": 0.22365912795066833, + "step": 2640 + }, + { + "grad_norm": 0.17293870286235558, + "loss": 0.2110549807548523, + "step": 2641 + }, + { + "grad_norm": 0.28442079495804223, + "loss": 0.24357962608337402, + "step": 2642 + }, + { + "grad_norm": 0.2938942127320651, + "loss": 0.248952716588974, + "step": 2643 + }, + { + "grad_norm": 0.38779136813963905, + "loss": 0.1980006992816925, + "step": 2644 + }, + { + "grad_norm": 0.1513590558836564, + "loss": 0.2378404289484024, + "step": 2645 + }, + { + "grad_norm": 0.1296999326357965, + "loss": 0.23358456790447235, + "step": 2646 + }, + { + "grad_norm": 0.32893004861340625, + "loss": 0.20622190833091736, + "step": 2647 + }, + { + "grad_norm": 0.24002215650998482, + "loss": 0.20236678421497345, + "step": 2648 + }, + { + "grad_norm": 0.268653906973231, + "loss": 0.20355254411697388, + "step": 2649 + }, + { + "epoch": 0.848, + "grad_norm": 0.26865389943122864, + "learning_rate": 7.551089153379744e-05, + "loss": 0.2209, + "step": 2650 + }, + { + "grad_norm": 0.1165218325390953, + "loss": 0.24245905876159668, + "step": 2650 + }, + { + "grad_norm": 0.1580902161729857, + "loss": 0.22747160494327545, + "step": 2651 + }, + { + "grad_norm": 0.45874165520371823, + "loss": 0.171260803937912, + "step": 2652 + }, + { + "grad_norm": 0.1768338055272094, + "loss": 0.18992003798484802, + "step": 2653 + }, + { + "grad_norm": 0.2812340645529539, + "loss": 0.19890642166137695, + "step": 2654 + }, + { + "grad_norm": 0.1734862262752035, + "loss": 0.19152335822582245, + "step": 2655 + }, + { + "grad_norm": 0.12115122182201532, + "loss": 0.1518491506576538, + "step": 2656 + }, + { + "grad_norm": 0.14458227063573204, + "loss": 0.16470777988433838, + "step": 2657 + }, + { + "grad_norm": 0.38000599380224165, + "loss": 0.31102004647254944, + "step": 2658 + }, + { + "grad_norm": 0.19769036957961988, + "loss": 0.20736560225486755, + "step": 2659 + }, + { + "epoch": 0.8512, + "grad_norm": 0.19769036769866943, + "learning_rate": 7.53986076802156e-05, + "loss": 0.2056, + "step": 2660 + }, + { + "grad_norm": 0.10506223376490556, + "loss": 0.18802058696746826, + "step": 2660 + }, + { + "grad_norm": 0.2999520460915736, + "loss": 0.20143744349479675, + "step": 2661 + }, + { + "grad_norm": 0.20083087840828046, + "loss": 0.17595313489437103, + "step": 2662 + }, + { + "grad_norm": 0.27706184384166743, + "loss": 0.22058719396591187, + "step": 2663 + }, + { + "grad_norm": 0.3177429333520583, + "loss": 0.16555249691009521, + "step": 2664 + }, + { + "grad_norm": 0.24561744995156962, + "loss": 0.19711104035377502, + "step": 2665 + }, + { + "grad_norm": 0.11568390233251681, + "loss": 0.1860526204109192, + "step": 2666 + }, + { + "grad_norm": 0.1403722745758155, + "loss": 0.18980832397937775, + "step": 2667 + }, + { + "grad_norm": 0.21761618923239517, + "loss": 0.17252978682518005, + "step": 2668 + }, + { + "grad_norm": 0.08871612124126611, + "loss": 0.15504474937915802, + "step": 2669 + }, + { + "epoch": 0.8544, + "grad_norm": 0.08871612697839737, + "learning_rate": 7.528632382663373e-05, + "loss": 0.1852, + "step": 2670 + }, + { + "grad_norm": 0.36054396534271915, + "loss": 0.17409496009349823, + "step": 2670 + }, + { + "grad_norm": 0.13170592907624573, + "loss": 0.15173515677452087, + "step": 2671 + }, + { + "grad_norm": 0.39728479616800766, + "loss": 0.20372915267944336, + "step": 2672 + }, + { + "grad_norm": 0.10935836668376395, + "loss": 0.16509053111076355, + "step": 2673 + }, + { + "grad_norm": 0.20005760894944588, + "loss": 0.19401021301746368, + "step": 2674 + }, + { + "grad_norm": 0.4220587728177609, + "loss": 0.23448415100574493, + "step": 2675 + }, + { + "grad_norm": 0.314163766226989, + "loss": 0.18723976612091064, + "step": 2676 + }, + { + "grad_norm": 0.23423500616794096, + "loss": 0.14252722263336182, + "step": 2677 + }, + { + "grad_norm": 0.19588368086999336, + "loss": 0.1999235302209854, + "step": 2678 + }, + { + "grad_norm": 0.12152488899754758, + "loss": 0.20830325782299042, + "step": 2679 + }, + { + "epoch": 0.8576, + "grad_norm": 0.12152489274740219, + "learning_rate": 7.517403997305188e-05, + "loss": 0.1861, + "step": 2680 + }, + { + "grad_norm": 0.12870450363402433, + "loss": 0.21663498878479004, + "step": 2680 + }, + { + "grad_norm": 0.2613565943527116, + "loss": 0.16788719594478607, + "step": 2681 + }, + { + "grad_norm": 0.2528130897914655, + "loss": 0.20349664986133575, + "step": 2682 + }, + { + "grad_norm": 0.16720172058699834, + "loss": 0.16635330021381378, + "step": 2683 + }, + { + "grad_norm": 0.11898882089973489, + "loss": 0.16751380264759064, + "step": 2684 + }, + { + "grad_norm": 0.27144147328970314, + "loss": 0.17578741908073425, + "step": 2685 + }, + { + "grad_norm": 0.14966240007837187, + "loss": 0.15680627524852753, + "step": 2686 + }, + { + "grad_norm": 0.48011337210361743, + "loss": 0.21237888932228088, + "step": 2687 + }, + { + "grad_norm": 0.2724013692176695, + "loss": 0.2579708397388458, + "step": 2688 + }, + { + "grad_norm": 0.22325195534206968, + "loss": 0.2527301013469696, + "step": 2689 + }, + { + "epoch": 0.8608, + "grad_norm": 0.22325195372104645, + "learning_rate": 7.506175611947003e-05, + "loss": 0.1978, + "step": 2690 + }, + { + "grad_norm": 0.20706753644666023, + "loss": 0.1979268342256546, + "step": 2690 + }, + { + "grad_norm": 0.37010118042693435, + "loss": 0.1769457906484604, + "step": 2691 + }, + { + "grad_norm": 0.17361577511418955, + "loss": 0.26121971011161804, + "step": 2692 + }, + { + "grad_norm": 0.15342555383798265, + "loss": 0.1966305673122406, + "step": 2693 + }, + { + "grad_norm": 0.3401594852849084, + "loss": 0.259150892496109, + "step": 2694 + }, + { + "grad_norm": 0.27383648532010446, + "loss": 0.17628657817840576, + "step": 2695 + }, + { + "grad_norm": 0.30176803952210113, + "loss": 0.2143225371837616, + "step": 2696 + }, + { + "grad_norm": 0.15710812784912342, + "loss": 0.21121558547019958, + "step": 2697 + }, + { + "grad_norm": 0.43184943387910085, + "loss": 0.2963428199291229, + "step": 2698 + }, + { + "grad_norm": 0.3980352869321364, + "loss": 0.1820417046546936, + "step": 2699 + }, + { + "epoch": 0.864, + "grad_norm": 0.39803528785705566, + "learning_rate": 7.494947226588817e-05, + "loss": 0.2172, + "step": 2700 + }, + { + "grad_norm": 0.32958677425518873, + "loss": 0.18669112026691437, + "step": 2700 + }, + { + "grad_norm": 0.44591892340266037, + "loss": 0.20184949040412903, + "step": 2701 + }, + { + "grad_norm": 0.22690772005849336, + "loss": 0.19432024657726288, + "step": 2702 + }, + { + "grad_norm": 0.2154782692299889, + "loss": 0.1691046506166458, + "step": 2703 + }, + { + "grad_norm": 0.3045272608026388, + "loss": 0.2256779968738556, + "step": 2704 + }, + { + "grad_norm": 0.130111894145974, + "loss": 0.19775253534317017, + "step": 2705 + }, + { + "grad_norm": 0.14594116658288164, + "loss": 0.22643399238586426, + "step": 2706 + }, + { + "grad_norm": 0.42274233297039193, + "loss": 0.16741114854812622, + "step": 2707 + }, + { + "grad_norm": 0.20246304088785166, + "loss": 0.17472776770591736, + "step": 2708 + }, + { + "grad_norm": 0.16201450408350865, + "loss": 0.16682025790214539, + "step": 2709 + }, + { + "epoch": 0.8672, + "grad_norm": 0.16201449930667877, + "learning_rate": 7.483718841230631e-05, + "loss": 0.1911, + "step": 2710 + }, + { + "grad_norm": 0.3478439667699977, + "loss": 0.2384050041437149, + "step": 2710 + }, + { + "grad_norm": 0.18055694107015882, + "loss": 0.1807483732700348, + "step": 2711 + }, + { + "grad_norm": 0.16043929374702082, + "loss": 0.27725544571876526, + "step": 2712 + }, + { + "grad_norm": 0.189684324466667, + "loss": 0.1726379096508026, + "step": 2713 + }, + { + "grad_norm": 0.22830373751919178, + "loss": 0.23795586824417114, + "step": 2714 + }, + { + "grad_norm": 0.26442361475501874, + "loss": 0.205543652176857, + "step": 2715 + }, + { + "grad_norm": 0.48252131032372564, + "loss": 0.19504737854003906, + "step": 2716 + }, + { + "grad_norm": 0.30747330822503105, + "loss": 0.2594614326953888, + "step": 2717 + }, + { + "grad_norm": 0.15402826261161884, + "loss": 0.21653041243553162, + "step": 2718 + }, + { + "grad_norm": 0.08962103664983297, + "loss": 0.16207174956798553, + "step": 2719 + }, + { + "epoch": 0.8704, + "grad_norm": 0.08962103724479675, + "learning_rate": 7.472490455872446e-05, + "loss": 0.2146, + "step": 2720 + }, + { + "grad_norm": 0.3354991891279849, + "loss": 0.2154744267463684, + "step": 2720 + }, + { + "grad_norm": 0.34095536428883033, + "loss": 0.18447336554527283, + "step": 2721 + }, + { + "grad_norm": 0.17975522499594893, + "loss": 0.1887495070695877, + "step": 2722 + }, + { + "grad_norm": 0.1453207486736427, + "loss": 0.1719100922346115, + "step": 2723 + }, + { + "grad_norm": 0.25221225334631187, + "loss": 0.1750992238521576, + "step": 2724 + }, + { + "grad_norm": 0.21662742980507857, + "loss": 0.17283476889133453, + "step": 2725 + }, + { + "grad_norm": 0.20690216805729109, + "loss": 0.18527007102966309, + "step": 2726 + }, + { + "grad_norm": 0.2675917550600884, + "loss": 0.1610592007637024, + "step": 2727 + }, + { + "grad_norm": 0.20653361133152384, + "loss": 0.21319998800754547, + "step": 2728 + }, + { + "grad_norm": 0.20119925129458127, + "loss": 0.19828903675079346, + "step": 2729 + }, + { + "epoch": 0.8736, + "grad_norm": 0.2011992633342743, + "learning_rate": 7.46126207051426e-05, + "loss": 0.1866, + "step": 2730 + }, + { + "grad_norm": 0.20550738771900626, + "loss": 0.23026087880134583, + "step": 2730 + }, + { + "grad_norm": 0.11655820745210657, + "loss": 0.18868091702461243, + "step": 2731 + }, + { + "grad_norm": 0.2898669117563726, + "loss": 0.2031431943178177, + "step": 2732 + }, + { + "grad_norm": 0.23650431544464184, + "loss": 0.1657264232635498, + "step": 2733 + }, + { + "grad_norm": 0.269542057192715, + "loss": 0.15921545028686523, + "step": 2734 + }, + { + "grad_norm": 0.09875405335735184, + "loss": 0.17090877890586853, + "step": 2735 + }, + { + "grad_norm": 0.40535972523517166, + "loss": 0.1996825933456421, + "step": 2736 + }, + { + "grad_norm": 0.13951760446810255, + "loss": 0.16969597339630127, + "step": 2737 + }, + { + "grad_norm": 0.257442529371064, + "loss": 0.18203961849212646, + "step": 2738 + }, + { + "grad_norm": 0.33954026802300097, + "loss": 0.2168998122215271, + "step": 2739 + }, + { + "epoch": 0.8768, + "grad_norm": 0.3395402729511261, + "learning_rate": 7.450033685156075e-05, + "loss": 0.1886, + "step": 2740 + }, + { + "grad_norm": 0.14608149135140913, + "loss": 0.1709381490945816, + "step": 2740 + }, + { + "grad_norm": 0.21583447125951002, + "loss": 0.15239915251731873, + "step": 2741 + }, + { + "grad_norm": 0.1120708712197268, + "loss": 0.2046341449022293, + "step": 2742 + }, + { + "grad_norm": 0.17925236352382093, + "loss": 0.16014321148395538, + "step": 2743 + }, + { + "grad_norm": 0.22709184754220493, + "loss": 0.21565935015678406, + "step": 2744 + }, + { + "grad_norm": 0.16861501585966646, + "loss": 0.1820816993713379, + "step": 2745 + }, + { + "grad_norm": 0.14322675198328358, + "loss": 0.20034678280353546, + "step": 2746 + }, + { + "grad_norm": 0.12487004584480026, + "loss": 0.1497756540775299, + "step": 2747 + }, + { + "grad_norm": 0.16626005223384432, + "loss": 0.2685554623603821, + "step": 2748 + }, + { + "grad_norm": 0.19809774320942108, + "loss": 0.21515004336833954, + "step": 2749 + }, + { + "epoch": 0.88, + "grad_norm": 0.19809773564338684, + "learning_rate": 7.43880529979789e-05, + "loss": 0.192, + "step": 2750 + }, + { + "grad_norm": 0.16481475254445485, + "loss": 0.20474427938461304, + "step": 2750 + }, + { + "grad_norm": 1.4775709592787885, + "loss": 0.5224034786224365, + "step": 2751 + }, + { + "grad_norm": 0.23083316459336878, + "loss": 0.20482413470745087, + "step": 2752 + }, + { + "grad_norm": 0.21438040901037111, + "loss": 0.180891215801239, + "step": 2753 + }, + { + "grad_norm": 0.1019306147415515, + "loss": 0.19538961350917816, + "step": 2754 + }, + { + "grad_norm": 0.10082991519721808, + "loss": 0.16838668286800385, + "step": 2755 + }, + { + "grad_norm": 0.23165345908189044, + "loss": 0.1766476184129715, + "step": 2756 + }, + { + "grad_norm": 0.1281078667145894, + "loss": 0.18746373057365417, + "step": 2757 + }, + { + "grad_norm": 0.09478910228730975, + "loss": 0.18397831916809082, + "step": 2758 + }, + { + "grad_norm": 0.1411229788583289, + "loss": 0.2390172928571701, + "step": 2759 + }, + { + "epoch": 0.8832, + "grad_norm": 0.1411229819059372, + "learning_rate": 7.427576914439703e-05, + "loss": 0.2264, + "step": 2760 + }, + { + "grad_norm": 0.2191838149174983, + "loss": 0.19913631677627563, + "step": 2760 + }, + { + "grad_norm": 0.17390811067474884, + "loss": 0.21909794211387634, + "step": 2761 + }, + { + "grad_norm": 0.17914643515121512, + "loss": 0.24734798073768616, + "step": 2762 + }, + { + "grad_norm": 0.39509980468742945, + "loss": 0.15521946549415588, + "step": 2763 + }, + { + "grad_norm": 0.15082236782034358, + "loss": 0.18474048376083374, + "step": 2764 + }, + { + "grad_norm": 0.3643245971867377, + "loss": 0.24599306285381317, + "step": 2765 + }, + { + "grad_norm": 0.12729112707004422, + "loss": 0.2057923674583435, + "step": 2766 + }, + { + "grad_norm": 0.30663387520438257, + "loss": 0.2472628355026245, + "step": 2767 + }, + { + "grad_norm": 0.17945555392973825, + "loss": 0.16574516892433167, + "step": 2768 + }, + { + "grad_norm": 0.4905540613487892, + "loss": 0.30627304315567017, + "step": 2769 + }, + { + "epoch": 0.8864, + "grad_norm": 0.4905540645122528, + "learning_rate": 7.416348529081518e-05, + "loss": 0.2177, + "step": 2770 + }, + { + "grad_norm": 0.3137619124351498, + "loss": 0.16964225471019745, + "step": 2770 + }, + { + "grad_norm": 0.11752467055998302, + "loss": 0.16693086922168732, + "step": 2771 + }, + { + "grad_norm": 0.23421607434205563, + "loss": 0.2362518310546875, + "step": 2772 + }, + { + "grad_norm": 0.11270239236695995, + "loss": 0.2082962989807129, + "step": 2773 + }, + { + "grad_norm": 0.2059399192719377, + "loss": 0.26376503705978394, + "step": 2774 + }, + { + "grad_norm": 0.28370506950305063, + "loss": 0.2106957882642746, + "step": 2775 + }, + { + "grad_norm": 0.20531129171969448, + "loss": 0.1706426739692688, + "step": 2776 + }, + { + "grad_norm": 0.17425948926288168, + "loss": 0.21092213690280914, + "step": 2777 + }, + { + "grad_norm": 0.23492802341991878, + "loss": 0.220994234085083, + "step": 2778 + }, + { + "grad_norm": 0.26518194227524294, + "loss": 0.1531490832567215, + "step": 2779 + }, + { + "epoch": 0.8896, + "grad_norm": 0.26518192887306213, + "learning_rate": 7.405120143723333e-05, + "loss": 0.2011, + "step": 2780 + }, + { + "grad_norm": 0.1672569612343051, + "loss": 0.18726840615272522, + "step": 2780 + }, + { + "grad_norm": 0.33856796117305604, + "loss": 0.19343924522399902, + "step": 2781 + }, + { + "grad_norm": 0.16620752220548193, + "loss": 0.24148283898830414, + "step": 2782 + }, + { + "grad_norm": 0.4265102037725028, + "loss": 0.22570285201072693, + "step": 2783 + }, + { + "grad_norm": 0.2272956374766615, + "loss": 0.18958719074726105, + "step": 2784 + }, + { + "grad_norm": 0.12602142956781578, + "loss": 0.15633225440979004, + "step": 2785 + }, + { + "grad_norm": 0.23734742218627294, + "loss": 0.18652789294719696, + "step": 2786 + }, + { + "grad_norm": 0.21530174934186916, + "loss": 0.24254029989242554, + "step": 2787 + }, + { + "grad_norm": 0.13932279697537528, + "loss": 0.15773507952690125, + "step": 2788 + }, + { + "grad_norm": 0.2268215750299931, + "loss": 0.18948066234588623, + "step": 2789 + }, + { + "epoch": 0.8928, + "grad_norm": 0.22682157158851624, + "learning_rate": 7.393891758365149e-05, + "loss": 0.197, + "step": 2790 + }, + { + "grad_norm": 0.14884820143255142, + "loss": 0.2073041796684265, + "step": 2790 + }, + { + "grad_norm": 0.3552297630461306, + "loss": 0.2273872196674347, + "step": 2791 + }, + { + "grad_norm": 0.301412106324951, + "loss": 0.20340710878372192, + "step": 2792 + }, + { + "grad_norm": 0.29377228593320787, + "loss": 0.17762190103530884, + "step": 2793 + }, + { + "grad_norm": 0.13654302366610493, + "loss": 0.25460493564605713, + "step": 2794 + }, + { + "grad_norm": 0.275299207241149, + "loss": 0.18242807686328888, + "step": 2795 + }, + { + "grad_norm": 0.21082799812654174, + "loss": 0.16690555214881897, + "step": 2796 + }, + { + "grad_norm": 0.15966438951027823, + "loss": 0.1738983392715454, + "step": 2797 + }, + { + "grad_norm": 0.28182389164632565, + "loss": 0.208981454372406, + "step": 2798 + }, + { + "grad_norm": 0.20984944336677758, + "loss": 0.20557813346385956, + "step": 2799 + }, + { + "epoch": 0.896, + "grad_norm": 0.20984944701194763, + "learning_rate": 7.382663373006962e-05, + "loss": 0.2008, + "step": 2800 + }, + { + "grad_norm": 0.14952117327450926, + "loss": 0.2320428192615509, + "step": 2800 + }, + { + "grad_norm": 0.3671739945264459, + "loss": 0.18061032891273499, + "step": 2801 + }, + { + "grad_norm": 0.1535436192750091, + "loss": 0.169584721326828, + "step": 2802 + }, + { + "grad_norm": 0.16564222763199446, + "loss": 0.21811841428279877, + "step": 2803 + }, + { + "grad_norm": 0.22097392423859225, + "loss": 0.24345263838768005, + "step": 2804 + }, + { + "grad_norm": 0.16140888501286388, + "loss": 0.20622320473194122, + "step": 2805 + }, + { + "grad_norm": 0.3350867026702655, + "loss": 0.17437593638896942, + "step": 2806 + }, + { + "grad_norm": 0.19014021936768621, + "loss": 0.21295633912086487, + "step": 2807 + }, + { + "grad_norm": 0.10715459662936602, + "loss": 0.19699206948280334, + "step": 2808 + }, + { + "grad_norm": 0.09985147335359831, + "loss": 0.18280646204948425, + "step": 2809 + }, + { + "epoch": 0.8992, + "grad_norm": 0.09985147416591644, + "learning_rate": 7.371434987648776e-05, + "loss": 0.2017, + "step": 2810 + }, + { + "grad_norm": 0.16697063827151215, + "loss": 0.18163561820983887, + "step": 2810 + }, + { + "grad_norm": 0.1689382098229382, + "loss": 0.1641915738582611, + "step": 2811 + }, + { + "grad_norm": 0.4985649793059945, + "loss": 0.26162657141685486, + "step": 2812 + }, + { + "grad_norm": 0.19963622580622453, + "loss": 0.19161266088485718, + "step": 2813 + }, + { + "grad_norm": 0.13105478857845515, + "loss": 0.17352667450904846, + "step": 2814 + }, + { + "grad_norm": 0.18645206460888505, + "loss": 0.19096672534942627, + "step": 2815 + }, + { + "grad_norm": 0.19575213183289028, + "loss": 0.2075011134147644, + "step": 2816 + }, + { + "grad_norm": 0.1514758180304899, + "loss": 0.1803949475288391, + "step": 2817 + }, + { + "grad_norm": 0.247000297510619, + "loss": 0.24070890247821808, + "step": 2818 + }, + { + "grad_norm": 0.13415023939326715, + "loss": 0.16072869300842285, + "step": 2819 + }, + { + "epoch": 0.9024, + "grad_norm": 0.13415023684501648, + "learning_rate": 7.360206602290591e-05, + "loss": 0.1953, + "step": 2820 + }, + { + "grad_norm": 0.22566430672566173, + "loss": 0.200810968875885, + "step": 2820 + }, + { + "grad_norm": 0.3157929845896059, + "loss": 0.24733498692512512, + "step": 2821 + }, + { + "grad_norm": 0.18716678860096117, + "loss": 0.2132091075181961, + "step": 2822 + }, + { + "grad_norm": 0.14278537936883937, + "loss": 0.22219720482826233, + "step": 2823 + }, + { + "grad_norm": 0.14674999886897283, + "loss": 0.16701358556747437, + "step": 2824 + }, + { + "grad_norm": 0.19017967662118607, + "loss": 0.1777379959821701, + "step": 2825 + }, + { + "grad_norm": 0.1819433544360122, + "loss": 0.22414743900299072, + "step": 2826 + }, + { + "grad_norm": 0.21725856685289258, + "loss": 0.18629631400108337, + "step": 2827 + }, + { + "grad_norm": 0.22271890935579622, + "loss": 0.18626663088798523, + "step": 2828 + }, + { + "grad_norm": 0.1196976651359743, + "loss": 0.2118910253047943, + "step": 2829 + }, + { + "epoch": 0.9056, + "grad_norm": 0.11969766020774841, + "learning_rate": 7.348978216932405e-05, + "loss": 0.2037, + "step": 2830 + }, + { + "grad_norm": 0.18653425364812065, + "loss": 0.2076541632413864, + "step": 2830 + }, + { + "grad_norm": 0.24967431525222372, + "loss": 0.2147432416677475, + "step": 2831 + }, + { + "grad_norm": 0.12601945825407232, + "loss": 0.21318906545639038, + "step": 2832 + }, + { + "grad_norm": 0.24121307563180078, + "loss": 0.20372113585472107, + "step": 2833 + }, + { + "grad_norm": 0.21921942572467315, + "loss": 0.18073031306266785, + "step": 2834 + }, + { + "grad_norm": 0.14990726068818488, + "loss": 0.1612972468137741, + "step": 2835 + }, + { + "grad_norm": 0.16036830425701704, + "loss": 0.20646247267723083, + "step": 2836 + }, + { + "grad_norm": 0.13593970655119972, + "loss": 0.18046066164970398, + "step": 2837 + }, + { + "grad_norm": 0.1463822406568126, + "loss": 0.1753920614719391, + "step": 2838 + }, + { + "grad_norm": 0.148789153109042, + "loss": 0.20286092162132263, + "step": 2839 + }, + { + "epoch": 0.9088, + "grad_norm": 0.1487891525030136, + "learning_rate": 7.33774983157422e-05, + "loss": 0.1947, + "step": 2840 + }, + { + "grad_norm": 0.46522848071473294, + "loss": 0.247630313038826, + "step": 2840 + }, + { + "grad_norm": 0.2001507716382215, + "loss": 0.2000468373298645, + "step": 2841 + }, + { + "grad_norm": 0.3351926297461861, + "loss": 0.2298918068408966, + "step": 2842 + }, + { + "grad_norm": 0.1259196075740018, + "loss": 0.16791534423828125, + "step": 2843 + }, + { + "grad_norm": 0.18571485607089608, + "loss": 0.17716777324676514, + "step": 2844 + }, + { + "grad_norm": 0.21732882251613905, + "loss": 0.18368622660636902, + "step": 2845 + }, + { + "grad_norm": 0.21902093669122272, + "loss": 0.238327294588089, + "step": 2846 + }, + { + "grad_norm": 0.0994497417884808, + "loss": 0.1810821294784546, + "step": 2847 + }, + { + "grad_norm": 0.12997528184450244, + "loss": 0.1727808266878128, + "step": 2848 + }, + { + "grad_norm": 0.42172974270886476, + "loss": 0.16382329165935516, + "step": 2849 + }, + { + "epoch": 0.912, + "grad_norm": 0.4217297434806824, + "learning_rate": 7.326521446216035e-05, + "loss": 0.1962, + "step": 2850 + }, + { + "grad_norm": 0.43333777105508736, + "loss": 0.2055153250694275, + "step": 2850 + }, + { + "grad_norm": 0.17303679060960156, + "loss": 0.18065078556537628, + "step": 2851 + }, + { + "grad_norm": 0.14130549618085017, + "loss": 0.18329009413719177, + "step": 2852 + }, + { + "grad_norm": 0.33675201700015084, + "loss": 0.1758393496274948, + "step": 2853 + }, + { + "grad_norm": 0.3152660959365561, + "loss": 0.19522178173065186, + "step": 2854 + }, + { + "grad_norm": 0.3156065520545486, + "loss": 0.2236938625574112, + "step": 2855 + }, + { + "grad_norm": 0.1509490651366889, + "loss": 0.1365281641483307, + "step": 2856 + }, + { + "grad_norm": 0.12211517212112101, + "loss": 0.15370944142341614, + "step": 2857 + }, + { + "grad_norm": 0.1460158544707857, + "loss": 0.2116803675889969, + "step": 2858 + }, + { + "grad_norm": 0.13667447272350564, + "loss": 0.22033849358558655, + "step": 2859 + }, + { + "epoch": 0.9152, + "grad_norm": 0.13667447865009308, + "learning_rate": 7.315293060857849e-05, + "loss": 0.1886, + "step": 2860 + }, + { + "grad_norm": 0.07423147833344909, + "loss": 0.14108192920684814, + "step": 2860 + }, + { + "grad_norm": 0.13082740112224278, + "loss": 0.17696373164653778, + "step": 2861 + }, + { + "grad_norm": 0.238263206487738, + "loss": 0.17708638310432434, + "step": 2862 + }, + { + "grad_norm": 0.27830142701538946, + "loss": 0.20877070724964142, + "step": 2863 + }, + { + "grad_norm": 0.09321759393177312, + "loss": 0.19595488905906677, + "step": 2864 + }, + { + "grad_norm": 0.10648536061987898, + "loss": 0.22947651147842407, + "step": 2865 + }, + { + "grad_norm": 0.37739380004913403, + "loss": 0.17655061185359955, + "step": 2866 + }, + { + "grad_norm": 0.16540317691703507, + "loss": 0.20272642374038696, + "step": 2867 + }, + { + "grad_norm": 0.43486811580317636, + "loss": 0.16870644688606262, + "step": 2868 + }, + { + "grad_norm": 0.3455917079681989, + "loss": 0.25642794370651245, + "step": 2869 + }, + { + "epoch": 0.9184, + "grad_norm": 0.3455916941165924, + "learning_rate": 7.304064675499664e-05, + "loss": 0.1934, + "step": 2870 + }, + { + "grad_norm": 0.3007695936362134, + "loss": 0.2148369699716568, + "step": 2870 + }, + { + "grad_norm": 0.26702097719688694, + "loss": 0.16028645634651184, + "step": 2871 + }, + { + "grad_norm": 0.14366165129818784, + "loss": 0.18066999316215515, + "step": 2872 + }, + { + "grad_norm": 0.402620235969086, + "loss": 0.29721683263778687, + "step": 2873 + }, + { + "grad_norm": 0.11479527763464438, + "loss": 0.1768260896205902, + "step": 2874 + }, + { + "grad_norm": 0.09633338261506032, + "loss": 0.14644691348075867, + "step": 2875 + }, + { + "grad_norm": 0.4923357906779734, + "loss": 0.2785774767398834, + "step": 2876 + }, + { + "grad_norm": 0.3030852582263181, + "loss": 0.26496607065200806, + "step": 2877 + }, + { + "grad_norm": 0.12253857000756296, + "loss": 0.17339107394218445, + "step": 2878 + }, + { + "grad_norm": 0.18731869732160852, + "loss": 0.1957639753818512, + "step": 2879 + }, + { + "epoch": 0.9216, + "grad_norm": 0.18731869757175446, + "learning_rate": 7.292836290141479e-05, + "loss": 0.2089, + "step": 2880 + }, + { + "grad_norm": 0.21766212350282213, + "loss": 0.21336999535560608, + "step": 2880 + }, + { + "grad_norm": 0.13922995541462774, + "loss": 0.1669565737247467, + "step": 2881 + }, + { + "grad_norm": 0.1980946529842073, + "loss": 0.21609678864479065, + "step": 2882 + }, + { + "grad_norm": 0.16735516422948057, + "loss": 0.21382656693458557, + "step": 2883 + }, + { + "grad_norm": 0.5292318845354592, + "loss": 0.27249717712402344, + "step": 2884 + }, + { + "grad_norm": 0.1880151991728578, + "loss": 0.2172345519065857, + "step": 2885 + }, + { + "grad_norm": 0.10605653347414828, + "loss": 0.18123915791511536, + "step": 2886 + }, + { + "grad_norm": 0.3708179903963005, + "loss": 0.15113399922847748, + "step": 2887 + }, + { + "grad_norm": 0.2916640371240075, + "loss": 0.16810841858386993, + "step": 2888 + }, + { + "grad_norm": 0.14637392086795056, + "loss": 0.17739266157150269, + "step": 2889 + }, + { + "epoch": 0.9248, + "grad_norm": 0.14637391269207, + "learning_rate": 7.281607904783292e-05, + "loss": 0.1978, + "step": 2890 + }, + { + "grad_norm": 0.3990544437009451, + "loss": 0.187772735953331, + "step": 2890 + }, + { + "grad_norm": 0.15195094145048973, + "loss": 0.18742768466472626, + "step": 2891 + }, + { + "grad_norm": 0.25675175284897994, + "loss": 0.1584615409374237, + "step": 2892 + }, + { + "grad_norm": 0.14199301729257297, + "loss": 0.1966761201620102, + "step": 2893 + }, + { + "grad_norm": 0.33046517785765095, + "loss": 0.2336084246635437, + "step": 2894 + }, + { + "grad_norm": 0.24446792902030803, + "loss": 0.1968124657869339, + "step": 2895 + }, + { + "grad_norm": 0.10986204941111428, + "loss": 0.189984530210495, + "step": 2896 + }, + { + "grad_norm": 0.22621867547621083, + "loss": 0.18300968408584595, + "step": 2897 + }, + { + "grad_norm": 0.16181829034300493, + "loss": 0.19658483564853668, + "step": 2898 + }, + { + "grad_norm": 0.1962574081815654, + "loss": 0.17766273021697998, + "step": 2899 + }, + { + "epoch": 0.928, + "grad_norm": 0.19625739753246307, + "learning_rate": 7.270379519425106e-05, + "loss": 0.1908, + "step": 2900 + }, + { + "grad_norm": 0.22345514136722167, + "loss": 0.17931661009788513, + "step": 2900 + }, + { + "grad_norm": 0.10962224052175974, + "loss": 0.18484942615032196, + "step": 2901 + }, + { + "grad_norm": 0.2176932310580371, + "loss": 0.14214767515659332, + "step": 2902 + }, + { + "grad_norm": 0.11976925158327222, + "loss": 0.1746828258037567, + "step": 2903 + }, + { + "grad_norm": 0.2016096529208388, + "loss": 0.2057947963476181, + "step": 2904 + }, + { + "grad_norm": 0.29012050458978633, + "loss": 0.18737196922302246, + "step": 2905 + }, + { + "grad_norm": 0.4362600193017104, + "loss": 0.20625479519367218, + "step": 2906 + }, + { + "grad_norm": 0.3597408592065353, + "loss": 0.20544859766960144, + "step": 2907 + }, + { + "grad_norm": 0.1944337622973054, + "loss": 0.22445888817310333, + "step": 2908 + }, + { + "grad_norm": 0.2700034696551887, + "loss": 0.1641090363264084, + "step": 2909 + }, + { + "epoch": 0.9312, + "grad_norm": 0.27000346779823303, + "learning_rate": 7.259151134066921e-05, + "loss": 0.1874, + "step": 2910 + }, + { + "grad_norm": 0.20020544227535392, + "loss": 0.21815679967403412, + "step": 2910 + }, + { + "grad_norm": 0.13891830055719223, + "loss": 0.21166503429412842, + "step": 2911 + }, + { + "grad_norm": 0.18291005503231209, + "loss": 0.1922890543937683, + "step": 2912 + }, + { + "grad_norm": 0.18549934234115348, + "loss": 0.1888733208179474, + "step": 2913 + }, + { + "grad_norm": 0.24477774911788666, + "loss": 0.1902526468038559, + "step": 2914 + }, + { + "grad_norm": 0.14158752563091107, + "loss": 0.22867627441883087, + "step": 2915 + }, + { + "grad_norm": 0.15971516094686436, + "loss": 0.17117607593536377, + "step": 2916 + }, + { + "grad_norm": 0.35958718820481433, + "loss": 0.1915283203125, + "step": 2917 + }, + { + "grad_norm": 0.13007641311360404, + "loss": 0.24940155446529388, + "step": 2918 + }, + { + "grad_norm": 0.28899986917930015, + "loss": 0.24076370894908905, + "step": 2919 + }, + { + "epoch": 0.9344, + "grad_norm": 0.28899985551834106, + "learning_rate": 7.247922748708736e-05, + "loss": 0.2083, + "step": 2920 + }, + { + "grad_norm": 0.24183270446974744, + "loss": 0.20781761407852173, + "step": 2920 + }, + { + "grad_norm": 0.34124658907145067, + "loss": 0.23855656385421753, + "step": 2921 + }, + { + "grad_norm": 0.20783117715744015, + "loss": 0.2236444503068924, + "step": 2922 + }, + { + "grad_norm": 0.15801845941031836, + "loss": 0.2042422890663147, + "step": 2923 + }, + { + "grad_norm": 0.18871227406268626, + "loss": 0.19228525459766388, + "step": 2924 + }, + { + "grad_norm": 0.29739071224771885, + "loss": 0.1597738265991211, + "step": 2925 + }, + { + "grad_norm": 0.1280352332475535, + "loss": 0.22395804524421692, + "step": 2926 + }, + { + "grad_norm": 0.5016798649544761, + "loss": 0.22318777441978455, + "step": 2927 + }, + { + "grad_norm": 0.19682493910248017, + "loss": 0.2670278549194336, + "step": 2928 + }, + { + "grad_norm": 0.38364624530930175, + "loss": 0.20107537508010864, + "step": 2929 + }, + { + "epoch": 0.9376, + "grad_norm": 0.3836462199687958, + "learning_rate": 7.23669436335055e-05, + "loss": 0.2142, + "step": 2930 + }, + { + "grad_norm": 0.1442787929029094, + "loss": 0.18395531177520752, + "step": 2930 + }, + { + "grad_norm": 0.11312129784669682, + "loss": 0.19902664422988892, + "step": 2931 + }, + { + "grad_norm": 0.31717875050604705, + "loss": 0.2292054146528244, + "step": 2932 + }, + { + "grad_norm": 0.2116839258654856, + "loss": 0.1801404356956482, + "step": 2933 + }, + { + "grad_norm": 0.12002040558036405, + "loss": 0.17910300195217133, + "step": 2934 + }, + { + "grad_norm": 0.11227885670807755, + "loss": 0.1869221031665802, + "step": 2935 + }, + { + "grad_norm": 0.252030649436202, + "loss": 0.17670348286628723, + "step": 2936 + }, + { + "grad_norm": 0.23284587329208492, + "loss": 0.21445676684379578, + "step": 2937 + }, + { + "grad_norm": 0.12813889002701354, + "loss": 0.17646344006061554, + "step": 2938 + }, + { + "grad_norm": 0.185013026528567, + "loss": 0.17496265470981598, + "step": 2939 + }, + { + "epoch": 0.9408, + "grad_norm": 0.1850130259990692, + "learning_rate": 7.225465977992365e-05, + "loss": 0.1901, + "step": 2940 + }, + { + "grad_norm": 0.37669895702589895, + "loss": 0.18317663669586182, + "step": 2940 + }, + { + "grad_norm": 0.220406119992004, + "loss": 0.24575106799602509, + "step": 2941 + }, + { + "grad_norm": 0.12230122011478217, + "loss": 0.20973670482635498, + "step": 2942 + }, + { + "grad_norm": 0.11368092533174995, + "loss": 0.19846387207508087, + "step": 2943 + }, + { + "grad_norm": 0.13533306733101239, + "loss": 0.18617115914821625, + "step": 2944 + }, + { + "grad_norm": 0.27678661199804205, + "loss": 0.20283740758895874, + "step": 2945 + }, + { + "grad_norm": 0.1654030310083672, + "loss": 0.20627069473266602, + "step": 2946 + }, + { + "grad_norm": 0.2575178967611238, + "loss": 0.2029716968536377, + "step": 2947 + }, + { + "grad_norm": 0.32088205339132236, + "loss": 0.2129444181919098, + "step": 2948 + }, + { + "grad_norm": 0.14152354171648487, + "loss": 0.18843331933021545, + "step": 2949 + }, + { + "epoch": 0.944, + "grad_norm": 0.141523540019989, + "learning_rate": 7.21423759263418e-05, + "loss": 0.2037, + "step": 2950 + }, + { + "grad_norm": 0.23444702660608982, + "loss": 0.18134765326976776, + "step": 2950 + }, + { + "grad_norm": 0.21585241249621046, + "loss": 0.18114250898361206, + "step": 2951 + }, + { + "grad_norm": 0.1977203858565449, + "loss": 0.17684897780418396, + "step": 2952 + }, + { + "grad_norm": 0.2104754586161898, + "loss": 0.15231770277023315, + "step": 2953 + }, + { + "grad_norm": 0.11078851987141305, + "loss": 0.2037203460931778, + "step": 2954 + }, + { + "grad_norm": 0.20216844348381308, + "loss": 0.2166973054409027, + "step": 2955 + }, + { + "grad_norm": 0.12873404723814902, + "loss": 0.20775079727172852, + "step": 2956 + }, + { + "grad_norm": 0.0969522337611701, + "loss": 0.16284988820552826, + "step": 2957 + }, + { + "grad_norm": 0.17734958147608193, + "loss": 0.2125406563282013, + "step": 2958 + }, + { + "grad_norm": 0.32514645253536406, + "loss": 0.21021513640880585, + "step": 2959 + }, + { + "epoch": 0.9472, + "grad_norm": 0.3251464366912842, + "learning_rate": 7.203009207275994e-05, + "loss": 0.1905, + "step": 2960 + }, + { + "grad_norm": 0.21402891989833617, + "loss": 0.2426362782716751, + "step": 2960 + }, + { + "grad_norm": 0.3356507877223032, + "loss": 0.18823745846748352, + "step": 2961 + }, + { + "grad_norm": 0.24527071572884313, + "loss": 0.18323950469493866, + "step": 2962 + }, + { + "grad_norm": 0.247903499252888, + "loss": 0.20932519435882568, + "step": 2963 + }, + { + "grad_norm": 0.11655128111809922, + "loss": 0.19940724968910217, + "step": 2964 + }, + { + "grad_norm": 0.34542799619074266, + "loss": 0.18138231337070465, + "step": 2965 + }, + { + "grad_norm": 0.2868508270021941, + "loss": 0.20210000872612, + "step": 2966 + }, + { + "grad_norm": 0.14591589087356888, + "loss": 0.26083946228027344, + "step": 2967 + }, + { + "grad_norm": 0.3699181861457858, + "loss": 0.22698304057121277, + "step": 2968 + }, + { + "grad_norm": 0.17488050192384044, + "loss": 0.20094642043113708, + "step": 2969 + }, + { + "epoch": 0.9504, + "grad_norm": 0.1748805046081543, + "learning_rate": 7.191780821917809e-05, + "loss": 0.2095, + "step": 2970 + }, + { + "grad_norm": 0.369996710081651, + "loss": 0.171688973903656, + "step": 2970 + }, + { + "grad_norm": 0.3858477500399252, + "loss": 0.1627119779586792, + "step": 2971 + }, + { + "grad_norm": 0.19332912595256188, + "loss": 0.15740680694580078, + "step": 2972 + }, + { + "grad_norm": 0.33497895722787435, + "loss": 0.25258195400238037, + "step": 2973 + }, + { + "grad_norm": 0.20131737116134096, + "loss": 0.1578344702720642, + "step": 2974 + }, + { + "grad_norm": 0.10074609136200166, + "loss": 0.16952919960021973, + "step": 2975 + }, + { + "grad_norm": 0.12004777216621401, + "loss": 0.2242906093597412, + "step": 2976 + }, + { + "grad_norm": 0.1383814880112835, + "loss": 0.20962052047252655, + "step": 2977 + }, + { + "grad_norm": 0.3418388211327247, + "loss": 0.14664435386657715, + "step": 2978 + }, + { + "grad_norm": 0.14634092466699292, + "loss": 0.21614974737167358, + "step": 2979 + }, + { + "epoch": 0.9536, + "grad_norm": 0.14634093642234802, + "learning_rate": 7.180552436559623e-05, + "loss": 0.1868, + "step": 2980 + }, + { + "grad_norm": 0.14984877034246352, + "loss": 0.2776084542274475, + "step": 2980 + }, + { + "grad_norm": 0.12629670378441393, + "loss": 0.18094591796398163, + "step": 2981 + }, + { + "grad_norm": 0.32787401614156886, + "loss": 0.19000963866710663, + "step": 2982 + }, + { + "grad_norm": 0.12160317130366684, + "loss": 0.18128353357315063, + "step": 2983 + }, + { + "grad_norm": 0.3205903238645861, + "loss": 0.1731005311012268, + "step": 2984 + }, + { + "grad_norm": 0.3092891430320722, + "loss": 0.2250920981168747, + "step": 2985 + }, + { + "grad_norm": 0.4507746071442934, + "loss": 0.23109498620033264, + "step": 2986 + }, + { + "grad_norm": 0.13221137417476114, + "loss": 0.190120130777359, + "step": 2987 + }, + { + "grad_norm": 0.33521155642351147, + "loss": 0.17030933499336243, + "step": 2988 + }, + { + "grad_norm": 0.36464420571341444, + "loss": 0.1571671962738037, + "step": 2989 + }, + { + "epoch": 0.9568, + "grad_norm": 0.36464419960975647, + "learning_rate": 7.169324051201438e-05, + "loss": 0.1977, + "step": 2990 + }, + { + "grad_norm": 0.08070048066087682, + "loss": 0.15932542085647583, + "step": 2990 + }, + { + "grad_norm": 0.16941851960195456, + "loss": 0.1941717565059662, + "step": 2991 + }, + { + "grad_norm": 0.09868891603538747, + "loss": 0.1662622094154358, + "step": 2992 + }, + { + "grad_norm": 0.10534329824738153, + "loss": 0.13549330830574036, + "step": 2993 + }, + { + "grad_norm": 0.22471040048195595, + "loss": 0.222795769572258, + "step": 2994 + }, + { + "grad_norm": 0.40861996625791064, + "loss": 0.20656271278858185, + "step": 2995 + }, + { + "grad_norm": 0.10737279438377388, + "loss": 0.18255853652954102, + "step": 2996 + }, + { + "grad_norm": 0.21683760182327952, + "loss": 0.20588062703609467, + "step": 2997 + }, + { + "grad_norm": 0.12391783857075472, + "loss": 0.17353267967700958, + "step": 2998 + }, + { + "grad_norm": 0.09717480321419573, + "loss": 0.21356777846813202, + "step": 2999 + }, + { + "epoch": 0.96, + "grad_norm": 0.09717480093240738, + "learning_rate": 7.158095665843251e-05, + "loss": 0.186, + "step": 3000 + }, + { + "grad_norm": 0.21066753191746537, + "loss": 0.1499062478542328, + "step": 3000 + }, + { + "grad_norm": 0.32566179202818457, + "loss": 0.25456875562667847, + "step": 3001 + }, + { + "grad_norm": 0.16751851681943136, + "loss": 0.18286846578121185, + "step": 3002 + }, + { + "grad_norm": 0.4388591732675896, + "loss": 0.1814887672662735, + "step": 3003 + }, + { + "grad_norm": 0.1307478691386693, + "loss": 0.17311318218708038, + "step": 3004 + }, + { + "grad_norm": 0.38139712357558675, + "loss": 0.15364055335521698, + "step": 3005 + }, + { + "grad_norm": 0.10441802805436963, + "loss": 0.19415467977523804, + "step": 3006 + }, + { + "grad_norm": 0.10442370791263376, + "loss": 0.13775162398815155, + "step": 3007 + }, + { + "grad_norm": 0.3730396087135701, + "loss": 0.2151227742433548, + "step": 3008 + }, + { + "grad_norm": 0.12364242271711426, + "loss": 0.2004012167453766, + "step": 3009 + }, + { + "epoch": 0.9632, + "grad_norm": 0.12364242225885391, + "learning_rate": 7.146867280485066e-05, + "loss": 0.1843, + "step": 3010 + }, + { + "grad_norm": 0.4312277368108974, + "loss": 0.27585092186927795, + "step": 3010 + }, + { + "grad_norm": 0.12121523299229849, + "loss": 0.15664786100387573, + "step": 3011 + }, + { + "grad_norm": 0.5841186770845869, + "loss": 0.23345857858657837, + "step": 3012 + }, + { + "grad_norm": 0.09584917475520059, + "loss": 0.1565830409526825, + "step": 3013 + }, + { + "grad_norm": 0.27229932348897823, + "loss": 0.20639121532440186, + "step": 3014 + }, + { + "grad_norm": 0.44386922632561254, + "loss": 0.16628700494766235, + "step": 3015 + }, + { + "grad_norm": 0.18679625998036173, + "loss": 0.1641806662082672, + "step": 3016 + }, + { + "grad_norm": 0.23778727323260795, + "loss": 0.22434301674365997, + "step": 3017 + }, + { + "grad_norm": 0.23175945960946903, + "loss": 0.19994431734085083, + "step": 3018 + }, + { + "grad_norm": 0.2355117322800056, + "loss": 0.18719427287578583, + "step": 3019 + }, + { + "epoch": 0.9664, + "grad_norm": 0.23551173508167267, + "learning_rate": 7.135638895126882e-05, + "loss": 0.1971, + "step": 3020 + }, + { + "grad_norm": 0.2735357096404071, + "loss": 0.2112395167350769, + "step": 3020 + }, + { + "grad_norm": 0.13611059121381644, + "loss": 0.22395282983779907, + "step": 3021 + }, + { + "grad_norm": 0.19050503904097243, + "loss": 0.2119533121585846, + "step": 3022 + }, + { + "grad_norm": 0.13807826546908955, + "loss": 0.2528628706932068, + "step": 3023 + }, + { + "grad_norm": 0.3864766548490008, + "loss": 0.22693537175655365, + "step": 3024 + }, + { + "grad_norm": 0.3798254337565854, + "loss": 0.15476299822330475, + "step": 3025 + }, + { + "grad_norm": 0.19217476488421045, + "loss": 0.1789274662733078, + "step": 3026 + }, + { + "grad_norm": 0.24771782863793743, + "loss": 0.26776638627052307, + "step": 3027 + }, + { + "grad_norm": 0.13095647933693721, + "loss": 0.17685087025165558, + "step": 3028 + }, + { + "grad_norm": 0.22094455448252984, + "loss": 0.23182916641235352, + "step": 3029 + }, + { + "epoch": 0.9696, + "grad_norm": 0.22094455361366272, + "learning_rate": 7.124410509768695e-05, + "loss": 0.2137, + "step": 3030 + }, + { + "grad_norm": 0.13471646765884657, + "loss": 0.2414681315422058, + "step": 3030 + }, + { + "grad_norm": 0.1644405610106092, + "loss": 0.18153952062129974, + "step": 3031 + }, + { + "grad_norm": 0.1539526495389215, + "loss": 0.19520792365074158, + "step": 3032 + }, + { + "grad_norm": 0.13063233704498717, + "loss": 0.1715376228094101, + "step": 3033 + }, + { + "grad_norm": 0.21238989470013778, + "loss": 0.2072870433330536, + "step": 3034 + }, + { + "grad_norm": 0.12731794227866072, + "loss": 0.18924933671951294, + "step": 3035 + }, + { + "grad_norm": 0.17608077274129905, + "loss": 0.16879670321941376, + "step": 3036 + }, + { + "grad_norm": 0.32714828423310344, + "loss": 0.221437007188797, + "step": 3037 + }, + { + "grad_norm": 0.2765910256879189, + "loss": 0.1919916570186615, + "step": 3038 + }, + { + "grad_norm": 0.20646634498073813, + "loss": 0.15405994653701782, + "step": 3039 + }, + { + "epoch": 0.9728, + "grad_norm": 0.20646634697914124, + "learning_rate": 7.11318212441051e-05, + "loss": 0.1923, + "step": 3040 + }, + { + "grad_norm": 0.147531185963148, + "loss": 0.18503539264202118, + "step": 3040 + }, + { + "grad_norm": 0.30617304415223834, + "loss": 0.1771554946899414, + "step": 3041 + }, + { + "grad_norm": 0.39806139290769965, + "loss": 0.24930256605148315, + "step": 3042 + }, + { + "grad_norm": 0.12856656361027083, + "loss": 0.2069990038871765, + "step": 3043 + }, + { + "grad_norm": 0.37435413837907344, + "loss": 0.1797654926776886, + "step": 3044 + }, + { + "grad_norm": 0.16560886140605627, + "loss": 0.2497047483921051, + "step": 3045 + }, + { + "grad_norm": 0.3029332120220811, + "loss": 0.17567667365074158, + "step": 3046 + }, + { + "grad_norm": 0.2643170953819596, + "loss": 0.18518322706222534, + "step": 3047 + }, + { + "grad_norm": 0.16312548775475505, + "loss": 0.16866382956504822, + "step": 3048 + }, + { + "grad_norm": 0.16831813689700648, + "loss": 0.22111308574676514, + "step": 3049 + }, + { + "epoch": 0.976, + "grad_norm": 0.16831813752651215, + "learning_rate": 7.101953739052325e-05, + "loss": 0.1999, + "step": 3050 + }, + { + "grad_norm": 0.09105137545465213, + "loss": 0.18367424607276917, + "step": 3050 + }, + { + "grad_norm": 0.5325265403879731, + "loss": 0.3001768887042999, + "step": 3051 + }, + { + "grad_norm": 0.20486833848648972, + "loss": 0.17866966128349304, + "step": 3052 + }, + { + "grad_norm": 0.2323107169461681, + "loss": 0.16130822896957397, + "step": 3053 + }, + { + "grad_norm": 0.23737987130231322, + "loss": 0.26344919204711914, + "step": 3054 + }, + { + "grad_norm": 0.18022591556907733, + "loss": 0.15178026258945465, + "step": 3055 + }, + { + "grad_norm": 0.2671916789363072, + "loss": 0.15396223962306976, + "step": 3056 + }, + { + "grad_norm": 0.16175500929436087, + "loss": 0.20760737359523773, + "step": 3057 + }, + { + "grad_norm": 0.25298736338208716, + "loss": 0.17850472033023834, + "step": 3058 + }, + { + "grad_norm": 0.23634644278363431, + "loss": 0.2026902437210083, + "step": 3059 + }, + { + "epoch": 0.9792, + "grad_norm": 0.23634643852710724, + "learning_rate": 7.090725353694139e-05, + "loss": 0.1982, + "step": 3060 + }, + { + "grad_norm": 0.2945003171955392, + "loss": 0.224330335855484, + "step": 3060 + }, + { + "grad_norm": 0.1979468649692367, + "loss": 0.1727103292942047, + "step": 3061 + }, + { + "grad_norm": 0.1787889733894787, + "loss": 0.1880131959915161, + "step": 3062 + }, + { + "grad_norm": 0.18434431542913352, + "loss": 0.163821741938591, + "step": 3063 + }, + { + "grad_norm": 0.3760633465505329, + "loss": 0.20682097971439362, + "step": 3064 + }, + { + "grad_norm": 0.3383493848051268, + "loss": 0.21254734694957733, + "step": 3065 + }, + { + "grad_norm": 0.16408544964268115, + "loss": 0.21653659641742706, + "step": 3066 + }, + { + "grad_norm": 0.20334771338075244, + "loss": 0.1524677723646164, + "step": 3067 + }, + { + "grad_norm": 0.09469466504047616, + "loss": 0.17741814255714417, + "step": 3068 + }, + { + "grad_norm": 0.14036401592362924, + "loss": 0.16698263585567474, + "step": 3069 + }, + { + "epoch": 0.9824, + "grad_norm": 0.14036402106285095, + "learning_rate": 7.079496968335954e-05, + "loss": 0.1882, + "step": 3070 + }, + { + "grad_norm": 0.2538595855468154, + "loss": 0.2019728720188141, + "step": 3070 + }, + { + "grad_norm": 0.43853477445778744, + "loss": 0.17421185970306396, + "step": 3071 + }, + { + "grad_norm": 0.19007256376805118, + "loss": 0.21172821521759033, + "step": 3072 + }, + { + "grad_norm": 0.3495503578361069, + "loss": 0.18794171512126923, + "step": 3073 + }, + { + "grad_norm": 0.3855776059167121, + "loss": 0.1595555543899536, + "step": 3074 + }, + { + "grad_norm": 0.19838003723195854, + "loss": 0.22518572211265564, + "step": 3075 + }, + { + "grad_norm": 0.2931352190731467, + "loss": 0.20922227203845978, + "step": 3076 + }, + { + "grad_norm": 0.3211198942433943, + "loss": 0.15605241060256958, + "step": 3077 + }, + { + "grad_norm": 0.19866736686281625, + "loss": 0.18800781667232513, + "step": 3078 + }, + { + "grad_norm": 0.16198361169493183, + "loss": 0.15324144065380096, + "step": 3079 + }, + { + "epoch": 0.9856, + "grad_norm": 0.16198360919952393, + "learning_rate": 7.068268582977768e-05, + "loss": 0.1867, + "step": 3080 + }, + { + "grad_norm": 0.22703033189883792, + "loss": 0.20442721247673035, + "step": 3080 + }, + { + "grad_norm": 0.2239213168097952, + "loss": 0.15389057993888855, + "step": 3081 + }, + { + "grad_norm": 0.10569360007074284, + "loss": 0.1569853574037552, + "step": 3082 + }, + { + "grad_norm": 0.22993031068099046, + "loss": 0.20437121391296387, + "step": 3083 + }, + { + "grad_norm": 0.17571698943981826, + "loss": 0.19067463278770447, + "step": 3084 + }, + { + "grad_norm": 0.19414267416474712, + "loss": 0.1985224187374115, + "step": 3085 + }, + { + "grad_norm": 0.32564029212063994, + "loss": 0.1622946709394455, + "step": 3086 + }, + { + "grad_norm": 0.30555947663105343, + "loss": 0.22694917023181915, + "step": 3087 + }, + { + "grad_norm": 0.16541017870441452, + "loss": 0.16266481578350067, + "step": 3088 + }, + { + "grad_norm": 0.15361472126093265, + "loss": 0.19633445143699646, + "step": 3089 + }, + { + "epoch": 0.9888, + "grad_norm": 0.15361471474170685, + "learning_rate": 7.057040197619582e-05, + "loss": 0.1857, + "step": 3090 + }, + { + "grad_norm": 0.22803040649278522, + "loss": 0.20571269094944, + "step": 3090 + }, + { + "grad_norm": 0.15855443611357337, + "loss": 0.15180093050003052, + "step": 3091 + }, + { + "grad_norm": 0.2637296485934087, + "loss": 0.22555850446224213, + "step": 3092 + }, + { + "grad_norm": 0.2239496099288522, + "loss": 0.1908118724822998, + "step": 3093 + }, + { + "grad_norm": 0.08931476871777189, + "loss": 0.14687052369117737, + "step": 3094 + }, + { + "grad_norm": 0.23287496993437448, + "loss": 0.19339662790298462, + "step": 3095 + }, + { + "grad_norm": 0.16412926566366717, + "loss": 0.21226026117801666, + "step": 3096 + }, + { + "grad_norm": 0.16929927778192777, + "loss": 0.16480332612991333, + "step": 3097 + }, + { + "grad_norm": 0.30361160038815316, + "loss": 0.22953324019908905, + "step": 3098 + }, + { + "grad_norm": 0.19663187910347585, + "loss": 0.14859598875045776, + "step": 3099 + }, + { + "epoch": 0.992, + "grad_norm": 0.19663187861442566, + "learning_rate": 7.045811812261397e-05, + "loss": 0.1869, + "step": 3100 + }, + { + "grad_norm": 0.3073465138438947, + "loss": 0.1566365361213684, + "step": 3100 + }, + { + "grad_norm": 0.12289863112023369, + "loss": 0.1941218227148056, + "step": 3101 + }, + { + "grad_norm": 0.24995324582169598, + "loss": 0.22846904397010803, + "step": 3102 + }, + { + "grad_norm": 0.19704150622503877, + "loss": 0.21023476123809814, + "step": 3103 + }, + { + "grad_norm": 0.23646902336311085, + "loss": 0.1546466201543808, + "step": 3104 + }, + { + "grad_norm": 0.11971434126277307, + "loss": 0.22398926317691803, + "step": 3105 + }, + { + "grad_norm": 0.15192581384580728, + "loss": 0.17454028129577637, + "step": 3106 + }, + { + "grad_norm": 0.32270925965837527, + "loss": 0.2089919149875641, + "step": 3107 + }, + { + "grad_norm": 0.1240294796747697, + "loss": 0.16080446541309357, + "step": 3108 + }, + { + "grad_norm": 0.11526310414681476, + "loss": 0.1681792438030243, + "step": 3109 + }, + { + "epoch": 0.9952, + "grad_norm": 0.11526310443878174, + "learning_rate": 7.034583426903212e-05, + "loss": 0.1881, + "step": 3110 + }, + { + "grad_norm": 0.12013982310013473, + "loss": 0.148091122508049, + "step": 3110 + }, + { + "grad_norm": 0.33653700015742477, + "loss": 0.2009204775094986, + "step": 3111 + }, + { + "grad_norm": 0.18161091691618847, + "loss": 0.17387926578521729, + "step": 3112 + }, + { + "grad_norm": 0.32772703299155254, + "loss": 0.1636400818824768, + "step": 3113 + }, + { + "grad_norm": 0.3001374708887432, + "loss": 0.17264492809772491, + "step": 3114 + }, + { + "grad_norm": 0.18105855250438496, + "loss": 0.16403675079345703, + "step": 3115 + }, + { + "grad_norm": 0.14683514785207433, + "loss": 0.18843741714954376, + "step": 3116 + }, + { + "grad_norm": 0.24664293444298363, + "loss": 0.27874961495399475, + "step": 3117 + }, + { + "grad_norm": 0.10559936979542502, + "loss": 0.14924713969230652, + "step": 3118 + }, + { + "grad_norm": 0.22192061820587208, + "loss": 0.17437171936035156, + "step": 3119 + }, + { + "epoch": 0.9984, + "grad_norm": 0.22192062437534332, + "learning_rate": 7.023355041545027e-05, + "loss": 0.1814, + "step": 3120 + }, + { + "grad_norm": 0.3556370683702169, + "loss": 0.17887279391288757, + "step": 3120 + }, + { + "grad_norm": 0.11343301250427097, + "loss": 0.16429142653942108, + "step": 3121 + }, + { + "grad_norm": 0.5171200272789436, + "loss": 0.26635274291038513, + "step": 3122 + }, + { + "grad_norm": 0.3895496565277026, + "loss": 0.287246435880661, + "step": 3123 + }, + { + "grad_norm": 0.13370576002865284, + "loss": 0.166367769241333, + "step": 3124 + } + ], + "logging_steps": 10, + "max_steps": 9375, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 0.0, + "train_batch_size": 32, + "trial_name": null, + "trial_params": null +}