diff --git "a/checkpoint-9375/trainer_state.json" "b/checkpoint-9375/trainer_state.json" new file mode 100644--- /dev/null +++ "b/checkpoint-9375/trainer_state.json" @@ -0,0 +1,53467 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 3.0, + "eval_steps": 500, + "global_step": 9375, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "grad_norm": 0.5536133151525399, + "loss": 0.3708624839782715, + "step": 0 + }, + { + "grad_norm": 0.2212176342784598, + "loss": 0.24399735033512115, + "step": 1 + }, + { + "grad_norm": 0.31304363285360515, + "loss": 0.3989734947681427, + "step": 2 + }, + { + "grad_norm": 0.3011949116619789, + "loss": 0.3303907513618469, + "step": 3 + }, + { + "grad_norm": 0.29895549409151984, + "loss": 0.3909619152545929, + "step": 4 + }, + { + "grad_norm": 0.4121773253251505, + "loss": 0.30540019273757935, + "step": 5 + }, + { + "grad_norm": 0.2663393566990145, + "loss": 0.3689001202583313, + "step": 6 + }, + { + "grad_norm": 0.2857677594770164, + "loss": 0.3365735411643982, + "step": 7 + }, + { + "grad_norm": 0.34742936373783345, + "loss": 0.36756619811058044, + "step": 8 + }, + { + "grad_norm": 0.32071906827697766, + "loss": 0.4438783526420593, + "step": 9 + }, + { + "epoch": 0.0032, + "grad_norm": 0.32071906328201294, + "learning_rate": 2.132196162046908e-06, + "loss": 0.3558, + "step": 10 + }, + { + "grad_norm": 0.18338009947264336, + "loss": 0.2615654766559601, + "step": 10 + }, + { + "grad_norm": 0.22303771934992786, + "loss": 0.31481629610061646, + "step": 11 + }, + { + "grad_norm": 0.22726280362232243, + "loss": 0.3072388768196106, + "step": 12 + }, + { + "grad_norm": 0.4191877419924546, + "loss": 0.36146610975265503, + "step": 13 + }, + { + "grad_norm": 0.21884399985344682, + "loss": 0.39391815662384033, + "step": 14 + }, + { + "grad_norm": 0.33811268788836757, + "loss": 0.35161131620407104, + "step": 15 + }, + { + "grad_norm": 0.34632114472063347, + "loss": 0.3002413511276245, + "step": 16 + }, + { + "grad_norm": 0.3591227752638313, + "loss": 0.3756169080734253, + "step": 17 + }, + { + "grad_norm": 0.20054719246766056, + "loss": 0.2292073518037796, + "step": 18 + }, + { + "grad_norm": 0.27940657038933225, + "loss": 0.273600310087204, + "step": 19 + }, + { + "epoch": 0.0064, + "grad_norm": 0.2794065475463867, + "learning_rate": 4.264392324093816e-06, + "loss": 0.3169, + "step": 20 + }, + { + "grad_norm": 0.4457414623786181, + "loss": 0.3755911588668823, + "step": 20 + }, + { + "grad_norm": 0.2503405581409215, + "loss": 0.2660144865512848, + "step": 21 + }, + { + "grad_norm": 0.30147744109831687, + "loss": 0.3510676324367523, + "step": 22 + }, + { + "grad_norm": 0.30637283920989133, + "loss": 0.36258113384246826, + "step": 23 + }, + { + "grad_norm": 0.3464263186623427, + "loss": 0.3379804491996765, + "step": 24 + }, + { + "grad_norm": 0.21136411381342166, + "loss": 0.2490980327129364, + "step": 25 + }, + { + "grad_norm": 0.2509691627656792, + "loss": 0.297111839056015, + "step": 26 + }, + { + "grad_norm": 0.2546542679857259, + "loss": 0.3297400176525116, + "step": 27 + }, + { + "grad_norm": 0.310155791405743, + "loss": 0.35510268807411194, + "step": 28 + }, + { + "grad_norm": 0.25563814660009215, + "loss": 0.28179648518562317, + "step": 29 + }, + { + "epoch": 0.0096, + "grad_norm": 0.25563815236091614, + "learning_rate": 6.396588486140726e-06, + "loss": 0.3206, + "step": 30 + }, + { + "grad_norm": 0.3447855363745076, + "loss": 0.2669423222541809, + "step": 30 + }, + { + "grad_norm": 0.27077775165614076, + "loss": 0.3370567858219147, + "step": 31 + }, + { + "grad_norm": 0.336167872607943, + "loss": 0.3632642328739166, + "step": 32 + }, + { + "grad_norm": 0.2578666982838611, + "loss": 0.27509137988090515, + "step": 33 + }, + { + "grad_norm": 0.21814643689593993, + "loss": 0.27442073822021484, + "step": 34 + }, + { + "grad_norm": 0.4003861761199945, + "loss": 0.3449748158454895, + "step": 35 + }, + { + "grad_norm": 0.30805052971710034, + "loss": 0.3716391324996948, + "step": 36 + }, + { + "grad_norm": 0.3733799939056587, + "loss": 0.3228437304496765, + "step": 37 + }, + { + "grad_norm": 0.3071272028136154, + "loss": 0.32987114787101746, + "step": 38 + }, + { + "grad_norm": 0.44173325550405285, + "loss": 0.35518646240234375, + "step": 39 + }, + { + "epoch": 0.0128, + "grad_norm": 0.4417332410812378, + "learning_rate": 8.528784648187633e-06, + "loss": 0.3241, + "step": 40 + }, + { + "grad_norm": 0.2753251268958973, + "loss": 0.2816518545150757, + "step": 40 + }, + { + "grad_norm": 0.3499839509556036, + "loss": 0.3735724687576294, + "step": 41 + }, + { + "grad_norm": 0.3135912735328624, + "loss": 0.29386311769485474, + "step": 42 + }, + { + "grad_norm": 0.2726923027562194, + "loss": 0.30694183707237244, + "step": 43 + }, + { + "grad_norm": 0.25510739560781914, + "loss": 0.3702244758605957, + "step": 44 + }, + { + "grad_norm": 0.32376163360630933, + "loss": 0.33253687620162964, + "step": 45 + }, + { + "grad_norm": 0.35281730060703653, + "loss": 0.27522987127304077, + "step": 46 + }, + { + "grad_norm": 0.6372556245255704, + "loss": 0.3961457312107086, + "step": 47 + }, + { + "grad_norm": 0.17289927245827788, + "loss": 0.22831004858016968, + "step": 48 + }, + { + "grad_norm": 0.3764575009141926, + "loss": 0.3313542604446411, + "step": 49 + }, + { + "epoch": 0.016, + "grad_norm": 0.37645748257637024, + "learning_rate": 1.0660980810234541e-05, + "loss": 0.319, + "step": 50 + }, + { + "grad_norm": 0.30773449193667485, + "loss": 0.3483988046646118, + "step": 50 + }, + { + "grad_norm": 0.369521372407099, + "loss": 0.3945808410644531, + "step": 51 + }, + { + "grad_norm": 0.28318544958121106, + "loss": 0.3076119124889374, + "step": 52 + }, + { + "grad_norm": 0.29420529349590574, + "loss": 0.3477367162704468, + "step": 53 + }, + { + "grad_norm": 0.18648383794565457, + "loss": 0.26483386754989624, + "step": 54 + }, + { + "grad_norm": 0.4655810486053093, + "loss": 0.3240055441856384, + "step": 55 + }, + { + "grad_norm": 0.19797459427938116, + "loss": 0.2554873824119568, + "step": 56 + }, + { + "grad_norm": 0.25293173323095636, + "loss": 0.3029537796974182, + "step": 57 + }, + { + "grad_norm": 0.20730172423295576, + "loss": 0.2895534634590149, + "step": 58 + }, + { + "grad_norm": 0.3131221824230528, + "loss": 0.3173685073852539, + "step": 59 + }, + { + "epoch": 0.0192, + "grad_norm": 0.3131222128868103, + "learning_rate": 1.2793176972281452e-05, + "loss": 0.3153, + "step": 60 + }, + { + "grad_norm": 0.33606362278951474, + "loss": 0.3524510860443115, + "step": 60 + }, + { + "grad_norm": 0.5546663530375456, + "loss": 0.4135338068008423, + "step": 61 + }, + { + "grad_norm": 0.3280705963992293, + "loss": 0.4045245051383972, + "step": 62 + }, + { + "grad_norm": 0.43266527171264835, + "loss": 0.3298313021659851, + "step": 63 + }, + { + "grad_norm": 0.48480223092608726, + "loss": 0.28346890211105347, + "step": 64 + }, + { + "grad_norm": 0.3452992229706492, + "loss": 0.36792153120040894, + "step": 65 + }, + { + "grad_norm": 0.20394383624863616, + "loss": 0.24594631791114807, + "step": 66 + }, + { + "grad_norm": 0.3104373209216829, + "loss": 0.3010438084602356, + "step": 67 + }, + { + "grad_norm": 0.25998282402204675, + "loss": 0.31575828790664673, + "step": 68 + }, + { + "grad_norm": 0.26749795622995853, + "loss": 0.3404635488986969, + "step": 69 + }, + { + "epoch": 0.0224, + "grad_norm": 0.2674979567527771, + "learning_rate": 1.4925373134328357e-05, + "loss": 0.3355, + "step": 70 + }, + { + "grad_norm": 0.3354400950781426, + "loss": 0.3170691132545471, + "step": 70 + }, + { + "grad_norm": 0.29526477725338457, + "loss": 0.40635013580322266, + "step": 71 + }, + { + "grad_norm": 0.3132078288637114, + "loss": 0.31103795766830444, + "step": 72 + }, + { + "grad_norm": 0.3659206277670272, + "loss": 0.3925366699695587, + "step": 73 + }, + { + "grad_norm": 0.2058405707908927, + "loss": 0.28406965732574463, + "step": 74 + }, + { + "grad_norm": 0.337229993801567, + "loss": 0.37655162811279297, + "step": 75 + }, + { + "grad_norm": 0.1956684427849354, + "loss": 0.22687271237373352, + "step": 76 + }, + { + "grad_norm": 0.40714877301119506, + "loss": 0.382968932390213, + "step": 77 + }, + { + "grad_norm": 0.3361764880692555, + "loss": 0.29354047775268555, + "step": 78 + }, + { + "grad_norm": 0.37434847446530123, + "loss": 0.33171218633651733, + "step": 79 + }, + { + "epoch": 0.0256, + "grad_norm": 0.3743484616279602, + "learning_rate": 1.7057569296375266e-05, + "loss": 0.3323, + "step": 80 + }, + { + "grad_norm": 0.5014146817967664, + "loss": 0.29892727732658386, + "step": 80 + }, + { + "grad_norm": 0.3897250593566172, + "loss": 0.30672749876976013, + "step": 81 + }, + { + "grad_norm": 0.2903820598255727, + "loss": 0.25385794043540955, + "step": 82 + }, + { + "grad_norm": 0.3999037571341217, + "loss": 0.3181111216545105, + "step": 83 + }, + { + "grad_norm": 0.2943163018768115, + "loss": 0.3400014340877533, + "step": 84 + }, + { + "grad_norm": 0.19793582170190627, + "loss": 0.2489314079284668, + "step": 85 + }, + { + "grad_norm": 0.24891670668814422, + "loss": 0.2870589792728424, + "step": 86 + }, + { + "grad_norm": 0.33408322505007515, + "loss": 0.2500114440917969, + "step": 87 + }, + { + "grad_norm": 0.5054581083736861, + "loss": 0.25761842727661133, + "step": 88 + }, + { + "grad_norm": 0.34157515944963557, + "loss": 0.2516409158706665, + "step": 89 + }, + { + "epoch": 0.0288, + "grad_norm": 0.34157514572143555, + "learning_rate": 1.9189765458422178e-05, + "loss": 0.2813, + "step": 90 + }, + { + "grad_norm": 0.4071999142230744, + "loss": 0.24587275087833405, + "step": 90 + }, + { + "grad_norm": 0.30486850339843935, + "loss": 0.29508861899375916, + "step": 91 + }, + { + "grad_norm": 0.578119478588592, + "loss": 0.26081565022468567, + "step": 92 + }, + { + "grad_norm": 0.5284644344811266, + "loss": 0.23615635931491852, + "step": 93 + }, + { + "grad_norm": 0.41434540267878744, + "loss": 0.346882700920105, + "step": 94 + }, + { + "grad_norm": 0.26149020782691096, + "loss": 0.3587176203727722, + "step": 95 + }, + { + "grad_norm": 0.21697292024607256, + "loss": 0.26691746711730957, + "step": 96 + }, + { + "grad_norm": 0.17671256485807138, + "loss": 0.2093111276626587, + "step": 97 + }, + { + "grad_norm": 0.19230433606115555, + "loss": 0.21746277809143066, + "step": 98 + }, + { + "grad_norm": 0.5245288647590777, + "loss": 0.34911835193634033, + "step": 99 + }, + { + "epoch": 0.032, + "grad_norm": 0.5245288610458374, + "learning_rate": 2.1321961620469083e-05, + "loss": 0.2786, + "step": 100 + }, + { + "grad_norm": 0.3026546603572228, + "loss": 0.2581595778465271, + "step": 100 + }, + { + "grad_norm": 0.22125961558974813, + "loss": 0.2571811079978943, + "step": 101 + }, + { + "grad_norm": 0.26015357570002967, + "loss": 0.29844948649406433, + "step": 102 + }, + { + "grad_norm": 0.30351183460838144, + "loss": 0.23214280605316162, + "step": 103 + }, + { + "grad_norm": 0.3203615779492844, + "loss": 0.25398528575897217, + "step": 104 + }, + { + "grad_norm": 0.23027027704633715, + "loss": 0.23818470537662506, + "step": 105 + }, + { + "grad_norm": 0.33050082425373867, + "loss": 0.1900961995124817, + "step": 106 + }, + { + "grad_norm": 0.3135647072940478, + "loss": 0.21113978326320648, + "step": 107 + }, + { + "grad_norm": 0.3421247162243669, + "loss": 0.32359015941619873, + "step": 108 + }, + { + "grad_norm": 0.18150065096868734, + "loss": 0.28072845935821533, + "step": 109 + }, + { + "epoch": 0.0352, + "grad_norm": 0.181500643491745, + "learning_rate": 2.345415778251599e-05, + "loss": 0.2544, + "step": 110 + }, + { + "grad_norm": 0.18540419362624516, + "loss": 0.25409427285194397, + "step": 110 + }, + { + "grad_norm": 0.21017503795600972, + "loss": 0.22596441209316254, + "step": 111 + }, + { + "grad_norm": 0.12009391641139212, + "loss": 0.19371211528778076, + "step": 112 + }, + { + "grad_norm": 0.48630406617007177, + "loss": 0.25296443700790405, + "step": 113 + }, + { + "grad_norm": 0.27747767625669406, + "loss": 0.2364136278629303, + "step": 114 + }, + { + "grad_norm": 0.2574304026935295, + "loss": 0.3045104444026947, + "step": 115 + }, + { + "grad_norm": 0.1789998334951453, + "loss": 0.23065385222434998, + "step": 116 + }, + { + "grad_norm": 0.17577969571854044, + "loss": 0.22989816963672638, + "step": 117 + }, + { + "grad_norm": 0.24626749190394034, + "loss": 0.2642713189125061, + "step": 118 + }, + { + "grad_norm": 0.2266779462443175, + "loss": 0.26325055956840515, + "step": 119 + }, + { + "epoch": 0.0384, + "grad_norm": 0.22667795419692993, + "learning_rate": 2.5586353944562904e-05, + "loss": 0.2456, + "step": 120 + }, + { + "grad_norm": 0.23111020756235987, + "loss": 0.2502365708351135, + "step": 120 + }, + { + "grad_norm": 0.12086444354724711, + "loss": 0.21520811319351196, + "step": 121 + }, + { + "grad_norm": 0.34206102848537323, + "loss": 0.29883700609207153, + "step": 122 + }, + { + "grad_norm": 0.2628306934863328, + "loss": 0.19272729754447937, + "step": 123 + }, + { + "grad_norm": 0.24486018917268124, + "loss": 0.2465619146823883, + "step": 124 + }, + { + "grad_norm": 0.22180415950742882, + "loss": 0.2782256603240967, + "step": 125 + }, + { + "grad_norm": 0.20263758227778303, + "loss": 0.1928013414144516, + "step": 126 + }, + { + "grad_norm": 0.44120487585213825, + "loss": 0.2473897486925125, + "step": 127 + }, + { + "grad_norm": 0.4719348453170229, + "loss": 0.25750046968460083, + "step": 128 + }, + { + "grad_norm": 0.24403645189475934, + "loss": 0.21893270313739777, + "step": 129 + }, + { + "epoch": 0.0416, + "grad_norm": 0.244036465883255, + "learning_rate": 2.771855010660981e-05, + "loss": 0.2398, + "step": 130 + }, + { + "grad_norm": 0.2187918519743507, + "loss": 0.21502530574798584, + "step": 130 + }, + { + "grad_norm": 0.22079973708499154, + "loss": 0.2763238847255707, + "step": 131 + }, + { + "grad_norm": 0.18310292845741977, + "loss": 0.21491064131259918, + "step": 132 + }, + { + "grad_norm": 0.17234162930992705, + "loss": 0.2347767949104309, + "step": 133 + }, + { + "grad_norm": 0.3447813987675936, + "loss": 0.2794274091720581, + "step": 134 + }, + { + "grad_norm": 0.15165788507306893, + "loss": 0.2245802879333496, + "step": 135 + }, + { + "grad_norm": 0.5661085743558489, + "loss": 0.3378247916698456, + "step": 136 + }, + { + "grad_norm": 0.24450713927686687, + "loss": 0.29693368077278137, + "step": 137 + }, + { + "grad_norm": 0.24459864573031, + "loss": 0.21665900945663452, + "step": 138 + }, + { + "grad_norm": 0.12225144521688905, + "loss": 0.20968973636627197, + "step": 139 + }, + { + "epoch": 0.0448, + "grad_norm": 0.12225145101547241, + "learning_rate": 2.9850746268656714e-05, + "loss": 0.2506, + "step": 140 + }, + { + "grad_norm": 0.19383484623076583, + "loss": 0.24891167879104614, + "step": 140 + }, + { + "grad_norm": 0.27679932313941963, + "loss": 0.2395983785390854, + "step": 141 + }, + { + "grad_norm": 0.15436495936681274, + "loss": 0.21341197192668915, + "step": 142 + }, + { + "grad_norm": 0.24058869177356962, + "loss": 0.2405565232038498, + "step": 143 + }, + { + "grad_norm": 0.1789079544857426, + "loss": 0.21896883845329285, + "step": 144 + }, + { + "grad_norm": 0.22727145889859202, + "loss": 0.3206729292869568, + "step": 145 + }, + { + "grad_norm": 0.46878453894376604, + "loss": 0.2377719283103943, + "step": 146 + }, + { + "grad_norm": 0.38482610843116316, + "loss": 0.27564576268196106, + "step": 147 + }, + { + "grad_norm": 0.17296240380458633, + "loss": 0.2929536700248718, + "step": 148 + }, + { + "grad_norm": 0.4552425799243461, + "loss": 0.3256741166114807, + "step": 149 + }, + { + "epoch": 0.048, + "grad_norm": 0.4552425742149353, + "learning_rate": 3.1982942430703626e-05, + "loss": 0.2614, + "step": 150 + }, + { + "grad_norm": 0.3265114392134235, + "loss": 0.25547268986701965, + "step": 150 + }, + { + "grad_norm": 0.3827773425564464, + "loss": 0.23354819416999817, + "step": 151 + }, + { + "grad_norm": 0.16167322561923395, + "loss": 0.26218685507774353, + "step": 152 + }, + { + "grad_norm": 0.1622930069688615, + "loss": 0.27106499671936035, + "step": 153 + }, + { + "grad_norm": 0.635227559657528, + "loss": 0.24284608662128448, + "step": 154 + }, + { + "grad_norm": 0.27676165536437597, + "loss": 0.22969019412994385, + "step": 155 + }, + { + "grad_norm": 0.33382788708350064, + "loss": 0.2248910367488861, + "step": 156 + }, + { + "grad_norm": 0.2151026527985979, + "loss": 0.2526739537715912, + "step": 157 + }, + { + "grad_norm": 0.25450917633432396, + "loss": 0.2629184126853943, + "step": 158 + }, + { + "grad_norm": 0.18883612204881342, + "loss": 0.24125415086746216, + "step": 159 + }, + { + "epoch": 0.0512, + "grad_norm": 0.18883612751960754, + "learning_rate": 3.411513859275053e-05, + "loss": 0.2477, + "step": 160 + }, + { + "grad_norm": 0.1635741583333246, + "loss": 0.1980268657207489, + "step": 160 + }, + { + "grad_norm": 0.5549715173920299, + "loss": 0.334247350692749, + "step": 161 + }, + { + "grad_norm": 0.22039105190890937, + "loss": 0.22422704100608826, + "step": 162 + }, + { + "grad_norm": 0.38382263721441107, + "loss": 0.27998659014701843, + "step": 163 + }, + { + "grad_norm": 0.35594039971869296, + "loss": 0.267429918050766, + "step": 164 + }, + { + "grad_norm": 0.2297792155181461, + "loss": 0.21902859210968018, + "step": 165 + }, + { + "grad_norm": 0.23453454376357358, + "loss": 0.31117984652519226, + "step": 166 + }, + { + "grad_norm": 0.17262204967798786, + "loss": 0.22829413414001465, + "step": 167 + }, + { + "grad_norm": 0.2643724322062184, + "loss": 0.20366686582565308, + "step": 168 + }, + { + "grad_norm": 0.27790087144219666, + "loss": 0.2732614576816559, + "step": 169 + }, + { + "epoch": 0.0544, + "grad_norm": 0.2779008746147156, + "learning_rate": 3.624733475479744e-05, + "loss": 0.2539, + "step": 170 + }, + { + "grad_norm": 0.17377179520145855, + "loss": 0.2523546516895294, + "step": 170 + }, + { + "grad_norm": 0.22150071954802975, + "loss": 0.3146454691886902, + "step": 171 + }, + { + "grad_norm": 0.2646883497234059, + "loss": 0.2518746852874756, + "step": 172 + }, + { + "grad_norm": 0.16588599188961042, + "loss": 0.22488680481910706, + "step": 173 + }, + { + "grad_norm": 0.5121894758978752, + "loss": 0.2384159117937088, + "step": 174 + }, + { + "grad_norm": 0.2526299480079654, + "loss": 0.2986481487751007, + "step": 175 + }, + { + "grad_norm": 0.17975394095946817, + "loss": 0.28892746567726135, + "step": 176 + }, + { + "grad_norm": 0.5908585851145699, + "loss": 0.23795735836029053, + "step": 177 + }, + { + "grad_norm": 0.18755247072725623, + "loss": 0.188047856092453, + "step": 178 + }, + { + "grad_norm": 0.13845632364765456, + "loss": 0.18743455410003662, + "step": 179 + }, + { + "epoch": 0.0576, + "grad_norm": 0.138456329703331, + "learning_rate": 3.8379530916844355e-05, + "loss": 0.2483, + "step": 180 + }, + { + "grad_norm": 0.2702309813166674, + "loss": 0.2252814918756485, + "step": 180 + }, + { + "grad_norm": 0.27589654786740364, + "loss": 0.24529971182346344, + "step": 181 + }, + { + "grad_norm": 0.1861013857965208, + "loss": 0.22937873005867004, + "step": 182 + }, + { + "grad_norm": 0.2447756776845582, + "loss": 0.2860068082809448, + "step": 183 + }, + { + "grad_norm": 0.47030090907277067, + "loss": 0.2624228298664093, + "step": 184 + }, + { + "grad_norm": 0.22793250159988787, + "loss": 0.20272263884544373, + "step": 185 + }, + { + "grad_norm": 0.5787661519028534, + "loss": 0.22647202014923096, + "step": 186 + }, + { + "grad_norm": 0.18617361816840244, + "loss": 0.23429237306118011, + "step": 187 + }, + { + "grad_norm": 0.14548031829282693, + "loss": 0.22088445723056793, + "step": 188 + }, + { + "grad_norm": 0.12943268431096838, + "loss": 0.18227708339691162, + "step": 189 + }, + { + "epoch": 0.0608, + "grad_norm": 0.12943269312381744, + "learning_rate": 4.051172707889126e-05, + "loss": 0.2315, + "step": 190 + }, + { + "grad_norm": 0.29148152222296303, + "loss": 0.21756938099861145, + "step": 190 + }, + { + "grad_norm": 0.11077985497577719, + "loss": 0.186189204454422, + "step": 191 + }, + { + "grad_norm": 0.14081095077027167, + "loss": 0.2125082165002823, + "step": 192 + }, + { + "grad_norm": 0.21792482447178438, + "loss": 0.1734430193901062, + "step": 193 + }, + { + "grad_norm": 0.26407564850781867, + "loss": 0.2382436990737915, + "step": 194 + }, + { + "grad_norm": 0.22313808035326227, + "loss": 0.295537531375885, + "step": 195 + }, + { + "grad_norm": 0.20716380590150138, + "loss": 0.24605512619018555, + "step": 196 + }, + { + "grad_norm": 0.18172159256385653, + "loss": 0.27955830097198486, + "step": 197 + }, + { + "grad_norm": 0.27037134847674454, + "loss": 0.20275840163230896, + "step": 198 + }, + { + "grad_norm": 0.16588016078270895, + "loss": 0.23169082403182983, + "step": 199 + }, + { + "epoch": 0.064, + "grad_norm": 0.16588015854358673, + "learning_rate": 4.2643923240938166e-05, + "loss": 0.2284, + "step": 200 + }, + { + "grad_norm": 0.37884786791384595, + "loss": 0.2527273893356323, + "step": 200 + }, + { + "grad_norm": 0.2951665765646221, + "loss": 0.1842259168624878, + "step": 201 + }, + { + "grad_norm": 0.1405541008677915, + "loss": 0.21307826042175293, + "step": 202 + }, + { + "grad_norm": 0.18605342263701538, + "loss": 0.22915302217006683, + "step": 203 + }, + { + "grad_norm": 0.13607709525260783, + "loss": 0.19496271014213562, + "step": 204 + }, + { + "grad_norm": 0.15262456673844577, + "loss": 0.2915180027484894, + "step": 205 + }, + { + "grad_norm": 0.44474346627440936, + "loss": 0.25262245535850525, + "step": 206 + }, + { + "grad_norm": 0.18563951315901156, + "loss": 0.2321382611989975, + "step": 207 + }, + { + "grad_norm": 0.22405003850990665, + "loss": 0.18976783752441406, + "step": 208 + }, + { + "grad_norm": 0.2964286762002226, + "loss": 0.22796331346035004, + "step": 209 + }, + { + "epoch": 0.0672, + "grad_norm": 0.2964286804199219, + "learning_rate": 4.477611940298508e-05, + "loss": 0.2268, + "step": 210 + }, + { + "grad_norm": 0.1910172800897423, + "loss": 0.19039607048034668, + "step": 210 + }, + { + "grad_norm": 0.16371094541538977, + "loss": 0.24314460158348083, + "step": 211 + }, + { + "grad_norm": 0.2150878717491605, + "loss": 0.20173221826553345, + "step": 212 + }, + { + "grad_norm": 0.11026872475520075, + "loss": 0.19084715843200684, + "step": 213 + }, + { + "grad_norm": 0.1607581957206316, + "loss": 0.23968219757080078, + "step": 214 + }, + { + "grad_norm": 0.39006044398682793, + "loss": 0.251247763633728, + "step": 215 + }, + { + "grad_norm": 0.23236867722660814, + "loss": 0.2554571032524109, + "step": 216 + }, + { + "grad_norm": 0.12400231195695294, + "loss": 0.25094446539878845, + "step": 217 + }, + { + "grad_norm": 0.2112978809453746, + "loss": 0.308035671710968, + "step": 218 + }, + { + "grad_norm": 0.15502123728939027, + "loss": 0.22689871490001678, + "step": 219 + }, + { + "epoch": 0.0704, + "grad_norm": 0.15502123534679413, + "learning_rate": 4.690831556503198e-05, + "loss": 0.2358, + "step": 220 + }, + { + "grad_norm": 0.21209658594974154, + "loss": 0.2501450181007385, + "step": 220 + }, + { + "grad_norm": 0.3203616294926566, + "loss": 0.17394614219665527, + "step": 221 + }, + { + "grad_norm": 0.5737211924654498, + "loss": 0.2687298059463501, + "step": 222 + }, + { + "grad_norm": 0.21506437411623439, + "loss": 0.24580976366996765, + "step": 223 + }, + { + "grad_norm": 0.23941474889762726, + "loss": 0.21726591885089874, + "step": 224 + }, + { + "grad_norm": 0.1975919445362517, + "loss": 0.22556734085083008, + "step": 225 + }, + { + "grad_norm": 0.3473432932262617, + "loss": 0.23221176862716675, + "step": 226 + }, + { + "grad_norm": 0.22206864950007918, + "loss": 0.19124940037727356, + "step": 227 + }, + { + "grad_norm": 0.13025532980143273, + "loss": 0.20178377628326416, + "step": 228 + }, + { + "grad_norm": 0.22678081959414711, + "loss": 0.2604370713233948, + "step": 229 + }, + { + "epoch": 0.0736, + "grad_norm": 0.22678083181381226, + "learning_rate": 4.904051172707889e-05, + "loss": 0.2267, + "step": 230 + }, + { + "grad_norm": 0.3883954660177321, + "loss": 0.22564537823200226, + "step": 230 + }, + { + "grad_norm": 0.4511847419362972, + "loss": 0.20020532608032227, + "step": 231 + }, + { + "grad_norm": 0.3343430149698058, + "loss": 0.24852347373962402, + "step": 232 + }, + { + "grad_norm": 0.14588226574540478, + "loss": 0.28023186326026917, + "step": 233 + }, + { + "grad_norm": 0.3282903269461008, + "loss": 0.3165372908115387, + "step": 234 + }, + { + "grad_norm": 0.15137207160677013, + "loss": 0.28145483136177063, + "step": 235 + }, + { + "grad_norm": 0.1783527530023172, + "loss": 0.20048804581165314, + "step": 236 + }, + { + "grad_norm": 0.34748748454851003, + "loss": 0.27594202756881714, + "step": 237 + }, + { + "grad_norm": 0.14598503291168788, + "loss": 0.17573274672031403, + "step": 238 + }, + { + "grad_norm": 0.2653590210808124, + "loss": 0.2331797480583191, + "step": 239 + }, + { + "epoch": 0.0768, + "grad_norm": 0.2653590440750122, + "learning_rate": 5.117270788912581e-05, + "loss": 0.2438, + "step": 240 + }, + { + "grad_norm": 0.12080365583650603, + "loss": 0.19570666551589966, + "step": 240 + }, + { + "grad_norm": 0.15174737737060556, + "loss": 0.23350122570991516, + "step": 241 + }, + { + "grad_norm": 0.1709142065601553, + "loss": 0.22145983576774597, + "step": 242 + }, + { + "grad_norm": 0.3221985476044211, + "loss": 0.22935771942138672, + "step": 243 + }, + { + "grad_norm": 0.3430022642221584, + "loss": 0.1783292144536972, + "step": 244 + }, + { + "grad_norm": 0.39707533289786806, + "loss": 0.2434493601322174, + "step": 245 + }, + { + "grad_norm": 0.11765738392479995, + "loss": 0.21114946901798248, + "step": 246 + }, + { + "grad_norm": 0.1719816575016205, + "loss": 0.25217539072036743, + "step": 247 + }, + { + "grad_norm": 0.33851343895723185, + "loss": 0.24082911014556885, + "step": 248 + }, + { + "grad_norm": 0.15436981892433968, + "loss": 0.19922006130218506, + "step": 249 + }, + { + "epoch": 0.08, + "grad_norm": 0.15436983108520508, + "learning_rate": 5.330490405117271e-05, + "loss": 0.2205, + "step": 250 + }, + { + "grad_norm": 0.311570015861076, + "loss": 0.2734605371952057, + "step": 250 + }, + { + "grad_norm": 0.1932780387376242, + "loss": 0.19997206330299377, + "step": 251 + }, + { + "grad_norm": 0.22173004794797893, + "loss": 0.2355659306049347, + "step": 252 + }, + { + "grad_norm": 0.4270010950768204, + "loss": 0.2408018708229065, + "step": 253 + }, + { + "grad_norm": 0.5371725407722437, + "loss": 0.2313995659351349, + "step": 254 + }, + { + "grad_norm": 0.16347533459688893, + "loss": 0.27257704734802246, + "step": 255 + }, + { + "grad_norm": 0.40616199157623106, + "loss": 0.20181575417518616, + "step": 256 + }, + { + "grad_norm": 0.33083202992426586, + "loss": 0.33871203660964966, + "step": 257 + }, + { + "grad_norm": 0.321663668548808, + "loss": 0.21657608449459076, + "step": 258 + }, + { + "grad_norm": 0.3681298024652894, + "loss": 0.19027605652809143, + "step": 259 + }, + { + "epoch": 0.0832, + "grad_norm": 0.36812978982925415, + "learning_rate": 5.543710021321962e-05, + "loss": 0.2401, + "step": 260 + }, + { + "grad_norm": 0.11507859414588761, + "loss": 0.22552582621574402, + "step": 260 + }, + { + "grad_norm": 0.27822371610077806, + "loss": 0.28975430130958557, + "step": 261 + }, + { + "grad_norm": 0.16534979509651845, + "loss": 0.22162821888923645, + "step": 262 + }, + { + "grad_norm": 0.44917884071261277, + "loss": 0.24822726845741272, + "step": 263 + }, + { + "grad_norm": 0.19101330831509233, + "loss": 0.24076494574546814, + "step": 264 + }, + { + "grad_norm": 0.18374831931697536, + "loss": 0.20076431334018707, + "step": 265 + }, + { + "grad_norm": 0.183203560005309, + "loss": 0.22612585127353668, + "step": 266 + }, + { + "grad_norm": 0.2992048594447469, + "loss": 0.19368647038936615, + "step": 267 + }, + { + "grad_norm": 0.18633574282479878, + "loss": 0.19141890108585358, + "step": 268 + }, + { + "grad_norm": 0.2327456107822633, + "loss": 0.23707211017608643, + "step": 269 + }, + { + "epoch": 0.0864, + "grad_norm": 0.23274561762809753, + "learning_rate": 5.756929637526652e-05, + "loss": 0.2275, + "step": 270 + }, + { + "grad_norm": 0.3072939783948589, + "loss": 0.23924654722213745, + "step": 270 + }, + { + "grad_norm": 0.29615717175442824, + "loss": 0.26916342973709106, + "step": 271 + }, + { + "grad_norm": 0.42441118950622814, + "loss": 0.3106023669242859, + "step": 272 + }, + { + "grad_norm": 0.26577092350670883, + "loss": 0.2082309126853943, + "step": 273 + }, + { + "grad_norm": 0.1803785525022083, + "loss": 0.25350189208984375, + "step": 274 + }, + { + "grad_norm": 0.17689503286929456, + "loss": 0.25956863164901733, + "step": 275 + }, + { + "grad_norm": 0.1554692525147459, + "loss": 0.3000234067440033, + "step": 276 + }, + { + "grad_norm": 0.3176749122063416, + "loss": 0.2806628346443176, + "step": 277 + }, + { + "grad_norm": 0.15827598703754225, + "loss": 0.21207013726234436, + "step": 278 + }, + { + "grad_norm": 0.3396410596087678, + "loss": 0.2109941691160202, + "step": 279 + }, + { + "epoch": 0.0896, + "grad_norm": 0.3396410644054413, + "learning_rate": 5.970149253731343e-05, + "loss": 0.2544, + "step": 280 + }, + { + "grad_norm": 0.2462016242145768, + "loss": 0.23559199273586273, + "step": 280 + }, + { + "grad_norm": 0.1435551642564259, + "loss": 0.23012898862361908, + "step": 281 + }, + { + "grad_norm": 0.2874607450683119, + "loss": 0.21999605000019073, + "step": 282 + }, + { + "grad_norm": 0.3843571074137457, + "loss": 0.16119885444641113, + "step": 283 + }, + { + "grad_norm": 0.12640465441415427, + "loss": 0.20995944738388062, + "step": 284 + }, + { + "grad_norm": 0.24911012284531964, + "loss": 0.2254563421010971, + "step": 285 + }, + { + "grad_norm": 0.23370594554008953, + "loss": 0.21833735704421997, + "step": 286 + }, + { + "grad_norm": 0.13432930630679013, + "loss": 0.19602817296981812, + "step": 287 + }, + { + "grad_norm": 0.16502954646600712, + "loss": 0.19517667591571808, + "step": 288 + }, + { + "grad_norm": 0.11065306242499907, + "loss": 0.1888304054737091, + "step": 289 + }, + { + "epoch": 0.0928, + "grad_norm": 0.11065305769443512, + "learning_rate": 6.183368869936035e-05, + "loss": 0.2081, + "step": 290 + }, + { + "grad_norm": 0.21453472561705172, + "loss": 0.24674773216247559, + "step": 290 + }, + { + "grad_norm": 0.24925427533859193, + "loss": 0.2734052836894989, + "step": 291 + }, + { + "grad_norm": 0.19383061419322636, + "loss": 0.20328599214553833, + "step": 292 + }, + { + "grad_norm": 0.12363766362090078, + "loss": 0.17625868320465088, + "step": 293 + }, + { + "grad_norm": 0.1133868538567869, + "loss": 0.21412403881549835, + "step": 294 + }, + { + "grad_norm": 0.21718884782818135, + "loss": 0.20800411701202393, + "step": 295 + }, + { + "grad_norm": 0.2613617168186208, + "loss": 0.22740139067173004, + "step": 296 + }, + { + "grad_norm": 0.4221133900307377, + "loss": 0.26429060101509094, + "step": 297 + }, + { + "grad_norm": 0.15160675288794911, + "loss": 0.2722736895084381, + "step": 298 + }, + { + "grad_norm": 0.20382929501474872, + "loss": 0.22328615188598633, + "step": 299 + }, + { + "epoch": 0.096, + "grad_norm": 0.20382928848266602, + "learning_rate": 6.396588486140725e-05, + "loss": 0.2309, + "step": 300 + }, + { + "grad_norm": 0.24230065673608783, + "loss": 0.2009337842464447, + "step": 300 + }, + { + "grad_norm": 0.44281967575089326, + "loss": 0.2098526656627655, + "step": 301 + }, + { + "grad_norm": 0.1947779388169012, + "loss": 0.2717430591583252, + "step": 302 + }, + { + "grad_norm": 0.2978895596170971, + "loss": 0.22701087594032288, + "step": 303 + }, + { + "grad_norm": 0.1676935285808238, + "loss": 0.2329089343547821, + "step": 304 + }, + { + "grad_norm": 0.14984564002320866, + "loss": 0.17245851457118988, + "step": 305 + }, + { + "grad_norm": 0.30086197669810766, + "loss": 0.23149408400058746, + "step": 306 + }, + { + "grad_norm": 0.12941324711700686, + "loss": 0.20491832494735718, + "step": 307 + }, + { + "grad_norm": 0.11903953169811876, + "loss": 0.1909656673669815, + "step": 308 + }, + { + "grad_norm": 0.4722406848969054, + "loss": 0.29418790340423584, + "step": 309 + }, + { + "epoch": 0.0992, + "grad_norm": 0.472240686416626, + "learning_rate": 6.609808102345416e-05, + "loss": 0.2236, + "step": 310 + }, + { + "grad_norm": 0.34200877380816525, + "loss": 0.19337432086467743, + "step": 310 + }, + { + "grad_norm": 0.2764399033289485, + "loss": 0.22316110134124756, + "step": 311 + }, + { + "grad_norm": 0.1917042363962088, + "loss": 0.1901799589395523, + "step": 312 + }, + { + "grad_norm": 0.3130288780527515, + "loss": 0.24364827573299408, + "step": 313 + }, + { + "grad_norm": 0.12950054898295627, + "loss": 0.19790761172771454, + "step": 314 + }, + { + "grad_norm": 0.18819856659031228, + "loss": 0.1810389757156372, + "step": 315 + }, + { + "grad_norm": 0.28603267853510744, + "loss": 0.20265254378318787, + "step": 316 + }, + { + "grad_norm": 0.19000153416003154, + "loss": 0.22803369164466858, + "step": 317 + }, + { + "grad_norm": 0.19372612817761004, + "loss": 0.18754440546035767, + "step": 318 + }, + { + "grad_norm": 0.13398939051177913, + "loss": 0.19570869207382202, + "step": 319 + }, + { + "epoch": 0.1024, + "grad_norm": 0.1339893788099289, + "learning_rate": 6.823027718550106e-05, + "loss": 0.2043, + "step": 320 + }, + { + "grad_norm": 0.18036030314818208, + "loss": 0.21091905236244202, + "step": 320 + }, + { + "grad_norm": 0.14152991337468077, + "loss": 0.2810242474079132, + "step": 321 + }, + { + "grad_norm": 0.39012143599693655, + "loss": 0.25728243589401245, + "step": 322 + }, + { + "grad_norm": 0.18801251379497444, + "loss": 0.17545288801193237, + "step": 323 + }, + { + "grad_norm": 0.31728251875287244, + "loss": 0.24643677473068237, + "step": 324 + }, + { + "grad_norm": 0.17673994832349357, + "loss": 0.2101391702890396, + "step": 325 + }, + { + "grad_norm": 0.3359860920111972, + "loss": 0.2357688546180725, + "step": 326 + }, + { + "grad_norm": 0.20775113956737842, + "loss": 0.21685293316841125, + "step": 327 + }, + { + "grad_norm": 0.12781405532233148, + "loss": 0.2516498565673828, + "step": 328 + }, + { + "grad_norm": 0.2382353820545841, + "loss": 0.35508447885513306, + "step": 329 + }, + { + "epoch": 0.1056, + "grad_norm": 0.23823536932468414, + "learning_rate": 7.036247334754798e-05, + "loss": 0.2441, + "step": 330 + }, + { + "grad_norm": 0.18809555934668556, + "loss": 0.2608185410499573, + "step": 330 + }, + { + "grad_norm": 0.30586683242511065, + "loss": 0.23981116712093353, + "step": 331 + }, + { + "grad_norm": 0.6062164864809358, + "loss": 0.27031081914901733, + "step": 332 + }, + { + "grad_norm": 0.20495296058848955, + "loss": 0.27620601654052734, + "step": 333 + }, + { + "grad_norm": 0.21407426866367418, + "loss": 0.21327728033065796, + "step": 334 + }, + { + "grad_norm": 0.18808044043006475, + "loss": 0.2163642942905426, + "step": 335 + }, + { + "grad_norm": 0.22092070689455848, + "loss": 0.24081382155418396, + "step": 336 + }, + { + "grad_norm": 0.1936997797197272, + "loss": 0.23924726247787476, + "step": 337 + }, + { + "grad_norm": 0.20176301634295482, + "loss": 0.2111281305551529, + "step": 338 + }, + { + "grad_norm": 0.12380513928384244, + "loss": 0.22368483245372772, + "step": 339 + }, + { + "epoch": 0.1088, + "grad_norm": 0.12380514293909073, + "learning_rate": 7.249466950959489e-05, + "loss": 0.2392, + "step": 340 + }, + { + "grad_norm": 0.23130750803666222, + "loss": 0.225681334733963, + "step": 340 + }, + { + "grad_norm": 0.203982618452657, + "loss": 0.22413182258605957, + "step": 341 + }, + { + "grad_norm": 0.4821160720557002, + "loss": 0.25655630230903625, + "step": 342 + }, + { + "grad_norm": 0.4120457947685202, + "loss": 0.1851409524679184, + "step": 343 + }, + { + "grad_norm": 0.1489177418387608, + "loss": 0.1778731495141983, + "step": 344 + }, + { + "grad_norm": 0.22361655069351918, + "loss": 0.24274301528930664, + "step": 345 + }, + { + "grad_norm": 0.22290758422535661, + "loss": 0.20416764914989471, + "step": 346 + }, + { + "grad_norm": 0.3427370929796637, + "loss": 0.2302722930908203, + "step": 347 + }, + { + "grad_norm": 0.250645385232568, + "loss": 0.22519391775131226, + "step": 348 + }, + { + "grad_norm": 0.346379371661519, + "loss": 0.1807844340801239, + "step": 349 + }, + { + "epoch": 0.112, + "grad_norm": 0.3463793694972992, + "learning_rate": 7.46268656716418e-05, + "loss": 0.2153, + "step": 350 + }, + { + "grad_norm": 0.24914430630342035, + "loss": 0.17866748571395874, + "step": 350 + }, + { + "grad_norm": 0.2502197898169322, + "loss": 0.1887190341949463, + "step": 351 + }, + { + "grad_norm": 0.3205093825222394, + "loss": 0.2603793740272522, + "step": 352 + }, + { + "grad_norm": 0.12326385720775145, + "loss": 0.1601804494857788, + "step": 353 + }, + { + "grad_norm": 0.15461901793560595, + "loss": 0.20794254541397095, + "step": 354 + }, + { + "grad_norm": 0.1375301403725542, + "loss": 0.22723513841629028, + "step": 355 + }, + { + "grad_norm": 0.29338684758200656, + "loss": 0.1956748366355896, + "step": 356 + }, + { + "grad_norm": 0.10907412188794813, + "loss": 0.16887935996055603, + "step": 357 + }, + { + "grad_norm": 0.12768789943101116, + "loss": 0.21864758431911469, + "step": 358 + }, + { + "grad_norm": 0.19888959659810435, + "loss": 0.20640476047992706, + "step": 359 + }, + { + "epoch": 0.1152, + "grad_norm": 0.1988895982503891, + "learning_rate": 7.675906183368871e-05, + "loss": 0.2013, + "step": 360 + }, + { + "grad_norm": 0.1729701043282166, + "loss": 0.1989647001028061, + "step": 360 + }, + { + "grad_norm": 0.2781653752205883, + "loss": 0.1777271181344986, + "step": 361 + }, + { + "grad_norm": 0.24997105134505382, + "loss": 0.28300565481185913, + "step": 362 + }, + { + "grad_norm": 0.2365629770399323, + "loss": 0.2204105406999588, + "step": 363 + }, + { + "grad_norm": 0.17433571549878227, + "loss": 0.18997418880462646, + "step": 364 + }, + { + "grad_norm": 0.34239652791492264, + "loss": 0.21338365972042084, + "step": 365 + }, + { + "grad_norm": 0.2697691232867481, + "loss": 0.20674321055412292, + "step": 366 + }, + { + "grad_norm": 0.1380527626137025, + "loss": 0.21481068432331085, + "step": 367 + }, + { + "grad_norm": 0.21841188011898666, + "loss": 0.21531876921653748, + "step": 368 + }, + { + "grad_norm": 0.3201592327203185, + "loss": 0.19152355194091797, + "step": 369 + }, + { + "epoch": 0.1184, + "grad_norm": 0.3201592266559601, + "learning_rate": 7.889125799573562e-05, + "loss": 0.2112, + "step": 370 + }, + { + "grad_norm": 0.30114174082068695, + "loss": 0.2192099690437317, + "step": 370 + }, + { + "grad_norm": 0.1787821539788488, + "loss": 0.21392184495925903, + "step": 371 + }, + { + "grad_norm": 0.1702164268610751, + "loss": 0.16610664129257202, + "step": 372 + }, + { + "grad_norm": 0.17873609116457082, + "loss": 0.1812136322259903, + "step": 373 + }, + { + "grad_norm": 0.1406219092636863, + "loss": 0.21665962040424347, + "step": 374 + }, + { + "grad_norm": 0.35777513446106285, + "loss": 0.263590931892395, + "step": 375 + }, + { + "grad_norm": 0.20847893051338298, + "loss": 0.2511001527309418, + "step": 376 + }, + { + "grad_norm": 0.2420023949197598, + "loss": 0.19420358538627625, + "step": 377 + }, + { + "grad_norm": 0.16809208910894652, + "loss": 0.22241659462451935, + "step": 378 + }, + { + "grad_norm": 0.11386834230116007, + "loss": 0.16958346962928772, + "step": 379 + }, + { + "epoch": 0.1216, + "grad_norm": 0.1138683408498764, + "learning_rate": 8.102345415778252e-05, + "loss": 0.2098, + "step": 380 + }, + { + "grad_norm": 0.15368577697719374, + "loss": 0.19518548250198364, + "step": 380 + }, + { + "grad_norm": 0.20416321023889944, + "loss": 0.24475616216659546, + "step": 381 + }, + { + "grad_norm": 0.17425921166853794, + "loss": 0.1729656606912613, + "step": 382 + }, + { + "grad_norm": 0.3556116074435639, + "loss": 0.21481147408485413, + "step": 383 + }, + { + "grad_norm": 0.21475082150275143, + "loss": 0.2392093539237976, + "step": 384 + }, + { + "grad_norm": 0.16308959529980557, + "loss": 0.21606923639774323, + "step": 385 + }, + { + "grad_norm": 0.1689524322578538, + "loss": 0.22800298035144806, + "step": 386 + }, + { + "grad_norm": 0.19651824191517808, + "loss": 0.20502181351184845, + "step": 387 + }, + { + "grad_norm": 0.353528693158162, + "loss": 0.23310992121696472, + "step": 388 + }, + { + "grad_norm": 0.33196474130898757, + "loss": 0.2480693906545639, + "step": 389 + }, + { + "epoch": 0.1248, + "grad_norm": 0.33196476101875305, + "learning_rate": 8.315565031982943e-05, + "loss": 0.2197, + "step": 390 + }, + { + "grad_norm": 0.1521191592080953, + "loss": 0.20970094203948975, + "step": 390 + }, + { + "grad_norm": 0.37018111652362956, + "loss": 0.22515249252319336, + "step": 391 + }, + { + "grad_norm": 0.15388932194209465, + "loss": 0.2270672470331192, + "step": 392 + }, + { + "grad_norm": 0.26523207690006484, + "loss": 0.20337137579917908, + "step": 393 + }, + { + "grad_norm": 0.4695725274936805, + "loss": 0.1872236132621765, + "step": 394 + }, + { + "grad_norm": 0.18704075192558964, + "loss": 0.2384491264820099, + "step": 395 + }, + { + "grad_norm": 0.3127970157602157, + "loss": 0.20431645214557648, + "step": 396 + }, + { + "grad_norm": 0.2835841012090526, + "loss": 0.21749231219291687, + "step": 397 + }, + { + "grad_norm": 0.18382478631479057, + "loss": 0.1674613058567047, + "step": 398 + }, + { + "grad_norm": 0.2857055284228172, + "loss": 0.2744169235229492, + "step": 399 + }, + { + "epoch": 0.128, + "grad_norm": 0.2857055068016052, + "learning_rate": 8.528784648187633e-05, + "loss": 0.2155, + "step": 400 + }, + { + "grad_norm": 0.1813657125245492, + "loss": 0.172776460647583, + "step": 400 + }, + { + "grad_norm": 0.25626595270218866, + "loss": 0.20743483304977417, + "step": 401 + }, + { + "grad_norm": 0.23478808546270974, + "loss": 0.20644861459732056, + "step": 402 + }, + { + "grad_norm": 0.2224708393721226, + "loss": 0.2312731146812439, + "step": 403 + }, + { + "grad_norm": 0.23007846584446495, + "loss": 0.27052822709083557, + "step": 404 + }, + { + "grad_norm": 0.564568861564043, + "loss": 0.22670051455497742, + "step": 405 + }, + { + "grad_norm": 0.26365468736368164, + "loss": 0.2232551872730255, + "step": 406 + }, + { + "grad_norm": 0.14391962460851815, + "loss": 0.2668100893497467, + "step": 407 + }, + { + "grad_norm": 0.14898736347762248, + "loss": 0.2159198522567749, + "step": 408 + }, + { + "grad_norm": 0.7026212122732396, + "loss": 0.33025145530700684, + "step": 409 + }, + { + "epoch": 0.1312, + "grad_norm": 0.7026212215423584, + "learning_rate": 8.742004264392325e-05, + "loss": 0.2351, + "step": 410 + }, + { + "grad_norm": 0.3313602138912618, + "loss": 0.20002348721027374, + "step": 410 + }, + { + "grad_norm": 0.3072094698566593, + "loss": 0.2024374008178711, + "step": 411 + }, + { + "grad_norm": 0.18126550116925094, + "loss": 0.1818808764219284, + "step": 412 + }, + { + "grad_norm": 0.14853991528928073, + "loss": 0.20011809468269348, + "step": 413 + }, + { + "grad_norm": 0.25225462769603135, + "loss": 0.19772452116012573, + "step": 414 + }, + { + "grad_norm": 0.3955446431593653, + "loss": 0.1747240424156189, + "step": 415 + }, + { + "grad_norm": 0.3818662239608442, + "loss": 0.22130939364433289, + "step": 416 + }, + { + "grad_norm": 0.2535824426105575, + "loss": 0.17632821202278137, + "step": 417 + }, + { + "grad_norm": 0.16064008092596924, + "loss": 0.1690073013305664, + "step": 418 + }, + { + "grad_norm": 0.1584784810583246, + "loss": 0.16627280414104462, + "step": 419 + }, + { + "epoch": 0.1344, + "grad_norm": 0.1584784835577011, + "learning_rate": 8.955223880597016e-05, + "loss": 0.189, + "step": 420 + }, + { + "grad_norm": 0.20346529416005418, + "loss": 0.17563961446285248, + "step": 420 + }, + { + "grad_norm": 0.3497048358426433, + "loss": 0.23664520680904388, + "step": 421 + }, + { + "grad_norm": 0.3477707414031888, + "loss": 0.24842680990695953, + "step": 422 + }, + { + "grad_norm": 0.3572452624878862, + "loss": 0.23244501650333405, + "step": 423 + }, + { + "grad_norm": 0.126115987182428, + "loss": 0.2219901978969574, + "step": 424 + }, + { + "grad_norm": 0.21576429647902332, + "loss": 0.23514209687709808, + "step": 425 + }, + { + "grad_norm": 0.3160259966068021, + "loss": 0.22332215309143066, + "step": 426 + }, + { + "grad_norm": 0.4579246978192911, + "loss": 0.19335299730300903, + "step": 427 + }, + { + "grad_norm": 0.3703687937064297, + "loss": 0.18396185338497162, + "step": 428 + }, + { + "grad_norm": 0.3569210632513338, + "loss": 0.22314327955245972, + "step": 429 + }, + { + "epoch": 0.1376, + "grad_norm": 0.3569210469722748, + "learning_rate": 9.168443496801706e-05, + "loss": 0.2174, + "step": 430 + }, + { + "grad_norm": 0.13108139809365113, + "loss": 0.22839395701885223, + "step": 430 + }, + { + "grad_norm": 0.18705636564942935, + "loss": 0.2328292280435562, + "step": 431 + }, + { + "grad_norm": 0.21400617319335172, + "loss": 0.2551964819431305, + "step": 432 + }, + { + "grad_norm": 0.14939114922654545, + "loss": 0.24083130061626434, + "step": 433 + }, + { + "grad_norm": 0.29596027706180583, + "loss": 0.247333824634552, + "step": 434 + }, + { + "grad_norm": 0.3045629683025137, + "loss": 0.18941384553909302, + "step": 435 + }, + { + "grad_norm": 0.3820733231054509, + "loss": 0.2547655701637268, + "step": 436 + }, + { + "grad_norm": 0.10984238457295784, + "loss": 0.22178378701210022, + "step": 437 + }, + { + "grad_norm": 0.16384281715516644, + "loss": 0.20636001229286194, + "step": 438 + }, + { + "grad_norm": 0.1218563512191694, + "loss": 0.21429748833179474, + "step": 439 + }, + { + "epoch": 0.1408, + "grad_norm": 0.12185634672641754, + "learning_rate": 9.381663113006397e-05, + "loss": 0.2291, + "step": 440 + }, + { + "grad_norm": 0.38001975787092557, + "loss": 0.27491307258605957, + "step": 440 + }, + { + "grad_norm": 0.15308389659517715, + "loss": 0.23774631321430206, + "step": 441 + }, + { + "grad_norm": 0.22811893346490203, + "loss": 0.2426730990409851, + "step": 442 + }, + { + "grad_norm": 0.31287817159820613, + "loss": 0.20705893635749817, + "step": 443 + }, + { + "grad_norm": 0.2659518874435724, + "loss": 0.22389385104179382, + "step": 444 + }, + { + "grad_norm": 0.2190420098896666, + "loss": 0.21358805894851685, + "step": 445 + }, + { + "grad_norm": 0.3344890390124026, + "loss": 0.24487733840942383, + "step": 446 + }, + { + "grad_norm": 0.1922624449063476, + "loss": 0.2142653614282608, + "step": 447 + }, + { + "grad_norm": 0.23696982967995364, + "loss": 0.1907060146331787, + "step": 448 + }, + { + "grad_norm": 0.2053037321682217, + "loss": 0.19809189438819885, + "step": 449 + }, + { + "epoch": 0.144, + "grad_norm": 0.20530372858047485, + "learning_rate": 9.594882729211087e-05, + "loss": 0.2248, + "step": 450 + }, + { + "grad_norm": 0.16912367101796205, + "loss": 0.18749308586120605, + "step": 450 + }, + { + "grad_norm": 0.2719384918713939, + "loss": 0.20186394453048706, + "step": 451 + }, + { + "grad_norm": 0.22628232876565346, + "loss": 0.22526752948760986, + "step": 452 + }, + { + "grad_norm": 0.21181041422281988, + "loss": 0.19297786056995392, + "step": 453 + }, + { + "grad_norm": 0.45735943990235844, + "loss": 0.23908929526805878, + "step": 454 + }, + { + "grad_norm": 0.2078809531729785, + "loss": 0.21621060371398926, + "step": 455 + }, + { + "grad_norm": 0.6254257858872171, + "loss": 0.3236102759838104, + "step": 456 + }, + { + "grad_norm": 0.27681425499521284, + "loss": 0.20019619166851044, + "step": 457 + }, + { + "grad_norm": 0.3189533701551848, + "loss": 0.227547287940979, + "step": 458 + }, + { + "grad_norm": 0.3720776212947042, + "loss": 0.20503796637058258, + "step": 459 + }, + { + "epoch": 0.1472, + "grad_norm": 0.3720776438713074, + "learning_rate": 9.808102345415778e-05, + "loss": 0.2219, + "step": 460 + }, + { + "grad_norm": 0.20581238269440744, + "loss": 0.19870582222938538, + "step": 460 + }, + { + "grad_norm": 0.5028307371909672, + "loss": 0.24581538140773773, + "step": 461 + }, + { + "grad_norm": 0.20545212923193126, + "loss": 0.2387309968471527, + "step": 462 + }, + { + "grad_norm": 0.19834423257063166, + "loss": 0.1929241418838501, + "step": 463 + }, + { + "grad_norm": 0.12812834919624422, + "loss": 0.20780326426029205, + "step": 464 + }, + { + "grad_norm": 0.28724687134364796, + "loss": 0.20817500352859497, + "step": 465 + }, + { + "grad_norm": 0.1633307240324502, + "loss": 0.20272046327590942, + "step": 466 + }, + { + "grad_norm": 0.3907535085724796, + "loss": 0.18568891286849976, + "step": 467 + }, + { + "grad_norm": 0.20559214672187404, + "loss": 0.2174505740404129, + "step": 468 + }, + { + "grad_norm": 0.2163982171047193, + "loss": 0.2397756576538086, + "step": 469 + }, + { + "epoch": 0.1504, + "grad_norm": 0.2163982093334198, + "learning_rate": 9.998877161464182e-05, + "loss": 0.2138, + "step": 470 + }, + { + "grad_norm": 0.577574051821889, + "loss": 0.26081863045692444, + "step": 470 + }, + { + "grad_norm": 0.17165810186353386, + "loss": 0.23301950097084045, + "step": 471 + }, + { + "grad_norm": 0.44965909337839927, + "loss": 0.19803039729595184, + "step": 472 + }, + { + "grad_norm": 0.6484628746556494, + "loss": 0.22305510938167572, + "step": 473 + }, + { + "grad_norm": 0.2980118241510806, + "loss": 0.26489946246147156, + "step": 474 + }, + { + "grad_norm": 0.32729750879825004, + "loss": 0.19376157224178314, + "step": 475 + }, + { + "grad_norm": 0.2556772546819145, + "loss": 0.23705609142780304, + "step": 476 + }, + { + "grad_norm": 0.24806804952439515, + "loss": 0.20403757691383362, + "step": 477 + }, + { + "grad_norm": 0.26877008656193346, + "loss": 0.21113498508930206, + "step": 478 + }, + { + "grad_norm": 0.18278161735960666, + "loss": 0.1991771161556244, + "step": 479 + }, + { + "epoch": 0.1536, + "grad_norm": 0.1827816218137741, + "learning_rate": 9.987648776105997e-05, + "loss": 0.2225, + "step": 480 + }, + { + "grad_norm": 0.259125303914029, + "loss": 0.2513143718242645, + "step": 480 + }, + { + "grad_norm": 0.4736413951244784, + "loss": 0.27539265155792236, + "step": 481 + }, + { + "grad_norm": 0.26557798283478556, + "loss": 0.18509167432785034, + "step": 482 + }, + { + "grad_norm": 0.15895313468544528, + "loss": 0.16909882426261902, + "step": 483 + }, + { + "grad_norm": 0.2583543367278534, + "loss": 0.2376404106616974, + "step": 484 + }, + { + "grad_norm": 0.2508377296670825, + "loss": 0.2528817653656006, + "step": 485 + }, + { + "grad_norm": 0.23778265021187808, + "loss": 0.1956116259098053, + "step": 486 + }, + { + "grad_norm": 0.5558035197864369, + "loss": 0.1869448721408844, + "step": 487 + }, + { + "grad_norm": 0.5301295562440388, + "loss": 0.20494727790355682, + "step": 488 + }, + { + "grad_norm": 0.33974064546504323, + "loss": 0.18934249877929688, + "step": 489 + }, + { + "epoch": 0.1568, + "grad_norm": 0.3397406339645386, + "learning_rate": 9.97642039074781e-05, + "loss": 0.2148, + "step": 490 + }, + { + "grad_norm": 0.3302328334704434, + "loss": 0.20656588673591614, + "step": 490 + }, + { + "grad_norm": 0.27381548821704627, + "loss": 0.17269232869148254, + "step": 491 + }, + { + "grad_norm": 0.283879577603325, + "loss": 0.18192358314990997, + "step": 492 + }, + { + "grad_norm": 0.19979354618269504, + "loss": 0.20419268310070038, + "step": 493 + }, + { + "grad_norm": 0.3630770698520835, + "loss": 0.20060423016548157, + "step": 494 + }, + { + "grad_norm": 0.253716817786488, + "loss": 0.19294320046901703, + "step": 495 + }, + { + "grad_norm": 0.36769003488337126, + "loss": 0.2643932104110718, + "step": 496 + }, + { + "grad_norm": 0.482792009656945, + "loss": 0.20644310116767883, + "step": 497 + }, + { + "grad_norm": 0.17753002367498472, + "loss": 0.2691408395767212, + "step": 498 + }, + { + "grad_norm": 0.28261841309901997, + "loss": 0.19298610091209412, + "step": 499 + }, + { + "epoch": 0.16, + "grad_norm": 0.2826184034347534, + "learning_rate": 9.965192005389625e-05, + "loss": 0.2092, + "step": 500 + }, + { + "grad_norm": 0.24983232647653145, + "loss": 0.18586717545986176, + "step": 500 + }, + { + "grad_norm": 0.3772546713353796, + "loss": 0.2433023452758789, + "step": 501 + }, + { + "grad_norm": 0.47135677275133614, + "loss": 0.20586803555488586, + "step": 502 + }, + { + "grad_norm": 0.15487490029384327, + "loss": 0.27501192688941956, + "step": 503 + }, + { + "grad_norm": 0.4036523988166591, + "loss": 0.19285260140895844, + "step": 504 + }, + { + "grad_norm": 0.2565253485661981, + "loss": 0.16491752862930298, + "step": 505 + }, + { + "grad_norm": 0.18299583982174675, + "loss": 0.21847602725028992, + "step": 506 + }, + { + "grad_norm": 0.38843885157661884, + "loss": 0.2414567768573761, + "step": 507 + }, + { + "grad_norm": 0.34683035772096993, + "loss": 0.18821939826011658, + "step": 508 + }, + { + "grad_norm": 0.17477303012592196, + "loss": 0.20393185317516327, + "step": 509 + }, + { + "epoch": 0.1632, + "grad_norm": 0.17477303743362427, + "learning_rate": 9.95396362003144e-05, + "loss": 0.212, + "step": 510 + }, + { + "grad_norm": 0.13992269213939856, + "loss": 0.17699748277664185, + "step": 510 + }, + { + "grad_norm": 0.20368160876280067, + "loss": 0.16818669438362122, + "step": 511 + }, + { + "grad_norm": 0.24995657947762287, + "loss": 0.1786920726299286, + "step": 512 + }, + { + "grad_norm": 0.32058720820571107, + "loss": 0.24110537767410278, + "step": 513 + }, + { + "grad_norm": 0.22605602436415417, + "loss": 0.24567262828350067, + "step": 514 + }, + { + "grad_norm": 0.24961244611702643, + "loss": 0.1848776489496231, + "step": 515 + }, + { + "grad_norm": 0.21096936168555425, + "loss": 0.21696415543556213, + "step": 516 + }, + { + "grad_norm": 0.39525694915970916, + "loss": 0.21483974158763885, + "step": 517 + }, + { + "grad_norm": 0.13928774902050167, + "loss": 0.21296022832393646, + "step": 518 + }, + { + "grad_norm": 0.14256269965014443, + "loss": 0.1868196725845337, + "step": 519 + }, + { + "epoch": 0.1664, + "grad_norm": 0.14256270229816437, + "learning_rate": 9.942735234673256e-05, + "loss": 0.2027, + "step": 520 + }, + { + "grad_norm": 0.4106257743778763, + "loss": 0.2758306860923767, + "step": 520 + }, + { + "grad_norm": 0.14462882809298627, + "loss": 0.20114514231681824, + "step": 521 + }, + { + "grad_norm": 0.15320754048992258, + "loss": 0.2240072786808014, + "step": 522 + }, + { + "grad_norm": 0.1298924105232317, + "loss": 0.20207421481609344, + "step": 523 + }, + { + "grad_norm": 0.28316823717629247, + "loss": 0.25807374715805054, + "step": 524 + }, + { + "grad_norm": 0.11390010201630162, + "loss": 0.19925826787948608, + "step": 525 + }, + { + "grad_norm": 0.35410946562419315, + "loss": 0.21753722429275513, + "step": 526 + }, + { + "grad_norm": 0.12639404057187967, + "loss": 0.16735029220581055, + "step": 527 + }, + { + "grad_norm": 0.2220430280629675, + "loss": 0.16132497787475586, + "step": 528 + }, + { + "grad_norm": 0.20557594126205758, + "loss": 0.2500706613063812, + "step": 529 + }, + { + "epoch": 0.1696, + "grad_norm": 0.20557594299316406, + "learning_rate": 9.931506849315069e-05, + "loss": 0.2157, + "step": 530 + }, + { + "grad_norm": 0.17725029074232682, + "loss": 0.24334655702114105, + "step": 530 + }, + { + "grad_norm": 0.10653184348759685, + "loss": 0.16072335839271545, + "step": 531 + }, + { + "grad_norm": 0.11904773667049594, + "loss": 0.20746302604675293, + "step": 532 + }, + { + "grad_norm": 0.1552297324398382, + "loss": 0.1970917135477066, + "step": 533 + }, + { + "grad_norm": 0.17466543257104125, + "loss": 0.20936423540115356, + "step": 534 + }, + { + "grad_norm": 0.1724825250128506, + "loss": 0.21076948940753937, + "step": 535 + }, + { + "grad_norm": 0.20719608866059308, + "loss": 0.19139930605888367, + "step": 536 + }, + { + "grad_norm": 0.4139299408947599, + "loss": 0.2672972083091736, + "step": 537 + }, + { + "grad_norm": 0.16205578182527186, + "loss": 0.22373266518115997, + "step": 538 + }, + { + "grad_norm": 0.19155051480573018, + "loss": 0.2311933934688568, + "step": 539 + }, + { + "epoch": 0.1728, + "grad_norm": 0.19155050814151764, + "learning_rate": 9.920278463956883e-05, + "loss": 0.2142, + "step": 540 + }, + { + "grad_norm": 0.5798699508914333, + "loss": 0.1626231074333191, + "step": 540 + }, + { + "grad_norm": 0.43906879482676264, + "loss": 0.3058236539363861, + "step": 541 + }, + { + "grad_norm": 0.4144533168914001, + "loss": 0.18347671627998352, + "step": 542 + }, + { + "grad_norm": 0.23226056241937074, + "loss": 0.19636251032352448, + "step": 543 + }, + { + "grad_norm": 0.12055223536328828, + "loss": 0.20431004464626312, + "step": 544 + }, + { + "grad_norm": 0.1902866334592834, + "loss": 0.2056966871023178, + "step": 545 + }, + { + "grad_norm": 0.2819408825800737, + "loss": 0.20325732231140137, + "step": 546 + }, + { + "grad_norm": 0.3233922832501084, + "loss": 0.19263345003128052, + "step": 547 + }, + { + "grad_norm": 0.3312092410420903, + "loss": 0.18759937584400177, + "step": 548 + }, + { + "grad_norm": 0.1431547867611657, + "loss": 0.18554309010505676, + "step": 549 + }, + { + "epoch": 0.176, + "grad_norm": 0.1431547850370407, + "learning_rate": 9.909050078598698e-05, + "loss": 0.2027, + "step": 550 + }, + { + "grad_norm": 0.33058399130139227, + "loss": 0.23099155724048615, + "step": 550 + }, + { + "grad_norm": 0.19748597901214673, + "loss": 0.2411402016878128, + "step": 551 + }, + { + "grad_norm": 0.13908543571438536, + "loss": 0.19571462273597717, + "step": 552 + }, + { + "grad_norm": 0.12680711380422624, + "loss": 0.1634690910577774, + "step": 553 + }, + { + "grad_norm": 0.1908780650364373, + "loss": 0.19211478531360626, + "step": 554 + }, + { + "grad_norm": 0.17347714717371224, + "loss": 0.1983051747083664, + "step": 555 + }, + { + "grad_norm": 0.2741460758177996, + "loss": 0.1785309910774231, + "step": 556 + }, + { + "grad_norm": 0.2600592926958696, + "loss": 0.2073313593864441, + "step": 557 + }, + { + "grad_norm": 0.26351799531778214, + "loss": 0.21231578290462494, + "step": 558 + }, + { + "grad_norm": 0.17494995982313172, + "loss": 0.17609494924545288, + "step": 559 + }, + { + "epoch": 0.1792, + "grad_norm": 0.17494995892047882, + "learning_rate": 9.897821693240512e-05, + "loss": 0.1996, + "step": 560 + }, + { + "grad_norm": 0.16029151281311732, + "loss": 0.19439361989498138, + "step": 560 + }, + { + "grad_norm": 0.19701427502425342, + "loss": 0.1919352412223816, + "step": 561 + }, + { + "grad_norm": 0.2687545669904091, + "loss": 0.23789888620376587, + "step": 562 + }, + { + "grad_norm": 0.29593638192199717, + "loss": 0.30245518684387207, + "step": 563 + }, + { + "grad_norm": 0.27707739006739435, + "loss": 0.27042943239212036, + "step": 564 + }, + { + "grad_norm": 0.5537750574957768, + "loss": 0.3291202783584595, + "step": 565 + }, + { + "grad_norm": 0.10741283670244854, + "loss": 0.18859243392944336, + "step": 566 + }, + { + "grad_norm": 0.1501993133796011, + "loss": 0.24083566665649414, + "step": 567 + }, + { + "grad_norm": 0.353717766358819, + "loss": 0.22329989075660706, + "step": 568 + }, + { + "grad_norm": 0.21769669379681944, + "loss": 0.24299083650112152, + "step": 569 + }, + { + "epoch": 0.1824, + "grad_norm": 0.21769669651985168, + "learning_rate": 9.886593307882327e-05, + "loss": 0.2422, + "step": 570 + }, + { + "grad_norm": 0.5523797928234256, + "loss": 0.2339523732662201, + "step": 570 + }, + { + "grad_norm": 0.3632783498727065, + "loss": 0.1916469931602478, + "step": 571 + }, + { + "grad_norm": 0.16613574254863983, + "loss": 0.1868484914302826, + "step": 572 + }, + { + "grad_norm": 0.3181467470525448, + "loss": 0.24784523248672485, + "step": 573 + }, + { + "grad_norm": 0.23148771397431897, + "loss": 0.23552767932415009, + "step": 574 + }, + { + "grad_norm": 0.17456572351457716, + "loss": 0.17988666892051697, + "step": 575 + }, + { + "grad_norm": 0.20716938026029183, + "loss": 0.2631847858428955, + "step": 576 + }, + { + "grad_norm": 0.30084862207472235, + "loss": 0.16896742582321167, + "step": 577 + }, + { + "grad_norm": 0.14105148356101616, + "loss": 0.19940637052059174, + "step": 578 + }, + { + "grad_norm": 0.5145639297176408, + "loss": 0.25065964460372925, + "step": 579 + }, + { + "epoch": 0.1856, + "grad_norm": 0.5145639181137085, + "learning_rate": 9.875364922524142e-05, + "loss": 0.2158, + "step": 580 + }, + { + "grad_norm": 0.19153405737434, + "loss": 0.16486486792564392, + "step": 580 + }, + { + "grad_norm": 0.13279027642257243, + "loss": 0.20186758041381836, + "step": 581 + }, + { + "grad_norm": 0.4109573105452901, + "loss": 0.1982104480266571, + "step": 582 + }, + { + "grad_norm": 0.33488102012201143, + "loss": 0.20829446613788605, + "step": 583 + }, + { + "grad_norm": 0.18335363681328065, + "loss": 0.18825799226760864, + "step": 584 + }, + { + "grad_norm": 0.18303634778221162, + "loss": 0.17467878758907318, + "step": 585 + }, + { + "grad_norm": 0.579256985145621, + "loss": 0.27322667837142944, + "step": 586 + }, + { + "grad_norm": 0.20134148776344848, + "loss": 0.18703755736351013, + "step": 587 + }, + { + "grad_norm": 0.5296901831092437, + "loss": 0.2936621308326721, + "step": 588 + }, + { + "grad_norm": 0.1949733297969044, + "loss": 0.19634269177913666, + "step": 589 + }, + { + "epoch": 0.1888, + "grad_norm": 0.19497331976890564, + "learning_rate": 9.864136537165956e-05, + "loss": 0.2086, + "step": 590 + }, + { + "grad_norm": 0.195231824937206, + "loss": 0.1856149435043335, + "step": 590 + }, + { + "grad_norm": 0.22077487550836083, + "loss": 0.2452094852924347, + "step": 591 + }, + { + "grad_norm": 0.30144795754901255, + "loss": 0.20015351474285126, + "step": 592 + }, + { + "grad_norm": 0.21981381929842383, + "loss": 0.23336568474769592, + "step": 593 + }, + { + "grad_norm": 0.2040500765515633, + "loss": 0.20937480032444, + "step": 594 + }, + { + "grad_norm": 0.5085816858604002, + "loss": 0.23643743991851807, + "step": 595 + }, + { + "grad_norm": 0.18380191316776165, + "loss": 0.19243119657039642, + "step": 596 + }, + { + "grad_norm": 0.1605234148457638, + "loss": 0.24195528030395508, + "step": 597 + }, + { + "grad_norm": 0.18087425117230022, + "loss": 0.1520039290189743, + "step": 598 + }, + { + "grad_norm": 0.2112557470782321, + "loss": 0.19659289717674255, + "step": 599 + }, + { + "epoch": 0.192, + "grad_norm": 0.211255744099617, + "learning_rate": 9.852908151807771e-05, + "loss": 0.2093, + "step": 600 + }, + { + "grad_norm": 0.27616673860169544, + "loss": 0.19125846028327942, + "step": 600 + }, + { + "grad_norm": 0.45017467497271685, + "loss": 0.2431926429271698, + "step": 601 + }, + { + "grad_norm": 0.2109038001448238, + "loss": 0.19643306732177734, + "step": 602 + }, + { + "grad_norm": 0.17738697211907317, + "loss": 0.20698124170303345, + "step": 603 + }, + { + "grad_norm": 0.33146256366694143, + "loss": 0.22959665954113007, + "step": 604 + }, + { + "grad_norm": 0.26540450707008395, + "loss": 0.2493821233510971, + "step": 605 + }, + { + "grad_norm": 0.18011185695583443, + "loss": 0.17183475196361542, + "step": 606 + }, + { + "grad_norm": 0.22918611315352105, + "loss": 0.2321891337633133, + "step": 607 + }, + { + "grad_norm": 0.23252333985241597, + "loss": 0.21537519991397858, + "step": 608 + }, + { + "grad_norm": 0.4832595751991381, + "loss": 0.21162591874599457, + "step": 609 + }, + { + "epoch": 0.1952, + "grad_norm": 0.4832595884799957, + "learning_rate": 9.841679766449586e-05, + "loss": 0.2148, + "step": 610 + }, + { + "grad_norm": 0.6581511536872209, + "loss": 0.20331858098506927, + "step": 610 + }, + { + "grad_norm": 0.17044155780393258, + "loss": 0.20061755180358887, + "step": 611 + }, + { + "grad_norm": 0.32488732463713005, + "loss": 0.17762061953544617, + "step": 612 + }, + { + "grad_norm": 0.16192585415998847, + "loss": 0.25486984848976135, + "step": 613 + }, + { + "grad_norm": 0.47431803803273104, + "loss": 0.24865901470184326, + "step": 614 + }, + { + "grad_norm": 0.2734689999080053, + "loss": 0.2501664161682129, + "step": 615 + }, + { + "grad_norm": 0.3186595807605771, + "loss": 0.2219168096780777, + "step": 616 + }, + { + "grad_norm": 0.41434591795046977, + "loss": 0.29847627878189087, + "step": 617 + }, + { + "grad_norm": 0.24905620598140799, + "loss": 0.17622020840644836, + "step": 618 + }, + { + "grad_norm": 0.24792829195037563, + "loss": 0.21027593314647675, + "step": 619 + }, + { + "epoch": 0.1984, + "grad_norm": 0.24792829155921936, + "learning_rate": 9.8304513810914e-05, + "loss": 0.2242, + "step": 620 + }, + { + "grad_norm": 0.2339183389788072, + "loss": 0.2116771787405014, + "step": 620 + }, + { + "grad_norm": 0.3125008212514068, + "loss": 0.17710524797439575, + "step": 621 + }, + { + "grad_norm": 0.17011453254199554, + "loss": 0.16284197568893433, + "step": 622 + }, + { + "grad_norm": 0.13581118916220478, + "loss": 0.18419799208641052, + "step": 623 + }, + { + "grad_norm": 0.20998153112932882, + "loss": 0.19298267364501953, + "step": 624 + }, + { + "grad_norm": 0.27026008631766224, + "loss": 0.17749273777008057, + "step": 625 + }, + { + "grad_norm": 0.15225813171642033, + "loss": 0.20737990736961365, + "step": 626 + }, + { + "grad_norm": 0.198753167032075, + "loss": 0.18726693093776703, + "step": 627 + }, + { + "grad_norm": 0.24345410816185184, + "loss": 0.2735573947429657, + "step": 628 + }, + { + "grad_norm": 0.48613138080528406, + "loss": 0.26005086302757263, + "step": 629 + }, + { + "epoch": 0.2016, + "grad_norm": 0.48613137006759644, + "learning_rate": 9.819222995733213e-05, + "loss": 0.2035, + "step": 630 + }, + { + "grad_norm": 0.16026060867873815, + "loss": 0.17595626413822174, + "step": 630 + }, + { + "grad_norm": 0.11316484372304499, + "loss": 0.17662185430526733, + "step": 631 + }, + { + "grad_norm": 0.1292310339304219, + "loss": 0.2053198516368866, + "step": 632 + }, + { + "grad_norm": 0.46882792994106604, + "loss": 0.17537137866020203, + "step": 633 + }, + { + "grad_norm": 0.1452671002102821, + "loss": 0.19654735922813416, + "step": 634 + }, + { + "grad_norm": 0.27886146234617465, + "loss": 0.18756508827209473, + "step": 635 + }, + { + "grad_norm": 0.3056903877663334, + "loss": 0.17757461965084076, + "step": 636 + }, + { + "grad_norm": 0.38837195458580703, + "loss": 0.22943544387817383, + "step": 637 + }, + { + "grad_norm": 0.1461557462128025, + "loss": 0.19508570432662964, + "step": 638 + }, + { + "grad_norm": 0.20214977604017087, + "loss": 0.2432159185409546, + "step": 639 + }, + { + "epoch": 0.2048, + "grad_norm": 0.20214977860450745, + "learning_rate": 9.807994610375028e-05, + "loss": 0.1963, + "step": 640 + }, + { + "grad_norm": 0.38428207917102286, + "loss": 0.23071593046188354, + "step": 640 + }, + { + "grad_norm": 0.23392330028311917, + "loss": 0.24716752767562866, + "step": 641 + }, + { + "grad_norm": 0.3636613183205858, + "loss": 0.23409156501293182, + "step": 642 + }, + { + "grad_norm": 0.17030845488490615, + "loss": 0.17096780240535736, + "step": 643 + }, + { + "grad_norm": 0.2160059104398285, + "loss": 0.2441152185201645, + "step": 644 + }, + { + "grad_norm": 0.2766558374450753, + "loss": 0.19044600427150726, + "step": 645 + }, + { + "grad_norm": 0.16368319964333894, + "loss": 0.1955822855234146, + "step": 646 + }, + { + "grad_norm": 0.15911088173637272, + "loss": 0.2329016923904419, + "step": 647 + }, + { + "grad_norm": 0.28534168866632714, + "loss": 0.20548997819423676, + "step": 648 + }, + { + "grad_norm": 0.18677652119195828, + "loss": 0.20838938653469086, + "step": 649 + }, + { + "epoch": 0.208, + "grad_norm": 0.1867765188217163, + "learning_rate": 9.796766225016843e-05, + "loss": 0.216, + "step": 650 + }, + { + "grad_norm": 0.10664438082795388, + "loss": 0.15428301692008972, + "step": 650 + }, + { + "grad_norm": 0.4219740832823198, + "loss": 0.19194157421588898, + "step": 651 + }, + { + "grad_norm": 0.09441666189909263, + "loss": 0.18831782042980194, + "step": 652 + }, + { + "grad_norm": 0.25380855766695426, + "loss": 0.24005475640296936, + "step": 653 + }, + { + "grad_norm": 0.2222391131464447, + "loss": 0.2086753398180008, + "step": 654 + }, + { + "grad_norm": 0.26238905976761073, + "loss": 0.1666259914636612, + "step": 655 + }, + { + "grad_norm": 0.310382056936813, + "loss": 0.18008774518966675, + "step": 656 + }, + { + "grad_norm": 0.17006558475210626, + "loss": 0.164903923869133, + "step": 657 + }, + { + "grad_norm": 0.15516244334897325, + "loss": 0.15555483102798462, + "step": 658 + }, + { + "grad_norm": 0.2786971069885076, + "loss": 0.19163458049297333, + "step": 659 + }, + { + "epoch": 0.2112, + "grad_norm": 0.27869710326194763, + "learning_rate": 9.785537839658657e-05, + "loss": 0.1842, + "step": 660 + }, + { + "grad_norm": 0.19169305531274894, + "loss": 0.1811373084783554, + "step": 660 + }, + { + "grad_norm": 0.1580219401767991, + "loss": 0.18746525049209595, + "step": 661 + }, + { + "grad_norm": 0.23916238055377825, + "loss": 0.1873500496149063, + "step": 662 + }, + { + "grad_norm": 0.22884057993911502, + "loss": 0.1852532923221588, + "step": 663 + }, + { + "grad_norm": 0.2488619167129747, + "loss": 0.2027014046907425, + "step": 664 + }, + { + "grad_norm": 0.3451655626610161, + "loss": 0.2315656542778015, + "step": 665 + }, + { + "grad_norm": 0.3764462701797929, + "loss": 0.1833888590335846, + "step": 666 + }, + { + "grad_norm": 0.4373813981944856, + "loss": 0.2070915699005127, + "step": 667 + }, + { + "grad_norm": 0.13297326955399705, + "loss": 0.22270239889621735, + "step": 668 + }, + { + "grad_norm": 0.21029245285923545, + "loss": 0.2266363501548767, + "step": 669 + }, + { + "epoch": 0.2144, + "grad_norm": 0.21029245853424072, + "learning_rate": 9.774309454300472e-05, + "loss": 0.2015, + "step": 670 + }, + { + "grad_norm": 0.327900228320456, + "loss": 0.2492714524269104, + "step": 670 + }, + { + "grad_norm": 0.14394154882813448, + "loss": 0.20404008030891418, + "step": 671 + }, + { + "grad_norm": 0.20308242239197957, + "loss": 0.21560508012771606, + "step": 672 + }, + { + "grad_norm": 0.37769247265088157, + "loss": 0.1697385162115097, + "step": 673 + }, + { + "grad_norm": 0.35169379869779055, + "loss": 0.23052439093589783, + "step": 674 + }, + { + "grad_norm": 0.12756866884315807, + "loss": 0.2127888798713684, + "step": 675 + }, + { + "grad_norm": 0.15714469232622805, + "loss": 0.19070658087730408, + "step": 676 + }, + { + "grad_norm": 0.2074035032204061, + "loss": 0.21286340057849884, + "step": 677 + }, + { + "grad_norm": 0.18494732273801148, + "loss": 0.21866412460803986, + "step": 678 + }, + { + "grad_norm": 0.18919136273246054, + "loss": 0.16689440608024597, + "step": 679 + }, + { + "epoch": 0.2176, + "grad_norm": 0.18919135630130768, + "learning_rate": 9.763081068942287e-05, + "loss": 0.2071, + "step": 680 + }, + { + "grad_norm": 0.20815934741411513, + "loss": 0.24982602894306183, + "step": 680 + }, + { + "grad_norm": 0.19779897990603057, + "loss": 0.2090117633342743, + "step": 681 + }, + { + "grad_norm": 0.18872048534718755, + "loss": 0.18512986600399017, + "step": 682 + }, + { + "grad_norm": 0.34536024954937267, + "loss": 0.16509461402893066, + "step": 683 + }, + { + "grad_norm": 0.20475154448298918, + "loss": 0.1819901317358017, + "step": 684 + }, + { + "grad_norm": 0.1064915420859291, + "loss": 0.15765322744846344, + "step": 685 + }, + { + "grad_norm": 0.14410865832625466, + "loss": 0.1885453760623932, + "step": 686 + }, + { + "grad_norm": 0.19794556504071503, + "loss": 0.17933443188667297, + "step": 687 + }, + { + "grad_norm": 0.13971354291300464, + "loss": 0.21933980286121368, + "step": 688 + }, + { + "grad_norm": 0.14328770902758728, + "loss": 0.22263920307159424, + "step": 689 + }, + { + "epoch": 0.2208, + "grad_norm": 0.14328770339488983, + "learning_rate": 9.751852683584101e-05, + "loss": 0.1959, + "step": 690 + }, + { + "grad_norm": 0.16027338829049564, + "loss": 0.19189077615737915, + "step": 690 + }, + { + "grad_norm": 0.5755060081578932, + "loss": 0.2503487169742584, + "step": 691 + }, + { + "grad_norm": 0.16881599674888398, + "loss": 0.21601282060146332, + "step": 692 + }, + { + "grad_norm": 0.19315821571915853, + "loss": 0.19591160118579865, + "step": 693 + }, + { + "grad_norm": 0.3463467471212879, + "loss": 0.2256205976009369, + "step": 694 + }, + { + "grad_norm": 0.2244430651444613, + "loss": 0.17374403774738312, + "step": 695 + }, + { + "grad_norm": 0.39782878582434616, + "loss": 0.18983669579029083, + "step": 696 + }, + { + "grad_norm": 0.13789484662476453, + "loss": 0.1861743927001953, + "step": 697 + }, + { + "grad_norm": 0.14227910443210198, + "loss": 0.20612969994544983, + "step": 698 + }, + { + "grad_norm": 0.23997553615877296, + "loss": 0.17974087595939636, + "step": 699 + }, + { + "epoch": 0.224, + "grad_norm": 0.23997552692890167, + "learning_rate": 9.740624298225916e-05, + "loss": 0.2015, + "step": 700 + }, + { + "grad_norm": 0.1573435968245027, + "loss": 0.18873929977416992, + "step": 700 + }, + { + "grad_norm": 0.21834933189649922, + "loss": 0.25340789556503296, + "step": 701 + }, + { + "grad_norm": 0.18843580515103556, + "loss": 0.22690953314304352, + "step": 702 + }, + { + "grad_norm": 0.1947906228470814, + "loss": 0.18581905961036682, + "step": 703 + }, + { + "grad_norm": 0.31077118169570106, + "loss": 0.2290669083595276, + "step": 704 + }, + { + "grad_norm": 0.20650087568758932, + "loss": 0.2652716636657715, + "step": 705 + }, + { + "grad_norm": 0.4289658450152476, + "loss": 0.20856836438179016, + "step": 706 + }, + { + "grad_norm": 0.18923077949471018, + "loss": 0.18529900908470154, + "step": 707 + }, + { + "grad_norm": 0.23269529316525053, + "loss": 0.23882336914539337, + "step": 708 + }, + { + "grad_norm": 0.22771386946874003, + "loss": 0.1733851581811905, + "step": 709 + }, + { + "epoch": 0.2272, + "grad_norm": 0.22771386802196503, + "learning_rate": 9.729395912867731e-05, + "loss": 0.2155, + "step": 710 + }, + { + "grad_norm": 0.255284417588878, + "loss": 0.18110749125480652, + "step": 710 + }, + { + "grad_norm": 0.32240717760146426, + "loss": 0.1951826810836792, + "step": 711 + }, + { + "grad_norm": 0.14065714519109143, + "loss": 0.1893186867237091, + "step": 712 + }, + { + "grad_norm": 0.26545173720284354, + "loss": 0.20652757585048676, + "step": 713 + }, + { + "grad_norm": 0.16036109814164906, + "loss": 0.1777648776769638, + "step": 714 + }, + { + "grad_norm": 0.10572505511488711, + "loss": 0.17684923112392426, + "step": 715 + }, + { + "grad_norm": 0.2850261911747037, + "loss": 0.1897803246974945, + "step": 716 + }, + { + "grad_norm": 0.11731688089080732, + "loss": 0.19603130221366882, + "step": 717 + }, + { + "grad_norm": 0.36614929133165947, + "loss": 0.22944289445877075, + "step": 718 + }, + { + "grad_norm": 0.15411153350467166, + "loss": 0.17479023337364197, + "step": 719 + }, + { + "epoch": 0.2304, + "grad_norm": 0.15411153435707092, + "learning_rate": 9.718167527509545e-05, + "loss": 0.1917, + "step": 720 + }, + { + "grad_norm": 0.4946560762379752, + "loss": 0.25585320591926575, + "step": 720 + }, + { + "grad_norm": 0.14368546468507545, + "loss": 0.21899618208408356, + "step": 721 + }, + { + "grad_norm": 0.1708940184457384, + "loss": 0.17329052090644836, + "step": 722 + }, + { + "grad_norm": 0.2792054389048256, + "loss": 0.16504868865013123, + "step": 723 + }, + { + "grad_norm": 0.16143713847878918, + "loss": 0.20771649479866028, + "step": 724 + }, + { + "grad_norm": 0.2561162601778399, + "loss": 0.19322481751441956, + "step": 725 + }, + { + "grad_norm": 0.500178040494593, + "loss": 0.1919710636138916, + "step": 726 + }, + { + "grad_norm": 0.16509688226098393, + "loss": 0.22941960394382477, + "step": 727 + }, + { + "grad_norm": 0.13422368795435075, + "loss": 0.22285260260105133, + "step": 728 + }, + { + "grad_norm": 0.21476821245769903, + "loss": 0.1975434124469757, + "step": 729 + }, + { + "epoch": 0.2336, + "grad_norm": 0.2147682160139084, + "learning_rate": 9.706939142151358e-05, + "loss": 0.2056, + "step": 730 + }, + { + "grad_norm": 0.15962431646944603, + "loss": 0.16308170557022095, + "step": 730 + }, + { + "grad_norm": 0.1288800653939941, + "loss": 0.22893807291984558, + "step": 731 + }, + { + "grad_norm": 0.11146689858154497, + "loss": 0.17899073660373688, + "step": 732 + }, + { + "grad_norm": 0.25695105231236454, + "loss": 0.24882428348064423, + "step": 733 + }, + { + "grad_norm": 0.1657225724725619, + "loss": 0.21293118596076965, + "step": 734 + }, + { + "grad_norm": 0.1938766212394098, + "loss": 0.1715710461139679, + "step": 735 + }, + { + "grad_norm": 0.27691242455141124, + "loss": 0.23208144307136536, + "step": 736 + }, + { + "grad_norm": 0.23217597347223942, + "loss": 0.21098598837852478, + "step": 737 + }, + { + "grad_norm": 0.15178779715753554, + "loss": 0.20511817932128906, + "step": 738 + }, + { + "grad_norm": 0.22184569830097947, + "loss": 0.19661131501197815, + "step": 739 + }, + { + "epoch": 0.2368, + "grad_norm": 0.22184568643569946, + "learning_rate": 9.695710756793174e-05, + "loss": 0.2049, + "step": 740 + }, + { + "grad_norm": 0.3125518341213695, + "loss": 0.236094668507576, + "step": 740 + }, + { + "grad_norm": 0.3568120071748959, + "loss": 0.1931118220090866, + "step": 741 + }, + { + "grad_norm": 0.48291249661980723, + "loss": 0.34631606936454773, + "step": 742 + }, + { + "grad_norm": 0.15172068999102312, + "loss": 0.16412778198719025, + "step": 743 + }, + { + "grad_norm": 0.2696388247029412, + "loss": 0.19631759822368622, + "step": 744 + }, + { + "grad_norm": 0.40158593137923254, + "loss": 0.1804228127002716, + "step": 745 + }, + { + "grad_norm": 0.293698071312186, + "loss": 0.18391340970993042, + "step": 746 + }, + { + "grad_norm": 0.13861266483424456, + "loss": 0.18967580795288086, + "step": 747 + }, + { + "grad_norm": 0.16986049701581962, + "loss": 0.2495822310447693, + "step": 748 + }, + { + "grad_norm": 0.3097254802385791, + "loss": 0.18193288147449493, + "step": 749 + }, + { + "epoch": 0.24, + "grad_norm": 0.30972549319267273, + "learning_rate": 9.684482371434989e-05, + "loss": 0.2121, + "step": 750 + }, + { + "grad_norm": 0.13169724305432473, + "loss": 0.19556887447834015, + "step": 750 + }, + { + "grad_norm": 0.2671792988139203, + "loss": 0.1709252893924713, + "step": 751 + }, + { + "grad_norm": 0.3243042309763926, + "loss": 0.22410330176353455, + "step": 752 + }, + { + "grad_norm": 0.25762962066741807, + "loss": 0.2014685422182083, + "step": 753 + }, + { + "grad_norm": 0.18445085111338336, + "loss": 0.18327690660953522, + "step": 754 + }, + { + "grad_norm": 0.20908167815203174, + "loss": 0.23555131256580353, + "step": 755 + }, + { + "grad_norm": 0.13490360467585952, + "loss": 0.18711763620376587, + "step": 756 + }, + { + "grad_norm": 0.16015678751780543, + "loss": 0.2588728964328766, + "step": 757 + }, + { + "grad_norm": 0.23137036602531058, + "loss": 0.3093162775039673, + "step": 758 + }, + { + "grad_norm": 0.2378196786236688, + "loss": 0.21333393454551697, + "step": 759 + }, + { + "epoch": 0.2432, + "grad_norm": 0.23781967163085938, + "learning_rate": 9.673253986076802e-05, + "loss": 0.218, + "step": 760 + }, + { + "grad_norm": 0.24523579799249973, + "loss": 0.24791157245635986, + "step": 760 + }, + { + "grad_norm": 0.18835465294310808, + "loss": 0.20800480246543884, + "step": 761 + }, + { + "grad_norm": 0.2693778672619276, + "loss": 0.22472169995307922, + "step": 762 + }, + { + "grad_norm": 0.36826250803673427, + "loss": 0.18050360679626465, + "step": 763 + }, + { + "grad_norm": 0.3627512526550216, + "loss": 0.20226231217384338, + "step": 764 + }, + { + "grad_norm": 0.21288954526152395, + "loss": 0.18820814788341522, + "step": 765 + }, + { + "grad_norm": 0.26824141722579353, + "loss": 0.2200409471988678, + "step": 766 + }, + { + "grad_norm": 0.18935153510962163, + "loss": 0.2093738317489624, + "step": 767 + }, + { + "grad_norm": 0.2368836757940587, + "loss": 0.19441944360733032, + "step": 768 + }, + { + "grad_norm": 0.16071753336805067, + "loss": 0.14333893358707428, + "step": 769 + }, + { + "epoch": 0.2464, + "grad_norm": 0.16071753203868866, + "learning_rate": 9.662025600718617e-05, + "loss": 0.2019, + "step": 770 + }, + { + "grad_norm": 0.2644120887208448, + "loss": 0.1847812831401825, + "step": 770 + }, + { + "grad_norm": 0.19072596043558232, + "loss": 0.1845780313014984, + "step": 771 + }, + { + "grad_norm": 0.26308404148396924, + "loss": 0.21343398094177246, + "step": 772 + }, + { + "grad_norm": 0.2351960885321833, + "loss": 0.20011292397975922, + "step": 773 + }, + { + "grad_norm": 0.3663696452852136, + "loss": 0.19376572966575623, + "step": 774 + }, + { + "grad_norm": 0.23395116180467743, + "loss": 0.35717225074768066, + "step": 775 + }, + { + "grad_norm": 0.1846670845496552, + "loss": 0.21963290870189667, + "step": 776 + }, + { + "grad_norm": 0.49437982153046345, + "loss": 0.2695569694042206, + "step": 777 + }, + { + "grad_norm": 0.1883202276824854, + "loss": 0.18600067496299744, + "step": 778 + }, + { + "grad_norm": 0.2155902147238145, + "loss": 0.1767023503780365, + "step": 779 + }, + { + "epoch": 0.2496, + "grad_norm": 0.2155902236700058, + "learning_rate": 9.650797215360432e-05, + "loss": 0.2186, + "step": 780 + }, + { + "grad_norm": 0.19929287837633036, + "loss": 0.23876763880252838, + "step": 780 + }, + { + "grad_norm": 0.17343962623750134, + "loss": 0.23487210273742676, + "step": 781 + }, + { + "grad_norm": 0.27029598650781744, + "loss": 0.22994846105575562, + "step": 782 + }, + { + "grad_norm": 0.12735417240276978, + "loss": 0.21566979587078094, + "step": 783 + }, + { + "grad_norm": 0.4617392722094203, + "loss": 0.17286115884780884, + "step": 784 + }, + { + "grad_norm": 0.23965940565428384, + "loss": 0.19806498289108276, + "step": 785 + }, + { + "grad_norm": 0.29910485654216457, + "loss": 0.17757034301757812, + "step": 786 + }, + { + "grad_norm": 0.20448073905974198, + "loss": 0.17854364216327667, + "step": 787 + }, + { + "grad_norm": 0.13700176339425166, + "loss": 0.20492970943450928, + "step": 788 + }, + { + "grad_norm": 0.5538204456213977, + "loss": 0.21496443450450897, + "step": 789 + }, + { + "epoch": 0.2528, + "grad_norm": 0.5538204312324524, + "learning_rate": 9.639568830002246e-05, + "loss": 0.2066, + "step": 790 + }, + { + "grad_norm": 0.28141720557038713, + "loss": 0.17373771965503693, + "step": 790 + }, + { + "grad_norm": 0.41489778867990074, + "loss": 0.20139145851135254, + "step": 791 + }, + { + "grad_norm": 0.1130453404449799, + "loss": 0.18469291925430298, + "step": 792 + }, + { + "grad_norm": 0.23585732937385245, + "loss": 0.2777079939842224, + "step": 793 + }, + { + "grad_norm": 0.12460260253096002, + "loss": 0.18755865097045898, + "step": 794 + }, + { + "grad_norm": 0.2568968822354146, + "loss": 0.2485884577035904, + "step": 795 + }, + { + "grad_norm": 0.38647356921071097, + "loss": 0.17265433073043823, + "step": 796 + }, + { + "grad_norm": 0.4737017028527615, + "loss": 0.24440321326255798, + "step": 797 + }, + { + "grad_norm": 0.1033833890584752, + "loss": 0.17943261563777924, + "step": 798 + }, + { + "grad_norm": 0.2163044969324066, + "loss": 0.16920211911201477, + "step": 799 + }, + { + "epoch": 0.256, + "grad_norm": 0.2163044959306717, + "learning_rate": 9.628340444644061e-05, + "loss": 0.2039, + "step": 800 + }, + { + "grad_norm": 0.15399656324877706, + "loss": 0.19924752414226532, + "step": 800 + }, + { + "grad_norm": 0.24922707083473228, + "loss": 0.31228315830230713, + "step": 801 + }, + { + "grad_norm": 0.20188921459158649, + "loss": 0.18851666152477264, + "step": 802 + }, + { + "grad_norm": 0.10587993426231639, + "loss": 0.18313713371753693, + "step": 803 + }, + { + "grad_norm": 0.3067917801197769, + "loss": 0.21475322544574738, + "step": 804 + }, + { + "grad_norm": 0.2685355542232823, + "loss": 0.17747756838798523, + "step": 805 + }, + { + "grad_norm": 0.27090584242607874, + "loss": 0.1743682324886322, + "step": 806 + }, + { + "grad_norm": 0.1371940429757816, + "loss": 0.17424938082695007, + "step": 807 + }, + { + "grad_norm": 0.14788367028560756, + "loss": 0.1819332093000412, + "step": 808 + }, + { + "grad_norm": 0.16447102532548016, + "loss": 0.1797923445701599, + "step": 809 + }, + { + "epoch": 0.2592, + "grad_norm": 0.16447103023529053, + "learning_rate": 9.617112059285875e-05, + "loss": 0.1986, + "step": 810 + }, + { + "grad_norm": 0.2198197119728412, + "loss": 0.1913243681192398, + "step": 810 + }, + { + "grad_norm": 0.14957307719609841, + "loss": 0.16028569638729095, + "step": 811 + }, + { + "grad_norm": 0.17139320705501604, + "loss": 0.2369081676006317, + "step": 812 + }, + { + "grad_norm": 0.24980624770413185, + "loss": 0.18767118453979492, + "step": 813 + }, + { + "grad_norm": 0.2867338589406554, + "loss": 0.22280001640319824, + "step": 814 + }, + { + "grad_norm": 0.20737613273996494, + "loss": 0.18930265307426453, + "step": 815 + }, + { + "grad_norm": 0.3041254862340048, + "loss": 0.18999773263931274, + "step": 816 + }, + { + "grad_norm": 0.21248783694123125, + "loss": 0.16638538241386414, + "step": 817 + }, + { + "grad_norm": 0.1609698367363098, + "loss": 0.20448553562164307, + "step": 818 + }, + { + "grad_norm": 0.12731256423779935, + "loss": 0.1875884085893631, + "step": 819 + }, + { + "epoch": 0.2624, + "grad_norm": 0.1273125559091568, + "learning_rate": 9.605883673927689e-05, + "loss": 0.1937, + "step": 820 + }, + { + "grad_norm": 0.21971477017031824, + "loss": 0.19849741458892822, + "step": 820 + }, + { + "grad_norm": 0.19446674658140362, + "loss": 0.234658345580101, + "step": 821 + }, + { + "grad_norm": 0.10032110705240779, + "loss": 0.19000835716724396, + "step": 822 + }, + { + "grad_norm": 0.17198296799863233, + "loss": 0.17483757436275482, + "step": 823 + }, + { + "grad_norm": 0.489638298858131, + "loss": 0.2816373109817505, + "step": 824 + }, + { + "grad_norm": 0.14758196945095975, + "loss": 0.2572239637374878, + "step": 825 + }, + { + "grad_norm": 0.2111081417754206, + "loss": 0.1591225117444992, + "step": 826 + }, + { + "grad_norm": 0.31632728270161986, + "loss": 0.25989454984664917, + "step": 827 + }, + { + "grad_norm": 0.2918127089808445, + "loss": 0.22942933440208435, + "step": 828 + }, + { + "grad_norm": 0.12841354311513484, + "loss": 0.2057284116744995, + "step": 829 + }, + { + "epoch": 0.2656, + "grad_norm": 0.12841354310512543, + "learning_rate": 9.594655288569504e-05, + "loss": 0.2191, + "step": 830 + }, + { + "grad_norm": 0.1394120464934644, + "loss": 0.1844150573015213, + "step": 830 + }, + { + "grad_norm": 0.20257514597145787, + "loss": 0.15599168837070465, + "step": 831 + }, + { + "grad_norm": 0.09024313430027013, + "loss": 0.13162462413311005, + "step": 832 + }, + { + "grad_norm": 0.11353109891402507, + "loss": 0.1872008889913559, + "step": 833 + }, + { + "grad_norm": 0.39587189032792325, + "loss": 0.1490982472896576, + "step": 834 + }, + { + "grad_norm": 0.18821209623949803, + "loss": 0.19087690114974976, + "step": 835 + }, + { + "grad_norm": 0.18579681222173527, + "loss": 0.1554957628250122, + "step": 836 + }, + { + "grad_norm": 0.17451671132012775, + "loss": 0.21654731035232544, + "step": 837 + }, + { + "grad_norm": 0.22145496139476684, + "loss": 0.22077403962612152, + "step": 838 + }, + { + "grad_norm": 0.20279746885848898, + "loss": 0.19647055864334106, + "step": 839 + }, + { + "epoch": 0.2688, + "grad_norm": 0.20279747247695923, + "learning_rate": 9.583426903211319e-05, + "loss": 0.1788, + "step": 840 + }, + { + "grad_norm": 0.28164840324929696, + "loss": 0.19807842373847961, + "step": 840 + }, + { + "grad_norm": 0.24324166155349655, + "loss": 0.2115071564912796, + "step": 841 + }, + { + "grad_norm": 0.2726581638115209, + "loss": 0.22474810481071472, + "step": 842 + }, + { + "grad_norm": 0.16997360997952743, + "loss": 0.20440198481082916, + "step": 843 + }, + { + "grad_norm": 0.10891178157915014, + "loss": 0.21142713725566864, + "step": 844 + }, + { + "grad_norm": 0.24581898586256137, + "loss": 0.2286456674337387, + "step": 845 + }, + { + "grad_norm": 0.11490886861423491, + "loss": 0.21173006296157837, + "step": 846 + }, + { + "grad_norm": 0.22522691943753345, + "loss": 0.21512649953365326, + "step": 847 + }, + { + "grad_norm": 0.25955303088430454, + "loss": 0.23846974968910217, + "step": 848 + }, + { + "grad_norm": 0.26678864902264676, + "loss": 0.2533102333545685, + "step": 849 + }, + { + "epoch": 0.272, + "grad_norm": 0.26678866147994995, + "learning_rate": 9.572198517853134e-05, + "loss": 0.2197, + "step": 850 + }, + { + "grad_norm": 0.400388180175457, + "loss": 0.21513116359710693, + "step": 850 + }, + { + "grad_norm": 0.18959248685478955, + "loss": 0.19835756719112396, + "step": 851 + }, + { + "grad_norm": 0.15973714094020466, + "loss": 0.18631920218467712, + "step": 852 + }, + { + "grad_norm": 0.21867701686025554, + "loss": 0.2376704216003418, + "step": 853 + }, + { + "grad_norm": 0.3554930085775109, + "loss": 0.2449622005224228, + "step": 854 + }, + { + "grad_norm": 0.35370806582509534, + "loss": 0.25647228956222534, + "step": 855 + }, + { + "grad_norm": 0.12994728148150184, + "loss": 0.18936264514923096, + "step": 856 + }, + { + "grad_norm": 0.192361426828749, + "loss": 0.26476964354515076, + "step": 857 + }, + { + "grad_norm": 0.16696441036301576, + "loss": 0.16991132497787476, + "step": 858 + }, + { + "grad_norm": 0.4068812711652993, + "loss": 0.1790560781955719, + "step": 859 + }, + { + "epoch": 0.2752, + "grad_norm": 0.4068812429904938, + "learning_rate": 9.560970132494948e-05, + "loss": 0.2142, + "step": 860 + }, + { + "grad_norm": 0.176686838783184, + "loss": 0.19493570923805237, + "step": 860 + }, + { + "grad_norm": 0.2183472549279445, + "loss": 0.19455386698246002, + "step": 861 + }, + { + "grad_norm": 0.28025725821102826, + "loss": 0.2356686294078827, + "step": 862 + }, + { + "grad_norm": 0.21767875481185864, + "loss": 0.1623743176460266, + "step": 863 + }, + { + "grad_norm": 0.3063964086745779, + "loss": 0.2421790510416031, + "step": 864 + }, + { + "grad_norm": 0.28883170016133686, + "loss": 0.21656209230422974, + "step": 865 + }, + { + "grad_norm": 0.19900308937796737, + "loss": 0.22618936002254486, + "step": 866 + }, + { + "grad_norm": 0.13900457878075795, + "loss": 0.1869446039199829, + "step": 867 + }, + { + "grad_norm": 0.17335552752766922, + "loss": 0.16496458649635315, + "step": 868 + }, + { + "grad_norm": 0.2554845764949716, + "loss": 0.23389996588230133, + "step": 869 + }, + { + "epoch": 0.2784, + "grad_norm": 0.25548458099365234, + "learning_rate": 9.549741747136763e-05, + "loss": 0.2058, + "step": 870 + }, + { + "grad_norm": 0.16599827734747055, + "loss": 0.16294874250888824, + "step": 870 + }, + { + "grad_norm": 0.27871332570652263, + "loss": 0.2130710780620575, + "step": 871 + }, + { + "grad_norm": 0.2576316724236201, + "loss": 0.22942546010017395, + "step": 872 + }, + { + "grad_norm": 0.15309757892074508, + "loss": 0.2513943612575531, + "step": 873 + }, + { + "grad_norm": 0.13365904567500722, + "loss": 0.2262468785047531, + "step": 874 + }, + { + "grad_norm": 0.1693596507907381, + "loss": 0.18636904656887054, + "step": 875 + }, + { + "grad_norm": 0.13297597096741476, + "loss": 0.20317596197128296, + "step": 876 + }, + { + "grad_norm": 0.19562460856933542, + "loss": 0.19176039099693298, + "step": 877 + }, + { + "grad_norm": 0.23791234184841756, + "loss": 0.15994995832443237, + "step": 878 + }, + { + "grad_norm": 0.2944235955596016, + "loss": 0.1840604543685913, + "step": 879 + }, + { + "epoch": 0.2816, + "grad_norm": 0.2944236099720001, + "learning_rate": 9.538513361778578e-05, + "loss": 0.2008, + "step": 880 + }, + { + "grad_norm": 0.1687689875195892, + "loss": 0.18145738542079926, + "step": 880 + }, + { + "grad_norm": 0.2513609526546667, + "loss": 0.2059285193681717, + "step": 881 + }, + { + "grad_norm": 0.12840205129332186, + "loss": 0.21373456716537476, + "step": 882 + }, + { + "grad_norm": 0.10932668151529629, + "loss": 0.16962581872940063, + "step": 883 + }, + { + "grad_norm": 0.40586676365034524, + "loss": 0.2616739869117737, + "step": 884 + }, + { + "grad_norm": 0.15236027440885186, + "loss": 0.1696230173110962, + "step": 885 + }, + { + "grad_norm": 0.451344032875857, + "loss": 0.1957392692565918, + "step": 886 + }, + { + "grad_norm": 0.2670443351583672, + "loss": 0.19968819618225098, + "step": 887 + }, + { + "grad_norm": 0.18683811406483836, + "loss": 0.1779995858669281, + "step": 888 + }, + { + "grad_norm": 0.22015960047333547, + "loss": 0.23881381750106812, + "step": 889 + }, + { + "epoch": 0.2848, + "grad_norm": 0.2201596051454544, + "learning_rate": 9.527284976420391e-05, + "loss": 0.2014, + "step": 890 + }, + { + "grad_norm": 0.14278763481575024, + "loss": 0.19583819806575775, + "step": 890 + }, + { + "grad_norm": 0.3025461858742457, + "loss": 0.22837579250335693, + "step": 891 + }, + { + "grad_norm": 0.1346974044973535, + "loss": 0.22176668047904968, + "step": 892 + }, + { + "grad_norm": 0.40917580743040466, + "loss": 0.20848047733306885, + "step": 893 + }, + { + "grad_norm": 0.13824639061298724, + "loss": 0.18340113759040833, + "step": 894 + }, + { + "grad_norm": 0.2863315137203407, + "loss": 0.20579694211483002, + "step": 895 + }, + { + "grad_norm": 0.6035995736364393, + "loss": 0.2027128040790558, + "step": 896 + }, + { + "grad_norm": 0.3029387966812252, + "loss": 0.18201586604118347, + "step": 897 + }, + { + "grad_norm": 0.200027860412727, + "loss": 0.17313452064990997, + "step": 898 + }, + { + "grad_norm": 0.13156562856236165, + "loss": 0.19191709160804749, + "step": 899 + }, + { + "epoch": 0.288, + "grad_norm": 0.1315656304359436, + "learning_rate": 9.516056591062205e-05, + "loss": 0.1993, + "step": 900 + }, + { + "grad_norm": 0.39854450473211467, + "loss": 0.2533757984638214, + "step": 900 + }, + { + "grad_norm": 0.22166338478610975, + "loss": 0.17919281125068665, + "step": 901 + }, + { + "grad_norm": 0.2149143165651921, + "loss": 0.23200997710227966, + "step": 902 + }, + { + "grad_norm": 0.18176076270311614, + "loss": 0.20095013082027435, + "step": 903 + }, + { + "grad_norm": 0.20641575798402267, + "loss": 0.19875334203243256, + "step": 904 + }, + { + "grad_norm": 0.4391893420658394, + "loss": 0.23885804414749146, + "step": 905 + }, + { + "grad_norm": 0.1514347509512964, + "loss": 0.21086491644382477, + "step": 906 + }, + { + "grad_norm": 0.24554525466810603, + "loss": 0.2210840880870819, + "step": 907 + }, + { + "grad_norm": 0.27450174479067635, + "loss": 0.19395920634269714, + "step": 908 + }, + { + "grad_norm": 0.5913531039784712, + "loss": 0.20465087890625, + "step": 909 + }, + { + "epoch": 0.2912, + "grad_norm": 0.5913531184196472, + "learning_rate": 9.50482820570402e-05, + "loss": 0.2134, + "step": 910 + }, + { + "grad_norm": 0.18618197748006082, + "loss": 0.2114611119031906, + "step": 910 + }, + { + "grad_norm": 0.23094254206573903, + "loss": 0.2093985378742218, + "step": 911 + }, + { + "grad_norm": 0.6008312310452373, + "loss": 0.20418860018253326, + "step": 912 + }, + { + "grad_norm": 0.30762563238381285, + "loss": 0.2666188180446625, + "step": 913 + }, + { + "grad_norm": 0.27308199991674204, + "loss": 0.18852019309997559, + "step": 914 + }, + { + "grad_norm": 0.22838875634176872, + "loss": 0.22548553347587585, + "step": 915 + }, + { + "grad_norm": 0.719572297296196, + "loss": 0.19288384914398193, + "step": 916 + }, + { + "grad_norm": 0.5631900278565379, + "loss": 0.2558152675628662, + "step": 917 + }, + { + "grad_norm": 0.31511824367443425, + "loss": 0.2526927888393402, + "step": 918 + }, + { + "grad_norm": 0.22978710639855746, + "loss": 0.16334867477416992, + "step": 919 + }, + { + "epoch": 0.2944, + "grad_norm": 0.22978711128234863, + "learning_rate": 9.493599820345834e-05, + "loss": 0.217, + "step": 920 + }, + { + "grad_norm": 0.2088420614493369, + "loss": 0.1997087150812149, + "step": 920 + }, + { + "grad_norm": 0.27672100220111295, + "loss": 0.24921265244483948, + "step": 921 + }, + { + "grad_norm": 0.3477273564612345, + "loss": 0.20273089408874512, + "step": 922 + }, + { + "grad_norm": 0.13308829542938053, + "loss": 0.19969883561134338, + "step": 923 + }, + { + "grad_norm": 0.23543286543059244, + "loss": 0.20166146755218506, + "step": 924 + }, + { + "grad_norm": 0.18331890144867602, + "loss": 0.15544646978378296, + "step": 925 + }, + { + "grad_norm": 0.22723492559303207, + "loss": 0.20733249187469482, + "step": 926 + }, + { + "grad_norm": 0.19226642525962975, + "loss": 0.22735081613063812, + "step": 927 + }, + { + "grad_norm": 0.360096565916497, + "loss": 0.19084277749061584, + "step": 928 + }, + { + "grad_norm": 0.35202392758106105, + "loss": 0.17750057578086853, + "step": 929 + }, + { + "epoch": 0.2976, + "grad_norm": 0.3520239293575287, + "learning_rate": 9.482371434987649e-05, + "loss": 0.2011, + "step": 930 + }, + { + "grad_norm": 0.5764170779507498, + "loss": 0.27927064895629883, + "step": 930 + }, + { + "grad_norm": 0.31475092428176077, + "loss": 0.17662116885185242, + "step": 931 + }, + { + "grad_norm": 0.4635560181665219, + "loss": 0.18168401718139648, + "step": 932 + }, + { + "grad_norm": 0.2932669989372997, + "loss": 0.19431106746196747, + "step": 933 + }, + { + "grad_norm": 0.34728462349844424, + "loss": 0.20062625408172607, + "step": 934 + }, + { + "grad_norm": 0.28467120978749055, + "loss": 0.1861715316772461, + "step": 935 + }, + { + "grad_norm": 0.30151213449774233, + "loss": 0.1606101393699646, + "step": 936 + }, + { + "grad_norm": 0.4249206480708637, + "loss": 0.18563807010650635, + "step": 937 + }, + { + "grad_norm": 0.19964600889401504, + "loss": 0.20637542009353638, + "step": 938 + }, + { + "grad_norm": 0.15617959535284828, + "loss": 0.2359684556722641, + "step": 939 + }, + { + "epoch": 0.3008, + "grad_norm": 0.15617959201335907, + "learning_rate": 9.471143049629464e-05, + "loss": 0.2007, + "step": 940 + }, + { + "grad_norm": 0.13206359174061272, + "loss": 0.20933525264263153, + "step": 940 + }, + { + "grad_norm": 0.32058949532321096, + "loss": 0.18244394659996033, + "step": 941 + }, + { + "grad_norm": 0.2768249534828377, + "loss": 0.2097378671169281, + "step": 942 + }, + { + "grad_norm": 0.1747536087345169, + "loss": 0.1860795021057129, + "step": 943 + }, + { + "grad_norm": 0.21445179880958617, + "loss": 0.22214514017105103, + "step": 944 + }, + { + "grad_norm": 0.3137596960254534, + "loss": 0.16475501656532288, + "step": 945 + }, + { + "grad_norm": 0.5019775165173861, + "loss": 0.1774531453847885, + "step": 946 + }, + { + "grad_norm": 0.27411654438543476, + "loss": 0.1977555751800537, + "step": 947 + }, + { + "grad_norm": 0.15596801367278493, + "loss": 0.22483369708061218, + "step": 948 + }, + { + "grad_norm": 0.2585041787251722, + "loss": 0.19374699890613556, + "step": 949 + }, + { + "epoch": 0.304, + "grad_norm": 0.258504182100296, + "learning_rate": 9.459914664271278e-05, + "loss": 0.1968, + "step": 950 + }, + { + "grad_norm": 0.16700984006917388, + "loss": 0.18438750505447388, + "step": 950 + }, + { + "grad_norm": 0.16468929230548088, + "loss": 0.21044239401817322, + "step": 951 + }, + { + "grad_norm": 0.5259467425215296, + "loss": 0.29623866081237793, + "step": 952 + }, + { + "grad_norm": 0.22243502740090526, + "loss": 0.19045385718345642, + "step": 953 + }, + { + "grad_norm": 0.24974212633355186, + "loss": 0.14924216270446777, + "step": 954 + }, + { + "grad_norm": 0.1792947887292911, + "loss": 0.24063335359096527, + "step": 955 + }, + { + "grad_norm": 0.17766957389618496, + "loss": 0.1867731660604477, + "step": 956 + }, + { + "grad_norm": 0.28100269228953273, + "loss": 0.19985169172286987, + "step": 957 + }, + { + "grad_norm": 0.2491658964308942, + "loss": 0.1667182445526123, + "step": 958 + }, + { + "grad_norm": 0.1337056941866837, + "loss": 0.1980840563774109, + "step": 959 + }, + { + "epoch": 0.3072, + "grad_norm": 0.13370569050312042, + "learning_rate": 9.448686278913093e-05, + "loss": 0.2023, + "step": 960 + }, + { + "grad_norm": 0.27709671469969116, + "loss": 0.20829185843467712, + "step": 960 + }, + { + "grad_norm": 0.22657066081339272, + "loss": 0.22878798842430115, + "step": 961 + }, + { + "grad_norm": 0.15118104201333882, + "loss": 0.21306979656219482, + "step": 962 + }, + { + "grad_norm": 0.13852528993259125, + "loss": 0.2069133222103119, + "step": 963 + }, + { + "grad_norm": 0.29213176991978046, + "loss": 0.21925407648086548, + "step": 964 + }, + { + "grad_norm": 0.2278807345806746, + "loss": 0.19559386372566223, + "step": 965 + }, + { + "grad_norm": 0.2609891586607001, + "loss": 0.16747310757637024, + "step": 966 + }, + { + "grad_norm": 0.3058049341991445, + "loss": 0.18501444160938263, + "step": 967 + }, + { + "grad_norm": 0.11541790651915972, + "loss": 0.1767912358045578, + "step": 968 + }, + { + "grad_norm": 0.14209232646181807, + "loss": 0.18745523691177368, + "step": 969 + }, + { + "epoch": 0.3104, + "grad_norm": 0.14209233224391937, + "learning_rate": 9.437457893554908e-05, + "loss": 0.1989, + "step": 970 + }, + { + "grad_norm": 0.4508748406705985, + "loss": 0.23245954513549805, + "step": 970 + }, + { + "grad_norm": 0.2777092560893046, + "loss": 0.22460119426250458, + "step": 971 + }, + { + "grad_norm": 0.1472017276808704, + "loss": 0.16932488977909088, + "step": 972 + }, + { + "grad_norm": 0.2220470565061967, + "loss": 0.17704129219055176, + "step": 973 + }, + { + "grad_norm": 0.15388381265083334, + "loss": 0.17169347405433655, + "step": 974 + }, + { + "grad_norm": 0.09246624177697683, + "loss": 0.1711859405040741, + "step": 975 + }, + { + "grad_norm": 0.18047133308939378, + "loss": 0.19957967102527618, + "step": 976 + }, + { + "grad_norm": 0.37925986191567956, + "loss": 0.17685994505882263, + "step": 977 + }, + { + "grad_norm": 0.10562269884152926, + "loss": 0.23402246832847595, + "step": 978 + }, + { + "grad_norm": 0.21416629947622653, + "loss": 0.1916263997554779, + "step": 979 + }, + { + "epoch": 0.3136, + "grad_norm": 0.2141662985086441, + "learning_rate": 9.426229508196722e-05, + "loss": 0.1948, + "step": 980 + }, + { + "grad_norm": 0.202152182460119, + "loss": 0.18471986055374146, + "step": 980 + }, + { + "grad_norm": 0.17394964559306061, + "loss": 0.1909387856721878, + "step": 981 + }, + { + "grad_norm": 0.22248448004937718, + "loss": 0.17601534724235535, + "step": 982 + }, + { + "grad_norm": 0.09057023786471464, + "loss": 0.18140169978141785, + "step": 983 + }, + { + "grad_norm": 0.16571191650155342, + "loss": 0.15760532021522522, + "step": 984 + }, + { + "grad_norm": 0.16101745737866438, + "loss": 0.17923495173454285, + "step": 985 + }, + { + "grad_norm": 0.27466072183815654, + "loss": 0.1892775297164917, + "step": 986 + }, + { + "grad_norm": 0.5101282886042309, + "loss": 0.223111093044281, + "step": 987 + }, + { + "grad_norm": 0.09571384185310827, + "loss": 0.1782720535993576, + "step": 988 + }, + { + "grad_norm": 0.26815689644969587, + "loss": 0.23687593638896942, + "step": 989 + }, + { + "epoch": 0.3168, + "grad_norm": 0.26815688610076904, + "learning_rate": 9.415001122838537e-05, + "loss": 0.1897, + "step": 990 + }, + { + "grad_norm": 0.1555817253458551, + "loss": 0.1807766556739807, + "step": 990 + }, + { + "grad_norm": 0.17382733923846325, + "loss": 0.1772674322128296, + "step": 991 + }, + { + "grad_norm": 0.19909621202482677, + "loss": 0.21266497671604156, + "step": 992 + }, + { + "grad_norm": 0.22494261769095875, + "loss": 0.21214154362678528, + "step": 993 + }, + { + "grad_norm": 0.14217144579791044, + "loss": 0.25903230905532837, + "step": 994 + }, + { + "grad_norm": 0.21135566830853783, + "loss": 0.22698871791362762, + "step": 995 + }, + { + "grad_norm": 0.2716044440660484, + "loss": 0.2517058849334717, + "step": 996 + }, + { + "grad_norm": 0.41206294936124993, + "loss": 0.16674162447452545, + "step": 997 + }, + { + "grad_norm": 0.4570201042345981, + "loss": 0.1876024603843689, + "step": 998 + }, + { + "grad_norm": 0.6075823819183868, + "loss": 0.1909256875514984, + "step": 999 + }, + { + "epoch": 0.32, + "grad_norm": 0.6075823903083801, + "learning_rate": 9.40377273748035e-05, + "loss": 0.2066, + "step": 1000 + }, + { + "grad_norm": 0.14612940301867522, + "loss": 0.2367427945137024, + "step": 1000 + }, + { + "grad_norm": 0.15677163530096103, + "loss": 0.18266573548316956, + "step": 1001 + }, + { + "grad_norm": 0.2586029465282819, + "loss": 0.18569839000701904, + "step": 1002 + }, + { + "grad_norm": 0.33506287675175805, + "loss": 0.21066346764564514, + "step": 1003 + }, + { + "grad_norm": 0.4135891804930093, + "loss": 0.18173755705356598, + "step": 1004 + }, + { + "grad_norm": 0.5005144268741294, + "loss": 0.2968069911003113, + "step": 1005 + }, + { + "grad_norm": 0.2803097763475026, + "loss": 0.18763722479343414, + "step": 1006 + }, + { + "grad_norm": 0.40203833897204294, + "loss": 0.21287785470485687, + "step": 1007 + }, + { + "grad_norm": 0.22632529137752758, + "loss": 0.20718379318714142, + "step": 1008 + }, + { + "grad_norm": 0.1918363953050081, + "loss": 0.18484053015708923, + "step": 1009 + }, + { + "epoch": 0.3232, + "grad_norm": 0.1918363869190216, + "learning_rate": 9.392544352122165e-05, + "loss": 0.2087, + "step": 1010 + }, + { + "grad_norm": 0.26398139750013017, + "loss": 0.1908593624830246, + "step": 1010 + }, + { + "grad_norm": 0.27730286189247766, + "loss": 0.18975642323493958, + "step": 1011 + }, + { + "grad_norm": 0.29686027468706994, + "loss": 0.18891572952270508, + "step": 1012 + }, + { + "grad_norm": 0.3132606601866954, + "loss": 0.19208884239196777, + "step": 1013 + }, + { + "grad_norm": 0.14201466063275692, + "loss": 0.2666919529438019, + "step": 1014 + }, + { + "grad_norm": 0.3311935826078119, + "loss": 0.15285976231098175, + "step": 1015 + }, + { + "grad_norm": 0.18515316872973514, + "loss": 0.15717121958732605, + "step": 1016 + }, + { + "grad_norm": 0.29156770730943676, + "loss": 0.21807290613651276, + "step": 1017 + }, + { + "grad_norm": 0.46682422575307847, + "loss": 0.25278475880622864, + "step": 1018 + }, + { + "grad_norm": 0.37172294731322664, + "loss": 0.20198282599449158, + "step": 1019 + }, + { + "epoch": 0.3264, + "grad_norm": 0.371722936630249, + "learning_rate": 9.381315966763979e-05, + "loss": 0.2011, + "step": 1020 + }, + { + "grad_norm": 0.23452569809851526, + "loss": 0.1903514713048935, + "step": 1020 + }, + { + "grad_norm": 0.18280804461010156, + "loss": 0.21651726961135864, + "step": 1021 + }, + { + "grad_norm": 0.26805979141998176, + "loss": 0.19984209537506104, + "step": 1022 + }, + { + "grad_norm": 0.23365593083973812, + "loss": 0.18297332525253296, + "step": 1023 + }, + { + "grad_norm": 0.28388410573020517, + "loss": 0.16721941530704498, + "step": 1024 + }, + { + "grad_norm": 0.17666679510537067, + "loss": 0.1725386083126068, + "step": 1025 + }, + { + "grad_norm": 0.27878657049975325, + "loss": 0.19703902304172516, + "step": 1026 + }, + { + "grad_norm": 0.3344209100653726, + "loss": 0.17808093130588531, + "step": 1027 + }, + { + "grad_norm": 0.28889441628018525, + "loss": 0.1999892294406891, + "step": 1028 + }, + { + "grad_norm": 0.10379657024942618, + "loss": 0.15643683075904846, + "step": 1029 + }, + { + "epoch": 0.3296, + "grad_norm": 0.1037965714931488, + "learning_rate": 9.370087581405794e-05, + "loss": 0.1861, + "step": 1030 + }, + { + "grad_norm": 0.13268683218975919, + "loss": 0.18175724148750305, + "step": 1030 + }, + { + "grad_norm": 0.4411507610206073, + "loss": 0.21328313648700714, + "step": 1031 + }, + { + "grad_norm": 0.26357879984333954, + "loss": 0.2058783918619156, + "step": 1032 + }, + { + "grad_norm": 0.2395173104429881, + "loss": 0.17193499207496643, + "step": 1033 + }, + { + "grad_norm": 0.25407157186924506, + "loss": 0.233384907245636, + "step": 1034 + }, + { + "grad_norm": 0.18193360996563893, + "loss": 0.2167913168668747, + "step": 1035 + }, + { + "grad_norm": 0.23431291839000395, + "loss": 0.20144066214561462, + "step": 1036 + }, + { + "grad_norm": 0.14829625425713616, + "loss": 0.20433133840560913, + "step": 1037 + }, + { + "grad_norm": 0.2276247781931457, + "loss": 0.15164393186569214, + "step": 1038 + }, + { + "grad_norm": 0.10061015597904086, + "loss": 0.1853788197040558, + "step": 1039 + }, + { + "epoch": 0.3328, + "grad_norm": 0.1006101593375206, + "learning_rate": 9.358859196047609e-05, + "loss": 0.1966, + "step": 1040 + }, + { + "grad_norm": 0.22355903257020807, + "loss": 0.1711616814136505, + "step": 1040 + }, + { + "grad_norm": 0.37510680763775633, + "loss": 0.2617904841899872, + "step": 1041 + }, + { + "grad_norm": 0.19484913701280676, + "loss": 0.20054462552070618, + "step": 1042 + }, + { + "grad_norm": 0.4595078757354925, + "loss": 0.1954609453678131, + "step": 1043 + }, + { + "grad_norm": 0.241633137866554, + "loss": 0.16741745173931122, + "step": 1044 + }, + { + "grad_norm": 0.13217785572960886, + "loss": 0.164027139544487, + "step": 1045 + }, + { + "grad_norm": 0.269985325068052, + "loss": 0.21122559905052185, + "step": 1046 + }, + { + "grad_norm": 0.2738784716076889, + "loss": 0.21636344492435455, + "step": 1047 + }, + { + "grad_norm": 0.5186786625351859, + "loss": 0.24763703346252441, + "step": 1048 + }, + { + "grad_norm": 0.31892770158006334, + "loss": 0.19627121090888977, + "step": 1049 + }, + { + "epoch": 0.336, + "grad_norm": 0.31892770528793335, + "learning_rate": 9.347630810689423e-05, + "loss": 0.2032, + "step": 1050 + }, + { + "grad_norm": 0.16106217583739205, + "loss": 0.30460745096206665, + "step": 1050 + }, + { + "grad_norm": 0.3383413941737608, + "loss": 0.20117244124412537, + "step": 1051 + }, + { + "grad_norm": 0.13932307280310943, + "loss": 0.20074981451034546, + "step": 1052 + }, + { + "grad_norm": 0.2623348575461021, + "loss": 0.19095204770565033, + "step": 1053 + }, + { + "grad_norm": 0.28815424056354816, + "loss": 0.18333129584789276, + "step": 1054 + }, + { + "grad_norm": 0.1391269589550612, + "loss": 0.20705753564834595, + "step": 1055 + }, + { + "grad_norm": 0.13773192883257118, + "loss": 0.19602662324905396, + "step": 1056 + }, + { + "grad_norm": 0.24731228985990744, + "loss": 0.18164320290088654, + "step": 1057 + }, + { + "grad_norm": 0.11431588426336342, + "loss": 0.17272770404815674, + "step": 1058 + }, + { + "grad_norm": 0.12998708247083782, + "loss": 0.16880232095718384, + "step": 1059 + }, + { + "epoch": 0.3392, + "grad_norm": 0.12998707592487335, + "learning_rate": 9.336402425331238e-05, + "loss": 0.2007, + "step": 1060 + }, + { + "grad_norm": 0.3774416447411241, + "loss": 0.21734881401062012, + "step": 1060 + }, + { + "grad_norm": 0.17511432482221806, + "loss": 0.2074488401412964, + "step": 1061 + }, + { + "grad_norm": 0.6680627750194044, + "loss": 0.3122621178627014, + "step": 1062 + }, + { + "grad_norm": 0.14650071912412344, + "loss": 0.20323103666305542, + "step": 1063 + }, + { + "grad_norm": 0.16103247805819423, + "loss": 0.22157227993011475, + "step": 1064 + }, + { + "grad_norm": 0.3330862946974188, + "loss": 0.2271917462348938, + "step": 1065 + }, + { + "grad_norm": 0.15994879322363417, + "loss": 0.23386117815971375, + "step": 1066 + }, + { + "grad_norm": 0.5988416218117667, + "loss": 0.17643533647060394, + "step": 1067 + }, + { + "grad_norm": 0.6603973075835502, + "loss": 0.2175336480140686, + "step": 1068 + }, + { + "grad_norm": 0.3464085523393333, + "loss": 0.1874910145998001, + "step": 1069 + }, + { + "epoch": 0.3424, + "grad_norm": 0.34640854597091675, + "learning_rate": 9.325174039973053e-05, + "loss": 0.2204, + "step": 1070 + }, + { + "grad_norm": 0.12337692893601675, + "loss": 0.1554597020149231, + "step": 1070 + }, + { + "grad_norm": 0.1516596272142545, + "loss": 0.1890210509300232, + "step": 1071 + }, + { + "grad_norm": 0.17651715313187805, + "loss": 0.23109892010688782, + "step": 1072 + }, + { + "grad_norm": 0.31555516655439775, + "loss": 0.20090317726135254, + "step": 1073 + }, + { + "grad_norm": 0.14982438758034064, + "loss": 0.22078445553779602, + "step": 1074 + }, + { + "grad_norm": 0.1457844607377023, + "loss": 0.18708005547523499, + "step": 1075 + }, + { + "grad_norm": 0.15180655816228278, + "loss": 0.1864997148513794, + "step": 1076 + }, + { + "grad_norm": 0.12170418780367301, + "loss": 0.1812649965286255, + "step": 1077 + }, + { + "grad_norm": 0.3816822679536802, + "loss": 0.21168094873428345, + "step": 1078 + }, + { + "grad_norm": 0.348044010768202, + "loss": 0.2309393286705017, + "step": 1079 + }, + { + "epoch": 0.3456, + "grad_norm": 0.3480440080165863, + "learning_rate": 9.313945654614867e-05, + "loss": 0.1995, + "step": 1080 + }, + { + "grad_norm": 0.21789792524710225, + "loss": 0.21562926471233368, + "step": 1080 + }, + { + "grad_norm": 0.20038791087715874, + "loss": 0.17407402396202087, + "step": 1081 + }, + { + "grad_norm": 0.2373675098562449, + "loss": 0.23107172548770905, + "step": 1082 + }, + { + "grad_norm": 0.1624331494722017, + "loss": 0.21995188295841217, + "step": 1083 + }, + { + "grad_norm": 0.20295696535014632, + "loss": 0.1973477154970169, + "step": 1084 + }, + { + "grad_norm": 0.27482503495005417, + "loss": 0.22212915122509003, + "step": 1085 + }, + { + "grad_norm": 0.33472523265106313, + "loss": 0.21642060577869415, + "step": 1086 + }, + { + "grad_norm": 0.17350593310836934, + "loss": 0.20575109124183655, + "step": 1087 + }, + { + "grad_norm": 0.12974608510217633, + "loss": 0.2385876178741455, + "step": 1088 + }, + { + "grad_norm": 0.16862376177775423, + "loss": 0.2517106533050537, + "step": 1089 + }, + { + "epoch": 0.3488, + "grad_norm": 0.16862376034259796, + "learning_rate": 9.30271726925668e-05, + "loss": 0.2173, + "step": 1090 + }, + { + "grad_norm": 0.49552279662315024, + "loss": 0.19375227391719818, + "step": 1090 + }, + { + "grad_norm": 0.18673071614224204, + "loss": 0.20242050290107727, + "step": 1091 + }, + { + "grad_norm": 0.32874243117923974, + "loss": 0.17522236704826355, + "step": 1092 + }, + { + "grad_norm": 0.16937663770016534, + "loss": 0.20459583401679993, + "step": 1093 + }, + { + "grad_norm": 0.3986222934113607, + "loss": 0.1746143400669098, + "step": 1094 + }, + { + "grad_norm": 0.23786003089944344, + "loss": 0.20959487557411194, + "step": 1095 + }, + { + "grad_norm": 0.12392366990335393, + "loss": 0.20124489068984985, + "step": 1096 + }, + { + "grad_norm": 0.1331504951713425, + "loss": 0.1551220566034317, + "step": 1097 + }, + { + "grad_norm": 0.265615814259773, + "loss": 0.187661275267601, + "step": 1098 + }, + { + "grad_norm": 0.33683709073071494, + "loss": 0.23162730038166046, + "step": 1099 + }, + { + "epoch": 0.352, + "grad_norm": 0.3368370831012726, + "learning_rate": 9.291488883898496e-05, + "loss": 0.1936, + "step": 1100 + }, + { + "grad_norm": 0.17772419497325578, + "loss": 0.16870352625846863, + "step": 1100 + }, + { + "grad_norm": 0.20521942205028482, + "loss": 0.18010132014751434, + "step": 1101 + }, + { + "grad_norm": 0.20148409490805697, + "loss": 0.22562247514724731, + "step": 1102 + }, + { + "grad_norm": 0.25622841264132284, + "loss": 0.18258480727672577, + "step": 1103 + }, + { + "grad_norm": 0.5872847260845402, + "loss": 0.20765316486358643, + "step": 1104 + }, + { + "grad_norm": 0.141689588458795, + "loss": 0.20945428311824799, + "step": 1105 + }, + { + "grad_norm": 0.1692726109830922, + "loss": 0.1692129373550415, + "step": 1106 + }, + { + "grad_norm": 0.11688851688819729, + "loss": 0.21634864807128906, + "step": 1107 + }, + { + "grad_norm": 0.12744745098655147, + "loss": 0.19146043062210083, + "step": 1108 + }, + { + "grad_norm": 0.41733115666723847, + "loss": 0.16575001180171967, + "step": 1109 + }, + { + "epoch": 0.3552, + "grad_norm": 0.41733112931251526, + "learning_rate": 9.280260498540311e-05, + "loss": 0.1917, + "step": 1110 + }, + { + "grad_norm": 0.22938746126262674, + "loss": 0.1982688158750534, + "step": 1110 + }, + { + "grad_norm": 0.12409063541375757, + "loss": 0.20140497386455536, + "step": 1111 + }, + { + "grad_norm": 0.09620154246764552, + "loss": 0.1906050741672516, + "step": 1112 + }, + { + "grad_norm": 0.220528352031185, + "loss": 0.22772613167762756, + "step": 1113 + }, + { + "grad_norm": 0.2504788439524336, + "loss": 0.23981086909770966, + "step": 1114 + }, + { + "grad_norm": 0.16326245672469733, + "loss": 0.1640377789735794, + "step": 1115 + }, + { + "grad_norm": 0.14377228858247718, + "loss": 0.23571160435676575, + "step": 1116 + }, + { + "grad_norm": 0.1409984367666969, + "loss": 0.20749962329864502, + "step": 1117 + }, + { + "grad_norm": 0.17498251223123445, + "loss": 0.18706759810447693, + "step": 1118 + }, + { + "grad_norm": 0.16220297590624902, + "loss": 0.2185591161251068, + "step": 1119 + }, + { + "epoch": 0.3584, + "grad_norm": 0.16220298409461975, + "learning_rate": 9.269032113182124e-05, + "loss": 0.2071, + "step": 1120 + }, + { + "grad_norm": 0.3367268609702951, + "loss": 0.2083633542060852, + "step": 1120 + }, + { + "grad_norm": 0.1421965490221192, + "loss": 0.23098520934581757, + "step": 1121 + }, + { + "grad_norm": 0.2246826456234509, + "loss": 0.17601065337657928, + "step": 1122 + }, + { + "grad_norm": 0.16662578728064914, + "loss": 0.2381012737751007, + "step": 1123 + }, + { + "grad_norm": 0.31425057397230943, + "loss": 0.16575083136558533, + "step": 1124 + }, + { + "grad_norm": 0.27715384495945944, + "loss": 0.22059136629104614, + "step": 1125 + }, + { + "grad_norm": 0.1644035808708291, + "loss": 0.19537502527236938, + "step": 1126 + }, + { + "grad_norm": 0.1268424909202677, + "loss": 0.19955161213874817, + "step": 1127 + }, + { + "grad_norm": 0.19449075293789905, + "loss": 0.26702967286109924, + "step": 1128 + }, + { + "grad_norm": 0.2908920493224652, + "loss": 0.1975056231021881, + "step": 1129 + }, + { + "epoch": 0.3616, + "grad_norm": 0.2908920645713806, + "learning_rate": 9.25780372782394e-05, + "loss": 0.2099, + "step": 1130 + }, + { + "grad_norm": 0.18438708011037946, + "loss": 0.21095487475395203, + "step": 1130 + }, + { + "grad_norm": 0.1511463636263398, + "loss": 0.20675089955329895, + "step": 1131 + }, + { + "grad_norm": 0.1209296010151314, + "loss": 0.1888558566570282, + "step": 1132 + }, + { + "grad_norm": 0.11202310204094999, + "loss": 0.19356325268745422, + "step": 1133 + }, + { + "grad_norm": 0.48152189956930275, + "loss": 0.24690328538417816, + "step": 1134 + }, + { + "grad_norm": 0.16483395843817997, + "loss": 0.2026970088481903, + "step": 1135 + }, + { + "grad_norm": 0.19218024192503574, + "loss": 0.17978274822235107, + "step": 1136 + }, + { + "grad_norm": 0.4804142402718619, + "loss": 0.3027162551879883, + "step": 1137 + }, + { + "grad_norm": 0.41683957202826577, + "loss": 0.18410256505012512, + "step": 1138 + }, + { + "grad_norm": 0.19403678837005606, + "loss": 0.1958305388689041, + "step": 1139 + }, + { + "epoch": 0.3648, + "grad_norm": 0.1940367966890335, + "learning_rate": 9.246575342465755e-05, + "loss": 0.2112, + "step": 1140 + }, + { + "grad_norm": 0.21504787029614453, + "loss": 0.21649932861328125, + "step": 1140 + }, + { + "grad_norm": 0.43245589070548746, + "loss": 0.17892327904701233, + "step": 1141 + }, + { + "grad_norm": 0.23306919350982816, + "loss": 0.19862666726112366, + "step": 1142 + }, + { + "grad_norm": 0.14849041915048566, + "loss": 0.19050107896327972, + "step": 1143 + }, + { + "grad_norm": 0.15763544302509416, + "loss": 0.16571390628814697, + "step": 1144 + }, + { + "grad_norm": 0.18095352566565687, + "loss": 0.21190738677978516, + "step": 1145 + }, + { + "grad_norm": 0.23458731522380377, + "loss": 0.19326099753379822, + "step": 1146 + }, + { + "grad_norm": 0.32600884200605557, + "loss": 0.18909089267253876, + "step": 1147 + }, + { + "grad_norm": 0.19638992081892995, + "loss": 0.2564845383167267, + "step": 1148 + }, + { + "grad_norm": 0.5486603179231392, + "loss": 0.2946456968784332, + "step": 1149 + }, + { + "epoch": 0.368, + "grad_norm": 0.5486602783203125, + "learning_rate": 9.235346957107568e-05, + "loss": 0.2096, + "step": 1150 + }, + { + "grad_norm": 0.17977322958973915, + "loss": 0.21299734711647034, + "step": 1150 + }, + { + "grad_norm": 0.22698976650019176, + "loss": 0.21939650177955627, + "step": 1151 + }, + { + "grad_norm": 0.15599799165134892, + "loss": 0.1900368332862854, + "step": 1152 + }, + { + "grad_norm": 0.19570436836144303, + "loss": 0.23440226912498474, + "step": 1153 + }, + { + "grad_norm": 0.25722420017926706, + "loss": 0.2557809352874756, + "step": 1154 + }, + { + "grad_norm": 0.15431199733599088, + "loss": 0.19441059231758118, + "step": 1155 + }, + { + "grad_norm": 0.11331102291957575, + "loss": 0.19041015207767487, + "step": 1156 + }, + { + "grad_norm": 0.14390488441077753, + "loss": 0.22349470853805542, + "step": 1157 + }, + { + "grad_norm": 0.28152583035910733, + "loss": 0.20978249609470367, + "step": 1158 + }, + { + "grad_norm": 0.36824262263409197, + "loss": 0.17935024201869965, + "step": 1159 + }, + { + "epoch": 0.3712, + "grad_norm": 0.36824262142181396, + "learning_rate": 9.224118571749383e-05, + "loss": 0.211, + "step": 1160 + }, + { + "grad_norm": 0.2504763889609264, + "loss": 0.18755602836608887, + "step": 1160 + }, + { + "grad_norm": 0.19712529123538022, + "loss": 0.2448435127735138, + "step": 1161 + }, + { + "grad_norm": 0.1996678827513873, + "loss": 0.22126322984695435, + "step": 1162 + }, + { + "grad_norm": 0.3866891527880422, + "loss": 0.2083159238100052, + "step": 1163 + }, + { + "grad_norm": 0.12293793522256907, + "loss": 0.18622919917106628, + "step": 1164 + }, + { + "grad_norm": 0.20120555842057866, + "loss": 0.1637835055589676, + "step": 1165 + }, + { + "grad_norm": 0.3901388571877309, + "loss": 0.2181008756160736, + "step": 1166 + }, + { + "grad_norm": 0.5601337984003252, + "loss": 0.2632687985897064, + "step": 1167 + }, + { + "grad_norm": 0.2724472226274353, + "loss": 0.19062724709510803, + "step": 1168 + }, + { + "grad_norm": 0.15705338169719912, + "loss": 0.18261754512786865, + "step": 1169 + }, + { + "epoch": 0.3744, + "grad_norm": 0.1570533812046051, + "learning_rate": 9.212890186391197e-05, + "loss": 0.2067, + "step": 1170 + }, + { + "grad_norm": 0.3189138359848681, + "loss": 0.2535853981971741, + "step": 1170 + }, + { + "grad_norm": 0.20757146570103857, + "loss": 0.19894562661647797, + "step": 1171 + }, + { + "grad_norm": 0.23130865116133156, + "loss": 0.2149081975221634, + "step": 1172 + }, + { + "grad_norm": 0.13514685830038245, + "loss": 0.18970058858394623, + "step": 1173 + }, + { + "grad_norm": 0.2191878174906616, + "loss": 0.2600434124469757, + "step": 1174 + }, + { + "grad_norm": 0.507682612408716, + "loss": 0.17337459325790405, + "step": 1175 + }, + { + "grad_norm": 0.18763563298699754, + "loss": 0.2419625222682953, + "step": 1176 + }, + { + "grad_norm": 0.18240857659930443, + "loss": 0.19966980814933777, + "step": 1177 + }, + { + "grad_norm": 0.2691671989391888, + "loss": 0.17559610307216644, + "step": 1178 + }, + { + "grad_norm": 0.17821207594766797, + "loss": 0.14320158958435059, + "step": 1179 + }, + { + "epoch": 0.3776, + "grad_norm": 0.17821206152439117, + "learning_rate": 9.201661801033011e-05, + "loss": 0.2051, + "step": 1180 + }, + { + "grad_norm": 0.21326244677267292, + "loss": 0.14633743464946747, + "step": 1180 + }, + { + "grad_norm": 0.1734689305739547, + "loss": 0.19557875394821167, + "step": 1181 + }, + { + "grad_norm": 0.13412769954623102, + "loss": 0.19878463447093964, + "step": 1182 + }, + { + "grad_norm": 0.17223761883914987, + "loss": 0.20389318466186523, + "step": 1183 + }, + { + "grad_norm": 0.541993959558911, + "loss": 0.2381640374660492, + "step": 1184 + }, + { + "grad_norm": 0.6677577070185027, + "loss": 0.28943169116973877, + "step": 1185 + }, + { + "grad_norm": 0.13984746906313839, + "loss": 0.218010812997818, + "step": 1186 + }, + { + "grad_norm": 0.39093840265887186, + "loss": 0.23011425137519836, + "step": 1187 + }, + { + "grad_norm": 0.18928205597997264, + "loss": 0.2815581262111664, + "step": 1188 + }, + { + "grad_norm": 0.23451495187718605, + "loss": 0.18328504264354706, + "step": 1189 + }, + { + "epoch": 0.3808, + "grad_norm": 0.23451495170593262, + "learning_rate": 9.190433415674826e-05, + "loss": 0.2185, + "step": 1190 + }, + { + "grad_norm": 0.4740872027825141, + "loss": 0.2050350457429886, + "step": 1190 + }, + { + "grad_norm": 0.3134800803079158, + "loss": 0.19426316022872925, + "step": 1191 + }, + { + "grad_norm": 0.322132231406249, + "loss": 0.18893542885780334, + "step": 1192 + }, + { + "grad_norm": 0.410699226410885, + "loss": 0.19649647176265717, + "step": 1193 + }, + { + "grad_norm": 0.18874649987532127, + "loss": 0.20560893416404724, + "step": 1194 + }, + { + "grad_norm": 0.16110874259280525, + "loss": 0.1658567190170288, + "step": 1195 + }, + { + "grad_norm": 0.19700257096660376, + "loss": 0.15860803425312042, + "step": 1196 + }, + { + "grad_norm": 0.27468664322801345, + "loss": 0.2014860212802887, + "step": 1197 + }, + { + "grad_norm": 0.376808480053202, + "loss": 0.20037321746349335, + "step": 1198 + }, + { + "grad_norm": 0.13405710267619614, + "loss": 0.13748060166835785, + "step": 1199 + }, + { + "epoch": 0.384, + "grad_norm": 0.13405710458755493, + "learning_rate": 9.179205030316641e-05, + "loss": 0.1854, + "step": 1200 + }, + { + "grad_norm": 0.16295097864891503, + "loss": 0.2052190750837326, + "step": 1200 + }, + { + "grad_norm": 0.14919547232754354, + "loss": 0.25522345304489136, + "step": 1201 + }, + { + "grad_norm": 0.162737385780572, + "loss": 0.18729545176029205, + "step": 1202 + }, + { + "grad_norm": 0.30026152134063444, + "loss": 0.24034366011619568, + "step": 1203 + }, + { + "grad_norm": 0.11014228467870225, + "loss": 0.16358867287635803, + "step": 1204 + }, + { + "grad_norm": 0.19816656025820656, + "loss": 0.15370675921440125, + "step": 1205 + }, + { + "grad_norm": 0.18494105307660033, + "loss": 0.19463378190994263, + "step": 1206 + }, + { + "grad_norm": 0.22132949219621983, + "loss": 0.2298462986946106, + "step": 1207 + }, + { + "grad_norm": 0.1611177975633361, + "loss": 0.20845791697502136, + "step": 1208 + }, + { + "grad_norm": 0.2502352709898924, + "loss": 0.19858211278915405, + "step": 1209 + }, + { + "epoch": 0.3872, + "grad_norm": 0.25023525953292847, + "learning_rate": 9.167976644958456e-05, + "loss": 0.2037, + "step": 1210 + }, + { + "grad_norm": 0.2834939812902437, + "loss": 0.1781633347272873, + "step": 1210 + }, + { + "grad_norm": 0.19281706513764152, + "loss": 0.23551422357559204, + "step": 1211 + }, + { + "grad_norm": 0.42800070947102087, + "loss": 0.1643822193145752, + "step": 1212 + }, + { + "grad_norm": 0.4364925419387394, + "loss": 0.23938652873039246, + "step": 1213 + }, + { + "grad_norm": 0.1255228820013053, + "loss": 0.2070753127336502, + "step": 1214 + }, + { + "grad_norm": 0.20606792125363865, + "loss": 0.1824677288532257, + "step": 1215 + }, + { + "grad_norm": 0.2970109063625816, + "loss": 0.21121206879615784, + "step": 1216 + }, + { + "grad_norm": 0.1444557318185465, + "loss": 0.1664683222770691, + "step": 1217 + }, + { + "grad_norm": 0.23571018296324214, + "loss": 0.26608806848526, + "step": 1218 + }, + { + "grad_norm": 0.08981674553118357, + "loss": 0.16442802548408508, + "step": 1219 + }, + { + "epoch": 0.3904, + "grad_norm": 0.08981674164533615, + "learning_rate": 9.15674825960027e-05, + "loss": 0.2015, + "step": 1220 + }, + { + "grad_norm": 0.33225544207395624, + "loss": 0.2128671109676361, + "step": 1220 + }, + { + "grad_norm": 0.16677945199516192, + "loss": 0.1695430427789688, + "step": 1221 + }, + { + "grad_norm": 0.14387855801065572, + "loss": 0.17156578600406647, + "step": 1222 + }, + { + "grad_norm": 0.18048443199655853, + "loss": 0.19577054679393768, + "step": 1223 + }, + { + "grad_norm": 0.12304582642177517, + "loss": 0.1930341273546219, + "step": 1224 + }, + { + "grad_norm": 0.1029370178550048, + "loss": 0.18185469508171082, + "step": 1225 + }, + { + "grad_norm": 0.35730088507757235, + "loss": 0.21150556206703186, + "step": 1226 + }, + { + "grad_norm": 0.14810062377935487, + "loss": 0.15369240939617157, + "step": 1227 + }, + { + "grad_norm": 0.1537020625870823, + "loss": 0.1733514964580536, + "step": 1228 + }, + { + "grad_norm": 0.19145346753670503, + "loss": 0.17509928345680237, + "step": 1229 + }, + { + "epoch": 0.3936, + "grad_norm": 0.1914534717798233, + "learning_rate": 9.145519874242085e-05, + "loss": 0.1838, + "step": 1230 + }, + { + "grad_norm": 0.22123839842373813, + "loss": 0.17257235944271088, + "step": 1230 + }, + { + "grad_norm": 0.28687488716955956, + "loss": 0.21783074736595154, + "step": 1231 + }, + { + "grad_norm": 0.3319652975305976, + "loss": 0.2648008167743683, + "step": 1232 + }, + { + "grad_norm": 0.13042841009571893, + "loss": 0.18466031551361084, + "step": 1233 + }, + { + "grad_norm": 0.20194559037193752, + "loss": 0.17304660379886627, + "step": 1234 + }, + { + "grad_norm": 0.12028192452715288, + "loss": 0.2413826882839203, + "step": 1235 + }, + { + "grad_norm": 0.23704454873995587, + "loss": 0.3052140474319458, + "step": 1236 + }, + { + "grad_norm": 0.2183450428854758, + "loss": 0.21141694486141205, + "step": 1237 + }, + { + "grad_norm": 0.32740700949718143, + "loss": 0.2106851488351822, + "step": 1238 + }, + { + "grad_norm": 0.15704376157772898, + "loss": 0.2138277143239975, + "step": 1239 + }, + { + "epoch": 0.3968, + "grad_norm": 0.15704376995563507, + "learning_rate": 9.1342914888839e-05, + "loss": 0.2195, + "step": 1240 + }, + { + "grad_norm": 0.22759319674388762, + "loss": 0.2313537299633026, + "step": 1240 + }, + { + "grad_norm": 0.4948525487516799, + "loss": 0.18232287466526031, + "step": 1241 + }, + { + "grad_norm": 0.24151363708623927, + "loss": 0.16159719228744507, + "step": 1242 + }, + { + "grad_norm": 0.25639995788418496, + "loss": 0.1574125736951828, + "step": 1243 + }, + { + "grad_norm": 0.18047910219395322, + "loss": 0.2263982892036438, + "step": 1244 + }, + { + "grad_norm": 0.1375837209209748, + "loss": 0.17497989535331726, + "step": 1245 + }, + { + "grad_norm": 0.35144032550226456, + "loss": 0.2002110779285431, + "step": 1246 + }, + { + "grad_norm": 0.28630326618072066, + "loss": 0.1990223228931427, + "step": 1247 + }, + { + "grad_norm": 0.2653716557655574, + "loss": 0.1796901375055313, + "step": 1248 + }, + { + "grad_norm": 0.3957077875300973, + "loss": 0.20594440400600433, + "step": 1249 + }, + { + "epoch": 0.4, + "grad_norm": 0.39570775628089905, + "learning_rate": 9.123063103525713e-05, + "loss": 0.1919, + "step": 1250 + }, + { + "grad_norm": 0.23585405867125225, + "loss": 0.19862928986549377, + "step": 1250 + }, + { + "grad_norm": 0.181728051639474, + "loss": 0.18423804640769958, + "step": 1251 + }, + { + "grad_norm": 0.27520893901866617, + "loss": 0.17932939529418945, + "step": 1252 + }, + { + "grad_norm": 0.24310271573428727, + "loss": 0.15624240040779114, + "step": 1253 + }, + { + "grad_norm": 0.14041667313644032, + "loss": 0.21468721330165863, + "step": 1254 + }, + { + "grad_norm": 0.1071039655724296, + "loss": 0.23160579800605774, + "step": 1255 + }, + { + "grad_norm": 0.38947700608465596, + "loss": 0.20810231566429138, + "step": 1256 + }, + { + "grad_norm": 0.24646936208386475, + "loss": 0.1820230334997177, + "step": 1257 + }, + { + "grad_norm": 0.1553523657604597, + "loss": 0.26695218682289124, + "step": 1258 + }, + { + "grad_norm": 0.17061888262793704, + "loss": 0.27899980545043945, + "step": 1259 + }, + { + "epoch": 0.4032, + "grad_norm": 0.17061889171600342, + "learning_rate": 9.111834718167527e-05, + "loss": 0.2101, + "step": 1260 + }, + { + "grad_norm": 0.19610685247001314, + "loss": 0.2005070298910141, + "step": 1260 + }, + { + "grad_norm": 0.3708342216642322, + "loss": 0.18171560764312744, + "step": 1261 + }, + { + "grad_norm": 0.25863747486212907, + "loss": 0.1932872086763382, + "step": 1262 + }, + { + "grad_norm": 0.2845429776461574, + "loss": 0.1966428905725479, + "step": 1263 + }, + { + "grad_norm": 0.2297119950390638, + "loss": 0.18059112131595612, + "step": 1264 + }, + { + "grad_norm": 0.14848354631824986, + "loss": 0.2004001885652542, + "step": 1265 + }, + { + "grad_norm": 0.1399641988565317, + "loss": 0.1809517741203308, + "step": 1266 + }, + { + "grad_norm": 0.20577448472767368, + "loss": 0.19611509144306183, + "step": 1267 + }, + { + "grad_norm": 0.12014030207448785, + "loss": 0.19947701692581177, + "step": 1268 + }, + { + "grad_norm": 0.12707690082487366, + "loss": 0.19758844375610352, + "step": 1269 + }, + { + "epoch": 0.4064, + "grad_norm": 0.1270769089460373, + "learning_rate": 9.100606332809342e-05, + "loss": 0.1927, + "step": 1270 + }, + { + "grad_norm": 0.1240338212229818, + "loss": 0.15935657918453217, + "step": 1270 + }, + { + "grad_norm": 0.14060111584929916, + "loss": 0.1988687813282013, + "step": 1271 + }, + { + "grad_norm": 0.25146393276411555, + "loss": 0.19320610165596008, + "step": 1272 + }, + { + "grad_norm": 0.1594985995206543, + "loss": 0.25431185960769653, + "step": 1273 + }, + { + "grad_norm": 0.25294446408341165, + "loss": 0.20270001888275146, + "step": 1274 + }, + { + "grad_norm": 0.23594808545831558, + "loss": 0.19048717617988586, + "step": 1275 + }, + { + "grad_norm": 0.1869882993515996, + "loss": 0.20475450158119202, + "step": 1276 + }, + { + "grad_norm": 0.19349432371304806, + "loss": 0.19588831067085266, + "step": 1277 + }, + { + "grad_norm": 0.3475248222778207, + "loss": 0.17571750283241272, + "step": 1278 + }, + { + "grad_norm": 0.1551214111429981, + "loss": 0.24780815839767456, + "step": 1279 + }, + { + "epoch": 0.4096, + "grad_norm": 0.15512141585350037, + "learning_rate": 9.089377947451156e-05, + "loss": 0.2023, + "step": 1280 + }, + { + "grad_norm": 0.106956634513963, + "loss": 0.1834591031074524, + "step": 1280 + }, + { + "grad_norm": 0.2934679821100225, + "loss": 0.24754586815834045, + "step": 1281 + }, + { + "grad_norm": 0.10287945933309992, + "loss": 0.14529578387737274, + "step": 1282 + }, + { + "grad_norm": 0.21295568567299086, + "loss": 0.20173177123069763, + "step": 1283 + }, + { + "grad_norm": 0.13310470068197042, + "loss": 0.20208263397216797, + "step": 1284 + }, + { + "grad_norm": 0.1402602457742417, + "loss": 0.19930072128772736, + "step": 1285 + }, + { + "grad_norm": 0.38517332955470396, + "loss": 0.18476831912994385, + "step": 1286 + }, + { + "grad_norm": 0.35941095378491117, + "loss": 0.18966853618621826, + "step": 1287 + }, + { + "grad_norm": 0.22842341990902162, + "loss": 0.31777167320251465, + "step": 1288 + }, + { + "grad_norm": 0.2662179841072055, + "loss": 0.16381487250328064, + "step": 1289 + }, + { + "epoch": 0.4128, + "grad_norm": 0.266217976808548, + "learning_rate": 9.078149562092971e-05, + "loss": 0.2035, + "step": 1290 + }, + { + "grad_norm": 0.1806001871036084, + "loss": 0.19276019930839539, + "step": 1290 + }, + { + "grad_norm": 0.15558262819012095, + "loss": 0.227116197347641, + "step": 1291 + }, + { + "grad_norm": 0.19293455783644886, + "loss": 0.24691718816757202, + "step": 1292 + }, + { + "grad_norm": 0.26111227412136867, + "loss": 0.18383026123046875, + "step": 1293 + }, + { + "grad_norm": 0.3321597971800014, + "loss": 0.2607182264328003, + "step": 1294 + }, + { + "grad_norm": 0.22425779703959714, + "loss": 0.25310394167900085, + "step": 1295 + }, + { + "grad_norm": 0.261123100958337, + "loss": 0.20402181148529053, + "step": 1296 + }, + { + "grad_norm": 0.25865914496661097, + "loss": 0.23108932375907898, + "step": 1297 + }, + { + "grad_norm": 0.1865756700329638, + "loss": 0.17219623923301697, + "step": 1298 + }, + { + "grad_norm": 0.5519210938775875, + "loss": 0.33121857047080994, + "step": 1299 + }, + { + "epoch": 0.416, + "grad_norm": 0.5519210696220398, + "learning_rate": 9.066921176734786e-05, + "loss": 0.2303, + "step": 1300 + }, + { + "grad_norm": 0.4083992960552419, + "loss": 0.2652629613876343, + "step": 1300 + }, + { + "grad_norm": 0.14424599225079413, + "loss": 0.1991356909275055, + "step": 1301 + }, + { + "grad_norm": 0.38185380743135916, + "loss": 0.22088509798049927, + "step": 1302 + }, + { + "grad_norm": 0.21056878460284295, + "loss": 0.18175679445266724, + "step": 1303 + }, + { + "grad_norm": 0.13359300702018587, + "loss": 0.16816896200180054, + "step": 1304 + }, + { + "grad_norm": 0.4583995160876442, + "loss": 0.21948370337486267, + "step": 1305 + }, + { + "grad_norm": 0.2172409666664232, + "loss": 0.1848749816417694, + "step": 1306 + }, + { + "grad_norm": 0.4380018652557251, + "loss": 0.1772986650466919, + "step": 1307 + }, + { + "grad_norm": 0.3495689165204745, + "loss": 0.16382399201393127, + "step": 1308 + }, + { + "grad_norm": 0.23824502907007686, + "loss": 0.20538705587387085, + "step": 1309 + }, + { + "epoch": 0.4192, + "grad_norm": 0.23824504017829895, + "learning_rate": 9.055692791376601e-05, + "loss": 0.1986, + "step": 1310 + }, + { + "grad_norm": 0.3133877190884318, + "loss": 0.16053873300552368, + "step": 1310 + }, + { + "grad_norm": 0.1726742406142277, + "loss": 0.2078474462032318, + "step": 1311 + }, + { + "grad_norm": 0.452313618541112, + "loss": 0.22442683577537537, + "step": 1312 + }, + { + "grad_norm": 0.23402246244221417, + "loss": 0.22204391658306122, + "step": 1313 + }, + { + "grad_norm": 0.5901993001876236, + "loss": 0.2696843147277832, + "step": 1314 + }, + { + "grad_norm": 0.36703141048593746, + "loss": 0.19289594888687134, + "step": 1315 + }, + { + "grad_norm": 0.10314713697150639, + "loss": 0.20123854279518127, + "step": 1316 + }, + { + "grad_norm": 0.32006707245517313, + "loss": 0.20394274592399597, + "step": 1317 + }, + { + "grad_norm": 0.2601438461166467, + "loss": 0.20014163851737976, + "step": 1318 + }, + { + "grad_norm": 0.20419193460212684, + "loss": 0.242193341255188, + "step": 1319 + }, + { + "epoch": 0.4224, + "grad_norm": 0.2041919231414795, + "learning_rate": 9.044464406018415e-05, + "loss": 0.2125, + "step": 1320 + }, + { + "grad_norm": 0.1973333164834291, + "loss": 0.21313515305519104, + "step": 1320 + }, + { + "grad_norm": 0.48754475363897415, + "loss": 0.1749364733695984, + "step": 1321 + }, + { + "grad_norm": 0.2061071369122693, + "loss": 0.21022073924541473, + "step": 1322 + }, + { + "grad_norm": 0.11989020680271643, + "loss": 0.23914498090744019, + "step": 1323 + }, + { + "grad_norm": 0.1696903447760694, + "loss": 0.18719244003295898, + "step": 1324 + }, + { + "grad_norm": 0.3373869996651761, + "loss": 0.18789677321910858, + "step": 1325 + }, + { + "grad_norm": 0.39465953416993904, + "loss": 0.2916887104511261, + "step": 1326 + }, + { + "grad_norm": 0.1817988580398491, + "loss": 0.18675857782363892, + "step": 1327 + }, + { + "grad_norm": 0.21247908459081963, + "loss": 0.1960948258638382, + "step": 1328 + }, + { + "grad_norm": 0.42089743126342677, + "loss": 0.20324616134166718, + "step": 1329 + }, + { + "epoch": 0.4256, + "grad_norm": 0.4208974540233612, + "learning_rate": 9.03323602066023e-05, + "loss": 0.209, + "step": 1330 + }, + { + "grad_norm": 0.17184345955223562, + "loss": 0.2060212790966034, + "step": 1330 + }, + { + "grad_norm": 0.19908030304348656, + "loss": 0.16987203061580658, + "step": 1331 + }, + { + "grad_norm": 0.2767264101287708, + "loss": 0.16846297681331635, + "step": 1332 + }, + { + "grad_norm": 0.20443865625107355, + "loss": 0.20554175972938538, + "step": 1333 + }, + { + "grad_norm": 0.27052344896594244, + "loss": 0.16310438513755798, + "step": 1334 + }, + { + "grad_norm": 0.2330704806031058, + "loss": 0.19821485877037048, + "step": 1335 + }, + { + "grad_norm": 0.275466107322984, + "loss": 0.20267289876937866, + "step": 1336 + }, + { + "grad_norm": 0.2597454497901952, + "loss": 0.2018827497959137, + "step": 1337 + }, + { + "grad_norm": 0.194311620858932, + "loss": 0.14966906607151031, + "step": 1338 + }, + { + "grad_norm": 0.14202352408020977, + "loss": 0.21070705354213715, + "step": 1339 + }, + { + "epoch": 0.4288, + "grad_norm": 0.14202351868152618, + "learning_rate": 9.022007635302045e-05, + "loss": 0.1876, + "step": 1340 + }, + { + "grad_norm": 0.14227545231165234, + "loss": 0.16802282631397247, + "step": 1340 + }, + { + "grad_norm": 0.17051410488507174, + "loss": 0.23212261497974396, + "step": 1341 + }, + { + "grad_norm": 0.10099504035704765, + "loss": 0.1637849062681198, + "step": 1342 + }, + { + "grad_norm": 0.15039159676897393, + "loss": 0.16832825541496277, + "step": 1343 + }, + { + "grad_norm": 0.21549784758667082, + "loss": 0.19473232328891754, + "step": 1344 + }, + { + "grad_norm": 0.1703222417041235, + "loss": 0.17995953559875488, + "step": 1345 + }, + { + "grad_norm": 0.2725062893127943, + "loss": 0.23503538966178894, + "step": 1346 + }, + { + "grad_norm": 0.21798734157986227, + "loss": 0.200187087059021, + "step": 1347 + }, + { + "grad_norm": 0.13261401471938697, + "loss": 0.19522012770175934, + "step": 1348 + }, + { + "grad_norm": 0.3176891596072556, + "loss": 0.22970892488956451, + "step": 1349 + }, + { + "epoch": 0.432, + "grad_norm": 0.3176891505718231, + "learning_rate": 9.010779249943859e-05, + "loss": 0.1967, + "step": 1350 + }, + { + "grad_norm": 0.24679359856856847, + "loss": 0.18500623106956482, + "step": 1350 + }, + { + "grad_norm": 0.19992597433759354, + "loss": 0.17315256595611572, + "step": 1351 + }, + { + "grad_norm": 0.14256006269750376, + "loss": 0.16900357604026794, + "step": 1352 + }, + { + "grad_norm": 0.12382674701490884, + "loss": 0.18913409113883972, + "step": 1353 + }, + { + "grad_norm": 0.3331756336395646, + "loss": 0.21685096621513367, + "step": 1354 + }, + { + "grad_norm": 0.1816694677813138, + "loss": 0.17200781404972076, + "step": 1355 + }, + { + "grad_norm": 0.2693085597825389, + "loss": 0.2886621057987213, + "step": 1356 + }, + { + "grad_norm": 0.34670854332949186, + "loss": 0.2275918424129486, + "step": 1357 + }, + { + "grad_norm": 0.20883132226371484, + "loss": 0.2121773511171341, + "step": 1358 + }, + { + "grad_norm": 0.16158700733013492, + "loss": 0.19109699130058289, + "step": 1359 + }, + { + "epoch": 0.4352, + "grad_norm": 0.16158701479434967, + "learning_rate": 8.999550864585672e-05, + "loss": 0.2025, + "step": 1360 + }, + { + "grad_norm": 0.12370815321898924, + "loss": 0.18005765974521637, + "step": 1360 + }, + { + "grad_norm": 0.16221918230769514, + "loss": 0.1685120165348053, + "step": 1361 + }, + { + "grad_norm": 0.12133520112140865, + "loss": 0.16833165287971497, + "step": 1362 + }, + { + "grad_norm": 0.12406515948278224, + "loss": 0.16516365110874176, + "step": 1363 + }, + { + "grad_norm": 0.1172233825373365, + "loss": 0.20094910264015198, + "step": 1364 + }, + { + "grad_norm": 0.2452608036838739, + "loss": 0.17158642411231995, + "step": 1365 + }, + { + "grad_norm": 0.3676389172306445, + "loss": 0.20026150345802307, + "step": 1366 + }, + { + "grad_norm": 0.4036848855477633, + "loss": 0.2150043547153473, + "step": 1367 + }, + { + "grad_norm": 0.11209722894734052, + "loss": 0.240310400724411, + "step": 1368 + }, + { + "grad_norm": 0.12525490734399236, + "loss": 0.1727960854768753, + "step": 1369 + }, + { + "epoch": 0.4384, + "grad_norm": 0.12525491416454315, + "learning_rate": 8.988322479227488e-05, + "loss": 0.1883, + "step": 1370 + }, + { + "grad_norm": 0.11083133582073167, + "loss": 0.1934005320072174, + "step": 1370 + }, + { + "grad_norm": 0.16311197671394792, + "loss": 0.23225568234920502, + "step": 1371 + }, + { + "grad_norm": 0.2988873027183492, + "loss": 0.26148080825805664, + "step": 1372 + }, + { + "grad_norm": 0.12694119891570402, + "loss": 0.224916011095047, + "step": 1373 + }, + { + "grad_norm": 0.42917620983328264, + "loss": 0.2194364219903946, + "step": 1374 + }, + { + "grad_norm": 0.3501914320869242, + "loss": 0.18626438081264496, + "step": 1375 + }, + { + "grad_norm": 0.2865822491538599, + "loss": 0.14820195734500885, + "step": 1376 + }, + { + "grad_norm": 0.2905090913772637, + "loss": 0.2785956561565399, + "step": 1377 + }, + { + "grad_norm": 0.33155236750504385, + "loss": 0.2658662796020508, + "step": 1378 + }, + { + "grad_norm": 0.2564144721605889, + "loss": 0.18308043479919434, + "step": 1379 + }, + { + "epoch": 0.4416, + "grad_norm": 0.2564144730567932, + "learning_rate": 8.977094093869301e-05, + "loss": 0.2193, + "step": 1380 + }, + { + "grad_norm": 0.15876318637677797, + "loss": 0.2371370941400528, + "step": 1380 + }, + { + "grad_norm": 0.4096970276783958, + "loss": 0.23056508600711823, + "step": 1381 + }, + { + "grad_norm": 0.1646017308151422, + "loss": 0.15496277809143066, + "step": 1382 + }, + { + "grad_norm": 0.21263540261829045, + "loss": 0.20002275705337524, + "step": 1383 + }, + { + "grad_norm": 0.14809709666171236, + "loss": 0.1926899254322052, + "step": 1384 + }, + { + "grad_norm": 0.24000258923936166, + "loss": 0.22897911071777344, + "step": 1385 + }, + { + "grad_norm": 0.16991139451064524, + "loss": 0.20526590943336487, + "step": 1386 + }, + { + "grad_norm": 0.1526041211942202, + "loss": 0.191679447889328, + "step": 1387 + }, + { + "grad_norm": 0.21350135923053964, + "loss": 0.21529486775398254, + "step": 1388 + }, + { + "grad_norm": 0.197888132437985, + "loss": 0.18534785509109497, + "step": 1389 + }, + { + "epoch": 0.4448, + "grad_norm": 0.19788813591003418, + "learning_rate": 8.965865708511116e-05, + "loss": 0.2042, + "step": 1390 + }, + { + "grad_norm": 0.5064752014826889, + "loss": 0.20398306846618652, + "step": 1390 + }, + { + "grad_norm": 0.2293538803821008, + "loss": 0.17340779304504395, + "step": 1391 + }, + { + "grad_norm": 0.2091940552165263, + "loss": 0.1956290751695633, + "step": 1392 + }, + { + "grad_norm": 0.1415195055453653, + "loss": 0.20951427519321442, + "step": 1393 + }, + { + "grad_norm": 0.19499902859989995, + "loss": 0.183614581823349, + "step": 1394 + }, + { + "grad_norm": 0.22275158044955884, + "loss": 0.2368287742137909, + "step": 1395 + }, + { + "grad_norm": 0.21726639444679918, + "loss": 0.18370214104652405, + "step": 1396 + }, + { + "grad_norm": 0.2844197710103699, + "loss": 0.15440693497657776, + "step": 1397 + }, + { + "grad_norm": 0.21952844008205588, + "loss": 0.22351987659931183, + "step": 1398 + }, + { + "grad_norm": 0.18375135839529766, + "loss": 0.18940091133117676, + "step": 1399 + }, + { + "epoch": 0.448, + "grad_norm": 0.18375135958194733, + "learning_rate": 8.954637323152931e-05, + "loss": 0.1954, + "step": 1400 + }, + { + "grad_norm": 0.29267100377093946, + "loss": 0.2146906852722168, + "step": 1400 + }, + { + "grad_norm": 0.5324679200708132, + "loss": 0.2548893988132477, + "step": 1401 + }, + { + "grad_norm": 0.15133460658013093, + "loss": 0.18773797154426575, + "step": 1402 + }, + { + "grad_norm": 0.09199497778451124, + "loss": 0.1449151486158371, + "step": 1403 + }, + { + "grad_norm": 0.38920429048980076, + "loss": 0.22831740975379944, + "step": 1404 + }, + { + "grad_norm": 0.23577889579027922, + "loss": 0.19330087304115295, + "step": 1405 + }, + { + "grad_norm": 0.116916179271744, + "loss": 0.20733386278152466, + "step": 1406 + }, + { + "grad_norm": 0.2134463386547835, + "loss": 0.16853399574756622, + "step": 1407 + }, + { + "grad_norm": 0.11294918743139695, + "loss": 0.19615721702575684, + "step": 1408 + }, + { + "grad_norm": 0.3567545942579564, + "loss": 0.16962838172912598, + "step": 1409 + }, + { + "epoch": 0.4512, + "grad_norm": 0.3567545711994171, + "learning_rate": 8.943408937794746e-05, + "loss": 0.1966, + "step": 1410 + }, + { + "grad_norm": 0.17440359859533974, + "loss": 0.19337697327136993, + "step": 1410 + }, + { + "grad_norm": 0.36793613142117115, + "loss": 0.1712762713432312, + "step": 1411 + }, + { + "grad_norm": 0.15787247522676087, + "loss": 0.23881107568740845, + "step": 1412 + }, + { + "grad_norm": 0.16941622524720581, + "loss": 0.19301164150238037, + "step": 1413 + }, + { + "grad_norm": 0.17393809260153759, + "loss": 0.2128582000732422, + "step": 1414 + }, + { + "grad_norm": 0.18857990743156933, + "loss": 0.15846002101898193, + "step": 1415 + }, + { + "grad_norm": 0.1712970634786415, + "loss": 0.19838926196098328, + "step": 1416 + }, + { + "grad_norm": 0.1791740860135487, + "loss": 0.15436993539333344, + "step": 1417 + }, + { + "grad_norm": 0.12653768199394855, + "loss": 0.1474095731973648, + "step": 1418 + }, + { + "grad_norm": 0.3742877316317282, + "loss": 0.25280699133872986, + "step": 1419 + }, + { + "epoch": 0.4544, + "grad_norm": 0.3742877244949341, + "learning_rate": 8.93218055243656e-05, + "loss": 0.1921, + "step": 1420 + }, + { + "grad_norm": 0.20519813481131785, + "loss": 0.2215920090675354, + "step": 1420 + }, + { + "grad_norm": 0.23913297287028717, + "loss": 0.1787823587656021, + "step": 1421 + }, + { + "grad_norm": 0.38456929240713966, + "loss": 0.20132996141910553, + "step": 1422 + }, + { + "grad_norm": 0.2008434034436277, + "loss": 0.1853608787059784, + "step": 1423 + }, + { + "grad_norm": 0.5943924754292035, + "loss": 0.3005455732345581, + "step": 1424 + }, + { + "grad_norm": 0.203076576394001, + "loss": 0.19202715158462524, + "step": 1425 + }, + { + "grad_norm": 0.12439949396225757, + "loss": 0.20934653282165527, + "step": 1426 + }, + { + "grad_norm": 0.30764751639298576, + "loss": 0.2086239755153656, + "step": 1427 + }, + { + "grad_norm": 0.12567229697612625, + "loss": 0.18307647109031677, + "step": 1428 + }, + { + "grad_norm": 0.48642040486926263, + "loss": 0.20521752536296844, + "step": 1429 + }, + { + "epoch": 0.4576, + "grad_norm": 0.4864203929901123, + "learning_rate": 8.920952167078375e-05, + "loss": 0.2086, + "step": 1430 + }, + { + "grad_norm": 0.6896257410270871, + "loss": 0.2598416805267334, + "step": 1430 + }, + { + "grad_norm": 0.59172102495089, + "loss": 0.1937696933746338, + "step": 1431 + }, + { + "grad_norm": 0.3276049780447304, + "loss": 0.20856885612010956, + "step": 1432 + }, + { + "grad_norm": 0.2575791444474945, + "loss": 0.2264598309993744, + "step": 1433 + }, + { + "grad_norm": 0.18028681551601994, + "loss": 0.1852359175682068, + "step": 1434 + }, + { + "grad_norm": 0.26930412983024254, + "loss": 0.1875796616077423, + "step": 1435 + }, + { + "grad_norm": 0.1837894140554047, + "loss": 0.2068072408437729, + "step": 1436 + }, + { + "grad_norm": 0.1915805359277843, + "loss": 0.21628770232200623, + "step": 1437 + }, + { + "grad_norm": 0.3227705033473827, + "loss": 0.24723032116889954, + "step": 1438 + }, + { + "grad_norm": 0.5981997768365996, + "loss": 0.2874242067337036, + "step": 1439 + }, + { + "epoch": 0.4608, + "grad_norm": 0.5981997847557068, + "learning_rate": 8.909723781720189e-05, + "loss": 0.2219, + "step": 1440 + }, + { + "grad_norm": 0.23515864470922848, + "loss": 0.2045535296201706, + "step": 1440 + }, + { + "grad_norm": 0.2685240292843767, + "loss": 0.2311839908361435, + "step": 1441 + }, + { + "grad_norm": 0.2295675674781293, + "loss": 0.16987797617912292, + "step": 1442 + }, + { + "grad_norm": 0.21091070216917088, + "loss": 0.16776664555072784, + "step": 1443 + }, + { + "grad_norm": 0.2978207499156741, + "loss": 0.18015849590301514, + "step": 1444 + }, + { + "grad_norm": 0.18258006088462103, + "loss": 0.171584814786911, + "step": 1445 + }, + { + "grad_norm": 0.17860783256217047, + "loss": 0.1947779655456543, + "step": 1446 + }, + { + "grad_norm": 0.29349293452972874, + "loss": 0.22049711644649506, + "step": 1447 + }, + { + "grad_norm": 0.30528707751875167, + "loss": 0.16300752758979797, + "step": 1448 + }, + { + "grad_norm": 0.15906871071662784, + "loss": 0.15251660346984863, + "step": 1449 + }, + { + "epoch": 0.464, + "grad_norm": 0.15906871855258942, + "learning_rate": 8.898495396362003e-05, + "loss": 0.1856, + "step": 1450 + }, + { + "grad_norm": 0.1849291903131674, + "loss": 0.2133215218782425, + "step": 1450 + }, + { + "grad_norm": 0.15565014945645692, + "loss": 0.20561277866363525, + "step": 1451 + }, + { + "grad_norm": 0.11860804841867514, + "loss": 0.17278441786766052, + "step": 1452 + }, + { + "grad_norm": 0.2711756655885758, + "loss": 0.3179495930671692, + "step": 1453 + }, + { + "grad_norm": 0.33018358174071366, + "loss": 0.18270143866539001, + "step": 1454 + }, + { + "grad_norm": 0.2734167824654227, + "loss": 0.19220378994941711, + "step": 1455 + }, + { + "grad_norm": 0.13654810152350705, + "loss": 0.23835527896881104, + "step": 1456 + }, + { + "grad_norm": 0.11632313882032724, + "loss": 0.15060295164585114, + "step": 1457 + }, + { + "grad_norm": 0.17587002632504894, + "loss": 0.2389780879020691, + "step": 1458 + }, + { + "grad_norm": 0.4181679620155914, + "loss": 0.26033613085746765, + "step": 1459 + }, + { + "epoch": 0.4672, + "grad_norm": 0.41816794872283936, + "learning_rate": 8.887267011003818e-05, + "loss": 0.2173, + "step": 1460 + }, + { + "grad_norm": 0.17330145931117186, + "loss": 0.21549907326698303, + "step": 1460 + }, + { + "grad_norm": 0.3107162060965066, + "loss": 0.17209230363368988, + "step": 1461 + }, + { + "grad_norm": 0.22194819238877136, + "loss": 0.2084588259458542, + "step": 1462 + }, + { + "grad_norm": 0.19755654435624811, + "loss": 0.1828346848487854, + "step": 1463 + }, + { + "grad_norm": 0.17422083617831738, + "loss": 0.26120802760124207, + "step": 1464 + }, + { + "grad_norm": 0.5221464528909099, + "loss": 0.1748238503932953, + "step": 1465 + }, + { + "grad_norm": 0.1261460099535081, + "loss": 0.23167330026626587, + "step": 1466 + }, + { + "grad_norm": 0.25519038852391224, + "loss": 0.21683216094970703, + "step": 1467 + }, + { + "grad_norm": 0.24299204419491532, + "loss": 0.17438089847564697, + "step": 1468 + }, + { + "grad_norm": 0.18362512539893777, + "loss": 0.17167501151561737, + "step": 1469 + }, + { + "epoch": 0.4704, + "grad_norm": 0.18362511694431305, + "learning_rate": 8.876038625645633e-05, + "loss": 0.2009, + "step": 1470 + }, + { + "grad_norm": 0.14274051454250078, + "loss": 0.17161986231803894, + "step": 1470 + }, + { + "grad_norm": 0.22160581832310625, + "loss": 0.1792735755443573, + "step": 1471 + }, + { + "grad_norm": 0.289234942903596, + "loss": 0.18202297389507294, + "step": 1472 + }, + { + "grad_norm": 0.3956898377524231, + "loss": 0.17789766192436218, + "step": 1473 + }, + { + "grad_norm": 0.2998851119890955, + "loss": 0.20259691774845123, + "step": 1474 + }, + { + "grad_norm": 0.46612975448360544, + "loss": 0.2751806378364563, + "step": 1475 + }, + { + "grad_norm": 0.27879666156590405, + "loss": 0.1597978174686432, + "step": 1476 + }, + { + "grad_norm": 0.5886193227693068, + "loss": 0.16575562953948975, + "step": 1477 + }, + { + "grad_norm": 0.16655334714927372, + "loss": 0.2596772313117981, + "step": 1478 + }, + { + "grad_norm": 0.15626974108567301, + "loss": 0.1471017450094223, + "step": 1479 + }, + { + "epoch": 0.4736, + "grad_norm": 0.15626972913742065, + "learning_rate": 8.864810240287447e-05, + "loss": 0.1921, + "step": 1480 + }, + { + "grad_norm": 0.5020556279213931, + "loss": 0.2678540050983429, + "step": 1480 + }, + { + "grad_norm": 0.21869263949807913, + "loss": 0.1576799899339676, + "step": 1481 + }, + { + "grad_norm": 0.1908216237959505, + "loss": 0.20095542073249817, + "step": 1482 + }, + { + "grad_norm": 0.1498537753893728, + "loss": 0.18174096941947937, + "step": 1483 + }, + { + "grad_norm": 0.20497034751545823, + "loss": 0.23057161271572113, + "step": 1484 + }, + { + "grad_norm": 0.11860777028430386, + "loss": 0.1683044582605362, + "step": 1485 + }, + { + "grad_norm": 0.26907301993017774, + "loss": 0.19415053725242615, + "step": 1486 + }, + { + "grad_norm": 0.3055351493780402, + "loss": 0.16753405332565308, + "step": 1487 + }, + { + "grad_norm": 0.2155827833298858, + "loss": 0.26707273721694946, + "step": 1488 + }, + { + "grad_norm": 0.23124927361240113, + "loss": 0.20416301488876343, + "step": 1489 + }, + { + "epoch": 0.4768, + "grad_norm": 0.23124927282333374, + "learning_rate": 8.853581854929262e-05, + "loss": 0.204, + "step": 1490 + }, + { + "grad_norm": 0.14259664032091873, + "loss": 0.2041398584842682, + "step": 1490 + }, + { + "grad_norm": 0.15175007375075628, + "loss": 0.17000216245651245, + "step": 1491 + }, + { + "grad_norm": 0.2778585527844154, + "loss": 0.16975191235542297, + "step": 1492 + }, + { + "grad_norm": 0.23604008482112526, + "loss": 0.19846996665000916, + "step": 1493 + }, + { + "grad_norm": 0.22775477805071623, + "loss": 0.20318683981895447, + "step": 1494 + }, + { + "grad_norm": 0.20908832821584153, + "loss": 0.17818143963813782, + "step": 1495 + }, + { + "grad_norm": 0.117932020021577, + "loss": 0.1976407766342163, + "step": 1496 + }, + { + "grad_norm": 0.30931370413434156, + "loss": 0.17691633105278015, + "step": 1497 + }, + { + "grad_norm": 0.20466076846438563, + "loss": 0.22566547989845276, + "step": 1498 + }, + { + "grad_norm": 0.11154084510406562, + "loss": 0.18638703227043152, + "step": 1499 + }, + { + "epoch": 0.48, + "grad_norm": 0.11154084652662277, + "learning_rate": 8.842353469571077e-05, + "loss": 0.191, + "step": 1500 + }, + { + "grad_norm": 0.11849890158863487, + "loss": 0.20142686367034912, + "step": 1500 + }, + { + "grad_norm": 0.17348132529938792, + "loss": 0.18093647062778473, + "step": 1501 + }, + { + "grad_norm": 0.15016741209071907, + "loss": 0.22497259080410004, + "step": 1502 + }, + { + "grad_norm": 0.12813478809907386, + "loss": 0.17904026806354523, + "step": 1503 + }, + { + "grad_norm": 0.1858333929829386, + "loss": 0.17351630330085754, + "step": 1504 + }, + { + "grad_norm": 0.3030624733588622, + "loss": 0.20181778073310852, + "step": 1505 + }, + { + "grad_norm": 0.46884044236427885, + "loss": 0.1785731315612793, + "step": 1506 + }, + { + "grad_norm": 0.16594770041026521, + "loss": 0.1673845648765564, + "step": 1507 + }, + { + "grad_norm": 0.14558638299907203, + "loss": 0.18069905042648315, + "step": 1508 + }, + { + "grad_norm": 0.30430415695744634, + "loss": 0.2104497104883194, + "step": 1509 + }, + { + "epoch": 0.4832, + "grad_norm": 0.3043041527271271, + "learning_rate": 8.83112508421289e-05, + "loss": 0.1899, + "step": 1510 + }, + { + "grad_norm": 0.2496276329280306, + "loss": 0.18588420748710632, + "step": 1510 + }, + { + "grad_norm": 0.2951543194060597, + "loss": 0.18336591124534607, + "step": 1511 + }, + { + "grad_norm": 0.12824154920633596, + "loss": 0.15623344480991364, + "step": 1512 + }, + { + "grad_norm": 0.2707587415092628, + "loss": 0.28461477160453796, + "step": 1513 + }, + { + "grad_norm": 0.20793271663045826, + "loss": 0.17886614799499512, + "step": 1514 + }, + { + "grad_norm": 0.2654271524178889, + "loss": 0.21926328539848328, + "step": 1515 + }, + { + "grad_norm": 0.14556020862087224, + "loss": 0.24608135223388672, + "step": 1516 + }, + { + "grad_norm": 0.20707318615266684, + "loss": 0.1787663698196411, + "step": 1517 + }, + { + "grad_norm": 0.455514535136102, + "loss": 0.24375134706497192, + "step": 1518 + }, + { + "grad_norm": 0.32614458706806404, + "loss": 0.16970884799957275, + "step": 1519 + }, + { + "epoch": 0.4864, + "grad_norm": 0.32614457607269287, + "learning_rate": 8.819896698854705e-05, + "loss": 0.2047, + "step": 1520 + }, + { + "grad_norm": 0.2720316572017175, + "loss": 0.23296049237251282, + "step": 1520 + }, + { + "grad_norm": 0.20050048587443453, + "loss": 0.18863457441329956, + "step": 1521 + }, + { + "grad_norm": 0.12258240753834007, + "loss": 0.24604038894176483, + "step": 1522 + }, + { + "grad_norm": 0.13252550214616085, + "loss": 0.20046290755271912, + "step": 1523 + }, + { + "grad_norm": 0.19199592836324697, + "loss": 0.1898770034313202, + "step": 1524 + }, + { + "grad_norm": 0.2570452466371154, + "loss": 0.17093747854232788, + "step": 1525 + }, + { + "grad_norm": 0.1448902737712196, + "loss": 0.1897280514240265, + "step": 1526 + }, + { + "grad_norm": 0.21061036202194958, + "loss": 0.14898274838924408, + "step": 1527 + }, + { + "grad_norm": 0.2103838507539526, + "loss": 0.20232555270195007, + "step": 1528 + }, + { + "grad_norm": 0.26729866531778496, + "loss": 0.1476299911737442, + "step": 1529 + }, + { + "epoch": 0.4896, + "grad_norm": 0.2672986686229706, + "learning_rate": 8.808668313496519e-05, + "loss": 0.1918, + "step": 1530 + }, + { + "grad_norm": 0.2189652470159954, + "loss": 0.19802501797676086, + "step": 1530 + }, + { + "grad_norm": 0.42007632119983507, + "loss": 0.21210375428199768, + "step": 1531 + }, + { + "grad_norm": 0.26405666699845126, + "loss": 0.20291778445243835, + "step": 1532 + }, + { + "grad_norm": 0.42480422725664274, + "loss": 0.2565368711948395, + "step": 1533 + }, + { + "grad_norm": 0.2631733730664756, + "loss": 0.19028860330581665, + "step": 1534 + }, + { + "grad_norm": 0.19412408172993437, + "loss": 0.20742416381835938, + "step": 1535 + }, + { + "grad_norm": 0.19355699049831163, + "loss": 0.18187715113162994, + "step": 1536 + }, + { + "grad_norm": 0.2622256409325529, + "loss": 0.238579660654068, + "step": 1537 + }, + { + "grad_norm": 0.3075231242949744, + "loss": 0.19763273000717163, + "step": 1538 + }, + { + "grad_norm": 0.17536531509368808, + "loss": 0.20684055984020233, + "step": 1539 + }, + { + "epoch": 0.4928, + "grad_norm": 0.17536531388759613, + "learning_rate": 8.797439928138334e-05, + "loss": 0.2092, + "step": 1540 + }, + { + "grad_norm": 0.23728340458656105, + "loss": 0.19399622082710266, + "step": 1540 + }, + { + "grad_norm": 0.22369693129845986, + "loss": 0.22108739614486694, + "step": 1541 + }, + { + "grad_norm": 0.3034736346920651, + "loss": 0.22376862168312073, + "step": 1542 + }, + { + "grad_norm": 0.11323093849339981, + "loss": 0.19470788538455963, + "step": 1543 + }, + { + "grad_norm": 0.12652751465686524, + "loss": 0.2035755217075348, + "step": 1544 + }, + { + "grad_norm": 0.3034195058580138, + "loss": 0.21009144186973572, + "step": 1545 + }, + { + "grad_norm": 0.1746836695087989, + "loss": 0.2954166531562805, + "step": 1546 + }, + { + "grad_norm": 0.16097681244975195, + "loss": 0.24054713547229767, + "step": 1547 + }, + { + "grad_norm": 0.24859248616763333, + "loss": 0.19861802458763123, + "step": 1548 + }, + { + "grad_norm": 0.20693922122253447, + "loss": 0.20664089918136597, + "step": 1549 + }, + { + "epoch": 0.496, + "grad_norm": 0.2069392204284668, + "learning_rate": 8.786211542780148e-05, + "loss": 0.2188, + "step": 1550 + }, + { + "grad_norm": 0.15250513850126002, + "loss": 0.1837879717350006, + "step": 1550 + }, + { + "grad_norm": 0.2963866808063092, + "loss": 0.178726464509964, + "step": 1551 + }, + { + "grad_norm": 0.33875225701482936, + "loss": 0.1809120923280716, + "step": 1552 + }, + { + "grad_norm": 0.15807660014427063, + "loss": 0.14738324284553528, + "step": 1553 + }, + { + "grad_norm": 0.1172471679251936, + "loss": 0.22028250992298126, + "step": 1554 + }, + { + "grad_norm": 0.3146961512477068, + "loss": 0.23183219134807587, + "step": 1555 + }, + { + "grad_norm": 0.27137804311069386, + "loss": 0.18380951881408691, + "step": 1556 + }, + { + "grad_norm": 0.11628065156669666, + "loss": 0.15176521241664886, + "step": 1557 + }, + { + "grad_norm": 0.32363754261185884, + "loss": 0.22704792022705078, + "step": 1558 + }, + { + "grad_norm": 0.12836001263039784, + "loss": 0.1717996746301651, + "step": 1559 + }, + { + "epoch": 0.4992, + "grad_norm": 0.12836001813411713, + "learning_rate": 8.774983157421963e-05, + "loss": 0.1877, + "step": 1560 + }, + { + "grad_norm": 0.17549386416590385, + "loss": 0.14573080837726593, + "step": 1560 + }, + { + "grad_norm": 0.14289347786009737, + "loss": 0.16691160202026367, + "step": 1561 + }, + { + "grad_norm": 0.15474412600515094, + "loss": 0.16377222537994385, + "step": 1562 + }, + { + "grad_norm": 0.2307049427913873, + "loss": 0.237425297498703, + "step": 1563 + }, + { + "grad_norm": 0.12304095125991882, + "loss": 0.19714580476284027, + "step": 1564 + }, + { + "grad_norm": 0.19785401223023366, + "loss": 0.18012750148773193, + "step": 1565 + }, + { + "grad_norm": 0.27389790862921065, + "loss": 0.23467648029327393, + "step": 1566 + }, + { + "grad_norm": 0.1356900984874437, + "loss": 0.1395430713891983, + "step": 1567 + }, + { + "grad_norm": 0.2380226180623522, + "loss": 0.21417614817619324, + "step": 1568 + }, + { + "grad_norm": 0.16351207206744442, + "loss": 0.17090186476707458, + "step": 1569 + }, + { + "epoch": 0.5024, + "grad_norm": 0.16351206600666046, + "learning_rate": 8.763754772063778e-05, + "loss": 0.185, + "step": 1570 + }, + { + "grad_norm": 0.28495379582400576, + "loss": 0.18442478775978088, + "step": 1570 + }, + { + "grad_norm": 0.203428706032467, + "loss": 0.19208136200904846, + "step": 1571 + }, + { + "grad_norm": 0.14674791765777068, + "loss": 0.17152951657772064, + "step": 1572 + }, + { + "grad_norm": 0.3449194723204057, + "loss": 0.19118033349514008, + "step": 1573 + }, + { + "grad_norm": 0.18074139184287574, + "loss": 0.2111126184463501, + "step": 1574 + }, + { + "grad_norm": 0.19883263492011366, + "loss": 0.23144268989562988, + "step": 1575 + }, + { + "grad_norm": 0.1911354253881041, + "loss": 0.2049071341753006, + "step": 1576 + }, + { + "grad_norm": 0.13170375233201626, + "loss": 0.18033599853515625, + "step": 1577 + }, + { + "grad_norm": 0.21735812475561073, + "loss": 0.15980207920074463, + "step": 1578 + }, + { + "grad_norm": 0.12821668345962867, + "loss": 0.16974222660064697, + "step": 1579 + }, + { + "epoch": 0.5056, + "grad_norm": 0.1282166838645935, + "learning_rate": 8.752526386705592e-05, + "loss": 0.1897, + "step": 1580 + }, + { + "grad_norm": 0.19990392882527883, + "loss": 0.21295182406902313, + "step": 1580 + }, + { + "grad_norm": 0.1375416695040495, + "loss": 0.18420957028865814, + "step": 1581 + }, + { + "grad_norm": 0.11211663628805535, + "loss": 0.16859708726406097, + "step": 1582 + }, + { + "grad_norm": 0.38679627045907844, + "loss": 0.1987018883228302, + "step": 1583 + }, + { + "grad_norm": 0.23398059393624693, + "loss": 0.2471240758895874, + "step": 1584 + }, + { + "grad_norm": 0.15030410729601307, + "loss": 0.19217988848686218, + "step": 1585 + }, + { + "grad_norm": 0.13794535295297533, + "loss": 0.152713343501091, + "step": 1586 + }, + { + "grad_norm": 0.20398320952416568, + "loss": 0.2314068228006363, + "step": 1587 + }, + { + "grad_norm": 0.2934073385389365, + "loss": 0.17073547840118408, + "step": 1588 + }, + { + "grad_norm": 0.14068758953602756, + "loss": 0.1968151032924652, + "step": 1589 + }, + { + "epoch": 0.5088, + "grad_norm": 0.14068758487701416, + "learning_rate": 8.741298001347407e-05, + "loss": 0.1955, + "step": 1590 + }, + { + "grad_norm": 0.15240978700497154, + "loss": 0.2166956663131714, + "step": 1590 + }, + { + "grad_norm": 0.40258210059119626, + "loss": 0.23618973791599274, + "step": 1591 + }, + { + "grad_norm": 0.2801740440410125, + "loss": 0.23183433711528778, + "step": 1592 + }, + { + "grad_norm": 0.15750242557083463, + "loss": 0.2287745475769043, + "step": 1593 + }, + { + "grad_norm": 0.14180020261197607, + "loss": 0.20037424564361572, + "step": 1594 + }, + { + "grad_norm": 0.20042025792292448, + "loss": 0.23440615832805634, + "step": 1595 + }, + { + "grad_norm": 0.16146019971961525, + "loss": 0.21260198950767517, + "step": 1596 + }, + { + "grad_norm": 0.1812646783534359, + "loss": 0.19681337475776672, + "step": 1597 + }, + { + "grad_norm": 0.21666011211016004, + "loss": 0.1638006865978241, + "step": 1598 + }, + { + "grad_norm": 0.312120467056794, + "loss": 0.26571717858314514, + "step": 1599 + }, + { + "epoch": 0.512, + "grad_norm": 0.3121204674243927, + "learning_rate": 8.730069615989222e-05, + "loss": 0.2187, + "step": 1600 + }, + { + "grad_norm": 0.26546636080934916, + "loss": 0.20078988373279572, + "step": 1600 + }, + { + "grad_norm": 0.37127454265699, + "loss": 0.17385521531105042, + "step": 1601 + }, + { + "grad_norm": 0.18526034601848781, + "loss": 0.2108578383922577, + "step": 1602 + }, + { + "grad_norm": 0.18211896213558798, + "loss": 0.2125639021396637, + "step": 1603 + }, + { + "grad_norm": 0.19290774999922627, + "loss": 0.15971997380256653, + "step": 1604 + }, + { + "grad_norm": 0.15536229002836166, + "loss": 0.1667071133852005, + "step": 1605 + }, + { + "grad_norm": 0.13680790305896046, + "loss": 0.2104240357875824, + "step": 1606 + }, + { + "grad_norm": 0.15909458272719756, + "loss": 0.18882282078266144, + "step": 1607 + }, + { + "grad_norm": 0.2128754455633284, + "loss": 0.183546245098114, + "step": 1608 + }, + { + "grad_norm": 0.18099539149625907, + "loss": 0.1838466227054596, + "step": 1609 + }, + { + "epoch": 0.5152, + "grad_norm": 0.1809954047203064, + "learning_rate": 8.718841230631036e-05, + "loss": 0.1891, + "step": 1610 + }, + { + "grad_norm": 0.21077398263611705, + "loss": 0.17943082749843597, + "step": 1610 + }, + { + "grad_norm": 0.27044859233875035, + "loss": 0.16404779255390167, + "step": 1611 + }, + { + "grad_norm": 0.3399778525885843, + "loss": 0.2021811604499817, + "step": 1612 + }, + { + "grad_norm": 0.23709722293071278, + "loss": 0.23408837616443634, + "step": 1613 + }, + { + "grad_norm": 0.10021870910429606, + "loss": 0.18932697176933289, + "step": 1614 + }, + { + "grad_norm": 0.2863285318534329, + "loss": 0.21275706589221954, + "step": 1615 + }, + { + "grad_norm": 0.1289605619973735, + "loss": 0.2716374099254608, + "step": 1616 + }, + { + "grad_norm": 0.2715608348432045, + "loss": 0.16681063175201416, + "step": 1617 + }, + { + "grad_norm": 0.1578778954639324, + "loss": 0.20558243989944458, + "step": 1618 + }, + { + "grad_norm": 0.15994557069397364, + "loss": 0.23776696622371674, + "step": 1619 + }, + { + "epoch": 0.5184, + "grad_norm": 0.15994557738304138, + "learning_rate": 8.70761284527285e-05, + "loss": 0.2064, + "step": 1620 + }, + { + "grad_norm": 0.49122652817461826, + "loss": 0.23851947486400604, + "step": 1620 + }, + { + "grad_norm": 0.5155259280513165, + "loss": 0.22095130383968353, + "step": 1621 + }, + { + "grad_norm": 0.2626654892994616, + "loss": 0.19040174782276154, + "step": 1622 + }, + { + "grad_norm": 0.40527162248085274, + "loss": 0.24607181549072266, + "step": 1623 + }, + { + "grad_norm": 0.22347442597977724, + "loss": 0.22016853094100952, + "step": 1624 + }, + { + "grad_norm": 0.15710279803624153, + "loss": 0.2018282562494278, + "step": 1625 + }, + { + "grad_norm": 0.3535122766029477, + "loss": 0.23730266094207764, + "step": 1626 + }, + { + "grad_norm": 0.263942110984886, + "loss": 0.1676890254020691, + "step": 1627 + }, + { + "grad_norm": 0.4318078193130133, + "loss": 0.2499936819076538, + "step": 1628 + }, + { + "grad_norm": 0.1973052968457925, + "loss": 0.18312743306159973, + "step": 1629 + }, + { + "epoch": 0.5216, + "grad_norm": 0.19730529189109802, + "learning_rate": 8.696384459914664e-05, + "loss": 0.2156, + "step": 1630 + }, + { + "grad_norm": 0.19427234300822158, + "loss": 0.21500878036022186, + "step": 1630 + }, + { + "grad_norm": 0.45170782101616896, + "loss": 0.2822719216346741, + "step": 1631 + }, + { + "grad_norm": 0.27238075634974124, + "loss": 0.24937354028224945, + "step": 1632 + }, + { + "grad_norm": 0.36385347765576986, + "loss": 0.21998652815818787, + "step": 1633 + }, + { + "grad_norm": 0.20548141620311228, + "loss": 0.18526571989059448, + "step": 1634 + }, + { + "grad_norm": 0.4137902293934074, + "loss": 0.21160945296287537, + "step": 1635 + }, + { + "grad_norm": 0.2556511841368546, + "loss": 0.22081904113292694, + "step": 1636 + }, + { + "grad_norm": 0.5668095966657868, + "loss": 0.1789630651473999, + "step": 1637 + }, + { + "grad_norm": 0.4497491505582023, + "loss": 0.24211569130420685, + "step": 1638 + }, + { + "grad_norm": 0.3479260972469481, + "loss": 0.19078029692173004, + "step": 1639 + }, + { + "epoch": 0.5248, + "grad_norm": 0.3479261100292206, + "learning_rate": 8.68515607455648e-05, + "loss": 0.2196, + "step": 1640 + }, + { + "grad_norm": 0.46345786941524636, + "loss": 0.19569389522075653, + "step": 1640 + }, + { + "grad_norm": 0.20381221801318344, + "loss": 0.23698118329048157, + "step": 1641 + }, + { + "grad_norm": 0.32423707753799813, + "loss": 0.2446531504392624, + "step": 1642 + }, + { + "grad_norm": 0.13128189929529194, + "loss": 0.1676757037639618, + "step": 1643 + }, + { + "grad_norm": 0.22825618992211083, + "loss": 0.1895393431186676, + "step": 1644 + }, + { + "grad_norm": 0.11725497956763496, + "loss": 0.14841115474700928, + "step": 1645 + }, + { + "grad_norm": 0.2695303039294607, + "loss": 0.20071566104888916, + "step": 1646 + }, + { + "grad_norm": 0.15511535704318086, + "loss": 0.1771494597196579, + "step": 1647 + }, + { + "grad_norm": 0.11274924837603535, + "loss": 0.18077972531318665, + "step": 1648 + }, + { + "grad_norm": 0.1410961847974827, + "loss": 0.2032839059829712, + "step": 1649 + }, + { + "epoch": 0.528, + "grad_norm": 0.14109618961811066, + "learning_rate": 8.673927689198293e-05, + "loss": 0.1945, + "step": 1650 + }, + { + "grad_norm": 0.2745261029068033, + "loss": 0.16854330897331238, + "step": 1650 + }, + { + "grad_norm": 0.23410093802823492, + "loss": 0.2109047770500183, + "step": 1651 + }, + { + "grad_norm": 0.16748672122676894, + "loss": 0.18549856543540955, + "step": 1652 + }, + { + "grad_norm": 0.13517068546267202, + "loss": 0.18297690153121948, + "step": 1653 + }, + { + "grad_norm": 0.15506592299811686, + "loss": 0.1703801155090332, + "step": 1654 + }, + { + "grad_norm": 0.12576594347800238, + "loss": 0.22226251661777496, + "step": 1655 + }, + { + "grad_norm": 0.1305206121741281, + "loss": 0.17301473021507263, + "step": 1656 + }, + { + "grad_norm": 0.2064169005856432, + "loss": 0.1926172375679016, + "step": 1657 + }, + { + "grad_norm": 0.1989258406641597, + "loss": 0.18813319504261017, + "step": 1658 + }, + { + "grad_norm": 0.24992234435433175, + "loss": 0.1706847846508026, + "step": 1659 + }, + { + "epoch": 0.5312, + "grad_norm": 0.24992233514785767, + "learning_rate": 8.662699303840108e-05, + "loss": 0.1865, + "step": 1660 + }, + { + "grad_norm": 0.39742734465159407, + "loss": 0.17386206984519958, + "step": 1660 + }, + { + "grad_norm": 0.2346371221265223, + "loss": 0.18618178367614746, + "step": 1661 + }, + { + "grad_norm": 0.28437217926192493, + "loss": 0.17894935607910156, + "step": 1662 + }, + { + "grad_norm": 0.5162868930416188, + "loss": 0.29333803057670593, + "step": 1663 + }, + { + "grad_norm": 0.22264908273829037, + "loss": 0.1811511516571045, + "step": 1664 + }, + { + "grad_norm": 0.124436534623869, + "loss": 0.15889638662338257, + "step": 1665 + }, + { + "grad_norm": 0.202774106220674, + "loss": 0.24655625224113464, + "step": 1666 + }, + { + "grad_norm": 0.15898763890157783, + "loss": 0.19241607189178467, + "step": 1667 + }, + { + "grad_norm": 0.21004132110566504, + "loss": 0.19294477999210358, + "step": 1668 + }, + { + "grad_norm": 0.16332762737868112, + "loss": 0.1711413860321045, + "step": 1669 + }, + { + "epoch": 0.5344, + "grad_norm": 0.1633276343345642, + "learning_rate": 8.651470918481923e-05, + "loss": 0.1975, + "step": 1670 + }, + { + "grad_norm": 0.1468907076853275, + "loss": 0.17034631967544556, + "step": 1670 + }, + { + "grad_norm": 0.2110500862951718, + "loss": 0.2235872745513916, + "step": 1671 + }, + { + "grad_norm": 0.1270501705100962, + "loss": 0.1793578565120697, + "step": 1672 + }, + { + "grad_norm": 0.1958453324561759, + "loss": 0.2238445281982422, + "step": 1673 + }, + { + "grad_norm": 0.11623106871103206, + "loss": 0.18116168677806854, + "step": 1674 + }, + { + "grad_norm": 0.1262808400063074, + "loss": 0.18141166865825653, + "step": 1675 + }, + { + "grad_norm": 0.18623652886227263, + "loss": 0.18230028450489044, + "step": 1676 + }, + { + "grad_norm": 0.18354022413481327, + "loss": 0.23190341889858246, + "step": 1677 + }, + { + "grad_norm": 0.14533409864940583, + "loss": 0.1611611247062683, + "step": 1678 + }, + { + "grad_norm": 0.128612155249041, + "loss": 0.21151572465896606, + "step": 1679 + }, + { + "epoch": 0.5376, + "grad_norm": 0.12861216068267822, + "learning_rate": 8.640242533123737e-05, + "loss": 0.1947, + "step": 1680 + }, + { + "grad_norm": 0.13556352508261432, + "loss": 0.22022384405136108, + "step": 1680 + }, + { + "grad_norm": 0.2749189771831234, + "loss": 0.17733053863048553, + "step": 1681 + }, + { + "grad_norm": 0.23455671568936218, + "loss": 0.1743158996105194, + "step": 1682 + }, + { + "grad_norm": 0.1260969735767002, + "loss": 0.1690223217010498, + "step": 1683 + }, + { + "grad_norm": 0.1836921326990405, + "loss": 0.13247272372245789, + "step": 1684 + }, + { + "grad_norm": 0.2794722636664369, + "loss": 0.21848224103450775, + "step": 1685 + }, + { + "grad_norm": 0.2278426173214257, + "loss": 0.19317440688610077, + "step": 1686 + }, + { + "grad_norm": 0.20708764470091, + "loss": 0.18703588843345642, + "step": 1687 + }, + { + "grad_norm": 0.3380146010126082, + "loss": 0.1685236692428589, + "step": 1688 + }, + { + "grad_norm": 0.22408679824117456, + "loss": 0.1946675032377243, + "step": 1689 + }, + { + "epoch": 0.5408, + "grad_norm": 0.22408680617809296, + "learning_rate": 8.629014147765552e-05, + "loss": 0.1835, + "step": 1690 + }, + { + "grad_norm": 0.14407812620458682, + "loss": 0.19701449573040009, + "step": 1690 + }, + { + "grad_norm": 0.23201138220353193, + "loss": 0.15233036875724792, + "step": 1691 + }, + { + "grad_norm": 0.2138544411226118, + "loss": 0.2278563231229782, + "step": 1692 + }, + { + "grad_norm": 0.1269743356740814, + "loss": 0.1922791451215744, + "step": 1693 + }, + { + "grad_norm": 0.1262287535885198, + "loss": 0.16886663436889648, + "step": 1694 + }, + { + "grad_norm": 0.1917080812199076, + "loss": 0.1808830350637436, + "step": 1695 + }, + { + "grad_norm": 0.1865178037103091, + "loss": 0.29852917790412903, + "step": 1696 + }, + { + "grad_norm": 0.1398166340638551, + "loss": 0.1912505179643631, + "step": 1697 + }, + { + "grad_norm": 0.0848595498510493, + "loss": 0.16831883788108826, + "step": 1698 + }, + { + "grad_norm": 0.299084904267393, + "loss": 0.19890239834785461, + "step": 1699 + }, + { + "epoch": 0.544, + "grad_norm": 0.2990849018096924, + "learning_rate": 8.617785762407367e-05, + "loss": 0.1976, + "step": 1700 + }, + { + "grad_norm": 0.15785705660841384, + "loss": 0.18725064396858215, + "step": 1700 + }, + { + "grad_norm": 0.19537449106592472, + "loss": 0.22482991218566895, + "step": 1701 + }, + { + "grad_norm": 0.19754985097822111, + "loss": 0.21694597601890564, + "step": 1702 + }, + { + "grad_norm": 0.14655022498148565, + "loss": 0.21147148311138153, + "step": 1703 + }, + { + "grad_norm": 0.35507697715168673, + "loss": 0.15455110371112823, + "step": 1704 + }, + { + "grad_norm": 0.18488565086199824, + "loss": 0.1530788242816925, + "step": 1705 + }, + { + "grad_norm": 0.14862147309525547, + "loss": 0.1867016851902008, + "step": 1706 + }, + { + "grad_norm": 0.23620013835949438, + "loss": 0.19092625379562378, + "step": 1707 + }, + { + "grad_norm": 0.26559717142858746, + "loss": 0.19093912839889526, + "step": 1708 + }, + { + "grad_norm": 0.22186445972248747, + "loss": 0.16676507890224457, + "step": 1709 + }, + { + "epoch": 0.5472, + "grad_norm": 0.2218644618988037, + "learning_rate": 8.606557377049181e-05, + "loss": 0.1883, + "step": 1710 + }, + { + "grad_norm": 0.12861412261273056, + "loss": 0.16172584891319275, + "step": 1710 + }, + { + "grad_norm": 0.2455949044971628, + "loss": 0.20195457339286804, + "step": 1711 + }, + { + "grad_norm": 0.27695278585631083, + "loss": 0.18573342263698578, + "step": 1712 + }, + { + "grad_norm": 0.25641208038512164, + "loss": 0.1890680193901062, + "step": 1713 + }, + { + "grad_norm": 0.14091346771404342, + "loss": 0.17397132515907288, + "step": 1714 + }, + { + "grad_norm": 0.19885979101162377, + "loss": 0.23515906929969788, + "step": 1715 + }, + { + "grad_norm": 0.2008313911207831, + "loss": 0.188056081533432, + "step": 1716 + }, + { + "grad_norm": 0.2566268457934213, + "loss": 0.1901218295097351, + "step": 1717 + }, + { + "grad_norm": 0.115748118858977, + "loss": 0.17118366062641144, + "step": 1718 + }, + { + "grad_norm": 0.26112665095903603, + "loss": 0.2519630193710327, + "step": 1719 + }, + { + "epoch": 0.5504, + "grad_norm": 0.26112663745880127, + "learning_rate": 8.595328991690995e-05, + "loss": 0.1949, + "step": 1720 + }, + { + "grad_norm": 0.27247597585740524, + "loss": 0.24362297356128693, + "step": 1720 + }, + { + "grad_norm": 0.17588161243598782, + "loss": 0.21215468645095825, + "step": 1721 + }, + { + "grad_norm": 0.17818315627491285, + "loss": 0.1848008930683136, + "step": 1722 + }, + { + "grad_norm": 0.37467929801418837, + "loss": 0.17798498272895813, + "step": 1723 + }, + { + "grad_norm": 0.11135706664148892, + "loss": 0.174269899725914, + "step": 1724 + }, + { + "grad_norm": 0.18328171309780814, + "loss": 0.17617852985858917, + "step": 1725 + }, + { + "grad_norm": 0.11735569881629827, + "loss": 0.1352417767047882, + "step": 1726 + }, + { + "grad_norm": 0.15754058805447813, + "loss": 0.15255090594291687, + "step": 1727 + }, + { + "grad_norm": 0.13626937075055018, + "loss": 0.170379638671875, + "step": 1728 + }, + { + "grad_norm": 0.3367884679967896, + "loss": 0.22714070975780487, + "step": 1729 + }, + { + "epoch": 0.5536, + "grad_norm": 0.33678847551345825, + "learning_rate": 8.58410060633281e-05, + "loss": 0.1854, + "step": 1730 + }, + { + "grad_norm": 0.24370252503243928, + "loss": 0.17088057100772858, + "step": 1730 + }, + { + "grad_norm": 0.18360442386014497, + "loss": 0.21351853013038635, + "step": 1731 + }, + { + "grad_norm": 0.17350828113903857, + "loss": 0.17561715841293335, + "step": 1732 + }, + { + "grad_norm": 0.15547065974841698, + "loss": 0.21028651297092438, + "step": 1733 + }, + { + "grad_norm": 0.10755451647602514, + "loss": 0.18585892021656036, + "step": 1734 + }, + { + "grad_norm": 0.11571482820753076, + "loss": 0.18570449948310852, + "step": 1735 + }, + { + "grad_norm": 0.19215698465523257, + "loss": 0.2428404986858368, + "step": 1736 + }, + { + "grad_norm": 0.2105676410301785, + "loss": 0.21120426058769226, + "step": 1737 + }, + { + "grad_norm": 0.16210678422521005, + "loss": 0.20884573459625244, + "step": 1738 + }, + { + "grad_norm": 0.1794002531024852, + "loss": 0.1802872121334076, + "step": 1739 + }, + { + "epoch": 0.5568, + "grad_norm": 0.1794002503156662, + "learning_rate": 8.572872220974623e-05, + "loss": 0.1985, + "step": 1740 + }, + { + "grad_norm": 0.32100797235243295, + "loss": 0.2464832216501236, + "step": 1740 + }, + { + "grad_norm": 0.12528915196576274, + "loss": 0.1716284453868866, + "step": 1741 + }, + { + "grad_norm": 0.29402041499290943, + "loss": 0.17581698298454285, + "step": 1742 + }, + { + "grad_norm": 0.4532360905470526, + "loss": 0.18682286143302917, + "step": 1743 + }, + { + "grad_norm": 0.1893829385797966, + "loss": 0.18813341856002808, + "step": 1744 + }, + { + "grad_norm": 0.3999193731184675, + "loss": 0.18609391152858734, + "step": 1745 + }, + { + "grad_norm": 0.21150558825633692, + "loss": 0.28728601336479187, + "step": 1746 + }, + { + "grad_norm": 0.4616631793176792, + "loss": 0.31002429127693176, + "step": 1747 + }, + { + "grad_norm": 0.29553476071868756, + "loss": 0.1976025104522705, + "step": 1748 + }, + { + "grad_norm": 0.4900450663377169, + "loss": 0.24181556701660156, + "step": 1749 + }, + { + "epoch": 0.56, + "grad_norm": 0.49004507064819336, + "learning_rate": 8.561643835616438e-05, + "loss": 0.2192, + "step": 1750 + }, + { + "grad_norm": 0.21815859352093725, + "loss": 0.19550763070583344, + "step": 1750 + }, + { + "grad_norm": 0.24460841051433974, + "loss": 0.2001384198665619, + "step": 1751 + }, + { + "grad_norm": 0.519928920703845, + "loss": 0.17150279879570007, + "step": 1752 + }, + { + "grad_norm": 0.3061151879820864, + "loss": 0.20291322469711304, + "step": 1753 + }, + { + "grad_norm": 0.42922988393087047, + "loss": 0.18065901100635529, + "step": 1754 + }, + { + "grad_norm": 0.18217919926600792, + "loss": 0.22670823335647583, + "step": 1755 + }, + { + "grad_norm": 0.5159375004821435, + "loss": 0.2565833628177643, + "step": 1756 + }, + { + "grad_norm": 0.290750790404893, + "loss": 0.2503660023212433, + "step": 1757 + }, + { + "grad_norm": 0.15304037191469938, + "loss": 0.2257433533668518, + "step": 1758 + }, + { + "grad_norm": 0.16954212361545118, + "loss": 0.20003247261047363, + "step": 1759 + }, + { + "epoch": 0.5632, + "grad_norm": 0.1695421189069748, + "learning_rate": 8.550415450258253e-05, + "loss": 0.211, + "step": 1760 + }, + { + "grad_norm": 0.1562846172884408, + "loss": 0.183083638548851, + "step": 1760 + }, + { + "grad_norm": 0.2056327044445846, + "loss": 0.16013959050178528, + "step": 1761 + }, + { + "grad_norm": 0.27427652152358034, + "loss": 0.1717659831047058, + "step": 1762 + }, + { + "grad_norm": 0.11928788776368968, + "loss": 0.22863608598709106, + "step": 1763 + }, + { + "grad_norm": 0.2463126441339945, + "loss": 0.1678730845451355, + "step": 1764 + }, + { + "grad_norm": 0.15927172662809536, + "loss": 0.16111187636852264, + "step": 1765 + }, + { + "grad_norm": 0.29450995454117357, + "loss": 0.16012245416641235, + "step": 1766 + }, + { + "grad_norm": 0.18888928360457163, + "loss": 0.17165067791938782, + "step": 1767 + }, + { + "grad_norm": 0.3224918247967545, + "loss": 0.18649837374687195, + "step": 1768 + }, + { + "grad_norm": 0.13455153566898506, + "loss": 0.21523059904575348, + "step": 1769 + }, + { + "epoch": 0.5664, + "grad_norm": 0.134551540017128, + "learning_rate": 8.539187064900069e-05, + "loss": 0.1806, + "step": 1770 + }, + { + "grad_norm": 0.10829978975576424, + "loss": 0.17818155884742737, + "step": 1770 + }, + { + "grad_norm": 0.22589516398707926, + "loss": 0.1652306169271469, + "step": 1771 + }, + { + "grad_norm": 0.1836667634387822, + "loss": 0.150312140583992, + "step": 1772 + }, + { + "grad_norm": 0.3167047526629152, + "loss": 0.20538724958896637, + "step": 1773 + }, + { + "grad_norm": 0.3745731838061011, + "loss": 0.2472493052482605, + "step": 1774 + }, + { + "grad_norm": 0.3827411303962407, + "loss": 0.2317257970571518, + "step": 1775 + }, + { + "grad_norm": 0.14647869527189206, + "loss": 0.20060114562511444, + "step": 1776 + }, + { + "grad_norm": 0.41183899253126605, + "loss": 0.23167359828948975, + "step": 1777 + }, + { + "grad_norm": 0.18508028044698796, + "loss": 0.1740179806947708, + "step": 1778 + }, + { + "grad_norm": 0.14868737459091186, + "loss": 0.29756829142570496, + "step": 1779 + }, + { + "epoch": 0.5696, + "grad_norm": 0.14868737757205963, + "learning_rate": 8.527958679541882e-05, + "loss": 0.2082, + "step": 1780 + }, + { + "grad_norm": 0.5912428897212928, + "loss": 0.18590675294399261, + "step": 1780 + }, + { + "grad_norm": 0.6792436997773884, + "loss": 0.173908993601799, + "step": 1781 + }, + { + "grad_norm": 0.2674274883339419, + "loss": 0.21385666728019714, + "step": 1782 + }, + { + "grad_norm": 0.25658213266604885, + "loss": 0.17488451302051544, + "step": 1783 + }, + { + "grad_norm": 0.30962321395156733, + "loss": 0.18484719097614288, + "step": 1784 + }, + { + "grad_norm": 0.15320042897359262, + "loss": 0.17796027660369873, + "step": 1785 + }, + { + "grad_norm": 0.3273249224460408, + "loss": 0.2711126506328583, + "step": 1786 + }, + { + "grad_norm": 0.2036021689859896, + "loss": 0.18830907344818115, + "step": 1787 + }, + { + "grad_norm": 0.2816842802531508, + "loss": 0.24002738296985626, + "step": 1788 + }, + { + "grad_norm": 0.33741534484421354, + "loss": 0.17543435096740723, + "step": 1789 + }, + { + "epoch": 0.5728, + "grad_norm": 0.33741533756256104, + "learning_rate": 8.516730294183697e-05, + "loss": 0.1986, + "step": 1790 + }, + { + "grad_norm": 0.16899693786878747, + "loss": 0.1763477772474289, + "step": 1790 + }, + { + "grad_norm": 0.46022783425808655, + "loss": 0.2443421483039856, + "step": 1791 + }, + { + "grad_norm": 0.151122537355488, + "loss": 0.20696255564689636, + "step": 1792 + }, + { + "grad_norm": 0.24469965706497002, + "loss": 0.24330037832260132, + "step": 1793 + }, + { + "grad_norm": 0.24017931813731722, + "loss": 0.1832103431224823, + "step": 1794 + }, + { + "grad_norm": 0.2858356083126966, + "loss": 0.17823614180088043, + "step": 1795 + }, + { + "grad_norm": 0.23179983752172412, + "loss": 0.20121784508228302, + "step": 1796 + }, + { + "grad_norm": 0.41148862180354784, + "loss": 0.1943286508321762, + "step": 1797 + }, + { + "grad_norm": 0.4328487426554363, + "loss": 0.1959463208913803, + "step": 1798 + }, + { + "grad_norm": 0.1819734943458276, + "loss": 0.19203050434589386, + "step": 1799 + }, + { + "epoch": 0.576, + "grad_norm": 0.18197348713874817, + "learning_rate": 8.505501908825511e-05, + "loss": 0.2016, + "step": 1800 + }, + { + "grad_norm": 0.31019008831495576, + "loss": 0.15436367690563202, + "step": 1800 + }, + { + "grad_norm": 0.21603384802396539, + "loss": 0.15670828521251678, + "step": 1801 + }, + { + "grad_norm": 0.3054423937870456, + "loss": 0.21018248796463013, + "step": 1802 + }, + { + "grad_norm": 0.5203766981140845, + "loss": 0.21317672729492188, + "step": 1803 + }, + { + "grad_norm": 0.1544376075399005, + "loss": 0.16287662088871002, + "step": 1804 + }, + { + "grad_norm": 0.12837089460601142, + "loss": 0.1762816309928894, + "step": 1805 + }, + { + "grad_norm": 0.11805485931259854, + "loss": 0.167014479637146, + "step": 1806 + }, + { + "grad_norm": 0.10795784604339259, + "loss": 0.19169896841049194, + "step": 1807 + }, + { + "grad_norm": 0.38312087891126895, + "loss": 0.2694980204105377, + "step": 1808 + }, + { + "grad_norm": 0.20263691393435143, + "loss": 0.23522722721099854, + "step": 1809 + }, + { + "epoch": 0.5792, + "grad_norm": 0.2026369273662567, + "learning_rate": 8.494273523467325e-05, + "loss": 0.1937, + "step": 1810 + }, + { + "grad_norm": 0.24632498063668967, + "loss": 0.19980478286743164, + "step": 1810 + }, + { + "grad_norm": 0.1728647596072623, + "loss": 0.1819823980331421, + "step": 1811 + }, + { + "grad_norm": 0.10635954854859052, + "loss": 0.1567695140838623, + "step": 1812 + }, + { + "grad_norm": 0.29318556838134585, + "loss": 0.18482893705368042, + "step": 1813 + }, + { + "grad_norm": 0.20312265421959128, + "loss": 0.21305137872695923, + "step": 1814 + }, + { + "grad_norm": 0.17235340236188126, + "loss": 0.21516695618629456, + "step": 1815 + }, + { + "grad_norm": 0.5324357945101456, + "loss": 0.2564863860607147, + "step": 1816 + }, + { + "grad_norm": 0.1754358677717438, + "loss": 0.16001862287521362, + "step": 1817 + }, + { + "grad_norm": 0.1406613008420593, + "loss": 0.2009308636188507, + "step": 1818 + }, + { + "grad_norm": 0.17229503601659155, + "loss": 0.2034585326910019, + "step": 1819 + }, + { + "epoch": 0.5824, + "grad_norm": 0.17229503393173218, + "learning_rate": 8.48304513810914e-05, + "loss": 0.1972, + "step": 1820 + }, + { + "grad_norm": 0.1539724122201636, + "loss": 0.20377932488918304, + "step": 1820 + }, + { + "grad_norm": 0.11142619230521107, + "loss": 0.21198037266731262, + "step": 1821 + }, + { + "grad_norm": 0.26609785828996013, + "loss": 0.23207557201385498, + "step": 1822 + }, + { + "grad_norm": 0.5052232387914648, + "loss": 0.3032008707523346, + "step": 1823 + }, + { + "grad_norm": 0.11207937032358029, + "loss": 0.16492895781993866, + "step": 1824 + }, + { + "grad_norm": 0.13823119153652288, + "loss": 0.24649755656719208, + "step": 1825 + }, + { + "grad_norm": 0.17733321102743424, + "loss": 0.2386101931333542, + "step": 1826 + }, + { + "grad_norm": 0.5179797715475036, + "loss": 0.17330464720726013, + "step": 1827 + }, + { + "grad_norm": 0.34676327428107395, + "loss": 0.19344300031661987, + "step": 1828 + }, + { + "grad_norm": 0.5893935777951376, + "loss": 0.19860610365867615, + "step": 1829 + }, + { + "epoch": 0.5856, + "grad_norm": 0.5893936157226562, + "learning_rate": 8.471816752750955e-05, + "loss": 0.2166, + "step": 1830 + }, + { + "grad_norm": 0.21367875939594677, + "loss": 0.23635560274124146, + "step": 1830 + }, + { + "grad_norm": 0.353323895684077, + "loss": 0.21257224678993225, + "step": 1831 + }, + { + "grad_norm": 0.23415171943271249, + "loss": 0.15342774987220764, + "step": 1832 + }, + { + "grad_norm": 0.17246253753341997, + "loss": 0.184858500957489, + "step": 1833 + }, + { + "grad_norm": 0.11522317652270635, + "loss": 0.1886061131954193, + "step": 1834 + }, + { + "grad_norm": 0.13545649783322258, + "loss": 0.18577641248703003, + "step": 1835 + }, + { + "grad_norm": 0.5070643026858768, + "loss": 0.18281948566436768, + "step": 1836 + }, + { + "grad_norm": 0.48371701905583875, + "loss": 0.2380012720823288, + "step": 1837 + }, + { + "grad_norm": 0.13977161584310277, + "loss": 0.20335334539413452, + "step": 1838 + }, + { + "grad_norm": 0.18323489504430357, + "loss": 0.20950105786323547, + "step": 1839 + }, + { + "epoch": 0.5888, + "grad_norm": 0.18323490023612976, + "learning_rate": 8.460588367392769e-05, + "loss": 0.1995, + "step": 1840 + }, + { + "grad_norm": 0.14034715067212472, + "loss": 0.1748853623867035, + "step": 1840 + }, + { + "grad_norm": 0.19950242782613642, + "loss": 0.15208473801612854, + "step": 1841 + }, + { + "grad_norm": 0.15769367929385542, + "loss": 0.19637836515903473, + "step": 1842 + }, + { + "grad_norm": 0.11115835155221909, + "loss": 0.15018649399280548, + "step": 1843 + }, + { + "grad_norm": 0.1377448969056957, + "loss": 0.1712849736213684, + "step": 1844 + }, + { + "grad_norm": 0.2523822184830573, + "loss": 0.22605952620506287, + "step": 1845 + }, + { + "grad_norm": 0.14819179138700136, + "loss": 0.22160646319389343, + "step": 1846 + }, + { + "grad_norm": 0.1873130803451787, + "loss": 0.17041853070259094, + "step": 1847 + }, + { + "grad_norm": 0.12378435297020554, + "loss": 0.17277657985687256, + "step": 1848 + }, + { + "grad_norm": 0.13337317350920969, + "loss": 0.22878049314022064, + "step": 1849 + }, + { + "epoch": 0.592, + "grad_norm": 0.1333731710910797, + "learning_rate": 8.449359982034584e-05, + "loss": 0.1864, + "step": 1850 + }, + { + "grad_norm": 0.09790238069843259, + "loss": 0.20383316278457642, + "step": 1850 + }, + { + "grad_norm": 0.2301118246207773, + "loss": 0.16131362318992615, + "step": 1851 + }, + { + "grad_norm": 0.1627721384708304, + "loss": 0.21616347134113312, + "step": 1852 + }, + { + "grad_norm": 0.27866804316858196, + "loss": 0.19093841314315796, + "step": 1853 + }, + { + "grad_norm": 0.09544861515850563, + "loss": 0.19087713956832886, + "step": 1854 + }, + { + "grad_norm": 0.09622480599091283, + "loss": 0.18624290823936462, + "step": 1855 + }, + { + "grad_norm": 0.0995581901266407, + "loss": 0.18033701181411743, + "step": 1856 + }, + { + "grad_norm": 0.29006653482862865, + "loss": 0.1931513547897339, + "step": 1857 + }, + { + "grad_norm": 0.14479334845218908, + "loss": 0.2018687129020691, + "step": 1858 + }, + { + "grad_norm": 0.1417042601385227, + "loss": 0.18431393802165985, + "step": 1859 + }, + { + "epoch": 0.5952, + "grad_norm": 0.141704261302948, + "learning_rate": 8.438131596676399e-05, + "loss": 0.1909, + "step": 1860 + }, + { + "grad_norm": 0.2917312994555373, + "loss": 0.16899637877941132, + "step": 1860 + }, + { + "grad_norm": 0.4187319274127362, + "loss": 0.24310874938964844, + "step": 1861 + }, + { + "grad_norm": 0.13273708766218198, + "loss": 0.17808832228183746, + "step": 1862 + }, + { + "grad_norm": 0.15222127054459578, + "loss": 0.1672646701335907, + "step": 1863 + }, + { + "grad_norm": 0.11236107062552365, + "loss": 0.1842842698097229, + "step": 1864 + }, + { + "grad_norm": 0.12643674263335014, + "loss": 0.23592263460159302, + "step": 1865 + }, + { + "grad_norm": 0.4173999552211929, + "loss": 0.20294910669326782, + "step": 1866 + }, + { + "grad_norm": 0.12834241901126675, + "loss": 0.22949793934822083, + "step": 1867 + }, + { + "grad_norm": 0.14071217361837682, + "loss": 0.2055431306362152, + "step": 1868 + }, + { + "grad_norm": 0.3868229295100408, + "loss": 0.1608695089817047, + "step": 1869 + }, + { + "epoch": 0.5984, + "grad_norm": 0.3868229389190674, + "learning_rate": 8.426903211318214e-05, + "loss": 0.1977, + "step": 1870 + }, + { + "grad_norm": 0.20155148883756516, + "loss": 0.22758743166923523, + "step": 1870 + }, + { + "grad_norm": 0.19294914429370627, + "loss": 0.18853798508644104, + "step": 1871 + }, + { + "grad_norm": 0.13558914688812737, + "loss": 0.16974516212940216, + "step": 1872 + }, + { + "grad_norm": 0.15607998641739282, + "loss": 0.20561528205871582, + "step": 1873 + }, + { + "grad_norm": 0.17017812098142177, + "loss": 0.23502223193645477, + "step": 1874 + }, + { + "grad_norm": 0.1769721531702649, + "loss": 0.21628302335739136, + "step": 1875 + }, + { + "grad_norm": 0.12703344924829618, + "loss": 0.21584069728851318, + "step": 1876 + }, + { + "grad_norm": 0.11090852482864329, + "loss": 0.1875985562801361, + "step": 1877 + }, + { + "grad_norm": 0.09434666930383122, + "loss": 0.14488288760185242, + "step": 1878 + }, + { + "grad_norm": 0.2665703710633932, + "loss": 0.18833574652671814, + "step": 1879 + }, + { + "epoch": 0.6016, + "grad_norm": 0.2665703594684601, + "learning_rate": 8.415674825960028e-05, + "loss": 0.1979, + "step": 1880 + }, + { + "grad_norm": 0.35359305668257707, + "loss": 0.2073986828327179, + "step": 1880 + }, + { + "grad_norm": 0.3202617027105425, + "loss": 0.20971961319446564, + "step": 1881 + }, + { + "grad_norm": 0.3960245487029627, + "loss": 0.2306823432445526, + "step": 1882 + }, + { + "grad_norm": 0.1251626525613586, + "loss": 0.1961778700351715, + "step": 1883 + }, + { + "grad_norm": 0.22044648004572331, + "loss": 0.19084414839744568, + "step": 1884 + }, + { + "grad_norm": 0.4906285602769315, + "loss": 0.17503514885902405, + "step": 1885 + }, + { + "grad_norm": 0.30289959291481433, + "loss": 0.2095125913619995, + "step": 1886 + }, + { + "grad_norm": 0.296527237078479, + "loss": 0.1958279013633728, + "step": 1887 + }, + { + "grad_norm": 0.27360890500311896, + "loss": 0.1895800083875656, + "step": 1888 + }, + { + "grad_norm": 0.23620041406264566, + "loss": 0.17076535522937775, + "step": 1889 + }, + { + "epoch": 0.6048, + "grad_norm": 0.23620040714740753, + "learning_rate": 8.404446440601843e-05, + "loss": 0.1976, + "step": 1890 + }, + { + "grad_norm": 0.2063120120544444, + "loss": 0.22791483998298645, + "step": 1890 + }, + { + "grad_norm": 0.19084575435149811, + "loss": 0.1834121197462082, + "step": 1891 + }, + { + "grad_norm": 0.37862087321696686, + "loss": 0.19373059272766113, + "step": 1892 + }, + { + "grad_norm": 0.22486437984843008, + "loss": 0.17733149230480194, + "step": 1893 + }, + { + "grad_norm": 0.1564900886876532, + "loss": 0.17437876760959625, + "step": 1894 + }, + { + "grad_norm": 0.3890159018925168, + "loss": 0.25723934173583984, + "step": 1895 + }, + { + "grad_norm": 0.22493253654605075, + "loss": 0.16136468946933746, + "step": 1896 + }, + { + "grad_norm": 0.3568864174056336, + "loss": 0.20029975473880768, + "step": 1897 + }, + { + "grad_norm": 0.3239658486580483, + "loss": 0.19052457809448242, + "step": 1898 + }, + { + "grad_norm": 0.2317592901777859, + "loss": 0.17677968740463257, + "step": 1899 + }, + { + "epoch": 0.608, + "grad_norm": 0.23175929486751556, + "learning_rate": 8.393218055243656e-05, + "loss": 0.1943, + "step": 1900 + }, + { + "grad_norm": 0.292522585368399, + "loss": 0.2033277153968811, + "step": 1900 + }, + { + "grad_norm": 0.28952839297927446, + "loss": 0.16465047001838684, + "step": 1901 + }, + { + "grad_norm": 0.13274503071703897, + "loss": 0.16905155777931213, + "step": 1902 + }, + { + "grad_norm": 0.08942393176594055, + "loss": 0.18626269698143005, + "step": 1903 + }, + { + "grad_norm": 0.20599474051170633, + "loss": 0.20134475827217102, + "step": 1904 + }, + { + "grad_norm": 0.30323819165148314, + "loss": 0.1715647429227829, + "step": 1905 + }, + { + "grad_norm": 0.09817965649871058, + "loss": 0.2029935121536255, + "step": 1906 + }, + { + "grad_norm": 0.4021814236142478, + "loss": 0.22085916996002197, + "step": 1907 + }, + { + "grad_norm": 0.11946178246892378, + "loss": 0.25103145837783813, + "step": 1908 + }, + { + "grad_norm": 0.17958830944264276, + "loss": 0.18051303923130035, + "step": 1909 + }, + { + "epoch": 0.6112, + "grad_norm": 0.17958831787109375, + "learning_rate": 8.38198966988547e-05, + "loss": 0.1952, + "step": 1910 + }, + { + "grad_norm": 0.25346543957924106, + "loss": 0.18316340446472168, + "step": 1910 + }, + { + "grad_norm": 0.18315497528327268, + "loss": 0.19820359349250793, + "step": 1911 + }, + { + "grad_norm": 0.21264992181812628, + "loss": 0.26132965087890625, + "step": 1912 + }, + { + "grad_norm": 0.26505941694599117, + "loss": 0.17933043837547302, + "step": 1913 + }, + { + "grad_norm": 0.11895037494336212, + "loss": 0.2031639814376831, + "step": 1914 + }, + { + "grad_norm": 0.2133457402351242, + "loss": 0.17998403310775757, + "step": 1915 + }, + { + "grad_norm": 0.2034406012742779, + "loss": 0.21060001850128174, + "step": 1916 + }, + { + "grad_norm": 0.22762257493632254, + "loss": 0.19736693799495697, + "step": 1917 + }, + { + "grad_norm": 0.23934223101160731, + "loss": 0.16829264163970947, + "step": 1918 + }, + { + "grad_norm": 0.30648849711308956, + "loss": 0.26060646772384644, + "step": 1919 + }, + { + "epoch": 0.6144, + "grad_norm": 0.3064885139465332, + "learning_rate": 8.370761284527285e-05, + "loss": 0.2042, + "step": 1920 + }, + { + "grad_norm": 0.20287059768692542, + "loss": 0.211575448513031, + "step": 1920 + }, + { + "grad_norm": 0.13020798924395105, + "loss": 0.20148234069347382, + "step": 1921 + }, + { + "grad_norm": 0.49442591047254164, + "loss": 0.3468914330005646, + "step": 1922 + }, + { + "grad_norm": 0.4171140979511083, + "loss": 0.16738004982471466, + "step": 1923 + }, + { + "grad_norm": 0.25489600388362754, + "loss": 0.3127540647983551, + "step": 1924 + }, + { + "grad_norm": 0.3775583515249921, + "loss": 0.18774233758449554, + "step": 1925 + }, + { + "grad_norm": 0.14772694713756068, + "loss": 0.17508384585380554, + "step": 1926 + }, + { + "grad_norm": 0.2439256157791167, + "loss": 0.17234352231025696, + "step": 1927 + }, + { + "grad_norm": 0.16672691276915497, + "loss": 0.15260261297225952, + "step": 1928 + }, + { + "grad_norm": 0.1401405021872573, + "loss": 0.23123329877853394, + "step": 1929 + }, + { + "epoch": 0.6176, + "grad_norm": 0.14014050364494324, + "learning_rate": 8.3595328991691e-05, + "loss": 0.2159, + "step": 1930 + }, + { + "grad_norm": 0.15747839322521656, + "loss": 0.17836132645606995, + "step": 1930 + }, + { + "grad_norm": 0.22996586570559066, + "loss": 0.25539684295654297, + "step": 1931 + }, + { + "grad_norm": 0.5714499538126773, + "loss": 0.24813565611839294, + "step": 1932 + }, + { + "grad_norm": 0.23969478968420235, + "loss": 0.27548664808273315, + "step": 1933 + }, + { + "grad_norm": 0.14875858309172194, + "loss": 0.16089104115962982, + "step": 1934 + }, + { + "grad_norm": 0.1796530681426159, + "loss": 0.18515649437904358, + "step": 1935 + }, + { + "grad_norm": 0.2705865438121434, + "loss": 0.19171461462974548, + "step": 1936 + }, + { + "grad_norm": 0.38094505594687955, + "loss": 0.22939947247505188, + "step": 1937 + }, + { + "grad_norm": 0.1676100009035032, + "loss": 0.17179346084594727, + "step": 1938 + }, + { + "grad_norm": 0.11555980394298751, + "loss": 0.18046891689300537, + "step": 1939 + }, + { + "epoch": 0.6208, + "grad_norm": 0.11555980890989304, + "learning_rate": 8.348304513810914e-05, + "loss": 0.2077, + "step": 1940 + }, + { + "grad_norm": 0.2726248132546738, + "loss": 0.1793494075536728, + "step": 1940 + }, + { + "grad_norm": 0.3914870242629467, + "loss": 0.23665830492973328, + "step": 1941 + }, + { + "grad_norm": 0.1298349661239071, + "loss": 0.1966528594493866, + "step": 1942 + }, + { + "grad_norm": 0.3497126529929935, + "loss": 0.23955252766609192, + "step": 1943 + }, + { + "grad_norm": 0.2475030236928889, + "loss": 0.16702629625797272, + "step": 1944 + }, + { + "grad_norm": 0.3132203163995561, + "loss": 0.1950860619544983, + "step": 1945 + }, + { + "grad_norm": 0.13538002064633906, + "loss": 0.17123740911483765, + "step": 1946 + }, + { + "grad_norm": 0.2437258086850325, + "loss": 0.18492645025253296, + "step": 1947 + }, + { + "grad_norm": 0.09242383508254164, + "loss": 0.17859560251235962, + "step": 1948 + }, + { + "grad_norm": 0.24481887295191573, + "loss": 0.1942434012889862, + "step": 1949 + }, + { + "epoch": 0.624, + "grad_norm": 0.24481888115406036, + "learning_rate": 8.337076128452729e-05, + "loss": 0.1943, + "step": 1950 + }, + { + "grad_norm": 0.22733770375534895, + "loss": 0.18952950835227966, + "step": 1950 + }, + { + "grad_norm": 0.41235091504623167, + "loss": 0.21767766773700714, + "step": 1951 + }, + { + "grad_norm": 0.2215067807745242, + "loss": 0.1536071002483368, + "step": 1952 + }, + { + "grad_norm": 0.2192412527169411, + "loss": 0.24488565325737, + "step": 1953 + }, + { + "grad_norm": 0.22448523025204897, + "loss": 0.24136081337928772, + "step": 1954 + }, + { + "grad_norm": 0.34085281984064314, + "loss": 0.24645152688026428, + "step": 1955 + }, + { + "grad_norm": 0.12329329028727078, + "loss": 0.19587023556232452, + "step": 1956 + }, + { + "grad_norm": 0.14678745533661547, + "loss": 0.14476600289344788, + "step": 1957 + }, + { + "grad_norm": 0.31856628065077236, + "loss": 0.16107091307640076, + "step": 1958 + }, + { + "grad_norm": 0.26040998318921277, + "loss": 0.15516474843025208, + "step": 1959 + }, + { + "epoch": 0.6272, + "grad_norm": 0.26040998101234436, + "learning_rate": 8.325847743094544e-05, + "loss": 0.195, + "step": 1960 + }, + { + "grad_norm": 0.31189614093483486, + "loss": 0.20376864075660706, + "step": 1960 + }, + { + "grad_norm": 0.2284478430598619, + "loss": 0.17827005684375763, + "step": 1961 + }, + { + "grad_norm": 0.22541825769727947, + "loss": 0.17528407275676727, + "step": 1962 + }, + { + "grad_norm": 0.19914886860635642, + "loss": 0.2542025148868561, + "step": 1963 + }, + { + "grad_norm": 0.5071450985698148, + "loss": 0.208909273147583, + "step": 1964 + }, + { + "grad_norm": 0.42646554734340447, + "loss": 0.22109735012054443, + "step": 1965 + }, + { + "grad_norm": 0.1923774959580456, + "loss": 0.23280468583106995, + "step": 1966 + }, + { + "grad_norm": 0.3544290263103958, + "loss": 0.1831718534231186, + "step": 1967 + }, + { + "grad_norm": 0.36673713354174137, + "loss": 0.19224077463150024, + "step": 1968 + }, + { + "grad_norm": 0.3638281517530609, + "loss": 0.17628905177116394, + "step": 1969 + }, + { + "epoch": 0.6304, + "grad_norm": 0.3638281524181366, + "learning_rate": 8.314619357736358e-05, + "loss": 0.2026, + "step": 1970 + }, + { + "grad_norm": 0.2718489822757787, + "loss": 0.16644251346588135, + "step": 1970 + }, + { + "grad_norm": 0.4805707264208757, + "loss": 0.16009804606437683, + "step": 1971 + }, + { + "grad_norm": 0.1726194693560222, + "loss": 0.17944714426994324, + "step": 1972 + }, + { + "grad_norm": 0.4586058658913693, + "loss": 0.22546716034412384, + "step": 1973 + }, + { + "grad_norm": 0.30884117458314886, + "loss": 0.1923200488090515, + "step": 1974 + }, + { + "grad_norm": 0.2899535222934274, + "loss": 0.1541939526796341, + "step": 1975 + }, + { + "grad_norm": 0.17005740621876175, + "loss": 0.18396776914596558, + "step": 1976 + }, + { + "grad_norm": 0.24790028929506333, + "loss": 0.21115893125534058, + "step": 1977 + }, + { + "grad_norm": 0.18051226566653475, + "loss": 0.16106253862380981, + "step": 1978 + }, + { + "grad_norm": 0.1487650605576651, + "loss": 0.15978844463825226, + "step": 1979 + }, + { + "epoch": 0.6336, + "grad_norm": 0.14876505732536316, + "learning_rate": 8.303390972378173e-05, + "loss": 0.1794, + "step": 1980 + }, + { + "grad_norm": 0.1150625709033271, + "loss": 0.16909220814704895, + "step": 1980 + }, + { + "grad_norm": 0.2500220938763234, + "loss": 0.2595948874950409, + "step": 1981 + }, + { + "grad_norm": 0.26336630411961787, + "loss": 0.1581028401851654, + "step": 1982 + }, + { + "grad_norm": 0.16839748959025908, + "loss": 0.18577329814434052, + "step": 1983 + }, + { + "grad_norm": 0.11923841760118752, + "loss": 0.1563870906829834, + "step": 1984 + }, + { + "grad_norm": 0.13661534769228698, + "loss": 0.16609877347946167, + "step": 1985 + }, + { + "grad_norm": 0.10323848091276028, + "loss": 0.20264771580696106, + "step": 1986 + }, + { + "grad_norm": 0.30185888081388385, + "loss": 0.18063905835151672, + "step": 1987 + }, + { + "grad_norm": 0.16688825430770682, + "loss": 0.22957295179367065, + "step": 1988 + }, + { + "grad_norm": 0.26840996569787606, + "loss": 0.1515076756477356, + "step": 1989 + }, + { + "epoch": 0.6368, + "grad_norm": 0.26840996742248535, + "learning_rate": 8.292162587019986e-05, + "loss": 0.1859, + "step": 1990 + }, + { + "grad_norm": 0.26659289802354813, + "loss": 0.20477069914340973, + "step": 1990 + }, + { + "grad_norm": 0.31117563819933813, + "loss": 0.17694130539894104, + "step": 1991 + }, + { + "grad_norm": 0.47296070180039607, + "loss": 0.18617209792137146, + "step": 1992 + }, + { + "grad_norm": 0.1323226214803944, + "loss": 0.1822231411933899, + "step": 1993 + }, + { + "grad_norm": 0.20202187127173407, + "loss": 0.1755945086479187, + "step": 1994 + }, + { + "grad_norm": 0.17703755388167391, + "loss": 0.1876717209815979, + "step": 1995 + }, + { + "grad_norm": 0.1926954254724107, + "loss": 0.301532506942749, + "step": 1996 + }, + { + "grad_norm": 0.10425039340149062, + "loss": 0.20234104990959167, + "step": 1997 + }, + { + "grad_norm": 0.20465688354337938, + "loss": 0.21379044651985168, + "step": 1998 + }, + { + "grad_norm": 0.23965294204707516, + "loss": 0.16716571152210236, + "step": 1999 + }, + { + "epoch": 0.64, + "grad_norm": 0.23965291678905487, + "learning_rate": 8.280934201661802e-05, + "loss": 0.1998, + "step": 2000 + }, + { + "grad_norm": 0.17764419197589232, + "loss": 0.19095981121063232, + "step": 2000 + }, + { + "grad_norm": 0.29299101595102955, + "loss": 0.21349415183067322, + "step": 2001 + }, + { + "grad_norm": 0.22748690638858865, + "loss": 0.15170541405677795, + "step": 2002 + }, + { + "grad_norm": 0.18289838876380946, + "loss": 0.21137294173240662, + "step": 2003 + }, + { + "grad_norm": 0.5651101343506189, + "loss": 0.28650280833244324, + "step": 2004 + }, + { + "grad_norm": 0.14027535892198165, + "loss": 0.14387863874435425, + "step": 2005 + }, + { + "grad_norm": 0.22679682118402333, + "loss": 0.15947487950325012, + "step": 2006 + }, + { + "grad_norm": 0.35172772176760314, + "loss": 0.17558565735816956, + "step": 2007 + }, + { + "grad_norm": 0.19101408772081813, + "loss": 0.18897590041160583, + "step": 2008 + }, + { + "grad_norm": 0.14806679288259858, + "loss": 0.20565681159496307, + "step": 2009 + }, + { + "epoch": 0.6432, + "grad_norm": 0.14806678891181946, + "learning_rate": 8.269705816303615e-05, + "loss": 0.1928, + "step": 2010 + }, + { + "grad_norm": 0.19301603689883873, + "loss": 0.20822353661060333, + "step": 2010 + }, + { + "grad_norm": 0.5246379972031944, + "loss": 0.24082833528518677, + "step": 2011 + }, + { + "grad_norm": 0.4030187027883124, + "loss": 0.17889875173568726, + "step": 2012 + }, + { + "grad_norm": 0.13107850982263738, + "loss": 0.2287617325782776, + "step": 2013 + }, + { + "grad_norm": 0.18952173847740866, + "loss": 0.19422991573810577, + "step": 2014 + }, + { + "grad_norm": 0.14555034091481944, + "loss": 0.2017430067062378, + "step": 2015 + }, + { + "grad_norm": 0.16843552616009985, + "loss": 0.19452185928821564, + "step": 2016 + }, + { + "grad_norm": 0.17408493835991434, + "loss": 0.207024484872818, + "step": 2017 + }, + { + "grad_norm": 0.3145190325932145, + "loss": 0.19636176526546478, + "step": 2018 + }, + { + "grad_norm": 0.27742015918530405, + "loss": 0.253328800201416, + "step": 2019 + }, + { + "epoch": 0.6464, + "grad_norm": 0.27742016315460205, + "learning_rate": 8.25847743094543e-05, + "loss": 0.2104, + "step": 2020 + }, + { + "grad_norm": 0.1790095571893297, + "loss": 0.15703946352005005, + "step": 2020 + }, + { + "grad_norm": 0.31073127670342393, + "loss": 0.15801994502544403, + "step": 2021 + }, + { + "grad_norm": 0.15516540218957361, + "loss": 0.17879082262516022, + "step": 2022 + }, + { + "grad_norm": 0.39023883430584894, + "loss": 0.17748229205608368, + "step": 2023 + }, + { + "grad_norm": 0.11352619893658224, + "loss": 0.155146986246109, + "step": 2024 + }, + { + "grad_norm": 0.12761170706031763, + "loss": 0.2122308909893036, + "step": 2025 + }, + { + "grad_norm": 0.25083696061562044, + "loss": 0.18949812650680542, + "step": 2026 + }, + { + "grad_norm": 0.13133895570624032, + "loss": 0.19015924632549286, + "step": 2027 + }, + { + "grad_norm": 0.45785694227036977, + "loss": 0.1867268830537796, + "step": 2028 + }, + { + "grad_norm": 0.1819436797446233, + "loss": 0.16891369223594666, + "step": 2029 + }, + { + "epoch": 0.6496, + "grad_norm": 0.18194366991519928, + "learning_rate": 8.247249045587245e-05, + "loss": 0.1774, + "step": 2030 + }, + { + "grad_norm": 0.11594748127259474, + "loss": 0.18711581826210022, + "step": 2030 + }, + { + "grad_norm": 0.10276699780959321, + "loss": 0.15858499705791473, + "step": 2031 + }, + { + "grad_norm": 0.20014992028044584, + "loss": 0.19634169340133667, + "step": 2032 + }, + { + "grad_norm": 0.2865526050597729, + "loss": 0.1840846985578537, + "step": 2033 + }, + { + "grad_norm": 0.14104381847373548, + "loss": 0.16245372593402863, + "step": 2034 + }, + { + "grad_norm": 0.20287362485016022, + "loss": 0.17652300000190735, + "step": 2035 + }, + { + "grad_norm": 0.1962422656154409, + "loss": 0.1658300757408142, + "step": 2036 + }, + { + "grad_norm": 0.2728006055654524, + "loss": 0.2738510072231293, + "step": 2037 + }, + { + "grad_norm": 0.37927065489957806, + "loss": 0.19602927565574646, + "step": 2038 + }, + { + "grad_norm": 0.1287308115554831, + "loss": 0.21542730927467346, + "step": 2039 + }, + { + "epoch": 0.6528, + "grad_norm": 0.12873081862926483, + "learning_rate": 8.236020660229059e-05, + "loss": 0.1916, + "step": 2040 + }, + { + "grad_norm": 0.14762230895425832, + "loss": 0.1872713565826416, + "step": 2040 + }, + { + "grad_norm": 0.37054100814589075, + "loss": 0.18762454390525818, + "step": 2041 + }, + { + "grad_norm": 0.1991833015124027, + "loss": 0.17852015793323517, + "step": 2042 + }, + { + "grad_norm": 0.3486392112693446, + "loss": 0.2202746421098709, + "step": 2043 + }, + { + "grad_norm": 0.10332926010226037, + "loss": 0.20661690831184387, + "step": 2044 + }, + { + "grad_norm": 0.1867333655811672, + "loss": 0.2029849886894226, + "step": 2045 + }, + { + "grad_norm": 0.10917340428405863, + "loss": 0.17889413237571716, + "step": 2046 + }, + { + "grad_norm": 0.12559495486281821, + "loss": 0.15934528410434723, + "step": 2047 + }, + { + "grad_norm": 0.17969403555809715, + "loss": 0.1899183690547943, + "step": 2048 + }, + { + "grad_norm": 0.46400421052312935, + "loss": 0.257525771856308, + "step": 2049 + }, + { + "epoch": 0.656, + "grad_norm": 0.46400418877601624, + "learning_rate": 8.224792274870874e-05, + "loss": 0.1969, + "step": 2050 + }, + { + "grad_norm": 0.1789402257693396, + "loss": 0.18887145817279816, + "step": 2050 + }, + { + "grad_norm": 0.3924595018775132, + "loss": 0.1606256067752838, + "step": 2051 + }, + { + "grad_norm": 0.22467221460096667, + "loss": 0.1762285828590393, + "step": 2052 + }, + { + "grad_norm": 0.21340534717190537, + "loss": 0.17959755659103394, + "step": 2053 + }, + { + "grad_norm": 0.21015430062689994, + "loss": 0.27350571751594543, + "step": 2054 + }, + { + "grad_norm": 0.17210221102076892, + "loss": 0.18721075356006622, + "step": 2055 + }, + { + "grad_norm": 0.29791786128166914, + "loss": 0.1715981811285019, + "step": 2056 + }, + { + "grad_norm": 0.3311893963791658, + "loss": 0.21358510851860046, + "step": 2057 + }, + { + "grad_norm": 0.1415347212045272, + "loss": 0.23597615957260132, + "step": 2058 + }, + { + "grad_norm": 0.2966617665977906, + "loss": 0.18967778980731964, + "step": 2059 + }, + { + "epoch": 0.6592, + "grad_norm": 0.29666176438331604, + "learning_rate": 8.213563889512689e-05, + "loss": 0.1977, + "step": 2060 + }, + { + "grad_norm": 0.3300689359672412, + "loss": 0.20467399060726166, + "step": 2060 + }, + { + "grad_norm": 0.2387610211071543, + "loss": 0.202520951628685, + "step": 2061 + }, + { + "grad_norm": 0.17022441130165694, + "loss": 0.1705920547246933, + "step": 2062 + }, + { + "grad_norm": 0.13091286733816693, + "loss": 0.15584132075309753, + "step": 2063 + }, + { + "grad_norm": 0.3717916917045933, + "loss": 0.28450149297714233, + "step": 2064 + }, + { + "grad_norm": 0.40358059551154607, + "loss": 0.15537722408771515, + "step": 2065 + }, + { + "grad_norm": 0.12221855420753495, + "loss": 0.1867464929819107, + "step": 2066 + }, + { + "grad_norm": 0.12281762049252021, + "loss": 0.18517978489398956, + "step": 2067 + }, + { + "grad_norm": 0.23122251626482715, + "loss": 0.16125120222568512, + "step": 2068 + }, + { + "grad_norm": 0.1975684046919261, + "loss": 0.19455835223197937, + "step": 2069 + }, + { + "epoch": 0.6624, + "grad_norm": 0.1975684016942978, + "learning_rate": 8.202335504154503e-05, + "loss": 0.1901, + "step": 2070 + }, + { + "grad_norm": 0.19366394600319198, + "loss": 0.18369632959365845, + "step": 2070 + }, + { + "grad_norm": 0.10573791680513325, + "loss": 0.21102668344974518, + "step": 2071 + }, + { + "grad_norm": 0.21639581321903203, + "loss": 0.1570015400648117, + "step": 2072 + }, + { + "grad_norm": 0.3188048341542196, + "loss": 0.1572149246931076, + "step": 2073 + }, + { + "grad_norm": 0.18857593217978705, + "loss": 0.19722974300384521, + "step": 2074 + }, + { + "grad_norm": 0.14340116829307115, + "loss": 0.21646827459335327, + "step": 2075 + }, + { + "grad_norm": 0.14225917035897004, + "loss": 0.22601333260536194, + "step": 2076 + }, + { + "grad_norm": 0.12497826927334163, + "loss": 0.15335626900196075, + "step": 2077 + }, + { + "grad_norm": 0.2624092282046907, + "loss": 0.16765716671943665, + "step": 2078 + }, + { + "grad_norm": 0.12535278820131515, + "loss": 0.16909059882164001, + "step": 2079 + }, + { + "epoch": 0.6656, + "grad_norm": 0.12535278499126434, + "learning_rate": 8.191107118796317e-05, + "loss": 0.1839, + "step": 2080 + }, + { + "grad_norm": 0.4462919437242677, + "loss": 0.20825736224651337, + "step": 2080 + }, + { + "grad_norm": 0.48070199856520696, + "loss": 0.25833550095558167, + "step": 2081 + }, + { + "grad_norm": 0.13564815325334445, + "loss": 0.21708551049232483, + "step": 2082 + }, + { + "grad_norm": 0.43783547668155626, + "loss": 0.1594187468290329, + "step": 2083 + }, + { + "grad_norm": 0.36238505840526763, + "loss": 0.22860026359558105, + "step": 2084 + }, + { + "grad_norm": 0.17636638689738277, + "loss": 0.17841127514839172, + "step": 2085 + }, + { + "grad_norm": 0.08838913525994876, + "loss": 0.15775781869888306, + "step": 2086 + }, + { + "grad_norm": 0.2736102802596101, + "loss": 0.13075610995292664, + "step": 2087 + }, + { + "grad_norm": 0.3564368073025871, + "loss": 0.18252480030059814, + "step": 2088 + }, + { + "grad_norm": 0.10966223774062302, + "loss": 0.16747041046619415, + "step": 2089 + }, + { + "epoch": 0.6688, + "grad_norm": 0.1096622422337532, + "learning_rate": 8.179878733438132e-05, + "loss": 0.1889, + "step": 2090 + }, + { + "grad_norm": 0.27642799142297747, + "loss": 0.18754734098911285, + "step": 2090 + }, + { + "grad_norm": 0.2050346787715216, + "loss": 0.17520871758460999, + "step": 2091 + }, + { + "grad_norm": 0.37746786333907784, + "loss": 0.20544138550758362, + "step": 2092 + }, + { + "grad_norm": 0.13746423891058618, + "loss": 0.16262227296829224, + "step": 2093 + }, + { + "grad_norm": 0.4237229517869027, + "loss": 0.24720698595046997, + "step": 2094 + }, + { + "grad_norm": 0.19957364860786414, + "loss": 0.215402752161026, + "step": 2095 + }, + { + "grad_norm": 0.13393019918576685, + "loss": 0.16320502758026123, + "step": 2096 + }, + { + "grad_norm": 0.15646797428874926, + "loss": 0.1844249665737152, + "step": 2097 + }, + { + "grad_norm": 0.13812163326094823, + "loss": 0.18829721212387085, + "step": 2098 + }, + { + "grad_norm": 0.19239232928880978, + "loss": 0.1824595332145691, + "step": 2099 + }, + { + "epoch": 0.672, + "grad_norm": 0.19239233434200287, + "learning_rate": 8.168650348079947e-05, + "loss": 0.1912, + "step": 2100 + }, + { + "grad_norm": 0.21792555974231362, + "loss": 0.2616528868675232, + "step": 2100 + }, + { + "grad_norm": 0.22282523576337834, + "loss": 0.19970709085464478, + "step": 2101 + }, + { + "grad_norm": 0.3704672055123349, + "loss": 0.18832561373710632, + "step": 2102 + }, + { + "grad_norm": 0.30497896322125884, + "loss": 0.23548591136932373, + "step": 2103 + }, + { + "grad_norm": 0.12324984099545214, + "loss": 0.18632888793945312, + "step": 2104 + }, + { + "grad_norm": 0.10217602352369318, + "loss": 0.18940448760986328, + "step": 2105 + }, + { + "grad_norm": 0.22542355013769674, + "loss": 0.2623468041419983, + "step": 2106 + }, + { + "grad_norm": 0.1293070084193908, + "loss": 0.17335918545722961, + "step": 2107 + }, + { + "grad_norm": 0.26722898593580663, + "loss": 0.2047784924507141, + "step": 2108 + }, + { + "grad_norm": 0.10907316782917717, + "loss": 0.24158106744289398, + "step": 2109 + }, + { + "epoch": 0.6752, + "grad_norm": 0.10907316207885742, + "learning_rate": 8.15742196272176e-05, + "loss": 0.2143, + "step": 2110 + }, + { + "grad_norm": 0.3179042059849463, + "loss": 0.24000957608222961, + "step": 2110 + }, + { + "grad_norm": 0.41909211745315894, + "loss": 0.19240590929985046, + "step": 2111 + }, + { + "grad_norm": 0.2460174006852003, + "loss": 0.15213654935359955, + "step": 2112 + }, + { + "grad_norm": 0.270052153272032, + "loss": 0.21234381198883057, + "step": 2113 + }, + { + "grad_norm": 0.22777211736963235, + "loss": 0.18931281566619873, + "step": 2114 + }, + { + "grad_norm": 0.19985915008937957, + "loss": 0.1708957701921463, + "step": 2115 + }, + { + "grad_norm": 0.4186823658732736, + "loss": 0.18375805020332336, + "step": 2116 + }, + { + "grad_norm": 0.26854125978271126, + "loss": 0.2130318433046341, + "step": 2117 + }, + { + "grad_norm": 0.24491450885799695, + "loss": 0.19878315925598145, + "step": 2118 + }, + { + "grad_norm": 0.18554593381344064, + "loss": 0.23990751802921295, + "step": 2119 + }, + { + "epoch": 0.6784, + "grad_norm": 0.1855459362268448, + "learning_rate": 8.146193577363576e-05, + "loss": 0.1993, + "step": 2120 + }, + { + "grad_norm": 0.2368261340480879, + "loss": 0.18806058168411255, + "step": 2120 + }, + { + "grad_norm": 0.18589844666396785, + "loss": 0.18246977031230927, + "step": 2121 + }, + { + "grad_norm": 0.21542460850011044, + "loss": 0.18106253445148468, + "step": 2122 + }, + { + "grad_norm": 0.24778380034665493, + "loss": 0.24035729467868805, + "step": 2123 + }, + { + "grad_norm": 0.15343956490370592, + "loss": 0.16966775059700012, + "step": 2124 + }, + { + "grad_norm": 0.1702964530955877, + "loss": 0.18032532930374146, + "step": 2125 + }, + { + "grad_norm": 0.27464381509214525, + "loss": 0.19561973214149475, + "step": 2126 + }, + { + "grad_norm": 0.35128006399612716, + "loss": 0.19159851968288422, + "step": 2127 + }, + { + "grad_norm": 0.3844370274501046, + "loss": 0.19396983087062836, + "step": 2128 + }, + { + "grad_norm": 0.1505884408027304, + "loss": 0.2113141417503357, + "step": 2129 + }, + { + "epoch": 0.6816, + "grad_norm": 0.15058843791484833, + "learning_rate": 8.13496519200539e-05, + "loss": 0.1934, + "step": 2130 + }, + { + "grad_norm": 0.2901726703049049, + "loss": 0.15579581260681152, + "step": 2130 + }, + { + "grad_norm": 0.15764471529683236, + "loss": 0.16499459743499756, + "step": 2131 + }, + { + "grad_norm": 0.24285553232121598, + "loss": 0.18698334693908691, + "step": 2132 + }, + { + "grad_norm": 0.2103910282515529, + "loss": 0.1921001374721527, + "step": 2133 + }, + { + "grad_norm": 0.223903811315579, + "loss": 0.1848335564136505, + "step": 2134 + }, + { + "grad_norm": 0.22909382162863934, + "loss": 0.18555793166160583, + "step": 2135 + }, + { + "grad_norm": 0.2868397964314708, + "loss": 0.172138512134552, + "step": 2136 + }, + { + "grad_norm": 0.1777607974226467, + "loss": 0.17443904280662537, + "step": 2137 + }, + { + "grad_norm": 0.20432656738399502, + "loss": 0.21098878979682922, + "step": 2138 + }, + { + "grad_norm": 0.14411176309606116, + "loss": 0.16341432929039001, + "step": 2139 + }, + { + "epoch": 0.6848, + "grad_norm": 0.1441117525100708, + "learning_rate": 8.123736806647204e-05, + "loss": 0.1791, + "step": 2140 + }, + { + "grad_norm": 0.30146587961972793, + "loss": 0.23557311296463013, + "step": 2140 + }, + { + "grad_norm": 0.21527069095348716, + "loss": 0.16802147030830383, + "step": 2141 + }, + { + "grad_norm": 0.2668436128951297, + "loss": 0.21267029643058777, + "step": 2142 + }, + { + "grad_norm": 0.36642579926808333, + "loss": 0.1644337922334671, + "step": 2143 + }, + { + "grad_norm": 0.1589421974268972, + "loss": 0.27366891503334045, + "step": 2144 + }, + { + "grad_norm": 0.35944444280369825, + "loss": 0.18490193784236908, + "step": 2145 + }, + { + "grad_norm": 0.14604577737736477, + "loss": 0.18381556868553162, + "step": 2146 + }, + { + "grad_norm": 0.21348307356815888, + "loss": 0.15856575965881348, + "step": 2147 + }, + { + "grad_norm": 0.17518641495923096, + "loss": 0.1643889993429184, + "step": 2148 + }, + { + "grad_norm": 0.1117197367718066, + "loss": 0.2012987732887268, + "step": 2149 + }, + { + "epoch": 0.688, + "grad_norm": 0.11171973496675491, + "learning_rate": 8.11250842128902e-05, + "loss": 0.1947, + "step": 2150 + }, + { + "grad_norm": 0.19262947050232676, + "loss": 0.23460297286510468, + "step": 2150 + }, + { + "grad_norm": 0.13342854506762228, + "loss": 0.18602058291435242, + "step": 2151 + }, + { + "grad_norm": 0.09629178002398181, + "loss": 0.16796566545963287, + "step": 2152 + }, + { + "grad_norm": 0.41042269592295194, + "loss": 0.22228804230690002, + "step": 2153 + }, + { + "grad_norm": 0.4510024185280393, + "loss": 0.20566701889038086, + "step": 2154 + }, + { + "grad_norm": 0.29497422238250043, + "loss": 0.18633073568344116, + "step": 2155 + }, + { + "grad_norm": 0.17295668359250507, + "loss": 0.15643459558486938, + "step": 2156 + }, + { + "grad_norm": 0.2865714236391996, + "loss": 0.23729369044303894, + "step": 2157 + }, + { + "grad_norm": 0.23846176479578984, + "loss": 0.1750568151473999, + "step": 2158 + }, + { + "grad_norm": 0.14469866918185986, + "loss": 0.1613667905330658, + "step": 2159 + }, + { + "epoch": 0.6912, + "grad_norm": 0.14469866454601288, + "learning_rate": 8.101280035930835e-05, + "loss": 0.1933, + "step": 2160 + }, + { + "grad_norm": 0.3619952291374148, + "loss": 0.24260655045509338, + "step": 2160 + }, + { + "grad_norm": 0.2500196739376838, + "loss": 0.17394579946994781, + "step": 2161 + }, + { + "grad_norm": 0.15391301563600865, + "loss": 0.2134108543395996, + "step": 2162 + }, + { + "grad_norm": 0.14890340332002852, + "loss": 0.18691635131835938, + "step": 2163 + }, + { + "grad_norm": 0.1627971398332094, + "loss": 0.2124839723110199, + "step": 2164 + }, + { + "grad_norm": 0.33347844977696706, + "loss": 0.2261912077665329, + "step": 2165 + }, + { + "grad_norm": 0.25240368484032755, + "loss": 0.18492987751960754, + "step": 2166 + }, + { + "grad_norm": 0.23946151239855462, + "loss": 0.23047488927841187, + "step": 2167 + }, + { + "grad_norm": 0.3392000599271242, + "loss": 0.18253234028816223, + "step": 2168 + }, + { + "grad_norm": 0.26807868355253456, + "loss": 0.19431859254837036, + "step": 2169 + }, + { + "epoch": 0.6944, + "grad_norm": 0.26807868480682373, + "learning_rate": 8.090051650572648e-05, + "loss": 0.2048, + "step": 2170 + }, + { + "grad_norm": 0.11425264830749549, + "loss": 0.167709618806839, + "step": 2170 + }, + { + "grad_norm": 0.24280934740392784, + "loss": 0.16885735094547272, + "step": 2171 + }, + { + "grad_norm": 0.22173245458230562, + "loss": 0.17200924456119537, + "step": 2172 + }, + { + "grad_norm": 0.17372755355427327, + "loss": 0.14306260645389557, + "step": 2173 + }, + { + "grad_norm": 0.21201985560937983, + "loss": 0.2108403444290161, + "step": 2174 + }, + { + "grad_norm": 0.12264271943566672, + "loss": 0.1609952747821808, + "step": 2175 + }, + { + "grad_norm": 0.19708357687668118, + "loss": 0.15195682644844055, + "step": 2176 + }, + { + "grad_norm": 0.12935604491490016, + "loss": 0.18042591214179993, + "step": 2177 + }, + { + "grad_norm": 0.21967259464435449, + "loss": 0.20836126804351807, + "step": 2178 + }, + { + "grad_norm": 0.13813794621511838, + "loss": 0.15760323405265808, + "step": 2179 + }, + { + "epoch": 0.6976, + "grad_norm": 0.13813795149326324, + "learning_rate": 8.078823265214462e-05, + "loss": 0.1722, + "step": 2180 + }, + { + "grad_norm": 0.1518847587054228, + "loss": 0.21458935737609863, + "step": 2180 + }, + { + "grad_norm": 0.20830361710875098, + "loss": 0.191806823015213, + "step": 2181 + }, + { + "grad_norm": 0.16651209757959234, + "loss": 0.23317572474479675, + "step": 2182 + }, + { + "grad_norm": 0.14216014872017935, + "loss": 0.1770182102918625, + "step": 2183 + }, + { + "grad_norm": 0.15263322867863413, + "loss": 0.15705931186676025, + "step": 2184 + }, + { + "grad_norm": 0.364198156232753, + "loss": 0.14435990154743195, + "step": 2185 + }, + { + "grad_norm": 0.30872623016855966, + "loss": 0.17987948656082153, + "step": 2186 + }, + { + "grad_norm": 0.1292196748246302, + "loss": 0.17501601576805115, + "step": 2187 + }, + { + "grad_norm": 0.412246314913848, + "loss": 0.21430186927318573, + "step": 2188 + }, + { + "grad_norm": 0.20169722612001828, + "loss": 0.22446708381175995, + "step": 2189 + }, + { + "epoch": 0.7008, + "grad_norm": 0.2016972154378891, + "learning_rate": 8.067594879856277e-05, + "loss": 0.1912, + "step": 2190 + }, + { + "grad_norm": 0.21028428188022036, + "loss": 0.22964082658290863, + "step": 2190 + }, + { + "grad_norm": 0.2147507798340379, + "loss": 0.20415984094142914, + "step": 2191 + }, + { + "grad_norm": 0.22944558153243544, + "loss": 0.21695968508720398, + "step": 2192 + }, + { + "grad_norm": 0.1249947783067661, + "loss": 0.1911974847316742, + "step": 2193 + }, + { + "grad_norm": 0.14939358214911855, + "loss": 0.2104453146457672, + "step": 2194 + }, + { + "grad_norm": 0.16979515077769824, + "loss": 0.18701663613319397, + "step": 2195 + }, + { + "grad_norm": 0.21573089276200696, + "loss": 0.17654237151145935, + "step": 2196 + }, + { + "grad_norm": 0.20573261870726844, + "loss": 0.18123866617679596, + "step": 2197 + }, + { + "grad_norm": 0.19025662895070042, + "loss": 0.16536769270896912, + "step": 2198 + }, + { + "grad_norm": 0.16099380516536252, + "loss": 0.1980331540107727, + "step": 2199 + }, + { + "epoch": 0.704, + "grad_norm": 0.1609937995672226, + "learning_rate": 8.056366494498092e-05, + "loss": 0.1961, + "step": 2200 + }, + { + "grad_norm": 0.2279094009766891, + "loss": 0.21067045629024506, + "step": 2200 + }, + { + "grad_norm": 0.20177469811435622, + "loss": 0.1944393664598465, + "step": 2201 + }, + { + "grad_norm": 0.34601511307744826, + "loss": 0.19525833427906036, + "step": 2202 + }, + { + "grad_norm": 0.10603207366466513, + "loss": 0.16462954878807068, + "step": 2203 + }, + { + "grad_norm": 0.1127908333785197, + "loss": 0.17898383736610413, + "step": 2204 + }, + { + "grad_norm": 0.21887537278413446, + "loss": 0.17761604487895966, + "step": 2205 + }, + { + "grad_norm": 0.4885417648557104, + "loss": 0.1800171434879303, + "step": 2206 + }, + { + "grad_norm": 0.31614188886948935, + "loss": 0.1810085028409958, + "step": 2207 + }, + { + "grad_norm": 0.14214100882859448, + "loss": 0.1869136393070221, + "step": 2208 + }, + { + "grad_norm": 0.14046932445774082, + "loss": 0.14145827293395996, + "step": 2209 + }, + { + "epoch": 0.7072, + "grad_norm": 0.14046931266784668, + "learning_rate": 8.045138109139906e-05, + "loss": 0.1811, + "step": 2210 + }, + { + "grad_norm": 0.17159790576493214, + "loss": 0.19135580956935883, + "step": 2210 + }, + { + "grad_norm": 0.20715787679080044, + "loss": 0.16626572608947754, + "step": 2211 + }, + { + "grad_norm": 0.2853123324321573, + "loss": 0.2414291799068451, + "step": 2212 + }, + { + "grad_norm": 0.26522956756837357, + "loss": 0.217931866645813, + "step": 2213 + }, + { + "grad_norm": 0.21038236091268533, + "loss": 0.20696023106575012, + "step": 2214 + }, + { + "grad_norm": 0.23169940736288747, + "loss": 0.18212291598320007, + "step": 2215 + }, + { + "grad_norm": 0.2316740302354797, + "loss": 0.24823012948036194, + "step": 2216 + }, + { + "grad_norm": 0.25961371714325, + "loss": 0.19560766220092773, + "step": 2217 + }, + { + "grad_norm": 0.1633808735072889, + "loss": 0.19570225477218628, + "step": 2218 + }, + { + "grad_norm": 0.335269351020507, + "loss": 0.2259034812450409, + "step": 2219 + }, + { + "epoch": 0.7104, + "grad_norm": 0.33526933193206787, + "learning_rate": 8.033909723781721e-05, + "loss": 0.2072, + "step": 2220 + }, + { + "grad_norm": 0.26657926310717145, + "loss": 0.1695934236049652, + "step": 2220 + }, + { + "grad_norm": 0.3380570967259449, + "loss": 0.15421034395694733, + "step": 2221 + }, + { + "grad_norm": 0.17529648956595462, + "loss": 0.17866000533103943, + "step": 2222 + }, + { + "grad_norm": 0.2020762843929358, + "loss": 0.22936062514781952, + "step": 2223 + }, + { + "grad_norm": 0.26518265218530696, + "loss": 0.17739884555339813, + "step": 2224 + }, + { + "grad_norm": 0.2907839187243378, + "loss": 0.1833103746175766, + "step": 2225 + }, + { + "grad_norm": 0.1422266554981456, + "loss": 0.16034646332263947, + "step": 2226 + }, + { + "grad_norm": 0.2272145119594466, + "loss": 0.18429598212242126, + "step": 2227 + }, + { + "grad_norm": 0.16462040452443158, + "loss": 0.18488284945487976, + "step": 2228 + }, + { + "grad_norm": 0.16152957087255462, + "loss": 0.1642339527606964, + "step": 2229 + }, + { + "epoch": 0.7136, + "grad_norm": 0.1615295708179474, + "learning_rate": 8.022681338423536e-05, + "loss": 0.1786, + "step": 2230 + }, + { + "grad_norm": 0.4061928184089762, + "loss": 0.2047497034072876, + "step": 2230 + }, + { + "grad_norm": 0.12260011766990939, + "loss": 0.1771603673696518, + "step": 2231 + }, + { + "grad_norm": 0.3152173233033652, + "loss": 0.1900026500225067, + "step": 2232 + }, + { + "grad_norm": 0.28777649466497474, + "loss": 0.22568988800048828, + "step": 2233 + }, + { + "grad_norm": 0.19391141009981855, + "loss": 0.17656072974205017, + "step": 2234 + }, + { + "grad_norm": 0.15471196975419182, + "loss": 0.20062275230884552, + "step": 2235 + }, + { + "grad_norm": 0.18260520330639374, + "loss": 0.1658916175365448, + "step": 2236 + }, + { + "grad_norm": 0.1547015356121767, + "loss": 0.18858960270881653, + "step": 2237 + }, + { + "grad_norm": 0.21231603623784334, + "loss": 0.21272516250610352, + "step": 2238 + }, + { + "grad_norm": 0.34492354505396344, + "loss": 0.17993402481079102, + "step": 2239 + }, + { + "epoch": 0.7168, + "grad_norm": 0.34492355585098267, + "learning_rate": 8.01145295306535e-05, + "loss": 0.1922, + "step": 2240 + }, + { + "grad_norm": 0.17995598713556282, + "loss": 0.18622177839279175, + "step": 2240 + }, + { + "grad_norm": 0.22089774421101108, + "loss": 0.2215178906917572, + "step": 2241 + }, + { + "grad_norm": 0.326753345449314, + "loss": 0.2551371455192566, + "step": 2242 + }, + { + "grad_norm": 0.2514290045914509, + "loss": 0.1949976682662964, + "step": 2243 + }, + { + "grad_norm": 0.23553040931383137, + "loss": 0.22479745745658875, + "step": 2244 + }, + { + "grad_norm": 0.11368820780014534, + "loss": 0.20136398077011108, + "step": 2245 + }, + { + "grad_norm": 0.15109343145426127, + "loss": 0.2451806515455246, + "step": 2246 + }, + { + "grad_norm": 0.24037915561104023, + "loss": 0.23164065182209015, + "step": 2247 + }, + { + "grad_norm": 0.39168535003563526, + "loss": 0.17697446048259735, + "step": 2248 + }, + { + "grad_norm": 0.1636076544528261, + "loss": 0.17206421494483948, + "step": 2249 + }, + { + "epoch": 0.72, + "grad_norm": 0.163607656955719, + "learning_rate": 8.000224567707165e-05, + "loss": 0.211, + "step": 2250 + }, + { + "grad_norm": 0.19317824116206814, + "loss": 0.19173139333724976, + "step": 2250 + }, + { + "grad_norm": 0.15725893709762662, + "loss": 0.20338621735572815, + "step": 2251 + }, + { + "grad_norm": 0.3896135568335308, + "loss": 0.1771060824394226, + "step": 2252 + }, + { + "grad_norm": 0.17690983998240928, + "loss": 0.2043290138244629, + "step": 2253 + }, + { + "grad_norm": 0.3687450955921381, + "loss": 0.2624008059501648, + "step": 2254 + }, + { + "grad_norm": 0.2126150982889236, + "loss": 0.20212920010089874, + "step": 2255 + }, + { + "grad_norm": 0.1726387974460473, + "loss": 0.21461111307144165, + "step": 2256 + }, + { + "grad_norm": 0.14516713972103826, + "loss": 0.17639540135860443, + "step": 2257 + }, + { + "grad_norm": 0.12198850323641212, + "loss": 0.19669294357299805, + "step": 2258 + }, + { + "grad_norm": 0.2812877436661674, + "loss": 0.2783401310443878, + "step": 2259 + }, + { + "epoch": 0.7232, + "grad_norm": 0.2812877297401428, + "learning_rate": 7.988996182348978e-05, + "loss": 0.2107, + "step": 2260 + }, + { + "grad_norm": 0.28796870270371205, + "loss": 0.2037392258644104, + "step": 2260 + }, + { + "grad_norm": 0.2958554894694785, + "loss": 0.27510249614715576, + "step": 2261 + }, + { + "grad_norm": 0.12184867212965517, + "loss": 0.19319742918014526, + "step": 2262 + }, + { + "grad_norm": 0.2641931892328202, + "loss": 0.16360628604888916, + "step": 2263 + }, + { + "grad_norm": 0.2917068417105781, + "loss": 0.18091262876987457, + "step": 2264 + }, + { + "grad_norm": 0.202315693825312, + "loss": 0.1787208765745163, + "step": 2265 + }, + { + "grad_norm": 0.14258891243209382, + "loss": 0.18424630165100098, + "step": 2266 + }, + { + "grad_norm": 0.1773314062811406, + "loss": 0.1599508821964264, + "step": 2267 + }, + { + "grad_norm": 0.14899429098899164, + "loss": 0.18876159191131592, + "step": 2268 + }, + { + "grad_norm": 0.4210022076440026, + "loss": 0.18921199440956116, + "step": 2269 + }, + { + "epoch": 0.7264, + "grad_norm": 0.42100223898887634, + "learning_rate": 7.977767796990792e-05, + "loss": 0.1917, + "step": 2270 + }, + { + "grad_norm": 0.2613952507444748, + "loss": 0.22591175138950348, + "step": 2270 + }, + { + "grad_norm": 0.20619143873901752, + "loss": 0.1733570545911789, + "step": 2271 + }, + { + "grad_norm": 0.2793354667981477, + "loss": 0.1869281381368637, + "step": 2272 + }, + { + "grad_norm": 0.16057306087556533, + "loss": 0.19986343383789062, + "step": 2273 + }, + { + "grad_norm": 0.11193258013660104, + "loss": 0.21137608587741852, + "step": 2274 + }, + { + "grad_norm": 0.47837498153755603, + "loss": 0.24738964438438416, + "step": 2275 + }, + { + "grad_norm": 0.17308047585349867, + "loss": 0.16830770671367645, + "step": 2276 + }, + { + "grad_norm": 0.12971065804806003, + "loss": 0.17069393396377563, + "step": 2277 + }, + { + "grad_norm": 0.3630334039121471, + "loss": 0.17607234418392181, + "step": 2278 + }, + { + "grad_norm": 0.2709417711544989, + "loss": 0.1580410599708557, + "step": 2279 + }, + { + "epoch": 0.7296, + "grad_norm": 0.27094176411628723, + "learning_rate": 7.966539411632607e-05, + "loss": 0.1918, + "step": 2280 + }, + { + "grad_norm": 0.1529310276629266, + "loss": 0.18839529156684875, + "step": 2280 + }, + { + "grad_norm": 0.11721111872101887, + "loss": 0.15745171904563904, + "step": 2281 + }, + { + "grad_norm": 0.2597752696352109, + "loss": 0.1956767588853836, + "step": 2282 + }, + { + "grad_norm": 0.1623506962872859, + "loss": 0.1865565925836563, + "step": 2283 + }, + { + "grad_norm": 0.17610816449333852, + "loss": 0.1692342609167099, + "step": 2284 + }, + { + "grad_norm": 0.512845051756907, + "loss": 0.2544480860233307, + "step": 2285 + }, + { + "grad_norm": 0.19988170421060608, + "loss": 0.14924725890159607, + "step": 2286 + }, + { + "grad_norm": 0.35194963919182093, + "loss": 0.15358063578605652, + "step": 2287 + }, + { + "grad_norm": 0.12998964418019832, + "loss": 0.15743809938430786, + "step": 2288 + }, + { + "grad_norm": 0.37242258232659714, + "loss": 0.2418486773967743, + "step": 2289 + }, + { + "epoch": 0.7328, + "grad_norm": 0.37242257595062256, + "learning_rate": 7.955311026274422e-05, + "loss": 0.1854, + "step": 2290 + }, + { + "grad_norm": 0.13924033406899566, + "loss": 0.18669186532497406, + "step": 2290 + }, + { + "grad_norm": 0.26567616992395415, + "loss": 0.21497488021850586, + "step": 2291 + }, + { + "grad_norm": 0.22320710634538377, + "loss": 0.1864190697669983, + "step": 2292 + }, + { + "grad_norm": 0.439593683016467, + "loss": 0.15064570307731628, + "step": 2293 + }, + { + "grad_norm": 0.29943071526122045, + "loss": 0.1822209656238556, + "step": 2294 + }, + { + "grad_norm": 0.1420774532094003, + "loss": 0.21304559707641602, + "step": 2295 + }, + { + "grad_norm": 0.3232443444393004, + "loss": 0.206412211060524, + "step": 2296 + }, + { + "grad_norm": 0.09451463523839837, + "loss": 0.167199045419693, + "step": 2297 + }, + { + "grad_norm": 0.1330306975887877, + "loss": 0.16303451359272003, + "step": 2298 + }, + { + "grad_norm": 0.21011948047215695, + "loss": 0.15602749586105347, + "step": 2299 + }, + { + "epoch": 0.736, + "grad_norm": 0.21011948585510254, + "learning_rate": 7.944082640916236e-05, + "loss": 0.1827, + "step": 2300 + }, + { + "grad_norm": 0.13670907199597584, + "loss": 0.19114889204502106, + "step": 2300 + }, + { + "grad_norm": 0.17244527391112563, + "loss": 0.19420264661312103, + "step": 2301 + }, + { + "grad_norm": 0.3182676466832993, + "loss": 0.2474704533815384, + "step": 2302 + }, + { + "grad_norm": 0.1364040596487299, + "loss": 0.1544393002986908, + "step": 2303 + }, + { + "grad_norm": 0.48521446471451474, + "loss": 0.21828952431678772, + "step": 2304 + }, + { + "grad_norm": 0.1581924458394258, + "loss": 0.2110922932624817, + "step": 2305 + }, + { + "grad_norm": 0.23863837158810128, + "loss": 0.21362930536270142, + "step": 2306 + }, + { + "grad_norm": 0.36715665880859444, + "loss": 0.17093691229820251, + "step": 2307 + }, + { + "grad_norm": 0.3103641493076608, + "loss": 0.22648248076438904, + "step": 2308 + }, + { + "grad_norm": 0.124026958846053, + "loss": 0.19230622053146362, + "step": 2309 + }, + { + "epoch": 0.7392, + "grad_norm": 0.12402696162462234, + "learning_rate": 7.932854255558051e-05, + "loss": 0.202, + "step": 2310 + }, + { + "grad_norm": 0.16953308794134164, + "loss": 0.19397450983524323, + "step": 2310 + }, + { + "grad_norm": 0.3474090275243752, + "loss": 0.2035464495420456, + "step": 2311 + }, + { + "grad_norm": 0.2753643410919171, + "loss": 0.18547970056533813, + "step": 2312 + }, + { + "grad_norm": 0.19201011673420465, + "loss": 0.22602060437202454, + "step": 2313 + }, + { + "grad_norm": 0.3340340356233227, + "loss": 0.15457333624362946, + "step": 2314 + }, + { + "grad_norm": 0.26355416055253195, + "loss": 0.1631719022989273, + "step": 2315 + }, + { + "grad_norm": 0.23689927171840777, + "loss": 0.17158403992652893, + "step": 2316 + }, + { + "grad_norm": 0.3388247304775436, + "loss": 0.20460307598114014, + "step": 2317 + }, + { + "grad_norm": 0.15481614239435493, + "loss": 0.24239349365234375, + "step": 2318 + }, + { + "grad_norm": 0.14612216906706982, + "loss": 0.1774066984653473, + "step": 2319 + }, + { + "epoch": 0.7424, + "grad_norm": 0.14612217247486115, + "learning_rate": 7.921625870199866e-05, + "loss": 0.1923, + "step": 2320 + }, + { + "grad_norm": 0.20800412414506106, + "loss": 0.1455424576997757, + "step": 2320 + }, + { + "grad_norm": 0.508551438955952, + "loss": 0.2169066071510315, + "step": 2321 + }, + { + "grad_norm": 0.26002900727640177, + "loss": 0.17338603734970093, + "step": 2322 + }, + { + "grad_norm": 0.20447097536804293, + "loss": 0.16165515780448914, + "step": 2323 + }, + { + "grad_norm": 0.10092831846827978, + "loss": 0.1591705083847046, + "step": 2324 + }, + { + "grad_norm": 0.12836167850498537, + "loss": 0.16513678431510925, + "step": 2325 + }, + { + "grad_norm": 0.48201587354060327, + "loss": 0.26300257444381714, + "step": 2326 + }, + { + "grad_norm": 0.40385909558449656, + "loss": 0.22107231616973877, + "step": 2327 + }, + { + "grad_norm": 0.3759215807651523, + "loss": 0.16614964604377747, + "step": 2328 + }, + { + "grad_norm": 0.24147266498727116, + "loss": 0.19492921233177185, + "step": 2329 + }, + { + "epoch": 0.7456, + "grad_norm": 0.24147266149520874, + "learning_rate": 7.910397484841681e-05, + "loss": 0.1867, + "step": 2330 + }, + { + "grad_norm": 0.20098339160209827, + "loss": 0.23296281695365906, + "step": 2330 + }, + { + "grad_norm": 0.20950214045499407, + "loss": 0.16605304181575775, + "step": 2331 + }, + { + "grad_norm": 0.34184322965468, + "loss": 0.169793963432312, + "step": 2332 + }, + { + "grad_norm": 0.11933529255584988, + "loss": 0.15073058009147644, + "step": 2333 + }, + { + "grad_norm": 0.11621533699628286, + "loss": 0.19360162317752838, + "step": 2334 + }, + { + "grad_norm": 0.30555113339448037, + "loss": 0.22207576036453247, + "step": 2335 + }, + { + "grad_norm": 0.1811829218514506, + "loss": 0.17512187361717224, + "step": 2336 + }, + { + "grad_norm": 0.2791797202259722, + "loss": 0.18083922564983368, + "step": 2337 + }, + { + "grad_norm": 0.5816981649275984, + "loss": 0.36108797788619995, + "step": 2338 + }, + { + "grad_norm": 0.21704956448097418, + "loss": 0.153050035238266, + "step": 2339 + }, + { + "epoch": 0.7488, + "grad_norm": 0.21704956889152527, + "learning_rate": 7.899169099483495e-05, + "loss": 0.2005, + "step": 2340 + }, + { + "grad_norm": 0.2277966608467068, + "loss": 0.1679949164390564, + "step": 2340 + }, + { + "grad_norm": 0.38477006646540324, + "loss": 0.24850255250930786, + "step": 2341 + }, + { + "grad_norm": 0.22930566791099763, + "loss": 0.16037237644195557, + "step": 2342 + }, + { + "grad_norm": 0.3320664176211695, + "loss": 0.1712416112422943, + "step": 2343 + }, + { + "grad_norm": 0.179316119041946, + "loss": 0.15608389675617218, + "step": 2344 + }, + { + "grad_norm": 0.1591828165197384, + "loss": 0.18716830015182495, + "step": 2345 + }, + { + "grad_norm": 0.19253309515387595, + "loss": 0.2094016671180725, + "step": 2346 + }, + { + "grad_norm": 0.24405741021641672, + "loss": 0.1972004771232605, + "step": 2347 + }, + { + "grad_norm": 0.3558830288950077, + "loss": 0.22814197838306427, + "step": 2348 + }, + { + "grad_norm": 0.1305401135553298, + "loss": 0.17807897925376892, + "step": 2349 + }, + { + "epoch": 0.752, + "grad_norm": 0.13054011762142181, + "learning_rate": 7.887940714125309e-05, + "loss": 0.1904, + "step": 2350 + }, + { + "grad_norm": 0.13510600658947575, + "loss": 0.2018793225288391, + "step": 2350 + }, + { + "grad_norm": 0.100440939584505, + "loss": 0.1564496010541916, + "step": 2351 + }, + { + "grad_norm": 0.1843967437497678, + "loss": 0.2646336555480957, + "step": 2352 + }, + { + "grad_norm": 0.17262362938278453, + "loss": 0.21489308774471283, + "step": 2353 + }, + { + "grad_norm": 0.10599072935801264, + "loss": 0.20805642008781433, + "step": 2354 + }, + { + "grad_norm": 0.6817909314696299, + "loss": 0.19350826740264893, + "step": 2355 + }, + { + "grad_norm": 0.4370831425367261, + "loss": 0.25329554080963135, + "step": 2356 + }, + { + "grad_norm": 0.18947899752818909, + "loss": 0.2266385406255722, + "step": 2357 + }, + { + "grad_norm": 0.1411995044240613, + "loss": 0.200705885887146, + "step": 2358 + }, + { + "grad_norm": 0.20976079596786615, + "loss": 0.17137563228607178, + "step": 2359 + }, + { + "epoch": 0.7552, + "grad_norm": 0.20976080000400543, + "learning_rate": 7.876712328767124e-05, + "loss": 0.2091, + "step": 2360 + }, + { + "grad_norm": 0.1416939537789551, + "loss": 0.1853485405445099, + "step": 2360 + }, + { + "grad_norm": 0.17373606153760826, + "loss": 0.14795997738838196, + "step": 2361 + }, + { + "grad_norm": 0.1374410287876688, + "loss": 0.17304867506027222, + "step": 2362 + }, + { + "grad_norm": 0.15921332599076873, + "loss": 0.17299595475196838, + "step": 2363 + }, + { + "grad_norm": 0.2499568938294738, + "loss": 0.20604288578033447, + "step": 2364 + }, + { + "grad_norm": 0.20273524007376306, + "loss": 0.19354873895645142, + "step": 2365 + }, + { + "grad_norm": 0.1853410425905592, + "loss": 0.1720321923494339, + "step": 2366 + }, + { + "grad_norm": 0.14454101639187322, + "loss": 0.1855611503124237, + "step": 2367 + }, + { + "grad_norm": 0.15313089570065758, + "loss": 0.15014857053756714, + "step": 2368 + }, + { + "grad_norm": 0.18724185396256593, + "loss": 0.23202048242092133, + "step": 2369 + }, + { + "epoch": 0.7584, + "grad_norm": 0.1872418373823166, + "learning_rate": 7.865483943408937e-05, + "loss": 0.1819, + "step": 2370 + }, + { + "grad_norm": 0.16585294382964735, + "loss": 0.18417325615882874, + "step": 2370 + }, + { + "grad_norm": 0.18070274076057447, + "loss": 0.2025052309036255, + "step": 2371 + }, + { + "grad_norm": 0.16067098867455817, + "loss": 0.20611928403377533, + "step": 2372 + }, + { + "grad_norm": 0.29849167731745635, + "loss": 0.16478028893470764, + "step": 2373 + }, + { + "grad_norm": 0.16071977923477548, + "loss": 0.2207719087600708, + "step": 2374 + }, + { + "grad_norm": 0.45577225771545254, + "loss": 0.20684313774108887, + "step": 2375 + }, + { + "grad_norm": 0.1357741871731322, + "loss": 0.17197415232658386, + "step": 2376 + }, + { + "grad_norm": 0.1799530990239102, + "loss": 0.20859864354133606, + "step": 2377 + }, + { + "grad_norm": 0.1477904355498706, + "loss": 0.23799848556518555, + "step": 2378 + }, + { + "grad_norm": 0.11212967307690701, + "loss": 0.1576927900314331, + "step": 2379 + }, + { + "epoch": 0.7616, + "grad_norm": 0.11212967336177826, + "learning_rate": 7.854255558050752e-05, + "loss": 0.1961, + "step": 2380 + }, + { + "grad_norm": 0.35063430800649376, + "loss": 0.2524051070213318, + "step": 2380 + }, + { + "grad_norm": 0.191437414893708, + "loss": 0.17361244559288025, + "step": 2381 + }, + { + "grad_norm": 0.2643348395334709, + "loss": 0.20467180013656616, + "step": 2382 + }, + { + "grad_norm": 0.1994364385672045, + "loss": 0.2550029158592224, + "step": 2383 + }, + { + "grad_norm": 0.6433120112637583, + "loss": 0.20825693011283875, + "step": 2384 + }, + { + "grad_norm": 0.28032181293866704, + "loss": 0.19256897270679474, + "step": 2385 + }, + { + "grad_norm": 0.4659950560494387, + "loss": 0.17220035195350647, + "step": 2386 + }, + { + "grad_norm": 0.26976139795348997, + "loss": 0.17594239115715027, + "step": 2387 + }, + { + "grad_norm": 0.4586285869404247, + "loss": 0.2438645362854004, + "step": 2388 + }, + { + "grad_norm": 0.5194988653607732, + "loss": 0.18987330794334412, + "step": 2389 + }, + { + "epoch": 0.7648, + "grad_norm": 0.519498884677887, + "learning_rate": 7.843027172692568e-05, + "loss": 0.2068, + "step": 2390 + }, + { + "grad_norm": 0.46704628395202424, + "loss": 0.22294095158576965, + "step": 2390 + }, + { + "grad_norm": 0.17326398314700883, + "loss": 0.1986466497182846, + "step": 2391 + }, + { + "grad_norm": 0.3000807750386081, + "loss": 0.1472892165184021, + "step": 2392 + }, + { + "grad_norm": 0.23302805396404316, + "loss": 0.2025948464870453, + "step": 2393 + }, + { + "grad_norm": 0.18434102020663742, + "loss": 0.18144644796848297, + "step": 2394 + }, + { + "grad_norm": 0.12901552207969094, + "loss": 0.19968880712985992, + "step": 2395 + }, + { + "grad_norm": 0.2812332087842872, + "loss": 0.13950587809085846, + "step": 2396 + }, + { + "grad_norm": 0.17287025819897567, + "loss": 0.20148082077503204, + "step": 2397 + }, + { + "grad_norm": 0.27044960576436544, + "loss": 0.22105124592781067, + "step": 2398 + }, + { + "grad_norm": 0.1346292850790653, + "loss": 0.21533919870853424, + "step": 2399 + }, + { + "epoch": 0.768, + "grad_norm": 0.1346292942762375, + "learning_rate": 7.831798787334381e-05, + "loss": 0.193, + "step": 2400 + }, + { + "grad_norm": 0.4190064732231446, + "loss": 0.17872318625450134, + "step": 2400 + }, + { + "grad_norm": 0.20566268576082558, + "loss": 0.17720235884189606, + "step": 2401 + }, + { + "grad_norm": 0.2675904870692631, + "loss": 0.1843869984149933, + "step": 2402 + }, + { + "grad_norm": 0.23732810630997567, + "loss": 0.2265213131904602, + "step": 2403 + }, + { + "grad_norm": 0.3754512331751758, + "loss": 0.16307076811790466, + "step": 2404 + }, + { + "grad_norm": 0.14894287445581103, + "loss": 0.20074836909770966, + "step": 2405 + }, + { + "grad_norm": 0.22532051155003271, + "loss": 0.19511866569519043, + "step": 2406 + }, + { + "grad_norm": 0.14472616007202266, + "loss": 0.15454179048538208, + "step": 2407 + }, + { + "grad_norm": 0.21356593088492282, + "loss": 0.19787642359733582, + "step": 2408 + }, + { + "grad_norm": 0.09624541167656309, + "loss": 0.18292206525802612, + "step": 2409 + }, + { + "epoch": 0.7712, + "grad_norm": 0.0962454080581665, + "learning_rate": 7.820570401976196e-05, + "loss": 0.1861, + "step": 2410 + }, + { + "grad_norm": 0.18018532857941494, + "loss": 0.21353311836719513, + "step": 2410 + }, + { + "grad_norm": 0.5069053962145211, + "loss": 0.1962195187807083, + "step": 2411 + }, + { + "grad_norm": 0.18152018650997112, + "loss": 0.20473745465278625, + "step": 2412 + }, + { + "grad_norm": 0.20542270283477973, + "loss": 0.16998794674873352, + "step": 2413 + }, + { + "grad_norm": 0.11757227237282497, + "loss": 0.1310596466064453, + "step": 2414 + }, + { + "grad_norm": 0.23273555896143508, + "loss": 0.17240770161151886, + "step": 2415 + }, + { + "grad_norm": 0.23603729384031444, + "loss": 0.2115565538406372, + "step": 2416 + }, + { + "grad_norm": 0.25702087402269996, + "loss": 0.14719542860984802, + "step": 2417 + }, + { + "grad_norm": 0.20947989289109664, + "loss": 0.20442861318588257, + "step": 2418 + }, + { + "grad_norm": 0.12570427915760435, + "loss": 0.1555142104625702, + "step": 2419 + }, + { + "epoch": 0.7744, + "grad_norm": 0.12570427358150482, + "learning_rate": 7.809342016618011e-05, + "loss": 0.1807, + "step": 2420 + }, + { + "grad_norm": 0.11997455103372899, + "loss": 0.1679193675518036, + "step": 2420 + }, + { + "grad_norm": 0.26054668023482214, + "loss": 0.19849073886871338, + "step": 2421 + }, + { + "grad_norm": 0.2562061539802867, + "loss": 0.21714149415493011, + "step": 2422 + }, + { + "grad_norm": 0.20003212555417554, + "loss": 0.1601707637310028, + "step": 2423 + }, + { + "grad_norm": 0.18520275325067243, + "loss": 0.21564961969852448, + "step": 2424 + }, + { + "grad_norm": 0.09638927682868127, + "loss": 0.1805133819580078, + "step": 2425 + }, + { + "grad_norm": 0.15840239411436335, + "loss": 0.1482921838760376, + "step": 2426 + }, + { + "grad_norm": 0.20654623832022675, + "loss": 0.17563267052173615, + "step": 2427 + }, + { + "grad_norm": 0.15391633746938027, + "loss": 0.1626269519329071, + "step": 2428 + }, + { + "grad_norm": 0.16203444901808, + "loss": 0.16969852149486542, + "step": 2429 + }, + { + "epoch": 0.7776, + "grad_norm": 0.16203445196151733, + "learning_rate": 7.798113631259825e-05, + "loss": 0.1796, + "step": 2430 + }, + { + "grad_norm": 0.33866022953518393, + "loss": 0.22487765550613403, + "step": 2430 + }, + { + "grad_norm": 0.19654281149709915, + "loss": 0.1967431902885437, + "step": 2431 + }, + { + "grad_norm": 0.2465982167208326, + "loss": 0.2990081310272217, + "step": 2432 + }, + { + "grad_norm": 0.38645477732210565, + "loss": 0.16634076833724976, + "step": 2433 + }, + { + "grad_norm": 0.22397665536092992, + "loss": 0.16661390662193298, + "step": 2434 + }, + { + "grad_norm": 0.21329882213594312, + "loss": 0.23527085781097412, + "step": 2435 + }, + { + "grad_norm": 0.18924717628713827, + "loss": 0.1645980030298233, + "step": 2436 + }, + { + "grad_norm": 0.1662877721451272, + "loss": 0.16409321129322052, + "step": 2437 + }, + { + "grad_norm": 0.1445218019247525, + "loss": 0.1843785047531128, + "step": 2438 + }, + { + "grad_norm": 0.2533161742169476, + "loss": 0.18514259159564972, + "step": 2439 + }, + { + "epoch": 0.7808, + "grad_norm": 0.253316193819046, + "learning_rate": 7.78688524590164e-05, + "loss": 0.1987, + "step": 2440 + }, + { + "grad_norm": 0.20199772912481148, + "loss": 0.20987196266651154, + "step": 2440 + }, + { + "grad_norm": 0.16582530335486553, + "loss": 0.21222694218158722, + "step": 2441 + }, + { + "grad_norm": 0.1258770740780711, + "loss": 0.195374995470047, + "step": 2442 + }, + { + "grad_norm": 0.28231353110101093, + "loss": 0.20530156791210175, + "step": 2443 + }, + { + "grad_norm": 0.10343621614213828, + "loss": 0.18373644351959229, + "step": 2444 + }, + { + "grad_norm": 0.15698506275114255, + "loss": 0.15053126215934753, + "step": 2445 + }, + { + "grad_norm": 0.42321147753049165, + "loss": 0.2409266233444214, + "step": 2446 + }, + { + "grad_norm": 0.32284580277279723, + "loss": 0.28951331973075867, + "step": 2447 + }, + { + "grad_norm": 0.4112941947101392, + "loss": 0.18387335538864136, + "step": 2448 + }, + { + "grad_norm": 0.2773669257309108, + "loss": 0.2021891474723816, + "step": 2449 + }, + { + "epoch": 0.784, + "grad_norm": 0.27736690640449524, + "learning_rate": 7.775656860543454e-05, + "loss": 0.2074, + "step": 2450 + }, + { + "grad_norm": 0.34483528892328813, + "loss": 0.17905443906784058, + "step": 2450 + }, + { + "grad_norm": 0.27618836554068954, + "loss": 0.20005670189857483, + "step": 2451 + }, + { + "grad_norm": 0.09921413047937915, + "loss": 0.15230172872543335, + "step": 2452 + }, + { + "grad_norm": 0.15228740479403807, + "loss": 0.17824478447437286, + "step": 2453 + }, + { + "grad_norm": 0.3499711862404411, + "loss": 0.24191692471504211, + "step": 2454 + }, + { + "grad_norm": 0.1489883193391274, + "loss": 0.15638187527656555, + "step": 2455 + }, + { + "grad_norm": 0.1187883266822508, + "loss": 0.18726736307144165, + "step": 2456 + }, + { + "grad_norm": 0.2791470543905815, + "loss": 0.2278619408607483, + "step": 2457 + }, + { + "grad_norm": 0.13596840337038446, + "loss": 0.2189207822084427, + "step": 2458 + }, + { + "grad_norm": 0.29609182220584573, + "loss": 0.21180111169815063, + "step": 2459 + }, + { + "epoch": 0.7872, + "grad_norm": 0.29609182476997375, + "learning_rate": 7.764428475185269e-05, + "loss": 0.1954, + "step": 2460 + }, + { + "grad_norm": 0.24385108826550692, + "loss": 0.19718316197395325, + "step": 2460 + }, + { + "grad_norm": 0.2340819838021374, + "loss": 0.19392022490501404, + "step": 2461 + }, + { + "grad_norm": 0.33732085616656404, + "loss": 0.20256873965263367, + "step": 2462 + }, + { + "grad_norm": 0.20946511072780777, + "loss": 0.17755642533302307, + "step": 2463 + }, + { + "grad_norm": 0.11176978618427909, + "loss": 0.19790145754814148, + "step": 2464 + }, + { + "grad_norm": 0.19597459867135222, + "loss": 0.20376639068126678, + "step": 2465 + }, + { + "grad_norm": 0.10582671725642406, + "loss": 0.2078700065612793, + "step": 2466 + }, + { + "grad_norm": 0.1466352519472616, + "loss": 0.1696387678384781, + "step": 2467 + }, + { + "grad_norm": 0.3539973646196595, + "loss": 0.23017562925815582, + "step": 2468 + }, + { + "grad_norm": 0.12556336538868104, + "loss": 0.17538154125213623, + "step": 2469 + }, + { + "epoch": 0.7904, + "grad_norm": 0.1255633682012558, + "learning_rate": 7.753200089827083e-05, + "loss": 0.1956, + "step": 2470 + }, + { + "grad_norm": 0.4212882608233082, + "loss": 0.23498894274234772, + "step": 2470 + }, + { + "grad_norm": 0.2558531671550493, + "loss": 0.17969824373722076, + "step": 2471 + }, + { + "grad_norm": 0.19533903340330416, + "loss": 0.17883412539958954, + "step": 2472 + }, + { + "grad_norm": 0.34858796395258007, + "loss": 0.21504059433937073, + "step": 2473 + }, + { + "grad_norm": 0.27110433957958524, + "loss": 0.1895417422056198, + "step": 2474 + }, + { + "grad_norm": 0.11545512232359324, + "loss": 0.161823570728302, + "step": 2475 + }, + { + "grad_norm": 0.23593176089775073, + "loss": 0.1572137176990509, + "step": 2476 + }, + { + "grad_norm": 0.24010476237260095, + "loss": 0.21980968117713928, + "step": 2477 + }, + { + "grad_norm": 0.3692085946802319, + "loss": 0.21501734852790833, + "step": 2478 + }, + { + "grad_norm": 0.15914911402930937, + "loss": 0.2523110806941986, + "step": 2479 + }, + { + "epoch": 0.7936, + "grad_norm": 0.15914912521839142, + "learning_rate": 7.741971704468898e-05, + "loss": 0.2004, + "step": 2480 + }, + { + "grad_norm": 0.1161382137795871, + "loss": 0.2374461591243744, + "step": 2480 + }, + { + "grad_norm": 0.15803723896254615, + "loss": 0.22683817148208618, + "step": 2481 + }, + { + "grad_norm": 0.14554284579847576, + "loss": 0.16827233135700226, + "step": 2482 + }, + { + "grad_norm": 0.38504419086254366, + "loss": 0.1839408129453659, + "step": 2483 + }, + { + "grad_norm": 0.12965310559976756, + "loss": 0.2204049527645111, + "step": 2484 + }, + { + "grad_norm": 0.24626790772115542, + "loss": 0.17684313654899597, + "step": 2485 + }, + { + "grad_norm": 0.1506195525621317, + "loss": 0.15489636361598969, + "step": 2486 + }, + { + "grad_norm": 0.4544671335180102, + "loss": 0.20437949895858765, + "step": 2487 + }, + { + "grad_norm": 0.1466127681358269, + "loss": 0.23050688207149506, + "step": 2488 + }, + { + "grad_norm": 0.2549080187531724, + "loss": 0.2463371902704239, + "step": 2489 + }, + { + "epoch": 0.7968, + "grad_norm": 0.25490802526474, + "learning_rate": 7.730743319110713e-05, + "loss": 0.205, + "step": 2490 + }, + { + "grad_norm": 0.24121411193746375, + "loss": 0.22128266096115112, + "step": 2490 + }, + { + "grad_norm": 0.15014830458153117, + "loss": 0.2554340362548828, + "step": 2491 + }, + { + "grad_norm": 0.29249892196071486, + "loss": 0.23370333015918732, + "step": 2492 + }, + { + "grad_norm": 0.37442313184489556, + "loss": 0.24349671602249146, + "step": 2493 + }, + { + "grad_norm": 0.21898522219617253, + "loss": 0.17360253632068634, + "step": 2494 + }, + { + "grad_norm": 0.177999312296515, + "loss": 0.22612273693084717, + "step": 2495 + }, + { + "grad_norm": 0.26941469724471795, + "loss": 0.18542364239692688, + "step": 2496 + }, + { + "grad_norm": 0.2772505120483847, + "loss": 0.2293226271867752, + "step": 2497 + }, + { + "grad_norm": 0.161671378552688, + "loss": 0.22431142628192902, + "step": 2498 + }, + { + "grad_norm": 0.24118031738302975, + "loss": 0.19390426576137543, + "step": 2499 + }, + { + "epoch": 0.8, + "grad_norm": 0.24118031561374664, + "learning_rate": 7.719514933752526e-05, + "loss": 0.2187, + "step": 2500 + }, + { + "grad_norm": 0.20019592384189888, + "loss": 0.18147921562194824, + "step": 2500 + }, + { + "grad_norm": 0.16987095254266693, + "loss": 0.1461363583803177, + "step": 2501 + }, + { + "grad_norm": 0.1201223595158917, + "loss": 0.1856459379196167, + "step": 2502 + }, + { + "grad_norm": 0.17547834341128424, + "loss": 0.16910600662231445, + "step": 2503 + }, + { + "grad_norm": 0.19633265591583612, + "loss": 0.17277048528194427, + "step": 2504 + }, + { + "grad_norm": 0.18916824445195482, + "loss": 0.189712792634964, + "step": 2505 + }, + { + "grad_norm": 0.18143038508813183, + "loss": 0.17496174573898315, + "step": 2506 + }, + { + "grad_norm": 0.7110720031988801, + "loss": 0.2864551246166229, + "step": 2507 + }, + { + "grad_norm": 0.19006754515477062, + "loss": 0.20573528110980988, + "step": 2508 + }, + { + "grad_norm": 0.18467594866513107, + "loss": 0.18371912837028503, + "step": 2509 + }, + { + "epoch": 0.8032, + "grad_norm": 0.18467594683170319, + "learning_rate": 7.708286548394342e-05, + "loss": 0.1896, + "step": 2510 + }, + { + "grad_norm": 0.08972858536915101, + "loss": 0.19191843271255493, + "step": 2510 + }, + { + "grad_norm": 0.3734867323616851, + "loss": 0.18793106079101562, + "step": 2511 + }, + { + "grad_norm": 0.2902305352637147, + "loss": 0.19334621727466583, + "step": 2512 + }, + { + "grad_norm": 0.27363808610048274, + "loss": 0.22997212409973145, + "step": 2513 + }, + { + "grad_norm": 0.17577593081173354, + "loss": 0.2599559426307678, + "step": 2514 + }, + { + "grad_norm": 0.5020872011197169, + "loss": 0.18497201800346375, + "step": 2515 + }, + { + "grad_norm": 0.12559090286661953, + "loss": 0.20986972749233246, + "step": 2516 + }, + { + "grad_norm": 0.13975092297074565, + "loss": 0.19740046560764313, + "step": 2517 + }, + { + "grad_norm": 0.24383842371871975, + "loss": 0.19868215918540955, + "step": 2518 + }, + { + "grad_norm": 0.20041191821355409, + "loss": 0.18745404481887817, + "step": 2519 + }, + { + "epoch": 0.8064, + "grad_norm": 0.20041191577911377, + "learning_rate": 7.697058163036157e-05, + "loss": 0.2042, + "step": 2520 + }, + { + "grad_norm": 0.320055852046674, + "loss": 0.22689424455165863, + "step": 2520 + }, + { + "grad_norm": 0.3719663152852424, + "loss": 0.15643976628780365, + "step": 2521 + }, + { + "grad_norm": 0.3587179572787083, + "loss": 0.18605753779411316, + "step": 2522 + }, + { + "grad_norm": 0.568242970624657, + "loss": 0.2172328680753708, + "step": 2523 + }, + { + "grad_norm": 0.45032027471495556, + "loss": 0.3429926633834839, + "step": 2524 + }, + { + "grad_norm": 0.12509669954563643, + "loss": 0.17824338376522064, + "step": 2525 + }, + { + "grad_norm": 0.20310689833008516, + "loss": 0.2303164303302765, + "step": 2526 + }, + { + "grad_norm": 0.18790182557315518, + "loss": 0.2111031711101532, + "step": 2527 + }, + { + "grad_norm": 0.22574780692547372, + "loss": 0.19817796349525452, + "step": 2528 + }, + { + "grad_norm": 0.12200062709627882, + "loss": 0.2587401568889618, + "step": 2529 + }, + { + "epoch": 0.8096, + "grad_norm": 0.12200062721967697, + "learning_rate": 7.68582977767797e-05, + "loss": 0.2206, + "step": 2530 + }, + { + "grad_norm": 0.6236003380267149, + "loss": 0.17938172817230225, + "step": 2530 + }, + { + "grad_norm": 0.483921604959761, + "loss": 0.22083264589309692, + "step": 2531 + }, + { + "grad_norm": 0.3918696824135353, + "loss": 0.20969994366168976, + "step": 2532 + }, + { + "grad_norm": 0.21825676273949182, + "loss": 0.1785406768321991, + "step": 2533 + }, + { + "grad_norm": 0.22223816154880127, + "loss": 0.20490336418151855, + "step": 2534 + }, + { + "grad_norm": 0.13969869886370867, + "loss": 0.19347073137760162, + "step": 2535 + }, + { + "grad_norm": 0.23118312541329494, + "loss": 0.21395303308963776, + "step": 2536 + }, + { + "grad_norm": 0.133600301592525, + "loss": 0.16656845808029175, + "step": 2537 + }, + { + "grad_norm": 0.13607899267881027, + "loss": 0.2025756537914276, + "step": 2538 + }, + { + "grad_norm": 0.5114597499612763, + "loss": 0.16932439804077148, + "step": 2539 + }, + { + "epoch": 0.8128, + "grad_norm": 0.5114597678184509, + "learning_rate": 7.674601392319784e-05, + "loss": 0.1939, + "step": 2540 + }, + { + "grad_norm": 0.2646175996012034, + "loss": 0.2547536790370941, + "step": 2540 + }, + { + "grad_norm": 0.15419027621791798, + "loss": 0.17076179385185242, + "step": 2541 + }, + { + "grad_norm": 0.22178635007394537, + "loss": 0.2078361064195633, + "step": 2542 + }, + { + "grad_norm": 0.18011835205853807, + "loss": 0.151405930519104, + "step": 2543 + }, + { + "grad_norm": 0.08572652748593408, + "loss": 0.17878341674804688, + "step": 2544 + }, + { + "grad_norm": 0.35292412141638435, + "loss": 0.2006874829530716, + "step": 2545 + }, + { + "grad_norm": 0.15898595619635522, + "loss": 0.25374117493629456, + "step": 2546 + }, + { + "grad_norm": 0.31322173093412087, + "loss": 0.20694181323051453, + "step": 2547 + }, + { + "grad_norm": 0.4365771202699354, + "loss": 0.17872737348079681, + "step": 2548 + }, + { + "grad_norm": 0.20554993450292514, + "loss": 0.1793847680091858, + "step": 2549 + }, + { + "epoch": 0.816, + "grad_norm": 0.2055499255657196, + "learning_rate": 7.663373006961599e-05, + "loss": 0.1983, + "step": 2550 + }, + { + "grad_norm": 0.16637282898921682, + "loss": 0.15056690573692322, + "step": 2550 + }, + { + "grad_norm": 0.2745849383102997, + "loss": 0.2207706719636917, + "step": 2551 + }, + { + "grad_norm": 0.3207496471842331, + "loss": 0.20791815221309662, + "step": 2552 + }, + { + "grad_norm": 0.24497904836909473, + "loss": 0.19033846259117126, + "step": 2553 + }, + { + "grad_norm": 0.23752140012628148, + "loss": 0.20035415887832642, + "step": 2554 + }, + { + "grad_norm": 0.3231399404691465, + "loss": 0.19335240125656128, + "step": 2555 + }, + { + "grad_norm": 0.2493762505318695, + "loss": 0.2660973072052002, + "step": 2556 + }, + { + "grad_norm": 0.3031878835895195, + "loss": 0.3383900225162506, + "step": 2557 + }, + { + "grad_norm": 0.18901685728009163, + "loss": 0.1675207018852234, + "step": 2558 + }, + { + "grad_norm": 0.14392282588546834, + "loss": 0.1896902173757553, + "step": 2559 + }, + { + "epoch": 0.8192, + "grad_norm": 0.143922820687294, + "learning_rate": 7.652144621603414e-05, + "loss": 0.2125, + "step": 2560 + }, + { + "grad_norm": 0.12854331051384665, + "loss": 0.26729071140289307, + "step": 2560 + }, + { + "grad_norm": 0.19746018512067462, + "loss": 0.1603640913963318, + "step": 2561 + }, + { + "grad_norm": 0.1466781877430107, + "loss": 0.15591369569301605, + "step": 2562 + }, + { + "grad_norm": 0.09762932911204841, + "loss": 0.19218407571315765, + "step": 2563 + }, + { + "grad_norm": 0.21068044338376277, + "loss": 0.21190285682678223, + "step": 2564 + }, + { + "grad_norm": 0.09652121839904726, + "loss": 0.1679086685180664, + "step": 2565 + }, + { + "grad_norm": 0.10773485680835612, + "loss": 0.1725420355796814, + "step": 2566 + }, + { + "grad_norm": 0.3866282445011417, + "loss": 0.1731904149055481, + "step": 2567 + }, + { + "grad_norm": 0.3116207103406902, + "loss": 0.31296655535697937, + "step": 2568 + }, + { + "grad_norm": 0.23457649332571545, + "loss": 0.2272181212902069, + "step": 2569 + }, + { + "epoch": 0.8224, + "grad_norm": 0.2345764935016632, + "learning_rate": 7.640916236245228e-05, + "loss": 0.2041, + "step": 2570 + }, + { + "grad_norm": 0.16022216769621123, + "loss": 0.24353337287902832, + "step": 2570 + }, + { + "grad_norm": 0.26961293364804295, + "loss": 0.1584969162940979, + "step": 2571 + }, + { + "grad_norm": 0.1634143262886655, + "loss": 0.223127543926239, + "step": 2572 + }, + { + "grad_norm": 0.14342999036408646, + "loss": 0.1798396110534668, + "step": 2573 + }, + { + "grad_norm": 0.12766362635248185, + "loss": 0.17877990007400513, + "step": 2574 + }, + { + "grad_norm": 0.3973003995854436, + "loss": 0.2385917603969574, + "step": 2575 + }, + { + "grad_norm": 0.16428669341302912, + "loss": 0.21909907460212708, + "step": 2576 + }, + { + "grad_norm": 0.15285476754735464, + "loss": 0.1710287481546402, + "step": 2577 + }, + { + "grad_norm": 0.12360492923832414, + "loss": 0.17086893320083618, + "step": 2578 + }, + { + "grad_norm": 0.14161275356879383, + "loss": 0.19965805113315582, + "step": 2579 + }, + { + "epoch": 0.8256, + "grad_norm": 0.14161275327205658, + "learning_rate": 7.629687850887043e-05, + "loss": 0.1983, + "step": 2580 + }, + { + "grad_norm": 0.11977988753578012, + "loss": 0.18157541751861572, + "step": 2580 + }, + { + "grad_norm": 0.10119129445403946, + "loss": 0.20804353058338165, + "step": 2581 + }, + { + "grad_norm": 0.2834099670497886, + "loss": 0.17161615192890167, + "step": 2582 + }, + { + "grad_norm": 0.30989949059292293, + "loss": 0.1708582639694214, + "step": 2583 + }, + { + "grad_norm": 0.18519717150234596, + "loss": 0.16088193655014038, + "step": 2584 + }, + { + "grad_norm": 0.13856389050172646, + "loss": 0.19679203629493713, + "step": 2585 + }, + { + "grad_norm": 0.17552379267193874, + "loss": 0.17225360870361328, + "step": 2586 + }, + { + "grad_norm": 0.2065735469493425, + "loss": 0.20370489358901978, + "step": 2587 + }, + { + "grad_norm": 0.32228341950567946, + "loss": 0.1942352056503296, + "step": 2588 + }, + { + "grad_norm": 0.447735674273594, + "loss": 0.23595571517944336, + "step": 2589 + }, + { + "epoch": 0.8288, + "grad_norm": 0.4477356970310211, + "learning_rate": 7.618459465528858e-05, + "loss": 0.1896, + "step": 2590 + }, + { + "grad_norm": 0.31852204981967236, + "loss": 0.23061484098434448, + "step": 2590 + }, + { + "grad_norm": 0.1602149182609113, + "loss": 0.18389256298542023, + "step": 2591 + }, + { + "grad_norm": 0.2751404570026716, + "loss": 0.15980994701385498, + "step": 2592 + }, + { + "grad_norm": 0.18295516688754743, + "loss": 0.22198186814785004, + "step": 2593 + }, + { + "grad_norm": 0.4155008314887196, + "loss": 0.17673322558403015, + "step": 2594 + }, + { + "grad_norm": 0.2626079605845628, + "loss": 0.21097882091999054, + "step": 2595 + }, + { + "grad_norm": 0.11178194898104303, + "loss": 0.20477639138698578, + "step": 2596 + }, + { + "grad_norm": 0.11462185644035298, + "loss": 0.1823522299528122, + "step": 2597 + }, + { + "grad_norm": 0.26225312516639226, + "loss": 0.27642565965652466, + "step": 2598 + }, + { + "grad_norm": 0.32437454274235183, + "loss": 0.16490571200847626, + "step": 2599 + }, + { + "epoch": 0.832, + "grad_norm": 0.32437455654144287, + "learning_rate": 7.607231080170672e-05, + "loss": 0.2012, + "step": 2600 + }, + { + "grad_norm": 0.20425750481185465, + "loss": 0.1903066784143448, + "step": 2600 + }, + { + "grad_norm": 0.1262701648533719, + "loss": 0.20966410636901855, + "step": 2601 + }, + { + "grad_norm": 0.20182086365519103, + "loss": 0.23897670209407806, + "step": 2602 + }, + { + "grad_norm": 0.32226494872743355, + "loss": 0.18104560673236847, + "step": 2603 + }, + { + "grad_norm": 0.23414682274573603, + "loss": 0.2747890055179596, + "step": 2604 + }, + { + "grad_norm": 0.38960266102902436, + "loss": 0.2035956233739853, + "step": 2605 + }, + { + "grad_norm": 0.11810538076647598, + "loss": 0.1972474306821823, + "step": 2606 + }, + { + "grad_norm": 0.45767354674049976, + "loss": 0.2648038864135742, + "step": 2607 + }, + { + "grad_norm": 0.16252996911791961, + "loss": 0.20380455255508423, + "step": 2608 + }, + { + "grad_norm": 0.24398133537335573, + "loss": 0.2741450369358063, + "step": 2609 + }, + { + "epoch": 0.8352, + "grad_norm": 0.24398133158683777, + "learning_rate": 7.596002694812487e-05, + "loss": 0.2238, + "step": 2610 + }, + { + "grad_norm": 0.23129716502079165, + "loss": 0.16160739958286285, + "step": 2610 + }, + { + "grad_norm": 0.20400017350719668, + "loss": 0.17454893887043, + "step": 2611 + }, + { + "grad_norm": 0.18419396112409578, + "loss": 0.18563386797904968, + "step": 2612 + }, + { + "grad_norm": 0.20120421212926815, + "loss": 0.19879329204559326, + "step": 2613 + }, + { + "grad_norm": 0.144233901946767, + "loss": 0.2129984200000763, + "step": 2614 + }, + { + "grad_norm": 0.12585649118477066, + "loss": 0.1794969141483307, + "step": 2615 + }, + { + "grad_norm": 0.16794619373850758, + "loss": 0.14581310749053955, + "step": 2616 + }, + { + "grad_norm": 0.12082556058454325, + "loss": 0.2080976963043213, + "step": 2617 + }, + { + "grad_norm": 0.5258845383604018, + "loss": 0.21435225009918213, + "step": 2618 + }, + { + "grad_norm": 0.48176452097416783, + "loss": 0.1880662441253662, + "step": 2619 + }, + { + "epoch": 0.8384, + "grad_norm": 0.481764554977417, + "learning_rate": 7.5847743094543e-05, + "loss": 0.1869, + "step": 2620 + }, + { + "grad_norm": 0.16297506900102016, + "loss": 0.2026081085205078, + "step": 2620 + }, + { + "grad_norm": 0.27258682180400184, + "loss": 0.16666068136692047, + "step": 2621 + }, + { + "grad_norm": 0.2374403827440251, + "loss": 0.15676730871200562, + "step": 2622 + }, + { + "grad_norm": 0.18106345458808248, + "loss": 0.237959086894989, + "step": 2623 + }, + { + "grad_norm": 0.2208543366042096, + "loss": 0.15812762081623077, + "step": 2624 + }, + { + "grad_norm": 0.1750292928808384, + "loss": 0.1640646904706955, + "step": 2625 + }, + { + "grad_norm": 0.23319549974061465, + "loss": 0.19256101548671722, + "step": 2626 + }, + { + "grad_norm": 0.2322744085029916, + "loss": 0.1772729903459549, + "step": 2627 + }, + { + "grad_norm": 0.10897865533749279, + "loss": 0.16029465198516846, + "step": 2628 + }, + { + "grad_norm": 0.14867210420804935, + "loss": 0.19471997022628784, + "step": 2629 + }, + { + "epoch": 0.8416, + "grad_norm": 0.14867210388183594, + "learning_rate": 7.573545924096114e-05, + "loss": 0.1811, + "step": 2630 + }, + { + "grad_norm": 0.17641323262469646, + "loss": 0.19279144704341888, + "step": 2630 + }, + { + "grad_norm": 0.2209090495070704, + "loss": 0.25258350372314453, + "step": 2631 + }, + { + "grad_norm": 0.22146377854914143, + "loss": 0.26773256063461304, + "step": 2632 + }, + { + "grad_norm": 0.12708969072188211, + "loss": 0.17137162387371063, + "step": 2633 + }, + { + "grad_norm": 0.14897063938899716, + "loss": 0.21910057961940765, + "step": 2634 + }, + { + "grad_norm": 0.3203322983067786, + "loss": 0.2219187319278717, + "step": 2635 + }, + { + "grad_norm": 0.14683286366754628, + "loss": 0.1904347836971283, + "step": 2636 + }, + { + "grad_norm": 0.12526000846139887, + "loss": 0.251639187335968, + "step": 2637 + }, + { + "grad_norm": 0.26390007210119015, + "loss": 0.17421604692935944, + "step": 2638 + }, + { + "grad_norm": 0.13860155664800525, + "loss": 0.21038322150707245, + "step": 2639 + }, + { + "epoch": 0.8448, + "grad_norm": 0.13860155642032623, + "learning_rate": 7.562317538737929e-05, + "loss": 0.2152, + "step": 2640 + }, + { + "grad_norm": 0.22522585502673806, + "loss": 0.22365912795066833, + "step": 2640 + }, + { + "grad_norm": 0.17293870286235558, + "loss": 0.2110549807548523, + "step": 2641 + }, + { + "grad_norm": 0.28442079495804223, + "loss": 0.24357962608337402, + "step": 2642 + }, + { + "grad_norm": 0.2938942127320651, + "loss": 0.248952716588974, + "step": 2643 + }, + { + "grad_norm": 0.38779136813963905, + "loss": 0.1980006992816925, + "step": 2644 + }, + { + "grad_norm": 0.1513590558836564, + "loss": 0.2378404289484024, + "step": 2645 + }, + { + "grad_norm": 0.1296999326357965, + "loss": 0.23358456790447235, + "step": 2646 + }, + { + "grad_norm": 0.32893004861340625, + "loss": 0.20622190833091736, + "step": 2647 + }, + { + "grad_norm": 0.24002215650998482, + "loss": 0.20236678421497345, + "step": 2648 + }, + { + "grad_norm": 0.268653906973231, + "loss": 0.20355254411697388, + "step": 2649 + }, + { + "epoch": 0.848, + "grad_norm": 0.26865389943122864, + "learning_rate": 7.551089153379744e-05, + "loss": 0.2209, + "step": 2650 + }, + { + "grad_norm": 0.1165218325390953, + "loss": 0.24245905876159668, + "step": 2650 + }, + { + "grad_norm": 0.1580902161729857, + "loss": 0.22747160494327545, + "step": 2651 + }, + { + "grad_norm": 0.45874165520371823, + "loss": 0.171260803937912, + "step": 2652 + }, + { + "grad_norm": 0.1768338055272094, + "loss": 0.18992003798484802, + "step": 2653 + }, + { + "grad_norm": 0.2812340645529539, + "loss": 0.19890642166137695, + "step": 2654 + }, + { + "grad_norm": 0.1734862262752035, + "loss": 0.19152335822582245, + "step": 2655 + }, + { + "grad_norm": 0.12115122182201532, + "loss": 0.1518491506576538, + "step": 2656 + }, + { + "grad_norm": 0.14458227063573204, + "loss": 0.16470777988433838, + "step": 2657 + }, + { + "grad_norm": 0.38000599380224165, + "loss": 0.31102004647254944, + "step": 2658 + }, + { + "grad_norm": 0.19769036957961988, + "loss": 0.20736560225486755, + "step": 2659 + }, + { + "epoch": 0.8512, + "grad_norm": 0.19769036769866943, + "learning_rate": 7.53986076802156e-05, + "loss": 0.2056, + "step": 2660 + }, + { + "grad_norm": 0.10506223376490556, + "loss": 0.18802058696746826, + "step": 2660 + }, + { + "grad_norm": 0.2999520460915736, + "loss": 0.20143744349479675, + "step": 2661 + }, + { + "grad_norm": 0.20083087840828046, + "loss": 0.17595313489437103, + "step": 2662 + }, + { + "grad_norm": 0.27706184384166743, + "loss": 0.22058719396591187, + "step": 2663 + }, + { + "grad_norm": 0.3177429333520583, + "loss": 0.16555249691009521, + "step": 2664 + }, + { + "grad_norm": 0.24561744995156962, + "loss": 0.19711104035377502, + "step": 2665 + }, + { + "grad_norm": 0.11568390233251681, + "loss": 0.1860526204109192, + "step": 2666 + }, + { + "grad_norm": 0.1403722745758155, + "loss": 0.18980832397937775, + "step": 2667 + }, + { + "grad_norm": 0.21761618923239517, + "loss": 0.17252978682518005, + "step": 2668 + }, + { + "grad_norm": 0.08871612124126611, + "loss": 0.15504474937915802, + "step": 2669 + }, + { + "epoch": 0.8544, + "grad_norm": 0.08871612697839737, + "learning_rate": 7.528632382663373e-05, + "loss": 0.1852, + "step": 2670 + }, + { + "grad_norm": 0.36054396534271915, + "loss": 0.17409496009349823, + "step": 2670 + }, + { + "grad_norm": 0.13170592907624573, + "loss": 0.15173515677452087, + "step": 2671 + }, + { + "grad_norm": 0.39728479616800766, + "loss": 0.20372915267944336, + "step": 2672 + }, + { + "grad_norm": 0.10935836668376395, + "loss": 0.16509053111076355, + "step": 2673 + }, + { + "grad_norm": 0.20005760894944588, + "loss": 0.19401021301746368, + "step": 2674 + }, + { + "grad_norm": 0.4220587728177609, + "loss": 0.23448415100574493, + "step": 2675 + }, + { + "grad_norm": 0.314163766226989, + "loss": 0.18723976612091064, + "step": 2676 + }, + { + "grad_norm": 0.23423500616794096, + "loss": 0.14252722263336182, + "step": 2677 + }, + { + "grad_norm": 0.19588368086999336, + "loss": 0.1999235302209854, + "step": 2678 + }, + { + "grad_norm": 0.12152488899754758, + "loss": 0.20830325782299042, + "step": 2679 + }, + { + "epoch": 0.8576, + "grad_norm": 0.12152489274740219, + "learning_rate": 7.517403997305188e-05, + "loss": 0.1861, + "step": 2680 + }, + { + "grad_norm": 0.12870450363402433, + "loss": 0.21663498878479004, + "step": 2680 + }, + { + "grad_norm": 0.2613565943527116, + "loss": 0.16788719594478607, + "step": 2681 + }, + { + "grad_norm": 0.2528130897914655, + "loss": 0.20349664986133575, + "step": 2682 + }, + { + "grad_norm": 0.16720172058699834, + "loss": 0.16635330021381378, + "step": 2683 + }, + { + "grad_norm": 0.11898882089973489, + "loss": 0.16751380264759064, + "step": 2684 + }, + { + "grad_norm": 0.27144147328970314, + "loss": 0.17578741908073425, + "step": 2685 + }, + { + "grad_norm": 0.14966240007837187, + "loss": 0.15680627524852753, + "step": 2686 + }, + { + "grad_norm": 0.48011337210361743, + "loss": 0.21237888932228088, + "step": 2687 + }, + { + "grad_norm": 0.2724013692176695, + "loss": 0.2579708397388458, + "step": 2688 + }, + { + "grad_norm": 0.22325195534206968, + "loss": 0.2527301013469696, + "step": 2689 + }, + { + "epoch": 0.8608, + "grad_norm": 0.22325195372104645, + "learning_rate": 7.506175611947003e-05, + "loss": 0.1978, + "step": 2690 + }, + { + "grad_norm": 0.20706753644666023, + "loss": 0.1979268342256546, + "step": 2690 + }, + { + "grad_norm": 0.37010118042693435, + "loss": 0.1769457906484604, + "step": 2691 + }, + { + "grad_norm": 0.17361577511418955, + "loss": 0.26121971011161804, + "step": 2692 + }, + { + "grad_norm": 0.15342555383798265, + "loss": 0.1966305673122406, + "step": 2693 + }, + { + "grad_norm": 0.3401594852849084, + "loss": 0.259150892496109, + "step": 2694 + }, + { + "grad_norm": 0.27383648532010446, + "loss": 0.17628657817840576, + "step": 2695 + }, + { + "grad_norm": 0.30176803952210113, + "loss": 0.2143225371837616, + "step": 2696 + }, + { + "grad_norm": 0.15710812784912342, + "loss": 0.21121558547019958, + "step": 2697 + }, + { + "grad_norm": 0.43184943387910085, + "loss": 0.2963428199291229, + "step": 2698 + }, + { + "grad_norm": 0.3980352869321364, + "loss": 0.1820417046546936, + "step": 2699 + }, + { + "epoch": 0.864, + "grad_norm": 0.39803528785705566, + "learning_rate": 7.494947226588817e-05, + "loss": 0.2172, + "step": 2700 + }, + { + "grad_norm": 0.32958677425518873, + "loss": 0.18669112026691437, + "step": 2700 + }, + { + "grad_norm": 0.44591892340266037, + "loss": 0.20184949040412903, + "step": 2701 + }, + { + "grad_norm": 0.22690772005849336, + "loss": 0.19432024657726288, + "step": 2702 + }, + { + "grad_norm": 0.2154782692299889, + "loss": 0.1691046506166458, + "step": 2703 + }, + { + "grad_norm": 0.3045272608026388, + "loss": 0.2256779968738556, + "step": 2704 + }, + { + "grad_norm": 0.130111894145974, + "loss": 0.19775253534317017, + "step": 2705 + }, + { + "grad_norm": 0.14594116658288164, + "loss": 0.22643399238586426, + "step": 2706 + }, + { + "grad_norm": 0.42274233297039193, + "loss": 0.16741114854812622, + "step": 2707 + }, + { + "grad_norm": 0.20246304088785166, + "loss": 0.17472776770591736, + "step": 2708 + }, + { + "grad_norm": 0.16201450408350865, + "loss": 0.16682025790214539, + "step": 2709 + }, + { + "epoch": 0.8672, + "grad_norm": 0.16201449930667877, + "learning_rate": 7.483718841230631e-05, + "loss": 0.1911, + "step": 2710 + }, + { + "grad_norm": 0.3478439667699977, + "loss": 0.2384050041437149, + "step": 2710 + }, + { + "grad_norm": 0.18055694107015882, + "loss": 0.1807483732700348, + "step": 2711 + }, + { + "grad_norm": 0.16043929374702082, + "loss": 0.27725544571876526, + "step": 2712 + }, + { + "grad_norm": 0.189684324466667, + "loss": 0.1726379096508026, + "step": 2713 + }, + { + "grad_norm": 0.22830373751919178, + "loss": 0.23795586824417114, + "step": 2714 + }, + { + "grad_norm": 0.26442361475501874, + "loss": 0.205543652176857, + "step": 2715 + }, + { + "grad_norm": 0.48252131032372564, + "loss": 0.19504737854003906, + "step": 2716 + }, + { + "grad_norm": 0.30747330822503105, + "loss": 0.2594614326953888, + "step": 2717 + }, + { + "grad_norm": 0.15402826261161884, + "loss": 0.21653041243553162, + "step": 2718 + }, + { + "grad_norm": 0.08962103664983297, + "loss": 0.16207174956798553, + "step": 2719 + }, + { + "epoch": 0.8704, + "grad_norm": 0.08962103724479675, + "learning_rate": 7.472490455872446e-05, + "loss": 0.2146, + "step": 2720 + }, + { + "grad_norm": 0.3354991891279849, + "loss": 0.2154744267463684, + "step": 2720 + }, + { + "grad_norm": 0.34095536428883033, + "loss": 0.18447336554527283, + "step": 2721 + }, + { + "grad_norm": 0.17975522499594893, + "loss": 0.1887495070695877, + "step": 2722 + }, + { + "grad_norm": 0.1453207486736427, + "loss": 0.1719100922346115, + "step": 2723 + }, + { + "grad_norm": 0.25221225334631187, + "loss": 0.1750992238521576, + "step": 2724 + }, + { + "grad_norm": 0.21662742980507857, + "loss": 0.17283476889133453, + "step": 2725 + }, + { + "grad_norm": 0.20690216805729109, + "loss": 0.18527007102966309, + "step": 2726 + }, + { + "grad_norm": 0.2675917550600884, + "loss": 0.1610592007637024, + "step": 2727 + }, + { + "grad_norm": 0.20653361133152384, + "loss": 0.21319998800754547, + "step": 2728 + }, + { + "grad_norm": 0.20119925129458127, + "loss": 0.19828903675079346, + "step": 2729 + }, + { + "epoch": 0.8736, + "grad_norm": 0.2011992633342743, + "learning_rate": 7.46126207051426e-05, + "loss": 0.1866, + "step": 2730 + }, + { + "grad_norm": 0.20550738771900626, + "loss": 0.23026087880134583, + "step": 2730 + }, + { + "grad_norm": 0.11655820745210657, + "loss": 0.18868091702461243, + "step": 2731 + }, + { + "grad_norm": 0.2898669117563726, + "loss": 0.2031431943178177, + "step": 2732 + }, + { + "grad_norm": 0.23650431544464184, + "loss": 0.1657264232635498, + "step": 2733 + }, + { + "grad_norm": 0.269542057192715, + "loss": 0.15921545028686523, + "step": 2734 + }, + { + "grad_norm": 0.09875405335735184, + "loss": 0.17090877890586853, + "step": 2735 + }, + { + "grad_norm": 0.40535972523517166, + "loss": 0.1996825933456421, + "step": 2736 + }, + { + "grad_norm": 0.13951760446810255, + "loss": 0.16969597339630127, + "step": 2737 + }, + { + "grad_norm": 0.257442529371064, + "loss": 0.18203961849212646, + "step": 2738 + }, + { + "grad_norm": 0.33954026802300097, + "loss": 0.2168998122215271, + "step": 2739 + }, + { + "epoch": 0.8768, + "grad_norm": 0.3395402729511261, + "learning_rate": 7.450033685156075e-05, + "loss": 0.1886, + "step": 2740 + }, + { + "grad_norm": 0.14608149135140913, + "loss": 0.1709381490945816, + "step": 2740 + }, + { + "grad_norm": 0.21583447125951002, + "loss": 0.15239915251731873, + "step": 2741 + }, + { + "grad_norm": 0.1120708712197268, + "loss": 0.2046341449022293, + "step": 2742 + }, + { + "grad_norm": 0.17925236352382093, + "loss": 0.16014321148395538, + "step": 2743 + }, + { + "grad_norm": 0.22709184754220493, + "loss": 0.21565935015678406, + "step": 2744 + }, + { + "grad_norm": 0.16861501585966646, + "loss": 0.1820816993713379, + "step": 2745 + }, + { + "grad_norm": 0.14322675198328358, + "loss": 0.20034678280353546, + "step": 2746 + }, + { + "grad_norm": 0.12487004584480026, + "loss": 0.1497756540775299, + "step": 2747 + }, + { + "grad_norm": 0.16626005223384432, + "loss": 0.2685554623603821, + "step": 2748 + }, + { + "grad_norm": 0.19809774320942108, + "loss": 0.21515004336833954, + "step": 2749 + }, + { + "epoch": 0.88, + "grad_norm": 0.19809773564338684, + "learning_rate": 7.43880529979789e-05, + "loss": 0.192, + "step": 2750 + }, + { + "grad_norm": 0.16481475254445485, + "loss": 0.20474427938461304, + "step": 2750 + }, + { + "grad_norm": 1.4775709592787885, + "loss": 0.5224034786224365, + "step": 2751 + }, + { + "grad_norm": 0.23083316459336878, + "loss": 0.20482413470745087, + "step": 2752 + }, + { + "grad_norm": 0.21438040901037111, + "loss": 0.180891215801239, + "step": 2753 + }, + { + "grad_norm": 0.1019306147415515, + "loss": 0.19538961350917816, + "step": 2754 + }, + { + "grad_norm": 0.10082991519721808, + "loss": 0.16838668286800385, + "step": 2755 + }, + { + "grad_norm": 0.23165345908189044, + "loss": 0.1766476184129715, + "step": 2756 + }, + { + "grad_norm": 0.1281078667145894, + "loss": 0.18746373057365417, + "step": 2757 + }, + { + "grad_norm": 0.09478910228730975, + "loss": 0.18397831916809082, + "step": 2758 + }, + { + "grad_norm": 0.1411229788583289, + "loss": 0.2390172928571701, + "step": 2759 + }, + { + "epoch": 0.8832, + "grad_norm": 0.1411229819059372, + "learning_rate": 7.427576914439703e-05, + "loss": 0.2264, + "step": 2760 + }, + { + "grad_norm": 0.2191838149174983, + "loss": 0.19913631677627563, + "step": 2760 + }, + { + "grad_norm": 0.17390811067474884, + "loss": 0.21909794211387634, + "step": 2761 + }, + { + "grad_norm": 0.17914643515121512, + "loss": 0.24734798073768616, + "step": 2762 + }, + { + "grad_norm": 0.39509980468742945, + "loss": 0.15521946549415588, + "step": 2763 + }, + { + "grad_norm": 0.15082236782034358, + "loss": 0.18474048376083374, + "step": 2764 + }, + { + "grad_norm": 0.3643245971867377, + "loss": 0.24599306285381317, + "step": 2765 + }, + { + "grad_norm": 0.12729112707004422, + "loss": 0.2057923674583435, + "step": 2766 + }, + { + "grad_norm": 0.30663387520438257, + "loss": 0.2472628355026245, + "step": 2767 + }, + { + "grad_norm": 0.17945555392973825, + "loss": 0.16574516892433167, + "step": 2768 + }, + { + "grad_norm": 0.4905540613487892, + "loss": 0.30627304315567017, + "step": 2769 + }, + { + "epoch": 0.8864, + "grad_norm": 0.4905540645122528, + "learning_rate": 7.416348529081518e-05, + "loss": 0.2177, + "step": 2770 + }, + { + "grad_norm": 0.3137619124351498, + "loss": 0.16964225471019745, + "step": 2770 + }, + { + "grad_norm": 0.11752467055998302, + "loss": 0.16693086922168732, + "step": 2771 + }, + { + "grad_norm": 0.23421607434205563, + "loss": 0.2362518310546875, + "step": 2772 + }, + { + "grad_norm": 0.11270239236695995, + "loss": 0.2082962989807129, + "step": 2773 + }, + { + "grad_norm": 0.2059399192719377, + "loss": 0.26376503705978394, + "step": 2774 + }, + { + "grad_norm": 0.28370506950305063, + "loss": 0.2106957882642746, + "step": 2775 + }, + { + "grad_norm": 0.20531129171969448, + "loss": 0.1706426739692688, + "step": 2776 + }, + { + "grad_norm": 0.17425948926288168, + "loss": 0.21092213690280914, + "step": 2777 + }, + { + "grad_norm": 0.23492802341991878, + "loss": 0.220994234085083, + "step": 2778 + }, + { + "grad_norm": 0.26518194227524294, + "loss": 0.1531490832567215, + "step": 2779 + }, + { + "epoch": 0.8896, + "grad_norm": 0.26518192887306213, + "learning_rate": 7.405120143723333e-05, + "loss": 0.2011, + "step": 2780 + }, + { + "grad_norm": 0.1672569612343051, + "loss": 0.18726840615272522, + "step": 2780 + }, + { + "grad_norm": 0.33856796117305604, + "loss": 0.19343924522399902, + "step": 2781 + }, + { + "grad_norm": 0.16620752220548193, + "loss": 0.24148283898830414, + "step": 2782 + }, + { + "grad_norm": 0.4265102037725028, + "loss": 0.22570285201072693, + "step": 2783 + }, + { + "grad_norm": 0.2272956374766615, + "loss": 0.18958719074726105, + "step": 2784 + }, + { + "grad_norm": 0.12602142956781578, + "loss": 0.15633225440979004, + "step": 2785 + }, + { + "grad_norm": 0.23734742218627294, + "loss": 0.18652789294719696, + "step": 2786 + }, + { + "grad_norm": 0.21530174934186916, + "loss": 0.24254029989242554, + "step": 2787 + }, + { + "grad_norm": 0.13932279697537528, + "loss": 0.15773507952690125, + "step": 2788 + }, + { + "grad_norm": 0.2268215750299931, + "loss": 0.18948066234588623, + "step": 2789 + }, + { + "epoch": 0.8928, + "grad_norm": 0.22682157158851624, + "learning_rate": 7.393891758365149e-05, + "loss": 0.197, + "step": 2790 + }, + { + "grad_norm": 0.14884820143255142, + "loss": 0.2073041796684265, + "step": 2790 + }, + { + "grad_norm": 0.3552297630461306, + "loss": 0.2273872196674347, + "step": 2791 + }, + { + "grad_norm": 0.301412106324951, + "loss": 0.20340710878372192, + "step": 2792 + }, + { + "grad_norm": 0.29377228593320787, + "loss": 0.17762190103530884, + "step": 2793 + }, + { + "grad_norm": 0.13654302366610493, + "loss": 0.25460493564605713, + "step": 2794 + }, + { + "grad_norm": 0.275299207241149, + "loss": 0.18242807686328888, + "step": 2795 + }, + { + "grad_norm": 0.21082799812654174, + "loss": 0.16690555214881897, + "step": 2796 + }, + { + "grad_norm": 0.15966438951027823, + "loss": 0.1738983392715454, + "step": 2797 + }, + { + "grad_norm": 0.28182389164632565, + "loss": 0.208981454372406, + "step": 2798 + }, + { + "grad_norm": 0.20984944336677758, + "loss": 0.20557813346385956, + "step": 2799 + }, + { + "epoch": 0.896, + "grad_norm": 0.20984944701194763, + "learning_rate": 7.382663373006962e-05, + "loss": 0.2008, + "step": 2800 + }, + { + "grad_norm": 0.14952117327450926, + "loss": 0.2320428192615509, + "step": 2800 + }, + { + "grad_norm": 0.3671739945264459, + "loss": 0.18061032891273499, + "step": 2801 + }, + { + "grad_norm": 0.1535436192750091, + "loss": 0.169584721326828, + "step": 2802 + }, + { + "grad_norm": 0.16564222763199446, + "loss": 0.21811841428279877, + "step": 2803 + }, + { + "grad_norm": 0.22097392423859225, + "loss": 0.24345263838768005, + "step": 2804 + }, + { + "grad_norm": 0.16140888501286388, + "loss": 0.20622320473194122, + "step": 2805 + }, + { + "grad_norm": 0.3350867026702655, + "loss": 0.17437593638896942, + "step": 2806 + }, + { + "grad_norm": 0.19014021936768621, + "loss": 0.21295633912086487, + "step": 2807 + }, + { + "grad_norm": 0.10715459662936602, + "loss": 0.19699206948280334, + "step": 2808 + }, + { + "grad_norm": 0.09985147335359831, + "loss": 0.18280646204948425, + "step": 2809 + }, + { + "epoch": 0.8992, + "grad_norm": 0.09985147416591644, + "learning_rate": 7.371434987648776e-05, + "loss": 0.2017, + "step": 2810 + }, + { + "grad_norm": 0.16697063827151215, + "loss": 0.18163561820983887, + "step": 2810 + }, + { + "grad_norm": 0.1689382098229382, + "loss": 0.1641915738582611, + "step": 2811 + }, + { + "grad_norm": 0.4985649793059945, + "loss": 0.26162657141685486, + "step": 2812 + }, + { + "grad_norm": 0.19963622580622453, + "loss": 0.19161266088485718, + "step": 2813 + }, + { + "grad_norm": 0.13105478857845515, + "loss": 0.17352667450904846, + "step": 2814 + }, + { + "grad_norm": 0.18645206460888505, + "loss": 0.19096672534942627, + "step": 2815 + }, + { + "grad_norm": 0.19575213183289028, + "loss": 0.2075011134147644, + "step": 2816 + }, + { + "grad_norm": 0.1514758180304899, + "loss": 0.1803949475288391, + "step": 2817 + }, + { + "grad_norm": 0.247000297510619, + "loss": 0.24070890247821808, + "step": 2818 + }, + { + "grad_norm": 0.13415023939326715, + "loss": 0.16072869300842285, + "step": 2819 + }, + { + "epoch": 0.9024, + "grad_norm": 0.13415023684501648, + "learning_rate": 7.360206602290591e-05, + "loss": 0.1953, + "step": 2820 + }, + { + "grad_norm": 0.22566430672566173, + "loss": 0.200810968875885, + "step": 2820 + }, + { + "grad_norm": 0.3157929845896059, + "loss": 0.24733498692512512, + "step": 2821 + }, + { + "grad_norm": 0.18716678860096117, + "loss": 0.2132091075181961, + "step": 2822 + }, + { + "grad_norm": 0.14278537936883937, + "loss": 0.22219720482826233, + "step": 2823 + }, + { + "grad_norm": 0.14674999886897283, + "loss": 0.16701358556747437, + "step": 2824 + }, + { + "grad_norm": 0.19017967662118607, + "loss": 0.1777379959821701, + "step": 2825 + }, + { + "grad_norm": 0.1819433544360122, + "loss": 0.22414743900299072, + "step": 2826 + }, + { + "grad_norm": 0.21725856685289258, + "loss": 0.18629631400108337, + "step": 2827 + }, + { + "grad_norm": 0.22271890935579622, + "loss": 0.18626663088798523, + "step": 2828 + }, + { + "grad_norm": 0.1196976651359743, + "loss": 0.2118910253047943, + "step": 2829 + }, + { + "epoch": 0.9056, + "grad_norm": 0.11969766020774841, + "learning_rate": 7.348978216932405e-05, + "loss": 0.2037, + "step": 2830 + }, + { + "grad_norm": 0.18653425364812065, + "loss": 0.2076541632413864, + "step": 2830 + }, + { + "grad_norm": 0.24967431525222372, + "loss": 0.2147432416677475, + "step": 2831 + }, + { + "grad_norm": 0.12601945825407232, + "loss": 0.21318906545639038, + "step": 2832 + }, + { + "grad_norm": 0.24121307563180078, + "loss": 0.20372113585472107, + "step": 2833 + }, + { + "grad_norm": 0.21921942572467315, + "loss": 0.18073031306266785, + "step": 2834 + }, + { + "grad_norm": 0.14990726068818488, + "loss": 0.1612972468137741, + "step": 2835 + }, + { + "grad_norm": 0.16036830425701704, + "loss": 0.20646247267723083, + "step": 2836 + }, + { + "grad_norm": 0.13593970655119972, + "loss": 0.18046066164970398, + "step": 2837 + }, + { + "grad_norm": 0.1463822406568126, + "loss": 0.1753920614719391, + "step": 2838 + }, + { + "grad_norm": 0.148789153109042, + "loss": 0.20286092162132263, + "step": 2839 + }, + { + "epoch": 0.9088, + "grad_norm": 0.1487891525030136, + "learning_rate": 7.33774983157422e-05, + "loss": 0.1947, + "step": 2840 + }, + { + "grad_norm": 0.46522848071473294, + "loss": 0.247630313038826, + "step": 2840 + }, + { + "grad_norm": 0.2001507716382215, + "loss": 0.2000468373298645, + "step": 2841 + }, + { + "grad_norm": 0.3351926297461861, + "loss": 0.2298918068408966, + "step": 2842 + }, + { + "grad_norm": 0.1259196075740018, + "loss": 0.16791534423828125, + "step": 2843 + }, + { + "grad_norm": 0.18571485607089608, + "loss": 0.17716777324676514, + "step": 2844 + }, + { + "grad_norm": 0.21732882251613905, + "loss": 0.18368622660636902, + "step": 2845 + }, + { + "grad_norm": 0.21902093669122272, + "loss": 0.238327294588089, + "step": 2846 + }, + { + "grad_norm": 0.0994497417884808, + "loss": 0.1810821294784546, + "step": 2847 + }, + { + "grad_norm": 0.12997528184450244, + "loss": 0.1727808266878128, + "step": 2848 + }, + { + "grad_norm": 0.42172974270886476, + "loss": 0.16382329165935516, + "step": 2849 + }, + { + "epoch": 0.912, + "grad_norm": 0.4217297434806824, + "learning_rate": 7.326521446216035e-05, + "loss": 0.1962, + "step": 2850 + }, + { + "grad_norm": 0.43333777105508736, + "loss": 0.2055153250694275, + "step": 2850 + }, + { + "grad_norm": 0.17303679060960156, + "loss": 0.18065078556537628, + "step": 2851 + }, + { + "grad_norm": 0.14130549618085017, + "loss": 0.18329009413719177, + "step": 2852 + }, + { + "grad_norm": 0.33675201700015084, + "loss": 0.1758393496274948, + "step": 2853 + }, + { + "grad_norm": 0.3152660959365561, + "loss": 0.19522178173065186, + "step": 2854 + }, + { + "grad_norm": 0.3156065520545486, + "loss": 0.2236938625574112, + "step": 2855 + }, + { + "grad_norm": 0.1509490651366889, + "loss": 0.1365281641483307, + "step": 2856 + }, + { + "grad_norm": 0.12211517212112101, + "loss": 0.15370944142341614, + "step": 2857 + }, + { + "grad_norm": 0.1460158544707857, + "loss": 0.2116803675889969, + "step": 2858 + }, + { + "grad_norm": 0.13667447272350564, + "loss": 0.22033849358558655, + "step": 2859 + }, + { + "epoch": 0.9152, + "grad_norm": 0.13667447865009308, + "learning_rate": 7.315293060857849e-05, + "loss": 0.1886, + "step": 2860 + }, + { + "grad_norm": 0.07423147833344909, + "loss": 0.14108192920684814, + "step": 2860 + }, + { + "grad_norm": 0.13082740112224278, + "loss": 0.17696373164653778, + "step": 2861 + }, + { + "grad_norm": 0.238263206487738, + "loss": 0.17708638310432434, + "step": 2862 + }, + { + "grad_norm": 0.27830142701538946, + "loss": 0.20877070724964142, + "step": 2863 + }, + { + "grad_norm": 0.09321759393177312, + "loss": 0.19595488905906677, + "step": 2864 + }, + { + "grad_norm": 0.10648536061987898, + "loss": 0.22947651147842407, + "step": 2865 + }, + { + "grad_norm": 0.37739380004913403, + "loss": 0.17655061185359955, + "step": 2866 + }, + { + "grad_norm": 0.16540317691703507, + "loss": 0.20272642374038696, + "step": 2867 + }, + { + "grad_norm": 0.43486811580317636, + "loss": 0.16870644688606262, + "step": 2868 + }, + { + "grad_norm": 0.3455917079681989, + "loss": 0.25642794370651245, + "step": 2869 + }, + { + "epoch": 0.9184, + "grad_norm": 0.3455916941165924, + "learning_rate": 7.304064675499664e-05, + "loss": 0.1934, + "step": 2870 + }, + { + "grad_norm": 0.3007695936362134, + "loss": 0.2148369699716568, + "step": 2870 + }, + { + "grad_norm": 0.26702097719688694, + "loss": 0.16028645634651184, + "step": 2871 + }, + { + "grad_norm": 0.14366165129818784, + "loss": 0.18066999316215515, + "step": 2872 + }, + { + "grad_norm": 0.402620235969086, + "loss": 0.29721683263778687, + "step": 2873 + }, + { + "grad_norm": 0.11479527763464438, + "loss": 0.1768260896205902, + "step": 2874 + }, + { + "grad_norm": 0.09633338261506032, + "loss": 0.14644691348075867, + "step": 2875 + }, + { + "grad_norm": 0.4923357906779734, + "loss": 0.2785774767398834, + "step": 2876 + }, + { + "grad_norm": 0.3030852582263181, + "loss": 0.26496607065200806, + "step": 2877 + }, + { + "grad_norm": 0.12253857000756296, + "loss": 0.17339107394218445, + "step": 2878 + }, + { + "grad_norm": 0.18731869732160852, + "loss": 0.1957639753818512, + "step": 2879 + }, + { + "epoch": 0.9216, + "grad_norm": 0.18731869757175446, + "learning_rate": 7.292836290141479e-05, + "loss": 0.2089, + "step": 2880 + }, + { + "grad_norm": 0.21766212350282213, + "loss": 0.21336999535560608, + "step": 2880 + }, + { + "grad_norm": 0.13922995541462774, + "loss": 0.1669565737247467, + "step": 2881 + }, + { + "grad_norm": 0.1980946529842073, + "loss": 0.21609678864479065, + "step": 2882 + }, + { + "grad_norm": 0.16735516422948057, + "loss": 0.21382656693458557, + "step": 2883 + }, + { + "grad_norm": 0.5292318845354592, + "loss": 0.27249717712402344, + "step": 2884 + }, + { + "grad_norm": 0.1880151991728578, + "loss": 0.2172345519065857, + "step": 2885 + }, + { + "grad_norm": 0.10605653347414828, + "loss": 0.18123915791511536, + "step": 2886 + }, + { + "grad_norm": 0.3708179903963005, + "loss": 0.15113399922847748, + "step": 2887 + }, + { + "grad_norm": 0.2916640371240075, + "loss": 0.16810841858386993, + "step": 2888 + }, + { + "grad_norm": 0.14637392086795056, + "loss": 0.17739266157150269, + "step": 2889 + }, + { + "epoch": 0.9248, + "grad_norm": 0.14637391269207, + "learning_rate": 7.281607904783292e-05, + "loss": 0.1978, + "step": 2890 + }, + { + "grad_norm": 0.3990544437009451, + "loss": 0.187772735953331, + "step": 2890 + }, + { + "grad_norm": 0.15195094145048973, + "loss": 0.18742768466472626, + "step": 2891 + }, + { + "grad_norm": 0.25675175284897994, + "loss": 0.1584615409374237, + "step": 2892 + }, + { + "grad_norm": 0.14199301729257297, + "loss": 0.1966761201620102, + "step": 2893 + }, + { + "grad_norm": 0.33046517785765095, + "loss": 0.2336084246635437, + "step": 2894 + }, + { + "grad_norm": 0.24446792902030803, + "loss": 0.1968124657869339, + "step": 2895 + }, + { + "grad_norm": 0.10986204941111428, + "loss": 0.189984530210495, + "step": 2896 + }, + { + "grad_norm": 0.22621867547621083, + "loss": 0.18300968408584595, + "step": 2897 + }, + { + "grad_norm": 0.16181829034300493, + "loss": 0.19658483564853668, + "step": 2898 + }, + { + "grad_norm": 0.1962574081815654, + "loss": 0.17766273021697998, + "step": 2899 + }, + { + "epoch": 0.928, + "grad_norm": 0.19625739753246307, + "learning_rate": 7.270379519425106e-05, + "loss": 0.1908, + "step": 2900 + }, + { + "grad_norm": 0.22345514136722167, + "loss": 0.17931661009788513, + "step": 2900 + }, + { + "grad_norm": 0.10962224052175974, + "loss": 0.18484942615032196, + "step": 2901 + }, + { + "grad_norm": 0.2176932310580371, + "loss": 0.14214767515659332, + "step": 2902 + }, + { + "grad_norm": 0.11976925158327222, + "loss": 0.1746828258037567, + "step": 2903 + }, + { + "grad_norm": 0.2016096529208388, + "loss": 0.2057947963476181, + "step": 2904 + }, + { + "grad_norm": 0.29012050458978633, + "loss": 0.18737196922302246, + "step": 2905 + }, + { + "grad_norm": 0.4362600193017104, + "loss": 0.20625479519367218, + "step": 2906 + }, + { + "grad_norm": 0.3597408592065353, + "loss": 0.20544859766960144, + "step": 2907 + }, + { + "grad_norm": 0.1944337622973054, + "loss": 0.22445888817310333, + "step": 2908 + }, + { + "grad_norm": 0.2700034696551887, + "loss": 0.1641090363264084, + "step": 2909 + }, + { + "epoch": 0.9312, + "grad_norm": 0.27000346779823303, + "learning_rate": 7.259151134066921e-05, + "loss": 0.1874, + "step": 2910 + }, + { + "grad_norm": 0.20020544227535392, + "loss": 0.21815679967403412, + "step": 2910 + }, + { + "grad_norm": 0.13891830055719223, + "loss": 0.21166503429412842, + "step": 2911 + }, + { + "grad_norm": 0.18291005503231209, + "loss": 0.1922890543937683, + "step": 2912 + }, + { + "grad_norm": 0.18549934234115348, + "loss": 0.1888733208179474, + "step": 2913 + }, + { + "grad_norm": 0.24477774911788666, + "loss": 0.1902526468038559, + "step": 2914 + }, + { + "grad_norm": 0.14158752563091107, + "loss": 0.22867627441883087, + "step": 2915 + }, + { + "grad_norm": 0.15971516094686436, + "loss": 0.17117607593536377, + "step": 2916 + }, + { + "grad_norm": 0.35958718820481433, + "loss": 0.1915283203125, + "step": 2917 + }, + { + "grad_norm": 0.13007641311360404, + "loss": 0.24940155446529388, + "step": 2918 + }, + { + "grad_norm": 0.28899986917930015, + "loss": 0.24076370894908905, + "step": 2919 + }, + { + "epoch": 0.9344, + "grad_norm": 0.28899985551834106, + "learning_rate": 7.247922748708736e-05, + "loss": 0.2083, + "step": 2920 + }, + { + "grad_norm": 0.24183270446974744, + "loss": 0.20781761407852173, + "step": 2920 + }, + { + "grad_norm": 0.34124658907145067, + "loss": 0.23855656385421753, + "step": 2921 + }, + { + "grad_norm": 0.20783117715744015, + "loss": 0.2236444503068924, + "step": 2922 + }, + { + "grad_norm": 0.15801845941031836, + "loss": 0.2042422890663147, + "step": 2923 + }, + { + "grad_norm": 0.18871227406268626, + "loss": 0.19228525459766388, + "step": 2924 + }, + { + "grad_norm": 0.29739071224771885, + "loss": 0.1597738265991211, + "step": 2925 + }, + { + "grad_norm": 0.1280352332475535, + "loss": 0.22395804524421692, + "step": 2926 + }, + { + "grad_norm": 0.5016798649544761, + "loss": 0.22318777441978455, + "step": 2927 + }, + { + "grad_norm": 0.19682493910248017, + "loss": 0.2670278549194336, + "step": 2928 + }, + { + "grad_norm": 0.38364624530930175, + "loss": 0.20107537508010864, + "step": 2929 + }, + { + "epoch": 0.9376, + "grad_norm": 0.3836462199687958, + "learning_rate": 7.23669436335055e-05, + "loss": 0.2142, + "step": 2930 + }, + { + "grad_norm": 0.1442787929029094, + "loss": 0.18395531177520752, + "step": 2930 + }, + { + "grad_norm": 0.11312129784669682, + "loss": 0.19902664422988892, + "step": 2931 + }, + { + "grad_norm": 0.31717875050604705, + "loss": 0.2292054146528244, + "step": 2932 + }, + { + "grad_norm": 0.2116839258654856, + "loss": 0.1801404356956482, + "step": 2933 + }, + { + "grad_norm": 0.12002040558036405, + "loss": 0.17910300195217133, + "step": 2934 + }, + { + "grad_norm": 0.11227885670807755, + "loss": 0.1869221031665802, + "step": 2935 + }, + { + "grad_norm": 0.252030649436202, + "loss": 0.17670348286628723, + "step": 2936 + }, + { + "grad_norm": 0.23284587329208492, + "loss": 0.21445676684379578, + "step": 2937 + }, + { + "grad_norm": 0.12813889002701354, + "loss": 0.17646344006061554, + "step": 2938 + }, + { + "grad_norm": 0.185013026528567, + "loss": 0.17496265470981598, + "step": 2939 + }, + { + "epoch": 0.9408, + "grad_norm": 0.1850130259990692, + "learning_rate": 7.225465977992365e-05, + "loss": 0.1901, + "step": 2940 + }, + { + "grad_norm": 0.37669895702589895, + "loss": 0.18317663669586182, + "step": 2940 + }, + { + "grad_norm": 0.220406119992004, + "loss": 0.24575106799602509, + "step": 2941 + }, + { + "grad_norm": 0.12230122011478217, + "loss": 0.20973670482635498, + "step": 2942 + }, + { + "grad_norm": 0.11368092533174995, + "loss": 0.19846387207508087, + "step": 2943 + }, + { + "grad_norm": 0.13533306733101239, + "loss": 0.18617115914821625, + "step": 2944 + }, + { + "grad_norm": 0.27678661199804205, + "loss": 0.20283740758895874, + "step": 2945 + }, + { + "grad_norm": 0.1654030310083672, + "loss": 0.20627069473266602, + "step": 2946 + }, + { + "grad_norm": 0.2575178967611238, + "loss": 0.2029716968536377, + "step": 2947 + }, + { + "grad_norm": 0.32088205339132236, + "loss": 0.2129444181919098, + "step": 2948 + }, + { + "grad_norm": 0.14152354171648487, + "loss": 0.18843331933021545, + "step": 2949 + }, + { + "epoch": 0.944, + "grad_norm": 0.141523540019989, + "learning_rate": 7.21423759263418e-05, + "loss": 0.2037, + "step": 2950 + }, + { + "grad_norm": 0.23444702660608982, + "loss": 0.18134765326976776, + "step": 2950 + }, + { + "grad_norm": 0.21585241249621046, + "loss": 0.18114250898361206, + "step": 2951 + }, + { + "grad_norm": 0.1977203858565449, + "loss": 0.17684897780418396, + "step": 2952 + }, + { + "grad_norm": 0.2104754586161898, + "loss": 0.15231770277023315, + "step": 2953 + }, + { + "grad_norm": 0.11078851987141305, + "loss": 0.2037203460931778, + "step": 2954 + }, + { + "grad_norm": 0.20216844348381308, + "loss": 0.2166973054409027, + "step": 2955 + }, + { + "grad_norm": 0.12873404723814902, + "loss": 0.20775079727172852, + "step": 2956 + }, + { + "grad_norm": 0.0969522337611701, + "loss": 0.16284988820552826, + "step": 2957 + }, + { + "grad_norm": 0.17734958147608193, + "loss": 0.2125406563282013, + "step": 2958 + }, + { + "grad_norm": 0.32514645253536406, + "loss": 0.21021513640880585, + "step": 2959 + }, + { + "epoch": 0.9472, + "grad_norm": 0.3251464366912842, + "learning_rate": 7.203009207275994e-05, + "loss": 0.1905, + "step": 2960 + }, + { + "grad_norm": 0.21402891989833617, + "loss": 0.2426362782716751, + "step": 2960 + }, + { + "grad_norm": 0.3356507877223032, + "loss": 0.18823745846748352, + "step": 2961 + }, + { + "grad_norm": 0.24527071572884313, + "loss": 0.18323950469493866, + "step": 2962 + }, + { + "grad_norm": 0.247903499252888, + "loss": 0.20932519435882568, + "step": 2963 + }, + { + "grad_norm": 0.11655128111809922, + "loss": 0.19940724968910217, + "step": 2964 + }, + { + "grad_norm": 0.34542799619074266, + "loss": 0.18138231337070465, + "step": 2965 + }, + { + "grad_norm": 0.2868508270021941, + "loss": 0.20210000872612, + "step": 2966 + }, + { + "grad_norm": 0.14591589087356888, + "loss": 0.26083946228027344, + "step": 2967 + }, + { + "grad_norm": 0.3699181861457858, + "loss": 0.22698304057121277, + "step": 2968 + }, + { + "grad_norm": 0.17488050192384044, + "loss": 0.20094642043113708, + "step": 2969 + }, + { + "epoch": 0.9504, + "grad_norm": 0.1748805046081543, + "learning_rate": 7.191780821917809e-05, + "loss": 0.2095, + "step": 2970 + }, + { + "grad_norm": 0.369996710081651, + "loss": 0.171688973903656, + "step": 2970 + }, + { + "grad_norm": 0.3858477500399252, + "loss": 0.1627119779586792, + "step": 2971 + }, + { + "grad_norm": 0.19332912595256188, + "loss": 0.15740680694580078, + "step": 2972 + }, + { + "grad_norm": 0.33497895722787435, + "loss": 0.25258195400238037, + "step": 2973 + }, + { + "grad_norm": 0.20131737116134096, + "loss": 0.1578344702720642, + "step": 2974 + }, + { + "grad_norm": 0.10074609136200166, + "loss": 0.16952919960021973, + "step": 2975 + }, + { + "grad_norm": 0.12004777216621401, + "loss": 0.2242906093597412, + "step": 2976 + }, + { + "grad_norm": 0.1383814880112835, + "loss": 0.20962052047252655, + "step": 2977 + }, + { + "grad_norm": 0.3418388211327247, + "loss": 0.14664435386657715, + "step": 2978 + }, + { + "grad_norm": 0.14634092466699292, + "loss": 0.21614974737167358, + "step": 2979 + }, + { + "epoch": 0.9536, + "grad_norm": 0.14634093642234802, + "learning_rate": 7.180552436559623e-05, + "loss": 0.1868, + "step": 2980 + }, + { + "grad_norm": 0.14984877034246352, + "loss": 0.2776084542274475, + "step": 2980 + }, + { + "grad_norm": 0.12629670378441393, + "loss": 0.18094591796398163, + "step": 2981 + }, + { + "grad_norm": 0.32787401614156886, + "loss": 0.19000963866710663, + "step": 2982 + }, + { + "grad_norm": 0.12160317130366684, + "loss": 0.18128353357315063, + "step": 2983 + }, + { + "grad_norm": 0.3205903238645861, + "loss": 0.1731005311012268, + "step": 2984 + }, + { + "grad_norm": 0.3092891430320722, + "loss": 0.2250920981168747, + "step": 2985 + }, + { + "grad_norm": 0.4507746071442934, + "loss": 0.23109498620033264, + "step": 2986 + }, + { + "grad_norm": 0.13221137417476114, + "loss": 0.190120130777359, + "step": 2987 + }, + { + "grad_norm": 0.33521155642351147, + "loss": 0.17030933499336243, + "step": 2988 + }, + { + "grad_norm": 0.36464420571341444, + "loss": 0.1571671962738037, + "step": 2989 + }, + { + "epoch": 0.9568, + "grad_norm": 0.36464419960975647, + "learning_rate": 7.169324051201438e-05, + "loss": 0.1977, + "step": 2990 + }, + { + "grad_norm": 0.08070048066087682, + "loss": 0.15932542085647583, + "step": 2990 + }, + { + "grad_norm": 0.16941851960195456, + "loss": 0.1941717565059662, + "step": 2991 + }, + { + "grad_norm": 0.09868891603538747, + "loss": 0.1662622094154358, + "step": 2992 + }, + { + "grad_norm": 0.10534329824738153, + "loss": 0.13549330830574036, + "step": 2993 + }, + { + "grad_norm": 0.22471040048195595, + "loss": 0.222795769572258, + "step": 2994 + }, + { + "grad_norm": 0.40861996625791064, + "loss": 0.20656271278858185, + "step": 2995 + }, + { + "grad_norm": 0.10737279438377388, + "loss": 0.18255853652954102, + "step": 2996 + }, + { + "grad_norm": 0.21683760182327952, + "loss": 0.20588062703609467, + "step": 2997 + }, + { + "grad_norm": 0.12391783857075472, + "loss": 0.17353267967700958, + "step": 2998 + }, + { + "grad_norm": 0.09717480321419573, + "loss": 0.21356777846813202, + "step": 2999 + }, + { + "epoch": 0.96, + "grad_norm": 0.09717480093240738, + "learning_rate": 7.158095665843251e-05, + "loss": 0.186, + "step": 3000 + }, + { + "grad_norm": 0.21066753191746537, + "loss": 0.1499062478542328, + "step": 3000 + }, + { + "grad_norm": 0.32566179202818457, + "loss": 0.25456875562667847, + "step": 3001 + }, + { + "grad_norm": 0.16751851681943136, + "loss": 0.18286846578121185, + "step": 3002 + }, + { + "grad_norm": 0.4388591732675896, + "loss": 0.1814887672662735, + "step": 3003 + }, + { + "grad_norm": 0.1307478691386693, + "loss": 0.17311318218708038, + "step": 3004 + }, + { + "grad_norm": 0.38139712357558675, + "loss": 0.15364055335521698, + "step": 3005 + }, + { + "grad_norm": 0.10441802805436963, + "loss": 0.19415467977523804, + "step": 3006 + }, + { + "grad_norm": 0.10442370791263376, + "loss": 0.13775162398815155, + "step": 3007 + }, + { + "grad_norm": 0.3730396087135701, + "loss": 0.2151227742433548, + "step": 3008 + }, + { + "grad_norm": 0.12364242271711426, + "loss": 0.2004012167453766, + "step": 3009 + }, + { + "epoch": 0.9632, + "grad_norm": 0.12364242225885391, + "learning_rate": 7.146867280485066e-05, + "loss": 0.1843, + "step": 3010 + }, + { + "grad_norm": 0.4312277368108974, + "loss": 0.27585092186927795, + "step": 3010 + }, + { + "grad_norm": 0.12121523299229849, + "loss": 0.15664786100387573, + "step": 3011 + }, + { + "grad_norm": 0.5841186770845869, + "loss": 0.23345857858657837, + "step": 3012 + }, + { + "grad_norm": 0.09584917475520059, + "loss": 0.1565830409526825, + "step": 3013 + }, + { + "grad_norm": 0.27229932348897823, + "loss": 0.20639121532440186, + "step": 3014 + }, + { + "grad_norm": 0.44386922632561254, + "loss": 0.16628700494766235, + "step": 3015 + }, + { + "grad_norm": 0.18679625998036173, + "loss": 0.1641806662082672, + "step": 3016 + }, + { + "grad_norm": 0.23778727323260795, + "loss": 0.22434301674365997, + "step": 3017 + }, + { + "grad_norm": 0.23175945960946903, + "loss": 0.19994431734085083, + "step": 3018 + }, + { + "grad_norm": 0.2355117322800056, + "loss": 0.18719427287578583, + "step": 3019 + }, + { + "epoch": 0.9664, + "grad_norm": 0.23551173508167267, + "learning_rate": 7.135638895126882e-05, + "loss": 0.1971, + "step": 3020 + }, + { + "grad_norm": 0.2735357096404071, + "loss": 0.2112395167350769, + "step": 3020 + }, + { + "grad_norm": 0.13611059121381644, + "loss": 0.22395282983779907, + "step": 3021 + }, + { + "grad_norm": 0.19050503904097243, + "loss": 0.2119533121585846, + "step": 3022 + }, + { + "grad_norm": 0.13807826546908955, + "loss": 0.2528628706932068, + "step": 3023 + }, + { + "grad_norm": 0.3864766548490008, + "loss": 0.22693537175655365, + "step": 3024 + }, + { + "grad_norm": 0.3798254337565854, + "loss": 0.15476299822330475, + "step": 3025 + }, + { + "grad_norm": 0.19217476488421045, + "loss": 0.1789274662733078, + "step": 3026 + }, + { + "grad_norm": 0.24771782863793743, + "loss": 0.26776638627052307, + "step": 3027 + }, + { + "grad_norm": 0.13095647933693721, + "loss": 0.17685087025165558, + "step": 3028 + }, + { + "grad_norm": 0.22094455448252984, + "loss": 0.23182916641235352, + "step": 3029 + }, + { + "epoch": 0.9696, + "grad_norm": 0.22094455361366272, + "learning_rate": 7.124410509768695e-05, + "loss": 0.2137, + "step": 3030 + }, + { + "grad_norm": 0.13471646765884657, + "loss": 0.2414681315422058, + "step": 3030 + }, + { + "grad_norm": 0.1644405610106092, + "loss": 0.18153952062129974, + "step": 3031 + }, + { + "grad_norm": 0.1539526495389215, + "loss": 0.19520792365074158, + "step": 3032 + }, + { + "grad_norm": 0.13063233704498717, + "loss": 0.1715376228094101, + "step": 3033 + }, + { + "grad_norm": 0.21238989470013778, + "loss": 0.2072870433330536, + "step": 3034 + }, + { + "grad_norm": 0.12731794227866072, + "loss": 0.18924933671951294, + "step": 3035 + }, + { + "grad_norm": 0.17608077274129905, + "loss": 0.16879670321941376, + "step": 3036 + }, + { + "grad_norm": 0.32714828423310344, + "loss": 0.221437007188797, + "step": 3037 + }, + { + "grad_norm": 0.2765910256879189, + "loss": 0.1919916570186615, + "step": 3038 + }, + { + "grad_norm": 0.20646634498073813, + "loss": 0.15405994653701782, + "step": 3039 + }, + { + "epoch": 0.9728, + "grad_norm": 0.20646634697914124, + "learning_rate": 7.11318212441051e-05, + "loss": 0.1923, + "step": 3040 + }, + { + "grad_norm": 0.147531185963148, + "loss": 0.18503539264202118, + "step": 3040 + }, + { + "grad_norm": 0.30617304415223834, + "loss": 0.1771554946899414, + "step": 3041 + }, + { + "grad_norm": 0.39806139290769965, + "loss": 0.24930256605148315, + "step": 3042 + }, + { + "grad_norm": 0.12856656361027083, + "loss": 0.2069990038871765, + "step": 3043 + }, + { + "grad_norm": 0.37435413837907344, + "loss": 0.1797654926776886, + "step": 3044 + }, + { + "grad_norm": 0.16560886140605627, + "loss": 0.2497047483921051, + "step": 3045 + }, + { + "grad_norm": 0.3029332120220811, + "loss": 0.17567667365074158, + "step": 3046 + }, + { + "grad_norm": 0.2643170953819596, + "loss": 0.18518322706222534, + "step": 3047 + }, + { + "grad_norm": 0.16312548775475505, + "loss": 0.16866382956504822, + "step": 3048 + }, + { + "grad_norm": 0.16831813689700648, + "loss": 0.22111308574676514, + "step": 3049 + }, + { + "epoch": 0.976, + "grad_norm": 0.16831813752651215, + "learning_rate": 7.101953739052325e-05, + "loss": 0.1999, + "step": 3050 + }, + { + "grad_norm": 0.09105137545465213, + "loss": 0.18367424607276917, + "step": 3050 + }, + { + "grad_norm": 0.5325265403879731, + "loss": 0.3001768887042999, + "step": 3051 + }, + { + "grad_norm": 0.20486833848648972, + "loss": 0.17866966128349304, + "step": 3052 + }, + { + "grad_norm": 0.2323107169461681, + "loss": 0.16130822896957397, + "step": 3053 + }, + { + "grad_norm": 0.23737987130231322, + "loss": 0.26344919204711914, + "step": 3054 + }, + { + "grad_norm": 0.18022591556907733, + "loss": 0.15178026258945465, + "step": 3055 + }, + { + "grad_norm": 0.2671916789363072, + "loss": 0.15396223962306976, + "step": 3056 + }, + { + "grad_norm": 0.16175500929436087, + "loss": 0.20760737359523773, + "step": 3057 + }, + { + "grad_norm": 0.25298736338208716, + "loss": 0.17850472033023834, + "step": 3058 + }, + { + "grad_norm": 0.23634644278363431, + "loss": 0.2026902437210083, + "step": 3059 + }, + { + "epoch": 0.9792, + "grad_norm": 0.23634643852710724, + "learning_rate": 7.090725353694139e-05, + "loss": 0.1982, + "step": 3060 + }, + { + "grad_norm": 0.2945003171955392, + "loss": 0.224330335855484, + "step": 3060 + }, + { + "grad_norm": 0.1979468649692367, + "loss": 0.1727103292942047, + "step": 3061 + }, + { + "grad_norm": 0.1787889733894787, + "loss": 0.1880131959915161, + "step": 3062 + }, + { + "grad_norm": 0.18434431542913352, + "loss": 0.163821741938591, + "step": 3063 + }, + { + "grad_norm": 0.3760633465505329, + "loss": 0.20682097971439362, + "step": 3064 + }, + { + "grad_norm": 0.3383493848051268, + "loss": 0.21254734694957733, + "step": 3065 + }, + { + "grad_norm": 0.16408544964268115, + "loss": 0.21653659641742706, + "step": 3066 + }, + { + "grad_norm": 0.20334771338075244, + "loss": 0.1524677723646164, + "step": 3067 + }, + { + "grad_norm": 0.09469466504047616, + "loss": 0.17741814255714417, + "step": 3068 + }, + { + "grad_norm": 0.14036401592362924, + "loss": 0.16698263585567474, + "step": 3069 + }, + { + "epoch": 0.9824, + "grad_norm": 0.14036402106285095, + "learning_rate": 7.079496968335954e-05, + "loss": 0.1882, + "step": 3070 + }, + { + "grad_norm": 0.2538595855468154, + "loss": 0.2019728720188141, + "step": 3070 + }, + { + "grad_norm": 0.43853477445778744, + "loss": 0.17421185970306396, + "step": 3071 + }, + { + "grad_norm": 0.19007256376805118, + "loss": 0.21172821521759033, + "step": 3072 + }, + { + "grad_norm": 0.3495503578361069, + "loss": 0.18794171512126923, + "step": 3073 + }, + { + "grad_norm": 0.3855776059167121, + "loss": 0.1595555543899536, + "step": 3074 + }, + { + "grad_norm": 0.19838003723195854, + "loss": 0.22518572211265564, + "step": 3075 + }, + { + "grad_norm": 0.2931352190731467, + "loss": 0.20922227203845978, + "step": 3076 + }, + { + "grad_norm": 0.3211198942433943, + "loss": 0.15605241060256958, + "step": 3077 + }, + { + "grad_norm": 0.19866736686281625, + "loss": 0.18800781667232513, + "step": 3078 + }, + { + "grad_norm": 0.16198361169493183, + "loss": 0.15324144065380096, + "step": 3079 + }, + { + "epoch": 0.9856, + "grad_norm": 0.16198360919952393, + "learning_rate": 7.068268582977768e-05, + "loss": 0.1867, + "step": 3080 + }, + { + "grad_norm": 0.22703033189883792, + "loss": 0.20442721247673035, + "step": 3080 + }, + { + "grad_norm": 0.2239213168097952, + "loss": 0.15389057993888855, + "step": 3081 + }, + { + "grad_norm": 0.10569360007074284, + "loss": 0.1569853574037552, + "step": 3082 + }, + { + "grad_norm": 0.22993031068099046, + "loss": 0.20437121391296387, + "step": 3083 + }, + { + "grad_norm": 0.17571698943981826, + "loss": 0.19067463278770447, + "step": 3084 + }, + { + "grad_norm": 0.19414267416474712, + "loss": 0.1985224187374115, + "step": 3085 + }, + { + "grad_norm": 0.32564029212063994, + "loss": 0.1622946709394455, + "step": 3086 + }, + { + "grad_norm": 0.30555947663105343, + "loss": 0.22694917023181915, + "step": 3087 + }, + { + "grad_norm": 0.16541017870441452, + "loss": 0.16266481578350067, + "step": 3088 + }, + { + "grad_norm": 0.15361472126093265, + "loss": 0.19633445143699646, + "step": 3089 + }, + { + "epoch": 0.9888, + "grad_norm": 0.15361471474170685, + "learning_rate": 7.057040197619582e-05, + "loss": 0.1857, + "step": 3090 + }, + { + "grad_norm": 0.22803040649278522, + "loss": 0.20571269094944, + "step": 3090 + }, + { + "grad_norm": 0.15855443611357337, + "loss": 0.15180093050003052, + "step": 3091 + }, + { + "grad_norm": 0.2637296485934087, + "loss": 0.22555850446224213, + "step": 3092 + }, + { + "grad_norm": 0.2239496099288522, + "loss": 0.1908118724822998, + "step": 3093 + }, + { + "grad_norm": 0.08931476871777189, + "loss": 0.14687052369117737, + "step": 3094 + }, + { + "grad_norm": 0.23287496993437448, + "loss": 0.19339662790298462, + "step": 3095 + }, + { + "grad_norm": 0.16412926566366717, + "loss": 0.21226026117801666, + "step": 3096 + }, + { + "grad_norm": 0.16929927778192777, + "loss": 0.16480332612991333, + "step": 3097 + }, + { + "grad_norm": 0.30361160038815316, + "loss": 0.22953324019908905, + "step": 3098 + }, + { + "grad_norm": 0.19663187910347585, + "loss": 0.14859598875045776, + "step": 3099 + }, + { + "epoch": 0.992, + "grad_norm": 0.19663187861442566, + "learning_rate": 7.045811812261397e-05, + "loss": 0.1869, + "step": 3100 + }, + { + "grad_norm": 0.3073465138438947, + "loss": 0.1566365361213684, + "step": 3100 + }, + { + "grad_norm": 0.12289863112023369, + "loss": 0.1941218227148056, + "step": 3101 + }, + { + "grad_norm": 0.24995324582169598, + "loss": 0.22846904397010803, + "step": 3102 + }, + { + "grad_norm": 0.19704150622503877, + "loss": 0.21023476123809814, + "step": 3103 + }, + { + "grad_norm": 0.23646902336311085, + "loss": 0.1546466201543808, + "step": 3104 + }, + { + "grad_norm": 0.11971434126277307, + "loss": 0.22398926317691803, + "step": 3105 + }, + { + "grad_norm": 0.15192581384580728, + "loss": 0.17454028129577637, + "step": 3106 + }, + { + "grad_norm": 0.32270925965837527, + "loss": 0.2089919149875641, + "step": 3107 + }, + { + "grad_norm": 0.1240294796747697, + "loss": 0.16080446541309357, + "step": 3108 + }, + { + "grad_norm": 0.11526310414681476, + "loss": 0.1681792438030243, + "step": 3109 + }, + { + "epoch": 0.9952, + "grad_norm": 0.11526310443878174, + "learning_rate": 7.034583426903212e-05, + "loss": 0.1881, + "step": 3110 + }, + { + "grad_norm": 0.12013982310013473, + "loss": 0.148091122508049, + "step": 3110 + }, + { + "grad_norm": 0.33653700015742477, + "loss": 0.2009204775094986, + "step": 3111 + }, + { + "grad_norm": 0.18161091691618847, + "loss": 0.17387926578521729, + "step": 3112 + }, + { + "grad_norm": 0.32772703299155254, + "loss": 0.1636400818824768, + "step": 3113 + }, + { + "grad_norm": 0.3001374708887432, + "loss": 0.17264492809772491, + "step": 3114 + }, + { + "grad_norm": 0.18105855250438496, + "loss": 0.16403675079345703, + "step": 3115 + }, + { + "grad_norm": 0.14683514785207433, + "loss": 0.18843741714954376, + "step": 3116 + }, + { + "grad_norm": 0.24664293444298363, + "loss": 0.27874961495399475, + "step": 3117 + }, + { + "grad_norm": 0.10559936979542502, + "loss": 0.14924713969230652, + "step": 3118 + }, + { + "grad_norm": 0.22192061820587208, + "loss": 0.17437171936035156, + "step": 3119 + }, + { + "epoch": 0.9984, + "grad_norm": 0.22192062437534332, + "learning_rate": 7.023355041545027e-05, + "loss": 0.1814, + "step": 3120 + }, + { + "grad_norm": 0.3556370683702169, + "loss": 0.17887279391288757, + "step": 3120 + }, + { + "grad_norm": 0.11343301250427097, + "loss": 0.16429142653942108, + "step": 3121 + }, + { + "grad_norm": 0.5171200272789436, + "loss": 0.26635274291038513, + "step": 3122 + }, + { + "grad_norm": 0.3895496565277026, + "loss": 0.287246435880661, + "step": 3123 + }, + { + "grad_norm": 0.13370576002865284, + "loss": 0.166367769241333, + "step": 3124 + }, + { + "grad_norm": 0.19379746653822752, + "loss": 0.2111862599849701, + "step": 3125 + }, + { + "grad_norm": 0.15918339253536534, + "loss": 0.17832422256469727, + "step": 3126 + }, + { + "grad_norm": 0.44297262063780796, + "loss": 0.21232068538665771, + "step": 3127 + }, + { + "grad_norm": 0.6155822713292075, + "loss": 0.21452081203460693, + "step": 3128 + }, + { + "grad_norm": 0.1252928806347318, + "loss": 0.1760067641735077, + "step": 3129 + }, + { + "epoch": 1.0016, + "grad_norm": 0.12529288232326508, + "learning_rate": 7.01212665618684e-05, + "loss": 0.2055, + "step": 3130 + }, + { + "grad_norm": 0.09571914027078818, + "loss": 0.1589314043521881, + "step": 3130 + }, + { + "grad_norm": 0.2073826627440049, + "loss": 0.17021360993385315, + "step": 3131 + }, + { + "grad_norm": 0.15247106466765906, + "loss": 0.21093466877937317, + "step": 3132 + }, + { + "grad_norm": 0.15821807456199558, + "loss": 0.17423319816589355, + "step": 3133 + }, + { + "grad_norm": 0.18244079404157756, + "loss": 0.23217223584651947, + "step": 3134 + }, + { + "grad_norm": 0.1350650489785355, + "loss": 0.1486293226480484, + "step": 3135 + }, + { + "grad_norm": 0.279482167226658, + "loss": 0.2612687945365906, + "step": 3136 + }, + { + "grad_norm": 0.17070529251322478, + "loss": 0.2140091061592102, + "step": 3137 + }, + { + "grad_norm": 0.11707487001556689, + "loss": 0.15008114278316498, + "step": 3138 + }, + { + "grad_norm": 0.4216755547280255, + "loss": 0.2582492232322693, + "step": 3139 + }, + { + "epoch": 1.0048, + "grad_norm": 0.42167556285858154, + "learning_rate": 7.000898270828656e-05, + "loss": 0.1979, + "step": 3140 + }, + { + "grad_norm": 0.10391336936705968, + "loss": 0.1591915637254715, + "step": 3140 + }, + { + "grad_norm": 0.17997232865416035, + "loss": 0.19425831735134125, + "step": 3141 + }, + { + "grad_norm": 0.16336746145082817, + "loss": 0.21339377760887146, + "step": 3142 + }, + { + "grad_norm": 0.19246882954846425, + "loss": 0.18908658623695374, + "step": 3143 + }, + { + "grad_norm": 0.13846081453096495, + "loss": 0.2352479249238968, + "step": 3144 + }, + { + "grad_norm": 0.17799301339164927, + "loss": 0.17255045473575592, + "step": 3145 + }, + { + "grad_norm": 0.20343492904004626, + "loss": 0.23900902271270752, + "step": 3146 + }, + { + "grad_norm": 0.1940261438740162, + "loss": 0.1793949455022812, + "step": 3147 + }, + { + "grad_norm": 0.1306637367659334, + "loss": 0.15751852095127106, + "step": 3148 + }, + { + "grad_norm": 0.12197548666099112, + "loss": 0.22876375913619995, + "step": 3149 + }, + { + "epoch": 1.008, + "grad_norm": 0.12197548151016235, + "learning_rate": 6.98966988547047e-05, + "loss": 0.1968, + "step": 3150 + }, + { + "grad_norm": 0.11859100567468336, + "loss": 0.2821923494338989, + "step": 3150 + }, + { + "grad_norm": 0.1311427778299401, + "loss": 0.27054473757743835, + "step": 3151 + }, + { + "grad_norm": 0.1523864015986436, + "loss": 0.18197280168533325, + "step": 3152 + }, + { + "grad_norm": 0.2699573057286895, + "loss": 0.16181237995624542, + "step": 3153 + }, + { + "grad_norm": 0.19710641181369354, + "loss": 0.2522323727607727, + "step": 3154 + }, + { + "grad_norm": 0.37319111095543206, + "loss": 0.2111930549144745, + "step": 3155 + }, + { + "grad_norm": 0.23601241506244044, + "loss": 0.19700634479522705, + "step": 3156 + }, + { + "grad_norm": 0.10330665294282584, + "loss": 0.15940368175506592, + "step": 3157 + }, + { + "grad_norm": 0.23505678402647384, + "loss": 0.22628533840179443, + "step": 3158 + }, + { + "grad_norm": 0.1970583309971131, + "loss": 0.22192375361919403, + "step": 3159 + }, + { + "epoch": 1.0112, + "grad_norm": 0.19705833494663239, + "learning_rate": 6.978441500112284e-05, + "loss": 0.2165, + "step": 3160 + }, + { + "grad_norm": 0.1509964121017649, + "loss": 0.22667065262794495, + "step": 3160 + }, + { + "grad_norm": 0.0967960993417126, + "loss": 0.16548314690589905, + "step": 3161 + }, + { + "grad_norm": 0.2953252853002904, + "loss": 0.20981234312057495, + "step": 3162 + }, + { + "grad_norm": 0.22744826511516703, + "loss": 0.1925695240497589, + "step": 3163 + }, + { + "grad_norm": 0.2853039683596622, + "loss": 0.16925087571144104, + "step": 3164 + }, + { + "grad_norm": 0.1459044952079948, + "loss": 0.14609424769878387, + "step": 3165 + }, + { + "grad_norm": 0.3024747458794966, + "loss": 0.1989775151014328, + "step": 3166 + }, + { + "grad_norm": 0.12386802643528515, + "loss": 0.25692152976989746, + "step": 3167 + }, + { + "grad_norm": 0.2896365406651019, + "loss": 0.24936792254447937, + "step": 3168 + }, + { + "grad_norm": 0.11476973332085325, + "loss": 0.21704638004302979, + "step": 3169 + }, + { + "epoch": 1.0144, + "grad_norm": 0.11476973444223404, + "learning_rate": 6.967213114754098e-05, + "loss": 0.2032, + "step": 3170 + }, + { + "grad_norm": 0.1809159813420304, + "loss": 0.16110369563102722, + "step": 3170 + }, + { + "grad_norm": 0.23377206597812686, + "loss": 0.1517292559146881, + "step": 3171 + }, + { + "grad_norm": 0.19455601684370996, + "loss": 0.2325741946697235, + "step": 3172 + }, + { + "grad_norm": 0.16443706182226217, + "loss": 0.19567079842090607, + "step": 3173 + }, + { + "grad_norm": 0.1038022111317884, + "loss": 0.1741119623184204, + "step": 3174 + }, + { + "grad_norm": 0.14585069863273423, + "loss": 0.17881575226783752, + "step": 3175 + }, + { + "grad_norm": 0.12222281901924041, + "loss": 0.1939135640859604, + "step": 3176 + }, + { + "grad_norm": 0.19146137200355934, + "loss": 0.19307082891464233, + "step": 3177 + }, + { + "grad_norm": 0.1645652021804113, + "loss": 0.22890013456344604, + "step": 3178 + }, + { + "grad_norm": 0.13449335643113317, + "loss": 0.22538679838180542, + "step": 3179 + }, + { + "epoch": 1.0176, + "grad_norm": 0.1344933658838272, + "learning_rate": 6.955984729395913e-05, + "loss": 0.1935, + "step": 3180 + }, + { + "grad_norm": 0.1957593340475066, + "loss": 0.1901790201663971, + "step": 3180 + }, + { + "grad_norm": 0.12258781774747446, + "loss": 0.20240359008312225, + "step": 3181 + }, + { + "grad_norm": 0.22480907172105066, + "loss": 0.1722702980041504, + "step": 3182 + }, + { + "grad_norm": 0.4822274752328878, + "loss": 0.25286534428596497, + "step": 3183 + }, + { + "grad_norm": 0.1035331904497858, + "loss": 0.1920652687549591, + "step": 3184 + }, + { + "grad_norm": 0.4623256955009673, + "loss": 0.16538134217262268, + "step": 3185 + }, + { + "grad_norm": 0.10755351556808768, + "loss": 0.16871538758277893, + "step": 3186 + }, + { + "grad_norm": 0.14591730659640761, + "loss": 0.18711043894290924, + "step": 3187 + }, + { + "grad_norm": 0.3758836172898974, + "loss": 0.22160422801971436, + "step": 3188 + }, + { + "grad_norm": 0.18272901513010276, + "loss": 0.1952921748161316, + "step": 3189 + }, + { + "epoch": 1.0208, + "grad_norm": 0.18272902071475983, + "learning_rate": 6.944756344037727e-05, + "loss": 0.1948, + "step": 3190 + }, + { + "grad_norm": 0.35998285481918485, + "loss": 0.19391992688179016, + "step": 3190 + }, + { + "grad_norm": 0.24650770158586427, + "loss": 0.190499946475029, + "step": 3191 + }, + { + "grad_norm": 0.32808981646389374, + "loss": 0.20061984658241272, + "step": 3192 + }, + { + "grad_norm": 0.171587516382026, + "loss": 0.20946024358272552, + "step": 3193 + }, + { + "grad_norm": 0.2194628681789497, + "loss": 0.16359716653823853, + "step": 3194 + }, + { + "grad_norm": 0.23614744958986916, + "loss": 0.1869608461856842, + "step": 3195 + }, + { + "grad_norm": 0.19463555122564627, + "loss": 0.18565508723258972, + "step": 3196 + }, + { + "grad_norm": 0.48432430732770065, + "loss": 0.25221818685531616, + "step": 3197 + }, + { + "grad_norm": 0.29439143326073114, + "loss": 0.19561943411827087, + "step": 3198 + }, + { + "grad_norm": 0.09915751725820468, + "loss": 0.19456592202186584, + "step": 3199 + }, + { + "epoch": 1.024, + "grad_norm": 0.09915751963853836, + "learning_rate": 6.933527958679542e-05, + "loss": 0.1973, + "step": 3200 + }, + { + "grad_norm": 0.45914758803626277, + "loss": 0.2177545726299286, + "step": 3200 + }, + { + "grad_norm": 0.20964180384515393, + "loss": 0.1695631742477417, + "step": 3201 + }, + { + "grad_norm": 0.13115647987245502, + "loss": 0.17272137105464935, + "step": 3202 + }, + { + "grad_norm": 0.26773691930964166, + "loss": 0.21817240118980408, + "step": 3203 + }, + { + "grad_norm": 0.4388373966000142, + "loss": 0.20394384860992432, + "step": 3204 + }, + { + "grad_norm": 0.15194192299426573, + "loss": 0.20820699632167816, + "step": 3205 + }, + { + "grad_norm": 0.1760274657525802, + "loss": 0.20005401968955994, + "step": 3206 + }, + { + "grad_norm": 0.29348090561257106, + "loss": 0.18982432782649994, + "step": 3207 + }, + { + "grad_norm": 0.3856953840336767, + "loss": 0.1727132797241211, + "step": 3208 + }, + { + "grad_norm": 0.21683670200939206, + "loss": 0.14933624863624573, + "step": 3209 + }, + { + "epoch": 1.0272, + "grad_norm": 0.21683669090270996, + "learning_rate": 6.922299573321357e-05, + "loss": 0.1902, + "step": 3210 + }, + { + "grad_norm": 0.13484107433016732, + "loss": 0.22878997027873993, + "step": 3210 + }, + { + "grad_norm": 0.1527886997374351, + "loss": 0.2140129953622818, + "step": 3211 + }, + { + "grad_norm": 0.11021980104630102, + "loss": 0.2279086410999298, + "step": 3212 + }, + { + "grad_norm": 0.10681041170295079, + "loss": 0.18794938921928406, + "step": 3213 + }, + { + "grad_norm": 0.30825112392295057, + "loss": 0.25261467695236206, + "step": 3214 + }, + { + "grad_norm": 0.22135744262337181, + "loss": 0.2696673572063446, + "step": 3215 + }, + { + "grad_norm": 0.22773140824964375, + "loss": 0.252510666847229, + "step": 3216 + }, + { + "grad_norm": 0.25536337718751695, + "loss": 0.2093823254108429, + "step": 3217 + }, + { + "grad_norm": 0.5341445664961654, + "loss": 0.2080409973859787, + "step": 3218 + }, + { + "grad_norm": 0.39183460733641606, + "loss": 0.2781922221183777, + "step": 3219 + }, + { + "epoch": 1.0304, + "grad_norm": 0.3918346166610718, + "learning_rate": 6.911071187963172e-05, + "loss": 0.2329, + "step": 3220 + }, + { + "grad_norm": 0.17716563857970533, + "loss": 0.15639269351959229, + "step": 3220 + }, + { + "grad_norm": 0.22781785320724582, + "loss": 0.18205609917640686, + "step": 3221 + }, + { + "grad_norm": 0.4181585048879652, + "loss": 0.18195879459381104, + "step": 3222 + }, + { + "grad_norm": 0.14873157127616604, + "loss": 0.18228308856487274, + "step": 3223 + }, + { + "grad_norm": 0.1316299600527763, + "loss": 0.20794931054115295, + "step": 3224 + }, + { + "grad_norm": 0.2666404171230862, + "loss": 0.1779268980026245, + "step": 3225 + }, + { + "grad_norm": 0.13604972145632896, + "loss": 0.2024667114019394, + "step": 3226 + }, + { + "grad_norm": 0.28075835009522526, + "loss": 0.20332294702529907, + "step": 3227 + }, + { + "grad_norm": 0.22178156462520976, + "loss": 0.23992733657360077, + "step": 3228 + }, + { + "grad_norm": 0.18044057034954034, + "loss": 0.17457696795463562, + "step": 3229 + }, + { + "epoch": 1.0336, + "grad_norm": 0.18044057488441467, + "learning_rate": 6.899842802604986e-05, + "loss": 0.1909, + "step": 3230 + }, + { + "grad_norm": 0.3665199558044425, + "loss": 0.23739102482795715, + "step": 3230 + }, + { + "grad_norm": 0.3832491737628962, + "loss": 0.23623719811439514, + "step": 3231 + }, + { + "grad_norm": 0.17135997329891453, + "loss": 0.19079187512397766, + "step": 3232 + }, + { + "grad_norm": 0.44903360450975366, + "loss": 0.19833965599536896, + "step": 3233 + }, + { + "grad_norm": 0.17432121303036735, + "loss": 0.19525671005249023, + "step": 3234 + }, + { + "grad_norm": 0.3854336948392062, + "loss": 0.16653913259506226, + "step": 3235 + }, + { + "grad_norm": 0.3338173851296577, + "loss": 0.20647019147872925, + "step": 3236 + }, + { + "grad_norm": 0.15867165102960717, + "loss": 0.2184220254421234, + "step": 3237 + }, + { + "grad_norm": 0.1726585404520768, + "loss": 0.17623689770698547, + "step": 3238 + }, + { + "grad_norm": 0.3275486581098729, + "loss": 0.14910826086997986, + "step": 3239 + }, + { + "epoch": 1.0368, + "grad_norm": 0.32754865288734436, + "learning_rate": 6.888614417246801e-05, + "loss": 0.1975, + "step": 3240 + }, + { + "grad_norm": 0.3193866763590161, + "loss": 0.15850746631622314, + "step": 3240 + }, + { + "grad_norm": 0.12702527274278425, + "loss": 0.18648362159729004, + "step": 3241 + }, + { + "grad_norm": 0.22758667612912206, + "loss": 0.1759331226348877, + "step": 3242 + }, + { + "grad_norm": 0.24724433429919357, + "loss": 0.22333720326423645, + "step": 3243 + }, + { + "grad_norm": 0.41733731212169073, + "loss": 0.24212978780269623, + "step": 3244 + }, + { + "grad_norm": 0.2797423032161334, + "loss": 0.1979152262210846, + "step": 3245 + }, + { + "grad_norm": 0.1335658707389658, + "loss": 0.1552239954471588, + "step": 3246 + }, + { + "grad_norm": 0.19051043619270935, + "loss": 0.19424600899219513, + "step": 3247 + }, + { + "grad_norm": 0.14231575019533285, + "loss": 0.17997783422470093, + "step": 3248 + }, + { + "grad_norm": 0.4130847307011383, + "loss": 0.1905357539653778, + "step": 3249 + }, + { + "epoch": 1.04, + "grad_norm": 0.4130847454071045, + "learning_rate": 6.877386031888615e-05, + "loss": 0.1904, + "step": 3250 + }, + { + "grad_norm": 0.30476048065769834, + "loss": 0.16398370265960693, + "step": 3250 + }, + { + "grad_norm": 0.44073663612277497, + "loss": 0.2131170928478241, + "step": 3251 + }, + { + "grad_norm": 0.17252197530039398, + "loss": 0.2002379149198532, + "step": 3252 + }, + { + "grad_norm": 0.18181599865136533, + "loss": 0.18587686121463776, + "step": 3253 + }, + { + "grad_norm": 0.18863639467796403, + "loss": 0.217040553689003, + "step": 3254 + }, + { + "grad_norm": 0.18271558843043964, + "loss": 0.16023635864257812, + "step": 3255 + }, + { + "grad_norm": 0.15544047147339857, + "loss": 0.20714373886585236, + "step": 3256 + }, + { + "grad_norm": 0.24378462534033454, + "loss": 0.21272510290145874, + "step": 3257 + }, + { + "grad_norm": 0.3167995850716554, + "loss": 0.21709784865379333, + "step": 3258 + }, + { + "grad_norm": 0.34668681117055383, + "loss": 0.1978607475757599, + "step": 3259 + }, + { + "epoch": 1.0432, + "grad_norm": 0.34668681025505066, + "learning_rate": 6.866157646530428e-05, + "loss": 0.1975, + "step": 3260 + }, + { + "grad_norm": 0.10239744313634491, + "loss": 0.1979057639837265, + "step": 3260 + }, + { + "grad_norm": 0.13971907753412974, + "loss": 0.21784184873104095, + "step": 3261 + }, + { + "grad_norm": 0.18425733434925615, + "loss": 0.1948462426662445, + "step": 3262 + }, + { + "grad_norm": 0.13527970259534763, + "loss": 0.18898272514343262, + "step": 3263 + }, + { + "grad_norm": 0.21414492792277345, + "loss": 0.17547352612018585, + "step": 3264 + }, + { + "grad_norm": 0.2470778480686, + "loss": 0.21724733710289001, + "step": 3265 + }, + { + "grad_norm": 0.13727241913813368, + "loss": 0.17119243741035461, + "step": 3266 + }, + { + "grad_norm": 0.2408849172080684, + "loss": 0.18382039666175842, + "step": 3267 + }, + { + "grad_norm": 0.22536841238509855, + "loss": 0.2492193579673767, + "step": 3268 + }, + { + "grad_norm": 0.16089856730370808, + "loss": 0.20197665691375732, + "step": 3269 + }, + { + "epoch": 1.0464, + "grad_norm": 0.16089856624603271, + "learning_rate": 6.854929261172243e-05, + "loss": 0.1999, + "step": 3270 + }, + { + "grad_norm": 0.1025922100114891, + "loss": 0.19030460715293884, + "step": 3270 + }, + { + "grad_norm": 0.18607007649973178, + "loss": 0.19750700891017914, + "step": 3271 + }, + { + "grad_norm": 0.09415006901725995, + "loss": 0.14898307621479034, + "step": 3272 + }, + { + "grad_norm": 0.1383456213014415, + "loss": 0.1750297248363495, + "step": 3273 + }, + { + "grad_norm": 0.2034036402942966, + "loss": 0.1782345026731491, + "step": 3274 + }, + { + "grad_norm": 0.20593875242650653, + "loss": 0.22617600858211517, + "step": 3275 + }, + { + "grad_norm": 0.15995586001131354, + "loss": 0.22384244203567505, + "step": 3276 + }, + { + "grad_norm": 0.20146778034951537, + "loss": 0.18988780677318573, + "step": 3277 + }, + { + "grad_norm": 0.15353043426284438, + "loss": 0.22204875946044922, + "step": 3278 + }, + { + "grad_norm": 0.21584223541132397, + "loss": 0.17833082377910614, + "step": 3279 + }, + { + "epoch": 1.0496, + "grad_norm": 0.21584224700927734, + "learning_rate": 6.843700875814058e-05, + "loss": 0.193, + "step": 3280 + }, + { + "grad_norm": 0.15708296245453315, + "loss": 0.19146114587783813, + "step": 3280 + }, + { + "grad_norm": 0.14239091083417338, + "loss": 0.15962010622024536, + "step": 3281 + }, + { + "grad_norm": 0.16633460603458736, + "loss": 0.2160935401916504, + "step": 3282 + }, + { + "grad_norm": 0.19846331925859292, + "loss": 0.24350786209106445, + "step": 3283 + }, + { + "grad_norm": 0.23775113593719033, + "loss": 0.19307386875152588, + "step": 3284 + }, + { + "grad_norm": 0.1638272637973191, + "loss": 0.20361191034317017, + "step": 3285 + }, + { + "grad_norm": 0.12000257229442851, + "loss": 0.15071579813957214, + "step": 3286 + }, + { + "grad_norm": 0.23664566204617327, + "loss": 0.16053903102874756, + "step": 3287 + }, + { + "grad_norm": 0.16824089667411027, + "loss": 0.1872946321964264, + "step": 3288 + }, + { + "grad_norm": 0.16810452356946815, + "loss": 0.23313671350479126, + "step": 3289 + }, + { + "epoch": 1.0528, + "grad_norm": 0.16810452938079834, + "learning_rate": 6.832472490455872e-05, + "loss": 0.1939, + "step": 3290 + }, + { + "grad_norm": 0.2894336936527362, + "loss": 0.1686161607503891, + "step": 3290 + }, + { + "grad_norm": 0.11212620804297936, + "loss": 0.22704124450683594, + "step": 3291 + }, + { + "grad_norm": 0.161767640383663, + "loss": 0.18025940656661987, + "step": 3292 + }, + { + "grad_norm": 0.15435396108480584, + "loss": 0.25878649950027466, + "step": 3293 + }, + { + "grad_norm": 0.1454768149412931, + "loss": 0.1615377962589264, + "step": 3294 + }, + { + "grad_norm": 0.19479634118241507, + "loss": 0.17249701917171478, + "step": 3295 + }, + { + "grad_norm": 0.2531042159353838, + "loss": 0.1967151165008545, + "step": 3296 + }, + { + "grad_norm": 0.287596432377623, + "loss": 0.2517397999763489, + "step": 3297 + }, + { + "grad_norm": 0.18591283887422164, + "loss": 0.1985306292772293, + "step": 3298 + }, + { + "grad_norm": 0.17121154806353645, + "loss": 0.2321716994047165, + "step": 3299 + }, + { + "epoch": 1.056, + "grad_norm": 0.17121155560016632, + "learning_rate": 6.821244105097687e-05, + "loss": 0.2048, + "step": 3300 + }, + { + "grad_norm": 0.3349125022173983, + "loss": 0.21061527729034424, + "step": 3300 + }, + { + "grad_norm": 0.12809701610181795, + "loss": 0.19400149583816528, + "step": 3301 + }, + { + "grad_norm": 0.15740904017842136, + "loss": 0.21910694241523743, + "step": 3302 + }, + { + "grad_norm": 0.11800655728122932, + "loss": 0.23310698568820953, + "step": 3303 + }, + { + "grad_norm": 0.29269045121872933, + "loss": 0.21407794952392578, + "step": 3304 + }, + { + "grad_norm": 0.19455079609877768, + "loss": 0.2154030203819275, + "step": 3305 + }, + { + "grad_norm": 0.25411153337635256, + "loss": 0.17752988636493683, + "step": 3306 + }, + { + "grad_norm": 0.5347785532494235, + "loss": 0.24485597014427185, + "step": 3307 + }, + { + "grad_norm": 0.24839910361678452, + "loss": 0.25075915455818176, + "step": 3308 + }, + { + "grad_norm": 0.1404232776475998, + "loss": 0.20534513890743256, + "step": 3309 + }, + { + "epoch": 1.0592, + "grad_norm": 0.1404232680797577, + "learning_rate": 6.810015719739502e-05, + "loss": 0.2165, + "step": 3310 + }, + { + "grad_norm": 0.19484853772033336, + "loss": 0.20964643359184265, + "step": 3310 + }, + { + "grad_norm": 0.2584198706250332, + "loss": 0.16780635714530945, + "step": 3311 + }, + { + "grad_norm": 0.1508347630879236, + "loss": 0.26421651244163513, + "step": 3312 + }, + { + "grad_norm": 0.46184558001083387, + "loss": 0.1820983588695526, + "step": 3313 + }, + { + "grad_norm": 0.2984460615658494, + "loss": 0.24543499946594238, + "step": 3314 + }, + { + "grad_norm": 0.3875954834359299, + "loss": 0.19110673666000366, + "step": 3315 + }, + { + "grad_norm": 0.21477205013275774, + "loss": 0.17881277203559875, + "step": 3316 + }, + { + "grad_norm": 0.21977361210430257, + "loss": 0.19745004177093506, + "step": 3317 + }, + { + "grad_norm": 0.13988112110144138, + "loss": 0.18783271312713623, + "step": 3318 + }, + { + "grad_norm": 0.14396339609479755, + "loss": 0.16091184318065643, + "step": 3319 + }, + { + "epoch": 1.0624, + "grad_norm": 0.14396339654922485, + "learning_rate": 6.798787334381316e-05, + "loss": 0.1985, + "step": 3320 + }, + { + "grad_norm": 0.4748190270406279, + "loss": 0.20898649096488953, + "step": 3320 + }, + { + "grad_norm": 0.09286962526360047, + "loss": 0.1704678237438202, + "step": 3321 + }, + { + "grad_norm": 0.16873196593243892, + "loss": 0.15303091704845428, + "step": 3322 + }, + { + "grad_norm": 0.2800190443530822, + "loss": 0.19740444421768188, + "step": 3323 + }, + { + "grad_norm": 0.13535348845075615, + "loss": 0.20456042885780334, + "step": 3324 + }, + { + "grad_norm": 0.12855706502910677, + "loss": 0.18880286812782288, + "step": 3325 + }, + { + "grad_norm": 0.19832592494847653, + "loss": 0.16804786026477814, + "step": 3326 + }, + { + "grad_norm": 0.14292915185705654, + "loss": 0.21867232024669647, + "step": 3327 + }, + { + "grad_norm": 0.3758122630096106, + "loss": 0.23773150146007538, + "step": 3328 + }, + { + "grad_norm": 0.20105882840243325, + "loss": 0.17002268135547638, + "step": 3329 + }, + { + "epoch": 1.0656, + "grad_norm": 0.20105883479118347, + "learning_rate": 6.787558949023131e-05, + "loss": 0.1918, + "step": 3330 + }, + { + "grad_norm": 0.14050181050153457, + "loss": 0.20314890146255493, + "step": 3330 + }, + { + "grad_norm": 0.15961080346184747, + "loss": 0.18902458250522614, + "step": 3331 + }, + { + "grad_norm": 0.16045692400033285, + "loss": 0.20894286036491394, + "step": 3332 + }, + { + "grad_norm": 0.4648832301397069, + "loss": 0.1623837947845459, + "step": 3333 + }, + { + "grad_norm": 0.17018666800749838, + "loss": 0.16782227158546448, + "step": 3334 + }, + { + "grad_norm": 0.1282328692909771, + "loss": 0.20730413496494293, + "step": 3335 + }, + { + "grad_norm": 0.2913884538141775, + "loss": 0.3271103501319885, + "step": 3336 + }, + { + "grad_norm": 0.2261571306810224, + "loss": 0.21291717886924744, + "step": 3337 + }, + { + "grad_norm": 0.3302441055211869, + "loss": 0.2554022967815399, + "step": 3338 + }, + { + "grad_norm": 0.18435831354438045, + "loss": 0.1915220022201538, + "step": 3339 + }, + { + "epoch": 1.0688, + "grad_norm": 0.18435832858085632, + "learning_rate": 6.776330563664946e-05, + "loss": 0.2126, + "step": 3340 + }, + { + "grad_norm": 0.15423475481797874, + "loss": 0.21529823541641235, + "step": 3340 + }, + { + "grad_norm": 0.10606661297374088, + "loss": 0.2102663218975067, + "step": 3341 + }, + { + "grad_norm": 0.09777954794800668, + "loss": 0.1667298972606659, + "step": 3342 + }, + { + "grad_norm": 0.18348791775835704, + "loss": 0.20450621843338013, + "step": 3343 + }, + { + "grad_norm": 0.25970350985691437, + "loss": 0.1637565791606903, + "step": 3344 + }, + { + "grad_norm": 0.18638381527014194, + "loss": 0.2756558358669281, + "step": 3345 + }, + { + "grad_norm": 0.12283412366206073, + "loss": 0.2064577043056488, + "step": 3346 + }, + { + "grad_norm": 0.41473901050455453, + "loss": 0.15946730971336365, + "step": 3347 + }, + { + "grad_norm": 0.18172139160542677, + "loss": 0.22383525967597961, + "step": 3348 + }, + { + "grad_norm": 0.14441746912935602, + "loss": 0.23602230846881866, + "step": 3349 + }, + { + "epoch": 1.072, + "grad_norm": 0.14441746473312378, + "learning_rate": 6.76510217830676e-05, + "loss": 0.2062, + "step": 3350 + }, + { + "grad_norm": 0.14161891284938377, + "loss": 0.20202137529850006, + "step": 3350 + }, + { + "grad_norm": 0.13256708393962857, + "loss": 0.1666882336139679, + "step": 3351 + }, + { + "grad_norm": 0.3268848729378725, + "loss": 0.1937652975320816, + "step": 3352 + }, + { + "grad_norm": 0.2482349095407333, + "loss": 0.14030544459819794, + "step": 3353 + }, + { + "grad_norm": 0.17921075943683315, + "loss": 0.21324563026428223, + "step": 3354 + }, + { + "grad_norm": 0.2872814188584243, + "loss": 0.24524004757404327, + "step": 3355 + }, + { + "grad_norm": 0.42615071367134083, + "loss": 0.1840643286705017, + "step": 3356 + }, + { + "grad_norm": 0.2115850882437695, + "loss": 0.17420439422130585, + "step": 3357 + }, + { + "grad_norm": 0.11176184490991058, + "loss": 0.15559493005275726, + "step": 3358 + }, + { + "grad_norm": 0.26102705610624993, + "loss": 0.205319344997406, + "step": 3359 + }, + { + "epoch": 1.0752, + "grad_norm": 0.2610270380973816, + "learning_rate": 6.753873792948574e-05, + "loss": 0.188, + "step": 3360 + }, + { + "grad_norm": 0.2697998265884838, + "loss": 0.178012877702713, + "step": 3360 + }, + { + "grad_norm": 0.10307527665137259, + "loss": 0.18920348584651947, + "step": 3361 + }, + { + "grad_norm": 0.16775745881702472, + "loss": 0.16878090798854828, + "step": 3362 + }, + { + "grad_norm": 0.1447540463883136, + "loss": 0.19543838500976562, + "step": 3363 + }, + { + "grad_norm": 0.16572434042918913, + "loss": 0.16771095991134644, + "step": 3364 + }, + { + "grad_norm": 0.26821734402094966, + "loss": 0.17234161496162415, + "step": 3365 + }, + { + "grad_norm": 0.25681077509527944, + "loss": 0.19100120663642883, + "step": 3366 + }, + { + "grad_norm": 0.1197364277809743, + "loss": 0.17576080560684204, + "step": 3367 + }, + { + "grad_norm": 0.2527362776947039, + "loss": 0.2062649428844452, + "step": 3368 + }, + { + "grad_norm": 0.12237353304959811, + "loss": 0.18598008155822754, + "step": 3369 + }, + { + "epoch": 1.0784, + "grad_norm": 0.1223735362291336, + "learning_rate": 6.742645407590389e-05, + "loss": 0.183, + "step": 3370 + }, + { + "grad_norm": 0.5392588985673251, + "loss": 0.32852423191070557, + "step": 3370 + }, + { + "grad_norm": 0.12024752944761917, + "loss": 0.1887550801038742, + "step": 3371 + }, + { + "grad_norm": 0.2471424519569156, + "loss": 0.23259921371936798, + "step": 3372 + }, + { + "grad_norm": 0.2541713736921691, + "loss": 0.17091616988182068, + "step": 3373 + }, + { + "grad_norm": 0.35986026877792954, + "loss": 0.21208621561527252, + "step": 3374 + }, + { + "grad_norm": 0.4184041608147018, + "loss": 0.18751321732997894, + "step": 3375 + }, + { + "grad_norm": 0.2844961010574447, + "loss": 0.21719685196876526, + "step": 3376 + }, + { + "grad_norm": 0.13082524542902907, + "loss": 0.1524171084165573, + "step": 3377 + }, + { + "grad_norm": 0.243895426182076, + "loss": 0.21626058220863342, + "step": 3378 + }, + { + "grad_norm": 0.2614642303198758, + "loss": 0.21299906075000763, + "step": 3379 + }, + { + "epoch": 1.0816, + "grad_norm": 0.2614642083644867, + "learning_rate": 6.731417022232204e-05, + "loss": 0.2119, + "step": 3380 + }, + { + "grad_norm": 0.6227288656892737, + "loss": 0.22040513157844543, + "step": 3380 + }, + { + "grad_norm": 0.3024833954963556, + "loss": 0.2578505873680115, + "step": 3381 + }, + { + "grad_norm": 0.22094551070147594, + "loss": 0.17557936906814575, + "step": 3382 + }, + { + "grad_norm": 0.27090064961422494, + "loss": 0.22171057760715485, + "step": 3383 + }, + { + "grad_norm": 0.12626607130701145, + "loss": 0.20138803124427795, + "step": 3384 + }, + { + "grad_norm": 0.23289113280024812, + "loss": 0.18867164850234985, + "step": 3385 + }, + { + "grad_norm": 0.2664457843744542, + "loss": 0.18679030239582062, + "step": 3386 + }, + { + "grad_norm": 0.20346430119729234, + "loss": 0.15899449586868286, + "step": 3387 + }, + { + "grad_norm": 0.16618479569076558, + "loss": 0.16061550378799438, + "step": 3388 + }, + { + "grad_norm": 0.11868624787079053, + "loss": 0.1766447126865387, + "step": 3389 + }, + { + "epoch": 1.0848, + "grad_norm": 0.1186862513422966, + "learning_rate": 6.720188636874017e-05, + "loss": 0.1949, + "step": 3390 + }, + { + "grad_norm": 0.21393794410154657, + "loss": 0.17473098635673523, + "step": 3390 + }, + { + "grad_norm": 0.10408222916044972, + "loss": 0.1777285635471344, + "step": 3391 + }, + { + "grad_norm": 0.29986879405636996, + "loss": 0.20806482434272766, + "step": 3392 + }, + { + "grad_norm": 0.2084970113564778, + "loss": 0.17320169508457184, + "step": 3393 + }, + { + "grad_norm": 0.11856323534346971, + "loss": 0.19127123057842255, + "step": 3394 + }, + { + "grad_norm": 0.5235364590224761, + "loss": 0.23129510879516602, + "step": 3395 + }, + { + "grad_norm": 0.09689461658720053, + "loss": 0.1545136421918869, + "step": 3396 + }, + { + "grad_norm": 0.1648487208266637, + "loss": 0.2011176198720932, + "step": 3397 + }, + { + "grad_norm": 0.1487341634203918, + "loss": 0.2714505195617676, + "step": 3398 + }, + { + "grad_norm": 0.25704221994438414, + "loss": 0.18325074017047882, + "step": 3399 + }, + { + "epoch": 1.088, + "grad_norm": 0.2570422291755676, + "learning_rate": 6.708960251515832e-05, + "loss": 0.1967, + "step": 3400 + }, + { + "grad_norm": 0.5101413647663395, + "loss": 0.18740862607955933, + "step": 3400 + }, + { + "grad_norm": 0.13815408592379605, + "loss": 0.20104311406612396, + "step": 3401 + }, + { + "grad_norm": 0.1273293813922024, + "loss": 0.16788941621780396, + "step": 3402 + }, + { + "grad_norm": 0.1984444977235528, + "loss": 0.1915222704410553, + "step": 3403 + }, + { + "grad_norm": 0.20013679464238418, + "loss": 0.16305194795131683, + "step": 3404 + }, + { + "grad_norm": 0.21008816925363796, + "loss": 0.2005242556333542, + "step": 3405 + }, + { + "grad_norm": 0.12797419692156248, + "loss": 0.19444791972637177, + "step": 3406 + }, + { + "grad_norm": 0.15661293595865194, + "loss": 0.141421377658844, + "step": 3407 + }, + { + "grad_norm": 0.6481305120919125, + "loss": 0.2836759388446808, + "step": 3408 + }, + { + "grad_norm": 0.22830011272925585, + "loss": 0.18033689260482788, + "step": 3409 + }, + { + "epoch": 1.0912, + "grad_norm": 0.22830010950565338, + "learning_rate": 6.697731866157648e-05, + "loss": 0.1911, + "step": 3410 + }, + { + "grad_norm": 0.18844451853001104, + "loss": 0.1610701084136963, + "step": 3410 + }, + { + "grad_norm": 0.26652864488651296, + "loss": 0.16263432800769806, + "step": 3411 + }, + { + "grad_norm": 0.12033092396946077, + "loss": 0.1634710282087326, + "step": 3412 + }, + { + "grad_norm": 0.12493070808652663, + "loss": 0.21008282899856567, + "step": 3413 + }, + { + "grad_norm": 0.17186037975154947, + "loss": 0.21290436387062073, + "step": 3414 + }, + { + "grad_norm": 0.24169047821998307, + "loss": 0.19716776907444, + "step": 3415 + }, + { + "grad_norm": 0.25469259359115576, + "loss": 0.20633870363235474, + "step": 3416 + }, + { + "grad_norm": 0.15100327648774553, + "loss": 0.1980751007795334, + "step": 3417 + }, + { + "grad_norm": 0.1814062252787963, + "loss": 0.18428447842597961, + "step": 3418 + }, + { + "grad_norm": 0.20854174060001204, + "loss": 0.25615018606185913, + "step": 3419 + }, + { + "epoch": 1.0944, + "grad_norm": 0.20854175090789795, + "learning_rate": 6.686503480799461e-05, + "loss": 0.1952, + "step": 3420 + }, + { + "grad_norm": 0.16094783564928128, + "loss": 0.1897488385438919, + "step": 3420 + }, + { + "grad_norm": 0.1953024692511322, + "loss": 0.1949964463710785, + "step": 3421 + }, + { + "grad_norm": 0.18765732618186012, + "loss": 0.1556699275970459, + "step": 3422 + }, + { + "grad_norm": 0.2137024559776799, + "loss": 0.177469402551651, + "step": 3423 + }, + { + "grad_norm": 0.1386571575841606, + "loss": 0.1890679895877838, + "step": 3424 + }, + { + "grad_norm": 0.11393014346278137, + "loss": 0.19272968173027039, + "step": 3425 + }, + { + "grad_norm": 0.1491405257930984, + "loss": 0.22291827201843262, + "step": 3426 + }, + { + "grad_norm": 0.23701987347788073, + "loss": 0.18643461167812347, + "step": 3427 + }, + { + "grad_norm": 0.4269912055680812, + "loss": 0.17961366474628448, + "step": 3428 + }, + { + "grad_norm": 0.13073672106579365, + "loss": 0.1972702443599701, + "step": 3429 + }, + { + "epoch": 1.0976, + "grad_norm": 0.13073670864105225, + "learning_rate": 6.675275095441276e-05, + "loss": 0.1886, + "step": 3430 + }, + { + "grad_norm": 0.3504654081340461, + "loss": 0.1798008382320404, + "step": 3430 + }, + { + "grad_norm": 0.23357337793165217, + "loss": 0.24717308580875397, + "step": 3431 + }, + { + "grad_norm": 0.299345861841684, + "loss": 0.17267674207687378, + "step": 3432 + }, + { + "grad_norm": 0.24231772741039348, + "loss": 0.22578555345535278, + "step": 3433 + }, + { + "grad_norm": 0.14565398480116323, + "loss": 0.1641218066215515, + "step": 3434 + }, + { + "grad_norm": 0.1462919544378563, + "loss": 0.19058403372764587, + "step": 3435 + }, + { + "grad_norm": 0.11964312746092483, + "loss": 0.17549589276313782, + "step": 3436 + }, + { + "grad_norm": 0.2016067285557766, + "loss": 0.18249548971652985, + "step": 3437 + }, + { + "grad_norm": 0.21426424789508264, + "loss": 0.17309081554412842, + "step": 3438 + }, + { + "grad_norm": 0.15211446092144854, + "loss": 0.1997547447681427, + "step": 3439 + }, + { + "epoch": 1.1008, + "grad_norm": 0.15211446583271027, + "learning_rate": 6.66404671008309e-05, + "loss": 0.1911, + "step": 3440 + }, + { + "grad_norm": 0.30061808191847944, + "loss": 0.2226082682609558, + "step": 3440 + }, + { + "grad_norm": 0.11562539363168377, + "loss": 0.15840303897857666, + "step": 3441 + }, + { + "grad_norm": 0.08467070071603569, + "loss": 0.14680957794189453, + "step": 3442 + }, + { + "grad_norm": 0.11702141337472566, + "loss": 0.16979333758354187, + "step": 3443 + }, + { + "grad_norm": 0.34721167085122984, + "loss": 0.16812250018119812, + "step": 3444 + }, + { + "grad_norm": 0.13985247823862376, + "loss": 0.19179636240005493, + "step": 3445 + }, + { + "grad_norm": 0.1372946072975983, + "loss": 0.2326023280620575, + "step": 3446 + }, + { + "grad_norm": 0.14155954393612535, + "loss": 0.19271595776081085, + "step": 3447 + }, + { + "grad_norm": 0.3235944612141959, + "loss": 0.19448614120483398, + "step": 3448 + }, + { + "grad_norm": 0.2121246060111058, + "loss": 0.14751297235488892, + "step": 3449 + }, + { + "epoch": 1.104, + "grad_norm": 0.21212461590766907, + "learning_rate": 6.652818324724905e-05, + "loss": 0.1825, + "step": 3450 + }, + { + "grad_norm": 0.18962225501254837, + "loss": 0.1711852252483368, + "step": 3450 + }, + { + "grad_norm": 0.10241774975271076, + "loss": 0.14792390167713165, + "step": 3451 + }, + { + "grad_norm": 0.2017345879550858, + "loss": 0.24901819229125977, + "step": 3452 + }, + { + "grad_norm": 0.28810399127315955, + "loss": 0.2084946483373642, + "step": 3453 + }, + { + "grad_norm": 0.09985250547788731, + "loss": 0.17400610446929932, + "step": 3454 + }, + { + "grad_norm": 0.1215935040071516, + "loss": 0.15690481662750244, + "step": 3455 + }, + { + "grad_norm": 0.19878095869364226, + "loss": 0.1637120544910431, + "step": 3456 + }, + { + "grad_norm": 0.15860645478388705, + "loss": 0.18407419323921204, + "step": 3457 + }, + { + "grad_norm": 0.15751745467094902, + "loss": 0.26406043767929077, + "step": 3458 + }, + { + "grad_norm": 0.24107688776688352, + "loss": 0.20043878257274628, + "step": 3459 + }, + { + "epoch": 1.1072, + "grad_norm": 0.24107690155506134, + "learning_rate": 6.641589939366719e-05, + "loss": 0.192, + "step": 3460 + }, + { + "grad_norm": 0.13920850532294188, + "loss": 0.1817478984594345, + "step": 3460 + }, + { + "grad_norm": 0.21206553062203512, + "loss": 0.2709503173828125, + "step": 3461 + }, + { + "grad_norm": 0.18688620819755014, + "loss": 0.16908371448516846, + "step": 3462 + }, + { + "grad_norm": 0.3106330715354395, + "loss": 0.1597794145345688, + "step": 3463 + }, + { + "grad_norm": 0.33130519608002834, + "loss": 0.18321436643600464, + "step": 3464 + }, + { + "grad_norm": 0.22378819636624384, + "loss": 0.1697693169116974, + "step": 3465 + }, + { + "grad_norm": 0.34715369530132323, + "loss": 0.18409982323646545, + "step": 3466 + }, + { + "grad_norm": 0.23698309869109463, + "loss": 0.2452273964881897, + "step": 3467 + }, + { + "grad_norm": 0.3447831824068712, + "loss": 0.17791587114334106, + "step": 3468 + }, + { + "grad_norm": 0.28331570733001255, + "loss": 0.24224790930747986, + "step": 3469 + }, + { + "epoch": 1.1104, + "grad_norm": 0.2833156883716583, + "learning_rate": 6.630361554008534e-05, + "loss": 0.1984, + "step": 3470 + }, + { + "grad_norm": 0.27361761861863043, + "loss": 0.20346619188785553, + "step": 3470 + }, + { + "grad_norm": 0.3674894966233293, + "loss": 0.16550420224666595, + "step": 3471 + }, + { + "grad_norm": 0.204071853653681, + "loss": 0.1703619807958603, + "step": 3472 + }, + { + "grad_norm": 0.11573192306281221, + "loss": 0.18514782190322876, + "step": 3473 + }, + { + "grad_norm": 0.13127635946470848, + "loss": 0.17746461927890778, + "step": 3474 + }, + { + "grad_norm": 0.1787094059797258, + "loss": 0.17380423843860626, + "step": 3475 + }, + { + "grad_norm": 0.493926478351464, + "loss": 0.2390831857919693, + "step": 3476 + }, + { + "grad_norm": 0.1881883322041056, + "loss": 0.1661565601825714, + "step": 3477 + }, + { + "grad_norm": 0.3256707629137623, + "loss": 0.2226492017507553, + "step": 3478 + }, + { + "grad_norm": 0.1155223912800408, + "loss": 0.17785437405109406, + "step": 3479 + }, + { + "epoch": 1.1136, + "grad_norm": 0.11552239954471588, + "learning_rate": 6.619133168650349e-05, + "loss": 0.1881, + "step": 3480 + }, + { + "grad_norm": 0.21549965214167602, + "loss": 0.2049882560968399, + "step": 3480 + }, + { + "grad_norm": 0.25577874687293395, + "loss": 0.16249242424964905, + "step": 3481 + }, + { + "grad_norm": 0.21423432353060123, + "loss": 0.18134146928787231, + "step": 3482 + }, + { + "grad_norm": 0.11289653657642598, + "loss": 0.23417237401008606, + "step": 3483 + }, + { + "grad_norm": 0.22588302828375273, + "loss": 0.19639262557029724, + "step": 3484 + }, + { + "grad_norm": 0.14582241993559983, + "loss": 0.17935170233249664, + "step": 3485 + }, + { + "grad_norm": 0.16584702697224185, + "loss": 0.18604135513305664, + "step": 3486 + }, + { + "grad_norm": 0.32897021362363327, + "loss": 0.16446354985237122, + "step": 3487 + }, + { + "grad_norm": 0.28455177032913465, + "loss": 0.15318801999092102, + "step": 3488 + }, + { + "grad_norm": 0.6871241651006308, + "loss": 0.20304492115974426, + "step": 3489 + }, + { + "epoch": 1.1168, + "grad_norm": 0.6871241927146912, + "learning_rate": 6.607904783292163e-05, + "loss": 0.1865, + "step": 3490 + }, + { + "grad_norm": 0.37072497076197475, + "loss": 0.17181560397148132, + "step": 3490 + }, + { + "grad_norm": 0.21799433514554145, + "loss": 0.19980251789093018, + "step": 3491 + }, + { + "grad_norm": 0.26344401170208875, + "loss": 0.2003650963306427, + "step": 3492 + }, + { + "grad_norm": 0.368141324232376, + "loss": 0.2045270800590515, + "step": 3493 + }, + { + "grad_norm": 0.6357113503711822, + "loss": 0.2365380823612213, + "step": 3494 + }, + { + "grad_norm": 0.19927141946956978, + "loss": 0.1810886710882187, + "step": 3495 + }, + { + "grad_norm": 0.43844280515083095, + "loss": 0.19409999251365662, + "step": 3496 + }, + { + "grad_norm": 0.12142050914639488, + "loss": 0.15645332634449005, + "step": 3497 + }, + { + "grad_norm": 0.20661204382150053, + "loss": 0.13919538259506226, + "step": 3498 + }, + { + "grad_norm": 0.280002578337699, + "loss": 0.1970548778772354, + "step": 3499 + }, + { + "epoch": 1.12, + "grad_norm": 0.28000256419181824, + "learning_rate": 6.596676397933978e-05, + "loss": 0.1881, + "step": 3500 + }, + { + "grad_norm": 0.15605854255513613, + "loss": 0.19863717257976532, + "step": 3500 + }, + { + "grad_norm": 0.16899377765552148, + "loss": 0.16965743899345398, + "step": 3501 + }, + { + "grad_norm": 0.192531639811446, + "loss": 0.17660275101661682, + "step": 3502 + }, + { + "grad_norm": 0.22903706926601022, + "loss": 0.17867223918437958, + "step": 3503 + }, + { + "grad_norm": 0.14517956161228338, + "loss": 0.17979300022125244, + "step": 3504 + }, + { + "grad_norm": 0.1727922259066902, + "loss": 0.2428002655506134, + "step": 3505 + }, + { + "grad_norm": 0.22294029968119147, + "loss": 0.26365789771080017, + "step": 3506 + }, + { + "grad_norm": 0.33007619073645966, + "loss": 0.20364566147327423, + "step": 3507 + }, + { + "grad_norm": 0.466412718398103, + "loss": 0.18608972430229187, + "step": 3508 + }, + { + "grad_norm": 0.5156084417947359, + "loss": 0.2175932377576828, + "step": 3509 + }, + { + "epoch": 1.1232, + "grad_norm": 0.5156084299087524, + "learning_rate": 6.585448012575793e-05, + "loss": 0.2017, + "step": 3510 + }, + { + "grad_norm": 0.3386505609860965, + "loss": 0.2312900424003601, + "step": 3510 + }, + { + "grad_norm": 0.38079507204622687, + "loss": 0.1976131796836853, + "step": 3511 + }, + { + "grad_norm": 0.26088159207962475, + "loss": 0.16842104494571686, + "step": 3512 + }, + { + "grad_norm": 0.13431057007921504, + "loss": 0.1794930100440979, + "step": 3513 + }, + { + "grad_norm": 0.3013072978770725, + "loss": 0.1470842957496643, + "step": 3514 + }, + { + "grad_norm": 0.358449437748155, + "loss": 0.20837944746017456, + "step": 3515 + }, + { + "grad_norm": 0.41300714557501145, + "loss": 0.20701339840888977, + "step": 3516 + }, + { + "grad_norm": 0.2576741525301783, + "loss": 0.16354456543922424, + "step": 3517 + }, + { + "grad_norm": 0.3110432605668245, + "loss": 0.19252288341522217, + "step": 3518 + }, + { + "grad_norm": 0.434450121807064, + "loss": 0.2036813199520111, + "step": 3519 + }, + { + "epoch": 1.1264, + "grad_norm": 0.4344501197338104, + "learning_rate": 6.574219627217606e-05, + "loss": 0.1899, + "step": 3520 + }, + { + "grad_norm": 0.13621674744849918, + "loss": 0.18619738519191742, + "step": 3520 + }, + { + "grad_norm": 0.17375260733446404, + "loss": 0.18805043399333954, + "step": 3521 + }, + { + "grad_norm": 0.3722327459799635, + "loss": 0.20387840270996094, + "step": 3522 + }, + { + "grad_norm": 0.24876950080690316, + "loss": 0.19638049602508545, + "step": 3523 + }, + { + "grad_norm": 0.27017840807709725, + "loss": 0.2115325629711151, + "step": 3524 + }, + { + "grad_norm": 0.2273947701724121, + "loss": 0.16399583220481873, + "step": 3525 + }, + { + "grad_norm": 0.15462809491238966, + "loss": 0.1971760094165802, + "step": 3526 + }, + { + "grad_norm": 0.31550014687962125, + "loss": 0.16874855756759644, + "step": 3527 + }, + { + "grad_norm": 0.10869758165627368, + "loss": 0.2060144990682602, + "step": 3528 + }, + { + "grad_norm": 0.20910920841959582, + "loss": 0.1763850450515747, + "step": 3529 + }, + { + "epoch": 1.1296, + "grad_norm": 0.20910920202732086, + "learning_rate": 6.56299124185942e-05, + "loss": 0.1898, + "step": 3530 + }, + { + "grad_norm": 0.2687798507347879, + "loss": 0.1715802550315857, + "step": 3530 + }, + { + "grad_norm": 0.26846731735093654, + "loss": 0.19829750061035156, + "step": 3531 + }, + { + "grad_norm": 0.3691815585557574, + "loss": 0.1793244630098343, + "step": 3532 + }, + { + "grad_norm": 0.14746563294320048, + "loss": 0.21221178770065308, + "step": 3533 + }, + { + "grad_norm": 0.1705055668970947, + "loss": 0.1759031116962433, + "step": 3534 + }, + { + "grad_norm": 0.3221873664468826, + "loss": 0.1751568615436554, + "step": 3535 + }, + { + "grad_norm": 0.18266263673967756, + "loss": 0.18395794928073883, + "step": 3536 + }, + { + "grad_norm": 0.3418624741924187, + "loss": 0.19602657854557037, + "step": 3537 + }, + { + "grad_norm": 0.14302070872986666, + "loss": 0.19569985568523407, + "step": 3538 + }, + { + "grad_norm": 0.3154007168739851, + "loss": 0.18654659390449524, + "step": 3539 + }, + { + "epoch": 1.1328, + "grad_norm": 0.31540071964263916, + "learning_rate": 6.551762856501235e-05, + "loss": 0.1875, + "step": 3540 + }, + { + "grad_norm": 0.14317692363262302, + "loss": 0.15898889303207397, + "step": 3540 + }, + { + "grad_norm": 0.17908493762201344, + "loss": 0.17733661830425262, + "step": 3541 + }, + { + "grad_norm": 0.24111202816067948, + "loss": 0.21014533936977386, + "step": 3542 + }, + { + "grad_norm": 0.31724088693264035, + "loss": 0.17304418981075287, + "step": 3543 + }, + { + "grad_norm": 0.31333792549859046, + "loss": 0.21386238932609558, + "step": 3544 + }, + { + "grad_norm": 0.4433052654611731, + "loss": 0.15789350867271423, + "step": 3545 + }, + { + "grad_norm": 0.23366083752722586, + "loss": 0.15782099962234497, + "step": 3546 + }, + { + "grad_norm": 0.29307748295129465, + "loss": 0.15639808773994446, + "step": 3547 + }, + { + "grad_norm": 0.23549617341005258, + "loss": 0.20630568265914917, + "step": 3548 + }, + { + "grad_norm": 0.22151773839796676, + "loss": 0.17109118402004242, + "step": 3549 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 0.22151772677898407, + "learning_rate": 6.540534471143049e-05, + "loss": 0.1783, + "step": 3550 + }, + { + "grad_norm": 0.2804360297425475, + "loss": 0.15476615726947784, + "step": 3550 + }, + { + "grad_norm": 0.3835545859377686, + "loss": 0.2296481430530548, + "step": 3551 + }, + { + "grad_norm": 0.15935477865934877, + "loss": 0.1748206913471222, + "step": 3552 + }, + { + "grad_norm": 0.19884202874821474, + "loss": 0.20500671863555908, + "step": 3553 + }, + { + "grad_norm": 0.20118899087942543, + "loss": 0.182530015707016, + "step": 3554 + }, + { + "grad_norm": 0.41980108613327216, + "loss": 0.22619730234146118, + "step": 3555 + }, + { + "grad_norm": 0.15383912287782453, + "loss": 0.16580119729042053, + "step": 3556 + }, + { + "grad_norm": 0.22323091081357027, + "loss": 0.16503092646598816, + "step": 3557 + }, + { + "grad_norm": 0.1715143903921065, + "loss": 0.14852933585643768, + "step": 3558 + }, + { + "grad_norm": 0.2316929275217785, + "loss": 0.17928913235664368, + "step": 3559 + }, + { + "epoch": 1.1392, + "grad_norm": 0.23169292509555817, + "learning_rate": 6.529306085784864e-05, + "loss": 0.1832, + "step": 3560 + }, + { + "grad_norm": 0.193052539956848, + "loss": 0.1794174611568451, + "step": 3560 + }, + { + "grad_norm": 0.36684579770830106, + "loss": 0.22861555218696594, + "step": 3561 + }, + { + "grad_norm": 0.1890731050432472, + "loss": 0.18496963381767273, + "step": 3562 + }, + { + "grad_norm": 0.19323113499113367, + "loss": 0.25805824995040894, + "step": 3563 + }, + { + "grad_norm": 0.17780642144529932, + "loss": 0.15973873436450958, + "step": 3564 + }, + { + "grad_norm": 0.1974301306487339, + "loss": 0.19964031875133514, + "step": 3565 + }, + { + "grad_norm": 0.16285335855891836, + "loss": 0.17255431413650513, + "step": 3566 + }, + { + "grad_norm": 0.5860136026180017, + "loss": 0.1550910323858261, + "step": 3567 + }, + { + "grad_norm": 0.22638754862223384, + "loss": 0.16885854303836823, + "step": 3568 + }, + { + "grad_norm": 0.21004838872038392, + "loss": 0.1895889788866043, + "step": 3569 + }, + { + "epoch": 1.1424, + "grad_norm": 0.21004840731620789, + "learning_rate": 6.518077700426679e-05, + "loss": 0.1897, + "step": 3570 + }, + { + "grad_norm": 0.17326380044602271, + "loss": 0.17679166793823242, + "step": 3570 + }, + { + "grad_norm": 0.10832797135903321, + "loss": 0.1508222222328186, + "step": 3571 + }, + { + "grad_norm": 0.10375344216737867, + "loss": 0.18146219849586487, + "step": 3572 + }, + { + "grad_norm": 0.21254840010466575, + "loss": 0.20736299455165863, + "step": 3573 + }, + { + "grad_norm": 0.565187394394497, + "loss": 0.20074547827243805, + "step": 3574 + }, + { + "grad_norm": 0.18110635189957888, + "loss": 0.19263669848442078, + "step": 3575 + }, + { + "grad_norm": 0.13626101981268315, + "loss": 0.16251757740974426, + "step": 3576 + }, + { + "grad_norm": 0.17853732407927242, + "loss": 0.17672839760780334, + "step": 3577 + }, + { + "grad_norm": 0.20676554383034, + "loss": 0.17741534113883972, + "step": 3578 + }, + { + "grad_norm": 0.136437036721133, + "loss": 0.16797961294651031, + "step": 3579 + }, + { + "epoch": 1.1456, + "grad_norm": 0.1364370435476303, + "learning_rate": 6.506849315068494e-05, + "loss": 0.1794, + "step": 3580 + }, + { + "grad_norm": 0.1696091469139265, + "loss": 0.19830584526062012, + "step": 3580 + }, + { + "grad_norm": 0.11250166252995081, + "loss": 0.15592671930789948, + "step": 3581 + }, + { + "grad_norm": 0.19085527104737593, + "loss": 0.2307090163230896, + "step": 3582 + }, + { + "grad_norm": 0.22036126235316245, + "loss": 0.1873495876789093, + "step": 3583 + }, + { + "grad_norm": 0.20690932402847115, + "loss": 0.15177083015441895, + "step": 3584 + }, + { + "grad_norm": 0.14283354549496466, + "loss": 0.19470199942588806, + "step": 3585 + }, + { + "grad_norm": 0.3181357128146865, + "loss": 0.1832774579524994, + "step": 3586 + }, + { + "grad_norm": 0.34480407950733416, + "loss": 0.15469610691070557, + "step": 3587 + }, + { + "grad_norm": 0.3631373737492626, + "loss": 0.17022773623466492, + "step": 3588 + }, + { + "grad_norm": 0.18477840518588212, + "loss": 0.1713375449180603, + "step": 3589 + }, + { + "epoch": 1.1488, + "grad_norm": 0.18477840721607208, + "learning_rate": 6.495620929710308e-05, + "loss": 0.1798, + "step": 3590 + }, + { + "grad_norm": 0.4201612826757945, + "loss": 0.19460038840770721, + "step": 3590 + }, + { + "grad_norm": 0.2709749519558303, + "loss": 0.25355416536331177, + "step": 3591 + }, + { + "grad_norm": 0.13525798506988163, + "loss": 0.15995565056800842, + "step": 3592 + }, + { + "grad_norm": 0.19266466237740024, + "loss": 0.17445537447929382, + "step": 3593 + }, + { + "grad_norm": 0.2877124076519875, + "loss": 0.16493070125579834, + "step": 3594 + }, + { + "grad_norm": 0.6037103398480878, + "loss": 0.20290759205818176, + "step": 3595 + }, + { + "grad_norm": 0.11469098271073058, + "loss": 0.16847792267799377, + "step": 3596 + }, + { + "grad_norm": 0.14578053303296995, + "loss": 0.15623024106025696, + "step": 3597 + }, + { + "grad_norm": 0.16775365534177214, + "loss": 0.1594351977109909, + "step": 3598 + }, + { + "grad_norm": 0.18409844713446374, + "loss": 0.19357778131961823, + "step": 3599 + }, + { + "epoch": 1.152, + "grad_norm": 0.18409843742847443, + "learning_rate": 6.484392544352123e-05, + "loss": 0.1828, + "step": 3600 + }, + { + "grad_norm": 0.14477080775726256, + "loss": 0.1760568916797638, + "step": 3600 + }, + { + "grad_norm": 0.15824703508062976, + "loss": 0.1710251122713089, + "step": 3601 + }, + { + "grad_norm": 0.2800511868607662, + "loss": 0.19519613683223724, + "step": 3602 + }, + { + "grad_norm": 0.13869925644129832, + "loss": 0.165155291557312, + "step": 3603 + }, + { + "grad_norm": 0.15869297460388637, + "loss": 0.15795421600341797, + "step": 3604 + }, + { + "grad_norm": 0.12994566312747088, + "loss": 0.24602068960666656, + "step": 3605 + }, + { + "grad_norm": 0.13370076505296138, + "loss": 0.1848064512014389, + "step": 3606 + }, + { + "grad_norm": 0.16646621466816416, + "loss": 0.19848668575286865, + "step": 3607 + }, + { + "grad_norm": 0.23988894475937522, + "loss": 0.18922366201877594, + "step": 3608 + }, + { + "grad_norm": 0.14838065530368566, + "loss": 0.18416224420070648, + "step": 3609 + }, + { + "epoch": 1.1552, + "grad_norm": 0.14838065207004547, + "learning_rate": 6.473164158993938e-05, + "loss": 0.1868, + "step": 3610 + }, + { + "grad_norm": 0.29409154738648213, + "loss": 0.17747890949249268, + "step": 3610 + }, + { + "grad_norm": 0.12693336510152325, + "loss": 0.1751139760017395, + "step": 3611 + }, + { + "grad_norm": 0.11571950758857795, + "loss": 0.18403974175453186, + "step": 3612 + }, + { + "grad_norm": 0.09941986350554044, + "loss": 0.17510834336280823, + "step": 3613 + }, + { + "grad_norm": 0.12933544317729584, + "loss": 0.2118327021598816, + "step": 3614 + }, + { + "grad_norm": 0.12488394269981513, + "loss": 0.20673087239265442, + "step": 3615 + }, + { + "grad_norm": 0.1962182144390047, + "loss": 0.16991832852363586, + "step": 3616 + }, + { + "grad_norm": 0.2804665909119394, + "loss": 0.19971983134746552, + "step": 3617 + }, + { + "grad_norm": 0.3010548914869654, + "loss": 0.18320651352405548, + "step": 3618 + }, + { + "grad_norm": 0.18552242171822803, + "loss": 0.2316400408744812, + "step": 3619 + }, + { + "epoch": 1.1584, + "grad_norm": 0.1855224221944809, + "learning_rate": 6.461935773635752e-05, + "loss": 0.1915, + "step": 3620 + }, + { + "grad_norm": 0.12520594819579264, + "loss": 0.19307635724544525, + "step": 3620 + }, + { + "grad_norm": 0.19992066391251392, + "loss": 0.20989321172237396, + "step": 3621 + }, + { + "grad_norm": 0.29789748506320074, + "loss": 0.14511871337890625, + "step": 3622 + }, + { + "grad_norm": 0.11608707248683663, + "loss": 0.18449705839157104, + "step": 3623 + }, + { + "grad_norm": 0.30347365446662455, + "loss": 0.21209843456745148, + "step": 3624 + }, + { + "grad_norm": 0.1564826030616599, + "loss": 0.17589688301086426, + "step": 3625 + }, + { + "grad_norm": 0.24986566322956447, + "loss": 0.2044646143913269, + "step": 3626 + }, + { + "grad_norm": 0.10382818164460263, + "loss": 0.1598128378391266, + "step": 3627 + }, + { + "grad_norm": 0.32593226349922944, + "loss": 0.21590568125247955, + "step": 3628 + }, + { + "grad_norm": 0.13246811132794362, + "loss": 0.22976571321487427, + "step": 3629 + }, + { + "epoch": 1.1616, + "grad_norm": 0.132468119263649, + "learning_rate": 6.450707388277565e-05, + "loss": 0.1931, + "step": 3630 + }, + { + "grad_norm": 0.15599037218143413, + "loss": 0.16073915362358093, + "step": 3630 + }, + { + "grad_norm": 0.14744050732771194, + "loss": 0.2154422104358673, + "step": 3631 + }, + { + "grad_norm": 0.13002084403476563, + "loss": 0.16633126139640808, + "step": 3632 + }, + { + "grad_norm": 0.19120342814447075, + "loss": 0.20852141082286835, + "step": 3633 + }, + { + "grad_norm": 0.23160849038703443, + "loss": 0.18729031085968018, + "step": 3634 + }, + { + "grad_norm": 0.24243533980361578, + "loss": 0.1589713990688324, + "step": 3635 + }, + { + "grad_norm": 0.24077631089287418, + "loss": 0.21049714088439941, + "step": 3636 + }, + { + "grad_norm": 0.11286248151379104, + "loss": 0.16329681873321533, + "step": 3637 + }, + { + "grad_norm": 0.17705687068636106, + "loss": 0.18797463178634644, + "step": 3638 + }, + { + "grad_norm": 0.13990611793609106, + "loss": 0.2326589971780777, + "step": 3639 + }, + { + "epoch": 1.1648, + "grad_norm": 0.1399061232805252, + "learning_rate": 6.43947900291938e-05, + "loss": 0.1892, + "step": 3640 + }, + { + "grad_norm": 0.2591574634391201, + "loss": 0.20523205399513245, + "step": 3640 + }, + { + "grad_norm": 0.2190818154986467, + "loss": 0.20031961798667908, + "step": 3641 + }, + { + "grad_norm": 0.2708168158823101, + "loss": 0.2565891146659851, + "step": 3642 + }, + { + "grad_norm": 0.36566363665243906, + "loss": 0.2657066583633423, + "step": 3643 + }, + { + "grad_norm": 0.10442537719521071, + "loss": 0.17063625156879425, + "step": 3644 + }, + { + "grad_norm": 0.16389457571673585, + "loss": 0.24235275387763977, + "step": 3645 + }, + { + "grad_norm": 0.2331394626791037, + "loss": 0.16810765862464905, + "step": 3646 + }, + { + "grad_norm": 0.19318871501110355, + "loss": 0.20221421122550964, + "step": 3647 + }, + { + "grad_norm": 0.24538598392721123, + "loss": 0.24157732725143433, + "step": 3648 + }, + { + "grad_norm": 0.1444574269391133, + "loss": 0.19992032647132874, + "step": 3649 + }, + { + "epoch": 1.168, + "grad_norm": 0.14445742964744568, + "learning_rate": 6.428250617561194e-05, + "loss": 0.2153, + "step": 3650 + }, + { + "grad_norm": 0.12229175574635122, + "loss": 0.19924654066562653, + "step": 3650 + }, + { + "grad_norm": 0.21205644289942002, + "loss": 0.19013625383377075, + "step": 3651 + }, + { + "grad_norm": 0.1273319611533536, + "loss": 0.20913326740264893, + "step": 3652 + }, + { + "grad_norm": 0.15892815623658668, + "loss": 0.17273733019828796, + "step": 3653 + }, + { + "grad_norm": 0.19203881468471604, + "loss": 0.20515722036361694, + "step": 3654 + }, + { + "grad_norm": 0.18390245946276704, + "loss": 0.20901449024677277, + "step": 3655 + }, + { + "grad_norm": 0.2447104912282579, + "loss": 0.20355454087257385, + "step": 3656 + }, + { + "grad_norm": 0.17859132897228808, + "loss": 0.28363797068595886, + "step": 3657 + }, + { + "grad_norm": 0.5469257674356984, + "loss": 0.273404598236084, + "step": 3658 + }, + { + "grad_norm": 0.114578235694165, + "loss": 0.16552738845348358, + "step": 3659 + }, + { + "epoch": 1.1712, + "grad_norm": 0.1145782321691513, + "learning_rate": 6.417022232203009e-05, + "loss": 0.2112, + "step": 3660 + }, + { + "grad_norm": 0.2027649589887453, + "loss": 0.20589874684810638, + "step": 3660 + }, + { + "grad_norm": 0.13482468829019323, + "loss": 0.2038334310054779, + "step": 3661 + }, + { + "grad_norm": 0.3154394174149347, + "loss": 0.1811601221561432, + "step": 3662 + }, + { + "grad_norm": 0.40295095111339196, + "loss": 0.19064441323280334, + "step": 3663 + }, + { + "grad_norm": 0.35006057329247886, + "loss": 0.17107245326042175, + "step": 3664 + }, + { + "grad_norm": 0.16884345357725208, + "loss": 0.20840024948120117, + "step": 3665 + }, + { + "grad_norm": 0.2273970710167857, + "loss": 0.17799876630306244, + "step": 3666 + }, + { + "grad_norm": 0.2966775215357485, + "loss": 0.1993805170059204, + "step": 3667 + }, + { + "grad_norm": 0.23895700472432665, + "loss": 0.2290862500667572, + "step": 3668 + }, + { + "grad_norm": 0.13386286379819257, + "loss": 0.1621888428926468, + "step": 3669 + }, + { + "epoch": 1.1743999999999999, + "grad_norm": 0.13386286795139313, + "learning_rate": 6.405793846844824e-05, + "loss": 0.193, + "step": 3670 + }, + { + "grad_norm": 0.3478460498555151, + "loss": 0.24732457101345062, + "step": 3670 + }, + { + "grad_norm": 0.1586665205346861, + "loss": 0.20274417102336884, + "step": 3671 + }, + { + "grad_norm": 0.1467233493683571, + "loss": 0.19183534383773804, + "step": 3672 + }, + { + "grad_norm": 0.1702275753717433, + "loss": 0.16828596591949463, + "step": 3673 + }, + { + "grad_norm": 0.36825731013293334, + "loss": 0.22752493619918823, + "step": 3674 + }, + { + "grad_norm": 0.28588177765890466, + "loss": 0.21345382928848267, + "step": 3675 + }, + { + "grad_norm": 0.352474373599882, + "loss": 0.19651921093463898, + "step": 3676 + }, + { + "grad_norm": 0.1804995593666654, + "loss": 0.18786031007766724, + "step": 3677 + }, + { + "grad_norm": 0.19719596227822314, + "loss": 0.16426301002502441, + "step": 3678 + }, + { + "grad_norm": 0.2544742978449623, + "loss": 0.1892743855714798, + "step": 3679 + }, + { + "epoch": 1.1776, + "grad_norm": 0.25447431206703186, + "learning_rate": 6.39456546148664e-05, + "loss": 0.1989, + "step": 3680 + }, + { + "grad_norm": 0.20799510484891987, + "loss": 0.20193038880825043, + "step": 3680 + }, + { + "grad_norm": 0.2509466094164011, + "loss": 0.21922948956489563, + "step": 3681 + }, + { + "grad_norm": 0.1279720899235477, + "loss": 0.18752902746200562, + "step": 3682 + }, + { + "grad_norm": 0.19892972193448796, + "loss": 0.1873525083065033, + "step": 3683 + }, + { + "grad_norm": 0.20407756614377107, + "loss": 0.22763416171073914, + "step": 3684 + }, + { + "grad_norm": 0.4070484882079328, + "loss": 0.2077043056488037, + "step": 3685 + }, + { + "grad_norm": 0.1329967563978902, + "loss": 0.2490728348493576, + "step": 3686 + }, + { + "grad_norm": 0.16670479101016925, + "loss": 0.18463921546936035, + "step": 3687 + }, + { + "grad_norm": 0.2058710302567251, + "loss": 0.1760564148426056, + "step": 3688 + }, + { + "grad_norm": 0.327045563764244, + "loss": 0.23128294944763184, + "step": 3689 + }, + { + "epoch": 1.1808, + "grad_norm": 0.3270455598831177, + "learning_rate": 6.383337076128453e-05, + "loss": 0.2072, + "step": 3690 + }, + { + "grad_norm": 0.2987867409349109, + "loss": 0.272361159324646, + "step": 3690 + }, + { + "grad_norm": 0.3313375427798044, + "loss": 0.27409628033638, + "step": 3691 + }, + { + "grad_norm": 0.141678931410571, + "loss": 0.2042732834815979, + "step": 3692 + }, + { + "grad_norm": 0.26884555617151956, + "loss": 0.16268914937973022, + "step": 3693 + }, + { + "grad_norm": 0.29507074519183957, + "loss": 0.17424342036247253, + "step": 3694 + }, + { + "grad_norm": 0.1362612001839773, + "loss": 0.19920317828655243, + "step": 3695 + }, + { + "grad_norm": 0.32875992878207433, + "loss": 0.18011105060577393, + "step": 3696 + }, + { + "grad_norm": 0.12543836196875013, + "loss": 0.2038014680147171, + "step": 3697 + }, + { + "grad_norm": 0.16091338188615417, + "loss": 0.17972908914089203, + "step": 3698 + }, + { + "grad_norm": 0.11990506089192303, + "loss": 0.15932327508926392, + "step": 3699 + }, + { + "epoch": 1.184, + "grad_norm": 0.11990506201982498, + "learning_rate": 6.372108690770268e-05, + "loss": 0.201, + "step": 3700 + }, + { + "grad_norm": 0.24930167286432078, + "loss": 0.1929214745759964, + "step": 3700 + }, + { + "grad_norm": 0.1420118475308186, + "loss": 0.1797236204147339, + "step": 3701 + }, + { + "grad_norm": 0.13752762668331822, + "loss": 0.1662490963935852, + "step": 3702 + }, + { + "grad_norm": 0.1416924648269736, + "loss": 0.1669950932264328, + "step": 3703 + }, + { + "grad_norm": 0.34257840073040585, + "loss": 0.21377485990524292, + "step": 3704 + }, + { + "grad_norm": 0.18055800494847182, + "loss": 0.2610444724559784, + "step": 3705 + }, + { + "grad_norm": 0.1340276133400689, + "loss": 0.1622895896434784, + "step": 3706 + }, + { + "grad_norm": 0.24659654847656187, + "loss": 0.2161109447479248, + "step": 3707 + }, + { + "grad_norm": 0.16894973135725638, + "loss": 0.1780840903520584, + "step": 3708 + }, + { + "grad_norm": 0.12764547294516812, + "loss": 0.16584740579128265, + "step": 3709 + }, + { + "epoch": 1.1872, + "grad_norm": 0.12764547765254974, + "learning_rate": 6.360880305412082e-05, + "loss": 0.1903, + "step": 3710 + }, + { + "grad_norm": 0.08859694030787083, + "loss": 0.14796580374240875, + "step": 3710 + }, + { + "grad_norm": 0.21289352760585445, + "loss": 0.19765682518482208, + "step": 3711 + }, + { + "grad_norm": 0.2566597517011121, + "loss": 0.1574803590774536, + "step": 3712 + }, + { + "grad_norm": 0.16060298815396545, + "loss": 0.25161078572273254, + "step": 3713 + }, + { + "grad_norm": 0.20528568352668813, + "loss": 0.2159658819437027, + "step": 3714 + }, + { + "grad_norm": 0.12264862429648281, + "loss": 0.19453243911266327, + "step": 3715 + }, + { + "grad_norm": 0.1710211740387246, + "loss": 0.15684360265731812, + "step": 3716 + }, + { + "grad_norm": 0.15262049616962842, + "loss": 0.23262755572795868, + "step": 3717 + }, + { + "grad_norm": 0.2651957281348959, + "loss": 0.23639199137687683, + "step": 3718 + }, + { + "grad_norm": 0.40525418944571173, + "loss": 0.2714008688926697, + "step": 3719 + }, + { + "epoch": 1.1904, + "grad_norm": 0.40525418519973755, + "learning_rate": 6.349651920053896e-05, + "loss": 0.2062, + "step": 3720 + }, + { + "grad_norm": 0.3210901977434673, + "loss": 0.22745093703269958, + "step": 3720 + }, + { + "grad_norm": 0.23018408902915233, + "loss": 0.17656293511390686, + "step": 3721 + }, + { + "grad_norm": 0.2190291554914856, + "loss": 0.2441985160112381, + "step": 3722 + }, + { + "grad_norm": 0.21172106113480407, + "loss": 0.2621122896671295, + "step": 3723 + }, + { + "grad_norm": 0.11246958850004109, + "loss": 0.23904097080230713, + "step": 3724 + }, + { + "grad_norm": 0.36665222393158214, + "loss": 0.17514146864414215, + "step": 3725 + }, + { + "grad_norm": 0.1536586479004371, + "loss": 0.30092352628707886, + "step": 3726 + }, + { + "grad_norm": 0.37247702054186493, + "loss": 0.1937665045261383, + "step": 3727 + }, + { + "grad_norm": 0.3071224560686298, + "loss": 0.1571527123451233, + "step": 3728 + }, + { + "grad_norm": 0.33912782834506877, + "loss": 0.16721419990062714, + "step": 3729 + }, + { + "epoch": 1.1936, + "grad_norm": 0.3391278088092804, + "learning_rate": 6.338423534695711e-05, + "loss": 0.2144, + "step": 3730 + }, + { + "grad_norm": 0.3405181299174443, + "loss": 0.21792399883270264, + "step": 3730 + }, + { + "grad_norm": 0.2964567059148459, + "loss": 0.2371436208486557, + "step": 3731 + }, + { + "grad_norm": 0.45113142260727107, + "loss": 0.22916573286056519, + "step": 3732 + }, + { + "grad_norm": 0.41230557998958195, + "loss": 0.21064624190330505, + "step": 3733 + }, + { + "grad_norm": 0.14098226173787204, + "loss": 0.17227651178836823, + "step": 3734 + }, + { + "grad_norm": 0.17213481964491542, + "loss": 0.20347796380519867, + "step": 3735 + }, + { + "grad_norm": 0.3478023946495378, + "loss": 0.26102983951568604, + "step": 3736 + }, + { + "grad_norm": 0.3750336971702443, + "loss": 0.2012135088443756, + "step": 3737 + }, + { + "grad_norm": 0.44352240865110204, + "loss": 0.22049778699874878, + "step": 3738 + }, + { + "grad_norm": 0.11917086363368111, + "loss": 0.15907588601112366, + "step": 3739 + }, + { + "epoch": 1.1968, + "grad_norm": 0.11917085945606232, + "learning_rate": 6.327195149337526e-05, + "loss": 0.2112, + "step": 3740 + }, + { + "grad_norm": 0.18032247439405066, + "loss": 0.24362854659557343, + "step": 3740 + }, + { + "grad_norm": 0.16764137749754335, + "loss": 0.19499826431274414, + "step": 3741 + }, + { + "grad_norm": 0.2992141464055445, + "loss": 0.18178221583366394, + "step": 3742 + }, + { + "grad_norm": 0.1419852259587164, + "loss": 0.2463744729757309, + "step": 3743 + }, + { + "grad_norm": 0.20526063016320822, + "loss": 0.36217159032821655, + "step": 3744 + }, + { + "grad_norm": 0.5337645389012488, + "loss": 0.21962177753448486, + "step": 3745 + }, + { + "grad_norm": 0.21066814517786653, + "loss": 0.1926160603761673, + "step": 3746 + }, + { + "grad_norm": 0.3515431117793949, + "loss": 0.3016376197338104, + "step": 3747 + }, + { + "grad_norm": 0.3433727910683064, + "loss": 0.1954200565814972, + "step": 3748 + }, + { + "grad_norm": 0.12978478958919573, + "loss": 0.20174764096736908, + "step": 3749 + }, + { + "epoch": 1.2, + "grad_norm": 0.12978479266166687, + "learning_rate": 6.31596676397934e-05, + "loss": 0.234, + "step": 3750 + }, + { + "grad_norm": 0.22812777759906694, + "loss": 0.16829006373882294, + "step": 3750 + }, + { + "grad_norm": 0.3832800768109315, + "loss": 0.15675941109657288, + "step": 3751 + }, + { + "grad_norm": 0.2914938168874632, + "loss": 0.21553125977516174, + "step": 3752 + }, + { + "grad_norm": 0.09839300191942987, + "loss": 0.20110753178596497, + "step": 3753 + }, + { + "grad_norm": 0.14574039854387924, + "loss": 0.1785554587841034, + "step": 3754 + }, + { + "grad_norm": 0.34108167995713023, + "loss": 0.25275084376335144, + "step": 3755 + }, + { + "grad_norm": 0.20019759839164344, + "loss": 0.1757156103849411, + "step": 3756 + }, + { + "grad_norm": 0.23142304754391346, + "loss": 0.2225319892168045, + "step": 3757 + }, + { + "grad_norm": 0.3443651469831977, + "loss": 0.19788137078285217, + "step": 3758 + }, + { + "grad_norm": 0.22144346128023784, + "loss": 0.17686784267425537, + "step": 3759 + }, + { + "epoch": 1.2032, + "grad_norm": 0.22144345939159393, + "learning_rate": 6.304738378621155e-05, + "loss": 0.1946, + "step": 3760 + }, + { + "grad_norm": 0.1273920319625496, + "loss": 0.17729930579662323, + "step": 3760 + }, + { + "grad_norm": 0.15980436470299544, + "loss": 0.21310755610466003, + "step": 3761 + }, + { + "grad_norm": 0.5754434514191638, + "loss": 0.16815267503261566, + "step": 3762 + }, + { + "grad_norm": 0.4280597080158408, + "loss": 0.19358479976654053, + "step": 3763 + }, + { + "grad_norm": 0.32014383139987435, + "loss": 0.20476661622524261, + "step": 3764 + }, + { + "grad_norm": 0.27044532082954864, + "loss": 0.20429423451423645, + "step": 3765 + }, + { + "grad_norm": 0.33775739090220086, + "loss": 0.16855236887931824, + "step": 3766 + }, + { + "grad_norm": 0.17440320085730884, + "loss": 0.1813536137342453, + "step": 3767 + }, + { + "grad_norm": 0.15290008641326683, + "loss": 0.19317223131656647, + "step": 3768 + }, + { + "grad_norm": 0.20441490365372297, + "loss": 0.19995588064193726, + "step": 3769 + }, + { + "epoch": 1.2064, + "grad_norm": 0.20441490411758423, + "learning_rate": 6.29350999326297e-05, + "loss": 0.1904, + "step": 3770 + }, + { + "grad_norm": 0.14596207006626075, + "loss": 0.19287404417991638, + "step": 3770 + }, + { + "grad_norm": 0.26218667579197164, + "loss": 0.1856566071510315, + "step": 3771 + }, + { + "grad_norm": 0.32553617852377154, + "loss": 0.18521031737327576, + "step": 3772 + }, + { + "grad_norm": 0.13313737698975106, + "loss": 0.20911632478237152, + "step": 3773 + }, + { + "grad_norm": 0.25002868994062083, + "loss": 0.1789344847202301, + "step": 3774 + }, + { + "grad_norm": 0.09977694590055783, + "loss": 0.15748652815818787, + "step": 3775 + }, + { + "grad_norm": 0.2718175282140806, + "loss": 0.15883319079875946, + "step": 3776 + }, + { + "grad_norm": 0.18752953780733322, + "loss": 0.15744371712207794, + "step": 3777 + }, + { + "grad_norm": 0.6346080115722563, + "loss": 0.20434162020683289, + "step": 3778 + }, + { + "grad_norm": 0.23814196886517894, + "loss": 0.2171681672334671, + "step": 3779 + }, + { + "epoch": 1.2096, + "grad_norm": 0.2381419688463211, + "learning_rate": 6.282281607904783e-05, + "loss": 0.1847, + "step": 3780 + }, + { + "grad_norm": 0.15825671803521535, + "loss": 0.1696903109550476, + "step": 3780 + }, + { + "grad_norm": 0.0992662605935469, + "loss": 0.19492042064666748, + "step": 3781 + }, + { + "grad_norm": 0.18180228103536797, + "loss": 0.22255706787109375, + "step": 3782 + }, + { + "grad_norm": 0.2442002157097464, + "loss": 0.1807493269443512, + "step": 3783 + }, + { + "grad_norm": 0.2655061517093585, + "loss": 0.1781953126192093, + "step": 3784 + }, + { + "grad_norm": 0.13231403151327015, + "loss": 0.1795642226934433, + "step": 3785 + }, + { + "grad_norm": 0.11846869408071746, + "loss": 0.18439659476280212, + "step": 3786 + }, + { + "grad_norm": 0.10817587583192692, + "loss": 0.2065851390361786, + "step": 3787 + }, + { + "grad_norm": 0.22005661426109738, + "loss": 0.26530221104621887, + "step": 3788 + }, + { + "grad_norm": 0.14288231358450232, + "loss": 0.16878515481948853, + "step": 3789 + }, + { + "epoch": 1.2128, + "grad_norm": 0.1428823173046112, + "learning_rate": 6.271053222546598e-05, + "loss": 0.1951, + "step": 3790 + }, + { + "grad_norm": 0.1601826296745271, + "loss": 0.3060210645198822, + "step": 3790 + }, + { + "grad_norm": 0.4607179705432873, + "loss": 0.16773490607738495, + "step": 3791 + }, + { + "grad_norm": 0.15556722187856534, + "loss": 0.1965189278125763, + "step": 3792 + }, + { + "grad_norm": 0.12619641272680898, + "loss": 0.2085563838481903, + "step": 3793 + }, + { + "grad_norm": 0.24503794205493845, + "loss": 0.18347710371017456, + "step": 3794 + }, + { + "grad_norm": 0.2366465921980992, + "loss": 0.16622157394886017, + "step": 3795 + }, + { + "grad_norm": 0.19657530652476518, + "loss": 0.18181212246418, + "step": 3796 + }, + { + "grad_norm": 0.14013304226604098, + "loss": 0.18460047245025635, + "step": 3797 + }, + { + "grad_norm": 0.18712604039827058, + "loss": 0.1814606934785843, + "step": 3798 + }, + { + "grad_norm": 0.44922182621968615, + "loss": 0.16221709549427032, + "step": 3799 + }, + { + "epoch": 1.216, + "grad_norm": 0.4492218494415283, + "learning_rate": 6.259824837188412e-05, + "loss": 0.1939, + "step": 3800 + }, + { + "grad_norm": 0.10313939739712476, + "loss": 0.15765997767448425, + "step": 3800 + }, + { + "grad_norm": 0.3028069530708297, + "loss": 0.19922898709774017, + "step": 3801 + }, + { + "grad_norm": 0.32240355315560637, + "loss": 0.23306655883789062, + "step": 3802 + }, + { + "grad_norm": 0.1979000726402717, + "loss": 0.16467347741127014, + "step": 3803 + }, + { + "grad_norm": 0.37356715305474364, + "loss": 0.19322259724140167, + "step": 3804 + }, + { + "grad_norm": 0.27004062802739504, + "loss": 0.17980359494686127, + "step": 3805 + }, + { + "grad_norm": 0.1262719681898414, + "loss": 0.1924087256193161, + "step": 3806 + }, + { + "grad_norm": 0.35375147785540534, + "loss": 0.2705973982810974, + "step": 3807 + }, + { + "grad_norm": 0.3537352836415903, + "loss": 0.23614764213562012, + "step": 3808 + }, + { + "grad_norm": 0.21098877049941162, + "loss": 0.15634101629257202, + "step": 3809 + }, + { + "epoch": 1.2192, + "grad_norm": 0.21098877489566803, + "learning_rate": 6.248596451830227e-05, + "loss": 0.1983, + "step": 3810 + }, + { + "grad_norm": 0.3800902136522472, + "loss": 0.2364814430475235, + "step": 3810 + }, + { + "grad_norm": 0.1351079455436749, + "loss": 0.19748064875602722, + "step": 3811 + }, + { + "grad_norm": 0.246067417008417, + "loss": 0.14599677920341492, + "step": 3812 + }, + { + "grad_norm": 0.1330326122565916, + "loss": 0.20828746259212494, + "step": 3813 + }, + { + "grad_norm": 0.18096537720543285, + "loss": 0.19488808512687683, + "step": 3814 + }, + { + "grad_norm": 0.33445167820497973, + "loss": 0.19438481330871582, + "step": 3815 + }, + { + "grad_norm": 0.1052856279926195, + "loss": 0.23098859190940857, + "step": 3816 + }, + { + "grad_norm": 0.1684563091052818, + "loss": 0.1918712854385376, + "step": 3817 + }, + { + "grad_norm": 0.29273799091467617, + "loss": 0.21199259161949158, + "step": 3818 + }, + { + "grad_norm": 0.10859962263622719, + "loss": 0.21873247623443604, + "step": 3819 + }, + { + "epoch": 1.2224, + "grad_norm": 0.10859962552785873, + "learning_rate": 6.237368066472041e-05, + "loss": 0.2031, + "step": 3820 + }, + { + "grad_norm": 0.10489159705792385, + "loss": 0.20079895853996277, + "step": 3820 + }, + { + "grad_norm": 0.2982654471912047, + "loss": 0.18848411738872528, + "step": 3821 + }, + { + "grad_norm": 0.17909769103178863, + "loss": 0.21595805883407593, + "step": 3822 + }, + { + "grad_norm": 0.5308892228829891, + "loss": 0.17133729159832, + "step": 3823 + }, + { + "grad_norm": 0.14200977903162676, + "loss": 0.17552994191646576, + "step": 3824 + }, + { + "grad_norm": 0.24990406057960562, + "loss": 0.17673134803771973, + "step": 3825 + }, + { + "grad_norm": 0.11805064478597606, + "loss": 0.15949133038520813, + "step": 3826 + }, + { + "grad_norm": 0.2718799337069169, + "loss": 0.1927749514579773, + "step": 3827 + }, + { + "grad_norm": 0.23921237777849846, + "loss": 0.218783900141716, + "step": 3828 + }, + { + "grad_norm": 0.1391225879580085, + "loss": 0.20818321406841278, + "step": 3829 + }, + { + "epoch": 1.2256, + "grad_norm": 0.1391225904226303, + "learning_rate": 6.226139681113856e-05, + "loss": 0.1908, + "step": 3830 + }, + { + "grad_norm": 0.11453942536544726, + "loss": 0.22278296947479248, + "step": 3830 + }, + { + "grad_norm": 0.19984657668038752, + "loss": 0.18427884578704834, + "step": 3831 + }, + { + "grad_norm": 0.15229876454611452, + "loss": 0.16616784036159515, + "step": 3832 + }, + { + "grad_norm": 0.2489189250932182, + "loss": 0.19539982080459595, + "step": 3833 + }, + { + "grad_norm": 0.11833170720102651, + "loss": 0.17941884696483612, + "step": 3834 + }, + { + "grad_norm": 0.1358233064511363, + "loss": 0.20279383659362793, + "step": 3835 + }, + { + "grad_norm": 0.13134546097004113, + "loss": 0.15553364157676697, + "step": 3836 + }, + { + "grad_norm": 0.20427195844388196, + "loss": 0.15828147530555725, + "step": 3837 + }, + { + "grad_norm": 0.1189385088980081, + "loss": 0.1914324164390564, + "step": 3838 + }, + { + "grad_norm": 0.15726483292476984, + "loss": 0.17737042903900146, + "step": 3839 + }, + { + "epoch": 1.2288000000000001, + "grad_norm": 0.1572648286819458, + "learning_rate": 6.214911295755671e-05, + "loss": 0.1833, + "step": 3840 + }, + { + "grad_norm": 0.14750635424218012, + "loss": 0.20408204197883606, + "step": 3840 + }, + { + "grad_norm": 0.13204351458646563, + "loss": 0.19303381443023682, + "step": 3841 + }, + { + "grad_norm": 0.22569694242544613, + "loss": 0.16951380670070648, + "step": 3842 + }, + { + "grad_norm": 0.1488879658927413, + "loss": 0.17082077264785767, + "step": 3843 + }, + { + "grad_norm": 0.44315034827686295, + "loss": 0.27084314823150635, + "step": 3844 + }, + { + "grad_norm": 0.17716492944523501, + "loss": 0.1739315688610077, + "step": 3845 + }, + { + "grad_norm": 0.4056918934656879, + "loss": 0.16872766613960266, + "step": 3846 + }, + { + "grad_norm": 0.19412438318236291, + "loss": 0.17683008313179016, + "step": 3847 + }, + { + "grad_norm": 0.104727624085454, + "loss": 0.15604811906814575, + "step": 3848 + }, + { + "grad_norm": 0.15222427143250739, + "loss": 0.14689400792121887, + "step": 3849 + }, + { + "epoch": 1.232, + "grad_norm": 0.15222427248954773, + "learning_rate": 6.203682910397485e-05, + "loss": 0.1831, + "step": 3850 + }, + { + "grad_norm": 0.12046684159417043, + "loss": 0.17144140601158142, + "step": 3850 + }, + { + "grad_norm": 0.1291601069502513, + "loss": 0.20733189582824707, + "step": 3851 + }, + { + "grad_norm": 0.22456419602428251, + "loss": 0.19636350870132446, + "step": 3852 + }, + { + "grad_norm": 0.15438449556087194, + "loss": 0.14100876450538635, + "step": 3853 + }, + { + "grad_norm": 0.8539229180541874, + "loss": 0.3542729616165161, + "step": 3854 + }, + { + "grad_norm": 0.4086229046152154, + "loss": 0.2987622916698456, + "step": 3855 + }, + { + "grad_norm": 0.1752457831617804, + "loss": 0.19611164927482605, + "step": 3856 + }, + { + "grad_norm": 0.1699031496703711, + "loss": 0.21013352274894714, + "step": 3857 + }, + { + "grad_norm": 0.4301133039501318, + "loss": 0.18270760774612427, + "step": 3858 + }, + { + "grad_norm": 0.4904520961796216, + "loss": 0.18278613686561584, + "step": 3859 + }, + { + "epoch": 1.2352, + "grad_norm": 0.4904521107673645, + "learning_rate": 6.1924545250393e-05, + "loss": 0.2141, + "step": 3860 + }, + { + "grad_norm": 0.36970882208362477, + "loss": 0.1815786063671112, + "step": 3860 + }, + { + "grad_norm": 0.4496510367344096, + "loss": 0.16482822597026825, + "step": 3861 + }, + { + "grad_norm": 0.14229299596041192, + "loss": 0.1891404092311859, + "step": 3862 + }, + { + "grad_norm": 0.14692519205067303, + "loss": 0.24199482798576355, + "step": 3863 + }, + { + "grad_norm": 0.25471240756885566, + "loss": 0.16024062037467957, + "step": 3864 + }, + { + "grad_norm": 0.2526704697204261, + "loss": 0.1768437772989273, + "step": 3865 + }, + { + "grad_norm": 0.09325018936099719, + "loss": 0.17593862116336823, + "step": 3866 + }, + { + "grad_norm": 0.13497246726843, + "loss": 0.18206316232681274, + "step": 3867 + }, + { + "grad_norm": 0.2897458571249234, + "loss": 0.22494754195213318, + "step": 3868 + }, + { + "grad_norm": 0.2860591823126357, + "loss": 0.17984238266944885, + "step": 3869 + }, + { + "epoch": 1.2384, + "grad_norm": 0.2860592007637024, + "learning_rate": 6.181226139681115e-05, + "loss": 0.1877, + "step": 3870 + }, + { + "grad_norm": 0.12359423993659462, + "loss": 0.17378118634223938, + "step": 3870 + }, + { + "grad_norm": 0.12477714349916577, + "loss": 0.1774178147315979, + "step": 3871 + }, + { + "grad_norm": 0.2745870703083724, + "loss": 0.18562301993370056, + "step": 3872 + }, + { + "grad_norm": 0.18626337923859265, + "loss": 0.19327199459075928, + "step": 3873 + }, + { + "grad_norm": 0.13228767673036793, + "loss": 0.1444193571805954, + "step": 3874 + }, + { + "grad_norm": 0.17242217416811864, + "loss": 0.14679992198944092, + "step": 3875 + }, + { + "grad_norm": 0.22172759085278412, + "loss": 0.2625727355480194, + "step": 3876 + }, + { + "grad_norm": 0.129238639836722, + "loss": 0.18249836564064026, + "step": 3877 + }, + { + "grad_norm": 0.46984977988021465, + "loss": 0.23191003501415253, + "step": 3878 + }, + { + "grad_norm": 0.12134333007782992, + "loss": 0.24087779223918915, + "step": 3879 + }, + { + "epoch": 1.2416, + "grad_norm": 0.12134332954883575, + "learning_rate": 6.169997754322929e-05, + "loss": 0.1939, + "step": 3880 + }, + { + "grad_norm": 0.13971635663141954, + "loss": 0.2153519093990326, + "step": 3880 + }, + { + "grad_norm": 0.1346487118326946, + "loss": 0.1760256588459015, + "step": 3881 + }, + { + "grad_norm": 0.16372877031534402, + "loss": 0.23094263672828674, + "step": 3882 + }, + { + "grad_norm": 0.32492406491199943, + "loss": 0.17534209787845612, + "step": 3883 + }, + { + "grad_norm": 0.18897796242988438, + "loss": 0.20544618368148804, + "step": 3884 + }, + { + "grad_norm": 0.14506218245752514, + "loss": 0.17054149508476257, + "step": 3885 + }, + { + "grad_norm": 0.376297130932493, + "loss": 0.1720181256532669, + "step": 3886 + }, + { + "grad_norm": 0.23030294132072557, + "loss": 0.16680896282196045, + "step": 3887 + }, + { + "grad_norm": 0.2687891797965711, + "loss": 0.1798284351825714, + "step": 3888 + }, + { + "grad_norm": 0.22850103917798079, + "loss": 0.16046485304832458, + "step": 3889 + }, + { + "epoch": 1.2448, + "grad_norm": 0.22850103676319122, + "learning_rate": 6.158769368964744e-05, + "loss": 0.1853, + "step": 3890 + }, + { + "grad_norm": 0.4054725701197502, + "loss": 0.19413046538829803, + "step": 3890 + }, + { + "grad_norm": 0.16747103836298322, + "loss": 0.22841393947601318, + "step": 3891 + }, + { + "grad_norm": 0.2634119890335401, + "loss": 0.17300161719322205, + "step": 3892 + }, + { + "grad_norm": 0.1309725672590284, + "loss": 0.21476686000823975, + "step": 3893 + }, + { + "grad_norm": 0.12329021625818641, + "loss": 0.1955357939004898, + "step": 3894 + }, + { + "grad_norm": 0.10154787339125793, + "loss": 0.14628314971923828, + "step": 3895 + }, + { + "grad_norm": 0.13163939763908283, + "loss": 0.17951466143131256, + "step": 3896 + }, + { + "grad_norm": 0.2041874964940503, + "loss": 0.20009636878967285, + "step": 3897 + }, + { + "grad_norm": 0.5978104841543339, + "loss": 0.25142866373062134, + "step": 3898 + }, + { + "grad_norm": 0.2284720427513676, + "loss": 0.1948280781507492, + "step": 3899 + }, + { + "epoch": 1.248, + "grad_norm": 0.228472039103508, + "learning_rate": 6.147540983606557e-05, + "loss": 0.1978, + "step": 3900 + }, + { + "grad_norm": 0.16898597137088145, + "loss": 0.19525450468063354, + "step": 3900 + }, + { + "grad_norm": 0.3108974614515686, + "loss": 0.2276042401790619, + "step": 3901 + }, + { + "grad_norm": 0.2920477401533743, + "loss": 0.1828804612159729, + "step": 3902 + }, + { + "grad_norm": 0.25210826144761267, + "loss": 0.21043159067630768, + "step": 3903 + }, + { + "grad_norm": 0.3198380602877059, + "loss": 0.16261783242225647, + "step": 3904 + }, + { + "grad_norm": 0.41534743524160617, + "loss": 0.22603259980678558, + "step": 3905 + }, + { + "grad_norm": 0.20864000468358515, + "loss": 0.20115506649017334, + "step": 3906 + }, + { + "grad_norm": 0.23679590238015136, + "loss": 0.14614073932170868, + "step": 3907 + }, + { + "grad_norm": 0.2655561330015631, + "loss": 0.23336872458457947, + "step": 3908 + }, + { + "grad_norm": 0.10981755992157495, + "loss": 0.22055479884147644, + "step": 3909 + }, + { + "epoch": 1.2511999999999999, + "grad_norm": 0.10981755703687668, + "learning_rate": 6.136312598248372e-05, + "loss": 0.2006, + "step": 3910 + }, + { + "grad_norm": 0.15182008206061776, + "loss": 0.19994080066680908, + "step": 3910 + }, + { + "grad_norm": 0.19382154874997382, + "loss": 0.18959012627601624, + "step": 3911 + }, + { + "grad_norm": 0.36133230916066716, + "loss": 0.1462061107158661, + "step": 3912 + }, + { + "grad_norm": 0.2381920337742861, + "loss": 0.17983628809452057, + "step": 3913 + }, + { + "grad_norm": 0.11266003605749819, + "loss": 0.14490751922130585, + "step": 3914 + }, + { + "grad_norm": 0.29540827584576684, + "loss": 0.31329259276390076, + "step": 3915 + }, + { + "grad_norm": 0.10300006959718999, + "loss": 0.15485885739326477, + "step": 3916 + }, + { + "grad_norm": 0.23415304535664125, + "loss": 0.20073217153549194, + "step": 3917 + }, + { + "grad_norm": 0.4125789993429305, + "loss": 0.18909184634685516, + "step": 3918 + }, + { + "grad_norm": 0.23318102798762513, + "loss": 0.16556741297245026, + "step": 3919 + }, + { + "epoch": 1.2544, + "grad_norm": 0.23318102955818176, + "learning_rate": 6.125084212890186e-05, + "loss": 0.1884, + "step": 3920 + }, + { + "grad_norm": 0.21754573247641307, + "loss": 0.22697173058986664, + "step": 3920 + }, + { + "grad_norm": 0.22857529261056692, + "loss": 0.194585382938385, + "step": 3921 + }, + { + "grad_norm": 0.09520773921463062, + "loss": 0.15745362639427185, + "step": 3922 + }, + { + "grad_norm": 0.25893317915092423, + "loss": 0.2108750343322754, + "step": 3923 + }, + { + "grad_norm": 0.32846726833416806, + "loss": 0.19888676702976227, + "step": 3924 + }, + { + "grad_norm": 0.17591508033946543, + "loss": 0.22726863622665405, + "step": 3925 + }, + { + "grad_norm": 0.3620706632615188, + "loss": 0.23908215761184692, + "step": 3926 + }, + { + "grad_norm": 0.16789859192912596, + "loss": 0.179397314786911, + "step": 3927 + }, + { + "grad_norm": 0.3298049092268924, + "loss": 0.1686134785413742, + "step": 3928 + }, + { + "grad_norm": 0.37267463388673067, + "loss": 0.1883230209350586, + "step": 3929 + }, + { + "epoch": 1.2576, + "grad_norm": 0.3726746439933777, + "learning_rate": 6.113855827532001e-05, + "loss": 0.1991, + "step": 3930 + }, + { + "grad_norm": 0.2674311659425751, + "loss": 0.17795363068580627, + "step": 3930 + }, + { + "grad_norm": 0.31257320897980884, + "loss": 0.17931833863258362, + "step": 3931 + }, + { + "grad_norm": 0.13463414879451796, + "loss": 0.17953890562057495, + "step": 3932 + }, + { + "grad_norm": 0.15998620089434276, + "loss": 0.17322126030921936, + "step": 3933 + }, + { + "grad_norm": 0.5030868347208844, + "loss": 0.22660642862319946, + "step": 3934 + }, + { + "grad_norm": 0.279296756037588, + "loss": 0.17669406533241272, + "step": 3935 + }, + { + "grad_norm": 0.35063493049569766, + "loss": 0.19722537696361542, + "step": 3936 + }, + { + "grad_norm": 0.26752545995401605, + "loss": 0.18162024021148682, + "step": 3937 + }, + { + "grad_norm": 0.18193643579571506, + "loss": 0.22973030805587769, + "step": 3938 + }, + { + "grad_norm": 0.26017437702161533, + "loss": 0.2370959371328354, + "step": 3939 + }, + { + "epoch": 1.2608, + "grad_norm": 0.26017436385154724, + "learning_rate": 6.102627442173816e-05, + "loss": 0.1959, + "step": 3940 + }, + { + "grad_norm": 0.18593325529565038, + "loss": 0.1497403383255005, + "step": 3940 + }, + { + "grad_norm": 0.16680933621786365, + "loss": 0.18652483820915222, + "step": 3941 + }, + { + "grad_norm": 0.3809013861013401, + "loss": 0.19902847707271576, + "step": 3942 + }, + { + "grad_norm": 0.1777277184573157, + "loss": 0.21046705543994904, + "step": 3943 + }, + { + "grad_norm": 0.30445279627759675, + "loss": 0.18499496579170227, + "step": 3944 + }, + { + "grad_norm": 0.19905188503167745, + "loss": 0.21403031051158905, + "step": 3945 + }, + { + "grad_norm": 0.195291565193484, + "loss": 0.20403006672859192, + "step": 3946 + }, + { + "grad_norm": 0.10320274552816332, + "loss": 0.17126494646072388, + "step": 3947 + }, + { + "grad_norm": 0.29679423689652545, + "loss": 0.1978609561920166, + "step": 3948 + }, + { + "grad_norm": 0.1348070178083293, + "loss": 0.19953875243663788, + "step": 3949 + }, + { + "epoch": 1.264, + "grad_norm": 0.1348070204257965, + "learning_rate": 6.09139905681563e-05, + "loss": 0.1917, + "step": 3950 + }, + { + "grad_norm": 0.24028182453360636, + "loss": 0.2475261688232422, + "step": 3950 + }, + { + "grad_norm": 0.26309929934407794, + "loss": 0.2007884979248047, + "step": 3951 + }, + { + "grad_norm": 0.14544975216784733, + "loss": 0.17524458467960358, + "step": 3952 + }, + { + "grad_norm": 0.16870103452438923, + "loss": 0.21082893013954163, + "step": 3953 + }, + { + "grad_norm": 0.2831039428025436, + "loss": 0.22145378589630127, + "step": 3954 + }, + { + "grad_norm": 0.24109718144870157, + "loss": 0.18403485417366028, + "step": 3955 + }, + { + "grad_norm": 0.27644649528624904, + "loss": 0.18033228814601898, + "step": 3956 + }, + { + "grad_norm": 0.2218396774713407, + "loss": 0.24486076831817627, + "step": 3957 + }, + { + "grad_norm": 0.3004843544179686, + "loss": 0.1992485225200653, + "step": 3958 + }, + { + "grad_norm": 0.23967556423768116, + "loss": 0.21453745663166046, + "step": 3959 + }, + { + "epoch": 1.2671999999999999, + "grad_norm": 0.23967556655406952, + "learning_rate": 6.0801706714574444e-05, + "loss": 0.2079, + "step": 3960 + }, + { + "grad_norm": 0.1887031025744836, + "loss": 0.16911673545837402, + "step": 3960 + }, + { + "grad_norm": 0.3059225141304899, + "loss": 0.2022632658481598, + "step": 3961 + }, + { + "grad_norm": 0.22356884378904662, + "loss": 0.1708504557609558, + "step": 3962 + }, + { + "grad_norm": 0.21136667269955559, + "loss": 0.22895224392414093, + "step": 3963 + }, + { + "grad_norm": 0.15135616277528474, + "loss": 0.1818498820066452, + "step": 3964 + }, + { + "grad_norm": 0.15677997190217952, + "loss": 0.20535729825496674, + "step": 3965 + }, + { + "grad_norm": 0.22897720877266747, + "loss": 0.2249414473772049, + "step": 3966 + }, + { + "grad_norm": 0.20521414409193714, + "loss": 0.20242825150489807, + "step": 3967 + }, + { + "grad_norm": 0.13375512687222918, + "loss": 0.17980866134166718, + "step": 3968 + }, + { + "grad_norm": 0.6242205073684002, + "loss": 0.20879557728767395, + "step": 3969 + }, + { + "epoch": 1.2704, + "grad_norm": 0.6242204904556274, + "learning_rate": 6.0689422860992595e-05, + "loss": 0.1974, + "step": 3970 + }, + { + "grad_norm": 0.26064950499830164, + "loss": 0.2373473346233368, + "step": 3970 + }, + { + "grad_norm": 0.25069486778731065, + "loss": 0.1393924206495285, + "step": 3971 + }, + { + "grad_norm": 0.16626348399266283, + "loss": 0.2208978682756424, + "step": 3972 + }, + { + "grad_norm": 0.32219739529060515, + "loss": 0.30393534898757935, + "step": 3973 + }, + { + "grad_norm": 0.36478005419950926, + "loss": 0.17293262481689453, + "step": 3974 + }, + { + "grad_norm": 0.24418919820609744, + "loss": 0.2261749655008316, + "step": 3975 + }, + { + "grad_norm": 0.4718921735757208, + "loss": 0.21368497610092163, + "step": 3976 + }, + { + "grad_norm": 0.6038625575340634, + "loss": 0.2193063497543335, + "step": 3977 + }, + { + "grad_norm": 0.23303672154635682, + "loss": 0.24195553362369537, + "step": 3978 + }, + { + "grad_norm": 0.13600405057191212, + "loss": 0.19564294815063477, + "step": 3979 + }, + { + "epoch": 1.2736, + "grad_norm": 0.13600404560565948, + "learning_rate": 6.057713900741073e-05, + "loss": 0.2171, + "step": 3980 + }, + { + "grad_norm": 0.13695611005200067, + "loss": 0.17107334733009338, + "step": 3980 + }, + { + "grad_norm": 0.2265979455437747, + "loss": 0.23009121417999268, + "step": 3981 + }, + { + "grad_norm": 0.24162941363485546, + "loss": 0.17468318343162537, + "step": 3982 + }, + { + "grad_norm": 0.1298637536515248, + "loss": 0.16425678133964539, + "step": 3983 + }, + { + "grad_norm": 0.1624125068894764, + "loss": 0.1455463171005249, + "step": 3984 + }, + { + "grad_norm": 0.10321501937781417, + "loss": 0.21041752398014069, + "step": 3985 + }, + { + "grad_norm": 0.33566343004699306, + "loss": 0.18118080496788025, + "step": 3986 + }, + { + "grad_norm": 0.12382028422197963, + "loss": 0.16233675181865692, + "step": 3987 + }, + { + "grad_norm": 0.35581943775813674, + "loss": 0.17060202360153198, + "step": 3988 + }, + { + "grad_norm": 0.20679209367874402, + "loss": 0.18041498959064484, + "step": 3989 + }, + { + "epoch": 1.2768, + "grad_norm": 0.20679210126399994, + "learning_rate": 6.046485515382888e-05, + "loss": 0.1791, + "step": 3990 + }, + { + "grad_norm": 0.24382358815650423, + "loss": 0.14108063280582428, + "step": 3990 + }, + { + "grad_norm": 0.4624438155251808, + "loss": 0.23672494292259216, + "step": 3991 + }, + { + "grad_norm": 0.13622907308143026, + "loss": 0.17729642987251282, + "step": 3992 + }, + { + "grad_norm": 0.25609059046792526, + "loss": 0.1925286501646042, + "step": 3993 + }, + { + "grad_norm": 0.11703337516737451, + "loss": 0.1603233516216278, + "step": 3994 + }, + { + "grad_norm": 0.21989383907418114, + "loss": 0.20469717681407928, + "step": 3995 + }, + { + "grad_norm": 0.17800924673541849, + "loss": 0.23784935474395752, + "step": 3996 + }, + { + "grad_norm": 0.38624867632392706, + "loss": 0.18623411655426025, + "step": 3997 + }, + { + "grad_norm": 0.13076059145618232, + "loss": 0.21470122039318085, + "step": 3998 + }, + { + "grad_norm": 0.10915413567633253, + "loss": 0.18853740394115448, + "step": 3999 + }, + { + "epoch": 1.28, + "grad_norm": 0.10915413498878479, + "learning_rate": 6.0352571300247026e-05, + "loss": 0.194, + "step": 4000 + }, + { + "grad_norm": 0.16407760722254397, + "loss": 0.18073537945747375, + "step": 4000 + }, + { + "grad_norm": 0.13253950439401807, + "loss": 0.16503405570983887, + "step": 4001 + }, + { + "grad_norm": 0.19855529352276877, + "loss": 0.17063936591148376, + "step": 4002 + }, + { + "grad_norm": 0.08987916641607475, + "loss": 0.18991830945014954, + "step": 4003 + }, + { + "grad_norm": 0.3716147250975576, + "loss": 0.20609119534492493, + "step": 4004 + }, + { + "grad_norm": 0.14405574672886334, + "loss": 0.18431058526039124, + "step": 4005 + }, + { + "grad_norm": 0.4451291251728856, + "loss": 0.21579904854297638, + "step": 4006 + }, + { + "grad_norm": 0.3916815178895082, + "loss": 0.2353971004486084, + "step": 4007 + }, + { + "grad_norm": 0.12210518979691638, + "loss": 0.18526481091976166, + "step": 4008 + }, + { + "grad_norm": 0.39195735926183645, + "loss": 0.1639893651008606, + "step": 4009 + }, + { + "epoch": 1.2832, + "grad_norm": 0.3919573426246643, + "learning_rate": 6.024028744666518e-05, + "loss": 0.1897, + "step": 4010 + }, + { + "grad_norm": 0.13485357207571302, + "loss": 0.18977484107017517, + "step": 4010 + }, + { + "grad_norm": 0.1883588060253691, + "loss": 0.1593107283115387, + "step": 4011 + }, + { + "grad_norm": 0.1654555614274405, + "loss": 0.19469687342643738, + "step": 4012 + }, + { + "grad_norm": 0.16146795888742801, + "loss": 0.24326907098293304, + "step": 4013 + }, + { + "grad_norm": 0.21288953405630384, + "loss": 0.2239801287651062, + "step": 4014 + }, + { + "grad_norm": 0.47290375604449686, + "loss": 0.19116085767745972, + "step": 4015 + }, + { + "grad_norm": 0.20959013520566105, + "loss": 0.24804362654685974, + "step": 4016 + }, + { + "grad_norm": 0.25048356412040973, + "loss": 0.21045508980751038, + "step": 4017 + }, + { + "grad_norm": 0.19578553283908046, + "loss": 0.1993657648563385, + "step": 4018 + }, + { + "grad_norm": 0.19863815207262753, + "loss": 0.28053176403045654, + "step": 4019 + }, + { + "epoch": 1.2864, + "grad_norm": 0.19863814115524292, + "learning_rate": 6.0128003593083314e-05, + "loss": 0.2141, + "step": 4020 + }, + { + "grad_norm": 0.5238774542600395, + "loss": 0.24171985685825348, + "step": 4020 + }, + { + "grad_norm": 0.13142357196918264, + "loss": 0.1762666553258896, + "step": 4021 + }, + { + "grad_norm": 0.1715386127182213, + "loss": 0.1972767859697342, + "step": 4022 + }, + { + "grad_norm": 0.19580006137143974, + "loss": 0.25857263803482056, + "step": 4023 + }, + { + "grad_norm": 0.1792636205878289, + "loss": 0.15733711421489716, + "step": 4024 + }, + { + "grad_norm": 0.4139043614239354, + "loss": 0.1598808765411377, + "step": 4025 + }, + { + "grad_norm": 0.10416127999534584, + "loss": 0.16855865716934204, + "step": 4026 + }, + { + "grad_norm": 0.2081758145607396, + "loss": 0.21648776531219482, + "step": 4027 + }, + { + "grad_norm": 0.16304107572200097, + "loss": 0.22067669034004211, + "step": 4028 + }, + { + "grad_norm": 0.2351231281775166, + "loss": 0.14271432161331177, + "step": 4029 + }, + { + "epoch": 1.2896, + "grad_norm": 0.2351231426000595, + "learning_rate": 6.0015719739501465e-05, + "loss": 0.1939, + "step": 4030 + }, + { + "grad_norm": 0.3512138216626014, + "loss": 0.23121416568756104, + "step": 4030 + }, + { + "grad_norm": 0.3141353817711275, + "loss": 0.21200717985630035, + "step": 4031 + }, + { + "grad_norm": 0.37418181246044313, + "loss": 0.1751989871263504, + "step": 4032 + }, + { + "grad_norm": 0.3044048054822987, + "loss": 0.23198139667510986, + "step": 4033 + }, + { + "grad_norm": 0.19701001571025767, + "loss": 0.1515420377254486, + "step": 4034 + }, + { + "grad_norm": 0.12472158192713753, + "loss": 0.18755987286567688, + "step": 4035 + }, + { + "grad_norm": 0.167561341413614, + "loss": 0.18302209675312042, + "step": 4036 + }, + { + "grad_norm": 0.13224391014441297, + "loss": 0.1656019389629364, + "step": 4037 + }, + { + "grad_norm": 0.19495898412978618, + "loss": 0.18657973408699036, + "step": 4038 + }, + { + "grad_norm": 0.18652284155115695, + "loss": 0.19031745195388794, + "step": 4039 + }, + { + "epoch": 1.2928, + "grad_norm": 0.18652284145355225, + "learning_rate": 5.9903435885919615e-05, + "loss": 0.1915, + "step": 4040 + }, + { + "grad_norm": 0.1364679496019953, + "loss": 0.22784225642681122, + "step": 4040 + }, + { + "grad_norm": 0.2574907671956511, + "loss": 0.2920287549495697, + "step": 4041 + }, + { + "grad_norm": 0.2718836465624685, + "loss": 0.16694916784763336, + "step": 4042 + }, + { + "grad_norm": 0.278562731655009, + "loss": 0.17676614224910736, + "step": 4043 + }, + { + "grad_norm": 0.36399753845989313, + "loss": 0.1799522489309311, + "step": 4044 + }, + { + "grad_norm": 0.12200917151131536, + "loss": 0.21784701943397522, + "step": 4045 + }, + { + "grad_norm": 0.30313466687891527, + "loss": 0.1543606072664261, + "step": 4046 + }, + { + "grad_norm": 0.22576023944380055, + "loss": 0.15450596809387207, + "step": 4047 + }, + { + "grad_norm": 0.13254832561055324, + "loss": 0.2049819380044937, + "step": 4048 + }, + { + "grad_norm": 0.19517676802845135, + "loss": 0.17854931950569153, + "step": 4049 + }, + { + "epoch": 1.296, + "grad_norm": 0.19517678022384644, + "learning_rate": 5.979115203233775e-05, + "loss": 0.1954, + "step": 4050 + }, + { + "grad_norm": 0.35572282890754575, + "loss": 0.1619803011417389, + "step": 4050 + }, + { + "grad_norm": 0.31564976697264874, + "loss": 0.22441130876541138, + "step": 4051 + }, + { + "grad_norm": 0.2649039112582193, + "loss": 0.20054951310157776, + "step": 4052 + }, + { + "grad_norm": 0.3476764267860943, + "loss": 0.14632990956306458, + "step": 4053 + }, + { + "grad_norm": 0.13241445018905956, + "loss": 0.1909501701593399, + "step": 4054 + }, + { + "grad_norm": 0.43229969135880025, + "loss": 0.17602205276489258, + "step": 4055 + }, + { + "grad_norm": 0.4949130475224142, + "loss": 0.18456794321537018, + "step": 4056 + }, + { + "grad_norm": 0.21936489791774363, + "loss": 0.2241063416004181, + "step": 4057 + }, + { + "grad_norm": 0.20017885407486957, + "loss": 0.1943574845790863, + "step": 4058 + }, + { + "grad_norm": 0.17028377356913374, + "loss": 0.1879325658082962, + "step": 4059 + }, + { + "epoch": 1.2992, + "grad_norm": 0.17028377950191498, + "learning_rate": 5.9678868178755896e-05, + "loss": 0.1891, + "step": 4060 + }, + { + "grad_norm": 0.24896610773242195, + "loss": 0.18146978318691254, + "step": 4060 + }, + { + "grad_norm": 0.16884586636136412, + "loss": 0.1701900064945221, + "step": 4061 + }, + { + "grad_norm": 0.14876830124944482, + "loss": 0.258156418800354, + "step": 4062 + }, + { + "grad_norm": 0.43991536324662406, + "loss": 0.18724343180656433, + "step": 4063 + }, + { + "grad_norm": 0.28400101332148436, + "loss": 0.1554635912179947, + "step": 4064 + }, + { + "grad_norm": 0.27105152596516685, + "loss": 0.17246213555335999, + "step": 4065 + }, + { + "grad_norm": 0.351608454048617, + "loss": 0.17235560715198517, + "step": 4066 + }, + { + "grad_norm": 0.5913792055222904, + "loss": 0.2855185866355896, + "step": 4067 + }, + { + "grad_norm": 0.16664076575499506, + "loss": 0.18061086535453796, + "step": 4068 + }, + { + "grad_norm": 0.21571073809709249, + "loss": 0.19627898931503296, + "step": 4069 + }, + { + "epoch": 1.3024, + "grad_norm": 0.21571074426174164, + "learning_rate": 5.956658432517405e-05, + "loss": 0.196, + "step": 4070 + }, + { + "grad_norm": 0.13865072267230144, + "loss": 0.17168642580509186, + "step": 4070 + }, + { + "grad_norm": 0.16136794211449032, + "loss": 0.18107451498508453, + "step": 4071 + }, + { + "grad_norm": 0.1702077822376079, + "loss": 0.19702500104904175, + "step": 4072 + }, + { + "grad_norm": 0.20882835080599993, + "loss": 0.2024620920419693, + "step": 4073 + }, + { + "grad_norm": 0.14854786131502673, + "loss": 0.1649775356054306, + "step": 4074 + }, + { + "grad_norm": 0.14428403412524232, + "loss": 0.1988227665424347, + "step": 4075 + }, + { + "grad_norm": 0.14677928566478085, + "loss": 0.1568518429994583, + "step": 4076 + }, + { + "grad_norm": 0.20454035708290255, + "loss": 0.23875075578689575, + "step": 4077 + }, + { + "grad_norm": 0.1167723105057672, + "loss": 0.2070257067680359, + "step": 4078 + }, + { + "grad_norm": 0.2060240355853163, + "loss": 0.18381807208061218, + "step": 4079 + }, + { + "epoch": 1.3056, + "grad_norm": 0.20602403581142426, + "learning_rate": 5.9454300471592184e-05, + "loss": 0.1902, + "step": 4080 + }, + { + "grad_norm": 0.2731712026328519, + "loss": 0.2047640085220337, + "step": 4080 + }, + { + "grad_norm": 0.18312191936016026, + "loss": 0.17951436340808868, + "step": 4081 + }, + { + "grad_norm": 0.3176074460424455, + "loss": 0.17004680633544922, + "step": 4082 + }, + { + "grad_norm": 0.24042580901446914, + "loss": 0.18133899569511414, + "step": 4083 + }, + { + "grad_norm": 0.26929908743334696, + "loss": 0.22066035866737366, + "step": 4084 + }, + { + "grad_norm": 0.11051241803489593, + "loss": 0.1659517139196396, + "step": 4085 + }, + { + "grad_norm": 0.3080311674100008, + "loss": 0.14406535029411316, + "step": 4086 + }, + { + "grad_norm": 0.18492345601150212, + "loss": 0.2911377251148224, + "step": 4087 + }, + { + "grad_norm": 0.32745841771209677, + "loss": 0.1437193751335144, + "step": 4088 + }, + { + "grad_norm": 0.2475835248931913, + "loss": 0.19421948492527008, + "step": 4089 + }, + { + "epoch": 1.3088, + "grad_norm": 0.2475835084915161, + "learning_rate": 5.9342016618010335e-05, + "loss": 0.1895, + "step": 4090 + }, + { + "grad_norm": 0.12813275324918014, + "loss": 0.17496076226234436, + "step": 4090 + }, + { + "grad_norm": 0.20350226809737687, + "loss": 0.18082889914512634, + "step": 4091 + }, + { + "grad_norm": 0.17882460871639969, + "loss": 0.18765407800674438, + "step": 4092 + }, + { + "grad_norm": 0.11376433027522052, + "loss": 0.1807478815317154, + "step": 4093 + }, + { + "grad_norm": 0.2087435781917251, + "loss": 0.21959228813648224, + "step": 4094 + }, + { + "grad_norm": 0.1285985612617142, + "loss": 0.1790066361427307, + "step": 4095 + }, + { + "grad_norm": 0.09606785476636148, + "loss": 0.1748073846101761, + "step": 4096 + }, + { + "grad_norm": 0.30497437367563907, + "loss": 0.16567333042621613, + "step": 4097 + }, + { + "grad_norm": 0.435445407552369, + "loss": 0.24982579052448273, + "step": 4098 + }, + { + "grad_norm": 0.48947871402049187, + "loss": 0.24309897422790527, + "step": 4099 + }, + { + "epoch": 1.312, + "grad_norm": 0.4894787073135376, + "learning_rate": 5.922973276442848e-05, + "loss": 0.1956, + "step": 4100 + }, + { + "grad_norm": 0.3063091210794082, + "loss": 0.17644675076007843, + "step": 4100 + }, + { + "grad_norm": 0.31526036372041366, + "loss": 0.22553667426109314, + "step": 4101 + }, + { + "grad_norm": 0.2255621912829912, + "loss": 0.14605318009853363, + "step": 4102 + }, + { + "grad_norm": 0.2984898056374397, + "loss": 0.18320851027965546, + "step": 4103 + }, + { + "grad_norm": 0.22688795707125625, + "loss": 0.19625982642173767, + "step": 4104 + }, + { + "grad_norm": 0.17686310814049377, + "loss": 0.20330902934074402, + "step": 4105 + }, + { + "grad_norm": 0.21005239372323956, + "loss": 0.1882752776145935, + "step": 4106 + }, + { + "grad_norm": 0.40929788798065697, + "loss": 0.14424824714660645, + "step": 4107 + }, + { + "grad_norm": 0.1541321348198738, + "loss": 0.17645300924777985, + "step": 4108 + }, + { + "grad_norm": 0.41957290949090476, + "loss": 0.167941153049469, + "step": 4109 + }, + { + "epoch": 1.3152, + "grad_norm": 0.41957294940948486, + "learning_rate": 5.9117448910846616e-05, + "loss": 0.1808, + "step": 4110 + }, + { + "grad_norm": 0.10668182961428772, + "loss": 0.1887117326259613, + "step": 4110 + }, + { + "grad_norm": 0.19740608011968272, + "loss": 0.15669657289981842, + "step": 4111 + }, + { + "grad_norm": 0.12211943068957014, + "loss": 0.14923082292079926, + "step": 4112 + }, + { + "grad_norm": 0.23216679186781589, + "loss": 0.17847539484500885, + "step": 4113 + }, + { + "grad_norm": 0.32545276235483434, + "loss": 0.24397817254066467, + "step": 4114 + }, + { + "grad_norm": 0.39805761901681197, + "loss": 0.20756380259990692, + "step": 4115 + }, + { + "grad_norm": 0.29788764049053945, + "loss": 0.17853248119354248, + "step": 4116 + }, + { + "grad_norm": 0.27543122872507864, + "loss": 0.19451037049293518, + "step": 4117 + }, + { + "grad_norm": 0.14616361098736652, + "loss": 0.16320794820785522, + "step": 4118 + }, + { + "grad_norm": 0.2791914860618996, + "loss": 0.18396657705307007, + "step": 4119 + }, + { + "epoch": 1.3184, + "grad_norm": 0.2791914939880371, + "learning_rate": 5.900516505726477e-05, + "loss": 0.1845, + "step": 4120 + }, + { + "grad_norm": 0.16449420241236543, + "loss": 0.20755909383296967, + "step": 4120 + }, + { + "grad_norm": 0.10091326074558905, + "loss": 0.1535382866859436, + "step": 4121 + }, + { + "grad_norm": 0.1398246600853063, + "loss": 0.21340516209602356, + "step": 4122 + }, + { + "grad_norm": 0.38350314031183724, + "loss": 0.18311354517936707, + "step": 4123 + }, + { + "grad_norm": 0.42198865856548723, + "loss": 0.19294142723083496, + "step": 4124 + }, + { + "grad_norm": 0.3577241238324965, + "loss": 0.20360121130943298, + "step": 4125 + }, + { + "grad_norm": 0.169233158007036, + "loss": 0.23613181710243225, + "step": 4126 + }, + { + "grad_norm": 0.19393704122492184, + "loss": 0.20781210064888, + "step": 4127 + }, + { + "grad_norm": 0.2698644464840411, + "loss": 0.24335898458957672, + "step": 4128 + }, + { + "grad_norm": 0.2629332596941077, + "loss": 0.15603932738304138, + "step": 4129 + }, + { + "epoch": 1.3216, + "grad_norm": 0.26293325424194336, + "learning_rate": 5.889288120368292e-05, + "loss": 0.1998, + "step": 4130 + }, + { + "grad_norm": 0.37781211463431247, + "loss": 0.18603555858135223, + "step": 4130 + }, + { + "grad_norm": 0.22130451338241028, + "loss": 0.17532451450824738, + "step": 4131 + }, + { + "grad_norm": 0.1699188396198127, + "loss": 0.17023000121116638, + "step": 4132 + }, + { + "grad_norm": 0.14311083317503, + "loss": 0.18177823722362518, + "step": 4133 + }, + { + "grad_norm": 0.2563099292293277, + "loss": 0.16578900814056396, + "step": 4134 + }, + { + "grad_norm": 0.25101538400880125, + "loss": 0.20175981521606445, + "step": 4135 + }, + { + "grad_norm": 0.2489407891294456, + "loss": 0.22786177694797516, + "step": 4136 + }, + { + "grad_norm": 0.12810484140604778, + "loss": 0.1660250872373581, + "step": 4137 + }, + { + "grad_norm": 0.27896150707389245, + "loss": 0.17920824885368347, + "step": 4138 + }, + { + "grad_norm": 0.31361419704543086, + "loss": 0.19712962210178375, + "step": 4139 + }, + { + "epoch": 1.3248, + "grad_norm": 0.31361421942710876, + "learning_rate": 5.878059735010106e-05, + "loss": 0.1851, + "step": 4140 + }, + { + "grad_norm": 0.3451929486337865, + "loss": 0.19431234896183014, + "step": 4140 + }, + { + "grad_norm": 0.34377957672475085, + "loss": 0.2609364688396454, + "step": 4141 + }, + { + "grad_norm": 0.14022612943706422, + "loss": 0.2642769515514374, + "step": 4142 + }, + { + "grad_norm": 0.20872285267269844, + "loss": 0.18172356486320496, + "step": 4143 + }, + { + "grad_norm": 0.401773477143339, + "loss": 0.16516920924186707, + "step": 4144 + }, + { + "grad_norm": 0.1808260732107861, + "loss": 0.19557473063468933, + "step": 4145 + }, + { + "grad_norm": 0.2186409291119957, + "loss": 0.2185472846031189, + "step": 4146 + }, + { + "grad_norm": 0.28044317055312584, + "loss": 0.22352047264575958, + "step": 4147 + }, + { + "grad_norm": 0.35483637696610404, + "loss": 0.2050485610961914, + "step": 4148 + }, + { + "grad_norm": 0.11789386635613142, + "loss": 0.20965395867824554, + "step": 4149 + }, + { + "epoch": 1.328, + "grad_norm": 0.11789387464523315, + "learning_rate": 5.86683134965192e-05, + "loss": 0.2119, + "step": 4150 + }, + { + "grad_norm": 0.5252631212878058, + "loss": 0.17227503657341003, + "step": 4150 + }, + { + "grad_norm": 0.13844041468129398, + "loss": 0.20410731434822083, + "step": 4151 + }, + { + "grad_norm": 0.17174376214209397, + "loss": 0.1526089310646057, + "step": 4152 + }, + { + "grad_norm": 0.2130370640787279, + "loss": 0.259713739156723, + "step": 4153 + }, + { + "grad_norm": 0.27824624517734486, + "loss": 0.1917380690574646, + "step": 4154 + }, + { + "grad_norm": 0.12572429329536125, + "loss": 0.15813341736793518, + "step": 4155 + }, + { + "grad_norm": 0.24159618086125317, + "loss": 0.16753938794136047, + "step": 4156 + }, + { + "grad_norm": 0.22483588129311735, + "loss": 0.2022583782672882, + "step": 4157 + }, + { + "grad_norm": 0.273119802749561, + "loss": 0.1993415504693985, + "step": 4158 + }, + { + "grad_norm": 0.12928028682379908, + "loss": 0.18098758161067963, + "step": 4159 + }, + { + "epoch": 1.3312, + "grad_norm": 0.12928029894828796, + "learning_rate": 5.855602964293735e-05, + "loss": 0.1889, + "step": 4160 + }, + { + "grad_norm": 0.13995310299541144, + "loss": 0.17564693093299866, + "step": 4160 + }, + { + "grad_norm": 0.12950301437331915, + "loss": 0.1838711053133011, + "step": 4161 + }, + { + "grad_norm": 0.17171887463152427, + "loss": 0.15930470824241638, + "step": 4162 + }, + { + "grad_norm": 0.14824624954101162, + "loss": 0.22247464954853058, + "step": 4163 + }, + { + "grad_norm": 0.21115285368673706, + "loss": 0.18428030610084534, + "step": 4164 + }, + { + "grad_norm": 0.19797235772253943, + "loss": 0.172138974070549, + "step": 4165 + }, + { + "grad_norm": 0.1600380423888035, + "loss": 0.19778642058372498, + "step": 4166 + }, + { + "grad_norm": 0.1735505600556413, + "loss": 0.18463559448719025, + "step": 4167 + }, + { + "grad_norm": 0.14114714436135586, + "loss": 0.16270369291305542, + "step": 4168 + }, + { + "grad_norm": 0.1667711401607834, + "loss": 0.1791892647743225, + "step": 4169 + }, + { + "epoch": 1.3344, + "grad_norm": 0.16677114367485046, + "learning_rate": 5.84437457893555e-05, + "loss": 0.1822, + "step": 4170 + }, + { + "grad_norm": 0.12195424792657993, + "loss": 0.14132215082645416, + "step": 4170 + }, + { + "grad_norm": 0.30098940560290655, + "loss": 0.20960254967212677, + "step": 4171 + }, + { + "grad_norm": 0.19818302949163802, + "loss": 0.16579942405223846, + "step": 4172 + }, + { + "grad_norm": 0.19983960339362297, + "loss": 0.1854570209980011, + "step": 4173 + }, + { + "grad_norm": 0.2904480532908771, + "loss": 0.14089418947696686, + "step": 4174 + }, + { + "grad_norm": 0.1497144167709175, + "loss": 0.17437398433685303, + "step": 4175 + }, + { + "grad_norm": 0.09495928825803801, + "loss": 0.17556913197040558, + "step": 4176 + }, + { + "grad_norm": 0.1182678466990655, + "loss": 0.20064038038253784, + "step": 4177 + }, + { + "grad_norm": 0.1091931004679328, + "loss": 0.22368523478507996, + "step": 4178 + }, + { + "grad_norm": 0.2621778288564759, + "loss": 0.15693184733390808, + "step": 4179 + }, + { + "epoch": 1.3376000000000001, + "grad_norm": 0.26217782497406006, + "learning_rate": 5.833146193577364e-05, + "loss": 0.1774, + "step": 4180 + }, + { + "grad_norm": 0.26508879687076004, + "loss": 0.14448973536491394, + "step": 4180 + }, + { + "grad_norm": 0.11118944275583585, + "loss": 0.1560310423374176, + "step": 4181 + }, + { + "grad_norm": 0.4377693851761916, + "loss": 0.28356266021728516, + "step": 4182 + }, + { + "grad_norm": 0.15899565439054564, + "loss": 0.221768319606781, + "step": 4183 + }, + { + "grad_norm": 0.20108186501655675, + "loss": 0.16909627616405487, + "step": 4184 + }, + { + "grad_norm": 0.10962584064132365, + "loss": 0.19461500644683838, + "step": 4185 + }, + { + "grad_norm": 0.08581758921284238, + "loss": 0.16670070588588715, + "step": 4186 + }, + { + "grad_norm": 0.08411290280238459, + "loss": 0.13994388282299042, + "step": 4187 + }, + { + "grad_norm": 0.5040441626365225, + "loss": 0.22079221904277802, + "step": 4188 + }, + { + "grad_norm": 0.17380198133475516, + "loss": 0.15775692462921143, + "step": 4189 + }, + { + "epoch": 1.3408, + "grad_norm": 0.173801988363266, + "learning_rate": 5.821917808219178e-05, + "loss": 0.1855, + "step": 4190 + }, + { + "grad_norm": 0.18221842558695941, + "loss": 0.17487682402133942, + "step": 4190 + }, + { + "grad_norm": 0.5597264269221351, + "loss": 0.2736700773239136, + "step": 4191 + }, + { + "grad_norm": 0.11106495662950527, + "loss": 0.2393035590648651, + "step": 4192 + }, + { + "grad_norm": 0.22126619112197785, + "loss": 0.16330894827842712, + "step": 4193 + }, + { + "grad_norm": 0.3893926959879907, + "loss": 0.16323134303092957, + "step": 4194 + }, + { + "grad_norm": 0.3297816220755855, + "loss": 0.17662882804870605, + "step": 4195 + }, + { + "grad_norm": 0.4292659927917734, + "loss": 0.1807124763727188, + "step": 4196 + }, + { + "grad_norm": 0.21527168541430522, + "loss": 0.1757989525794983, + "step": 4197 + }, + { + "grad_norm": 0.26286542334846497, + "loss": 0.16654977202415466, + "step": 4198 + }, + { + "grad_norm": 0.2360815538538446, + "loss": 0.25507500767707825, + "step": 4199 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 0.2360815554857254, + "learning_rate": 5.810689422860993e-05, + "loss": 0.1969, + "step": 4200 + }, + { + "grad_norm": 0.33778847434266734, + "loss": 0.17827975749969482, + "step": 4200 + }, + { + "grad_norm": 0.41760041990549585, + "loss": 0.18660059571266174, + "step": 4201 + }, + { + "grad_norm": 0.14381085251413583, + "loss": 0.21077407896518707, + "step": 4202 + }, + { + "grad_norm": 0.16039696964860667, + "loss": 0.20247387886047363, + "step": 4203 + }, + { + "grad_norm": 0.44682191372445984, + "loss": 0.2573608160018921, + "step": 4204 + }, + { + "grad_norm": 0.1350267387739963, + "loss": 0.1612170785665512, + "step": 4205 + }, + { + "grad_norm": 0.10285752337768872, + "loss": 0.20689740777015686, + "step": 4206 + }, + { + "grad_norm": 0.09910813546225215, + "loss": 0.17720140516757965, + "step": 4207 + }, + { + "grad_norm": 0.13014829157162322, + "loss": 0.16502293944358826, + "step": 4208 + }, + { + "grad_norm": 0.18878477404016442, + "loss": 0.17963489890098572, + "step": 4209 + }, + { + "epoch": 1.3472, + "grad_norm": 0.18878477811813354, + "learning_rate": 5.799461037502807e-05, + "loss": 0.1925, + "step": 4210 + }, + { + "grad_norm": 0.2219679071887307, + "loss": 0.19833308458328247, + "step": 4210 + }, + { + "grad_norm": 0.1094504605555147, + "loss": 0.18465355038642883, + "step": 4211 + }, + { + "grad_norm": 0.2523601095039564, + "loss": 0.1457459032535553, + "step": 4212 + }, + { + "grad_norm": 0.20761057481603448, + "loss": 0.20916901528835297, + "step": 4213 + }, + { + "grad_norm": 0.26090084579529244, + "loss": 0.17291828989982605, + "step": 4214 + }, + { + "grad_norm": 0.34799855475555797, + "loss": 0.2744772434234619, + "step": 4215 + }, + { + "grad_norm": 0.32378573847025627, + "loss": 0.17935918271541595, + "step": 4216 + }, + { + "grad_norm": 0.12868839596877563, + "loss": 0.1648009568452835, + "step": 4217 + }, + { + "grad_norm": 0.26768572033557664, + "loss": 0.18011853098869324, + "step": 4218 + }, + { + "grad_norm": 0.7121212638932801, + "loss": 0.2712646722793579, + "step": 4219 + }, + { + "epoch": 1.3504, + "grad_norm": 0.7121212482452393, + "learning_rate": 5.788232652144622e-05, + "loss": 0.1981, + "step": 4220 + }, + { + "grad_norm": 0.2785129336933761, + "loss": 0.21256782114505768, + "step": 4220 + }, + { + "grad_norm": 0.12479728150680257, + "loss": 0.15888071060180664, + "step": 4221 + }, + { + "grad_norm": 0.402823462681522, + "loss": 0.238094300031662, + "step": 4222 + }, + { + "grad_norm": 0.2890395498236215, + "loss": 0.1883058398962021, + "step": 4223 + }, + { + "grad_norm": 0.321310676345572, + "loss": 0.1670091152191162, + "step": 4224 + }, + { + "grad_norm": 0.19982168962880545, + "loss": 0.19523105025291443, + "step": 4225 + }, + { + "grad_norm": 0.13906320033580558, + "loss": 0.2455761730670929, + "step": 4226 + }, + { + "grad_norm": 0.14639621882959225, + "loss": 0.21095699071884155, + "step": 4227 + }, + { + "grad_norm": 0.24056608411660305, + "loss": 0.16966137290000916, + "step": 4228 + }, + { + "grad_norm": 0.2006293344832962, + "loss": 0.20202814042568207, + "step": 4229 + }, + { + "epoch": 1.3536000000000001, + "grad_norm": 0.2006293386220932, + "learning_rate": 5.777004266786436e-05, + "loss": 0.1988, + "step": 4230 + }, + { + "grad_norm": 0.5033396962367371, + "loss": 0.18694967031478882, + "step": 4230 + }, + { + "grad_norm": 0.1724980996542738, + "loss": 0.24423657357692719, + "step": 4231 + }, + { + "grad_norm": 0.33694512529816095, + "loss": 0.1694774031639099, + "step": 4232 + }, + { + "grad_norm": 0.4455107957134535, + "loss": 0.20208841562271118, + "step": 4233 + }, + { + "grad_norm": 0.3453349898801997, + "loss": 0.17487528920173645, + "step": 4234 + }, + { + "grad_norm": 0.3152791490128043, + "loss": 0.17536865174770355, + "step": 4235 + }, + { + "grad_norm": 0.10602090574864716, + "loss": 0.19053325057029724, + "step": 4236 + }, + { + "grad_norm": 0.18987971465119563, + "loss": 0.17288856208324432, + "step": 4237 + }, + { + "grad_norm": 0.3524206238842803, + "loss": 0.20978353917598724, + "step": 4238 + }, + { + "grad_norm": 0.15101180740580616, + "loss": 0.15777283906936646, + "step": 4239 + }, + { + "epoch": 1.3568, + "grad_norm": 0.15101180970668793, + "learning_rate": 5.7657758814282514e-05, + "loss": 0.1884, + "step": 4240 + }, + { + "grad_norm": 0.2514202050717444, + "loss": 0.20137175917625427, + "step": 4240 + }, + { + "grad_norm": 0.36222288865813773, + "loss": 0.19802407920360565, + "step": 4241 + }, + { + "grad_norm": 0.3454167492291356, + "loss": 0.17595583200454712, + "step": 4242 + }, + { + "grad_norm": 0.3483563600754278, + "loss": 0.15532821416854858, + "step": 4243 + }, + { + "grad_norm": 0.1777980025451515, + "loss": 0.16228124499320984, + "step": 4244 + }, + { + "grad_norm": 0.12032976977340976, + "loss": 0.17520859837532043, + "step": 4245 + }, + { + "grad_norm": 0.13006726509258013, + "loss": 0.15993759036064148, + "step": 4246 + }, + { + "grad_norm": 0.11841993702471947, + "loss": 0.1677388697862625, + "step": 4247 + }, + { + "grad_norm": 0.4661072681079772, + "loss": 0.2988912761211395, + "step": 4248 + }, + { + "grad_norm": 0.2716868903876976, + "loss": 0.18758529424667358, + "step": 4249 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 0.2716868817806244, + "learning_rate": 5.754547496070065e-05, + "loss": 0.1882, + "step": 4250 + }, + { + "grad_norm": 0.23868743543645612, + "loss": 0.14654135704040527, + "step": 4250 + }, + { + "grad_norm": 0.2305472891166972, + "loss": 0.15985384583473206, + "step": 4251 + }, + { + "grad_norm": 0.24298100581704246, + "loss": 0.16277778148651123, + "step": 4252 + }, + { + "grad_norm": 0.25657640699289513, + "loss": 0.2211247682571411, + "step": 4253 + }, + { + "grad_norm": 0.3952844872058663, + "loss": 0.1904737651348114, + "step": 4254 + }, + { + "grad_norm": 0.4779153430652023, + "loss": 0.18499034643173218, + "step": 4255 + }, + { + "grad_norm": 0.28888038546620237, + "loss": 0.21514832973480225, + "step": 4256 + }, + { + "grad_norm": 0.11103657163993633, + "loss": 0.21781376004219055, + "step": 4257 + }, + { + "grad_norm": 0.3020189590191678, + "loss": 0.16502343118190765, + "step": 4258 + }, + { + "grad_norm": 0.3079506507365924, + "loss": 0.2525354027748108, + "step": 4259 + }, + { + "epoch": 1.3632, + "grad_norm": 0.3079506754875183, + "learning_rate": 5.74331911071188e-05, + "loss": 0.1916, + "step": 4260 + }, + { + "grad_norm": 0.2845841908242203, + "loss": 0.17002038657665253, + "step": 4260 + }, + { + "grad_norm": 0.2292590988469799, + "loss": 0.24666619300842285, + "step": 4261 + }, + { + "grad_norm": 0.18242668659503264, + "loss": 0.21228350698947906, + "step": 4262 + }, + { + "grad_norm": 0.3695356540004461, + "loss": 0.20197971165180206, + "step": 4263 + }, + { + "grad_norm": 0.13184649628283407, + "loss": 0.1767933964729309, + "step": 4264 + }, + { + "grad_norm": 0.13577406946860363, + "loss": 0.18777014315128326, + "step": 4265 + }, + { + "grad_norm": 0.12695653576739346, + "loss": 0.1552194058895111, + "step": 4266 + }, + { + "grad_norm": 0.3353378465735386, + "loss": 0.21258516609668732, + "step": 4267 + }, + { + "grad_norm": 0.2843582303312704, + "loss": 0.21777239441871643, + "step": 4268 + }, + { + "grad_norm": 0.14691356300560124, + "loss": 0.20138554275035858, + "step": 4269 + }, + { + "epoch": 1.3664, + "grad_norm": 0.1469135731458664, + "learning_rate": 5.7320907253536945e-05, + "loss": 0.1982, + "step": 4270 + }, + { + "grad_norm": 0.24368492314315335, + "loss": 0.1653752326965332, + "step": 4270 + }, + { + "grad_norm": 0.1907772737416539, + "loss": 0.18791523575782776, + "step": 4271 + }, + { + "grad_norm": 0.25512084331805973, + "loss": 0.2032567709684372, + "step": 4272 + }, + { + "grad_norm": 0.22047354735173308, + "loss": 0.23591163754463196, + "step": 4273 + }, + { + "grad_norm": 0.1486586256598572, + "loss": 0.27577435970306396, + "step": 4274 + }, + { + "grad_norm": 0.11530440036919934, + "loss": 0.16230228543281555, + "step": 4275 + }, + { + "grad_norm": 0.16931193047412949, + "loss": 0.2107507288455963, + "step": 4276 + }, + { + "grad_norm": 0.22846144383621458, + "loss": 0.21604977548122406, + "step": 4277 + }, + { + "grad_norm": 0.11312903412564478, + "loss": 0.1525038480758667, + "step": 4278 + }, + { + "grad_norm": 0.14991196610920413, + "loss": 0.22735051810741425, + "step": 4279 + }, + { + "epoch": 1.3696, + "grad_norm": 0.14991195499897003, + "learning_rate": 5.720862339995508e-05, + "loss": 0.2037, + "step": 4280 + }, + { + "grad_norm": 0.25277417688896686, + "loss": 0.14838911592960358, + "step": 4280 + }, + { + "grad_norm": 0.12123391007487004, + "loss": 0.2852270305156708, + "step": 4281 + }, + { + "grad_norm": 0.2561287650312297, + "loss": 0.20938819646835327, + "step": 4282 + }, + { + "grad_norm": 0.3033139838982315, + "loss": 0.1519622802734375, + "step": 4283 + }, + { + "grad_norm": 0.1263673783967799, + "loss": 0.20395883917808533, + "step": 4284 + }, + { + "grad_norm": 0.2750926159770093, + "loss": 0.20275580883026123, + "step": 4285 + }, + { + "grad_norm": 0.36490664902288217, + "loss": 0.21111440658569336, + "step": 4286 + }, + { + "grad_norm": 0.24187969213788302, + "loss": 0.16900959610939026, + "step": 4287 + }, + { + "grad_norm": 0.12311224632059366, + "loss": 0.20021015405654907, + "step": 4288 + }, + { + "grad_norm": 0.18982868074395337, + "loss": 0.19473740458488464, + "step": 4289 + }, + { + "epoch": 1.3728, + "grad_norm": 0.18982867896556854, + "learning_rate": 5.709633954637323e-05, + "loss": 0.1977, + "step": 4290 + }, + { + "grad_norm": 0.16209609553920107, + "loss": 0.1965947151184082, + "step": 4290 + }, + { + "grad_norm": 0.33608695363543195, + "loss": 0.3155534863471985, + "step": 4291 + }, + { + "grad_norm": 0.2170940629399827, + "loss": 0.182987242937088, + "step": 4292 + }, + { + "grad_norm": 0.10932294767063448, + "loss": 0.216046541929245, + "step": 4293 + }, + { + "grad_norm": 0.11467104975324001, + "loss": 0.2192080169916153, + "step": 4294 + }, + { + "grad_norm": 0.18481470887794268, + "loss": 0.18368475139141083, + "step": 4295 + }, + { + "grad_norm": 0.12382255342094117, + "loss": 0.24876631796360016, + "step": 4296 + }, + { + "grad_norm": 0.2575545111297824, + "loss": 0.18952645361423492, + "step": 4297 + }, + { + "grad_norm": 0.3566704360321278, + "loss": 0.1830735057592392, + "step": 4298 + }, + { + "grad_norm": 0.36012900044901713, + "loss": 0.16137376427650452, + "step": 4299 + }, + { + "epoch": 1.376, + "grad_norm": 0.3601289987564087, + "learning_rate": 5.6984055692791384e-05, + "loss": 0.2097, + "step": 4300 + }, + { + "grad_norm": 0.15806139026853627, + "loss": 0.14742271602153778, + "step": 4300 + }, + { + "grad_norm": 0.1341760284825898, + "loss": 0.16612203419208527, + "step": 4301 + }, + { + "grad_norm": 0.32675427058596246, + "loss": 0.15577049553394318, + "step": 4302 + }, + { + "grad_norm": 0.35488596247188003, + "loss": 0.2258221060037613, + "step": 4303 + }, + { + "grad_norm": 0.48279432180331927, + "loss": 0.259941041469574, + "step": 4304 + }, + { + "grad_norm": 0.19985339341827388, + "loss": 0.17584718763828278, + "step": 4305 + }, + { + "grad_norm": 0.12451426481113782, + "loss": 0.2002975046634674, + "step": 4306 + }, + { + "grad_norm": 0.1550907802220856, + "loss": 0.18197016417980194, + "step": 4307 + }, + { + "grad_norm": 0.12773790671945356, + "loss": 0.1661701202392578, + "step": 4308 + }, + { + "grad_norm": 0.1996888099844203, + "loss": 0.2014331817626953, + "step": 4309 + }, + { + "epoch": 1.3792, + "grad_norm": 0.19968882203102112, + "learning_rate": 5.687177183920952e-05, + "loss": 0.1881, + "step": 4310 + }, + { + "grad_norm": 0.11754644523846479, + "loss": 0.15137574076652527, + "step": 4310 + }, + { + "grad_norm": 0.1678288123516899, + "loss": 0.20602640509605408, + "step": 4311 + }, + { + "grad_norm": 0.20206873733904607, + "loss": 0.2290162295103073, + "step": 4312 + }, + { + "grad_norm": 0.16482005807853345, + "loss": 0.18466182053089142, + "step": 4313 + }, + { + "grad_norm": 0.3592769955789986, + "loss": 0.18633179366588593, + "step": 4314 + }, + { + "grad_norm": 0.10096569545840584, + "loss": 0.15752452611923218, + "step": 4315 + }, + { + "grad_norm": 0.2193066582533432, + "loss": 0.20766666531562805, + "step": 4316 + }, + { + "grad_norm": 0.48709724624229966, + "loss": 0.16499988734722137, + "step": 4317 + }, + { + "grad_norm": 0.29068644581993935, + "loss": 0.17789192497730255, + "step": 4318 + }, + { + "grad_norm": 0.33335719529426, + "loss": 0.3107239603996277, + "step": 4319 + }, + { + "epoch": 1.3824, + "grad_norm": 0.33335718512535095, + "learning_rate": 5.675948798562767e-05, + "loss": 0.1976, + "step": 4320 + }, + { + "grad_norm": 0.20362847620371316, + "loss": 0.1621723175048828, + "step": 4320 + }, + { + "grad_norm": 0.23944324435612938, + "loss": 0.1692373901605606, + "step": 4321 + }, + { + "grad_norm": 0.12142435457026647, + "loss": 0.22704008221626282, + "step": 4322 + }, + { + "grad_norm": 0.20772805089599714, + "loss": 0.19676852226257324, + "step": 4323 + }, + { + "grad_norm": 0.10866545516320672, + "loss": 0.18914371728897095, + "step": 4324 + }, + { + "grad_norm": 0.27416716951187026, + "loss": 0.20968300104141235, + "step": 4325 + }, + { + "grad_norm": 0.14750518905003246, + "loss": 0.166413351893425, + "step": 4326 + }, + { + "grad_norm": 0.1023284479643594, + "loss": 0.15054428577423096, + "step": 4327 + }, + { + "grad_norm": 0.1720908827213118, + "loss": 0.17713192105293274, + "step": 4328 + }, + { + "grad_norm": 0.34735760183265735, + "loss": 0.19488929212093353, + "step": 4329 + }, + { + "epoch": 1.3856, + "grad_norm": 0.3473576009273529, + "learning_rate": 5.6647204132045816e-05, + "loss": 0.1843, + "step": 4330 + }, + { + "grad_norm": 0.19249776258490545, + "loss": 0.18991145491600037, + "step": 4330 + }, + { + "grad_norm": 0.13052739363648524, + "loss": 0.19360333681106567, + "step": 4331 + }, + { + "grad_norm": 0.13314956547773624, + "loss": 0.16548894345760345, + "step": 4332 + }, + { + "grad_norm": 0.1753524038122372, + "loss": 0.19535155594348907, + "step": 4333 + }, + { + "grad_norm": 0.4289503805222674, + "loss": 0.18784204125404358, + "step": 4334 + }, + { + "grad_norm": 0.16280001615131465, + "loss": 0.19734613597393036, + "step": 4335 + }, + { + "grad_norm": 0.25277500106498285, + "loss": 0.16187065839767456, + "step": 4336 + }, + { + "grad_norm": 0.1429182614594152, + "loss": 0.17915813624858856, + "step": 4337 + }, + { + "grad_norm": 0.25182787660351746, + "loss": 0.164458230137825, + "step": 4338 + }, + { + "grad_norm": 0.21573850663602004, + "loss": 0.2300383299589157, + "step": 4339 + }, + { + "epoch": 1.3888, + "grad_norm": 0.21573849022388458, + "learning_rate": 5.653492027846395e-05, + "loss": 0.1865, + "step": 4340 + }, + { + "grad_norm": 0.4886485350812515, + "loss": 0.286530077457428, + "step": 4340 + }, + { + "grad_norm": 0.2889896884009313, + "loss": 0.15876485407352448, + "step": 4341 + }, + { + "grad_norm": 0.2412972346688056, + "loss": 0.19848696887493134, + "step": 4342 + }, + { + "grad_norm": 0.1569537714842595, + "loss": 0.19258779287338257, + "step": 4343 + }, + { + "grad_norm": 0.35441137432981684, + "loss": 0.2101665735244751, + "step": 4344 + }, + { + "grad_norm": 0.34035189193003934, + "loss": 0.2156919240951538, + "step": 4345 + }, + { + "grad_norm": 0.10698143296437895, + "loss": 0.20027758181095123, + "step": 4346 + }, + { + "grad_norm": 0.325723453173731, + "loss": 0.24623316526412964, + "step": 4347 + }, + { + "grad_norm": 0.24791095021404924, + "loss": 0.16736023128032684, + "step": 4348 + }, + { + "grad_norm": 0.2450680232562192, + "loss": 0.16320496797561646, + "step": 4349 + }, + { + "epoch": 1.392, + "grad_norm": 0.2450680285692215, + "learning_rate": 5.6422636424882103e-05, + "loss": 0.2039, + "step": 4350 + }, + { + "grad_norm": 0.1371365490038983, + "loss": 0.16662128269672394, + "step": 4350 + }, + { + "grad_norm": 0.1240147920758083, + "loss": 0.17848117649555206, + "step": 4351 + }, + { + "grad_norm": 0.18733988221837086, + "loss": 0.18952026963233948, + "step": 4352 + }, + { + "grad_norm": 0.18136810419065388, + "loss": 0.17146483063697815, + "step": 4353 + }, + { + "grad_norm": 0.4650197802570542, + "loss": 0.2351810336112976, + "step": 4354 + }, + { + "grad_norm": 0.34796257862936186, + "loss": 0.15513785183429718, + "step": 4355 + }, + { + "grad_norm": 0.3520415130112581, + "loss": 0.1926516592502594, + "step": 4356 + }, + { + "grad_norm": 0.3412213369001905, + "loss": 0.16839149594306946, + "step": 4357 + }, + { + "grad_norm": 0.3191499391735837, + "loss": 0.14832766354084015, + "step": 4358 + }, + { + "grad_norm": 0.13361075503308698, + "loss": 0.16023841500282288, + "step": 4359 + }, + { + "epoch": 1.3952, + "grad_norm": 0.13361075520515442, + "learning_rate": 5.6310352571300254e-05, + "loss": 0.1766, + "step": 4360 + }, + { + "grad_norm": 0.15823921040864844, + "loss": 0.16468597948551178, + "step": 4360 + }, + { + "grad_norm": 0.35069609601095486, + "loss": 0.19556400179862976, + "step": 4361 + }, + { + "grad_norm": 0.22942419711828801, + "loss": 0.20911650359630585, + "step": 4362 + }, + { + "grad_norm": 0.380484046800903, + "loss": 0.2101428508758545, + "step": 4363 + }, + { + "grad_norm": 0.1559521805357022, + "loss": 0.20816683769226074, + "step": 4364 + }, + { + "grad_norm": 0.5139522169530029, + "loss": 0.26651841402053833, + "step": 4365 + }, + { + "grad_norm": 0.11665350523142509, + "loss": 0.15004795789718628, + "step": 4366 + }, + { + "grad_norm": 0.21589420802451684, + "loss": 0.182961106300354, + "step": 4367 + }, + { + "grad_norm": 0.1328606412720567, + "loss": 0.1682424545288086, + "step": 4368 + }, + { + "grad_norm": 0.15630079695377963, + "loss": 0.17191065847873688, + "step": 4369 + }, + { + "epoch": 1.3984, + "grad_norm": 0.15630079805850983, + "learning_rate": 5.61980687177184e-05, + "loss": 0.1927, + "step": 4370 + }, + { + "grad_norm": 0.2392230511965583, + "loss": 0.2160174399614334, + "step": 4370 + }, + { + "grad_norm": 0.3071275949899287, + "loss": 0.24834059178829193, + "step": 4371 + }, + { + "grad_norm": 0.34403222780641673, + "loss": 0.1724877953529358, + "step": 4372 + }, + { + "grad_norm": 0.31281510684159536, + "loss": 0.20481228828430176, + "step": 4373 + }, + { + "grad_norm": 0.2553714032041558, + "loss": 0.15614710748195648, + "step": 4374 + }, + { + "grad_norm": 0.16091830112561062, + "loss": 0.1685604453086853, + "step": 4375 + }, + { + "grad_norm": 0.1896855693964088, + "loss": 0.16509771347045898, + "step": 4376 + }, + { + "grad_norm": 0.1928521865031484, + "loss": 0.20904852449893951, + "step": 4377 + }, + { + "grad_norm": 0.5181615075291892, + "loss": 0.16461873054504395, + "step": 4378 + }, + { + "grad_norm": 0.1614124994709655, + "loss": 0.1581418663263321, + "step": 4379 + }, + { + "epoch": 1.4016, + "grad_norm": 0.16141249239444733, + "learning_rate": 5.6085784864136535e-05, + "loss": 0.1863, + "step": 4380 + }, + { + "grad_norm": 0.20441134849593368, + "loss": 0.15069398283958435, + "step": 4380 + }, + { + "grad_norm": 0.38410066613681176, + "loss": 0.22706282138824463, + "step": 4381 + }, + { + "grad_norm": 0.40746128477126, + "loss": 0.20139911770820618, + "step": 4382 + }, + { + "grad_norm": 0.18262105835562117, + "loss": 0.17714349925518036, + "step": 4383 + }, + { + "grad_norm": 0.23843261740720126, + "loss": 0.19213779270648956, + "step": 4384 + }, + { + "grad_norm": 0.3423213745733811, + "loss": 0.31215307116508484, + "step": 4385 + }, + { + "grad_norm": 0.11591659389111766, + "loss": 0.20167949795722961, + "step": 4386 + }, + { + "grad_norm": 0.10608997214192072, + "loss": 0.14488720893859863, + "step": 4387 + }, + { + "grad_norm": 0.14577294503237473, + "loss": 0.23090101778507233, + "step": 4388 + }, + { + "grad_norm": 0.1496716895749861, + "loss": 0.18776148557662964, + "step": 4389 + }, + { + "epoch": 1.4048, + "grad_norm": 0.14967168867588043, + "learning_rate": 5.5973501010554686e-05, + "loss": 0.2026, + "step": 4390 + }, + { + "grad_norm": 0.18951542729920345, + "loss": 0.198589488863945, + "step": 4390 + }, + { + "grad_norm": 0.17231970441721883, + "loss": 0.18796943128108978, + "step": 4391 + }, + { + "grad_norm": 0.3750919812982411, + "loss": 0.16528916358947754, + "step": 4392 + }, + { + "grad_norm": 0.15017689629663256, + "loss": 0.17568781971931458, + "step": 4393 + }, + { + "grad_norm": 0.47329335009403783, + "loss": 0.1826414316892624, + "step": 4394 + }, + { + "grad_norm": 0.0989354449313804, + "loss": 0.1817597597837448, + "step": 4395 + }, + { + "grad_norm": 0.1871671077361343, + "loss": 0.17404259741306305, + "step": 4396 + }, + { + "grad_norm": 0.15010505862895063, + "loss": 0.17107516527175903, + "step": 4397 + }, + { + "grad_norm": 0.1104438110749298, + "loss": 0.1661241203546524, + "step": 4398 + }, + { + "grad_norm": 0.1990043720162903, + "loss": 0.17374247312545776, + "step": 4399 + }, + { + "epoch": 1.408, + "grad_norm": 0.1990043669939041, + "learning_rate": 5.5861217156972837e-05, + "loss": 0.1777, + "step": 4400 + }, + { + "grad_norm": 0.2718119044498722, + "loss": 0.18614567816257477, + "step": 4400 + }, + { + "grad_norm": 0.2401412637019931, + "loss": 0.19212029874324799, + "step": 4401 + }, + { + "grad_norm": 0.23694484824405915, + "loss": 0.16890302300453186, + "step": 4402 + }, + { + "grad_norm": 0.3018258347070459, + "loss": 0.1569589227437973, + "step": 4403 + }, + { + "grad_norm": 0.41803253636559623, + "loss": 0.2749829590320587, + "step": 4404 + }, + { + "grad_norm": 0.10342403248274548, + "loss": 0.14403676986694336, + "step": 4405 + }, + { + "grad_norm": 0.13090409077529655, + "loss": 0.19687730073928833, + "step": 4406 + }, + { + "grad_norm": 0.1898108534536461, + "loss": 0.2481188178062439, + "step": 4407 + }, + { + "grad_norm": 0.28930087835978563, + "loss": 0.19583888351917267, + "step": 4408 + }, + { + "grad_norm": 0.35991208535963504, + "loss": 0.24039195477962494, + "step": 4409 + }, + { + "epoch": 1.4112, + "grad_norm": 0.35991206765174866, + "learning_rate": 5.5748933303390974e-05, + "loss": 0.2004, + "step": 4410 + }, + { + "grad_norm": 0.20224757279297426, + "loss": 0.21072310209274292, + "step": 4410 + }, + { + "grad_norm": 0.19317902000480022, + "loss": 0.19769567251205444, + "step": 4411 + }, + { + "grad_norm": 0.31959100764373355, + "loss": 0.16704308986663818, + "step": 4412 + }, + { + "grad_norm": 0.19784310643045092, + "loss": 0.17421633005142212, + "step": 4413 + }, + { + "grad_norm": 0.429236288297512, + "loss": 0.15830665826797485, + "step": 4414 + }, + { + "grad_norm": 0.3518439928968802, + "loss": 0.14928396046161652, + "step": 4415 + }, + { + "grad_norm": 0.19162102154690794, + "loss": 0.1856035739183426, + "step": 4416 + }, + { + "grad_norm": 0.21928614889982542, + "loss": 0.27677977085113525, + "step": 4417 + }, + { + "grad_norm": 0.1896217266464734, + "loss": 0.21497465670108795, + "step": 4418 + }, + { + "grad_norm": 0.1898715446230354, + "loss": 0.21672682464122772, + "step": 4419 + }, + { + "epoch": 1.4144, + "grad_norm": 0.18987154960632324, + "learning_rate": 5.563664944980912e-05, + "loss": 0.1951, + "step": 4420 + }, + { + "grad_norm": 0.19359118804156525, + "loss": 0.14995597302913666, + "step": 4420 + }, + { + "grad_norm": 0.34560647776461184, + "loss": 0.2009626030921936, + "step": 4421 + }, + { + "grad_norm": 0.15688076982373217, + "loss": 0.17034125328063965, + "step": 4422 + }, + { + "grad_norm": 0.2891430840245853, + "loss": 0.23337051272392273, + "step": 4423 + }, + { + "grad_norm": 0.22305803159290985, + "loss": 0.18245238065719604, + "step": 4424 + }, + { + "grad_norm": 0.1545706168857878, + "loss": 0.16832612454891205, + "step": 4425 + }, + { + "grad_norm": 0.14806443575553133, + "loss": 0.15332821011543274, + "step": 4426 + }, + { + "grad_norm": 0.29716823414539634, + "loss": 0.16107076406478882, + "step": 4427 + }, + { + "grad_norm": 0.109917222938325, + "loss": 0.17818762362003326, + "step": 4428 + }, + { + "grad_norm": 0.15781012512188602, + "loss": 0.17331644892692566, + "step": 4429 + }, + { + "epoch": 1.4176, + "grad_norm": 0.15781012177467346, + "learning_rate": 5.552436559622727e-05, + "loss": 0.1771, + "step": 4430 + }, + { + "grad_norm": 0.14823069659906338, + "loss": 0.18904797732830048, + "step": 4430 + }, + { + "grad_norm": 0.15708612302695568, + "loss": 0.2314421832561493, + "step": 4431 + }, + { + "grad_norm": 0.22886198030354118, + "loss": 0.184175044298172, + "step": 4432 + }, + { + "grad_norm": 0.10405861665219522, + "loss": 0.21167440712451935, + "step": 4433 + }, + { + "grad_norm": 0.20758152161389246, + "loss": 0.19052991271018982, + "step": 4434 + }, + { + "grad_norm": 0.1887529819099421, + "loss": 0.18956905603408813, + "step": 4435 + }, + { + "grad_norm": 0.1621472212186573, + "loss": 0.16911551356315613, + "step": 4436 + }, + { + "grad_norm": 0.09548469700952354, + "loss": 0.19418177008628845, + "step": 4437 + }, + { + "grad_norm": 0.11676293993854583, + "loss": 0.16920062899589539, + "step": 4438 + }, + { + "grad_norm": 0.23537321448197232, + "loss": 0.24794000387191772, + "step": 4439 + }, + { + "epoch": 1.4208, + "grad_norm": 0.23537319898605347, + "learning_rate": 5.5412081742645405e-05, + "loss": 0.1977, + "step": 4440 + }, + { + "grad_norm": 0.31724257570651654, + "loss": 0.20426899194717407, + "step": 4440 + }, + { + "grad_norm": 0.22901856672833876, + "loss": 0.1831987202167511, + "step": 4441 + }, + { + "grad_norm": 0.126008214101861, + "loss": 0.19743961095809937, + "step": 4442 + }, + { + "grad_norm": 0.20565732163747708, + "loss": 0.15710026025772095, + "step": 4443 + }, + { + "grad_norm": 0.24473479736253184, + "loss": 0.17479974031448364, + "step": 4444 + }, + { + "grad_norm": 0.31333422118607696, + "loss": 0.16876794397830963, + "step": 4445 + }, + { + "grad_norm": 0.29899934812837214, + "loss": 0.20989683270454407, + "step": 4446 + }, + { + "grad_norm": 0.33720339960940504, + "loss": 0.23915323615074158, + "step": 4447 + }, + { + "grad_norm": 0.3331877612594113, + "loss": 0.23157089948654175, + "step": 4448 + }, + { + "grad_norm": 0.30584482786487344, + "loss": 0.19505423307418823, + "step": 4449 + }, + { + "epoch": 1.424, + "grad_norm": 0.30584484338760376, + "learning_rate": 5.5299797889063556e-05, + "loss": 0.1961, + "step": 4450 + }, + { + "grad_norm": 0.30793635679884124, + "loss": 0.18513724207878113, + "step": 4450 + }, + { + "grad_norm": 0.1747368530798264, + "loss": 0.2691430151462555, + "step": 4451 + }, + { + "grad_norm": 0.2915387039972873, + "loss": 0.19273948669433594, + "step": 4452 + }, + { + "grad_norm": 0.37093827654895195, + "loss": 0.3069303035736084, + "step": 4453 + }, + { + "grad_norm": 0.2640801052936419, + "loss": 0.196409672498703, + "step": 4454 + }, + { + "grad_norm": 0.2820477002131401, + "loss": 0.26729851961135864, + "step": 4455 + }, + { + "grad_norm": 0.2834420160702498, + "loss": 0.18212467432022095, + "step": 4456 + }, + { + "grad_norm": 0.13357935075379337, + "loss": 0.15186581015586853, + "step": 4457 + }, + { + "grad_norm": 0.2118499002569233, + "loss": 0.18513226509094238, + "step": 4458 + }, + { + "grad_norm": 0.1964192996844744, + "loss": 0.1527765393257141, + "step": 4459 + }, + { + "epoch": 1.4272, + "grad_norm": 0.19641929864883423, + "learning_rate": 5.51875140354817e-05, + "loss": 0.209, + "step": 4460 + }, + { + "grad_norm": 0.19427015740964002, + "loss": 0.17551082372665405, + "step": 4460 + }, + { + "grad_norm": 0.3353908501017729, + "loss": 0.17816922068595886, + "step": 4461 + }, + { + "grad_norm": 0.3558400486686289, + "loss": 0.20792877674102783, + "step": 4462 + }, + { + "grad_norm": 0.1288381534736637, + "loss": 0.15603521466255188, + "step": 4463 + }, + { + "grad_norm": 0.12456654955641773, + "loss": 0.21938002109527588, + "step": 4464 + }, + { + "grad_norm": 0.17705894228098448, + "loss": 0.20322254300117493, + "step": 4465 + }, + { + "grad_norm": 0.3588435012094147, + "loss": 0.17324522137641907, + "step": 4466 + }, + { + "grad_norm": 0.10627815676727614, + "loss": 0.20461192727088928, + "step": 4467 + }, + { + "grad_norm": 0.2690825420179636, + "loss": 0.15932105481624603, + "step": 4468 + }, + { + "grad_norm": 0.1973145738418308, + "loss": 0.21966013312339783, + "step": 4469 + }, + { + "epoch": 1.4304000000000001, + "grad_norm": 0.19731459021568298, + "learning_rate": 5.507523018189985e-05, + "loss": 0.1897, + "step": 4470 + }, + { + "grad_norm": 0.46200852666861275, + "loss": 0.2133466899394989, + "step": 4470 + }, + { + "grad_norm": 0.09751182686980707, + "loss": 0.19032222032546997, + "step": 4471 + }, + { + "grad_norm": 0.17717756449102776, + "loss": 0.1782281994819641, + "step": 4472 + }, + { + "grad_norm": 0.17167420427407176, + "loss": 0.15754014253616333, + "step": 4473 + }, + { + "grad_norm": 0.17787246021519257, + "loss": 0.1816481649875641, + "step": 4474 + }, + { + "grad_norm": 0.2559600244295916, + "loss": 0.15965017676353455, + "step": 4475 + }, + { + "grad_norm": 0.2190977686646033, + "loss": 0.1695643961429596, + "step": 4476 + }, + { + "grad_norm": 0.11488121532197003, + "loss": 0.17217634618282318, + "step": 4477 + }, + { + "grad_norm": 0.3795297443961491, + "loss": 0.14111194014549255, + "step": 4478 + }, + { + "grad_norm": 0.15782621336524155, + "loss": 0.20751458406448364, + "step": 4479 + }, + { + "epoch": 1.4336, + "grad_norm": 0.15782621502876282, + "learning_rate": 5.496294632831799e-05, + "loss": 0.1771, + "step": 4480 + }, + { + "grad_norm": 0.18827539161697668, + "loss": 0.22024112939834595, + "step": 4480 + }, + { + "grad_norm": 0.11469221718227791, + "loss": 0.1583651900291443, + "step": 4481 + }, + { + "grad_norm": 0.24300189688326723, + "loss": 0.22654330730438232, + "step": 4482 + }, + { + "grad_norm": 0.4869709423765838, + "loss": 0.2578098177909851, + "step": 4483 + }, + { + "grad_norm": 0.21536094922807691, + "loss": 0.18803240358829498, + "step": 4484 + }, + { + "grad_norm": 0.3051538905872116, + "loss": 0.178818479180336, + "step": 4485 + }, + { + "grad_norm": 0.1622833851629089, + "loss": 0.17632445693016052, + "step": 4486 + }, + { + "grad_norm": 0.15486467378369373, + "loss": 0.18001046776771545, + "step": 4487 + }, + { + "grad_norm": 0.23935072934643678, + "loss": 0.1815488189458847, + "step": 4488 + }, + { + "grad_norm": 0.22171310783200845, + "loss": 0.15641969442367554, + "step": 4489 + }, + { + "epoch": 1.4368, + "grad_norm": 0.2217131108045578, + "learning_rate": 5.485066247473614e-05, + "loss": 0.1924, + "step": 4490 + }, + { + "grad_norm": 0.3638492160796732, + "loss": 0.1629527062177658, + "step": 4490 + }, + { + "grad_norm": 0.26305989784903533, + "loss": 0.20460882782936096, + "step": 4491 + }, + { + "grad_norm": 0.27147361661362907, + "loss": 0.21218916773796082, + "step": 4492 + }, + { + "grad_norm": 0.2645332601558435, + "loss": 0.15717865526676178, + "step": 4493 + }, + { + "grad_norm": 0.1969281138698914, + "loss": 0.19671602547168732, + "step": 4494 + }, + { + "grad_norm": 0.13445870598676685, + "loss": 0.18904772400856018, + "step": 4495 + }, + { + "grad_norm": 0.11696028201506137, + "loss": 0.18309473991394043, + "step": 4496 + }, + { + "grad_norm": 0.14738554478641586, + "loss": 0.16711744666099548, + "step": 4497 + }, + { + "grad_norm": 0.20084903502148851, + "loss": 0.19388051331043243, + "step": 4498 + }, + { + "grad_norm": 0.26675412276830196, + "loss": 0.1678469032049179, + "step": 4499 + }, + { + "epoch": 1.44, + "grad_norm": 0.2667541205883026, + "learning_rate": 5.473837862115428e-05, + "loss": 0.1835, + "step": 4500 + }, + { + "grad_norm": 0.17289132937835977, + "loss": 0.14853650331497192, + "step": 4500 + }, + { + "grad_norm": 0.2241949376480663, + "loss": 0.20202618837356567, + "step": 4501 + }, + { + "grad_norm": 0.16972196369562656, + "loss": 0.16433225572109222, + "step": 4502 + }, + { + "grad_norm": 0.24089304457611616, + "loss": 0.21551626920700073, + "step": 4503 + }, + { + "grad_norm": 0.25704073123941773, + "loss": 0.1883288472890854, + "step": 4504 + }, + { + "grad_norm": 0.2193666200881817, + "loss": 0.1847897469997406, + "step": 4505 + }, + { + "grad_norm": 0.327430361318086, + "loss": 0.25881484150886536, + "step": 4506 + }, + { + "grad_norm": 0.2125773643736537, + "loss": 0.17906251549720764, + "step": 4507 + }, + { + "grad_norm": 0.23022782888498058, + "loss": 0.1826610416173935, + "step": 4508 + }, + { + "grad_norm": 0.12638368825609647, + "loss": 0.17586100101470947, + "step": 4509 + }, + { + "epoch": 1.4432, + "grad_norm": 0.1263836920261383, + "learning_rate": 5.462609476757242e-05, + "loss": 0.19, + "step": 4510 + }, + { + "grad_norm": 0.10734951714090873, + "loss": 0.17266693711280823, + "step": 4510 + }, + { + "grad_norm": 0.18030758457476945, + "loss": 0.19355453550815582, + "step": 4511 + }, + { + "grad_norm": 0.2753599196492831, + "loss": 0.1894252598285675, + "step": 4512 + }, + { + "grad_norm": 0.17332738926967814, + "loss": 0.2205030620098114, + "step": 4513 + }, + { + "grad_norm": 0.5133346073362944, + "loss": 0.1747267246246338, + "step": 4514 + }, + { + "grad_norm": 0.1733025153831162, + "loss": 0.15908078849315643, + "step": 4515 + }, + { + "grad_norm": 0.1528767442205341, + "loss": 0.17824195325374603, + "step": 4516 + }, + { + "grad_norm": 0.11571744646737883, + "loss": 0.21067702770233154, + "step": 4517 + }, + { + "grad_norm": 0.39235960374959433, + "loss": 0.33252719044685364, + "step": 4518 + }, + { + "grad_norm": 0.15961952406691898, + "loss": 0.21170175075531006, + "step": 4519 + }, + { + "epoch": 1.4464000000000001, + "grad_norm": 0.1596195250749588, + "learning_rate": 5.451381091399057e-05, + "loss": 0.2043, + "step": 4520 + }, + { + "grad_norm": 0.2078095874784568, + "loss": 0.183126300573349, + "step": 4520 + }, + { + "grad_norm": 0.19706882021446293, + "loss": 0.18700402975082397, + "step": 4521 + }, + { + "grad_norm": 0.38352620268959126, + "loss": 0.22922998666763306, + "step": 4522 + }, + { + "grad_norm": 0.28871292801695314, + "loss": 0.16171598434448242, + "step": 4523 + }, + { + "grad_norm": 0.2514975598768447, + "loss": 0.18176721036434174, + "step": 4524 + }, + { + "grad_norm": 0.12857408203464293, + "loss": 0.23462644219398499, + "step": 4525 + }, + { + "grad_norm": 0.12472340049455476, + "loss": 0.21681933104991913, + "step": 4526 + }, + { + "grad_norm": 0.1949650314850282, + "loss": 0.2640937566757202, + "step": 4527 + }, + { + "grad_norm": 0.10829816421980389, + "loss": 0.22397440671920776, + "step": 4528 + }, + { + "grad_norm": 0.1607248461829105, + "loss": 0.18724894523620605, + "step": 4529 + }, + { + "epoch": 1.4496, + "grad_norm": 0.16072484850883484, + "learning_rate": 5.440152706040872e-05, + "loss": 0.207, + "step": 4530 + }, + { + "grad_norm": 0.32785708364305377, + "loss": 0.17974498867988586, + "step": 4530 + }, + { + "grad_norm": 0.20005854815334898, + "loss": 0.2204561084508896, + "step": 4531 + }, + { + "grad_norm": 0.22436001570111927, + "loss": 0.1992320716381073, + "step": 4532 + }, + { + "grad_norm": 0.1867934026015958, + "loss": 0.22232040762901306, + "step": 4533 + }, + { + "grad_norm": 0.08880857072802861, + "loss": 0.176273912191391, + "step": 4534 + }, + { + "grad_norm": 0.1619681234752299, + "loss": 0.16223359107971191, + "step": 4535 + }, + { + "grad_norm": 0.10497390688067858, + "loss": 0.2023431956768036, + "step": 4536 + }, + { + "grad_norm": 0.13935388057781953, + "loss": 0.15527118742465973, + "step": 4537 + }, + { + "grad_norm": 0.13886557712416792, + "loss": 0.19401651620864868, + "step": 4538 + }, + { + "grad_norm": 0.4438286199856713, + "loss": 0.149974063038826, + "step": 4539 + }, + { + "epoch": 1.4527999999999999, + "grad_norm": 0.44382864236831665, + "learning_rate": 5.428924320682686e-05, + "loss": 0.1862, + "step": 4540 + }, + { + "grad_norm": 0.1754647970309887, + "loss": 0.21768313646316528, + "step": 4540 + }, + { + "grad_norm": 0.15539941870785548, + "loss": 0.1622498780488968, + "step": 4541 + }, + { + "grad_norm": 0.35389691983063537, + "loss": 0.21691976487636566, + "step": 4542 + }, + { + "grad_norm": 0.13084454917980026, + "loss": 0.17137111723423004, + "step": 4543 + }, + { + "grad_norm": 0.13792543264971746, + "loss": 0.2170937955379486, + "step": 4544 + }, + { + "grad_norm": 0.24430660822869543, + "loss": 0.16934964060783386, + "step": 4545 + }, + { + "grad_norm": 0.2048137860872807, + "loss": 0.19112277030944824, + "step": 4546 + }, + { + "grad_norm": 0.14353556011054627, + "loss": 0.17377905547618866, + "step": 4547 + }, + { + "grad_norm": 0.2916195575599075, + "loss": 0.19456464052200317, + "step": 4548 + }, + { + "grad_norm": 0.12996731514829793, + "loss": 0.1736636459827423, + "step": 4549 + }, + { + "epoch": 1.456, + "grad_norm": 0.1299673169851303, + "learning_rate": 5.4176959353245e-05, + "loss": 0.1888, + "step": 4550 + }, + { + "grad_norm": 0.2370628747179324, + "loss": 0.20943999290466309, + "step": 4550 + }, + { + "grad_norm": 0.24027561999904315, + "loss": 0.15496113896369934, + "step": 4551 + }, + { + "grad_norm": 0.26673658591803523, + "loss": 0.28363388776779175, + "step": 4552 + }, + { + "grad_norm": 0.1983682259308073, + "loss": 0.20207113027572632, + "step": 4553 + }, + { + "grad_norm": 0.13711473800127885, + "loss": 0.22036391496658325, + "step": 4554 + }, + { + "grad_norm": 0.1288595511254897, + "loss": 0.17960667610168457, + "step": 4555 + }, + { + "grad_norm": 0.1584666683894366, + "loss": 0.265460342168808, + "step": 4556 + }, + { + "grad_norm": 0.4409908602619267, + "loss": 0.21136680245399475, + "step": 4557 + }, + { + "grad_norm": 0.5899282734420918, + "loss": 0.18484699726104736, + "step": 4558 + }, + { + "grad_norm": 0.2095647043499341, + "loss": 0.2086799442768097, + "step": 4559 + }, + { + "epoch": 1.4592, + "grad_norm": 0.2095647007226944, + "learning_rate": 5.406467549966315e-05, + "loss": 0.212, + "step": 4560 + }, + { + "grad_norm": 0.3334236038768532, + "loss": 0.18434357643127441, + "step": 4560 + }, + { + "grad_norm": 0.19797365272999973, + "loss": 0.18623514473438263, + "step": 4561 + }, + { + "grad_norm": 0.17467426034726416, + "loss": 0.28977614641189575, + "step": 4562 + }, + { + "grad_norm": 0.44678191104458576, + "loss": 0.19737927615642548, + "step": 4563 + }, + { + "grad_norm": 0.1681199483805422, + "loss": 0.2009572982788086, + "step": 4564 + }, + { + "grad_norm": 0.24294953542869877, + "loss": 0.16988757252693176, + "step": 4565 + }, + { + "grad_norm": 0.24532159110756044, + "loss": 0.159319207072258, + "step": 4566 + }, + { + "grad_norm": 0.2905816552721306, + "loss": 0.19274502992630005, + "step": 4567 + }, + { + "grad_norm": 0.286318434464676, + "loss": 0.19546788930892944, + "step": 4568 + }, + { + "grad_norm": 0.1726602479353415, + "loss": 0.18932418525218964, + "step": 4569 + }, + { + "epoch": 1.4624, + "grad_norm": 0.1726602464914322, + "learning_rate": 5.395239164608129e-05, + "loss": 0.1965, + "step": 4570 + }, + { + "grad_norm": 0.13174297171399346, + "loss": 0.15145941078662872, + "step": 4570 + }, + { + "grad_norm": 0.3449448656081728, + "loss": 0.16087839007377625, + "step": 4571 + }, + { + "grad_norm": 0.15486325431536463, + "loss": 0.19715744256973267, + "step": 4572 + }, + { + "grad_norm": 0.14189137133508536, + "loss": 0.1595393568277359, + "step": 4573 + }, + { + "grad_norm": 0.13458717238181095, + "loss": 0.1624135971069336, + "step": 4574 + }, + { + "grad_norm": 0.40170133735095115, + "loss": 0.2087824046611786, + "step": 4575 + }, + { + "grad_norm": 0.499841588045417, + "loss": 0.1757422238588333, + "step": 4576 + }, + { + "grad_norm": 0.20669577039640114, + "loss": 0.2172236442565918, + "step": 4577 + }, + { + "grad_norm": 0.19856022270010643, + "loss": 0.20301394164562225, + "step": 4578 + }, + { + "grad_norm": 0.14265151887714075, + "loss": 0.18720415234565735, + "step": 4579 + }, + { + "epoch": 1.4656, + "grad_norm": 0.1426515132188797, + "learning_rate": 5.384010779249944e-05, + "loss": 0.1823, + "step": 4580 + }, + { + "grad_norm": 0.15043154046624405, + "loss": 0.17579704523086548, + "step": 4580 + }, + { + "grad_norm": 0.11736781427755531, + "loss": 0.19748720526695251, + "step": 4581 + }, + { + "grad_norm": 0.10113403840681344, + "loss": 0.15666304528713226, + "step": 4582 + }, + { + "grad_norm": 0.1503404551294499, + "loss": 0.22746099531650543, + "step": 4583 + }, + { + "grad_norm": 0.35227174653799787, + "loss": 0.2228783369064331, + "step": 4584 + }, + { + "grad_norm": 0.15982931350977014, + "loss": 0.1950787901878357, + "step": 4585 + }, + { + "grad_norm": 0.32810037787074997, + "loss": 0.19910110533237457, + "step": 4586 + }, + { + "grad_norm": 0.2534888233055848, + "loss": 0.25314950942993164, + "step": 4587 + }, + { + "grad_norm": 0.12350931207016587, + "loss": 0.21965783834457397, + "step": 4588 + }, + { + "grad_norm": 0.2366893858746687, + "loss": 0.17081566154956818, + "step": 4589 + }, + { + "epoch": 1.4687999999999999, + "grad_norm": 0.23668938875198364, + "learning_rate": 5.3727823938917584e-05, + "loss": 0.2018, + "step": 4590 + }, + { + "grad_norm": 0.10965111439873283, + "loss": 0.17089328169822693, + "step": 4590 + }, + { + "grad_norm": 0.2237692565654656, + "loss": 0.22037267684936523, + "step": 4591 + }, + { + "grad_norm": 0.14239196661657247, + "loss": 0.16962000727653503, + "step": 4592 + }, + { + "grad_norm": 0.46518952818376597, + "loss": 0.19040852785110474, + "step": 4593 + }, + { + "grad_norm": 0.39022720824923063, + "loss": 0.2788388729095459, + "step": 4594 + }, + { + "grad_norm": 0.3281287472901145, + "loss": 0.21495290100574493, + "step": 4595 + }, + { + "grad_norm": 0.22450498816461217, + "loss": 0.18270643055438995, + "step": 4596 + }, + { + "grad_norm": 0.1584372996534451, + "loss": 0.16962693631649017, + "step": 4597 + }, + { + "grad_norm": 0.23143436055433095, + "loss": 0.22670097649097443, + "step": 4598 + }, + { + "grad_norm": 0.13374629967326954, + "loss": 0.19340470433235168, + "step": 4599 + }, + { + "epoch": 1.472, + "grad_norm": 0.13374629616737366, + "learning_rate": 5.3615540085335735e-05, + "loss": 0.2018, + "step": 4600 + }, + { + "grad_norm": 0.12118339607678025, + "loss": 0.1698608696460724, + "step": 4600 + }, + { + "grad_norm": 0.24974129902383335, + "loss": 0.21028704941272736, + "step": 4601 + }, + { + "grad_norm": 0.1169347652550747, + "loss": 0.17456085979938507, + "step": 4602 + }, + { + "grad_norm": 0.15963652148051144, + "loss": 0.17187325656414032, + "step": 4603 + }, + { + "grad_norm": 0.3629374853743247, + "loss": 0.1593351662158966, + "step": 4604 + }, + { + "grad_norm": 0.35150895614288996, + "loss": 0.1802813708782196, + "step": 4605 + }, + { + "grad_norm": 0.2944187188977543, + "loss": 0.15418638288974762, + "step": 4606 + }, + { + "grad_norm": 0.19087887395430841, + "loss": 0.1744219809770584, + "step": 4607 + }, + { + "grad_norm": 0.232387404179324, + "loss": 0.17350338399410248, + "step": 4608 + }, + { + "grad_norm": 0.08905677499150753, + "loss": 0.17138631641864777, + "step": 4609 + }, + { + "epoch": 1.4752, + "grad_norm": 0.08905677497386932, + "learning_rate": 5.350325623175387e-05, + "loss": 0.174, + "step": 4610 + }, + { + "grad_norm": 0.08738416323384322, + "loss": 0.17823338508605957, + "step": 4610 + }, + { + "grad_norm": 0.2869004893214615, + "loss": 0.26807254552841187, + "step": 4611 + }, + { + "grad_norm": 0.25431196802393025, + "loss": 0.20504558086395264, + "step": 4612 + }, + { + "grad_norm": 0.41848579406600167, + "loss": 0.24932801723480225, + "step": 4613 + }, + { + "grad_norm": 0.3794725998012273, + "loss": 0.16568389534950256, + "step": 4614 + }, + { + "grad_norm": 0.19142103390317183, + "loss": 0.18997454643249512, + "step": 4615 + }, + { + "grad_norm": 0.1035449960348183, + "loss": 0.1864614337682724, + "step": 4616 + }, + { + "grad_norm": 0.21538596624466078, + "loss": 0.2003730833530426, + "step": 4617 + }, + { + "grad_norm": 0.1470997360883793, + "loss": 0.1692618727684021, + "step": 4618 + }, + { + "grad_norm": 0.17132498686782305, + "loss": 0.21710968017578125, + "step": 4619 + }, + { + "epoch": 1.4784, + "grad_norm": 0.1713249832391739, + "learning_rate": 5.339097237817202e-05, + "loss": 0.203, + "step": 4620 + }, + { + "grad_norm": 0.1148462111286917, + "loss": 0.2066952884197235, + "step": 4620 + }, + { + "grad_norm": 0.24516053028658813, + "loss": 0.24431389570236206, + "step": 4621 + }, + { + "grad_norm": 0.3096285192627895, + "loss": 0.17099064588546753, + "step": 4622 + }, + { + "grad_norm": 0.3952824945849124, + "loss": 0.16167163848876953, + "step": 4623 + }, + { + "grad_norm": 0.19153396122204047, + "loss": 0.1720373034477234, + "step": 4624 + }, + { + "grad_norm": 0.1490175477018271, + "loss": 0.15476080775260925, + "step": 4625 + }, + { + "grad_norm": 0.2374800568117721, + "loss": 0.24055123329162598, + "step": 4626 + }, + { + "grad_norm": 0.21513878618821705, + "loss": 0.15225952863693237, + "step": 4627 + }, + { + "grad_norm": 0.3832268892913154, + "loss": 0.182253897190094, + "step": 4628 + }, + { + "grad_norm": 0.1742909281200125, + "loss": 0.18559914827346802, + "step": 4629 + }, + { + "epoch": 1.4816, + "grad_norm": 0.17429092526435852, + "learning_rate": 5.327868852459017e-05, + "loss": 0.1871, + "step": 4630 + }, + { + "grad_norm": 0.22478534860230082, + "loss": 0.20213887095451355, + "step": 4630 + }, + { + "grad_norm": 0.22462777912151105, + "loss": 0.14755761623382568, + "step": 4631 + }, + { + "grad_norm": 0.30332926157637236, + "loss": 0.17246687412261963, + "step": 4632 + }, + { + "grad_norm": 0.28922701886868424, + "loss": 0.1808793544769287, + "step": 4633 + }, + { + "grad_norm": 0.28375009237144, + "loss": 0.19955366849899292, + "step": 4634 + }, + { + "grad_norm": 0.127064219612268, + "loss": 0.21452932059764862, + "step": 4635 + }, + { + "grad_norm": 0.20558828328398393, + "loss": 0.18597736954689026, + "step": 4636 + }, + { + "grad_norm": 0.17146426632236214, + "loss": 0.16893790662288666, + "step": 4637 + }, + { + "grad_norm": 0.1538939484030204, + "loss": 0.2040599137544632, + "step": 4638 + }, + { + "grad_norm": 0.22146513120853403, + "loss": 0.16740000247955322, + "step": 4639 + }, + { + "epoch": 1.4848, + "grad_norm": 0.2214651256799698, + "learning_rate": 5.316640467100831e-05, + "loss": 0.1844, + "step": 4640 + }, + { + "grad_norm": 0.17311946839797132, + "loss": 0.1882031261920929, + "step": 4640 + }, + { + "grad_norm": 0.17079637873281903, + "loss": 0.16915172338485718, + "step": 4641 + }, + { + "grad_norm": 0.2623248706662486, + "loss": 0.19445471465587616, + "step": 4642 + }, + { + "grad_norm": 0.10824156361654647, + "loss": 0.14928142726421356, + "step": 4643 + }, + { + "grad_norm": 0.2453908074794444, + "loss": 0.2073926329612732, + "step": 4644 + }, + { + "grad_norm": 0.30442797382542097, + "loss": 0.2342236042022705, + "step": 4645 + }, + { + "grad_norm": 0.230533431862325, + "loss": 0.20532958209514618, + "step": 4646 + }, + { + "grad_norm": 0.1343933272950909, + "loss": 0.18907509744167328, + "step": 4647 + }, + { + "grad_norm": 0.3307454636855816, + "loss": 0.21155081689357758, + "step": 4648 + }, + { + "grad_norm": 0.10598839879968582, + "loss": 0.18392804265022278, + "step": 4649 + }, + { + "epoch": 1.488, + "grad_norm": 0.10598839819431305, + "learning_rate": 5.3054120817426454e-05, + "loss": 0.1933, + "step": 4650 + }, + { + "grad_norm": 0.42328836243864115, + "loss": 0.1661839783191681, + "step": 4650 + }, + { + "grad_norm": 0.15640991595911025, + "loss": 0.20453067123889923, + "step": 4651 + }, + { + "grad_norm": 0.1850820979758767, + "loss": 0.18218086659908295, + "step": 4652 + }, + { + "grad_norm": 0.1683280136254889, + "loss": 0.22673454880714417, + "step": 4653 + }, + { + "grad_norm": 0.21573452531971715, + "loss": 0.2012082189321518, + "step": 4654 + }, + { + "grad_norm": 0.13559249733137252, + "loss": 0.18327371776103973, + "step": 4655 + }, + { + "grad_norm": 0.106395885959141, + "loss": 0.1597854495048523, + "step": 4656 + }, + { + "grad_norm": 0.1403566057218517, + "loss": 0.21029679477214813, + "step": 4657 + }, + { + "grad_norm": 0.18389427184229326, + "loss": 0.20278039574623108, + "step": 4658 + }, + { + "grad_norm": 0.15706612015532584, + "loss": 0.24020400643348694, + "step": 4659 + }, + { + "epoch": 1.4912, + "grad_norm": 0.15706612169742584, + "learning_rate": 5.2941836963844605e-05, + "loss": 0.1977, + "step": 4660 + }, + { + "grad_norm": 0.15881544693297225, + "loss": 0.1688329130411148, + "step": 4660 + }, + { + "grad_norm": 0.3394306100018246, + "loss": 0.1761808693408966, + "step": 4661 + }, + { + "grad_norm": 0.1877676670402141, + "loss": 0.16708731651306152, + "step": 4662 + }, + { + "grad_norm": 0.1719349268645082, + "loss": 0.21131810545921326, + "step": 4663 + }, + { + "grad_norm": 0.20432783577596583, + "loss": 0.19501836597919464, + "step": 4664 + }, + { + "grad_norm": 0.29769910056760673, + "loss": 0.22104264795780182, + "step": 4665 + }, + { + "grad_norm": 0.1823569398633783, + "loss": 0.1597265601158142, + "step": 4666 + }, + { + "grad_norm": 0.16327210861923191, + "loss": 0.18359917402267456, + "step": 4667 + }, + { + "grad_norm": 0.42476614370287036, + "loss": 0.28460267186164856, + "step": 4668 + }, + { + "grad_norm": 0.2481386138083842, + "loss": 0.16262337565422058, + "step": 4669 + }, + { + "epoch": 1.4944, + "grad_norm": 0.24813860654830933, + "learning_rate": 5.282955311026274e-05, + "loss": 0.193, + "step": 4670 + }, + { + "grad_norm": 0.19434866874573772, + "loss": 0.14677412807941437, + "step": 4670 + }, + { + "grad_norm": 0.2455064462901485, + "loss": 0.1845943182706833, + "step": 4671 + }, + { + "grad_norm": 0.20860417472034212, + "loss": 0.14603319764137268, + "step": 4672 + }, + { + "grad_norm": 0.2465581737351968, + "loss": 0.19058021903038025, + "step": 4673 + }, + { + "grad_norm": 0.1314890430329435, + "loss": 0.1988328993320465, + "step": 4674 + }, + { + "grad_norm": 0.2069484223846952, + "loss": 0.2000642567873001, + "step": 4675 + }, + { + "grad_norm": 0.3056409798027722, + "loss": 0.18080869317054749, + "step": 4676 + }, + { + "grad_norm": 0.11140017379119006, + "loss": 0.20016416907310486, + "step": 4677 + }, + { + "grad_norm": 0.17605775914649244, + "loss": 0.15844982862472534, + "step": 4678 + }, + { + "grad_norm": 0.3212959332926598, + "loss": 0.19631825387477875, + "step": 4679 + }, + { + "epoch": 1.4976, + "grad_norm": 0.32129591703414917, + "learning_rate": 5.271726925668089e-05, + "loss": 0.1803, + "step": 4680 + }, + { + "grad_norm": 0.18795484805060336, + "loss": 0.1688016653060913, + "step": 4680 + }, + { + "grad_norm": 0.16610120119885174, + "loss": 0.22046571969985962, + "step": 4681 + }, + { + "grad_norm": 0.12962478733218197, + "loss": 0.1777488738298416, + "step": 4682 + }, + { + "grad_norm": 0.4002174669134786, + "loss": 0.1774306446313858, + "step": 4683 + }, + { + "grad_norm": 0.13800301748835872, + "loss": 0.17514649033546448, + "step": 4684 + }, + { + "grad_norm": 0.20919156307142917, + "loss": 0.2673817276954651, + "step": 4685 + }, + { + "grad_norm": 0.2056219114244322, + "loss": 0.1772509217262268, + "step": 4686 + }, + { + "grad_norm": 0.3026624557360215, + "loss": 0.2012431025505066, + "step": 4687 + }, + { + "grad_norm": 0.3520528819677278, + "loss": 0.2222152203321457, + "step": 4688 + }, + { + "grad_norm": 0.35260426825579727, + "loss": 0.24612528085708618, + "step": 4689 + }, + { + "epoch": 1.5008, + "grad_norm": 0.3526042401790619, + "learning_rate": 5.260498540309904e-05, + "loss": 0.2034, + "step": 4690 + }, + { + "grad_norm": 0.12295906991216489, + "loss": 0.15819144248962402, + "step": 4690 + }, + { + "grad_norm": 0.49384425559272177, + "loss": 0.2114115059375763, + "step": 4691 + }, + { + "grad_norm": 0.3275349906165191, + "loss": 0.19151780009269714, + "step": 4692 + }, + { + "grad_norm": 0.2812950457740983, + "loss": 0.23383918404579163, + "step": 4693 + }, + { + "grad_norm": 0.13885898555903076, + "loss": 0.16740179061889648, + "step": 4694 + }, + { + "grad_norm": 0.3054225755893392, + "loss": 0.21901436150074005, + "step": 4695 + }, + { + "grad_norm": 0.28318583554580234, + "loss": 0.24856415390968323, + "step": 4696 + }, + { + "grad_norm": 0.425234971544609, + "loss": 0.18896234035491943, + "step": 4697 + }, + { + "grad_norm": 0.48022494743529354, + "loss": 0.2209407240152359, + "step": 4698 + }, + { + "grad_norm": 0.3170804533110143, + "loss": 0.19192266464233398, + "step": 4699 + }, + { + "epoch": 1.504, + "grad_norm": 0.31708043813705444, + "learning_rate": 5.249270154951719e-05, + "loss": 0.2032, + "step": 4700 + }, + { + "grad_norm": 0.13925503076379497, + "loss": 0.24022109806537628, + "step": 4700 + }, + { + "grad_norm": 0.48952243695636194, + "loss": 0.16505184769630432, + "step": 4701 + }, + { + "grad_norm": 0.23932528972139086, + "loss": 0.15702134370803833, + "step": 4702 + }, + { + "grad_norm": 0.1798007594841967, + "loss": 0.21623358130455017, + "step": 4703 + }, + { + "grad_norm": 0.1788067371554929, + "loss": 0.21975593268871307, + "step": 4704 + }, + { + "grad_norm": 0.2903517866072679, + "loss": 0.17420148849487305, + "step": 4705 + }, + { + "grad_norm": 0.1600177517449581, + "loss": 0.15632383525371552, + "step": 4706 + }, + { + "grad_norm": 0.11591810886312957, + "loss": 0.18155507743358612, + "step": 4707 + }, + { + "grad_norm": 0.24235831716835232, + "loss": 0.18168874084949493, + "step": 4708 + }, + { + "grad_norm": 0.41312392246066537, + "loss": 0.1694951206445694, + "step": 4709 + }, + { + "epoch": 1.5072, + "grad_norm": 0.4131239056587219, + "learning_rate": 5.2380417695935325e-05, + "loss": 0.1862, + "step": 4710 + }, + { + "grad_norm": 0.3633253721592219, + "loss": 0.2651577591896057, + "step": 4710 + }, + { + "grad_norm": 0.11945108323682306, + "loss": 0.19339576363563538, + "step": 4711 + }, + { + "grad_norm": 0.6859840256130066, + "loss": 0.1825823038816452, + "step": 4712 + }, + { + "grad_norm": 0.24452587589134547, + "loss": 0.2515132427215576, + "step": 4713 + }, + { + "grad_norm": 0.18389022258515078, + "loss": 0.17193132638931274, + "step": 4714 + }, + { + "grad_norm": 0.1632205807755781, + "loss": 0.16343775391578674, + "step": 4715 + }, + { + "grad_norm": 0.39592810621386243, + "loss": 0.15811072289943695, + "step": 4716 + }, + { + "grad_norm": 0.12436988690446911, + "loss": 0.15379510819911957, + "step": 4717 + }, + { + "grad_norm": 0.1888157006928194, + "loss": 0.18745601177215576, + "step": 4718 + }, + { + "grad_norm": 0.3810931262323384, + "loss": 0.2353876531124115, + "step": 4719 + }, + { + "epoch": 1.5104, + "grad_norm": 0.3810931444168091, + "learning_rate": 5.2268133842353475e-05, + "loss": 0.1963, + "step": 4720 + }, + { + "grad_norm": 0.2683105752788067, + "loss": 0.2559441924095154, + "step": 4720 + }, + { + "grad_norm": 0.16361823909908696, + "loss": 0.13077868521213531, + "step": 4721 + }, + { + "grad_norm": 0.18315483149171471, + "loss": 0.16930462419986725, + "step": 4722 + }, + { + "grad_norm": 0.27346488309306505, + "loss": 0.1749531626701355, + "step": 4723 + }, + { + "grad_norm": 0.10906083504808294, + "loss": 0.23042020201683044, + "step": 4724 + }, + { + "grad_norm": 0.0933141421678718, + "loss": 0.18036676943302155, + "step": 4725 + }, + { + "grad_norm": 0.28501571838467865, + "loss": 0.2063848376274109, + "step": 4726 + }, + { + "grad_norm": 0.12307058234185463, + "loss": 0.182994544506073, + "step": 4727 + }, + { + "grad_norm": 0.16017421363227893, + "loss": 0.17004656791687012, + "step": 4728 + }, + { + "grad_norm": 0.13151924434135243, + "loss": 0.16619129478931427, + "step": 4729 + }, + { + "epoch": 1.5135999999999998, + "grad_norm": 0.13151924312114716, + "learning_rate": 5.215584998877162e-05, + "loss": 0.1867, + "step": 4730 + }, + { + "grad_norm": 0.22628925990340776, + "loss": 0.13706660270690918, + "step": 4730 + }, + { + "grad_norm": 0.17309069484937847, + "loss": 0.16218093037605286, + "step": 4731 + }, + { + "grad_norm": 0.1643502899541961, + "loss": 0.23029890656471252, + "step": 4732 + }, + { + "grad_norm": 0.141469708382412, + "loss": 0.18730567395687103, + "step": 4733 + }, + { + "grad_norm": 0.5145933496594638, + "loss": 0.3041447401046753, + "step": 4734 + }, + { + "grad_norm": 0.24711316500687494, + "loss": 0.2510185241699219, + "step": 4735 + }, + { + "grad_norm": 0.17311633507501167, + "loss": 0.23319581151008606, + "step": 4736 + }, + { + "grad_norm": 0.2693537871644298, + "loss": 0.18037372827529907, + "step": 4737 + }, + { + "grad_norm": 0.12307412685609953, + "loss": 0.1814257800579071, + "step": 4738 + }, + { + "grad_norm": 0.2725364441782767, + "loss": 0.21346540749073029, + "step": 4739 + }, + { + "epoch": 1.5168, + "grad_norm": 0.2725364565849304, + "learning_rate": 5.2043566135189756e-05, + "loss": 0.208, + "step": 4740 + }, + { + "grad_norm": 0.16615184176541448, + "loss": 0.15454354882240295, + "step": 4740 + }, + { + "grad_norm": 0.17766999025456498, + "loss": 0.1659352332353592, + "step": 4741 + }, + { + "grad_norm": 0.2216779947118087, + "loss": 0.22257867455482483, + "step": 4742 + }, + { + "grad_norm": 0.26908351550491155, + "loss": 0.1832405924797058, + "step": 4743 + }, + { + "grad_norm": 0.18504449665844502, + "loss": 0.18947088718414307, + "step": 4744 + }, + { + "grad_norm": 0.19620160087501384, + "loss": 0.22180628776550293, + "step": 4745 + }, + { + "grad_norm": 0.1652918826001986, + "loss": 0.18388599157333374, + "step": 4746 + }, + { + "grad_norm": 0.13190796320665832, + "loss": 0.15473031997680664, + "step": 4747 + }, + { + "grad_norm": 0.08661719388088962, + "loss": 0.16057077050209045, + "step": 4748 + }, + { + "grad_norm": 0.22126230819132187, + "loss": 0.2612362205982208, + "step": 4749 + }, + { + "epoch": 1.52, + "grad_norm": 0.22126230597496033, + "learning_rate": 5.193128228160791e-05, + "loss": 0.1898, + "step": 4750 + }, + { + "grad_norm": 0.1984056721523784, + "loss": 0.2256632149219513, + "step": 4750 + }, + { + "grad_norm": 0.11626646133730442, + "loss": 0.17163780331611633, + "step": 4751 + }, + { + "grad_norm": 0.29627820997982834, + "loss": 0.1732601523399353, + "step": 4752 + }, + { + "grad_norm": 0.22627822943422807, + "loss": 0.17295628786087036, + "step": 4753 + }, + { + "grad_norm": 0.11535820242551621, + "loss": 0.20324069261550903, + "step": 4754 + }, + { + "grad_norm": 0.4343184185905319, + "loss": 0.2798731327056885, + "step": 4755 + }, + { + "grad_norm": 0.3077586919628552, + "loss": 0.25900062918663025, + "step": 4756 + }, + { + "grad_norm": 0.13964922923636053, + "loss": 0.25335392355918884, + "step": 4757 + }, + { + "grad_norm": 0.10401053636650519, + "loss": 0.171555757522583, + "step": 4758 + }, + { + "grad_norm": 0.13343717627821697, + "loss": 0.21210873126983643, + "step": 4759 + }, + { + "epoch": 1.5232, + "grad_norm": 0.13343718647956848, + "learning_rate": 5.181899842802606e-05, + "loss": 0.2123, + "step": 4760 + }, + { + "grad_norm": 0.12558320665285877, + "loss": 0.21012157201766968, + "step": 4760 + }, + { + "grad_norm": 0.1420408310658124, + "loss": 0.16709643602371216, + "step": 4761 + }, + { + "grad_norm": 0.12741658717759133, + "loss": 0.16037356853485107, + "step": 4762 + }, + { + "grad_norm": 0.16642345689588095, + "loss": 0.19254638254642487, + "step": 4763 + }, + { + "grad_norm": 0.3878510764215481, + "loss": 0.18534180521965027, + "step": 4764 + }, + { + "grad_norm": 0.21463177136989084, + "loss": 0.21362414956092834, + "step": 4765 + }, + { + "grad_norm": 0.10850947319044495, + "loss": 0.2098362296819687, + "step": 4766 + }, + { + "grad_norm": 0.1642155904271507, + "loss": 0.197637140750885, + "step": 4767 + }, + { + "grad_norm": 0.19454317198680376, + "loss": 0.1766689419746399, + "step": 4768 + }, + { + "grad_norm": 0.1361750632889151, + "loss": 0.1796804666519165, + "step": 4769 + }, + { + "epoch": 1.5264, + "grad_norm": 0.13617506623268127, + "learning_rate": 5.1706714574444195e-05, + "loss": 0.1893, + "step": 4770 + }, + { + "grad_norm": 0.2216453810577446, + "loss": 0.2048167884349823, + "step": 4770 + }, + { + "grad_norm": 0.11273132898334806, + "loss": 0.19389979541301727, + "step": 4771 + }, + { + "grad_norm": 0.26553649600998885, + "loss": 0.17397671937942505, + "step": 4772 + }, + { + "grad_norm": 0.30696119318127996, + "loss": 0.18123698234558105, + "step": 4773 + }, + { + "grad_norm": 0.10882990936560033, + "loss": 0.18727658689022064, + "step": 4774 + }, + { + "grad_norm": 0.19944706328586803, + "loss": 0.13650266826152802, + "step": 4775 + }, + { + "grad_norm": 0.2869755728329209, + "loss": 0.17746344208717346, + "step": 4776 + }, + { + "grad_norm": 0.2028951151580307, + "loss": 0.18272271752357483, + "step": 4777 + }, + { + "grad_norm": 0.15270459963839, + "loss": 0.1671379953622818, + "step": 4778 + }, + { + "grad_norm": 0.1878430958847948, + "loss": 0.1493804156780243, + "step": 4779 + }, + { + "epoch": 1.5295999999999998, + "grad_norm": 0.18784309923648834, + "learning_rate": 5.159443072086234e-05, + "loss": 0.1754, + "step": 4780 + }, + { + "grad_norm": 0.18505537840245045, + "loss": 0.14354147017002106, + "step": 4780 + }, + { + "grad_norm": 0.16918657578563284, + "loss": 0.20018257200717926, + "step": 4781 + }, + { + "grad_norm": 0.25802032849349005, + "loss": 0.17592725157737732, + "step": 4782 + }, + { + "grad_norm": 0.21664674185816657, + "loss": 0.18214690685272217, + "step": 4783 + }, + { + "grad_norm": 0.15779146029240237, + "loss": 0.14684711396694183, + "step": 4784 + }, + { + "grad_norm": 0.10282435234949307, + "loss": 0.18892520666122437, + "step": 4785 + }, + { + "grad_norm": 0.17515119930357725, + "loss": 0.1968468427658081, + "step": 4786 + }, + { + "grad_norm": 0.12380223104548349, + "loss": 0.16388580203056335, + "step": 4787 + }, + { + "grad_norm": 0.20161977449928586, + "loss": 0.19747301936149597, + "step": 4788 + }, + { + "grad_norm": 0.24734443052029392, + "loss": 0.17307302355766296, + "step": 4789 + }, + { + "epoch": 1.5328, + "grad_norm": 0.24734441936016083, + "learning_rate": 5.148214686728049e-05, + "loss": 0.1769, + "step": 4790 + }, + { + "grad_norm": 0.1332941463400315, + "loss": 0.17372027039527893, + "step": 4790 + }, + { + "grad_norm": 0.16517490063595155, + "loss": 0.18552416563034058, + "step": 4791 + }, + { + "grad_norm": 0.17494575055689612, + "loss": 0.21172717213630676, + "step": 4792 + }, + { + "grad_norm": 0.17610740741918632, + "loss": 0.18842338025569916, + "step": 4793 + }, + { + "grad_norm": 0.18658375718228787, + "loss": 0.17969053983688354, + "step": 4794 + }, + { + "grad_norm": 0.2518678367210824, + "loss": 0.18870961666107178, + "step": 4795 + }, + { + "grad_norm": 0.2917691317042507, + "loss": 0.14965926110744476, + "step": 4796 + }, + { + "grad_norm": 0.1801182369813777, + "loss": 0.21734774112701416, + "step": 4797 + }, + { + "grad_norm": 0.22828836509523487, + "loss": 0.17837199568748474, + "step": 4798 + }, + { + "grad_norm": 0.13228962048476578, + "loss": 0.17940357327461243, + "step": 4799 + }, + { + "epoch": 1.536, + "grad_norm": 0.13228961825370789, + "learning_rate": 5.136986301369864e-05, + "loss": 0.1853, + "step": 4800 + }, + { + "grad_norm": 0.1611838378249785, + "loss": 0.23222744464874268, + "step": 4800 + }, + { + "grad_norm": 0.24594830379197805, + "loss": 0.19434893131256104, + "step": 4801 + }, + { + "grad_norm": 0.6929953518193364, + "loss": 0.253923624753952, + "step": 4802 + }, + { + "grad_norm": 0.44581129496546784, + "loss": 0.22191524505615234, + "step": 4803 + }, + { + "grad_norm": 0.35894398308957676, + "loss": 0.2208743691444397, + "step": 4804 + }, + { + "grad_norm": 0.3440645068754052, + "loss": 0.22893773019313812, + "step": 4805 + }, + { + "grad_norm": 0.2992125954518, + "loss": 0.17537137866020203, + "step": 4806 + }, + { + "grad_norm": 0.15858385600679972, + "loss": 0.31818315386772156, + "step": 4807 + }, + { + "grad_norm": 0.6379614932293529, + "loss": 0.19478268921375275, + "step": 4808 + }, + { + "grad_norm": 0.2793158215471022, + "loss": 0.14578194916248322, + "step": 4809 + }, + { + "epoch": 1.5392000000000001, + "grad_norm": 0.2793158292770386, + "learning_rate": 5.125757916011678e-05, + "loss": 0.2186, + "step": 4810 + }, + { + "grad_norm": 0.3850072515951172, + "loss": 0.20197650790214539, + "step": 4810 + }, + { + "grad_norm": 0.3112044970646394, + "loss": 0.24257569015026093, + "step": 4811 + }, + { + "grad_norm": 0.41429233720344516, + "loss": 0.17896994948387146, + "step": 4812 + }, + { + "grad_norm": 0.3427543689926866, + "loss": 0.16489839553833008, + "step": 4813 + }, + { + "grad_norm": 0.13451571242320073, + "loss": 0.18808521330356598, + "step": 4814 + }, + { + "grad_norm": 0.22611047222391065, + "loss": 0.22491416335105896, + "step": 4815 + }, + { + "grad_norm": 0.15308972098347012, + "loss": 0.18453991413116455, + "step": 4816 + }, + { + "grad_norm": 0.1444276121893463, + "loss": 0.16017772257328033, + "step": 4817 + }, + { + "grad_norm": 0.16040205836842397, + "loss": 0.218783438205719, + "step": 4818 + }, + { + "grad_norm": 0.12285496147443598, + "loss": 0.17869648337364197, + "step": 4819 + }, + { + "epoch": 1.5424, + "grad_norm": 0.12285496294498444, + "learning_rate": 5.114529530653492e-05, + "loss": 0.1944, + "step": 4820 + }, + { + "grad_norm": 0.13006716001704466, + "loss": 0.1680983603000641, + "step": 4820 + }, + { + "grad_norm": 0.15056065404860466, + "loss": 0.2244291454553604, + "step": 4821 + }, + { + "grad_norm": 0.2011524010849179, + "loss": 0.17019537091255188, + "step": 4822 + }, + { + "grad_norm": 0.28651089988732215, + "loss": 0.19109287858009338, + "step": 4823 + }, + { + "grad_norm": 0.3023621183662849, + "loss": 0.20019987225532532, + "step": 4824 + }, + { + "grad_norm": 0.2168303226196557, + "loss": 0.21063095331192017, + "step": 4825 + }, + { + "grad_norm": 0.09364580978203847, + "loss": 0.17313730716705322, + "step": 4826 + }, + { + "grad_norm": 0.1016045153161292, + "loss": 0.1613921821117401, + "step": 4827 + }, + { + "grad_norm": 0.18346842636715108, + "loss": 0.14943136274814606, + "step": 4828 + }, + { + "grad_norm": 0.16356607727101577, + "loss": 0.16513682901859283, + "step": 4829 + }, + { + "epoch": 1.5455999999999999, + "grad_norm": 0.16356608271598816, + "learning_rate": 5.103301145295307e-05, + "loss": 0.1814, + "step": 4830 + }, + { + "grad_norm": 0.09182892383438053, + "loss": 0.20641788840293884, + "step": 4830 + }, + { + "grad_norm": 0.127417683814317, + "loss": 0.2219436913728714, + "step": 4831 + }, + { + "grad_norm": 0.201806878888785, + "loss": 0.17933011054992676, + "step": 4832 + }, + { + "grad_norm": 0.22710917017092483, + "loss": 0.18411771953105927, + "step": 4833 + }, + { + "grad_norm": 0.14219565793750086, + "loss": 0.1823756992816925, + "step": 4834 + }, + { + "grad_norm": 0.12080351699861461, + "loss": 0.1844170093536377, + "step": 4835 + }, + { + "grad_norm": 0.1162141991327524, + "loss": 0.16524004936218262, + "step": 4836 + }, + { + "grad_norm": 0.12017891973721523, + "loss": 0.2243373543024063, + "step": 4837 + }, + { + "grad_norm": 0.28145157156838235, + "loss": 0.27864229679107666, + "step": 4838 + }, + { + "grad_norm": 0.20437661589985454, + "loss": 0.24076469242572784, + "step": 4839 + }, + { + "epoch": 1.5488, + "grad_norm": 0.20437662303447723, + "learning_rate": 5.092072759937121e-05, + "loss": 0.2068, + "step": 4840 + }, + { + "grad_norm": 0.2457186016142908, + "loss": 0.17528675496578217, + "step": 4840 + }, + { + "grad_norm": 0.24150943822101106, + "loss": 0.1900312304496765, + "step": 4841 + }, + { + "grad_norm": 0.15871309982709514, + "loss": 0.24517810344696045, + "step": 4842 + }, + { + "grad_norm": 0.10786922833981516, + "loss": 0.1969815492630005, + "step": 4843 + }, + { + "grad_norm": 0.1955765803339378, + "loss": 0.21000760793685913, + "step": 4844 + }, + { + "grad_norm": 0.37997035556909264, + "loss": 0.14483408629894257, + "step": 4845 + }, + { + "grad_norm": 0.315274858999879, + "loss": 0.19828635454177856, + "step": 4846 + }, + { + "grad_norm": 0.2767406229929893, + "loss": 0.1769721508026123, + "step": 4847 + }, + { + "grad_norm": 0.20666340114922713, + "loss": 0.189774751663208, + "step": 4848 + }, + { + "grad_norm": 0.13596778102552126, + "loss": 0.2338627278804779, + "step": 4849 + }, + { + "epoch": 1.552, + "grad_norm": 0.13596777617931366, + "learning_rate": 5.080844374578936e-05, + "loss": 0.1961, + "step": 4850 + }, + { + "grad_norm": 0.2313196390292135, + "loss": 0.1767805814743042, + "step": 4850 + }, + { + "grad_norm": 0.27696044906838924, + "loss": 0.15060321986675262, + "step": 4851 + }, + { + "grad_norm": 0.44948816791275037, + "loss": 0.21696007251739502, + "step": 4852 + }, + { + "grad_norm": 0.1932286959972409, + "loss": 0.2059541642665863, + "step": 4853 + }, + { + "grad_norm": 0.1480466932910685, + "loss": 0.20085638761520386, + "step": 4854 + }, + { + "grad_norm": 0.2817007098856214, + "loss": 0.2471488118171692, + "step": 4855 + }, + { + "grad_norm": 0.24066502047304633, + "loss": 0.1994854211807251, + "step": 4856 + }, + { + "grad_norm": 0.24159393833563533, + "loss": 0.19601359963417053, + "step": 4857 + }, + { + "grad_norm": 0.2830994835441793, + "loss": 0.20014142990112305, + "step": 4858 + }, + { + "grad_norm": 0.14505477057786512, + "loss": 0.24219048023223877, + "step": 4859 + }, + { + "epoch": 1.5552000000000001, + "grad_norm": 0.14505477249622345, + "learning_rate": 5.0696159892207503e-05, + "loss": 0.2036, + "step": 4860 + }, + { + "grad_norm": 0.1269119890484273, + "loss": 0.1641528457403183, + "step": 4860 + }, + { + "grad_norm": 0.4339770284908477, + "loss": 0.21382397413253784, + "step": 4861 + }, + { + "grad_norm": 0.2784533889007984, + "loss": 0.2155287265777588, + "step": 4862 + }, + { + "grad_norm": 0.1894684767871477, + "loss": 0.17720600962638855, + "step": 4863 + }, + { + "grad_norm": 0.10266785070248902, + "loss": 0.14193612337112427, + "step": 4864 + }, + { + "grad_norm": 0.1495153031113137, + "loss": 0.2056238055229187, + "step": 4865 + }, + { + "grad_norm": 0.18039336408152867, + "loss": 0.17072793841362, + "step": 4866 + }, + { + "grad_norm": 0.22536473491488965, + "loss": 0.19520747661590576, + "step": 4867 + }, + { + "grad_norm": 0.23930619965507938, + "loss": 0.15355488657951355, + "step": 4868 + }, + { + "grad_norm": 0.1674296312506113, + "loss": 0.1657830774784088, + "step": 4869 + }, + { + "epoch": 1.5584, + "grad_norm": 0.1674296259880066, + "learning_rate": 5.058387603862564e-05, + "loss": 0.1804, + "step": 4870 + }, + { + "grad_norm": 0.2159019206470191, + "loss": 0.23528355360031128, + "step": 4870 + }, + { + "grad_norm": 0.20342974068588207, + "loss": 0.24312016367912292, + "step": 4871 + }, + { + "grad_norm": 0.1867139567340165, + "loss": 0.16489681601524353, + "step": 4872 + }, + { + "grad_norm": 0.14571805787124084, + "loss": 0.1796015202999115, + "step": 4873 + }, + { + "grad_norm": 0.12627879443913012, + "loss": 0.22374333441257477, + "step": 4874 + }, + { + "grad_norm": 0.49878388173913707, + "loss": 0.16548506915569305, + "step": 4875 + }, + { + "grad_norm": 0.18828637536085707, + "loss": 0.20881298184394836, + "step": 4876 + }, + { + "grad_norm": 0.20291759876978782, + "loss": 0.147877499461174, + "step": 4877 + }, + { + "grad_norm": 0.2400871152429282, + "loss": 0.16640238463878632, + "step": 4878 + }, + { + "grad_norm": 0.09710420979918365, + "loss": 0.1774628758430481, + "step": 4879 + }, + { + "epoch": 1.5615999999999999, + "grad_norm": 0.09710420668125153, + "learning_rate": 5.047159218504379e-05, + "loss": 0.1913, + "step": 4880 + }, + { + "grad_norm": 0.1564476556811399, + "loss": 0.22221457958221436, + "step": 4880 + }, + { + "grad_norm": 0.40493453057659473, + "loss": 0.22519958019256592, + "step": 4881 + }, + { + "grad_norm": 0.1493383928921525, + "loss": 0.1579662263393402, + "step": 4882 + }, + { + "grad_norm": 0.4158287891449641, + "loss": 0.2383866161108017, + "step": 4883 + }, + { + "grad_norm": 0.19926655393717052, + "loss": 0.15544699132442474, + "step": 4884 + }, + { + "grad_norm": 0.2389265795032687, + "loss": 0.18817365169525146, + "step": 4885 + }, + { + "grad_norm": 0.24199520236130687, + "loss": 0.23295047879219055, + "step": 4886 + }, + { + "grad_norm": 0.10018041931235179, + "loss": 0.21055367588996887, + "step": 4887 + }, + { + "grad_norm": 0.25538696724982807, + "loss": 0.1610061526298523, + "step": 4888 + }, + { + "grad_norm": 0.1776712537612184, + "loss": 0.23754790425300598, + "step": 4889 + }, + { + "epoch": 1.5648, + "grad_norm": 0.17767125368118286, + "learning_rate": 5.035930833146194e-05, + "loss": 0.2029, + "step": 4890 + }, + { + "grad_norm": 0.27540995774353855, + "loss": 0.18032699823379517, + "step": 4890 + }, + { + "grad_norm": 0.1825718226024036, + "loss": 0.18987537920475006, + "step": 4891 + }, + { + "grad_norm": 0.22256399033548255, + "loss": 0.1712130904197693, + "step": 4892 + }, + { + "grad_norm": 0.160532493701148, + "loss": 0.19237488508224487, + "step": 4893 + }, + { + "grad_norm": 0.24417830158670933, + "loss": 0.175928995013237, + "step": 4894 + }, + { + "grad_norm": 0.13540785319792714, + "loss": 0.14159344136714935, + "step": 4895 + }, + { + "grad_norm": 0.11799317561925217, + "loss": 0.2003656029701233, + "step": 4896 + }, + { + "grad_norm": 0.29891073291750303, + "loss": 0.26604217290878296, + "step": 4897 + }, + { + "grad_norm": 0.18011523440743007, + "loss": 0.14975178241729736, + "step": 4898 + }, + { + "grad_norm": 0.34811480715215787, + "loss": 0.16791002452373505, + "step": 4899 + }, + { + "epoch": 1.568, + "grad_norm": 0.3481147885322571, + "learning_rate": 5.024702447788008e-05, + "loss": 0.1835, + "step": 4900 + }, + { + "grad_norm": 0.26186358219926675, + "loss": 0.28430822491645813, + "step": 4900 + }, + { + "grad_norm": 0.32776091338878643, + "loss": 0.16922733187675476, + "step": 4901 + }, + { + "grad_norm": 0.1597314169372047, + "loss": 0.16877895593643188, + "step": 4902 + }, + { + "grad_norm": 0.42673772944682725, + "loss": 0.1599051058292389, + "step": 4903 + }, + { + "grad_norm": 0.16340577358052827, + "loss": 0.15772803127765656, + "step": 4904 + }, + { + "grad_norm": 0.18737901107399427, + "loss": 0.17131927609443665, + "step": 4905 + }, + { + "grad_norm": 0.3556114117264168, + "loss": 0.18878725171089172, + "step": 4906 + }, + { + "grad_norm": 0.4579640799918445, + "loss": 0.19973792135715485, + "step": 4907 + }, + { + "grad_norm": 0.3831932011573813, + "loss": 0.19824640452861786, + "step": 4908 + }, + { + "grad_norm": 0.5457571835559172, + "loss": 0.29303428530693054, + "step": 4909 + }, + { + "epoch": 1.5712000000000002, + "grad_norm": 0.5457572340965271, + "learning_rate": 5.013474062429823e-05, + "loss": 0.1991, + "step": 4910 + }, + { + "grad_norm": 0.4029312122107793, + "loss": 0.2356475591659546, + "step": 4910 + }, + { + "grad_norm": 0.1339078270577135, + "loss": 0.19400659203529358, + "step": 4911 + }, + { + "grad_norm": 0.18421523616966928, + "loss": 0.15341520309448242, + "step": 4912 + }, + { + "grad_norm": 0.3802433430569001, + "loss": 0.169331893324852, + "step": 4913 + }, + { + "grad_norm": 0.2542862719853824, + "loss": 0.1773800253868103, + "step": 4914 + }, + { + "grad_norm": 0.3577733322496941, + "loss": 0.1919081211090088, + "step": 4915 + }, + { + "grad_norm": 0.1711628191885054, + "loss": 0.1834920346736908, + "step": 4916 + }, + { + "grad_norm": 0.3075178431744859, + "loss": 0.1746540516614914, + "step": 4917 + }, + { + "grad_norm": 0.16747744633941902, + "loss": 0.18499842286109924, + "step": 4918 + }, + { + "grad_norm": 0.457721810709803, + "loss": 0.2099030464887619, + "step": 4919 + }, + { + "epoch": 1.5744, + "grad_norm": 0.4577218294143677, + "learning_rate": 5.0022456770716374e-05, + "loss": 0.1875, + "step": 4920 + }, + { + "grad_norm": 0.2748364364802573, + "loss": 0.19343259930610657, + "step": 4920 + }, + { + "grad_norm": 0.18496475926487996, + "loss": 0.20595169067382812, + "step": 4921 + }, + { + "grad_norm": 0.13816446894892345, + "loss": 0.14548537135124207, + "step": 4922 + }, + { + "grad_norm": 0.12936661389935733, + "loss": 0.17708702385425568, + "step": 4923 + }, + { + "grad_norm": 0.20609669218943522, + "loss": 0.15442436933517456, + "step": 4924 + }, + { + "grad_norm": 0.20355135091799184, + "loss": 0.2288641631603241, + "step": 4925 + }, + { + "grad_norm": 0.13489655741740558, + "loss": 0.184353306889534, + "step": 4926 + }, + { + "grad_norm": 0.1138417974804126, + "loss": 0.14986486732959747, + "step": 4927 + }, + { + "grad_norm": 0.1308574809035457, + "loss": 0.16884973645210266, + "step": 4928 + }, + { + "grad_norm": 0.2871101002412904, + "loss": 0.1987536996603012, + "step": 4929 + }, + { + "epoch": 1.5776, + "grad_norm": 0.2871100902557373, + "learning_rate": 4.991017291713452e-05, + "loss": 0.1807, + "step": 4930 + }, + { + "grad_norm": 0.139583851210855, + "loss": 0.22038882970809937, + "step": 4930 + }, + { + "grad_norm": 0.23594983852312407, + "loss": 0.15793940424919128, + "step": 4931 + }, + { + "grad_norm": 0.26058282746195266, + "loss": 0.26500260829925537, + "step": 4932 + }, + { + "grad_norm": 0.3214860541795042, + "loss": 0.16974928975105286, + "step": 4933 + }, + { + "grad_norm": 0.13067606760567183, + "loss": 0.17538323998451233, + "step": 4934 + }, + { + "grad_norm": 0.3032501023498937, + "loss": 0.15042716264724731, + "step": 4935 + }, + { + "grad_norm": 0.39940431692103096, + "loss": 0.1683373600244522, + "step": 4936 + }, + { + "grad_norm": 0.15189815079351862, + "loss": 0.21375033259391785, + "step": 4937 + }, + { + "grad_norm": 0.45568187264167503, + "loss": 0.20420841872692108, + "step": 4938 + }, + { + "grad_norm": 0.3030782635740898, + "loss": 0.23224201798439026, + "step": 4939 + }, + { + "epoch": 1.5808, + "grad_norm": 0.3030782639980316, + "learning_rate": 4.979788906355267e-05, + "loss": 0.1957, + "step": 4940 + }, + { + "grad_norm": 0.41572666391622826, + "loss": 0.2076854556798935, + "step": 4940 + }, + { + "grad_norm": 0.2734427733446531, + "loss": 0.1960957646369934, + "step": 4941 + }, + { + "grad_norm": 0.14914760351600878, + "loss": 0.15332730114459991, + "step": 4942 + }, + { + "grad_norm": 0.2010510432210624, + "loss": 0.15945446491241455, + "step": 4943 + }, + { + "grad_norm": 0.2913628902986253, + "loss": 0.15391020476818085, + "step": 4944 + }, + { + "grad_norm": 0.13064575183389315, + "loss": 0.21791380643844604, + "step": 4945 + }, + { + "grad_norm": 0.1406271213574415, + "loss": 0.19674494862556458, + "step": 4946 + }, + { + "grad_norm": 0.384528612831383, + "loss": 0.15543611347675323, + "step": 4947 + }, + { + "grad_norm": 0.31733436296927925, + "loss": 0.19209100306034088, + "step": 4948 + }, + { + "grad_norm": 0.23293675078710147, + "loss": 0.16185827553272247, + "step": 4949 + }, + { + "epoch": 1.584, + "grad_norm": 0.23293675482273102, + "learning_rate": 4.968560520997081e-05, + "loss": 0.1795, + "step": 4950 + }, + { + "grad_norm": 0.39369804880292636, + "loss": 0.18716983497142792, + "step": 4950 + }, + { + "grad_norm": 0.13008363169548914, + "loss": 0.18518976867198944, + "step": 4951 + }, + { + "grad_norm": 0.15599712673486368, + "loss": 0.1738031804561615, + "step": 4952 + }, + { + "grad_norm": 0.224762737188537, + "loss": 0.19470223784446716, + "step": 4953 + }, + { + "grad_norm": 0.21429009040720667, + "loss": 0.16361317038536072, + "step": 4954 + }, + { + "grad_norm": 0.21161194903812333, + "loss": 0.19178631901741028, + "step": 4955 + }, + { + "grad_norm": 0.1888772732696597, + "loss": 0.22122707962989807, + "step": 4956 + }, + { + "grad_norm": 0.300724982990461, + "loss": 0.24397554993629456, + "step": 4957 + }, + { + "grad_norm": 0.2992871254069603, + "loss": 0.21490520238876343, + "step": 4958 + }, + { + "grad_norm": 0.22913801828820043, + "loss": 0.18522916734218597, + "step": 4959 + }, + { + "epoch": 1.5872000000000002, + "grad_norm": 0.22913801670074463, + "learning_rate": 4.957332135638895e-05, + "loss": 0.1962, + "step": 4960 + }, + { + "grad_norm": 0.10703984839493805, + "loss": 0.17892661690711975, + "step": 4960 + }, + { + "grad_norm": 0.3063460385530813, + "loss": 0.20197652280330658, + "step": 4961 + }, + { + "grad_norm": 0.30772589903762015, + "loss": 0.18811923265457153, + "step": 4962 + }, + { + "grad_norm": 0.11388868901375568, + "loss": 0.19320502877235413, + "step": 4963 + }, + { + "grad_norm": 0.24299485506727303, + "loss": 0.1921597719192505, + "step": 4964 + }, + { + "grad_norm": 0.19790629812982077, + "loss": 0.18372756242752075, + "step": 4965 + }, + { + "grad_norm": 0.23532045873245155, + "loss": 0.19768941402435303, + "step": 4966 + }, + { + "grad_norm": 0.1356792459948876, + "loss": 0.20409078896045685, + "step": 4967 + }, + { + "grad_norm": 0.1480524168119696, + "loss": 0.17154499888420105, + "step": 4968 + }, + { + "grad_norm": 0.12194394773204786, + "loss": 0.18252012133598328, + "step": 4969 + }, + { + "epoch": 1.5904, + "grad_norm": 0.12194394320249557, + "learning_rate": 4.94610375028071e-05, + "loss": 0.1894, + "step": 4970 + }, + { + "grad_norm": 0.12465559784245817, + "loss": 0.2047610878944397, + "step": 4970 + }, + { + "grad_norm": 0.33597557636533, + "loss": 0.15782031416893005, + "step": 4971 + }, + { + "grad_norm": 0.24936499544264823, + "loss": 0.1850254088640213, + "step": 4972 + }, + { + "grad_norm": 0.12397398769533974, + "loss": 0.17019689083099365, + "step": 4973 + }, + { + "grad_norm": 0.2624502878198692, + "loss": 0.20184443891048431, + "step": 4974 + }, + { + "grad_norm": 0.21882012465070455, + "loss": 0.1810595691204071, + "step": 4975 + }, + { + "grad_norm": 0.10043610431544882, + "loss": 0.1497361809015274, + "step": 4976 + }, + { + "grad_norm": 0.21994103529481676, + "loss": 0.21870630979537964, + "step": 4977 + }, + { + "grad_norm": 0.2543103638630133, + "loss": 0.20078404247760773, + "step": 4978 + }, + { + "grad_norm": 0.4666114115568711, + "loss": 0.2621450424194336, + "step": 4979 + }, + { + "epoch": 1.5936, + "grad_norm": 0.46661141514778137, + "learning_rate": 4.9348753649225244e-05, + "loss": 0.1932, + "step": 4980 + }, + { + "grad_norm": 0.28469013121625825, + "loss": 0.16023017466068268, + "step": 4980 + }, + { + "grad_norm": 0.1926159721464839, + "loss": 0.3121866285800934, + "step": 4981 + }, + { + "grad_norm": 0.3588407234407325, + "loss": 0.1975593864917755, + "step": 4982 + }, + { + "grad_norm": 0.18445921010465868, + "loss": 0.18899860978126526, + "step": 4983 + }, + { + "grad_norm": 0.4367422678467932, + "loss": 0.17264434695243835, + "step": 4984 + }, + { + "grad_norm": 0.1083784145829302, + "loss": 0.2389572709798813, + "step": 4985 + }, + { + "grad_norm": 0.23938272787305, + "loss": 0.18590675294399261, + "step": 4986 + }, + { + "grad_norm": 0.3038930318267758, + "loss": 0.17727476358413696, + "step": 4987 + }, + { + "grad_norm": 0.14470289537266484, + "loss": 0.19498102366924286, + "step": 4988 + }, + { + "grad_norm": 0.45983538032321863, + "loss": 0.19634708762168884, + "step": 4989 + }, + { + "epoch": 1.5968, + "grad_norm": 0.45983535051345825, + "learning_rate": 4.923646979564339e-05, + "loss": 0.2025, + "step": 4990 + }, + { + "grad_norm": 0.19454811080471973, + "loss": 0.1812877506017685, + "step": 4990 + }, + { + "grad_norm": 0.1288123447406553, + "loss": 0.15110310912132263, + "step": 4991 + }, + { + "grad_norm": 0.08634138704622724, + "loss": 0.1681119203567505, + "step": 4992 + }, + { + "grad_norm": 0.2477222551291247, + "loss": 0.2046501487493515, + "step": 4993 + }, + { + "grad_norm": 0.30324437582122876, + "loss": 0.21786220371723175, + "step": 4994 + }, + { + "grad_norm": 0.2747060283860766, + "loss": 0.1717618852853775, + "step": 4995 + }, + { + "grad_norm": 0.15003933321335436, + "loss": 0.1622423380613327, + "step": 4996 + }, + { + "grad_norm": 0.36303975842305736, + "loss": 0.23198479413986206, + "step": 4997 + }, + { + "grad_norm": 0.30098818113179826, + "loss": 0.15921372175216675, + "step": 4998 + }, + { + "grad_norm": 0.15152079375258085, + "loss": 0.17054253816604614, + "step": 4999 + }, + { + "epoch": 1.6, + "grad_norm": 0.15152078866958618, + "learning_rate": 4.912418594206153e-05, + "loss": 0.1819, + "step": 5000 + }, + { + "grad_norm": 0.14798087130848403, + "loss": 0.19461867213249207, + "step": 5000 + }, + { + "grad_norm": 0.25334519150099405, + "loss": 0.2301044762134552, + "step": 5001 + }, + { + "grad_norm": 0.4029983318406261, + "loss": 0.28921446204185486, + "step": 5002 + }, + { + "grad_norm": 0.3671833389974928, + "loss": 0.24433228373527527, + "step": 5003 + }, + { + "grad_norm": 0.3355866866735171, + "loss": 0.178690105676651, + "step": 5004 + }, + { + "grad_norm": 0.1266410330212726, + "loss": 0.1638467013835907, + "step": 5005 + }, + { + "grad_norm": 0.26845347513450246, + "loss": 0.19414234161376953, + "step": 5006 + }, + { + "grad_norm": 0.13786976649498217, + "loss": 0.1975402534008026, + "step": 5007 + }, + { + "grad_norm": 0.12772536263312312, + "loss": 0.18586425483226776, + "step": 5008 + }, + { + "grad_norm": 0.39475182284085886, + "loss": 0.20414650440216064, + "step": 5009 + }, + { + "epoch": 1.6032, + "grad_norm": 0.39475178718566895, + "learning_rate": 4.9011902088479676e-05, + "loss": 0.2082, + "step": 5010 + }, + { + "grad_norm": 0.19866250578822414, + "loss": 0.18503232300281525, + "step": 5010 + }, + { + "grad_norm": 0.39079611349728677, + "loss": 0.1652393937110901, + "step": 5011 + }, + { + "grad_norm": 0.13216828003007508, + "loss": 0.18267270922660828, + "step": 5012 + }, + { + "grad_norm": 0.11709297556120705, + "loss": 0.22003383934497833, + "step": 5013 + }, + { + "grad_norm": 0.12352031849035842, + "loss": 0.18808522820472717, + "step": 5014 + }, + { + "grad_norm": 0.2084638321038121, + "loss": 0.2563113272190094, + "step": 5015 + }, + { + "grad_norm": 0.1812856722982369, + "loss": 0.20916777849197388, + "step": 5016 + }, + { + "grad_norm": 0.2022835182465603, + "loss": 0.19007965922355652, + "step": 5017 + }, + { + "grad_norm": 0.24732679791266438, + "loss": 0.18500030040740967, + "step": 5018 + }, + { + "grad_norm": 0.21548931650158146, + "loss": 0.1621527224779129, + "step": 5019 + }, + { + "epoch": 1.6064, + "grad_norm": 0.21548931300640106, + "learning_rate": 4.8899618234897826e-05, + "loss": 0.1944, + "step": 5020 + }, + { + "grad_norm": 0.11174629795801873, + "loss": 0.17963819205760956, + "step": 5020 + }, + { + "grad_norm": 0.20926549580504344, + "loss": 0.1484423726797104, + "step": 5021 + }, + { + "grad_norm": 0.21315806294772885, + "loss": 0.16761496663093567, + "step": 5022 + }, + { + "grad_norm": 0.3109322266507223, + "loss": 0.19253391027450562, + "step": 5023 + }, + { + "grad_norm": 0.14669310182909034, + "loss": 0.15074947476387024, + "step": 5024 + }, + { + "grad_norm": 0.2534603803080755, + "loss": 0.1759561002254486, + "step": 5025 + }, + { + "grad_norm": 0.22857659759649981, + "loss": 0.2724112868309021, + "step": 5026 + }, + { + "grad_norm": 0.12447623646212311, + "loss": 0.18599939346313477, + "step": 5027 + }, + { + "grad_norm": 0.1505620152948152, + "loss": 0.18232376873493195, + "step": 5028 + }, + { + "grad_norm": 0.11637167989457292, + "loss": 0.1710239052772522, + "step": 5029 + }, + { + "epoch": 1.6096, + "grad_norm": 0.11637167632579803, + "learning_rate": 4.878733438131597e-05, + "loss": 0.1827, + "step": 5030 + }, + { + "grad_norm": 0.19940113093022901, + "loss": 0.15835405886173248, + "step": 5030 + }, + { + "grad_norm": 0.10743419177234478, + "loss": 0.1978158950805664, + "step": 5031 + }, + { + "grad_norm": 0.25488801160075025, + "loss": 0.17206069827079773, + "step": 5032 + }, + { + "grad_norm": 0.12562473038623848, + "loss": 0.19281283020973206, + "step": 5033 + }, + { + "grad_norm": 0.2005508521002515, + "loss": 0.1881602704524994, + "step": 5034 + }, + { + "grad_norm": 0.2978781085852308, + "loss": 0.17819853127002716, + "step": 5035 + }, + { + "grad_norm": 0.18938066891969035, + "loss": 0.19321146607398987, + "step": 5036 + }, + { + "grad_norm": 0.1667666925782781, + "loss": 0.18164366483688354, + "step": 5037 + }, + { + "grad_norm": 0.25475358608440807, + "loss": 0.1790647953748703, + "step": 5038 + }, + { + "grad_norm": 0.27838516012026565, + "loss": 0.23849092423915863, + "step": 5039 + }, + { + "epoch": 1.6128, + "grad_norm": 0.27838513255119324, + "learning_rate": 4.8675050527734114e-05, + "loss": 0.188, + "step": 5040 + }, + { + "grad_norm": 0.24898726841272883, + "loss": 0.1536582112312317, + "step": 5040 + }, + { + "grad_norm": 0.09833373771679403, + "loss": 0.16454057395458221, + "step": 5041 + }, + { + "grad_norm": 0.22822470547339957, + "loss": 0.15707187354564667, + "step": 5042 + }, + { + "grad_norm": 0.258751774805745, + "loss": 0.20801810920238495, + "step": 5043 + }, + { + "grad_norm": 0.12540334232115938, + "loss": 0.1700618863105774, + "step": 5044 + }, + { + "grad_norm": 0.1596600462415553, + "loss": 0.16117611527442932, + "step": 5045 + }, + { + "grad_norm": 0.17155448116479696, + "loss": 0.19490095973014832, + "step": 5046 + }, + { + "grad_norm": 0.45172305968040344, + "loss": 0.25266033411026, + "step": 5047 + }, + { + "grad_norm": 0.07519128738397361, + "loss": 0.16864684224128723, + "step": 5048 + }, + { + "grad_norm": 0.2317972896383628, + "loss": 0.15777269005775452, + "step": 5049 + }, + { + "epoch": 1.616, + "grad_norm": 0.23179729282855988, + "learning_rate": 4.856276667415226e-05, + "loss": 0.1789, + "step": 5050 + }, + { + "grad_norm": 0.22165668054643797, + "loss": 0.24011032283306122, + "step": 5050 + }, + { + "grad_norm": 0.5412890422244429, + "loss": 0.24687844514846802, + "step": 5051 + }, + { + "grad_norm": 0.153571457217074, + "loss": 0.22304469347000122, + "step": 5052 + }, + { + "grad_norm": 0.11971912436389948, + "loss": 0.18926562368869781, + "step": 5053 + }, + { + "grad_norm": 0.31728467875459243, + "loss": 0.15020903944969177, + "step": 5054 + }, + { + "grad_norm": 0.11697301137743066, + "loss": 0.16248741745948792, + "step": 5055 + }, + { + "grad_norm": 0.12385923250555865, + "loss": 0.18289899826049805, + "step": 5056 + }, + { + "grad_norm": 0.2266166623470619, + "loss": 0.21229161322116852, + "step": 5057 + }, + { + "grad_norm": 0.14473053052689164, + "loss": 0.18891380727291107, + "step": 5058 + }, + { + "grad_norm": 0.22427043497726468, + "loss": 0.18128462135791779, + "step": 5059 + }, + { + "epoch": 1.6192, + "grad_norm": 0.22427043318748474, + "learning_rate": 4.84504828205704e-05, + "loss": 0.1977, + "step": 5060 + }, + { + "grad_norm": 0.17356918865371623, + "loss": 0.17252406477928162, + "step": 5060 + }, + { + "grad_norm": 0.24816892242144217, + "loss": 0.15750327706336975, + "step": 5061 + }, + { + "grad_norm": 0.4902290727664722, + "loss": 0.1603952795267105, + "step": 5062 + }, + { + "grad_norm": 0.16456727497575815, + "loss": 0.19781963527202606, + "step": 5063 + }, + { + "grad_norm": 0.10322420128539431, + "loss": 0.1637755036354065, + "step": 5064 + }, + { + "grad_norm": 0.1457812090358731, + "loss": 0.24750599265098572, + "step": 5065 + }, + { + "grad_norm": 0.3114830626467556, + "loss": 0.15945497155189514, + "step": 5066 + }, + { + "grad_norm": 0.4108931720053902, + "loss": 0.2301979809999466, + "step": 5067 + }, + { + "grad_norm": 0.29670217404957144, + "loss": 0.1760445237159729, + "step": 5068 + }, + { + "grad_norm": 0.36368922786306945, + "loss": 0.22683444619178772, + "step": 5069 + }, + { + "epoch": 1.6223999999999998, + "grad_norm": 0.36368921399116516, + "learning_rate": 4.833819896698855e-05, + "loss": 0.1892, + "step": 5070 + }, + { + "grad_norm": 0.3357433878585334, + "loss": 0.20260363817214966, + "step": 5070 + }, + { + "grad_norm": 0.2199636121280506, + "loss": 0.13703572750091553, + "step": 5071 + }, + { + "grad_norm": 0.17455457630471707, + "loss": 0.2488209307193756, + "step": 5072 + }, + { + "grad_norm": 0.44515312807620877, + "loss": 0.1720297485589981, + "step": 5073 + }, + { + "grad_norm": 0.6213213028502097, + "loss": 0.260578453540802, + "step": 5074 + }, + { + "grad_norm": 0.09799396724592432, + "loss": 0.17833822965621948, + "step": 5075 + }, + { + "grad_norm": 0.24494547858414986, + "loss": 0.16903816163539886, + "step": 5076 + }, + { + "grad_norm": 0.28288965342642103, + "loss": 0.16861967742443085, + "step": 5077 + }, + { + "grad_norm": 0.1237133939596205, + "loss": 0.17305129766464233, + "step": 5078 + }, + { + "grad_norm": 0.11292036159041474, + "loss": 0.21276402473449707, + "step": 5079 + }, + { + "epoch": 1.6256, + "grad_norm": 0.1129203587770462, + "learning_rate": 4.8225915113406696e-05, + "loss": 0.1923, + "step": 5080 + }, + { + "grad_norm": 0.1693402674882934, + "loss": 0.1877497136592865, + "step": 5080 + }, + { + "grad_norm": 0.14159154708765567, + "loss": 0.16545476019382477, + "step": 5081 + }, + { + "grad_norm": 0.20610005261216977, + "loss": 0.18519088625907898, + "step": 5082 + }, + { + "grad_norm": 0.15301572206043765, + "loss": 0.1530313640832901, + "step": 5083 + }, + { + "grad_norm": 0.21102112650175686, + "loss": 0.14003416895866394, + "step": 5084 + }, + { + "grad_norm": 0.1381481547420253, + "loss": 0.1773618459701538, + "step": 5085 + }, + { + "grad_norm": 0.2355961660072738, + "loss": 0.18595734238624573, + "step": 5086 + }, + { + "grad_norm": 0.16634954923675585, + "loss": 0.17849400639533997, + "step": 5087 + }, + { + "grad_norm": 0.334956859068984, + "loss": 0.23710894584655762, + "step": 5088 + }, + { + "grad_norm": 0.14689410246138934, + "loss": 0.1444482058286667, + "step": 5089 + }, + { + "epoch": 1.6288, + "grad_norm": 0.14689409732818604, + "learning_rate": 4.811363125982484e-05, + "loss": 0.1755, + "step": 5090 + }, + { + "grad_norm": 0.15522333027479968, + "loss": 0.16588440537452698, + "step": 5090 + }, + { + "grad_norm": 0.23710709613430053, + "loss": 0.17141513526439667, + "step": 5091 + }, + { + "grad_norm": 0.10004403750159188, + "loss": 0.14346060156822205, + "step": 5092 + }, + { + "grad_norm": 0.20609035690922053, + "loss": 0.19355742633342743, + "step": 5093 + }, + { + "grad_norm": 0.11081364986620322, + "loss": 0.15655279159545898, + "step": 5094 + }, + { + "grad_norm": 0.15484143698401226, + "loss": 0.1749831736087799, + "step": 5095 + }, + { + "grad_norm": 0.11748691787936637, + "loss": 0.17484301328659058, + "step": 5096 + }, + { + "grad_norm": 0.3600785091386926, + "loss": 0.16781210899353027, + "step": 5097 + }, + { + "grad_norm": 0.24305155627761663, + "loss": 0.16184881329536438, + "step": 5098 + }, + { + "grad_norm": 0.1622040107273972, + "loss": 0.2505357265472412, + "step": 5099 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 0.16220401227474213, + "learning_rate": 4.8001347406242984e-05, + "loss": 0.1761, + "step": 5100 + }, + { + "grad_norm": 0.18468155972096453, + "loss": 0.24503272771835327, + "step": 5100 + }, + { + "grad_norm": 0.19998382841454673, + "loss": 0.18157732486724854, + "step": 5101 + }, + { + "grad_norm": 0.4300147789714556, + "loss": 0.23715950548648834, + "step": 5102 + }, + { + "grad_norm": 0.21414842979591323, + "loss": 0.1866462081670761, + "step": 5103 + }, + { + "grad_norm": 0.3953386484168675, + "loss": 0.1963547021150589, + "step": 5104 + }, + { + "grad_norm": 0.49596439427345534, + "loss": 0.19916480779647827, + "step": 5105 + }, + { + "grad_norm": 0.16385257559947697, + "loss": 0.22074826061725616, + "step": 5106 + }, + { + "grad_norm": 0.33014997502929555, + "loss": 0.19523099064826965, + "step": 5107 + }, + { + "grad_norm": 0.2812380686832525, + "loss": 0.18748095631599426, + "step": 5108 + }, + { + "grad_norm": 0.3488210179009649, + "loss": 0.20382219552993774, + "step": 5109 + }, + { + "epoch": 1.6352, + "grad_norm": 0.3488210141658783, + "learning_rate": 4.788906355266113e-05, + "loss": 0.2053, + "step": 5110 + }, + { + "grad_norm": 0.2848053750873031, + "loss": 0.182613804936409, + "step": 5110 + }, + { + "grad_norm": 0.17040754870496366, + "loss": 0.17559097707271576, + "step": 5111 + }, + { + "grad_norm": 0.13027409558969016, + "loss": 0.18183428049087524, + "step": 5112 + }, + { + "grad_norm": 0.09775322670037441, + "loss": 0.1516447514295578, + "step": 5113 + }, + { + "grad_norm": 0.1578272246950102, + "loss": 0.17916186153888702, + "step": 5114 + }, + { + "grad_norm": 0.28252890115276613, + "loss": 0.15796515345573425, + "step": 5115 + }, + { + "grad_norm": 0.18867296229741695, + "loss": 0.19789673388004303, + "step": 5116 + }, + { + "grad_norm": 0.13450001537880713, + "loss": 0.1511746495962143, + "step": 5117 + }, + { + "grad_norm": 0.14335012187082918, + "loss": 0.17332839965820312, + "step": 5118 + }, + { + "grad_norm": 0.37989167741805274, + "loss": 0.18204066157341003, + "step": 5119 + }, + { + "epoch": 1.6383999999999999, + "grad_norm": 0.37989169359207153, + "learning_rate": 4.777677969907928e-05, + "loss": 0.1733, + "step": 5120 + }, + { + "grad_norm": 0.2805007084117153, + "loss": 0.19903650879859924, + "step": 5120 + }, + { + "grad_norm": 0.18570101394113692, + "loss": 0.19121184945106506, + "step": 5121 + }, + { + "grad_norm": 0.156552232694183, + "loss": 0.15609249472618103, + "step": 5122 + }, + { + "grad_norm": 0.1957152009925337, + "loss": 0.19220449030399323, + "step": 5123 + }, + { + "grad_norm": 0.41277559001833813, + "loss": 0.24809333682060242, + "step": 5124 + }, + { + "grad_norm": 0.22988418686176681, + "loss": 0.20719198882579803, + "step": 5125 + }, + { + "grad_norm": 0.4020326219617044, + "loss": 0.16361969709396362, + "step": 5126 + }, + { + "grad_norm": 0.22237591937407578, + "loss": 0.21746815741062164, + "step": 5127 + }, + { + "grad_norm": 0.22347857857875486, + "loss": 0.18772287666797638, + "step": 5128 + }, + { + "grad_norm": 0.19538883932478185, + "loss": 0.20537184178829193, + "step": 5129 + }, + { + "epoch": 1.6416, + "grad_norm": 0.19538883864879608, + "learning_rate": 4.766449584549742e-05, + "loss": 0.1968, + "step": 5130 + }, + { + "grad_norm": 0.3175381497124266, + "loss": 0.27916792035102844, + "step": 5130 + }, + { + "grad_norm": 0.30856009080564667, + "loss": 0.2592441141605377, + "step": 5131 + }, + { + "grad_norm": 0.15920673214766132, + "loss": 0.19987329840660095, + "step": 5132 + }, + { + "grad_norm": 0.44829783743333496, + "loss": 0.3039039373397827, + "step": 5133 + }, + { + "grad_norm": 0.13468607407458558, + "loss": 0.20300832390785217, + "step": 5134 + }, + { + "grad_norm": 0.14820512618112816, + "loss": 0.19812020659446716, + "step": 5135 + }, + { + "grad_norm": 0.08985684537964156, + "loss": 0.15476085245609283, + "step": 5136 + }, + { + "grad_norm": 0.34890981507931995, + "loss": 0.21177075803279877, + "step": 5137 + }, + { + "grad_norm": 0.46868153595608436, + "loss": 0.19274446368217468, + "step": 5138 + }, + { + "grad_norm": 0.3875751570690119, + "loss": 0.15601414442062378, + "step": 5139 + }, + { + "epoch": 1.6448, + "grad_norm": 0.3875751793384552, + "learning_rate": 4.755221199191556e-05, + "loss": 0.2159, + "step": 5140 + }, + { + "grad_norm": 0.2844198178879796, + "loss": 0.18316946923732758, + "step": 5140 + }, + { + "grad_norm": 0.1100986239313557, + "loss": 0.1812853068113327, + "step": 5141 + }, + { + "grad_norm": 0.10392983512781268, + "loss": 0.1668531596660614, + "step": 5142 + }, + { + "grad_norm": 0.2908909740902161, + "loss": 0.25749558210372925, + "step": 5143 + }, + { + "grad_norm": 0.2433355593252316, + "loss": 0.15873056650161743, + "step": 5144 + }, + { + "grad_norm": 0.30243894006513344, + "loss": 0.21866744756698608, + "step": 5145 + }, + { + "grad_norm": 0.11907099519039242, + "loss": 0.18622276186943054, + "step": 5146 + }, + { + "grad_norm": 0.26885029421091033, + "loss": 0.18239569664001465, + "step": 5147 + }, + { + "grad_norm": 0.4708704081823112, + "loss": 0.22030016779899597, + "step": 5148 + }, + { + "grad_norm": 0.3166081058233401, + "loss": 0.21941053867340088, + "step": 5149 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 0.31660810112953186, + "learning_rate": 4.743992813833371e-05, + "loss": 0.1975, + "step": 5150 + }, + { + "grad_norm": 0.42532593979555705, + "loss": 0.2595933973789215, + "step": 5150 + }, + { + "grad_norm": 0.4136409888821391, + "loss": 0.23177608847618103, + "step": 5151 + }, + { + "grad_norm": 0.4123597269621971, + "loss": 0.177633136510849, + "step": 5152 + }, + { + "grad_norm": 0.11141210398390174, + "loss": 0.21281085908412933, + "step": 5153 + }, + { + "grad_norm": 0.39873799783988095, + "loss": 0.19137294590473175, + "step": 5154 + }, + { + "grad_norm": 0.22115942404549718, + "loss": 0.22711509466171265, + "step": 5155 + }, + { + "grad_norm": 0.14514127849229075, + "loss": 0.19215130805969238, + "step": 5156 + }, + { + "grad_norm": 0.23268237133540964, + "loss": 0.22224333882331848, + "step": 5157 + }, + { + "grad_norm": 0.2627775899461364, + "loss": 0.18456868827342987, + "step": 5158 + }, + { + "grad_norm": 0.1701659502386084, + "loss": 0.3203538656234741, + "step": 5159 + }, + { + "epoch": 1.6512, + "grad_norm": 0.17016595602035522, + "learning_rate": 4.7327644284751854e-05, + "loss": 0.222, + "step": 5160 + }, + { + "grad_norm": 0.2955492708237049, + "loss": 0.21557198464870453, + "step": 5160 + }, + { + "grad_norm": 0.28000653008217785, + "loss": 0.1656869351863861, + "step": 5161 + }, + { + "grad_norm": 0.1963827887713359, + "loss": 0.16731636226177216, + "step": 5162 + }, + { + "grad_norm": 0.16743711676566922, + "loss": 0.22237621247768402, + "step": 5163 + }, + { + "grad_norm": 0.3240266102239321, + "loss": 0.13586297631263733, + "step": 5164 + }, + { + "grad_norm": 0.08940800142524945, + "loss": 0.18518730998039246, + "step": 5165 + }, + { + "grad_norm": 0.11572294093184748, + "loss": 0.17831620573997498, + "step": 5166 + }, + { + "grad_norm": 0.1876787945883351, + "loss": 0.17027175426483154, + "step": 5167 + }, + { + "grad_norm": 0.21368534095045072, + "loss": 0.17660409212112427, + "step": 5168 + }, + { + "grad_norm": 0.23723350814021205, + "loss": 0.18329380452632904, + "step": 5169 + }, + { + "epoch": 1.6543999999999999, + "grad_norm": 0.23723351955413818, + "learning_rate": 4.7215360431170005e-05, + "loss": 0.18, + "step": 5170 + }, + { + "grad_norm": 0.18774324408855012, + "loss": 0.1975325345993042, + "step": 5170 + }, + { + "grad_norm": 0.1523259643409786, + "loss": 0.16829289495944977, + "step": 5171 + }, + { + "grad_norm": 0.11246017740879011, + "loss": 0.1810639351606369, + "step": 5172 + }, + { + "grad_norm": 0.11235595601175798, + "loss": 0.16715970635414124, + "step": 5173 + }, + { + "grad_norm": 0.09347051034342925, + "loss": 0.1637270301580429, + "step": 5174 + }, + { + "grad_norm": 0.14552385453344968, + "loss": 0.18305566906929016, + "step": 5175 + }, + { + "grad_norm": 0.09648992732897022, + "loss": 0.1749456226825714, + "step": 5176 + }, + { + "grad_norm": 0.15251752774802446, + "loss": 0.14929504692554474, + "step": 5177 + }, + { + "grad_norm": 0.25905552829719786, + "loss": 0.1878449022769928, + "step": 5178 + }, + { + "grad_norm": 0.17057046297421422, + "loss": 0.2035464197397232, + "step": 5179 + }, + { + "epoch": 1.6576, + "grad_norm": 0.1705704629421234, + "learning_rate": 4.710307657758814e-05, + "loss": 0.1776, + "step": 5180 + }, + { + "grad_norm": 0.15723361257060073, + "loss": 0.1914723515510559, + "step": 5180 + }, + { + "grad_norm": 0.13751544382189473, + "loss": 0.1934392750263214, + "step": 5181 + }, + { + "grad_norm": 0.12850022420794877, + "loss": 0.21042391657829285, + "step": 5182 + }, + { + "grad_norm": 0.11249233533070402, + "loss": 0.19398745894432068, + "step": 5183 + }, + { + "grad_norm": 0.10894189395676136, + "loss": 0.16114093363285065, + "step": 5184 + }, + { + "grad_norm": 0.15090321929422326, + "loss": 0.21178798377513885, + "step": 5185 + }, + { + "grad_norm": 0.08762684478304857, + "loss": 0.1914231777191162, + "step": 5186 + }, + { + "grad_norm": 0.2704600069124533, + "loss": 0.15267324447631836, + "step": 5187 + }, + { + "grad_norm": 0.4644170158397556, + "loss": 0.1825098991394043, + "step": 5188 + }, + { + "grad_norm": 0.1775466051113282, + "loss": 0.20336484909057617, + "step": 5189 + }, + { + "epoch": 1.6608, + "grad_norm": 0.17754660546779633, + "learning_rate": 4.6990792724006286e-05, + "loss": 0.1892, + "step": 5190 + }, + { + "grad_norm": 0.31479403920922794, + "loss": 0.19577407836914062, + "step": 5190 + }, + { + "grad_norm": 0.18585175838366502, + "loss": 0.1525692343711853, + "step": 5191 + }, + { + "grad_norm": 0.3106281603601328, + "loss": 0.1881450116634369, + "step": 5192 + }, + { + "grad_norm": 0.15872262643044205, + "loss": 0.22131530940532684, + "step": 5193 + }, + { + "grad_norm": 0.2269191112112369, + "loss": 0.21466650068759918, + "step": 5194 + }, + { + "grad_norm": 0.29921527117413815, + "loss": 0.21877966821193695, + "step": 5195 + }, + { + "grad_norm": 0.18932659028568433, + "loss": 0.15882326662540436, + "step": 5196 + }, + { + "grad_norm": 0.36159005258674726, + "loss": 0.16661199927330017, + "step": 5197 + }, + { + "grad_norm": 0.10684178241041012, + "loss": 0.15964871644973755, + "step": 5198 + }, + { + "grad_norm": 0.1274970536435205, + "loss": 0.21647480130195618, + "step": 5199 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 0.12749704718589783, + "learning_rate": 4.687850887042444e-05, + "loss": 0.1893, + "step": 5200 + }, + { + "grad_norm": 0.09802081270406582, + "loss": 0.1815788447856903, + "step": 5200 + }, + { + "grad_norm": 0.18172561125483172, + "loss": 0.17848259210586548, + "step": 5201 + }, + { + "grad_norm": 0.51630339526416, + "loss": 0.24749398231506348, + "step": 5202 + }, + { + "grad_norm": 0.26742525404358836, + "loss": 0.1447831392288208, + "step": 5203 + }, + { + "grad_norm": 0.10434254066884104, + "loss": 0.1759101301431656, + "step": 5204 + }, + { + "grad_norm": 0.1440742926778418, + "loss": 0.1684582531452179, + "step": 5205 + }, + { + "grad_norm": 0.12445048218742602, + "loss": 0.1788099855184555, + "step": 5206 + }, + { + "grad_norm": 0.12750787322983403, + "loss": 0.20547768473625183, + "step": 5207 + }, + { + "grad_norm": 0.26497652764383667, + "loss": 0.206841379404068, + "step": 5208 + }, + { + "grad_norm": 0.16113696698223928, + "loss": 0.22216284275054932, + "step": 5209 + }, + { + "epoch": 1.6672, + "grad_norm": 0.1611369550228119, + "learning_rate": 4.676622501684258e-05, + "loss": 0.191, + "step": 5210 + }, + { + "grad_norm": 0.09976244988586287, + "loss": 0.18492469191551208, + "step": 5210 + }, + { + "grad_norm": 0.20217122856060682, + "loss": 0.18233688175678253, + "step": 5211 + }, + { + "grad_norm": 0.1726659239859128, + "loss": 0.18464131653308868, + "step": 5212 + }, + { + "grad_norm": 0.2634839123756483, + "loss": 0.18112176656723022, + "step": 5213 + }, + { + "grad_norm": 0.2243848416602503, + "loss": 0.16984888911247253, + "step": 5214 + }, + { + "grad_norm": 0.3471641745002875, + "loss": 0.1774166226387024, + "step": 5215 + }, + { + "grad_norm": 0.18619877831624912, + "loss": 0.1688099205493927, + "step": 5216 + }, + { + "grad_norm": 0.20288440103035033, + "loss": 0.1524832546710968, + "step": 5217 + }, + { + "grad_norm": 0.20152009696288428, + "loss": 0.21430476009845734, + "step": 5218 + }, + { + "grad_norm": 0.11559612683231306, + "loss": 0.20612163841724396, + "step": 5219 + }, + { + "epoch": 1.6703999999999999, + "grad_norm": 0.11559612303972244, + "learning_rate": 4.6653941163260725e-05, + "loss": 0.1822, + "step": 5220 + }, + { + "grad_norm": 0.147532112255185, + "loss": 0.20575925707817078, + "step": 5220 + }, + { + "grad_norm": 0.31868688730577793, + "loss": 0.22385181486606598, + "step": 5221 + }, + { + "grad_norm": 0.3996641103754423, + "loss": 0.24399662017822266, + "step": 5222 + }, + { + "grad_norm": 0.13765796853407727, + "loss": 0.17325235903263092, + "step": 5223 + }, + { + "grad_norm": 0.18469887469417062, + "loss": 0.22238954901695251, + "step": 5224 + }, + { + "grad_norm": 0.2769126315053109, + "loss": 0.2259889841079712, + "step": 5225 + }, + { + "grad_norm": 0.3423872129883171, + "loss": 0.1588687300682068, + "step": 5226 + }, + { + "grad_norm": 0.2803474509928568, + "loss": 0.17002137005329132, + "step": 5227 + }, + { + "grad_norm": 0.2603850383334026, + "loss": 0.18512560427188873, + "step": 5228 + }, + { + "grad_norm": 0.1037622698436726, + "loss": 0.1769799292087555, + "step": 5229 + }, + { + "epoch": 1.6736, + "grad_norm": 0.10376226902008057, + "learning_rate": 4.654165730967887e-05, + "loss": 0.1986, + "step": 5230 + }, + { + "grad_norm": 0.17533564094191775, + "loss": 0.17038658261299133, + "step": 5230 + }, + { + "grad_norm": 0.17667005247171036, + "loss": 0.25726523995399475, + "step": 5231 + }, + { + "grad_norm": 0.15863576367681062, + "loss": 0.2151145339012146, + "step": 5232 + }, + { + "grad_norm": 0.13500978663752883, + "loss": 0.18553075194358826, + "step": 5233 + }, + { + "grad_norm": 0.09701341784536512, + "loss": 0.17412589490413666, + "step": 5234 + }, + { + "grad_norm": 0.23441635351114418, + "loss": 0.2390943318605423, + "step": 5235 + }, + { + "grad_norm": 0.16529208447524776, + "loss": 0.1804993748664856, + "step": 5236 + }, + { + "grad_norm": 0.14312242359621033, + "loss": 0.2519144117832184, + "step": 5237 + }, + { + "grad_norm": 0.441921053136725, + "loss": 0.26190799474716187, + "step": 5238 + }, + { + "grad_norm": 0.356616121274048, + "loss": 0.24880142509937286, + "step": 5239 + }, + { + "epoch": 1.6768, + "grad_norm": 0.35661613941192627, + "learning_rate": 4.642937345609701e-05, + "loss": 0.2185, + "step": 5240 + }, + { + "grad_norm": 0.1385392757627859, + "loss": 0.26774680614471436, + "step": 5240 + }, + { + "grad_norm": 0.3227978677212618, + "loss": 0.1704469472169876, + "step": 5241 + }, + { + "grad_norm": 0.19133466482731662, + "loss": 0.17287316918373108, + "step": 5242 + }, + { + "grad_norm": 0.19298551723251095, + "loss": 0.27365589141845703, + "step": 5243 + }, + { + "grad_norm": 0.4640985649975994, + "loss": 0.17963193356990814, + "step": 5244 + }, + { + "grad_norm": 0.13755870638074252, + "loss": 0.16645491123199463, + "step": 5245 + }, + { + "grad_norm": 0.12538654586177528, + "loss": 0.18503206968307495, + "step": 5246 + }, + { + "grad_norm": 0.1965011004527742, + "loss": 0.2387029230594635, + "step": 5247 + }, + { + "grad_norm": 0.3808676648204522, + "loss": 0.27081921696662903, + "step": 5248 + }, + { + "grad_norm": 0.2742044905339123, + "loss": 0.26016488671302795, + "step": 5249 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 0.2742044925689697, + "learning_rate": 4.631708960251516e-05, + "loss": 0.2186, + "step": 5250 + }, + { + "grad_norm": 0.25421400073429745, + "loss": 0.20793867111206055, + "step": 5250 + }, + { + "grad_norm": 0.17030999371977232, + "loss": 0.17760667204856873, + "step": 5251 + }, + { + "grad_norm": 0.17070443113109748, + "loss": 0.1915290653705597, + "step": 5252 + }, + { + "grad_norm": 0.46769362938261616, + "loss": 0.2840735614299774, + "step": 5253 + }, + { + "grad_norm": 0.18569979112311832, + "loss": 0.22254067659378052, + "step": 5254 + }, + { + "grad_norm": 0.1640307352085305, + "loss": 0.17626506090164185, + "step": 5255 + }, + { + "grad_norm": 0.23791433820030758, + "loss": 0.21746619045734406, + "step": 5256 + }, + { + "grad_norm": 0.419174381560075, + "loss": 0.19247758388519287, + "step": 5257 + }, + { + "grad_norm": 0.4703335089175164, + "loss": 0.1710958629846573, + "step": 5258 + }, + { + "grad_norm": 0.3422249727715972, + "loss": 0.1763010025024414, + "step": 5259 + }, + { + "epoch": 1.6832, + "grad_norm": 0.34222495555877686, + "learning_rate": 4.620480574893331e-05, + "loss": 0.2017, + "step": 5260 + }, + { + "grad_norm": 0.31606036231687734, + "loss": 0.15250878036022186, + "step": 5260 + }, + { + "grad_norm": 0.13454448349994508, + "loss": 0.13222293555736542, + "step": 5261 + }, + { + "grad_norm": 0.37236686221037946, + "loss": 0.22324252128601074, + "step": 5262 + }, + { + "grad_norm": 0.2615898432487521, + "loss": 0.24107331037521362, + "step": 5263 + }, + { + "grad_norm": 0.3441534544786963, + "loss": 0.2436549812555313, + "step": 5264 + }, + { + "grad_norm": 0.13528721795073712, + "loss": 0.1407438963651657, + "step": 5265 + }, + { + "grad_norm": 0.20059388797698952, + "loss": 0.19639372825622559, + "step": 5266 + }, + { + "grad_norm": 0.19557274946922917, + "loss": 0.17776745557785034, + "step": 5267 + }, + { + "grad_norm": 0.2750997928803443, + "loss": 0.26860225200653076, + "step": 5268 + }, + { + "grad_norm": 0.11810880584361204, + "loss": 0.1657228320837021, + "step": 5269 + }, + { + "epoch": 1.6864, + "grad_norm": 0.11810880899429321, + "learning_rate": 4.609252189535145e-05, + "loss": 0.1942, + "step": 5270 + }, + { + "grad_norm": 0.10764695559361738, + "loss": 0.1710856705904007, + "step": 5270 + }, + { + "grad_norm": 0.24117306671506802, + "loss": 0.17422446608543396, + "step": 5271 + }, + { + "grad_norm": 0.1500021824009124, + "loss": 0.184473916888237, + "step": 5272 + }, + { + "grad_norm": 0.45938615182548537, + "loss": 0.1541624665260315, + "step": 5273 + }, + { + "grad_norm": 0.1229289629479475, + "loss": 0.18670274317264557, + "step": 5274 + }, + { + "grad_norm": 0.28488114383792873, + "loss": 0.18595413863658905, + "step": 5275 + }, + { + "grad_norm": 0.1300093384818738, + "loss": 0.19278107583522797, + "step": 5276 + }, + { + "grad_norm": 0.21384414731531476, + "loss": 0.21151961386203766, + "step": 5277 + }, + { + "grad_norm": 0.339331193652229, + "loss": 0.20652610063552856, + "step": 5278 + }, + { + "grad_norm": 0.19386633122094932, + "loss": 0.19778770208358765, + "step": 5279 + }, + { + "epoch": 1.6896, + "grad_norm": 0.19386634230613708, + "learning_rate": 4.5980238041769595e-05, + "loss": 0.1865, + "step": 5280 + }, + { + "grad_norm": 0.22199746293462624, + "loss": 0.15928420424461365, + "step": 5280 + }, + { + "grad_norm": 0.15361656642124463, + "loss": 0.24608400464057922, + "step": 5281 + }, + { + "grad_norm": 0.19341924063180777, + "loss": 0.18869799375534058, + "step": 5282 + }, + { + "grad_norm": 0.18055802657064687, + "loss": 0.214439257979393, + "step": 5283 + }, + { + "grad_norm": 0.15511677168231233, + "loss": 0.17197059094905853, + "step": 5284 + }, + { + "grad_norm": 0.44547886108723567, + "loss": 0.24052022397518158, + "step": 5285 + }, + { + "grad_norm": 0.15226629391378874, + "loss": 0.18268218636512756, + "step": 5286 + }, + { + "grad_norm": 0.1257669452980676, + "loss": 0.22861307859420776, + "step": 5287 + }, + { + "grad_norm": 0.23768161760416467, + "loss": 0.164547398686409, + "step": 5288 + }, + { + "grad_norm": 0.23785778370282626, + "loss": 0.16847577691078186, + "step": 5289 + }, + { + "epoch": 1.6928, + "grad_norm": 0.23785775899887085, + "learning_rate": 4.586795418818774e-05, + "loss": 0.1965, + "step": 5290 + }, + { + "grad_norm": 0.17436536269502423, + "loss": 0.22282478213310242, + "step": 5290 + }, + { + "grad_norm": 0.08807489357534162, + "loss": 0.1598532795906067, + "step": 5291 + }, + { + "grad_norm": 0.29468351175520363, + "loss": 0.17071612179279327, + "step": 5292 + }, + { + "grad_norm": 0.11695081144837356, + "loss": 0.1923145204782486, + "step": 5293 + }, + { + "grad_norm": 0.11476835800972734, + "loss": 0.19883908331394196, + "step": 5294 + }, + { + "grad_norm": 0.21561650087774215, + "loss": 0.1831078678369522, + "step": 5295 + }, + { + "grad_norm": 0.19669815750164532, + "loss": 0.15168966352939606, + "step": 5296 + }, + { + "grad_norm": 0.4404901568196839, + "loss": 0.15027275681495667, + "step": 5297 + }, + { + "grad_norm": 0.12528793905333305, + "loss": 0.16788384318351746, + "step": 5298 + }, + { + "grad_norm": 0.1517852066516033, + "loss": 0.18328802287578583, + "step": 5299 + }, + { + "epoch": 1.696, + "grad_norm": 0.151785209774971, + "learning_rate": 4.575567033460589e-05, + "loss": 0.1781, + "step": 5300 + }, + { + "grad_norm": 0.2589933693345933, + "loss": 0.2270193099975586, + "step": 5300 + }, + { + "grad_norm": 0.2198441265574324, + "loss": 0.15181897580623627, + "step": 5301 + }, + { + "grad_norm": 0.1614288357229768, + "loss": 0.1504690796136856, + "step": 5302 + }, + { + "grad_norm": 0.2243965176974037, + "loss": 0.18095555901527405, + "step": 5303 + }, + { + "grad_norm": 0.2606822645375023, + "loss": 0.18792378902435303, + "step": 5304 + }, + { + "grad_norm": 0.2654021700032278, + "loss": 0.19277602434158325, + "step": 5305 + }, + { + "grad_norm": 0.1895459937407352, + "loss": 0.20439782738685608, + "step": 5306 + }, + { + "grad_norm": 0.37800999101807464, + "loss": 0.21251234412193298, + "step": 5307 + }, + { + "grad_norm": 0.09981349822121315, + "loss": 0.13736574351787567, + "step": 5308 + }, + { + "grad_norm": 0.10795264842570892, + "loss": 0.1797584593296051, + "step": 5309 + }, + { + "epoch": 1.6992, + "grad_norm": 0.10795265436172485, + "learning_rate": 4.564338648102403e-05, + "loss": 0.1825, + "step": 5310 + }, + { + "grad_norm": 0.3048832968306199, + "loss": 0.24360832571983337, + "step": 5310 + }, + { + "grad_norm": 0.16451101596262394, + "loss": 0.19664980471134186, + "step": 5311 + }, + { + "grad_norm": 0.41350197965264784, + "loss": 0.18064963817596436, + "step": 5312 + }, + { + "grad_norm": 0.10111479983854169, + "loss": 0.18378250300884247, + "step": 5313 + }, + { + "grad_norm": 0.3427282523494257, + "loss": 0.1721424162387848, + "step": 5314 + }, + { + "grad_norm": 0.4303538098227987, + "loss": 0.1800568699836731, + "step": 5315 + }, + { + "grad_norm": 0.1800893953677073, + "loss": 0.1667243242263794, + "step": 5316 + }, + { + "grad_norm": 0.09831001125041709, + "loss": 0.1633867621421814, + "step": 5317 + }, + { + "grad_norm": 0.14022059606442996, + "loss": 0.21363936364650726, + "step": 5318 + }, + { + "grad_norm": 0.2983036254721506, + "loss": 0.13788571953773499, + "step": 5319 + }, + { + "epoch": 1.7024, + "grad_norm": 0.29830363392829895, + "learning_rate": 4.553110262744217e-05, + "loss": 0.1839, + "step": 5320 + }, + { + "grad_norm": 0.16024771179001232, + "loss": 0.14870619773864746, + "step": 5320 + }, + { + "grad_norm": 0.24124986647443294, + "loss": 0.1828911155462265, + "step": 5321 + }, + { + "grad_norm": 0.7588551198805394, + "loss": 0.33973410725593567, + "step": 5322 + }, + { + "grad_norm": 0.2535044610048092, + "loss": 0.2908504605293274, + "step": 5323 + }, + { + "grad_norm": 0.32572894661927676, + "loss": 0.18846175074577332, + "step": 5324 + }, + { + "grad_norm": 0.15044002492105926, + "loss": 0.2337213158607483, + "step": 5325 + }, + { + "grad_norm": 0.1857403835310071, + "loss": 0.2321896106004715, + "step": 5326 + }, + { + "grad_norm": 0.15537385080263902, + "loss": 0.14652618765830994, + "step": 5327 + }, + { + "grad_norm": 0.3346775978955601, + "loss": 0.24861469864845276, + "step": 5328 + }, + { + "grad_norm": 0.2408211307807003, + "loss": 0.1974107027053833, + "step": 5329 + }, + { + "epoch": 1.7056, + "grad_norm": 0.24082113802433014, + "learning_rate": 4.541881877386032e-05, + "loss": 0.2209, + "step": 5330 + }, + { + "grad_norm": 0.12016207983819066, + "loss": 0.21536892652511597, + "step": 5330 + }, + { + "grad_norm": 0.15913317660024248, + "loss": 0.20841918885707855, + "step": 5331 + }, + { + "grad_norm": 0.28930238789211193, + "loss": 0.21909859776496887, + "step": 5332 + }, + { + "grad_norm": 0.323890455509647, + "loss": 0.14665734767913818, + "step": 5333 + }, + { + "grad_norm": 0.6155132698037743, + "loss": 0.18357710540294647, + "step": 5334 + }, + { + "grad_norm": 0.6009624720543344, + "loss": 0.2048788070678711, + "step": 5335 + }, + { + "grad_norm": 0.178219821357348, + "loss": 0.15680374205112457, + "step": 5336 + }, + { + "grad_norm": 0.2028054227076626, + "loss": 0.19980540871620178, + "step": 5337 + }, + { + "grad_norm": 0.18959539770066994, + "loss": 0.15035417675971985, + "step": 5338 + }, + { + "grad_norm": 0.120227297275744, + "loss": 0.21917563676834106, + "step": 5339 + }, + { + "epoch": 1.7088, + "grad_norm": 0.12022729218006134, + "learning_rate": 4.5306534920278465e-05, + "loss": 0.1904, + "step": 5340 + }, + { + "grad_norm": 0.21908574182401605, + "loss": 0.2299085557460785, + "step": 5340 + }, + { + "grad_norm": 0.13379117929381804, + "loss": 0.1792195588350296, + "step": 5341 + }, + { + "grad_norm": 0.25769544436985015, + "loss": 0.20407646894454956, + "step": 5342 + }, + { + "grad_norm": 0.4996485987691507, + "loss": 0.20940683782100677, + "step": 5343 + }, + { + "grad_norm": 0.18632895860491652, + "loss": 0.21721355617046356, + "step": 5344 + }, + { + "grad_norm": 0.16639582338207745, + "loss": 0.16629062592983246, + "step": 5345 + }, + { + "grad_norm": 0.22929875271085723, + "loss": 0.18672288954257965, + "step": 5346 + }, + { + "grad_norm": 0.21178123682186922, + "loss": 0.20052212476730347, + "step": 5347 + }, + { + "grad_norm": 0.18797185060807536, + "loss": 0.1713360995054245, + "step": 5348 + }, + { + "grad_norm": 0.222890426805007, + "loss": 0.17241142690181732, + "step": 5349 + }, + { + "epoch": 1.712, + "grad_norm": 0.22289042174816132, + "learning_rate": 4.5194251066696616e-05, + "loss": 0.1937, + "step": 5350 + }, + { + "grad_norm": 0.4100730700904599, + "loss": 0.21201281249523163, + "step": 5350 + }, + { + "grad_norm": 0.2844816321124815, + "loss": 0.21063488721847534, + "step": 5351 + }, + { + "grad_norm": 0.3257011366423984, + "loss": 0.17801888287067413, + "step": 5352 + }, + { + "grad_norm": 0.17690236314629562, + "loss": 0.2551165521144867, + "step": 5353 + }, + { + "grad_norm": 0.13940753824163693, + "loss": 0.2160397469997406, + "step": 5354 + }, + { + "grad_norm": 0.2955028373244905, + "loss": 0.2548423111438751, + "step": 5355 + }, + { + "grad_norm": 0.15557687094482225, + "loss": 0.2019367814064026, + "step": 5356 + }, + { + "grad_norm": 0.30831373059583184, + "loss": 0.16174347698688507, + "step": 5357 + }, + { + "grad_norm": 0.4993461013183721, + "loss": 0.18604379892349243, + "step": 5358 + }, + { + "grad_norm": 0.1229259523525282, + "loss": 0.23228630423545837, + "step": 5359 + }, + { + "epoch": 1.7151999999999998, + "grad_norm": 0.12292595207691193, + "learning_rate": 4.508196721311476e-05, + "loss": 0.2109, + "step": 5360 + }, + { + "grad_norm": 0.24964480987570922, + "loss": 0.16376323997974396, + "step": 5360 + }, + { + "grad_norm": 0.23022264727901096, + "loss": 0.16632813215255737, + "step": 5361 + }, + { + "grad_norm": 0.3886334222320122, + "loss": 0.18560917675495148, + "step": 5362 + }, + { + "grad_norm": 0.16226443608147614, + "loss": 0.208236962556839, + "step": 5363 + }, + { + "grad_norm": 0.17331927453980542, + "loss": 0.16475586593151093, + "step": 5364 + }, + { + "grad_norm": 0.2789965264504181, + "loss": 0.2122889757156372, + "step": 5365 + }, + { + "grad_norm": 0.2219009541497952, + "loss": 0.16045832633972168, + "step": 5366 + }, + { + "grad_norm": 0.22048207563860733, + "loss": 0.20850372314453125, + "step": 5367 + }, + { + "grad_norm": 0.12439196102499377, + "loss": 0.19048906862735748, + "step": 5368 + }, + { + "grad_norm": 0.34268157714851916, + "loss": 0.24385659396648407, + "step": 5369 + }, + { + "epoch": 1.7184, + "grad_norm": 0.3426815867424011, + "learning_rate": 4.4969683359532897e-05, + "loss": 0.1904, + "step": 5370 + }, + { + "grad_norm": 0.27806078914106086, + "loss": 0.21320998668670654, + "step": 5370 + }, + { + "grad_norm": 0.28763699968316353, + "loss": 0.19687393307685852, + "step": 5371 + }, + { + "grad_norm": 0.180880907809331, + "loss": 0.21373432874679565, + "step": 5372 + }, + { + "grad_norm": 0.16518505228370414, + "loss": 0.170352041721344, + "step": 5373 + }, + { + "grad_norm": 0.14265975663946423, + "loss": 0.1635577380657196, + "step": 5374 + }, + { + "grad_norm": 0.11054621878131814, + "loss": 0.19714400172233582, + "step": 5375 + }, + { + "grad_norm": 0.16296543336465746, + "loss": 0.19596460461616516, + "step": 5376 + }, + { + "grad_norm": 0.262983071440714, + "loss": 0.24836182594299316, + "step": 5377 + }, + { + "grad_norm": 0.19315050876808754, + "loss": 0.20702537894248962, + "step": 5378 + }, + { + "grad_norm": 0.15332966957600203, + "loss": 0.17779631912708282, + "step": 5379 + }, + { + "epoch": 1.7216, + "grad_norm": 0.15332967042922974, + "learning_rate": 4.485739950595105e-05, + "loss": 0.1984, + "step": 5380 + }, + { + "grad_norm": 0.18625965434904315, + "loss": 0.31265467405319214, + "step": 5380 + }, + { + "grad_norm": 0.15743785933378857, + "loss": 0.19168013334274292, + "step": 5381 + }, + { + "grad_norm": 0.17518492208492425, + "loss": 0.21617381274700165, + "step": 5382 + }, + { + "grad_norm": 0.12645018487108206, + "loss": 0.20985111594200134, + "step": 5383 + }, + { + "grad_norm": 0.25573863678818887, + "loss": 0.2054295688867569, + "step": 5384 + }, + { + "grad_norm": 0.5393188842930203, + "loss": 0.18034996092319489, + "step": 5385 + }, + { + "grad_norm": 0.18406193943804355, + "loss": 0.19021150469779968, + "step": 5386 + }, + { + "grad_norm": 0.4047738903917616, + "loss": 0.18027561902999878, + "step": 5387 + }, + { + "grad_norm": 0.11033532620804928, + "loss": 0.1813526451587677, + "step": 5388 + }, + { + "grad_norm": 0.22630642587825114, + "loss": 0.16607025265693665, + "step": 5389 + }, + { + "epoch": 1.7248, + "grad_norm": 0.22630643844604492, + "learning_rate": 4.474511565236919e-05, + "loss": 0.2034, + "step": 5390 + }, + { + "grad_norm": 0.2024194968770303, + "loss": 0.20755349099636078, + "step": 5390 + }, + { + "grad_norm": 0.1499000947192824, + "loss": 0.1717553287744522, + "step": 5391 + }, + { + "grad_norm": 0.22381606130245604, + "loss": 0.17431184649467468, + "step": 5392 + }, + { + "grad_norm": 0.18943877528389744, + "loss": 0.20529764890670776, + "step": 5393 + }, + { + "grad_norm": 0.17015443218914608, + "loss": 0.17298229038715363, + "step": 5394 + }, + { + "grad_norm": 0.09765297343754388, + "loss": 0.16618981957435608, + "step": 5395 + }, + { + "grad_norm": 0.13701306221123621, + "loss": 0.15587720274925232, + "step": 5396 + }, + { + "grad_norm": 0.208065610841219, + "loss": 0.1606232076883316, + "step": 5397 + }, + { + "grad_norm": 0.3460380469349043, + "loss": 0.17382952570915222, + "step": 5398 + }, + { + "grad_norm": 0.09319995893707803, + "loss": 0.16662946343421936, + "step": 5399 + }, + { + "epoch": 1.728, + "grad_norm": 0.0931999608874321, + "learning_rate": 4.463283179878734e-05, + "loss": 0.1755, + "step": 5400 + }, + { + "grad_norm": 0.12365205024697902, + "loss": 0.15534593164920807, + "step": 5400 + }, + { + "grad_norm": 0.13681600442812653, + "loss": 0.18837971985340118, + "step": 5401 + }, + { + "grad_norm": 0.1206894871701146, + "loss": 0.1613658368587494, + "step": 5402 + }, + { + "grad_norm": 0.09872355964450365, + "loss": 0.15699079632759094, + "step": 5403 + }, + { + "grad_norm": 0.1527668694025077, + "loss": 0.1708715856075287, + "step": 5404 + }, + { + "grad_norm": 0.21697923134832683, + "loss": 0.19088712334632874, + "step": 5405 + }, + { + "grad_norm": 0.3786453948764643, + "loss": 0.3788304924964905, + "step": 5406 + }, + { + "grad_norm": 0.34074658893517573, + "loss": 0.17297959327697754, + "step": 5407 + }, + { + "grad_norm": 0.14945363128138128, + "loss": 0.1702720671892166, + "step": 5408 + }, + { + "grad_norm": 0.25632500253150725, + "loss": 0.223272442817688, + "step": 5409 + }, + { + "epoch": 1.7311999999999999, + "grad_norm": 0.25632500648498535, + "learning_rate": 4.452054794520548e-05, + "loss": 0.1969, + "step": 5410 + }, + { + "grad_norm": 0.13758265079365656, + "loss": 0.13806775212287903, + "step": 5410 + }, + { + "grad_norm": 0.22019583979441365, + "loss": 0.19589371979236603, + "step": 5411 + }, + { + "grad_norm": 0.311355437069389, + "loss": 0.1675167977809906, + "step": 5412 + }, + { + "grad_norm": 0.15661181276296268, + "loss": 0.1920522153377533, + "step": 5413 + }, + { + "grad_norm": 0.20799199140454158, + "loss": 0.1848522573709488, + "step": 5414 + }, + { + "grad_norm": 0.13696079894998772, + "loss": 0.1398056447505951, + "step": 5415 + }, + { + "grad_norm": 0.24812102081072374, + "loss": 0.19381707906723022, + "step": 5416 + }, + { + "grad_norm": 0.12584107562142927, + "loss": 0.19787877798080444, + "step": 5417 + }, + { + "grad_norm": 0.12062511205117367, + "loss": 0.1963619589805603, + "step": 5418 + }, + { + "grad_norm": 0.18699922180411385, + "loss": 0.1905306577682495, + "step": 5419 + }, + { + "epoch": 1.7344, + "grad_norm": 0.18699921667575836, + "learning_rate": 4.440826409162362e-05, + "loss": 0.1797, + "step": 5420 + }, + { + "grad_norm": 0.17638244428684902, + "loss": 0.1817885786294937, + "step": 5420 + }, + { + "grad_norm": 0.12675960095873087, + "loss": 0.1877085566520691, + "step": 5421 + }, + { + "grad_norm": 0.2905216278342379, + "loss": 0.17887169122695923, + "step": 5422 + }, + { + "grad_norm": 0.17130263267597884, + "loss": 0.16657549142837524, + "step": 5423 + }, + { + "grad_norm": 0.18331604794406353, + "loss": 0.21320122480392456, + "step": 5424 + }, + { + "grad_norm": 0.24071473964832726, + "loss": 0.22355930507183075, + "step": 5425 + }, + { + "grad_norm": 0.10060761783126043, + "loss": 0.19927191734313965, + "step": 5426 + }, + { + "grad_norm": 0.2038265105009943, + "loss": 0.14772683382034302, + "step": 5427 + }, + { + "grad_norm": 0.22477938642840758, + "loss": 0.2340901494026184, + "step": 5428 + }, + { + "grad_norm": 0.2216376656098214, + "loss": 0.14936721324920654, + "step": 5429 + }, + { + "epoch": 1.7376, + "grad_norm": 0.22163766622543335, + "learning_rate": 4.4295980238041774e-05, + "loss": 0.1882, + "step": 5430 + }, + { + "grad_norm": 0.1669519498430554, + "loss": 0.16162894666194916, + "step": 5430 + }, + { + "grad_norm": 0.23126345890856784, + "loss": 0.14223018288612366, + "step": 5431 + }, + { + "grad_norm": 0.21440554887479496, + "loss": 0.15489614009857178, + "step": 5432 + }, + { + "grad_norm": 0.1274467265799428, + "loss": 0.1901586353778839, + "step": 5433 + }, + { + "grad_norm": 0.3032291480570779, + "loss": 0.18567852675914764, + "step": 5434 + }, + { + "grad_norm": 0.11019078420028054, + "loss": 0.24475403130054474, + "step": 5435 + }, + { + "grad_norm": 0.13089389887342132, + "loss": 0.15375100076198578, + "step": 5436 + }, + { + "grad_norm": 0.15204091071440404, + "loss": 0.15952245891094208, + "step": 5437 + }, + { + "grad_norm": 0.28794291737272204, + "loss": 0.20764179527759552, + "step": 5438 + }, + { + "grad_norm": 0.1301525757695693, + "loss": 0.14777213335037231, + "step": 5439 + }, + { + "epoch": 1.7408000000000001, + "grad_norm": 0.13015256822109222, + "learning_rate": 4.418369638445992e-05, + "loss": 0.1748, + "step": 5440 + }, + { + "grad_norm": 0.12466944941298003, + "loss": 0.2017478346824646, + "step": 5440 + }, + { + "grad_norm": 0.41125261543080877, + "loss": 0.27684342861175537, + "step": 5441 + }, + { + "grad_norm": 0.20337905690758135, + "loss": 0.15051910281181335, + "step": 5442 + }, + { + "grad_norm": 0.2236284303751075, + "loss": 0.16136415302753448, + "step": 5443 + }, + { + "grad_norm": 0.1699145399937912, + "loss": 0.18303602933883667, + "step": 5444 + }, + { + "grad_norm": 0.09999932426001806, + "loss": 0.18798045814037323, + "step": 5445 + }, + { + "grad_norm": 0.14015441605398518, + "loss": 0.2191341668367386, + "step": 5446 + }, + { + "grad_norm": 0.22491821980952695, + "loss": 0.24022936820983887, + "step": 5447 + }, + { + "grad_norm": 0.20423583060124878, + "loss": 0.21815252304077148, + "step": 5448 + }, + { + "grad_norm": 0.1933586313800724, + "loss": 0.1659366488456726, + "step": 5449 + }, + { + "epoch": 1.744, + "grad_norm": 0.1933586299419403, + "learning_rate": 4.407141253087806e-05, + "loss": 0.2005, + "step": 5450 + }, + { + "grad_norm": 0.44455446623735984, + "loss": 0.16966590285301208, + "step": 5450 + }, + { + "grad_norm": 0.2748080870391478, + "loss": 0.17198050022125244, + "step": 5451 + }, + { + "grad_norm": 0.1440861086330526, + "loss": 0.15862615406513214, + "step": 5452 + }, + { + "grad_norm": 0.17686882028515974, + "loss": 0.20174288749694824, + "step": 5453 + }, + { + "grad_norm": 0.22227231468335643, + "loss": 0.1750820130109787, + "step": 5454 + }, + { + "grad_norm": 0.23662907357866889, + "loss": 0.18202200531959534, + "step": 5455 + }, + { + "grad_norm": 0.10284169411620403, + "loss": 0.20110785961151123, + "step": 5456 + }, + { + "grad_norm": 0.1774875202038389, + "loss": 0.23345893621444702, + "step": 5457 + }, + { + "grad_norm": 0.2285973511470554, + "loss": 0.1936037540435791, + "step": 5458 + }, + { + "grad_norm": 0.27214897159666596, + "loss": 0.2169666290283203, + "step": 5459 + }, + { + "epoch": 1.7471999999999999, + "grad_norm": 0.2721489667892456, + "learning_rate": 4.3959128677296205e-05, + "loss": 0.1904, + "step": 5460 + }, + { + "grad_norm": 0.19613359310894057, + "loss": 0.16013385355472565, + "step": 5460 + }, + { + "grad_norm": 0.22687197758151417, + "loss": 0.225096195936203, + "step": 5461 + }, + { + "grad_norm": 0.0945775302162244, + "loss": 0.17915105819702148, + "step": 5462 + }, + { + "grad_norm": 0.2208407655748497, + "loss": 0.21164870262145996, + "step": 5463 + }, + { + "grad_norm": 0.2261044208003762, + "loss": 0.22082172334194183, + "step": 5464 + }, + { + "grad_norm": 0.13370583321248103, + "loss": 0.16404958069324493, + "step": 5465 + }, + { + "grad_norm": 0.1174465739860553, + "loss": 0.18314498662948608, + "step": 5466 + }, + { + "grad_norm": 0.3672723386080394, + "loss": 0.21455956995487213, + "step": 5467 + }, + { + "grad_norm": 0.22651892814373428, + "loss": 0.2565467059612274, + "step": 5468 + }, + { + "grad_norm": 0.3297667036656471, + "loss": 0.181717187166214, + "step": 5469 + }, + { + "epoch": 1.7504, + "grad_norm": 0.32976672053337097, + "learning_rate": 4.384684482371435e-05, + "loss": 0.1997, + "step": 5470 + }, + { + "grad_norm": 0.27851632342910027, + "loss": 0.20967000722885132, + "step": 5470 + }, + { + "grad_norm": 0.29133805084196435, + "loss": 0.22252707183361053, + "step": 5471 + }, + { + "grad_norm": 0.26635497988131807, + "loss": 0.16960933804512024, + "step": 5472 + }, + { + "grad_norm": 0.21634003420677533, + "loss": 0.1526821404695511, + "step": 5473 + }, + { + "grad_norm": 0.15100508564734605, + "loss": 0.2082998901605606, + "step": 5474 + }, + { + "grad_norm": 0.2742546569147234, + "loss": 0.1666201949119568, + "step": 5475 + }, + { + "grad_norm": 0.15814009876549454, + "loss": 0.24354486167430878, + "step": 5476 + }, + { + "grad_norm": 0.218292753930828, + "loss": 0.2235443890094757, + "step": 5477 + }, + { + "grad_norm": 0.284487722086014, + "loss": 0.20050519704818726, + "step": 5478 + }, + { + "grad_norm": 0.10539891585043676, + "loss": 0.18437311053276062, + "step": 5479 + }, + { + "epoch": 1.7536, + "grad_norm": 0.10539891570806503, + "learning_rate": 4.37345609701325e-05, + "loss": 0.1981, + "step": 5480 + }, + { + "grad_norm": 0.29657462391984557, + "loss": 0.21698550879955292, + "step": 5480 + }, + { + "grad_norm": 0.3361548146147088, + "loss": 0.19737006723880768, + "step": 5481 + }, + { + "grad_norm": 0.3478720698743389, + "loss": 0.21798011660575867, + "step": 5482 + }, + { + "grad_norm": 0.24000021096110563, + "loss": 0.18220454454421997, + "step": 5483 + }, + { + "grad_norm": 0.1917219382256265, + "loss": 0.19815579056739807, + "step": 5484 + }, + { + "grad_norm": 0.23216441712955682, + "loss": 0.17041847109794617, + "step": 5485 + }, + { + "grad_norm": 0.13900485182865777, + "loss": 0.20154370367527008, + "step": 5486 + }, + { + "grad_norm": 0.10742630861760512, + "loss": 0.17189401388168335, + "step": 5487 + }, + { + "grad_norm": 0.18002979928306845, + "loss": 0.15646493434906006, + "step": 5488 + }, + { + "grad_norm": 0.301267349181075, + "loss": 0.17797671258449554, + "step": 5489 + }, + { + "epoch": 1.7568000000000001, + "grad_norm": 0.3012673556804657, + "learning_rate": 4.3622277116550644e-05, + "loss": 0.1891, + "step": 5490 + }, + { + "grad_norm": 0.14196577081629289, + "loss": 0.16294065117835999, + "step": 5490 + }, + { + "grad_norm": 0.4845350272543792, + "loss": 0.3173937201499939, + "step": 5491 + }, + { + "grad_norm": 0.3510546262606836, + "loss": 0.20404130220413208, + "step": 5492 + }, + { + "grad_norm": 0.48816719565590105, + "loss": 0.28675776720046997, + "step": 5493 + }, + { + "grad_norm": 0.11219917003382167, + "loss": 0.16002552211284637, + "step": 5494 + }, + { + "grad_norm": 0.17498026098410757, + "loss": 0.15509606897830963, + "step": 5495 + }, + { + "grad_norm": 0.18234207423229698, + "loss": 0.19859647750854492, + "step": 5496 + }, + { + "grad_norm": 0.3328982596353801, + "loss": 0.18163323402404785, + "step": 5497 + }, + { + "grad_norm": 0.12889608838612282, + "loss": 0.1998993456363678, + "step": 5498 + }, + { + "grad_norm": 0.2059300748589989, + "loss": 0.2147310972213745, + "step": 5499 + }, + { + "epoch": 1.76, + "grad_norm": 0.20593006908893585, + "learning_rate": 4.350999326296879e-05, + "loss": 0.2081, + "step": 5500 + }, + { + "grad_norm": 0.10228391813438936, + "loss": 0.18450909852981567, + "step": 5500 + }, + { + "grad_norm": 0.4339678886440326, + "loss": 0.1626725196838379, + "step": 5501 + }, + { + "grad_norm": 0.1337650799411452, + "loss": 0.24449534714221954, + "step": 5502 + }, + { + "grad_norm": 0.1808169914586757, + "loss": 0.18949948251247406, + "step": 5503 + }, + { + "grad_norm": 0.13165728401127202, + "loss": 0.241224467754364, + "step": 5504 + }, + { + "grad_norm": 0.21312126852444485, + "loss": 0.1625935137271881, + "step": 5505 + }, + { + "grad_norm": 0.32574139784102163, + "loss": 0.14086061716079712, + "step": 5506 + }, + { + "grad_norm": 0.3147496799564131, + "loss": 0.26423704624176025, + "step": 5507 + }, + { + "grad_norm": 0.13674020702228531, + "loss": 0.17973673343658447, + "step": 5508 + }, + { + "grad_norm": 0.21603476697931856, + "loss": 0.218132883310318, + "step": 5509 + }, + { + "epoch": 1.7631999999999999, + "grad_norm": 0.21603475511074066, + "learning_rate": 4.339770940938693e-05, + "loss": 0.1988, + "step": 5510 + }, + { + "grad_norm": 0.2182173336751859, + "loss": 0.2021413892507553, + "step": 5510 + }, + { + "grad_norm": 0.3083258777587798, + "loss": 0.1735752671957016, + "step": 5511 + }, + { + "grad_norm": 0.2154203105330336, + "loss": 0.1712920367717743, + "step": 5512 + }, + { + "grad_norm": 0.21233959508858438, + "loss": 0.17762258648872375, + "step": 5513 + }, + { + "grad_norm": 0.24023202666703847, + "loss": 0.1894734650850296, + "step": 5514 + }, + { + "grad_norm": 0.1681412050318369, + "loss": 0.19949069619178772, + "step": 5515 + }, + { + "grad_norm": 0.3462503134934143, + "loss": 0.21937771141529083, + "step": 5516 + }, + { + "grad_norm": 0.24930275230994245, + "loss": 0.16806580126285553, + "step": 5517 + }, + { + "grad_norm": 0.17461140215166387, + "loss": 0.19953662157058716, + "step": 5518 + }, + { + "grad_norm": 0.2905438622674015, + "loss": 0.18599551916122437, + "step": 5519 + }, + { + "epoch": 1.7664, + "grad_norm": 0.2905438542366028, + "learning_rate": 4.3285425555805075e-05, + "loss": 0.1887, + "step": 5520 + }, + { + "grad_norm": 0.15668965864839177, + "loss": 0.18128706514835358, + "step": 5520 + }, + { + "grad_norm": 0.38892522542672997, + "loss": 0.17458803951740265, + "step": 5521 + }, + { + "grad_norm": 0.13696465154026577, + "loss": 0.16145896911621094, + "step": 5522 + }, + { + "grad_norm": 0.3694984293813221, + "loss": 0.14531753957271576, + "step": 5523 + }, + { + "grad_norm": 0.2673992758411512, + "loss": 0.1872042417526245, + "step": 5524 + }, + { + "grad_norm": 0.18094365612088079, + "loss": 0.18560922145843506, + "step": 5525 + }, + { + "grad_norm": 0.5141903945353185, + "loss": 0.32467180490493774, + "step": 5526 + }, + { + "grad_norm": 0.21032942503263802, + "loss": 0.1615065634250641, + "step": 5527 + }, + { + "grad_norm": 0.3754134935665778, + "loss": 0.20074941217899323, + "step": 5528 + }, + { + "grad_norm": 0.12231422651649344, + "loss": 0.16345971822738647, + "step": 5529 + }, + { + "epoch": 1.7696, + "grad_norm": 0.1223142221570015, + "learning_rate": 4.3173141702223226e-05, + "loss": 0.1886, + "step": 5530 + }, + { + "grad_norm": 0.18078142507458994, + "loss": 0.17300797998905182, + "step": 5530 + }, + { + "grad_norm": 0.1937189833135393, + "loss": 0.2033756971359253, + "step": 5531 + }, + { + "grad_norm": 0.2723984341983181, + "loss": 0.20582906901836395, + "step": 5532 + }, + { + "grad_norm": 0.1863173242672126, + "loss": 0.2036755532026291, + "step": 5533 + }, + { + "grad_norm": 0.1192964793330441, + "loss": 0.21045221388339996, + "step": 5534 + }, + { + "grad_norm": 0.21183853152091392, + "loss": 0.1839272677898407, + "step": 5535 + }, + { + "grad_norm": 0.11919267629841783, + "loss": 0.13845477998256683, + "step": 5536 + }, + { + "grad_norm": 0.21203114307277715, + "loss": 0.1706043779850006, + "step": 5537 + }, + { + "grad_norm": 0.15191051375503478, + "loss": 0.15689271688461304, + "step": 5538 + }, + { + "grad_norm": 0.37161393075781585, + "loss": 0.22219055891036987, + "step": 5539 + }, + { + "epoch": 1.7728000000000002, + "grad_norm": 0.37161391973495483, + "learning_rate": 4.306085784864137e-05, + "loss": 0.1868, + "step": 5540 + }, + { + "grad_norm": 0.24236509009764923, + "loss": 0.15098470449447632, + "step": 5540 + }, + { + "grad_norm": 0.1616953377496085, + "loss": 0.15018586814403534, + "step": 5541 + }, + { + "grad_norm": 0.23285443340344775, + "loss": 0.2302781045436859, + "step": 5542 + }, + { + "grad_norm": 0.26836379194140014, + "loss": 0.20180918276309967, + "step": 5543 + }, + { + "grad_norm": 0.2860121161816294, + "loss": 0.1959744393825531, + "step": 5544 + }, + { + "grad_norm": 0.2930800386569577, + "loss": 0.16922730207443237, + "step": 5545 + }, + { + "grad_norm": 0.3600784748038724, + "loss": 0.1853877156972885, + "step": 5546 + }, + { + "grad_norm": 0.1568229551942648, + "loss": 0.2096274346113205, + "step": 5547 + }, + { + "grad_norm": 0.16980788124578072, + "loss": 0.16043761372566223, + "step": 5548 + }, + { + "grad_norm": 0.10761993135912852, + "loss": 0.20425263047218323, + "step": 5549 + }, + { + "epoch": 1.776, + "grad_norm": 0.10761993378400803, + "learning_rate": 4.294857399505951e-05, + "loss": 0.1858, + "step": 5550 + }, + { + "grad_norm": 0.14835305953103453, + "loss": 0.1801842302083969, + "step": 5550 + }, + { + "grad_norm": 0.1708568216913833, + "loss": 0.20349162817001343, + "step": 5551 + }, + { + "grad_norm": 0.3424701379917322, + "loss": 0.21790213882923126, + "step": 5552 + }, + { + "grad_norm": 0.4101736400947309, + "loss": 0.2351849526166916, + "step": 5553 + }, + { + "grad_norm": 0.555511862146319, + "loss": 0.20278874039649963, + "step": 5554 + }, + { + "grad_norm": 0.10356993329871624, + "loss": 0.1471601277589798, + "step": 5555 + }, + { + "grad_norm": 0.13553587651390617, + "loss": 0.16463488340377808, + "step": 5556 + }, + { + "grad_norm": 0.380956883613492, + "loss": 0.199964702129364, + "step": 5557 + }, + { + "grad_norm": 0.14168236303145237, + "loss": 0.19608528912067413, + "step": 5558 + }, + { + "grad_norm": 0.308407131575998, + "loss": 0.16334772109985352, + "step": 5559 + }, + { + "epoch": 1.7792, + "grad_norm": 0.30840712785720825, + "learning_rate": 4.283629014147766e-05, + "loss": 0.1911, + "step": 5560 + }, + { + "grad_norm": 0.184208794732543, + "loss": 0.20745772123336792, + "step": 5560 + }, + { + "grad_norm": 0.14801872846186634, + "loss": 0.22082296013832092, + "step": 5561 + }, + { + "grad_norm": 0.5154030628268392, + "loss": 0.17672784626483917, + "step": 5562 + }, + { + "grad_norm": 0.22954267698157668, + "loss": 0.22851629555225372, + "step": 5563 + }, + { + "grad_norm": 0.2876950659206962, + "loss": 0.1581033170223236, + "step": 5564 + }, + { + "grad_norm": 0.24745861743496947, + "loss": 0.16642428934574127, + "step": 5565 + }, + { + "grad_norm": 0.14907576778930337, + "loss": 0.2163572907447815, + "step": 5566 + }, + { + "grad_norm": 0.16238202560552506, + "loss": 0.24454635381698608, + "step": 5567 + }, + { + "grad_norm": 0.09389758605034769, + "loss": 0.15181657671928406, + "step": 5568 + }, + { + "grad_norm": 0.12379074463932978, + "loss": 0.15667705237865448, + "step": 5569 + }, + { + "epoch": 1.7824, + "grad_norm": 0.12379074096679688, + "learning_rate": 4.27240062878958e-05, + "loss": 0.1927, + "step": 5570 + }, + { + "grad_norm": 0.11515171533917054, + "loss": 0.17274780571460724, + "step": 5570 + }, + { + "grad_norm": 0.1490710401181527, + "loss": 0.18156647682189941, + "step": 5571 + }, + { + "grad_norm": 0.19115754324144424, + "loss": 0.24047788977622986, + "step": 5572 + }, + { + "grad_norm": 0.2730840830574406, + "loss": 0.21800634264945984, + "step": 5573 + }, + { + "grad_norm": 0.13809451119636723, + "loss": 0.15526844561100006, + "step": 5574 + }, + { + "grad_norm": 0.22074929870015342, + "loss": 0.173659548163414, + "step": 5575 + }, + { + "grad_norm": 0.25478879559685375, + "loss": 0.150273397564888, + "step": 5576 + }, + { + "grad_norm": 0.10707987626297598, + "loss": 0.16501963138580322, + "step": 5577 + }, + { + "grad_norm": 0.3023634022497208, + "loss": 0.2039804458618164, + "step": 5578 + }, + { + "grad_norm": 0.41834160414728144, + "loss": 0.20548634231090546, + "step": 5579 + }, + { + "epoch": 1.7856, + "grad_norm": 0.41834160685539246, + "learning_rate": 4.261172243431395e-05, + "loss": 0.1866, + "step": 5580 + }, + { + "grad_norm": 0.3352950521821756, + "loss": 0.23165909945964813, + "step": 5580 + }, + { + "grad_norm": 0.1521553533581785, + "loss": 0.19984565675258636, + "step": 5581 + }, + { + "grad_norm": 0.16797639083203342, + "loss": 0.21338792145252228, + "step": 5582 + }, + { + "grad_norm": 0.3704249641694573, + "loss": 0.17910219728946686, + "step": 5583 + }, + { + "grad_norm": 0.23098814636709655, + "loss": 0.19792594015598297, + "step": 5584 + }, + { + "grad_norm": 0.24487808219796894, + "loss": 0.2217118740081787, + "step": 5585 + }, + { + "grad_norm": 0.1882507688355759, + "loss": 0.2790708839893341, + "step": 5586 + }, + { + "grad_norm": 0.2494610306475483, + "loss": 0.24907663464546204, + "step": 5587 + }, + { + "grad_norm": 0.2834901285169679, + "loss": 0.17558234930038452, + "step": 5588 + }, + { + "grad_norm": 0.17994279621321327, + "loss": 0.24934357404708862, + "step": 5589 + }, + { + "epoch": 1.7888, + "grad_norm": 0.1799428015947342, + "learning_rate": 4.249943858073209e-05, + "loss": 0.2197, + "step": 5590 + }, + { + "grad_norm": 0.14713255060852073, + "loss": 0.19293539226055145, + "step": 5590 + }, + { + "grad_norm": 0.1479140666268279, + "loss": 0.17123720049858093, + "step": 5591 + }, + { + "grad_norm": 0.278159441729492, + "loss": 0.1967477798461914, + "step": 5592 + }, + { + "grad_norm": 0.16957351116295014, + "loss": 0.14863866567611694, + "step": 5593 + }, + { + "grad_norm": 0.14808465046943747, + "loss": 0.23660004138946533, + "step": 5594 + }, + { + "grad_norm": 0.10455337783353011, + "loss": 0.2028341293334961, + "step": 5595 + }, + { + "grad_norm": 0.1431846762082123, + "loss": 0.1726894974708557, + "step": 5596 + }, + { + "grad_norm": 0.14250004774980163, + "loss": 0.1799035370349884, + "step": 5597 + }, + { + "grad_norm": 0.37766061356293573, + "loss": 0.16668595373630524, + "step": 5598 + }, + { + "grad_norm": 0.12476979637407627, + "loss": 0.17274010181427002, + "step": 5599 + }, + { + "epoch": 1.792, + "grad_norm": 0.12476979941129684, + "learning_rate": 4.2387154727150233e-05, + "loss": 0.1841, + "step": 5600 + }, + { + "grad_norm": 0.18853728147142215, + "loss": 0.1485562026500702, + "step": 5600 + }, + { + "grad_norm": 0.4175706607431737, + "loss": 0.20813313126564026, + "step": 5601 + }, + { + "grad_norm": 0.21948252243039792, + "loss": 0.1626577228307724, + "step": 5602 + }, + { + "grad_norm": 0.28577485740078107, + "loss": 0.16691908240318298, + "step": 5603 + }, + { + "grad_norm": 0.23789121714978217, + "loss": 0.20726172626018524, + "step": 5604 + }, + { + "grad_norm": 0.09319264544415098, + "loss": 0.17039619386196136, + "step": 5605 + }, + { + "grad_norm": 0.22556614704225667, + "loss": 0.15622356534004211, + "step": 5606 + }, + { + "grad_norm": 0.18970385020499542, + "loss": 0.18431225419044495, + "step": 5607 + }, + { + "grad_norm": 0.3886198064374549, + "loss": 0.18818822503089905, + "step": 5608 + }, + { + "grad_norm": 0.25949405867068903, + "loss": 0.21603716909885406, + "step": 5609 + }, + { + "epoch": 1.7952, + "grad_norm": 0.25949403643608093, + "learning_rate": 4.2274870873568384e-05, + "loss": 0.1809, + "step": 5610 + }, + { + "grad_norm": 0.1691471944933867, + "loss": 0.23904962837696075, + "step": 5610 + }, + { + "grad_norm": 0.09744869188018974, + "loss": 0.14608338475227356, + "step": 5611 + }, + { + "grad_norm": 0.5260304688679754, + "loss": 0.25149109959602356, + "step": 5612 + }, + { + "grad_norm": 0.2106045532514543, + "loss": 0.2627720832824707, + "step": 5613 + }, + { + "grad_norm": 0.12690842819910897, + "loss": 0.17485497891902924, + "step": 5614 + }, + { + "grad_norm": 0.30107896405712614, + "loss": 0.1711401641368866, + "step": 5615 + }, + { + "grad_norm": 0.15374196887183827, + "loss": 0.18466636538505554, + "step": 5616 + }, + { + "grad_norm": 0.4059486835124307, + "loss": 0.1734018176794052, + "step": 5617 + }, + { + "grad_norm": 0.16686681084457403, + "loss": 0.1972719132900238, + "step": 5618 + }, + { + "grad_norm": 0.4696250853783252, + "loss": 0.17646890878677368, + "step": 5619 + }, + { + "epoch": 1.7984, + "grad_norm": 0.4696250855922699, + "learning_rate": 4.216258701998653e-05, + "loss": 0.1977, + "step": 5620 + }, + { + "grad_norm": 0.2717338247902147, + "loss": 0.20497378706932068, + "step": 5620 + }, + { + "grad_norm": 0.17826548424040012, + "loss": 0.17502975463867188, + "step": 5621 + }, + { + "grad_norm": 0.15793031273274802, + "loss": 0.19668781757354736, + "step": 5622 + }, + { + "grad_norm": 0.1985198828167754, + "loss": 0.20397239923477173, + "step": 5623 + }, + { + "grad_norm": 0.15318833522908004, + "loss": 0.19249197840690613, + "step": 5624 + }, + { + "grad_norm": 0.2657761352950937, + "loss": 0.1993793249130249, + "step": 5625 + }, + { + "grad_norm": 0.19721532940038708, + "loss": 0.16050788760185242, + "step": 5626 + }, + { + "grad_norm": 0.1206516276030032, + "loss": 0.1974256932735443, + "step": 5627 + }, + { + "grad_norm": 0.18190436814625696, + "loss": 0.2210456132888794, + "step": 5628 + }, + { + "grad_norm": 0.2974794675119837, + "loss": 0.20819419622421265, + "step": 5629 + }, + { + "epoch": 1.8016, + "grad_norm": 0.2974794805049896, + "learning_rate": 4.205030316640468e-05, + "loss": 0.196, + "step": 5630 + }, + { + "grad_norm": 0.21511680778451253, + "loss": 0.15067218244075775, + "step": 5630 + }, + { + "grad_norm": 0.244072856853477, + "loss": 0.20908936858177185, + "step": 5631 + }, + { + "grad_norm": 0.1188011910572329, + "loss": 0.1608072966337204, + "step": 5632 + }, + { + "grad_norm": 0.15265056580818712, + "loss": 0.20233549177646637, + "step": 5633 + }, + { + "grad_norm": 0.136996416358665, + "loss": 0.16876044869422913, + "step": 5634 + }, + { + "grad_norm": 0.16252317514010142, + "loss": 0.1623161882162094, + "step": 5635 + }, + { + "grad_norm": 0.19819642761900114, + "loss": 0.18220670521259308, + "step": 5636 + }, + { + "grad_norm": 0.11957353047294526, + "loss": 0.19041645526885986, + "step": 5637 + }, + { + "grad_norm": 0.1309173843264887, + "loss": 0.16513872146606445, + "step": 5638 + }, + { + "grad_norm": 0.11155739443668494, + "loss": 0.1921951025724411, + "step": 5639 + }, + { + "epoch": 1.8048, + "grad_norm": 0.11155738681554794, + "learning_rate": 4.1938019312822816e-05, + "loss": 0.1784, + "step": 5640 + }, + { + "grad_norm": 0.11070724719259253, + "loss": 0.2105019986629486, + "step": 5640 + }, + { + "grad_norm": 0.1517608298196867, + "loss": 0.1753959059715271, + "step": 5641 + }, + { + "grad_norm": 0.13452467364036377, + "loss": 0.1665017306804657, + "step": 5642 + }, + { + "grad_norm": 0.2225371124337288, + "loss": 0.1714913249015808, + "step": 5643 + }, + { + "grad_norm": 0.13773358151908588, + "loss": 0.1685725301504135, + "step": 5644 + }, + { + "grad_norm": 0.28474876022853424, + "loss": 0.1786748766899109, + "step": 5645 + }, + { + "grad_norm": 0.20343564142412981, + "loss": 0.15260446071624756, + "step": 5646 + }, + { + "grad_norm": 0.49147318758974523, + "loss": 0.2103860080242157, + "step": 5647 + }, + { + "grad_norm": 0.10294486708289485, + "loss": 0.1903477907180786, + "step": 5648 + }, + { + "grad_norm": 0.31477212637266194, + "loss": 0.18670403957366943, + "step": 5649 + }, + { + "epoch": 1.808, + "grad_norm": 0.3147721290588379, + "learning_rate": 4.182573545924096e-05, + "loss": 0.1811, + "step": 5650 + }, + { + "grad_norm": 0.10066320665063688, + "loss": 0.19549325108528137, + "step": 5650 + }, + { + "grad_norm": 0.36568230614622194, + "loss": 0.20702765882015228, + "step": 5651 + }, + { + "grad_norm": 0.11487288201137279, + "loss": 0.1842745989561081, + "step": 5652 + }, + { + "grad_norm": 0.13111758772336624, + "loss": 0.17900171875953674, + "step": 5653 + }, + { + "grad_norm": 0.19893489703771366, + "loss": 0.21120163798332214, + "step": 5654 + }, + { + "grad_norm": 0.5408890819375025, + "loss": 0.24437420070171356, + "step": 5655 + }, + { + "grad_norm": 0.42291603943531453, + "loss": 0.15364614129066467, + "step": 5656 + }, + { + "grad_norm": 0.1889865354375105, + "loss": 0.2715248167514801, + "step": 5657 + }, + { + "grad_norm": 0.4299128915228698, + "loss": 0.15731558203697205, + "step": 5658 + }, + { + "grad_norm": 0.20686971092934334, + "loss": 0.21829482913017273, + "step": 5659 + }, + { + "epoch": 1.8112, + "grad_norm": 0.2068697065114975, + "learning_rate": 4.171345160565911e-05, + "loss": 0.2022, + "step": 5660 + }, + { + "grad_norm": 0.4458891452226404, + "loss": 0.17303450405597687, + "step": 5660 + }, + { + "grad_norm": 0.11579772068330459, + "loss": 0.20123742520809174, + "step": 5661 + }, + { + "grad_norm": 0.4490500251364084, + "loss": 0.19908718764781952, + "step": 5662 + }, + { + "grad_norm": 0.19805089328313238, + "loss": 0.1554306596517563, + "step": 5663 + }, + { + "grad_norm": 0.26863921853104467, + "loss": 0.22337180376052856, + "step": 5664 + }, + { + "grad_norm": 0.12559243185463254, + "loss": 0.16722537577152252, + "step": 5665 + }, + { + "grad_norm": 0.1784687811226272, + "loss": 0.18781247735023499, + "step": 5666 + }, + { + "grad_norm": 0.0954666801698016, + "loss": 0.17284131050109863, + "step": 5667 + }, + { + "grad_norm": 0.33309440397680806, + "loss": 0.20610901713371277, + "step": 5668 + }, + { + "grad_norm": 0.12708575514975598, + "loss": 0.1891762614250183, + "step": 5669 + }, + { + "epoch": 1.8144, + "grad_norm": 0.12708576023578644, + "learning_rate": 4.1601167752077254e-05, + "loss": 0.1875, + "step": 5670 + }, + { + "grad_norm": 0.12607355478118798, + "loss": 0.1543089896440506, + "step": 5670 + }, + { + "grad_norm": 0.25933142447605007, + "loss": 0.17756548523902893, + "step": 5671 + }, + { + "grad_norm": 0.13258599202875943, + "loss": 0.17018228769302368, + "step": 5672 + }, + { + "grad_norm": 0.5854794886724972, + "loss": 0.19090580940246582, + "step": 5673 + }, + { + "grad_norm": 0.11706695223784959, + "loss": 0.26334497332572937, + "step": 5674 + }, + { + "grad_norm": 0.10691227402522238, + "loss": 0.23037713766098022, + "step": 5675 + }, + { + "grad_norm": 0.28751223105074725, + "loss": 0.17005525529384613, + "step": 5676 + }, + { + "grad_norm": 0.42973454130512284, + "loss": 0.1572006791830063, + "step": 5677 + }, + { + "grad_norm": 0.27512576428906643, + "loss": 0.18459472060203552, + "step": 5678 + }, + { + "grad_norm": 0.15333088612046672, + "loss": 0.16395914554595947, + "step": 5679 + }, + { + "epoch": 1.8176, + "grad_norm": 0.15333087742328644, + "learning_rate": 4.14888838984954e-05, + "loss": 0.1862, + "step": 5680 + }, + { + "grad_norm": 0.2961527621059745, + "loss": 0.1990199089050293, + "step": 5680 + }, + { + "grad_norm": 0.3632117396092502, + "loss": 0.18333598971366882, + "step": 5681 + }, + { + "grad_norm": 0.36606838802820285, + "loss": 0.23471519351005554, + "step": 5682 + }, + { + "grad_norm": 0.4957566932841266, + "loss": 0.18215076625347137, + "step": 5683 + }, + { + "grad_norm": 0.1808407541241329, + "loss": 0.20621302723884583, + "step": 5684 + }, + { + "grad_norm": 0.13200173073149904, + "loss": 0.21243813633918762, + "step": 5685 + }, + { + "grad_norm": 0.2539706936994964, + "loss": 0.21084018051624298, + "step": 5686 + }, + { + "grad_norm": 0.1622308689787984, + "loss": 0.23652397096157074, + "step": 5687 + }, + { + "grad_norm": 0.14386211822483724, + "loss": 0.18498671054840088, + "step": 5688 + }, + { + "grad_norm": 0.14552030983987116, + "loss": 0.15814901888370514, + "step": 5689 + }, + { + "epoch": 1.8208, + "grad_norm": 0.14552031457424164, + "learning_rate": 4.137660004491354e-05, + "loss": 0.2008, + "step": 5690 + }, + { + "grad_norm": 0.27849221252537604, + "loss": 0.22438091039657593, + "step": 5690 + }, + { + "grad_norm": 0.21841068791300425, + "loss": 0.25826138257980347, + "step": 5691 + }, + { + "grad_norm": 0.27005130111142234, + "loss": 0.21157799661159515, + "step": 5692 + }, + { + "grad_norm": 0.13296878896840605, + "loss": 0.17310431599617004, + "step": 5693 + }, + { + "grad_norm": 0.16393147836074864, + "loss": 0.24442194402217865, + "step": 5694 + }, + { + "grad_norm": 0.16758788367924582, + "loss": 0.23687505722045898, + "step": 5695 + }, + { + "grad_norm": 0.3394208871932421, + "loss": 0.2485698163509369, + "step": 5696 + }, + { + "grad_norm": 0.7658518261624261, + "loss": 0.22947844862937927, + "step": 5697 + }, + { + "grad_norm": 0.43379652646815237, + "loss": 0.15883904695510864, + "step": 5698 + }, + { + "grad_norm": 0.22572584823055294, + "loss": 0.16666464507579803, + "step": 5699 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 0.22572584450244904, + "learning_rate": 4.1264316191331686e-05, + "loss": 0.2152, + "step": 5700 + }, + { + "grad_norm": 0.15770670423103686, + "loss": 0.17672401666641235, + "step": 5700 + }, + { + "grad_norm": 0.154127729294986, + "loss": 0.1659211367368698, + "step": 5701 + }, + { + "grad_norm": 0.5357963377071203, + "loss": 0.17487254738807678, + "step": 5702 + }, + { + "grad_norm": 0.5673430283719341, + "loss": 0.2205483764410019, + "step": 5703 + }, + { + "grad_norm": 0.19341427058375715, + "loss": 0.26188555359840393, + "step": 5704 + }, + { + "grad_norm": 0.2702504223020049, + "loss": 0.25468289852142334, + "step": 5705 + }, + { + "grad_norm": 0.27923852701262625, + "loss": 0.18168196082115173, + "step": 5706 + }, + { + "grad_norm": 0.1304810535734179, + "loss": 0.17929914593696594, + "step": 5707 + }, + { + "grad_norm": 0.13470946944149118, + "loss": 0.19887156784534454, + "step": 5708 + }, + { + "grad_norm": 0.19288546438474635, + "loss": 0.1925479769706726, + "step": 5709 + }, + { + "epoch": 1.8272, + "grad_norm": 0.19288545846939087, + "learning_rate": 4.115203233774984e-05, + "loss": 0.2007, + "step": 5710 + }, + { + "grad_norm": 0.22173617352192426, + "loss": 0.24438825249671936, + "step": 5710 + }, + { + "grad_norm": 0.3742064736442064, + "loss": 0.24269622564315796, + "step": 5711 + }, + { + "grad_norm": 0.3644351287043124, + "loss": 0.19099655747413635, + "step": 5712 + }, + { + "grad_norm": 0.12947944464660746, + "loss": 0.20249110460281372, + "step": 5713 + }, + { + "grad_norm": 0.30222011499605833, + "loss": 0.18473213911056519, + "step": 5714 + }, + { + "grad_norm": 0.22118201794245532, + "loss": 0.17752684652805328, + "step": 5715 + }, + { + "grad_norm": 0.37684946712746803, + "loss": 0.23245960474014282, + "step": 5716 + }, + { + "grad_norm": 0.15453662136500831, + "loss": 0.1327928751707077, + "step": 5717 + }, + { + "grad_norm": 0.1307646968617973, + "loss": 0.2270551323890686, + "step": 5718 + }, + { + "grad_norm": 0.16341879814219668, + "loss": 0.2110452651977539, + "step": 5719 + }, + { + "epoch": 1.8304, + "grad_norm": 0.16341878473758698, + "learning_rate": 4.103974848416798e-05, + "loss": 0.2046, + "step": 5720 + }, + { + "grad_norm": 0.1873494239734588, + "loss": 0.1766483634710312, + "step": 5720 + }, + { + "grad_norm": 0.19474923969178007, + "loss": 0.17855465412139893, + "step": 5721 + }, + { + "grad_norm": 0.15895817447590815, + "loss": 0.22475853562355042, + "step": 5722 + }, + { + "grad_norm": 0.14641505227361107, + "loss": 0.1705823540687561, + "step": 5723 + }, + { + "grad_norm": 0.22166673772458664, + "loss": 0.18776848912239075, + "step": 5724 + }, + { + "grad_norm": 0.3989201918530351, + "loss": 0.1780278980731964, + "step": 5725 + }, + { + "grad_norm": 0.3912842884988402, + "loss": 0.2041897177696228, + "step": 5726 + }, + { + "grad_norm": 0.10769978827649258, + "loss": 0.21309547126293182, + "step": 5727 + }, + { + "grad_norm": 0.11468848530116585, + "loss": 0.21463456749916077, + "step": 5728 + }, + { + "grad_norm": 0.10802520221156811, + "loss": 0.1748906373977661, + "step": 5729 + }, + { + "epoch": 1.8336000000000001, + "grad_norm": 0.1080252081155777, + "learning_rate": 4.092746463058612e-05, + "loss": 0.1923, + "step": 5730 + }, + { + "grad_norm": 0.09487394099340807, + "loss": 0.18734049797058105, + "step": 5730 + }, + { + "grad_norm": 0.15206827719393445, + "loss": 0.22217856347560883, + "step": 5731 + }, + { + "grad_norm": 0.3126372700320065, + "loss": 0.19181448221206665, + "step": 5732 + }, + { + "grad_norm": 0.14028118664141542, + "loss": 0.19684940576553345, + "step": 5733 + }, + { + "grad_norm": 0.13589878678823836, + "loss": 0.18416231870651245, + "step": 5734 + }, + { + "grad_norm": 0.2936150423646322, + "loss": 0.2684202492237091, + "step": 5735 + }, + { + "grad_norm": 0.3555434554405744, + "loss": 0.2723318040370941, + "step": 5736 + }, + { + "grad_norm": 0.12736756811425337, + "loss": 0.16619551181793213, + "step": 5737 + }, + { + "grad_norm": 0.15257814669167127, + "loss": 0.19272953271865845, + "step": 5738 + }, + { + "grad_norm": 0.27193821044414784, + "loss": 0.21888303756713867, + "step": 5739 + }, + { + "epoch": 1.8368, + "grad_norm": 0.2719382047653198, + "learning_rate": 4.081518077700427e-05, + "loss": 0.2101, + "step": 5740 + }, + { + "grad_norm": 0.3443373106261964, + "loss": 0.16400155425071716, + "step": 5740 + }, + { + "grad_norm": 0.2567306870595185, + "loss": 0.17548781633377075, + "step": 5741 + }, + { + "grad_norm": 0.160773985826406, + "loss": 0.13652753829956055, + "step": 5742 + }, + { + "grad_norm": 0.2380623706867012, + "loss": 0.16270600259304047, + "step": 5743 + }, + { + "grad_norm": 0.16703815717979142, + "loss": 0.16324886679649353, + "step": 5744 + }, + { + "grad_norm": 0.17406929210915248, + "loss": 0.19627538323402405, + "step": 5745 + }, + { + "grad_norm": 0.1902547401769007, + "loss": 0.19519828259944916, + "step": 5746 + }, + { + "grad_norm": 0.24249389897184798, + "loss": 0.14893858134746552, + "step": 5747 + }, + { + "grad_norm": 0.14647468201225708, + "loss": 0.1852121204137802, + "step": 5748 + }, + { + "grad_norm": 0.2168358761434115, + "loss": 0.16097724437713623, + "step": 5749 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 0.2168358713388443, + "learning_rate": 4.070289692342241e-05, + "loss": 0.1689, + "step": 5750 + }, + { + "grad_norm": 0.12848584800608379, + "loss": 0.16520069539546967, + "step": 5750 + }, + { + "grad_norm": 0.21381543487887847, + "loss": 0.19426530599594116, + "step": 5751 + }, + { + "grad_norm": 0.19301878586921428, + "loss": 0.17074275016784668, + "step": 5752 + }, + { + "grad_norm": 0.3389364939774537, + "loss": 0.16439160704612732, + "step": 5753 + }, + { + "grad_norm": 0.25029993410844914, + "loss": 0.15387143194675446, + "step": 5754 + }, + { + "grad_norm": 0.19780032780413276, + "loss": 0.16446539759635925, + "step": 5755 + }, + { + "grad_norm": 0.17178569181067743, + "loss": 0.15490280091762543, + "step": 5756 + }, + { + "grad_norm": 0.22238735632127618, + "loss": 0.19956201314926147, + "step": 5757 + }, + { + "grad_norm": 0.42958632069927516, + "loss": 0.24228382110595703, + "step": 5758 + }, + { + "grad_norm": 0.3165885672180675, + "loss": 0.1807270646095276, + "step": 5759 + }, + { + "epoch": 1.8432, + "grad_norm": 0.31658855080604553, + "learning_rate": 4.059061306984056e-05, + "loss": 0.179, + "step": 5760 + }, + { + "grad_norm": 0.11452107724836535, + "loss": 0.1495797485113144, + "step": 5760 + }, + { + "grad_norm": 0.1930730567141208, + "loss": 0.1582786738872528, + "step": 5761 + }, + { + "grad_norm": 0.2618140248451171, + "loss": 0.15211689472198486, + "step": 5762 + }, + { + "grad_norm": 0.12339461770448282, + "loss": 0.18063603341579437, + "step": 5763 + }, + { + "grad_norm": 0.14790826603944177, + "loss": 0.20235562324523926, + "step": 5764 + }, + { + "grad_norm": 0.14576029531991372, + "loss": 0.1719372570514679, + "step": 5765 + }, + { + "grad_norm": 0.18114252948277934, + "loss": 0.18165694177150726, + "step": 5766 + }, + { + "grad_norm": 0.2073318925876652, + "loss": 0.17309623956680298, + "step": 5767 + }, + { + "grad_norm": 0.15181673411275165, + "loss": 0.17780394852161407, + "step": 5768 + }, + { + "grad_norm": 0.31429605751011747, + "loss": 0.15409252047538757, + "step": 5769 + }, + { + "epoch": 1.8464, + "grad_norm": 0.31429606676101685, + "learning_rate": 4.047832921625871e-05, + "loss": 0.1702, + "step": 5770 + }, + { + "grad_norm": 0.2960327790037124, + "loss": 0.13872969150543213, + "step": 5770 + }, + { + "grad_norm": 0.15085356522637325, + "loss": 0.16683977842330933, + "step": 5771 + }, + { + "grad_norm": 0.13297534273827816, + "loss": 0.17312079668045044, + "step": 5772 + }, + { + "grad_norm": 0.1139354716873009, + "loss": 0.15371061861515045, + "step": 5773 + }, + { + "grad_norm": 0.3093648527638284, + "loss": 0.19684992730617523, + "step": 5774 + }, + { + "grad_norm": 0.5831783646912155, + "loss": 0.24113965034484863, + "step": 5775 + }, + { + "grad_norm": 0.2231009522287365, + "loss": 0.17908184230327606, + "step": 5776 + }, + { + "grad_norm": 0.20790925624677986, + "loss": 0.16456939280033112, + "step": 5777 + }, + { + "grad_norm": 0.22853155288069074, + "loss": 0.1552378386259079, + "step": 5778 + }, + { + "grad_norm": 0.1616881598170676, + "loss": 0.14494748413562775, + "step": 5779 + }, + { + "epoch": 1.8496000000000001, + "grad_norm": 0.16168814897537231, + "learning_rate": 4.0366045362676844e-05, + "loss": 0.1714, + "step": 5780 + }, + { + "grad_norm": 0.40044919555935965, + "loss": 0.1594679206609726, + "step": 5780 + }, + { + "grad_norm": 0.16386328682001297, + "loss": 0.1762700229883194, + "step": 5781 + }, + { + "grad_norm": 0.18362886870262432, + "loss": 0.15931931138038635, + "step": 5782 + }, + { + "grad_norm": 0.32773774275412854, + "loss": 0.16522464156150818, + "step": 5783 + }, + { + "grad_norm": 0.16072227400208136, + "loss": 0.21594567596912384, + "step": 5784 + }, + { + "grad_norm": 0.10699509578397985, + "loss": 0.16710388660430908, + "step": 5785 + }, + { + "grad_norm": 0.2482659822468709, + "loss": 0.19617682695388794, + "step": 5786 + }, + { + "grad_norm": 0.13641078028739984, + "loss": 0.15173177421092987, + "step": 5787 + }, + { + "grad_norm": 0.2603580063899553, + "loss": 0.2112119197845459, + "step": 5788 + }, + { + "grad_norm": 0.20456054285647718, + "loss": 0.2032063603401184, + "step": 5789 + }, + { + "epoch": 1.8528, + "grad_norm": 0.2045605480670929, + "learning_rate": 4.0253761509094995e-05, + "loss": 0.1806, + "step": 5790 + }, + { + "grad_norm": 0.1482594944905059, + "loss": 0.19430242478847504, + "step": 5790 + }, + { + "grad_norm": 0.1909773131320636, + "loss": 0.24725815653800964, + "step": 5791 + }, + { + "grad_norm": 0.41372870727356187, + "loss": 0.18908944725990295, + "step": 5792 + }, + { + "grad_norm": 0.10311343498985262, + "loss": 0.18471333384513855, + "step": 5793 + }, + { + "grad_norm": 0.14210938785526922, + "loss": 0.168406143784523, + "step": 5794 + }, + { + "grad_norm": 0.2219467195261824, + "loss": 0.18871772289276123, + "step": 5795 + }, + { + "grad_norm": 0.3123586694231968, + "loss": 0.19672971963882446, + "step": 5796 + }, + { + "grad_norm": 0.19759037552929173, + "loss": 0.16713425517082214, + "step": 5797 + }, + { + "grad_norm": 0.16623635930912936, + "loss": 0.15098868310451508, + "step": 5798 + }, + { + "grad_norm": 0.1508999947529435, + "loss": 0.233847975730896, + "step": 5799 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 0.1508999913930893, + "learning_rate": 4.014147765551314e-05, + "loss": 0.1921, + "step": 5800 + }, + { + "grad_norm": 0.13419957529563908, + "loss": 0.23594483733177185, + "step": 5800 + }, + { + "grad_norm": 0.21499923939022028, + "loss": 0.21691742539405823, + "step": 5801 + }, + { + "grad_norm": 0.34839206835651226, + "loss": 0.18093490600585938, + "step": 5802 + }, + { + "grad_norm": 0.16862713439221005, + "loss": 0.17054465413093567, + "step": 5803 + }, + { + "grad_norm": 0.1945018012276303, + "loss": 0.2033972144126892, + "step": 5804 + }, + { + "grad_norm": 0.14863487034586959, + "loss": 0.1798025518655777, + "step": 5805 + }, + { + "grad_norm": 0.17694434128092654, + "loss": 0.19105790555477142, + "step": 5806 + }, + { + "grad_norm": 0.2633920437446002, + "loss": 0.20311012864112854, + "step": 5807 + }, + { + "grad_norm": 0.3057787114090009, + "loss": 0.2544741630554199, + "step": 5808 + }, + { + "grad_norm": 0.11083027239395728, + "loss": 0.17758029699325562, + "step": 5809 + }, + { + "epoch": 1.8592, + "grad_norm": 0.11083026975393295, + "learning_rate": 4.002919380193129e-05, + "loss": 0.2014, + "step": 5810 + }, + { + "grad_norm": 0.17570222735889537, + "loss": 0.17570243775844574, + "step": 5810 + }, + { + "grad_norm": 0.09754385839469894, + "loss": 0.15579691529273987, + "step": 5811 + }, + { + "grad_norm": 0.2240095890998028, + "loss": 0.2622045576572418, + "step": 5812 + }, + { + "grad_norm": 0.09804061605449235, + "loss": 0.1629040390253067, + "step": 5813 + }, + { + "grad_norm": 0.24404256421036202, + "loss": 0.19444555044174194, + "step": 5814 + }, + { + "grad_norm": 0.13504021816766218, + "loss": 0.1582532376050949, + "step": 5815 + }, + { + "grad_norm": 0.35708690897026135, + "loss": 0.23735937476158142, + "step": 5816 + }, + { + "grad_norm": 0.1644301834872661, + "loss": 0.15453997254371643, + "step": 5817 + }, + { + "grad_norm": 0.12215690858763135, + "loss": 0.18469741940498352, + "step": 5818 + }, + { + "grad_norm": 0.12911355982048364, + "loss": 0.20086708664894104, + "step": 5819 + }, + { + "epoch": 1.8624, + "grad_norm": 0.1291135549545288, + "learning_rate": 3.9916909948349426e-05, + "loss": 0.1887, + "step": 5820 + }, + { + "grad_norm": 0.16728241720473852, + "loss": 0.15564438700675964, + "step": 5820 + }, + { + "grad_norm": 0.1122782097229958, + "loss": 0.2197500467300415, + "step": 5821 + }, + { + "grad_norm": 0.09589742207715399, + "loss": 0.1945503056049347, + "step": 5822 + }, + { + "grad_norm": 0.12182299095694371, + "loss": 0.16550672054290771, + "step": 5823 + }, + { + "grad_norm": 0.1332491825407873, + "loss": 0.1687420904636383, + "step": 5824 + }, + { + "grad_norm": 0.1392505820299278, + "loss": 0.171535924077034, + "step": 5825 + }, + { + "grad_norm": 0.1510560115845325, + "loss": 0.18678084015846252, + "step": 5826 + }, + { + "grad_norm": 0.26513630502000124, + "loss": 0.16163349151611328, + "step": 5827 + }, + { + "grad_norm": 0.15444468782265286, + "loss": 0.21175521612167358, + "step": 5828 + }, + { + "grad_norm": 0.21965654231283116, + "loss": 0.20545202493667603, + "step": 5829 + }, + { + "epoch": 1.8656000000000001, + "grad_norm": 0.2196565568447113, + "learning_rate": 3.980462609476757e-05, + "loss": 0.1841, + "step": 5830 + }, + { + "grad_norm": 0.15486641550728872, + "loss": 0.20363838970661163, + "step": 5830 + }, + { + "grad_norm": 0.2437564843679581, + "loss": 0.22133894264698029, + "step": 5831 + }, + { + "grad_norm": 0.18781096577495615, + "loss": 0.2581672668457031, + "step": 5832 + }, + { + "grad_norm": 0.38966183038043445, + "loss": 0.15204735100269318, + "step": 5833 + }, + { + "grad_norm": 0.21666067666522415, + "loss": 0.18512941896915436, + "step": 5834 + }, + { + "grad_norm": 0.10827630372803271, + "loss": 0.17244009673595428, + "step": 5835 + }, + { + "grad_norm": 0.16546005372500897, + "loss": 0.17884694039821625, + "step": 5836 + }, + { + "grad_norm": 0.1652066179026379, + "loss": 0.2282358556985855, + "step": 5837 + }, + { + "grad_norm": 0.13026832706055427, + "loss": 0.1933537721633911, + "step": 5838 + }, + { + "grad_norm": 0.1784139957916372, + "loss": 0.18258556723594666, + "step": 5839 + }, + { + "epoch": 1.8688, + "grad_norm": 0.178413987159729, + "learning_rate": 3.969234224118572e-05, + "loss": 0.1976, + "step": 5840 + }, + { + "grad_norm": 0.12001656357736772, + "loss": 0.19059248268604279, + "step": 5840 + }, + { + "grad_norm": 0.1590921036677919, + "loss": 0.1632329821586609, + "step": 5841 + }, + { + "grad_norm": 0.10619432660485295, + "loss": 0.16350217163562775, + "step": 5842 + }, + { + "grad_norm": 0.3985307967716576, + "loss": 0.15700849890708923, + "step": 5843 + }, + { + "grad_norm": 0.14288686715346993, + "loss": 0.1689702272415161, + "step": 5844 + }, + { + "grad_norm": 0.2278792294594568, + "loss": 0.1861145943403244, + "step": 5845 + }, + { + "grad_norm": 0.118697305559917, + "loss": 0.1811200976371765, + "step": 5846 + }, + { + "grad_norm": 0.09525216143421622, + "loss": 0.1826798915863037, + "step": 5847 + }, + { + "grad_norm": 0.2876842502107681, + "loss": 0.25815993547439575, + "step": 5848 + }, + { + "grad_norm": 0.18053842516061816, + "loss": 0.20836475491523743, + "step": 5849 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 0.18053841590881348, + "learning_rate": 3.9580058387603865e-05, + "loss": 0.186, + "step": 5850 + }, + { + "grad_norm": 0.13225259231993994, + "loss": 0.18880176544189453, + "step": 5850 + }, + { + "grad_norm": 0.13863168849545654, + "loss": 0.2203546166419983, + "step": 5851 + }, + { + "grad_norm": 0.16720925641701864, + "loss": 0.20999294519424438, + "step": 5852 + }, + { + "grad_norm": 0.12236586755244185, + "loss": 0.17516134679317474, + "step": 5853 + }, + { + "grad_norm": 0.12904893880135815, + "loss": 0.1648639291524887, + "step": 5854 + }, + { + "grad_norm": 0.3091897002789755, + "loss": 0.19963550567626953, + "step": 5855 + }, + { + "grad_norm": 0.13297000611074125, + "loss": 0.17595720291137695, + "step": 5856 + }, + { + "grad_norm": 0.17040636638577386, + "loss": 0.15786147117614746, + "step": 5857 + }, + { + "grad_norm": 0.466567967105061, + "loss": 0.17840781807899475, + "step": 5858 + }, + { + "grad_norm": 0.11606927124355522, + "loss": 0.17788104712963104, + "step": 5859 + }, + { + "epoch": 1.8752, + "grad_norm": 0.11606927216053009, + "learning_rate": 3.946777453402201e-05, + "loss": 0.1849, + "step": 5860 + }, + { + "grad_norm": 0.3294413322549306, + "loss": 0.2590036690235138, + "step": 5860 + }, + { + "grad_norm": 0.3040355210441887, + "loss": 0.16182899475097656, + "step": 5861 + }, + { + "grad_norm": 0.21413489445395859, + "loss": 0.1521555334329605, + "step": 5862 + }, + { + "grad_norm": 0.2040774237490842, + "loss": 0.22178567945957184, + "step": 5863 + }, + { + "grad_norm": 0.3521099473770147, + "loss": 0.1850280910730362, + "step": 5864 + }, + { + "grad_norm": 0.1994027879614633, + "loss": 0.15594691038131714, + "step": 5865 + }, + { + "grad_norm": 0.26036280424154506, + "loss": 0.24500517547130585, + "step": 5866 + }, + { + "grad_norm": 0.21509713493813004, + "loss": 0.12879638373851776, + "step": 5867 + }, + { + "grad_norm": 0.1719624923352039, + "loss": 0.18949735164642334, + "step": 5868 + }, + { + "grad_norm": 0.10893714708867978, + "loss": 0.1936616599559784, + "step": 5869 + }, + { + "epoch": 1.8784, + "grad_norm": 0.10893714427947998, + "learning_rate": 3.935549068044015e-05, + "loss": 0.1893, + "step": 5870 + }, + { + "grad_norm": 0.17483001253672367, + "loss": 0.15924157202243805, + "step": 5870 + }, + { + "grad_norm": 0.27359942075409344, + "loss": 0.20445001125335693, + "step": 5871 + }, + { + "grad_norm": 0.1017348890157538, + "loss": 0.15827256441116333, + "step": 5872 + }, + { + "grad_norm": 0.14774350285785887, + "loss": 0.21502530574798584, + "step": 5873 + }, + { + "grad_norm": 0.2871800368973423, + "loss": 0.2528744637966156, + "step": 5874 + }, + { + "grad_norm": 0.23390890121068333, + "loss": 0.16363194584846497, + "step": 5875 + }, + { + "grad_norm": 0.51462456387744, + "loss": 0.2811887562274933, + "step": 5876 + }, + { + "grad_norm": 0.17426986370902256, + "loss": 0.20359879732131958, + "step": 5877 + }, + { + "grad_norm": 0.2524763382750578, + "loss": 0.1917990744113922, + "step": 5878 + }, + { + "grad_norm": 0.15770243031858008, + "loss": 0.2105937898159027, + "step": 5879 + }, + { + "epoch": 1.8816000000000002, + "grad_norm": 0.15770243108272552, + "learning_rate": 3.9243206826858297e-05, + "loss": 0.2041, + "step": 5880 + }, + { + "grad_norm": 0.18040921299399476, + "loss": 0.2248189002275467, + "step": 5880 + }, + { + "grad_norm": 0.1318748289647417, + "loss": 0.15854620933532715, + "step": 5881 + }, + { + "grad_norm": 0.1950331441091305, + "loss": 0.18463850021362305, + "step": 5882 + }, + { + "grad_norm": 0.2361263470055332, + "loss": 0.17312005162239075, + "step": 5883 + }, + { + "grad_norm": 0.39235595246467475, + "loss": 0.20937001705169678, + "step": 5884 + }, + { + "grad_norm": 0.2103841514573793, + "loss": 0.20097516477108002, + "step": 5885 + }, + { + "grad_norm": 0.38325870865717715, + "loss": 0.19942763447761536, + "step": 5886 + }, + { + "grad_norm": 0.10571706203943665, + "loss": 0.20749343931674957, + "step": 5887 + }, + { + "grad_norm": 0.29209904158614663, + "loss": 0.1732875257730484, + "step": 5888 + }, + { + "grad_norm": 0.17247072872965488, + "loss": 0.1861497461795807, + "step": 5889 + }, + { + "epoch": 1.8848, + "grad_norm": 0.17247073352336884, + "learning_rate": 3.913092297327645e-05, + "loss": 0.1918, + "step": 5890 + }, + { + "grad_norm": 0.18574378358257299, + "loss": 0.20964361727237701, + "step": 5890 + }, + { + "grad_norm": 0.12556088889136643, + "loss": 0.18827933073043823, + "step": 5891 + }, + { + "grad_norm": 0.15407975493754705, + "loss": 0.1680859625339508, + "step": 5892 + }, + { + "grad_norm": 0.15252922145750314, + "loss": 0.14566335082054138, + "step": 5893 + }, + { + "grad_norm": 0.1618564491850434, + "loss": 0.21670319139957428, + "step": 5894 + }, + { + "grad_norm": 0.15219275156431009, + "loss": 0.24559342861175537, + "step": 5895 + }, + { + "grad_norm": 0.13138860449189294, + "loss": 0.19748477637767792, + "step": 5896 + }, + { + "grad_norm": 0.11215108926887693, + "loss": 0.1777256280183792, + "step": 5897 + }, + { + "grad_norm": 0.3488759130163279, + "loss": 0.22178493440151215, + "step": 5898 + }, + { + "grad_norm": 0.14984384149092153, + "loss": 0.20370438694953918, + "step": 5899 + }, + { + "epoch": 1.888, + "grad_norm": 0.14984384179115295, + "learning_rate": 3.901863911969459e-05, + "loss": 0.1975, + "step": 5900 + }, + { + "grad_norm": 0.07885557719545373, + "loss": 0.13850855827331543, + "step": 5900 + }, + { + "grad_norm": 0.0943289994095543, + "loss": 0.15514200925827026, + "step": 5901 + }, + { + "grad_norm": 0.11456702339752893, + "loss": 0.20181655883789062, + "step": 5902 + }, + { + "grad_norm": 0.2755743381692617, + "loss": 0.21808050572872162, + "step": 5903 + }, + { + "grad_norm": 0.1383593064753206, + "loss": 0.20811529457569122, + "step": 5904 + }, + { + "grad_norm": 0.1445339051878154, + "loss": 0.1548515111207962, + "step": 5905 + }, + { + "grad_norm": 0.490720492514805, + "loss": 0.1413377821445465, + "step": 5906 + }, + { + "grad_norm": 0.1667509557649832, + "loss": 0.17339327931404114, + "step": 5907 + }, + { + "grad_norm": 0.13875255508487275, + "loss": 0.23942174017429352, + "step": 5908 + }, + { + "grad_norm": 0.27113233058891295, + "loss": 0.20734994113445282, + "step": 5909 + }, + { + "epoch": 1.8912, + "grad_norm": 0.27113232016563416, + "learning_rate": 3.8906355266112735e-05, + "loss": 0.1838, + "step": 5910 + }, + { + "grad_norm": 0.14683781333965987, + "loss": 0.22602957487106323, + "step": 5910 + }, + { + "grad_norm": 0.22716658508528173, + "loss": 0.14699842035770416, + "step": 5911 + }, + { + "grad_norm": 0.4525045748629303, + "loss": 0.20455606281757355, + "step": 5912 + }, + { + "grad_norm": 0.19653240490434087, + "loss": 0.21596036851406097, + "step": 5913 + }, + { + "grad_norm": 0.29376792152165054, + "loss": 0.14105503261089325, + "step": 5914 + }, + { + "grad_norm": 0.3104836088118404, + "loss": 0.1947423815727234, + "step": 5915 + }, + { + "grad_norm": 0.15562943227957887, + "loss": 0.16260235011577606, + "step": 5916 + }, + { + "grad_norm": 0.37831314804739236, + "loss": 0.21939025819301605, + "step": 5917 + }, + { + "grad_norm": 0.22723023068528894, + "loss": 0.19506993889808655, + "step": 5918 + }, + { + "grad_norm": 0.3196620455362875, + "loss": 0.25281164050102234, + "step": 5919 + }, + { + "epoch": 1.8944, + "grad_norm": 0.31966206431388855, + "learning_rate": 3.879407141253088e-05, + "loss": 0.1959, + "step": 5920 + }, + { + "grad_norm": 0.27387541594450354, + "loss": 0.15496917068958282, + "step": 5920 + }, + { + "grad_norm": 0.1454102962334219, + "loss": 0.2140578031539917, + "step": 5921 + }, + { + "grad_norm": 0.10996350582827666, + "loss": 0.18527814745903015, + "step": 5922 + }, + { + "grad_norm": 0.2763076838403998, + "loss": 0.21549317240715027, + "step": 5923 + }, + { + "grad_norm": 0.1137425087976704, + "loss": 0.17755469679832458, + "step": 5924 + }, + { + "grad_norm": 0.28735242581726883, + "loss": 0.21948891878128052, + "step": 5925 + }, + { + "grad_norm": 0.3458901826438726, + "loss": 0.17848291993141174, + "step": 5926 + }, + { + "grad_norm": 0.15078469503932768, + "loss": 0.25661706924438477, + "step": 5927 + }, + { + "grad_norm": 0.13120388897592591, + "loss": 0.17651571333408356, + "step": 5928 + }, + { + "grad_norm": 0.16551718151861106, + "loss": 0.13259470462799072, + "step": 5929 + }, + { + "epoch": 1.8976, + "grad_norm": 0.1655171811580658, + "learning_rate": 3.868178755894902e-05, + "loss": 0.1911, + "step": 5930 + }, + { + "grad_norm": 0.12236955897221702, + "loss": 0.19951435923576355, + "step": 5930 + }, + { + "grad_norm": 0.3434211358849079, + "loss": 0.24792857468128204, + "step": 5931 + }, + { + "grad_norm": 0.18245026172526904, + "loss": 0.1829133927822113, + "step": 5932 + }, + { + "grad_norm": 0.2362282408312935, + "loss": 0.19246995449066162, + "step": 5933 + }, + { + "grad_norm": 0.18165581090871408, + "loss": 0.21809247136116028, + "step": 5934 + }, + { + "grad_norm": 0.27110904094940264, + "loss": 0.25143665075302124, + "step": 5935 + }, + { + "grad_norm": 0.17655658164768567, + "loss": 0.15778499841690063, + "step": 5936 + }, + { + "grad_norm": 0.24170518860628706, + "loss": 0.2042952924966812, + "step": 5937 + }, + { + "grad_norm": 0.21189885416184193, + "loss": 0.18144506216049194, + "step": 5938 + }, + { + "grad_norm": 0.46189099180420184, + "loss": 0.17900195717811584, + "step": 5939 + }, + { + "epoch": 1.9008, + "grad_norm": 0.4618909955024719, + "learning_rate": 3.8569503705367174e-05, + "loss": 0.2015, + "step": 5940 + }, + { + "grad_norm": 0.23335638847653245, + "loss": 0.1537458449602127, + "step": 5940 + }, + { + "grad_norm": 0.17568476142154443, + "loss": 0.18545591831207275, + "step": 5941 + }, + { + "grad_norm": 0.1399486120071851, + "loss": 0.1570446789264679, + "step": 5942 + }, + { + "grad_norm": 0.15267858260309997, + "loss": 0.17643120884895325, + "step": 5943 + }, + { + "grad_norm": 0.19109291150647087, + "loss": 0.1920933723449707, + "step": 5944 + }, + { + "grad_norm": 0.3434502824122242, + "loss": 0.21614429354667664, + "step": 5945 + }, + { + "grad_norm": 0.19516847367086143, + "loss": 0.1854834258556366, + "step": 5946 + }, + { + "grad_norm": 0.1258433186261106, + "loss": 0.19856275618076324, + "step": 5947 + }, + { + "grad_norm": 0.2656597098443188, + "loss": 0.1630777269601822, + "step": 5948 + }, + { + "grad_norm": 0.17289946983612636, + "loss": 0.181743323802948, + "step": 5949 + }, + { + "epoch": 1.904, + "grad_norm": 0.17289946973323822, + "learning_rate": 3.845721985178532e-05, + "loss": 0.181, + "step": 5950 + }, + { + "grad_norm": 0.19130907986825238, + "loss": 0.16049769520759583, + "step": 5950 + }, + { + "grad_norm": 0.10309284244737073, + "loss": 0.18492576479911804, + "step": 5951 + }, + { + "grad_norm": 0.298035970079196, + "loss": 0.18813543021678925, + "step": 5952 + }, + { + "grad_norm": 0.1952786235910356, + "loss": 0.17584511637687683, + "step": 5953 + }, + { + "grad_norm": 0.11119195520661114, + "loss": 0.199870303273201, + "step": 5954 + }, + { + "grad_norm": 0.1932779151176737, + "loss": 0.18697628378868103, + "step": 5955 + }, + { + "grad_norm": 0.28780721467320075, + "loss": 0.17773614823818207, + "step": 5956 + }, + { + "grad_norm": 0.1787524120372647, + "loss": 0.1827184557914734, + "step": 5957 + }, + { + "grad_norm": 0.3308122780943188, + "loss": 0.1871310919523239, + "step": 5958 + }, + { + "grad_norm": 0.18293440620280657, + "loss": 0.16095183789730072, + "step": 5959 + }, + { + "epoch": 1.9072, + "grad_norm": 0.18293440341949463, + "learning_rate": 3.834493599820346e-05, + "loss": 0.1805, + "step": 5960 + }, + { + "grad_norm": 0.16172675386493415, + "loss": 0.19524259865283966, + "step": 5960 + }, + { + "grad_norm": 0.5926659204163006, + "loss": 0.29645654559135437, + "step": 5961 + }, + { + "grad_norm": 0.28089734131191224, + "loss": 0.2805619537830353, + "step": 5962 + }, + { + "grad_norm": 0.32495246133333605, + "loss": 0.14821675419807434, + "step": 5963 + }, + { + "grad_norm": 0.3579948964057556, + "loss": 0.16691160202026367, + "step": 5964 + }, + { + "grad_norm": 0.40355401545564235, + "loss": 0.21555277705192566, + "step": 5965 + }, + { + "grad_norm": 0.5326940045639152, + "loss": 0.16780677437782288, + "step": 5966 + }, + { + "grad_norm": 0.22636581490113933, + "loss": 0.21130359172821045, + "step": 5967 + }, + { + "grad_norm": 0.13557014607326132, + "loss": 0.16147980093955994, + "step": 5968 + }, + { + "grad_norm": 0.243020179212027, + "loss": 0.3216400146484375, + "step": 5969 + }, + { + "epoch": 1.9104, + "grad_norm": 0.2430201917886734, + "learning_rate": 3.8232652144621605e-05, + "loss": 0.2165, + "step": 5970 + }, + { + "grad_norm": 0.2527132388757794, + "loss": 0.19512413442134857, + "step": 5970 + }, + { + "grad_norm": 0.18558532676773815, + "loss": 0.1615603119134903, + "step": 5971 + }, + { + "grad_norm": 0.19815727370856664, + "loss": 0.18550501763820648, + "step": 5972 + }, + { + "grad_norm": 0.143071819685757, + "loss": 0.17537502944469452, + "step": 5973 + }, + { + "grad_norm": 0.2581379737761941, + "loss": 0.2099917083978653, + "step": 5974 + }, + { + "grad_norm": 0.1332297430691166, + "loss": 0.19440992176532745, + "step": 5975 + }, + { + "grad_norm": 0.194929391620602, + "loss": 0.2174123376607895, + "step": 5976 + }, + { + "grad_norm": 0.12995240494756788, + "loss": 0.15788507461547852, + "step": 5977 + }, + { + "grad_norm": 0.4456147125569719, + "loss": 0.1976393312215805, + "step": 5978 + }, + { + "grad_norm": 0.21155020354993967, + "loss": 0.16346082091331482, + "step": 5979 + }, + { + "epoch": 1.9136, + "grad_norm": 0.21155020594596863, + "learning_rate": 3.812036829103975e-05, + "loss": 0.1858, + "step": 5980 + }, + { + "grad_norm": 0.1444283253543672, + "loss": 0.18512466549873352, + "step": 5980 + }, + { + "grad_norm": 0.10441884593175597, + "loss": 0.17541654407978058, + "step": 5981 + }, + { + "grad_norm": 0.18831911009801625, + "loss": 0.2049800604581833, + "step": 5982 + }, + { + "grad_norm": 0.21370347361034048, + "loss": 0.20190811157226562, + "step": 5983 + }, + { + "grad_norm": 0.2456034253039604, + "loss": 0.1872977912425995, + "step": 5984 + }, + { + "grad_norm": 0.199078738520219, + "loss": 0.2664632499217987, + "step": 5985 + }, + { + "grad_norm": 0.14776560424336702, + "loss": 0.17600329220294952, + "step": 5986 + }, + { + "grad_norm": 0.2558152401937105, + "loss": 0.26539984345436096, + "step": 5987 + }, + { + "grad_norm": 0.3896587582784278, + "loss": 0.15536701679229736, + "step": 5988 + }, + { + "grad_norm": 0.10135483197276383, + "loss": 0.19290250539779663, + "step": 5989 + }, + { + "epoch": 1.9167999999999998, + "grad_norm": 0.10135482996702194, + "learning_rate": 3.80080844374579e-05, + "loss": 0.2011, + "step": 5990 + }, + { + "grad_norm": 0.3105531366383156, + "loss": 0.21409469842910767, + "step": 5990 + }, + { + "grad_norm": 0.23042110800042198, + "loss": 0.2563786208629608, + "step": 5991 + }, + { + "grad_norm": 0.5710074110282857, + "loss": 0.22347989678382874, + "step": 5992 + }, + { + "grad_norm": 0.14680201005436852, + "loss": 0.19031617045402527, + "step": 5993 + }, + { + "grad_norm": 0.2483365152084146, + "loss": 0.16131672263145447, + "step": 5994 + }, + { + "grad_norm": 0.1365659198247951, + "loss": 0.21678632497787476, + "step": 5995 + }, + { + "grad_norm": 0.20925570748591307, + "loss": 0.25186800956726074, + "step": 5996 + }, + { + "grad_norm": 0.22480836477380198, + "loss": 0.16209205985069275, + "step": 5997 + }, + { + "grad_norm": 0.18717091117507045, + "loss": 0.2037034034729004, + "step": 5998 + }, + { + "grad_norm": 0.3244201212403046, + "loss": 0.1844044327735901, + "step": 5999 + }, + { + "epoch": 1.92, + "grad_norm": 0.32442012429237366, + "learning_rate": 3.789580058387604e-05, + "loss": 0.2064, + "step": 6000 + }, + { + "grad_norm": 0.19708505906536924, + "loss": 0.2501918077468872, + "step": 6000 + }, + { + "grad_norm": 0.12533729689083242, + "loss": 0.23130743205547333, + "step": 6001 + }, + { + "grad_norm": 0.2340567132594856, + "loss": 0.172130286693573, + "step": 6002 + }, + { + "grad_norm": 0.17986660963538692, + "loss": 0.21928095817565918, + "step": 6003 + }, + { + "grad_norm": 0.2606466644275968, + "loss": 0.14020441472530365, + "step": 6004 + }, + { + "grad_norm": 0.26489349161655207, + "loss": 0.1788921356201172, + "step": 6005 + }, + { + "grad_norm": 0.22084097686984472, + "loss": 0.19476410746574402, + "step": 6006 + }, + { + "grad_norm": 0.3185562352728414, + "loss": 0.1844887137413025, + "step": 6007 + }, + { + "grad_norm": 0.16022444777801204, + "loss": 0.22476880252361298, + "step": 6008 + }, + { + "grad_norm": 0.26175261862451155, + "loss": 0.15124954283237457, + "step": 6009 + }, + { + "epoch": 1.9232, + "grad_norm": 0.2617526054382324, + "learning_rate": 3.778351673029418e-05, + "loss": 0.1947, + "step": 6010 + }, + { + "grad_norm": 0.15850063470116973, + "loss": 0.17645061016082764, + "step": 6010 + }, + { + "grad_norm": 0.49915870649361166, + "loss": 0.23894080519676208, + "step": 6011 + }, + { + "grad_norm": 0.4609523171165117, + "loss": 0.2400350272655487, + "step": 6012 + }, + { + "grad_norm": 0.14154831916249946, + "loss": 0.16724514961242676, + "step": 6013 + }, + { + "grad_norm": 0.2257612214219366, + "loss": 0.1877216100692749, + "step": 6014 + }, + { + "grad_norm": 0.20058152311116917, + "loss": 0.14207430183887482, + "step": 6015 + }, + { + "grad_norm": 0.41015931861840815, + "loss": 0.22899992763996124, + "step": 6016 + }, + { + "grad_norm": 0.1416944089019086, + "loss": 0.16993284225463867, + "step": 6017 + }, + { + "grad_norm": 0.24113730256473234, + "loss": 0.22429585456848145, + "step": 6018 + }, + { + "grad_norm": 0.13275581479007725, + "loss": 0.1638563722372055, + "step": 6019 + }, + { + "epoch": 1.9264000000000001, + "grad_norm": 0.1327558159828186, + "learning_rate": 3.767123287671233e-05, + "loss": 0.194, + "step": 6020 + }, + { + "grad_norm": 0.23795097241119587, + "loss": 0.2605573832988739, + "step": 6020 + }, + { + "grad_norm": 0.2572878846320482, + "loss": 0.1916588693857193, + "step": 6021 + }, + { + "grad_norm": 0.13597162732453122, + "loss": 0.17608396708965302, + "step": 6022 + }, + { + "grad_norm": 0.12536942020296565, + "loss": 0.20844267308712006, + "step": 6023 + }, + { + "grad_norm": 0.42861812406349165, + "loss": 0.2965037226676941, + "step": 6024 + }, + { + "grad_norm": 0.16688643868437922, + "loss": 0.198177769780159, + "step": 6025 + }, + { + "grad_norm": 0.1351541596260399, + "loss": 0.23059335350990295, + "step": 6026 + }, + { + "grad_norm": 0.4918863414378618, + "loss": 0.18343107402324677, + "step": 6027 + }, + { + "grad_norm": 0.3854772896120056, + "loss": 0.17998264729976654, + "step": 6028 + }, + { + "grad_norm": 0.36135198772274313, + "loss": 0.19154058396816254, + "step": 6029 + }, + { + "epoch": 1.9296, + "grad_norm": 0.36135196685791016, + "learning_rate": 3.7558949023130475e-05, + "loss": 0.2117, + "step": 6030 + }, + { + "grad_norm": 0.12507898352865698, + "loss": 0.18550895154476166, + "step": 6030 + }, + { + "grad_norm": 0.36769211523489753, + "loss": 0.17192749679088593, + "step": 6031 + }, + { + "grad_norm": 0.2528804345649113, + "loss": 0.20091958343982697, + "step": 6032 + }, + { + "grad_norm": 0.16517695222860448, + "loss": 0.2270834892988205, + "step": 6033 + }, + { + "grad_norm": 0.22327546810826568, + "loss": 0.15593725442886353, + "step": 6034 + }, + { + "grad_norm": 0.1865438981317565, + "loss": 0.14922894537448883, + "step": 6035 + }, + { + "grad_norm": 0.10641667213446127, + "loss": 0.17074504494667053, + "step": 6036 + }, + { + "grad_norm": 0.13647036895257333, + "loss": 0.15418225526809692, + "step": 6037 + }, + { + "grad_norm": 0.21642497673196726, + "loss": 0.1710984855890274, + "step": 6038 + }, + { + "grad_norm": 0.15437702188380426, + "loss": 0.14605161547660828, + "step": 6039 + }, + { + "epoch": 1.9327999999999999, + "grad_norm": 0.1543770283460617, + "learning_rate": 3.744666516954862e-05, + "loss": 0.1733, + "step": 6040 + }, + { + "grad_norm": 0.38452488450198274, + "loss": 0.18576772511005402, + "step": 6040 + }, + { + "grad_norm": 0.3478633659075471, + "loss": 0.1709291934967041, + "step": 6041 + }, + { + "grad_norm": 0.21749602930880732, + "loss": 0.1588878035545349, + "step": 6042 + }, + { + "grad_norm": 0.1284366113228607, + "loss": 0.13995172083377838, + "step": 6043 + }, + { + "grad_norm": 0.3645835717746473, + "loss": 0.18873217701911926, + "step": 6044 + }, + { + "grad_norm": 0.16226276914065077, + "loss": 0.19206754863262177, + "step": 6045 + }, + { + "grad_norm": 0.15609808723234, + "loss": 0.20081403851509094, + "step": 6046 + }, + { + "grad_norm": 0.10339429863701108, + "loss": 0.1844162940979004, + "step": 6047 + }, + { + "grad_norm": 0.10102848594145487, + "loss": 0.17577069997787476, + "step": 6048 + }, + { + "grad_norm": 0.11700883983163901, + "loss": 0.2614925801753998, + "step": 6049 + }, + { + "epoch": 1.936, + "grad_norm": 0.11700884252786636, + "learning_rate": 3.733438131596676e-05, + "loss": 0.1859, + "step": 6050 + }, + { + "grad_norm": 0.15021849122474953, + "loss": 0.1684989333152771, + "step": 6050 + }, + { + "grad_norm": 0.13909030376334577, + "loss": 0.25345346331596375, + "step": 6051 + }, + { + "grad_norm": 0.43656596742112896, + "loss": 0.1927439272403717, + "step": 6052 + }, + { + "grad_norm": 0.14989239148757116, + "loss": 0.14132168889045715, + "step": 6053 + }, + { + "grad_norm": 0.3054975136715934, + "loss": 0.21180622279644012, + "step": 6054 + }, + { + "grad_norm": 0.17702054448987195, + "loss": 0.165566086769104, + "step": 6055 + }, + { + "grad_norm": 0.14081867494069397, + "loss": 0.19997359812259674, + "step": 6056 + }, + { + "grad_norm": 0.23376090317719908, + "loss": 0.21348443627357483, + "step": 6057 + }, + { + "grad_norm": 0.23637403020573602, + "loss": 0.16625121235847473, + "step": 6058 + }, + { + "grad_norm": 0.14853339737496338, + "loss": 0.20626935362815857, + "step": 6059 + }, + { + "epoch": 1.9392, + "grad_norm": 0.1485334038734436, + "learning_rate": 3.722209746238491e-05, + "loss": 0.1919, + "step": 6060 + }, + { + "grad_norm": 0.13724392797383972, + "loss": 0.1785547137260437, + "step": 6060 + }, + { + "grad_norm": 0.13336095795142217, + "loss": 0.16888219118118286, + "step": 6061 + }, + { + "grad_norm": 0.1596976707317553, + "loss": 0.2688693702220917, + "step": 6062 + }, + { + "grad_norm": 0.4077464183776104, + "loss": 0.1684553623199463, + "step": 6063 + }, + { + "grad_norm": 0.16236011404607564, + "loss": 0.2014847844839096, + "step": 6064 + }, + { + "grad_norm": 0.30086093556465415, + "loss": 0.15813025832176208, + "step": 6065 + }, + { + "grad_norm": 0.14569244569291223, + "loss": 0.17146526277065277, + "step": 6066 + }, + { + "grad_norm": 0.2149451863963741, + "loss": 0.17620953917503357, + "step": 6067 + }, + { + "grad_norm": 0.18993220650789888, + "loss": 0.1587342917919159, + "step": 6068 + }, + { + "grad_norm": 0.19141430116114883, + "loss": 0.19362854957580566, + "step": 6069 + }, + { + "epoch": 1.9424000000000001, + "grad_norm": 0.19141431152820587, + "learning_rate": 3.710981360880306e-05, + "loss": 0.1844, + "step": 6070 + }, + { + "grad_norm": 0.3211207557521876, + "loss": 0.2307811975479126, + "step": 6070 + }, + { + "grad_norm": 0.25435137225497234, + "loss": 0.25548094511032104, + "step": 6071 + }, + { + "grad_norm": 0.19870973185195528, + "loss": 0.1742924004793167, + "step": 6072 + }, + { + "grad_norm": 0.2523576049460181, + "loss": 0.23286870121955872, + "step": 6073 + }, + { + "grad_norm": 0.5236724425583796, + "loss": 0.2752687335014343, + "step": 6074 + }, + { + "grad_norm": 0.128156301066781, + "loss": 0.15408246219158173, + "step": 6075 + }, + { + "grad_norm": 0.21245852487072556, + "loss": 0.251898854970932, + "step": 6076 + }, + { + "grad_norm": 0.14557659535608658, + "loss": 0.2324516326189041, + "step": 6077 + }, + { + "grad_norm": 0.17552109769673854, + "loss": 0.265139102935791, + "step": 6078 + }, + { + "grad_norm": 0.19183652390034653, + "loss": 0.21241086721420288, + "step": 6079 + }, + { + "epoch": 1.9456, + "grad_norm": 0.19183652102947235, + "learning_rate": 3.69975297552212e-05, + "loss": 0.2285, + "step": 6080 + }, + { + "grad_norm": 0.339429873498907, + "loss": 0.17904652655124664, + "step": 6080 + }, + { + "grad_norm": 0.27490380402626713, + "loss": 0.16836272180080414, + "step": 6081 + }, + { + "grad_norm": 0.28534328462574493, + "loss": 0.19321425259113312, + "step": 6082 + }, + { + "grad_norm": 0.1332863379355268, + "loss": 0.19287127256393433, + "step": 6083 + }, + { + "grad_norm": 0.21999803555362785, + "loss": 0.27060627937316895, + "step": 6084 + }, + { + "grad_norm": 0.23120657285798243, + "loss": 0.17725037038326263, + "step": 6085 + }, + { + "grad_norm": 0.21394376526905967, + "loss": 0.19905149936676025, + "step": 6086 + }, + { + "grad_norm": 0.13608540099865105, + "loss": 0.19714009761810303, + "step": 6087 + }, + { + "grad_norm": 0.18591812534461283, + "loss": 0.2691969573497772, + "step": 6088 + }, + { + "grad_norm": 0.18686806335434114, + "loss": 0.14180894196033478, + "step": 6089 + }, + { + "epoch": 1.9487999999999999, + "grad_norm": 0.1868680715560913, + "learning_rate": 3.6885245901639346e-05, + "loss": 0.1989, + "step": 6090 + }, + { + "grad_norm": 0.1413454639568984, + "loss": 0.22907809913158417, + "step": 6090 + }, + { + "grad_norm": 0.2165115452480425, + "loss": 0.2160111367702484, + "step": 6091 + }, + { + "grad_norm": 0.13145608464974673, + "loss": 0.16607710719108582, + "step": 6092 + }, + { + "grad_norm": 0.35585167309617544, + "loss": 0.2006164938211441, + "step": 6093 + }, + { + "grad_norm": 0.11769532552853539, + "loss": 0.20390638709068298, + "step": 6094 + }, + { + "grad_norm": 0.2105115719237612, + "loss": 0.1985388994216919, + "step": 6095 + }, + { + "grad_norm": 0.1973180115810339, + "loss": 0.2133898138999939, + "step": 6096 + }, + { + "grad_norm": 0.22932227407794606, + "loss": 0.2045053094625473, + "step": 6097 + }, + { + "grad_norm": 0.28326740358019936, + "loss": 0.20694804191589355, + "step": 6098 + }, + { + "grad_norm": 0.16714945849510582, + "loss": 0.1624160259962082, + "step": 6099 + }, + { + "epoch": 1.952, + "grad_norm": 0.16714945435523987, + "learning_rate": 3.677296204805749e-05, + "loss": 0.2001, + "step": 6100 + }, + { + "grad_norm": 0.13330417950811915, + "loss": 0.23439344763755798, + "step": 6100 + }, + { + "grad_norm": 0.1513295829654299, + "loss": 0.16131815314292908, + "step": 6101 + }, + { + "grad_norm": 0.2650219124638759, + "loss": 0.1640067994594574, + "step": 6102 + }, + { + "grad_norm": 0.4265578457141146, + "loss": 0.31461769342422485, + "step": 6103 + }, + { + "grad_norm": 0.23697829711273752, + "loss": 0.13863833248615265, + "step": 6104 + }, + { + "grad_norm": 0.279938984960845, + "loss": 0.1809585839509964, + "step": 6105 + }, + { + "grad_norm": 0.12944932036292758, + "loss": 0.19303368031978607, + "step": 6106 + }, + { + "grad_norm": 0.46272400800843, + "loss": 0.21575258672237396, + "step": 6107 + }, + { + "grad_norm": 0.16533798047711387, + "loss": 0.19721023738384247, + "step": 6108 + }, + { + "grad_norm": 0.23409945777539787, + "loss": 0.2142530083656311, + "step": 6109 + }, + { + "epoch": 1.9552, + "grad_norm": 0.23409946262836456, + "learning_rate": 3.666067819447563e-05, + "loss": 0.2014, + "step": 6110 + }, + { + "grad_norm": 0.12115728309435247, + "loss": 0.14987953007221222, + "step": 6110 + }, + { + "grad_norm": 0.29561498255109697, + "loss": 0.18570715188980103, + "step": 6111 + }, + { + "grad_norm": 0.10428181318037825, + "loss": 0.15747037529945374, + "step": 6112 + }, + { + "grad_norm": 0.3810137978842649, + "loss": 0.18399961292743683, + "step": 6113 + }, + { + "grad_norm": 0.17868603870774252, + "loss": 0.1533166766166687, + "step": 6114 + }, + { + "grad_norm": 0.18056897196176405, + "loss": 0.18151701986789703, + "step": 6115 + }, + { + "grad_norm": 0.1447719340730352, + "loss": 0.22890689969062805, + "step": 6116 + }, + { + "grad_norm": 0.14498210633070582, + "loss": 0.2100803554058075, + "step": 6117 + }, + { + "grad_norm": 0.20532909389265966, + "loss": 0.20836728811264038, + "step": 6118 + }, + { + "grad_norm": 0.21532041187574405, + "loss": 0.2371692657470703, + "step": 6119 + }, + { + "epoch": 1.9584000000000001, + "grad_norm": 0.2153204083442688, + "learning_rate": 3.6548394340893784e-05, + "loss": 0.1896, + "step": 6120 + }, + { + "grad_norm": 0.14067635111791402, + "loss": 0.19824126362800598, + "step": 6120 + }, + { + "grad_norm": 0.15509099201966625, + "loss": 0.20384404063224792, + "step": 6121 + }, + { + "grad_norm": 0.17162992193032528, + "loss": 0.18432021141052246, + "step": 6122 + }, + { + "grad_norm": 0.3013608891891867, + "loss": 0.17010945081710815, + "step": 6123 + }, + { + "grad_norm": 0.1355555869147997, + "loss": 0.21034853160381317, + "step": 6124 + }, + { + "grad_norm": 0.09468063354098728, + "loss": 0.21550825238227844, + "step": 6125 + }, + { + "grad_norm": 0.2123314778623057, + "loss": 0.18429487943649292, + "step": 6126 + }, + { + "grad_norm": 0.31012259809200365, + "loss": 0.19168621301651, + "step": 6127 + }, + { + "grad_norm": 0.12283524909232049, + "loss": 0.1791428029537201, + "step": 6128 + }, + { + "grad_norm": 0.12315435188648512, + "loss": 0.15794551372528076, + "step": 6129 + }, + { + "epoch": 1.9616, + "grad_norm": 0.12315434217453003, + "learning_rate": 3.643611048731193e-05, + "loss": 0.1895, + "step": 6130 + }, + { + "grad_norm": 0.5140288716975896, + "loss": 0.2656121551990509, + "step": 6130 + }, + { + "grad_norm": 0.11025434820262062, + "loss": 0.16633197665214539, + "step": 6131 + }, + { + "grad_norm": 0.5013195872188696, + "loss": 0.18243862688541412, + "step": 6132 + }, + { + "grad_norm": 0.11404267625137086, + "loss": 0.18832269310951233, + "step": 6133 + }, + { + "grad_norm": 0.17859402792147677, + "loss": 0.1741155982017517, + "step": 6134 + }, + { + "grad_norm": 0.165048982726082, + "loss": 0.2503639757633209, + "step": 6135 + }, + { + "grad_norm": 0.14205340761092175, + "loss": 0.16680322587490082, + "step": 6136 + }, + { + "grad_norm": 0.17418473724730743, + "loss": 0.17173446714878082, + "step": 6137 + }, + { + "grad_norm": 0.09998047535656072, + "loss": 0.17279398441314697, + "step": 6138 + }, + { + "grad_norm": 0.1856026252646473, + "loss": 0.18115857243537903, + "step": 6139 + }, + { + "epoch": 1.9647999999999999, + "grad_norm": 0.185602605342865, + "learning_rate": 3.632382663373007e-05, + "loss": 0.192, + "step": 6140 + }, + { + "grad_norm": 0.1713780926791062, + "loss": 0.19230179488658905, + "step": 6140 + }, + { + "grad_norm": 0.17955519232822467, + "loss": 0.18751707673072815, + "step": 6141 + }, + { + "grad_norm": 0.23808069590891026, + "loss": 0.18346253037452698, + "step": 6142 + }, + { + "grad_norm": 0.16772679093024656, + "loss": 0.16051851212978363, + "step": 6143 + }, + { + "grad_norm": 0.14948339011580022, + "loss": 0.19366435706615448, + "step": 6144 + }, + { + "grad_norm": 0.13686375825025465, + "loss": 0.2344115823507309, + "step": 6145 + }, + { + "grad_norm": 0.4417980573126093, + "loss": 0.1654576063156128, + "step": 6146 + }, + { + "grad_norm": 0.29944958304489855, + "loss": 0.1849760115146637, + "step": 6147 + }, + { + "grad_norm": 0.18822625776323634, + "loss": 0.17109376192092896, + "step": 6148 + }, + { + "grad_norm": 0.13600108697580085, + "loss": 0.18496431410312653, + "step": 6149 + }, + { + "epoch": 1.968, + "grad_norm": 0.1360010802745819, + "learning_rate": 3.6211542780148216e-05, + "loss": 0.1858, + "step": 6150 + }, + { + "grad_norm": 0.1045311907944607, + "loss": 0.240640789270401, + "step": 6150 + }, + { + "grad_norm": 0.343181858577968, + "loss": 0.13852299749851227, + "step": 6151 + }, + { + "grad_norm": 0.11352361657782753, + "loss": 0.15157794952392578, + "step": 6152 + }, + { + "grad_norm": 0.1574158497657213, + "loss": 0.1831461787223816, + "step": 6153 + }, + { + "grad_norm": 0.1346438962238707, + "loss": 0.1724972128868103, + "step": 6154 + }, + { + "grad_norm": 0.1779144918598636, + "loss": 0.19489210844039917, + "step": 6155 + }, + { + "grad_norm": 0.4686702220145418, + "loss": 0.25081709027290344, + "step": 6156 + }, + { + "grad_norm": 0.1472796104909405, + "loss": 0.16570377349853516, + "step": 6157 + }, + { + "grad_norm": 0.14235897521339397, + "loss": 0.19426749646663666, + "step": 6158 + }, + { + "grad_norm": 0.15563714787179483, + "loss": 0.22747290134429932, + "step": 6159 + }, + { + "epoch": 1.9712, + "grad_norm": 0.15563714504241943, + "learning_rate": 3.609925892656636e-05, + "loss": 0.192, + "step": 6160 + }, + { + "grad_norm": 0.15456510491648023, + "loss": 0.19598817825317383, + "step": 6160 + }, + { + "grad_norm": 0.16071941226234285, + "loss": 0.1671546995639801, + "step": 6161 + }, + { + "grad_norm": 0.2533188589583563, + "loss": 0.18393561244010925, + "step": 6162 + }, + { + "grad_norm": 0.09229376641436679, + "loss": 0.13142205774784088, + "step": 6163 + }, + { + "grad_norm": 0.1935611973796273, + "loss": 0.1537359654903412, + "step": 6164 + }, + { + "grad_norm": 0.19209243547584215, + "loss": 0.19668711721897125, + "step": 6165 + }, + { + "grad_norm": 0.2917983977946831, + "loss": 0.1582200527191162, + "step": 6166 + }, + { + "grad_norm": 0.1956464527453806, + "loss": 0.1876336634159088, + "step": 6167 + }, + { + "grad_norm": 0.16720172048218562, + "loss": 0.15575601160526276, + "step": 6168 + }, + { + "grad_norm": 0.21236269948328587, + "loss": 0.1756027340888977, + "step": 6169 + }, + { + "epoch": 1.9744000000000002, + "grad_norm": 0.21236270666122437, + "learning_rate": 3.598697507298451e-05, + "loss": 0.1706, + "step": 6170 + }, + { + "grad_norm": 0.10288864175324476, + "loss": 0.16149385273456573, + "step": 6170 + }, + { + "grad_norm": 0.17537435124708328, + "loss": 0.23007065057754517, + "step": 6171 + }, + { + "grad_norm": 0.2768602474049585, + "loss": 0.23109090328216553, + "step": 6172 + }, + { + "grad_norm": 0.18553056438973106, + "loss": 0.16397176682949066, + "step": 6173 + }, + { + "grad_norm": 0.12503537713366222, + "loss": 0.19083334505558014, + "step": 6174 + }, + { + "grad_norm": 0.23775431885999296, + "loss": 0.23709934949874878, + "step": 6175 + }, + { + "grad_norm": 0.1715594947071297, + "loss": 0.16200196743011475, + "step": 6176 + }, + { + "grad_norm": 0.3734189289524033, + "loss": 0.2083217352628708, + "step": 6177 + }, + { + "grad_norm": 0.2525732844434246, + "loss": 0.21307377517223358, + "step": 6178 + }, + { + "grad_norm": 0.4081701382626018, + "loss": 0.21579933166503906, + "step": 6179 + }, + { + "epoch": 1.9776, + "grad_norm": 0.4081701338291168, + "learning_rate": 3.587469121940265e-05, + "loss": 0.2014, + "step": 6180 + }, + { + "grad_norm": 0.16677217751167986, + "loss": 0.217559814453125, + "step": 6180 + }, + { + "grad_norm": 0.1625658743354718, + "loss": 0.21475447714328766, + "step": 6181 + }, + { + "grad_norm": 0.35714433729591893, + "loss": 0.15572895109653473, + "step": 6182 + }, + { + "grad_norm": 0.22415670422138098, + "loss": 0.17594310641288757, + "step": 6183 + }, + { + "grad_norm": 0.14271713594803992, + "loss": 0.17762094736099243, + "step": 6184 + }, + { + "grad_norm": 0.16562815017130025, + "loss": 0.20237129926681519, + "step": 6185 + }, + { + "grad_norm": 0.12564186505760377, + "loss": 0.18441706895828247, + "step": 6186 + }, + { + "grad_norm": 0.1575397179426993, + "loss": 0.15594887733459473, + "step": 6187 + }, + { + "grad_norm": 0.25086726291549144, + "loss": 0.27813994884490967, + "step": 6188 + }, + { + "grad_norm": 0.18205950018787606, + "loss": 0.16836312413215637, + "step": 6189 + }, + { + "epoch": 1.9808, + "grad_norm": 0.18205949664115906, + "learning_rate": 3.57624073658208e-05, + "loss": 0.1931, + "step": 6190 + }, + { + "grad_norm": 0.11572446396383057, + "loss": 0.18560287356376648, + "step": 6190 + }, + { + "grad_norm": 0.1331338969789047, + "loss": 0.2377423793077469, + "step": 6191 + }, + { + "grad_norm": 0.31745285467956696, + "loss": 0.17728061974048615, + "step": 6192 + }, + { + "grad_norm": 0.15215915662536705, + "loss": 0.16323097050189972, + "step": 6193 + }, + { + "grad_norm": 0.2941973813338373, + "loss": 0.2809620201587677, + "step": 6194 + }, + { + "grad_norm": 0.258442175704907, + "loss": 0.18395273387432098, + "step": 6195 + }, + { + "grad_norm": 0.11895063522226987, + "loss": 0.20134049654006958, + "step": 6196 + }, + { + "grad_norm": 0.6581248788773875, + "loss": 0.17778348922729492, + "step": 6197 + }, + { + "grad_norm": 0.13196945879570018, + "loss": 0.22245940566062927, + "step": 6198 + }, + { + "grad_norm": 0.3085598692266899, + "loss": 0.22725540399551392, + "step": 6199 + }, + { + "epoch": 1.984, + "grad_norm": 0.3085598945617676, + "learning_rate": 3.565012351223894e-05, + "loss": 0.2058, + "step": 6200 + }, + { + "grad_norm": 0.2839963501438316, + "loss": 0.14959511160850525, + "step": 6200 + }, + { + "grad_norm": 0.3167938838260129, + "loss": 0.18389013409614563, + "step": 6201 + }, + { + "grad_norm": 0.19940600711098588, + "loss": 0.2037588506937027, + "step": 6202 + }, + { + "grad_norm": 0.2219557975114187, + "loss": 0.19639253616333008, + "step": 6203 + }, + { + "grad_norm": 0.2703443810200454, + "loss": 0.14098504185676575, + "step": 6204 + }, + { + "grad_norm": 0.13435167953638666, + "loss": 0.17907938361167908, + "step": 6205 + }, + { + "grad_norm": 0.2016236191323765, + "loss": 0.17345504462718964, + "step": 6206 + }, + { + "grad_norm": 0.15647449674152103, + "loss": 0.19383969902992249, + "step": 6207 + }, + { + "grad_norm": 0.2786887203844415, + "loss": 0.20349784195423126, + "step": 6208 + }, + { + "grad_norm": 0.40104900350095296, + "loss": 0.20613905787467957, + "step": 6209 + }, + { + "epoch": 1.9872, + "grad_norm": 0.4010489881038666, + "learning_rate": 3.5537839658657086e-05, + "loss": 0.1831, + "step": 6210 + }, + { + "grad_norm": 0.27145410864734215, + "loss": 0.2631048560142517, + "step": 6210 + }, + { + "grad_norm": 0.13593110863831565, + "loss": 0.20542623102664948, + "step": 6211 + }, + { + "grad_norm": 0.19931437993962559, + "loss": 0.20111161470413208, + "step": 6212 + }, + { + "grad_norm": 0.20565379657946176, + "loss": 0.1975845992565155, + "step": 6213 + }, + { + "grad_norm": 0.14790140772079607, + "loss": 0.1647580862045288, + "step": 6214 + }, + { + "grad_norm": 0.3076966509191348, + "loss": 0.17626401782035828, + "step": 6215 + }, + { + "grad_norm": 0.20056146006521486, + "loss": 0.18080808222293854, + "step": 6216 + }, + { + "grad_norm": 0.11265915273820604, + "loss": 0.15539716184139252, + "step": 6217 + }, + { + "grad_norm": 0.17182953101391482, + "loss": 0.1948854625225067, + "step": 6218 + }, + { + "grad_norm": 0.14054066530116863, + "loss": 0.16446006298065186, + "step": 6219 + }, + { + "epoch": 1.9904, + "grad_norm": 0.14054065942764282, + "learning_rate": 3.542555580507524e-05, + "loss": 0.1904, + "step": 6220 + }, + { + "grad_norm": 0.2368710182941271, + "loss": 0.1919189840555191, + "step": 6220 + }, + { + "grad_norm": 0.3628254169095174, + "loss": 0.2115630954504013, + "step": 6221 + }, + { + "grad_norm": 0.18306242429623118, + "loss": 0.2046821415424347, + "step": 6222 + }, + { + "grad_norm": 0.39123045301584924, + "loss": 0.18040511012077332, + "step": 6223 + }, + { + "grad_norm": 0.12724188030449532, + "loss": 0.21450935304164886, + "step": 6224 + }, + { + "grad_norm": 0.4374688022309661, + "loss": 0.23599323630332947, + "step": 6225 + }, + { + "grad_norm": 0.5374685799347777, + "loss": 0.269248902797699, + "step": 6226 + }, + { + "grad_norm": 0.13788444325919008, + "loss": 0.1946628838777542, + "step": 6227 + }, + { + "grad_norm": 0.2688219872010742, + "loss": 0.1730831265449524, + "step": 6228 + }, + { + "grad_norm": 0.14924604500058553, + "loss": 0.17390064895153046, + "step": 6229 + }, + { + "epoch": 1.9936, + "grad_norm": 0.14924605190753937, + "learning_rate": 3.5313271951493374e-05, + "loss": 0.205, + "step": 6230 + }, + { + "grad_norm": 0.12489142466734533, + "loss": 0.1403910368680954, + "step": 6230 + }, + { + "grad_norm": 0.20187255952040992, + "loss": 0.16783906519412994, + "step": 6231 + }, + { + "grad_norm": 0.17782864400071224, + "loss": 0.14835995435714722, + "step": 6232 + }, + { + "grad_norm": 0.14684392896956308, + "loss": 0.18123479187488556, + "step": 6233 + }, + { + "grad_norm": 0.19315162815808687, + "loss": 0.15783287584781647, + "step": 6234 + }, + { + "grad_norm": 0.16853651577640089, + "loss": 0.18375687301158905, + "step": 6235 + }, + { + "grad_norm": 0.23419827848210173, + "loss": 0.16345597803592682, + "step": 6236 + }, + { + "grad_norm": 0.1998892842865234, + "loss": 0.16588127613067627, + "step": 6237 + }, + { + "grad_norm": 0.39622172294842634, + "loss": 0.1974489539861679, + "step": 6238 + }, + { + "grad_norm": 0.11415160095716863, + "loss": 0.22846534848213196, + "step": 6239 + }, + { + "epoch": 1.9968, + "grad_norm": 0.11415160447359085, + "learning_rate": 3.5200988097911524e-05, + "loss": 0.1735, + "step": 6240 + }, + { + "grad_norm": 0.141051002912291, + "loss": 0.17270329594612122, + "step": 6240 + }, + { + "grad_norm": 0.14144521565434032, + "loss": 0.18802198767662048, + "step": 6241 + }, + { + "grad_norm": 0.17379539280647333, + "loss": 0.21077096462249756, + "step": 6242 + }, + { + "grad_norm": 0.356084801331801, + "loss": 0.2313011735677719, + "step": 6243 + }, + { + "grad_norm": 0.2038851273563779, + "loss": 0.21768614649772644, + "step": 6244 + }, + { + "grad_norm": 0.12243414432484889, + "loss": 0.15372246503829956, + "step": 6245 + }, + { + "grad_norm": 0.09385627722622532, + "loss": 0.14462146162986755, + "step": 6246 + }, + { + "grad_norm": 0.32733774576100977, + "loss": 0.183188796043396, + "step": 6247 + }, + { + "grad_norm": 0.25864650177223536, + "loss": 0.17445094883441925, + "step": 6248 + }, + { + "grad_norm": 0.3156155063971973, + "loss": 0.18602915108203888, + "step": 6249 + }, + { + "epoch": 2.0, + "grad_norm": 0.3156155049800873, + "learning_rate": 3.508870424432967e-05, + "loss": 0.1862, + "step": 6250 + }, + { + "grad_norm": 0.18977441721665153, + "loss": 0.1595323532819748, + "step": 6250 + }, + { + "grad_norm": 0.13439789584821787, + "loss": 0.1862635463476181, + "step": 6251 + }, + { + "grad_norm": 0.15369632848332876, + "loss": 0.16471511125564575, + "step": 6252 + }, + { + "grad_norm": 0.10543516215997072, + "loss": 0.17764776945114136, + "step": 6253 + }, + { + "grad_norm": 0.2622740173565941, + "loss": 0.15059393644332886, + "step": 6254 + }, + { + "grad_norm": 0.2449145075273965, + "loss": 0.20099103450775146, + "step": 6255 + }, + { + "grad_norm": 0.4596427604260814, + "loss": 0.2060890942811966, + "step": 6256 + }, + { + "grad_norm": 0.29454548629659627, + "loss": 0.16173318028450012, + "step": 6257 + }, + { + "grad_norm": 0.14688510711245353, + "loss": 0.18458038568496704, + "step": 6258 + }, + { + "grad_norm": 0.1924785495151328, + "loss": 0.1659471094608307, + "step": 6259 + }, + { + "epoch": 2.0032, + "grad_norm": 0.19247853755950928, + "learning_rate": 3.497642039074781e-05, + "loss": 0.1758, + "step": 6260 + }, + { + "grad_norm": 0.11151164095347747, + "loss": 0.18389993906021118, + "step": 6260 + }, + { + "grad_norm": 0.28331318910036946, + "loss": 0.16934439539909363, + "step": 6261 + }, + { + "grad_norm": 0.347473781626371, + "loss": 0.16991782188415527, + "step": 6262 + }, + { + "grad_norm": 0.43134186966837657, + "loss": 0.16302788257598877, + "step": 6263 + }, + { + "grad_norm": 0.26151253569047844, + "loss": 0.16249248385429382, + "step": 6264 + }, + { + "grad_norm": 0.13704210217295001, + "loss": 0.17337214946746826, + "step": 6265 + }, + { + "grad_norm": 0.2159428445568397, + "loss": 0.20592916011810303, + "step": 6266 + }, + { + "grad_norm": 0.2655215507173623, + "loss": 0.20190027356147766, + "step": 6267 + }, + { + "grad_norm": 0.12274569860780304, + "loss": 0.16749951243400574, + "step": 6268 + }, + { + "grad_norm": 0.3346346336515093, + "loss": 0.15920452773571014, + "step": 6269 + }, + { + "epoch": 2.0064, + "grad_norm": 0.3346346616744995, + "learning_rate": 3.4864136537165956e-05, + "loss": 0.1757, + "step": 6270 + }, + { + "grad_norm": 0.256475945863878, + "loss": 0.21730685234069824, + "step": 6270 + }, + { + "grad_norm": 0.1735497376332626, + "loss": 0.15608751773834229, + "step": 6271 + }, + { + "grad_norm": 0.21824882383061348, + "loss": 0.1305694729089737, + "step": 6272 + }, + { + "grad_norm": 0.17450808943240548, + "loss": 0.18487465381622314, + "step": 6273 + }, + { + "grad_norm": 0.377276804304802, + "loss": 0.15787899494171143, + "step": 6274 + }, + { + "grad_norm": 0.19943758420439883, + "loss": 0.16865897178649902, + "step": 6275 + }, + { + "grad_norm": 0.1898982465766505, + "loss": 0.19083595275878906, + "step": 6276 + }, + { + "grad_norm": 0.41209132686173916, + "loss": 0.1997312605381012, + "step": 6277 + }, + { + "grad_norm": 0.0848327938312318, + "loss": 0.1877862811088562, + "step": 6278 + }, + { + "grad_norm": 0.12410331469357634, + "loss": 0.13816750049591064, + "step": 6279 + }, + { + "epoch": 2.0096, + "grad_norm": 0.12410330772399902, + "learning_rate": 3.47518526835841e-05, + "loss": 0.1732, + "step": 6280 + }, + { + "grad_norm": 0.15437132359046252, + "loss": 0.1594332754611969, + "step": 6280 + }, + { + "grad_norm": 0.24138960421956593, + "loss": 0.20646581053733826, + "step": 6281 + }, + { + "grad_norm": 0.17279160261797097, + "loss": 0.16662046313285828, + "step": 6282 + }, + { + "grad_norm": 0.5082619244844502, + "loss": 0.25821205973625183, + "step": 6283 + }, + { + "grad_norm": 0.15862728039036156, + "loss": 0.160568505525589, + "step": 6284 + }, + { + "grad_norm": 0.18800191910567937, + "loss": 0.1951332539319992, + "step": 6285 + }, + { + "grad_norm": 0.1542006864470102, + "loss": 0.16523811221122742, + "step": 6286 + }, + { + "grad_norm": 0.1792960778509189, + "loss": 0.18774715065956116, + "step": 6287 + }, + { + "grad_norm": 0.31013162404929423, + "loss": 0.19319026172161102, + "step": 6288 + }, + { + "grad_norm": 0.15320190630252717, + "loss": 0.16132670640945435, + "step": 6289 + }, + { + "epoch": 2.0128, + "grad_norm": 0.1532019078731537, + "learning_rate": 3.4639568830002244e-05, + "loss": 0.1854, + "step": 6290 + }, + { + "grad_norm": 0.2662613980833443, + "loss": 0.16841299831867218, + "step": 6290 + }, + { + "grad_norm": 0.1587110954230596, + "loss": 0.14132438600063324, + "step": 6291 + }, + { + "grad_norm": 0.3036368190928578, + "loss": 0.21251939237117767, + "step": 6292 + }, + { + "grad_norm": 0.15217507634090233, + "loss": 0.18561109900474548, + "step": 6293 + }, + { + "grad_norm": 0.21986055383193165, + "loss": 0.1719798892736435, + "step": 6294 + }, + { + "grad_norm": 0.17527711574660892, + "loss": 0.1625908613204956, + "step": 6295 + }, + { + "grad_norm": 0.232625027167522, + "loss": 0.23640669882297516, + "step": 6296 + }, + { + "grad_norm": 0.46685007673017775, + "loss": 0.24733763933181763, + "step": 6297 + }, + { + "grad_norm": 0.35137274356468967, + "loss": 0.24244654178619385, + "step": 6298 + }, + { + "grad_norm": 0.12374982086270694, + "loss": 0.1865973174571991, + "step": 6299 + }, + { + "epoch": 2.016, + "grad_norm": 0.12374981492757797, + "learning_rate": 3.4527284976420395e-05, + "loss": 0.1955, + "step": 6300 + }, + { + "grad_norm": 0.12861826648608063, + "loss": 0.27496227622032166, + "step": 6300 + }, + { + "grad_norm": 0.22160814603546547, + "loss": 0.23024334013462067, + "step": 6301 + }, + { + "grad_norm": 0.1933561123702382, + "loss": 0.18262824416160583, + "step": 6302 + }, + { + "grad_norm": 0.15260360965181588, + "loss": 0.17209000885486603, + "step": 6303 + }, + { + "grad_norm": 0.10986673579018494, + "loss": 0.19534170627593994, + "step": 6304 + }, + { + "grad_norm": 0.1460646396046009, + "loss": 0.20053492486476898, + "step": 6305 + }, + { + "grad_norm": 0.45823016380783554, + "loss": 0.1870572865009308, + "step": 6306 + }, + { + "grad_norm": 0.1959591065022909, + "loss": 0.2030194103717804, + "step": 6307 + }, + { + "grad_norm": 0.23502117615301854, + "loss": 0.15092559158802032, + "step": 6308 + }, + { + "grad_norm": 0.200054259865056, + "loss": 0.18084624409675598, + "step": 6309 + }, + { + "epoch": 2.0192, + "grad_norm": 0.20005425810813904, + "learning_rate": 3.441500112283854e-05, + "loss": 0.1978, + "step": 6310 + }, + { + "grad_norm": 0.19810688647141936, + "loss": 0.18918809294700623, + "step": 6310 + }, + { + "grad_norm": 0.17549393720816348, + "loss": 0.19011430442333221, + "step": 6311 + }, + { + "grad_norm": 0.13642591607846202, + "loss": 0.2156795710325241, + "step": 6312 + }, + { + "grad_norm": 0.49321572787367757, + "loss": 0.1989259123802185, + "step": 6313 + }, + { + "grad_norm": 0.11568267855762153, + "loss": 0.23342899978160858, + "step": 6314 + }, + { + "grad_norm": 0.3273526818129998, + "loss": 0.2081603705883026, + "step": 6315 + }, + { + "grad_norm": 0.16485895229855213, + "loss": 0.2017345279455185, + "step": 6316 + }, + { + "grad_norm": 0.3702653970281066, + "loss": 0.14908058941364288, + "step": 6317 + }, + { + "grad_norm": 0.09803196426617049, + "loss": 0.17423108220100403, + "step": 6318 + }, + { + "grad_norm": 0.1340216457933095, + "loss": 0.17576056718826294, + "step": 6319 + }, + { + "epoch": 2.0224, + "grad_norm": 0.13402165472507477, + "learning_rate": 3.430271726925668e-05, + "loss": 0.1936, + "step": 6320 + }, + { + "grad_norm": 0.11522492568292539, + "loss": 0.177805557847023, + "step": 6320 + }, + { + "grad_norm": 0.14726271601043575, + "loss": 0.2595420777797699, + "step": 6321 + }, + { + "grad_norm": 0.08442032210680038, + "loss": 0.16521364450454712, + "step": 6322 + }, + { + "grad_norm": 0.13512956786618358, + "loss": 0.17397060990333557, + "step": 6323 + }, + { + "grad_norm": 0.19903596071893528, + "loss": 0.21885254979133606, + "step": 6324 + }, + { + "grad_norm": 0.12086026671381277, + "loss": 0.19585169851779938, + "step": 6325 + }, + { + "grad_norm": 0.1506083888221202, + "loss": 0.16763271391391754, + "step": 6326 + }, + { + "grad_norm": 0.19487084619873132, + "loss": 0.2271737903356552, + "step": 6327 + }, + { + "grad_norm": 0.36964578753231087, + "loss": 0.2540552318096161, + "step": 6328 + }, + { + "grad_norm": 0.41726653191287677, + "loss": 0.14315779507160187, + "step": 6329 + }, + { + "epoch": 2.0256, + "grad_norm": 0.4172665476799011, + "learning_rate": 3.4190433415674826e-05, + "loss": 0.1983, + "step": 6330 + }, + { + "grad_norm": 0.15634556568586222, + "loss": 0.21878117322921753, + "step": 6330 + }, + { + "grad_norm": 0.16902140267762428, + "loss": 0.1589115560054779, + "step": 6331 + }, + { + "grad_norm": 0.16385608522210568, + "loss": 0.18994826078414917, + "step": 6332 + }, + { + "grad_norm": 0.09942520137963926, + "loss": 0.19225440919399261, + "step": 6333 + }, + { + "grad_norm": 0.2669375030882007, + "loss": 0.24609200656414032, + "step": 6334 + }, + { + "grad_norm": 0.26751700691874386, + "loss": 0.17437729239463806, + "step": 6335 + }, + { + "grad_norm": 0.31801711234353414, + "loss": 0.14942757785320282, + "step": 6336 + }, + { + "grad_norm": 0.20978067145049456, + "loss": 0.1983899623155594, + "step": 6337 + }, + { + "grad_norm": 0.21713369192206433, + "loss": 0.16376255452632904, + "step": 6338 + }, + { + "grad_norm": 0.13364352599692836, + "loss": 0.18709209561347961, + "step": 6339 + }, + { + "epoch": 2.0288, + "grad_norm": 0.1336435228586197, + "learning_rate": 3.407814956209297e-05, + "loss": 0.1879, + "step": 6340 + }, + { + "grad_norm": 0.12577650469541019, + "loss": 0.20263639092445374, + "step": 6340 + }, + { + "grad_norm": 0.20557655049588558, + "loss": 0.22792690992355347, + "step": 6341 + }, + { + "grad_norm": 0.1723784974159047, + "loss": 0.1835130751132965, + "step": 6342 + }, + { + "grad_norm": 0.18816968823329067, + "loss": 0.2083667516708374, + "step": 6343 + }, + { + "grad_norm": 0.15410193892514157, + "loss": 0.24185942113399506, + "step": 6344 + }, + { + "grad_norm": 0.19167842733215132, + "loss": 0.14441467821598053, + "step": 6345 + }, + { + "grad_norm": 0.10584450190356923, + "loss": 0.18768110871315002, + "step": 6346 + }, + { + "grad_norm": 0.40518790059791154, + "loss": 0.23022231459617615, + "step": 6347 + }, + { + "grad_norm": 0.13195432696313852, + "loss": 0.16594438254833221, + "step": 6348 + }, + { + "grad_norm": 0.3286299398909546, + "loss": 0.16713650524616241, + "step": 6349 + }, + { + "epoch": 2.032, + "grad_norm": 0.3286299407482147, + "learning_rate": 3.396586570851112e-05, + "loss": 0.196, + "step": 6350 + }, + { + "grad_norm": 0.22851444325876843, + "loss": 0.1818220615386963, + "step": 6350 + }, + { + "grad_norm": 0.22005218224040637, + "loss": 0.18179380893707275, + "step": 6351 + }, + { + "grad_norm": 0.10014109557676484, + "loss": 0.20087289810180664, + "step": 6352 + }, + { + "grad_norm": 0.14751971238558348, + "loss": 0.1459607183933258, + "step": 6353 + }, + { + "grad_norm": 0.18212048262887248, + "loss": 0.20506250858306885, + "step": 6354 + }, + { + "grad_norm": 0.4186102397707429, + "loss": 0.21858727931976318, + "step": 6355 + }, + { + "grad_norm": 0.3534562057471125, + "loss": 0.21307052671909332, + "step": 6356 + }, + { + "grad_norm": 0.17026668116991614, + "loss": 0.20334644615650177, + "step": 6357 + }, + { + "grad_norm": 0.2267233180006529, + "loss": 0.17434534430503845, + "step": 6358 + }, + { + "grad_norm": 0.3201162053887882, + "loss": 0.23185065388679504, + "step": 6359 + }, + { + "epoch": 2.0352, + "grad_norm": 0.32011619210243225, + "learning_rate": 3.3853581854929265e-05, + "loss": 0.1957, + "step": 6360 + }, + { + "grad_norm": 0.20316611768256926, + "loss": 0.16979548335075378, + "step": 6360 + }, + { + "grad_norm": 0.189846079677402, + "loss": 0.20151273906230927, + "step": 6361 + }, + { + "grad_norm": 0.14694595664052407, + "loss": 0.1759004294872284, + "step": 6362 + }, + { + "grad_norm": 0.3327558824331778, + "loss": 0.1709255427122116, + "step": 6363 + }, + { + "grad_norm": 0.3511969600618101, + "loss": 0.16604013741016388, + "step": 6364 + }, + { + "grad_norm": 0.21188807682518224, + "loss": 0.1947275996208191, + "step": 6365 + }, + { + "grad_norm": 0.2919086178914446, + "loss": 0.1969512552022934, + "step": 6366 + }, + { + "grad_norm": 0.2339179142018656, + "loss": 0.1879391372203827, + "step": 6367 + }, + { + "grad_norm": 0.1176234111466485, + "loss": 0.19121965765953064, + "step": 6368 + }, + { + "grad_norm": 0.25976437729459795, + "loss": 0.21198369562625885, + "step": 6369 + }, + { + "epoch": 2.0384, + "grad_norm": 0.2597643733024597, + "learning_rate": 3.374129800134741e-05, + "loss": 0.1867, + "step": 6370 + }, + { + "grad_norm": 0.1164109170625222, + "loss": 0.2041236311197281, + "step": 6370 + }, + { + "grad_norm": 0.13423360353646058, + "loss": 0.21627388894557953, + "step": 6371 + }, + { + "grad_norm": 0.18501439807411596, + "loss": 0.16942523419857025, + "step": 6372 + }, + { + "grad_norm": 0.3040201267224482, + "loss": 0.1972794234752655, + "step": 6373 + }, + { + "grad_norm": 0.25406100978032065, + "loss": 0.1932426393032074, + "step": 6374 + }, + { + "grad_norm": 0.11766167148798624, + "loss": 0.20511576533317566, + "step": 6375 + }, + { + "grad_norm": 0.1969383942742265, + "loss": 0.19886495172977448, + "step": 6376 + }, + { + "grad_norm": 0.12660919861037168, + "loss": 0.18728956580162048, + "step": 6377 + }, + { + "grad_norm": 0.5560993439811069, + "loss": 0.22396378219127655, + "step": 6378 + }, + { + "grad_norm": 0.27713155977179404, + "loss": 0.22186881303787231, + "step": 6379 + }, + { + "epoch": 2.0416, + "grad_norm": 0.2771315574645996, + "learning_rate": 3.362901414776555e-05, + "loss": 0.2017, + "step": 6380 + }, + { + "grad_norm": 0.15685139721086905, + "loss": 0.1578403115272522, + "step": 6380 + }, + { + "grad_norm": 0.09465525539328665, + "loss": 0.15510010719299316, + "step": 6381 + }, + { + "grad_norm": 0.26963922385089323, + "loss": 0.13974548876285553, + "step": 6382 + }, + { + "grad_norm": 0.2310008147361556, + "loss": 0.1946694403886795, + "step": 6383 + }, + { + "grad_norm": 0.32030691769946534, + "loss": 0.23877951502799988, + "step": 6384 + }, + { + "grad_norm": 0.2455451808847809, + "loss": 0.2027464509010315, + "step": 6385 + }, + { + "grad_norm": 0.39778891608886474, + "loss": 0.19538339972496033, + "step": 6386 + }, + { + "grad_norm": 0.15691629445940206, + "loss": 0.15626870095729828, + "step": 6387 + }, + { + "grad_norm": 0.31972694071762564, + "loss": 0.16817885637283325, + "step": 6388 + }, + { + "grad_norm": 0.19237180436501017, + "loss": 0.2298842966556549, + "step": 6389 + }, + { + "epoch": 2.0448, + "grad_norm": 0.19237180054187775, + "learning_rate": 3.3516730294183697e-05, + "loss": 0.1839, + "step": 6390 + }, + { + "grad_norm": 0.2582120197623776, + "loss": 0.18141835927963257, + "step": 6390 + }, + { + "grad_norm": 0.2851875561407367, + "loss": 0.20091596245765686, + "step": 6391 + }, + { + "grad_norm": 0.20035262821742825, + "loss": 0.20608246326446533, + "step": 6392 + }, + { + "grad_norm": 0.16618110208730685, + "loss": 0.1754837930202484, + "step": 6393 + }, + { + "grad_norm": 0.2991526090244029, + "loss": 0.18998229503631592, + "step": 6394 + }, + { + "grad_norm": 0.12996689248874627, + "loss": 0.15264534950256348, + "step": 6395 + }, + { + "grad_norm": 0.3468689805819547, + "loss": 0.1697377860546112, + "step": 6396 + }, + { + "grad_norm": 0.13558430104205166, + "loss": 0.18042880296707153, + "step": 6397 + }, + { + "grad_norm": 0.18361262598457684, + "loss": 0.1772918701171875, + "step": 6398 + }, + { + "grad_norm": 0.29834896172011754, + "loss": 0.17649157345294952, + "step": 6399 + }, + { + "epoch": 2.048, + "grad_norm": 0.29834896326065063, + "learning_rate": 3.340444644060185e-05, + "loss": 0.181, + "step": 6400 + }, + { + "grad_norm": 0.29138937696203293, + "loss": 0.16745057702064514, + "step": 6400 + }, + { + "grad_norm": 0.13983762423929424, + "loss": 0.15797841548919678, + "step": 6401 + }, + { + "grad_norm": 0.10493883159195462, + "loss": 0.13569268584251404, + "step": 6402 + }, + { + "grad_norm": 0.3594416025372592, + "loss": 0.2233535349369049, + "step": 6403 + }, + { + "grad_norm": 0.421742250216997, + "loss": 0.1909467577934265, + "step": 6404 + }, + { + "grad_norm": 0.22532562368636871, + "loss": 0.21366602182388306, + "step": 6405 + }, + { + "grad_norm": 0.2257824919017923, + "loss": 0.1918451488018036, + "step": 6406 + }, + { + "grad_norm": 0.16933323682391696, + "loss": 0.16538260877132416, + "step": 6407 + }, + { + "grad_norm": 0.19726577151974986, + "loss": 0.17604577541351318, + "step": 6408 + }, + { + "grad_norm": 0.12401640913312849, + "loss": 0.20928627252578735, + "step": 6409 + }, + { + "epoch": 2.0512, + "grad_norm": 0.1240164116024971, + "learning_rate": 3.3292162587019984e-05, + "loss": 0.1832, + "step": 6410 + }, + { + "grad_norm": 0.29395206859020623, + "loss": 0.18287956714630127, + "step": 6410 + }, + { + "grad_norm": 0.18359200860454442, + "loss": 0.20971405506134033, + "step": 6411 + }, + { + "grad_norm": 0.13225888254914966, + "loss": 0.1991797834634781, + "step": 6412 + }, + { + "grad_norm": 0.12640131763756215, + "loss": 0.1718759685754776, + "step": 6413 + }, + { + "grad_norm": 0.2965171928639885, + "loss": 0.17265932261943817, + "step": 6414 + }, + { + "grad_norm": 0.23866834241697132, + "loss": 0.26244062185287476, + "step": 6415 + }, + { + "grad_norm": 0.2236218750817212, + "loss": 0.20577991008758545, + "step": 6416 + }, + { + "grad_norm": 0.4811938428948881, + "loss": 0.2643579840660095, + "step": 6417 + }, + { + "grad_norm": 0.1576164856082377, + "loss": 0.20748895406723022, + "step": 6418 + }, + { + "grad_norm": 0.22481547795187742, + "loss": 0.1833098828792572, + "step": 6419 + }, + { + "epoch": 2.0544, + "grad_norm": 0.2248154878616333, + "learning_rate": 3.3179878733438135e-05, + "loss": 0.206, + "step": 6420 + }, + { + "grad_norm": 0.09686735503285654, + "loss": 0.17507173120975494, + "step": 6420 + }, + { + "grad_norm": 0.19706093636695568, + "loss": 0.236233651638031, + "step": 6421 + }, + { + "grad_norm": 0.25310883938529044, + "loss": 0.1671520471572876, + "step": 6422 + }, + { + "grad_norm": 0.4853171294502475, + "loss": 0.21333348751068115, + "step": 6423 + }, + { + "grad_norm": 0.3451321586614354, + "loss": 0.16960851848125458, + "step": 6424 + }, + { + "grad_norm": 0.31812242193161977, + "loss": 0.15550357103347778, + "step": 6425 + }, + { + "grad_norm": 0.2690716277637835, + "loss": 0.17597806453704834, + "step": 6426 + }, + { + "grad_norm": 0.24080535506997894, + "loss": 0.2083463966846466, + "step": 6427 + }, + { + "grad_norm": 0.266579406713498, + "loss": 0.1856771856546402, + "step": 6428 + }, + { + "grad_norm": 0.11388434776815093, + "loss": 0.2210848331451416, + "step": 6429 + }, + { + "epoch": 2.0576, + "grad_norm": 0.1138843446969986, + "learning_rate": 3.306759487985628e-05, + "loss": 0.1908, + "step": 6430 + }, + { + "grad_norm": 0.2680676854637067, + "loss": 0.21277454495429993, + "step": 6430 + }, + { + "grad_norm": 0.39510333677155807, + "loss": 0.24611380696296692, + "step": 6431 + }, + { + "grad_norm": 0.18745186505742947, + "loss": 0.14845120906829834, + "step": 6432 + }, + { + "grad_norm": 0.10242700918710042, + "loss": 0.16946154832839966, + "step": 6433 + }, + { + "grad_norm": 0.4421765448465807, + "loss": 0.28576767444610596, + "step": 6434 + }, + { + "grad_norm": 0.23459249836453086, + "loss": 0.18906694650650024, + "step": 6435 + }, + { + "grad_norm": 0.2704215697507233, + "loss": 0.21609961986541748, + "step": 6436 + }, + { + "grad_norm": 0.13214965035561127, + "loss": 0.21898877620697021, + "step": 6437 + }, + { + "grad_norm": 0.15281747927663425, + "loss": 0.20536476373672485, + "step": 6438 + }, + { + "grad_norm": 0.40525252014260216, + "loss": 0.21849006414413452, + "step": 6439 + }, + { + "epoch": 2.0608, + "grad_norm": 0.40525248646736145, + "learning_rate": 3.295531102627442e-05, + "loss": 0.2111, + "step": 6440 + }, + { + "grad_norm": 0.3597300964518211, + "loss": 0.2702566683292389, + "step": 6440 + }, + { + "grad_norm": 0.2268824026916221, + "loss": 0.17272010445594788, + "step": 6441 + }, + { + "grad_norm": 0.16307143136632543, + "loss": 0.194054514169693, + "step": 6442 + }, + { + "grad_norm": 0.2680984585189195, + "loss": 0.1718115657567978, + "step": 6443 + }, + { + "grad_norm": 0.12517662788993425, + "loss": 0.20430836081504822, + "step": 6444 + }, + { + "grad_norm": 0.1396712702718268, + "loss": 0.20744360983371735, + "step": 6445 + }, + { + "grad_norm": 0.30822442745452056, + "loss": 0.17193765938282013, + "step": 6446 + }, + { + "grad_norm": 0.38935396178159093, + "loss": 0.18269166350364685, + "step": 6447 + }, + { + "grad_norm": 0.38084778209870657, + "loss": 0.2696154713630676, + "step": 6448 + }, + { + "grad_norm": 0.14319169924799063, + "loss": 0.20592419803142548, + "step": 6449 + }, + { + "epoch": 2.064, + "grad_norm": 0.14319169521331787, + "learning_rate": 3.284302717269257e-05, + "loss": 0.2051, + "step": 6450 + }, + { + "grad_norm": 0.22901392033998505, + "loss": 0.20510689914226532, + "step": 6450 + }, + { + "grad_norm": 0.3548777157837782, + "loss": 0.24949544668197632, + "step": 6451 + }, + { + "grad_norm": 0.13916205294418935, + "loss": 0.21674610674381256, + "step": 6452 + }, + { + "grad_norm": 0.19947915106709563, + "loss": 0.2119201123714447, + "step": 6453 + }, + { + "grad_norm": 0.1760513433635401, + "loss": 0.18494568765163422, + "step": 6454 + }, + { + "grad_norm": 0.33763003443431205, + "loss": 0.179941326379776, + "step": 6455 + }, + { + "grad_norm": 0.11140239056430949, + "loss": 0.19603824615478516, + "step": 6456 + }, + { + "grad_norm": 0.15111044230931253, + "loss": 0.1872199922800064, + "step": 6457 + }, + { + "grad_norm": 0.16170747953648898, + "loss": 0.17954857647418976, + "step": 6458 + }, + { + "grad_norm": 0.18948193581788428, + "loss": 0.19050270318984985, + "step": 6459 + }, + { + "epoch": 2.0672, + "grad_norm": 0.1894819438457489, + "learning_rate": 3.273074331911071e-05, + "loss": 0.2001, + "step": 6460 + }, + { + "grad_norm": 0.3199854698670621, + "loss": 0.17205825448036194, + "step": 6460 + }, + { + "grad_norm": 0.22058986879649814, + "loss": 0.24276331067085266, + "step": 6461 + }, + { + "grad_norm": 0.22100897521418483, + "loss": 0.16426682472229004, + "step": 6462 + }, + { + "grad_norm": 0.2785711106065006, + "loss": 0.24121074378490448, + "step": 6463 + }, + { + "grad_norm": 0.262258430292066, + "loss": 0.15865959227085114, + "step": 6464 + }, + { + "grad_norm": 0.30057829709456685, + "loss": 0.1863817274570465, + "step": 6465 + }, + { + "grad_norm": 0.20180237710421417, + "loss": 0.15120862424373627, + "step": 6466 + }, + { + "grad_norm": 0.13596313970460652, + "loss": 0.22563815116882324, + "step": 6467 + }, + { + "grad_norm": 0.3179890253011371, + "loss": 0.1507411003112793, + "step": 6468 + }, + { + "grad_norm": 0.17543323190438925, + "loss": 0.14819571375846863, + "step": 6469 + }, + { + "epoch": 2.0704, + "grad_norm": 0.1754332333803177, + "learning_rate": 3.261845946552886e-05, + "loss": 0.1841, + "step": 6470 + }, + { + "grad_norm": 0.1920691062863214, + "loss": 0.1597563922405243, + "step": 6470 + }, + { + "grad_norm": 0.15743152153960072, + "loss": 0.2802346348762512, + "step": 6471 + }, + { + "grad_norm": 0.1888633066431372, + "loss": 0.18034803867340088, + "step": 6472 + }, + { + "grad_norm": 0.1335795718768347, + "loss": 0.1500369906425476, + "step": 6473 + }, + { + "grad_norm": 0.17496561209115852, + "loss": 0.162445530295372, + "step": 6474 + }, + { + "grad_norm": 0.2807168170382138, + "loss": 0.21113111078739166, + "step": 6475 + }, + { + "grad_norm": 0.1392215507675779, + "loss": 0.2128918617963791, + "step": 6476 + }, + { + "grad_norm": 0.14359317074512465, + "loss": 0.20439913868904114, + "step": 6477 + }, + { + "grad_norm": 0.39122745731840664, + "loss": 0.22494199872016907, + "step": 6478 + }, + { + "grad_norm": 0.1936222341902554, + "loss": 0.1724347323179245, + "step": 6479 + }, + { + "epoch": 2.0736, + "grad_norm": 0.19362223148345947, + "learning_rate": 3.2506175611947005e-05, + "loss": 0.1959, + "step": 6480 + }, + { + "grad_norm": 0.3040254685377812, + "loss": 0.1608915627002716, + "step": 6480 + }, + { + "grad_norm": 0.14239734922019995, + "loss": 0.1767926663160324, + "step": 6481 + }, + { + "grad_norm": 0.266136298859322, + "loss": 0.13079209625720978, + "step": 6482 + }, + { + "grad_norm": 0.3483012230374955, + "loss": 0.18195468187332153, + "step": 6483 + }, + { + "grad_norm": 0.2884529106884858, + "loss": 0.20493775606155396, + "step": 6484 + }, + { + "grad_norm": 0.29206549617352795, + "loss": 0.17228038609027863, + "step": 6485 + }, + { + "grad_norm": 0.17369746105117695, + "loss": 0.184373140335083, + "step": 6486 + }, + { + "grad_norm": 0.3346027532409834, + "loss": 0.2104198932647705, + "step": 6487 + }, + { + "grad_norm": 0.3076343631608582, + "loss": 0.19801247119903564, + "step": 6488 + }, + { + "grad_norm": 0.20186428140242174, + "loss": 0.17842330038547516, + "step": 6489 + }, + { + "epoch": 2.0768, + "grad_norm": 0.20186428725719452, + "learning_rate": 3.239389175836515e-05, + "loss": 0.1799, + "step": 6490 + }, + { + "grad_norm": 0.23963715353030582, + "loss": 0.19427990913391113, + "step": 6490 + }, + { + "grad_norm": 0.23339166453295845, + "loss": 0.16371458768844604, + "step": 6491 + }, + { + "grad_norm": 0.16687171192115405, + "loss": 0.23268979787826538, + "step": 6492 + }, + { + "grad_norm": 0.16093619587794158, + "loss": 0.13199447095394135, + "step": 6493 + }, + { + "grad_norm": 0.17090397561249923, + "loss": 0.2016264945268631, + "step": 6494 + }, + { + "grad_norm": 0.13826598961648315, + "loss": 0.19888728857040405, + "step": 6495 + }, + { + "grad_norm": 0.3434955485102647, + "loss": 0.21201378107070923, + "step": 6496 + }, + { + "grad_norm": 0.1221383359183291, + "loss": 0.17121253907680511, + "step": 6497 + }, + { + "grad_norm": 0.09463132207225859, + "loss": 0.1699294149875641, + "step": 6498 + }, + { + "grad_norm": 0.5195144326785146, + "loss": 0.2543347477912903, + "step": 6499 + }, + { + "epoch": 2.08, + "grad_norm": 0.5195144414901733, + "learning_rate": 3.228160790478329e-05, + "loss": 0.1931, + "step": 6500 + }, + { + "grad_norm": 0.24362113560215273, + "loss": 0.1920434981584549, + "step": 6500 + }, + { + "grad_norm": 0.14891555246131843, + "loss": 0.16592085361480713, + "step": 6501 + }, + { + "grad_norm": 0.35031255658847255, + "loss": 0.16477856040000916, + "step": 6502 + }, + { + "grad_norm": 0.2605598597788609, + "loss": 0.21906627714633942, + "step": 6503 + }, + { + "grad_norm": 0.18607818926392974, + "loss": 0.13653956353664398, + "step": 6504 + }, + { + "grad_norm": 0.23428150828914993, + "loss": 0.20869377255439758, + "step": 6505 + }, + { + "grad_norm": 0.20620330084494398, + "loss": 0.2623264789581299, + "step": 6506 + }, + { + "grad_norm": 0.23529582243794786, + "loss": 0.16111713647842407, + "step": 6507 + }, + { + "grad_norm": 0.4794652283228018, + "loss": 0.16217423975467682, + "step": 6508 + }, + { + "grad_norm": 0.1990774066256523, + "loss": 0.17741359770298004, + "step": 6509 + }, + { + "epoch": 2.0832, + "grad_norm": 0.19907741248607635, + "learning_rate": 3.216932405120144e-05, + "loss": 0.185, + "step": 6510 + }, + { + "grad_norm": 0.14549405317520225, + "loss": 0.19292080402374268, + "step": 6510 + }, + { + "grad_norm": 0.1438129712683871, + "loss": 0.21633855998516083, + "step": 6511 + }, + { + "grad_norm": 0.14828899389299732, + "loss": 0.16902399063110352, + "step": 6512 + }, + { + "grad_norm": 0.21118564863000286, + "loss": 0.19561606645584106, + "step": 6513 + }, + { + "grad_norm": 0.36050936085392515, + "loss": 0.21777695417404175, + "step": 6514 + }, + { + "grad_norm": 0.36498952485434777, + "loss": 0.17741313576698303, + "step": 6515 + }, + { + "grad_norm": 0.21595647610343696, + "loss": 0.1554778814315796, + "step": 6516 + }, + { + "grad_norm": 0.15115087866179544, + "loss": 0.23218394815921783, + "step": 6517 + }, + { + "grad_norm": 0.160971520016075, + "loss": 0.18062639236450195, + "step": 6518 + }, + { + "grad_norm": 0.16064997864025213, + "loss": 0.1628062129020691, + "step": 6519 + }, + { + "epoch": 2.0864, + "grad_norm": 0.16064997017383575, + "learning_rate": 3.205704019761958e-05, + "loss": 0.19, + "step": 6520 + }, + { + "grad_norm": 0.15733201211781428, + "loss": 0.17875827848911285, + "step": 6520 + }, + { + "grad_norm": 0.09959785951796235, + "loss": 0.15698441863059998, + "step": 6521 + }, + { + "grad_norm": 0.4195391871622883, + "loss": 0.2716635763645172, + "step": 6522 + }, + { + "grad_norm": 0.37019100604828276, + "loss": 0.17563125491142273, + "step": 6523 + }, + { + "grad_norm": 0.37770020358007467, + "loss": 0.22932343184947968, + "step": 6524 + }, + { + "grad_norm": 0.258767846480545, + "loss": 0.15705278515815735, + "step": 6525 + }, + { + "grad_norm": 0.19068387138687604, + "loss": 0.22289380431175232, + "step": 6526 + }, + { + "grad_norm": 0.35419291267175135, + "loss": 0.19785627722740173, + "step": 6527 + }, + { + "grad_norm": 0.4944875749194282, + "loss": 0.16354776918888092, + "step": 6528 + }, + { + "grad_norm": 0.1789844070846962, + "loss": 0.1817968487739563, + "step": 6529 + }, + { + "epoch": 2.0896, + "grad_norm": 0.1789844036102295, + "learning_rate": 3.194475634403773e-05, + "loss": 0.1936, + "step": 6530 + }, + { + "grad_norm": 0.2379174946152682, + "loss": 0.18384793400764465, + "step": 6530 + }, + { + "grad_norm": 0.14381316253809967, + "loss": 0.20070649683475494, + "step": 6531 + }, + { + "grad_norm": 0.42384371853597513, + "loss": 0.19981655478477478, + "step": 6532 + }, + { + "grad_norm": 0.1133976483984287, + "loss": 0.199749156832695, + "step": 6533 + }, + { + "grad_norm": 0.19701716987929746, + "loss": 0.1928502321243286, + "step": 6534 + }, + { + "grad_norm": 0.2545963125750616, + "loss": 0.2143833041191101, + "step": 6535 + }, + { + "grad_norm": 0.3885438803040107, + "loss": 0.21678544580936432, + "step": 6536 + }, + { + "grad_norm": 0.11657738257288308, + "loss": 0.16971039772033691, + "step": 6537 + }, + { + "grad_norm": 0.24829264254554606, + "loss": 0.19725587964057922, + "step": 6538 + }, + { + "grad_norm": 0.26900773212089013, + "loss": 0.17768578231334686, + "step": 6539 + }, + { + "epoch": 2.0928, + "grad_norm": 0.26900771260261536, + "learning_rate": 3.1832472490455875e-05, + "loss": 0.1953, + "step": 6540 + }, + { + "grad_norm": 0.31914729130235464, + "loss": 0.1523258537054062, + "step": 6540 + }, + { + "grad_norm": 0.18658101931973559, + "loss": 0.21638838946819305, + "step": 6541 + }, + { + "grad_norm": 0.13116190387703408, + "loss": 0.20349794626235962, + "step": 6542 + }, + { + "grad_norm": 0.1123560721940289, + "loss": 0.17111465334892273, + "step": 6543 + }, + { + "grad_norm": 0.18285048037767454, + "loss": 0.16302275657653809, + "step": 6544 + }, + { + "grad_norm": 0.27958523702451726, + "loss": 0.17752990126609802, + "step": 6545 + }, + { + "grad_norm": 0.14851252636274867, + "loss": 0.18292471766471863, + "step": 6546 + }, + { + "grad_norm": 0.15388701446886344, + "loss": 0.2289561778306961, + "step": 6547 + }, + { + "grad_norm": 0.24674414025136815, + "loss": 0.20259253680706024, + "step": 6548 + }, + { + "grad_norm": 0.14407795737957016, + "loss": 0.1562570333480835, + "step": 6549 + }, + { + "epoch": 2.096, + "grad_norm": 0.14407795667648315, + "learning_rate": 3.172018863687402e-05, + "loss": 0.1855, + "step": 6550 + }, + { + "grad_norm": 0.19406280714106974, + "loss": 0.151982381939888, + "step": 6550 + }, + { + "grad_norm": 0.14478183193085659, + "loss": 0.21275514364242554, + "step": 6551 + }, + { + "grad_norm": 0.10255298453625813, + "loss": 0.1968342661857605, + "step": 6552 + }, + { + "grad_norm": 0.3340852727522445, + "loss": 0.15752780437469482, + "step": 6553 + }, + { + "grad_norm": 0.10400558672349118, + "loss": 0.18414926528930664, + "step": 6554 + }, + { + "grad_norm": 0.22783677634963587, + "loss": 0.1566709727048874, + "step": 6555 + }, + { + "grad_norm": 0.16821294377214083, + "loss": 0.19509199261665344, + "step": 6556 + }, + { + "grad_norm": 0.15499284491125292, + "loss": 0.23878507316112518, + "step": 6557 + }, + { + "grad_norm": 0.10715292724236145, + "loss": 0.16769778728485107, + "step": 6558 + }, + { + "grad_norm": 0.3342307361299671, + "loss": 0.20726723968982697, + "step": 6559 + }, + { + "epoch": 2.0992, + "grad_norm": 0.3342307209968567, + "learning_rate": 3.160790478329216e-05, + "loss": 0.1869, + "step": 6560 + }, + { + "grad_norm": 0.5808648779769178, + "loss": 0.24529749155044556, + "step": 6560 + }, + { + "grad_norm": 0.26657536699910395, + "loss": 0.1931367814540863, + "step": 6561 + }, + { + "grad_norm": 0.09609067266644329, + "loss": 0.20462122559547424, + "step": 6562 + }, + { + "grad_norm": 0.11150286218283202, + "loss": 0.18544358015060425, + "step": 6563 + }, + { + "grad_norm": 0.13967034774951645, + "loss": 0.1920996457338333, + "step": 6564 + }, + { + "grad_norm": 0.18325871882452693, + "loss": 0.1862439513206482, + "step": 6565 + }, + { + "grad_norm": 0.16062908893471387, + "loss": 0.16529765725135803, + "step": 6566 + }, + { + "grad_norm": 0.24323215156466194, + "loss": 0.18360503017902374, + "step": 6567 + }, + { + "grad_norm": 0.4658627364411239, + "loss": 0.14258351922035217, + "step": 6568 + }, + { + "grad_norm": 0.3825457265658683, + "loss": 0.16691604256629944, + "step": 6569 + }, + { + "epoch": 2.1024, + "grad_norm": 0.38254573941230774, + "learning_rate": 3.149562092971031e-05, + "loss": 0.1865, + "step": 6570 + }, + { + "grad_norm": 0.4551225338649651, + "loss": 0.17598119378089905, + "step": 6570 + }, + { + "grad_norm": 0.19724994115896374, + "loss": 0.1587032973766327, + "step": 6571 + }, + { + "grad_norm": 0.2040932904199307, + "loss": 0.16881641745567322, + "step": 6572 + }, + { + "grad_norm": 0.12458605266125145, + "loss": 0.14406314492225647, + "step": 6573 + }, + { + "grad_norm": 0.1388701687790879, + "loss": 0.2797396183013916, + "step": 6574 + }, + { + "grad_norm": 0.17251195331197058, + "loss": 0.1847476363182068, + "step": 6575 + }, + { + "grad_norm": 0.13130556670618385, + "loss": 0.17756769061088562, + "step": 6576 + }, + { + "grad_norm": 0.2462451626949108, + "loss": 0.17716753482818604, + "step": 6577 + }, + { + "grad_norm": 0.20477868574341532, + "loss": 0.13483890891075134, + "step": 6578 + }, + { + "grad_norm": 0.3148615183882031, + "loss": 0.19140857458114624, + "step": 6579 + }, + { + "epoch": 2.1056, + "grad_norm": 0.314861536026001, + "learning_rate": 3.138333707612846e-05, + "loss": 0.1793, + "step": 6580 + }, + { + "grad_norm": 0.5845001185343625, + "loss": 0.31102484464645386, + "step": 6580 + }, + { + "grad_norm": 0.23541420927369433, + "loss": 0.21308410167694092, + "step": 6581 + }, + { + "grad_norm": 0.21129954636690634, + "loss": 0.21174335479736328, + "step": 6582 + }, + { + "grad_norm": 0.16666825236770086, + "loss": 0.20630882680416107, + "step": 6583 + }, + { + "grad_norm": 0.18131563005871626, + "loss": 0.20387205481529236, + "step": 6584 + }, + { + "grad_norm": 0.24982527358779727, + "loss": 0.2009885013103485, + "step": 6585 + }, + { + "grad_norm": 0.21256301820841525, + "loss": 0.17602035403251648, + "step": 6586 + }, + { + "grad_norm": 0.14401883950303684, + "loss": 0.16868428885936737, + "step": 6587 + }, + { + "grad_norm": 0.2478041420085174, + "loss": 0.1388368308544159, + "step": 6588 + }, + { + "grad_norm": 0.28199202197576173, + "loss": 0.19786065816879272, + "step": 6589 + }, + { + "epoch": 2.1088, + "grad_norm": 0.28199201822280884, + "learning_rate": 3.1271053222546595e-05, + "loss": 0.2028, + "step": 6590 + }, + { + "grad_norm": 0.10820530667551498, + "loss": 0.16510652005672455, + "step": 6590 + }, + { + "grad_norm": 0.28793461508337487, + "loss": 0.19687485694885254, + "step": 6591 + }, + { + "grad_norm": 0.40099498797180255, + "loss": 0.21450936794281006, + "step": 6592 + }, + { + "grad_norm": 0.4391442573522408, + "loss": 0.18215683102607727, + "step": 6593 + }, + { + "grad_norm": 0.16038316782644105, + "loss": 0.16665853559970856, + "step": 6594 + }, + { + "grad_norm": 0.11566298126361306, + "loss": 0.15833893418312073, + "step": 6595 + }, + { + "grad_norm": 0.14054460129222737, + "loss": 0.16685372591018677, + "step": 6596 + }, + { + "grad_norm": 0.15729537975784177, + "loss": 0.19105347990989685, + "step": 6597 + }, + { + "grad_norm": 0.2752930795421496, + "loss": 0.19619187712669373, + "step": 6598 + }, + { + "grad_norm": 0.1908209799653709, + "loss": 0.20745141804218292, + "step": 6599 + }, + { + "epoch": 2.112, + "grad_norm": 0.19082097709178925, + "learning_rate": 3.1158769368964746e-05, + "loss": 0.1845, + "step": 6600 + }, + { + "grad_norm": 0.1626754075915925, + "loss": 0.19073404371738434, + "step": 6600 + }, + { + "grad_norm": 0.1555631301933965, + "loss": 0.17884396016597748, + "step": 6601 + }, + { + "grad_norm": 0.19661654658108582, + "loss": 0.21884068846702576, + "step": 6602 + }, + { + "grad_norm": 0.16156989696496077, + "loss": 0.15796226263046265, + "step": 6603 + }, + { + "grad_norm": 0.2525201506628715, + "loss": 0.18074817955493927, + "step": 6604 + }, + { + "grad_norm": 0.26579771246239997, + "loss": 0.1869133859872818, + "step": 6605 + }, + { + "grad_norm": 0.469499326907828, + "loss": 0.25532612204551697, + "step": 6606 + }, + { + "grad_norm": 0.517857047660309, + "loss": 0.23697909712791443, + "step": 6607 + }, + { + "grad_norm": 0.3056493142636541, + "loss": 0.17869846522808075, + "step": 6608 + }, + { + "grad_norm": 0.18809723342531132, + "loss": 0.17569515109062195, + "step": 6609 + }, + { + "epoch": 2.1152, + "grad_norm": 0.18809722363948822, + "learning_rate": 3.104648551538289e-05, + "loss": 0.1961, + "step": 6610 + }, + { + "grad_norm": 0.2674972453821329, + "loss": 0.1893652081489563, + "step": 6610 + }, + { + "grad_norm": 0.39267746074541793, + "loss": 0.1525224894285202, + "step": 6611 + }, + { + "grad_norm": 0.23993977238539502, + "loss": 0.2091139703989029, + "step": 6612 + }, + { + "grad_norm": 0.1352097922088524, + "loss": 0.21245019137859344, + "step": 6613 + }, + { + "grad_norm": 0.1223606646129935, + "loss": 0.2006096988916397, + "step": 6614 + }, + { + "grad_norm": 0.22838392062074991, + "loss": 0.16991737484931946, + "step": 6615 + }, + { + "grad_norm": 0.22546738403132724, + "loss": 0.14960244297981262, + "step": 6616 + }, + { + "grad_norm": 0.4219781618018485, + "loss": 0.19317658245563507, + "step": 6617 + }, + { + "grad_norm": 0.13908599112079414, + "loss": 0.13504180312156677, + "step": 6618 + }, + { + "grad_norm": 0.09436539776629069, + "loss": 0.17182061076164246, + "step": 6619 + }, + { + "epoch": 2.1184, + "grad_norm": 0.09436540305614471, + "learning_rate": 3.093420166180103e-05, + "loss": 0.1784, + "step": 6620 + }, + { + "grad_norm": 0.3955678868188351, + "loss": 0.16020408272743225, + "step": 6620 + }, + { + "grad_norm": 0.10020329092266365, + "loss": 0.20730239152908325, + "step": 6621 + }, + { + "grad_norm": 0.20300151987875245, + "loss": 0.23379318416118622, + "step": 6622 + }, + { + "grad_norm": 0.15183818113397746, + "loss": 0.14821289479732513, + "step": 6623 + }, + { + "grad_norm": 0.2500267306248838, + "loss": 0.16993004083633423, + "step": 6624 + }, + { + "grad_norm": 0.2816720135841059, + "loss": 0.1407875418663025, + "step": 6625 + }, + { + "grad_norm": 0.2194892424537323, + "loss": 0.21424949169158936, + "step": 6626 + }, + { + "grad_norm": 0.32406104781363015, + "loss": 0.17528808116912842, + "step": 6627 + }, + { + "grad_norm": 0.34946374561771143, + "loss": 0.22166839241981506, + "step": 6628 + }, + { + "grad_norm": 0.21308852165192052, + "loss": 0.16960608959197998, + "step": 6629 + }, + { + "epoch": 2.1216, + "grad_norm": 0.2130885273218155, + "learning_rate": 3.082191780821918e-05, + "loss": 0.1841, + "step": 6630 + }, + { + "grad_norm": 0.36293919502290534, + "loss": 0.196561798453331, + "step": 6630 + }, + { + "grad_norm": 0.10784519318844349, + "loss": 0.17238260805606842, + "step": 6631 + }, + { + "grad_norm": 0.23384948127723476, + "loss": 0.1804279088973999, + "step": 6632 + }, + { + "grad_norm": 0.28089781822059334, + "loss": 0.1467943787574768, + "step": 6633 + }, + { + "grad_norm": 0.20370509338674378, + "loss": 0.1879602074623108, + "step": 6634 + }, + { + "grad_norm": 0.17990315451533417, + "loss": 0.16729995608329773, + "step": 6635 + }, + { + "grad_norm": 0.1713848910203622, + "loss": 0.20810022950172424, + "step": 6636 + }, + { + "grad_norm": 0.2008997661545528, + "loss": 0.1758224070072174, + "step": 6637 + }, + { + "grad_norm": 0.0983898867622706, + "loss": 0.17121949791908264, + "step": 6638 + }, + { + "grad_norm": 0.1550967370519232, + "loss": 0.1967748999595642, + "step": 6639 + }, + { + "epoch": 2.1248, + "grad_norm": 0.15509673953056335, + "learning_rate": 3.070963395463732e-05, + "loss": 0.1803, + "step": 6640 + }, + { + "grad_norm": 0.1556539731293412, + "loss": 0.23108214139938354, + "step": 6640 + }, + { + "grad_norm": 0.24403548772305766, + "loss": 0.20626398921012878, + "step": 6641 + }, + { + "grad_norm": 0.09743190493186105, + "loss": 0.15512293577194214, + "step": 6642 + }, + { + "grad_norm": 0.2004705458933915, + "loss": 0.16637468338012695, + "step": 6643 + }, + { + "grad_norm": 0.2739473244754629, + "loss": 0.15748652815818787, + "step": 6644 + }, + { + "grad_norm": 0.13126877506282358, + "loss": 0.17665190994739532, + "step": 6645 + }, + { + "grad_norm": 0.4384114963151396, + "loss": 0.19902583956718445, + "step": 6646 + }, + { + "grad_norm": 0.12104141152834115, + "loss": 0.18966315686702728, + "step": 6647 + }, + { + "grad_norm": 0.23894505668462068, + "loss": 0.25406941771507263, + "step": 6648 + }, + { + "grad_norm": 0.32569953170502386, + "loss": 0.21382315456867218, + "step": 6649 + }, + { + "epoch": 2.128, + "grad_norm": 0.3256995379924774, + "learning_rate": 3.059735010105547e-05, + "loss": 0.195, + "step": 6650 + }, + { + "grad_norm": 0.1358996470695859, + "loss": 0.19793398678302765, + "step": 6650 + }, + { + "grad_norm": 0.13146784130119243, + "loss": 0.1932062953710556, + "step": 6651 + }, + { + "grad_norm": 0.31157391482821933, + "loss": 0.22061049938201904, + "step": 6652 + }, + { + "grad_norm": 0.2777016433463264, + "loss": 0.22061748802661896, + "step": 6653 + }, + { + "grad_norm": 0.19161817012253443, + "loss": 0.16467435657978058, + "step": 6654 + }, + { + "grad_norm": 0.26557636881359076, + "loss": 0.17603573203086853, + "step": 6655 + }, + { + "grad_norm": 0.20361299315753878, + "loss": 0.19604043662548065, + "step": 6656 + }, + { + "grad_norm": 0.2081844306849381, + "loss": 0.1873670518398285, + "step": 6657 + }, + { + "grad_norm": 0.20399865142419626, + "loss": 0.22770626842975616, + "step": 6658 + }, + { + "grad_norm": 0.16595757205110423, + "loss": 0.16833487153053284, + "step": 6659 + }, + { + "epoch": 2.1312, + "grad_norm": 0.16595757007598877, + "learning_rate": 3.0485066247473616e-05, + "loss": 0.1953, + "step": 6660 + }, + { + "grad_norm": 0.3349457338210036, + "loss": 0.18430262804031372, + "step": 6660 + }, + { + "grad_norm": 0.21707394068824148, + "loss": 0.2445850968360901, + "step": 6661 + }, + { + "grad_norm": 0.24169378985054643, + "loss": 0.17348933219909668, + "step": 6662 + }, + { + "grad_norm": 0.33586209170401893, + "loss": 0.19071674346923828, + "step": 6663 + }, + { + "grad_norm": 0.26035752434936815, + "loss": 0.20073500275611877, + "step": 6664 + }, + { + "grad_norm": 0.23012768981244677, + "loss": 0.27612748742103577, + "step": 6665 + }, + { + "grad_norm": 0.17711568800952537, + "loss": 0.21984854340553284, + "step": 6666 + }, + { + "grad_norm": 0.17187885402848904, + "loss": 0.2288062870502472, + "step": 6667 + }, + { + "grad_norm": 0.17676497075915373, + "loss": 0.18371747434139252, + "step": 6668 + }, + { + "grad_norm": 0.1510586313510328, + "loss": 0.2578439712524414, + "step": 6669 + }, + { + "epoch": 2.1344, + "grad_norm": 0.151058629155159, + "learning_rate": 3.0372782393891756e-05, + "loss": 0.216, + "step": 6670 + }, + { + "grad_norm": 0.2303467311212636, + "loss": 0.17550882697105408, + "step": 6670 + }, + { + "grad_norm": 0.15440717697186682, + "loss": 0.16429872810840607, + "step": 6671 + }, + { + "grad_norm": 0.2276725523342842, + "loss": 0.21814090013504028, + "step": 6672 + }, + { + "grad_norm": 0.10300801557231008, + "loss": 0.2125576138496399, + "step": 6673 + }, + { + "grad_norm": 0.1662187926838989, + "loss": 0.24952098727226257, + "step": 6674 + }, + { + "grad_norm": 0.10764985561295498, + "loss": 0.19541047513484955, + "step": 6675 + }, + { + "grad_norm": 0.12834612076157847, + "loss": 0.15421180427074432, + "step": 6676 + }, + { + "grad_norm": 0.16585570155189272, + "loss": 0.16080401837825775, + "step": 6677 + }, + { + "grad_norm": 0.33561587554149946, + "loss": 0.2585676908493042, + "step": 6678 + }, + { + "grad_norm": 0.12330947587089618, + "loss": 0.24524864554405212, + "step": 6679 + }, + { + "epoch": 2.1376, + "grad_norm": 0.12330947816371918, + "learning_rate": 3.0260498540309907e-05, + "loss": 0.2034, + "step": 6680 + }, + { + "grad_norm": 0.21851020425889625, + "loss": 0.2335016280412674, + "step": 6680 + }, + { + "grad_norm": 0.1613871639672763, + "loss": 0.20321078598499298, + "step": 6681 + }, + { + "grad_norm": 0.1360730990252035, + "loss": 0.16755229234695435, + "step": 6682 + }, + { + "grad_norm": 0.10175163149149358, + "loss": 0.14708183705806732, + "step": 6683 + }, + { + "grad_norm": 0.356227201968989, + "loss": 0.17417532205581665, + "step": 6684 + }, + { + "grad_norm": 0.2462035032778595, + "loss": 0.2306818813085556, + "step": 6685 + }, + { + "grad_norm": 0.24563409125227342, + "loss": 0.25608065724372864, + "step": 6686 + }, + { + "grad_norm": 0.1707400527852797, + "loss": 0.17456555366516113, + "step": 6687 + }, + { + "grad_norm": 0.2703373642563451, + "loss": 0.18770036101341248, + "step": 6688 + }, + { + "grad_norm": 0.26234739201763546, + "loss": 0.19913333654403687, + "step": 6689 + }, + { + "epoch": 2.1408, + "grad_norm": 0.26234740018844604, + "learning_rate": 3.0148214686728047e-05, + "loss": 0.1974, + "step": 6690 + }, + { + "grad_norm": 0.14065229608845078, + "loss": 0.17951297760009766, + "step": 6690 + }, + { + "grad_norm": 0.17594668316929882, + "loss": 0.20541954040527344, + "step": 6691 + }, + { + "grad_norm": 0.14739300112349113, + "loss": 0.2133362591266632, + "step": 6692 + }, + { + "grad_norm": 0.18228315437443374, + "loss": 0.2105712592601776, + "step": 6693 + }, + { + "grad_norm": 0.24283468234426003, + "loss": 0.2088872343301773, + "step": 6694 + }, + { + "grad_norm": 0.3538569805746581, + "loss": 0.16764643788337708, + "step": 6695 + }, + { + "grad_norm": 0.12303484755673431, + "loss": 0.16181378066539764, + "step": 6696 + }, + { + "grad_norm": 0.6458810004307511, + "loss": 0.17606747150421143, + "step": 6697 + }, + { + "grad_norm": 0.21089661532281087, + "loss": 0.22578862309455872, + "step": 6698 + }, + { + "grad_norm": 0.44956335626170324, + "loss": 0.16747865080833435, + "step": 6699 + }, + { + "epoch": 2.144, + "grad_norm": 0.4495633542537689, + "learning_rate": 3.0035930833146198e-05, + "loss": 0.1917, + "step": 6700 + }, + { + "grad_norm": 0.1961456977487687, + "loss": 0.1692977249622345, + "step": 6700 + }, + { + "grad_norm": 0.23400018034143658, + "loss": 0.2750142812728882, + "step": 6701 + }, + { + "grad_norm": 0.10291076611400778, + "loss": 0.15360139310359955, + "step": 6702 + }, + { + "grad_norm": 0.1066350480114446, + "loss": 0.16670934855937958, + "step": 6703 + }, + { + "grad_norm": 0.2013550788722829, + "loss": 0.16839690506458282, + "step": 6704 + }, + { + "grad_norm": 0.18882613346473723, + "loss": 0.16177482903003693, + "step": 6705 + }, + { + "grad_norm": 0.3022023752883732, + "loss": 0.1966809332370758, + "step": 6706 + }, + { + "grad_norm": 0.4161858198922947, + "loss": 0.27365460991859436, + "step": 6707 + }, + { + "grad_norm": 0.2526307870534357, + "loss": 0.16972699761390686, + "step": 6708 + }, + { + "grad_norm": 0.22047181576621927, + "loss": 0.20383991301059723, + "step": 6709 + }, + { + "epoch": 2.1471999999999998, + "grad_norm": 0.2204718142747879, + "learning_rate": 2.9923646979564342e-05, + "loss": 0.1939, + "step": 6710 + }, + { + "grad_norm": 0.14489757161404038, + "loss": 0.1768546998500824, + "step": 6710 + }, + { + "grad_norm": 0.136558475567433, + "loss": 0.17479214072227478, + "step": 6711 + }, + { + "grad_norm": 0.14766421653439382, + "loss": 0.18900829553604126, + "step": 6712 + }, + { + "grad_norm": 0.39903239138214563, + "loss": 0.15339426696300507, + "step": 6713 + }, + { + "grad_norm": 0.13090418159436973, + "loss": 0.16307897865772247, + "step": 6714 + }, + { + "grad_norm": 0.13541645917351533, + "loss": 0.22054976224899292, + "step": 6715 + }, + { + "grad_norm": 0.1405339296763211, + "loss": 0.18417778611183167, + "step": 6716 + }, + { + "grad_norm": 0.13052579320108004, + "loss": 0.1994670182466507, + "step": 6717 + }, + { + "grad_norm": 0.19796567518595973, + "loss": 0.20224866271018982, + "step": 6718 + }, + { + "grad_norm": 0.22135565427954187, + "loss": 0.19540005922317505, + "step": 6719 + }, + { + "epoch": 2.1504, + "grad_norm": 0.22135566174983978, + "learning_rate": 2.9811363125982483e-05, + "loss": 0.1859, + "step": 6720 + }, + { + "grad_norm": 0.33046062486991806, + "loss": 0.2374575287103653, + "step": 6720 + }, + { + "grad_norm": 0.20234045605299644, + "loss": 0.2108745574951172, + "step": 6721 + }, + { + "grad_norm": 0.298435905688392, + "loss": 0.2071165144443512, + "step": 6722 + }, + { + "grad_norm": 0.1369519392990555, + "loss": 0.18093319237232208, + "step": 6723 + }, + { + "grad_norm": 0.13652413864952886, + "loss": 0.20921972393989563, + "step": 6724 + }, + { + "grad_norm": 0.18505265675802016, + "loss": 0.21540787816047668, + "step": 6725 + }, + { + "grad_norm": 0.1722291743506048, + "loss": 0.13200229406356812, + "step": 6726 + }, + { + "grad_norm": 0.1946674184454946, + "loss": 0.17806494235992432, + "step": 6727 + }, + { + "grad_norm": 0.45608795922842565, + "loss": 0.20043514668941498, + "step": 6728 + }, + { + "grad_norm": 0.1888224207690996, + "loss": 0.1941494345664978, + "step": 6729 + }, + { + "epoch": 2.1536, + "grad_norm": 0.1888224184513092, + "learning_rate": 2.9699079272400633e-05, + "loss": 0.1966, + "step": 6730 + }, + { + "grad_norm": 0.16284333308361132, + "loss": 0.20003032684326172, + "step": 6730 + }, + { + "grad_norm": 0.19949200878030118, + "loss": 0.14354392886161804, + "step": 6731 + }, + { + "grad_norm": 0.15278680613684026, + "loss": 0.16298039257526398, + "step": 6732 + }, + { + "grad_norm": 0.23258969365077395, + "loss": 0.20268994569778442, + "step": 6733 + }, + { + "grad_norm": 0.24084009836701972, + "loss": 0.18551744520664215, + "step": 6734 + }, + { + "grad_norm": 0.14404824769412464, + "loss": 0.20891276001930237, + "step": 6735 + }, + { + "grad_norm": 0.13726203101054504, + "loss": 0.16218172013759613, + "step": 6736 + }, + { + "grad_norm": 0.26051495213551296, + "loss": 0.24238404631614685, + "step": 6737 + }, + { + "grad_norm": 0.12513635789996477, + "loss": 0.17743736505508423, + "step": 6738 + }, + { + "grad_norm": 0.13138808277742436, + "loss": 0.2023276388645172, + "step": 6739 + }, + { + "epoch": 2.1568, + "grad_norm": 0.1313880831003189, + "learning_rate": 2.9586795418818774e-05, + "loss": 0.1888, + "step": 6740 + }, + { + "grad_norm": 0.10690602133534735, + "loss": 0.18527619540691376, + "step": 6740 + }, + { + "grad_norm": 0.11728709841912364, + "loss": 0.18477293848991394, + "step": 6741 + }, + { + "grad_norm": 0.12064189295204902, + "loss": 0.20987054705619812, + "step": 6742 + }, + { + "grad_norm": 0.34796504413345175, + "loss": 0.2528535723686218, + "step": 6743 + }, + { + "grad_norm": 0.12741593547348554, + "loss": 0.19639864563941956, + "step": 6744 + }, + { + "grad_norm": 0.10334850823294517, + "loss": 0.17720836400985718, + "step": 6745 + }, + { + "grad_norm": 0.15136747884233684, + "loss": 0.14106307923793793, + "step": 6746 + }, + { + "grad_norm": 0.08793335689650468, + "loss": 0.1234954446554184, + "step": 6747 + }, + { + "grad_norm": 0.2864020421227515, + "loss": 0.16508907079696655, + "step": 6748 + }, + { + "grad_norm": 0.35576864556820964, + "loss": 0.206401526927948, + "step": 6749 + }, + { + "epoch": 2.16, + "grad_norm": 0.3557686507701874, + "learning_rate": 2.9474511565236924e-05, + "loss": 0.1842, + "step": 6750 + }, + { + "grad_norm": 0.1666735612241068, + "loss": 0.213029146194458, + "step": 6750 + }, + { + "grad_norm": 0.39612592378867034, + "loss": 0.29573407769203186, + "step": 6751 + }, + { + "grad_norm": 0.0992021831908599, + "loss": 0.17549589276313782, + "step": 6752 + }, + { + "grad_norm": 0.11937606586702035, + "loss": 0.2082604467868805, + "step": 6753 + }, + { + "grad_norm": 0.15830224634619408, + "loss": 0.1664288192987442, + "step": 6754 + }, + { + "grad_norm": 0.34106213694757914, + "loss": 0.16608208417892456, + "step": 6755 + }, + { + "grad_norm": 0.12984927329354143, + "loss": 0.19722536206245422, + "step": 6756 + }, + { + "grad_norm": 0.14615706991472643, + "loss": 0.2569273114204407, + "step": 6757 + }, + { + "grad_norm": 0.124429809471442, + "loss": 0.2503310441970825, + "step": 6758 + }, + { + "grad_norm": 0.23171741250742753, + "loss": 0.23909088969230652, + "step": 6759 + }, + { + "epoch": 2.1632, + "grad_norm": 0.23171742260456085, + "learning_rate": 2.9362227711655065e-05, + "loss": 0.2169, + "step": 6760 + }, + { + "grad_norm": 0.19788978098226853, + "loss": 0.21270686388015747, + "step": 6760 + }, + { + "grad_norm": 0.16493230790012908, + "loss": 0.21663211286067963, + "step": 6761 + }, + { + "grad_norm": 0.400100149208945, + "loss": 0.20293934643268585, + "step": 6762 + }, + { + "grad_norm": 0.35625668839842584, + "loss": 0.1479102373123169, + "step": 6763 + }, + { + "grad_norm": 0.22041258198690003, + "loss": 0.17275181412696838, + "step": 6764 + }, + { + "grad_norm": 0.13307846326194947, + "loss": 0.21931898593902588, + "step": 6765 + }, + { + "grad_norm": 0.19134785350212374, + "loss": 0.1967494934797287, + "step": 6766 + }, + { + "grad_norm": 0.47771434461794143, + "loss": 0.14303910732269287, + "step": 6767 + }, + { + "grad_norm": 0.29743331932772005, + "loss": 0.21451318264007568, + "step": 6768 + }, + { + "grad_norm": 0.3075582151493492, + "loss": 0.1905989646911621, + "step": 6769 + }, + { + "epoch": 2.1664, + "grad_norm": 0.30755820870399475, + "learning_rate": 2.924994385807321e-05, + "loss": 0.1917, + "step": 6770 + }, + { + "grad_norm": 0.12704994835834124, + "loss": 0.23152746260166168, + "step": 6770 + }, + { + "grad_norm": 0.16242046376800906, + "loss": 0.1970350742340088, + "step": 6771 + }, + { + "grad_norm": 0.19452722142400897, + "loss": 0.22007368505001068, + "step": 6772 + }, + { + "grad_norm": 0.14808167276623463, + "loss": 0.16341716051101685, + "step": 6773 + }, + { + "grad_norm": 0.16013164809633332, + "loss": 0.18191581964492798, + "step": 6774 + }, + { + "grad_norm": 0.21698240970227206, + "loss": 0.19069451093673706, + "step": 6775 + }, + { + "grad_norm": 0.21729110746893568, + "loss": 0.17845243215560913, + "step": 6776 + }, + { + "grad_norm": 0.11392454380733162, + "loss": 0.21369366347789764, + "step": 6777 + }, + { + "grad_norm": 0.36169465033525, + "loss": 0.21603181958198547, + "step": 6778 + }, + { + "grad_norm": 0.24941267181229193, + "loss": 0.1463761180639267, + "step": 6779 + }, + { + "epoch": 2.1696, + "grad_norm": 0.2494126707315445, + "learning_rate": 2.9137660004491356e-05, + "loss": 0.1939, + "step": 6780 + }, + { + "grad_norm": 0.12312342882710632, + "loss": 0.2236759066581726, + "step": 6780 + }, + { + "grad_norm": 0.16698179465053334, + "loss": 0.13004152476787567, + "step": 6781 + }, + { + "grad_norm": 0.22852531332689355, + "loss": 0.13837502896785736, + "step": 6782 + }, + { + "grad_norm": 0.1466069019382132, + "loss": 0.15236908197402954, + "step": 6783 + }, + { + "grad_norm": 0.1278180680608668, + "loss": 0.18718676269054413, + "step": 6784 + }, + { + "grad_norm": 0.38456864770876564, + "loss": 0.18784470856189728, + "step": 6785 + }, + { + "grad_norm": 0.5142206451528201, + "loss": 0.2520492970943451, + "step": 6786 + }, + { + "grad_norm": 0.23348349878762495, + "loss": 0.18132925033569336, + "step": 6787 + }, + { + "grad_norm": 0.16236586439025388, + "loss": 0.16486705839633942, + "step": 6788 + }, + { + "grad_norm": 0.19220729746029921, + "loss": 0.19347213208675385, + "step": 6789 + }, + { + "epoch": 2.1728, + "grad_norm": 0.19220732152462006, + "learning_rate": 2.90253761509095e-05, + "loss": 0.1811, + "step": 6790 + }, + { + "grad_norm": 0.17518471538764865, + "loss": 0.17252156138420105, + "step": 6790 + }, + { + "grad_norm": 0.23137266637616996, + "loss": 0.17358699440956116, + "step": 6791 + }, + { + "grad_norm": 0.1794584126103342, + "loss": 0.19359172880649567, + "step": 6792 + }, + { + "grad_norm": 0.43738900922998303, + "loss": 0.21882326900959015, + "step": 6793 + }, + { + "grad_norm": 0.29350901018598785, + "loss": 0.24403128027915955, + "step": 6794 + }, + { + "grad_norm": 0.11185728003607669, + "loss": 0.17413082718849182, + "step": 6795 + }, + { + "grad_norm": 0.2010078295514139, + "loss": 0.18456919491291046, + "step": 6796 + }, + { + "grad_norm": 0.11389457000926528, + "loss": 0.1719816029071808, + "step": 6797 + }, + { + "grad_norm": 0.31637568759993423, + "loss": 0.14590319991111755, + "step": 6798 + }, + { + "grad_norm": 0.20930309799259672, + "loss": 0.22182893753051758, + "step": 6799 + }, + { + "epoch": 2.176, + "grad_norm": 0.2093030959367752, + "learning_rate": 2.8913092297327644e-05, + "loss": 0.1901, + "step": 6800 + }, + { + "grad_norm": 0.24835679695126464, + "loss": 0.201625257730484, + "step": 6800 + }, + { + "grad_norm": 0.18640124556999807, + "loss": 0.2642442584037781, + "step": 6801 + }, + { + "grad_norm": 0.1674687710084896, + "loss": 0.2730141282081604, + "step": 6802 + }, + { + "grad_norm": 0.19646234127181467, + "loss": 0.17892760038375854, + "step": 6803 + }, + { + "grad_norm": 0.1395929436076158, + "loss": 0.1687081754207611, + "step": 6804 + }, + { + "grad_norm": 0.1705264453995342, + "loss": 0.19621454179286957, + "step": 6805 + }, + { + "grad_norm": 0.21977868703397474, + "loss": 0.16750989854335785, + "step": 6806 + }, + { + "grad_norm": 0.19419090957801433, + "loss": 0.23243460059165955, + "step": 6807 + }, + { + "grad_norm": 0.24413469042135927, + "loss": 0.1632731407880783, + "step": 6808 + }, + { + "grad_norm": 0.4100380558398447, + "loss": 0.14822661876678467, + "step": 6809 + }, + { + "epoch": 2.1792, + "grad_norm": 0.4100380539894104, + "learning_rate": 2.880080844374579e-05, + "loss": 0.1994, + "step": 6810 + }, + { + "grad_norm": 0.11669713755211354, + "loss": 0.16887038946151733, + "step": 6810 + }, + { + "grad_norm": 0.1382139624635765, + "loss": 0.2851892113685608, + "step": 6811 + }, + { + "grad_norm": 0.3592910787819045, + "loss": 0.2837657034397125, + "step": 6812 + }, + { + "grad_norm": 0.45708460603028367, + "loss": 0.20794084668159485, + "step": 6813 + }, + { + "grad_norm": 0.13630245825582515, + "loss": 0.1732691377401352, + "step": 6814 + }, + { + "grad_norm": 0.2021973260632635, + "loss": 0.2089928239583969, + "step": 6815 + }, + { + "grad_norm": 0.13295760205829368, + "loss": 0.18438950181007385, + "step": 6816 + }, + { + "grad_norm": 0.1905158018679882, + "loss": 0.16549333930015564, + "step": 6817 + }, + { + "grad_norm": 0.19749709125500667, + "loss": 0.20700708031654358, + "step": 6818 + }, + { + "grad_norm": 0.14325799271446374, + "loss": 0.23503513634204865, + "step": 6819 + }, + { + "epoch": 2.1824, + "grad_norm": 0.1432579904794693, + "learning_rate": 2.8688524590163935e-05, + "loss": 0.212, + "step": 6820 + }, + { + "grad_norm": 0.12994382325307782, + "loss": 0.2119276523590088, + "step": 6820 + }, + { + "grad_norm": 0.1495774278318964, + "loss": 0.19167065620422363, + "step": 6821 + }, + { + "grad_norm": 0.24390404880202002, + "loss": 0.19018003344535828, + "step": 6822 + }, + { + "grad_norm": 0.2588751354011969, + "loss": 0.1692000925540924, + "step": 6823 + }, + { + "grad_norm": 0.12754281839283393, + "loss": 0.2143334597349167, + "step": 6824 + }, + { + "grad_norm": 0.10768802005361341, + "loss": 0.17469501495361328, + "step": 6825 + }, + { + "grad_norm": 0.1133451064915718, + "loss": 0.20252645015716553, + "step": 6826 + }, + { + "grad_norm": 0.14591756645030013, + "loss": 0.19101104140281677, + "step": 6827 + }, + { + "grad_norm": 0.13142585425843467, + "loss": 0.2211623638868332, + "step": 6828 + }, + { + "grad_norm": 0.29103123499052413, + "loss": 0.2183704674243927, + "step": 6829 + }, + { + "epoch": 2.1856, + "grad_norm": 0.29103121161460876, + "learning_rate": 2.8576240736582082e-05, + "loss": 0.1985, + "step": 6830 + }, + { + "grad_norm": 0.09899949477310435, + "loss": 0.16836069524288177, + "step": 6830 + }, + { + "grad_norm": 0.3588722915741875, + "loss": 0.1571934074163437, + "step": 6831 + }, + { + "grad_norm": 0.14145464929407267, + "loss": 0.18168480694293976, + "step": 6832 + }, + { + "grad_norm": 0.10986689462886787, + "loss": 0.17677515745162964, + "step": 6833 + }, + { + "grad_norm": 0.14454395936892056, + "loss": 0.18340840935707092, + "step": 6834 + }, + { + "grad_norm": 0.143747370678949, + "loss": 0.20934714376926422, + "step": 6835 + }, + { + "grad_norm": 0.1691370628923865, + "loss": 0.20366784930229187, + "step": 6836 + }, + { + "grad_norm": 0.1937167921350014, + "loss": 0.19718654453754425, + "step": 6837 + }, + { + "grad_norm": 0.1254505285392979, + "loss": 0.143136665225029, + "step": 6838 + }, + { + "grad_norm": 0.15250576615333988, + "loss": 0.1992970108985901, + "step": 6839 + }, + { + "epoch": 2.1888, + "grad_norm": 0.1525057703256607, + "learning_rate": 2.8463956883000226e-05, + "loss": 0.182, + "step": 6840 + }, + { + "grad_norm": 0.22171306521886744, + "loss": 0.1516498625278473, + "step": 6840 + }, + { + "grad_norm": 0.16082808266229795, + "loss": 0.2143389731645584, + "step": 6841 + }, + { + "grad_norm": 0.22462974020827134, + "loss": 0.18185731768608093, + "step": 6842 + }, + { + "grad_norm": 0.24388030841599845, + "loss": 0.18084712326526642, + "step": 6843 + }, + { + "grad_norm": 0.3775619395561813, + "loss": 0.34822389483451843, + "step": 6844 + }, + { + "grad_norm": 0.09421610562012289, + "loss": 0.15195541083812714, + "step": 6845 + }, + { + "grad_norm": 0.16683727833711073, + "loss": 0.16359195113182068, + "step": 6846 + }, + { + "grad_norm": 0.15027843310742367, + "loss": 0.21322762966156006, + "step": 6847 + }, + { + "grad_norm": 0.26428640712425105, + "loss": 0.21320167183876038, + "step": 6848 + }, + { + "grad_norm": 0.16088922950568543, + "loss": 0.15895718336105347, + "step": 6849 + }, + { + "epoch": 2.192, + "grad_norm": 0.16088923811912537, + "learning_rate": 2.835167302941837e-05, + "loss": 0.1978, + "step": 6850 + }, + { + "grad_norm": 0.18750445113505676, + "loss": 0.19672779738903046, + "step": 6850 + }, + { + "grad_norm": 0.1665916703899925, + "loss": 0.17901775240898132, + "step": 6851 + }, + { + "grad_norm": 0.19753192048551343, + "loss": 0.23822233080863953, + "step": 6852 + }, + { + "grad_norm": 0.36534505956724117, + "loss": 0.19383472204208374, + "step": 6853 + }, + { + "grad_norm": 0.09550040276446228, + "loss": 0.19289356470108032, + "step": 6854 + }, + { + "grad_norm": 0.14943438110055896, + "loss": 0.2022692710161209, + "step": 6855 + }, + { + "grad_norm": 0.11583171574067218, + "loss": 0.15445248782634735, + "step": 6856 + }, + { + "grad_norm": 0.22261192962687015, + "loss": 0.19168716669082642, + "step": 6857 + }, + { + "grad_norm": 0.31012343287608607, + "loss": 0.18707872927188873, + "step": 6858 + }, + { + "grad_norm": 0.09459533159975393, + "loss": 0.20513159036636353, + "step": 6859 + }, + { + "epoch": 2.1952, + "grad_norm": 0.09459532797336578, + "learning_rate": 2.8239389175836517e-05, + "loss": 0.1941, + "step": 6860 + }, + { + "grad_norm": 0.15305917215982248, + "loss": 0.1816505789756775, + "step": 6860 + }, + { + "grad_norm": 0.34686555972131194, + "loss": 0.18605169653892517, + "step": 6861 + }, + { + "grad_norm": 0.1360384077169497, + "loss": 0.17836782336235046, + "step": 6862 + }, + { + "grad_norm": 0.45478210719103535, + "loss": 0.1612546145915985, + "step": 6863 + }, + { + "grad_norm": 0.09448230160008025, + "loss": 0.1670047640800476, + "step": 6864 + }, + { + "grad_norm": 0.3457988350750253, + "loss": 0.20831644535064697, + "step": 6865 + }, + { + "grad_norm": 0.3384098125310346, + "loss": 0.1917800009250641, + "step": 6866 + }, + { + "grad_norm": 0.15315977966010128, + "loss": 0.17063654959201813, + "step": 6867 + }, + { + "grad_norm": 0.43901822677337, + "loss": 0.19999724626541138, + "step": 6868 + }, + { + "grad_norm": 0.10758478917342057, + "loss": 0.203024759888649, + "step": 6869 + }, + { + "epoch": 2.1984, + "grad_norm": 0.10758478939533234, + "learning_rate": 2.812710532225466e-05, + "loss": 0.1848, + "step": 6870 + }, + { + "grad_norm": 0.11758528510349736, + "loss": 0.1576492190361023, + "step": 6870 + }, + { + "grad_norm": 0.1545847746438402, + "loss": 0.18733668327331543, + "step": 6871 + }, + { + "grad_norm": 0.4106992294445104, + "loss": 0.1544249802827835, + "step": 6872 + }, + { + "grad_norm": 0.14551608432471708, + "loss": 0.19000244140625, + "step": 6873 + }, + { + "grad_norm": 0.18026316497157, + "loss": 0.19488650560379028, + "step": 6874 + }, + { + "grad_norm": 0.26949585404516274, + "loss": 0.15388263761997223, + "step": 6875 + }, + { + "grad_norm": 0.31147256020560865, + "loss": 0.24807997047901154, + "step": 6876 + }, + { + "grad_norm": 0.14657292584765688, + "loss": 0.23906081914901733, + "step": 6877 + }, + { + "grad_norm": 0.1410394282340631, + "loss": 0.1489223837852478, + "step": 6878 + }, + { + "grad_norm": 0.11241776015469224, + "loss": 0.1916995644569397, + "step": 6879 + }, + { + "epoch": 2.2016, + "grad_norm": 0.11241775751113892, + "learning_rate": 2.801482146867281e-05, + "loss": 0.1866, + "step": 6880 + }, + { + "grad_norm": 0.1534906328890482, + "loss": 0.15749278664588928, + "step": 6880 + }, + { + "grad_norm": 0.15361255200982443, + "loss": 0.17299982905387878, + "step": 6881 + }, + { + "grad_norm": 0.1345643105960771, + "loss": 0.22895574569702148, + "step": 6882 + }, + { + "grad_norm": 0.18157986406405685, + "loss": 0.12692005932331085, + "step": 6883 + }, + { + "grad_norm": 0.19422673122641423, + "loss": 0.17697826027870178, + "step": 6884 + }, + { + "grad_norm": 0.23656357659655528, + "loss": 0.1587151736021042, + "step": 6885 + }, + { + "grad_norm": 0.2670890909868365, + "loss": 0.19066455960273743, + "step": 6886 + }, + { + "grad_norm": 0.11531413841564378, + "loss": 0.19031375646591187, + "step": 6887 + }, + { + "grad_norm": 0.11243343861483893, + "loss": 0.15047016739845276, + "step": 6888 + }, + { + "grad_norm": 0.3859238983880735, + "loss": 0.1674048900604248, + "step": 6889 + }, + { + "epoch": 2.2048, + "grad_norm": 0.3859238922595978, + "learning_rate": 2.7902537615090953e-05, + "loss": 0.1721, + "step": 6890 + }, + { + "grad_norm": 0.12328537457459444, + "loss": 0.15856392681598663, + "step": 6890 + }, + { + "grad_norm": 0.15096933885606056, + "loss": 0.1650954782962799, + "step": 6891 + }, + { + "grad_norm": 0.5466953160374385, + "loss": 0.21749240159988403, + "step": 6892 + }, + { + "grad_norm": 0.40264140869345666, + "loss": 0.2729358375072479, + "step": 6893 + }, + { + "grad_norm": 0.233737613740124, + "loss": 0.22904618084430695, + "step": 6894 + }, + { + "grad_norm": 0.26492408363503694, + "loss": 0.2376151829957962, + "step": 6895 + }, + { + "grad_norm": 0.19216311542497994, + "loss": 0.21545030176639557, + "step": 6896 + }, + { + "grad_norm": 0.25711703538608266, + "loss": 0.20879818499088287, + "step": 6897 + }, + { + "grad_norm": 0.25438553314554196, + "loss": 0.23186340928077698, + "step": 6898 + }, + { + "grad_norm": 0.09421907930608898, + "loss": 0.17668120563030243, + "step": 6899 + }, + { + "epoch": 2.208, + "grad_norm": 0.09421907365322113, + "learning_rate": 2.7790253761509093e-05, + "loss": 0.2114, + "step": 6900 + }, + { + "grad_norm": 0.1720832266575896, + "loss": 0.22415190935134888, + "step": 6900 + }, + { + "grad_norm": 0.24527114024432956, + "loss": 0.18992675840854645, + "step": 6901 + }, + { + "grad_norm": 0.5284664695970245, + "loss": 0.1951107680797577, + "step": 6902 + }, + { + "grad_norm": 0.3050101603005839, + "loss": 0.18478912115097046, + "step": 6903 + }, + { + "grad_norm": 0.5244244002224914, + "loss": 0.176242858171463, + "step": 6904 + }, + { + "grad_norm": 0.2855651229185605, + "loss": 0.16264218091964722, + "step": 6905 + }, + { + "grad_norm": 0.19706447634773358, + "loss": 0.15800687670707703, + "step": 6906 + }, + { + "grad_norm": 0.1718305691324576, + "loss": 0.23521670699119568, + "step": 6907 + }, + { + "grad_norm": 0.19098735615339593, + "loss": 0.21167097985744476, + "step": 6908 + }, + { + "grad_norm": 0.15955796756964935, + "loss": 0.1722342073917389, + "step": 6909 + }, + { + "epoch": 2.2112, + "grad_norm": 0.15955796837806702, + "learning_rate": 2.7677969907927244e-05, + "loss": 0.191, + "step": 6910 + }, + { + "grad_norm": 0.12129347092654873, + "loss": 0.20461195707321167, + "step": 6910 + }, + { + "grad_norm": 0.17973718416475273, + "loss": 0.17536327242851257, + "step": 6911 + }, + { + "grad_norm": 0.22879748961439061, + "loss": 0.27524659037590027, + "step": 6912 + }, + { + "grad_norm": 0.33766888883787555, + "loss": 0.24951162934303284, + "step": 6913 + }, + { + "grad_norm": 0.10829442023945934, + "loss": 0.17687834799289703, + "step": 6914 + }, + { + "grad_norm": 0.31204338179507435, + "loss": 0.19865749776363373, + "step": 6915 + }, + { + "grad_norm": 0.10784123941953135, + "loss": 0.2012428343296051, + "step": 6916 + }, + { + "grad_norm": 0.2710895802385366, + "loss": 0.18671922385692596, + "step": 6917 + }, + { + "grad_norm": 0.11693932308694732, + "loss": 0.17559441924095154, + "step": 6918 + }, + { + "grad_norm": 0.19874828028335434, + "loss": 0.17181000113487244, + "step": 6919 + }, + { + "epoch": 2.2144, + "grad_norm": 0.19874829053878784, + "learning_rate": 2.7565686054345384e-05, + "loss": 0.2016, + "step": 6920 + }, + { + "grad_norm": 0.31384230946715946, + "loss": 0.1843147724866867, + "step": 6920 + }, + { + "grad_norm": 0.3735829171581998, + "loss": 0.17832446098327637, + "step": 6921 + }, + { + "grad_norm": 0.09147091645599909, + "loss": 0.1589546799659729, + "step": 6922 + }, + { + "grad_norm": 0.4224831568646571, + "loss": 0.2049858272075653, + "step": 6923 + }, + { + "grad_norm": 0.1847204684522487, + "loss": 0.17334389686584473, + "step": 6924 + }, + { + "grad_norm": 0.13645487322759597, + "loss": 0.23889482021331787, + "step": 6925 + }, + { + "grad_norm": 0.16469484835973064, + "loss": 0.17684155702590942, + "step": 6926 + }, + { + "grad_norm": 0.19016457316074573, + "loss": 0.18058863282203674, + "step": 6927 + }, + { + "grad_norm": 0.14528871058143675, + "loss": 0.18438872694969177, + "step": 6928 + }, + { + "grad_norm": 0.13858226476333624, + "loss": 0.1615138053894043, + "step": 6929 + }, + { + "epoch": 2.2176, + "grad_norm": 0.1385822594165802, + "learning_rate": 2.7453402200763535e-05, + "loss": 0.1842, + "step": 6930 + }, + { + "grad_norm": 0.24140555622804402, + "loss": 0.22035197913646698, + "step": 6930 + }, + { + "grad_norm": 0.10275183018026103, + "loss": 0.18242941796779633, + "step": 6931 + }, + { + "grad_norm": 0.28240643921080194, + "loss": 0.1612311750650406, + "step": 6932 + }, + { + "grad_norm": 0.12556836677522562, + "loss": 0.16605916619300842, + "step": 6933 + }, + { + "grad_norm": 0.2939199908709902, + "loss": 0.18177710473537445, + "step": 6934 + }, + { + "grad_norm": 0.14858421711302106, + "loss": 0.17937782406806946, + "step": 6935 + }, + { + "grad_norm": 0.1238909301577023, + "loss": 0.2264183759689331, + "step": 6936 + }, + { + "grad_norm": 0.21441936035351178, + "loss": 0.14280062913894653, + "step": 6937 + }, + { + "grad_norm": 0.10812902442211944, + "loss": 0.1755124032497406, + "step": 6938 + }, + { + "grad_norm": 0.32099972505874624, + "loss": 0.19821342825889587, + "step": 6939 + }, + { + "epoch": 2.2208, + "grad_norm": 0.32099974155426025, + "learning_rate": 2.7341118347181675e-05, + "loss": 0.1834, + "step": 6940 + }, + { + "grad_norm": 0.1944346655435952, + "loss": 0.15827879309654236, + "step": 6940 + }, + { + "grad_norm": 0.10632758548858914, + "loss": 0.16306281089782715, + "step": 6941 + }, + { + "grad_norm": 0.30308634955607217, + "loss": 0.14644435048103333, + "step": 6942 + }, + { + "grad_norm": 0.12519129290444028, + "loss": 0.1626596748828888, + "step": 6943 + }, + { + "grad_norm": 0.10484149517386325, + "loss": 0.18023721873760223, + "step": 6944 + }, + { + "grad_norm": 0.13912402549287606, + "loss": 0.1655121147632599, + "step": 6945 + }, + { + "grad_norm": 0.17094963039773445, + "loss": 0.1770605742931366, + "step": 6946 + }, + { + "grad_norm": 0.22129342223969967, + "loss": 0.1666126847267151, + "step": 6947 + }, + { + "grad_norm": 0.19238478911673068, + "loss": 0.17288339138031006, + "step": 6948 + }, + { + "grad_norm": 0.3332665934874002, + "loss": 0.22611957788467407, + "step": 6949 + }, + { + "epoch": 2.224, + "grad_norm": 0.33326661586761475, + "learning_rate": 2.722883449359982e-05, + "loss": 0.1719, + "step": 6950 + }, + { + "grad_norm": 0.14428176779109686, + "loss": 0.17254337668418884, + "step": 6950 + }, + { + "grad_norm": 0.10170052785086213, + "loss": 0.14617028832435608, + "step": 6951 + }, + { + "grad_norm": 0.23735929510379805, + "loss": 0.16029271483421326, + "step": 6952 + }, + { + "grad_norm": 0.3780013025823843, + "loss": 0.15501293540000916, + "step": 6953 + }, + { + "grad_norm": 0.14563513944046416, + "loss": 0.20018473267555237, + "step": 6954 + }, + { + "grad_norm": 0.2521509723769908, + "loss": 0.22718986868858337, + "step": 6955 + }, + { + "grad_norm": 0.22255036723269278, + "loss": 0.1803811490535736, + "step": 6956 + }, + { + "grad_norm": 0.24840134689212254, + "loss": 0.17214974761009216, + "step": 6957 + }, + { + "grad_norm": 0.2335442959066683, + "loss": 0.24550624191761017, + "step": 6958 + }, + { + "grad_norm": 0.15569132765290275, + "loss": 0.2111014723777771, + "step": 6959 + }, + { + "epoch": 2.2272, + "grad_norm": 0.15569132566452026, + "learning_rate": 2.7116550640017967e-05, + "loss": 0.1871, + "step": 6960 + }, + { + "grad_norm": 0.18567475684391813, + "loss": 0.1977652609348297, + "step": 6960 + }, + { + "grad_norm": 0.16990279659666632, + "loss": 0.17510494589805603, + "step": 6961 + }, + { + "grad_norm": 0.30428619313765654, + "loss": 0.19087320566177368, + "step": 6962 + }, + { + "grad_norm": 0.3494834149356475, + "loss": 0.16298368573188782, + "step": 6963 + }, + { + "grad_norm": 0.13877386519419313, + "loss": 0.20858702063560486, + "step": 6964 + }, + { + "grad_norm": 0.3379750681553634, + "loss": 0.17439019680023193, + "step": 6965 + }, + { + "grad_norm": 0.29220226911680774, + "loss": 0.16356712579727173, + "step": 6966 + }, + { + "grad_norm": 0.14835851702358024, + "loss": 0.19430844485759735, + "step": 6967 + }, + { + "grad_norm": 0.1337362895755713, + "loss": 0.16545209288597107, + "step": 6968 + }, + { + "grad_norm": 0.24923570951673088, + "loss": 0.26775848865509033, + "step": 6969 + }, + { + "epoch": 2.2304, + "grad_norm": 0.24923570454120636, + "learning_rate": 2.700426678643611e-05, + "loss": 0.1901, + "step": 6970 + }, + { + "grad_norm": 0.28998684965564153, + "loss": 0.1368236243724823, + "step": 6970 + }, + { + "grad_norm": 0.18493416220006093, + "loss": 0.23348349332809448, + "step": 6971 + }, + { + "grad_norm": 0.10642147087026582, + "loss": 0.17561262845993042, + "step": 6972 + }, + { + "grad_norm": 0.3515148493737992, + "loss": 0.18432322144508362, + "step": 6973 + }, + { + "grad_norm": 0.3337255173289026, + "loss": 0.2000788003206253, + "step": 6974 + }, + { + "grad_norm": 0.15154150977214867, + "loss": 0.15941977500915527, + "step": 6975 + }, + { + "grad_norm": 0.18883480487158008, + "loss": 0.24275457859039307, + "step": 6976 + }, + { + "grad_norm": 0.23532862214274944, + "loss": 0.15304507315158844, + "step": 6977 + }, + { + "grad_norm": 0.23946944684021135, + "loss": 0.20033366978168488, + "step": 6978 + }, + { + "grad_norm": 0.1626475158064229, + "loss": 0.18687903881072998, + "step": 6979 + }, + { + "epoch": 2.2336, + "grad_norm": 0.16264751553535461, + "learning_rate": 2.6891982932854258e-05, + "loss": 0.1873, + "step": 6980 + }, + { + "grad_norm": 0.1505212352467937, + "loss": 0.23546454310417175, + "step": 6980 + }, + { + "grad_norm": 0.10263100145025895, + "loss": 0.19001610577106476, + "step": 6981 + }, + { + "grad_norm": 0.16452392177349168, + "loss": 0.1595120131969452, + "step": 6982 + }, + { + "grad_norm": 0.187704530599368, + "loss": 0.21666906774044037, + "step": 6983 + }, + { + "grad_norm": 0.12038876084494102, + "loss": 0.18960696458816528, + "step": 6984 + }, + { + "grad_norm": 0.12464567966469735, + "loss": 0.24419519305229187, + "step": 6985 + }, + { + "grad_norm": 0.11220216667718426, + "loss": 0.17289060354232788, + "step": 6986 + }, + { + "grad_norm": 0.5832879106122747, + "loss": 0.17415347695350647, + "step": 6987 + }, + { + "grad_norm": 0.10751793956331411, + "loss": 0.1832135170698166, + "step": 6988 + }, + { + "grad_norm": 0.16845800234985836, + "loss": 0.1732974350452423, + "step": 6989 + }, + { + "epoch": 2.2368, + "grad_norm": 0.1684579998254776, + "learning_rate": 2.6779699079272402e-05, + "loss": 0.1939, + "step": 6990 + }, + { + "grad_norm": 0.2194923496037364, + "loss": 0.14170587062835693, + "step": 6990 + }, + { + "grad_norm": 0.4103389494800094, + "loss": 0.17303608357906342, + "step": 6991 + }, + { + "grad_norm": 0.26420993593523173, + "loss": 0.1985509842634201, + "step": 6992 + }, + { + "grad_norm": 0.3453163140450308, + "loss": 0.2057628333568573, + "step": 6993 + }, + { + "grad_norm": 0.10945696907343955, + "loss": 0.19793230295181274, + "step": 6994 + }, + { + "grad_norm": 0.25592598281139656, + "loss": 0.23091427981853485, + "step": 6995 + }, + { + "grad_norm": 0.2859319398363068, + "loss": 0.16727012395858765, + "step": 6996 + }, + { + "grad_norm": 0.13130892463258212, + "loss": 0.20127587020397186, + "step": 6997 + }, + { + "grad_norm": 0.3927162954063158, + "loss": 0.26771998405456543, + "step": 6998 + }, + { + "grad_norm": 0.4099880623806569, + "loss": 0.23211878538131714, + "step": 6999 + }, + { + "epoch": 2.24, + "grad_norm": 0.40998804569244385, + "learning_rate": 2.6667415225690546e-05, + "loss": 0.2016, + "step": 7000 + }, + { + "grad_norm": 0.22603733834212092, + "loss": 0.1879006326198578, + "step": 7000 + }, + { + "grad_norm": 0.1968985468062595, + "loss": 0.17545342445373535, + "step": 7001 + }, + { + "grad_norm": 0.15106247745079504, + "loss": 0.2312302589416504, + "step": 7002 + }, + { + "grad_norm": 0.24750369353138255, + "loss": 0.22987081110477448, + "step": 7003 + }, + { + "grad_norm": 0.295039014274111, + "loss": 0.17827658355236053, + "step": 7004 + }, + { + "grad_norm": 0.3689605707074896, + "loss": 0.16472238302230835, + "step": 7005 + }, + { + "grad_norm": 0.1637919472199528, + "loss": 0.1574312299489975, + "step": 7006 + }, + { + "grad_norm": 0.12975816453495873, + "loss": 0.2142930030822754, + "step": 7007 + }, + { + "grad_norm": 0.16196657104352485, + "loss": 0.1774888038635254, + "step": 7008 + }, + { + "grad_norm": 0.21206297641916547, + "loss": 0.16398532688617706, + "step": 7009 + }, + { + "epoch": 2.2432, + "grad_norm": 0.2120629996061325, + "learning_rate": 2.6555131372108693e-05, + "loss": 0.1881, + "step": 7010 + }, + { + "grad_norm": 0.2363999048656, + "loss": 0.23404017090797424, + "step": 7010 + }, + { + "grad_norm": 0.11247815904385038, + "loss": 0.156200110912323, + "step": 7011 + }, + { + "grad_norm": 0.13506621882238065, + "loss": 0.18405921757221222, + "step": 7012 + }, + { + "grad_norm": 0.178675478231859, + "loss": 0.24343325197696686, + "step": 7013 + }, + { + "grad_norm": 0.17503341468270045, + "loss": 0.1653701364994049, + "step": 7014 + }, + { + "grad_norm": 0.23771362511382924, + "loss": 0.24181729555130005, + "step": 7015 + }, + { + "grad_norm": 0.24471894977966435, + "loss": 0.16359734535217285, + "step": 7016 + }, + { + "grad_norm": 0.20805753362169532, + "loss": 0.22088663280010223, + "step": 7017 + }, + { + "grad_norm": 0.16114461461411791, + "loss": 0.1706300675868988, + "step": 7018 + }, + { + "grad_norm": 0.14605523070941104, + "loss": 0.17009244859218597, + "step": 7019 + }, + { + "epoch": 2.2464, + "grad_norm": 0.1460552215576172, + "learning_rate": 2.6442847518526837e-05, + "loss": 0.195, + "step": 7020 + }, + { + "grad_norm": 0.3913272422235873, + "loss": 0.18830375373363495, + "step": 7020 + }, + { + "grad_norm": 0.18207155116292187, + "loss": 0.15203943848609924, + "step": 7021 + }, + { + "grad_norm": 0.08885673093617233, + "loss": 0.18526685237884521, + "step": 7022 + }, + { + "grad_norm": 0.2658409517665008, + "loss": 0.19614338874816895, + "step": 7023 + }, + { + "grad_norm": 0.11411989230583923, + "loss": 0.17964087426662445, + "step": 7024 + }, + { + "grad_norm": 0.15148655863937108, + "loss": 0.18129566311836243, + "step": 7025 + }, + { + "grad_norm": 0.122168623293496, + "loss": 0.1625954806804657, + "step": 7026 + }, + { + "grad_norm": 0.1975813839233728, + "loss": 0.24704593420028687, + "step": 7027 + }, + { + "grad_norm": 0.21882958474692954, + "loss": 0.24397699534893036, + "step": 7028 + }, + { + "grad_norm": 0.17065699467951778, + "loss": 0.19564524292945862, + "step": 7029 + }, + { + "epoch": 2.2496, + "grad_norm": 0.1706569939851761, + "learning_rate": 2.6330563664944984e-05, + "loss": 0.1932, + "step": 7030 + }, + { + "grad_norm": 0.10945643786075751, + "loss": 0.19006496667861938, + "step": 7030 + }, + { + "grad_norm": 0.17771241808254962, + "loss": 0.22864854335784912, + "step": 7031 + }, + { + "grad_norm": 0.22873624010891327, + "loss": 0.19425855576992035, + "step": 7032 + }, + { + "grad_norm": 0.29812154560251686, + "loss": 0.2096298336982727, + "step": 7033 + }, + { + "grad_norm": 0.3129072414818244, + "loss": 0.22457101941108704, + "step": 7034 + }, + { + "grad_norm": 0.24498754893334684, + "loss": 0.19402387738227844, + "step": 7035 + }, + { + "grad_norm": 0.3848198580392294, + "loss": 0.23529021441936493, + "step": 7036 + }, + { + "grad_norm": 0.1399504352057002, + "loss": 0.2094886302947998, + "step": 7037 + }, + { + "grad_norm": 0.3905888143588078, + "loss": 0.15346604585647583, + "step": 7038 + }, + { + "grad_norm": 0.181989591252187, + "loss": 0.1709955632686615, + "step": 7039 + }, + { + "epoch": 2.2528, + "grad_norm": 0.18198959529399872, + "learning_rate": 2.6218279811363128e-05, + "loss": 0.201, + "step": 7040 + }, + { + "grad_norm": 0.1241184693541755, + "loss": 0.1860952526330948, + "step": 7040 + }, + { + "grad_norm": 0.19304136136690322, + "loss": 0.16057631373405457, + "step": 7041 + }, + { + "grad_norm": 0.1642562768833351, + "loss": 0.18854974210262299, + "step": 7042 + }, + { + "grad_norm": 0.1875720961327388, + "loss": 0.18646177649497986, + "step": 7043 + }, + { + "grad_norm": 0.24740322376240395, + "loss": 0.18536148965358734, + "step": 7044 + }, + { + "grad_norm": 0.22344408225245063, + "loss": 0.18838977813720703, + "step": 7045 + }, + { + "grad_norm": 0.12577423761073422, + "loss": 0.17327995598316193, + "step": 7046 + }, + { + "grad_norm": 0.24248908651073026, + "loss": 0.17476031184196472, + "step": 7047 + }, + { + "grad_norm": 0.4166557702811676, + "loss": 0.19894130527973175, + "step": 7048 + }, + { + "grad_norm": 0.33557133416484775, + "loss": 0.21568995714187622, + "step": 7049 + }, + { + "epoch": 2.2560000000000002, + "grad_norm": 0.3355713188648224, + "learning_rate": 2.6105995957781272e-05, + "loss": 0.1858, + "step": 7050 + }, + { + "grad_norm": 0.30376024498904175, + "loss": 0.16499760746955872, + "step": 7050 + }, + { + "grad_norm": 0.21359270270948497, + "loss": 0.19603697955608368, + "step": 7051 + }, + { + "grad_norm": 0.4845324472742351, + "loss": 0.16379030048847198, + "step": 7052 + }, + { + "grad_norm": 0.137710378402726, + "loss": 0.2587512731552124, + "step": 7053 + }, + { + "grad_norm": 0.11684799674904403, + "loss": 0.16751500964164734, + "step": 7054 + }, + { + "grad_norm": 0.19835204947159335, + "loss": 0.16972559690475464, + "step": 7055 + }, + { + "grad_norm": 0.15980274297078503, + "loss": 0.2028050273656845, + "step": 7056 + }, + { + "grad_norm": 0.1483398298955111, + "loss": 0.20087981224060059, + "step": 7057 + }, + { + "grad_norm": 0.31962569999233487, + "loss": 0.1705126166343689, + "step": 7058 + }, + { + "grad_norm": 0.2827122681446632, + "loss": 0.19890084862709045, + "step": 7059 + }, + { + "epoch": 2.2592, + "grad_norm": 0.28271225094795227, + "learning_rate": 2.599371210419942e-05, + "loss": 0.1894, + "step": 7060 + }, + { + "grad_norm": 0.1664915565743669, + "loss": 0.20595349371433258, + "step": 7060 + }, + { + "grad_norm": 0.26233832125395407, + "loss": 0.19982445240020752, + "step": 7061 + }, + { + "grad_norm": 0.2703394754266831, + "loss": 0.1840997338294983, + "step": 7062 + }, + { + "grad_norm": 0.311566980908491, + "loss": 0.1990591287612915, + "step": 7063 + }, + { + "grad_norm": 0.36454614032511057, + "loss": 0.2681375741958618, + "step": 7064 + }, + { + "grad_norm": 0.12741590926470786, + "loss": 0.24169377982616425, + "step": 7065 + }, + { + "grad_norm": 0.17555537490364653, + "loss": 0.2029571682214737, + "step": 7066 + }, + { + "grad_norm": 0.33056451479109783, + "loss": 0.24256128072738647, + "step": 7067 + }, + { + "grad_norm": 0.11511033448656614, + "loss": 0.17464058101177216, + "step": 7068 + }, + { + "grad_norm": 0.21678536917060254, + "loss": 0.15972377359867096, + "step": 7069 + }, + { + "epoch": 2.2624, + "grad_norm": 0.21678537130355835, + "learning_rate": 2.5881428250617563e-05, + "loss": 0.2079, + "step": 7070 + }, + { + "grad_norm": 0.3576758976668219, + "loss": 0.18217167258262634, + "step": 7070 + }, + { + "grad_norm": 0.1554141447660539, + "loss": 0.19986292719841003, + "step": 7071 + }, + { + "grad_norm": 0.14927158659094636, + "loss": 0.20050930976867676, + "step": 7072 + }, + { + "grad_norm": 0.3849412473444223, + "loss": 0.27910110354423523, + "step": 7073 + }, + { + "grad_norm": 0.09418397527530004, + "loss": 0.1816207766532898, + "step": 7074 + }, + { + "grad_norm": 0.09064647226186837, + "loss": 0.17000827193260193, + "step": 7075 + }, + { + "grad_norm": 0.17442761608209836, + "loss": 0.17875447869300842, + "step": 7076 + }, + { + "grad_norm": 0.3422821398566548, + "loss": 0.20506374537944794, + "step": 7077 + }, + { + "grad_norm": 0.24220114404398885, + "loss": 0.17825452983379364, + "step": 7078 + }, + { + "grad_norm": 0.16446189534665825, + "loss": 0.20251837372779846, + "step": 7079 + }, + { + "epoch": 2.2656, + "grad_norm": 0.1644618958234787, + "learning_rate": 2.5769144397035704e-05, + "loss": 0.1978, + "step": 7080 + }, + { + "grad_norm": 0.2397496637770764, + "loss": 0.13232947885990143, + "step": 7080 + }, + { + "grad_norm": 0.2535843348627368, + "loss": 0.16491711139678955, + "step": 7081 + }, + { + "grad_norm": 0.278475823990835, + "loss": 0.19482240080833435, + "step": 7082 + }, + { + "grad_norm": 0.28519257100120166, + "loss": 0.20971545577049255, + "step": 7083 + }, + { + "grad_norm": 0.17541370885820223, + "loss": 0.2107275277376175, + "step": 7084 + }, + { + "grad_norm": 0.1674933333212656, + "loss": 0.23393824696540833, + "step": 7085 + }, + { + "grad_norm": 0.256963554662444, + "loss": 0.1970808506011963, + "step": 7086 + }, + { + "grad_norm": 0.14595761719652647, + "loss": 0.20095404982566833, + "step": 7087 + }, + { + "grad_norm": 0.09243969320248469, + "loss": 0.1816045641899109, + "step": 7088 + }, + { + "grad_norm": 0.4336318540312614, + "loss": 0.23589491844177246, + "step": 7089 + }, + { + "epoch": 2.2688, + "grad_norm": 0.43363186717033386, + "learning_rate": 2.5656860543453854e-05, + "loss": 0.1962, + "step": 7090 + }, + { + "grad_norm": 0.0891737735465974, + "loss": 0.1534566432237625, + "step": 7090 + }, + { + "grad_norm": 0.11658997606096737, + "loss": 0.2550775110721588, + "step": 7091 + }, + { + "grad_norm": 0.2006540557306313, + "loss": 0.26004648208618164, + "step": 7092 + }, + { + "grad_norm": 0.14827262716053413, + "loss": 0.15614765882492065, + "step": 7093 + }, + { + "grad_norm": 0.26819377736530065, + "loss": 0.20174118876457214, + "step": 7094 + }, + { + "grad_norm": 0.3592718036503316, + "loss": 0.25484365224838257, + "step": 7095 + }, + { + "grad_norm": 0.21189233683026404, + "loss": 0.160681813955307, + "step": 7096 + }, + { + "grad_norm": 0.18944927164203426, + "loss": 0.2330450713634491, + "step": 7097 + }, + { + "grad_norm": 0.2848443685917852, + "loss": 0.16931311786174774, + "step": 7098 + }, + { + "grad_norm": 0.12593208363279637, + "loss": 0.21909014880657196, + "step": 7099 + }, + { + "epoch": 2.2720000000000002, + "grad_norm": 0.12593208253383636, + "learning_rate": 2.5544576689871995e-05, + "loss": 0.2063, + "step": 7100 + }, + { + "grad_norm": 0.24444611417335943, + "loss": 0.24834461510181427, + "step": 7100 + }, + { + "grad_norm": 0.6383938262209801, + "loss": 0.2168726921081543, + "step": 7101 + }, + { + "grad_norm": 0.15188806394231932, + "loss": 0.1974785029888153, + "step": 7102 + }, + { + "grad_norm": 0.2280082395530472, + "loss": 0.23627451062202454, + "step": 7103 + }, + { + "grad_norm": 0.30284443700179925, + "loss": 0.14827950298786163, + "step": 7104 + }, + { + "grad_norm": 0.25416489610567716, + "loss": 0.16623684763908386, + "step": 7105 + }, + { + "grad_norm": 0.15088308851624854, + "loss": 0.14867691695690155, + "step": 7106 + }, + { + "grad_norm": 0.26374414628541903, + "loss": 0.14864423871040344, + "step": 7107 + }, + { + "grad_norm": 0.2163189320340716, + "loss": 0.17154766619205475, + "step": 7108 + }, + { + "grad_norm": 0.2306786400432486, + "loss": 0.18952590227127075, + "step": 7109 + }, + { + "epoch": 2.2752, + "grad_norm": 0.23067864775657654, + "learning_rate": 2.5432292836290145e-05, + "loss": 0.1872, + "step": 7110 + }, + { + "grad_norm": 0.20266706309193488, + "loss": 0.16942602396011353, + "step": 7110 + }, + { + "grad_norm": 0.14729572454618473, + "loss": 0.21775487065315247, + "step": 7111 + }, + { + "grad_norm": 0.23505332488238342, + "loss": 0.23003029823303223, + "step": 7112 + }, + { + "grad_norm": 0.18146222438001036, + "loss": 0.2769501209259033, + "step": 7113 + }, + { + "grad_norm": 0.1646816510611673, + "loss": 0.18622297048568726, + "step": 7114 + }, + { + "grad_norm": 0.20304896050450838, + "loss": 0.21899640560150146, + "step": 7115 + }, + { + "grad_norm": 0.22230328888782055, + "loss": 0.18068525195121765, + "step": 7116 + }, + { + "grad_norm": 0.21382116040189164, + "loss": 0.2174125611782074, + "step": 7117 + }, + { + "grad_norm": 0.1465364213541835, + "loss": 0.1529751569032669, + "step": 7118 + }, + { + "grad_norm": 0.21921464173028807, + "loss": 0.13792815804481506, + "step": 7119 + }, + { + "epoch": 2.2784, + "grad_norm": 0.21921464800834656, + "learning_rate": 2.5320008982708286e-05, + "loss": 0.1988, + "step": 7120 + }, + { + "grad_norm": 0.21125831855987764, + "loss": 0.16352054476737976, + "step": 7120 + }, + { + "grad_norm": 0.14548891680567888, + "loss": 0.16901589930057526, + "step": 7121 + }, + { + "grad_norm": 0.24250454751876535, + "loss": 0.18081463873386383, + "step": 7122 + }, + { + "grad_norm": 0.16611487824515744, + "loss": 0.22477176785469055, + "step": 7123 + }, + { + "grad_norm": 0.35170702138818927, + "loss": 0.16106662154197693, + "step": 7124 + }, + { + "grad_norm": 0.13108380253546545, + "loss": 0.1994001567363739, + "step": 7125 + }, + { + "grad_norm": 0.11756694421637257, + "loss": 0.14630591869354248, + "step": 7126 + }, + { + "grad_norm": 0.32317059299224243, + "loss": 0.2440226823091507, + "step": 7127 + }, + { + "grad_norm": 0.15849738566343388, + "loss": 0.18697193264961243, + "step": 7128 + }, + { + "grad_norm": 0.3110032837393332, + "loss": 0.2483733892440796, + "step": 7129 + }, + { + "epoch": 2.2816, + "grad_norm": 0.31100329756736755, + "learning_rate": 2.520772512912643e-05, + "loss": 0.1924, + "step": 7130 + }, + { + "grad_norm": 0.15099487533476194, + "loss": 0.18428727984428406, + "step": 7130 + }, + { + "grad_norm": 0.1757936357892454, + "loss": 0.20626354217529297, + "step": 7131 + }, + { + "grad_norm": 0.3620780529756686, + "loss": 0.15526127815246582, + "step": 7132 + }, + { + "grad_norm": 0.4620982508296436, + "loss": 0.24783186614513397, + "step": 7133 + }, + { + "grad_norm": 0.12104852924322204, + "loss": 0.18733762204647064, + "step": 7134 + }, + { + "grad_norm": 0.1491823241796979, + "loss": 0.21609318256378174, + "step": 7135 + }, + { + "grad_norm": 0.2835284646320356, + "loss": 0.16203612089157104, + "step": 7136 + }, + { + "grad_norm": 0.11903510380738287, + "loss": 0.1876228302717209, + "step": 7137 + }, + { + "grad_norm": 0.16874933378303433, + "loss": 0.1596890389919281, + "step": 7138 + }, + { + "grad_norm": 0.1432432942274386, + "loss": 0.21107521653175354, + "step": 7139 + }, + { + "epoch": 2.2848, + "grad_norm": 0.14324329793453217, + "learning_rate": 2.509544127554458e-05, + "loss": 0.1917, + "step": 7140 + }, + { + "grad_norm": 0.15274091070883167, + "loss": 0.18670570850372314, + "step": 7140 + }, + { + "grad_norm": 0.2660517337306159, + "loss": 0.37227970361709595, + "step": 7141 + }, + { + "grad_norm": 0.28545194205804114, + "loss": 0.1548158973455429, + "step": 7142 + }, + { + "grad_norm": 0.12203399711240745, + "loss": 0.19927269220352173, + "step": 7143 + }, + { + "grad_norm": 0.15789232113961096, + "loss": 0.22617287933826447, + "step": 7144 + }, + { + "grad_norm": 0.26373329698774756, + "loss": 0.18919795751571655, + "step": 7145 + }, + { + "grad_norm": 0.15078443205412823, + "loss": 0.20574644207954407, + "step": 7146 + }, + { + "grad_norm": 0.1812553739516634, + "loss": 0.1501811295747757, + "step": 7147 + }, + { + "grad_norm": 0.33773840205929684, + "loss": 0.21908161044120789, + "step": 7148 + }, + { + "grad_norm": 0.11363972018652968, + "loss": 0.2000088095664978, + "step": 7149 + }, + { + "epoch": 2.288, + "grad_norm": 0.1136397197842598, + "learning_rate": 2.498315742196272e-05, + "loss": 0.2103, + "step": 7150 + }, + { + "grad_norm": 0.16806622937625118, + "loss": 0.22426366806030273, + "step": 7150 + }, + { + "grad_norm": 0.13073480442558996, + "loss": 0.21026580035686493, + "step": 7151 + }, + { + "grad_norm": 0.19444275747571127, + "loss": 0.17517971992492676, + "step": 7152 + }, + { + "grad_norm": 0.23743907958392682, + "loss": 0.17453202605247498, + "step": 7153 + }, + { + "grad_norm": 0.42006160113893243, + "loss": 0.23009301722049713, + "step": 7154 + }, + { + "grad_norm": 0.47485833500723124, + "loss": 0.2112281620502472, + "step": 7155 + }, + { + "grad_norm": 0.2475480366419391, + "loss": 0.18817439675331116, + "step": 7156 + }, + { + "grad_norm": 0.20220810116748422, + "loss": 0.2010837197303772, + "step": 7157 + }, + { + "grad_norm": 0.133644068215863, + "loss": 0.17226733267307281, + "step": 7158 + }, + { + "grad_norm": 0.12539143345418705, + "loss": 0.20403258502483368, + "step": 7159 + }, + { + "epoch": 2.2912, + "grad_norm": 0.12539143860340118, + "learning_rate": 2.487087356838087e-05, + "loss": 0.1991, + "step": 7160 + }, + { + "grad_norm": 0.37974892872604765, + "loss": 0.2267618477344513, + "step": 7160 + }, + { + "grad_norm": 0.14945081325621673, + "loss": 0.18311229348182678, + "step": 7161 + }, + { + "grad_norm": 0.15117561989615091, + "loss": 0.23466043174266815, + "step": 7162 + }, + { + "grad_norm": 0.1829094633375497, + "loss": 0.17178010940551758, + "step": 7163 + }, + { + "grad_norm": 0.12759192736140987, + "loss": 0.19020581245422363, + "step": 7164 + }, + { + "grad_norm": 0.1425567819104606, + "loss": 0.18980281054973602, + "step": 7165 + }, + { + "grad_norm": 0.08488756240201459, + "loss": 0.16488490998744965, + "step": 7166 + }, + { + "grad_norm": 0.20418655032535254, + "loss": 0.2636754512786865, + "step": 7167 + }, + { + "grad_norm": 0.41002126468796446, + "loss": 0.15489354729652405, + "step": 7168 + }, + { + "grad_norm": 0.14862652996600587, + "loss": 0.18844926357269287, + "step": 7169 + }, + { + "epoch": 2.2944, + "grad_norm": 0.14862652122974396, + "learning_rate": 2.4758589714799012e-05, + "loss": 0.1968, + "step": 7170 + }, + { + "grad_norm": 0.423208071653874, + "loss": 0.24918797612190247, + "step": 7170 + }, + { + "grad_norm": 0.1431072730736358, + "loss": 0.20795343816280365, + "step": 7171 + }, + { + "grad_norm": 0.19526418998920553, + "loss": 0.17625360190868378, + "step": 7172 + }, + { + "grad_norm": 0.22300809706169838, + "loss": 0.18135972321033478, + "step": 7173 + }, + { + "grad_norm": 0.13291429879858424, + "loss": 0.23279182612895966, + "step": 7174 + }, + { + "grad_norm": 0.15603384836203552, + "loss": 0.21729421615600586, + "step": 7175 + }, + { + "grad_norm": 0.1543676305039303, + "loss": 0.25422579050064087, + "step": 7176 + }, + { + "grad_norm": 0.11695500734971108, + "loss": 0.13952411711215973, + "step": 7177 + }, + { + "grad_norm": 0.13109957956726664, + "loss": 0.17334909737110138, + "step": 7178 + }, + { + "grad_norm": 0.18603763369892087, + "loss": 0.16599631309509277, + "step": 7179 + }, + { + "epoch": 2.2976, + "grad_norm": 0.18603764474391937, + "learning_rate": 2.464630586121716e-05, + "loss": 0.1998, + "step": 7180 + }, + { + "grad_norm": 0.3132478778033601, + "loss": 0.17133347690105438, + "step": 7180 + }, + { + "grad_norm": 0.224609799917282, + "loss": 0.19169944524765015, + "step": 7181 + }, + { + "grad_norm": 0.20197953234593907, + "loss": 0.21210762858390808, + "step": 7182 + }, + { + "grad_norm": 0.22280113955676528, + "loss": 0.14539824426174164, + "step": 7183 + }, + { + "grad_norm": 0.1350749602288632, + "loss": 0.1753145456314087, + "step": 7184 + }, + { + "grad_norm": 0.20738038609101472, + "loss": 0.1970624178647995, + "step": 7185 + }, + { + "grad_norm": 0.29152830557148873, + "loss": 0.16550467908382416, + "step": 7186 + }, + { + "grad_norm": 0.2608578349493713, + "loss": 0.17957466840744019, + "step": 7187 + }, + { + "grad_norm": 0.3471340348515164, + "loss": 0.20316801965236664, + "step": 7188 + }, + { + "grad_norm": 0.26008772602646174, + "loss": 0.24886175990104675, + "step": 7189 + }, + { + "epoch": 2.3008, + "grad_norm": 0.2600877285003662, + "learning_rate": 2.4534022007635303e-05, + "loss": 0.189, + "step": 7190 + }, + { + "grad_norm": 0.20337909392697587, + "loss": 0.15314312279224396, + "step": 7190 + }, + { + "grad_norm": 0.18246001487879723, + "loss": 0.20685583353042603, + "step": 7191 + }, + { + "grad_norm": 0.273279110526608, + "loss": 0.20814992487430573, + "step": 7192 + }, + { + "grad_norm": 0.23245871335801988, + "loss": 0.19282937049865723, + "step": 7193 + }, + { + "grad_norm": 0.1758535755497239, + "loss": 0.15837863087654114, + "step": 7194 + }, + { + "grad_norm": 0.2163530785884738, + "loss": 0.1963803917169571, + "step": 7195 + }, + { + "grad_norm": 0.46032191418441887, + "loss": 0.16658158600330353, + "step": 7196 + }, + { + "grad_norm": 0.27385036728201295, + "loss": 0.17302365601062775, + "step": 7197 + }, + { + "grad_norm": 0.17623941827356104, + "loss": 0.19563885033130646, + "step": 7198 + }, + { + "grad_norm": 0.2621091169571351, + "loss": 0.24522975087165833, + "step": 7199 + }, + { + "epoch": 2.304, + "grad_norm": 0.2621091306209564, + "learning_rate": 2.4421738154053447e-05, + "loss": 0.1896, + "step": 7200 + }, + { + "grad_norm": 0.4155585878281572, + "loss": 0.20805180072784424, + "step": 7200 + }, + { + "grad_norm": 0.18341691360869414, + "loss": 0.22787970304489136, + "step": 7201 + }, + { + "grad_norm": 0.21030269075064384, + "loss": 0.14950740337371826, + "step": 7202 + }, + { + "grad_norm": 0.2807299297756197, + "loss": 0.26893454790115356, + "step": 7203 + }, + { + "grad_norm": 0.39730484599312815, + "loss": 0.14325813949108124, + "step": 7204 + }, + { + "grad_norm": 0.3321728384336985, + "loss": 0.2156791239976883, + "step": 7205 + }, + { + "grad_norm": 0.1418427241768839, + "loss": 0.16701707243919373, + "step": 7206 + }, + { + "grad_norm": 0.21480768961363375, + "loss": 0.14114831387996674, + "step": 7207 + }, + { + "grad_norm": 0.13013524883535252, + "loss": 0.14704686403274536, + "step": 7208 + }, + { + "grad_norm": 0.36351031499374253, + "loss": 0.2914007008075714, + "step": 7209 + }, + { + "epoch": 2.3072, + "grad_norm": 0.3635103404521942, + "learning_rate": 2.4309454300471595e-05, + "loss": 0.196, + "step": 7210 + }, + { + "grad_norm": 0.13465868732726294, + "loss": 0.15812693536281586, + "step": 7210 + }, + { + "grad_norm": 0.19985237944247664, + "loss": 0.17984279990196228, + "step": 7211 + }, + { + "grad_norm": 0.31811600738822393, + "loss": 0.163984477519989, + "step": 7212 + }, + { + "grad_norm": 0.1541423031687436, + "loss": 0.1928708851337433, + "step": 7213 + }, + { + "grad_norm": 0.2938771995833714, + "loss": 0.25660568475723267, + "step": 7214 + }, + { + "grad_norm": 0.14758499791875437, + "loss": 0.24163192510604858, + "step": 7215 + }, + { + "grad_norm": 0.0967808210499287, + "loss": 0.14702904224395752, + "step": 7216 + }, + { + "grad_norm": 0.25717638805408016, + "loss": 0.19951678812503815, + "step": 7217 + }, + { + "grad_norm": 0.13910023453881637, + "loss": 0.1600167155265808, + "step": 7218 + }, + { + "grad_norm": 0.191469482398632, + "loss": 0.19518136978149414, + "step": 7219 + }, + { + "epoch": 2.3104, + "grad_norm": 0.1914694756269455, + "learning_rate": 2.419717044688974e-05, + "loss": 0.1895, + "step": 7220 + }, + { + "grad_norm": 0.22405257349298632, + "loss": 0.18354804813861847, + "step": 7220 + }, + { + "grad_norm": 0.3284572065267239, + "loss": 0.2111099660396576, + "step": 7221 + }, + { + "grad_norm": 0.32958062661456455, + "loss": 0.18911603093147278, + "step": 7222 + }, + { + "grad_norm": 0.18658737797179756, + "loss": 0.18105030059814453, + "step": 7223 + }, + { + "grad_norm": 0.11187785418437961, + "loss": 0.23181545734405518, + "step": 7224 + }, + { + "grad_norm": 0.25501815563518404, + "loss": 0.17525050044059753, + "step": 7225 + }, + { + "grad_norm": 0.33310191093461256, + "loss": 0.1725919395685196, + "step": 7226 + }, + { + "grad_norm": 0.15085498463166339, + "loss": 0.19360913336277008, + "step": 7227 + }, + { + "grad_norm": 0.3209165045527531, + "loss": 0.17984646558761597, + "step": 7228 + }, + { + "grad_norm": 0.22275245900989796, + "loss": 0.20412006974220276, + "step": 7229 + }, + { + "epoch": 2.3136, + "grad_norm": 0.22275245189666748, + "learning_rate": 2.4084886593307886e-05, + "loss": 0.1922, + "step": 7230 + }, + { + "grad_norm": 0.191297047559962, + "loss": 0.1836519092321396, + "step": 7230 + }, + { + "grad_norm": 0.1543487147720118, + "loss": 0.21992632746696472, + "step": 7231 + }, + { + "grad_norm": 0.15653030740040277, + "loss": 0.1594739556312561, + "step": 7232 + }, + { + "grad_norm": 0.1469116719874244, + "loss": 0.1904255747795105, + "step": 7233 + }, + { + "grad_norm": 0.1307557559828411, + "loss": 0.22462381422519684, + "step": 7234 + }, + { + "grad_norm": 0.10981065555958343, + "loss": 0.180179163813591, + "step": 7235 + }, + { + "grad_norm": 0.11521501357780278, + "loss": 0.1631113588809967, + "step": 7236 + }, + { + "grad_norm": 0.24373086326204726, + "loss": 0.1709410697221756, + "step": 7237 + }, + { + "grad_norm": 0.10822997368821193, + "loss": 0.20425699651241302, + "step": 7238 + }, + { + "grad_norm": 0.21839483781896687, + "loss": 0.2179562747478485, + "step": 7239 + }, + { + "epoch": 2.3168, + "grad_norm": 0.21839484572410583, + "learning_rate": 2.3972602739726026e-05, + "loss": 0.1915, + "step": 7240 + }, + { + "grad_norm": 0.19983801283890326, + "loss": 0.19518433511257172, + "step": 7240 + }, + { + "grad_norm": 0.10502731586889674, + "loss": 0.13511483371257782, + "step": 7241 + }, + { + "grad_norm": 0.1132121779102443, + "loss": 0.20493119955062866, + "step": 7242 + }, + { + "grad_norm": 0.18676814038131317, + "loss": 0.14913849532604218, + "step": 7243 + }, + { + "grad_norm": 0.17662872362021673, + "loss": 0.17456012964248657, + "step": 7244 + }, + { + "grad_norm": 0.17619361814066065, + "loss": 0.23705482482910156, + "step": 7245 + }, + { + "grad_norm": 0.12052211136572256, + "loss": 0.1367083042860031, + "step": 7246 + }, + { + "grad_norm": 0.13654344591975157, + "loss": 0.1725684106349945, + "step": 7247 + }, + { + "grad_norm": 0.2088441730959569, + "loss": 0.1619526445865631, + "step": 7248 + }, + { + "grad_norm": 0.20325468962411475, + "loss": 0.2453959882259369, + "step": 7249 + }, + { + "epoch": 2.32, + "grad_norm": 0.20325468480587006, + "learning_rate": 2.3860318886144174e-05, + "loss": 0.1813, + "step": 7250 + }, + { + "grad_norm": 0.11262104574584379, + "loss": 0.1570403277873993, + "step": 7250 + }, + { + "grad_norm": 0.12270401868381373, + "loss": 0.1685774028301239, + "step": 7251 + }, + { + "grad_norm": 0.32523796752776274, + "loss": 0.15674877166748047, + "step": 7252 + }, + { + "grad_norm": 0.3457340198757957, + "loss": 0.2812618315219879, + "step": 7253 + }, + { + "grad_norm": 0.14540134273146463, + "loss": 0.26130741834640503, + "step": 7254 + }, + { + "grad_norm": 0.1879145212521128, + "loss": 0.1937749683856964, + "step": 7255 + }, + { + "grad_norm": 0.2239232502824751, + "loss": 0.15739908814430237, + "step": 7256 + }, + { + "grad_norm": 0.5059664966507972, + "loss": 0.21171775460243225, + "step": 7257 + }, + { + "grad_norm": 0.34267912946782647, + "loss": 0.16294719278812408, + "step": 7258 + }, + { + "grad_norm": 0.20031066549003254, + "loss": 0.17315420508384705, + "step": 7259 + }, + { + "epoch": 2.3232, + "grad_norm": 0.20031067728996277, + "learning_rate": 2.3748035032562318e-05, + "loss": 0.1924, + "step": 7260 + }, + { + "grad_norm": 0.21353525009119106, + "loss": 0.14990174770355225, + "step": 7260 + }, + { + "grad_norm": 0.20298796710619382, + "loss": 0.2121085524559021, + "step": 7261 + }, + { + "grad_norm": 0.2526044799838435, + "loss": 0.17493915557861328, + "step": 7262 + }, + { + "grad_norm": 0.31925140366098026, + "loss": 0.19329744577407837, + "step": 7263 + }, + { + "grad_norm": 0.3245510108887108, + "loss": 0.19309702515602112, + "step": 7264 + }, + { + "grad_norm": 0.6246666897764154, + "loss": 0.298376202583313, + "step": 7265 + }, + { + "grad_norm": 0.3543582888092413, + "loss": 0.13928452134132385, + "step": 7266 + }, + { + "grad_norm": 0.21361295288109194, + "loss": 0.2043546587228775, + "step": 7267 + }, + { + "grad_norm": 0.16216821352807587, + "loss": 0.1517840027809143, + "step": 7268 + }, + { + "grad_norm": 0.11527217625795586, + "loss": 0.162698894739151, + "step": 7269 + }, + { + "epoch": 2.3264, + "grad_norm": 0.11527217924594879, + "learning_rate": 2.3635751178980465e-05, + "loss": 0.188, + "step": 7270 + }, + { + "grad_norm": 0.12311847293035755, + "loss": 0.20478728413581848, + "step": 7270 + }, + { + "grad_norm": 0.32708890756047737, + "loss": 0.22039231657981873, + "step": 7271 + }, + { + "grad_norm": 0.19754259701184596, + "loss": 0.15248242020606995, + "step": 7272 + }, + { + "grad_norm": 0.2991387598005369, + "loss": 0.19415542483329773, + "step": 7273 + }, + { + "grad_norm": 0.29387263291928134, + "loss": 0.14276646077632904, + "step": 7274 + }, + { + "grad_norm": 0.3224855695099058, + "loss": 0.15477347373962402, + "step": 7275 + }, + { + "grad_norm": 0.14359494501603434, + "loss": 0.1760219782590866, + "step": 7276 + }, + { + "grad_norm": 0.3518939895781854, + "loss": 0.13237985968589783, + "step": 7277 + }, + { + "grad_norm": 0.10362641525594153, + "loss": 0.17299668490886688, + "step": 7278 + }, + { + "grad_norm": 0.18948520797223567, + "loss": 0.21867327392101288, + "step": 7279 + }, + { + "epoch": 2.3296, + "grad_norm": 0.18948520720005035, + "learning_rate": 2.352346732539861e-05, + "loss": 0.1769, + "step": 7280 + }, + { + "grad_norm": 0.10423722097679179, + "loss": 0.16278353333473206, + "step": 7280 + }, + { + "grad_norm": 0.13599125303609857, + "loss": 0.1752076894044876, + "step": 7281 + }, + { + "grad_norm": 0.2516633631528582, + "loss": 0.19320009648799896, + "step": 7282 + }, + { + "grad_norm": 0.1989729756631892, + "loss": 0.14971676468849182, + "step": 7283 + }, + { + "grad_norm": 0.14743891526540737, + "loss": 0.17843635380268097, + "step": 7284 + }, + { + "grad_norm": 0.15794335488315428, + "loss": 0.22834032773971558, + "step": 7285 + }, + { + "grad_norm": 0.19823258145738937, + "loss": 0.22322066128253937, + "step": 7286 + }, + { + "grad_norm": 0.32054465529483406, + "loss": 0.24754521250724792, + "step": 7287 + }, + { + "grad_norm": 0.15257499724077683, + "loss": 0.20267195999622345, + "step": 7288 + }, + { + "grad_norm": 0.3682481044007653, + "loss": 0.1854097545146942, + "step": 7289 + }, + { + "epoch": 2.3327999999999998, + "grad_norm": 0.3682481050491333, + "learning_rate": 2.3411183471816753e-05, + "loss": 0.1947, + "step": 7290 + }, + { + "grad_norm": 0.4494516902899176, + "loss": 0.19488853216171265, + "step": 7290 + }, + { + "grad_norm": 0.12250676308209363, + "loss": 0.23875409364700317, + "step": 7291 + }, + { + "grad_norm": 0.15148470103060585, + "loss": 0.14828181266784668, + "step": 7292 + }, + { + "grad_norm": 0.18239267630896153, + "loss": 0.1577143669128418, + "step": 7293 + }, + { + "grad_norm": 0.2634685553431419, + "loss": 0.1848674714565277, + "step": 7294 + }, + { + "grad_norm": 0.15162096285086735, + "loss": 0.21959227323532104, + "step": 7295 + }, + { + "grad_norm": 0.3338701942433138, + "loss": 0.16203147172927856, + "step": 7296 + }, + { + "grad_norm": 0.11741865513170369, + "loss": 0.21994200348854065, + "step": 7297 + }, + { + "grad_norm": 0.3436478903288971, + "loss": 0.19492968916893005, + "step": 7298 + }, + { + "grad_norm": 0.1695318913694226, + "loss": 0.1736740916967392, + "step": 7299 + }, + { + "epoch": 2.336, + "grad_norm": 0.1695318967103958, + "learning_rate": 2.32988996182349e-05, + "loss": 0.1895, + "step": 7300 + }, + { + "grad_norm": 0.23741403981269152, + "loss": 0.20532502233982086, + "step": 7300 + }, + { + "grad_norm": 0.39741531548985315, + "loss": 0.1679227501153946, + "step": 7301 + }, + { + "grad_norm": 0.1316928322632899, + "loss": 0.17397773265838623, + "step": 7302 + }, + { + "grad_norm": 0.14109936378070734, + "loss": 0.2009427398443222, + "step": 7303 + }, + { + "grad_norm": 0.16363828704338326, + "loss": 0.14826221764087677, + "step": 7304 + }, + { + "grad_norm": 0.24627040041629036, + "loss": 0.17492084205150604, + "step": 7305 + }, + { + "grad_norm": 0.30622524503942355, + "loss": 0.2123805731534958, + "step": 7306 + }, + { + "grad_norm": 0.20088696128737185, + "loss": 0.16462542116641998, + "step": 7307 + }, + { + "grad_norm": 0.17018669342075834, + "loss": 0.17768554389476776, + "step": 7308 + }, + { + "grad_norm": 0.2640018838739856, + "loss": 0.1956007182598114, + "step": 7309 + }, + { + "epoch": 2.3392, + "grad_norm": 0.26400190591812134, + "learning_rate": 2.3186615764653044e-05, + "loss": 0.1822, + "step": 7310 + }, + { + "grad_norm": 0.16603465205682597, + "loss": 0.22173434495925903, + "step": 7310 + }, + { + "grad_norm": 0.16995544608853652, + "loss": 0.16735833883285522, + "step": 7311 + }, + { + "grad_norm": 0.12814992657922097, + "loss": 0.16713672876358032, + "step": 7312 + }, + { + "grad_norm": 0.18423323725502022, + "loss": 0.220238596200943, + "step": 7313 + }, + { + "grad_norm": 0.20317848110753664, + "loss": 0.20213723182678223, + "step": 7314 + }, + { + "grad_norm": 0.2208773950030414, + "loss": 0.15085481107234955, + "step": 7315 + }, + { + "grad_norm": 0.18903149215947335, + "loss": 0.18678611516952515, + "step": 7316 + }, + { + "grad_norm": 0.22614110638537735, + "loss": 0.21535974740982056, + "step": 7317 + }, + { + "grad_norm": 0.09030010205064463, + "loss": 0.1643402874469757, + "step": 7318 + }, + { + "grad_norm": 0.1179624249466873, + "loss": 0.17211444675922394, + "step": 7319 + }, + { + "epoch": 2.3424, + "grad_norm": 0.11796242743730545, + "learning_rate": 2.307433191107119e-05, + "loss": 0.1868, + "step": 7320 + }, + { + "grad_norm": 0.11521801388946601, + "loss": 0.19822803139686584, + "step": 7320 + }, + { + "grad_norm": 0.43306407622783577, + "loss": 0.21615031361579895, + "step": 7321 + }, + { + "grad_norm": 0.1599999791047912, + "loss": 0.1833421140909195, + "step": 7322 + }, + { + "grad_norm": 0.14836706501289973, + "loss": 0.1791413277387619, + "step": 7323 + }, + { + "grad_norm": 0.31384148742216467, + "loss": 0.14539974927902222, + "step": 7324 + }, + { + "grad_norm": 0.2349499848028508, + "loss": 0.2017306089401245, + "step": 7325 + }, + { + "grad_norm": 0.21184354580592424, + "loss": 0.16420713067054749, + "step": 7326 + }, + { + "grad_norm": 0.10131316655586367, + "loss": 0.1557760238647461, + "step": 7327 + }, + { + "grad_norm": 0.12957279983495493, + "loss": 0.16170421242713928, + "step": 7328 + }, + { + "grad_norm": 0.5708523082756262, + "loss": 0.2414635717868805, + "step": 7329 + }, + { + "epoch": 2.3456, + "grad_norm": 0.5708523392677307, + "learning_rate": 2.2962048057489335e-05, + "loss": 0.1847, + "step": 7330 + }, + { + "grad_norm": 0.16241436207899249, + "loss": 0.1996840536594391, + "step": 7330 + }, + { + "grad_norm": 0.12469793532152694, + "loss": 0.1718166619539261, + "step": 7331 + }, + { + "grad_norm": 0.35229703238942006, + "loss": 0.19783776998519897, + "step": 7332 + }, + { + "grad_norm": 0.1782514022577567, + "loss": 0.21109595894813538, + "step": 7333 + }, + { + "grad_norm": 0.17630949036566687, + "loss": 0.15325652062892914, + "step": 7334 + }, + { + "grad_norm": 0.14769654382408318, + "loss": 0.17325732111930847, + "step": 7335 + }, + { + "grad_norm": 0.39505958675400726, + "loss": 0.2853368818759918, + "step": 7336 + }, + { + "grad_norm": 0.18164258900844737, + "loss": 0.22392883896827698, + "step": 7337 + }, + { + "grad_norm": 0.10902583346371436, + "loss": 0.19779957830905914, + "step": 7338 + }, + { + "grad_norm": 0.177061540200239, + "loss": 0.16762161254882812, + "step": 7339 + }, + { + "epoch": 2.3487999999999998, + "grad_norm": 0.1770615428686142, + "learning_rate": 2.284976420390748e-05, + "loss": 0.1982, + "step": 7340 + }, + { + "grad_norm": 0.18078859262468974, + "loss": 0.19058892130851746, + "step": 7340 + }, + { + "grad_norm": 0.1841850253701009, + "loss": 0.16042101383209229, + "step": 7341 + }, + { + "grad_norm": 0.13697683962916002, + "loss": 0.16874563694000244, + "step": 7342 + }, + { + "grad_norm": 0.12038473073076653, + "loss": 0.18404620885849, + "step": 7343 + }, + { + "grad_norm": 0.2596299967561645, + "loss": 0.18089720606803894, + "step": 7344 + }, + { + "grad_norm": 0.21689510954719932, + "loss": 0.19737866520881653, + "step": 7345 + }, + { + "grad_norm": 0.28491049331204793, + "loss": 0.22720947861671448, + "step": 7346 + }, + { + "grad_norm": 0.6099687526359411, + "loss": 0.19924446940422058, + "step": 7347 + }, + { + "grad_norm": 0.3613476918806916, + "loss": 0.2030898928642273, + "step": 7348 + }, + { + "grad_norm": 0.5241641001587515, + "loss": 0.2323531210422516, + "step": 7349 + }, + { + "epoch": 2.352, + "grad_norm": 0.524164080619812, + "learning_rate": 2.2737480350325623e-05, + "loss": 0.1944, + "step": 7350 + }, + { + "grad_norm": 0.1454888542187083, + "loss": 0.19592565298080444, + "step": 7350 + }, + { + "grad_norm": 0.1835851092580895, + "loss": 0.21701082587242126, + "step": 7351 + }, + { + "grad_norm": 0.172874588221451, + "loss": 0.20541854202747345, + "step": 7352 + }, + { + "grad_norm": 0.22503444751949994, + "loss": 0.2173222005367279, + "step": 7353 + }, + { + "grad_norm": 0.15850735166580066, + "loss": 0.14835697412490845, + "step": 7354 + }, + { + "grad_norm": 0.22657661142685087, + "loss": 0.15708866715431213, + "step": 7355 + }, + { + "grad_norm": 0.49012186768810484, + "loss": 0.1910860687494278, + "step": 7356 + }, + { + "grad_norm": 0.12473989052506469, + "loss": 0.1614500880241394, + "step": 7357 + }, + { + "grad_norm": 0.315418986075442, + "loss": 0.17797815799713135, + "step": 7358 + }, + { + "grad_norm": 0.19294542181797406, + "loss": 0.1795841008424759, + "step": 7359 + }, + { + "epoch": 2.3552, + "grad_norm": 0.19294540584087372, + "learning_rate": 2.262519649674377e-05, + "loss": 0.1851, + "step": 7360 + }, + { + "grad_norm": 0.17495225122863328, + "loss": 0.191785529255867, + "step": 7360 + }, + { + "grad_norm": 0.7471626456681583, + "loss": 0.2670484483242035, + "step": 7361 + }, + { + "grad_norm": 0.09623135375021828, + "loss": 0.1874561607837677, + "step": 7362 + }, + { + "grad_norm": 0.2306658007741031, + "loss": 0.1839677393436432, + "step": 7363 + }, + { + "grad_norm": 0.1387272717777276, + "loss": 0.22965845465660095, + "step": 7364 + }, + { + "grad_norm": 0.3308326454589306, + "loss": 0.3005082905292511, + "step": 7365 + }, + { + "grad_norm": 0.17108743781639163, + "loss": 0.23639965057373047, + "step": 7366 + }, + { + "grad_norm": 0.10828350552932212, + "loss": 0.16964958608150482, + "step": 7367 + }, + { + "grad_norm": 0.2836454716113805, + "loss": 0.17274923622608185, + "step": 7368 + }, + { + "grad_norm": 0.34142594876816046, + "loss": 0.159384086728096, + "step": 7369 + }, + { + "epoch": 2.3584, + "grad_norm": 0.34142595529556274, + "learning_rate": 2.2512912643161914e-05, + "loss": 0.2099, + "step": 7370 + }, + { + "grad_norm": 0.14262875027169847, + "loss": 0.1649283617734909, + "step": 7370 + }, + { + "grad_norm": 0.22484480569163143, + "loss": 0.23865213990211487, + "step": 7371 + }, + { + "grad_norm": 0.23075437732928827, + "loss": 0.255474328994751, + "step": 7372 + }, + { + "grad_norm": 0.30286205448775405, + "loss": 0.1736774891614914, + "step": 7373 + }, + { + "grad_norm": 0.10739893837338628, + "loss": 0.2023022174835205, + "step": 7374 + }, + { + "grad_norm": 0.3928246071425417, + "loss": 0.15479841828346252, + "step": 7375 + }, + { + "grad_norm": 0.16579661349471084, + "loss": 0.23142732679843903, + "step": 7376 + }, + { + "grad_norm": 0.13891057254834993, + "loss": 0.2035067081451416, + "step": 7377 + }, + { + "grad_norm": 0.22857688027754555, + "loss": 0.19840525090694427, + "step": 7378 + }, + { + "grad_norm": 0.14007115410271231, + "loss": 0.16508221626281738, + "step": 7379 + }, + { + "epoch": 2.3616, + "grad_norm": 0.14007115364074707, + "learning_rate": 2.2400628789580058e-05, + "loss": 0.1988, + "step": 7380 + }, + { + "grad_norm": 0.2133921967982052, + "loss": 0.21099123358726501, + "step": 7380 + }, + { + "grad_norm": 0.1335597090226521, + "loss": 0.23444026708602905, + "step": 7381 + }, + { + "grad_norm": 0.1863844831188249, + "loss": 0.1962936818599701, + "step": 7382 + }, + { + "grad_norm": 0.22178137865157743, + "loss": 0.18199938535690308, + "step": 7383 + }, + { + "grad_norm": 0.10296527178487196, + "loss": 0.18283861875534058, + "step": 7384 + }, + { + "grad_norm": 0.2945428751976625, + "loss": 0.16754977405071259, + "step": 7385 + }, + { + "grad_norm": 0.24837973655403275, + "loss": 0.2044750154018402, + "step": 7386 + }, + { + "grad_norm": 0.14289511253852216, + "loss": 0.15312211215496063, + "step": 7387 + }, + { + "grad_norm": 0.21747940398254714, + "loss": 0.15273812413215637, + "step": 7388 + }, + { + "grad_norm": 0.15258093050846092, + "loss": 0.2435302436351776, + "step": 7389 + }, + { + "epoch": 2.3648, + "grad_norm": 0.15258093178272247, + "learning_rate": 2.2288344935998205e-05, + "loss": 0.1928, + "step": 7390 + }, + { + "grad_norm": 0.15233570686736253, + "loss": 0.1847812682390213, + "step": 7390 + }, + { + "grad_norm": 0.1405365708871926, + "loss": 0.19894537329673767, + "step": 7391 + }, + { + "grad_norm": 0.2176303282744947, + "loss": 0.1785857230424881, + "step": 7392 + }, + { + "grad_norm": 0.19646096426699794, + "loss": 0.206356942653656, + "step": 7393 + }, + { + "grad_norm": 0.26168338108674394, + "loss": 0.165591761469841, + "step": 7394 + }, + { + "grad_norm": 0.2398533577289275, + "loss": 0.22448652982711792, + "step": 7395 + }, + { + "grad_norm": 0.1420322412504292, + "loss": 0.20183596014976501, + "step": 7396 + }, + { + "grad_norm": 0.2865304769759332, + "loss": 0.22592686116695404, + "step": 7397 + }, + { + "grad_norm": 0.1955468267322787, + "loss": 0.1801595389842987, + "step": 7398 + }, + { + "grad_norm": 0.19033629644625075, + "loss": 0.17626546323299408, + "step": 7399 + }, + { + "epoch": 2.368, + "grad_norm": 0.19033628702163696, + "learning_rate": 2.217606108241635e-05, + "loss": 0.1943, + "step": 7400 + }, + { + "grad_norm": 0.15086932787085322, + "loss": 0.1503373384475708, + "step": 7400 + }, + { + "grad_norm": 0.18311827989684945, + "loss": 0.1635250449180603, + "step": 7401 + }, + { + "grad_norm": 0.29259558850333817, + "loss": 0.16444988548755646, + "step": 7402 + }, + { + "grad_norm": 0.10735155314451023, + "loss": 0.1970360428094864, + "step": 7403 + }, + { + "grad_norm": 0.10339104616843807, + "loss": 0.16975849866867065, + "step": 7404 + }, + { + "grad_norm": 0.11324522008920926, + "loss": 0.16939353942871094, + "step": 7405 + }, + { + "grad_norm": 0.13551574266740887, + "loss": 0.20859748125076294, + "step": 7406 + }, + { + "grad_norm": 0.23450842801104352, + "loss": 0.20686911046504974, + "step": 7407 + }, + { + "grad_norm": 0.26201734009601946, + "loss": 0.2639252245426178, + "step": 7408 + }, + { + "grad_norm": 0.1665962894385015, + "loss": 0.1537594050168991, + "step": 7409 + }, + { + "epoch": 2.3712, + "grad_norm": 0.16659627854824066, + "learning_rate": 2.2063777228834496e-05, + "loss": 0.1848, + "step": 7410 + }, + { + "grad_norm": 0.19425477859963516, + "loss": 0.21212561428546906, + "step": 7410 + }, + { + "grad_norm": 0.31013278714444004, + "loss": 0.19112259149551392, + "step": 7411 + }, + { + "grad_norm": 0.1448120368453778, + "loss": 0.2075687050819397, + "step": 7412 + }, + { + "grad_norm": 0.24059731726721456, + "loss": 0.1591077595949173, + "step": 7413 + }, + { + "grad_norm": 0.19393740527956863, + "loss": 0.16969066858291626, + "step": 7414 + }, + { + "grad_norm": 0.20306796333097488, + "loss": 0.19404491782188416, + "step": 7415 + }, + { + "grad_norm": 0.1029464436454904, + "loss": 0.21958446502685547, + "step": 7416 + }, + { + "grad_norm": 0.1866482512694475, + "loss": 0.1813027262687683, + "step": 7417 + }, + { + "grad_norm": 0.10579999431004908, + "loss": 0.1700940877199173, + "step": 7418 + }, + { + "grad_norm": 0.2054841812068631, + "loss": 0.21277529001235962, + "step": 7419 + }, + { + "epoch": 2.3744, + "grad_norm": 0.20548418164253235, + "learning_rate": 2.195149337525264e-05, + "loss": 0.1917, + "step": 7420 + }, + { + "grad_norm": 0.2715998390817122, + "loss": 0.1507580429315567, + "step": 7420 + }, + { + "grad_norm": 0.5099664923966638, + "loss": 0.31547310948371887, + "step": 7421 + }, + { + "grad_norm": 0.2064842994084589, + "loss": 0.1789093315601349, + "step": 7422 + }, + { + "grad_norm": 0.2435664533567996, + "loss": 0.20252904295921326, + "step": 7423 + }, + { + "grad_norm": 0.11420921619714737, + "loss": 0.19114184379577637, + "step": 7424 + }, + { + "grad_norm": 0.30590181365558317, + "loss": 0.19403252005577087, + "step": 7425 + }, + { + "grad_norm": 0.14549226185469588, + "loss": 0.1858311891555786, + "step": 7426 + }, + { + "grad_norm": 0.17759479345323936, + "loss": 0.21337999403476715, + "step": 7427 + }, + { + "grad_norm": 0.16890863588217922, + "loss": 0.16984406113624573, + "step": 7428 + }, + { + "grad_norm": 0.18582994292042213, + "loss": 0.18475359678268433, + "step": 7429 + }, + { + "epoch": 2.3776, + "grad_norm": 0.18582993745803833, + "learning_rate": 2.1839209521670784e-05, + "loss": 0.1987, + "step": 7430 + }, + { + "grad_norm": 0.23198910643883422, + "loss": 0.1783292293548584, + "step": 7430 + }, + { + "grad_norm": 0.12025741221877136, + "loss": 0.1840311884880066, + "step": 7431 + }, + { + "grad_norm": 0.3339270238951174, + "loss": 0.14789754152297974, + "step": 7432 + }, + { + "grad_norm": 0.2620979276036051, + "loss": 0.17848648130893707, + "step": 7433 + }, + { + "grad_norm": 0.2620380862519165, + "loss": 0.26140129566192627, + "step": 7434 + }, + { + "grad_norm": 0.19459530524443752, + "loss": 0.24039439857006073, + "step": 7435 + }, + { + "grad_norm": 0.46599327448484545, + "loss": 0.23540005087852478, + "step": 7436 + }, + { + "grad_norm": 0.21966173816663542, + "loss": 0.17089955508708954, + "step": 7437 + }, + { + "grad_norm": 0.41362261605681666, + "loss": 0.21140821278095245, + "step": 7438 + }, + { + "grad_norm": 0.47243390798224805, + "loss": 0.27041006088256836, + "step": 7439 + }, + { + "epoch": 2.3808, + "grad_norm": 0.4724338948726654, + "learning_rate": 2.1726925668088928e-05, + "loss": 0.2079, + "step": 7440 + }, + { + "grad_norm": 0.11665926815219534, + "loss": 0.17526587843894958, + "step": 7440 + }, + { + "grad_norm": 0.36511788416050434, + "loss": 0.27091142535209656, + "step": 7441 + }, + { + "grad_norm": 0.14121819909642216, + "loss": 0.18847329914569855, + "step": 7442 + }, + { + "grad_norm": 0.2728173732341981, + "loss": 0.17163923382759094, + "step": 7443 + }, + { + "grad_norm": 0.1491676678361767, + "loss": 0.1791735142469406, + "step": 7444 + }, + { + "grad_norm": 0.1395877614047295, + "loss": 0.1878172755241394, + "step": 7445 + }, + { + "grad_norm": 0.19744604851079872, + "loss": 0.222874253988266, + "step": 7446 + }, + { + "grad_norm": 0.22569549036744072, + "loss": 0.21073804795742035, + "step": 7447 + }, + { + "grad_norm": 0.11346935839615672, + "loss": 0.23830769956111908, + "step": 7448 + }, + { + "grad_norm": 0.36754335959643886, + "loss": 0.1705867350101471, + "step": 7449 + }, + { + "epoch": 2.384, + "grad_norm": 0.3675433397293091, + "learning_rate": 2.1614641814507075e-05, + "loss": 0.2016, + "step": 7450 + }, + { + "grad_norm": 0.3371434984066683, + "loss": 0.19789668917655945, + "step": 7450 + }, + { + "grad_norm": 0.5386193057174635, + "loss": 0.17415863275527954, + "step": 7451 + }, + { + "grad_norm": 0.5136550027065194, + "loss": 0.15865784883499146, + "step": 7452 + }, + { + "grad_norm": 0.5571150912994867, + "loss": 0.18599025905132294, + "step": 7453 + }, + { + "grad_norm": 0.15302097915901183, + "loss": 0.2373408079147339, + "step": 7454 + }, + { + "grad_norm": 0.33813831707565595, + "loss": 0.24060308933258057, + "step": 7455 + }, + { + "grad_norm": 0.11558130943050224, + "loss": 0.19220051169395447, + "step": 7456 + }, + { + "grad_norm": 0.15038451136071543, + "loss": 0.1855909526348114, + "step": 7457 + }, + { + "grad_norm": 0.18381063257861188, + "loss": 0.18797926604747772, + "step": 7458 + }, + { + "grad_norm": 0.41932770955893334, + "loss": 0.21097853779792786, + "step": 7459 + }, + { + "epoch": 2.3872, + "grad_norm": 0.4193277060985565, + "learning_rate": 2.150235796092522e-05, + "loss": 0.1971, + "step": 7460 + }, + { + "grad_norm": 0.29537649031981683, + "loss": 0.21477535367012024, + "step": 7460 + }, + { + "grad_norm": 0.3119929497042757, + "loss": 0.19708868861198425, + "step": 7461 + }, + { + "grad_norm": 0.1286769813390125, + "loss": 0.20249709486961365, + "step": 7462 + }, + { + "grad_norm": 0.3304764763215377, + "loss": 0.21442559361457825, + "step": 7463 + }, + { + "grad_norm": 0.2571348372194884, + "loss": 0.2385202795267105, + "step": 7464 + }, + { + "grad_norm": 0.3015131424575502, + "loss": 0.27436044812202454, + "step": 7465 + }, + { + "grad_norm": 0.1325734443624766, + "loss": 0.1707853227853775, + "step": 7466 + }, + { + "grad_norm": 0.15214312098103736, + "loss": 0.2114098072052002, + "step": 7467 + }, + { + "grad_norm": 0.1403880641450506, + "loss": 0.1694817841053009, + "step": 7468 + }, + { + "grad_norm": 0.15622088145699353, + "loss": 0.23322857916355133, + "step": 7469 + }, + { + "epoch": 2.3904, + "grad_norm": 0.15622088313102722, + "learning_rate": 2.1390074107343367e-05, + "loss": 0.2127, + "step": 7470 + }, + { + "grad_norm": 0.18459523515085127, + "loss": 0.23677565157413483, + "step": 7470 + }, + { + "grad_norm": 0.21479795442508948, + "loss": 0.17821022868156433, + "step": 7471 + }, + { + "grad_norm": 0.20666877676005063, + "loss": 0.1493193358182907, + "step": 7472 + }, + { + "grad_norm": 0.3017772830130129, + "loss": 0.16369374096393585, + "step": 7473 + }, + { + "grad_norm": 0.30917647754576333, + "loss": 0.15877218544483185, + "step": 7474 + }, + { + "grad_norm": 0.28998452062031455, + "loss": 0.30169162154197693, + "step": 7475 + }, + { + "grad_norm": 0.39149757476609276, + "loss": 0.15614202618598938, + "step": 7476 + }, + { + "grad_norm": 0.25451556139731035, + "loss": 0.1909838616847992, + "step": 7477 + }, + { + "grad_norm": 0.2592474494060931, + "loss": 0.19343070685863495, + "step": 7478 + }, + { + "grad_norm": 0.3101946901113091, + "loss": 0.19542692601680756, + "step": 7479 + }, + { + "epoch": 2.3936, + "grad_norm": 0.3101946711540222, + "learning_rate": 2.127779025376151e-05, + "loss": 0.1924, + "step": 7480 + }, + { + "grad_norm": 0.2941736391006809, + "loss": 0.16074435412883759, + "step": 7480 + }, + { + "grad_norm": 0.16988674794430417, + "loss": 0.19931994378566742, + "step": 7481 + }, + { + "grad_norm": 0.4068445473394125, + "loss": 0.15525682270526886, + "step": 7482 + }, + { + "grad_norm": 0.18263250223195437, + "loss": 0.18320384621620178, + "step": 7483 + }, + { + "grad_norm": 0.20944313741779205, + "loss": 0.18743807077407837, + "step": 7484 + }, + { + "grad_norm": 0.28860862971639717, + "loss": 0.18123504519462585, + "step": 7485 + }, + { + "grad_norm": 0.16620074003538196, + "loss": 0.23351453244686127, + "step": 7486 + }, + { + "grad_norm": 0.30487583779009014, + "loss": 0.14948172867298126, + "step": 7487 + }, + { + "grad_norm": 0.12773110864067094, + "loss": 0.175714910030365, + "step": 7488 + }, + { + "grad_norm": 0.32049605485503985, + "loss": 0.22085994482040405, + "step": 7489 + }, + { + "epoch": 2.3968, + "grad_norm": 0.3204960525035858, + "learning_rate": 2.1165506400179654e-05, + "loss": 0.1847, + "step": 7490 + }, + { + "grad_norm": 0.44736133945767564, + "loss": 0.23994134366512299, + "step": 7490 + }, + { + "grad_norm": 0.13381588024065413, + "loss": 0.17257365584373474, + "step": 7491 + }, + { + "grad_norm": 0.14699694562723042, + "loss": 0.2190643548965454, + "step": 7492 + }, + { + "grad_norm": 0.2013398673612638, + "loss": 0.18998877704143524, + "step": 7493 + }, + { + "grad_norm": 0.32015610808758904, + "loss": 0.18995100259780884, + "step": 7494 + }, + { + "grad_norm": 0.19607560784332026, + "loss": 0.24138516187667847, + "step": 7495 + }, + { + "grad_norm": 0.1568616625154678, + "loss": 0.1696498990058899, + "step": 7496 + }, + { + "grad_norm": 0.11774166219265053, + "loss": 0.28322455286979675, + "step": 7497 + }, + { + "grad_norm": 0.13509923394112627, + "loss": 0.1678609549999237, + "step": 7498 + }, + { + "grad_norm": 0.21637819822033277, + "loss": 0.19603410363197327, + "step": 7499 + }, + { + "epoch": 2.4, + "grad_norm": 0.21637819707393646, + "learning_rate": 2.10532225465978e-05, + "loss": 0.207, + "step": 7500 + }, + { + "grad_norm": 0.1262282056290556, + "loss": 0.16431093215942383, + "step": 7500 + }, + { + "grad_norm": 0.2184058145514608, + "loss": 0.24342674016952515, + "step": 7501 + }, + { + "grad_norm": 0.22638258721795654, + "loss": 0.19591090083122253, + "step": 7502 + }, + { + "grad_norm": 0.2294825495024201, + "loss": 0.16870126128196716, + "step": 7503 + }, + { + "grad_norm": 0.4504464847935319, + "loss": 0.1585591584444046, + "step": 7504 + }, + { + "grad_norm": 0.28084120581139627, + "loss": 0.18152602016925812, + "step": 7505 + }, + { + "grad_norm": 0.42338488184607626, + "loss": 0.1482054889202118, + "step": 7506 + }, + { + "grad_norm": 0.2208601977920466, + "loss": 0.17802871763706207, + "step": 7507 + }, + { + "grad_norm": 0.25431985892922565, + "loss": 0.25532302260398865, + "step": 7508 + }, + { + "grad_norm": 0.10439030554389142, + "loss": 0.20451828837394714, + "step": 7509 + }, + { + "epoch": 2.4032, + "grad_norm": 0.10439030081033707, + "learning_rate": 2.0940938693015946e-05, + "loss": 0.1899, + "step": 7510 + }, + { + "grad_norm": 0.21460076646923504, + "loss": 0.21265718340873718, + "step": 7510 + }, + { + "grad_norm": 0.12329434556079036, + "loss": 0.18332824110984802, + "step": 7511 + }, + { + "grad_norm": 0.24001269947890339, + "loss": 0.22363410890102386, + "step": 7512 + }, + { + "grad_norm": 0.5646530795080935, + "loss": 0.16152404248714447, + "step": 7513 + }, + { + "grad_norm": 0.10229155964473642, + "loss": 0.15282319486141205, + "step": 7514 + }, + { + "grad_norm": 0.25873827044669134, + "loss": 0.16869522631168365, + "step": 7515 + }, + { + "grad_norm": 0.3061894625352475, + "loss": 0.20138117671012878, + "step": 7516 + }, + { + "grad_norm": 0.15718787834631445, + "loss": 0.16327166557312012, + "step": 7517 + }, + { + "grad_norm": 0.24510016000301865, + "loss": 0.20508736371994019, + "step": 7518 + }, + { + "grad_norm": 0.23369432378280636, + "loss": 0.2256418913602829, + "step": 7519 + }, + { + "epoch": 2.4064, + "grad_norm": 0.23369431495666504, + "learning_rate": 2.082865483943409e-05, + "loss": 0.1898, + "step": 7520 + }, + { + "grad_norm": 0.3437448206381388, + "loss": 0.2138696014881134, + "step": 7520 + }, + { + "grad_norm": 0.11484636738969087, + "loss": 0.1924581080675125, + "step": 7521 + }, + { + "grad_norm": 0.20419529153311317, + "loss": 0.16741521656513214, + "step": 7522 + }, + { + "grad_norm": 0.11063761762046173, + "loss": 0.18493108451366425, + "step": 7523 + }, + { + "grad_norm": 0.15925602037386014, + "loss": 0.1971358209848404, + "step": 7524 + }, + { + "grad_norm": 0.21633910944561519, + "loss": 0.2734334468841553, + "step": 7525 + }, + { + "grad_norm": 0.5445420019851609, + "loss": 0.2459438443183899, + "step": 7526 + }, + { + "grad_norm": 0.3640365030439915, + "loss": 0.1884753406047821, + "step": 7527 + }, + { + "grad_norm": 0.33563737712792946, + "loss": 0.23182427883148193, + "step": 7528 + }, + { + "grad_norm": 0.21751038468531936, + "loss": 0.15762555599212646, + "step": 7529 + }, + { + "epoch": 2.4096, + "grad_norm": 0.217510387301445, + "learning_rate": 2.0716370985852233e-05, + "loss": 0.2053, + "step": 7530 + }, + { + "grad_norm": 0.15418039931777014, + "loss": 0.18825136125087738, + "step": 7530 + }, + { + "grad_norm": 0.11561459303690243, + "loss": 0.1943650245666504, + "step": 7531 + }, + { + "grad_norm": 0.16659626068795957, + "loss": 0.13874484598636627, + "step": 7532 + }, + { + "grad_norm": 0.11436403662295022, + "loss": 0.1867322325706482, + "step": 7533 + }, + { + "grad_norm": 0.19022272466595933, + "loss": 0.23303323984146118, + "step": 7534 + }, + { + "grad_norm": 0.16276557059257776, + "loss": 0.20814521610736847, + "step": 7535 + }, + { + "grad_norm": 0.1686949274028996, + "loss": 0.25142788887023926, + "step": 7536 + }, + { + "grad_norm": 0.271000930136854, + "loss": 0.17547142505645752, + "step": 7537 + }, + { + "grad_norm": 0.10801843869652486, + "loss": 0.19828280806541443, + "step": 7538 + }, + { + "grad_norm": 0.12691343825153403, + "loss": 0.21061040461063385, + "step": 7539 + }, + { + "epoch": 2.4128, + "grad_norm": 0.12691344320774078, + "learning_rate": 2.060408713227038e-05, + "loss": 0.1985, + "step": 7540 + }, + { + "grad_norm": 0.14359232440569536, + "loss": 0.24127937853336334, + "step": 7540 + }, + { + "grad_norm": 0.23681931141421436, + "loss": 0.16575835645198822, + "step": 7541 + }, + { + "grad_norm": 0.28067473116568176, + "loss": 0.1708069145679474, + "step": 7542 + }, + { + "grad_norm": 0.3984122844317197, + "loss": 0.22563277184963226, + "step": 7543 + }, + { + "grad_norm": 0.10680515187932063, + "loss": 0.1753007173538208, + "step": 7544 + }, + { + "grad_norm": 0.2881835195472829, + "loss": 0.1465257704257965, + "step": 7545 + }, + { + "grad_norm": 0.28135663662453053, + "loss": 0.17948517203330994, + "step": 7546 + }, + { + "grad_norm": 0.3006148863161456, + "loss": 0.20730578899383545, + "step": 7547 + }, + { + "grad_norm": 0.40637835054236837, + "loss": 0.22107723355293274, + "step": 7548 + }, + { + "grad_norm": 0.1735598338093591, + "loss": 0.16874191164970398, + "step": 7549 + }, + { + "epoch": 2.416, + "grad_norm": 0.17355982959270477, + "learning_rate": 2.0491803278688525e-05, + "loss": 0.1902, + "step": 7550 + }, + { + "grad_norm": 0.2981214351194417, + "loss": 0.23537874221801758, + "step": 7550 + }, + { + "grad_norm": 0.2431102610957504, + "loss": 0.1466258466243744, + "step": 7551 + }, + { + "grad_norm": 0.1483489545874885, + "loss": 0.1832270473241806, + "step": 7552 + }, + { + "grad_norm": 0.17604807859784732, + "loss": 0.18192723393440247, + "step": 7553 + }, + { + "grad_norm": 0.11701635878776856, + "loss": 0.17868629097938538, + "step": 7554 + }, + { + "grad_norm": 0.2010060741030591, + "loss": 0.21358177065849304, + "step": 7555 + }, + { + "grad_norm": 0.1484927802513376, + "loss": 0.20755262672901154, + "step": 7556 + }, + { + "grad_norm": 0.10537917040335287, + "loss": 0.18922306597232819, + "step": 7557 + }, + { + "grad_norm": 0.15706255819751264, + "loss": 0.21672813594341278, + "step": 7558 + }, + { + "grad_norm": 0.16318906839447236, + "loss": 0.1591774970293045, + "step": 7559 + }, + { + "epoch": 2.4192, + "grad_norm": 0.16318906843662262, + "learning_rate": 2.0379519425106672e-05, + "loss": 0.1912, + "step": 7560 + }, + { + "grad_norm": 0.15298721592833534, + "loss": 0.16557985544204712, + "step": 7560 + }, + { + "grad_norm": 0.18275971598254645, + "loss": 0.23277777433395386, + "step": 7561 + }, + { + "grad_norm": 0.16760600909879203, + "loss": 0.19243291020393372, + "step": 7562 + }, + { + "grad_norm": 0.12079911309483973, + "loss": 0.18140442669391632, + "step": 7563 + }, + { + "grad_norm": 0.15286590316127183, + "loss": 0.23151814937591553, + "step": 7564 + }, + { + "grad_norm": 0.17801584363925407, + "loss": 0.16232535243034363, + "step": 7565 + }, + { + "grad_norm": 0.2220423826407284, + "loss": 0.20600737631320953, + "step": 7566 + }, + { + "grad_norm": 0.15317768781627392, + "loss": 0.16578999161720276, + "step": 7567 + }, + { + "grad_norm": 0.16750753651998157, + "loss": 0.1532197892665863, + "step": 7568 + }, + { + "grad_norm": 0.1302655597469119, + "loss": 0.1736907660961151, + "step": 7569 + }, + { + "epoch": 2.4224, + "grad_norm": 0.13026556372642517, + "learning_rate": 2.0267235571524816e-05, + "loss": 0.1865, + "step": 7570 + }, + { + "grad_norm": 0.13122779480779434, + "loss": 0.2358713001012802, + "step": 7570 + }, + { + "grad_norm": 0.17880522282760752, + "loss": 0.17864990234375, + "step": 7571 + }, + { + "grad_norm": 0.13119261035166133, + "loss": 0.15979313850402832, + "step": 7572 + }, + { + "grad_norm": 0.11905905371229217, + "loss": 0.18362624943256378, + "step": 7573 + }, + { + "grad_norm": 0.1463455993909137, + "loss": 0.1800699532032013, + "step": 7574 + }, + { + "grad_norm": 0.1699116650419839, + "loss": 0.19882720708847046, + "step": 7575 + }, + { + "grad_norm": 0.23431433676177219, + "loss": 0.17068906128406525, + "step": 7576 + }, + { + "grad_norm": 0.17725815649106702, + "loss": 0.22568480670452118, + "step": 7577 + }, + { + "grad_norm": 0.12323763980295906, + "loss": 0.19078662991523743, + "step": 7578 + }, + { + "grad_norm": 0.2153456326317791, + "loss": 0.17291808128356934, + "step": 7579 + }, + { + "epoch": 2.4256, + "grad_norm": 0.21534563601016998, + "learning_rate": 2.015495171794296e-05, + "loss": 0.1897, + "step": 7580 + }, + { + "grad_norm": 0.20758553452241602, + "loss": 0.21227562427520752, + "step": 7580 + }, + { + "grad_norm": 0.2423362869356637, + "loss": 0.20104971528053284, + "step": 7581 + }, + { + "grad_norm": 0.09956157598959955, + "loss": 0.17381665110588074, + "step": 7582 + }, + { + "grad_norm": 0.24385885023575687, + "loss": 0.20098042488098145, + "step": 7583 + }, + { + "grad_norm": 0.10250566667718028, + "loss": 0.1889919936656952, + "step": 7584 + }, + { + "grad_norm": 0.20608847512293343, + "loss": 0.1829504370689392, + "step": 7585 + }, + { + "grad_norm": 0.12707234699600856, + "loss": 0.1743660867214203, + "step": 7586 + }, + { + "grad_norm": 0.15513985113890852, + "loss": 0.1609082669019699, + "step": 7587 + }, + { + "grad_norm": 0.4850034095992347, + "loss": 0.15736059844493866, + "step": 7588 + }, + { + "grad_norm": 0.11558628654374044, + "loss": 0.18188416957855225, + "step": 7589 + }, + { + "epoch": 2.4288, + "grad_norm": 0.1155862808227539, + "learning_rate": 2.0042667864361107e-05, + "loss": 0.1835, + "step": 7590 + }, + { + "grad_norm": 0.20880029525809923, + "loss": 0.1761806607246399, + "step": 7590 + }, + { + "grad_norm": 0.17159567176836066, + "loss": 0.20594775676727295, + "step": 7591 + }, + { + "grad_norm": 0.1852106233755781, + "loss": 0.1874713897705078, + "step": 7592 + }, + { + "grad_norm": 0.34090764084874425, + "loss": 0.15512584149837494, + "step": 7593 + }, + { + "grad_norm": 0.13840350176472047, + "loss": 0.21070599555969238, + "step": 7594 + }, + { + "grad_norm": 0.13280528527324564, + "loss": 0.17870667576789856, + "step": 7595 + }, + { + "grad_norm": 0.2256111888896637, + "loss": 0.1622411012649536, + "step": 7596 + }, + { + "grad_norm": 0.3128930081394132, + "loss": 0.16990302503108978, + "step": 7597 + }, + { + "grad_norm": 0.30558460295445655, + "loss": 0.18327760696411133, + "step": 7598 + }, + { + "grad_norm": 0.09331275835209007, + "loss": 0.1574513465166092, + "step": 7599 + }, + { + "epoch": 2.432, + "grad_norm": 0.09331275522708893, + "learning_rate": 1.993038401077925e-05, + "loss": 0.1787, + "step": 7600 + }, + { + "grad_norm": 0.40858311460228675, + "loss": 0.1805645376443863, + "step": 7600 + }, + { + "grad_norm": 0.18224233978646528, + "loss": 0.17832688987255096, + "step": 7601 + }, + { + "grad_norm": 0.2412751964914444, + "loss": 0.1545846313238144, + "step": 7602 + }, + { + "grad_norm": 0.1540167180524651, + "loss": 0.17471885681152344, + "step": 7603 + }, + { + "grad_norm": 0.17171715477370741, + "loss": 0.22479428350925446, + "step": 7604 + }, + { + "grad_norm": 0.1705172299967968, + "loss": 0.16131386160850525, + "step": 7605 + }, + { + "grad_norm": 0.3160842256678346, + "loss": 0.18676045536994934, + "step": 7606 + }, + { + "grad_norm": 0.1322450825538567, + "loss": 0.19398632645606995, + "step": 7607 + }, + { + "grad_norm": 0.11378866553559618, + "loss": 0.18704533576965332, + "step": 7608 + }, + { + "grad_norm": 0.2624458525470863, + "loss": 0.2220236361026764, + "step": 7609 + }, + { + "epoch": 2.4352, + "grad_norm": 0.262445867061615, + "learning_rate": 1.9818100157197398e-05, + "loss": 0.1864, + "step": 7610 + }, + { + "grad_norm": 0.480469918979697, + "loss": 0.21060001850128174, + "step": 7610 + }, + { + "grad_norm": 0.17567195699420626, + "loss": 0.16774478554725647, + "step": 7611 + }, + { + "grad_norm": 0.15553029722019088, + "loss": 0.18928974866867065, + "step": 7612 + }, + { + "grad_norm": 0.2537108711848815, + "loss": 0.15269944071769714, + "step": 7613 + }, + { + "grad_norm": 0.11725442350776641, + "loss": 0.16444101929664612, + "step": 7614 + }, + { + "grad_norm": 0.11012081488288704, + "loss": 0.16989710927009583, + "step": 7615 + }, + { + "grad_norm": 0.25204455787043817, + "loss": 0.1977558135986328, + "step": 7616 + }, + { + "grad_norm": 0.17117749600045454, + "loss": 0.18931809067726135, + "step": 7617 + }, + { + "grad_norm": 0.1806011470989, + "loss": 0.1817816197872162, + "step": 7618 + }, + { + "grad_norm": 0.13018622908308022, + "loss": 0.18466053903102875, + "step": 7619 + }, + { + "epoch": 2.4384, + "grad_norm": 0.13018622994422913, + "learning_rate": 1.970581630361554e-05, + "loss": 0.1808, + "step": 7620 + }, + { + "grad_norm": 0.18165328418354568, + "loss": 0.16701959073543549, + "step": 7620 + }, + { + "grad_norm": 0.1901450332471788, + "loss": 0.18814757466316223, + "step": 7621 + }, + { + "grad_norm": 0.31634212614708446, + "loss": 0.16871759295463562, + "step": 7622 + }, + { + "grad_norm": 0.26518788589035713, + "loss": 0.17328216135501862, + "step": 7623 + }, + { + "grad_norm": 0.31335434526877676, + "loss": 0.2283186912536621, + "step": 7624 + }, + { + "grad_norm": 0.11599296079043862, + "loss": 0.18476448953151703, + "step": 7625 + }, + { + "grad_norm": 0.14722334187004602, + "loss": 0.16265466809272766, + "step": 7626 + }, + { + "grad_norm": 0.2367552314545816, + "loss": 0.23726660013198853, + "step": 7627 + }, + { + "grad_norm": 0.11045597271906485, + "loss": 0.183126300573349, + "step": 7628 + }, + { + "grad_norm": 0.09540057314045763, + "loss": 0.1776253879070282, + "step": 7629 + }, + { + "epoch": 2.4416, + "grad_norm": 0.09540057182312012, + "learning_rate": 1.9593532450033686e-05, + "loss": 0.1871, + "step": 7630 + }, + { + "grad_norm": 0.279507369532895, + "loss": 0.15110209584236145, + "step": 7630 + }, + { + "grad_norm": 0.1262786293872737, + "loss": 0.2061680257320404, + "step": 7631 + }, + { + "grad_norm": 0.12015869289537863, + "loss": 0.1627155840396881, + "step": 7632 + }, + { + "grad_norm": 0.32609836026416117, + "loss": 0.2596128284931183, + "step": 7633 + }, + { + "grad_norm": 0.20520868970136386, + "loss": 0.21427658200263977, + "step": 7634 + }, + { + "grad_norm": 0.1678481190293466, + "loss": 0.1391664445400238, + "step": 7635 + }, + { + "grad_norm": 0.4451334539397304, + "loss": 0.15306101739406586, + "step": 7636 + }, + { + "grad_norm": 0.21136084879854378, + "loss": 0.18627339601516724, + "step": 7637 + }, + { + "grad_norm": 0.2208596786734, + "loss": 0.1565859466791153, + "step": 7638 + }, + { + "grad_norm": 0.18739310861101374, + "loss": 0.1702430248260498, + "step": 7639 + }, + { + "epoch": 2.4448, + "grad_norm": 0.18739309906959534, + "learning_rate": 1.948124859645183e-05, + "loss": 0.1799, + "step": 7640 + }, + { + "grad_norm": 0.2971785438356977, + "loss": 0.22917263209819794, + "step": 7640 + }, + { + "grad_norm": 0.39743408853164947, + "loss": 0.16432151198387146, + "step": 7641 + }, + { + "grad_norm": 0.10837562530448977, + "loss": 0.19887959957122803, + "step": 7642 + }, + { + "grad_norm": 0.18124124158459515, + "loss": 0.22085203230381012, + "step": 7643 + }, + { + "grad_norm": 0.1526160110673708, + "loss": 0.1992984414100647, + "step": 7644 + }, + { + "grad_norm": 0.2816841677014522, + "loss": 0.1629437357187271, + "step": 7645 + }, + { + "grad_norm": 0.4738508197020845, + "loss": 0.25140413641929626, + "step": 7646 + }, + { + "grad_norm": 0.24831539435978206, + "loss": 0.20158283412456512, + "step": 7647 + }, + { + "grad_norm": 0.13652639014437984, + "loss": 0.15847830474376678, + "step": 7648 + }, + { + "grad_norm": 0.3360369507753501, + "loss": 0.20932066440582275, + "step": 7649 + }, + { + "epoch": 2.448, + "grad_norm": 0.33603695034980774, + "learning_rate": 1.9368964742869977e-05, + "loss": 0.1996, + "step": 7650 + }, + { + "grad_norm": 0.08516817144471216, + "loss": 0.13629144430160522, + "step": 7650 + }, + { + "grad_norm": 0.14969086494406447, + "loss": 0.1617993414402008, + "step": 7651 + }, + { + "grad_norm": 0.14643075685160475, + "loss": 0.1940135657787323, + "step": 7652 + }, + { + "grad_norm": 0.12430700708649729, + "loss": 0.2055099904537201, + "step": 7653 + }, + { + "grad_norm": 0.3008234260443778, + "loss": 0.13840988278388977, + "step": 7654 + }, + { + "grad_norm": 0.3488933339443838, + "loss": 0.17499786615371704, + "step": 7655 + }, + { + "grad_norm": 0.10626254512122227, + "loss": 0.16592635214328766, + "step": 7656 + }, + { + "grad_norm": 0.1830829936846487, + "loss": 0.16217637062072754, + "step": 7657 + }, + { + "grad_norm": 0.13429260694038764, + "loss": 0.2299574762582779, + "step": 7658 + }, + { + "grad_norm": 0.1516921208517843, + "loss": 0.16079211235046387, + "step": 7659 + }, + { + "epoch": 2.4512, + "grad_norm": 0.15169212222099304, + "learning_rate": 1.925668088928812e-05, + "loss": 0.173, + "step": 7660 + }, + { + "grad_norm": 0.2672154486771634, + "loss": 0.16635367274284363, + "step": 7660 + }, + { + "grad_norm": 0.15159148055328267, + "loss": 0.17485402524471283, + "step": 7661 + }, + { + "grad_norm": 0.15607086425697095, + "loss": 0.16729815304279327, + "step": 7662 + }, + { + "grad_norm": 0.1707911716272385, + "loss": 0.1947932094335556, + "step": 7663 + }, + { + "grad_norm": 0.353977713602873, + "loss": 0.2114832103252411, + "step": 7664 + }, + { + "grad_norm": 0.19755587084824683, + "loss": 0.23908959329128265, + "step": 7665 + }, + { + "grad_norm": 0.21450096578251018, + "loss": 0.19621673226356506, + "step": 7666 + }, + { + "grad_norm": 0.14644769850587766, + "loss": 0.23842953145503998, + "step": 7667 + }, + { + "grad_norm": 0.2537433395956846, + "loss": 0.19560205936431885, + "step": 7668 + }, + { + "grad_norm": 0.22183649566423164, + "loss": 0.1800287365913391, + "step": 7669 + }, + { + "epoch": 2.4544, + "grad_norm": 0.22183649241924286, + "learning_rate": 1.9144397035706265e-05, + "loss": 0.1964, + "step": 7670 + }, + { + "grad_norm": 0.14992599643493798, + "loss": 0.16644400358200073, + "step": 7670 + }, + { + "grad_norm": 0.10103632670118315, + "loss": 0.19671514630317688, + "step": 7671 + }, + { + "grad_norm": 0.2166833034105219, + "loss": 0.2102479338645935, + "step": 7672 + }, + { + "grad_norm": 0.11951458298189145, + "loss": 0.15800409018993378, + "step": 7673 + }, + { + "grad_norm": 0.2427691602142007, + "loss": 0.18677663803100586, + "step": 7674 + }, + { + "grad_norm": 0.2637004678380122, + "loss": 0.22656729817390442, + "step": 7675 + }, + { + "grad_norm": 0.16382138035661353, + "loss": 0.22252045571804047, + "step": 7676 + }, + { + "grad_norm": 0.15211520578027068, + "loss": 0.20650087296962738, + "step": 7677 + }, + { + "grad_norm": 0.12145067830818704, + "loss": 0.16403737664222717, + "step": 7678 + }, + { + "grad_norm": 0.22191403690176262, + "loss": 0.2065930962562561, + "step": 7679 + }, + { + "epoch": 2.4576000000000002, + "grad_norm": 0.22191403806209564, + "learning_rate": 1.9032113182124412e-05, + "loss": 0.1944, + "step": 7680 + }, + { + "grad_norm": 0.16553743955570463, + "loss": 0.2184196412563324, + "step": 7680 + }, + { + "grad_norm": 0.1260641258466908, + "loss": 0.19266435503959656, + "step": 7681 + }, + { + "grad_norm": 0.20491641644924746, + "loss": 0.18419668078422546, + "step": 7682 + }, + { + "grad_norm": 0.3160231160861125, + "loss": 0.22874051332473755, + "step": 7683 + }, + { + "grad_norm": 0.3566474721521519, + "loss": 0.1579030156135559, + "step": 7684 + }, + { + "grad_norm": 0.15872057885857185, + "loss": 0.196694016456604, + "step": 7685 + }, + { + "grad_norm": 0.27923877066569464, + "loss": 0.1649966537952423, + "step": 7686 + }, + { + "grad_norm": 0.4880307004971844, + "loss": 0.2757096588611603, + "step": 7687 + }, + { + "grad_norm": 0.32978650925252767, + "loss": 0.1548590064048767, + "step": 7688 + }, + { + "grad_norm": 0.1081588419169076, + "loss": 0.1505853831768036, + "step": 7689 + }, + { + "epoch": 2.4608, + "grad_norm": 0.10815884172916412, + "learning_rate": 1.8919829328542556e-05, + "loss": 0.1925, + "step": 7690 + }, + { + "grad_norm": 0.1421966666830472, + "loss": 0.1735294610261917, + "step": 7690 + }, + { + "grad_norm": 0.16213177722668276, + "loss": 0.18049213290214539, + "step": 7691 + }, + { + "grad_norm": 0.3365227173157893, + "loss": 0.27877697348594666, + "step": 7692 + }, + { + "grad_norm": 0.18897377264212056, + "loss": 0.17784462869167328, + "step": 7693 + }, + { + "grad_norm": 0.26431270927424483, + "loss": 0.1712544560432434, + "step": 7694 + }, + { + "grad_norm": 0.18595433173792328, + "loss": 0.22411003708839417, + "step": 7695 + }, + { + "grad_norm": 0.16075456546590694, + "loss": 0.17092451453208923, + "step": 7696 + }, + { + "grad_norm": 0.12128507019356655, + "loss": 0.19352668523788452, + "step": 7697 + }, + { + "grad_norm": 0.15446611535938182, + "loss": 0.2174677699804306, + "step": 7698 + }, + { + "grad_norm": 0.11126530259408848, + "loss": 0.1906960904598236, + "step": 7699 + }, + { + "epoch": 2.464, + "grad_norm": 0.11126530170440674, + "learning_rate": 1.8807545474960703e-05, + "loss": 0.1979, + "step": 7700 + }, + { + "grad_norm": 0.14254400353124835, + "loss": 0.19238673150539398, + "step": 7700 + }, + { + "grad_norm": 0.1618676465340577, + "loss": 0.19116389751434326, + "step": 7701 + }, + { + "grad_norm": 0.4166305449920592, + "loss": 0.20995867252349854, + "step": 7702 + }, + { + "grad_norm": 0.1323844914463421, + "loss": 0.20561948418617249, + "step": 7703 + }, + { + "grad_norm": 0.21155249926354178, + "loss": 0.23760083317756653, + "step": 7704 + }, + { + "grad_norm": 0.26294703417226106, + "loss": 0.2413417398929596, + "step": 7705 + }, + { + "grad_norm": 0.1264113317951433, + "loss": 0.19050174951553345, + "step": 7706 + }, + { + "grad_norm": 0.19900555644145734, + "loss": 0.19561536610126495, + "step": 7707 + }, + { + "grad_norm": 0.308174865678087, + "loss": 0.21899160742759705, + "step": 7708 + }, + { + "grad_norm": 0.4693166947949691, + "loss": 0.16860483586788177, + "step": 7709 + }, + { + "epoch": 2.4672, + "grad_norm": 0.4693167209625244, + "learning_rate": 1.8695261621378844e-05, + "loss": 0.2052, + "step": 7710 + }, + { + "grad_norm": 0.22163539459233614, + "loss": 0.1998739242553711, + "step": 7710 + }, + { + "grad_norm": 0.28687324493759975, + "loss": 0.1716272532939911, + "step": 7711 + }, + { + "grad_norm": 0.3933514420568246, + "loss": 0.15039166808128357, + "step": 7712 + }, + { + "grad_norm": 0.1870054412881743, + "loss": 0.1983855664730072, + "step": 7713 + }, + { + "grad_norm": 0.3421190735156351, + "loss": 0.14552053809165955, + "step": 7714 + }, + { + "grad_norm": 0.2031135363177129, + "loss": 0.14821332693099976, + "step": 7715 + }, + { + "grad_norm": 0.17773064198605765, + "loss": 0.16603438556194305, + "step": 7716 + }, + { + "grad_norm": 0.14953236779918383, + "loss": 0.1694713830947876, + "step": 7717 + }, + { + "grad_norm": 0.11631594565679064, + "loss": 0.19958791136741638, + "step": 7718 + }, + { + "grad_norm": 0.22466649453030738, + "loss": 0.18595951795578003, + "step": 7719 + }, + { + "epoch": 2.4704, + "grad_norm": 0.22466649115085602, + "learning_rate": 1.858297776779699e-05, + "loss": 0.1735, + "step": 7720 + }, + { + "grad_norm": 0.1571427390962926, + "loss": 0.25541457533836365, + "step": 7720 + }, + { + "grad_norm": 0.10283855791350031, + "loss": 0.16597746312618256, + "step": 7721 + }, + { + "grad_norm": 0.19217024658213505, + "loss": 0.18793818354606628, + "step": 7722 + }, + { + "grad_norm": 0.1344890949277736, + "loss": 0.19121989607810974, + "step": 7723 + }, + { + "grad_norm": 0.3405351673503342, + "loss": 0.22774696350097656, + "step": 7724 + }, + { + "grad_norm": 0.139548596116416, + "loss": 0.19997325539588928, + "step": 7725 + }, + { + "grad_norm": 0.12491915700389784, + "loss": 0.16597586870193481, + "step": 7726 + }, + { + "grad_norm": 0.251086273270713, + "loss": 0.18346168100833893, + "step": 7727 + }, + { + "grad_norm": 0.17092065469172074, + "loss": 0.186854287981987, + "step": 7728 + }, + { + "grad_norm": 0.26078881591542935, + "loss": 0.1902572065591812, + "step": 7729 + }, + { + "epoch": 2.4736000000000002, + "grad_norm": 0.26078879833221436, + "learning_rate": 1.847069391421514e-05, + "loss": 0.1955, + "step": 7730 + }, + { + "grad_norm": 0.17128651352312946, + "loss": 0.20307260751724243, + "step": 7730 + }, + { + "grad_norm": 0.11797693825379475, + "loss": 0.1465335339307785, + "step": 7731 + }, + { + "grad_norm": 0.12173993586110178, + "loss": 0.15375764667987823, + "step": 7732 + }, + { + "grad_norm": 0.113908516373035, + "loss": 0.20510926842689514, + "step": 7733 + }, + { + "grad_norm": 0.19021950564589005, + "loss": 0.15524429082870483, + "step": 7734 + }, + { + "grad_norm": 0.14625945966538262, + "loss": 0.15048570930957794, + "step": 7735 + }, + { + "grad_norm": 0.1336316915937177, + "loss": 0.18234357237815857, + "step": 7736 + }, + { + "grad_norm": 0.14327174405962587, + "loss": 0.19970831274986267, + "step": 7737 + }, + { + "grad_norm": 0.24010832815069194, + "loss": 0.15020200610160828, + "step": 7738 + }, + { + "grad_norm": 0.1814862898044958, + "loss": 0.16967184841632843, + "step": 7739 + }, + { + "epoch": 2.4768, + "grad_norm": 0.18148629367351532, + "learning_rate": 1.8358410060633282e-05, + "loss": 0.1716, + "step": 7740 + }, + { + "grad_norm": 0.34379491286356306, + "loss": 0.23782067000865936, + "step": 7740 + }, + { + "grad_norm": 0.2819195774266534, + "loss": 0.2083638608455658, + "step": 7741 + }, + { + "grad_norm": 0.2382213434505447, + "loss": 0.18818645179271698, + "step": 7742 + }, + { + "grad_norm": 0.13098622771555743, + "loss": 0.14386875927448273, + "step": 7743 + }, + { + "grad_norm": 0.2334575243305044, + "loss": 0.2060549110174179, + "step": 7744 + }, + { + "grad_norm": 0.32727350746523987, + "loss": 0.16886094212532043, + "step": 7745 + }, + { + "grad_norm": 0.08964585721384977, + "loss": 0.19813272356987, + "step": 7746 + }, + { + "grad_norm": 0.15669639622509476, + "loss": 0.18749894201755524, + "step": 7747 + }, + { + "grad_norm": 0.12349910885608913, + "loss": 0.18632343411445618, + "step": 7748 + }, + { + "grad_norm": 0.14516060081845863, + "loss": 0.1898963898420334, + "step": 7749 + }, + { + "epoch": 2.48, + "grad_norm": 0.14516060054302216, + "learning_rate": 1.8246126207051426e-05, + "loss": 0.1915, + "step": 7750 + }, + { + "grad_norm": 0.24400234216871983, + "loss": 0.1657421886920929, + "step": 7750 + }, + { + "grad_norm": 0.23113111321770113, + "loss": 0.19271767139434814, + "step": 7751 + }, + { + "grad_norm": 0.2733431668437445, + "loss": 0.15081581473350525, + "step": 7752 + }, + { + "grad_norm": 0.12213376133420928, + "loss": 0.16956059634685516, + "step": 7753 + }, + { + "grad_norm": 0.17036251369606029, + "loss": 0.20562374591827393, + "step": 7754 + }, + { + "grad_norm": 0.29452925296942833, + "loss": 0.21495826542377472, + "step": 7755 + }, + { + "grad_norm": 0.11687141698515204, + "loss": 0.18827401101589203, + "step": 7756 + }, + { + "grad_norm": 0.1265143398647385, + "loss": 0.1625327467918396, + "step": 7757 + }, + { + "grad_norm": 0.22870204944303768, + "loss": 0.12946903705596924, + "step": 7758 + }, + { + "grad_norm": 0.2591620088236542, + "loss": 0.1857633739709854, + "step": 7759 + }, + { + "epoch": 2.4832, + "grad_norm": 0.2591620087623596, + "learning_rate": 1.813384235346957e-05, + "loss": 0.1765, + "step": 7760 + }, + { + "grad_norm": 0.14660856796916014, + "loss": 0.1920718252658844, + "step": 7760 + }, + { + "grad_norm": 0.09752582737328776, + "loss": 0.20608040690422058, + "step": 7761 + }, + { + "grad_norm": 0.35126885702961635, + "loss": 0.2633975148200989, + "step": 7762 + }, + { + "grad_norm": 0.18315039075179573, + "loss": 0.19368617236614227, + "step": 7763 + }, + { + "grad_norm": 0.45642916541931267, + "loss": 0.2851751148700714, + "step": 7764 + }, + { + "grad_norm": 0.16538365327980187, + "loss": 0.15464168787002563, + "step": 7765 + }, + { + "grad_norm": 0.34318279688618425, + "loss": 0.2186124175786972, + "step": 7766 + }, + { + "grad_norm": 0.4024544442011759, + "loss": 0.15561264753341675, + "step": 7767 + }, + { + "grad_norm": 0.28695087899827526, + "loss": 0.1793416142463684, + "step": 7768 + }, + { + "grad_norm": 0.13933547113460373, + "loss": 0.16044604778289795, + "step": 7769 + }, + { + "epoch": 2.4864, + "grad_norm": 0.13933546841144562, + "learning_rate": 1.8021558499887718e-05, + "loss": 0.2009, + "step": 7770 + }, + { + "grad_norm": 0.12248557610216419, + "loss": 0.14352208375930786, + "step": 7770 + }, + { + "grad_norm": 0.17948163924684485, + "loss": 0.17391741275787354, + "step": 7771 + }, + { + "grad_norm": 0.10968763720913144, + "loss": 0.14926159381866455, + "step": 7772 + }, + { + "grad_norm": 0.38318863283044435, + "loss": 0.1582939773797989, + "step": 7773 + }, + { + "grad_norm": 0.23974307686078486, + "loss": 0.18478558957576752, + "step": 7774 + }, + { + "grad_norm": 0.10517074333553902, + "loss": 0.20486830174922943, + "step": 7775 + }, + { + "grad_norm": 0.12752425203746395, + "loss": 0.20075634121894836, + "step": 7776 + }, + { + "grad_norm": 0.17379552087457684, + "loss": 0.17596760392189026, + "step": 7777 + }, + { + "grad_norm": 0.18995821769955792, + "loss": 0.19178040325641632, + "step": 7778 + }, + { + "grad_norm": 0.13252204676242424, + "loss": 0.16652339696884155, + "step": 7779 + }, + { + "epoch": 2.4896, + "grad_norm": 0.13252204656600952, + "learning_rate": 1.790927464630586e-05, + "loss": 0.175, + "step": 7780 + }, + { + "grad_norm": 0.22519813896502833, + "loss": 0.1691608875989914, + "step": 7780 + }, + { + "grad_norm": 0.4357566893106432, + "loss": 0.20475193858146667, + "step": 7781 + }, + { + "grad_norm": 0.19103753031848594, + "loss": 0.22115997970104218, + "step": 7782 + }, + { + "grad_norm": 0.10303295880948146, + "loss": 0.18755680322647095, + "step": 7783 + }, + { + "grad_norm": 0.1302347083618029, + "loss": 0.18093375861644745, + "step": 7784 + }, + { + "grad_norm": 0.14249931177585295, + "loss": 0.1503387987613678, + "step": 7785 + }, + { + "grad_norm": 0.11925119823527187, + "loss": 0.18960610032081604, + "step": 7786 + }, + { + "grad_norm": 0.2343036968581562, + "loss": 0.16255803406238556, + "step": 7787 + }, + { + "grad_norm": 0.1967419903291039, + "loss": 0.14956331253051758, + "step": 7788 + }, + { + "grad_norm": 0.19723991028594254, + "loss": 0.1717226505279541, + "step": 7789 + }, + { + "epoch": 2.4928, + "grad_norm": 0.19723990559577942, + "learning_rate": 1.779699079272401e-05, + "loss": 0.1787, + "step": 7790 + }, + { + "grad_norm": 0.40928143768285674, + "loss": 0.16871102154254913, + "step": 7790 + }, + { + "grad_norm": 0.27153447542395304, + "loss": 0.14929533004760742, + "step": 7791 + }, + { + "grad_norm": 0.11101278539279161, + "loss": 0.14953884482383728, + "step": 7792 + }, + { + "grad_norm": 0.1483159199061704, + "loss": 0.20381204783916473, + "step": 7793 + }, + { + "grad_norm": 0.43567410406135326, + "loss": 0.23546330630779266, + "step": 7794 + }, + { + "grad_norm": 0.531123373543598, + "loss": 0.23872114717960358, + "step": 7795 + }, + { + "grad_norm": 0.39984972734358376, + "loss": 0.3108900785446167, + "step": 7796 + }, + { + "grad_norm": 0.45390865745261205, + "loss": 0.17218056321144104, + "step": 7797 + }, + { + "grad_norm": 0.16027589341555598, + "loss": 0.2207873910665512, + "step": 7798 + }, + { + "grad_norm": 0.20300232653060385, + "loss": 0.14941304922103882, + "step": 7799 + }, + { + "epoch": 2.496, + "grad_norm": 0.20300233364105225, + "learning_rate": 1.7684706939142153e-05, + "loss": 0.1999, + "step": 7800 + }, + { + "grad_norm": 0.1698563120535199, + "loss": 0.19224412739276886, + "step": 7800 + }, + { + "grad_norm": 0.25400884133460827, + "loss": 0.20622305572032928, + "step": 7801 + }, + { + "grad_norm": 0.1422207437827137, + "loss": 0.16844704747200012, + "step": 7802 + }, + { + "grad_norm": 0.14024069480859486, + "loss": 0.23480448126792908, + "step": 7803 + }, + { + "grad_norm": 0.16699068748263415, + "loss": 0.16939006745815277, + "step": 7804 + }, + { + "grad_norm": 0.4780289313884625, + "loss": 0.20424407720565796, + "step": 7805 + }, + { + "grad_norm": 0.1101383579096075, + "loss": 0.20105920732021332, + "step": 7806 + }, + { + "grad_norm": 0.15462995920912945, + "loss": 0.18909019231796265, + "step": 7807 + }, + { + "grad_norm": 0.2877334859059971, + "loss": 0.204402893781662, + "step": 7808 + }, + { + "grad_norm": 0.1920660297779141, + "loss": 0.18306663632392883, + "step": 7809 + }, + { + "epoch": 2.4992, + "grad_norm": 0.19206602871418, + "learning_rate": 1.7572423085560296e-05, + "loss": 0.1953, + "step": 7810 + }, + { + "grad_norm": 0.11597904779595318, + "loss": 0.20417499542236328, + "step": 7810 + }, + { + "grad_norm": 0.20517435382022509, + "loss": 0.23353388905525208, + "step": 7811 + }, + { + "grad_norm": 0.14182422584858634, + "loss": 0.17236830294132233, + "step": 7812 + }, + { + "grad_norm": 0.2764693244630615, + "loss": 0.19539761543273926, + "step": 7813 + }, + { + "grad_norm": 0.10136622025944213, + "loss": 0.20699501037597656, + "step": 7814 + }, + { + "grad_norm": 0.3154627013369214, + "loss": 0.16841688752174377, + "step": 7815 + }, + { + "grad_norm": 0.3367810438439206, + "loss": 0.18712429702281952, + "step": 7816 + }, + { + "grad_norm": 0.20713764345069238, + "loss": 0.1790783405303955, + "step": 7817 + }, + { + "grad_norm": 0.18663027838857899, + "loss": 0.1335565447807312, + "step": 7818 + }, + { + "grad_norm": 0.2578635672540702, + "loss": 0.2017993927001953, + "step": 7819 + }, + { + "epoch": 2.5023999999999997, + "grad_norm": 0.2578635513782501, + "learning_rate": 1.7460139231978444e-05, + "loss": 0.1882, + "step": 7820 + }, + { + "grad_norm": 0.27932575776972396, + "loss": 0.18533363938331604, + "step": 7820 + }, + { + "grad_norm": 0.4218233725089092, + "loss": 0.18198205530643463, + "step": 7821 + }, + { + "grad_norm": 0.12015098647832993, + "loss": 0.20119023323059082, + "step": 7822 + }, + { + "grad_norm": 0.2975501080011266, + "loss": 0.2413686364889145, + "step": 7823 + }, + { + "grad_norm": 0.19750411711654195, + "loss": 0.17811444401741028, + "step": 7824 + }, + { + "grad_norm": 0.2618345178591331, + "loss": 0.2534317374229431, + "step": 7825 + }, + { + "grad_norm": 0.15054233902370873, + "loss": 0.19281314313411713, + "step": 7826 + }, + { + "grad_norm": 0.45208524607752243, + "loss": 0.17621123790740967, + "step": 7827 + }, + { + "grad_norm": 0.2204411884907459, + "loss": 0.22444979846477509, + "step": 7828 + }, + { + "grad_norm": 0.1814521060374149, + "loss": 0.18510805070400238, + "step": 7829 + }, + { + "epoch": 2.5056000000000003, + "grad_norm": 0.18145211040973663, + "learning_rate": 1.7347855378396588e-05, + "loss": 0.202, + "step": 7830 + }, + { + "grad_norm": 0.14667414302062542, + "loss": 0.15865348279476166, + "step": 7830 + }, + { + "grad_norm": 0.14963919490114447, + "loss": 0.1882774978876114, + "step": 7831 + }, + { + "grad_norm": 0.15549158117898326, + "loss": 0.18784281611442566, + "step": 7832 + }, + { + "grad_norm": 0.17239853460005897, + "loss": 0.17798113822937012, + "step": 7833 + }, + { + "grad_norm": 0.13752693395398516, + "loss": 0.1600099354982376, + "step": 7834 + }, + { + "grad_norm": 0.1838499412004991, + "loss": 0.17640723288059235, + "step": 7835 + }, + { + "grad_norm": 0.24951712023252642, + "loss": 0.17757871747016907, + "step": 7836 + }, + { + "grad_norm": 0.3508477904579999, + "loss": 0.2059633880853653, + "step": 7837 + }, + { + "grad_norm": 0.3264920617079862, + "loss": 0.20160388946533203, + "step": 7838 + }, + { + "grad_norm": 0.3032558928934773, + "loss": 0.18194995820522308, + "step": 7839 + }, + { + "epoch": 2.5088, + "grad_norm": 0.3032558858394623, + "learning_rate": 1.7235571524814735e-05, + "loss": 0.1816, + "step": 7840 + }, + { + "grad_norm": 0.197107818483343, + "loss": 0.23284968733787537, + "step": 7840 + }, + { + "grad_norm": 0.2313140818074912, + "loss": 0.17187975347042084, + "step": 7841 + }, + { + "grad_norm": 0.16428113628752866, + "loss": 0.1506320834159851, + "step": 7842 + }, + { + "grad_norm": 0.12172658111646543, + "loss": 0.18390648066997528, + "step": 7843 + }, + { + "grad_norm": 0.11174285864538945, + "loss": 0.187996044754982, + "step": 7844 + }, + { + "grad_norm": 0.11714450494706243, + "loss": 0.1944994330406189, + "step": 7845 + }, + { + "grad_norm": 0.3406055909078874, + "loss": 0.1449844241142273, + "step": 7846 + }, + { + "grad_norm": 0.26538713389598395, + "loss": 0.15360355377197266, + "step": 7847 + }, + { + "grad_norm": 0.2398028037445409, + "loss": 0.18405170738697052, + "step": 7848 + }, + { + "grad_norm": 0.13542884723079812, + "loss": 0.22179819643497467, + "step": 7849 + }, + { + "epoch": 2.512, + "grad_norm": 0.13542884588241577, + "learning_rate": 1.7123287671232875e-05, + "loss": 0.1826, + "step": 7850 + }, + { + "grad_norm": 0.29492374169778834, + "loss": 0.19487670063972473, + "step": 7850 + }, + { + "grad_norm": 0.1653968400964686, + "loss": 0.1753120720386505, + "step": 7851 + }, + { + "grad_norm": 0.18533297546966446, + "loss": 0.18583372235298157, + "step": 7852 + }, + { + "grad_norm": 0.3096207496244407, + "loss": 0.1712946891784668, + "step": 7853 + }, + { + "grad_norm": 0.16946010661967717, + "loss": 0.1686604917049408, + "step": 7854 + }, + { + "grad_norm": 0.13234200638328736, + "loss": 0.13790583610534668, + "step": 7855 + }, + { + "grad_norm": 0.3101320934575718, + "loss": 0.17180797457695007, + "step": 7856 + }, + { + "grad_norm": 0.15618245705590608, + "loss": 0.1692262440919876, + "step": 7857 + }, + { + "grad_norm": 0.19031789694726461, + "loss": 0.14894822239875793, + "step": 7858 + }, + { + "grad_norm": 0.41353225808102523, + "loss": 0.15667788684368134, + "step": 7859 + }, + { + "epoch": 2.5152, + "grad_norm": 0.4135322570800781, + "learning_rate": 1.7011003817651023e-05, + "loss": 0.1681, + "step": 7860 + }, + { + "grad_norm": 0.210267773319316, + "loss": 0.1566513627767563, + "step": 7860 + }, + { + "grad_norm": 0.3646329295990653, + "loss": 0.18635618686676025, + "step": 7861 + }, + { + "grad_norm": 0.14724610394021143, + "loss": 0.178572416305542, + "step": 7862 + }, + { + "grad_norm": 0.15467677956747675, + "loss": 0.1736108660697937, + "step": 7863 + }, + { + "grad_norm": 0.5038801213375398, + "loss": 0.18371519446372986, + "step": 7864 + }, + { + "grad_norm": 0.2359591910121945, + "loss": 0.22336556017398834, + "step": 7865 + }, + { + "grad_norm": 0.2152126007579196, + "loss": 0.1991962194442749, + "step": 7866 + }, + { + "grad_norm": 0.23664358434219013, + "loss": 0.1348596066236496, + "step": 7867 + }, + { + "grad_norm": 0.19601296848056193, + "loss": 0.20818069577217102, + "step": 7868 + }, + { + "grad_norm": 0.13162482444282522, + "loss": 0.2229321300983429, + "step": 7869 + }, + { + "epoch": 2.5183999999999997, + "grad_norm": 0.13162481784820557, + "learning_rate": 1.6898719964069167e-05, + "loss": 0.1867, + "step": 7870 + }, + { + "grad_norm": 0.16189811939773674, + "loss": 0.18573878705501556, + "step": 7870 + }, + { + "grad_norm": 0.2224528696524857, + "loss": 0.16428330540657043, + "step": 7871 + }, + { + "grad_norm": 0.1135134977419123, + "loss": 0.16767250001430511, + "step": 7872 + }, + { + "grad_norm": 0.18163692047617744, + "loss": 0.185977503657341, + "step": 7873 + }, + { + "grad_norm": 0.1229606091713427, + "loss": 0.1819934844970703, + "step": 7874 + }, + { + "grad_norm": 0.18318796478744637, + "loss": 0.16498428583145142, + "step": 7875 + }, + { + "grad_norm": 0.15109889249331943, + "loss": 0.19028034806251526, + "step": 7876 + }, + { + "grad_norm": 0.3389654647623829, + "loss": 0.2378188818693161, + "step": 7877 + }, + { + "grad_norm": 0.1642875090160107, + "loss": 0.13976287841796875, + "step": 7878 + }, + { + "grad_norm": 0.20694994190329113, + "loss": 0.25982242822647095, + "step": 7879 + }, + { + "epoch": 2.5216, + "grad_norm": 0.20694993436336517, + "learning_rate": 1.6786436110487314e-05, + "loss": 0.1878, + "step": 7880 + }, + { + "grad_norm": 0.40963372028331924, + "loss": 0.17077088356018066, + "step": 7880 + }, + { + "grad_norm": 0.2597823151169692, + "loss": 0.17513282597064972, + "step": 7881 + }, + { + "grad_norm": 0.13926418981719813, + "loss": 0.21383479237556458, + "step": 7882 + }, + { + "grad_norm": 0.39261521979201763, + "loss": 0.2174476981163025, + "step": 7883 + }, + { + "grad_norm": 0.1148725523218366, + "loss": 0.13733899593353271, + "step": 7884 + }, + { + "grad_norm": 0.39388789060053986, + "loss": 0.2509361207485199, + "step": 7885 + }, + { + "grad_norm": 0.30714170250633527, + "loss": 0.15144185721874237, + "step": 7886 + }, + { + "grad_norm": 0.2951505467245384, + "loss": 0.1567147970199585, + "step": 7887 + }, + { + "grad_norm": 0.16134021062936862, + "loss": 0.20533064007759094, + "step": 7888 + }, + { + "grad_norm": 0.12554612923650765, + "loss": 0.15974336862564087, + "step": 7889 + }, + { + "epoch": 2.5248, + "grad_norm": 0.12554612755775452, + "learning_rate": 1.6674152256905458e-05, + "loss": 0.1839, + "step": 7890 + }, + { + "grad_norm": 0.3376364507560822, + "loss": 0.16195885837078094, + "step": 7890 + }, + { + "grad_norm": 0.2876768838308919, + "loss": 0.19724933803081512, + "step": 7891 + }, + { + "grad_norm": 0.15385285449243163, + "loss": 0.22287458181381226, + "step": 7892 + }, + { + "grad_norm": 0.11169681836547506, + "loss": 0.22698655724525452, + "step": 7893 + }, + { + "grad_norm": 0.1845168600777776, + "loss": 0.1769012063741684, + "step": 7894 + }, + { + "grad_norm": 0.09541058812206767, + "loss": 0.1796276718378067, + "step": 7895 + }, + { + "grad_norm": 0.21234063868716413, + "loss": 0.16573332250118256, + "step": 7896 + }, + { + "grad_norm": 0.18472477888216407, + "loss": 0.1955758035182953, + "step": 7897 + }, + { + "grad_norm": 0.4457780030662517, + "loss": 0.17387954890727997, + "step": 7898 + }, + { + "grad_norm": 0.1384721789875784, + "loss": 0.1761160045862198, + "step": 7899 + }, + { + "epoch": 2.528, + "grad_norm": 0.13847218453884125, + "learning_rate": 1.6561868403323602e-05, + "loss": 0.1877, + "step": 7900 + }, + { + "grad_norm": 0.15023588696218776, + "loss": 0.20936045050621033, + "step": 7900 + }, + { + "grad_norm": 0.09063130532051797, + "loss": 0.14426711201667786, + "step": 7901 + }, + { + "grad_norm": 0.27808097649275104, + "loss": 0.1824342906475067, + "step": 7902 + }, + { + "grad_norm": 0.278427400602114, + "loss": 0.20054765045642853, + "step": 7903 + }, + { + "grad_norm": 0.18388839643588753, + "loss": 0.1923610270023346, + "step": 7904 + }, + { + "grad_norm": 0.2716883966657037, + "loss": 0.19723810255527496, + "step": 7905 + }, + { + "grad_norm": 0.3731384331308493, + "loss": 0.23726513981819153, + "step": 7906 + }, + { + "grad_norm": 0.15643260230794534, + "loss": 0.22206518054008484, + "step": 7907 + }, + { + "grad_norm": 0.4475580662894044, + "loss": 0.18023677170276642, + "step": 7908 + }, + { + "grad_norm": 0.20203669889173712, + "loss": 0.24719229340553284, + "step": 7909 + }, + { + "epoch": 2.5312, + "grad_norm": 0.20203669369220734, + "learning_rate": 1.644958454974175e-05, + "loss": 0.2013, + "step": 7910 + }, + { + "grad_norm": 0.18384244418854775, + "loss": 0.20774009823799133, + "step": 7910 + }, + { + "grad_norm": 0.47479547659068544, + "loss": 0.17042823135852814, + "step": 7911 + }, + { + "grad_norm": 0.2541539790935548, + "loss": 0.1707754284143448, + "step": 7912 + }, + { + "grad_norm": 0.20194724294852248, + "loss": 0.21458059549331665, + "step": 7913 + }, + { + "grad_norm": 0.47090430893121815, + "loss": 0.16075164079666138, + "step": 7914 + }, + { + "grad_norm": 0.21035257057912768, + "loss": 0.17589110136032104, + "step": 7915 + }, + { + "grad_norm": 0.312579149225459, + "loss": 0.22989225387573242, + "step": 7916 + }, + { + "grad_norm": 0.26045043694436776, + "loss": 0.1590241640806198, + "step": 7917 + }, + { + "grad_norm": 0.3408878971846463, + "loss": 0.20174488425254822, + "step": 7918 + }, + { + "grad_norm": 0.1158468543310601, + "loss": 0.15182548761367798, + "step": 7919 + }, + { + "epoch": 2.5343999999999998, + "grad_norm": 0.11584684997797012, + "learning_rate": 1.6337300696159893e-05, + "loss": 0.1843, + "step": 7920 + }, + { + "grad_norm": 0.279548757386464, + "loss": 0.19595323503017426, + "step": 7920 + }, + { + "grad_norm": 0.2378993860849817, + "loss": 0.15621377527713776, + "step": 7921 + }, + { + "grad_norm": 0.3111842646670138, + "loss": 0.188787579536438, + "step": 7922 + }, + { + "grad_norm": 0.11560041368244303, + "loss": 0.16300976276397705, + "step": 7923 + }, + { + "grad_norm": 0.26755802980899734, + "loss": 0.18142008781433105, + "step": 7924 + }, + { + "grad_norm": 0.15759664904816872, + "loss": 0.2077075093984604, + "step": 7925 + }, + { + "grad_norm": 0.39941889602326885, + "loss": 0.22963550686836243, + "step": 7926 + }, + { + "grad_norm": 0.22835989798495518, + "loss": 0.145206019282341, + "step": 7927 + }, + { + "grad_norm": 0.08674000835335789, + "loss": 0.15812385082244873, + "step": 7928 + }, + { + "grad_norm": 0.4314377242403071, + "loss": 0.17702296376228333, + "step": 7929 + }, + { + "epoch": 2.5376, + "grad_norm": 0.43143773078918457, + "learning_rate": 1.622501684257804e-05, + "loss": 0.1803, + "step": 7930 + }, + { + "grad_norm": 0.27663855957855854, + "loss": 0.17710909247398376, + "step": 7930 + }, + { + "grad_norm": 0.20451477586006553, + "loss": 0.1978657841682434, + "step": 7931 + }, + { + "grad_norm": 0.36128103858215843, + "loss": 0.26552215218544006, + "step": 7932 + }, + { + "grad_norm": 0.27525950969595986, + "loss": 0.183521568775177, + "step": 7933 + }, + { + "grad_norm": 0.10826369048009615, + "loss": 0.16262787580490112, + "step": 7934 + }, + { + "grad_norm": 0.17408377150528156, + "loss": 0.16261112689971924, + "step": 7935 + }, + { + "grad_norm": 0.23686772403754677, + "loss": 0.2001195251941681, + "step": 7936 + }, + { + "grad_norm": 0.10609230065174903, + "loss": 0.17027048766613007, + "step": 7937 + }, + { + "grad_norm": 0.3455757730429903, + "loss": 0.1611962616443634, + "step": 7938 + }, + { + "grad_norm": 0.2520279495053485, + "loss": 0.1937882900238037, + "step": 7939 + }, + { + "epoch": 2.5408, + "grad_norm": 0.2520279586315155, + "learning_rate": 1.611273298899618e-05, + "loss": 0.1875, + "step": 7940 + }, + { + "grad_norm": 0.15616633008218855, + "loss": 0.18071603775024414, + "step": 7940 + }, + { + "grad_norm": 0.19846204544571103, + "loss": 0.13959994912147522, + "step": 7941 + }, + { + "grad_norm": 0.18664198275926183, + "loss": 0.176224485039711, + "step": 7942 + }, + { + "grad_norm": 0.13278982527665223, + "loss": 0.1937127709388733, + "step": 7943 + }, + { + "grad_norm": 0.13327276327036874, + "loss": 0.1936885416507721, + "step": 7944 + }, + { + "grad_norm": 0.16080290217212553, + "loss": 0.1881420910358429, + "step": 7945 + }, + { + "grad_norm": 0.17612728407660672, + "loss": 0.18548190593719482, + "step": 7946 + }, + { + "grad_norm": 0.11716162600399371, + "loss": 0.18296919763088226, + "step": 7947 + }, + { + "grad_norm": 0.16828390539704885, + "loss": 0.18698278069496155, + "step": 7948 + }, + { + "grad_norm": 0.10930690206204494, + "loss": 0.15681877732276917, + "step": 7949 + }, + { + "epoch": 2.544, + "grad_norm": 0.10930690169334412, + "learning_rate": 1.6000449135414328e-05, + "loss": 0.1784, + "step": 7950 + }, + { + "grad_norm": 0.22477384116067584, + "loss": 0.23795655369758606, + "step": 7950 + }, + { + "grad_norm": 0.16191969231203074, + "loss": 0.18595464527606964, + "step": 7951 + }, + { + "grad_norm": 0.1160479956872352, + "loss": 0.22991594672203064, + "step": 7952 + }, + { + "grad_norm": 0.15315598370092823, + "loss": 0.17748691141605377, + "step": 7953 + }, + { + "grad_norm": 0.2439091872702958, + "loss": 0.16333229839801788, + "step": 7954 + }, + { + "grad_norm": 0.16218747806684677, + "loss": 0.18574543297290802, + "step": 7955 + }, + { + "grad_norm": 0.15784757309645314, + "loss": 0.20680385828018188, + "step": 7956 + }, + { + "grad_norm": 0.42695710741992243, + "loss": 0.2727818191051483, + "step": 7957 + }, + { + "grad_norm": 0.16172334113356807, + "loss": 0.17109590768814087, + "step": 7958 + }, + { + "grad_norm": 0.16624776193094484, + "loss": 0.23959852755069733, + "step": 7959 + }, + { + "epoch": 2.5472, + "grad_norm": 0.16624777019023895, + "learning_rate": 1.5888165281832472e-05, + "loss": 0.2071, + "step": 7960 + }, + { + "grad_norm": 0.23089459339413806, + "loss": 0.22441454231739044, + "step": 7960 + }, + { + "grad_norm": 0.240751333608478, + "loss": 0.19397738575935364, + "step": 7961 + }, + { + "grad_norm": 0.41121885560053756, + "loss": 0.24861302971839905, + "step": 7962 + }, + { + "grad_norm": 0.29853201540014723, + "loss": 0.24622978270053864, + "step": 7963 + }, + { + "grad_norm": 0.3734896176090851, + "loss": 0.18921993672847748, + "step": 7964 + }, + { + "grad_norm": 0.3093758950203813, + "loss": 0.15210288763046265, + "step": 7965 + }, + { + "grad_norm": 0.12591272364719674, + "loss": 0.1575804501771927, + "step": 7966 + }, + { + "grad_norm": 0.24312595857759586, + "loss": 0.23253607749938965, + "step": 7967 + }, + { + "grad_norm": 0.17395300053314192, + "loss": 0.1517896056175232, + "step": 7968 + }, + { + "grad_norm": 0.14964212993194273, + "loss": 0.20470716059207916, + "step": 7969 + }, + { + "epoch": 2.5504, + "grad_norm": 0.14964212477207184, + "learning_rate": 1.577588142825062e-05, + "loss": 0.2001, + "step": 7970 + }, + { + "grad_norm": 0.39762415965274106, + "loss": 0.20546279847621918, + "step": 7970 + }, + { + "grad_norm": 0.17098354694751988, + "loss": 0.2071731984615326, + "step": 7971 + }, + { + "grad_norm": 0.29155855152178634, + "loss": 0.14141908288002014, + "step": 7972 + }, + { + "grad_norm": 0.18034347828469532, + "loss": 0.22118312120437622, + "step": 7973 + }, + { + "grad_norm": 0.17681398671933649, + "loss": 0.18950122594833374, + "step": 7974 + }, + { + "grad_norm": 0.14900989121863045, + "loss": 0.1907799392938614, + "step": 7975 + }, + { + "grad_norm": 0.1932355500325715, + "loss": 0.20834624767303467, + "step": 7976 + }, + { + "grad_norm": 0.13022877376427422, + "loss": 0.19409425556659698, + "step": 7977 + }, + { + "grad_norm": 0.10467383389251673, + "loss": 0.17103734612464905, + "step": 7978 + }, + { + "grad_norm": 0.15127534060301615, + "loss": 0.19521339237689972, + "step": 7979 + }, + { + "epoch": 2.5536, + "grad_norm": 0.15127533674240112, + "learning_rate": 1.5663597574668763e-05, + "loss": 0.1924, + "step": 7980 + }, + { + "grad_norm": 0.15274378923371157, + "loss": 0.16919362545013428, + "step": 7980 + }, + { + "grad_norm": 0.25038226143625913, + "loss": 0.20806610584259033, + "step": 7981 + }, + { + "grad_norm": 0.16034362111398617, + "loss": 0.19186684489250183, + "step": 7982 + }, + { + "grad_norm": 0.11763325478976407, + "loss": 0.15715143084526062, + "step": 7983 + }, + { + "grad_norm": 0.3491487939124162, + "loss": 0.20164303481578827, + "step": 7984 + }, + { + "grad_norm": 0.1233607205839386, + "loss": 0.1783575415611267, + "step": 7985 + }, + { + "grad_norm": 0.13064176803243754, + "loss": 0.21800655126571655, + "step": 7986 + }, + { + "grad_norm": 0.12361061521763086, + "loss": 0.16333264112472534, + "step": 7987 + }, + { + "grad_norm": 0.2849329964145007, + "loss": 0.25371676683425903, + "step": 7988 + }, + { + "grad_norm": 0.1639644420821729, + "loss": 0.2002919465303421, + "step": 7989 + }, + { + "epoch": 2.5568, + "grad_norm": 0.16396445035934448, + "learning_rate": 1.5551313721086907e-05, + "loss": 0.1942, + "step": 7990 + }, + { + "grad_norm": 0.2209744714117315, + "loss": 0.22354668378829956, + "step": 7990 + }, + { + "grad_norm": 0.23342878438331882, + "loss": 0.1704467087984085, + "step": 7991 + }, + { + "grad_norm": 0.23763573371385982, + "loss": 0.2194124460220337, + "step": 7992 + }, + { + "grad_norm": 0.3564383634861701, + "loss": 0.20792779326438904, + "step": 7993 + }, + { + "grad_norm": 0.13578245394314284, + "loss": 0.1543441265821457, + "step": 7994 + }, + { + "grad_norm": 0.13722142293447923, + "loss": 0.17111849784851074, + "step": 7995 + }, + { + "grad_norm": 0.21347465516170636, + "loss": 0.20504987239837646, + "step": 7996 + }, + { + "grad_norm": 0.1423376491179002, + "loss": 0.1751691848039627, + "step": 7997 + }, + { + "grad_norm": 0.42510020514353797, + "loss": 0.17582423985004425, + "step": 7998 + }, + { + "grad_norm": 0.14158460818096583, + "loss": 0.20365668833255768, + "step": 7999 + }, + { + "epoch": 2.56, + "grad_norm": 0.1415846049785614, + "learning_rate": 1.5439029867505054e-05, + "loss": 0.1906, + "step": 8000 + }, + { + "grad_norm": 0.13522477866480534, + "loss": 0.18706746399402618, + "step": 8000 + }, + { + "grad_norm": 0.17199173453154765, + "loss": 0.18451564013957977, + "step": 8001 + }, + { + "grad_norm": 0.4012317854229242, + "loss": 0.18102528154850006, + "step": 8002 + }, + { + "grad_norm": 0.2259237685121742, + "loss": 0.19886058568954468, + "step": 8003 + }, + { + "grad_norm": 0.33298058954493936, + "loss": 0.1630408763885498, + "step": 8004 + }, + { + "grad_norm": 0.16813305808675572, + "loss": 0.18383383750915527, + "step": 8005 + }, + { + "grad_norm": 0.1342753253539546, + "loss": 0.15168610215187073, + "step": 8006 + }, + { + "grad_norm": 0.18023371829656581, + "loss": 0.18376591801643372, + "step": 8007 + }, + { + "grad_norm": 0.1497786165929632, + "loss": 0.16123902797698975, + "step": 8008 + }, + { + "grad_norm": 0.16897066542941794, + "loss": 0.19073593616485596, + "step": 8009 + }, + { + "epoch": 2.5632, + "grad_norm": 0.16897065937519073, + "learning_rate": 1.5326746013923198e-05, + "loss": 0.1786, + "step": 8010 + }, + { + "grad_norm": 0.3646437143699931, + "loss": 0.243074432015419, + "step": 8010 + }, + { + "grad_norm": 0.14259402043011143, + "loss": 0.15425068140029907, + "step": 8011 + }, + { + "grad_norm": 0.4151732226449787, + "loss": 0.14206121861934662, + "step": 8012 + }, + { + "grad_norm": 0.3435777965034561, + "loss": 0.19834619760513306, + "step": 8013 + }, + { + "grad_norm": 0.2465119553313246, + "loss": 0.14817342162132263, + "step": 8014 + }, + { + "grad_norm": 0.14521728288758687, + "loss": 0.1787809431552887, + "step": 8015 + }, + { + "grad_norm": 0.2454737759385548, + "loss": 0.1853424310684204, + "step": 8016 + }, + { + "grad_norm": 0.23530398860445914, + "loss": 0.24459272623062134, + "step": 8017 + }, + { + "grad_norm": 0.2252416617736806, + "loss": 0.18219506740570068, + "step": 8018 + }, + { + "grad_norm": 0.26051029186818614, + "loss": 0.17945653200149536, + "step": 8019 + }, + { + "epoch": 2.5664, + "grad_norm": 0.26051029562950134, + "learning_rate": 1.5214462160341344e-05, + "loss": 0.1856, + "step": 8020 + }, + { + "grad_norm": 0.09685639034829374, + "loss": 0.16152513027191162, + "step": 8020 + }, + { + "grad_norm": 0.5761625402573425, + "loss": 0.2061392217874527, + "step": 8021 + }, + { + "grad_norm": 0.08913095808361575, + "loss": 0.18040777742862701, + "step": 8022 + }, + { + "grad_norm": 0.4386252095012956, + "loss": 0.20867815613746643, + "step": 8023 + }, + { + "grad_norm": 0.30856568479805185, + "loss": 0.19668248295783997, + "step": 8024 + }, + { + "grad_norm": 0.14920380086303728, + "loss": 0.17383255064487457, + "step": 8025 + }, + { + "grad_norm": 0.13401242302427363, + "loss": 0.19399255514144897, + "step": 8026 + }, + { + "grad_norm": 0.10058134283594249, + "loss": 0.1709066480398178, + "step": 8027 + }, + { + "grad_norm": 0.524186476765162, + "loss": 0.18669702112674713, + "step": 8028 + }, + { + "grad_norm": 0.2648043368984133, + "loss": 0.18890179693698883, + "step": 8029 + }, + { + "epoch": 2.5696, + "grad_norm": 0.26480433344841003, + "learning_rate": 1.5102178306759488e-05, + "loss": 0.1868, + "step": 8030 + }, + { + "grad_norm": 0.27029086594091045, + "loss": 0.1535673886537552, + "step": 8030 + }, + { + "grad_norm": 0.10699308629369947, + "loss": 0.1762269139289856, + "step": 8031 + }, + { + "grad_norm": 0.14736045904253853, + "loss": 0.18100178241729736, + "step": 8032 + }, + { + "grad_norm": 0.10817400114557149, + "loss": 0.22894872725009918, + "step": 8033 + }, + { + "grad_norm": 0.162791335262855, + "loss": 0.14194288849830627, + "step": 8034 + }, + { + "grad_norm": 0.16105830468656215, + "loss": 0.18384632468223572, + "step": 8035 + }, + { + "grad_norm": 0.4946546532481133, + "loss": 0.21083681285381317, + "step": 8036 + }, + { + "grad_norm": 0.43015062149231453, + "loss": 0.18666593730449677, + "step": 8037 + }, + { + "grad_norm": 0.14411436932733993, + "loss": 0.2054595947265625, + "step": 8038 + }, + { + "grad_norm": 0.19422132639214362, + "loss": 0.22915160655975342, + "step": 8039 + }, + { + "epoch": 2.5728, + "grad_norm": 0.19422131776809692, + "learning_rate": 1.4989894453177633e-05, + "loss": 0.1898, + "step": 8040 + }, + { + "grad_norm": 0.1850992389083617, + "loss": 0.25715407729148865, + "step": 8040 + }, + { + "grad_norm": 0.31183206808921643, + "loss": 0.14897364377975464, + "step": 8041 + }, + { + "grad_norm": 0.23410768729931902, + "loss": 0.1832723468542099, + "step": 8042 + }, + { + "grad_norm": 0.36638443819242944, + "loss": 0.17482849955558777, + "step": 8043 + }, + { + "grad_norm": 0.3720772307652842, + "loss": 0.18073013424873352, + "step": 8044 + }, + { + "grad_norm": 0.20007018210057323, + "loss": 0.27083760499954224, + "step": 8045 + }, + { + "grad_norm": 0.13527531716778468, + "loss": 0.17679941654205322, + "step": 8046 + }, + { + "grad_norm": 0.1649367295509242, + "loss": 0.25805437564849854, + "step": 8047 + }, + { + "grad_norm": 0.11993993740452548, + "loss": 0.15335039794445038, + "step": 8048 + }, + { + "grad_norm": 0.52267401754102, + "loss": 0.15023773908615112, + "step": 8049 + }, + { + "epoch": 2.576, + "grad_norm": 0.522674024105072, + "learning_rate": 1.4877610599595779e-05, + "loss": 0.1954, + "step": 8050 + }, + { + "grad_norm": 0.15738090531043536, + "loss": 0.23759931325912476, + "step": 8050 + }, + { + "grad_norm": 0.3178312764259225, + "loss": 0.20743462443351746, + "step": 8051 + }, + { + "grad_norm": 0.2932139721187243, + "loss": 0.20435777306556702, + "step": 8052 + }, + { + "grad_norm": 0.15027605557351015, + "loss": 0.2233714461326599, + "step": 8053 + }, + { + "grad_norm": 0.10219000261591557, + "loss": 0.17462566494941711, + "step": 8054 + }, + { + "grad_norm": 0.17803887641898683, + "loss": 0.22221553325653076, + "step": 8055 + }, + { + "grad_norm": 0.2983282682247106, + "loss": 0.19181378185749054, + "step": 8056 + }, + { + "grad_norm": 0.21707768360267468, + "loss": 0.176323801279068, + "step": 8057 + }, + { + "grad_norm": 0.16812231690386278, + "loss": 0.19224464893341064, + "step": 8058 + }, + { + "grad_norm": 0.2205586263264635, + "loss": 0.1571398824453354, + "step": 8059 + }, + { + "epoch": 2.5792, + "grad_norm": 0.22055862843990326, + "learning_rate": 1.4765326746013925e-05, + "loss": 0.1987, + "step": 8060 + }, + { + "grad_norm": 0.13733158933660491, + "loss": 0.21838855743408203, + "step": 8060 + }, + { + "grad_norm": 0.1422193141208584, + "loss": 0.15822328627109528, + "step": 8061 + }, + { + "grad_norm": 0.39034704736582876, + "loss": 0.16757816076278687, + "step": 8062 + }, + { + "grad_norm": 0.22648382663456315, + "loss": 0.16123278439044952, + "step": 8063 + }, + { + "grad_norm": 0.18376832637209706, + "loss": 0.2191925346851349, + "step": 8064 + }, + { + "grad_norm": 0.3307590164702194, + "loss": 0.18664740025997162, + "step": 8065 + }, + { + "grad_norm": 0.19305521622240998, + "loss": 0.2421710044145584, + "step": 8066 + }, + { + "grad_norm": 0.15625858793897648, + "loss": 0.16896814107894897, + "step": 8067 + }, + { + "grad_norm": 0.4660628848780419, + "loss": 0.218196302652359, + "step": 8068 + }, + { + "grad_norm": 0.22084836142356937, + "loss": 0.19360072910785675, + "step": 8069 + }, + { + "epoch": 2.5824, + "grad_norm": 0.22084835171699524, + "learning_rate": 1.465304289243207e-05, + "loss": 0.1934, + "step": 8070 + }, + { + "grad_norm": 0.11433231088110073, + "loss": 0.2145300805568695, + "step": 8070 + }, + { + "grad_norm": 0.23330957187091012, + "loss": 0.14869508147239685, + "step": 8071 + }, + { + "grad_norm": 0.2537923546688802, + "loss": 0.25668826699256897, + "step": 8072 + }, + { + "grad_norm": 0.1849768225875786, + "loss": 0.20136259496212006, + "step": 8073 + }, + { + "grad_norm": 0.27244869886093975, + "loss": 0.17716827988624573, + "step": 8074 + }, + { + "grad_norm": 0.14744124022669866, + "loss": 0.175589919090271, + "step": 8075 + }, + { + "grad_norm": 0.10637043866399452, + "loss": 0.1964900642633438, + "step": 8076 + }, + { + "grad_norm": 0.36963689098981456, + "loss": 0.16840454936027527, + "step": 8077 + }, + { + "grad_norm": 0.10886875714717037, + "loss": 0.1712826043367386, + "step": 8078 + }, + { + "grad_norm": 0.2467452503858817, + "loss": 0.19401685893535614, + "step": 8079 + }, + { + "epoch": 2.5856, + "grad_norm": 0.2467452585697174, + "learning_rate": 1.4540759038850212e-05, + "loss": 0.1904, + "step": 8080 + }, + { + "grad_norm": 0.460999618040083, + "loss": 0.28069981932640076, + "step": 8080 + }, + { + "grad_norm": 0.2129941542967063, + "loss": 0.18670040369033813, + "step": 8081 + }, + { + "grad_norm": 0.1942474797621468, + "loss": 0.15469175577163696, + "step": 8082 + }, + { + "grad_norm": 0.28873251134823713, + "loss": 0.19051215052604675, + "step": 8083 + }, + { + "grad_norm": 0.13805951318505294, + "loss": 0.2622804641723633, + "step": 8084 + }, + { + "grad_norm": 0.12442802091237516, + "loss": 0.14498010277748108, + "step": 8085 + }, + { + "grad_norm": 0.466819902344632, + "loss": 0.2345598340034485, + "step": 8086 + }, + { + "grad_norm": 0.14968702660200567, + "loss": 0.19655680656433105, + "step": 8087 + }, + { + "grad_norm": 0.18429610088073364, + "loss": 0.15911243855953217, + "step": 8088 + }, + { + "grad_norm": 0.23913383124282278, + "loss": 0.19368109107017517, + "step": 8089 + }, + { + "epoch": 2.5888, + "grad_norm": 0.2391338348388672, + "learning_rate": 1.4428475185268358e-05, + "loss": 0.2004, + "step": 8090 + }, + { + "grad_norm": 0.17930917860926224, + "loss": 0.16899257898330688, + "step": 8090 + }, + { + "grad_norm": 0.378895804114464, + "loss": 0.1952325701713562, + "step": 8091 + }, + { + "grad_norm": 0.1842777974397908, + "loss": 0.21430908143520355, + "step": 8092 + }, + { + "grad_norm": 0.34841776827695636, + "loss": 0.18310391902923584, + "step": 8093 + }, + { + "grad_norm": 0.21826814174948905, + "loss": 0.1966675966978073, + "step": 8094 + }, + { + "grad_norm": 0.1814952753515883, + "loss": 0.15224206447601318, + "step": 8095 + }, + { + "grad_norm": 0.19115501365270537, + "loss": 0.1819939911365509, + "step": 8096 + }, + { + "grad_norm": 0.23510757600210594, + "loss": 0.2399928718805313, + "step": 8097 + }, + { + "grad_norm": 0.10659577679804672, + "loss": 0.18766242265701294, + "step": 8098 + }, + { + "grad_norm": 0.21444933276645722, + "loss": 0.18587583303451538, + "step": 8099 + }, + { + "epoch": 2.592, + "grad_norm": 0.21444933116436005, + "learning_rate": 1.4316191331686504e-05, + "loss": 0.1906, + "step": 8100 + }, + { + "grad_norm": 0.2120722026358056, + "loss": 0.16424551606178284, + "step": 8100 + }, + { + "grad_norm": 0.3743351697142515, + "loss": 0.1857590675354004, + "step": 8101 + }, + { + "grad_norm": 0.11068545037215807, + "loss": 0.14000339806079865, + "step": 8102 + }, + { + "grad_norm": 0.1155273630636267, + "loss": 0.22317495942115784, + "step": 8103 + }, + { + "grad_norm": 0.1253492761340161, + "loss": 0.20484118163585663, + "step": 8104 + }, + { + "grad_norm": 0.12011737105734668, + "loss": 0.17538516223430634, + "step": 8105 + }, + { + "grad_norm": 0.11326918240258162, + "loss": 0.20337271690368652, + "step": 8106 + }, + { + "grad_norm": 0.41981609152591715, + "loss": 0.22620517015457153, + "step": 8107 + }, + { + "grad_norm": 0.1916427717116511, + "loss": 0.21288864314556122, + "step": 8108 + }, + { + "grad_norm": 0.4117478480839649, + "loss": 0.198804572224617, + "step": 8109 + }, + { + "epoch": 2.5952, + "grad_norm": 0.41174784302711487, + "learning_rate": 1.4203907478104649e-05, + "loss": 0.1935, + "step": 8110 + }, + { + "grad_norm": 0.10945866971929398, + "loss": 0.1385030597448349, + "step": 8110 + }, + { + "grad_norm": 0.4916179890497167, + "loss": 0.17549189925193787, + "step": 8111 + }, + { + "grad_norm": 0.2740661097911583, + "loss": 0.18218529224395752, + "step": 8112 + }, + { + "grad_norm": 0.1138718194643752, + "loss": 0.19282005727291107, + "step": 8113 + }, + { + "grad_norm": 0.16530417394584054, + "loss": 0.17027172446250916, + "step": 8114 + }, + { + "grad_norm": 0.09226681261539219, + "loss": 0.1905740648508072, + "step": 8115 + }, + { + "grad_norm": 0.17900401579498376, + "loss": 0.18958699703216553, + "step": 8116 + }, + { + "grad_norm": 0.2435976149577774, + "loss": 0.20199202001094818, + "step": 8117 + }, + { + "grad_norm": 0.19838433993349874, + "loss": 0.21051761507987976, + "step": 8118 + }, + { + "grad_norm": 0.14398345655828676, + "loss": 0.17970189452171326, + "step": 8119 + }, + { + "epoch": 2.5984, + "grad_norm": 0.14398345351219177, + "learning_rate": 1.4091623624522796e-05, + "loss": 0.1832, + "step": 8120 + }, + { + "grad_norm": 0.30237880934267586, + "loss": 0.21074384450912476, + "step": 8120 + }, + { + "grad_norm": 0.17797198184213428, + "loss": 0.19987232983112335, + "step": 8121 + }, + { + "grad_norm": 0.47303278338620725, + "loss": 0.15610982477664948, + "step": 8122 + }, + { + "grad_norm": 0.09454908404976638, + "loss": 0.20459486544132233, + "step": 8123 + }, + { + "grad_norm": 0.2038410989120488, + "loss": 0.21134047210216522, + "step": 8124 + }, + { + "grad_norm": 0.18934620225153434, + "loss": 0.16328610479831696, + "step": 8125 + }, + { + "grad_norm": 0.2876073782099808, + "loss": 0.21519066393375397, + "step": 8126 + }, + { + "grad_norm": 0.20791984640204336, + "loss": 0.13793694972991943, + "step": 8127 + }, + { + "grad_norm": 0.7531032281777524, + "loss": 0.2830652594566345, + "step": 8128 + }, + { + "grad_norm": 0.1661159357301882, + "loss": 0.18661534786224365, + "step": 8129 + }, + { + "epoch": 2.6016, + "grad_norm": 0.16611593961715698, + "learning_rate": 1.3979339770940939e-05, + "loss": 0.1969, + "step": 8130 + }, + { + "grad_norm": 0.16022153733213657, + "loss": 0.14305546879768372, + "step": 8130 + }, + { + "grad_norm": 0.24744845145592534, + "loss": 0.14302746951580048, + "step": 8131 + }, + { + "grad_norm": 0.2615407443620836, + "loss": 0.20089060068130493, + "step": 8132 + }, + { + "grad_norm": 0.11383831142603427, + "loss": 0.16646192967891693, + "step": 8133 + }, + { + "grad_norm": 0.23655668515121483, + "loss": 0.1914937049150467, + "step": 8134 + }, + { + "grad_norm": 0.2531423104695831, + "loss": 0.1630188524723053, + "step": 8135 + }, + { + "grad_norm": 0.11030760288238724, + "loss": 0.18401998281478882, + "step": 8136 + }, + { + "grad_norm": 0.142998664160194, + "loss": 0.19758087396621704, + "step": 8137 + }, + { + "grad_norm": 0.14001151616708812, + "loss": 0.2639704644680023, + "step": 8138 + }, + { + "grad_norm": 0.24117395191706675, + "loss": 0.19673612713813782, + "step": 8139 + }, + { + "epoch": 2.6048, + "grad_norm": 0.24117395281791687, + "learning_rate": 1.3867055917359084e-05, + "loss": 0.185, + "step": 8140 + }, + { + "grad_norm": 0.141771911951734, + "loss": 0.1860533356666565, + "step": 8140 + }, + { + "grad_norm": 0.2892351983808613, + "loss": 0.23965202271938324, + "step": 8141 + }, + { + "grad_norm": 0.30023563314184903, + "loss": 0.22671851515769958, + "step": 8142 + }, + { + "grad_norm": 0.13536172345165534, + "loss": 0.18531136214733124, + "step": 8143 + }, + { + "grad_norm": 0.16009790132074667, + "loss": 0.2223120927810669, + "step": 8144 + }, + { + "grad_norm": 0.2548219279236153, + "loss": 0.19163547456264496, + "step": 8145 + }, + { + "grad_norm": 0.13005987978520692, + "loss": 0.21134361624717712, + "step": 8146 + }, + { + "grad_norm": 0.1261159780780078, + "loss": 0.18666532635688782, + "step": 8147 + }, + { + "grad_norm": 0.0944351526639885, + "loss": 0.18817105889320374, + "step": 8148 + }, + { + "grad_norm": 0.1627857698479762, + "loss": 0.225682333111763, + "step": 8149 + }, + { + "epoch": 2.608, + "grad_norm": 0.16278576850891113, + "learning_rate": 1.375477206377723e-05, + "loss": 0.2064, + "step": 8150 + }, + { + "grad_norm": 0.28809907059822104, + "loss": 0.20541203022003174, + "step": 8150 + }, + { + "grad_norm": 0.13526709025610723, + "loss": 0.2072516828775406, + "step": 8151 + }, + { + "grad_norm": 0.21547385176029063, + "loss": 0.14822250604629517, + "step": 8152 + }, + { + "grad_norm": 0.24268273646697808, + "loss": 0.1924303025007248, + "step": 8153 + }, + { + "grad_norm": 0.25288773061914893, + "loss": 0.18822528421878815, + "step": 8154 + }, + { + "grad_norm": 0.14093772703174734, + "loss": 0.17080114781856537, + "step": 8155 + }, + { + "grad_norm": 0.11725253305733786, + "loss": 0.14286509156227112, + "step": 8156 + }, + { + "grad_norm": 0.22006706595500647, + "loss": 0.18556059896945953, + "step": 8157 + }, + { + "grad_norm": 0.14801832019540892, + "loss": 0.2567279636859894, + "step": 8158 + }, + { + "grad_norm": 0.22578538317969468, + "loss": 0.21455195546150208, + "step": 8159 + }, + { + "epoch": 2.6112, + "grad_norm": 0.22578538954257965, + "learning_rate": 1.3642488210195375e-05, + "loss": 0.1912, + "step": 8160 + }, + { + "grad_norm": 0.22940423157864615, + "loss": 0.21920394897460938, + "step": 8160 + }, + { + "grad_norm": 0.3001834234559109, + "loss": 0.16084414720535278, + "step": 8161 + }, + { + "grad_norm": 0.2699958631455845, + "loss": 0.18880628049373627, + "step": 8162 + }, + { + "grad_norm": 0.13818622892673357, + "loss": 0.1848915070295334, + "step": 8163 + }, + { + "grad_norm": 0.19827156506615518, + "loss": 0.18772996962070465, + "step": 8164 + }, + { + "grad_norm": 0.2315884769481486, + "loss": 0.17324361205101013, + "step": 8165 + }, + { + "grad_norm": 0.15427745358231, + "loss": 0.13161419332027435, + "step": 8166 + }, + { + "grad_norm": 0.20962806741161552, + "loss": 0.22839286923408508, + "step": 8167 + }, + { + "grad_norm": 0.12055142931641617, + "loss": 0.17613448202610016, + "step": 8168 + }, + { + "grad_norm": 0.11014355085897663, + "loss": 0.20114225149154663, + "step": 8169 + }, + { + "epoch": 2.6144, + "grad_norm": 0.11014354974031448, + "learning_rate": 1.3530204356613518e-05, + "loss": 0.1852, + "step": 8170 + }, + { + "grad_norm": 0.15973867000444755, + "loss": 0.18815861642360687, + "step": 8170 + }, + { + "grad_norm": 0.17188343358793368, + "loss": 0.17104627192020416, + "step": 8171 + }, + { + "grad_norm": 0.2097324321384273, + "loss": 0.19743697345256805, + "step": 8172 + }, + { + "grad_norm": 0.1953800350641764, + "loss": 0.17337459325790405, + "step": 8173 + }, + { + "grad_norm": 0.24687143744386847, + "loss": 0.2283153533935547, + "step": 8174 + }, + { + "grad_norm": 0.14497681102996496, + "loss": 0.18240448832511902, + "step": 8175 + }, + { + "grad_norm": 0.3101622303118886, + "loss": 0.1704905927181244, + "step": 8176 + }, + { + "grad_norm": 0.22863792470689487, + "loss": 0.15551893413066864, + "step": 8177 + }, + { + "grad_norm": 0.13110947257599312, + "loss": 0.22159042954444885, + "step": 8178 + }, + { + "grad_norm": 0.1567759643544699, + "loss": 0.14926467835903168, + "step": 8179 + }, + { + "epoch": 2.6176, + "grad_norm": 0.15677596628665924, + "learning_rate": 1.3417920503031663e-05, + "loss": 0.1838, + "step": 8180 + }, + { + "grad_norm": 0.2092495125782876, + "loss": 0.21621420979499817, + "step": 8180 + }, + { + "grad_norm": 0.0876574168106029, + "loss": 0.15073975920677185, + "step": 8181 + }, + { + "grad_norm": 0.23458216033535848, + "loss": 0.2105272114276886, + "step": 8182 + }, + { + "grad_norm": 0.21793934699166664, + "loss": 0.23995287716388702, + "step": 8183 + }, + { + "grad_norm": 0.17835474219062297, + "loss": 0.17697326838970184, + "step": 8184 + }, + { + "grad_norm": 0.242256517999903, + "loss": 0.17099279165267944, + "step": 8185 + }, + { + "grad_norm": 0.20273196079869504, + "loss": 0.17678242921829224, + "step": 8186 + }, + { + "grad_norm": 0.1749205161986369, + "loss": 0.17607912421226501, + "step": 8187 + }, + { + "grad_norm": 0.11062748429468243, + "loss": 0.1535729467868805, + "step": 8188 + }, + { + "grad_norm": 0.32290739667199386, + "loss": 0.2484700083732605, + "step": 8189 + }, + { + "epoch": 2.6208, + "grad_norm": 0.322907418012619, + "learning_rate": 1.330563664944981e-05, + "loss": 0.192, + "step": 8190 + }, + { + "grad_norm": 0.2998936155096493, + "loss": 0.20799174904823303, + "step": 8190 + }, + { + "grad_norm": 0.3075453874542533, + "loss": 0.1861369013786316, + "step": 8191 + }, + { + "grad_norm": 0.3482417289365347, + "loss": 0.22443059086799622, + "step": 8192 + }, + { + "grad_norm": 0.15359201067361664, + "loss": 0.1986057162284851, + "step": 8193 + }, + { + "grad_norm": 0.14842977774406965, + "loss": 0.18216358125209808, + "step": 8194 + }, + { + "grad_norm": 0.1549669552082339, + "loss": 0.18875208497047424, + "step": 8195 + }, + { + "grad_norm": 0.15745485962144312, + "loss": 0.19718630611896515, + "step": 8196 + }, + { + "grad_norm": 0.22034417057959038, + "loss": 0.2007826417684555, + "step": 8197 + }, + { + "grad_norm": 0.23560810284600187, + "loss": 0.14254829287528992, + "step": 8198 + }, + { + "grad_norm": 0.15526892866785916, + "loss": 0.15963101387023926, + "step": 8199 + }, + { + "epoch": 2.624, + "grad_norm": 0.15526893734931946, + "learning_rate": 1.3193352795867956e-05, + "loss": 0.1888, + "step": 8200 + }, + { + "grad_norm": 0.2807294695481176, + "loss": 0.1969098150730133, + "step": 8200 + }, + { + "grad_norm": 0.13946579262544195, + "loss": 0.13159388303756714, + "step": 8201 + }, + { + "grad_norm": 0.3177733839173251, + "loss": 0.1981492042541504, + "step": 8202 + }, + { + "grad_norm": 0.13430804023560527, + "loss": 0.18547886610031128, + "step": 8203 + }, + { + "grad_norm": 0.11251105708223598, + "loss": 0.16295012831687927, + "step": 8204 + }, + { + "grad_norm": 0.2376579456551272, + "loss": 0.17476989328861237, + "step": 8205 + }, + { + "grad_norm": 0.28107017351175545, + "loss": 0.20324420928955078, + "step": 8206 + }, + { + "grad_norm": 0.23169137669982334, + "loss": 0.2120375633239746, + "step": 8207 + }, + { + "grad_norm": 0.3082447795658416, + "loss": 0.21750760078430176, + "step": 8208 + }, + { + "grad_norm": 0.7192329717451124, + "loss": 0.30488282442092896, + "step": 8209 + }, + { + "epoch": 2.6272, + "grad_norm": 0.719232976436615, + "learning_rate": 1.3081068942286102e-05, + "loss": 0.1988, + "step": 8210 + }, + { + "grad_norm": 0.14420792639982755, + "loss": 0.1491682529449463, + "step": 8210 + }, + { + "grad_norm": 0.32383789945107144, + "loss": 0.16154013574123383, + "step": 8211 + }, + { + "grad_norm": 0.32740457473563855, + "loss": 0.1583767682313919, + "step": 8212 + }, + { + "grad_norm": 0.13680840125975005, + "loss": 0.1794569343328476, + "step": 8213 + }, + { + "grad_norm": 0.10550958861928789, + "loss": 0.18823283910751343, + "step": 8214 + }, + { + "grad_norm": 0.14240438201782568, + "loss": 0.24530856311321259, + "step": 8215 + }, + { + "grad_norm": 0.19454194373155992, + "loss": 0.21668463945388794, + "step": 8216 + }, + { + "grad_norm": 0.23861602341921842, + "loss": 0.1757192611694336, + "step": 8217 + }, + { + "grad_norm": 0.45824236167861937, + "loss": 0.1691168248653412, + "step": 8218 + }, + { + "grad_norm": 0.21567433579192583, + "loss": 0.1541920006275177, + "step": 8219 + }, + { + "epoch": 2.6304, + "grad_norm": 0.21567432582378387, + "learning_rate": 1.2968785088704244e-05, + "loss": 0.1798, + "step": 8220 + }, + { + "grad_norm": 0.1449046738546167, + "loss": 0.28268250823020935, + "step": 8220 + }, + { + "grad_norm": 0.25779929820187797, + "loss": 0.2551257014274597, + "step": 8221 + }, + { + "grad_norm": 0.17676192803721838, + "loss": 0.2331186980009079, + "step": 8222 + }, + { + "grad_norm": 0.3345743487759398, + "loss": 0.15729345381259918, + "step": 8223 + }, + { + "grad_norm": 0.13609329229250258, + "loss": 0.22711622714996338, + "step": 8224 + }, + { + "grad_norm": 0.17436248114420824, + "loss": 0.17608462274074554, + "step": 8225 + }, + { + "grad_norm": 0.13037470070597323, + "loss": 0.16722118854522705, + "step": 8226 + }, + { + "grad_norm": 0.20999963386698817, + "loss": 0.22539037466049194, + "step": 8227 + }, + { + "grad_norm": 0.2370675202129411, + "loss": 0.204062819480896, + "step": 8228 + }, + { + "grad_norm": 0.14568040733354737, + "loss": 0.2135264277458191, + "step": 8229 + }, + { + "epoch": 2.6336, + "grad_norm": 0.14568041265010834, + "learning_rate": 1.285650123512239e-05, + "loss": 0.2142, + "step": 8230 + }, + { + "grad_norm": 0.4924304897017166, + "loss": 0.1885148137807846, + "step": 8230 + }, + { + "grad_norm": 0.16264940347512188, + "loss": 0.20010577142238617, + "step": 8231 + }, + { + "grad_norm": 0.23456932791687995, + "loss": 0.20568814873695374, + "step": 8232 + }, + { + "grad_norm": 0.17645176350429434, + "loss": 0.14170581102371216, + "step": 8233 + }, + { + "grad_norm": 0.1779152901624401, + "loss": 0.21093595027923584, + "step": 8234 + }, + { + "grad_norm": 0.1622932454755807, + "loss": 0.2136821299791336, + "step": 8235 + }, + { + "grad_norm": 0.2326269232102251, + "loss": 0.17831070721149445, + "step": 8236 + }, + { + "grad_norm": 0.2397125341140176, + "loss": 0.19396483898162842, + "step": 8237 + }, + { + "grad_norm": 0.16618392408232657, + "loss": 0.18999400734901428, + "step": 8238 + }, + { + "grad_norm": 0.10558229030951097, + "loss": 0.17757461965084076, + "step": 8239 + }, + { + "epoch": 2.6368, + "grad_norm": 0.10558228939771652, + "learning_rate": 1.2744217381540535e-05, + "loss": 0.19, + "step": 8240 + }, + { + "grad_norm": 0.21896542344484207, + "loss": 0.26333558559417725, + "step": 8240 + }, + { + "grad_norm": 0.16886195527362038, + "loss": 0.18219918012619019, + "step": 8241 + }, + { + "grad_norm": 0.49033897450235864, + "loss": 0.20696625113487244, + "step": 8242 + }, + { + "grad_norm": 0.1654767855627713, + "loss": 0.1622917503118515, + "step": 8243 + }, + { + "grad_norm": 0.26339997707792007, + "loss": 0.16609258949756622, + "step": 8244 + }, + { + "grad_norm": 0.18957387528942224, + "loss": 0.15852920711040497, + "step": 8245 + }, + { + "grad_norm": 0.111502668731027, + "loss": 0.19845050573349, + "step": 8246 + }, + { + "grad_norm": 0.1483731995398813, + "loss": 0.22141702473163605, + "step": 8247 + }, + { + "grad_norm": 0.16574508814061856, + "loss": 0.18748663365840912, + "step": 8248 + }, + { + "grad_norm": 0.4023348143639544, + "loss": 0.2502143681049347, + "step": 8249 + }, + { + "epoch": 2.64, + "grad_norm": 0.4023348093032837, + "learning_rate": 1.263193352795868e-05, + "loss": 0.1997, + "step": 8250 + }, + { + "grad_norm": 0.2493041840144331, + "loss": 0.27293238043785095, + "step": 8250 + }, + { + "grad_norm": 0.2910996272236423, + "loss": 0.2081582099199295, + "step": 8251 + }, + { + "grad_norm": 0.09271770331266685, + "loss": 0.17977608740329742, + "step": 8252 + }, + { + "grad_norm": 0.12961327452094445, + "loss": 0.18322497606277466, + "step": 8253 + }, + { + "grad_norm": 0.17315111448209308, + "loss": 0.1590728461742401, + "step": 8254 + }, + { + "grad_norm": 0.31599171783005015, + "loss": 0.20441389083862305, + "step": 8255 + }, + { + "grad_norm": 0.2928247416344803, + "loss": 0.16961976885795593, + "step": 8256 + }, + { + "grad_norm": 0.5581651999658717, + "loss": 0.24084575474262238, + "step": 8257 + }, + { + "grad_norm": 0.36666687578102286, + "loss": 0.1622145175933838, + "step": 8258 + }, + { + "grad_norm": 0.16071439928836193, + "loss": 0.18323568999767303, + "step": 8259 + }, + { + "epoch": 2.6432, + "grad_norm": 0.16071440279483795, + "learning_rate": 1.2519649674376826e-05, + "loss": 0.1963, + "step": 8260 + }, + { + "grad_norm": 0.15949092737300313, + "loss": 0.19115868210792542, + "step": 8260 + }, + { + "grad_norm": 0.24544371277586974, + "loss": 0.19469785690307617, + "step": 8261 + }, + { + "grad_norm": 0.22104175663600673, + "loss": 0.1921730637550354, + "step": 8262 + }, + { + "grad_norm": 0.13097636182786254, + "loss": 0.20670893788337708, + "step": 8263 + }, + { + "grad_norm": 0.22441428666743787, + "loss": 0.23020818829536438, + "step": 8264 + }, + { + "grad_norm": 0.14777976592692832, + "loss": 0.13762661814689636, + "step": 8265 + }, + { + "grad_norm": 0.2582871072788562, + "loss": 0.14779168367385864, + "step": 8266 + }, + { + "grad_norm": 0.46770493864203505, + "loss": 0.25149068236351013, + "step": 8267 + }, + { + "grad_norm": 0.2335612420547277, + "loss": 0.21262973546981812, + "step": 8268 + }, + { + "grad_norm": 0.1530512518048959, + "loss": 0.1867748498916626, + "step": 8269 + }, + { + "epoch": 2.6464, + "grad_norm": 0.1530512422323227, + "learning_rate": 1.240736582079497e-05, + "loss": 0.1951, + "step": 8270 + }, + { + "grad_norm": 0.31548892164336395, + "loss": 0.19817812740802765, + "step": 8270 + }, + { + "grad_norm": 0.19100305620705757, + "loss": 0.23127086460590363, + "step": 8271 + }, + { + "grad_norm": 0.1679059064530097, + "loss": 0.21078534424304962, + "step": 8272 + }, + { + "grad_norm": 0.19939187321550347, + "loss": 0.1638159453868866, + "step": 8273 + }, + { + "grad_norm": 0.22768893687296632, + "loss": 0.20743322372436523, + "step": 8274 + }, + { + "grad_norm": 0.3231437841974451, + "loss": 0.1815779209136963, + "step": 8275 + }, + { + "grad_norm": 0.36885714534045344, + "loss": 0.21547114849090576, + "step": 8276 + }, + { + "grad_norm": 0.16239224212962516, + "loss": 0.18739834427833557, + "step": 8277 + }, + { + "grad_norm": 0.26385968887210304, + "loss": 0.16697295010089874, + "step": 8278 + }, + { + "grad_norm": 0.21997527252969223, + "loss": 0.1836892068386078, + "step": 8279 + }, + { + "epoch": 2.6496, + "grad_norm": 0.2199752777814865, + "learning_rate": 1.2295081967213116e-05, + "loss": 0.1947, + "step": 8280 + }, + { + "grad_norm": 0.1578721349537351, + "loss": 0.16239258646965027, + "step": 8280 + }, + { + "grad_norm": 0.30164997119482256, + "loss": 0.17723657190799713, + "step": 8281 + }, + { + "grad_norm": 0.1372104711475195, + "loss": 0.16114848852157593, + "step": 8282 + }, + { + "grad_norm": 0.18354824690472324, + "loss": 0.1966841220855713, + "step": 8283 + }, + { + "grad_norm": 0.10839974250230085, + "loss": 0.17232976853847504, + "step": 8284 + }, + { + "grad_norm": 0.17726224986389527, + "loss": 0.2148272842168808, + "step": 8285 + }, + { + "grad_norm": 0.23053745239660606, + "loss": 0.15343017876148224, + "step": 8286 + }, + { + "grad_norm": 0.18826087046818912, + "loss": 0.19550028443336487, + "step": 8287 + }, + { + "grad_norm": 0.16384010337969496, + "loss": 0.2778906226158142, + "step": 8288 + }, + { + "grad_norm": 0.1199599844248098, + "loss": 0.185782790184021, + "step": 8289 + }, + { + "epoch": 2.6528, + "grad_norm": 0.1199599876999855, + "learning_rate": 1.2182798113631261e-05, + "loss": 0.1897, + "step": 8290 + }, + { + "grad_norm": 0.2017340164957526, + "loss": 0.20003309845924377, + "step": 8290 + }, + { + "grad_norm": 0.223961007982104, + "loss": 0.16554579138755798, + "step": 8291 + }, + { + "grad_norm": 0.21889489164570203, + "loss": 0.18457530438899994, + "step": 8292 + }, + { + "grad_norm": 0.1461979437166349, + "loss": 0.1671976000070572, + "step": 8293 + }, + { + "grad_norm": 0.15253070919667785, + "loss": 0.19017013907432556, + "step": 8294 + }, + { + "grad_norm": 0.40203205543510495, + "loss": 0.18602631986141205, + "step": 8295 + }, + { + "grad_norm": 0.1330398420331233, + "loss": 0.21645838022232056, + "step": 8296 + }, + { + "grad_norm": 0.2667105595716975, + "loss": 0.23926031589508057, + "step": 8297 + }, + { + "grad_norm": 0.15900428769716302, + "loss": 0.17671248316764832, + "step": 8298 + }, + { + "grad_norm": 0.19223780072525715, + "loss": 0.20327895879745483, + "step": 8299 + }, + { + "epoch": 2.656, + "grad_norm": 0.19223779439926147, + "learning_rate": 1.2070514260049405e-05, + "loss": 0.1929, + "step": 8300 + }, + { + "grad_norm": 0.15267330223661674, + "loss": 0.22691130638122559, + "step": 8300 + }, + { + "grad_norm": 0.27045033679336145, + "loss": 0.17301568388938904, + "step": 8301 + }, + { + "grad_norm": 0.26719545610400935, + "loss": 0.16993844509124756, + "step": 8302 + }, + { + "grad_norm": 0.27632668178064423, + "loss": 0.19235342741012573, + "step": 8303 + }, + { + "grad_norm": 0.3033164070518322, + "loss": 0.21544697880744934, + "step": 8304 + }, + { + "grad_norm": 0.24920490662382444, + "loss": 0.20953722298145294, + "step": 8305 + }, + { + "grad_norm": 0.21342348185344193, + "loss": 0.16371411085128784, + "step": 8306 + }, + { + "grad_norm": 0.11221410088369435, + "loss": 0.21061670780181885, + "step": 8307 + }, + { + "grad_norm": 0.2137313809365483, + "loss": 0.2085018754005432, + "step": 8308 + }, + { + "grad_norm": 0.18949465921256253, + "loss": 0.1799282431602478, + "step": 8309 + }, + { + "epoch": 2.6592000000000002, + "grad_norm": 0.18949465453624725, + "learning_rate": 1.1958230406467551e-05, + "loss": 0.195, + "step": 8310 + }, + { + "grad_norm": 0.11800364561680464, + "loss": 0.17045533657073975, + "step": 8310 + }, + { + "grad_norm": 0.12005109477930485, + "loss": 0.20165827870368958, + "step": 8311 + }, + { + "grad_norm": 0.15736523563478505, + "loss": 0.19018672406673431, + "step": 8312 + }, + { + "grad_norm": 0.20343422641527084, + "loss": 0.1651112586259842, + "step": 8313 + }, + { + "grad_norm": 0.1464149201649463, + "loss": 0.17501114308834076, + "step": 8314 + }, + { + "grad_norm": 0.17046838200083558, + "loss": 0.22609886527061462, + "step": 8315 + }, + { + "grad_norm": 0.3530440338101812, + "loss": 0.14554771780967712, + "step": 8316 + }, + { + "grad_norm": 0.15983432561882147, + "loss": 0.1358659863471985, + "step": 8317 + }, + { + "grad_norm": 0.13958706935572798, + "loss": 0.2378411442041397, + "step": 8318 + }, + { + "grad_norm": 0.1113102884842631, + "loss": 0.19912616908550262, + "step": 8319 + }, + { + "epoch": 2.6624, + "grad_norm": 0.11131028085947037, + "learning_rate": 1.1845946552885695e-05, + "loss": 0.1847, + "step": 8320 + }, + { + "grad_norm": 0.3142486303362802, + "loss": 0.14970168471336365, + "step": 8320 + }, + { + "grad_norm": 0.19222317819283508, + "loss": 0.23316802084445953, + "step": 8321 + }, + { + "grad_norm": 0.19321004933215957, + "loss": 0.1385316103696823, + "step": 8322 + }, + { + "grad_norm": 0.19230808681669337, + "loss": 0.18679967522621155, + "step": 8323 + }, + { + "grad_norm": 0.26399417323666025, + "loss": 0.18115344643592834, + "step": 8324 + }, + { + "grad_norm": 0.11930964590945747, + "loss": 0.18718214333057404, + "step": 8325 + }, + { + "grad_norm": 0.36124328224635266, + "loss": 0.17955288290977478, + "step": 8326 + }, + { + "grad_norm": 0.14323083189612745, + "loss": 0.15585020184516907, + "step": 8327 + }, + { + "grad_norm": 0.26309904816809543, + "loss": 0.18875467777252197, + "step": 8328 + }, + { + "grad_norm": 0.23415581289290746, + "loss": 0.21864107251167297, + "step": 8329 + }, + { + "epoch": 2.6656, + "grad_norm": 0.2341558188199997, + "learning_rate": 1.173366269930384e-05, + "loss": 0.1819, + "step": 8330 + }, + { + "grad_norm": 0.17898863047357344, + "loss": 0.17119821906089783, + "step": 8330 + }, + { + "grad_norm": 0.15573232025885073, + "loss": 0.17580696940422058, + "step": 8331 + }, + { + "grad_norm": 0.13436059510480006, + "loss": 0.1625150442123413, + "step": 8332 + }, + { + "grad_norm": 0.27729367222369894, + "loss": 0.2378627061843872, + "step": 8333 + }, + { + "grad_norm": 0.10144576163426096, + "loss": 0.19100123643875122, + "step": 8334 + }, + { + "grad_norm": 0.21314419517650487, + "loss": 0.179277241230011, + "step": 8335 + }, + { + "grad_norm": 0.15548834725030575, + "loss": 0.19011440873146057, + "step": 8336 + }, + { + "grad_norm": 0.13021237762260748, + "loss": 0.17280682921409607, + "step": 8337 + }, + { + "grad_norm": 0.12180419081637453, + "loss": 0.14422588050365448, + "step": 8338 + }, + { + "grad_norm": 0.19725611781008082, + "loss": 0.1720176786184311, + "step": 8339 + }, + { + "epoch": 2.6688, + "grad_norm": 0.19725611805915833, + "learning_rate": 1.1621378845721986e-05, + "loss": 0.1797, + "step": 8340 + }, + { + "grad_norm": 0.21274998634355996, + "loss": 0.1985725462436676, + "step": 8340 + }, + { + "grad_norm": 0.28750669468643014, + "loss": 0.1933053433895111, + "step": 8341 + }, + { + "grad_norm": 0.19314319106214056, + "loss": 0.15436159074306488, + "step": 8342 + }, + { + "grad_norm": 0.14428156734670078, + "loss": 0.22588245570659637, + "step": 8343 + }, + { + "grad_norm": 0.10096383802674812, + "loss": 0.16179555654525757, + "step": 8344 + }, + { + "grad_norm": 0.3636459884270284, + "loss": 0.17448189854621887, + "step": 8345 + }, + { + "grad_norm": 0.3830811455821883, + "loss": 0.2037889063358307, + "step": 8346 + }, + { + "grad_norm": 0.15030565470232002, + "loss": 0.19210344552993774, + "step": 8347 + }, + { + "grad_norm": 0.4927039388439451, + "loss": 0.2526928782463074, + "step": 8348 + }, + { + "grad_norm": 0.13978533790872444, + "loss": 0.1694135069847107, + "step": 8349 + }, + { + "epoch": 2.672, + "grad_norm": 0.13978533446788788, + "learning_rate": 1.150909499214013e-05, + "loss": 0.1926, + "step": 8350 + }, + { + "grad_norm": 0.25627539414632644, + "loss": 0.1684371829032898, + "step": 8350 + }, + { + "grad_norm": 0.17484776967034976, + "loss": 0.18973001837730408, + "step": 8351 + }, + { + "grad_norm": 0.1493861103563711, + "loss": 0.2067047506570816, + "step": 8352 + }, + { + "grad_norm": 0.16770533763787102, + "loss": 0.18924307823181152, + "step": 8353 + }, + { + "grad_norm": 0.11543000013042251, + "loss": 0.18284083902835846, + "step": 8354 + }, + { + "grad_norm": 0.09427610159174518, + "loss": 0.18069082498550415, + "step": 8355 + }, + { + "grad_norm": 0.2499633073069598, + "loss": 0.17646530270576477, + "step": 8356 + }, + { + "grad_norm": 0.1357042755228263, + "loss": 0.21128445863723755, + "step": 8357 + }, + { + "grad_norm": 0.1274024507692968, + "loss": 0.2041245996952057, + "step": 8358 + }, + { + "grad_norm": 0.1504231056830141, + "loss": 0.14509983360767365, + "step": 8359 + }, + { + "epoch": 2.6752000000000002, + "grad_norm": 0.1504231095314026, + "learning_rate": 1.1396811138558275e-05, + "loss": 0.1855, + "step": 8360 + }, + { + "grad_norm": 0.284732559250676, + "loss": 0.1805339902639389, + "step": 8360 + }, + { + "grad_norm": 0.18353866641018562, + "loss": 0.25235986709594727, + "step": 8361 + }, + { + "grad_norm": 0.212464988658317, + "loss": 0.17135702073574066, + "step": 8362 + }, + { + "grad_norm": 0.09744402847651103, + "loss": 0.1728823035955429, + "step": 8363 + }, + { + "grad_norm": 0.15213474922663073, + "loss": 0.26857680082321167, + "step": 8364 + }, + { + "grad_norm": 0.17863845174627743, + "loss": 0.1710851788520813, + "step": 8365 + }, + { + "grad_norm": 0.3443819486323363, + "loss": 0.1406807005405426, + "step": 8366 + }, + { + "grad_norm": 0.20051668049565827, + "loss": 0.20081371068954468, + "step": 8367 + }, + { + "grad_norm": 0.15307327168812704, + "loss": 0.20895767211914062, + "step": 8368 + }, + { + "grad_norm": 0.34350260102532304, + "loss": 0.17343012988567352, + "step": 8369 + }, + { + "epoch": 2.6784, + "grad_norm": 0.34350261092185974, + "learning_rate": 1.1284527284976421e-05, + "loss": 0.1941, + "step": 8370 + }, + { + "grad_norm": 0.18193016273545584, + "loss": 0.27757906913757324, + "step": 8370 + }, + { + "grad_norm": 0.1327710730370688, + "loss": 0.1897284984588623, + "step": 8371 + }, + { + "grad_norm": 0.24665230453632847, + "loss": 0.1636180579662323, + "step": 8372 + }, + { + "grad_norm": 0.19559909134919315, + "loss": 0.1885623037815094, + "step": 8373 + }, + { + "grad_norm": 0.27193334858395074, + "loss": 0.1943996697664261, + "step": 8374 + }, + { + "grad_norm": 0.27079979593498354, + "loss": 0.15915203094482422, + "step": 8375 + }, + { + "grad_norm": 0.2841201835808728, + "loss": 0.23327264189720154, + "step": 8376 + }, + { + "grad_norm": 0.12322688806943458, + "loss": 0.17935949563980103, + "step": 8377 + }, + { + "grad_norm": 0.0957980929146411, + "loss": 0.14229311048984528, + "step": 8378 + }, + { + "grad_norm": 0.3222501853096166, + "loss": 0.21980135142803192, + "step": 8379 + }, + { + "epoch": 2.6816, + "grad_norm": 0.3222501873970032, + "learning_rate": 1.1172243431394567e-05, + "loss": 0.1948, + "step": 8380 + }, + { + "grad_norm": 0.1951450017027195, + "loss": 0.21236413717269897, + "step": 8380 + }, + { + "grad_norm": 0.14713049974281536, + "loss": 0.1480359584093094, + "step": 8381 + }, + { + "grad_norm": 0.12544308020701286, + "loss": 0.18927080929279327, + "step": 8382 + }, + { + "grad_norm": 0.2521098045800625, + "loss": 0.17189961671829224, + "step": 8383 + }, + { + "grad_norm": 0.2563368242224474, + "loss": 0.18789903819561005, + "step": 8384 + }, + { + "grad_norm": 0.12176775598008377, + "loss": 0.16668331623077393, + "step": 8385 + }, + { + "grad_norm": 0.11234070828670671, + "loss": 0.18588879704475403, + "step": 8386 + }, + { + "grad_norm": 0.1675985045561367, + "loss": 0.22627076506614685, + "step": 8387 + }, + { + "grad_norm": 0.1391383266668644, + "loss": 0.17626234889030457, + "step": 8388 + }, + { + "grad_norm": 0.19297327704731973, + "loss": 0.14624463021755219, + "step": 8389 + }, + { + "epoch": 2.6848, + "grad_norm": 0.1929732710123062, + "learning_rate": 1.105995957781271e-05, + "loss": 0.1811, + "step": 8390 + }, + { + "grad_norm": 0.28203349802620115, + "loss": 0.1473444402217865, + "step": 8390 + }, + { + "grad_norm": 0.16375545694271249, + "loss": 0.1481873244047165, + "step": 8391 + }, + { + "grad_norm": 0.18442996688681204, + "loss": 0.19002728164196014, + "step": 8392 + }, + { + "grad_norm": 0.10098022699198435, + "loss": 0.1732710748910904, + "step": 8393 + }, + { + "grad_norm": 0.12485793860253978, + "loss": 0.178720623254776, + "step": 8394 + }, + { + "grad_norm": 0.3652302259069732, + "loss": 0.22855114936828613, + "step": 8395 + }, + { + "grad_norm": 0.2629433304977116, + "loss": 0.1621072143316269, + "step": 8396 + }, + { + "grad_norm": 0.21504632262497947, + "loss": 0.16909843683242798, + "step": 8397 + }, + { + "grad_norm": 0.09154994177517346, + "loss": 0.13665935397148132, + "step": 8398 + }, + { + "grad_norm": 0.2489142286191019, + "loss": 0.1553652435541153, + "step": 8399 + }, + { + "epoch": 2.6879999999999997, + "grad_norm": 0.2489142268896103, + "learning_rate": 1.0947675724230856e-05, + "loss": 0.1689, + "step": 8400 + }, + { + "grad_norm": 0.40481030619198594, + "loss": 0.23002132773399353, + "step": 8400 + }, + { + "grad_norm": 0.28802529180667036, + "loss": 0.16265946626663208, + "step": 8401 + }, + { + "grad_norm": 0.4675975625678578, + "loss": 0.29278334975242615, + "step": 8402 + }, + { + "grad_norm": 0.22826649797008133, + "loss": 0.16652530431747437, + "step": 8403 + }, + { + "grad_norm": 0.12393125365062331, + "loss": 0.17104430496692657, + "step": 8404 + }, + { + "grad_norm": 0.2912424208411634, + "loss": 0.2056029736995697, + "step": 8405 + }, + { + "grad_norm": 0.16671936032294307, + "loss": 0.2386476844549179, + "step": 8406 + }, + { + "grad_norm": 0.1847697062426218, + "loss": 0.17109978199005127, + "step": 8407 + }, + { + "grad_norm": 0.16443861969853923, + "loss": 0.18964342772960663, + "step": 8408 + }, + { + "grad_norm": 0.18194099917895762, + "loss": 0.1941719353199005, + "step": 8409 + }, + { + "epoch": 2.6912000000000003, + "grad_norm": 0.18194100260734558, + "learning_rate": 1.0835391870649002e-05, + "loss": 0.2022, + "step": 8410 + }, + { + "grad_norm": 0.18523622242223747, + "loss": 0.25156158208847046, + "step": 8410 + }, + { + "grad_norm": 0.3607651085785556, + "loss": 0.1903580129146576, + "step": 8411 + }, + { + "grad_norm": 0.39695409158373046, + "loss": 0.27183616161346436, + "step": 8412 + }, + { + "grad_norm": 0.19257278953986726, + "loss": 0.15378481149673462, + "step": 8413 + }, + { + "grad_norm": 0.22989009009910705, + "loss": 0.15789015591144562, + "step": 8414 + }, + { + "grad_norm": 0.1336126208801475, + "loss": 0.2481786161661148, + "step": 8415 + }, + { + "grad_norm": 0.10641407876571306, + "loss": 0.20392851531505585, + "step": 8416 + }, + { + "grad_norm": 0.2308502387525501, + "loss": 0.22688952088356018, + "step": 8417 + }, + { + "grad_norm": 0.18277601590500386, + "loss": 0.1620662957429886, + "step": 8418 + }, + { + "grad_norm": 0.1628684854991249, + "loss": 0.24195906519889832, + "step": 8419 + }, + { + "epoch": 2.6944, + "grad_norm": 0.16286848485469818, + "learning_rate": 1.0723108017067146e-05, + "loss": 0.2108, + "step": 8420 + }, + { + "grad_norm": 0.14336321566351354, + "loss": 0.1676204800605774, + "step": 8420 + }, + { + "grad_norm": 0.3233080796774525, + "loss": 0.18732520937919617, + "step": 8421 + }, + { + "grad_norm": 0.1262268737704434, + "loss": 0.1736036241054535, + "step": 8422 + }, + { + "grad_norm": 0.3285385648461651, + "loss": 0.21774858236312866, + "step": 8423 + }, + { + "grad_norm": 0.13273477123968108, + "loss": 0.20255878567695618, + "step": 8424 + }, + { + "grad_norm": 0.1567801618595426, + "loss": 0.1913449764251709, + "step": 8425 + }, + { + "grad_norm": 0.18424283145066564, + "loss": 0.1817227154970169, + "step": 8426 + }, + { + "grad_norm": 0.10435097593056786, + "loss": 0.16275860369205475, + "step": 8427 + }, + { + "grad_norm": 0.21283049798808085, + "loss": 0.2216702699661255, + "step": 8428 + }, + { + "grad_norm": 0.14243112012735906, + "loss": 0.180544912815094, + "step": 8429 + }, + { + "epoch": 2.6976, + "grad_norm": 0.1424311250448227, + "learning_rate": 1.0610824163485291e-05, + "loss": 0.1887, + "step": 8430 + }, + { + "grad_norm": 0.2657419078692025, + "loss": 0.14233992993831635, + "step": 8430 + }, + { + "grad_norm": 0.2637433170980432, + "loss": 0.1955179125070572, + "step": 8431 + }, + { + "grad_norm": 0.3184718715984937, + "loss": 0.21571265161037445, + "step": 8432 + }, + { + "grad_norm": 0.33823305678218507, + "loss": 0.15586568415164948, + "step": 8433 + }, + { + "grad_norm": 0.12876612393897444, + "loss": 0.15394537150859833, + "step": 8434 + }, + { + "grad_norm": 0.42529499909534774, + "loss": 0.22133362293243408, + "step": 8435 + }, + { + "grad_norm": 0.4028959161759147, + "loss": 0.12776000797748566, + "step": 8436 + }, + { + "grad_norm": 0.18233727707297315, + "loss": 0.16757510602474213, + "step": 8437 + }, + { + "grad_norm": 0.14826776829747096, + "loss": 0.24989274144172668, + "step": 8438 + }, + { + "grad_norm": 0.3808386264398381, + "loss": 0.16329331696033478, + "step": 8439 + }, + { + "epoch": 2.7008, + "grad_norm": 0.38083863258361816, + "learning_rate": 1.0498540309903437e-05, + "loss": 0.1793, + "step": 8440 + }, + { + "grad_norm": 0.21043697300479536, + "loss": 0.15323662757873535, + "step": 8440 + }, + { + "grad_norm": 0.17469054506226342, + "loss": 0.16867338120937347, + "step": 8441 + }, + { + "grad_norm": 0.2729485221087158, + "loss": 0.23651011288166046, + "step": 8442 + }, + { + "grad_norm": 0.1199500187093256, + "loss": 0.15977880358695984, + "step": 8443 + }, + { + "grad_norm": 0.11543532350800825, + "loss": 0.20098468661308289, + "step": 8444 + }, + { + "grad_norm": 0.2248805777308407, + "loss": 0.1922566443681717, + "step": 8445 + }, + { + "grad_norm": 0.10151054458592691, + "loss": 0.15666933357715607, + "step": 8446 + }, + { + "grad_norm": 0.1256507366642462, + "loss": 0.1805461347103119, + "step": 8447 + }, + { + "grad_norm": 0.09664164481477518, + "loss": 0.21533238887786865, + "step": 8448 + }, + { + "grad_norm": 0.3764591345227084, + "loss": 0.3006438612937927, + "step": 8449 + }, + { + "epoch": 2.7039999999999997, + "grad_norm": 0.3764590919017792, + "learning_rate": 1.0386256456321582e-05, + "loss": 0.1965, + "step": 8450 + }, + { + "grad_norm": 0.19075393330927165, + "loss": 0.2176707684993744, + "step": 8450 + }, + { + "grad_norm": 0.11217851109669866, + "loss": 0.1644701510667801, + "step": 8451 + }, + { + "grad_norm": 0.5689107660826619, + "loss": 0.2403804510831833, + "step": 8452 + }, + { + "grad_norm": 0.31679413311205606, + "loss": 0.18752358853816986, + "step": 8453 + }, + { + "grad_norm": 0.1637789664070152, + "loss": 0.1589733511209488, + "step": 8454 + }, + { + "grad_norm": 0.20075951467987416, + "loss": 0.2397312968969345, + "step": 8455 + }, + { + "grad_norm": 0.2403119558783074, + "loss": 0.20279034972190857, + "step": 8456 + }, + { + "grad_norm": 0.3603999430386331, + "loss": 0.14156299829483032, + "step": 8457 + }, + { + "grad_norm": 0.17919906134413832, + "loss": 0.1645980179309845, + "step": 8458 + }, + { + "grad_norm": 0.2941056891149216, + "loss": 0.19546568393707275, + "step": 8459 + }, + { + "epoch": 2.7072000000000003, + "grad_norm": 0.2941056787967682, + "learning_rate": 1.0273972602739726e-05, + "loss": 0.1913, + "step": 8460 + }, + { + "grad_norm": 0.17331764532651553, + "loss": 0.16729681193828583, + "step": 8460 + }, + { + "grad_norm": 0.13350813471819228, + "loss": 0.16519126296043396, + "step": 8461 + }, + { + "grad_norm": 0.14973523452989648, + "loss": 0.17796160280704498, + "step": 8462 + }, + { + "grad_norm": 0.22245953272585287, + "loss": 0.17404434084892273, + "step": 8463 + }, + { + "grad_norm": 0.1153476171921011, + "loss": 0.16192109882831573, + "step": 8464 + }, + { + "grad_norm": 0.17299401993825647, + "loss": 0.1663045436143875, + "step": 8465 + }, + { + "grad_norm": 0.4480330358102224, + "loss": 0.16211602091789246, + "step": 8466 + }, + { + "grad_norm": 0.19498073467613958, + "loss": 0.2487783432006836, + "step": 8467 + }, + { + "grad_norm": 0.118330862500965, + "loss": 0.19848264753818512, + "step": 8468 + }, + { + "grad_norm": 0.3669663987649918, + "loss": 0.16261860728263855, + "step": 8469 + }, + { + "epoch": 2.7104, + "grad_norm": 0.3669663965702057, + "learning_rate": 1.0161688749157872e-05, + "loss": 0.1785, + "step": 8470 + }, + { + "grad_norm": 0.25521355800283135, + "loss": 0.18627500534057617, + "step": 8470 + }, + { + "grad_norm": 0.13429045771706796, + "loss": 0.20559674501419067, + "step": 8471 + }, + { + "grad_norm": 0.1535807320099625, + "loss": 0.18836306035518646, + "step": 8472 + }, + { + "grad_norm": 0.18012396118076776, + "loss": 0.20642277598381042, + "step": 8473 + }, + { + "grad_norm": 0.09440105429930871, + "loss": 0.16778624057769775, + "step": 8474 + }, + { + "grad_norm": 0.34176612998380057, + "loss": 0.22306573390960693, + "step": 8475 + }, + { + "grad_norm": 0.12062162959949362, + "loss": 0.2325931191444397, + "step": 8476 + }, + { + "grad_norm": 0.131848504974641, + "loss": 0.16075359284877777, + "step": 8477 + }, + { + "grad_norm": 0.24725131472104758, + "loss": 0.22443702816963196, + "step": 8478 + }, + { + "grad_norm": 0.23171832274501353, + "loss": 0.16042771935462952, + "step": 8479 + }, + { + "epoch": 2.7136, + "grad_norm": 0.23171833157539368, + "learning_rate": 1.0049404895576018e-05, + "loss": 0.1956, + "step": 8480 + }, + { + "grad_norm": 0.14468671656801185, + "loss": 0.16499063372612, + "step": 8480 + }, + { + "grad_norm": 0.18549314702199562, + "loss": 0.17654240131378174, + "step": 8481 + }, + { + "grad_norm": 0.3600987899228501, + "loss": 0.1701999455690384, + "step": 8482 + }, + { + "grad_norm": 0.16973191855817032, + "loss": 0.17660267651081085, + "step": 8483 + }, + { + "grad_norm": 0.400302400789793, + "loss": 0.24179024994373322, + "step": 8484 + }, + { + "grad_norm": 0.12308654877332433, + "loss": 0.16148395836353302, + "step": 8485 + }, + { + "grad_norm": 0.10781194348693245, + "loss": 0.20704202353954315, + "step": 8486 + }, + { + "grad_norm": 0.13011814085052537, + "loss": 0.16475257277488708, + "step": 8487 + }, + { + "grad_norm": 0.26301329347798913, + "loss": 0.22344303131103516, + "step": 8488 + }, + { + "grad_norm": 0.4153013978749496, + "loss": 0.26736414432525635, + "step": 8489 + }, + { + "epoch": 2.7168, + "grad_norm": 0.4153014123439789, + "learning_rate": 9.937121041994161e-06, + "loss": 0.1954, + "step": 8490 + }, + { + "grad_norm": 0.14617159740945612, + "loss": 0.2094600796699524, + "step": 8490 + }, + { + "grad_norm": 0.3037380841627033, + "loss": 0.18634918332099915, + "step": 8491 + }, + { + "grad_norm": 0.27889026232253533, + "loss": 0.14935684204101562, + "step": 8492 + }, + { + "grad_norm": 0.20990482742666244, + "loss": 0.1607094705104828, + "step": 8493 + }, + { + "grad_norm": 0.16563707059423127, + "loss": 0.1822282373905182, + "step": 8494 + }, + { + "grad_norm": 0.3097410892698215, + "loss": 0.17201396822929382, + "step": 8495 + }, + { + "grad_norm": 0.14131156188346003, + "loss": 0.13362061977386475, + "step": 8496 + }, + { + "grad_norm": 0.1411843339930495, + "loss": 0.1889483779668808, + "step": 8497 + }, + { + "grad_norm": 0.34771534235998314, + "loss": 0.2300211787223816, + "step": 8498 + }, + { + "grad_norm": 0.15466581735423734, + "loss": 0.21844221651554108, + "step": 8499 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 0.15466581284999847, + "learning_rate": 9.824837188412307e-06, + "loss": 0.1831, + "step": 8500 + }, + { + "grad_norm": 0.19476288192717886, + "loss": 0.16592980921268463, + "step": 8500 + }, + { + "grad_norm": 0.35507944149119663, + "loss": 0.19369849562644958, + "step": 8501 + }, + { + "grad_norm": 0.18348142168878226, + "loss": 0.15655295550823212, + "step": 8502 + }, + { + "grad_norm": 0.2448798671550168, + "loss": 0.17686708271503448, + "step": 8503 + }, + { + "grad_norm": 0.37857338750063246, + "loss": 0.19144965708255768, + "step": 8504 + }, + { + "grad_norm": 0.422958564260119, + "loss": 0.1798940896987915, + "step": 8505 + }, + { + "grad_norm": 0.19305638197551567, + "loss": 0.19347967207431793, + "step": 8506 + }, + { + "grad_norm": 0.23182931872211057, + "loss": 0.28947877883911133, + "step": 8507 + }, + { + "grad_norm": 0.3360113965789937, + "loss": 0.18210989236831665, + "step": 8508 + }, + { + "grad_norm": 0.12290091984008603, + "loss": 0.16623735427856445, + "step": 8509 + }, + { + "epoch": 2.7232, + "grad_norm": 0.12290091812610626, + "learning_rate": 9.712553334830451e-06, + "loss": 0.1896, + "step": 8510 + }, + { + "grad_norm": 0.273366847689436, + "loss": 0.1495770961046219, + "step": 8510 + }, + { + "grad_norm": 0.1936330824841752, + "loss": 0.20294135808944702, + "step": 8511 + }, + { + "grad_norm": 0.15536076268104976, + "loss": 0.17149832844734192, + "step": 8512 + }, + { + "grad_norm": 0.25551742255754806, + "loss": 0.21384316682815552, + "step": 8513 + }, + { + "grad_norm": 0.3944673454805089, + "loss": 0.1488112211227417, + "step": 8514 + }, + { + "grad_norm": 0.29526968040690066, + "loss": 0.19325843453407288, + "step": 8515 + }, + { + "grad_norm": 0.17149944410309675, + "loss": 0.20969557762145996, + "step": 8516 + }, + { + "grad_norm": 0.3656789288846043, + "loss": 0.2741004228591919, + "step": 8517 + }, + { + "grad_norm": 0.14794169062027232, + "loss": 0.1476602852344513, + "step": 8518 + }, + { + "grad_norm": 0.17191372820257517, + "loss": 0.17416201531887054, + "step": 8519 + }, + { + "epoch": 2.7264, + "grad_norm": 0.1719137281179428, + "learning_rate": 9.600269481248596e-06, + "loss": 0.1886, + "step": 8520 + }, + { + "grad_norm": 0.20661925279443533, + "loss": 0.2496415376663208, + "step": 8520 + }, + { + "grad_norm": 0.19871620689593694, + "loss": 0.18640372157096863, + "step": 8521 + }, + { + "grad_norm": 0.12222879785790215, + "loss": 0.15935364365577698, + "step": 8522 + }, + { + "grad_norm": 0.11654479111846267, + "loss": 0.2245209813117981, + "step": 8523 + }, + { + "grad_norm": 0.1647145476683905, + "loss": 0.18324732780456543, + "step": 8524 + }, + { + "grad_norm": 0.39887730620535566, + "loss": 0.21460747718811035, + "step": 8525 + }, + { + "grad_norm": 0.2673184847256554, + "loss": 0.24707286059856415, + "step": 8526 + }, + { + "grad_norm": 0.22839359126858266, + "loss": 0.1776655912399292, + "step": 8527 + }, + { + "grad_norm": 0.13684192221455355, + "loss": 0.16112372279167175, + "step": 8528 + }, + { + "grad_norm": 0.22029286702715317, + "loss": 0.17926675081253052, + "step": 8529 + }, + { + "epoch": 2.7296, + "grad_norm": 0.22029288113117218, + "learning_rate": 9.487985627666742e-06, + "loss": 0.1983, + "step": 8530 + }, + { + "grad_norm": 0.14620831510068205, + "loss": 0.141490638256073, + "step": 8530 + }, + { + "grad_norm": 0.18608123743126667, + "loss": 0.2948770225048065, + "step": 8531 + }, + { + "grad_norm": 0.2888521777982313, + "loss": 0.20887377858161926, + "step": 8532 + }, + { + "grad_norm": 0.1396773363749069, + "loss": 0.18492814898490906, + "step": 8533 + }, + { + "grad_norm": 0.26113846478198616, + "loss": 0.18986985087394714, + "step": 8534 + }, + { + "grad_norm": 0.16420876599815395, + "loss": 0.1536959856748581, + "step": 8535 + }, + { + "grad_norm": 0.18604438002813153, + "loss": 0.17762041091918945, + "step": 8536 + }, + { + "grad_norm": 0.11978130012224929, + "loss": 0.18147242069244385, + "step": 8537 + }, + { + "grad_norm": 0.2978206788910803, + "loss": 0.18127533793449402, + "step": 8538 + }, + { + "grad_norm": 0.44206833866021883, + "loss": 0.1464710831642151, + "step": 8539 + }, + { + "epoch": 2.7328, + "grad_norm": 0.44206833839416504, + "learning_rate": 9.375701774084888e-06, + "loss": 0.1861, + "step": 8540 + }, + { + "grad_norm": 0.2917876066139812, + "loss": 0.18711479008197784, + "step": 8540 + }, + { + "grad_norm": 0.19696295885003934, + "loss": 0.17033667862415314, + "step": 8541 + }, + { + "grad_norm": 0.3106624575327207, + "loss": 0.18402978777885437, + "step": 8542 + }, + { + "grad_norm": 0.17567883764253384, + "loss": 0.18517129123210907, + "step": 8543 + }, + { + "grad_norm": 0.1195986959706694, + "loss": 0.188215434551239, + "step": 8544 + }, + { + "grad_norm": 0.09468104500283762, + "loss": 0.17749615013599396, + "step": 8545 + }, + { + "grad_norm": 0.19839377750439838, + "loss": 0.21535150706768036, + "step": 8546 + }, + { + "grad_norm": 0.16680588305547506, + "loss": 0.21559461951255798, + "step": 8547 + }, + { + "grad_norm": 0.19897412426496636, + "loss": 0.1854778677225113, + "step": 8548 + }, + { + "grad_norm": 0.16690091043768718, + "loss": 0.20778633654117584, + "step": 8549 + }, + { + "epoch": 2.7359999999999998, + "grad_norm": 0.16690091788768768, + "learning_rate": 9.263417920503033e-06, + "loss": 0.1917, + "step": 8550 + }, + { + "grad_norm": 0.5068649176377447, + "loss": 0.2017265260219574, + "step": 8550 + }, + { + "grad_norm": 0.11476483320236341, + "loss": 0.1926179826259613, + "step": 8551 + }, + { + "grad_norm": 0.11518835167443688, + "loss": 0.21781909465789795, + "step": 8552 + }, + { + "grad_norm": 0.17592372237440487, + "loss": 0.20368698239326477, + "step": 8553 + }, + { + "grad_norm": 0.14014418640333526, + "loss": 0.1893124282360077, + "step": 8554 + }, + { + "grad_norm": 0.17673535765928955, + "loss": 0.1888616383075714, + "step": 8555 + }, + { + "grad_norm": 0.3583874915902466, + "loss": 0.15427187085151672, + "step": 8556 + }, + { + "grad_norm": 0.25307636399133426, + "loss": 0.1986861377954483, + "step": 8557 + }, + { + "grad_norm": 0.10809665496338135, + "loss": 0.20259171724319458, + "step": 8558 + }, + { + "grad_norm": 0.18483783642229248, + "loss": 0.15073344111442566, + "step": 8559 + }, + { + "epoch": 2.7392, + "grad_norm": 0.18483784794807434, + "learning_rate": 9.151134066921177e-06, + "loss": 0.19, + "step": 8560 + }, + { + "grad_norm": 0.10902807699695873, + "loss": 0.16351553797721863, + "step": 8560 + }, + { + "grad_norm": 0.25525019960701856, + "loss": 0.16838215291500092, + "step": 8561 + }, + { + "grad_norm": 0.11899671835055287, + "loss": 0.15909545123577118, + "step": 8562 + }, + { + "grad_norm": 0.24250255979777086, + "loss": 0.2837342321872711, + "step": 8563 + }, + { + "grad_norm": 0.12966302482911074, + "loss": 0.15431833267211914, + "step": 8564 + }, + { + "grad_norm": 0.11591433480446356, + "loss": 0.1560194194316864, + "step": 8565 + }, + { + "grad_norm": 0.2656098917975075, + "loss": 0.18805952370166779, + "step": 8566 + }, + { + "grad_norm": 0.16922710067368385, + "loss": 0.1687665432691574, + "step": 8567 + }, + { + "grad_norm": 0.22798282042353044, + "loss": 0.16570839285850525, + "step": 8568 + }, + { + "grad_norm": 0.18241431949495787, + "loss": 0.20616523921489716, + "step": 8569 + }, + { + "epoch": 2.7424, + "grad_norm": 0.18241430819034576, + "learning_rate": 9.038850213339323e-06, + "loss": 0.1814, + "step": 8570 + }, + { + "grad_norm": 0.17345204968219896, + "loss": 0.16482135653495789, + "step": 8570 + }, + { + "grad_norm": 0.39168619878095895, + "loss": 0.22550705075263977, + "step": 8571 + }, + { + "grad_norm": 0.2747162716335277, + "loss": 0.18147307634353638, + "step": 8572 + }, + { + "grad_norm": 0.10378243796839974, + "loss": 0.14735494554042816, + "step": 8573 + }, + { + "grad_norm": 0.382760799070803, + "loss": 0.21879179775714874, + "step": 8574 + }, + { + "grad_norm": 0.1432701556776968, + "loss": 0.146828755736351, + "step": 8575 + }, + { + "grad_norm": 0.3423047892519428, + "loss": 0.24905160069465637, + "step": 8576 + }, + { + "grad_norm": 0.11499072449586042, + "loss": 0.20107732713222504, + "step": 8577 + }, + { + "grad_norm": 0.18539079675588552, + "loss": 0.20858320593833923, + "step": 8578 + }, + { + "grad_norm": 0.17267462135790584, + "loss": 0.16752097010612488, + "step": 8579 + }, + { + "epoch": 2.7456, + "grad_norm": 0.17267461121082306, + "learning_rate": 8.926566359757467e-06, + "loss": 0.1911, + "step": 8580 + }, + { + "grad_norm": 0.26142485823351336, + "loss": 0.21641625463962555, + "step": 8580 + }, + { + "grad_norm": 0.15365716592305312, + "loss": 0.18348169326782227, + "step": 8581 + }, + { + "grad_norm": 0.13402087673204202, + "loss": 0.2191762924194336, + "step": 8582 + }, + { + "grad_norm": 0.22746716587885213, + "loss": 0.14812727272510529, + "step": 8583 + }, + { + "grad_norm": 0.3374828395324942, + "loss": 0.21464690566062927, + "step": 8584 + }, + { + "grad_norm": 0.2171959302697586, + "loss": 0.20236535370349884, + "step": 8585 + }, + { + "grad_norm": 0.37936837916095206, + "loss": 0.26097723841667175, + "step": 8586 + }, + { + "grad_norm": 0.15586471908035054, + "loss": 0.16893886029720306, + "step": 8587 + }, + { + "grad_norm": 0.2647971917082434, + "loss": 0.15813317894935608, + "step": 8588 + }, + { + "grad_norm": 0.17842533906769392, + "loss": 0.1853199154138565, + "step": 8589 + }, + { + "epoch": 2.7488, + "grad_norm": 0.17842534184455872, + "learning_rate": 8.814282506175612e-06, + "loss": 0.1958, + "step": 8590 + }, + { + "grad_norm": 0.15691577744878882, + "loss": 0.20607814192771912, + "step": 8590 + }, + { + "grad_norm": 0.09636158821823482, + "loss": 0.17365127801895142, + "step": 8591 + }, + { + "grad_norm": 0.20031404467270025, + "loss": 0.19555725157260895, + "step": 8592 + }, + { + "grad_norm": 0.4113288035795349, + "loss": 0.16086888313293457, + "step": 8593 + }, + { + "grad_norm": 0.13008697681395173, + "loss": 0.16841410100460052, + "step": 8594 + }, + { + "grad_norm": 0.37083083917477305, + "loss": 0.15558844804763794, + "step": 8595 + }, + { + "grad_norm": 0.3918804698046132, + "loss": 0.16794875264167786, + "step": 8596 + }, + { + "grad_norm": 0.497924049778662, + "loss": 0.1768392026424408, + "step": 8597 + }, + { + "grad_norm": 0.1482884009550447, + "loss": 0.18409040570259094, + "step": 8598 + }, + { + "grad_norm": 0.23683863527826812, + "loss": 0.19723227620124817, + "step": 8599 + }, + { + "epoch": 2.752, + "grad_norm": 0.23683862388134003, + "learning_rate": 8.701998652593756e-06, + "loss": 0.1786, + "step": 8600 + }, + { + "grad_norm": 0.20259356317738886, + "loss": 0.20026005804538727, + "step": 8600 + }, + { + "grad_norm": 0.10858137597293674, + "loss": 0.23906417191028595, + "step": 8601 + }, + { + "grad_norm": 0.09334275426581817, + "loss": 0.14522825181484222, + "step": 8602 + }, + { + "grad_norm": 0.13167082899085628, + "loss": 0.1950317919254303, + "step": 8603 + }, + { + "grad_norm": 0.31530956457711345, + "loss": 0.20420074462890625, + "step": 8604 + }, + { + "grad_norm": 0.24993346039054082, + "loss": 0.18519216775894165, + "step": 8605 + }, + { + "grad_norm": 0.2773247389323088, + "loss": 0.18569470942020416, + "step": 8606 + }, + { + "grad_norm": 0.14162478915066776, + "loss": 0.18692627549171448, + "step": 8607 + }, + { + "grad_norm": 0.12567003357113196, + "loss": 0.1599312722682953, + "step": 8608 + }, + { + "grad_norm": 0.14404168072674728, + "loss": 0.16980208456516266, + "step": 8609 + }, + { + "epoch": 2.7552, + "grad_norm": 0.14404167234897614, + "learning_rate": 8.589714799011902e-06, + "loss": 0.1871, + "step": 8610 + }, + { + "grad_norm": 0.3351183458112973, + "loss": 0.18084269762039185, + "step": 8610 + }, + { + "grad_norm": 0.5992701723249195, + "loss": 0.3280506730079651, + "step": 8611 + }, + { + "grad_norm": 0.17985310988266093, + "loss": 0.19560545682907104, + "step": 8612 + }, + { + "grad_norm": 0.2810265783692694, + "loss": 0.17139731347560883, + "step": 8613 + }, + { + "grad_norm": 0.11292225992367604, + "loss": 0.18089058995246887, + "step": 8614 + }, + { + "grad_norm": 0.3494280469403708, + "loss": 0.17412203550338745, + "step": 8615 + }, + { + "grad_norm": 0.17229039803601082, + "loss": 0.2041962444782257, + "step": 8616 + }, + { + "grad_norm": 0.10827634593163009, + "loss": 0.17072391510009766, + "step": 8617 + }, + { + "grad_norm": 0.18777924272472218, + "loss": 0.20115859806537628, + "step": 8618 + }, + { + "grad_norm": 0.19246039688339572, + "loss": 0.15904363989830017, + "step": 8619 + }, + { + "epoch": 2.7584, + "grad_norm": 0.19246040284633636, + "learning_rate": 8.477430945430049e-06, + "loss": 0.1966, + "step": 8620 + }, + { + "grad_norm": 0.3296979383826917, + "loss": 0.16209913790225983, + "step": 8620 + }, + { + "grad_norm": 0.23563116486257762, + "loss": 0.1773148626089096, + "step": 8621 + }, + { + "grad_norm": 0.3484451229114683, + "loss": 0.18268811702728271, + "step": 8622 + }, + { + "grad_norm": 0.11078144966405797, + "loss": 0.1972517967224121, + "step": 8623 + }, + { + "grad_norm": 0.17573630087283695, + "loss": 0.22581011056900024, + "step": 8624 + }, + { + "grad_norm": 0.3873234625355105, + "loss": 0.16305553913116455, + "step": 8625 + }, + { + "grad_norm": 0.23870137370557024, + "loss": 0.1820351928472519, + "step": 8626 + }, + { + "grad_norm": 0.20784768591899982, + "loss": 0.21862435340881348, + "step": 8627 + }, + { + "grad_norm": 0.4051188510792578, + "loss": 0.20915649831295013, + "step": 8628 + }, + { + "grad_norm": 0.3168590736485537, + "loss": 0.19147036969661713, + "step": 8629 + }, + { + "epoch": 2.7616, + "grad_norm": 0.31685906648635864, + "learning_rate": 8.365147091848193e-06, + "loss": 0.191, + "step": 8630 + }, + { + "grad_norm": 0.15719987741135205, + "loss": 0.2104392945766449, + "step": 8630 + }, + { + "grad_norm": 0.18066993265318715, + "loss": 0.16813364624977112, + "step": 8631 + }, + { + "grad_norm": 0.17314806927844809, + "loss": 0.1500224769115448, + "step": 8632 + }, + { + "grad_norm": 0.3639654138531581, + "loss": 0.15097439289093018, + "step": 8633 + }, + { + "grad_norm": 0.15718111366668816, + "loss": 0.1699344664812088, + "step": 8634 + }, + { + "grad_norm": 0.1770463284843049, + "loss": 0.2270011454820633, + "step": 8635 + }, + { + "grad_norm": 0.2011226058876424, + "loss": 0.17414546012878418, + "step": 8636 + }, + { + "grad_norm": 0.24353924259908913, + "loss": 0.18579018115997314, + "step": 8637 + }, + { + "grad_norm": 0.32359395354931825, + "loss": 0.2816804051399231, + "step": 8638 + }, + { + "grad_norm": 0.15502500484577986, + "loss": 0.1842426061630249, + "step": 8639 + }, + { + "epoch": 2.7648, + "grad_norm": 0.15502500534057617, + "learning_rate": 8.252863238266339e-06, + "loss": 0.1902, + "step": 8640 + }, + { + "grad_norm": 0.19726082293741412, + "loss": 0.2052709311246872, + "step": 8640 + }, + { + "grad_norm": 0.18180737135589758, + "loss": 0.19718876481056213, + "step": 8641 + }, + { + "grad_norm": 0.15858285703879044, + "loss": 0.19420979917049408, + "step": 8642 + }, + { + "grad_norm": 0.15337977499770458, + "loss": 0.18336540460586548, + "step": 8643 + }, + { + "grad_norm": 0.13378890287727085, + "loss": 0.16479699313640594, + "step": 8644 + }, + { + "grad_norm": 0.1890900742912677, + "loss": 0.1973484456539154, + "step": 8645 + }, + { + "grad_norm": 0.2007852635934692, + "loss": 0.18288476765155792, + "step": 8646 + }, + { + "grad_norm": 0.24015824384955953, + "loss": 0.16737857460975647, + "step": 8647 + }, + { + "grad_norm": 0.10903926297913466, + "loss": 0.19509509205818176, + "step": 8648 + }, + { + "grad_norm": 0.14165313540682298, + "loss": 0.20288679003715515, + "step": 8649 + }, + { + "epoch": 2.768, + "grad_norm": 0.1416531354188919, + "learning_rate": 8.140579384684482e-06, + "loss": 0.189, + "step": 8650 + }, + { + "grad_norm": 0.13972475045052649, + "loss": 0.22695446014404297, + "step": 8650 + }, + { + "grad_norm": 0.18930062689128474, + "loss": 0.1639469563961029, + "step": 8651 + }, + { + "grad_norm": 0.24755275739906252, + "loss": 0.19558066129684448, + "step": 8652 + }, + { + "grad_norm": 0.13858990129760615, + "loss": 0.20577146112918854, + "step": 8653 + }, + { + "grad_norm": 0.18431305254056732, + "loss": 0.15106144547462463, + "step": 8654 + }, + { + "grad_norm": 0.2900215595944375, + "loss": 0.2299106866121292, + "step": 8655 + }, + { + "grad_norm": 0.2014917794125596, + "loss": 0.2136000692844391, + "step": 8656 + }, + { + "grad_norm": 0.20417298386203786, + "loss": 0.15346476435661316, + "step": 8657 + }, + { + "grad_norm": 0.10077283721599817, + "loss": 0.19018569588661194, + "step": 8658 + }, + { + "grad_norm": 0.1969127158096928, + "loss": 0.22863692045211792, + "step": 8659 + }, + { + "epoch": 2.7712, + "grad_norm": 0.1969127207994461, + "learning_rate": 8.028295531102628e-06, + "loss": 0.1959, + "step": 8660 + }, + { + "grad_norm": 0.1607226320243186, + "loss": 0.331536203622818, + "step": 8660 + }, + { + "grad_norm": 0.10969181283640923, + "loss": 0.21387815475463867, + "step": 8661 + }, + { + "grad_norm": 0.18511005940996905, + "loss": 0.1735367774963379, + "step": 8662 + }, + { + "grad_norm": 0.25540297904606346, + "loss": 0.17669185996055603, + "step": 8663 + }, + { + "grad_norm": 0.3232802227358159, + "loss": 0.19835712015628815, + "step": 8664 + }, + { + "grad_norm": 0.29705347854527697, + "loss": 0.18937520682811737, + "step": 8665 + }, + { + "grad_norm": 0.30166380921155217, + "loss": 0.2041442096233368, + "step": 8666 + }, + { + "grad_norm": 0.14821950606499323, + "loss": 0.14899225533008575, + "step": 8667 + }, + { + "grad_norm": 0.12113000819070484, + "loss": 0.23277677595615387, + "step": 8668 + }, + { + "grad_norm": 0.14259091437253768, + "loss": 0.19095660746097565, + "step": 8669 + }, + { + "epoch": 2.7744, + "grad_norm": 0.14259091019630432, + "learning_rate": 7.916011677520772e-06, + "loss": 0.206, + "step": 8670 + }, + { + "grad_norm": 0.2239746138358242, + "loss": 0.24918338656425476, + "step": 8670 + }, + { + "grad_norm": 0.1178339356231651, + "loss": 0.21734315156936646, + "step": 8671 + }, + { + "grad_norm": 0.15289191359860552, + "loss": 0.18328768014907837, + "step": 8672 + }, + { + "grad_norm": 0.3384660143776699, + "loss": 0.17076872289180756, + "step": 8673 + }, + { + "grad_norm": 0.12271952022997026, + "loss": 0.17852574586868286, + "step": 8674 + }, + { + "grad_norm": 0.19613042311457435, + "loss": 0.23425988852977753, + "step": 8675 + }, + { + "grad_norm": 0.13649789819232755, + "loss": 0.18042927980422974, + "step": 8676 + }, + { + "grad_norm": 0.15704427706758745, + "loss": 0.20543277263641357, + "step": 8677 + }, + { + "grad_norm": 0.08784232938007919, + "loss": 0.16511836647987366, + "step": 8678 + }, + { + "grad_norm": 0.2257067432224302, + "loss": 0.2142784744501114, + "step": 8679 + }, + { + "epoch": 2.7776, + "grad_norm": 0.22570674121379852, + "learning_rate": 7.803727823938918e-06, + "loss": 0.1999, + "step": 8680 + }, + { + "grad_norm": 0.2530613075304725, + "loss": 0.22529694437980652, + "step": 8680 + }, + { + "grad_norm": 0.2596197244280757, + "loss": 0.23458132147789001, + "step": 8681 + }, + { + "grad_norm": 0.20139976500038026, + "loss": 0.17354382574558258, + "step": 8682 + }, + { + "grad_norm": 0.26733876519686356, + "loss": 0.17726168036460876, + "step": 8683 + }, + { + "grad_norm": 0.25001500888106926, + "loss": 0.15564927458763123, + "step": 8684 + }, + { + "grad_norm": 0.23726776317400922, + "loss": 0.18979224562644958, + "step": 8685 + }, + { + "grad_norm": 0.2957744379672409, + "loss": 0.14740023016929626, + "step": 8686 + }, + { + "grad_norm": 0.35626068730249016, + "loss": 0.15288136899471283, + "step": 8687 + }, + { + "grad_norm": 0.2867530853790586, + "loss": 0.1732792854309082, + "step": 8688 + }, + { + "grad_norm": 0.14562634619377973, + "loss": 0.19727535545825958, + "step": 8689 + }, + { + "epoch": 2.7808, + "grad_norm": 0.14562635123729706, + "learning_rate": 7.691443970357063e-06, + "loss": 0.1827, + "step": 8690 + }, + { + "grad_norm": 0.20235271838045896, + "loss": 0.24941280484199524, + "step": 8690 + }, + { + "grad_norm": 0.24752477377328352, + "loss": 0.27261292934417725, + "step": 8691 + }, + { + "grad_norm": 0.2829916083790653, + "loss": 0.18736761808395386, + "step": 8692 + }, + { + "grad_norm": 0.13019235498297535, + "loss": 0.13822109997272491, + "step": 8693 + }, + { + "grad_norm": 0.23226992381704822, + "loss": 0.1646697223186493, + "step": 8694 + }, + { + "grad_norm": 0.21785559037300237, + "loss": 0.1791665256023407, + "step": 8695 + }, + { + "grad_norm": 0.41823311015172315, + "loss": 0.16443845629692078, + "step": 8696 + }, + { + "grad_norm": 0.193625097823191, + "loss": 0.14910811185836792, + "step": 8697 + }, + { + "grad_norm": 0.10026914261896279, + "loss": 0.18080389499664307, + "step": 8698 + }, + { + "grad_norm": 0.27321743285136596, + "loss": 0.17663654685020447, + "step": 8699 + }, + { + "epoch": 2.784, + "grad_norm": 0.27321743965148926, + "learning_rate": 7.579160116775208e-06, + "loss": 0.1862, + "step": 8700 + }, + { + "grad_norm": 0.22666675637688335, + "loss": 0.1394914835691452, + "step": 8700 + }, + { + "grad_norm": 0.15309097610857542, + "loss": 0.19681471586227417, + "step": 8701 + }, + { + "grad_norm": 0.3382537915363122, + "loss": 0.2503645718097687, + "step": 8702 + }, + { + "grad_norm": 0.15518713338865306, + "loss": 0.22814832627773285, + "step": 8703 + }, + { + "grad_norm": 0.17637721162794656, + "loss": 0.14693480730056763, + "step": 8704 + }, + { + "grad_norm": 0.15378281066977165, + "loss": 0.14931818842887878, + "step": 8705 + }, + { + "grad_norm": 0.14321768424798095, + "loss": 0.19011855125427246, + "step": 8706 + }, + { + "grad_norm": 0.3776887443148146, + "loss": 0.18844009935855865, + "step": 8707 + }, + { + "grad_norm": 0.17343715992967013, + "loss": 0.19922810792922974, + "step": 8708 + }, + { + "grad_norm": 0.3820011326448209, + "loss": 0.1916220486164093, + "step": 8709 + }, + { + "epoch": 2.7872, + "grad_norm": 0.382001131772995, + "learning_rate": 7.4668762631933535e-06, + "loss": 0.188, + "step": 8710 + }, + { + "grad_norm": 0.22416020464086983, + "loss": 0.16649635136127472, + "step": 8710 + }, + { + "grad_norm": 0.12890046152047907, + "loss": 0.1433129906654358, + "step": 8711 + }, + { + "grad_norm": 0.1425292286725471, + "loss": 0.17116861045360565, + "step": 8712 + }, + { + "grad_norm": 0.13685093793261832, + "loss": 0.1734403520822525, + "step": 8713 + }, + { + "grad_norm": 0.1400933719859919, + "loss": 0.18387676775455475, + "step": 8714 + }, + { + "grad_norm": 0.255336847810279, + "loss": 0.15898269414901733, + "step": 8715 + }, + { + "grad_norm": 0.10691956008232134, + "loss": 0.20702384412288666, + "step": 8716 + }, + { + "grad_norm": 0.18076693386426157, + "loss": 0.2034766972064972, + "step": 8717 + }, + { + "grad_norm": 0.12369931102507409, + "loss": 0.2355773150920868, + "step": 8718 + }, + { + "grad_norm": 0.3076627977555638, + "loss": 0.15830600261688232, + "step": 8719 + }, + { + "epoch": 2.7904, + "grad_norm": 0.3076627850532532, + "learning_rate": 7.354592409611498e-06, + "loss": 0.1802, + "step": 8720 + }, + { + "grad_norm": 0.1362470916673709, + "loss": 0.17243637144565582, + "step": 8720 + }, + { + "grad_norm": 0.26737413034266005, + "loss": 0.18023492395877838, + "step": 8721 + }, + { + "grad_norm": 0.23981309857698896, + "loss": 0.2175314575433731, + "step": 8722 + }, + { + "grad_norm": 0.13908338016098606, + "loss": 0.1825396716594696, + "step": 8723 + }, + { + "grad_norm": 0.21751872846824638, + "loss": 0.17129364609718323, + "step": 8724 + }, + { + "grad_norm": 0.2766553172998513, + "loss": 0.21578991413116455, + "step": 8725 + }, + { + "grad_norm": 0.10178531471339872, + "loss": 0.1679709255695343, + "step": 8726 + }, + { + "grad_norm": 0.2251044684953912, + "loss": 0.17343935370445251, + "step": 8727 + }, + { + "grad_norm": 0.32778393675041256, + "loss": 0.24117641150951385, + "step": 8728 + }, + { + "grad_norm": 0.22753578521743245, + "loss": 0.2286863476037979, + "step": 8729 + }, + { + "epoch": 2.7936, + "grad_norm": 0.22753578424453735, + "learning_rate": 7.242308556029644e-06, + "loss": 0.1951, + "step": 8730 + }, + { + "grad_norm": 0.17730129942678768, + "loss": 0.15166135132312775, + "step": 8730 + }, + { + "grad_norm": 0.19996527284413382, + "loss": 0.1350812464952469, + "step": 8731 + }, + { + "grad_norm": 0.32888247550521604, + "loss": 0.1770666390657425, + "step": 8732 + }, + { + "grad_norm": 0.21435544994109482, + "loss": 0.19858291745185852, + "step": 8733 + }, + { + "grad_norm": 0.4047056364269201, + "loss": 0.17983458936214447, + "step": 8734 + }, + { + "grad_norm": 0.12407530200976206, + "loss": 0.163292795419693, + "step": 8735 + }, + { + "grad_norm": 0.29787442105087514, + "loss": 0.1691882312297821, + "step": 8736 + }, + { + "grad_norm": 0.26098764766127186, + "loss": 0.2551466226577759, + "step": 8737 + }, + { + "grad_norm": 0.14992530471004925, + "loss": 0.21316976845264435, + "step": 8738 + }, + { + "grad_norm": 0.30095112986686173, + "loss": 0.2261592447757721, + "step": 8739 + }, + { + "epoch": 2.7968, + "grad_norm": 0.30095112323760986, + "learning_rate": 7.130024702447788e-06, + "loss": 0.1869, + "step": 8740 + }, + { + "grad_norm": 0.10784610950319265, + "loss": 0.18727275729179382, + "step": 8740 + }, + { + "grad_norm": 0.20216814212400414, + "loss": 0.2072649896144867, + "step": 8741 + }, + { + "grad_norm": 0.13923920965516492, + "loss": 0.19266006350517273, + "step": 8742 + }, + { + "grad_norm": 0.30954116466945014, + "loss": 0.1840606927871704, + "step": 8743 + }, + { + "grad_norm": 0.1343491499740152, + "loss": 0.18922068178653717, + "step": 8744 + }, + { + "grad_norm": 0.21683438825288465, + "loss": 0.17732465267181396, + "step": 8745 + }, + { + "grad_norm": 0.15129670390995198, + "loss": 0.17001233994960785, + "step": 8746 + }, + { + "grad_norm": 0.15292044614453223, + "loss": 0.19124212861061096, + "step": 8747 + }, + { + "grad_norm": 0.1427519332824063, + "loss": 0.17175066471099854, + "step": 8748 + }, + { + "grad_norm": 0.12934041177869837, + "loss": 0.1737547069787979, + "step": 8749 + }, + { + "epoch": 2.8, + "grad_norm": 0.12934041023254395, + "learning_rate": 7.017740848865933e-06, + "loss": 0.1845, + "step": 8750 + }, + { + "grad_norm": 0.4808307435452251, + "loss": 0.2073473334312439, + "step": 8750 + }, + { + "grad_norm": 0.20078268340642672, + "loss": 0.17236201465129852, + "step": 8751 + }, + { + "grad_norm": 0.08941373080227338, + "loss": 0.14772333204746246, + "step": 8752 + }, + { + "grad_norm": 0.1411590340081558, + "loss": 0.20028971135616302, + "step": 8753 + }, + { + "grad_norm": 0.09491043986213582, + "loss": 0.1295265257358551, + "step": 8754 + }, + { + "grad_norm": 0.18383494404628978, + "loss": 0.2318679541349411, + "step": 8755 + }, + { + "grad_norm": 0.20333306994405087, + "loss": 0.20457184314727783, + "step": 8756 + }, + { + "grad_norm": 0.14795858886285426, + "loss": 0.1699199676513672, + "step": 8757 + }, + { + "grad_norm": 0.3174962641742244, + "loss": 0.1873933970928192, + "step": 8758 + }, + { + "grad_norm": 0.1389361125670042, + "loss": 0.16115537285804749, + "step": 8759 + }, + { + "epoch": 2.8032, + "grad_norm": 0.1389361023902893, + "learning_rate": 6.905456995284078e-06, + "loss": 0.1812, + "step": 8760 + }, + { + "grad_norm": 0.17250724799130437, + "loss": 0.1866789311170578, + "step": 8760 + }, + { + "grad_norm": 0.12464703315846885, + "loss": 0.18100330233573914, + "step": 8761 + }, + { + "grad_norm": 0.24981883732117552, + "loss": 0.20836210250854492, + "step": 8762 + }, + { + "grad_norm": 0.3085367035283407, + "loss": 0.2135993242263794, + "step": 8763 + }, + { + "grad_norm": 0.10578410144970284, + "loss": 0.16717123985290527, + "step": 8764 + }, + { + "grad_norm": 0.11641731884625293, + "loss": 0.17862409353256226, + "step": 8765 + }, + { + "grad_norm": 0.11191708198792907, + "loss": 0.16062788665294647, + "step": 8766 + }, + { + "grad_norm": 0.5748009430944186, + "loss": 0.2628641724586487, + "step": 8767 + }, + { + "grad_norm": 0.14164621859121931, + "loss": 0.15643054246902466, + "step": 8768 + }, + { + "grad_norm": 0.23508881142288182, + "loss": 0.18495389819145203, + "step": 8769 + }, + { + "epoch": 2.8064, + "grad_norm": 0.23508881032466888, + "learning_rate": 6.793173141702224e-06, + "loss": 0.19, + "step": 8770 + }, + { + "grad_norm": 0.12375463722194514, + "loss": 0.16868352890014648, + "step": 8770 + }, + { + "grad_norm": 0.23800756665508901, + "loss": 0.18602269887924194, + "step": 8771 + }, + { + "grad_norm": 0.1907128385817444, + "loss": 0.21523237228393555, + "step": 8772 + }, + { + "grad_norm": 0.10533998681855715, + "loss": 0.150709867477417, + "step": 8773 + }, + { + "grad_norm": 0.14401924689771894, + "loss": 0.1652078628540039, + "step": 8774 + }, + { + "grad_norm": 0.47244006367942065, + "loss": 0.2497185617685318, + "step": 8775 + }, + { + "grad_norm": 0.6359690124887332, + "loss": 0.25868603587150574, + "step": 8776 + }, + { + "grad_norm": 0.27984816187570777, + "loss": 0.2541316747665405, + "step": 8777 + }, + { + "grad_norm": 0.17864551546972623, + "loss": 0.16690237820148468, + "step": 8778 + }, + { + "grad_norm": 0.39398778331110995, + "loss": 0.1640455424785614, + "step": 8779 + }, + { + "epoch": 2.8096, + "grad_norm": 0.3939878046512604, + "learning_rate": 6.680889288120369e-06, + "loss": 0.1979, + "step": 8780 + }, + { + "grad_norm": 0.15975621553391137, + "loss": 0.20979300141334534, + "step": 8780 + }, + { + "grad_norm": 0.31889090994324637, + "loss": 0.15301169455051422, + "step": 8781 + }, + { + "grad_norm": 0.16412047490264256, + "loss": 0.19934377074241638, + "step": 8782 + }, + { + "grad_norm": 0.45499654174277654, + "loss": 0.206106036901474, + "step": 8783 + }, + { + "grad_norm": 0.17997478989876686, + "loss": 0.19261714816093445, + "step": 8784 + }, + { + "grad_norm": 0.3821710675718254, + "loss": 0.16617196798324585, + "step": 8785 + }, + { + "grad_norm": 0.3269386225766861, + "loss": 0.19471600651741028, + "step": 8786 + }, + { + "grad_norm": 0.5080982855451928, + "loss": 0.14603696763515472, + "step": 8787 + }, + { + "grad_norm": 0.25638780124788263, + "loss": 0.2514088451862335, + "step": 8788 + }, + { + "grad_norm": 0.18323196293045504, + "loss": 0.2186952531337738, + "step": 8789 + }, + { + "epoch": 2.8128, + "grad_norm": 0.18323196470737457, + "learning_rate": 6.568605434538513e-06, + "loss": 0.1938, + "step": 8790 + }, + { + "grad_norm": 0.2889697990914555, + "loss": 0.156671404838562, + "step": 8790 + }, + { + "grad_norm": 0.3181511793254899, + "loss": 0.17572849988937378, + "step": 8791 + }, + { + "grad_norm": 0.2642035846247196, + "loss": 0.1696867048740387, + "step": 8792 + }, + { + "grad_norm": 0.16588801193704392, + "loss": 0.19162225723266602, + "step": 8793 + }, + { + "grad_norm": 0.3182740369962983, + "loss": 0.18015123903751373, + "step": 8794 + }, + { + "grad_norm": 0.18631346868225462, + "loss": 0.22850120067596436, + "step": 8795 + }, + { + "grad_norm": 0.27975857911715646, + "loss": 0.17919370532035828, + "step": 8796 + }, + { + "grad_norm": 0.10841625142364628, + "loss": 0.1884487271308899, + "step": 8797 + }, + { + "grad_norm": 0.12506252043395752, + "loss": 0.12866349518299103, + "step": 8798 + }, + { + "grad_norm": 0.1285999691160764, + "loss": 0.16334182024002075, + "step": 8799 + }, + { + "epoch": 2.816, + "grad_norm": 0.12859997153282166, + "learning_rate": 6.456321580956659e-06, + "loss": 0.1762, + "step": 8800 + }, + { + "grad_norm": 0.20367048392957768, + "loss": 0.19982017576694489, + "step": 8800 + }, + { + "grad_norm": 0.522959875840014, + "loss": 0.2488306760787964, + "step": 8801 + }, + { + "grad_norm": 0.20746740296171695, + "loss": 0.2132561206817627, + "step": 8802 + }, + { + "grad_norm": 0.11159366651025016, + "loss": 0.18490992486476898, + "step": 8803 + }, + { + "grad_norm": 0.09763095679393319, + "loss": 0.19775517284870148, + "step": 8804 + }, + { + "grad_norm": 0.20152724546137235, + "loss": 0.20406612753868103, + "step": 8805 + }, + { + "grad_norm": 0.10597269980215354, + "loss": 0.1573389768600464, + "step": 8806 + }, + { + "grad_norm": 0.1918691974193053, + "loss": 0.1606273502111435, + "step": 8807 + }, + { + "grad_norm": 0.12071155898338645, + "loss": 0.15270516276359558, + "step": 8808 + }, + { + "grad_norm": 0.0957936164265371, + "loss": 0.16728131473064423, + "step": 8809 + }, + { + "epoch": 2.8192, + "grad_norm": 0.09579361975193024, + "learning_rate": 6.3440377273748035e-06, + "loss": 0.1887, + "step": 8810 + }, + { + "grad_norm": 0.12383899843459319, + "loss": 0.17922452092170715, + "step": 8810 + }, + { + "grad_norm": 0.12429571910426208, + "loss": 0.15488427877426147, + "step": 8811 + }, + { + "grad_norm": 0.23277319664837248, + "loss": 0.19423449039459229, + "step": 8812 + }, + { + "grad_norm": 0.09557069278426901, + "loss": 0.1406036615371704, + "step": 8813 + }, + { + "grad_norm": 0.25787125989007853, + "loss": 0.2237783968448639, + "step": 8814 + }, + { + "grad_norm": 0.09704565259286872, + "loss": 0.13419082760810852, + "step": 8815 + }, + { + "grad_norm": 0.24328732283928867, + "loss": 0.2516578435897827, + "step": 8816 + }, + { + "grad_norm": 0.2619796447180989, + "loss": 0.1656290888786316, + "step": 8817 + }, + { + "grad_norm": 0.1816123367779993, + "loss": 0.21402455866336823, + "step": 8818 + }, + { + "grad_norm": 0.24968504723553497, + "loss": 0.16791895031929016, + "step": 8819 + }, + { + "epoch": 2.8224, + "grad_norm": 0.24968503415584564, + "learning_rate": 6.231753873792949e-06, + "loss": 0.1826, + "step": 8820 + }, + { + "grad_norm": 0.17065641251486113, + "loss": 0.15480922162532806, + "step": 8820 + }, + { + "grad_norm": 0.3003938581404858, + "loss": 0.15033316612243652, + "step": 8821 + }, + { + "grad_norm": 0.21722948375363693, + "loss": 0.16182081401348114, + "step": 8822 + }, + { + "grad_norm": 0.14608842541636521, + "loss": 0.20471341907978058, + "step": 8823 + }, + { + "grad_norm": 0.2492153037593925, + "loss": 0.17328724265098572, + "step": 8824 + }, + { + "grad_norm": 0.10307015627191411, + "loss": 0.2019219994544983, + "step": 8825 + }, + { + "grad_norm": 0.11859063481058094, + "loss": 0.18308371305465698, + "step": 8826 + }, + { + "grad_norm": 0.2710014104214996, + "loss": 0.19697585701942444, + "step": 8827 + }, + { + "grad_norm": 0.19083969826349625, + "loss": 0.22020506858825684, + "step": 8828 + }, + { + "grad_norm": 0.30725359912227745, + "loss": 0.168308287858963, + "step": 8829 + }, + { + "epoch": 2.8256, + "grad_norm": 0.3072535991668701, + "learning_rate": 6.119470020211094e-06, + "loss": 0.1815, + "step": 8830 + }, + { + "grad_norm": 0.32961733861648074, + "loss": 0.15166372060775757, + "step": 8830 + }, + { + "grad_norm": 0.23401615851412333, + "loss": 0.17191337049007416, + "step": 8831 + }, + { + "grad_norm": 0.28957298562919825, + "loss": 0.18565715849399567, + "step": 8832 + }, + { + "grad_norm": 0.10994359809196276, + "loss": 0.14007122814655304, + "step": 8833 + }, + { + "grad_norm": 0.2744252368083359, + "loss": 0.1377253234386444, + "step": 8834 + }, + { + "grad_norm": 0.22616118853641373, + "loss": 0.19632625579833984, + "step": 8835 + }, + { + "grad_norm": 0.4829846227680434, + "loss": 0.17017962038516998, + "step": 8836 + }, + { + "grad_norm": 0.3266563457733925, + "loss": 0.2875276803970337, + "step": 8837 + }, + { + "grad_norm": 0.11631727722134938, + "loss": 0.16331392526626587, + "step": 8838 + }, + { + "grad_norm": 0.20545278331247321, + "loss": 0.30210280418395996, + "step": 8839 + }, + { + "epoch": 2.8288, + "grad_norm": 0.20545276999473572, + "learning_rate": 6.007186166629239e-06, + "loss": 0.1906, + "step": 8840 + }, + { + "grad_norm": 0.3221610286899379, + "loss": 0.2544141113758087, + "step": 8840 + }, + { + "grad_norm": 0.4528820162216532, + "loss": 0.18944448232650757, + "step": 8841 + }, + { + "grad_norm": 0.11829243106573356, + "loss": 0.1949463039636612, + "step": 8842 + }, + { + "grad_norm": 0.4534886508458449, + "loss": 0.17740346491336823, + "step": 8843 + }, + { + "grad_norm": 0.10108279238526148, + "loss": 0.19309021532535553, + "step": 8844 + }, + { + "grad_norm": 0.2330005111918553, + "loss": 0.20642706751823425, + "step": 8845 + }, + { + "grad_norm": 0.19441095445133535, + "loss": 0.17217543721199036, + "step": 8846 + }, + { + "grad_norm": 0.2378556855046711, + "loss": 0.1830538809299469, + "step": 8847 + }, + { + "grad_norm": 0.3370922007359543, + "loss": 0.1537332981824875, + "step": 8848 + }, + { + "grad_norm": 0.2397500260759627, + "loss": 0.16186076402664185, + "step": 8849 + }, + { + "epoch": 2.832, + "grad_norm": 0.23975001275539398, + "learning_rate": 5.894902313047384e-06, + "loss": 0.1887, + "step": 8850 + }, + { + "grad_norm": 0.19249641802973175, + "loss": 0.23181891441345215, + "step": 8850 + }, + { + "grad_norm": 0.1436794402949631, + "loss": 0.20110440254211426, + "step": 8851 + }, + { + "grad_norm": 0.23629503679198782, + "loss": 0.21069101989269257, + "step": 8852 + }, + { + "grad_norm": 0.19775287327668473, + "loss": 0.14059457182884216, + "step": 8853 + }, + { + "grad_norm": 0.1650527819477421, + "loss": 0.17733809351921082, + "step": 8854 + }, + { + "grad_norm": 0.2655044704008746, + "loss": 0.23352356255054474, + "step": 8855 + }, + { + "grad_norm": 0.13443198074244966, + "loss": 0.19936077296733856, + "step": 8856 + }, + { + "grad_norm": 0.37921968205900247, + "loss": 0.2707720398902893, + "step": 8857 + }, + { + "grad_norm": 0.16392203482964063, + "loss": 0.14852622151374817, + "step": 8858 + }, + { + "grad_norm": 0.24026127361307018, + "loss": 0.21740856766700745, + "step": 8859 + }, + { + "epoch": 2.8352, + "grad_norm": 0.2402612715959549, + "learning_rate": 5.782618459465529e-06, + "loss": 0.2031, + "step": 8860 + }, + { + "grad_norm": 0.5284175635341235, + "loss": 0.19141165912151337, + "step": 8860 + }, + { + "grad_norm": 0.141237835893161, + "loss": 0.18231698870658875, + "step": 8861 + }, + { + "grad_norm": 0.40171540046747656, + "loss": 0.16847513616085052, + "step": 8862 + }, + { + "grad_norm": 0.17678486938970567, + "loss": 0.1603134572505951, + "step": 8863 + }, + { + "grad_norm": 0.2855951444978767, + "loss": 0.17185509204864502, + "step": 8864 + }, + { + "grad_norm": 0.28404391132216705, + "loss": 0.16527099907398224, + "step": 8865 + }, + { + "grad_norm": 0.22743659352886683, + "loss": 0.22192791104316711, + "step": 8866 + }, + { + "grad_norm": 0.3179043461119483, + "loss": 0.1802913248538971, + "step": 8867 + }, + { + "grad_norm": 0.24400421928646354, + "loss": 0.16456690430641174, + "step": 8868 + }, + { + "grad_norm": 0.32243441500724584, + "loss": 0.19475483894348145, + "step": 8869 + }, + { + "epoch": 2.8384, + "grad_norm": 0.3224344253540039, + "learning_rate": 5.6703346058836745e-06, + "loss": 0.1801, + "step": 8870 + }, + { + "grad_norm": 0.24171856991203305, + "loss": 0.20363792777061462, + "step": 8870 + }, + { + "grad_norm": 0.16089530279642855, + "loss": 0.17888781428337097, + "step": 8871 + }, + { + "grad_norm": 0.2979667654574628, + "loss": 0.19838321208953857, + "step": 8872 + }, + { + "grad_norm": 0.2622208281813764, + "loss": 0.2111203670501709, + "step": 8873 + }, + { + "grad_norm": 0.25284566028843336, + "loss": 0.21686522662639618, + "step": 8874 + }, + { + "grad_norm": 0.16225440947301034, + "loss": 0.18707183003425598, + "step": 8875 + }, + { + "grad_norm": 0.12381759489459747, + "loss": 0.1658448725938797, + "step": 8876 + }, + { + "grad_norm": 0.1828962019575066, + "loss": 0.17664757370948792, + "step": 8877 + }, + { + "grad_norm": 0.17610410994544498, + "loss": 0.1908227801322937, + "step": 8878 + }, + { + "grad_norm": 0.12220065018537937, + "loss": 0.23454588651657104, + "step": 8879 + }, + { + "epoch": 2.8416, + "grad_norm": 0.12220064550638199, + "learning_rate": 5.558050752301819e-06, + "loss": 0.1964, + "step": 8880 + }, + { + "grad_norm": 0.3258792918369239, + "loss": 0.24673405289649963, + "step": 8880 + }, + { + "grad_norm": 0.2612615919454684, + "loss": 0.1897759735584259, + "step": 8881 + }, + { + "grad_norm": 0.40464169019025525, + "loss": 0.1815253347158432, + "step": 8882 + }, + { + "grad_norm": 0.1652466268557719, + "loss": 0.17095057666301727, + "step": 8883 + }, + { + "grad_norm": 0.1744210163290145, + "loss": 0.19960695505142212, + "step": 8884 + }, + { + "grad_norm": 0.1627398378260181, + "loss": 0.17415061593055725, + "step": 8885 + }, + { + "grad_norm": 0.1475884026870386, + "loss": 0.20044106245040894, + "step": 8886 + }, + { + "grad_norm": 0.1936546225752161, + "loss": 0.19900503754615784, + "step": 8887 + }, + { + "grad_norm": 0.38459188537147254, + "loss": 0.158480703830719, + "step": 8888 + }, + { + "grad_norm": 0.40204568522516526, + "loss": 0.15949265658855438, + "step": 8889 + }, + { + "epoch": 2.8448, + "grad_norm": 0.40204569697380066, + "learning_rate": 5.445766898719965e-06, + "loss": 0.188, + "step": 8890 + }, + { + "grad_norm": 0.13083185444369805, + "loss": 0.21139217913150787, + "step": 8890 + }, + { + "grad_norm": 0.3690022916317822, + "loss": 0.20983034372329712, + "step": 8891 + }, + { + "grad_norm": 0.19886274111820773, + "loss": 0.16744163632392883, + "step": 8892 + }, + { + "grad_norm": 0.14107395470888096, + "loss": 0.1986667811870575, + "step": 8893 + }, + { + "grad_norm": 0.39102664378446583, + "loss": 0.1986241638660431, + "step": 8894 + }, + { + "grad_norm": 0.16476280594185413, + "loss": 0.18018968403339386, + "step": 8895 + }, + { + "grad_norm": 0.11482433912807405, + "loss": 0.20491698384284973, + "step": 8896 + }, + { + "grad_norm": 0.1212463468013558, + "loss": 0.1753307729959488, + "step": 8897 + }, + { + "grad_norm": 0.20432224289330417, + "loss": 0.16638003289699554, + "step": 8898 + }, + { + "grad_norm": 0.13026378188077994, + "loss": 0.1942187249660492, + "step": 8899 + }, + { + "epoch": 2.848, + "grad_norm": 0.1302637755870819, + "learning_rate": 5.33348304513811e-06, + "loss": 0.1907, + "step": 8900 + }, + { + "grad_norm": 0.19297858655125252, + "loss": 0.19301775097846985, + "step": 8900 + }, + { + "grad_norm": 0.1745329572309056, + "loss": 0.1842334121465683, + "step": 8901 + }, + { + "grad_norm": 0.24651562501045943, + "loss": 0.20373660326004028, + "step": 8902 + }, + { + "grad_norm": 0.09864223123810512, + "loss": 0.18331825733184814, + "step": 8903 + }, + { + "grad_norm": 0.38201903182762753, + "loss": 0.18672612309455872, + "step": 8904 + }, + { + "grad_norm": 0.16046695474166162, + "loss": 0.12940697371959686, + "step": 8905 + }, + { + "grad_norm": 0.34795631708512414, + "loss": 0.16798309981822968, + "step": 8906 + }, + { + "grad_norm": 0.4819890062910892, + "loss": 0.256919801235199, + "step": 8907 + }, + { + "grad_norm": 0.1684287910005137, + "loss": 0.21869677305221558, + "step": 8908 + }, + { + "grad_norm": 0.16640874806811404, + "loss": 0.17163801193237305, + "step": 8909 + }, + { + "epoch": 2.8512, + "grad_norm": 0.1664087474346161, + "learning_rate": 5.221199191556254e-06, + "loss": 0.1896, + "step": 8910 + }, + { + "grad_norm": 0.11343538977973329, + "loss": 0.17312091588974, + "step": 8910 + }, + { + "grad_norm": 0.32935161156639314, + "loss": 0.2079823613166809, + "step": 8911 + }, + { + "grad_norm": 0.5235560090718623, + "loss": 0.26240405440330505, + "step": 8912 + }, + { + "grad_norm": 0.18105147714540262, + "loss": 0.16921371221542358, + "step": 8913 + }, + { + "grad_norm": 0.2827220076901251, + "loss": 0.2097838968038559, + "step": 8914 + }, + { + "grad_norm": 0.2594870238172509, + "loss": 0.22428074479103088, + "step": 8915 + }, + { + "grad_norm": 0.18242442328959196, + "loss": 0.1886439025402069, + "step": 8916 + }, + { + "grad_norm": 0.1772634123991105, + "loss": 0.18557456135749817, + "step": 8917 + }, + { + "grad_norm": 0.14391385833947395, + "loss": 0.20910006761550903, + "step": 8918 + }, + { + "grad_norm": 0.17688220216617948, + "loss": 0.20390348136425018, + "step": 8919 + }, + { + "epoch": 2.8544, + "grad_norm": 0.17688220739364624, + "learning_rate": 5.108915337974399e-06, + "loss": 0.2034, + "step": 8920 + }, + { + "grad_norm": 0.18431298260886614, + "loss": 0.19781076908111572, + "step": 8920 + }, + { + "grad_norm": 0.1742915271339099, + "loss": 0.19235432147979736, + "step": 8921 + }, + { + "grad_norm": 0.12588193017921365, + "loss": 0.20310282707214355, + "step": 8922 + }, + { + "grad_norm": 0.5452875415318251, + "loss": 0.3081357777118683, + "step": 8923 + }, + { + "grad_norm": 0.24601013487439094, + "loss": 0.2026607096195221, + "step": 8924 + }, + { + "grad_norm": 0.22753889312517073, + "loss": 0.18703944981098175, + "step": 8925 + }, + { + "grad_norm": 0.17961632813925407, + "loss": 0.19476281106472015, + "step": 8926 + }, + { + "grad_norm": 0.14929797581651086, + "loss": 0.21875113248825073, + "step": 8927 + }, + { + "grad_norm": 0.4655647193483016, + "loss": 0.16593891382217407, + "step": 8928 + }, + { + "grad_norm": 0.1529414991061929, + "loss": 0.16996827721595764, + "step": 8929 + }, + { + "epoch": 2.8576, + "grad_norm": 0.15294149518013, + "learning_rate": 4.996631484392545e-06, + "loss": 0.2041, + "step": 8930 + }, + { + "grad_norm": 0.2753323161074434, + "loss": 0.22767342627048492, + "step": 8930 + }, + { + "grad_norm": 0.24302261352447432, + "loss": 0.21164464950561523, + "step": 8931 + }, + { + "grad_norm": 0.23437430764683642, + "loss": 0.23347169160842896, + "step": 8932 + }, + { + "grad_norm": 0.1517633220651101, + "loss": 0.18645890057086945, + "step": 8933 + }, + { + "grad_norm": 0.17405089142764285, + "loss": 0.1948937028646469, + "step": 8934 + }, + { + "grad_norm": 0.12276407166548141, + "loss": 0.23621706664562225, + "step": 8935 + }, + { + "grad_norm": 0.16475814463619906, + "loss": 0.18429957330226898, + "step": 8936 + }, + { + "grad_norm": 0.15974551419186986, + "loss": 0.1768903136253357, + "step": 8937 + }, + { + "grad_norm": 0.1380007798776844, + "loss": 0.2107417732477188, + "step": 8938 + }, + { + "grad_norm": 0.10613101305154292, + "loss": 0.20144805312156677, + "step": 8939 + }, + { + "epoch": 2.8608000000000002, + "grad_norm": 0.10613101720809937, + "learning_rate": 4.8843476308106895e-06, + "loss": 0.2064, + "step": 8940 + }, + { + "grad_norm": 0.5912012539359504, + "loss": 0.14997677505016327, + "step": 8940 + }, + { + "grad_norm": 0.25993033463506693, + "loss": 0.18785220384597778, + "step": 8941 + }, + { + "grad_norm": 0.32147818443989823, + "loss": 0.18929806351661682, + "step": 8942 + }, + { + "grad_norm": 0.4591556341535983, + "loss": 0.17211341857910156, + "step": 8943 + }, + { + "grad_norm": 0.3329361970211968, + "loss": 0.15055504441261292, + "step": 8944 + }, + { + "grad_norm": 0.20814041952252962, + "loss": 0.15795430541038513, + "step": 8945 + }, + { + "grad_norm": 0.37128706869368905, + "loss": 0.18124717473983765, + "step": 8946 + }, + { + "grad_norm": 0.20844860178642508, + "loss": 0.17154335975646973, + "step": 8947 + }, + { + "grad_norm": 0.1527976592642127, + "loss": 0.17596155405044556, + "step": 8948 + }, + { + "grad_norm": 0.25977968828857434, + "loss": 0.1826687902212143, + "step": 8949 + }, + { + "epoch": 2.864, + "grad_norm": 0.259779691696167, + "learning_rate": 4.772063777228835e-06, + "loss": 0.1719, + "step": 8950 + }, + { + "grad_norm": 0.19015769937523638, + "loss": 0.2002166360616684, + "step": 8950 + }, + { + "grad_norm": 0.2567422590091304, + "loss": 0.2137880176305771, + "step": 8951 + }, + { + "grad_norm": 0.1140724708604446, + "loss": 0.1861596405506134, + "step": 8952 + }, + { + "grad_norm": 0.3127217676615701, + "loss": 0.28533264994621277, + "step": 8953 + }, + { + "grad_norm": 0.1062030429165082, + "loss": 0.19092895090579987, + "step": 8954 + }, + { + "grad_norm": 0.2609623271896468, + "loss": 0.16064798831939697, + "step": 8955 + }, + { + "grad_norm": 0.1751551513590761, + "loss": 0.20931664109230042, + "step": 8956 + }, + { + "grad_norm": 0.1347101453582988, + "loss": 0.19929862022399902, + "step": 8957 + }, + { + "grad_norm": 0.2488584810922021, + "loss": 0.15562433004379272, + "step": 8958 + }, + { + "grad_norm": 0.10182504657037546, + "loss": 0.17744304239749908, + "step": 8959 + }, + { + "epoch": 2.8672, + "grad_norm": 0.1018250435590744, + "learning_rate": 4.65977992364698e-06, + "loss": 0.1979, + "step": 8960 + }, + { + "grad_norm": 0.27240223956660103, + "loss": 0.22488586604595184, + "step": 8960 + }, + { + "grad_norm": 0.11752727929656309, + "loss": 0.16038429737091064, + "step": 8961 + }, + { + "grad_norm": 0.1441055801570127, + "loss": 0.18693804740905762, + "step": 8962 + }, + { + "grad_norm": 0.25423780149527686, + "loss": 0.17695572972297668, + "step": 8963 + }, + { + "grad_norm": 0.20081415661028001, + "loss": 0.1912248134613037, + "step": 8964 + }, + { + "grad_norm": 0.1891092866770061, + "loss": 0.1627568155527115, + "step": 8965 + }, + { + "grad_norm": 0.10415909053476853, + "loss": 0.17032840847969055, + "step": 8966 + }, + { + "grad_norm": 0.348171446106788, + "loss": 0.17338834702968597, + "step": 8967 + }, + { + "grad_norm": 0.13403304619547934, + "loss": 0.1854686588048935, + "step": 8968 + }, + { + "grad_norm": 0.3367490049295056, + "loss": 0.1519022285938263, + "step": 8969 + }, + { + "epoch": 2.8704, + "grad_norm": 0.33674901723861694, + "learning_rate": 4.5474960700651246e-06, + "loss": 0.1784, + "step": 8970 + }, + { + "grad_norm": 0.28891538943417727, + "loss": 0.16358831524848938, + "step": 8970 + }, + { + "grad_norm": 0.21770425341011884, + "loss": 0.1665608435869217, + "step": 8971 + }, + { + "grad_norm": 0.3841164280467707, + "loss": 0.1944981813430786, + "step": 8972 + }, + { + "grad_norm": 0.22968917550479087, + "loss": 0.2459782063961029, + "step": 8973 + }, + { + "grad_norm": 0.1799757449917083, + "loss": 0.2107621729373932, + "step": 8974 + }, + { + "grad_norm": 0.09983668544393422, + "loss": 0.1213550716638565, + "step": 8975 + }, + { + "grad_norm": 0.2672153848243547, + "loss": 0.1860787272453308, + "step": 8976 + }, + { + "grad_norm": 0.16638567232959606, + "loss": 0.18061935901641846, + "step": 8977 + }, + { + "grad_norm": 0.11832930796493545, + "loss": 0.19819456338882446, + "step": 8978 + }, + { + "grad_norm": 0.24169038634241863, + "loss": 0.21591725945472717, + "step": 8979 + }, + { + "epoch": 2.8736, + "grad_norm": 0.24169038236141205, + "learning_rate": 4.43521221648327e-06, + "loss": 0.1884, + "step": 8980 + }, + { + "grad_norm": 0.3166314049760883, + "loss": 0.2025168389081955, + "step": 8980 + }, + { + "grad_norm": 0.11077233557050176, + "loss": 0.16660796105861664, + "step": 8981 + }, + { + "grad_norm": 0.14103151202693778, + "loss": 0.14554651081562042, + "step": 8982 + }, + { + "grad_norm": 0.23020101852595445, + "loss": 0.15203411877155304, + "step": 8983 + }, + { + "grad_norm": 0.2970768382255179, + "loss": 0.19582244753837585, + "step": 8984 + }, + { + "grad_norm": 0.12643550331402054, + "loss": 0.17245590686798096, + "step": 8985 + }, + { + "grad_norm": 0.2050224332481328, + "loss": 0.15504519641399384, + "step": 8986 + }, + { + "grad_norm": 0.18401077219883027, + "loss": 0.25782620906829834, + "step": 8987 + }, + { + "grad_norm": 0.15719536910146634, + "loss": 0.18687503039836884, + "step": 8988 + }, + { + "grad_norm": 0.44149725302615267, + "loss": 0.22273096442222595, + "step": 8989 + }, + { + "epoch": 2.8768000000000002, + "grad_norm": 0.44149723649024963, + "learning_rate": 4.322928362901415e-06, + "loss": 0.1857, + "step": 8990 + }, + { + "grad_norm": 0.5374505819821613, + "loss": 0.22473767399787903, + "step": 8990 + }, + { + "grad_norm": 0.12037065146024162, + "loss": 0.16399161517620087, + "step": 8991 + }, + { + "grad_norm": 0.1703831786555186, + "loss": 0.1543063074350357, + "step": 8992 + }, + { + "grad_norm": 0.17836048271511643, + "loss": 0.17468002438545227, + "step": 8993 + }, + { + "grad_norm": 0.1380994267506983, + "loss": 0.20911382138729095, + "step": 8994 + }, + { + "grad_norm": 0.33512215605217555, + "loss": 0.19924548268318176, + "step": 8995 + }, + { + "grad_norm": 0.21827762152128133, + "loss": 0.14444836974143982, + "step": 8996 + }, + { + "grad_norm": 0.15449647338520897, + "loss": 0.18249037861824036, + "step": 8997 + }, + { + "grad_norm": 0.11094697854505199, + "loss": 0.19410625100135803, + "step": 8998 + }, + { + "grad_norm": 0.14126497602678276, + "loss": 0.25507795810699463, + "step": 8999 + }, + { + "epoch": 2.88, + "grad_norm": 0.14126497507095337, + "learning_rate": 4.21064450931956e-06, + "loss": 0.1902, + "step": 9000 + }, + { + "grad_norm": 0.34836279788585445, + "loss": 0.15636153519153595, + "step": 9000 + }, + { + "grad_norm": 0.14537308801842602, + "loss": 0.2089753895998001, + "step": 9001 + }, + { + "grad_norm": 0.37662804798271127, + "loss": 0.1807127594947815, + "step": 9002 + }, + { + "grad_norm": 0.6317761400260364, + "loss": 0.2090800702571869, + "step": 9003 + }, + { + "grad_norm": 0.11642813902532435, + "loss": 0.20550958812236786, + "step": 9004 + }, + { + "grad_norm": 0.11283012179846161, + "loss": 0.19838887453079224, + "step": 9005 + }, + { + "grad_norm": 0.15319704307893034, + "loss": 0.188347727060318, + "step": 9006 + }, + { + "grad_norm": 0.2266432259656865, + "loss": 0.2058647722005844, + "step": 9007 + }, + { + "grad_norm": 0.13817395708333752, + "loss": 0.15859419107437134, + "step": 9008 + }, + { + "grad_norm": 0.1622517618286043, + "loss": 0.20815476775169373, + "step": 9009 + }, + { + "epoch": 2.8832, + "grad_norm": 0.16225175559520721, + "learning_rate": 4.098360655737704e-06, + "loss": 0.192, + "step": 9010 + }, + { + "grad_norm": 0.19478829893701702, + "loss": 0.22108182311058044, + "step": 9010 + }, + { + "grad_norm": 0.11253826673389936, + "loss": 0.15695053339004517, + "step": 9011 + }, + { + "grad_norm": 0.15419071668768602, + "loss": 0.16900837421417236, + "step": 9012 + }, + { + "grad_norm": 0.2201267211374014, + "loss": 0.16063259541988373, + "step": 9013 + }, + { + "grad_norm": 0.39406649040471464, + "loss": 0.28064486384391785, + "step": 9014 + }, + { + "grad_norm": 0.15743427802782822, + "loss": 0.19939160346984863, + "step": 9015 + }, + { + "grad_norm": 0.21116594180460926, + "loss": 0.26856136322021484, + "step": 9016 + }, + { + "grad_norm": 0.13590551817457466, + "loss": 0.22775256633758545, + "step": 9017 + }, + { + "grad_norm": 0.11570475746618661, + "loss": 0.1572803556919098, + "step": 9018 + }, + { + "grad_norm": 0.19235829871183413, + "loss": 0.20776331424713135, + "step": 9019 + }, + { + "epoch": 2.8864, + "grad_norm": 0.19235830008983612, + "learning_rate": 3.986076802155851e-06, + "loss": 0.2049, + "step": 9020 + }, + { + "grad_norm": 0.11624240158956774, + "loss": 0.190346360206604, + "step": 9020 + }, + { + "grad_norm": 0.18220582683984524, + "loss": 0.19011709094047546, + "step": 9021 + }, + { + "grad_norm": 0.15962212950632299, + "loss": 0.1639847457408905, + "step": 9022 + }, + { + "grad_norm": 0.24293216970364503, + "loss": 0.16651131212711334, + "step": 9023 + }, + { + "grad_norm": 0.31821698621095557, + "loss": 0.2625780701637268, + "step": 9024 + }, + { + "grad_norm": 0.11175038231495134, + "loss": 0.1953350156545639, + "step": 9025 + }, + { + "grad_norm": 0.1293941192318066, + "loss": 0.21051891148090363, + "step": 9026 + }, + { + "grad_norm": 0.12520648985571248, + "loss": 0.19898143410682678, + "step": 9027 + }, + { + "grad_norm": 0.24243599209552166, + "loss": 0.17766736447811127, + "step": 9028 + }, + { + "grad_norm": 0.25292773566508087, + "loss": 0.17131909728050232, + "step": 9029 + }, + { + "epoch": 2.8895999999999997, + "grad_norm": 0.2529277503490448, + "learning_rate": 3.873792948573996e-06, + "loss": 0.1927, + "step": 9030 + }, + { + "grad_norm": 0.11345560098116274, + "loss": 0.2336815744638443, + "step": 9030 + }, + { + "grad_norm": 0.1951694255280823, + "loss": 0.15994705259799957, + "step": 9031 + }, + { + "grad_norm": 0.16402462780223606, + "loss": 0.17742690443992615, + "step": 9032 + }, + { + "grad_norm": 0.10864832184390072, + "loss": 0.20045751333236694, + "step": 9033 + }, + { + "grad_norm": 0.10990509491545732, + "loss": 0.20120887458324432, + "step": 9034 + }, + { + "grad_norm": 0.22775826391519632, + "loss": 0.1799638569355011, + "step": 9035 + }, + { + "grad_norm": 0.1313805314772768, + "loss": 0.17553555965423584, + "step": 9036 + }, + { + "grad_norm": 0.2758408371776135, + "loss": 0.1366148740053177, + "step": 9037 + }, + { + "grad_norm": 0.11251194605392624, + "loss": 0.1614590734243393, + "step": 9038 + }, + { + "grad_norm": 0.12438632337508691, + "loss": 0.22753006219863892, + "step": 9039 + }, + { + "epoch": 2.8928000000000003, + "grad_norm": 0.12438632547855377, + "learning_rate": 3.7615090949921403e-06, + "loss": 0.1854, + "step": 9040 + }, + { + "grad_norm": 0.29244803764823263, + "loss": 0.21174860000610352, + "step": 9040 + }, + { + "grad_norm": 0.1900554776937571, + "loss": 0.16470135748386383, + "step": 9041 + }, + { + "grad_norm": 0.20041453300310516, + "loss": 0.19345325231552124, + "step": 9042 + }, + { + "grad_norm": 0.25052725643598517, + "loss": 0.17688901722431183, + "step": 9043 + }, + { + "grad_norm": 0.2577882598310327, + "loss": 0.22663825750350952, + "step": 9044 + }, + { + "grad_norm": 0.17604957652230446, + "loss": 0.1653369516134262, + "step": 9045 + }, + { + "grad_norm": 0.18406400102075002, + "loss": 0.17773307859897614, + "step": 9046 + }, + { + "grad_norm": 0.15219273636542455, + "loss": 0.21981993317604065, + "step": 9047 + }, + { + "grad_norm": 0.2158107575108081, + "loss": 0.1837061047554016, + "step": 9048 + }, + { + "grad_norm": 0.15202412554190767, + "loss": 0.1623775064945221, + "step": 9049 + }, + { + "epoch": 2.896, + "grad_norm": 0.15202412009239197, + "learning_rate": 3.6492252414102855e-06, + "loss": 0.1882, + "step": 9050 + }, + { + "grad_norm": 0.13490447239998044, + "loss": 0.19470421969890594, + "step": 9050 + }, + { + "grad_norm": 0.13762056491774444, + "loss": 0.1651032269001007, + "step": 9051 + }, + { + "grad_norm": 0.2210610249291481, + "loss": 0.17851762473583221, + "step": 9052 + }, + { + "grad_norm": 0.15246180924981484, + "loss": 0.16148515045642853, + "step": 9053 + }, + { + "grad_norm": 0.13842007109940602, + "loss": 0.21150639653205872, + "step": 9054 + }, + { + "grad_norm": 0.11848406370897174, + "loss": 0.16083554923534393, + "step": 9055 + }, + { + "grad_norm": 0.12425477063516392, + "loss": 0.20642884075641632, + "step": 9056 + }, + { + "grad_norm": 0.39911054618879727, + "loss": 0.22400540113449097, + "step": 9057 + }, + { + "grad_norm": 0.24106948919350002, + "loss": 0.19815662503242493, + "step": 9058 + }, + { + "grad_norm": 0.2705388148490572, + "loss": 0.1975867748260498, + "step": 9059 + }, + { + "epoch": 2.8992, + "grad_norm": 0.2705388069152832, + "learning_rate": 3.5369413878284303e-06, + "loss": 0.1898, + "step": 9060 + }, + { + "grad_norm": 0.36057388973186005, + "loss": 0.153105691075325, + "step": 9060 + }, + { + "grad_norm": 0.2107853815549088, + "loss": 0.16556712985038757, + "step": 9061 + }, + { + "grad_norm": 0.1556936569680855, + "loss": 0.1997043490409851, + "step": 9062 + }, + { + "grad_norm": 0.13816383848877453, + "loss": 0.23048299551010132, + "step": 9063 + }, + { + "grad_norm": 0.4410228809861802, + "loss": 0.24365536868572235, + "step": 9064 + }, + { + "grad_norm": 0.12795578930261908, + "loss": 0.22963030636310577, + "step": 9065 + }, + { + "grad_norm": 0.15319264633060362, + "loss": 0.14995354413986206, + "step": 9066 + }, + { + "grad_norm": 0.14574235921398665, + "loss": 0.18561862409114838, + "step": 9067 + }, + { + "grad_norm": 0.16968172903677398, + "loss": 0.18301890790462494, + "step": 9068 + }, + { + "grad_norm": 0.1650957416422055, + "loss": 0.20517157018184662, + "step": 9069 + }, + { + "epoch": 2.9024, + "grad_norm": 0.1650957465171814, + "learning_rate": 3.4246575342465754e-06, + "loss": 0.1946, + "step": 9070 + }, + { + "grad_norm": 0.10080468435623158, + "loss": 0.14862829446792603, + "step": 9070 + }, + { + "grad_norm": 0.14909028829780374, + "loss": 0.19978955388069153, + "step": 9071 + }, + { + "grad_norm": 0.27062881517542775, + "loss": 0.2139245569705963, + "step": 9072 + }, + { + "grad_norm": 0.27140177076370475, + "loss": 0.24643686413764954, + "step": 9073 + }, + { + "grad_norm": 0.10179427565691998, + "loss": 0.20520222187042236, + "step": 9074 + }, + { + "grad_norm": 0.26110124720004446, + "loss": 0.24421414732933044, + "step": 9075 + }, + { + "grad_norm": 0.41529125512359805, + "loss": 0.1498737782239914, + "step": 9076 + }, + { + "grad_norm": 0.24740621111160305, + "loss": 0.15851028263568878, + "step": 9077 + }, + { + "grad_norm": 0.19416492124924944, + "loss": 0.22372259199619293, + "step": 9078 + }, + { + "grad_norm": 0.23341186456740243, + "loss": 0.166847825050354, + "step": 9079 + }, + { + "epoch": 2.9055999999999997, + "grad_norm": 0.23341186344623566, + "learning_rate": 3.31237368066472e-06, + "loss": 0.1957, + "step": 9080 + }, + { + "grad_norm": 0.18647595440571335, + "loss": 0.19045470654964447, + "step": 9080 + }, + { + "grad_norm": 0.19523661972371167, + "loss": 0.16812917590141296, + "step": 9081 + }, + { + "grad_norm": 0.20076848024265093, + "loss": 0.18154799938201904, + "step": 9082 + }, + { + "grad_norm": 0.22597625960780385, + "loss": 0.16462033987045288, + "step": 9083 + }, + { + "grad_norm": 0.1359338159119432, + "loss": 0.20775043964385986, + "step": 9084 + }, + { + "grad_norm": 0.13488810811647484, + "loss": 0.14401274919509888, + "step": 9085 + }, + { + "grad_norm": 0.14835838633873183, + "loss": 0.17549681663513184, + "step": 9086 + }, + { + "grad_norm": 0.25736181183241935, + "loss": 0.16511189937591553, + "step": 9087 + }, + { + "grad_norm": 0.16809706560453588, + "loss": 0.17180241644382477, + "step": 9088 + }, + { + "grad_norm": 0.16597703037067635, + "loss": 0.1851063370704651, + "step": 9089 + }, + { + "epoch": 2.9088000000000003, + "grad_norm": 0.16597703099250793, + "learning_rate": 3.2000898270828658e-06, + "loss": 0.1754, + "step": 9090 + }, + { + "grad_norm": 0.1883882088968202, + "loss": 0.2144867479801178, + "step": 9090 + }, + { + "grad_norm": 0.2560826629563114, + "loss": 0.17150826752185822, + "step": 9091 + }, + { + "grad_norm": 0.19185337770052202, + "loss": 0.16517311334609985, + "step": 9092 + }, + { + "grad_norm": 0.19428877183805307, + "loss": 0.1738029569387436, + "step": 9093 + }, + { + "grad_norm": 0.2806913589959876, + "loss": 0.177677720785141, + "step": 9094 + }, + { + "grad_norm": 0.09425696700240738, + "loss": 0.16350217163562775, + "step": 9095 + }, + { + "grad_norm": 0.24348884154197725, + "loss": 0.20902127027511597, + "step": 9096 + }, + { + "grad_norm": 0.13823009614639126, + "loss": 0.19659042358398438, + "step": 9097 + }, + { + "grad_norm": 0.2729883104635667, + "loss": 0.15989066660404205, + "step": 9098 + }, + { + "grad_norm": 0.29379396620339066, + "loss": 0.1630721092224121, + "step": 9099 + }, + { + "epoch": 2.912, + "grad_norm": 0.2937939465045929, + "learning_rate": 3.0878059735010105e-06, + "loss": 0.1795, + "step": 9100 + }, + { + "grad_norm": 0.14708632048037296, + "loss": 0.20650504529476166, + "step": 9100 + }, + { + "grad_norm": 0.2818839965436872, + "loss": 0.167279452085495, + "step": 9101 + }, + { + "grad_norm": 0.2500952877157038, + "loss": 0.20146161317825317, + "step": 9102 + }, + { + "grad_norm": 0.154522204607813, + "loss": 0.16438625752925873, + "step": 9103 + }, + { + "grad_norm": 0.16340299083460522, + "loss": 0.1836102306842804, + "step": 9104 + }, + { + "grad_norm": 0.11530672657108536, + "loss": 0.20697784423828125, + "step": 9105 + }, + { + "grad_norm": 0.1388957079082405, + "loss": 0.20311540365219116, + "step": 9106 + }, + { + "grad_norm": 0.2186508055866508, + "loss": 0.1829311102628708, + "step": 9107 + }, + { + "grad_norm": 0.15470646421898016, + "loss": 0.19451621174812317, + "step": 9108 + }, + { + "grad_norm": 0.3250733350607067, + "loss": 0.22825342416763306, + "step": 9109 + }, + { + "epoch": 2.9152, + "grad_norm": 0.32507333159446716, + "learning_rate": 2.9755221199191557e-06, + "loss": 0.1939, + "step": 9110 + }, + { + "grad_norm": 0.17021378360908215, + "loss": 0.21909691393375397, + "step": 9110 + }, + { + "grad_norm": 0.3078062953151222, + "loss": 0.19980990886688232, + "step": 9111 + }, + { + "grad_norm": 0.17729830832091495, + "loss": 0.1833043098449707, + "step": 9112 + }, + { + "grad_norm": 0.2774666625274023, + "loss": 0.22525301575660706, + "step": 9113 + }, + { + "grad_norm": 0.24644013409589133, + "loss": 0.19306254386901855, + "step": 9114 + }, + { + "grad_norm": 0.08743273246449955, + "loss": 0.17594470083713531, + "step": 9115 + }, + { + "grad_norm": 0.1579976946099189, + "loss": 0.20054014027118683, + "step": 9116 + }, + { + "grad_norm": 0.1395484865608015, + "loss": 0.20901767909526825, + "step": 9117 + }, + { + "grad_norm": 0.31351802650902516, + "loss": 0.17305724322795868, + "step": 9118 + }, + { + "grad_norm": 0.25139939262063016, + "loss": 0.14657951891422272, + "step": 9119 + }, + { + "epoch": 2.9184, + "grad_norm": 0.2513993978500366, + "learning_rate": 2.863238266337301e-06, + "loss": 0.1926, + "step": 9120 + }, + { + "grad_norm": 0.1625453955527266, + "loss": 0.1544954776763916, + "step": 9120 + }, + { + "grad_norm": 0.2438563201554495, + "loss": 0.1543635129928589, + "step": 9121 + }, + { + "grad_norm": 0.13418229070618065, + "loss": 0.1730697602033615, + "step": 9122 + }, + { + "grad_norm": 0.3562288825378902, + "loss": 0.17122063040733337, + "step": 9123 + }, + { + "grad_norm": 0.11784524459807726, + "loss": 0.1785542070865631, + "step": 9124 + }, + { + "grad_norm": 0.22659094791095893, + "loss": 0.2428187131881714, + "step": 9125 + }, + { + "grad_norm": 0.16801411087150575, + "loss": 0.2549758851528168, + "step": 9126 + }, + { + "grad_norm": 0.23392009843278366, + "loss": 0.2079383283853531, + "step": 9127 + }, + { + "grad_norm": 0.19745433674327856, + "loss": 0.1501878947019577, + "step": 9128 + }, + { + "grad_norm": 0.1172110760365991, + "loss": 0.1978987604379654, + "step": 9129 + }, + { + "epoch": 2.9215999999999998, + "grad_norm": 0.11721107363700867, + "learning_rate": 2.7509544127554456e-06, + "loss": 0.1886, + "step": 9130 + }, + { + "grad_norm": 0.11594787955235689, + "loss": 0.17704389989376068, + "step": 9130 + }, + { + "grad_norm": 0.1667275017305854, + "loss": 0.15096022188663483, + "step": 9131 + }, + { + "grad_norm": 0.2552308459122438, + "loss": 0.17229796946048737, + "step": 9132 + }, + { + "grad_norm": 0.3268456244529897, + "loss": 0.16219204664230347, + "step": 9133 + }, + { + "grad_norm": 0.1437926799566441, + "loss": 0.170518159866333, + "step": 9134 + }, + { + "grad_norm": 0.376480097627706, + "loss": 0.2306898832321167, + "step": 9135 + }, + { + "grad_norm": 0.15949094037963302, + "loss": 0.1840907335281372, + "step": 9136 + }, + { + "grad_norm": 0.15262351492025256, + "loss": 0.17348188161849976, + "step": 9137 + }, + { + "grad_norm": 0.1378276460333846, + "loss": 0.21734200417995453, + "step": 9138 + }, + { + "grad_norm": 0.24468495924252778, + "loss": 0.16980700194835663, + "step": 9139 + }, + { + "epoch": 2.9248, + "grad_norm": 0.24468494951725006, + "learning_rate": 2.638670559173591e-06, + "loss": 0.1808, + "step": 9140 + }, + { + "grad_norm": 0.27084064633698735, + "loss": 0.2387588918209076, + "step": 9140 + }, + { + "grad_norm": 0.284728154835153, + "loss": 0.1349910944700241, + "step": 9141 + }, + { + "grad_norm": 0.27690390819412125, + "loss": 0.20089077949523926, + "step": 9142 + }, + { + "grad_norm": 0.22287997830000691, + "loss": 0.17115086317062378, + "step": 9143 + }, + { + "grad_norm": 0.20610831359663967, + "loss": 0.23164041340351105, + "step": 9144 + }, + { + "grad_norm": 0.13498003210117324, + "loss": 0.1970813274383545, + "step": 9145 + }, + { + "grad_norm": 0.12330428953719731, + "loss": 0.1710125058889389, + "step": 9146 + }, + { + "grad_norm": 0.1464469585660242, + "loss": 0.18911214172840118, + "step": 9147 + }, + { + "grad_norm": 0.22382685627832988, + "loss": 0.1657402217388153, + "step": 9148 + }, + { + "grad_norm": 0.31609786488729297, + "loss": 0.195823535323143, + "step": 9149 + }, + { + "epoch": 2.928, + "grad_norm": 0.31609785556793213, + "learning_rate": 2.526386705591736e-06, + "loss": 0.1896, + "step": 9150 + }, + { + "grad_norm": 0.26692455949250116, + "loss": 0.19185644388198853, + "step": 9150 + }, + { + "grad_norm": 0.12860973533195746, + "loss": 0.17304039001464844, + "step": 9151 + }, + { + "grad_norm": 0.24449096030541018, + "loss": 0.18715673685073853, + "step": 9152 + }, + { + "grad_norm": 0.08934651983158576, + "loss": 0.16828107833862305, + "step": 9153 + }, + { + "grad_norm": 0.17346732028724912, + "loss": 0.20521807670593262, + "step": 9154 + }, + { + "grad_norm": 0.24524062256959225, + "loss": 0.17387405037879944, + "step": 9155 + }, + { + "grad_norm": 0.2416694861027239, + "loss": 0.19605086743831635, + "step": 9156 + }, + { + "grad_norm": 0.35471957086049266, + "loss": 0.1655433177947998, + "step": 9157 + }, + { + "grad_norm": 0.24779373423724413, + "loss": 0.2317783385515213, + "step": 9158 + }, + { + "grad_norm": 0.20091809198313726, + "loss": 0.20501139760017395, + "step": 9159 + }, + { + "epoch": 2.9312, + "grad_norm": 0.20091809332370758, + "learning_rate": 2.414102852009881e-06, + "loss": 0.1898, + "step": 9160 + }, + { + "grad_norm": 0.18681498419901746, + "loss": 0.14822500944137573, + "step": 9160 + }, + { + "grad_norm": 0.14203603257648958, + "loss": 0.2127993106842041, + "step": 9161 + }, + { + "grad_norm": 0.4513654605423236, + "loss": 0.2316746860742569, + "step": 9162 + }, + { + "grad_norm": 0.40887930585771154, + "loss": 0.22638127207756042, + "step": 9163 + }, + { + "grad_norm": 0.10868787780512815, + "loss": 0.13907061517238617, + "step": 9164 + }, + { + "grad_norm": 0.13795562322111193, + "loss": 0.2667139172554016, + "step": 9165 + }, + { + "grad_norm": 0.1173389265430888, + "loss": 0.1556871086359024, + "step": 9166 + }, + { + "grad_norm": 0.12710477098601403, + "loss": 0.1789528876543045, + "step": 9167 + }, + { + "grad_norm": 0.20587327100826724, + "loss": 0.2038315087556839, + "step": 9168 + }, + { + "grad_norm": 0.13135437414625337, + "loss": 0.17771771550178528, + "step": 9169 + }, + { + "epoch": 2.9344, + "grad_norm": 0.13135437667369843, + "learning_rate": 2.301818998428026e-06, + "loss": 0.1941, + "step": 9170 + }, + { + "grad_norm": 0.2824463703721125, + "loss": 0.2491578608751297, + "step": 9170 + }, + { + "grad_norm": 0.1630418359340236, + "loss": 0.2093932330608368, + "step": 9171 + }, + { + "grad_norm": 0.13986431827512366, + "loss": 0.17224621772766113, + "step": 9172 + }, + { + "grad_norm": 0.22832102494938947, + "loss": 0.1589510440826416, + "step": 9173 + }, + { + "grad_norm": 0.21423304126685452, + "loss": 0.25013309717178345, + "step": 9174 + }, + { + "grad_norm": 0.2848702624360577, + "loss": 0.22803425788879395, + "step": 9175 + }, + { + "grad_norm": 0.2570470452005578, + "loss": 0.1680116057395935, + "step": 9176 + }, + { + "grad_norm": 0.08270687773084254, + "loss": 0.16687311232089996, + "step": 9177 + }, + { + "grad_norm": 0.3155412877131105, + "loss": 0.16006432473659515, + "step": 9178 + }, + { + "grad_norm": 0.3178859534149906, + "loss": 0.17284901440143585, + "step": 9179 + }, + { + "epoch": 2.9375999999999998, + "grad_norm": 0.31788596510887146, + "learning_rate": 2.1895351448461715e-06, + "loss": 0.1936, + "step": 9180 + }, + { + "grad_norm": 0.22064227188612756, + "loss": 0.15059079229831696, + "step": 9180 + }, + { + "grad_norm": 0.12556153373094842, + "loss": 0.16979897022247314, + "step": 9181 + }, + { + "grad_norm": 0.2890216634564757, + "loss": 0.2266397774219513, + "step": 9182 + }, + { + "grad_norm": 0.10635872622323789, + "loss": 0.16429421305656433, + "step": 9183 + }, + { + "grad_norm": 0.3743770783741072, + "loss": 0.247616708278656, + "step": 9184 + }, + { + "grad_norm": 0.15179979984468114, + "loss": 0.17246821522712708, + "step": 9185 + }, + { + "grad_norm": 0.15169690601118827, + "loss": 0.17398285865783691, + "step": 9186 + }, + { + "grad_norm": 0.1188087828603849, + "loss": 0.16557824611663818, + "step": 9187 + }, + { + "grad_norm": 0.3151780434963647, + "loss": 0.1712958663702011, + "step": 9188 + }, + { + "grad_norm": 0.27197974469745273, + "loss": 0.16441144049167633, + "step": 9189 + }, + { + "epoch": 2.9408, + "grad_norm": 0.27197974920272827, + "learning_rate": 2.0772512912643162e-06, + "loss": 0.1807, + "step": 9190 + }, + { + "grad_norm": 0.19773719290012268, + "loss": 0.18270693719387054, + "step": 9190 + }, + { + "grad_norm": 0.19945865771419555, + "loss": 0.1363195776939392, + "step": 9191 + }, + { + "grad_norm": 0.17296175625720778, + "loss": 0.2595440149307251, + "step": 9192 + }, + { + "grad_norm": 0.10871470423286231, + "loss": 0.1973782479763031, + "step": 9193 + }, + { + "grad_norm": 0.22894268392695163, + "loss": 0.1678374707698822, + "step": 9194 + }, + { + "grad_norm": 0.1368336834205555, + "loss": 0.1400134265422821, + "step": 9195 + }, + { + "grad_norm": 0.17805131370051094, + "loss": 0.19258347153663635, + "step": 9196 + }, + { + "grad_norm": 0.17872506993021703, + "loss": 0.16918954253196716, + "step": 9197 + }, + { + "grad_norm": 0.16020424119206836, + "loss": 0.16087569296360016, + "step": 9198 + }, + { + "grad_norm": 0.15166612351921321, + "loss": 0.13993383944034576, + "step": 9199 + }, + { + "epoch": 2.944, + "grad_norm": 0.15166611969470978, + "learning_rate": 1.9649674376824614e-06, + "loss": 0.1746, + "step": 9200 + }, + { + "grad_norm": 0.09952737743027262, + "loss": 0.2056194245815277, + "step": 9200 + }, + { + "grad_norm": 0.26840249363164953, + "loss": 0.1465129852294922, + "step": 9201 + }, + { + "grad_norm": 0.22818604486558636, + "loss": 0.19355294108390808, + "step": 9202 + }, + { + "grad_norm": 0.1912078591809106, + "loss": 0.1838858425617218, + "step": 9203 + }, + { + "grad_norm": 0.08602764729039851, + "loss": 0.15082356333732605, + "step": 9204 + }, + { + "grad_norm": 0.22991784569746535, + "loss": 0.2797858715057373, + "step": 9205 + }, + { + "grad_norm": 0.1449329161736661, + "loss": 0.18589350581169128, + "step": 9206 + }, + { + "grad_norm": 0.290396475423605, + "loss": 0.19045695662498474, + "step": 9207 + }, + { + "grad_norm": 0.1405154817759142, + "loss": 0.1827242225408554, + "step": 9208 + }, + { + "grad_norm": 0.19648129421397154, + "loss": 0.1687501072883606, + "step": 9209 + }, + { + "epoch": 2.9472, + "grad_norm": 0.19648128747940063, + "learning_rate": 1.8526835841006064e-06, + "loss": 0.1888, + "step": 9210 + }, + { + "grad_norm": 0.14589326912346642, + "loss": 0.1812995821237564, + "step": 9210 + }, + { + "grad_norm": 0.24739062583924926, + "loss": 0.21650919318199158, + "step": 9211 + }, + { + "grad_norm": 0.2599399933588794, + "loss": 0.1894659698009491, + "step": 9212 + }, + { + "grad_norm": 0.10743983055531245, + "loss": 0.19577153027057648, + "step": 9213 + }, + { + "grad_norm": 0.13998172878181428, + "loss": 0.17959758639335632, + "step": 9214 + }, + { + "grad_norm": 0.23118206327590202, + "loss": 0.20126008987426758, + "step": 9215 + }, + { + "grad_norm": 0.30643009864794357, + "loss": 0.23039600253105164, + "step": 9216 + }, + { + "grad_norm": 0.15562354990452384, + "loss": 0.17582860589027405, + "step": 9217 + }, + { + "grad_norm": 0.14580347401825786, + "loss": 0.19075247645378113, + "step": 9218 + }, + { + "grad_norm": 0.16385285153084872, + "loss": 0.1690789759159088, + "step": 9219 + }, + { + "epoch": 2.9504, + "grad_norm": 0.16385284066200256, + "learning_rate": 1.7403997305187515e-06, + "loss": 0.193, + "step": 9220 + }, + { + "grad_norm": 0.20366918711168075, + "loss": 0.1896429806947708, + "step": 9220 + }, + { + "grad_norm": 0.17101933928087618, + "loss": 0.19423601031303406, + "step": 9221 + }, + { + "grad_norm": 0.13947405023572573, + "loss": 0.1987878680229187, + "step": 9222 + }, + { + "grad_norm": 0.11954730116418384, + "loss": 0.1757013499736786, + "step": 9223 + }, + { + "grad_norm": 0.12456170958325823, + "loss": 0.18406474590301514, + "step": 9224 + }, + { + "grad_norm": 0.1747309452214812, + "loss": 0.17649805545806885, + "step": 9225 + }, + { + "grad_norm": 0.30961760044403147, + "loss": 0.17063552141189575, + "step": 9226 + }, + { + "grad_norm": 0.1476711765615162, + "loss": 0.20524051785469055, + "step": 9227 + }, + { + "grad_norm": 0.09579781453624288, + "loss": 0.18569760024547577, + "step": 9228 + }, + { + "grad_norm": 0.16671708743079883, + "loss": 0.17710986733436584, + "step": 9229 + }, + { + "epoch": 2.9536, + "grad_norm": 0.16671708226203918, + "learning_rate": 1.6281158769368965e-06, + "loss": 0.1858, + "step": 9230 + }, + { + "grad_norm": 0.2203325430250623, + "loss": 0.2994234263896942, + "step": 9230 + }, + { + "grad_norm": 0.2188301554976898, + "loss": 0.2046024650335312, + "step": 9231 + }, + { + "grad_norm": 0.21380007816709945, + "loss": 0.20277677476406097, + "step": 9232 + }, + { + "grad_norm": 0.1254020090779191, + "loss": 0.17221474647521973, + "step": 9233 + }, + { + "grad_norm": 0.2837464641470343, + "loss": 0.24738557636737823, + "step": 9234 + }, + { + "grad_norm": 0.09249782902611074, + "loss": 0.21079875528812408, + "step": 9235 + }, + { + "grad_norm": 0.2043348980194335, + "loss": 0.1677362322807312, + "step": 9236 + }, + { + "grad_norm": 0.24343986934748574, + "loss": 0.17049166560173035, + "step": 9237 + }, + { + "grad_norm": 0.11969524630717569, + "loss": 0.1870434731245041, + "step": 9238 + }, + { + "grad_norm": 0.1667777041243103, + "loss": 0.16934874653816223, + "step": 9239 + }, + { + "epoch": 2.9568, + "grad_norm": 0.16677770018577576, + "learning_rate": 1.5158320233550417e-06, + "loss": 0.2032, + "step": 9240 + }, + { + "grad_norm": 0.30125035117857674, + "loss": 0.15231266617774963, + "step": 9240 + }, + { + "grad_norm": 0.3076913841400388, + "loss": 0.20775072276592255, + "step": 9241 + }, + { + "grad_norm": 0.4001707707925251, + "loss": 0.3148757219314575, + "step": 9242 + }, + { + "grad_norm": 0.16502686166438094, + "loss": 0.17908886075019836, + "step": 9243 + }, + { + "grad_norm": 0.1672460332675083, + "loss": 0.13949860632419586, + "step": 9244 + }, + { + "grad_norm": 0.17120748469278899, + "loss": 0.19061902165412903, + "step": 9245 + }, + { + "grad_norm": 0.2007483867349592, + "loss": 0.15741212666034698, + "step": 9246 + }, + { + "grad_norm": 0.10438265611040241, + "loss": 0.20474396646022797, + "step": 9247 + }, + { + "grad_norm": 0.34806606122748035, + "loss": 0.2605430483818054, + "step": 9248 + }, + { + "grad_norm": 0.15752294569087658, + "loss": 0.1837930828332901, + "step": 9249 + }, + { + "epoch": 2.96, + "grad_norm": 0.15752294659614563, + "learning_rate": 1.4035481697731866e-06, + "loss": 0.1991, + "step": 9250 + }, + { + "grad_norm": 0.20015798076444488, + "loss": 0.15938951075077057, + "step": 9250 + }, + { + "grad_norm": 0.1615119113551184, + "loss": 0.20484887063503265, + "step": 9251 + }, + { + "grad_norm": 0.2826117351610498, + "loss": 0.14988654851913452, + "step": 9252 + }, + { + "grad_norm": 0.22306028310845313, + "loss": 0.20532366633415222, + "step": 9253 + }, + { + "grad_norm": 0.15243323443249834, + "loss": 0.17034628987312317, + "step": 9254 + }, + { + "grad_norm": 0.222736533276976, + "loss": 0.1887930929660797, + "step": 9255 + }, + { + "grad_norm": 0.10990630583670935, + "loss": 0.18984533846378326, + "step": 9256 + }, + { + "grad_norm": 0.16691476211264286, + "loss": 0.2133515179157257, + "step": 9257 + }, + { + "grad_norm": 0.1682992115174037, + "loss": 0.19682571291923523, + "step": 9258 + }, + { + "grad_norm": 0.1378466455256945, + "loss": 0.14160731434822083, + "step": 9259 + }, + { + "epoch": 2.9632, + "grad_norm": 0.13784664869308472, + "learning_rate": 1.2912643161913318e-06, + "loss": 0.182, + "step": 9260 + }, + { + "grad_norm": 0.14342366736478224, + "loss": 0.18591313064098358, + "step": 9260 + }, + { + "grad_norm": 0.1674347728893586, + "loss": 0.15587450563907623, + "step": 9261 + }, + { + "grad_norm": 0.14992173973747186, + "loss": 0.23132869601249695, + "step": 9262 + }, + { + "grad_norm": 0.23253399313449416, + "loss": 0.1702127605676651, + "step": 9263 + }, + { + "grad_norm": 0.15527681284904926, + "loss": 0.1823318749666214, + "step": 9264 + }, + { + "grad_norm": 0.08744586606245314, + "loss": 0.16044966876506805, + "step": 9265 + }, + { + "grad_norm": 0.24447275142767494, + "loss": 0.23748891055583954, + "step": 9266 + }, + { + "grad_norm": 0.16550368824861422, + "loss": 0.16382314264774323, + "step": 9267 + }, + { + "grad_norm": 0.20631645025143908, + "loss": 0.21571028232574463, + "step": 9268 + }, + { + "grad_norm": 0.10085441783961685, + "loss": 0.1574561595916748, + "step": 9269 + }, + { + "epoch": 2.9664, + "grad_norm": 0.10085441917181015, + "learning_rate": 1.1789804626094768e-06, + "loss": 0.1861, + "step": 9270 + }, + { + "grad_norm": 0.1419630201624146, + "loss": 0.16123083233833313, + "step": 9270 + }, + { + "grad_norm": 0.41000924030826325, + "loss": 0.16770035028457642, + "step": 9271 + }, + { + "grad_norm": 0.16990164181664189, + "loss": 0.17115183174610138, + "step": 9272 + }, + { + "grad_norm": 0.25891308136849983, + "loss": 0.18485231697559357, + "step": 9273 + }, + { + "grad_norm": 0.13837279775633296, + "loss": 0.1726830154657364, + "step": 9274 + }, + { + "grad_norm": 0.125126359651326, + "loss": 0.18677499890327454, + "step": 9275 + }, + { + "grad_norm": 0.29466910521939305, + "loss": 0.1594579815864563, + "step": 9276 + }, + { + "grad_norm": 0.18826625326203283, + "loss": 0.2120157778263092, + "step": 9277 + }, + { + "grad_norm": 0.1300160817501241, + "loss": 0.16808462142944336, + "step": 9278 + }, + { + "grad_norm": 0.28498344561864636, + "loss": 0.1707046926021576, + "step": 9279 + }, + { + "epoch": 2.9696, + "grad_norm": 0.28498342633247375, + "learning_rate": 1.066696609027622e-06, + "loss": 0.1755, + "step": 9280 + }, + { + "grad_norm": 0.1524887280705218, + "loss": 0.17793521285057068, + "step": 9280 + }, + { + "grad_norm": 0.14036358879911232, + "loss": 0.24297219514846802, + "step": 9281 + }, + { + "grad_norm": 0.14563980563705833, + "loss": 0.15520033240318298, + "step": 9282 + }, + { + "grad_norm": 0.1679235319790694, + "loss": 0.19274108111858368, + "step": 9283 + }, + { + "grad_norm": 0.13241509072451121, + "loss": 0.2085626721382141, + "step": 9284 + }, + { + "grad_norm": 0.4314201032940747, + "loss": 0.20091205835342407, + "step": 9285 + }, + { + "grad_norm": 0.15974657784022595, + "loss": 0.18640629947185516, + "step": 9286 + }, + { + "grad_norm": 0.28500749342976206, + "loss": 0.2200402319431305, + "step": 9287 + }, + { + "grad_norm": 0.134877428032238, + "loss": 0.16241511702537537, + "step": 9288 + }, + { + "grad_norm": 0.19429088046640117, + "loss": 0.15191487967967987, + "step": 9289 + }, + { + "epoch": 2.9728, + "grad_norm": 0.1942908763885498, + "learning_rate": 9.544127554457669e-07, + "loss": 0.1899, + "step": 9290 + }, + { + "grad_norm": 0.22826231896493, + "loss": 0.20738333463668823, + "step": 9290 + }, + { + "grad_norm": 0.32477172961538653, + "loss": 0.2803453803062439, + "step": 9291 + }, + { + "grad_norm": 0.1628249217646356, + "loss": 0.18218916654586792, + "step": 9292 + }, + { + "grad_norm": 0.42835951202036937, + "loss": 0.26231634616851807, + "step": 9293 + }, + { + "grad_norm": 0.199424309162688, + "loss": 0.18999040126800537, + "step": 9294 + }, + { + "grad_norm": 0.1555520851125135, + "loss": 0.19747820496559143, + "step": 9295 + }, + { + "grad_norm": 0.18317958938463044, + "loss": 0.20379678905010223, + "step": 9296 + }, + { + "grad_norm": 0.1303129027248041, + "loss": 0.17586755752563477, + "step": 9297 + }, + { + "grad_norm": 0.2422913261746398, + "loss": 0.21151922643184662, + "step": 9298 + }, + { + "grad_norm": 0.34625757414456215, + "loss": 0.20236892998218536, + "step": 9299 + }, + { + "epoch": 2.976, + "grad_norm": 0.3462575674057007, + "learning_rate": 8.421289018639121e-07, + "loss": 0.2113, + "step": 9300 + }, + { + "grad_norm": 0.3782472338444847, + "loss": 0.20763161778450012, + "step": 9300 + }, + { + "grad_norm": 0.09830839931796195, + "loss": 0.12412787973880768, + "step": 9301 + }, + { + "grad_norm": 0.1592598133143225, + "loss": 0.18644078075885773, + "step": 9302 + }, + { + "grad_norm": 0.35742479389011844, + "loss": 0.18559259176254272, + "step": 9303 + }, + { + "grad_norm": 0.10843594255820345, + "loss": 0.16801533102989197, + "step": 9304 + }, + { + "grad_norm": 0.12731014664995788, + "loss": 0.21920718252658844, + "step": 9305 + }, + { + "grad_norm": 0.1611493762506024, + "loss": 0.17541739344596863, + "step": 9306 + }, + { + "grad_norm": 0.2440251602689489, + "loss": 0.18806177377700806, + "step": 9307 + }, + { + "grad_norm": 0.20359741229973963, + "loss": 0.1391785591840744, + "step": 9308 + }, + { + "grad_norm": 0.1794308160617564, + "loss": 0.18931962549686432, + "step": 9309 + }, + { + "epoch": 2.9792, + "grad_norm": 0.17943081259727478, + "learning_rate": 7.298450482820571e-07, + "loss": 0.1783, + "step": 9310 + }, + { + "grad_norm": 0.15189578707718504, + "loss": 0.19918707013130188, + "step": 9310 + }, + { + "grad_norm": 0.1411714042481908, + "loss": 0.17055325210094452, + "step": 9311 + }, + { + "grad_norm": 0.2874585130685081, + "loss": 0.18616896867752075, + "step": 9312 + }, + { + "grad_norm": 0.1547595995774165, + "loss": 0.1994813233613968, + "step": 9313 + }, + { + "grad_norm": 0.150905166185704, + "loss": 0.1746273636817932, + "step": 9314 + }, + { + "grad_norm": 0.1354329190968073, + "loss": 0.19834265112876892, + "step": 9315 + }, + { + "grad_norm": 0.1830642759532402, + "loss": 0.18227800726890564, + "step": 9316 + }, + { + "grad_norm": 0.22535944888127718, + "loss": 0.19914498925209045, + "step": 9317 + }, + { + "grad_norm": 0.26895071595333164, + "loss": 0.16457200050354004, + "step": 9318 + }, + { + "grad_norm": 0.3477450279145881, + "loss": 0.21271593868732452, + "step": 9319 + }, + { + "epoch": 2.9824, + "grad_norm": 0.34774503111839294, + "learning_rate": 6.175611947002022e-07, + "loss": 0.1887, + "step": 9320 + }, + { + "grad_norm": 0.1826474181340284, + "loss": 0.17576603591442108, + "step": 9320 + }, + { + "grad_norm": 0.2835695572216676, + "loss": 0.15355166792869568, + "step": 9321 + }, + { + "grad_norm": 0.13722934335873915, + "loss": 0.197519451379776, + "step": 9322 + }, + { + "grad_norm": 0.46233592515732364, + "loss": 0.285026878118515, + "step": 9323 + }, + { + "grad_norm": 0.1980305457778229, + "loss": 0.16613630950450897, + "step": 9324 + }, + { + "grad_norm": 0.17522405138553304, + "loss": 0.1803141087293625, + "step": 9325 + }, + { + "grad_norm": 0.1870777076501789, + "loss": 0.15638577938079834, + "step": 9326 + }, + { + "grad_norm": 0.25121907432783935, + "loss": 0.24577197432518005, + "step": 9327 + }, + { + "grad_norm": 0.1378823589586358, + "loss": 0.180428147315979, + "step": 9328 + }, + { + "grad_norm": 0.22437948853550235, + "loss": 0.26715877652168274, + "step": 9329 + }, + { + "epoch": 2.9856, + "grad_norm": 0.2243794947862625, + "learning_rate": 5.052773411183473e-07, + "loss": 0.2008, + "step": 9330 + }, + { + "grad_norm": 0.10334999644592588, + "loss": 0.1785927712917328, + "step": 9330 + }, + { + "grad_norm": 0.1863990168356602, + "loss": 0.15696564316749573, + "step": 9331 + }, + { + "grad_norm": 0.34018948042267266, + "loss": 0.2031048834323883, + "step": 9332 + }, + { + "grad_norm": 0.11810815836395439, + "loss": 0.1763799786567688, + "step": 9333 + }, + { + "grad_norm": 0.37487010105141017, + "loss": 0.26370078325271606, + "step": 9334 + }, + { + "grad_norm": 0.3013399181674613, + "loss": 0.2271910160779953, + "step": 9335 + }, + { + "grad_norm": 0.11701314754025885, + "loss": 0.19867607951164246, + "step": 9336 + }, + { + "grad_norm": 0.12388932937382434, + "loss": 0.1664319932460785, + "step": 9337 + }, + { + "grad_norm": 0.15389254561350604, + "loss": 0.2113042175769806, + "step": 9338 + }, + { + "grad_norm": 0.3363724297352972, + "loss": 0.2240985929965973, + "step": 9339 + }, + { + "epoch": 2.9888, + "grad_norm": 0.33637240529060364, + "learning_rate": 3.9299348753649227e-07, + "loss": 0.2006, + "step": 9340 + }, + { + "grad_norm": 0.10735352316698303, + "loss": 0.1495288908481598, + "step": 9340 + }, + { + "grad_norm": 0.1803267972266487, + "loss": 0.19751690328121185, + "step": 9341 + }, + { + "grad_norm": 0.2484656341724701, + "loss": 0.25423872470855713, + "step": 9342 + }, + { + "grad_norm": 0.21141287967783606, + "loss": 0.15443815290927887, + "step": 9343 + }, + { + "grad_norm": 0.2551474803265376, + "loss": 0.20084494352340698, + "step": 9344 + }, + { + "grad_norm": 0.2038381871288512, + "loss": 0.20318441092967987, + "step": 9345 + }, + { + "grad_norm": 0.11918035457725198, + "loss": 0.20728212594985962, + "step": 9346 + }, + { + "grad_norm": 0.0857874964848878, + "loss": 0.15213261544704437, + "step": 9347 + }, + { + "grad_norm": 0.13885118792872556, + "loss": 0.18609240651130676, + "step": 9348 + }, + { + "grad_norm": 0.13265321281606485, + "loss": 0.22551439702510834, + "step": 9349 + }, + { + "epoch": 2.992, + "grad_norm": 0.13265320658683777, + "learning_rate": 2.8070963395463734e-07, + "loss": 0.1931, + "step": 9350 + }, + { + "grad_norm": 0.21198265821811324, + "loss": 0.1421017348766327, + "step": 9350 + }, + { + "grad_norm": 0.11009059313697481, + "loss": 0.15867719054222107, + "step": 9351 + }, + { + "grad_norm": 0.30032649903658015, + "loss": 0.17310886085033417, + "step": 9352 + }, + { + "grad_norm": 0.227780290973271, + "loss": 0.16359341144561768, + "step": 9353 + }, + { + "grad_norm": 0.2232379686787765, + "loss": 0.15839573740959167, + "step": 9354 + }, + { + "grad_norm": 0.2723798880058549, + "loss": 0.17167441546916962, + "step": 9355 + }, + { + "grad_norm": 0.11124896841634559, + "loss": 0.17528104782104492, + "step": 9356 + }, + { + "grad_norm": 0.09887954294480097, + "loss": 0.18311840295791626, + "step": 9357 + }, + { + "grad_norm": 0.1411119745005559, + "loss": 0.2055148482322693, + "step": 9358 + }, + { + "grad_norm": 0.17303264688805906, + "loss": 0.21809008717536926, + "step": 9359 + }, + { + "epoch": 2.9952, + "grad_norm": 0.17303265631198883, + "learning_rate": 1.684257803727824e-07, + "loss": 0.175, + "step": 9360 + }, + { + "grad_norm": 0.13479661546385485, + "loss": 0.2058897167444229, + "step": 9360 + }, + { + "grad_norm": 0.2684003423214406, + "loss": 0.1650354564189911, + "step": 9361 + }, + { + "grad_norm": 0.22324022637380256, + "loss": 0.18759137392044067, + "step": 9362 + }, + { + "grad_norm": 0.1300568055929108, + "loss": 0.22269493341445923, + "step": 9363 + }, + { + "grad_norm": 0.11074470244354155, + "loss": 0.19802245497703552, + "step": 9364 + }, + { + "grad_norm": 0.29917810045861704, + "loss": 0.20761844515800476, + "step": 9365 + }, + { + "grad_norm": 0.11184891663324611, + "loss": 0.24738259613513947, + "step": 9366 + }, + { + "grad_norm": 0.11790813388935685, + "loss": 0.15998947620391846, + "step": 9367 + }, + { + "grad_norm": 0.1944036640989806, + "loss": 0.13996081054210663, + "step": 9368 + }, + { + "grad_norm": 0.1601858223596256, + "loss": 0.19685962796211243, + "step": 9369 + }, + { + "epoch": 2.9984, + "grad_norm": 0.1601858139038086, + "learning_rate": 5.6141926790927474e-08, + "loss": 0.1931, + "step": 9370 + }, + { + "grad_norm": 0.16256138252723795, + "loss": 0.1725352555513382, + "step": 9370 + }, + { + "grad_norm": 0.12118487839231319, + "loss": 0.17806394398212433, + "step": 9371 + }, + { + "grad_norm": 0.3431143699105643, + "loss": 0.18855971097946167, + "step": 9372 + }, + { + "grad_norm": 0.17330689646305447, + "loss": 0.21804195642471313, + "step": 9373 + }, + { + "grad_norm": 0.13871742860182873, + "loss": 0.19085489213466644, + "step": 9374 + } + ], + "logging_steps": 10, + "max_steps": 9375, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 0.0, + "train_batch_size": 32, + "trial_name": null, + "trial_params": null +}