/root/workdir/.venv/lib/python3.10/site-packages/transformers/training_args.py:2085: FutureWarning: `--push_to_hub_organization` is deprecated and will be removed in version 5 of 🤗 Transformers. Use `--hub_model_id` instead and pass the full repo name to this argument (in this case CLEAR-Global/w2v-bert-2.0-luo_cv_fleurs_19h).
  warnings.warn(
04/11/2025 22:58:49 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: False, 16-bits training: True
04/11/2025 22:58:49 - INFO - __main__ - Training/evaluation parameters TrainingArguments(
_n_gpu=1,
accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
average_tokens_across_devices=False,
batch_eval_metrics=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=22,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
dispatch_batches=None,
do_eval=True,
do_predict=False,
do_train=True,
eval_accumulation_steps=None,
eval_delay=0,
eval_do_concat_batches=True,
eval_on_start=False,
eval_steps=1000,
eval_strategy=steps,
eval_use_gather_object=False,
evaluation_strategy=None,
fp16=True,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
gradient_accumulation_steps=2,
gradient_checkpointing=True,
gradient_checkpointing_kwargs=None,
greater_is_better=False,
group_by_length=True,
half_precision_backend=auto,
hub_always_push=False,
hub_model_id=CLEAR-Global/w2v-bert-2.0-luo_cv_fleurs_19h,
hub_private_repo=None,
hub_strategy=checkpoint,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_for_metrics=[],
include_inputs_for_metrics=False,
include_num_input_tokens_seen=False,
include_tokens_per_second=False,
jit_mode_eval=False,
label_names=None,
label_smoothing_factor=0.0,
learning_rate=3e-05,
length_column_name=input_length,
load_best_model_at_end=True,
local_rank=0,
log_level=passive,
log_level_replica=warning,
log_on_each_node=True,
logging_dir=./w2v-bert-2.0-luo_cv_fleurs_19h/runs/Apr11_22-58-49_synvoices-single-a100,
logging_first_step=False,
logging_nan_inf_filter=True,
logging_steps=1.0,
logging_strategy=steps,
lr_scheduler_kwargs={},
lr_scheduler_type=linear,
max_grad_norm=1.0,
max_steps=100000,
metric_for_best_model=loss,
mp_parameters=,
neftune_noise_alpha=None,
no_cuda=False,
num_train_epochs=3.0,
optim=adamw_torch,
optim_args=None,
optim_target_modules=None,
output_dir=./w2v-bert-2.0-luo_cv_fleurs_19h,
overwrite_output_dir=False,
past_index=-1,
per_device_eval_batch_size=32,
per_device_train_batch_size=32,
prediction_loss_only=False,
push_to_hub=True,
push_to_hub_model_id=None,
push_to_hub_organization=CLEAR-Global,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
remove_unused_columns=True,
report_to=['tensorboard'],
restore_callback_states_from_checkpoint=False,
resume_from_checkpoint=None,
run_name=./w2v-bert-2.0-luo_cv_fleurs_19h,
save_on_each_node=False,
save_only_model=False,
save_safetensors=True,
save_steps=1000,
save_strategy=steps,
save_total_limit=1,
seed=42,
skip_memory_metrics=True,
split_batches=None,
tf32=None,
torch_compile=False,
torch_compile_backend=None,
torch_compile_mode=None,
torch_empty_cache_steps=None,
torchdynamo=None,
tpu_metrics_debug=False,
tpu_num_cores=None,
use_cpu=False,
use_ipex=False,
use_legacy_prediction_loop=False,
use_liger_kernel=False,
use_mps_device=False,
warmup_ratio=0.1,
warmup_steps=0,
weight_decay=0.0,
)
loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/config.json
Model config Wav2Vec2BertConfig {
  "_name_or_path": "facebook/w2v-bert-2.0",
  "activation_dropout": 0.0,
  "adapter_act": "relu",
  "adapter_kernel_size": 3,
  "adapter_stride": 2,
  "add_adapter": false,
  "apply_spec_augment": false,
  "architectures": [
    "Wav2Vec2BertModel"
  ],
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "classifier_proj_size": 768,
  "codevector_dim": 768,
  "conformer_conv_dropout": 0.1,
  "contrastive_logits_temperature": 0.1,
  "conv_depthwise_kernel_size": 31,
  "ctc_loss_reduction": "sum",
  "ctc_zero_infinity": false,
  "diversity_loss_weight": 0.1,
  "eos_token_id": 2,
  "feat_proj_dropout": 0.0,
  "feat_quantizer_dropout": 0.0,
  "feature_projection_input_dim": 160,
  "final_dropout": 0.1,
  "hidden_act": "swish",
  "hidden_dropout": 0.0,
  "hidden_size": 1024,
  "initializer_range": 0.02,
  "intermediate_size": 4096,
  "layer_norm_eps": 1e-05,
  "layerdrop": 0.1,
  "left_max_position_embeddings": 64,
  "mask_feature_length": 10,
  "mask_feature_min_masks": 0,
  "mask_feature_prob": 0.0,
  "mask_time_length": 10,
  "mask_time_min_masks": 2,
  "mask_time_prob": 0.05,
  "max_source_positions": 5000,
  "model_type": "wav2vec2-bert",
  "num_adapter_layers": 1,
  "num_attention_heads": 16,
  "num_codevector_groups": 2,
  "num_codevectors_per_group": 320,
  "num_hidden_layers": 24,
  "num_negatives": 100,
  "output_hidden_size": 1024,
  "pad_token_id": 0,
  "position_embeddings_type": "relative_key",
  "proj_codevector_dim": 768,
  "right_max_position_embeddings": 8,
  "rotary_embedding_base": 10000,
  "tdnn_dilation": [
    1,
    2,
    3,
    1,
    1
  ],
  "tdnn_dim": [
    512,
    512,
    512,
    512,
    1500
  ],
  "tdnn_kernel": [
    5,
    3,
    3,
    1,
    1
  ],
  "torch_dtype": "float32",
  "transformers_version": "4.48.1",
  "use_intermediate_ffn_before_adapter": false,
  "use_weighted_layer_sum": false,
  "vocab_size": null,
  "xvector_output_dim": 512
}

Map:   0%|          | 0/9858 [00:00<?, ? examples/s]Map: 100%|██████████| 9858/9858 [00:00<00:00, 191816.78 examples/s]
Map:   0%|          | 0/101 [00:00<?, ? examples/s]Map: 100%|██████████| 101/101 [00:00<00:00, 9025.39 examples/s]
`use_fast` is set to `True` but the tokenizer class does not have a fast version.  Falling back to the slow version.
loading file vocab.json
loading file tokenizer_config.json
loading file added_tokens.json
loading file special_tokens_map.json
loading file tokenizer.json
loading file chat_template.jinja
Model config BertConfig {
  "_name_or_path": "./w2v-bert-2.0-luo_cv_fleurs_19h",
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.48.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'Wav2Vec2CTCTokenizer'.
loading configuration file preprocessor_config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/preprocessor_config.json
Feature extractor SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

loading weights file model.safetensors from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/model.safetensors
Some weights of the model checkpoint at facebook/w2v-bert-2.0 were not used when initializing Wav2Vec2BertForCTC: ['masked_spec_embed']
- This IS expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of Wav2Vec2BertForCTC were not initialized from the model checkpoint at facebook/w2v-bert-2.0 and are newly initialized: ['adapter.layers.0.ffn.intermediate_dense.bias', 'adapter.layers.0.ffn.intermediate_dense.weight', 'adapter.layers.0.ffn.output_dense.bias', 'adapter.layers.0.ffn.output_dense.weight', 'adapter.layers.0.ffn_layer_norm.bias', 'adapter.layers.0.ffn_layer_norm.weight', 'adapter.layers.0.residual_conv.bias', 'adapter.layers.0.residual_conv.weight', 'adapter.layers.0.residual_layer_norm.bias', 'adapter.layers.0.residual_layer_norm.weight', 'adapter.layers.0.self_attn.linear_k.bias', 'adapter.layers.0.self_attn.linear_k.weight', 'adapter.layers.0.self_attn.linear_out.bias', 'adapter.layers.0.self_attn.linear_out.weight', 'adapter.layers.0.self_attn.linear_q.bias', 'adapter.layers.0.self_attn.linear_q.weight', 'adapter.layers.0.self_attn.linear_v.bias', 'adapter.layers.0.self_attn.linear_v.weight', 'adapter.layers.0.self_attn_conv.bias', 'adapter.layers.0.self_attn_conv.weight', 'adapter.layers.0.self_attn_layer_norm.bias', 'adapter.layers.0.self_attn_layer_norm.weight', 'lm_head.bias', 'lm_head.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/config.json
loading configuration file ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
loading configuration file ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
Feature extractor SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

loading file vocab.json
loading file tokenizer_config.json
loading file added_tokens.json
loading file special_tokens_map.json
loading file tokenizer.json
loading file chat_template.jinja
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Processor Wav2Vec2BertProcessor:
- feature_extractor: SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

- tokenizer: Wav2Vec2CTCTokenizer(name_or_path='./w2v-bert-2.0-luo_cv_fleurs_19h', vocab_size=57, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '[UNK]', 'pad_token': '[PAD]'}, clean_up_tokenization_spaces=False, added_tokens_decoder={
	55: AddedToken("[UNK]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
	56: AddedToken("[PAD]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
	57: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	58: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

{
  "processor_class": "Wav2Vec2BertProcessor"
}

max_steps is given, it will override any value given in num_train_epochs
Using auto half precision backend
04/11/2025 22:59:00 - INFO - __main__ - Fine-tuning model from scratch
The following columns in the training set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 9,856
  Num Epochs = 650
  Instantaneous batch size per device = 32
  Total train batch size (w. parallel, distributed & accumulation) = 64
  Gradient Accumulation steps = 2
  Total optimization steps = 100,000
  Number of trainable parameters = 605,737,851
  0%|          | 0/100000 [00:00<?, ?it/s]  0%|          | 1/100000 [00:18<513:28:26, 18.49s/it]                                                        0%|          | 1/100000 [00:18<513:28:26, 18.49s/it]  0%|          | 2/100000 [00:26<343:56:48, 12.38s/it]                                                        0%|          | 2/100000 [00:26<343:56:48, 12.38s/it]  0%|          | 3/100000 [00:31<255:20:03,  9.19s/it]                                                        0%|          | 3/100000 [00:32<255:20:03,  9.19s/it]  0%|          | 4/100000 [00:36<203:20:50,  7.32s/it]                                                        0%|          | 4/100000 [00:36<203:20:50,  7.32s/it]  0%|          | 5/100000 [00:40<170:05:32,  6.12s/it]                                                        0%|          | 5/100000 [00:40<170:05:32,  6.12s/it]  0%|          | 6/100000 [00:43<144:56:47,  5.22s/it]                                                        0%|          | 6/100000 [00:43<144:56:47,  5.22s/it]  0%|          | 7/100000 [00:46<125:02:34,  4.50s/it]                                                        0%|          | 7/100000 [00:46<125:02:34,  4.50s/it]  0%|          | 8/100000 [00:49<108:45:17,  3.92s/it]                                                        0%|          | 8/100000 [00:49<108:45:17,  3.92s/it]  0%|          | 9/100000 [00:51<95:06:08,  3.42s/it]                                                        0%|          | 9/100000 [00:51<95:06:08,  3.42s/it]  0%|          | 10/100000 [00:54<83:34:31,  3.01s/it]                                                        0%|          | 10/100000 [00:54<83:34:31,  3.01s/it]  0%|          | 11/100000 [00:55<74:44:39,  2.69s/it]                                                        0%|          | 11/100000 [00:55<74:44:39,  2.69s/it]  0%|          | 12/100000 [00:57<67:29:45,  2.43s/it]                                                        0%|          | 12/100000 [00:57<67:29:45,  2.43s/it]  0%|          | 13/100000 [00:59<61:15:01,  2.21s/it]                                                        0%|          | 13/100000 [00:59<61:15:01,  2.21s/it]  0%|          | 14/100000 [01:01<56:32:41,  2.04s/it]                                                        0%|          | 14/100000 [01:01<56:32:41,  2.04s/it]  0%|          | 15/100000 [01:02<52:40:17,  1.90s/it]                                                        0%|          | 15/100000 [01:02<52:40:17,  1.90s/it]  0%|          | 16/100000 [01:04<49:18:56,  1.78s/it]                                                        0%|          | 16/100000 [01:04<49:18:56,  1.78s/it]  0%|          | 17/100000 [01:05<46:18:42,  1.67s/it]                                                        0%|          | 17/100000 [01:05<46:18:42,  1.67s/it]  0%|          | 18/100000 [01:06<43:37:37,  1.57s/it]                                                        0%|          | 18/100000 [01:06<43:37:37,  1.57s/it]  0%|          | 19/100000 [01:08<41:32:31,  1.50s/it]                                                        0%|          | 19/100000 [01:08<41:32:31,  1.50s/it]  0%|          | 20/100000 [01:09<39:15:57,  1.41s/it]                                                        0%|          | 20/100000 [01:09<39:15:57,  1.41s/it]  0%|          | 21/100000 [01:10<37:00:15,  1.33s/it]                                                        0%|          | 21/100000 [01:10<37:00:15,  1.33s/it]  0%|          | 22/100000 [01:11<35:05:38,  1.26s/it]                                                        0%|          | 22/100000 [01:11<35:05:38,  1.26s/it]  0%|          | 23/100000 [01:12<33:25:10,  1.20s/it]                                                        0%|          | 23/100000 [01:12<33:25:10,  1.20s/it]  0%|          | 24/100000 [01:13<32:02:53,  1.15s/it]                                                        0%|          | 24/100000 [01:13<32:02:53,  1.15s/it]  0%|          | 25/100000 [01:14<30:42:11,  1.11s/it]                                                        0%|          | 25/100000 [01:14<30:42:11,  1.11s/it]  0%|          | 26/100000 [01:15<29:48:09,  1.07s/it]                                                        0%|          | 26/100000 [01:15<29:48:09,  1.07s/it]  0%|          | 27/100000 [01:16<29:00:59,  1.04s/it]                                                        0%|          | 27/100000 [01:16<29:00:59,  1.04s/it]  0%|          | 28/100000 [01:17<28:07:20,  1.01s/it]                                                        0%|          | 28/100000 [01:17<28:07:20,  1.01s/it]  0%|          | 29/100000 [01:18<27:15:05,  1.02it/s]                                                        0%|          | 29/100000 [01:18<27:15:05,  1.02it/s]  0%|          | 30/100000 [01:19<27:41:21,  1.00it/s]                                                        0%|          | 30/100000 [01:19<27:41:21,  1.00it/s]  0%|          | 31/100000 [01:20<26:40:05,  1.04it/s]                                                        0%|          | 31/100000 [01:20<26:40:05,  1.04it/s]  0%|          | 32/100000 [01:21<25:39:30,  1.08it/s]                                                        0%|          | 32/100000 [01:21<25:39:30,  1.08it/s]  0%|          | 33/100000 [01:22<25:04:02,  1.11it/s]                                                        0%|          | 33/100000 [01:22<25:04:02,  1.11it/s]  0%|          | 34/100000 [01:23<24:10:05,  1.15it/s]                                                        0%|          | 34/100000 [01:23<24:10:05,  1.15it/s]  0%|          | 35/100000 [01:23<23:33:25,  1.18it/s]                                                        0%|          | 35/100000 [01:23<23:33:25,  1.18it/s]  0%|          | 36/100000 [01:24<23:15:29,  1.19it/s]                                                        0%|          | 36/100000 [01:24<23:15:29,  1.19it/s]  0%|          | 37/100000 [01:25<22:48:16,  1.22it/s]                                                        0%|          | 37/100000 [01:25<22:48:16,  1.22it/s]  0%|          | 38/100000 [01:26<21:58:45,  1.26it/s]                                                        0%|          | 38/100000 [01:26<21:58:45,  1.26it/s]  0%|          | 39/100000 [01:39<126:43:06,  4.56s/it]                                                         0%|          | 39/100000 [01:39<126:43:06,  4.56s/it]  0%|          | 40/100000 [01:48<159:01:08,  5.73s/it]                                                         0%|          | 40/100000 [01:48<159:01:08,  5.73s/it]  0%|          | 41/100000 [01:53<160:46:56,  5.79s/it]                                                         0%|          | 41/100000 [01:53<160:46:56,  5.79s/it]  0%|          | 42/100000 [01:58<152:52:39,  5.51s/it]                                                         0%|          | 42/100000 [01:58<152:52:39,  5.51s/it]  0%|          | 43/100000 [02:02<141:59:44,  5.11s/it]                                                         0%|          | 43/100000 [02:02<141:59:44,  5.11s/it]  0%|          | 44/100000 [02:06<129:22:51,  4.66s/it]                                                         0%|          | 44/100000 [02:06<129:22:51,  4.66s/it]  0%|          | 45/100000 [02:09<117:28:32,  4.23s/it]                                                         0%|          | 45/100000 [02:09<117:28:32,  4.23s/it]  0%|          | 46/100000 [02:12<105:50:40,  3.81s/it]                                                         0%|          | 46/100000 [02:12<105:50:40,  3.81s/it]  0%|          | 47/100000 [02:15<94:40:59,  3.41s/it]                                                         0%|          | 47/100000 [02:15<94:40:59,  3.41s/it]  0%|          | 48/100000 [02:17<84:47:42,  3.05s/it]                                                        0%|          | 48/100000 [02:17<84:47:42,  3.05s/it]  0%|          | 49/100000 [02:19<76:43:20,  2.76s/it]                                                        0%|          | 49/100000 [02:19<76:43:20,  2.76s/it]  0%|          | 50/100000 [02:21<69:45:38,  2.51s/it]                                                        0%|          | 50/100000 [02:21<69:45:38,  2.51s/it]  0%|          | 51/100000 [02:23<63:48:34,  2.30s/it]                                                        0%|          | 51/100000 [02:23<63:48:34,  2.30s/it]  0%|          | 52/100000 [02:24<58:50:57,  2.12s/it]                                                        0%|          | 52/100000 [02:24<58:50:57,  2.12s/it]  0%|          | 53/100000 [02:26<54:46:59,  1.97s/it]                                                        0%|          | 53/100000 [02:26<54:46:59,  1.97s/it]  0%|          | 54/100000 [02:28<50:55:06,  1.83s/it]                                                        0%|          | 54/100000 [02:28<50:55:06,  1.83s/it]  0%|          | 55/100000 [02:29<47:32:41,  1.71s/it]                                                        0%|          | 55/100000 [02:29<47:32:41,  1.71s/it]  0%|          | 56/100000 [02:30<44:55:22,  1.62s/it]                                                        0%|          | 56/100000 [02:30<44:55:22,  1.62s/it]  0%|          | 57/100000 [02:32<42:43:35,  1.54s/it]                                                        0%|          | 57/100000 [02:32<42:43:35,  1.54s/it]  0%|          | 58/100000 [02:33<40:34:04,  1.46s/it]                                                        0%|          | 58/100000 [02:33<40:34:04,  1.46s/it]  0%|          | 59/100000 [02:34<38:30:00,  1.39s/it]                                                        0%|          | 59/100000 [02:34<38:30:00,  1.39s/it]  0%|          | 60/100000 [02:35<36:20:59,  1.31s/it]                                                        0%|          | 60/100000 [02:35<36:20:59,  1.31s/it]  0%|          | 61/100000 [02:36<34:35:32,  1.25s/it]                                                        0%|          | 61/100000 [02:36<34:35:32,  1.25s/it]  0%|          | 62/100000 [02:37<33:04:49,  1.19s/it]                                                        0%|          | 62/100000 [02:37<33:04:49,  1.19s/it]  0%|          | 63/100000 [02:38<31:24:35,  1.13s/it]                                                        0%|          | 63/100000 [02:38<31:24:35,  1.13s/it]  0%|          | 64/100000 [02:39<30:23:26,  1.09s/it]                                                        0%|          | 64/100000 [02:39<30:23:26,  1.09s/it]  0%|          | 65/100000 [02:40<29:27:45,  1.06s/it]                                                        0%|          | 65/100000 [02:40<29:27:45,  1.06s/it]  0%|          | 66/100000 [02:41<28:45:28,  1.04s/it]                                                        0%|          | 66/100000 [02:41<28:45:28,  1.04s/it]  0%|          | 67/100000 [02:42<28:05:03,  1.01s/it]                                                        0%|          | 67/100000 [02:42<28:05:03,  1.01s/it]  0%|          | 68/100000 [02:43<27:09:37,  1.02it/s]                                                        0%|          | 68/100000 [02:43<27:09:37,  1.02it/s]  0%|          | 69/100000 [02:44<26:15:14,  1.06it/s]                                                        0%|          | 69/100000 [02:44<26:15:14,  1.06it/s]  0%|          | 70/100000 [02:45<25:40:28,  1.08it/s]                                                        0%|          | 70/100000 [02:45<25:40:28,  1.08it/s]  0%|          | 71/100000 [02:46<25:21:23,  1.09it/s]                                                        0%|          | 71/100000 [02:46<25:21:23,  1.09it/s]  0%|          | 72/100000 [02:47<24:18:44,  1.14it/s]                                                        0%|          | 72/100000 [02:47<24:18:44,  1.14it/s]  0%|          | 73/100000 [02:48<24:20:27,  1.14it/s]                                                        0%|          | 73/100000 [02:48<24:20:27,  1.14it/s]  0%|          | 74/100000 [02:48<24:11:17,  1.15it/s]                                                        0%|          | 74/100000 [02:48<24:11:17,  1.15it/s]  0%|          | 75/100000 [02:49<22:43:57,  1.22it/s]                                                        0%|          | 75/100000 [02:49<22:43:57,  1.22it/s]  0%|          | 76/100000 [02:50<21:54:49,  1.27it/s]                                                        0%|          | 76/100000 [02:50<21:54:49,  1.27it/s]  0%|          | 77/100000 [03:03<122:02:15,  4.40s/it]                                                         0%|          | 77/100000 [03:03<122:02:15,  4.40s/it]  0%|          | 78/100000 [03:11<151:27:10,  5.46s/it]                                                         0%|          | 78/100000 [03:11<151:27:10,  5.46s/it]  0%|          | 79/100000 [03:16<150:34:52,  5.43s/it]                                                         0%|          | 79/100000 [03:16<150:34:52,  5.43s/it]  0%|          | 80/100000 [03:20<141:34:49,  5.10s/it]                                                         0%|          | 80/100000 [03:20<141:34:49,  5.10s/it]  0%|          | 81/100000 [03:24<131:04:13,  4.72s/it]                                                         0%|          | 81/100000 [03:24<131:04:13,  4.72s/it]  0%|          | 82/100000 [03:28<120:13:14,  4.33s/it]                                                         0%|          | 82/100000 [03:28<120:13:14,  4.33s/it]  0%|          | 83/100000 [03:31<108:44:20,  3.92s/it]                                                         0%|          | 83/100000 [03:31<108:44:20,  3.92s/it]  0%|          | 84/100000 [03:33<97:21:45,  3.51s/it]                                                         0%|          | 84/100000 [03:33<97:21:45,  3.51s/it]  0%|          | 85/100000 [03:35<86:40:16,  3.12s/it]                                                        0%|          | 85/100000 [03:35<86:40:16,  3.12s/it]  0%|          | 86/100000 [03:37<77:48:43,  2.80s/it]                                                      {'loss': 11.2608, 'grad_norm': 32.244728088378906, 'learning_rate': 3.0000000000000004e-09, 'epoch': 0.01}
{'loss': 10.6924, 'grad_norm': 30.677936553955078, 'learning_rate': 6.000000000000001e-09, 'epoch': 0.01}
{'loss': 9.255, 'grad_norm': 25.917217254638672, 'learning_rate': 9e-09, 'epoch': 0.02}
{'loss': 8.7751, 'grad_norm': 24.35402488708496, 'learning_rate': 1.2000000000000002e-08, 'epoch': 0.03}
{'loss': 8.8051, 'grad_norm': 24.7083797454834, 'learning_rate': 1.5000000000000002e-08, 'epoch': 0.03}
{'loss': 9.241, 'grad_norm': 26.499847412109375, 'learning_rate': 1.8e-08, 'epoch': 0.04}
{'loss': 9.1456, 'grad_norm': 26.119943618774414, 'learning_rate': 2.1e-08, 'epoch': 0.05}
{'loss': 9.7911, 'grad_norm': 27.845294952392578, 'learning_rate': 2.4000000000000003e-08, 'epoch': 0.05}
{'loss': 10.5742, 'grad_norm': 31.191272735595703, 'learning_rate': 2.7e-08, 'epoch': 0.06}
{'loss': 9.7068, 'grad_norm': 28.1940975189209, 'learning_rate': 3.0000000000000004e-08, 'epoch': 0.06}
{'loss': 9.3639, 'grad_norm': 27.497446060180664, 'learning_rate': 3.3000000000000004e-08, 'epoch': 0.07}
{'loss': 9.2129, 'grad_norm': 26.465051651000977, 'learning_rate': 3.6e-08, 'epoch': 0.08}
{'loss': 9.6702, 'grad_norm': 28.927555084228516, 'learning_rate': 3.9e-08, 'epoch': 0.08}
{'loss': 8.9177, 'grad_norm': 25.98705291748047, 'learning_rate': 4.2e-08, 'epoch': 0.09}
{'loss': 8.9143, 'grad_norm': 26.00475311279297, 'learning_rate': 4.5e-08, 'epoch': 0.1}
{'loss': 11.0914, 'grad_norm': 33.831390380859375, 'learning_rate': 4.8000000000000006e-08, 'epoch': 0.1}
{'loss': 8.9109, 'grad_norm': 26.08490753173828, 'learning_rate': 5.1e-08, 'epoch': 0.11}
{'loss': 10.6768, 'grad_norm': 33.78544235229492, 'learning_rate': 5.4e-08, 'epoch': 0.12}
{'loss': 9.9905, 'grad_norm': 30.2836971282959, 'learning_rate': 5.7e-08, 'epoch': 0.12}
{'loss': 10.044, 'grad_norm': 30.557220458984375, 'learning_rate': 6.000000000000001e-08, 'epoch': 0.13}
{'loss': 10.8182, 'grad_norm': inf, 'learning_rate': 6.000000000000001e-08, 'epoch': 0.14}
{'loss': 11.1265, 'grad_norm': 34.83108139038086, 'learning_rate': 6.3e-08, 'epoch': 0.14}
{'loss': 10.6291, 'grad_norm': 33.92637634277344, 'learning_rate': 6.600000000000001e-08, 'epoch': 0.15}
{'loss': 11.1479, 'grad_norm': 35.237918853759766, 'learning_rate': 6.9e-08, 'epoch': 0.16}
{'loss': 11.3096, 'grad_norm': 37.612205505371094, 'learning_rate': 7.2e-08, 'epoch': 0.16}
{'loss': 11.0373, 'grad_norm': 35.6865234375, 'learning_rate': 7.500000000000001e-08, 'epoch': 0.17}
{'loss': 11.5458, 'grad_norm': 38.25913619995117, 'learning_rate': 7.8e-08, 'epoch': 0.18}
{'loss': 11.337, 'grad_norm': 37.375736236572266, 'learning_rate': 8.100000000000001e-08, 'epoch': 0.18}
{'loss': 11.7156, 'grad_norm': 39.6068115234375, 'learning_rate': 8.4e-08, 'epoch': 0.19}
{'loss': 11.9692, 'grad_norm': 39.262062072753906, 'learning_rate': 8.7e-08, 'epoch': 0.19}
{'loss': 11.7138, 'grad_norm': 40.94536209106445, 'learning_rate': 9e-08, 'epoch': 0.2}
{'loss': 10.8491, 'grad_norm': 35.57538604736328, 'learning_rate': 9.3e-08, 'epoch': 0.21}
{'loss': 12.4095, 'grad_norm': 42.9484748840332, 'learning_rate': 9.600000000000001e-08, 'epoch': 0.21}
{'loss': 11.8758, 'grad_norm': 39.80154037475586, 'learning_rate': 9.9e-08, 'epoch': 0.22}
{'loss': 11.5968, 'grad_norm': 37.88145065307617, 'learning_rate': 1.02e-07, 'epoch': 0.23}
{'loss': 11.3318, 'grad_norm': 39.0895881652832, 'learning_rate': 1.05e-07, 'epoch': 0.23}
{'loss': 11.0025, 'grad_norm': 36.34407043457031, 'learning_rate': 1.08e-07, 'epoch': 0.24}
{'loss': 11.1411, 'grad_norm': 37.110618591308594, 'learning_rate': 1.11e-07, 'epoch': 0.25}
{'loss': 12.6552, 'grad_norm': 40.18580627441406, 'learning_rate': 1.14e-07, 'epoch': 0.25}
{'loss': 9.9616, 'grad_norm': 29.717487335205078, 'learning_rate': 1.17e-07, 'epoch': 0.26}
{'loss': 9.4681, 'grad_norm': 27.598419189453125, 'learning_rate': 1.2000000000000002e-07, 'epoch': 0.27}
{'loss': 9.3654, 'grad_norm': 27.426321029663086, 'learning_rate': 1.23e-07, 'epoch': 0.27}
{'loss': 9.2692, 'grad_norm': 27.465618133544922, 'learning_rate': 1.26e-07, 'epoch': 0.28}
{'loss': 9.1137, 'grad_norm': 27.894350051879883, 'learning_rate': 1.29e-07, 'epoch': 0.29}
{'loss': 8.9937, 'grad_norm': 26.806758880615234, 'learning_rate': 1.3200000000000002e-07, 'epoch': 0.29}
{'loss': 10.2016, 'grad_norm': 31.963138580322266, 'learning_rate': 1.35e-07, 'epoch': 0.3}
{'loss': 9.7795, 'grad_norm': 30.69247817993164, 'learning_rate': 1.38e-07, 'epoch': 0.31}
{'loss': 10.6778, 'grad_norm': 35.80804443359375, 'learning_rate': 1.41e-07, 'epoch': 0.31}
{'loss': 9.4729, 'grad_norm': 30.09454917907715, 'learning_rate': 1.44e-07, 'epoch': 0.32}
{'loss': 9.569, 'grad_norm': 30.548974990844727, 'learning_rate': 1.47e-07, 'epoch': 0.32}
{'loss': 9.5453, 'grad_norm': 30.93130111694336, 'learning_rate': 1.5000000000000002e-07, 'epoch': 0.33}
{'loss': 9.0063, 'grad_norm': 28.768224716186523, 'learning_rate': 1.53e-07, 'epoch': 0.34}
{'loss': 8.5254, 'grad_norm': 27.383203506469727, 'learning_rate': 1.56e-07, 'epoch': 0.34}
{'loss': 9.337, 'grad_norm': 30.275760650634766, 'learning_rate': 1.59e-07, 'epoch': 0.35}
{'loss': 9.9703, 'grad_norm': 33.08852005004883, 'learning_rate': 1.6200000000000002e-07, 'epoch': 0.36}
{'loss': 9.3645, 'grad_norm': 30.90898895263672, 'learning_rate': 1.6499999999999998e-07, 'epoch': 0.36}
{'loss': 9.0691, 'grad_norm': 29.370031356811523, 'learning_rate': 1.68e-07, 'epoch': 0.37}
{'loss': 10.6183, 'grad_norm': 37.62239456176758, 'learning_rate': 1.71e-07, 'epoch': 0.38}
{'loss': 9.8531, 'grad_norm': 32.95697784423828, 'learning_rate': 1.74e-07, 'epoch': 0.38}
{'loss': 9.6128, 'grad_norm': 32.4738655090332, 'learning_rate': 1.77e-07, 'epoch': 0.39}
{'loss': 9.9525, 'grad_norm': 34.67582321166992, 'learning_rate': 1.8e-07, 'epoch': 0.4}
{'loss': 10.0415, 'grad_norm': 34.362030029296875, 'learning_rate': 1.83e-07, 'epoch': 0.4}
{'loss': 10.1059, 'grad_norm': 35.99847412109375, 'learning_rate': 1.86e-07, 'epoch': 0.41}
{'loss': 11.2422, 'grad_norm': 42.57931900024414, 'learning_rate': 1.89e-07, 'epoch': 0.42}
{'loss': 10.2793, 'grad_norm': 38.24439239501953, 'learning_rate': 1.9200000000000003e-07, 'epoch': 0.42}
{'loss': 10.5745, 'grad_norm': 39.797401428222656, 'learning_rate': 1.9499999999999999e-07, 'epoch': 0.43}
{'loss': 10.6975, 'grad_norm': 41.02543640136719, 'learning_rate': 1.98e-07, 'epoch': 0.44}
{'loss': 10.5806, 'grad_norm': 41.22713851928711, 'learning_rate': 2.01e-07, 'epoch': 0.44}
{'loss': 10.8218, 'grad_norm': 42.22016906738281, 'learning_rate': 2.04e-07, 'epoch': 0.45}
{'loss': 11.091, 'grad_norm': 45.62425994873047, 'learning_rate': 2.0700000000000001e-07, 'epoch': 0.45}
{'loss': 10.9584, 'grad_norm': 40.58885955810547, 'learning_rate': 2.1e-07, 'epoch': 0.46}
{'loss': 11.5735, 'grad_norm': 45.22798156738281, 'learning_rate': 2.1300000000000001e-07, 'epoch': 0.47}
{'loss': 11.602, 'grad_norm': 48.18556213378906, 'learning_rate': 2.16e-07, 'epoch': 0.47}
{'loss': 11.0006, 'grad_norm': 45.88993835449219, 'learning_rate': 2.1900000000000002e-07, 'epoch': 0.48}
{'loss': 11.1981, 'grad_norm': 45.75822067260742, 'learning_rate': 2.22e-07, 'epoch': 0.49}
{'loss': 10.4906, 'grad_norm': 42.47008514404297, 'learning_rate': 2.25e-07, 'epoch': 0.49}
{'loss': 10.9658, 'grad_norm': 39.697330474853516, 'learning_rate': 2.28e-07, 'epoch': 0.5}
{'loss': 9.2296, 'grad_norm': 31.504579544067383, 'learning_rate': 2.3100000000000002e-07, 'epoch': 0.51}
{'loss': 8.0185, 'grad_norm': 26.219581604003906, 'learning_rate': 2.34e-07, 'epoch': 0.51}
{'loss': 7.8891, 'grad_norm': 28.409114837646484, 'learning_rate': 2.3700000000000002e-07, 'epoch': 0.52}
{'loss': 8.6598, 'grad_norm': 33.45598220825195, 'learning_rate': 2.4000000000000003e-07, 'epoch': 0.53}
{'loss': 7.7618, 'grad_norm': 26.580419540405273, 'learning_rate': 2.43e-07, 'epoch': 0.53}
{'loss': 8.3132, 'grad_norm': 29.758689880371094, 'learning_rate': 2.46e-07, 'epoch': 0.54}
{'loss': 9.4728, 'grad_norm': 35.97712326049805, 'learning_rate': 2.49e-07, 'epoch': 0.55}
{'loss': 9.311, 'grad_norm': 36.189964294433594, 'learning_rate': 2.52e-07, 'epoch': 0.55}
  0%|          | 86/100000 [03:37<77:48:43,  2.80s/it]  0%|          | 87/100000 [03:39<70:26:10,  2.54s/it]                                                        0%|          | 87/100000 [03:39<70:26:10,  2.54s/it]  0%|          | 88/100000 [03:41<63:51:13,  2.30s/it]                                                        0%|          | 88/100000 [03:41<63:51:13,  2.30s/it]  0%|          | 89/100000 [03:43<58:52:11,  2.12s/it]                                                        0%|          | 89/100000 [03:43<58:52:11,  2.12s/it]  0%|          | 90/100000 [03:44<54:41:30,  1.97s/it]                                                        0%|          | 90/100000 [03:44<54:41:30,  1.97s/it]  0%|          | 91/100000 [03:46<50:54:34,  1.83s/it]                                                        0%|          | 91/100000 [03:46<50:54:34,  1.83s/it]  0%|          | 92/100000 [03:47<47:46:50,  1.72s/it]                                                        0%|          | 92/100000 [03:47<47:46:50,  1.72s/it]  0%|          | 93/100000 [03:49<45:03:53,  1.62s/it]                                                        0%|          | 93/100000 [03:49<45:03:53,  1.62s/it]  0%|          | 94/100000 [03:50<42:46:35,  1.54s/it]                                                        0%|          | 94/100000 [03:50<42:46:35,  1.54s/it]  0%|          | 95/100000 [03:51<40:43:21,  1.47s/it]                                                        0%|          | 95/100000 [03:51<40:43:21,  1.47s/it]  0%|          | 96/100000 [03:53<38:40:39,  1.39s/it]                                                        0%|          | 96/100000 [03:53<38:40:39,  1.39s/it]  0%|          | 97/100000 [03:54<36:20:34,  1.31s/it]                                                        0%|          | 97/100000 [03:54<36:20:34,  1.31s/it]  0%|          | 98/100000 [03:55<34:43:13,  1.25s/it]                                                        0%|          | 98/100000 [03:55<34:43:13,  1.25s/it]  0%|          | 99/100000 [03:56<33:20:58,  1.20s/it]                                                        0%|          | 99/100000 [03:56<33:20:58,  1.20s/it]  0%|          | 100/100000 [03:57<31:56:10,  1.15s/it]                                                         0%|          | 100/100000 [03:57<31:56:10,  1.15s/it]  0%|          | 101/100000 [03:58<30:45:21,  1.11s/it]                                                         0%|          | 101/100000 [03:58<30:45:21,  1.11s/it]  0%|          | 102/100000 [03:59<29:34:31,  1.07s/it]                                                         0%|          | 102/100000 [03:59<29:34:31,  1.07s/it]  0%|          | 103/100000 [04:00<28:56:19,  1.04s/it]                                                         0%|          | 103/100000 [04:00<28:56:19,  1.04s/it]  0%|          | 104/100000 [04:01<28:05:42,  1.01s/it]                                                         0%|          | 104/100000 [04:01<28:05:42,  1.01s/it]  0%|          | 105/100000 [04:02<27:48:41,  1.00s/it]                                                         0%|          | 105/100000 [04:02<27:48:41,  1.00s/it]  0%|          | 106/100000 [04:03<27:07:45,  1.02it/s]                                                         0%|          | 106/100000 [04:03<27:07:45,  1.02it/s]  0%|          | 107/100000 [04:04<26:40:44,  1.04it/s]                                                         0%|          | 107/100000 [04:04<26:40:44,  1.04it/s]  0%|          | 108/100000 [04:04<25:46:46,  1.08it/s]                                                         0%|          | 108/100000 [04:04<25:46:46,  1.08it/s]  0%|          | 109/100000 [04:05<25:20:29,  1.09it/s]                                                         0%|          | 109/100000 [04:05<25:20:29,  1.09it/s]  0%|          | 110/100000 [04:06<23:55:49,  1.16it/s]                                                         0%|          | 110/100000 [04:06<23:55:49,  1.16it/s]  0%|          | 111/100000 [04:07<23:31:33,  1.18it/s]                                                         0%|          | 111/100000 [04:07<23:31:33,  1.18it/s]  0%|          | 112/100000 [04:08<23:17:43,  1.19it/s]                                                         0%|          | 112/100000 [04:08<23:17:43,  1.19it/s]  0%|          | 113/100000 [04:08<22:23:45,  1.24it/s]                                                         0%|          | 113/100000 [04:08<22:23:45,  1.24it/s]  0%|          | 114/100000 [04:09<22:50:49,  1.21it/s]                                                         0%|          | 114/100000 [04:09<22:50:49,  1.21it/s]  0%|          | 115/100000 [04:21<111:31:17,  4.02s/it]                                                          0%|          | 115/100000 [04:21<111:31:17,  4.02s/it]  0%|          | 116/100000 [04:28<141:36:01,  5.10s/it]                                                          0%|          | 116/100000 [04:28<141:36:01,  5.10s/it]  0%|          | 117/100000 [04:34<142:39:27,  5.14s/it]                                                          0%|          | 117/100000 [04:34<142:39:27,  5.14s/it]  0%|          | 118/100000 [04:38<136:06:12,  4.91s/it]                                                          0%|          | 118/100000 [04:38<136:06:12,  4.91s/it]  0%|          | 119/100000 [04:42<128:29:16,  4.63s/it]                                                          0%|          | 119/100000 [04:42<128:29:16,  4.63s/it]  0%|          | 120/100000 [04:46<118:53:35,  4.29s/it]                                                          0%|          | 120/100000 [04:46<118:53:35,  4.29s/it]  0%|          | 121/100000 [04:49<108:31:57,  3.91s/it]                                                          0%|          | 121/100000 [04:49<108:31:57,  3.91s/it]  0%|          | 122/100000 [04:51<97:56:39,  3.53s/it]                                                          0%|          | 122/100000 [04:51<97:56:39,  3.53s/it]  0%|          | 123/100000 [04:53<87:30:32,  3.15s/it]                                                         0%|          | 123/100000 [04:53<87:30:32,  3.15s/it]  0%|          | 124/100000 [04:56<79:13:24,  2.86s/it]                                                         0%|          | 124/100000 [04:56<79:13:24,  2.86s/it]  0%|          | 125/100000 [04:58<72:07:01,  2.60s/it]                                                         0%|          | 125/100000 [04:58<72:07:01,  2.60s/it]  0%|          | 126/100000 [05:00<66:04:45,  2.38s/it]                                                         0%|          | 126/100000 [05:00<66:04:45,  2.38s/it]  0%|          | 127/100000 [05:01<60:59:45,  2.20s/it]                                                         0%|          | 127/100000 [05:01<60:59:45,  2.20s/it]  0%|          | 128/100000 [05:03<56:03:24,  2.02s/it]                                                         0%|          | 128/100000 [05:03<56:03:24,  2.02s/it]  0%|          | 129/100000 [05:04<52:36:14,  1.90s/it]                                                         0%|          | 129/100000 [05:04<52:36:14,  1.90s/it]  0%|          | 130/100000 [05:06<49:25:16,  1.78s/it]                                                         0%|          | 130/100000 [05:06<49:25:16,  1.78s/it]  0%|          | 131/100000 [05:07<46:30:55,  1.68s/it]                                                         0%|          | 131/100000 [05:07<46:30:55,  1.68s/it]  0%|          | 132/100000 [05:09<43:44:53,  1.58s/it]                                                         0%|          | 132/100000 [05:09<43:44:53,  1.58s/it]  0%|          | 133/100000 [05:10<41:19:07,  1.49s/it]                                                         0%|          | 133/100000 [05:10<41:19:07,  1.49s/it]  0%|          | 134/100000 [05:11<39:25:26,  1.42s/it]                                                         0%|          | 134/100000 [05:11<39:25:26,  1.42s/it]  0%|          | 135/100000 [05:13<37:34:20,  1.35s/it]                                                         0%|          | 135/100000 [05:13<37:34:20,  1.35s/it]  0%|          | 136/100000 [05:14<35:37:04,  1.28s/it]                                                         0%|          | 136/100000 [05:14<35:37:04,  1.28s/it]  0%|          | 137/100000 [05:15<34:05:19,  1.23s/it]                                                         0%|          | 137/100000 [05:15<34:05:19,  1.23s/it]  0%|          | 138/100000 [05:16<32:23:26,  1.17s/it]                                                         0%|          | 138/100000 [05:16<32:23:26,  1.17s/it]  0%|          | 139/100000 [05:17<30:53:26,  1.11s/it]                                                         0%|          | 139/100000 [05:17<30:53:26,  1.11s/it]  0%|          | 140/100000 [05:18<29:49:18,  1.08s/it]                                                         0%|          | 140/100000 [05:18<29:49:18,  1.08s/it]  0%|          | 141/100000 [05:19<29:01:34,  1.05s/it]                                                         0%|          | 141/100000 [05:19<29:01:34,  1.05s/it]  0%|          | 142/100000 [05:20<28:12:05,  1.02s/it]                                                         0%|          | 142/100000 [05:20<28:12:05,  1.02s/it]  0%|          | 143/100000 [05:21<27:31:41,  1.01it/s]                                                         0%|          | 143/100000 [05:21<27:31:41,  1.01it/s]  0%|          | 144/100000 [05:22<26:53:47,  1.03it/s]                                                         0%|          | 144/100000 [05:22<26:53:47,  1.03it/s]  0%|          | 145/100000 [05:22<26:19:35,  1.05it/s]                                                         0%|          | 145/100000 [05:22<26:19:35,  1.05it/s]  0%|          | 146/100000 [05:23<25:48:08,  1.07it/s]                                                         0%|          | 146/100000 [05:23<25:48:08,  1.07it/s]  0%|          | 147/100000 [05:24<25:16:26,  1.10it/s]                                                         0%|          | 147/100000 [05:24<25:16:26,  1.10it/s]  0%|          | 148/100000 [05:25<24:50:24,  1.12it/s]                                                         0%|          | 148/100000 [05:25<24:50:24,  1.12it/s]  0%|          | 149/100000 [05:26<24:25:15,  1.14it/s]                                                         0%|          | 149/100000 [05:26<24:25:15,  1.14it/s]  0%|          | 150/100000 [05:27<23:59:25,  1.16it/s]                                                         0%|          | 150/100000 [05:27<23:59:25,  1.16it/s]  0%|          | 151/100000 [05:28<23:32:14,  1.18it/s]                                                         0%|          | 151/100000 [05:28<23:32:14,  1.18it/s]  0%|          | 152/100000 [05:28<22:58:25,  1.21it/s]                                                         0%|          | 152/100000 [05:28<22:58:25,  1.21it/s]  0%|          | 153/100000 [05:35<71:41:40,  2.58s/it]                                                         0%|          | 153/100000 [05:35<71:41:40,  2.58s/it]  0%|          | 154/100000 [05:36<62:04:28,  2.24s/it]                                                         0%|          | 154/100000 [05:36<62:04:28,  2.24s/it]{'loss': 8.9591, 'grad_norm': 33.68982696533203, 'learning_rate': 2.5500000000000005e-07, 'epoch': 0.56}
{'loss': 9.6019, 'grad_norm': 40.73811340332031, 'learning_rate': 2.58e-07, 'epoch': 0.56}
{'loss': 8.8738, 'grad_norm': 35.308921813964844, 'learning_rate': 2.6099999999999997e-07, 'epoch': 0.57}
{'loss': 9.5032, 'grad_norm': 40.04798126220703, 'learning_rate': 2.6400000000000003e-07, 'epoch': 0.58}
{'loss': 8.1809, 'grad_norm': 31.835481643676758, 'learning_rate': 2.67e-07, 'epoch': 0.58}
{'loss': 8.7567, 'grad_norm': 37.125999450683594, 'learning_rate': 2.7e-07, 'epoch': 0.59}
{'loss': 8.2399, 'grad_norm': 33.0106315612793, 'learning_rate': 2.73e-07, 'epoch': 0.6}
{'loss': 9.0493, 'grad_norm': 41.39678955078125, 'learning_rate': 2.76e-07, 'epoch': 0.6}
{'loss': 8.8468, 'grad_norm': 38.49798583984375, 'learning_rate': 2.79e-07, 'epoch': 0.61}
{'loss': 8.4728, 'grad_norm': 35.59224319458008, 'learning_rate': 2.82e-07, 'epoch': 0.62}
{'loss': 8.8101, 'grad_norm': 40.158966064453125, 'learning_rate': 2.85e-07, 'epoch': 0.62}
{'loss': 9.0866, 'grad_norm': 42.730140686035156, 'learning_rate': 2.88e-07, 'epoch': 0.63}
{'loss': 9.7056, 'grad_norm': 49.013675689697266, 'learning_rate': 2.91e-07, 'epoch': 0.64}
{'loss': 9.3087, 'grad_norm': 45.8823356628418, 'learning_rate': 2.94e-07, 'epoch': 0.64}
{'loss': 9.7359, 'grad_norm': 50.93122482299805, 'learning_rate': 2.97e-07, 'epoch': 0.65}
{'loss': 9.4494, 'grad_norm': 47.62016677856445, 'learning_rate': 3.0000000000000004e-07, 'epoch': 0.66}
{'loss': 10.3267, 'grad_norm': inf, 'learning_rate': 3.0000000000000004e-07, 'epoch': 0.66}
{'loss': 10.9256, 'grad_norm': 61.46685028076172, 'learning_rate': 3.03e-07, 'epoch': 0.67}
{'loss': 9.7308, 'grad_norm': 53.41149139404297, 'learning_rate': 3.06e-07, 'epoch': 0.68}
{'loss': 9.4209, 'grad_norm': 50.69010925292969, 'learning_rate': 3.0900000000000003e-07, 'epoch': 0.68}
{'loss': 10.5515, 'grad_norm': 62.68684005737305, 'learning_rate': 3.12e-07, 'epoch': 0.69}
{'loss': 10.0925, 'grad_norm': 58.495418548583984, 'learning_rate': 3.15e-07, 'epoch': 0.69}
{'loss': 10.1852, 'grad_norm': 63.54430389404297, 'learning_rate': 3.18e-07, 'epoch': 0.7}
{'loss': 10.1341, 'grad_norm': 62.13663864135742, 'learning_rate': 3.21e-07, 'epoch': 0.71}
{'loss': 10.3419, 'grad_norm': 64.09049987792969, 'learning_rate': 3.2400000000000004e-07, 'epoch': 0.71}
{'loss': 9.7867, 'grad_norm': 62.71635818481445, 'learning_rate': 3.27e-07, 'epoch': 0.72}
{'loss': 9.8105, 'grad_norm': 65.90337371826172, 'learning_rate': 3.2999999999999996e-07, 'epoch': 0.73}
{'loss': 9.4514, 'grad_norm': 58.419342041015625, 'learning_rate': 3.3300000000000003e-07, 'epoch': 0.73}
{'loss': 9.9169, 'grad_norm': 67.41707611083984, 'learning_rate': 3.36e-07, 'epoch': 0.74}
{'loss': 9.9528, 'grad_norm': 59.04273223876953, 'learning_rate': 3.39e-07, 'epoch': 0.75}
{'loss': 8.3737, 'grad_norm': 45.3395881652832, 'learning_rate': 3.42e-07, 'epoch': 0.75}
{'loss': 8.0079, 'grad_norm': 43.594295501708984, 'learning_rate': 3.45e-07, 'epoch': 0.76}
{'loss': 7.4353, 'grad_norm': 37.92392349243164, 'learning_rate': 3.48e-07, 'epoch': 0.77}
{'loss': 7.0466, 'grad_norm': 34.44625473022461, 'learning_rate': 3.51e-07, 'epoch': 0.77}
{'loss': 7.926, 'grad_norm': 45.07991409301758, 'learning_rate': 3.54e-07, 'epoch': 0.78}
{'loss': 7.6798, 'grad_norm': 44.13471221923828, 'learning_rate': 3.5700000000000003e-07, 'epoch': 0.79}
{'loss': 7.3061, 'grad_norm': 40.30942153930664, 'learning_rate': 3.6e-07, 'epoch': 0.79}
{'loss': 8.1301, 'grad_norm': 51.662147521972656, 'learning_rate': 3.63e-07, 'epoch': 0.8}
{'loss': 7.599, 'grad_norm': 46.429962158203125, 'learning_rate': 3.66e-07, 'epoch': 0.81}
{'loss': 7.8223, 'grad_norm': 51.21452331542969, 'learning_rate': 3.6900000000000004e-07, 'epoch': 0.81}
{'loss': 7.6152, 'grad_norm': 49.02700424194336, 'learning_rate': 3.72e-07, 'epoch': 0.82}
{'loss': 7.3237, 'grad_norm': 47.90094757080078, 'learning_rate': 3.75e-07, 'epoch': 0.82}
{'loss': 7.2131, 'grad_norm': 47.72140121459961, 'learning_rate': 3.78e-07, 'epoch': 0.83}
{'loss': 7.37, 'grad_norm': 49.65573501586914, 'learning_rate': 3.81e-07, 'epoch': 0.84}
{'loss': 7.387, 'grad_norm': 52.88811111450195, 'learning_rate': 3.8400000000000005e-07, 'epoch': 0.84}
{'loss': 7.6139, 'grad_norm': 56.761024475097656, 'learning_rate': 3.87e-07, 'epoch': 0.85}
{'loss': 7.2892, 'grad_norm': 53.45158004760742, 'learning_rate': 3.8999999999999997e-07, 'epoch': 0.86}
{'loss': 7.0887, 'grad_norm': 49.800743103027344, 'learning_rate': 3.9300000000000004e-07, 'epoch': 0.86}
{'loss': 7.7374, 'grad_norm': 62.79410934448242, 'learning_rate': 3.96e-07, 'epoch': 0.87}
{'loss': 7.9179, 'grad_norm': 65.8697280883789, 'learning_rate': 3.99e-07, 'epoch': 0.88}
{'loss': 7.9595, 'grad_norm': 71.04230499267578, 'learning_rate': 4.02e-07, 'epoch': 0.88}
{'loss': 7.8419, 'grad_norm': 66.83952331542969, 'learning_rate': 4.05e-07, 'epoch': 0.89}
{'loss': 7.7657, 'grad_norm': 67.9136962890625, 'learning_rate': 4.08e-07, 'epoch': 0.9}
{'loss': 7.2797, 'grad_norm': 62.69668197631836, 'learning_rate': 4.11e-07, 'epoch': 0.9}
{'loss': 7.9144, 'grad_norm': 74.52605438232422, 'learning_rate': 4.1400000000000003e-07, 'epoch': 0.91}
{'loss': 7.9098, 'grad_norm': 74.10185241699219, 'learning_rate': 4.17e-07, 'epoch': 0.92}
{'loss': 8.1477, 'grad_norm': 81.16104888916016, 'learning_rate': 4.2e-07, 'epoch': 0.92}
{'loss': 7.605, 'grad_norm': 73.00811767578125, 'learning_rate': 4.23e-07, 'epoch': 0.93}
{'loss': 7.1136, 'grad_norm': 66.43451690673828, 'learning_rate': 4.2600000000000003e-07, 'epoch': 0.94}
{'loss': 7.5043, 'grad_norm': 74.77298736572266, 'learning_rate': 4.2900000000000004e-07, 'epoch': 0.94}
{'loss': 7.599, 'grad_norm': 76.49311065673828, 'learning_rate': 4.32e-07, 'epoch': 0.95}
{'loss': 7.164, 'grad_norm': 69.74861145019531, 'learning_rate': 4.35e-07, 'epoch': 0.95}
{'loss': 7.3634, 'grad_norm': 74.38585662841797, 'learning_rate': 4.3800000000000003e-07, 'epoch': 0.96}
{'loss': 8.0226, 'grad_norm': 97.4023666381836, 'learning_rate': 4.41e-07, 'epoch': 0.97}
{'loss': 7.1033, 'grad_norm': 70.6826400756836, 'learning_rate': 4.44e-07, 'epoch': 0.97}
{'loss': 7.4213, 'grad_norm': 78.86400604248047, 'learning_rate': 4.47e-07, 'epoch': 0.98}
{'loss': 7.0553, 'grad_norm': 70.8813247680664, 'learning_rate': 4.5e-07, 'epoch': 0.99}
{'loss': 5.9407, 'grad_norm': 50.8243408203125, 'learning_rate': 4.5300000000000005e-07, 'epoch': 0.99}
{'loss': 6.331, 'grad_norm': 67.48845672607422, 'learning_rate': 4.56e-07, 'epoch': 1.0}
  0%|          | 155/100000 [05:54<187:38:04,  6.77s/it]                                                          0%|          | 155/100000 [05:54<187:38:04,  6.77s/it]  0%|          | 156/100000 [06:02<198:01:18,  7.14s/it]                                                          0%|          | 156/100000 [06:02<198:01:18,  7.14s/it]  0%|          | 157/100000 [06:07<186:15:50,  6.72s/it]                                                          0%|          | 157/100000 [06:07<186:15:50,  6.72s/it]  0%|          | 158/100000 [06:12<167:41:55,  6.05s/it]                                                          0%|          | 158/100000 [06:12<167:41:55,  6.05s/it]  0%|          | 159/100000 [06:16<149:20:47,  5.39s/it]                                                          0%|          | 159/100000 [06:16<149:20:47,  5.39s/it]  0%|          | 160/100000 [06:19<132:08:56,  4.76s/it]                                                          0%|          | 160/100000 [06:19<132:08:56,  4.76s/it]  0%|          | 161/100000 [06:22<116:58:42,  4.22s/it]                                                          0%|          | 161/100000 [06:22<116:58:42,  4.22s/it]  0%|          | 162/100000 [06:25<103:06:17,  3.72s/it]                                                          0%|          | 162/100000 [06:25<103:06:17,  3.72s/it]  0%|          | 163/100000 [06:27<91:19:21,  3.29s/it]                                                          0%|          | 163/100000 [06:27<91:19:21,  3.29s/it]  0%|          | 164/100000 [06:29<81:08:50,  2.93s/it]                                                         0%|          | 164/100000 [06:29<81:08:50,  2.93s/it]  0%|          | 165/100000 [06:31<73:51:49,  2.66s/it]                                                         0%|          | 165/100000 [06:31<73:51:49,  2.66s/it]  0%|          | 166/100000 [06:33<66:52:39,  2.41s/it]                                                         0%|          | 166/100000 [06:33<66:52:39,  2.41s/it]  0%|          | 167/100000 [06:35<60:39:48,  2.19s/it]                                                         0%|          | 167/100000 [06:35<60:39:48,  2.19s/it]  0%|          | 168/100000 [06:36<55:54:07,  2.02s/it]                                                         0%|          | 168/100000 [06:36<55:54:07,  2.02s/it]  0%|          | 169/100000 [06:38<52:02:22,  1.88s/it]                                                         0%|          | 169/100000 [06:38<52:02:22,  1.88s/it]  0%|          | 170/100000 [06:39<48:28:38,  1.75s/it]                                                         0%|          | 170/100000 [06:39<48:28:38,  1.75s/it]  0%|          | 171/100000 [06:41<45:17:55,  1.63s/it]                                                         0%|          | 171/100000 [06:41<45:17:55,  1.63s/it]  0%|          | 172/100000 [06:42<43:01:54,  1.55s/it]                                                         0%|          | 172/100000 [06:42<43:01:54,  1.55s/it]  0%|          | 173/100000 [06:43<40:37:21,  1.46s/it]                                                         0%|          | 173/100000 [06:43<40:37:21,  1.46s/it]  0%|          | 174/100000 [06:44<38:49:41,  1.40s/it]                                                         0%|          | 174/100000 [06:44<38:49:41,  1.40s/it]  0%|          | 175/100000 [06:46<36:37:52,  1.32s/it]                                                         0%|          | 175/100000 [06:46<36:37:52,  1.32s/it]  0%|          | 176/100000 [06:47<34:53:10,  1.26s/it]                                                         0%|          | 176/100000 [06:47<34:53:10,  1.26s/it]  0%|          | 177/100000 [06:48<33:22:35,  1.20s/it]                                                         0%|          | 177/100000 [06:48<33:22:35,  1.20s/it]  0%|          | 178/100000 [06:49<31:56:49,  1.15s/it]                                                         0%|          | 178/100000 [06:49<31:56:49,  1.15s/it]  0%|          | 179/100000 [06:50<30:32:18,  1.10s/it]                                                         0%|          | 179/100000 [06:50<30:32:18,  1.10s/it]  0%|          | 180/100000 [06:51<29:34:03,  1.07s/it]                                                         0%|          | 180/100000 [06:51<29:34:03,  1.07s/it]  0%|          | 181/100000 [06:52<28:48:47,  1.04s/it]                                                         0%|          | 181/100000 [06:52<28:48:47,  1.04s/it]  0%|          | 182/100000 [06:53<28:01:25,  1.01s/it]                                                         0%|          | 182/100000 [06:53<28:01:25,  1.01s/it]  0%|          | 183/100000 [06:54<27:32:28,  1.01it/s]                                                         0%|          | 183/100000 [06:54<27:32:28,  1.01it/s]  0%|          | 184/100000 [06:54<26:34:27,  1.04it/s]                                                         0%|          | 184/100000 [06:54<26:34:27,  1.04it/s]  0%|          | 185/100000 [06:55<25:55:11,  1.07it/s]                                                         0%|          | 185/100000 [06:55<25:55:11,  1.07it/s]  0%|          | 186/100000 [06:56<25:20:03,  1.09it/s]                                                         0%|          | 186/100000 [06:56<25:20:03,  1.09it/s]  0%|          | 187/100000 [06:57<25:10:01,  1.10it/s]                                                         0%|          | 187/100000 [06:57<25:10:01,  1.10it/s]  0%|          | 188/100000 [06:58<24:39:57,  1.12it/s]                                                         0%|          | 188/100000 [06:58<24:39:57,  1.12it/s]  0%|          | 189/100000 [06:59<24:22:26,  1.14it/s]                                                         0%|          | 189/100000 [06:59<24:22:26,  1.14it/s]  0%|          | 190/100000 [07:00<24:06:13,  1.15it/s]                                                         0%|          | 190/100000 [07:00<24:06:13,  1.15it/s]  0%|          | 191/100000 [07:00<23:49:12,  1.16it/s]                                                         0%|          | 191/100000 [07:00<23:49:12,  1.16it/s]  0%|          | 192/100000 [07:01<23:13:23,  1.19it/s]                                                         0%|          | 192/100000 [07:01<23:13:23,  1.19it/s]  0%|          | 193/100000 [07:14<125:10:54,  4.52s/it]                                                          0%|          | 193/100000 [07:14<125:10:54,  4.52s/it]  0%|          | 194/100000 [07:23<157:30:26,  5.68s/it]                                                          0%|          | 194/100000 [07:23<157:30:26,  5.68s/it]  0%|          | 195/100000 [07:29<158:08:35,  5.70s/it]                                                          0%|          | 195/100000 [07:29<158:08:35,  5.70s/it]  0%|          | 196/100000 [07:33<150:21:09,  5.42s/it]                                                          0%|          | 196/100000 [07:33<150:21:09,  5.42s/it]  0%|          | 197/100000 [07:37<140:04:35,  5.05s/it]                                                          0%|          | 197/100000 [07:37<140:04:35,  5.05s/it]  0%|          | 198/100000 [07:41<129:04:23,  4.66s/it]                                                          0%|          | 198/100000 [07:41<129:04:23,  4.66s/it]  0%|          | 199/100000 [07:44<117:25:56,  4.24s/it]                                                          0%|          | 199/100000 [07:44<117:25:56,  4.24s/it]  0%|          | 200/100000 [07:47<105:32:43,  3.81s/it]                                                          0%|          | 200/100000 [07:47<105:32:43,  3.81s/it]  0%|          | 201/100000 [07:50<93:58:30,  3.39s/it]                                                          0%|          | 201/100000 [07:50<93:58:30,  3.39s/it]  0%|          | 202/100000 [07:52<83:38:18,  3.02s/it]                                                         0%|          | 202/100000 [07:52<83:38:18,  3.02s/it]  0%|          | 203/100000 [07:54<74:58:40,  2.70s/it]                                                         0%|          | 203/100000 [07:54<74:58:40,  2.70s/it]  0%|          | 204/100000 [07:56<68:14:43,  2.46s/it]                                                         0%|          | 204/100000 [07:56<68:14:43,  2.46s/it]  0%|          | 205/100000 [07:57<62:28:18,  2.25s/it]                                                         0%|          | 205/100000 [07:57<62:28:18,  2.25s/it]  0%|          | 206/100000 [07:59<57:45:59,  2.08s/it]                                                         0%|          | 206/100000 [07:59<57:45:59,  2.08s/it]  0%|          | 207/100000 [08:01<53:46:06,  1.94s/it]                                                         0%|          | 207/100000 [08:01<53:46:06,  1.94s/it]  0%|          | 208/100000 [08:02<50:04:39,  1.81s/it]                                                         0%|          | 208/100000 [08:02<50:04:39,  1.81s/it]  0%|          | 209/100000 [08:04<46:56:59,  1.69s/it]                                                         0%|          | 209/100000 [08:04<46:56:59,  1.69s/it]  0%|          | 210/100000 [08:05<43:58:30,  1.59s/it]                                                         0%|          | 210/100000 [08:05<43:58:30,  1.59s/it]  0%|          | 211/100000 [08:06<41:22:18,  1.49s/it]                                                         0%|          | 211/100000 [08:06<41:22:18,  1.49s/it]  0%|          | 212/100000 [08:08<39:20:09,  1.42s/it]                                                         0%|          | 212/100000 [08:08<39:20:09,  1.42s/it]  0%|          | 213/100000 [08:09<37:22:34,  1.35s/it]                                                         0%|          | 213/100000 [08:09<37:22:34,  1.35s/it]  0%|          | 214/100000 [08:10<35:30:08,  1.28s/it]                                                         0%|          | 214/100000 [08:10<35:30:08,  1.28s/it]  0%|          | 215/100000 [08:11<33:49:32,  1.22s/it]                                                         0%|          | 215/100000 [08:11<33:49:32,  1.22s/it]  0%|          | 216/100000 [08:12<32:16:10,  1.16s/it]                                                         0%|          | 216/100000 [08:12<32:16:10,  1.16s/it]  0%|          | 217/100000 [08:13<30:52:36,  1.11s/it]                                                         0%|          | 217/100000 [08:13<30:52:36,  1.11s/it]  0%|          | 218/100000 [08:14<29:52:51,  1.08s/it]                                                         0%|          | 218/100000 [08:14<29:52:51,  1.08s/it]  0%|          | 219/100000 [08:15<28:57:36,  1.04s/it]                                                         0%|          | 219/100000 [08:15<28:57:36,  1.04s/it]  0%|          | 220/100000 [08:16<28:12:53,  1.02s/it]                                                         0%|          | 220/100000 [08:16<28:12:53,  1.02s/it]  0%|          | 221/100000 [08:17<27:39:33,  1.00it/s]                                                         0%|          | 221/100000 [08:17<27:39:33,  1.00it/s]  0%|          | 222/100000 [08:18<26:59:14,  1.03it/s]                                                         0%|          | 222/100000 [08:18<26:59:14,  1.03it/s]  0%|          | 223/100000 [08:19<26:17:07,  1.05it/s]                                                         0%|          | 223/100000 [08:19<26:17:07,  1.05it/s]  0%|          | 224/100000 [08:19<24:45:50,  1.12it/s]                                                         0%|          | 224/100000 [08:19<24:45:50,  1.12it/s]  0%|          | 225/100000 [08:20<24:53:38,  1.11it/s]                                                         0%|          | 225/100000 [08:20<24:53:38,  1.11it/s]  0%|          | 226/100000 [08:21<24:29:31,  1.13it/s]                                                         0%|          | 226/100000 [08:21<24:29:31,  1.13it/s]  0%|          | 227/100000 [08:22<24:15:35,  1.14it/s]                                                         0%|          | 227/100000 [08:22<24:15:35,  1.14it/s]  0%|          | 228/100000 [08:23<23:47:48,  1.16it/s]                                                         0%|          | 228/100000 [08:23<23:47:48,  1.16it/s]  0%|          | 229/100000 [08:24<23:12:01,  1.19it/s]                                                         0%|          | 229/100000 [08:24<23:12:01,  1.19it/s]  0%|          | 230/100000 [08:24<23:05:19,  1.20it/s]                                                         0%|          | 230/100000 [08:24<23:05:19,  1.20it/s]  0%|          | 231/100000 [08:37<122:34:57,  4.42s/it]                                                          0%|          | 231/100000 [08:37<122:34:57,  4.42s/it]  0%|          | 232/100000 [08:45<148:48:44,  5.37s/it]                                                          0%|          | 232/100000 [08:45<148:48:44,  5.37s/it]  0%|          | 233/100000 [08:50<148:49:49,  5.37s/it]                                                          0%|          | 233/100000 [08:50<148:49:49,  5.37s/it]  0%|          | 234/100000 [08:55<141:35:26,  5.11s/it]                                                          0%|          | 234/100000 [08:55<141:35:26,  5.11s/it]  0%|          | 235/100000 [08:59<131:10:42,  4.73s/it]                                                          0%|          | 235/100000 [08:59<131:10:42,  4.73s/it]  0%|          | 236/100000 [09:02<118:46:48,  4.29s/it]                                                          0%|          | 236/100000 [09:02<118:46:48,  4.29s/it]  0%|          | 237/100000 [09:05<107:30:36,  3.88s/it]                                                          0%|          | 237/100000 [09:05<107:30:36,  3.88s/it]  0%|          | 238/100000 [09:07<97:34:27,  3.52s/it]                                                          0%|          | 238/100000 [09:07<97:34:27,  3.52s/it]  0%|          | 239/100000 [09:10<87:33:02,  3.16s/it]                                                         0%|          | 239/100000 [09:10<87:33:02,  3.16s/it]  0%|          | 240/100000 [09:12<78:25:40,  2.83s/it]                                                         0%|          | 240/100000 [09:12<78:25:40,  2.83s/it]  0%|          | 241/100000 [09:14<70:24:36,  2.54s/it]                                                       {'loss': 6.9404, 'grad_norm': 75.08425903320312, 'learning_rate': 4.5899999999999997e-07, 'epoch': 1.01}
{'loss': 6.0889, 'grad_norm': 55.775657653808594, 'learning_rate': 4.6200000000000003e-07, 'epoch': 1.01}
{'loss': 5.7042, 'grad_norm': 48.1331672668457, 'learning_rate': 4.65e-07, 'epoch': 1.02}
{'loss': 5.5313, 'grad_norm': 44.017860412597656, 'learning_rate': 4.68e-07, 'epoch': 1.03}
{'loss': 5.5571, 'grad_norm': 46.196815490722656, 'learning_rate': 4.7099999999999997e-07, 'epoch': 1.03}
{'loss': 5.5843, 'grad_norm': 48.548152923583984, 'learning_rate': 4.7400000000000004e-07, 'epoch': 1.04}
{'loss': 5.3433, 'grad_norm': 42.333316802978516, 'learning_rate': 4.77e-07, 'epoch': 1.05}
{'loss': 5.5485, 'grad_norm': 47.641334533691406, 'learning_rate': 4.800000000000001e-07, 'epoch': 1.05}
{'loss': 5.4885, 'grad_norm': 47.94422149658203, 'learning_rate': 4.83e-07, 'epoch': 1.06}
{'loss': 5.664, 'grad_norm': 54.042118072509766, 'learning_rate': 4.86e-07, 'epoch': 1.06}
{'loss': 5.2358, 'grad_norm': 42.594970703125, 'learning_rate': 4.89e-07, 'epoch': 1.07}
{'loss': 5.1305, 'grad_norm': 40.213226318359375, 'learning_rate': 4.92e-07, 'epoch': 1.08}
{'loss': 5.069, 'grad_norm': 38.74092102050781, 'learning_rate': 4.95e-07, 'epoch': 1.08}
{'loss': 5.1185, 'grad_norm': 39.333702087402344, 'learning_rate': 4.98e-07, 'epoch': 1.09}
{'loss': 4.9616, 'grad_norm': 36.39108657836914, 'learning_rate': 5.01e-07, 'epoch': 1.1}
{'loss': 5.0492, 'grad_norm': 38.90359878540039, 'learning_rate': 5.04e-07, 'epoch': 1.1}
{'loss': 5.0626, 'grad_norm': 39.062740325927734, 'learning_rate': 5.07e-07, 'epoch': 1.11}
{'loss': 4.8529, 'grad_norm': 34.216278076171875, 'learning_rate': 5.100000000000001e-07, 'epoch': 1.12}
{'loss': 4.9017, 'grad_norm': 33.12702178955078, 'learning_rate': 5.13e-07, 'epoch': 1.12}
{'loss': 5.0417, 'grad_norm': 38.913734436035156, 'learning_rate': 5.16e-07, 'epoch': 1.13}
{'loss': 4.8276, 'grad_norm': 30.060041427612305, 'learning_rate': 5.19e-07, 'epoch': 1.14}
{'loss': 4.9315, 'grad_norm': 33.5499153137207, 'learning_rate': 5.219999999999999e-07, 'epoch': 1.14}
{'loss': 4.7889, 'grad_norm': 28.80133628845215, 'learning_rate': 5.250000000000001e-07, 'epoch': 1.15}
{'loss': 4.9005, 'grad_norm': 30.98793601989746, 'learning_rate': 5.280000000000001e-07, 'epoch': 1.16}
{'loss': 4.7672, 'grad_norm': 26.55328941345215, 'learning_rate': 5.31e-07, 'epoch': 1.16}
{'loss': 4.7953, 'grad_norm': 27.99077796936035, 'learning_rate': 5.34e-07, 'epoch': 1.17}
{'loss': 4.7274, 'grad_norm': 22.16238021850586, 'learning_rate': 5.37e-07, 'epoch': 1.18}
{'loss': 4.77, 'grad_norm': 23.294538497924805, 'learning_rate': 5.4e-07, 'epoch': 1.18}
{'loss': 4.9202, 'grad_norm': 25.45791244506836, 'learning_rate': 5.43e-07, 'epoch': 1.19}
{'loss': 4.6808, 'grad_norm': 19.541650772094727, 'learning_rate': 5.46e-07, 'epoch': 1.19}
{'loss': 4.8499, 'grad_norm': 21.07025909423828, 'learning_rate': 5.490000000000001e-07, 'epoch': 1.2}
{'loss': 4.7257, 'grad_norm': 16.240211486816406, 'learning_rate': 5.52e-07, 'epoch': 1.21}
{'loss': 4.7424, 'grad_norm': 16.09288215637207, 'learning_rate': 5.55e-07, 'epoch': 1.21}
{'loss': 4.7676, 'grad_norm': 16.68194007873535, 'learning_rate': 5.58e-07, 'epoch': 1.22}
{'loss': 4.6658, 'grad_norm': 12.028858184814453, 'learning_rate': 5.61e-07, 'epoch': 1.23}
{'loss': 4.6701, 'grad_norm': 8.768208503723145, 'learning_rate': 5.64e-07, 'epoch': 1.23}
{'loss': 4.5945, 'grad_norm': 9.099662780761719, 'learning_rate': 5.67e-07, 'epoch': 1.24}
{'loss': 4.6085, 'grad_norm': 8.619297981262207, 'learning_rate': 5.7e-07, 'epoch': 1.25}
{'loss': 4.4474, 'grad_norm': 8.978060722351074, 'learning_rate': 5.73e-07, 'epoch': 1.25}
{'loss': 4.3373, 'grad_norm': 7.2774577140808105, 'learning_rate': 5.76e-07, 'epoch': 1.26}
{'loss': 4.3087, 'grad_norm': 7.919508934020996, 'learning_rate': 5.790000000000001e-07, 'epoch': 1.27}
{'loss': 4.2365, 'grad_norm': 10.140284538269043, 'learning_rate': 5.82e-07, 'epoch': 1.27}
{'loss': 4.2521, 'grad_norm': 9.722286224365234, 'learning_rate': 5.85e-07, 'epoch': 1.28}
{'loss': 4.2499, 'grad_norm': 10.647616386413574, 'learning_rate': 5.88e-07, 'epoch': 1.29}
{'loss': 4.2363, 'grad_norm': 10.23753833770752, 'learning_rate': 5.909999999999999e-07, 'epoch': 1.29}
{'loss': 4.2657, 'grad_norm': 10.74815845489502, 'learning_rate': 5.94e-07, 'epoch': 1.3}
{'loss': 4.2988, 'grad_norm': 9.857626914978027, 'learning_rate': 5.970000000000001e-07, 'epoch': 1.31}
{'loss': 4.2892, 'grad_norm': 11.925024032592773, 'learning_rate': 6.000000000000001e-07, 'epoch': 1.31}
{'loss': 4.2212, 'grad_norm': 11.748685836791992, 'learning_rate': 6.03e-07, 'epoch': 1.32}
{'loss': 4.2475, 'grad_norm': 11.183849334716797, 'learning_rate': 6.06e-07, 'epoch': 1.32}
{'loss': 4.2216, 'grad_norm': 10.029083251953125, 'learning_rate': 6.09e-07, 'epoch': 1.33}
{'loss': 4.2267, 'grad_norm': 9.438746452331543, 'learning_rate': 6.12e-07, 'epoch': 1.34}
{'loss': 4.1253, 'grad_norm': 10.111958503723145, 'learning_rate': 6.15e-07, 'epoch': 1.34}
{'loss': 4.1481, 'grad_norm': 10.386209487915039, 'learning_rate': 6.180000000000001e-07, 'epoch': 1.35}
{'loss': 4.159, 'grad_norm': 8.482254028320312, 'learning_rate': 6.21e-07, 'epoch': 1.36}
{'loss': 4.138, 'grad_norm': 8.114561080932617, 'learning_rate': 6.24e-07, 'epoch': 1.36}
{'loss': 4.1367, 'grad_norm': 6.937276840209961, 'learning_rate': 6.27e-07, 'epoch': 1.37}
{'loss': 4.2344, 'grad_norm': 6.625497817993164, 'learning_rate': 6.3e-07, 'epoch': 1.38}
{'loss': 4.2234, 'grad_norm': 7.7440876960754395, 'learning_rate': 6.33e-07, 'epoch': 1.38}
{'loss': 4.2106, 'grad_norm': 7.350235462188721, 'learning_rate': 6.36e-07, 'epoch': 1.39}
{'loss': 4.2378, 'grad_norm': 7.884740829467773, 'learning_rate': 6.39e-07, 'epoch': 1.4}
{'loss': 4.2369, 'grad_norm': 8.020641326904297, 'learning_rate': 6.42e-07, 'epoch': 1.4}
{'loss': 4.174, 'grad_norm': 8.314562797546387, 'learning_rate': 6.45e-07, 'epoch': 1.41}
{'loss': 4.2494, 'grad_norm': 8.677694320678711, 'learning_rate': 6.480000000000001e-07, 'epoch': 1.42}
{'loss': 4.242, 'grad_norm': 8.694634437561035, 'learning_rate': 6.51e-07, 'epoch': 1.42}
{'loss': 4.2474, 'grad_norm': 9.122923851013184, 'learning_rate': 6.54e-07, 'epoch': 1.43}
{'loss': 4.2072, 'grad_norm': 7.008365154266357, 'learning_rate': 6.57e-07, 'epoch': 1.44}
{'loss': 4.266, 'grad_norm': 6.855792999267578, 'learning_rate': 6.599999999999999e-07, 'epoch': 1.44}
{'loss': 4.1874, 'grad_norm': 7.745790481567383, 'learning_rate': 6.63e-07, 'epoch': 1.45}
{'loss': 4.1414, 'grad_norm': 6.183162689208984, 'learning_rate': 6.660000000000001e-07, 'epoch': 1.45}
{'loss': 4.2463, 'grad_norm': 6.346251487731934, 'learning_rate': 6.690000000000001e-07, 'epoch': 1.46}
{'loss': 4.1898, 'grad_norm': 6.316029071807861, 'learning_rate': 6.72e-07, 'epoch': 1.47}
{'loss': 4.2851, 'grad_norm': 7.11552095413208, 'learning_rate': 6.75e-07, 'epoch': 1.47}
{'loss': 4.1865, 'grad_norm': 5.964582920074463, 'learning_rate': 6.78e-07, 'epoch': 1.48}
{'loss': 4.1583, 'grad_norm': 6.49699068069458, 'learning_rate': 6.81e-07, 'epoch': 1.49}
{'loss': 4.343, 'grad_norm': 6.291351795196533, 'learning_rate': 6.84e-07, 'epoch': 1.49}
{'loss': 3.9845, 'grad_norm': 7.033686637878418, 'learning_rate': 6.87e-07, 'epoch': 1.5}
{'loss': 3.8861, 'grad_norm': 5.678138256072998, 'learning_rate': 6.9e-07, 'epoch': 1.51}
{'loss': 3.8458, 'grad_norm': 6.302888870239258, 'learning_rate': 6.93e-07, 'epoch': 1.51}
{'loss': 3.8429, 'grad_norm': 6.399674415588379, 'learning_rate': 6.96e-07, 'epoch': 1.52}
{'loss': 3.7941, 'grad_norm': 8.690606117248535, 'learning_rate': 6.990000000000001e-07, 'epoch': 1.53}
{'loss': 3.7746, 'grad_norm': 8.285533905029297, 'learning_rate': 7.02e-07, 'epoch': 1.53}
{'loss': 3.7335, 'grad_norm': 7.975309371948242, 'learning_rate': 7.05e-07, 'epoch': 1.54}
{'loss': 3.8114, 'grad_norm': 7.557080268859863, 'learning_rate': 7.08e-07, 'epoch': 1.55}
{'loss': 3.8752, 'grad_norm': 6.108798503875732, 'learning_rate': 7.11e-07, 'epoch': 1.55}
{'loss': 3.7703, 'grad_norm': 7.174103736877441, 'learning_rate': 7.140000000000001e-07, 'epoch': 1.56}
  0%|          | 241/100000 [09:14<70:24:36,  2.54s/it]  0%|          | 242/100000 [09:15<64:16:20,  2.32s/it]                                                         0%|          | 242/100000 [09:15<64:16:20,  2.32s/it]  0%|          | 243/100000 [09:17<58:41:38,  2.12s/it]                                                         0%|          | 243/100000 [09:17<58:41:38,  2.12s/it]  0%|          | 244/100000 [09:19<54:29:36,  1.97s/it]                                                         0%|          | 244/100000 [09:19<54:29:36,  1.97s/it]  0%|          | 245/100000 [09:20<50:52:31,  1.84s/it]                                                         0%|          | 245/100000 [09:20<50:52:31,  1.84s/it]  0%|          | 246/100000 [09:22<47:38:59,  1.72s/it]                                                         0%|          | 246/100000 [09:22<47:38:59,  1.72s/it]  0%|          | 247/100000 [09:23<44:53:38,  1.62s/it]                                                         0%|          | 247/100000 [09:23<44:53:38,  1.62s/it]  0%|          | 248/100000 [09:24<42:15:53,  1.53s/it]                                                         0%|          | 248/100000 [09:24<42:15:53,  1.53s/it]  0%|          | 249/100000 [09:26<40:15:30,  1.45s/it]                                                         0%|          | 249/100000 [09:26<40:15:30,  1.45s/it]  0%|          | 250/100000 [09:27<38:16:52,  1.38s/it]                                                         0%|          | 250/100000 [09:27<38:16:52,  1.38s/it]  0%|          | 251/100000 [09:28<36:03:20,  1.30s/it]                                                         0%|          | 251/100000 [09:28<36:03:20,  1.30s/it]  0%|          | 252/100000 [09:29<34:27:25,  1.24s/it]                                                         0%|          | 252/100000 [09:29<34:27:25,  1.24s/it]  0%|          | 253/100000 [09:30<32:55:50,  1.19s/it]                                                         0%|          | 253/100000 [09:30<32:55:50,  1.19s/it]  0%|          | 254/100000 [09:31<31:36:05,  1.14s/it]                                                         0%|          | 254/100000 [09:31<31:36:05,  1.14s/it]  0%|          | 255/100000 [09:32<30:13:48,  1.09s/it]                                                         0%|          | 255/100000 [09:32<30:13:48,  1.09s/it]  0%|          | 256/100000 [09:33<29:08:22,  1.05s/it]                                                         0%|          | 256/100000 [09:33<29:08:22,  1.05s/it]  0%|          | 257/100000 [09:34<28:07:48,  1.02s/it]                                                         0%|          | 257/100000 [09:34<28:07:48,  1.02s/it]  0%|          | 258/100000 [09:35<27:30:14,  1.01it/s]                                                         0%|          | 258/100000 [09:35<27:30:14,  1.01it/s]  0%|          | 259/100000 [09:36<26:31:27,  1.04it/s]                                                         0%|          | 259/100000 [09:36<26:31:27,  1.04it/s]  0%|          | 260/100000 [09:37<25:47:10,  1.07it/s]                                                         0%|          | 260/100000 [09:37<25:47:10,  1.07it/s]  0%|          | 261/100000 [09:38<24:59:48,  1.11it/s]                                                         0%|          | 261/100000 [09:38<24:59:48,  1.11it/s]  0%|          | 262/100000 [09:38<24:13:05,  1.14it/s]                                                         0%|          | 262/100000 [09:38<24:13:05,  1.14it/s]  0%|          | 263/100000 [09:39<23:58:54,  1.16it/s]                                                         0%|          | 263/100000 [09:39<23:58:54,  1.16it/s]  0%|          | 264/100000 [09:40<23:45:42,  1.17it/s]                                                         0%|          | 264/100000 [09:40<23:45:42,  1.17it/s]  0%|          | 265/100000 [09:41<22:42:57,  1.22it/s]                                                         0%|          | 265/100000 [09:41<22:42:57,  1.22it/s]  0%|          | 266/100000 [09:42<21:43:15,  1.28it/s]                                                         0%|          | 266/100000 [09:42<21:43:15,  1.28it/s]  0%|          | 267/100000 [09:42<21:00:40,  1.32it/s]                                                         0%|          | 267/100000 [09:42<21:00:40,  1.32it/s]  0%|          | 268/100000 [09:43<19:43:10,  1.40it/s]                                                         0%|          | 268/100000 [09:43<19:43:10,  1.40it/s]  0%|          | 269/100000 [09:55<111:01:45,  4.01s/it]                                                          0%|          | 269/100000 [09:55<111:01:45,  4.01s/it]  0%|          | 270/100000 [10:03<145:52:24,  5.27s/it]                                                          0%|          | 270/100000 [10:03<145:52:24,  5.27s/it]  0%|          | 271/100000 [10:08<148:17:59,  5.35s/it]                                                          0%|          | 271/100000 [10:08<148:17:59,  5.35s/it]  0%|          | 272/100000 [10:13<143:14:45,  5.17s/it]                                                          0%|          | 272/100000 [10:13<143:14:45,  5.17s/it]  0%|          | 273/100000 [10:17<133:57:06,  4.84s/it]                                                          0%|          | 273/100000 [10:17<133:57:06,  4.84s/it]  0%|          | 274/100000 [10:21<122:31:07,  4.42s/it]                                                          0%|          | 274/100000 [10:21<122:31:07,  4.42s/it]  0%|          | 275/100000 [10:24<111:51:29,  4.04s/it]                                                          0%|          | 275/100000 [10:24<111:51:29,  4.04s/it]  0%|          | 276/100000 [10:26<100:54:35,  3.64s/it]                                                          0%|          | 276/100000 [10:26<100:54:35,  3.64s/it]  0%|          | 277/100000 [10:29<89:57:09,  3.25s/it]                                                          0%|          | 277/100000 [10:29<89:57:09,  3.25s/it]  0%|          | 278/100000 [10:31<80:54:09,  2.92s/it]                                                         0%|          | 278/100000 [10:31<80:54:09,  2.92s/it]  0%|          | 279/100000 [10:33<73:21:43,  2.65s/it]                                                         0%|          | 279/100000 [10:33<73:21:43,  2.65s/it]  0%|          | 280/100000 [10:35<67:07:00,  2.42s/it]                                                         0%|          | 280/100000 [10:35<67:07:00,  2.42s/it]  0%|          | 281/100000 [10:37<61:44:02,  2.23s/it]                                                         0%|          | 281/100000 [10:37<61:44:02,  2.23s/it]  0%|          | 282/100000 [10:38<57:14:20,  2.07s/it]                                                         0%|          | 282/100000 [10:38<57:14:20,  2.07s/it]  0%|          | 283/100000 [10:40<53:30:23,  1.93s/it]                                                         0%|          | 283/100000 [10:40<53:30:23,  1.93s/it]  0%|          | 284/100000 [10:41<50:00:50,  1.81s/it]                                                         0%|          | 284/100000 [10:41<50:00:50,  1.81s/it]  0%|          | 285/100000 [10:43<47:07:19,  1.70s/it]                                                         0%|          | 285/100000 [10:43<47:07:19,  1.70s/it]  0%|          | 286/100000 [10:44<43:58:47,  1.59s/it]                                                         0%|          | 286/100000 [10:44<43:58:47,  1.59s/it]  0%|          | 287/100000 [10:45<41:49:07,  1.51s/it]                                                         0%|          | 287/100000 [10:45<41:49:07,  1.51s/it]  0%|          | 288/100000 [10:47<39:36:47,  1.43s/it]                                                         0%|          | 288/100000 [10:47<39:36:47,  1.43s/it]  0%|          | 289/100000 [10:48<37:34:18,  1.36s/it]                                                         0%|          | 289/100000 [10:48<37:34:18,  1.36s/it]  0%|          | 290/100000 [10:49<35:50:09,  1.29s/it]                                                         0%|          | 290/100000 [10:49<35:50:09,  1.29s/it]  0%|          | 291/100000 [10:50<34:06:11,  1.23s/it]                                                         0%|          | 291/100000 [10:50<34:06:11,  1.23s/it]  0%|          | 292/100000 [10:51<32:34:24,  1.18s/it]                                                         0%|          | 292/100000 [10:51<32:34:24,  1.18s/it]  0%|          | 293/100000 [10:52<31:11:09,  1.13s/it]                                                         0%|          | 293/100000 [10:52<31:11:09,  1.13s/it]  0%|          | 294/100000 [10:53<29:28:01,  1.06s/it]                                                         0%|          | 294/100000 [10:53<29:28:01,  1.06s/it]  0%|          | 295/100000 [10:54<28:10:48,  1.02s/it]                                                         0%|          | 295/100000 [10:54<28:10:48,  1.02s/it]  0%|          | 296/100000 [10:55<26:53:06,  1.03it/s]                                                         0%|          | 296/100000 [10:55<26:53:06,  1.03it/s]  0%|          | 297/100000 [10:56<25:56:33,  1.07it/s]                                                         0%|          | 297/100000 [10:56<25:56:33,  1.07it/s]  0%|          | 298/100000 [10:57<25:06:17,  1.10it/s]                                                         0%|          | 298/100000 [10:57<25:06:17,  1.10it/s]  0%|          | 299/100000 [10:57<24:16:26,  1.14it/s]                                                         0%|          | 299/100000 [10:57<24:16:26,  1.14it/s]  0%|          | 300/100000 [10:58<23:09:16,  1.20it/s]                                                         0%|          | 300/100000 [10:58<23:09:16,  1.20it/s]  0%|          | 301/100000 [10:59<22:20:04,  1.24it/s]                                                         0%|          | 301/100000 [10:59<22:20:04,  1.24it/s]  0%|          | 302/100000 [11:00<22:16:55,  1.24it/s]                                                         0%|          | 302/100000 [11:00<22:16:55,  1.24it/s]  0%|          | 303/100000 [11:00<21:44:29,  1.27it/s]                                                         0%|          | 303/100000 [11:00<21:44:29,  1.27it/s]  0%|          | 304/100000 [11:01<20:57:35,  1.32it/s]                                                         0%|          | 304/100000 [11:01<20:57:35,  1.32it/s]  0%|          | 305/100000 [11:02<20:21:39,  1.36it/s]                                                         0%|          | 305/100000 [11:02<20:21:39,  1.36it/s]  0%|          | 306/100000 [11:02<19:32:35,  1.42it/s]                                                         0%|          | 306/100000 [11:02<19:32:35,  1.42it/s]  0%|          | 307/100000 [11:10<78:39:41,  2.84s/it]                                                         0%|          | 307/100000 [11:10<78:39:41,  2.84s/it]  0%|          | 308/100000 [11:12<66:29:31,  2.40s/it]                                                         0%|          | 308/100000 [11:12<66:29:31,  2.40s/it]{'loss': 3.7256, 'grad_norm': 6.5538554191589355, 'learning_rate': 7.170000000000001e-07, 'epoch': 1.56}
{'loss': 3.7075, 'grad_norm': 5.546817302703857, 'learning_rate': 7.2e-07, 'epoch': 1.57}
{'loss': 3.714, 'grad_norm': 6.038111686706543, 'learning_rate': 7.23e-07, 'epoch': 1.58}
{'loss': 3.6768, 'grad_norm': 6.775961875915527, 'learning_rate': 7.26e-07, 'epoch': 1.58}
{'loss': 3.7217, 'grad_norm': 4.49329137802124, 'learning_rate': 7.29e-07, 'epoch': 1.59}
{'loss': 3.6928, 'grad_norm': 4.820324897766113, 'learning_rate': 7.32e-07, 'epoch': 1.6}
{'loss': 3.6971, 'grad_norm': 4.548248767852783, 'learning_rate': 7.350000000000001e-07, 'epoch': 1.6}
{'loss': 3.6961, 'grad_norm': 4.882798671722412, 'learning_rate': 7.380000000000001e-07, 'epoch': 1.61}
{'loss': 3.6903, 'grad_norm': 5.1151933670043945, 'learning_rate': 7.41e-07, 'epoch': 1.62}
{'loss': 3.6859, 'grad_norm': 4.667428016662598, 'learning_rate': 7.44e-07, 'epoch': 1.62}
{'loss': 3.6701, 'grad_norm': 4.67188835144043, 'learning_rate': 7.47e-07, 'epoch': 1.63}
{'loss': 3.7676, 'grad_norm': 7.445934295654297, 'learning_rate': 7.5e-07, 'epoch': 1.64}
{'loss': 3.7211, 'grad_norm': 4.554968357086182, 'learning_rate': 7.53e-07, 'epoch': 1.64}
{'loss': 3.7921, 'grad_norm': 7.037907600402832, 'learning_rate': 7.56e-07, 'epoch': 1.65}
{'loss': 3.8136, 'grad_norm': 6.184054851531982, 'learning_rate': 7.59e-07, 'epoch': 1.66}
{'loss': 3.7541, 'grad_norm': 4.616032123565674, 'learning_rate': 7.62e-07, 'epoch': 1.66}
{'loss': 3.8083, 'grad_norm': 5.11086893081665, 'learning_rate': 7.65e-07, 'epoch': 1.67}
{'loss': 3.7231, 'grad_norm': 5.001573085784912, 'learning_rate': 7.680000000000001e-07, 'epoch': 1.68}
{'loss': 3.7399, 'grad_norm': 4.379940986633301, 'learning_rate': 7.71e-07, 'epoch': 1.68}
{'loss': 3.7156, 'grad_norm': 5.292994022369385, 'learning_rate': 7.74e-07, 'epoch': 1.69}
{'loss': 3.6827, 'grad_norm': 5.74629020690918, 'learning_rate': 7.77e-07, 'epoch': 1.69}
{'loss': 3.7452, 'grad_norm': 5.577819347381592, 'learning_rate': 7.799999999999999e-07, 'epoch': 1.7}
{'loss': 3.7217, 'grad_norm': 5.078261375427246, 'learning_rate': 7.830000000000001e-07, 'epoch': 1.71}
{'loss': 3.6969, 'grad_norm': 5.579981327056885, 'learning_rate': 7.860000000000001e-07, 'epoch': 1.71}
{'loss': 3.7829, 'grad_norm': 5.3571062088012695, 'learning_rate': 7.89e-07, 'epoch': 1.72}
{'loss': 3.6935, 'grad_norm': 4.805717945098877, 'learning_rate': 7.92e-07, 'epoch': 1.73}
{'loss': 3.7827, 'grad_norm': 5.637256622314453, 'learning_rate': 7.95e-07, 'epoch': 1.73}
{'loss': 3.7604, 'grad_norm': 5.498787879943848, 'learning_rate': 7.98e-07, 'epoch': 1.74}
{'loss': 3.6117, 'grad_norm': 13.359755516052246, 'learning_rate': 8.01e-07, 'epoch': 1.75}
{'loss': 3.4624, 'grad_norm': 5.698044776916504, 'learning_rate': 8.04e-07, 'epoch': 1.75}
{'loss': 3.3961, 'grad_norm': 3.744499921798706, 'learning_rate': 8.070000000000001e-07, 'epoch': 1.76}
{'loss': 3.3393, 'grad_norm': 4.4417195320129395, 'learning_rate': 8.1e-07, 'epoch': 1.77}
{'loss': 3.354, 'grad_norm': 4.288694858551025, 'learning_rate': 8.13e-07, 'epoch': 1.77}
{'loss': 3.3705, 'grad_norm': 3.480074167251587, 'learning_rate': 8.16e-07, 'epoch': 1.78}
{'loss': 3.4057, 'grad_norm': 3.676725387573242, 'learning_rate': 8.19e-07, 'epoch': 1.79}
{'loss': 3.3332, 'grad_norm': 3.7276766300201416, 'learning_rate': 8.22e-07, 'epoch': 1.79}
{'loss': 3.3502, 'grad_norm': 4.11825704574585, 'learning_rate': 8.25e-07, 'epoch': 1.8}
{'loss': 3.3596, 'grad_norm': 3.700835704803467, 'learning_rate': 8.280000000000001e-07, 'epoch': 1.81}
{'loss': 3.2846, 'grad_norm': 3.6542434692382812, 'learning_rate': 8.31e-07, 'epoch': 1.81}
{'loss': 3.2751, 'grad_norm': 3.5537946224212646, 'learning_rate': 8.34e-07, 'epoch': 1.82}
{'loss': 3.229, 'grad_norm': 3.379690408706665, 'learning_rate': 8.370000000000001e-07, 'epoch': 1.82}
{'loss': 3.2495, 'grad_norm': 3.6677181720733643, 'learning_rate': 8.4e-07, 'epoch': 1.83}
{'loss': 3.2065, 'grad_norm': 3.318415403366089, 'learning_rate': 8.43e-07, 'epoch': 1.84}
{'loss': 3.2548, 'grad_norm': 6.0507354736328125, 'learning_rate': 8.46e-07, 'epoch': 1.84}
{'loss': 3.171, 'grad_norm': 3.2241201400756836, 'learning_rate': 8.489999999999999e-07, 'epoch': 1.85}
{'loss': 3.2093, 'grad_norm': 3.958019495010376, 'learning_rate': 8.520000000000001e-07, 'epoch': 1.86}
{'loss': 3.2074, 'grad_norm': 2.909165382385254, 'learning_rate': 8.550000000000001e-07, 'epoch': 1.86}
{'loss': 3.2055, 'grad_norm': 7.699961185455322, 'learning_rate': 8.580000000000001e-07, 'epoch': 1.87}
{'loss': 3.2167, 'grad_norm': 4.502336502075195, 'learning_rate': 8.61e-07, 'epoch': 1.88}
{'loss': 3.2195, 'grad_norm': 3.1261649131774902, 'learning_rate': 8.64e-07, 'epoch': 1.88}
{'loss': 3.2908, 'grad_norm': 3.068613052368164, 'learning_rate': 8.67e-07, 'epoch': 1.89}
{'loss': 3.25, 'grad_norm': 3.685739755630493, 'learning_rate': 8.7e-07, 'epoch': 1.9}
{'loss': 3.2002, 'grad_norm': 4.163571357727051, 'learning_rate': 8.73e-07, 'epoch': 1.9}
{'loss': 3.2031, 'grad_norm': 3.4497337341308594, 'learning_rate': 8.760000000000001e-07, 'epoch': 1.91}
{'loss': 3.2694, 'grad_norm': 12.719593048095703, 'learning_rate': 8.79e-07, 'epoch': 1.92}
{'loss': 3.2722, 'grad_norm': 6.4917311668396, 'learning_rate': 8.82e-07, 'epoch': 1.92}
{'loss': 3.1751, 'grad_norm': 3.5855140686035156, 'learning_rate': 8.85e-07, 'epoch': 1.93}
{'loss': 3.2768, 'grad_norm': 9.04736328125, 'learning_rate': 8.88e-07, 'epoch': 1.94}
{'loss': 3.1726, 'grad_norm': 3.5970494747161865, 'learning_rate': 8.91e-07, 'epoch': 1.94}
{'loss': 3.2602, 'grad_norm': 4.309350490570068, 'learning_rate': 8.94e-07, 'epoch': 1.95}
{'loss': 3.2076, 'grad_norm': 5.158056735992432, 'learning_rate': 8.97e-07, 'epoch': 1.95}
{'loss': 3.2629, 'grad_norm': 3.9347753524780273, 'learning_rate': 9e-07, 'epoch': 1.96}
{'loss': 3.1776, 'grad_norm': 4.652319431304932, 'learning_rate': 9.03e-07, 'epoch': 1.97}
{'loss': 3.2202, 'grad_norm': 4.640782833099365, 'learning_rate': 9.060000000000001e-07, 'epoch': 1.97}
{'loss': 3.1714, 'grad_norm': 5.056206226348877, 'learning_rate': 9.09e-07, 'epoch': 1.98}
{'loss': 3.3173, 'grad_norm': 5.208654880523682, 'learning_rate': 9.12e-07, 'epoch': 1.99}
{'loss': 3.0966, 'grad_norm': 4.059937477111816, 'learning_rate': 9.15e-07, 'epoch': 1.99}
{'loss': 3.2129, 'grad_norm': 4.246584415435791, 'learning_rate': 9.179999999999999e-07, 'epoch': 2.0}
  0%|          | 309/100000 [11:28<186:47:35,  6.75s/it]                                                          0%|          | 309/100000 [11:29<186:47:35,  6.75s/it]  0%|          | 310/100000 [11:36<196:16:00,  7.09s/it]                                                          0%|          | 310/100000 [11:36<196:16:00,  7.09s/it]  0%|          | 311/100000 [11:42<182:02:06,  6.57s/it]                                                          0%|          | 311/100000 [11:42<182:02:06,  6.57s/it]  0%|          | 312/100000 [11:46<165:35:23,  5.98s/it]                                                          0%|          | 312/100000 [11:46<165:35:23,  5.98s/it]  0%|          | 313/100000 [11:50<148:20:27,  5.36s/it]                                                          0%|          | 313/100000 [11:50<148:20:27,  5.36s/it]  0%|          | 314/100000 [11:54<131:24:15,  4.75s/it]                                                          0%|          | 314/100000 [11:54<131:24:15,  4.75s/it]  0%|          | 315/100000 [11:57<117:32:06,  4.24s/it]                                                          0%|          | 315/100000 [11:57<117:32:06,  4.24s/it]  0%|          | 316/100000 [11:59<103:55:51,  3.75s/it]                                                          0%|          | 316/100000 [11:59<103:55:51,  3.75s/it]  0%|          | 317/100000 [12:01<91:13:24,  3.29s/it]                                                          0%|          | 317/100000 [12:01<91:13:24,  3.29s/it]  0%|          | 318/100000 [12:04<81:28:46,  2.94s/it]                                                         0%|          | 318/100000 [12:04<81:28:46,  2.94s/it]  0%|          | 319/100000 [12:06<73:22:34,  2.65s/it]                                                         0%|          | 319/100000 [12:06<73:22:34,  2.65s/it]  0%|          | 320/100000 [12:07<66:19:45,  2.40s/it]                                                         0%|          | 320/100000 [12:07<66:19:45,  2.40s/it]  0%|          | 321/100000 [12:09<60:12:55,  2.17s/it]                                                         0%|          | 321/100000 [12:09<60:12:55,  2.17s/it]  0%|          | 322/100000 [12:11<55:38:03,  2.01s/it]                                                         0%|          | 322/100000 [12:11<55:38:03,  2.01s/it]  0%|          | 323/100000 [12:12<51:08:21,  1.85s/it]                                                         0%|          | 323/100000 [12:12<51:08:21,  1.85s/it]  0%|          | 324/100000 [12:14<47:46:42,  1.73s/it]                                                         0%|          | 324/100000 [12:14<47:46:42,  1.73s/it]  0%|          | 325/100000 [12:15<44:49:01,  1.62s/it]                                                         0%|          | 325/100000 [12:15<44:49:01,  1.62s/it]  0%|          | 326/100000 [12:16<42:40:57,  1.54s/it]                                                         0%|          | 326/100000 [12:16<42:40:57,  1.54s/it]  0%|          | 327/100000 [12:18<40:30:33,  1.46s/it]                                                         0%|          | 327/100000 [12:18<40:30:33,  1.46s/it]  0%|          | 328/100000 [12:19<38:29:35,  1.39s/it]                                                         0%|          | 328/100000 [12:19<38:29:35,  1.39s/it]  0%|          | 329/100000 [12:20<36:27:16,  1.32s/it]                                                         0%|          | 329/100000 [12:20<36:27:16,  1.32s/it]  0%|          | 330/100000 [12:21<34:33:56,  1.25s/it]                                                         0%|          | 330/100000 [12:21<34:33:56,  1.25s/it]  0%|          | 331/100000 [12:22<33:06:32,  1.20s/it]                                                         0%|          | 331/100000 [12:22<33:06:32,  1.20s/it]  0%|          | 332/100000 [12:23<31:39:15,  1.14s/it]                                                         0%|          | 332/100000 [12:23<31:39:15,  1.14s/it]  0%|          | 333/100000 [12:24<29:57:00,  1.08s/it]                                                         0%|          | 333/100000 [12:24<29:57:00,  1.08s/it]  0%|          | 334/100000 [12:25<28:53:41,  1.04s/it]                                                         0%|          | 334/100000 [12:25<28:53:41,  1.04s/it]  0%|          | 335/100000 [12:26<28:09:25,  1.02s/it]                                                         0%|          | 335/100000 [12:26<28:09:25,  1.02s/it]  0%|          | 336/100000 [12:27<27:24:35,  1.01it/s]                                                         0%|          | 336/100000 [12:27<27:24:35,  1.01it/s]  0%|          | 337/100000 [12:28<26:25:25,  1.05it/s]                                                         0%|          | 337/100000 [12:28<26:25:25,  1.05it/s]  0%|          | 338/100000 [12:29<25:45:15,  1.07it/s]                                                         0%|          | 338/100000 [12:29<25:45:15,  1.07it/s]  0%|          | 339/100000 [12:29<24:58:00,  1.11it/s]                                                         0%|          | 339/100000 [12:29<24:58:00,  1.11it/s]  0%|          | 340/100000 [12:30<24:56:55,  1.11it/s]                                                         0%|          | 340/100000 [12:30<24:56:55,  1.11it/s]  0%|          | 341/100000 [12:31<24:16:28,  1.14it/s]                                                         0%|          | 341/100000 [12:31<24:16:28,  1.14it/s]  0%|          | 342/100000 [12:32<23:49:27,  1.16it/s]                                                         0%|          | 342/100000 [12:32<23:49:27,  1.16it/s]  0%|          | 343/100000 [12:33<22:46:08,  1.22it/s]                                                         0%|          | 343/100000 [12:33<22:46:08,  1.22it/s]  0%|          | 344/100000 [12:33<21:46:00,  1.27it/s]                                                         0%|          | 344/100000 [12:33<21:46:00,  1.27it/s]  0%|          | 345/100000 [12:34<22:09:32,  1.25it/s]                                                         0%|          | 345/100000 [12:34<22:09:32,  1.25it/s]  0%|          | 346/100000 [12:35<20:50:49,  1.33it/s]                                                         0%|          | 346/100000 [12:35<20:50:49,  1.33it/s]  0%|          | 347/100000 [12:48<120:50:19,  4.37s/it]                                                          0%|          | 347/100000 [12:48<120:50:19,  4.37s/it]  0%|          | 348/100000 [12:56<152:45:09,  5.52s/it]                                                          0%|          | 348/100000 [12:56<152:45:09,  5.52s/it]  0%|          | 349/100000 [13:02<155:04:18,  5.60s/it]                                                          0%|          | 349/100000 [13:02<155:04:18,  5.60s/it]  0%|          | 350/100000 [13:06<146:25:39,  5.29s/it]                                                          0%|          | 350/100000 [13:06<146:25:39,  5.29s/it]  0%|          | 351/100000 [13:10<135:31:10,  4.90s/it]                                                          0%|          | 351/100000 [13:10<135:31:10,  4.90s/it]  0%|          | 352/100000 [13:13<121:06:27,  4.38s/it]                                                          0%|          | 352/100000 [13:13<121:06:27,  4.38s/it]  0%|          | 353/100000 [13:16<108:44:51,  3.93s/it]                                                          0%|          | 353/100000 [13:16<108:44:51,  3.93s/it]  0%|          | 354/100000 [13:19<97:05:23,  3.51s/it]                                                          0%|          | 354/100000 [13:19<97:05:23,  3.51s/it]  0%|          | 355/100000 [13:21<87:11:13,  3.15s/it]                                                         0%|          | 355/100000 [13:21<87:11:13,  3.15s/it]  0%|          | 356/100000 [13:23<78:38:24,  2.84s/it]                                                         0%|          | 356/100000 [13:23<78:38:24,  2.84s/it]  0%|          | 357/100000 [13:25<71:26:33,  2.58s/it]                                                         0%|          | 357/100000 [13:25<71:26:33,  2.58s/it]  0%|          | 358/100000 [13:27<65:10:37,  2.35s/it]                                                         0%|          | 358/100000 [13:27<65:10:37,  2.35s/it]  0%|          | 359/100000 [13:29<60:12:12,  2.18s/it]                                                         0%|          | 359/100000 [13:29<60:12:12,  2.18s/it]  0%|          | 360/100000 [13:30<55:47:58,  2.02s/it]                                                         0%|          | 360/100000 [13:30<55:47:58,  2.02s/it]  0%|          | 361/100000 [13:32<52:18:36,  1.89s/it]                                                         0%|          | 361/100000 [13:32<52:18:36,  1.89s/it]  0%|          | 362/100000 [13:34<48:55:25,  1.77s/it]                                                         0%|          | 362/100000 [13:34<48:55:25,  1.77s/it]  0%|          | 363/100000 [13:35<45:52:56,  1.66s/it]                                                         0%|          | 363/100000 [13:35<45:52:56,  1.66s/it]  0%|          | 364/100000 [13:36<43:00:10,  1.55s/it]                                                         0%|          | 364/100000 [13:36<43:00:10,  1.55s/it]  0%|          | 365/100000 [13:38<40:55:43,  1.48s/it]                                                         0%|          | 365/100000 [13:38<40:55:43,  1.48s/it]  0%|          | 366/100000 [13:39<38:58:51,  1.41s/it]                                                         0%|          | 366/100000 [13:39<38:58:51,  1.41s/it]  0%|          | 367/100000 [13:40<36:48:26,  1.33s/it]                                                         0%|          | 367/100000 [13:40<36:48:26,  1.33s/it]  0%|          | 368/100000 [13:41<34:59:39,  1.26s/it]                                                         0%|          | 368/100000 [13:41<34:59:39,  1.26s/it]  0%|          | 369/100000 [13:42<33:15:08,  1.20s/it]                                                         0%|          | 369/100000 [13:42<33:15:08,  1.20s/it]  0%|          | 370/100000 [13:43<31:35:37,  1.14s/it]                                                         0%|          | 370/100000 [13:43<31:35:37,  1.14s/it]  0%|          | 371/100000 [13:44<30:01:08,  1.08s/it]                                                         0%|          | 371/100000 [13:44<30:01:08,  1.08s/it]  0%|          | 372/100000 [13:45<29:09:13,  1.05s/it]                                                         0%|          | 372/100000 [13:45<29:09:13,  1.05s/it]  0%|          | 373/100000 [13:46<28:16:25,  1.02s/it]                                                         0%|          | 373/100000 [13:46<28:16:25,  1.02s/it]  0%|          | 374/100000 [13:47<27:25:12,  1.01it/s]                                                         0%|          | 374/100000 [13:47<27:25:12,  1.01it/s]  0%|          | 375/100000 [13:48<26:40:21,  1.04it/s]                                                         0%|          | 375/100000 [13:48<26:40:21,  1.04it/s]  0%|          | 376/100000 [13:49<26:02:46,  1.06it/s]                                                         0%|          | 376/100000 [13:49<26:02:46,  1.06it/s]  0%|          | 377/100000 [13:50<25:24:17,  1.09it/s]                                                         0%|          | 377/100000 [13:50<25:24:17,  1.09it/s]  0%|          | 378/100000 [13:50<24:14:35,  1.14it/s]                                                         0%|          | 378/100000 [13:50<24:14:35,  1.14it/s]  0%|          | 379/100000 [13:51<23:28:11,  1.18it/s]                                                         0%|          | 379/100000 [13:51<23:28:11,  1.18it/s]  0%|          | 380/100000 [13:52<22:46:05,  1.22it/s]                                                         0%|          | 380/100000 [13:52<22:46:05,  1.22it/s]  0%|          | 381/100000 [13:53<21:59:20,  1.26it/s]                                                         0%|          | 381/100000 [13:53<21:59:20,  1.26it/s]  0%|          | 382/100000 [13:53<21:19:53,  1.30it/s]                                                         0%|          | 382/100000 [13:53<21:19:53,  1.30it/s]  0%|          | 383/100000 [13:54<20:45:32,  1.33it/s]                                                         0%|          | 383/100000 [13:54<20:45:32,  1.33it/s]  0%|          | 384/100000 [13:55<20:10:41,  1.37it/s]                                                         0%|          | 384/100000 [13:55<20:10:41,  1.37it/s]  0%|          | 385/100000 [14:06<110:37:39,  4.00s/it]                                                          0%|          | 385/100000 [14:06<110:37:39,  4.00s/it]  0%|          | 386/100000 [14:14<140:57:01,  5.09s/it]                                                          0%|          | 386/100000 [14:14<140:57:01,  5.09s/it]  0%|          | 387/100000 [14:20<144:33:04,  5.22s/it]                                                          0%|          | 387/100000 [14:20<144:33:04,  5.22s/it]  0%|          | 388/100000 [14:24<140:17:01,  5.07s/it]                                                          0%|          | 388/100000 [14:24<140:17:01,  5.07s/it]  0%|          | 389/100000 [14:28<132:31:06,  4.79s/it]                                                          0%|          | 389/100000 [14:28<132:31:06,  4.79s/it]  0%|          | 390/100000 [14:32<122:58:53,  4.44s/it]                                                          0%|          | 390/100000 [14:32<122:58:53,  4.44s/it]  0%|          | 391/100000 [14:35<112:40:13,  4.07s/it]                                                          0%|          | 391/100000 [14:35<112:40:13,  4.07s/it]  0%|          | 392/100000 [14:38<102:22:57,  3.70s/it]                                                          0%|          | 392/100000 [14:38<102:22:57,  3.70s/it]  0%|          | 393/100000 [14:41<92:28:49,  3.34s/it]                                                          0%|          | 393/100000 [14:41<92:28:49,  3.34s/it]  0%|          | 394/100000 [14:43<83:10:37,  3.01s/it]                                                       {'loss': 3.2019, 'grad_norm': 7.836060523986816, 'learning_rate': 9.210000000000001e-07, 'epoch': 2.01}
{'loss': 3.0923, 'grad_norm': 2.111501455307007, 'learning_rate': 9.240000000000001e-07, 'epoch': 2.01}
{'loss': 3.1435, 'grad_norm': 3.8865880966186523, 'learning_rate': 9.270000000000001e-07, 'epoch': 2.02}
{'loss': 3.0959, 'grad_norm': 5.135623931884766, 'learning_rate': 9.3e-07, 'epoch': 2.03}
{'loss': 3.1018, 'grad_norm': 2.4406588077545166, 'learning_rate': 9.33e-07, 'epoch': 2.03}
{'loss': 3.0786, 'grad_norm': 2.298532485961914, 'learning_rate': 9.36e-07, 'epoch': 2.04}
{'loss': 3.0379, 'grad_norm': 4.098958969116211, 'learning_rate': 9.39e-07, 'epoch': 2.05}
{'loss': 3.0647, 'grad_norm': 2.7990479469299316, 'learning_rate': 9.419999999999999e-07, 'epoch': 2.05}
{'loss': 3.0335, 'grad_norm': 2.9888932704925537, 'learning_rate': 9.450000000000001e-07, 'epoch': 2.06}
{'loss': 3.0152, 'grad_norm': 3.6247713565826416, 'learning_rate': 9.480000000000001e-07, 'epoch': 2.06}
{'loss': 2.9947, 'grad_norm': 2.860651731491089, 'learning_rate': 9.51e-07, 'epoch': 2.07}
{'loss': 3.0307, 'grad_norm': 2.5671491622924805, 'learning_rate': 9.54e-07, 'epoch': 2.08}
{'loss': 2.9852, 'grad_norm': 2.9257395267486572, 'learning_rate': 9.57e-07, 'epoch': 2.08}
{'loss': 2.9685, 'grad_norm': 2.4715991020202637, 'learning_rate': 9.600000000000001e-07, 'epoch': 2.09}
{'loss': 3.0158, 'grad_norm': 2.7852585315704346, 'learning_rate': 9.63e-07, 'epoch': 2.1}
{'loss': 2.9588, 'grad_norm': 3.0203137397766113, 'learning_rate': 9.66e-07, 'epoch': 2.1}
{'loss': 2.9854, 'grad_norm': 3.038912773132324, 'learning_rate': 9.690000000000002e-07, 'epoch': 2.11}
{'loss': 2.9606, 'grad_norm': 2.9756627082824707, 'learning_rate': 9.72e-07, 'epoch': 2.12}
{'loss': 3.0368, 'grad_norm': 2.9753143787384033, 'learning_rate': 9.75e-07, 'epoch': 2.12}
{'loss': 2.9963, 'grad_norm': 2.570107936859131, 'learning_rate': 9.78e-07, 'epoch': 2.13}
{'loss': 3.0057, 'grad_norm': 3.371577739715576, 'learning_rate': 9.81e-07, 'epoch': 2.14}
{'loss': 3.057, 'grad_norm': 3.3037033081054688, 'learning_rate': 9.84e-07, 'epoch': 2.14}
{'loss': 3.0389, 'grad_norm': 3.104508399963379, 'learning_rate': 9.87e-07, 'epoch': 2.15}
{'loss': 3.0615, 'grad_norm': 4.73491096496582, 'learning_rate': 9.9e-07, 'epoch': 2.16}
{'loss': 3.0108, 'grad_norm': 3.524264097213745, 'learning_rate': 9.929999999999999e-07, 'epoch': 2.16}
{'loss': 3.0638, 'grad_norm': 2.9732577800750732, 'learning_rate': 9.96e-07, 'epoch': 2.17}
{'loss': 3.0753, 'grad_norm': 5.08504581451416, 'learning_rate': 9.99e-07, 'epoch': 2.18}
{'loss': 3.0228, 'grad_norm': 9.036715507507324, 'learning_rate': 1.002e-06, 'epoch': 2.18}
{'loss': 3.058, 'grad_norm': 4.071270942687988, 'learning_rate': 1.0050000000000001e-06, 'epoch': 2.19}
{'loss': 3.0688, 'grad_norm': 5.789755821228027, 'learning_rate': 1.008e-06, 'epoch': 2.19}
{'loss': 3.0556, 'grad_norm': 7.6668782234191895, 'learning_rate': 1.0110000000000001e-06, 'epoch': 2.2}
{'loss': 3.0961, 'grad_norm': 4.045521259307861, 'learning_rate': 1.014e-06, 'epoch': 2.21}
{'loss': 3.1196, 'grad_norm': 5.721252918243408, 'learning_rate': 1.017e-06, 'epoch': 2.21}
{'loss': 3.0637, 'grad_norm': 22.0721492767334, 'learning_rate': 1.0200000000000002e-06, 'epoch': 2.22}
{'loss': 3.0839, 'grad_norm': 4.792901039123535, 'learning_rate': 1.023e-06, 'epoch': 2.23}
{'loss': 3.0719, 'grad_norm': 7.488720417022705, 'learning_rate': 1.026e-06, 'epoch': 2.23}
{'loss': 3.0531, 'grad_norm': 13.683125495910645, 'learning_rate': 1.029e-06, 'epoch': 2.24}
{'loss': 3.2457, 'grad_norm': 13.225361824035645, 'learning_rate': 1.032e-06, 'epoch': 2.25}
{'loss': 3.0317, 'grad_norm': 4.976163864135742, 'learning_rate': 1.035e-06, 'epoch': 2.25}
{'loss': 3.0193, 'grad_norm': 2.6359879970550537, 'learning_rate': 1.038e-06, 'epoch': 2.26}
{'loss': 3.0032, 'grad_norm': 2.756157159805298, 'learning_rate': 1.041e-06, 'epoch': 2.27}
{'loss': 2.9903, 'grad_norm': 3.7778208255767822, 'learning_rate': 1.0439999999999999e-06, 'epoch': 2.27}
{'loss': 2.9783, 'grad_norm': 3.091200828552246, 'learning_rate': 1.047e-06, 'epoch': 2.28}
{'loss': 3.0392, 'grad_norm': 2.235961675643921, 'learning_rate': 1.0500000000000001e-06, 'epoch': 2.29}
{'loss': 2.9959, 'grad_norm': 2.607938766479492, 'learning_rate': 1.053e-06, 'epoch': 2.29}
{'loss': 3.0035, 'grad_norm': 2.635976791381836, 'learning_rate': 1.0560000000000001e-06, 'epoch': 2.3}
{'loss': 2.9521, 'grad_norm': 2.3465166091918945, 'learning_rate': 1.059e-06, 'epoch': 2.31}
{'loss': 2.9431, 'grad_norm': 2.391190528869629, 'learning_rate': 1.062e-06, 'epoch': 2.31}
{'loss': 2.9371, 'grad_norm': 4.081796169281006, 'learning_rate': 1.065e-06, 'epoch': 2.32}
{'loss': 2.9062, 'grad_norm': 2.8805558681488037, 'learning_rate': 1.068e-06, 'epoch': 2.32}
{'loss': 2.9245, 'grad_norm': 4.2256293296813965, 'learning_rate': 1.0710000000000002e-06, 'epoch': 2.33}
{'loss': 2.9192, 'grad_norm': 4.5070929527282715, 'learning_rate': 1.074e-06, 'epoch': 2.34}
{'loss': 2.9188, 'grad_norm': 4.707083702087402, 'learning_rate': 1.077e-06, 'epoch': 2.34}
{'loss': 2.9487, 'grad_norm': 3.272528648376465, 'learning_rate': 1.08e-06, 'epoch': 2.35}
{'loss': 2.9284, 'grad_norm': 2.9976165294647217, 'learning_rate': 1.083e-06, 'epoch': 2.36}
{'loss': 2.9195, 'grad_norm': 2.6959421634674072, 'learning_rate': 1.086e-06, 'epoch': 2.36}
{'loss': 2.9698, 'grad_norm': 4.766406059265137, 'learning_rate': 1.089e-06, 'epoch': 2.37}
{'loss': 2.9385, 'grad_norm': 6.83650541305542, 'learning_rate': 1.092e-06, 'epoch': 2.38}
{'loss': 2.9807, 'grad_norm': 5.678314685821533, 'learning_rate': 1.0949999999999999e-06, 'epoch': 2.38}
{'loss': 2.9617, 'grad_norm': 5.559372901916504, 'learning_rate': 1.0980000000000001e-06, 'epoch': 2.39}
{'loss': 3.0405, 'grad_norm': 17.65732192993164, 'learning_rate': 1.1010000000000001e-06, 'epoch': 2.4}
{'loss': 3.0091, 'grad_norm': 6.310871124267578, 'learning_rate': 1.104e-06, 'epoch': 2.4}
{'loss': 2.9692, 'grad_norm': 4.776556968688965, 'learning_rate': 1.1070000000000002e-06, 'epoch': 2.41}
{'loss': 2.9959, 'grad_norm': 4.9744672775268555, 'learning_rate': 1.11e-06, 'epoch': 2.42}
{'loss': 3.0321, 'grad_norm': 6.405533790588379, 'learning_rate': 1.113e-06, 'epoch': 2.42}
{'loss': 2.9942, 'grad_norm': 3.1573522090911865, 'learning_rate': 1.116e-06, 'epoch': 2.43}
{'loss': 2.9852, 'grad_norm': 5.7882280349731445, 'learning_rate': 1.119e-06, 'epoch': 2.44}
{'loss': 2.9883, 'grad_norm': 5.73625373840332, 'learning_rate': 1.122e-06, 'epoch': 2.44}
{'loss': 2.9523, 'grad_norm': 5.225617408752441, 'learning_rate': 1.125e-06, 'epoch': 2.45}
{'loss': 3.0153, 'grad_norm': 6.845413684844971, 'learning_rate': 1.128e-06, 'epoch': 2.45}
{'loss': 3.0091, 'grad_norm': 7.147787570953369, 'learning_rate': 1.131e-06, 'epoch': 2.46}
{'loss': 3.0083, 'grad_norm': 8.147799491882324, 'learning_rate': 1.134e-06, 'epoch': 2.47}
{'loss': 3.0834, 'grad_norm': 7.207468509674072, 'learning_rate': 1.137e-06, 'epoch': 2.47}
{'loss': 3.0566, 'grad_norm': 6.047213077545166, 'learning_rate': 1.14e-06, 'epoch': 2.48}
{'loss': 2.9911, 'grad_norm': 8.848672866821289, 'learning_rate': 1.1430000000000001e-06, 'epoch': 2.49}
{'loss': 2.9839, 'grad_norm': 7.8917083740234375, 'learning_rate': 1.146e-06, 'epoch': 2.49}
{'loss': 2.9979, 'grad_norm': 3.4590260982513428, 'learning_rate': 1.1490000000000001e-06, 'epoch': 2.5}
{'loss': 2.9857, 'grad_norm': 3.7039685249328613, 'learning_rate': 1.152e-06, 'epoch': 2.51}
{'loss': 2.9647, 'grad_norm': 1.7623441219329834, 'learning_rate': 1.155e-06, 'epoch': 2.51}
{'loss': 2.9446, 'grad_norm': 1.4022388458251953, 'learning_rate': 1.1580000000000002e-06, 'epoch': 2.52}
{'loss': 2.9321, 'grad_norm': 1.9715392589569092, 'learning_rate': 1.161e-06, 'epoch': 2.53}
{'loss': 2.9141, 'grad_norm': 3.3881592750549316, 'learning_rate': 1.164e-06, 'epoch': 2.53}
{'loss': 2.9146, 'grad_norm': 5.28237247467041, 'learning_rate': 1.167e-06, 'epoch': 2.54}
{'loss': 2.9666, 'grad_norm': 3.794752359390259, 'learning_rate': 1.17e-06, 'epoch': 2.55}
{'loss': 3.0281, 'grad_norm': 4.099876880645752, 'learning_rate': 1.173e-06, 'epoch': 2.55}
  0%|          | 394/100000 [14:43<83:10:37,  3.01s/it]  0%|          | 395/100000 [14:45<75:04:20,  2.71s/it]                                                         0%|          | 395/100000 [14:45<75:04:20,  2.71s/it]  0%|          | 396/100000 [14:47<68:06:03,  2.46s/it]                                                         0%|          | 396/100000 [14:47<68:06:03,  2.46s/it]  0%|          | 397/100000 [14:48<61:49:27,  2.23s/it]                                                         0%|          | 397/100000 [14:48<61:49:27,  2.23s/it]  0%|          | 398/100000 [14:50<57:04:58,  2.06s/it]                                                         0%|          | 398/100000 [14:50<57:04:58,  2.06s/it]  0%|          | 399/100000 [14:52<53:19:30,  1.93s/it]                                                         0%|          | 399/100000 [14:52<53:19:30,  1.93s/it]  0%|          | 400/100000 [14:53<49:54:57,  1.80s/it]                                                         0%|          | 400/100000 [14:53<49:54:57,  1.80s/it]  0%|          | 401/100000 [14:55<46:56:11,  1.70s/it]                                                         0%|          | 401/100000 [14:55<46:56:11,  1.70s/it]  0%|          | 402/100000 [14:56<44:06:12,  1.59s/it]                                                         0%|          | 402/100000 [14:56<44:06:12,  1.59s/it]  0%|          | 403/100000 [14:57<41:57:09,  1.52s/it]                                                         0%|          | 403/100000 [14:57<41:57:09,  1.52s/it]  0%|          | 404/100000 [14:59<39:53:10,  1.44s/it]                                                         0%|          | 404/100000 [14:59<39:53:10,  1.44s/it]  0%|          | 405/100000 [15:00<37:47:41,  1.37s/it]                                                         0%|          | 405/100000 [15:00<37:47:41,  1.37s/it]  0%|          | 406/100000 [15:01<35:41:12,  1.29s/it]                                                         0%|          | 406/100000 [15:01<35:41:12,  1.29s/it]  0%|          | 407/100000 [15:02<34:02:23,  1.23s/it]                                                         0%|          | 407/100000 [15:02<34:02:23,  1.23s/it]  0%|          | 408/100000 [15:03<32:31:26,  1.18s/it]                                                         0%|          | 408/100000 [15:03<32:31:26,  1.18s/it]  0%|          | 409/100000 [15:04<31:00:37,  1.12s/it]                                                         0%|          | 409/100000 [15:04<31:00:37,  1.12s/it]  0%|          | 410/100000 [15:05<30:07:23,  1.09s/it]                                                         0%|          | 410/100000 [15:05<30:07:23,  1.09s/it]  0%|          | 411/100000 [15:06<29:19:14,  1.06s/it]                                                         0%|          | 411/100000 [15:06<29:19:14,  1.06s/it]  0%|          | 412/100000 [15:07<28:17:33,  1.02s/it]                                                         0%|          | 412/100000 [15:07<28:17:33,  1.02s/it]  0%|          | 413/100000 [15:08<27:03:42,  1.02it/s]                                                         0%|          | 413/100000 [15:08<27:03:42,  1.02it/s]  0%|          | 414/100000 [15:09<26:29:06,  1.04it/s]                                                         0%|          | 414/100000 [15:09<26:29:06,  1.04it/s]  0%|          | 415/100000 [15:10<25:16:02,  1.09it/s]                                                         0%|          | 415/100000 [15:10<25:16:02,  1.09it/s]  0%|          | 416/100000 [15:10<24:26:53,  1.13it/s]                                                         0%|          | 416/100000 [15:10<24:26:53,  1.13it/s]  0%|          | 417/100000 [15:11<23:13:41,  1.19it/s]                                                         0%|          | 417/100000 [15:11<23:13:41,  1.19it/s]  0%|          | 418/100000 [15:12<22:38:37,  1.22it/s]                                                         0%|          | 418/100000 [15:12<22:38:37,  1.22it/s]  0%|          | 419/100000 [15:13<22:04:01,  1.25it/s]                                                         0%|          | 419/100000 [15:13<22:04:01,  1.25it/s]  0%|          | 420/100000 [15:13<21:37:03,  1.28it/s]                                                         0%|          | 420/100000 [15:13<21:37:03,  1.28it/s]  0%|          | 421/100000 [15:14<20:19:34,  1.36it/s]                                                         0%|          | 421/100000 [15:14<20:19:34,  1.36it/s]  0%|          | 422/100000 [15:15<20:15:27,  1.37it/s]                                                         0%|          | 422/100000 [15:15<20:15:27,  1.37it/s]  0%|          | 423/100000 [15:27<115:23:54,  4.17s/it]                                                          0%|          | 423/100000 [15:27<115:23:54,  4.17s/it]  0%|          | 424/100000 [15:35<149:18:04,  5.40s/it]                                                          0%|          | 424/100000 [15:35<149:18:04,  5.40s/it]  0%|          | 425/100000 [15:41<152:15:42,  5.50s/it]                                                          0%|          | 425/100000 [15:41<152:15:42,  5.50s/it]  0%|          | 426/100000 [15:46<145:56:30,  5.28s/it]                                                          0%|          | 426/100000 [15:46<145:56:30,  5.28s/it]  0%|          | 427/100000 [15:50<136:41:19,  4.94s/it]                                                          0%|          | 427/100000 [15:50<136:41:19,  4.94s/it]  0%|          | 428/100000 [15:53<124:33:10,  4.50s/it]                                                          0%|          | 428/100000 [15:53<124:33:10,  4.50s/it]  0%|          | 429/100000 [15:57<113:59:03,  4.12s/it]                                                          0%|          | 429/100000 [15:57<113:59:03,  4.12s/it]  0%|          | 430/100000 [15:59<103:05:17,  3.73s/it]                                                          0%|          | 430/100000 [15:59<103:05:17,  3.73s/it]  0%|          | 431/100000 [16:02<92:47:50,  3.36s/it]                                                          0%|          | 431/100000 [16:02<92:47:50,  3.36s/it]  0%|          | 432/100000 [16:04<83:23:54,  3.02s/it]                                                         0%|          | 432/100000 [16:04<83:23:54,  3.02s/it]  0%|          | 433/100000 [16:06<75:14:00,  2.72s/it]                                                         0%|          | 433/100000 [16:06<75:14:00,  2.72s/it]  0%|          | 434/100000 [16:08<68:29:20,  2.48s/it]                                                         0%|          | 434/100000 [16:08<68:29:20,  2.48s/it]  0%|          | 435/100000 [16:10<62:45:36,  2.27s/it]                                                         0%|          | 435/100000 [16:10<62:45:36,  2.27s/it]  0%|          | 436/100000 [16:11<57:49:02,  2.09s/it]                                                         0%|          | 436/100000 [16:11<57:49:02,  2.09s/it]  0%|          | 437/100000 [16:13<53:45:58,  1.94s/it]                                                         0%|          | 437/100000 [16:13<53:45:58,  1.94s/it]  0%|          | 438/100000 [16:15<50:05:57,  1.81s/it]                                                         0%|          | 438/100000 [16:15<50:05:57,  1.81s/it]  0%|          | 439/100000 [16:16<46:52:10,  1.69s/it]                                                         0%|          | 439/100000 [16:16<46:52:10,  1.69s/it]  0%|          | 440/100000 [16:17<44:04:38,  1.59s/it]                                                         0%|          | 440/100000 [16:17<44:04:38,  1.59s/it]  0%|          | 441/100000 [16:19<41:32:46,  1.50s/it]                                                         0%|          | 441/100000 [16:19<41:32:46,  1.50s/it]  0%|          | 442/100000 [16:20<39:15:23,  1.42s/it]                                                         0%|          | 442/100000 [16:20<39:15:23,  1.42s/it]  0%|          | 443/100000 [16:21<36:55:30,  1.34s/it]                                                         0%|          | 443/100000 [16:21<36:55:30,  1.34s/it]  0%|          | 444/100000 [16:22<34:59:49,  1.27s/it]                                                         0%|          | 444/100000 [16:22<34:59:49,  1.27s/it]  0%|          | 445/100000 [16:23<33:11:55,  1.20s/it]                                                         0%|          | 445/100000 [16:23<33:11:55,  1.20s/it]  0%|          | 446/100000 [16:24<31:44:53,  1.15s/it]                                                         0%|          | 446/100000 [16:24<31:44:53,  1.15s/it]  0%|          | 447/100000 [16:25<30:19:47,  1.10s/it]                                                         0%|          | 447/100000 [16:25<30:19:47,  1.10s/it]  0%|          | 448/100000 [16:26<29:17:27,  1.06s/it]                                                         0%|          | 448/100000 [16:26<29:17:27,  1.06s/it]  0%|          | 449/100000 [16:27<28:23:20,  1.03s/it]                                                         0%|          | 449/100000 [16:27<28:23:20,  1.03s/it]  0%|          | 450/100000 [16:28<27:23:41,  1.01it/s]                                                         0%|          | 450/100000 [16:28<27:23:41,  1.01it/s]  0%|          | 451/100000 [16:29<26:24:58,  1.05it/s]                                                         0%|          | 451/100000 [16:29<26:24:58,  1.05it/s]  0%|          | 452/100000 [16:30<25:39:06,  1.08it/s]                                                         0%|          | 452/100000 [16:30<25:39:06,  1.08it/s]  0%|          | 453/100000 [16:31<24:57:05,  1.11it/s]                                                         0%|          | 453/100000 [16:31<24:57:05,  1.11it/s]  0%|          | 454/100000 [16:31<24:14:36,  1.14it/s]                                                         0%|          | 454/100000 [16:31<24:14:36,  1.14it/s]  0%|          | 455/100000 [16:32<23:25:46,  1.18it/s]                                                         0%|          | 455/100000 [16:32<23:25:46,  1.18it/s]  0%|          | 456/100000 [16:33<22:28:32,  1.23it/s]                                                         0%|          | 456/100000 [16:33<22:28:32,  1.23it/s]  0%|          | 457/100000 [16:34<22:23:46,  1.23it/s]                                                         0%|          | 457/100000 [16:34<22:23:46,  1.23it/s]  0%|          | 458/100000 [16:34<21:46:37,  1.27it/s]                                                         0%|          | 458/100000 [16:34<21:46:37,  1.27it/s]  0%|          | 459/100000 [16:35<21:00:39,  1.32it/s]                                                         0%|          | 459/100000 [16:35<21:00:39,  1.32it/s]  0%|          | 460/100000 [16:36<20:31:38,  1.35it/s]                                                         0%|          | 460/100000 [16:36<20:31:38,  1.35it/s]  0%|          | 461/100000 [16:44<80:29:40,  2.91s/it]                                                         0%|          | 461/100000 [16:44<80:29:40,  2.91s/it]  0%|          | 462/100000 [16:45<68:51:51,  2.49s/it]                                                         0%|          | 462/100000 [16:45<68:51:51,  2.49s/it]{'loss': 2.9249, 'grad_norm': 2.3029916286468506, 'learning_rate': 1.176e-06, 'epoch': 2.56}
{'loss': 2.9162, 'grad_norm': 3.997671604156494, 'learning_rate': 1.179e-06, 'epoch': 2.56}
{'loss': 2.8923, 'grad_norm': 2.97003173828125, 'learning_rate': 1.1819999999999999e-06, 'epoch': 2.57}
{'loss': 2.8756, 'grad_norm': 3.2198333740234375, 'learning_rate': 1.185e-06, 'epoch': 2.58}
{'loss': 2.8794, 'grad_norm': 4.0551838874816895, 'learning_rate': 1.188e-06, 'epoch': 2.58}
{'loss': 2.857, 'grad_norm': 2.7395613193511963, 'learning_rate': 1.191e-06, 'epoch': 2.59}
{'loss': 2.8915, 'grad_norm': 4.558250904083252, 'learning_rate': 1.1940000000000001e-06, 'epoch': 2.6}
{'loss': 2.9157, 'grad_norm': 10.057778358459473, 'learning_rate': 1.197e-06, 'epoch': 2.6}
{'loss': 2.9158, 'grad_norm': 5.58126974105835, 'learning_rate': 1.2000000000000002e-06, 'epoch': 2.61}
{'loss': 2.9077, 'grad_norm': 3.90592360496521, 'learning_rate': 1.203e-06, 'epoch': 2.62}
{'loss': 2.9154, 'grad_norm': 5.915511131286621, 'learning_rate': 1.206e-06, 'epoch': 2.62}
{'loss': 2.9111, 'grad_norm': 12.763238906860352, 'learning_rate': 1.2090000000000002e-06, 'epoch': 2.63}
{'loss': 2.864, 'grad_norm': 3.1597161293029785, 'learning_rate': 1.212e-06, 'epoch': 2.64}
{'loss': 2.9273, 'grad_norm': 4.990009307861328, 'learning_rate': 1.215e-06, 'epoch': 2.64}
{'loss': 2.9406, 'grad_norm': 4.824915409088135, 'learning_rate': 1.218e-06, 'epoch': 2.65}
{'loss': 2.9623, 'grad_norm': 3.231447458267212, 'learning_rate': 1.221e-06, 'epoch': 2.66}
{'loss': 2.9291, 'grad_norm': 4.039350986480713, 'learning_rate': 1.224e-06, 'epoch': 2.66}
{'loss': 2.9595, 'grad_norm': 4.414988040924072, 'learning_rate': 1.227e-06, 'epoch': 2.67}
{'loss': 2.9347, 'grad_norm': 11.38032054901123, 'learning_rate': 1.23e-06, 'epoch': 2.68}
{'loss': 2.9553, 'grad_norm': 5.847972393035889, 'learning_rate': 1.2329999999999999e-06, 'epoch': 2.68}
{'loss': 2.9816, 'grad_norm': 8.844328880310059, 'learning_rate': 1.2360000000000001e-06, 'epoch': 2.69}
{'loss': 2.9282, 'grad_norm': 7.506613731384277, 'learning_rate': 1.2390000000000001e-06, 'epoch': 2.69}
{'loss': 2.9972, 'grad_norm': 22.969072341918945, 'learning_rate': 1.242e-06, 'epoch': 2.7}
{'loss': 2.9671, 'grad_norm': 12.459650039672852, 'learning_rate': 1.2450000000000002e-06, 'epoch': 2.71}
{'loss': 2.9458, 'grad_norm': 5.451510429382324, 'learning_rate': 1.248e-06, 'epoch': 2.71}
{'loss': 2.9098, 'grad_norm': 11.027999877929688, 'learning_rate': 1.251e-06, 'epoch': 2.72}
{'loss': 2.9725, 'grad_norm': 6.223474979400635, 'learning_rate': 1.254e-06, 'epoch': 2.73}
{'loss': 2.9695, 'grad_norm': 5.647006511688232, 'learning_rate': 1.257e-06, 'epoch': 2.73}
{'loss': 2.9996, 'grad_norm': 6.409946441650391, 'learning_rate': 1.26e-06, 'epoch': 2.74}
{'loss': 2.9858, 'grad_norm': 11.312077522277832, 'learning_rate': 1.263e-06, 'epoch': 2.75}
{'loss': 2.9858, 'grad_norm': 9.022307395935059, 'learning_rate': 1.266e-06, 'epoch': 2.75}
{'loss': 2.9071, 'grad_norm': 2.080095052719116, 'learning_rate': 1.269e-06, 'epoch': 2.76}
{'loss': 2.8953, 'grad_norm': 3.264813184738159, 'learning_rate': 1.272e-06, 'epoch': 2.77}
{'loss': 2.9402, 'grad_norm': 4.913297653198242, 'learning_rate': 1.275e-06, 'epoch': 2.77}
{'loss': 2.9092, 'grad_norm': 4.485108375549316, 'learning_rate': 1.278e-06, 'epoch': 2.78}
{'loss': 2.9411, 'grad_norm': 5.382730960845947, 'learning_rate': 1.281e-06, 'epoch': 2.79}
{'loss': 2.9024, 'grad_norm': 1.7348854541778564, 'learning_rate': 1.284e-06, 'epoch': 2.79}
{'loss': 2.8888, 'grad_norm': 2.526237964630127, 'learning_rate': 1.2870000000000001e-06, 'epoch': 2.8}
{'loss': 2.8905, 'grad_norm': 1.887691617012024, 'learning_rate': 1.29e-06, 'epoch': 2.81}
{'loss': 2.8705, 'grad_norm': 2.2010879516601562, 'learning_rate': 1.293e-06, 'epoch': 2.81}
{'loss': 2.855, 'grad_norm': 2.4804866313934326, 'learning_rate': 1.2960000000000002e-06, 'epoch': 2.82}
{'loss': 2.8765, 'grad_norm': 2.999610662460327, 'learning_rate': 1.299e-06, 'epoch': 2.82}
{'loss': 2.8515, 'grad_norm': 2.87490177154541, 'learning_rate': 1.302e-06, 'epoch': 2.83}
{'loss': 2.8519, 'grad_norm': 3.027050733566284, 'learning_rate': 1.305e-06, 'epoch': 2.84}
{'loss': 2.8618, 'grad_norm': 2.54402756690979, 'learning_rate': 1.308e-06, 'epoch': 2.84}
{'loss': 2.8327, 'grad_norm': 3.5638716220855713, 'learning_rate': 1.311e-06, 'epoch': 2.85}
{'loss': 2.871, 'grad_norm': 5.313451766967773, 'learning_rate': 1.314e-06, 'epoch': 2.86}
{'loss': 2.8337, 'grad_norm': 2.613088846206665, 'learning_rate': 1.317e-06, 'epoch': 2.86}
{'loss': 2.8757, 'grad_norm': 4.3730244636535645, 'learning_rate': 1.3199999999999999e-06, 'epoch': 2.87}
{'loss': 2.8819, 'grad_norm': 3.7327375411987305, 'learning_rate': 1.323e-06, 'epoch': 2.88}
{'loss': 2.8769, 'grad_norm': 4.538591384887695, 'learning_rate': 1.326e-06, 'epoch': 2.88}
{'loss': 2.8952, 'grad_norm': 4.276618003845215, 'learning_rate': 1.3290000000000001e-06, 'epoch': 2.89}
{'loss': 2.9362, 'grad_norm': 9.348265647888184, 'learning_rate': 1.3320000000000001e-06, 'epoch': 2.9}
{'loss': 2.8924, 'grad_norm': 10.117548942565918, 'learning_rate': 1.335e-06, 'epoch': 2.9}
{'loss': 2.9334, 'grad_norm': 6.622341632843018, 'learning_rate': 1.3380000000000001e-06, 'epoch': 2.91}
{'loss': 2.9318, 'grad_norm': 6.616637229919434, 'learning_rate': 1.341e-06, 'epoch': 2.92}
{'loss': 2.908, 'grad_norm': 6.587666034698486, 'learning_rate': 1.344e-06, 'epoch': 2.92}
{'loss': 2.8901, 'grad_norm': 7.985599517822266, 'learning_rate': 1.3470000000000002e-06, 'epoch': 2.93}
{'loss': 2.9599, 'grad_norm': 10.201042175292969, 'learning_rate': 1.35e-06, 'epoch': 2.94}
{'loss': 2.9324, 'grad_norm': 7.168050289154053, 'learning_rate': 1.353e-06, 'epoch': 2.94}
{'loss': 3.0108, 'grad_norm': 5.911725044250488, 'learning_rate': 1.356e-06, 'epoch': 2.95}
{'loss': 3.0305, 'grad_norm': 5.920689105987549, 'learning_rate': 1.359e-06, 'epoch': 2.95}
{'loss': 2.938, 'grad_norm': 4.992315292358398, 'learning_rate': 1.362e-06, 'epoch': 2.96}
{'loss': 2.9374, 'grad_norm': 7.291182518005371, 'learning_rate': 1.365e-06, 'epoch': 2.97}
{'loss': 2.936, 'grad_norm': 5.629183769226074, 'learning_rate': 1.368e-06, 'epoch': 2.97}
{'loss': 2.943, 'grad_norm': 11.29691219329834, 'learning_rate': 1.3709999999999999e-06, 'epoch': 2.98}
{'loss': 3.0358, 'grad_norm': 15.614290237426758, 'learning_rate': 1.374e-06, 'epoch': 2.99}
{'loss': 2.8581, 'grad_norm': 3.3931639194488525, 'learning_rate': 1.3770000000000001e-06, 'epoch': 2.99}
{'loss': 2.8959, 'grad_norm': 5.034513473510742, 'learning_rate': 1.38e-06, 'epoch': 3.0}
  0%|          | 463/100000 [17:03<194:17:42,  7.03s/it]                                                          0%|          | 463/100000 [17:03<194:17:42,  7.03s/it]  0%|          | 464/100000 [17:11<202:46:16,  7.33s/it]                                                          0%|          | 464/100000 [17:11<202:46:16,  7.33s/it]  0%|          | 465/100000 [17:16<185:52:51,  6.72s/it]                                                          0%|          | 465/100000 [17:16<185:52:51,  6.72s/it]  0%|          | 466/100000 [17:21<169:11:44,  6.12s/it]                                                          0%|          | 466/100000 [17:21<169:11:44,  6.12s/it]  0%|          | 467/100000 [17:25<151:08:04,  5.47s/it]                                                          0%|          | 467/100000 [17:25<151:08:04,  5.47s/it]  0%|          | 468/100000 [17:29<136:08:51,  4.92s/it]                                                          0%|          | 468/100000 [17:29<136:08:51,  4.92s/it]  0%|          | 469/100000 [17:32<121:30:40,  4.40s/it]                                                          0%|          | 469/100000 [17:32<121:30:40,  4.40s/it]  0%|          | 470/100000 [17:34<107:34:27,  3.89s/it]                                                          0%|          | 470/100000 [17:34<107:34:27,  3.89s/it]  0%|          | 471/100000 [17:37<95:16:37,  3.45s/it]                                                          0%|          | 471/100000 [17:37<95:16:37,  3.45s/it]  0%|          | 472/100000 [17:39<84:59:08,  3.07s/it]                                                         0%|          | 472/100000 [17:39<84:59:08,  3.07s/it]  0%|          | 473/100000 [17:41<76:09:50,  2.75s/it]                                                         0%|          | 473/100000 [17:41<76:09:50,  2.75s/it]  0%|          | 474/100000 [17:43<68:59:46,  2.50s/it]                                                         0%|          | 474/100000 [17:43<68:59:46,  2.50s/it]  0%|          | 475/100000 [17:45<62:56:13,  2.28s/it]                                                         0%|          | 475/100000 [17:45<62:56:13,  2.28s/it]  0%|          | 476/100000 [17:46<57:56:12,  2.10s/it]                                                         0%|          | 476/100000 [17:46<57:56:12,  2.10s/it]  0%|          | 477/100000 [17:48<53:51:21,  1.95s/it]                                                         0%|          | 477/100000 [17:48<53:51:21,  1.95s/it]  0%|          | 478/100000 [17:50<50:01:37,  1.81s/it]                                                         0%|          | 478/100000 [17:50<50:01:37,  1.81s/it]  0%|          | 479/100000 [17:51<46:55:42,  1.70s/it]                                                         0%|          | 479/100000 [17:51<46:55:42,  1.70s/it]  0%|          | 480/100000 [17:52<43:56:15,  1.59s/it]                                                         0%|          | 480/100000 [17:52<43:56:15,  1.59s/it]  0%|          | 481/100000 [17:54<41:44:29,  1.51s/it]                                                         0%|          | 481/100000 [17:54<41:44:29,  1.51s/it]  0%|          | 482/100000 [17:55<39:26:48,  1.43s/it]                                                         0%|          | 482/100000 [17:55<39:26:48,  1.43s/it]  0%|          | 483/100000 [17:56<37:28:09,  1.36s/it]                                                         0%|          | 483/100000 [17:56<37:28:09,  1.36s/it]  0%|          | 484/100000 [17:57<35:29:41,  1.28s/it]                                                         0%|          | 484/100000 [17:57<35:29:41,  1.28s/it]  0%|          | 485/100000 [17:58<33:54:43,  1.23s/it]                                                         0%|          | 485/100000 [17:58<33:54:43,  1.23s/it]  0%|          | 486/100000 [17:59<32:23:22,  1.17s/it]                                                         0%|          | 486/100000 [17:59<32:23:22,  1.17s/it]  0%|          | 487/100000 [18:00<31:10:09,  1.13s/it]                                                         0%|          | 487/100000 [18:00<31:10:09,  1.13s/it]  0%|          | 488/100000 [18:01<29:54:38,  1.08s/it]                                                         0%|          | 488/100000 [18:01<29:54:38,  1.08s/it]  0%|          | 489/100000 [18:02<28:48:28,  1.04s/it]                                                         0%|          | 489/100000 [18:02<28:48:28,  1.04s/it]  0%|          | 490/100000 [18:03<27:28:06,  1.01it/s]                                                         0%|          | 490/100000 [18:03<27:28:06,  1.01it/s]  0%|          | 491/100000 [18:04<26:41:01,  1.04it/s]                                                         0%|          | 491/100000 [18:04<26:41:01,  1.04it/s]  0%|          | 492/100000 [18:05<25:36:28,  1.08it/s]                                                         0%|          | 492/100000 [18:05<25:36:28,  1.08it/s]  0%|          | 493/100000 [18:06<24:39:19,  1.12it/s]                                                         0%|          | 493/100000 [18:06<24:39:19,  1.12it/s]  0%|          | 494/100000 [18:07<24:36:52,  1.12it/s]                                                         0%|          | 494/100000 [18:07<24:36:52,  1.12it/s]  0%|          | 495/100000 [18:07<23:12:11,  1.19it/s]                                                         0%|          | 495/100000 [18:07<23:12:11,  1.19it/s]  0%|          | 496/100000 [18:08<22:22:33,  1.24it/s]                                                         0%|          | 496/100000 [18:08<22:22:33,  1.24it/s]  0%|          | 497/100000 [18:09<22:31:37,  1.23it/s]                                                         0%|          | 497/100000 [18:09<22:31:37,  1.23it/s]  0%|          | 498/100000 [18:10<22:06:08,  1.25it/s]                                                         0%|          | 498/100000 [18:10<22:06:08,  1.25it/s]  0%|          | 499/100000 [18:10<21:08:28,  1.31it/s]                                                         0%|          | 499/100000 [18:10<21:08:28,  1.31it/s]  0%|          | 500/100000 [18:11<20:05:23,  1.38it/s]                                                         0%|          | 500/100000 [18:11<20:05:23,  1.38it/s]  1%|          | 501/100000 [18:24<120:36:25,  4.36s/it]                                                          1%|          | 501/100000 [18:24<120:36:25,  4.36s/it]  1%|          | 502/100000 [18:32<150:39:18,  5.45s/it]                                                          1%|          | 502/100000 [18:32<150:39:18,  5.45s/it]  1%|          | 503/100000 [18:37<152:50:17,  5.53s/it]                                                          1%|          | 503/100000 [18:37<152:50:17,  5.53s/it]  1%|          | 504/100000 [18:42<145:29:00,  5.26s/it]                                                          1%|          | 504/100000 [18:42<145:29:00,  5.26s/it]  1%|          | 505/100000 [18:46<134:30:41,  4.87s/it]                                                          1%|          | 505/100000 [18:46<134:30:41,  4.87s/it]  1%|          | 506/100000 [18:50<123:06:19,  4.45s/it]                                                          1%|          | 506/100000 [18:50<123:06:19,  4.45s/it]  1%|          | 507/100000 [18:52<110:29:14,  4.00s/it]                                                          1%|          | 507/100000 [18:52<110:29:14,  4.00s/it]  1%|          | 508/100000 [18:55<100:07:39,  3.62s/it]                                                          1%|          | 508/100000 [18:55<100:07:39,  3.62s/it]  1%|          | 509/100000 [18:58<90:02:47,  3.26s/it]                                                          1%|          | 509/100000 [18:58<90:02:47,  3.26s/it]  1%|          | 510/100000 [19:00<81:22:26,  2.94s/it]                                                         1%|          | 510/100000 [19:00<81:22:26,  2.94s/it]  1%|          | 511/100000 [19:02<73:19:41,  2.65s/it]                                                         1%|          | 511/100000 [19:02<73:19:41,  2.65s/it]  1%|          | 512/100000 [19:04<66:17:13,  2.40s/it]                                                         1%|          | 512/100000 [19:04<66:17:13,  2.40s/it]  1%|          | 513/100000 [19:05<60:40:25,  2.20s/it]                                                         1%|          | 513/100000 [19:05<60:40:25,  2.20s/it]  1%|          | 514/100000 [19:07<56:03:34,  2.03s/it]                                                         1%|          | 514/100000 [19:07<56:03:34,  2.03s/it]  1%|          | 515/100000 [19:09<52:07:02,  1.89s/it]                                                         1%|          | 515/100000 [19:09<52:07:02,  1.89s/it]  1%|          | 516/100000 [19:10<48:33:32,  1.76s/it]                                                         1%|          | 516/100000 [19:10<48:33:32,  1.76s/it]  1%|          | 517/100000 [19:11<45:06:44,  1.63s/it]                                                         1%|          | 517/100000 [19:11<45:06:44,  1.63s/it]  1%|          | 518/100000 [19:13<42:30:16,  1.54s/it]                                                         1%|          | 518/100000 [19:13<42:30:16,  1.54s/it]  1%|          | 519/100000 [19:14<40:28:43,  1.46s/it]                                                         1%|          | 519/100000 [19:14<40:28:43,  1.46s/it]  1%|          | 520/100000 [19:15<38:31:57,  1.39s/it]                                                         1%|          | 520/100000 [19:15<38:31:57,  1.39s/it]  1%|          | 521/100000 [19:16<36:20:10,  1.31s/it]                                                         1%|          | 521/100000 [19:16<36:20:10,  1.31s/it]  1%|          | 522/100000 [19:17<34:29:09,  1.25s/it]                                                         1%|          | 522/100000 [19:17<34:29:09,  1.25s/it]  1%|          | 523/100000 [19:18<32:28:00,  1.17s/it]                                                         1%|          | 523/100000 [19:18<32:28:00,  1.17s/it]  1%|          | 524/100000 [19:19<31:13:51,  1.13s/it]                                                         1%|          | 524/100000 [19:19<31:13:51,  1.13s/it]  1%|          | 525/100000 [19:20<29:46:23,  1.08s/it]                                                         1%|          | 525/100000 [19:20<29:46:23,  1.08s/it]  1%|          | 526/100000 [19:21<28:49:27,  1.04s/it]                                                         1%|          | 526/100000 [19:21<28:49:27,  1.04s/it]  1%|          | 527/100000 [19:22<27:41:26,  1.00s/it]                                                         1%|          | 527/100000 [19:22<27:41:26,  1.00s/it]  1%|          | 528/100000 [19:23<26:30:51,  1.04it/s]                                                         1%|          | 528/100000 [19:23<26:30:51,  1.04it/s]  1%|          | 529/100000 [19:24<25:37:44,  1.08it/s]                                                         1%|          | 529/100000 [19:24<25:37:44,  1.08it/s]  1%|          | 530/100000 [19:25<24:45:30,  1.12it/s]                                                         1%|          | 530/100000 [19:25<24:45:30,  1.12it/s]  1%|          | 531/100000 [19:26<24:25:42,  1.13it/s]                                                         1%|          | 531/100000 [19:26<24:25:42,  1.13it/s]  1%|          | 532/100000 [19:26<23:03:14,  1.20it/s]                                                         1%|          | 532/100000 [19:26<23:03:14,  1.20it/s]  1%|          | 533/100000 [19:27<22:12:23,  1.24it/s]                                                         1%|          | 533/100000 [19:27<22:12:23,  1.24it/s]  1%|          | 534/100000 [19:28<22:13:53,  1.24it/s]                                                         1%|          | 534/100000 [19:28<22:13:53,  1.24it/s]  1%|          | 535/100000 [19:29<21:53:10,  1.26it/s]                                                         1%|          | 535/100000 [19:29<21:53:10,  1.26it/s]  1%|          | 536/100000 [19:29<20:52:46,  1.32it/s]                                                         1%|          | 536/100000 [19:29<20:52:46,  1.32it/s]  1%|          | 537/100000 [19:30<20:49:59,  1.33it/s]                                                         1%|          | 537/100000 [19:30<20:49:59,  1.33it/s]  1%|          | 538/100000 [19:31<20:43:25,  1.33it/s]                                                         1%|          | 538/100000 [19:31<20:43:25,  1.33it/s]  1%|          | 539/100000 [19:44<122:54:28,  4.45s/it]                                                          1%|          | 539/100000 [19:44<122:54:28,  4.45s/it]  1%|          | 540/100000 [19:51<148:08:47,  5.36s/it]                                                          1%|          | 540/100000 [19:51<148:08:47,  5.36s/it]  1%|          | 541/100000 [19:57<148:01:46,  5.36s/it]                                                          1%|          | 541/100000 [19:57<148:01:46,  5.36s/it]  1%|          | 542/100000 [20:01<139:35:22,  5.05s/it]                                                          1%|          | 542/100000 [20:01<139:35:22,  5.05s/it]  1%|          | 543/100000 [20:05<130:38:18,  4.73s/it]                                                          1%|          | 543/100000 [20:05<130:38:18,  4.73s/it]  1%|          | 544/100000 [20:08<118:16:10,  4.28s/it]                                                          1%|          | 544/100000 [20:08<118:16:10,  4.28s/it]  1%|          | 545/100000 [20:11<106:50:26,  3.87s/it]                                                          1%|          | 545/100000 [20:11<106:50:26,  3.87s/it]  1%|          | 546/100000 [20:14<96:13:16,  3.48s/it]                                                          1%|          | 546/100000 [20:14<96:13:16,  3.48s/it]  1%|          | 547/100000 [20:16<86:20:59,  3.13s/it]                                                         1%|          | 547/100000 [20:16<86:20:59,  3.13s/it]  1%|          | 548/100000 [20:18<77:38:47,  2.81s/it]                                                         1%|          | 548/100000 [20:18<77:38:47,  2.81s/it]  1%|          | 549/100000 [20:20<70:39:59,  2.56s/it]                                                       {'loss': 2.9652, 'grad_norm': 8.041173934936523, 'learning_rate': 1.3830000000000001e-06, 'epoch': 3.01}
{'loss': 2.9425, 'grad_norm': 5.183377742767334, 'learning_rate': 1.386e-06, 'epoch': 3.01}
{'loss': 2.9154, 'grad_norm': 2.870914936065674, 'learning_rate': 1.389e-06, 'epoch': 3.02}
{'loss': 2.8961, 'grad_norm': 3.5154976844787598, 'learning_rate': 1.392e-06, 'epoch': 3.03}
{'loss': 2.9087, 'grad_norm': 4.2006306648254395, 'learning_rate': 1.395e-06, 'epoch': 3.03}
{'loss': 2.8809, 'grad_norm': 5.874264240264893, 'learning_rate': 1.3980000000000002e-06, 'epoch': 3.04}
{'loss': 2.8602, 'grad_norm': 2.1658973693847656, 'learning_rate': 1.401e-06, 'epoch': 3.05}
{'loss': 2.9009, 'grad_norm': 1.837263822555542, 'learning_rate': 1.404e-06, 'epoch': 3.05}
{'loss': 2.9708, 'grad_norm': 3.8552417755126953, 'learning_rate': 1.407e-06, 'epoch': 3.06}
{'loss': 2.8601, 'grad_norm': 4.275975704193115, 'learning_rate': 1.41e-06, 'epoch': 3.06}
{'loss': 2.8405, 'grad_norm': 2.8832106590270996, 'learning_rate': 1.413e-06, 'epoch': 3.07}
{'loss': 2.8321, 'grad_norm': 3.29194974899292, 'learning_rate': 1.416e-06, 'epoch': 3.08}
{'loss': 2.8275, 'grad_norm': 5.627781391143799, 'learning_rate': 1.419e-06, 'epoch': 3.08}
{'loss': 2.8078, 'grad_norm': 2.450194835662842, 'learning_rate': 1.422e-06, 'epoch': 3.09}
{'loss': 2.8128, 'grad_norm': 3.0568976402282715, 'learning_rate': 1.4250000000000001e-06, 'epoch': 3.1}
{'loss': 2.8351, 'grad_norm': 6.114955902099609, 'learning_rate': 1.4280000000000001e-06, 'epoch': 3.1}
{'loss': 2.8299, 'grad_norm': 5.303379535675049, 'learning_rate': 1.431e-06, 'epoch': 3.11}
{'loss': 2.847, 'grad_norm': 5.959603309631348, 'learning_rate': 1.4340000000000002e-06, 'epoch': 3.12}
{'loss': 2.8528, 'grad_norm': 3.237433671951294, 'learning_rate': 1.437e-06, 'epoch': 3.12}
{'loss': 2.8269, 'grad_norm': nan, 'learning_rate': 1.437e-06, 'epoch': 3.13}
{'loss': 2.8122, 'grad_norm': 4.395176887512207, 'learning_rate': 1.44e-06, 'epoch': 3.14}
{'loss': 2.8533, 'grad_norm': 5.9305243492126465, 'learning_rate': 1.443e-06, 'epoch': 3.14}
{'loss': 2.8433, 'grad_norm': 7.599608421325684, 'learning_rate': 1.446e-06, 'epoch': 3.15}
{'loss': 2.8548, 'grad_norm': 4.668176651000977, 'learning_rate': 1.449e-06, 'epoch': 3.16}
{'loss': 2.8541, 'grad_norm': 4.571450710296631, 'learning_rate': 1.452e-06, 'epoch': 3.16}
{'loss': 2.8404, 'grad_norm': 3.2075955867767334, 'learning_rate': 1.455e-06, 'epoch': 3.17}
{'loss': 2.8576, 'grad_norm': 4.72301721572876, 'learning_rate': 1.458e-06, 'epoch': 3.18}
{'loss': 2.8987, 'grad_norm': 8.042577743530273, 'learning_rate': 1.461e-06, 'epoch': 3.18}
{'loss': 2.8759, 'grad_norm': 7.077475547790527, 'learning_rate': 1.464e-06, 'epoch': 3.19}
{'loss': 2.9559, 'grad_norm': 9.560011863708496, 'learning_rate': 1.467e-06, 'epoch': 3.19}
{'loss': 2.8508, 'grad_norm': 6.510541915893555, 'learning_rate': 1.4700000000000001e-06, 'epoch': 3.2}
{'loss': 2.9164, 'grad_norm': 17.795639038085938, 'learning_rate': 1.473e-06, 'epoch': 3.21}
{'loss': 2.9527, 'grad_norm': 21.21731185913086, 'learning_rate': 1.4760000000000001e-06, 'epoch': 3.21}
{'loss': 2.9268, 'grad_norm': 12.446904182434082, 'learning_rate': 1.479e-06, 'epoch': 3.22}
{'loss': 2.9113, 'grad_norm': 5.037909030914307, 'learning_rate': 1.482e-06, 'epoch': 3.23}
{'loss': 2.9209, 'grad_norm': 6.600802421569824, 'learning_rate': 1.4850000000000002e-06, 'epoch': 3.23}
{'loss': 2.8847, 'grad_norm': 6.475611209869385, 'learning_rate': 1.488e-06, 'epoch': 3.24}
{'loss': 3.0283, 'grad_norm': 13.903543472290039, 'learning_rate': 1.491e-06, 'epoch': 3.25}
{'loss': 2.9303, 'grad_norm': 5.4037017822265625, 'learning_rate': 1.494e-06, 'epoch': 3.25}
{'loss': 2.9105, 'grad_norm': 2.921567916870117, 'learning_rate': 1.497e-06, 'epoch': 3.26}
{'loss': 2.8871, 'grad_norm': 2.8549513816833496, 'learning_rate': 1.5e-06, 'epoch': 3.27}
{'loss': 2.8466, 'grad_norm': 2.923830509185791, 'learning_rate': 1.503e-06, 'epoch': 3.27}
{'loss': 2.8424, 'grad_norm': 1.678187370300293, 'learning_rate': 1.506e-06, 'epoch': 3.28}
{'loss': 2.8799, 'grad_norm': 3.029482126235962, 'learning_rate': 1.5089999999999999e-06, 'epoch': 3.29}
{'loss': 2.8351, 'grad_norm': 3.4251229763031006, 'learning_rate': 1.512e-06, 'epoch': 3.29}
{'loss': 2.8426, 'grad_norm': 3.001774787902832, 'learning_rate': 1.5150000000000001e-06, 'epoch': 3.3}
{'loss': 2.8406, 'grad_norm': 2.735358715057373, 'learning_rate': 1.518e-06, 'epoch': 3.31}
{'loss': 2.8269, 'grad_norm': 3.3315727710723877, 'learning_rate': 1.5210000000000001e-06, 'epoch': 3.31}
{'loss': 2.8316, 'grad_norm': 4.439090728759766, 'learning_rate': 1.524e-06, 'epoch': 3.32}
{'loss': 2.7998, 'grad_norm': 3.5430262088775635, 'learning_rate': 1.5270000000000002e-06, 'epoch': 3.32}
{'loss': 2.7876, 'grad_norm': 3.223196029663086, 'learning_rate': 1.53e-06, 'epoch': 3.33}
{'loss': 2.8359, 'grad_norm': 3.266092538833618, 'learning_rate': 1.533e-06, 'epoch': 3.34}
{'loss': 2.7891, 'grad_norm': 3.727891206741333, 'learning_rate': 1.5360000000000002e-06, 'epoch': 3.34}
{'loss': 2.7807, 'grad_norm': 3.757908582687378, 'learning_rate': 1.539e-06, 'epoch': 3.35}
{'loss': 2.7743, 'grad_norm': 2.7136452198028564, 'learning_rate': 1.542e-06, 'epoch': 3.36}
{'loss': 2.8207, 'grad_norm': 2.8607375621795654, 'learning_rate': 1.545e-06, 'epoch': 3.36}
{'loss': 2.8194, 'grad_norm': 3.9261863231658936, 'learning_rate': 1.548e-06, 'epoch': 3.37}
{'loss': 2.7775, 'grad_norm': 4.135004043579102, 'learning_rate': 1.551e-06, 'epoch': 3.38}
{'loss': 2.8321, 'grad_norm': 4.08540678024292, 'learning_rate': 1.554e-06, 'epoch': 3.38}
{'loss': 2.7822, 'grad_norm': 5.537880897521973, 'learning_rate': 1.557e-06, 'epoch': 3.39}
{'loss': 2.8291, 'grad_norm': 7.317775726318359, 'learning_rate': 1.5599999999999999e-06, 'epoch': 3.4}
{'loss': 2.8358, 'grad_norm': 3.4625916481018066, 'learning_rate': 1.5630000000000001e-06, 'epoch': 3.4}
{'loss': 2.8386, 'grad_norm': 7.681430816650391, 'learning_rate': 1.5660000000000001e-06, 'epoch': 3.41}
{'loss': 2.8197, 'grad_norm': 6.484419822692871, 'learning_rate': 1.569e-06, 'epoch': 3.42}
{'loss': 2.8408, 'grad_norm': 4.318624973297119, 'learning_rate': 1.5720000000000002e-06, 'epoch': 3.42}
{'loss': 2.8871, 'grad_norm': 3.5962705612182617, 'learning_rate': 1.575e-06, 'epoch': 3.43}
{'loss': 2.8985, 'grad_norm': 5.326286792755127, 'learning_rate': 1.578e-06, 'epoch': 3.44}
{'loss': 2.8221, 'grad_norm': 4.532215595245361, 'learning_rate': 1.581e-06, 'epoch': 3.44}
{'loss': 2.8934, 'grad_norm': 9.369197845458984, 'learning_rate': 1.584e-06, 'epoch': 3.45}
{'loss': 2.8901, 'grad_norm': 7.212559223175049, 'learning_rate': 1.5870000000000002e-06, 'epoch': 3.45}
{'loss': 2.8905, 'grad_norm': 8.7293062210083, 'learning_rate': 1.59e-06, 'epoch': 3.46}
{'loss': 2.8449, 'grad_norm': 5.522534370422363, 'learning_rate': 1.593e-06, 'epoch': 3.47}
{'loss': 2.8559, 'grad_norm': 12.28826904296875, 'learning_rate': 1.596e-06, 'epoch': 3.47}
{'loss': 2.8733, 'grad_norm': 16.419567108154297, 'learning_rate': 1.599e-06, 'epoch': 3.48}
{'loss': 2.7958, 'grad_norm': 6.284960746765137, 'learning_rate': 1.602e-06, 'epoch': 3.49}
{'loss': 2.9348, 'grad_norm': 9.08095932006836, 'learning_rate': 1.605e-06, 'epoch': 3.49}
{'loss': 2.8849, 'grad_norm': 8.943626403808594, 'learning_rate': 1.608e-06, 'epoch': 3.5}
{'loss': 2.864, 'grad_norm': 7.378358364105225, 'learning_rate': 1.611e-06, 'epoch': 3.51}
{'loss': 2.8797, 'grad_norm': 3.772319793701172, 'learning_rate': 1.6140000000000001e-06, 'epoch': 3.51}
{'loss': 2.8061, 'grad_norm': 2.972280979156494, 'learning_rate': 1.6170000000000001e-06, 'epoch': 3.52}
{'loss': 2.8253, 'grad_norm': 4.778923988342285, 'learning_rate': 1.62e-06, 'epoch': 3.53}
{'loss': 2.8153, 'grad_norm': 6.9254045486450195, 'learning_rate': 1.6230000000000002e-06, 'epoch': 3.53}
{'loss': 2.8151, 'grad_norm': 8.210887908935547, 'learning_rate': 1.626e-06, 'epoch': 3.54}
{'loss': 2.8439, 'grad_norm': 8.452569007873535, 'learning_rate': 1.629e-06, 'epoch': 3.55}
{'loss': 2.8239, 'grad_norm': 7.966518402099609, 'learning_rate': 1.632e-06, 'epoch': 3.55}
{'loss': 2.7843, 'grad_norm': 4.120719909667969, 'learning_rate': 1.635e-06, 'epoch': 3.56}
  1%|          | 549/100000 [20:20<70:39:59,  2.56s/it]  1%|          | 550/100000 [20:22<64:28:43,  2.33s/it]                                                         1%|          | 550/100000 [20:22<64:28:43,  2.33s/it]  1%|          | 551/100000 [20:24<58:59:42,  2.14s/it]                                                         1%|          | 551/100000 [20:24<58:59:42,  2.14s/it]  1%|          | 552/100000 [20:25<54:20:00,  1.97s/it]                                                         1%|          | 552/100000 [20:25<54:20:00,  1.97s/it]  1%|          | 553/100000 [20:27<50:27:38,  1.83s/it]                                                         1%|          | 553/100000 [20:27<50:27:38,  1.83s/it]  1%|          | 554/100000 [20:28<47:01:27,  1.70s/it]                                                         1%|          | 554/100000 [20:28<47:01:27,  1.70s/it]  1%|          | 555/100000 [20:29<44:30:18,  1.61s/it]                                                         1%|          | 555/100000 [20:29<44:30:18,  1.61s/it]  1%|          | 556/100000 [20:31<41:55:20,  1.52s/it]                                                         1%|          | 556/100000 [20:31<41:55:20,  1.52s/it]  1%|          | 557/100000 [20:32<39:57:13,  1.45s/it]                                                         1%|          | 557/100000 [20:32<39:57:13,  1.45s/it]  1%|          | 558/100000 [20:33<37:58:13,  1.37s/it]                                                         1%|          | 558/100000 [20:33<37:58:13,  1.37s/it]  1%|          | 559/100000 [20:34<35:54:00,  1.30s/it]                                                         1%|          | 559/100000 [20:34<35:54:00,  1.30s/it]  1%|          | 560/100000 [20:35<34:01:58,  1.23s/it]                                                         1%|          | 560/100000 [20:35<34:01:58,  1.23s/it]  1%|          | 561/100000 [20:36<32:13:41,  1.17s/it]                                                         1%|          | 561/100000 [20:37<32:13:41,  1.17s/it]  1%|          | 562/100000 [20:37<30:38:37,  1.11s/it]                                                         1%|          | 562/100000 [20:37<30:38:37,  1.11s/it]  1%|          | 563/100000 [20:38<29:05:39,  1.05s/it]                                                         1%|          | 563/100000 [20:38<29:05:39,  1.05s/it]  1%|          | 564/100000 [20:39<28:04:02,  1.02s/it]                                                         1%|          | 564/100000 [20:39<28:04:02,  1.02s/it]  1%|          | 565/100000 [20:40<27:26:40,  1.01it/s]                                                         1%|          | 565/100000 [20:40<27:26:40,  1.01it/s]  1%|          | 566/100000 [20:41<26:10:03,  1.06it/s]                                                         1%|          | 566/100000 [20:41<26:10:03,  1.06it/s]  1%|          | 567/100000 [20:42<25:13:41,  1.09it/s]                                                         1%|          | 567/100000 [20:42<25:13:41,  1.09it/s]  1%|          | 568/100000 [20:43<24:33:19,  1.12it/s]                                                         1%|          | 568/100000 [20:43<24:33:19,  1.12it/s]  1%|          | 569/100000 [20:44<23:47:37,  1.16it/s]                                                         1%|          | 569/100000 [20:44<23:47:37,  1.16it/s]  1%|          | 570/100000 [20:44<23:14:37,  1.19it/s]                                                         1%|          | 570/100000 [20:44<23:14:37,  1.19it/s]  1%|          | 571/100000 [20:45<22:59:42,  1.20it/s]                                                         1%|          | 571/100000 [20:45<22:59:42,  1.20it/s]  1%|          | 572/100000 [20:46<22:22:46,  1.23it/s]                                                         1%|          | 572/100000 [20:46<22:22:46,  1.23it/s]  1%|          | 573/100000 [20:47<21:37:33,  1.28it/s]                                                         1%|          | 573/100000 [20:47<21:37:33,  1.28it/s]  1%|          | 574/100000 [20:47<21:33:29,  1.28it/s]                                                         1%|          | 574/100000 [20:47<21:33:29,  1.28it/s]  1%|          | 575/100000 [20:48<21:41:03,  1.27it/s]                                                         1%|          | 575/100000 [20:48<21:41:03,  1.27it/s]  1%|          | 576/100000 [20:49<20:46:15,  1.33it/s]                                                         1%|          | 576/100000 [20:49<20:46:15,  1.33it/s]  1%|          | 577/100000 [21:01<112:40:58,  4.08s/it]                                                          1%|          | 577/100000 [21:01<112:40:58,  4.08s/it]  1%|          | 578/100000 [21:09<148:49:09,  5.39s/it]                                                          1%|          | 578/100000 [21:09<148:49:09,  5.39s/it]  1%|          | 579/100000 [21:15<154:12:49,  5.58s/it]                                                          1%|          | 579/100000 [21:15<154:12:49,  5.58s/it]  1%|          | 580/100000 [21:20<146:55:21,  5.32s/it]                                                          1%|          | 580/100000 [21:20<146:55:21,  5.32s/it]  1%|          | 581/100000 [21:24<135:54:44,  4.92s/it]                                                          1%|          | 581/100000 [21:24<135:54:44,  4.92s/it]  1%|          | 582/100000 [21:27<123:46:11,  4.48s/it]                                                          1%|          | 582/100000 [21:27<123:46:11,  4.48s/it]  1%|          | 583/100000 [21:30<112:17:41,  4.07s/it]                                                          1%|          | 583/100000 [21:30<112:17:41,  4.07s/it]  1%|          | 584/100000 [21:33<101:05:58,  3.66s/it]                                                          1%|          | 584/100000 [21:33<101:05:58,  3.66s/it]  1%|          | 585/100000 [21:36<90:22:38,  3.27s/it]                                                          1%|          | 585/100000 [21:36<90:22:38,  3.27s/it]  1%|          | 586/100000 [21:38<80:18:58,  2.91s/it]                                                         1%|          | 586/100000 [21:38<80:18:58,  2.91s/it]  1%|          | 587/100000 [21:40<72:33:48,  2.63s/it]                                                         1%|          | 587/100000 [21:40<72:33:48,  2.63s/it]  1%|          | 588/100000 [21:41<65:43:10,  2.38s/it]                                                         1%|          | 588/100000 [21:41<65:43:10,  2.38s/it]  1%|          | 589/100000 [21:43<60:13:20,  2.18s/it]                                                         1%|          | 589/100000 [21:43<60:13:20,  2.18s/it]  1%|          | 590/100000 [21:45<55:44:26,  2.02s/it]                                                         1%|          | 590/100000 [21:45<55:44:26,  2.02s/it]  1%|          | 591/100000 [21:46<51:54:34,  1.88s/it]                                                         1%|          | 591/100000 [21:46<51:54:34,  1.88s/it]  1%|          | 592/100000 [21:48<48:33:03,  1.76s/it]                                                         1%|          | 592/100000 [21:48<48:33:03,  1.76s/it]  1%|          | 593/100000 [21:49<45:46:03,  1.66s/it]                                                         1%|          | 593/100000 [21:49<45:46:03,  1.66s/it]  1%|          | 594/100000 [21:51<43:13:05,  1.57s/it]                                                         1%|          | 594/100000 [21:51<43:13:05,  1.57s/it]  1%|          | 595/100000 [21:52<40:48:26,  1.48s/it]                                                         1%|          | 595/100000 [21:52<40:48:26,  1.48s/it]  1%|          | 596/100000 [21:53<38:51:56,  1.41s/it]                                                         1%|          | 596/100000 [21:53<38:51:56,  1.41s/it]  1%|          | 597/100000 [21:54<36:57:25,  1.34s/it]                                                         1%|          | 597/100000 [21:54<36:57:25,  1.34s/it]  1%|          | 598/100000 [21:55<35:07:49,  1.27s/it]                                                         1%|          | 598/100000 [21:55<35:07:49,  1.27s/it]  1%|          | 599/100000 [21:56<33:14:20,  1.20s/it]                                                         1%|          | 599/100000 [21:56<33:14:20,  1.20s/it]  1%|          | 600/100000 [21:57<31:30:49,  1.14s/it]                                                         1%|          | 600/100000 [21:57<31:30:49,  1.14s/it]  1%|          | 601/100000 [21:58<30:21:49,  1.10s/it]                                                         1%|          | 601/100000 [21:58<30:21:49,  1.10s/it]  1%|          | 602/100000 [21:59<28:51:27,  1.05s/it]                                                         1%|          | 602/100000 [21:59<28:51:27,  1.05s/it]  1%|          | 603/100000 [22:00<28:02:04,  1.02s/it]                                                         1%|          | 603/100000 [22:00<28:02:04,  1.02s/it]  1%|          | 604/100000 [22:01<26:45:09,  1.03it/s]                                                         1%|          | 604/100000 [22:01<26:45:09,  1.03it/s]  1%|          | 605/100000 [22:02<25:48:49,  1.07it/s]                                                         1%|          | 605/100000 [22:02<25:48:49,  1.07it/s]  1%|          | 606/100000 [22:03<24:36:37,  1.12it/s]                                                         1%|          | 606/100000 [22:03<24:36:37,  1.12it/s]  1%|          | 607/100000 [22:04<24:59:45,  1.10it/s]                                                         1%|          | 607/100000 [22:04<24:59:45,  1.10it/s]  1%|          | 608/100000 [22:05<24:10:40,  1.14it/s]                                                         1%|          | 608/100000 [22:05<24:10:40,  1.14it/s]  1%|          | 609/100000 [22:05<23:04:46,  1.20it/s]                                                         1%|          | 609/100000 [22:05<23:04:46,  1.20it/s]  1%|          | 610/100000 [22:06<21:59:20,  1.26it/s]                                                         1%|          | 610/100000 [22:06<21:59:20,  1.26it/s]  1%|          | 611/100000 [22:07<21:09:24,  1.30it/s]                                                         1%|          | 611/100000 [22:07<21:09:24,  1.30it/s]  1%|          | 612/100000 [22:07<20:07:54,  1.37it/s]                                                         1%|          | 612/100000 [22:07<20:07:54,  1.37it/s]  1%|          | 613/100000 [22:08<19:23:48,  1.42it/s]                                                         1%|          | 613/100000 [22:08<19:23:48,  1.42it/s]  1%|          | 614/100000 [22:09<18:34:31,  1.49it/s]                                                         1%|          | 614/100000 [22:09<18:34:31,  1.49it/s]  1%|          | 615/100000 [22:16<78:08:29,  2.83s/it]                                                         1%|          | 615/100000 [22:16<78:08:29,  2.83s/it]  1%|          | 616/100000 [22:18<65:23:47,  2.37s/it]                                                         1%|          | 616/100000 [22:18<65:23:47,  2.37s/it]{'loss': 2.7354, 'grad_norm': 2.110189199447632, 'learning_rate': 1.638e-06, 'epoch': 3.56}
{'loss': 2.7836, 'grad_norm': 4.0777363777160645, 'learning_rate': 1.641e-06, 'epoch': 3.57}
{'loss': 2.7669, 'grad_norm': 6.115957736968994, 'learning_rate': 1.644e-06, 'epoch': 3.58}
{'loss': 2.7611, 'grad_norm': 7.563939571380615, 'learning_rate': 1.6469999999999999e-06, 'epoch': 3.58}
{'loss': 2.7587, 'grad_norm': 7.310206413269043, 'learning_rate': 1.65e-06, 'epoch': 3.59}
{'loss': 2.7866, 'grad_norm': 6.752540111541748, 'learning_rate': 1.653e-06, 'epoch': 3.6}
{'loss': 2.7868, 'grad_norm': 2.4445207118988037, 'learning_rate': 1.6560000000000001e-06, 'epoch': 3.6}
{'loss': 2.7778, 'grad_norm': 4.305914878845215, 'learning_rate': 1.6590000000000001e-06, 'epoch': 3.61}
{'loss': 2.7823, 'grad_norm': 7.639820575714111, 'learning_rate': 1.662e-06, 'epoch': 3.62}
{'loss': 2.7981, 'grad_norm': 6.993528366088867, 'learning_rate': 1.6650000000000002e-06, 'epoch': 3.62}
{'loss': 2.7438, 'grad_norm': 3.9153337478637695, 'learning_rate': 1.668e-06, 'epoch': 3.63}
{'loss': 2.8323, 'grad_norm': 4.636836528778076, 'learning_rate': 1.671e-06, 'epoch': 3.64}
{'loss': 2.7682, 'grad_norm': 5.2608256340026855, 'learning_rate': 1.6740000000000002e-06, 'epoch': 3.64}
{'loss': 2.7634, 'grad_norm': 3.8549342155456543, 'learning_rate': 1.677e-06, 'epoch': 3.65}
{'loss': 2.7852, 'grad_norm': 5.620889186859131, 'learning_rate': 1.68e-06, 'epoch': 3.66}
{'loss': 2.7989, 'grad_norm': 7.092489719390869, 'learning_rate': 1.683e-06, 'epoch': 3.66}
{'loss': 2.8555, 'grad_norm': 12.485346794128418, 'learning_rate': 1.686e-06, 'epoch': 3.67}
{'loss': 2.8061, 'grad_norm': 6.271565914154053, 'learning_rate': 1.689e-06, 'epoch': 3.68}
{'loss': 2.7532, 'grad_norm': 5.625197887420654, 'learning_rate': 1.692e-06, 'epoch': 3.68}
{'loss': 2.7663, 'grad_norm': 10.022656440734863, 'learning_rate': 1.695e-06, 'epoch': 3.69}
{'loss': 2.7577, 'grad_norm': 3.8215439319610596, 'learning_rate': 1.6979999999999999e-06, 'epoch': 3.69}
{'loss': 2.8049, 'grad_norm': 4.285182476043701, 'learning_rate': 1.701e-06, 'epoch': 3.7}
{'loss': 2.7552, 'grad_norm': 5.830546855926514, 'learning_rate': 1.7040000000000001e-06, 'epoch': 3.71}
{'loss': 2.8228, 'grad_norm': 5.427187919616699, 'learning_rate': 1.707e-06, 'epoch': 3.71}
{'loss': 2.8852, 'grad_norm': 12.016286849975586, 'learning_rate': 1.7100000000000001e-06, 'epoch': 3.72}
{'loss': 2.8354, 'grad_norm': 7.242936134338379, 'learning_rate': 1.713e-06, 'epoch': 3.73}
{'loss': 2.8374, 'grad_norm': 15.491625785827637, 'learning_rate': 1.7160000000000002e-06, 'epoch': 3.73}
{'loss': 2.9423, 'grad_norm': 11.814384460449219, 'learning_rate': 1.719e-06, 'epoch': 3.74}
{'loss': 2.9256, 'grad_norm': 15.255809783935547, 'learning_rate': 1.722e-06, 'epoch': 3.75}
{'loss': 2.903, 'grad_norm': 12.62228012084961, 'learning_rate': 1.7250000000000002e-06, 'epoch': 3.75}
{'loss': 2.8121, 'grad_norm': 7.677221298217773, 'learning_rate': 1.728e-06, 'epoch': 3.76}
{'loss': 2.8073, 'grad_norm': 3.4597361087799072, 'learning_rate': 1.731e-06, 'epoch': 3.77}
{'loss': 2.8201, 'grad_norm': 6.497579574584961, 'learning_rate': 1.734e-06, 'epoch': 3.77}
{'loss': 2.8429, 'grad_norm': 9.124070167541504, 'learning_rate': 1.737e-06, 'epoch': 3.78}
{'loss': 2.8174, 'grad_norm': 9.698674201965332, 'learning_rate': 1.74e-06, 'epoch': 3.79}
{'loss': 2.8271, 'grad_norm': 8.620283126831055, 'learning_rate': 1.743e-06, 'epoch': 3.79}
{'loss': 2.7578, 'grad_norm': 5.886139392852783, 'learning_rate': 1.746e-06, 'epoch': 3.8}
{'loss': 2.7573, 'grad_norm': 3.1566786766052246, 'learning_rate': 1.749e-06, 'epoch': 3.81}
{'loss': 2.7343, 'grad_norm': 2.6310677528381348, 'learning_rate': 1.7520000000000001e-06, 'epoch': 3.81}
{'loss': 2.7551, 'grad_norm': 5.066411972045898, 'learning_rate': 1.7550000000000001e-06, 'epoch': 3.82}
{'loss': 2.7293, 'grad_norm': 4.921133995056152, 'learning_rate': 1.758e-06, 'epoch': 3.82}
{'loss': 2.7293, 'grad_norm': 5.550374984741211, 'learning_rate': 1.7610000000000002e-06, 'epoch': 3.83}
{'loss': 2.7128, 'grad_norm': 5.215851783752441, 'learning_rate': 1.764e-06, 'epoch': 3.84}
{'loss': 2.7256, 'grad_norm': 4.568731784820557, 'learning_rate': 1.767e-06, 'epoch': 3.84}
{'loss': 2.7032, 'grad_norm': 5.303258895874023, 'learning_rate': 1.77e-06, 'epoch': 3.85}
{'loss': 2.6933, 'grad_norm': 6.120275497436523, 'learning_rate': 1.773e-06, 'epoch': 3.86}
{'loss': 2.7473, 'grad_norm': 8.18193244934082, 'learning_rate': 1.776e-06, 'epoch': 3.86}
{'loss': 2.7523, 'grad_norm': 6.380955219268799, 'learning_rate': 1.779e-06, 'epoch': 3.87}
{'loss': 2.7753, 'grad_norm': 7.729520320892334, 'learning_rate': 1.782e-06, 'epoch': 3.88}
{'loss': 2.7176, 'grad_norm': 6.8099045753479, 'learning_rate': 1.785e-06, 'epoch': 3.88}
{'loss': 2.8674, 'grad_norm': 4.084204196929932, 'learning_rate': 1.788e-06, 'epoch': 3.89}
{'loss': 2.8303, 'grad_norm': 3.071317195892334, 'learning_rate': 1.791e-06, 'epoch': 3.9}
{'loss': 2.8104, 'grad_norm': 4.058374404907227, 'learning_rate': 1.794e-06, 'epoch': 3.9}
{'loss': 2.7271, 'grad_norm': 5.073724746704102, 'learning_rate': 1.7970000000000001e-06, 'epoch': 3.91}
{'loss': 2.7817, 'grad_norm': 13.612815856933594, 'learning_rate': 1.8e-06, 'epoch': 3.92}
{'loss': 2.7525, 'grad_norm': 9.567514419555664, 'learning_rate': 1.8030000000000001e-06, 'epoch': 3.92}
{'loss': 2.7514, 'grad_norm': 5.303150653839111, 'learning_rate': 1.806e-06, 'epoch': 3.93}
{'loss': 2.7644, 'grad_norm': 6.027411460876465, 'learning_rate': 1.809e-06, 'epoch': 3.94}
{'loss': 2.6991, 'grad_norm': 4.798149585723877, 'learning_rate': 1.8120000000000002e-06, 'epoch': 3.94}
{'loss': 2.7046, 'grad_norm': 5.595445156097412, 'learning_rate': 1.815e-06, 'epoch': 3.95}
{'loss': 2.7954, 'grad_norm': 15.625877380371094, 'learning_rate': 1.818e-06, 'epoch': 3.95}
{'loss': 2.7606, 'grad_norm': 6.676662445068359, 'learning_rate': 1.821e-06, 'epoch': 3.96}
{'loss': 2.8161, 'grad_norm': 6.024028301239014, 'learning_rate': 1.824e-06, 'epoch': 3.97}
{'loss': 2.7762, 'grad_norm': 9.899672508239746, 'learning_rate': 1.827e-06, 'epoch': 3.97}
{'loss': 2.7731, 'grad_norm': 8.258879661560059, 'learning_rate': 1.83e-06, 'epoch': 3.98}
{'loss': 2.828, 'grad_norm': 18.955278396606445, 'learning_rate': 1.833e-06, 'epoch': 3.99}
{'loss': 2.6994, 'grad_norm': 3.380607843399048, 'learning_rate': 1.8359999999999999e-06, 'epoch': 3.99}
{'loss': 2.7776, 'grad_norm': 6.015449523925781, 'learning_rate': 1.839e-06, 'epoch': 4.0}
  1%|          | 617/100000 [22:35<188:46:51,  6.84s/it]                                                          1%|          | 617/100000 [22:35<188:46:51,  6.84s/it]  1%|          | 618/100000 [22:42<190:44:12,  6.91s/it]                                                          1%|          | 618/100000 [22:42<190:44:12,  6.91s/it]  1%|          | 619/100000 [22:48<179:45:08,  6.51s/it]                                                          1%|          | 619/100000 [22:48<179:45:08,  6.51s/it]  1%|          | 620/100000 [22:52<164:12:54,  5.95s/it]                                                          1%|          | 620/100000 [22:52<164:12:54,  5.95s/it]  1%|          | 621/100000 [22:56<149:05:29,  5.40s/it]                                                          1%|          | 621/100000 [22:56<149:05:29,  5.40s/it]  1%|          | 622/100000 [23:00<134:58:29,  4.89s/it]                                                          1%|          | 622/100000 [23:00<134:58:29,  4.89s/it]  1%|          | 623/100000 [23:03<120:33:23,  4.37s/it]                                                          1%|          | 623/100000 [23:03<120:33:23,  4.37s/it]  1%|          | 624/100000 [23:06<106:22:47,  3.85s/it]                                                          1%|          | 624/100000 [23:06<106:22:47,  3.85s/it]  1%|          | 625/100000 [23:08<93:43:18,  3.40s/it]                                                          1%|          | 625/100000 [23:08<93:43:18,  3.40s/it]  1%|          | 626/100000 [23:10<83:19:39,  3.02s/it]                                                         1%|          | 626/100000 [23:10<83:19:39,  3.02s/it]  1%|          | 627/100000 [23:12<74:56:24,  2.71s/it]                                                         1%|          | 627/100000 [23:12<74:56:24,  2.71s/it]  1%|          | 628/100000 [23:14<67:54:15,  2.46s/it]                                                         1%|          | 628/100000 [23:14<67:54:15,  2.46s/it]  1%|          | 629/100000 [23:16<61:36:52,  2.23s/it]                                                         1%|          | 629/100000 [23:16<61:36:52,  2.23s/it]  1%|          | 630/100000 [23:18<56:52:11,  2.06s/it]                                                         1%|          | 630/100000 [23:18<56:52:11,  2.06s/it]  1%|          | 631/100000 [23:19<53:08:23,  1.93s/it]                                                         1%|          | 631/100000 [23:19<53:08:23,  1.93s/it]  1%|          | 632/100000 [23:21<49:13:06,  1.78s/it]                                                         1%|          | 632/100000 [23:21<49:13:06,  1.78s/it]  1%|          | 633/100000 [23:22<46:23:54,  1.68s/it]                                                         1%|          | 633/100000 [23:22<46:23:54,  1.68s/it]  1%|          | 634/100000 [23:23<43:57:08,  1.59s/it]                                                         1%|          | 634/100000 [23:23<43:57:08,  1.59s/it]  1%|          | 635/100000 [23:25<41:42:38,  1.51s/it]                                                         1%|          | 635/100000 [23:25<41:42:38,  1.51s/it]  1%|          | 636/100000 [23:26<39:38:12,  1.44s/it]                                                         1%|          | 636/100000 [23:26<39:38:12,  1.44s/it]  1%|          | 637/100000 [23:27<37:25:43,  1.36s/it]                                                         1%|          | 637/100000 [23:27<37:25:43,  1.36s/it]  1%|          | 638/100000 [23:28<35:37:22,  1.29s/it]                                                         1%|          | 638/100000 [23:28<35:37:22,  1.29s/it]  1%|          | 639/100000 [23:29<34:01:35,  1.23s/it]                                                         1%|          | 639/100000 [23:29<34:01:35,  1.23s/it]  1%|          | 640/100000 [23:31<32:34:31,  1.18s/it]                                                         1%|          | 640/100000 [23:31<32:34:31,  1.18s/it]  1%|          | 641/100000 [23:32<31:15:57,  1.13s/it]                                                         1%|          | 641/100000 [23:32<31:15:57,  1.13s/it]  1%|          | 642/100000 [23:33<30:04:32,  1.09s/it]                                                         1%|          | 642/100000 [23:33<30:04:32,  1.09s/it]  1%|          | 643/100000 [23:33<28:56:32,  1.05s/it]                                                         1%|          | 643/100000 [23:33<28:56:32,  1.05s/it]  1%|          | 644/100000 [23:34<27:55:29,  1.01s/it]                                                         1%|          | 644/100000 [23:34<27:55:29,  1.01s/it]  1%|          | 645/100000 [23:35<27:18:13,  1.01it/s]                                                         1%|          | 645/100000 [23:35<27:18:13,  1.01it/s]  1%|          | 646/100000 [23:36<26:44:13,  1.03it/s]                                                         1%|          | 646/100000 [23:36<26:44:13,  1.03it/s]  1%|          | 647/100000 [23:37<26:16:35,  1.05it/s]                                                         1%|          | 647/100000 [23:37<26:16:35,  1.05it/s]  1%|          | 648/100000 [23:38<25:14:28,  1.09it/s]                                                         1%|          | 648/100000 [23:38<25:14:28,  1.09it/s]  1%|          | 649/100000 [23:39<24:49:52,  1.11it/s]                                                         1%|          | 649/100000 [23:39<24:49:52,  1.11it/s]  1%|          | 650/100000 [23:40<24:22:07,  1.13it/s]                                                         1%|          | 650/100000 [23:40<24:22:07,  1.13it/s]  1%|          | 651/100000 [23:40<23:30:59,  1.17it/s]                                                         1%|          | 651/100000 [23:41<23:30:59,  1.17it/s]  1%|          | 652/100000 [23:41<22:28:04,  1.23it/s]                                                         1%|          | 652/100000 [23:41<22:28:04,  1.23it/s]  1%|          | 653/100000 [23:42<21:58:18,  1.26it/s]                                                         1%|          | 653/100000 [23:42<21:58:18,  1.26it/s]  1%|          | 654/100000 [23:43<21:12:05,  1.30it/s]                                                         1%|          | 654/100000 [23:43<21:12:05,  1.30it/s]  1%|          | 655/100000 [23:56<124:27:03,  4.51s/it]                                                          1%|          | 655/100000 [23:56<124:27:03,  4.51s/it]  1%|          | 656/100000 [24:03<145:49:06,  5.28s/it]                                                          1%|          | 656/100000 [24:03<145:49:06,  5.28s/it]  1%|          | 657/100000 [24:09<148:38:31,  5.39s/it]                                                          1%|          | 657/100000 [24:09<148:38:31,  5.39s/it]  1%|          | 658/100000 [24:13<139:15:39,  5.05s/it]                                                          1%|          | 658/100000 [24:13<139:15:39,  5.05s/it]  1%|          | 659/100000 [24:17<127:39:32,  4.63s/it]                                                          1%|          | 659/100000 [24:17<127:39:32,  4.63s/it]  1%|          | 660/100000 [24:20<117:02:48,  4.24s/it]                                                          1%|          | 660/100000 [24:20<117:02:48,  4.24s/it]  1%|          | 661/100000 [24:23<106:17:58,  3.85s/it]                                                          1%|          | 661/100000 [24:23<106:17:58,  3.85s/it]  1%|          | 662/100000 [24:25<95:52:32,  3.47s/it]                                                          1%|          | 662/100000 [24:25<95:52:32,  3.47s/it]  1%|          | 663/100000 [24:28<86:24:37,  3.13s/it]                                                         1%|          | 663/100000 [24:28<86:24:37,  3.13s/it]  1%|          | 664/100000 [24:30<78:09:29,  2.83s/it]                                                         1%|          | 664/100000 [24:30<78:09:29,  2.83s/it]  1%|          | 665/100000 [24:32<71:21:50,  2.59s/it]                                                         1%|          | 665/100000 [24:32<71:21:50,  2.59s/it]  1%|          | 666/100000 [24:34<65:13:36,  2.36s/it]                                                         1%|          | 666/100000 [24:34<65:13:36,  2.36s/it]  1%|          | 667/100000 [24:35<59:31:16,  2.16s/it]                                                         1%|          | 667/100000 [24:35<59:31:16,  2.16s/it]  1%|          | 668/100000 [24:37<55:12:23,  2.00s/it]                                                         1%|          | 668/100000 [24:37<55:12:23,  2.00s/it]  1%|          | 669/100000 [24:39<51:05:34,  1.85s/it]                                                         1%|          | 669/100000 [24:39<51:05:34,  1.85s/it]  1%|          | 670/100000 [24:40<47:53:50,  1.74s/it]                                                         1%|          | 670/100000 [24:40<47:53:50,  1.74s/it]  1%|          | 671/100000 [24:41<45:09:19,  1.64s/it]                                                         1%|          | 671/100000 [24:41<45:09:19,  1.64s/it]  1%|          | 672/100000 [24:43<42:30:08,  1.54s/it]                                                         1%|          | 672/100000 [24:43<42:30:08,  1.54s/it]  1%|          | 673/100000 [24:44<40:25:19,  1.47s/it]                                                         1%|          | 673/100000 [24:44<40:25:19,  1.47s/it]  1%|          | 674/100000 [24:45<38:28:45,  1.39s/it]                                                         1%|          | 674/100000 [24:45<38:28:45,  1.39s/it]  1%|          | 675/100000 [24:46<36:29:17,  1.32s/it]                                                         1%|          | 675/100000 [24:46<36:29:17,  1.32s/it]  1%|          | 676/100000 [24:48<34:57:46,  1.27s/it]                                                         1%|          | 676/100000 [24:48<34:57:46,  1.27s/it]  1%|          | 677/100000 [24:49<33:19:03,  1.21s/it]                                                         1%|          | 677/100000 [24:49<33:19:03,  1.21s/it]  1%|          | 678/100000 [24:50<31:56:02,  1.16s/it]                                                         1%|          | 678/100000 [24:50<31:56:02,  1.16s/it]  1%|          | 679/100000 [24:51<30:36:01,  1.11s/it]                                                         1%|          | 679/100000 [24:51<30:36:01,  1.11s/it]  1%|          | 680/100000 [24:52<29:39:03,  1.07s/it]                                                         1%|          | 680/100000 [24:52<29:39:03,  1.07s/it]  1%|          | 681/100000 [24:53<28:30:36,  1.03s/it]                                                         1%|          | 681/100000 [24:53<28:30:36,  1.03s/it]  1%|          | 682/100000 [24:54<27:34:35,  1.00it/s]                                                         1%|          | 682/100000 [24:54<27:34:35,  1.00it/s]  1%|          | 683/100000 [24:54<26:47:28,  1.03it/s]                                                         1%|          | 683/100000 [24:54<26:47:28,  1.03it/s]  1%|          | 684/100000 [24:55<26:17:25,  1.05it/s]                                                         1%|          | 684/100000 [24:55<26:17:25,  1.05it/s]  1%|          | 685/100000 [24:56<25:54:59,  1.06it/s]                                                         1%|          | 685/100000 [24:56<25:54:59,  1.06it/s]  1%|          | 686/100000 [24:57<25:04:03,  1.10it/s]                                                         1%|          | 686/100000 [24:57<25:04:03,  1.10it/s]  1%|          | 687/100000 [24:58<24:38:20,  1.12it/s]                                                         1%|          | 687/100000 [24:58<24:38:20,  1.12it/s]  1%|          | 688/100000 [24:59<23:56:29,  1.15it/s]                                                         1%|          | 688/100000 [24:59<23:56:29,  1.15it/s]  1%|          | 689/100000 [25:00<23:28:59,  1.17it/s]                                                         1%|          | 689/100000 [25:00<23:28:59,  1.17it/s]  1%|          | 690/100000 [25:00<22:50:34,  1.21it/s]                                                         1%|          | 690/100000 [25:00<22:50:34,  1.21it/s]  1%|          | 691/100000 [25:01<22:25:28,  1.23it/s]                                                         1%|          | 691/100000 [25:01<22:25:28,  1.23it/s]  1%|          | 692/100000 [25:02<20:27:32,  1.35it/s]                                                         1%|          | 692/100000 [25:02<20:27:32,  1.35it/s]  1%|          | 693/100000 [25:14<114:23:15,  4.15s/it]                                                          1%|          | 693/100000 [25:14<114:23:15,  4.15s/it]  1%|          | 694/100000 [25:22<144:59:09,  5.26s/it]                                                          1%|          | 694/100000 [25:22<144:59:09,  5.26s/it]  1%|          | 695/100000 [25:27<148:25:43,  5.38s/it]                                                          1%|          | 695/100000 [25:27<148:25:43,  5.38s/it]  1%|          | 696/100000 [25:32<142:31:06,  5.17s/it]                                                          1%|          | 696/100000 [25:32<142:31:06,  5.17s/it]  1%|          | 697/100000 [25:36<133:29:07,  4.84s/it]                                                          1%|          | 697/100000 [25:36<133:29:07,  4.84s/it]  1%|          | 698/100000 [25:40<123:04:43,  4.46s/it]                                                          1%|          | 698/100000 [25:40<123:04:43,  4.46s/it]  1%|          | 699/100000 [25:43<112:00:00,  4.06s/it]                                                          1%|          | 699/100000 [25:43<112:00:00,  4.06s/it]  1%|          | 700/100000 [25:46<101:31:38,  3.68s/it]                                                          1%|          | 700/100000 [25:46<101:31:38,  3.68s/it]  1%|          | 701/100000 [25:48<90:24:21,  3.28s/it]                                                          1%|          | 701/100000 [25:48<90:24:21,  3.28s/it]  1%|          | 702/100000 [25:50<81:36:45,  2.96s/it]                                                       {'loss': 2.8236, 'grad_norm': 8.016243934631348, 'learning_rate': 1.8420000000000001e-06, 'epoch': 4.01}
{'loss': 2.7215, 'grad_norm': 1.9736648797988892, 'learning_rate': 1.8450000000000001e-06, 'epoch': 4.01}
{'loss': 2.7399, 'grad_norm': 3.0306055545806885, 'learning_rate': 1.8480000000000001e-06, 'epoch': 4.02}
{'loss': 2.7124, 'grad_norm': 2.9483137130737305, 'learning_rate': 1.851e-06, 'epoch': 4.03}
{'loss': 2.7103, 'grad_norm': 2.889512538909912, 'learning_rate': 1.8540000000000002e-06, 'epoch': 4.03}
{'loss': 2.7022, 'grad_norm': 2.161566972732544, 'learning_rate': 1.857e-06, 'epoch': 4.04}
{'loss': 2.6816, 'grad_norm': 2.87969708442688, 'learning_rate': 1.86e-06, 'epoch': 4.05}
{'loss': 2.7245, 'grad_norm': 2.6532859802246094, 'learning_rate': 1.8630000000000002e-06, 'epoch': 4.05}
{'loss': 2.7717, 'grad_norm': 2.8605124950408936, 'learning_rate': 1.866e-06, 'epoch': 4.06}
{'loss': 2.6551, 'grad_norm': 3.5464327335357666, 'learning_rate': 1.869e-06, 'epoch': 4.06}
{'loss': 2.6428, 'grad_norm': 5.250473976135254, 'learning_rate': 1.872e-06, 'epoch': 4.07}
{'loss': 2.6637, 'grad_norm': 3.970099449157715, 'learning_rate': 1.875e-06, 'epoch': 4.08}
{'loss': 2.6211, 'grad_norm': 5.711413860321045, 'learning_rate': 1.878e-06, 'epoch': 4.08}
{'loss': 2.6309, 'grad_norm': 3.115429639816284, 'learning_rate': 1.8810000000000003e-06, 'epoch': 4.09}
{'loss': 2.6255, 'grad_norm': 2.550539493560791, 'learning_rate': 1.8839999999999999e-06, 'epoch': 4.1}
{'loss': 2.6222, 'grad_norm': 2.432072639465332, 'learning_rate': 1.8869999999999999e-06, 'epoch': 4.1}
{'loss': 2.6987, 'grad_norm': 7.544760227203369, 'learning_rate': 1.8900000000000001e-06, 'epoch': 4.11}
{'loss': 2.6317, 'grad_norm': 6.24730920791626, 'learning_rate': 1.8930000000000001e-06, 'epoch': 4.12}
{'loss': 2.6154, 'grad_norm': 3.4071643352508545, 'learning_rate': 1.8960000000000001e-06, 'epoch': 4.12}
{'loss': 2.6009, 'grad_norm': 3.4035820960998535, 'learning_rate': 1.899e-06, 'epoch': 4.13}
{'loss': 2.619, 'grad_norm': 2.6707935333251953, 'learning_rate': 1.902e-06, 'epoch': 4.14}
{'loss': 2.5805, 'grad_norm': 2.748026132583618, 'learning_rate': 1.905e-06, 'epoch': 4.14}
{'loss': 2.6009, 'grad_norm': 4.98626184463501, 'learning_rate': 1.908e-06, 'epoch': 4.15}
{'loss': 2.6198, 'grad_norm': 3.9673960208892822, 'learning_rate': 1.9110000000000004e-06, 'epoch': 4.16}
{'loss': 2.6664, 'grad_norm': 5.471895217895508, 'learning_rate': 1.914e-06, 'epoch': 4.16}
{'loss': 2.6135, 'grad_norm': 4.04532527923584, 'learning_rate': 1.917e-06, 'epoch': 4.17}
{'loss': 2.6122, 'grad_norm': 3.7612414360046387, 'learning_rate': 1.9200000000000003e-06, 'epoch': 4.18}
{'loss': 2.6052, 'grad_norm': 3.465284824371338, 'learning_rate': 1.923e-06, 'epoch': 4.18}
{'loss': 2.5876, 'grad_norm': 3.579526424407959, 'learning_rate': 1.926e-06, 'epoch': 4.19}
{'loss': 2.5975, 'grad_norm': 4.452870845794678, 'learning_rate': 1.929e-06, 'epoch': 4.19}
{'loss': 2.5787, 'grad_norm': 8.713016510009766, 'learning_rate': 1.932e-06, 'epoch': 4.2}
{'loss': 2.6624, 'grad_norm': 6.880091190338135, 'learning_rate': 1.935e-06, 'epoch': 4.21}
{'loss': 2.6373, 'grad_norm': 9.84638786315918, 'learning_rate': 1.9380000000000003e-06, 'epoch': 4.21}
{'loss': 2.5819, 'grad_norm': 3.775571584701538, 'learning_rate': 1.9409999999999997e-06, 'epoch': 4.22}
{'loss': 2.5538, 'grad_norm': 7.915885925292969, 'learning_rate': 1.944e-06, 'epoch': 4.23}
{'loss': 2.7285, 'grad_norm': 4.474128723144531, 'learning_rate': 1.947e-06, 'epoch': 4.23}
{'loss': 2.7358, 'grad_norm': 14.783551216125488, 'learning_rate': 1.95e-06, 'epoch': 4.24}
{'loss': 2.8094, 'grad_norm': 8.759539604187012, 'learning_rate': 1.953e-06, 'epoch': 4.25}
{'loss': 2.6386, 'grad_norm': 5.118618965148926, 'learning_rate': 1.956e-06, 'epoch': 4.25}
{'loss': 2.6752, 'grad_norm': 5.274510383605957, 'learning_rate': 1.959e-06, 'epoch': 4.26}
{'loss': 2.5732, 'grad_norm': 5.406915664672852, 'learning_rate': 1.962e-06, 'epoch': 4.27}
{'loss': 2.5292, 'grad_norm': 3.1431541442871094, 'learning_rate': 1.9650000000000002e-06, 'epoch': 4.27}
{'loss': 2.5078, 'grad_norm': 2.8260116577148438, 'learning_rate': 1.968e-06, 'epoch': 4.28}
{'loss': 2.5209, 'grad_norm': 3.488223075866699, 'learning_rate': 1.971e-06, 'epoch': 4.29}
{'loss': 2.5005, 'grad_norm': 3.5588366985321045, 'learning_rate': 1.974e-06, 'epoch': 4.29}
{'loss': 2.4894, 'grad_norm': 3.0999555587768555, 'learning_rate': 1.977e-06, 'epoch': 4.3}
{'loss': 2.4539, 'grad_norm': 3.221823215484619, 'learning_rate': 1.98e-06, 'epoch': 4.31}
{'loss': 2.4729, 'grad_norm': 2.913315534591675, 'learning_rate': 1.9830000000000003e-06, 'epoch': 4.31}
{'loss': 2.4212, 'grad_norm': 2.681320905685425, 'learning_rate': 1.9859999999999997e-06, 'epoch': 4.32}
{'loss': 2.4048, 'grad_norm': 4.3447089195251465, 'learning_rate': 1.989e-06, 'epoch': 4.32}
{'loss': 2.4023, 'grad_norm': 3.860137939453125, 'learning_rate': 1.992e-06, 'epoch': 4.33}
{'loss': 2.384, 'grad_norm': 4.311972141265869, 'learning_rate': 1.995e-06, 'epoch': 4.34}
{'loss': 2.3642, 'grad_norm': 3.849404811859131, 'learning_rate': 1.998e-06, 'epoch': 4.34}
{'loss': 2.3703, 'grad_norm': 2.9298040866851807, 'learning_rate': 2.001e-06, 'epoch': 4.35}
{'loss': 2.3021, 'grad_norm': 2.918396472930908, 'learning_rate': 2.004e-06, 'epoch': 4.36}
{'loss': 2.404, 'grad_norm': 4.152365684509277, 'learning_rate': 2.007e-06, 'epoch': 4.36}
{'loss': 2.3648, 'grad_norm': 5.191005706787109, 'learning_rate': 2.0100000000000002e-06, 'epoch': 4.37}
{'loss': 2.3739, 'grad_norm': 4.328756809234619, 'learning_rate': 2.0130000000000005e-06, 'epoch': 4.38}
{'loss': 2.3441, 'grad_norm': 4.004716873168945, 'learning_rate': 2.016e-06, 'epoch': 4.38}
{'loss': 2.3912, 'grad_norm': 5.430039882659912, 'learning_rate': 2.019e-06, 'epoch': 4.39}
{'loss': 2.3971, 'grad_norm': 4.520713806152344, 'learning_rate': 2.0220000000000003e-06, 'epoch': 4.4}
{'loss': 2.4111, 'grad_norm': 6.2071967124938965, 'learning_rate': 2.025e-06, 'epoch': 4.4}
{'loss': 2.4136, 'grad_norm': 7.6576032638549805, 'learning_rate': 2.028e-06, 'epoch': 4.41}
{'loss': 2.3601, 'grad_norm': 5.889764785766602, 'learning_rate': 2.031e-06, 'epoch': 4.42}
{'loss': 2.4332, 'grad_norm': 6.267051696777344, 'learning_rate': 2.034e-06, 'epoch': 4.42}
{'loss': 2.4092, 'grad_norm': 6.343087196350098, 'learning_rate': 2.037e-06, 'epoch': 4.43}
{'loss': 2.3748, 'grad_norm': 5.840054988861084, 'learning_rate': 2.0400000000000004e-06, 'epoch': 4.44}
{'loss': 2.3961, 'grad_norm': 6.592100143432617, 'learning_rate': 2.0429999999999998e-06, 'epoch': 4.44}
{'loss': 2.4575, 'grad_norm': 5.4919753074646, 'learning_rate': 2.046e-06, 'epoch': 4.45}
{'loss': 2.4073, 'grad_norm': 8.710158348083496, 'learning_rate': 2.049e-06, 'epoch': 4.45}
{'loss': 2.4851, 'grad_norm': 14.111550331115723, 'learning_rate': 2.052e-06, 'epoch': 4.46}
{'loss': 2.4622, 'grad_norm': 8.776272773742676, 'learning_rate': 2.0550000000000002e-06, 'epoch': 4.47}
{'loss': 2.4764, 'grad_norm': 9.687732696533203, 'learning_rate': 2.058e-06, 'epoch': 4.47}
{'loss': 2.4256, 'grad_norm': 8.699620246887207, 'learning_rate': 2.061e-06, 'epoch': 4.48}
{'loss': 2.5513, 'grad_norm': 5.158205509185791, 'learning_rate': 2.064e-06, 'epoch': 4.49}
{'loss': 2.5279, 'grad_norm': 7.075364112854004, 'learning_rate': 2.0670000000000003e-06, 'epoch': 4.49}
{'loss': 2.4259, 'grad_norm': 6.216690540313721, 'learning_rate': 2.07e-06, 'epoch': 4.5}
{'loss': 2.3264, 'grad_norm': 4.3505730628967285, 'learning_rate': 2.073e-06, 'epoch': 4.51}
{'loss': 2.3047, 'grad_norm': 3.6070401668548584, 'learning_rate': 2.076e-06, 'epoch': 4.51}
{'loss': 2.2534, 'grad_norm': 3.2654669284820557, 'learning_rate': 2.079e-06, 'epoch': 4.52}
{'loss': 2.2466, 'grad_norm': 3.539280414581299, 'learning_rate': 2.082e-06, 'epoch': 4.53}
{'loss': 2.1294, 'grad_norm': 3.975067377090454, 'learning_rate': 2.0850000000000004e-06, 'epoch': 4.53}
{'loss': 2.1616, 'grad_norm': 3.188832998275757, 'learning_rate': 2.0879999999999997e-06, 'epoch': 4.54}
{'loss': 2.1145, 'grad_norm': 2.8093178272247314, 'learning_rate': 2.091e-06, 'epoch': 4.55}
{'loss': 2.2376, 'grad_norm': 3.646913766860962, 'learning_rate': 2.094e-06, 'epoch': 4.55}
  1%|          | 702/100000 [25:50<81:36:45,  2.96s/it]  1%|          | 703/100000 [25:52<73:49:31,  2.68s/it]                                                         1%|          | 703/100000 [25:52<73:49:31,  2.68s/it]  1%|          | 704/100000 [25:54<66:48:21,  2.42s/it]                                                         1%|          | 704/100000 [25:54<66:48:21,  2.42s/it]  1%|          | 705/100000 [25:56<61:28:45,  2.23s/it]                                                         1%|          | 705/100000 [25:56<61:28:45,  2.23s/it]  1%|          | 706/100000 [25:57<56:38:09,  2.05s/it]                                                         1%|          | 706/100000 [25:57<56:38:09,  2.05s/it]  1%|          | 707/100000 [25:59<52:57:15,  1.92s/it]                                                         1%|          | 707/100000 [25:59<52:57:15,  1.92s/it]  1%|          | 708/100000 [26:00<49:45:33,  1.80s/it]                                                         1%|          | 708/100000 [26:00<49:45:33,  1.80s/it]  1%|          | 709/100000 [26:02<46:21:48,  1.68s/it]                                                         1%|          | 709/100000 [26:02<46:21:48,  1.68s/it]  1%|          | 710/100000 [26:03<43:51:12,  1.59s/it]                                                         1%|          | 710/100000 [26:03<43:51:12,  1.59s/it]  1%|          | 711/100000 [26:05<41:22:12,  1.50s/it]                                                         1%|          | 711/100000 [26:05<41:22:12,  1.50s/it]  1%|          | 712/100000 [26:06<39:12:49,  1.42s/it]                                                         1%|          | 712/100000 [26:06<39:12:49,  1.42s/it]  1%|          | 713/100000 [26:07<37:25:15,  1.36s/it]                                                         1%|          | 713/100000 [26:07<37:25:15,  1.36s/it]  1%|          | 714/100000 [26:08<35:30:02,  1.29s/it]                                                         1%|          | 714/100000 [26:08<35:30:02,  1.29s/it]  1%|          | 715/100000 [26:09<33:38:18,  1.22s/it]                                                         1%|          | 715/100000 [26:09<33:38:18,  1.22s/it]  1%|          | 716/100000 [26:10<31:55:40,  1.16s/it]                                                         1%|          | 716/100000 [26:10<31:55:40,  1.16s/it]  1%|          | 717/100000 [26:11<30:27:16,  1.10s/it]                                                         1%|          | 717/100000 [26:11<30:27:16,  1.10s/it]  1%|          | 718/100000 [26:12<29:23:08,  1.07s/it]                                                         1%|          | 718/100000 [26:12<29:23:08,  1.07s/it]  1%|          | 719/100000 [26:13<28:18:46,  1.03s/it]                                                         1%|          | 719/100000 [26:13<28:18:46,  1.03s/it]  1%|          | 720/100000 [26:14<27:25:28,  1.01it/s]                                                         1%|          | 720/100000 [26:14<27:25:28,  1.01it/s]  1%|          | 721/100000 [26:15<26:40:49,  1.03it/s]                                                         1%|          | 721/100000 [26:15<26:40:49,  1.03it/s]  1%|          | 722/100000 [26:16<25:54:03,  1.06it/s]                                                         1%|          | 722/100000 [26:16<25:54:03,  1.06it/s]  1%|          | 723/100000 [26:17<25:53:06,  1.07it/s]                                                         1%|          | 723/100000 [26:17<25:53:06,  1.07it/s]  1%|          | 724/100000 [26:18<25:03:52,  1.10it/s]                                                         1%|          | 724/100000 [26:18<25:03:52,  1.10it/s]  1%|          | 725/100000 [26:18<24:35:59,  1.12it/s]                                                         1%|          | 725/100000 [26:18<24:35:59,  1.12it/s]  1%|          | 726/100000 [26:19<23:51:12,  1.16it/s]                                                         1%|          | 726/100000 [26:19<23:51:12,  1.16it/s]  1%|          | 727/100000 [26:20<22:47:28,  1.21it/s]                                                         1%|          | 727/100000 [26:20<22:47:28,  1.21it/s]  1%|          | 728/100000 [26:21<22:00:17,  1.25it/s]                                                         1%|          | 728/100000 [26:21<22:00:17,  1.25it/s]  1%|          | 729/100000 [26:21<22:03:06,  1.25it/s]                                                         1%|          | 729/100000 [26:21<22:03:06,  1.25it/s]  1%|          | 730/100000 [26:22<21:01:41,  1.31it/s]                                                         1%|          | 730/100000 [26:22<21:01:41,  1.31it/s]  1%|          | 731/100000 [26:34<112:19:03,  4.07s/it]                                                          1%|          | 731/100000 [26:34<112:19:03,  4.07s/it]  1%|          | 732/100000 [26:42<147:54:44,  5.36s/it]                                                          1%|          | 732/100000 [26:42<147:54:44,  5.36s/it]  1%|          | 733/100000 [26:48<147:58:17,  5.37s/it]                                                          1%|          | 733/100000 [26:48<147:58:17,  5.37s/it]  1%|          | 734/100000 [26:52<143:05:09,  5.19s/it]                                                          1%|          | 734/100000 [26:52<143:05:09,  5.19s/it]  1%|          | 735/100000 [26:57<133:35:04,  4.84s/it]                                                          1%|          | 735/100000 [26:57<133:35:04,  4.84s/it]  1%|          | 736/100000 [27:00<122:22:54,  4.44s/it]                                                          1%|          | 736/100000 [27:00<122:22:54,  4.44s/it]  1%|          | 737/100000 [27:03<111:31:43,  4.04s/it]                                                          1%|          | 737/100000 [27:03<111:31:43,  4.04s/it]  1%|          | 738/100000 [27:06<100:37:52,  3.65s/it]                                                          1%|          | 738/100000 [27:06<100:37:52,  3.65s/it]  1%|          | 739/100000 [27:08<89:33:48,  3.25s/it]                                                          1%|          | 739/100000 [27:08<89:33:48,  3.25s/it]  1%|          | 740/100000 [27:10<80:53:59,  2.93s/it]                                                         1%|          | 740/100000 [27:10<80:53:59,  2.93s/it]  1%|          | 741/100000 [27:12<73:01:46,  2.65s/it]                                                         1%|          | 741/100000 [27:12<73:01:46,  2.65s/it]  1%|          | 742/100000 [27:14<66:16:11,  2.40s/it]                                                         1%|          | 742/100000 [27:14<66:16:11,  2.40s/it]  1%|          | 743/100000 [27:16<60:43:28,  2.20s/it]                                                         1%|          | 743/100000 [27:16<60:43:28,  2.20s/it]  1%|          | 744/100000 [27:18<55:56:10,  2.03s/it]                                                         1%|          | 744/100000 [27:18<55:56:10,  2.03s/it]  1%|          | 745/100000 [27:19<52:01:24,  1.89s/it]                                                         1%|          | 745/100000 [27:19<52:01:24,  1.89s/it]  1%|          | 746/100000 [27:21<48:25:20,  1.76s/it]                                                         1%|          | 746/100000 [27:21<48:25:20,  1.76s/it]  1%|          | 747/100000 [27:22<45:38:23,  1.66s/it]                                                         1%|          | 747/100000 [27:22<45:38:23,  1.66s/it]  1%|          | 748/100000 [27:23<42:57:29,  1.56s/it]                                                         1%|          | 748/100000 [27:23<42:57:29,  1.56s/it]  1%|          | 749/100000 [27:25<40:38:10,  1.47s/it]                                                         1%|          | 749/100000 [27:25<40:38:10,  1.47s/it]  1%|          | 750/100000 [27:26<38:44:10,  1.41s/it]                                                         1%|          | 750/100000 [27:26<38:44:10,  1.41s/it]  1%|          | 751/100000 [27:27<36:45:56,  1.33s/it]                                                         1%|          | 751/100000 [27:27<36:45:56,  1.33s/it]  1%|          | 752/100000 [27:28<35:03:27,  1.27s/it]                                                         1%|          | 752/100000 [27:28<35:03:27,  1.27s/it]  1%|          | 753/100000 [27:29<33:06:39,  1.20s/it]                                                         1%|          | 753/100000 [27:29<33:06:39,  1.20s/it]  1%|          | 754/100000 [27:30<31:31:22,  1.14s/it]                                                         1%|          | 754/100000 [27:30<31:31:22,  1.14s/it]  1%|          | 755/100000 [27:31<29:40:13,  1.08s/it]                                                         1%|          | 755/100000 [27:31<29:40:13,  1.08s/it]  1%|          | 756/100000 [27:32<28:24:16,  1.03s/it]                                                         1%|          | 756/100000 [27:32<28:24:16,  1.03s/it]  1%|          | 757/100000 [27:33<27:18:41,  1.01it/s]                                                         1%|          | 757/100000 [27:33<27:18:41,  1.01it/s]  1%|          | 758/100000 [27:34<26:08:12,  1.05it/s]                                                         1%|          | 758/100000 [27:34<26:08:12,  1.05it/s]  1%|          | 759/100000 [27:35<24:56:41,  1.11it/s]                                                         1%|          | 759/100000 [27:35<24:56:41,  1.11it/s]  1%|          | 760/100000 [27:35<23:49:37,  1.16it/s]                                                         1%|          | 760/100000 [27:35<23:49:37,  1.16it/s]  1%|          | 761/100000 [27:36<23:21:10,  1.18it/s]                                                         1%|          | 761/100000 [27:36<23:21:10,  1.18it/s]  1%|          | 762/100000 [27:37<22:28:58,  1.23it/s]                                                         1%|          | 762/100000 [27:37<22:28:58,  1.23it/s]  1%|          | 763/100000 [27:38<21:33:07,  1.28it/s]                                                         1%|          | 763/100000 [27:38<21:33:07,  1.28it/s]  1%|          | 764/100000 [27:38<20:55:56,  1.32it/s]                                                         1%|          | 764/100000 [27:38<20:55:56,  1.32it/s]  1%|          | 765/100000 [27:39<20:08:33,  1.37it/s]                                                         1%|          | 765/100000 [27:39<20:08:33,  1.37it/s]  1%|          | 766/100000 [27:40<19:38:53,  1.40it/s]                                                         1%|          | 766/100000 [27:40<19:38:53,  1.40it/s]  1%|          | 767/100000 [27:40<18:54:36,  1.46it/s]                                                         1%|          | 767/100000 [27:40<18:54:36,  1.46it/s]  1%|          | 768/100000 [27:41<17:57:31,  1.53it/s]                                                         1%|          | 768/100000 [27:41<17:57:31,  1.53it/s]  1%|          | 769/100000 [27:48<68:17:48,  2.48s/it]                                                         1%|          | 769/100000 [27:48<68:17:48,  2.48s/it]  1%|          | 770/100000 [27:49<58:50:40,  2.13s/it]                                                         1%|          | 770/100000 [27:49<58:50:40,  2.13s/it]{'loss': 2.1377, 'grad_norm': 2.85001540184021, 'learning_rate': 2.097e-06, 'epoch': 4.56}
{'loss': 2.0543, 'grad_norm': 3.3553292751312256, 'learning_rate': 2.1000000000000002e-06, 'epoch': 4.56}
{'loss': 2.0922, 'grad_norm': 3.331423044204712, 'learning_rate': 2.103e-06, 'epoch': 4.57}
{'loss': 2.066, 'grad_norm': 2.7550370693206787, 'learning_rate': 2.106e-06, 'epoch': 4.58}
{'loss': 2.0648, 'grad_norm': 3.9721803665161133, 'learning_rate': 2.109e-06, 'epoch': 4.58}
{'loss': 1.9606, 'grad_norm': 4.049196243286133, 'learning_rate': 2.1120000000000003e-06, 'epoch': 4.59}
{'loss': 1.9951, 'grad_norm': 8.233665466308594, 'learning_rate': 2.1149999999999997e-06, 'epoch': 4.6}
{'loss': 2.0433, 'grad_norm': 4.444424629211426, 'learning_rate': 2.118e-06, 'epoch': 4.6}
{'loss': 1.983, 'grad_norm': 4.244647026062012, 'learning_rate': 2.121e-06, 'epoch': 4.61}
{'loss': 2.0365, 'grad_norm': 32.05794906616211, 'learning_rate': 2.124e-06, 'epoch': 4.62}
{'loss': 2.0058, 'grad_norm': 7.097498893737793, 'learning_rate': 2.127e-06, 'epoch': 4.62}
{'loss': 2.0058, 'grad_norm': 5.707354545593262, 'learning_rate': 2.13e-06, 'epoch': 4.63}
{'loss': 2.0153, 'grad_norm': 5.172471523284912, 'learning_rate': 2.133e-06, 'epoch': 4.64}
{'loss': 2.2351, 'grad_norm': 7.490414619445801, 'learning_rate': 2.136e-06, 'epoch': 4.64}
{'loss': 2.0497, 'grad_norm': 6.281972885131836, 'learning_rate': 2.139e-06, 'epoch': 4.65}
{'loss': 2.1018, 'grad_norm': 5.518222808837891, 'learning_rate': 2.1420000000000004e-06, 'epoch': 4.66}
{'loss': 2.0514, 'grad_norm': 6.697973728179932, 'learning_rate': 2.145e-06, 'epoch': 4.66}
{'loss': 2.137, 'grad_norm': 9.393377304077148, 'learning_rate': 2.148e-06, 'epoch': 4.67}
{'loss': 2.2076, 'grad_norm': 7.705755710601807, 'learning_rate': 2.1510000000000002e-06, 'epoch': 4.68}
{'loss': 2.1593, 'grad_norm': 21.98502540588379, 'learning_rate': 2.154e-06, 'epoch': 4.68}
{'loss': 2.0149, 'grad_norm': 6.317788124084473, 'learning_rate': 2.1570000000000003e-06, 'epoch': 4.69}
{'loss': 2.1839, 'grad_norm': 8.084888458251953, 'learning_rate': 2.16e-06, 'epoch': 4.69}
{'loss': 2.076, 'grad_norm': 5.3766560554504395, 'learning_rate': 2.163e-06, 'epoch': 4.7}
{'loss': 2.3535, 'grad_norm': 24.802595138549805, 'learning_rate': 2.166e-06, 'epoch': 4.71}
{'loss': 2.2781, 'grad_norm': 14.603440284729004, 'learning_rate': 2.1690000000000003e-06, 'epoch': 4.71}
{'loss': 2.1201, 'grad_norm': 8.0044584274292, 'learning_rate': 2.172e-06, 'epoch': 4.72}
{'loss': 2.1146, 'grad_norm': 10.349952697753906, 'learning_rate': 2.175e-06, 'epoch': 4.73}
{'loss': 2.2081, 'grad_norm': 12.280238151550293, 'learning_rate': 2.178e-06, 'epoch': 4.73}
{'loss': 2.4182, 'grad_norm': 22.774410247802734, 'learning_rate': 2.181e-06, 'epoch': 4.74}
{'loss': 2.0304, 'grad_norm': 5.822531223297119, 'learning_rate': 2.184e-06, 'epoch': 4.75}
{'loss': 1.9099, 'grad_norm': 3.201732873916626, 'learning_rate': 2.1870000000000004e-06, 'epoch': 4.75}
{'loss': 1.8512, 'grad_norm': 3.309046506881714, 'learning_rate': 2.1899999999999998e-06, 'epoch': 4.76}
{'loss': 1.805, 'grad_norm': 2.928600311279297, 'learning_rate': 2.193e-06, 'epoch': 4.77}
{'loss': 1.7467, 'grad_norm': 2.698194742202759, 'learning_rate': 2.1960000000000002e-06, 'epoch': 4.77}
{'loss': 1.7296, 'grad_norm': 2.4536728858947754, 'learning_rate': 2.199e-06, 'epoch': 4.78}
{'loss': 1.7183, 'grad_norm': 2.849795341491699, 'learning_rate': 2.2020000000000003e-06, 'epoch': 4.79}
{'loss': 1.7702, 'grad_norm': 3.1587133407592773, 'learning_rate': 2.205e-06, 'epoch': 4.79}
{'loss': 1.6721, 'grad_norm': 3.883622884750366, 'learning_rate': 2.208e-06, 'epoch': 4.8}
{'loss': 1.6857, 'grad_norm': 5.209526062011719, 'learning_rate': 2.211e-06, 'epoch': 4.81}
{'loss': 1.6646, 'grad_norm': 8.208236694335938, 'learning_rate': 2.2140000000000003e-06, 'epoch': 4.81}
{'loss': 1.6393, 'grad_norm': 7.432600021362305, 'learning_rate': 2.2169999999999997e-06, 'epoch': 4.82}
{'loss': 1.6565, 'grad_norm': 5.055541515350342, 'learning_rate': 2.22e-06, 'epoch': 4.82}
{'loss': 1.6271, 'grad_norm': 4.031505584716797, 'learning_rate': 2.223e-06, 'epoch': 4.83}
{'loss': 1.5713, 'grad_norm': 3.8806874752044678, 'learning_rate': 2.226e-06, 'epoch': 4.84}
{'loss': 1.6318, 'grad_norm': 4.329677104949951, 'learning_rate': 2.229e-06, 'epoch': 4.84}
{'loss': 1.608, 'grad_norm': 4.639420986175537, 'learning_rate': 2.232e-06, 'epoch': 4.85}
{'loss': 1.6429, 'grad_norm': 5.342926502227783, 'learning_rate': 2.2349999999999998e-06, 'epoch': 4.86}
{'loss': 1.7252, 'grad_norm': 9.419530868530273, 'learning_rate': 2.238e-06, 'epoch': 4.86}
{'loss': 1.6827, 'grad_norm': 7.657159328460693, 'learning_rate': 2.2410000000000002e-06, 'epoch': 4.87}
{'loss': 1.6789, 'grad_norm': 7.72108793258667, 'learning_rate': 2.244e-06, 'epoch': 4.88}
{'loss': 1.6906, 'grad_norm': 5.804722309112549, 'learning_rate': 2.247e-06, 'epoch': 4.88}
{'loss': 1.7326, 'grad_norm': 8.673036575317383, 'learning_rate': 2.25e-06, 'epoch': 4.89}
{'loss': 1.7971, 'grad_norm': 8.512405395507812, 'learning_rate': 2.253e-06, 'epoch': 4.9}
{'loss': 1.7108, 'grad_norm': 9.25348949432373, 'learning_rate': 2.256e-06, 'epoch': 4.9}
{'loss': 1.7109, 'grad_norm': 5.382587432861328, 'learning_rate': 2.2590000000000003e-06, 'epoch': 4.91}
{'loss': 1.7935, 'grad_norm': 4.584418773651123, 'learning_rate': 2.262e-06, 'epoch': 4.92}
{'loss': 1.7179, 'grad_norm': 6.837125301361084, 'learning_rate': 2.265e-06, 'epoch': 4.92}
{'loss': 1.8514, 'grad_norm': nan, 'learning_rate': 2.265e-06, 'epoch': 4.93}
{'loss': 1.8805, 'grad_norm': 9.2378568649292, 'learning_rate': 2.268e-06, 'epoch': 4.94}
{'loss': 1.7644, 'grad_norm': 13.445802688598633, 'learning_rate': 2.2710000000000004e-06, 'epoch': 4.94}
{'loss': 1.8674, 'grad_norm': 7.165810585021973, 'learning_rate': 2.274e-06, 'epoch': 4.95}
{'loss': 1.937, 'grad_norm': 8.791128158569336, 'learning_rate': 2.277e-06, 'epoch': 4.95}
{'loss': 1.8572, 'grad_norm': 13.719568252563477, 'learning_rate': 2.28e-06, 'epoch': 4.96}
{'loss': 1.9968, 'grad_norm': 7.032236576080322, 'learning_rate': 2.283e-06, 'epoch': 4.97}
{'loss': 1.9211, 'grad_norm': 10.038020133972168, 'learning_rate': 2.2860000000000002e-06, 'epoch': 4.97}
{'loss': 2.0212, 'grad_norm': 8.514561653137207, 'learning_rate': 2.2890000000000004e-06, 'epoch': 4.98}
{'loss': 2.2524, 'grad_norm': 9.926140785217285, 'learning_rate': 2.292e-06, 'epoch': 4.99}
{'loss': 1.4534, 'grad_norm': 5.19812536239624, 'learning_rate': 2.295e-06, 'epoch': 4.99}
{'loss': 1.8112, 'grad_norm': 7.753538608551025, 'learning_rate': 2.2980000000000003e-06, 'epoch': 5.0}
  1%|          | 771/100000 [28:06<183:29:55,  6.66s/it]                                                          1%|          | 771/100000 [28:06<183:29:55,  6.66s/it]  1%|          | 772/100000 [28:14<192:19:36,  6.98s/it]                                                          1%|          | 772/100000 [28:14<192:19:36,  6.98s/it]  1%|          | 773/100000 [28:19<179:15:11,  6.50s/it]                                                          1%|          | 773/100000 [28:19<179:15:11,  6.50s/it]  1%|          | 774/100000 [28:24<162:50:29,  5.91s/it]                                                          1%|          | 774/100000 [28:24<162:50:29,  5.91s/it]  1%|          | 775/100000 [28:27<144:56:50,  5.26s/it]                                                          1%|          | 775/100000 [28:28<144:56:50,  5.26s/it]  1%|          | 776/100000 [28:31<130:14:36,  4.73s/it]                                                          1%|          | 776/100000 [28:31<130:14:36,  4.73s/it]  1%|          | 777/100000 [28:34<115:22:39,  4.19s/it]                                                          1%|          | 777/100000 [28:34<115:22:39,  4.19s/it]  1%|          | 778/100000 [28:36<101:24:31,  3.68s/it]                                                          1%|          | 778/100000 [28:36<101:24:31,  3.68s/it]  1%|          | 779/100000 [28:39<88:53:15,  3.23s/it]                                                          1%|          | 779/100000 [28:39<88:53:15,  3.23s/it]  1%|          | 780/100000 [28:41<79:10:06,  2.87s/it]                                                         1%|          | 780/100000 [28:41<79:10:06,  2.87s/it]  1%|          | 781/100000 [28:42<70:48:06,  2.57s/it]                                                         1%|          | 781/100000 [28:42<70:48:06,  2.57s/it]  1%|          | 782/100000 [28:44<64:13:28,  2.33s/it]                                                         1%|          | 782/100000 [28:44<64:13:28,  2.33s/it]  1%|          | 783/100000 [28:46<58:52:52,  2.14s/it]                                                         1%|          | 783/100000 [28:46<58:52:52,  2.14s/it]  1%|          | 784/100000 [28:48<54:37:46,  1.98s/it]                                                         1%|          | 784/100000 [28:48<54:37:46,  1.98s/it]  1%|          | 785/100000 [28:49<50:35:01,  1.84s/it]                                                         1%|          | 785/100000 [28:49<50:35:01,  1.84s/it]  1%|          | 786/100000 [28:50<47:07:08,  1.71s/it]                                                         1%|          | 786/100000 [28:50<47:07:08,  1.71s/it]  1%|          | 787/100000 [28:52<44:34:26,  1.62s/it]                                                         1%|          | 787/100000 [28:52<44:34:26,  1.62s/it]  1%|          | 788/100000 [28:53<42:13:24,  1.53s/it]                                                         1%|          | 788/100000 [28:53<42:13:24,  1.53s/it]  1%|          | 789/100000 [28:55<40:21:34,  1.46s/it]                                                         1%|          | 789/100000 [28:55<40:21:34,  1.46s/it]  1%|          | 790/100000 [28:56<38:27:26,  1.40s/it]                                                         1%|          | 790/100000 [28:56<38:27:26,  1.40s/it]  1%|          | 791/100000 [28:57<36:36:20,  1.33s/it]                                                         1%|          | 791/100000 [28:57<36:36:20,  1.33s/it]  1%|          | 792/100000 [28:58<34:48:18,  1.26s/it]                                                         1%|          | 792/100000 [28:58<34:48:18,  1.26s/it]  1%|          | 793/100000 [28:59<32:59:17,  1.20s/it]                                                         1%|          | 793/100000 [28:59<32:59:17,  1.20s/it]  1%|          | 794/100000 [29:00<31:41:12,  1.15s/it]                                                         1%|          | 794/100000 [29:00<31:41:12,  1.15s/it]  1%|          | 795/100000 [29:01<30:04:48,  1.09s/it]                                                         1%|          | 795/100000 [29:01<30:04:48,  1.09s/it]  1%|          | 796/100000 [29:02<28:42:38,  1.04s/it]                                                         1%|          | 796/100000 [29:02<28:42:38,  1.04s/it]  1%|          | 797/100000 [29:03<27:49:24,  1.01s/it]                                                         1%|          | 797/100000 [29:03<27:49:24,  1.01s/it]  1%|          | 798/100000 [29:04<26:31:40,  1.04it/s]                                                         1%|          | 798/100000 [29:04<26:31:40,  1.04it/s]  1%|          | 799/100000 [29:05<25:23:53,  1.08it/s]                                                         1%|          | 799/100000 [29:05<25:23:53,  1.08it/s]  1%|          | 800/100000 [29:05<24:49:19,  1.11it/s]                                                         1%|          | 800/100000 [29:05<24:49:19,  1.11it/s]  1%|          | 801/100000 [29:06<24:05:39,  1.14it/s]                                                         1%|          | 801/100000 [29:06<24:05:39,  1.14it/s]  1%|          | 802/100000 [29:07<23:00:11,  1.20it/s]                                                         1%|          | 802/100000 [29:07<23:00:11,  1.20it/s]  1%|          | 803/100000 [29:08<22:20:24,  1.23it/s]                                                         1%|          | 803/100000 [29:08<22:20:24,  1.23it/s]  1%|          | 804/100000 [29:09<23:02:21,  1.20it/s]                                                         1%|          | 804/100000 [29:09<23:02:21,  1.20it/s]  1%|          | 805/100000 [29:09<22:33:30,  1.22it/s]                                                         1%|          | 805/100000 [29:09<22:33:30,  1.22it/s]  1%|          | 806/100000 [29:10<21:29:17,  1.28it/s]                                                         1%|          | 806/100000 [29:10<21:29:17,  1.28it/s]  1%|          | 807/100000 [29:11<21:19:46,  1.29it/s]                                                         1%|          | 807/100000 [29:11<21:19:46,  1.29it/s]  1%|          | 808/100000 [29:12<20:42:23,  1.33it/s]                                                         1%|          | 808/100000 [29:12<20:42:23,  1.33it/s]  1%|          | 809/100000 [29:25<123:19:33,  4.48s/it]                                                          1%|          | 809/100000 [29:25<123:19:33,  4.48s/it]  1%|          | 810/100000 [29:33<152:10:14,  5.52s/it]                                                          1%|          | 810/100000 [29:33<152:10:14,  5.52s/it]  1%|          | 811/100000 [29:38<152:50:33,  5.55s/it]                                                          1%|          | 811/100000 [29:38<152:50:33,  5.55s/it]  1%|          | 812/100000 [29:43<144:29:38,  5.24s/it]                                                          1%|          | 812/100000 [29:43<144:29:38,  5.24s/it]  1%|          | 813/100000 [29:47<133:02:38,  4.83s/it]                                                          1%|          | 813/100000 [29:47<133:02:38,  4.83s/it]  1%|          | 814/100000 [29:50<120:13:19,  4.36s/it]                                                          1%|          | 814/100000 [29:50<120:13:19,  4.36s/it]  1%|          | 815/100000 [29:53<109:35:50,  3.98s/it]                                                          1%|          | 815/100000 [29:53<109:35:50,  3.98s/it]  1%|          | 816/100000 [29:56<99:37:43,  3.62s/it]                                                          1%|          | 816/100000 [29:56<99:37:43,  3.62s/it]  1%|          | 817/100000 [29:58<90:14:08,  3.28s/it]                                                         1%|          | 817/100000 [29:58<90:14:08,  3.28s/it]  1%|          | 818/100000 [30:01<81:39:33,  2.96s/it]                                                         1%|          | 818/100000 [30:01<81:39:33,  2.96s/it]  1%|          | 819/100000 [30:03<74:20:58,  2.70s/it]                                                         1%|          | 819/100000 [30:03<74:20:58,  2.70s/it]  1%|          | 820/100000 [30:04<67:19:02,  2.44s/it]                                                         1%|          | 820/100000 [30:05<67:19:02,  2.44s/it]  1%|          | 821/100000 [30:06<61:49:46,  2.24s/it]                                                         1%|          | 821/100000 [30:06<61:49:46,  2.24s/it]  1%|          | 822/100000 [30:08<56:59:18,  2.07s/it]                                                         1%|          | 822/100000 [30:08<56:59:18,  2.07s/it]  1%|          | 823/100000 [30:10<53:11:09,  1.93s/it]                                                         1%|          | 823/100000 [30:10<53:11:09,  1.93s/it]  1%|          | 824/100000 [30:11<49:33:57,  1.80s/it]                                                         1%|          | 824/100000 [30:11<49:33:57,  1.80s/it]  1%|          | 825/100000 [30:12<46:29:49,  1.69s/it]                                                         1%|          | 825/100000 [30:12<46:29:49,  1.69s/it]  1%|          | 826/100000 [30:14<44:00:08,  1.60s/it]                                                         1%|          | 826/100000 [30:14<44:00:08,  1.60s/it]  1%|          | 827/100000 [30:15<41:47:21,  1.52s/it]                                                         1%|          | 827/100000 [30:15<41:47:21,  1.52s/it]  1%|          | 828/100000 [30:16<39:40:56,  1.44s/it]                                                         1%|          | 828/100000 [30:16<39:40:56,  1.44s/it]  1%|          | 829/100000 [30:18<37:34:10,  1.36s/it]                                                         1%|          | 829/100000 [30:18<37:34:10,  1.36s/it]  1%|          | 830/100000 [30:19<35:30:49,  1.29s/it]                                                         1%|          | 830/100000 [30:19<35:30:49,  1.29s/it]  1%|          | 831/100000 [30:20<33:46:51,  1.23s/it]                                                         1%|          | 831/100000 [30:20<33:46:51,  1.23s/it]  1%|          | 832/100000 [30:21<31:56:43,  1.16s/it]                                                         1%|          | 832/100000 [30:21<31:56:43,  1.16s/it]  1%|          | 833/100000 [30:22<30:54:50,  1.12s/it]                                                         1%|          | 833/100000 [30:22<30:54:50,  1.12s/it]  1%|          | 834/100000 [30:23<29:29:28,  1.07s/it]                                                         1%|          | 834/100000 [30:23<29:29:28,  1.07s/it]  1%|          | 835/100000 [30:24<28:07:41,  1.02s/it]                                                         1%|          | 835/100000 [30:24<28:07:41,  1.02s/it]  1%|          | 836/100000 [30:25<27:22:06,  1.01it/s]                                                         1%|          | 836/100000 [30:25<27:22:06,  1.01it/s]  1%|          | 837/100000 [30:26<26:44:01,  1.03it/s]                                                         1%|          | 837/100000 [30:26<26:44:01,  1.03it/s]  1%|          | 838/100000 [30:26<25:55:09,  1.06it/s]                                                         1%|          | 838/100000 [30:26<25:55:09,  1.06it/s]  1%|          | 839/100000 [30:27<25:08:33,  1.10it/s]                                                         1%|          | 839/100000 [30:27<25:08:33,  1.10it/s]  1%|          | 840/100000 [30:28<24:42:03,  1.12it/s]                                                         1%|          | 840/100000 [30:28<24:42:03,  1.12it/s]  1%|          | 841/100000 [30:29<24:16:37,  1.13it/s]                                                         1%|          | 841/100000 [30:29<24:16:37,  1.13it/s]  1%|          | 842/100000 [30:30<23:58:22,  1.15it/s]                                                         1%|          | 842/100000 [30:30<23:58:22,  1.15it/s]  1%|          | 843/100000 [30:31<23:17:09,  1.18it/s]                                                         1%|          | 843/100000 [30:31<23:17:09,  1.18it/s]  1%|          | 844/100000 [30:31<22:36:53,  1.22it/s]                                                         1%|          | 844/100000 [30:31<22:36:53,  1.22it/s]  1%|          | 845/100000 [30:32<22:20:08,  1.23it/s]                                                         1%|          | 845/100000 [30:32<22:20:08,  1.23it/s]  1%|          | 846/100000 [30:33<21:32:52,  1.28it/s]                                                         1%|          | 846/100000 [30:33<21:32:52,  1.28it/s]  1%|          | 847/100000 [30:44<109:48:12,  3.99s/it]                                                          1%|          | 847/100000 [30:44<109:48:12,  3.99s/it]  1%|          | 848/100000 [30:52<140:07:50,  5.09s/it]                                                          1%|          | 848/100000 [30:52<140:07:50,  5.09s/it]  1%|          | 849/100000 [30:57<143:07:06,  5.20s/it]                                                          1%|          | 849/100000 [30:57<143:07:06,  5.20s/it]  1%|          | 850/100000 [31:02<137:27:03,  4.99s/it]                                                          1%|          | 850/100000 [31:02<137:27:03,  4.99s/it]  1%|          | 851/100000 [31:06<129:31:48,  4.70s/it]                                                          1%|          | 851/100000 [31:06<129:31:48,  4.70s/it]  1%|          | 852/100000 [31:10<120:20:52,  4.37s/it]                                                          1%|          | 852/100000 [31:10<120:20:52,  4.37s/it]  1%|          | 853/100000 [31:13<110:11:50,  4.00s/it]                                                          1%|          | 853/100000 [31:13<110:11:50,  4.00s/it]  1%|          | 854/100000 [31:15<99:59:45,  3.63s/it]                                                          1%|          | 854/100000 [31:16<99:59:45,  3.63s/it]  1%|          | 855/100000 [31:18<90:05:00,  3.27s/it]                                                         1%|          | 855/100000 [31:18<90:05:00,  3.27s/it]  1%|          | 856/100000 [31:20<81:07:39,  2.95s/it]                                                       {'loss': 1.8585, 'grad_norm': 11.569652557373047, 'learning_rate': 2.301e-06, 'epoch': 5.01}
{'loss': 1.6087, 'grad_norm': 5.109785079956055, 'learning_rate': 2.304e-06, 'epoch': 5.01}
{'loss': 1.455, 'grad_norm': 3.217212200164795, 'learning_rate': 2.307e-06, 'epoch': 5.02}
{'loss': 1.5273, 'grad_norm': 2.756495952606201, 'learning_rate': 2.31e-06, 'epoch': 5.03}
{'loss': 1.3676, 'grad_norm': 3.4133262634277344, 'learning_rate': 2.313e-06, 'epoch': 5.03}
{'loss': 1.3188, 'grad_norm': 5.437312126159668, 'learning_rate': 2.3160000000000004e-06, 'epoch': 5.04}
{'loss': 1.4054, 'grad_norm': 5.295063018798828, 'learning_rate': 2.3189999999999997e-06, 'epoch': 5.05}
{'loss': 1.4053, 'grad_norm': 4.223176002502441, 'learning_rate': 2.322e-06, 'epoch': 5.05}
{'loss': 1.5458, 'grad_norm': 3.500095844268799, 'learning_rate': 2.325e-06, 'epoch': 5.06}
{'loss': 1.3411, 'grad_norm': 2.888887405395508, 'learning_rate': 2.328e-06, 'epoch': 5.06}
{'loss': 1.2972, 'grad_norm': 4.020082950592041, 'learning_rate': 2.3310000000000002e-06, 'epoch': 5.07}
{'loss': 1.3885, 'grad_norm': 6.728055477142334, 'learning_rate': 2.334e-06, 'epoch': 5.08}
{'loss': 1.2924, 'grad_norm': 4.905300617218018, 'learning_rate': 2.337e-06, 'epoch': 5.08}
{'loss': 1.2685, 'grad_norm': 4.055570602416992, 'learning_rate': 2.34e-06, 'epoch': 5.09}
{'loss': 1.2935, 'grad_norm': 3.4185359477996826, 'learning_rate': 2.3430000000000003e-06, 'epoch': 5.1}
{'loss': 1.5211, 'grad_norm': 9.027408599853516, 'learning_rate': 2.346e-06, 'epoch': 5.1}
{'loss': 1.353, 'grad_norm': 4.351185321807861, 'learning_rate': 2.349e-06, 'epoch': 5.11}
{'loss': 1.3985, 'grad_norm': 4.614551067352295, 'learning_rate': 2.352e-06, 'epoch': 5.12}
{'loss': 1.3599, 'grad_norm': 4.813374042510986, 'learning_rate': 2.355e-06, 'epoch': 5.12}
{'loss': 1.381, 'grad_norm': 4.917383193969727, 'learning_rate': 2.358e-06, 'epoch': 5.13}
{'loss': 1.3348, 'grad_norm': 4.0179901123046875, 'learning_rate': 2.3610000000000003e-06, 'epoch': 5.14}
{'loss': 1.3467, 'grad_norm': 4.908172607421875, 'learning_rate': 2.3639999999999997e-06, 'epoch': 5.14}
{'loss': 1.4395, 'grad_norm': 11.607895851135254, 'learning_rate': 2.367e-06, 'epoch': 5.15}
{'loss': 1.4451, 'grad_norm': 4.7871880531311035, 'learning_rate': 2.37e-06, 'epoch': 5.16}
{'loss': 1.5192, 'grad_norm': 11.460564613342285, 'learning_rate': 2.373e-06, 'epoch': 5.16}
{'loss': 1.5902, 'grad_norm': 6.232141494750977, 'learning_rate': 2.376e-06, 'epoch': 5.17}
{'loss': 1.4607, 'grad_norm': 5.082787990570068, 'learning_rate': 2.379e-06, 'epoch': 5.18}
{'loss': 1.4791, 'grad_norm': 9.227560043334961, 'learning_rate': 2.382e-06, 'epoch': 5.18}
{'loss': 1.5944, 'grad_norm': 9.224650382995605, 'learning_rate': 2.385e-06, 'epoch': 5.19}
{'loss': 1.4977, 'grad_norm': 7.849810600280762, 'learning_rate': 2.3880000000000003e-06, 'epoch': 5.19}
{'loss': 1.5862, 'grad_norm': 8.600750923156738, 'learning_rate': 2.391e-06, 'epoch': 5.2}
{'loss': 1.6363, 'grad_norm': 14.131439208984375, 'learning_rate': 2.394e-06, 'epoch': 5.21}
{'loss': 1.7069, 'grad_norm': 9.969624519348145, 'learning_rate': 2.397e-06, 'epoch': 5.21}
{'loss': 1.6529, 'grad_norm': 6.403115749359131, 'learning_rate': 2.4000000000000003e-06, 'epoch': 5.22}
{'loss': 1.6052, 'grad_norm': 108.39295196533203, 'learning_rate': 2.403e-06, 'epoch': 5.23}
{'loss': 1.6821, 'grad_norm': 5.506855487823486, 'learning_rate': 2.406e-06, 'epoch': 5.23}
{'loss': 1.8679, 'grad_norm': 7.638607501983643, 'learning_rate': 2.409e-06, 'epoch': 5.24}
{'loss': 2.152, 'grad_norm': 9.606444358825684, 'learning_rate': 2.412e-06, 'epoch': 5.25}
{'loss': 1.4853, 'grad_norm': 8.31910228729248, 'learning_rate': 2.415e-06, 'epoch': 5.25}
{'loss': 1.3866, 'grad_norm': 6.102041244506836, 'learning_rate': 2.4180000000000004e-06, 'epoch': 5.26}
{'loss': 1.3112, 'grad_norm': 4.838797569274902, 'learning_rate': 2.4209999999999998e-06, 'epoch': 5.27}
{'loss': 1.2055, 'grad_norm': 3.0073864459991455, 'learning_rate': 2.424e-06, 'epoch': 5.27}
{'loss': 1.1095, 'grad_norm': 2.8422698974609375, 'learning_rate': 2.4270000000000002e-06, 'epoch': 5.28}
{'loss': 1.0949, 'grad_norm': 2.9738197326660156, 'learning_rate': 2.43e-06, 'epoch': 5.29}
{'loss': 1.1292, 'grad_norm': 3.6232945919036865, 'learning_rate': 2.4330000000000003e-06, 'epoch': 5.29}
{'loss': 1.1716, 'grad_norm': 3.073092460632324, 'learning_rate': 2.436e-06, 'epoch': 5.3}
{'loss': 1.2185, 'grad_norm': 4.143067836761475, 'learning_rate': 2.439e-06, 'epoch': 5.31}
{'loss': 1.1704, 'grad_norm': 4.259222507476807, 'learning_rate': 2.442e-06, 'epoch': 5.31}
{'loss': 1.1736, 'grad_norm': 5.505070686340332, 'learning_rate': 2.4450000000000003e-06, 'epoch': 5.32}
{'loss': 1.1338, 'grad_norm': 3.7892236709594727, 'learning_rate': 2.448e-06, 'epoch': 5.32}
{'loss': 1.1118, 'grad_norm': 6.803582191467285, 'learning_rate': 2.451e-06, 'epoch': 5.33}
{'loss': 1.1024, 'grad_norm': 2.7762038707733154, 'learning_rate': 2.454e-06, 'epoch': 5.34}
{'loss': 1.0418, 'grad_norm': 4.012735366821289, 'learning_rate': 2.457e-06, 'epoch': 5.34}
{'loss': 1.0959, 'grad_norm': 5.889191150665283, 'learning_rate': 2.46e-06, 'epoch': 5.35}
{'loss': 1.0416, 'grad_norm': 3.4866273403167725, 'learning_rate': 2.4630000000000004e-06, 'epoch': 5.36}
{'loss': 1.1631, 'grad_norm': 3.5856058597564697, 'learning_rate': 2.4659999999999998e-06, 'epoch': 5.36}
{'loss': 1.1647, 'grad_norm': 8.780515670776367, 'learning_rate': 2.469e-06, 'epoch': 5.37}
{'loss': 1.109, 'grad_norm': 3.3919315338134766, 'learning_rate': 2.4720000000000002e-06, 'epoch': 5.38}
{'loss': 1.1882, 'grad_norm': 5.114453315734863, 'learning_rate': 2.475e-06, 'epoch': 5.38}
{'loss': 1.3045, 'grad_norm': 14.55473804473877, 'learning_rate': 2.4780000000000002e-06, 'epoch': 5.39}
{'loss': 1.3164, 'grad_norm': 7.926926136016846, 'learning_rate': 2.481e-06, 'epoch': 5.4}
{'loss': 1.4475, 'grad_norm': 17.973833084106445, 'learning_rate': 2.484e-06, 'epoch': 5.4}
{'loss': 1.5055, 'grad_norm': 7.601463794708252, 'learning_rate': 2.487e-06, 'epoch': 5.41}
{'loss': 1.2297, 'grad_norm': 5.2435431480407715, 'learning_rate': 2.4900000000000003e-06, 'epoch': 5.42}
{'loss': 1.3926, 'grad_norm': 8.055383682250977, 'learning_rate': 2.4929999999999997e-06, 'epoch': 5.42}
{'loss': 1.3976, 'grad_norm': 6.325779914855957, 'learning_rate': 2.496e-06, 'epoch': 5.43}
{'loss': 1.3061, 'grad_norm': 7.504383087158203, 'learning_rate': 2.499e-06, 'epoch': 5.44}
{'loss': 1.5449, 'grad_norm': 8.08265209197998, 'learning_rate': 2.502e-06, 'epoch': 5.44}
{'loss': 1.4561, 'grad_norm': 6.296918869018555, 'learning_rate': 2.505e-06, 'epoch': 5.45}
{'loss': 1.6639, 'grad_norm': 7.928868293762207, 'learning_rate': 2.508e-06, 'epoch': 5.45}
{'loss': 1.7167, 'grad_norm': 7.270809650421143, 'learning_rate': 2.5109999999999998e-06, 'epoch': 5.46}
{'loss': 1.6214, 'grad_norm': 10.55119800567627, 'learning_rate': 2.514e-06, 'epoch': 5.47}
{'loss': 1.5847, 'grad_norm': 14.161493301391602, 'learning_rate': 2.517e-06, 'epoch': 5.47}
{'loss': 1.6808, 'grad_norm': 10.457619667053223, 'learning_rate': 2.52e-06, 'epoch': 5.48}
{'loss': 1.6536, 'grad_norm': 9.199241638183594, 'learning_rate': 2.523e-06, 'epoch': 5.49}
{'loss': 1.9238, 'grad_norm': 46.67509841918945, 'learning_rate': 2.526e-06, 'epoch': 5.49}
{'loss': 1.4898, 'grad_norm': 8.179494857788086, 'learning_rate': 2.5290000000000003e-06, 'epoch': 5.5}
{'loss': 1.2692, 'grad_norm': 5.871977806091309, 'learning_rate': 2.532e-06, 'epoch': 5.51}
{'loss': 1.1154, 'grad_norm': 3.7739369869232178, 'learning_rate': 2.5350000000000003e-06, 'epoch': 5.51}
{'loss': 1.0643, 'grad_norm': 2.4896888732910156, 'learning_rate': 2.538e-06, 'epoch': 5.52}
{'loss': 1.0707, 'grad_norm': 3.7600653171539307, 'learning_rate': 2.541e-06, 'epoch': 5.53}
{'loss': 1.0959, 'grad_norm': 3.5318827629089355, 'learning_rate': 2.544e-06, 'epoch': 5.53}
{'loss': 1.1185, 'grad_norm': 3.7296061515808105, 'learning_rate': 2.5470000000000003e-06, 'epoch': 5.54}
{'loss': 1.0246, 'grad_norm': 4.51806116104126, 'learning_rate': 2.55e-06, 'epoch': 5.55}
{'loss': 1.0621, 'grad_norm': 4.119184970855713, 'learning_rate': 2.553e-06, 'epoch': 5.55}
  1%|          | 856/100000 [31:20<81:07:39,  2.95s/it]  1%|          | 857/100000 [31:22<73:08:28,  2.66s/it]                                                         1%|          | 857/100000 [31:22<73:08:28,  2.66s/it]  1%|          | 858/100000 [31:24<66:27:26,  2.41s/it]                                                         1%|          | 858/100000 [31:24<66:27:26,  2.41s/it]  1%|          | 859/100000 [31:26<60:25:17,  2.19s/it]                                                         1%|          | 859/100000 [31:26<60:25:17,  2.19s/it]  1%|          | 860/100000 [31:27<55:51:25,  2.03s/it]                                                         1%|          | 860/100000 [31:27<55:51:25,  2.03s/it]  1%|          | 861/100000 [31:29<52:06:14,  1.89s/it]                                                         1%|          | 861/100000 [31:29<52:06:14,  1.89s/it]  1%|          | 862/100000 [31:30<48:31:19,  1.76s/it]                                                         1%|          | 862/100000 [31:30<48:31:19,  1.76s/it]  1%|          | 863/100000 [31:32<45:37:22,  1.66s/it]                                                         1%|          | 863/100000 [31:32<45:37:22,  1.66s/it]  1%|          | 864/100000 [31:33<43:05:57,  1.57s/it]                                                         1%|          | 864/100000 [31:33<43:05:57,  1.57s/it]  1%|          | 865/100000 [31:34<40:49:23,  1.48s/it]                                                         1%|          | 865/100000 [31:34<40:49:23,  1.48s/it]  1%|          | 866/100000 [31:36<38:51:18,  1.41s/it]                                                         1%|          | 866/100000 [31:36<38:51:18,  1.41s/it]  1%|          | 867/100000 [31:37<36:21:40,  1.32s/it]                                                         1%|          | 867/100000 [31:37<36:21:40,  1.32s/it]  1%|          | 868/100000 [31:38<34:29:32,  1.25s/it]                                                         1%|          | 868/100000 [31:38<34:29:32,  1.25s/it]  1%|          | 869/100000 [31:39<32:51:37,  1.19s/it]                                                         1%|          | 869/100000 [31:39<32:51:37,  1.19s/it]  1%|          | 870/100000 [31:40<31:32:33,  1.15s/it]                                                         1%|          | 870/100000 [31:40<31:32:33,  1.15s/it]  1%|          | 871/100000 [31:41<30:00:55,  1.09s/it]                                                         1%|          | 871/100000 [31:41<30:00:55,  1.09s/it]  1%|          | 872/100000 [31:42<28:51:14,  1.05s/it]                                                         1%|          | 872/100000 [31:42<28:51:14,  1.05s/it]  1%|          | 873/100000 [31:43<27:50:23,  1.01s/it]                                                         1%|          | 873/100000 [31:43<27:50:23,  1.01s/it]  1%|          | 874/100000 [31:44<27:06:43,  1.02it/s]                                                         1%|          | 874/100000 [31:44<27:06:43,  1.02it/s]  1%|          | 875/100000 [31:44<25:55:39,  1.06it/s]                                                         1%|          | 875/100000 [31:44<25:55:39,  1.06it/s]  1%|          | 876/100000 [31:45<24:58:49,  1.10it/s]                                                         1%|          | 876/100000 [31:45<24:58:49,  1.10it/s]  1%|          | 877/100000 [31:46<24:11:22,  1.14it/s]                                                         1%|          | 877/100000 [31:46<24:11:22,  1.14it/s]  1%|          | 878/100000 [31:47<23:38:59,  1.16it/s]                                                         1%|          | 878/100000 [31:47<23:38:59,  1.16it/s]  1%|          | 879/100000 [31:48<22:45:46,  1.21it/s]                                                         1%|          | 879/100000 [31:48<22:45:46,  1.21it/s]  1%|          | 880/100000 [31:48<22:39:05,  1.22it/s]                                                         1%|          | 880/100000 [31:48<22:39:05,  1.22it/s]  1%|          | 881/100000 [31:49<21:59:58,  1.25it/s]                                                         1%|          | 881/100000 [31:49<21:59:58,  1.25it/s]  1%|          | 882/100000 [31:50<21:12:51,  1.30it/s]                                                         1%|          | 882/100000 [31:50<21:12:51,  1.30it/s]  1%|          | 883/100000 [31:51<20:33:06,  1.34it/s]                                                         1%|          | 883/100000 [31:51<20:33:06,  1.34it/s]  1%|          | 884/100000 [31:51<19:58:00,  1.38it/s]                                                         1%|          | 884/100000 [31:51<19:58:00,  1.38it/s]  1%|          | 885/100000 [32:04<118:31:44,  4.31s/it]                                                          1%|          | 885/100000 [32:04<118:31:44,  4.31s/it]  1%|          | 886/100000 [32:13<158:17:30,  5.75s/it]                                                          1%|          | 886/100000 [32:13<158:17:30,  5.75s/it]  1%|          | 887/100000 [32:19<160:02:42,  5.81s/it]                                                          1%|          | 887/100000 [32:19<160:02:42,  5.81s/it]  1%|          | 888/100000 [32:24<151:56:26,  5.52s/it]                                                          1%|          | 888/100000 [32:24<151:56:26,  5.52s/it]  1%|          | 889/100000 [32:28<140:58:47,  5.12s/it]                                                          1%|          | 889/100000 [32:28<140:58:47,  5.12s/it]  1%|          | 890/100000 [32:32<127:58:10,  4.65s/it]                                                          1%|          | 890/100000 [32:32<127:58:10,  4.65s/it]  1%|          | 891/100000 [32:35<115:24:17,  4.19s/it]                                                          1%|          | 891/100000 [32:35<115:24:17,  4.19s/it]  1%|          | 892/100000 [32:37<101:55:49,  3.70s/it]                                                          1%|          | 892/100000 [32:37<101:55:49,  3.70s/it]  1%|          | 893/100000 [32:40<90:27:04,  3.29s/it]                                                          1%|          | 893/100000 [32:40<90:27:04,  3.29s/it]  1%|          | 894/100000 [32:42<80:14:39,  2.91s/it]                                                         1%|          | 894/100000 [32:42<80:14:39,  2.91s/it]  1%|          | 895/100000 [32:44<72:38:14,  2.64s/it]                                                         1%|          | 895/100000 [32:44<72:38:14,  2.64s/it]  1%|          | 896/100000 [32:46<66:08:13,  2.40s/it]                                                         1%|          | 896/100000 [32:46<66:08:13,  2.40s/it]  1%|          | 897/100000 [32:47<60:01:04,  2.18s/it]                                                         1%|          | 897/100000 [32:47<60:01:04,  2.18s/it]  1%|          | 898/100000 [32:49<55:26:06,  2.01s/it]                                                         1%|          | 898/100000 [32:49<55:26:06,  2.01s/it]  1%|          | 899/100000 [32:50<51:58:21,  1.89s/it]                                                         1%|          | 899/100000 [32:50<51:58:21,  1.89s/it]  1%|          | 900/100000 [32:52<48:11:45,  1.75s/it]                                                         1%|          | 900/100000 [32:52<48:11:45,  1.75s/it]  1%|          | 901/100000 [32:53<44:47:58,  1.63s/it]                                                         1%|          | 901/100000 [32:53<44:47:58,  1.63s/it]  1%|          | 902/100000 [32:54<42:17:43,  1.54s/it]                                                         1%|          | 902/100000 [32:55<42:17:43,  1.54s/it]  1%|          | 903/100000 [32:56<40:08:16,  1.46s/it]                                                         1%|          | 903/100000 [32:56<40:08:16,  1.46s/it]  1%|          | 904/100000 [32:57<38:09:56,  1.39s/it]                                                         1%|          | 904/100000 [32:57<38:09:56,  1.39s/it]  1%|          | 905/100000 [32:58<35:49:54,  1.30s/it]                                                         1%|          | 905/100000 [32:58<35:49:54,  1.30s/it]  1%|          | 906/100000 [32:59<34:01:32,  1.24s/it]                                                         1%|          | 906/100000 [32:59<34:01:32,  1.24s/it]  1%|          | 907/100000 [33:00<32:32:20,  1.18s/it]                                                         1%|          | 907/100000 [33:00<32:32:20,  1.18s/it]  1%|          | 908/100000 [33:01<30:55:49,  1.12s/it]                                                         1%|          | 908/100000 [33:01<30:55:49,  1.12s/it]  1%|          | 909/100000 [33:02<29:15:31,  1.06s/it]                                                         1%|          | 909/100000 [33:02<29:15:31,  1.06s/it]  1%|          | 910/100000 [33:03<28:10:37,  1.02s/it]                                                         1%|          | 910/100000 [33:03<28:10:37,  1.02s/it]  1%|          | 911/100000 [33:04<27:32:37,  1.00s/it]                                                         1%|          | 911/100000 [33:04<27:32:37,  1.00s/it]  1%|          | 912/100000 [33:05<26:23:50,  1.04it/s]                                                         1%|          | 912/100000 [33:05<26:23:50,  1.04it/s]  1%|          | 913/100000 [33:06<25:21:01,  1.09it/s]                                                         1%|          | 913/100000 [33:06<25:21:01,  1.09it/s]  1%|          | 914/100000 [33:06<24:11:34,  1.14it/s]                                                         1%|          | 914/100000 [33:07<24:11:34,  1.14it/s]  1%|          | 915/100000 [33:07<23:18:03,  1.18it/s]                                                         1%|          | 915/100000 [33:07<23:18:03,  1.18it/s]  1%|          | 916/100000 [33:08<22:54:33,  1.20it/s]                                                         1%|          | 916/100000 [33:08<22:54:33,  1.20it/s]  1%|          | 917/100000 [33:09<21:46:31,  1.26it/s]                                                         1%|          | 917/100000 [33:09<21:46:31,  1.26it/s]  1%|          | 918/100000 [33:10<21:25:33,  1.28it/s]                                                         1%|          | 918/100000 [33:10<21:25:33,  1.28it/s]  1%|          | 919/100000 [33:10<20:51:46,  1.32it/s]                                                         1%|          | 919/100000 [33:10<20:51:46,  1.32it/s]  1%|          | 920/100000 [33:11<20:48:54,  1.32it/s]                                                         1%|          | 920/100000 [33:11<20:48:54,  1.32it/s]  1%|          | 921/100000 [33:12<20:12:16,  1.36it/s]                                                         1%|          | 921/100000 [33:12<20:12:16,  1.36it/s]  1%|          | 922/100000 [33:12<18:56:50,  1.45it/s]                                                         1%|          | 922/100000 [33:12<18:56:50,  1.45it/s]  1%|          | 923/100000 [33:19<72:08:44,  2.62s/it]                                                         1%|          | 923/100000 [33:19<72:08:44,  2.62s/it]  1%|          | 924/100000 [33:21<60:59:00,  2.22s/it]                                                         1%|          | 924/100000 [33:21<60:59:00,  2.22s/it]{'loss': 1.102, 'grad_norm': 3.29064679145813, 'learning_rate': 2.556e-06, 'epoch': 5.56}
{'loss': 0.9888, 'grad_norm': 5.321605682373047, 'learning_rate': 2.559e-06, 'epoch': 5.56}
{'loss': 0.9137, 'grad_norm': 3.3245387077331543, 'learning_rate': 2.562e-06, 'epoch': 5.57}
{'loss': 1.0753, 'grad_norm': 5.847799301147461, 'learning_rate': 2.5650000000000004e-06, 'epoch': 5.58}
{'loss': 1.0979, 'grad_norm': 5.733116626739502, 'learning_rate': 2.568e-06, 'epoch': 5.58}
{'loss': 0.9819, 'grad_norm': 9.152737617492676, 'learning_rate': 2.571e-06, 'epoch': 5.59}
{'loss': 0.9833, 'grad_norm': 5.631340026855469, 'learning_rate': 2.5740000000000003e-06, 'epoch': 5.6}
{'loss': 0.9798, 'grad_norm': 5.35660457611084, 'learning_rate': 2.577e-06, 'epoch': 5.6}
{'loss': 1.0834, 'grad_norm': 6.376458168029785, 'learning_rate': 2.58e-06, 'epoch': 5.61}
{'loss': 1.0705, 'grad_norm': 5.073436737060547, 'learning_rate': 2.583e-06, 'epoch': 5.62}
{'loss': 1.0664, 'grad_norm': 7.937381744384766, 'learning_rate': 2.586e-06, 'epoch': 5.62}
{'loss': 1.1198, 'grad_norm': 4.402440071105957, 'learning_rate': 2.589e-06, 'epoch': 5.63}
{'loss': 1.1483, 'grad_norm': 4.9897541999816895, 'learning_rate': 2.5920000000000003e-06, 'epoch': 5.64}
{'loss': 1.4184, 'grad_norm': 24.97588348388672, 'learning_rate': 2.5949999999999997e-06, 'epoch': 5.64}
{'loss': 1.1881, 'grad_norm': 5.76544713973999, 'learning_rate': 2.598e-06, 'epoch': 5.65}
{'loss': 1.1597, 'grad_norm': 7.502388000488281, 'learning_rate': 2.601e-06, 'epoch': 5.66}
{'loss': 1.2041, 'grad_norm': 5.2544941902160645, 'learning_rate': 2.604e-06, 'epoch': 5.66}
{'loss': 1.2494, 'grad_norm': 6.3251953125, 'learning_rate': 2.607e-06, 'epoch': 5.67}
{'loss': 1.3354, 'grad_norm': 7.729732036590576, 'learning_rate': 2.61e-06, 'epoch': 5.68}
{'loss': 1.3685, 'grad_norm': 10.44172191619873, 'learning_rate': 2.613e-06, 'epoch': 5.68}
{'loss': 1.2863, 'grad_norm': 11.568806648254395, 'learning_rate': 2.616e-06, 'epoch': 5.69}
{'loss': 1.3995, 'grad_norm': 9.017763137817383, 'learning_rate': 2.6190000000000003e-06, 'epoch': 5.69}
{'loss': 1.2893, 'grad_norm': 10.072310447692871, 'learning_rate': 2.622e-06, 'epoch': 5.7}
{'loss': 1.3084, 'grad_norm': 13.862351417541504, 'learning_rate': 2.625e-06, 'epoch': 5.71}
{'loss': 1.1579, 'grad_norm': 11.43310546875, 'learning_rate': 2.628e-06, 'epoch': 5.71}
{'loss': 1.2728, 'grad_norm': 17.60503387451172, 'learning_rate': 2.631e-06, 'epoch': 5.72}
{'loss': 1.1921, 'grad_norm': 24.159862518310547, 'learning_rate': 2.634e-06, 'epoch': 5.73}
{'loss': 1.0769, 'grad_norm': 11.14074993133545, 'learning_rate': 2.6370000000000003e-06, 'epoch': 5.73}
{'loss': 1.1854, 'grad_norm': 13.355489730834961, 'learning_rate': 2.6399999999999997e-06, 'epoch': 5.74}
{'loss': 1.309, 'grad_norm': 8.116628646850586, 'learning_rate': 2.643e-06, 'epoch': 5.75}
{'loss': 1.2354, 'grad_norm': 5.947688102722168, 'learning_rate': 2.646e-06, 'epoch': 5.75}
{'loss': 1.0687, 'grad_norm': 5.0506086349487305, 'learning_rate': 2.649e-06, 'epoch': 5.76}
{'loss': 0.9835, 'grad_norm': 3.4118359088897705, 'learning_rate': 2.652e-06, 'epoch': 5.77}
{'loss': 0.9955, 'grad_norm': 6.324455738067627, 'learning_rate': 2.655e-06, 'epoch': 5.77}
{'loss': 0.9298, 'grad_norm': 7.40199613571167, 'learning_rate': 2.6580000000000002e-06, 'epoch': 5.78}
{'loss': 0.8429, 'grad_norm': 3.693037509918213, 'learning_rate': 2.661e-06, 'epoch': 5.79}
{'loss': 0.9127, 'grad_norm': 5.162536144256592, 'learning_rate': 2.6640000000000002e-06, 'epoch': 5.79}
{'loss': 0.921, 'grad_norm': 13.681314468383789, 'learning_rate': 2.6670000000000005e-06, 'epoch': 5.8}
{'loss': 0.7206, 'grad_norm': 83.54894256591797, 'learning_rate': 2.67e-06, 'epoch': 5.81}
{'loss': 0.8562, 'grad_norm': 21.261035919189453, 'learning_rate': 2.673e-06, 'epoch': 5.81}
{'loss': 0.752, 'grad_norm': 7.625468730926514, 'learning_rate': 2.6760000000000003e-06, 'epoch': 5.82}
{'loss': 0.8141, 'grad_norm': 4.658118724822998, 'learning_rate': 2.679e-06, 'epoch': 5.82}
{'loss': 0.7228, 'grad_norm': 4.0791754722595215, 'learning_rate': 2.682e-06, 'epoch': 5.83}
{'loss': 0.7446, 'grad_norm': 3.660524845123291, 'learning_rate': 2.685e-06, 'epoch': 5.84}
{'loss': 0.6377, 'grad_norm': 3.9523231983184814, 'learning_rate': 2.688e-06, 'epoch': 5.84}
{'loss': 0.7175, 'grad_norm': 4.170279026031494, 'learning_rate': 2.691e-06, 'epoch': 5.85}
{'loss': 0.6723, 'grad_norm': 3.3335423469543457, 'learning_rate': 2.6940000000000004e-06, 'epoch': 5.86}
{'loss': 0.7867, 'grad_norm': 7.54373025894165, 'learning_rate': 2.6969999999999998e-06, 'epoch': 5.86}
{'loss': 0.6843, 'grad_norm': 4.231026649475098, 'learning_rate': 2.7e-06, 'epoch': 5.87}
{'loss': 0.7137, 'grad_norm': 4.302130222320557, 'learning_rate': 2.703e-06, 'epoch': 5.88}
{'loss': 0.6589, 'grad_norm': 3.4564239978790283, 'learning_rate': 2.706e-06, 'epoch': 5.88}
{'loss': 0.7888, 'grad_norm': 14.281723976135254, 'learning_rate': 2.7090000000000002e-06, 'epoch': 5.89}
{'loss': 0.7219, 'grad_norm': 4.665317535400391, 'learning_rate': 2.712e-06, 'epoch': 5.9}
{'loss': 0.6767, 'grad_norm': 4.322805404663086, 'learning_rate': 2.715e-06, 'epoch': 5.9}
{'loss': 0.7855, 'grad_norm': 8.332898139953613, 'learning_rate': 2.718e-06, 'epoch': 5.91}
{'loss': 0.6578, 'grad_norm': 4.17042875289917, 'learning_rate': 2.7210000000000003e-06, 'epoch': 5.92}
{'loss': 0.9307, 'grad_norm': 14.312207221984863, 'learning_rate': 2.724e-06, 'epoch': 5.92}
{'loss': 0.7114, 'grad_norm': 5.149925231933594, 'learning_rate': 2.727e-06, 'epoch': 5.93}
{'loss': 0.7556, 'grad_norm': 53.36570739746094, 'learning_rate': 2.73e-06, 'epoch': 5.94}
{'loss': 0.691, 'grad_norm': 5.472302436828613, 'learning_rate': 2.733e-06, 'epoch': 5.94}
{'loss': 0.7049, 'grad_norm': 5.7581939697265625, 'learning_rate': 2.736e-06, 'epoch': 5.95}
{'loss': 0.702, 'grad_norm': 6.600161552429199, 'learning_rate': 2.7390000000000004e-06, 'epoch': 5.95}
{'loss': 0.7817, 'grad_norm': 11.734843254089355, 'learning_rate': 2.7419999999999998e-06, 'epoch': 5.96}
{'loss': 0.6783, 'grad_norm': 11.977083206176758, 'learning_rate': 2.745e-06, 'epoch': 5.97}
{'loss': 0.7797, 'grad_norm': 7.739154815673828, 'learning_rate': 2.748e-06, 'epoch': 5.97}
{'loss': 0.7342, 'grad_norm': 6.386333465576172, 'learning_rate': 2.751e-06, 'epoch': 5.98}
{'loss': 0.7914, 'grad_norm': 6.572936534881592, 'learning_rate': 2.7540000000000002e-06, 'epoch': 5.99}
{'loss': 0.8457, 'grad_norm': 2.79266357421875, 'learning_rate': 2.757e-06, 'epoch': 5.99}
{'loss': 0.8709, 'grad_norm': 7.764774322509766, 'learning_rate': 2.76e-06, 'epoch': 6.0}
  1%|          | 925/100000 [33:38<185:08:52,  6.73s/it]                                                          1%|          | 925/100000 [33:38<185:08:52,  6.73s/it]  1%|          | 926/100000 [33:46<195:27:42,  7.10s/it]                                                          1%|          | 926/100000 [33:46<195:27:42,  7.10s/it]  1%|          | 927/100000 [33:51<182:29:08,  6.63s/it]                                                          1%|          | 927/100000 [33:51<182:29:08,  6.63s/it]  1%|          | 928/100000 [33:56<165:13:45,  6.00s/it]                                                          1%|          | 928/100000 [33:56<165:13:45,  6.00s/it]  1%|          | 929/100000 [34:00<149:00:43,  5.41s/it]                                                          1%|          | 929/100000 [34:00<149:00:43,  5.41s/it]  1%|          | 930/100000 [34:04<133:36:38,  4.86s/it]                                                          1%|          | 930/100000 [34:04<133:36:38,  4.86s/it]  1%|          | 931/100000 [34:06<117:54:38,  4.28s/it]                                                          1%|          | 931/100000 [34:06<117:54:38,  4.28s/it]  1%|          | 932/100000 [34:09<104:50:20,  3.81s/it]                                                          1%|          | 932/100000 [34:09<104:50:20,  3.81s/it]  1%|          | 933/100000 [34:12<93:15:20,  3.39s/it]                                                          1%|          | 933/100000 [34:12<93:15:20,  3.39s/it]  1%|          | 934/100000 [34:14<83:11:13,  3.02s/it]                                                         1%|          | 934/100000 [34:14<83:11:13,  3.02s/it]  1%|          | 935/100000 [34:16<74:40:18,  2.71s/it]                                                         1%|          | 935/100000 [34:16<74:40:18,  2.71s/it]  1%|          | 936/100000 [34:18<67:17:54,  2.45s/it]                                                         1%|          | 936/100000 [34:18<67:17:54,  2.45s/it]  1%|          | 937/100000 [34:19<60:28:30,  2.20s/it]                                                         1%|          | 937/100000 [34:19<60:28:30,  2.20s/it]  1%|          | 938/100000 [34:21<55:37:01,  2.02s/it]                                                         1%|          | 938/100000 [34:21<55:37:01,  2.02s/it]  1%|          | 939/100000 [34:22<51:47:28,  1.88s/it]                                                         1%|          | 939/100000 [34:22<51:47:28,  1.88s/it]  1%|          | 940/100000 [34:24<48:14:27,  1.75s/it]                                                         1%|          | 940/100000 [34:24<48:14:27,  1.75s/it]  1%|          | 941/100000 [34:25<45:02:42,  1.64s/it]                                                         1%|          | 941/100000 [34:25<45:02:42,  1.64s/it]  1%|          | 942/100000 [34:27<42:49:55,  1.56s/it]                                                         1%|          | 942/100000 [34:27<42:49:55,  1.56s/it]  1%|          | 943/100000 [34:28<40:26:39,  1.47s/it]                                                         1%|          | 943/100000 [34:28<40:26:39,  1.47s/it]  1%|          | 944/100000 [34:29<38:35:26,  1.40s/it]                                                         1%|          | 944/100000 [34:29<38:35:26,  1.40s/it]  1%|          | 945/100000 [34:30<35:59:37,  1.31s/it]                                                         1%|          | 945/100000 [34:30<35:59:37,  1.31s/it]  1%|          | 946/100000 [34:31<34:18:40,  1.25s/it]                                                         1%|          | 946/100000 [34:31<34:18:40,  1.25s/it]  1%|          | 947/100000 [34:32<32:46:06,  1.19s/it]                                                         1%|          | 947/100000 [34:32<32:46:06,  1.19s/it]  1%|          | 948/100000 [34:33<31:01:49,  1.13s/it]                                                         1%|          | 948/100000 [34:33<31:01:49,  1.13s/it]  1%|          | 949/100000 [34:34<29:48:59,  1.08s/it]                                                         1%|          | 949/100000 [34:34<29:48:59,  1.08s/it]  1%|          | 950/100000 [34:35<28:36:02,  1.04s/it]                                                         1%|          | 950/100000 [34:35<28:36:02,  1.04s/it]  1%|          | 951/100000 [34:36<27:35:59,  1.00s/it]                                                         1%|          | 951/100000 [34:36<27:35:59,  1.00s/it]  1%|          | 952/100000 [34:37<26:38:05,  1.03it/s]                                                         1%|          | 952/100000 [34:37<26:38:05,  1.03it/s]  1%|          | 953/100000 [34:38<25:57:36,  1.06it/s]                                                         1%|          | 953/100000 [34:38<25:57:36,  1.06it/s]  1%|          | 954/100000 [34:39<24:50:15,  1.11it/s]                                                         1%|          | 954/100000 [34:39<24:50:15,  1.11it/s]  1%|          | 955/100000 [34:40<24:16:39,  1.13it/s]                                                         1%|          | 955/100000 [34:40<24:16:39,  1.13it/s]  1%|          | 956/100000 [34:40<23:23:28,  1.18it/s]                                                         1%|          | 956/100000 [34:40<23:23:28,  1.18it/s]  1%|          | 957/100000 [34:41<22:51:48,  1.20it/s]                                                         1%|          | 957/100000 [34:41<22:51:48,  1.20it/s]  1%|          | 958/100000 [34:42<22:32:52,  1.22it/s]                                                         1%|          | 958/100000 [34:42<22:32:52,  1.22it/s]  1%|          | 959/100000 [34:43<22:11:46,  1.24it/s]                                                         1%|          | 959/100000 [34:43<22:11:46,  1.24it/s]  1%|          | 960/100000 [34:44<22:22:26,  1.23it/s]                                                         1%|          | 960/100000 [34:44<22:22:26,  1.23it/s]  1%|          | 961/100000 [34:44<21:41:46,  1.27it/s]                                                         1%|          | 961/100000 [34:44<21:41:46,  1.27it/s]  1%|          | 962/100000 [34:45<20:51:37,  1.32it/s]                                                         1%|          | 962/100000 [34:45<20:51:37,  1.32it/s]  1%|          | 963/100000 [34:57<113:23:07,  4.12s/it]                                                          1%|          | 963/100000 [34:57<113:23:07,  4.12s/it]  1%|          | 964/100000 [35:05<142:31:54,  5.18s/it]                                                          1%|          | 964/100000 [35:05<142:31:54,  5.18s/it]  1%|          | 965/100000 [35:10<145:22:34,  5.28s/it]                                                          1%|          | 965/100000 [35:10<145:22:34,  5.28s/it]  1%|          | 966/100000 [35:15<139:26:40,  5.07s/it]                                                          1%|          | 966/100000 [35:15<139:26:40,  5.07s/it]  1%|          | 967/100000 [35:19<131:11:02,  4.77s/it]                                                          1%|          | 967/100000 [35:19<131:11:02,  4.77s/it]  1%|          | 968/100000 [35:22<120:49:23,  4.39s/it]                                                          1%|          | 968/100000 [35:22<120:49:23,  4.39s/it]  1%|          | 969/100000 [35:25<109:44:36,  3.99s/it]                                                          1%|          | 969/100000 [35:25<109:44:36,  3.99s/it]  1%|          | 970/100000 [35:28<98:45:28,  3.59s/it]                                                          1%|          | 970/100000 [35:28<98:45:28,  3.59s/it]  1%|          | 971/100000 [35:30<88:02:53,  3.20s/it]                                                         1%|          | 971/100000 [35:30<88:02:53,  3.20s/it]  1%|          | 972/100000 [35:32<78:55:38,  2.87s/it]                                                         1%|          | 972/100000 [35:32<78:55:38,  2.87s/it]  1%|          | 973/100000 [35:34<71:22:15,  2.59s/it]                                                         1%|          | 973/100000 [35:34<71:22:15,  2.59s/it]  1%|          | 974/100000 [35:36<65:14:03,  2.37s/it]                                                         1%|          | 974/100000 [35:36<65:14:03,  2.37s/it]  1%|          | 975/100000 [35:38<59:50:23,  2.18s/it]                                                         1%|          | 975/100000 [35:38<59:50:23,  2.18s/it]  1%|          | 976/100000 [35:39<55:29:46,  2.02s/it]                                                         1%|          | 976/100000 [35:39<55:29:46,  2.02s/it]  1%|          | 977/100000 [35:41<51:53:18,  1.89s/it]                                                         1%|          | 977/100000 [35:41<51:53:18,  1.89s/it]  1%|          | 978/100000 [35:43<48:16:27,  1.76s/it]                                                         1%|          | 978/100000 [35:43<48:16:27,  1.76s/it]  1%|          | 979/100000 [35:44<44:58:16,  1.63s/it]                                                         1%|          | 979/100000 [35:44<44:58:16,  1.63s/it]  1%|          | 980/100000 [35:45<42:33:34,  1.55s/it]                                                         1%|          | 980/100000 [35:45<42:33:34,  1.55s/it]  1%|          | 981/100000 [35:46<40:25:16,  1.47s/it]                                                         1%|          | 981/100000 [35:46<40:25:16,  1.47s/it]  1%|          | 982/100000 [35:48<38:27:06,  1.40s/it]                                                         1%|          | 982/100000 [35:48<38:27:06,  1.40s/it]  1%|          | 983/100000 [35:49<36:18:02,  1.32s/it]                                                         1%|          | 983/100000 [35:49<36:18:02,  1.32s/it]  1%|          | 984/100000 [35:50<34:24:37,  1.25s/it]                                                         1%|          | 984/100000 [35:50<34:24:37,  1.25s/it]  1%|          | 985/100000 [35:51<32:36:06,  1.19s/it]                                                         1%|          | 985/100000 [35:51<32:36:06,  1.19s/it]  1%|          | 986/100000 [35:52<31:15:52,  1.14s/it]                                                         1%|          | 986/100000 [35:52<31:15:52,  1.14s/it]  1%|          | 987/100000 [35:53<30:02:33,  1.09s/it]                                                         1%|          | 987/100000 [35:53<30:02:33,  1.09s/it]  1%|          | 988/100000 [35:54<28:54:52,  1.05s/it]                                                         1%|          | 988/100000 [35:54<28:54:52,  1.05s/it]  1%|          | 989/100000 [35:55<27:36:39,  1.00s/it]                                                         1%|          | 989/100000 [35:55<27:36:39,  1.00s/it]  1%|          | 990/100000 [35:56<26:36:29,  1.03it/s]                                                         1%|          | 990/100000 [35:56<26:36:29,  1.03it/s]  1%|          | 991/100000 [35:57<25:52:39,  1.06it/s]                                                         1%|          | 991/100000 [35:57<25:52:39,  1.06it/s]  1%|          | 992/100000 [35:57<25:21:59,  1.08it/s]                                                         1%|          | 992/100000 [35:57<25:21:59,  1.08it/s]  1%|          | 993/100000 [35:58<24:47:58,  1.11it/s]                                                         1%|          | 993/100000 [35:58<24:47:58,  1.11it/s]  1%|          | 994/100000 [35:59<23:32:36,  1.17it/s]                                                         1%|          | 994/100000 [35:59<23:32:36,  1.17it/s]  1%|          | 995/100000 [36:00<23:17:11,  1.18it/s]                                                         1%|          | 995/100000 [36:00<23:17:11,  1.18it/s]  1%|          | 996/100000 [36:01<22:17:14,  1.23it/s]                                                         1%|          | 996/100000 [36:01<22:17:14,  1.23it/s]  1%|          | 997/100000 [36:01<21:38:41,  1.27it/s]                                                         1%|          | 997/100000 [36:01<21:38:41,  1.27it/s]  1%|          | 998/100000 [36:02<22:05:37,  1.24it/s]                                                         1%|          | 998/100000 [36:02<22:05:37,  1.24it/s]  1%|          | 999/100000 [36:03<21:23:05,  1.29it/s]                                                         1%|          | 999/100000 [36:03<21:23:05,  1.29it/s]  1%|          | 1000/100000 [36:04<20:19:28,  1.35it/s]                                                          1%|          | 1000/100000 [36:04<20:19:28,  1.35it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 1.1092, 'grad_norm': 5.885948657989502, 'learning_rate': 2.763e-06, 'epoch': 6.01}
{'loss': 0.9392, 'grad_norm': 3.1809377670288086, 'learning_rate': 2.7660000000000003e-06, 'epoch': 6.01}
{'loss': 0.8916, 'grad_norm': 2.595489025115967, 'learning_rate': 2.7689999999999997e-06, 'epoch': 6.02}
{'loss': 0.8286, 'grad_norm': 3.508700370788574, 'learning_rate': 2.772e-06, 'epoch': 6.03}
{'loss': 0.8223, 'grad_norm': 2.735142946243286, 'learning_rate': 2.775e-06, 'epoch': 6.03}
{'loss': 0.7655, 'grad_norm': 2.75891375541687, 'learning_rate': 2.778e-06, 'epoch': 6.04}
{'loss': 0.8237, 'grad_norm': 3.2299411296844482, 'learning_rate': 2.781e-06, 'epoch': 6.05}
{'loss': 0.7542, 'grad_norm': 6.461828231811523, 'learning_rate': 2.784e-06, 'epoch': 6.05}
{'loss': 0.9583, 'grad_norm': 5.580854415893555, 'learning_rate': 2.787e-06, 'epoch': 6.06}
{'loss': 0.7298, 'grad_norm': 2.2781200408935547, 'learning_rate': 2.79e-06, 'epoch': 6.06}
{'loss': 0.649, 'grad_norm': 2.9329216480255127, 'learning_rate': 2.793e-06, 'epoch': 6.07}
{'loss': 0.7195, 'grad_norm': 9.571276664733887, 'learning_rate': 2.7960000000000004e-06, 'epoch': 6.08}
{'loss': 0.6706, 'grad_norm': 3.7489991188049316, 'learning_rate': 2.799e-06, 'epoch': 6.08}
{'loss': 0.5925, 'grad_norm': 4.15925931930542, 'learning_rate': 2.802e-06, 'epoch': 6.09}
{'loss': 0.5717, 'grad_norm': 4.129541873931885, 'learning_rate': 2.8050000000000002e-06, 'epoch': 6.1}
{'loss': 0.7003, 'grad_norm': 3.7066643238067627, 'learning_rate': 2.808e-06, 'epoch': 6.1}
{'loss': 0.6064, 'grad_norm': 9.051511764526367, 'learning_rate': 2.8110000000000003e-06, 'epoch': 6.11}
{'loss': 0.672, 'grad_norm': 4.0046305656433105, 'learning_rate': 2.814e-06, 'epoch': 6.12}
{'loss': 0.6064, 'grad_norm': 3.7223923206329346, 'learning_rate': 2.817e-06, 'epoch': 6.12}
{'loss': 0.6711, 'grad_norm': 19.111215591430664, 'learning_rate': 2.82e-06, 'epoch': 6.13}
{'loss': 0.657, 'grad_norm': 7.622359752655029, 'learning_rate': 2.8230000000000003e-06, 'epoch': 6.14}
{'loss': 0.5981, 'grad_norm': 27.036298751831055, 'learning_rate': 2.826e-06, 'epoch': 6.14}
{'loss': 0.8341, 'grad_norm': 11.238664627075195, 'learning_rate': 2.829e-06, 'epoch': 6.15}
{'loss': 0.6906, 'grad_norm': 4.148414134979248, 'learning_rate': 2.832e-06, 'epoch': 6.16}
{'loss': 0.6896, 'grad_norm': 7.304739952087402, 'learning_rate': 2.835e-06, 'epoch': 6.16}
{'loss': 0.6546, 'grad_norm': 4.051082611083984, 'learning_rate': 2.838e-06, 'epoch': 6.17}
{'loss': 0.7186, 'grad_norm': 5.400018215179443, 'learning_rate': 2.8410000000000004e-06, 'epoch': 6.18}
{'loss': 0.8635, 'grad_norm': 5.4663286209106445, 'learning_rate': 2.844e-06, 'epoch': 6.18}
{'loss': 0.7293, 'grad_norm': 13.71963882446289, 'learning_rate': 2.847e-06, 'epoch': 6.19}
{'loss': 0.5893, 'grad_norm': 7.699926853179932, 'learning_rate': 2.8500000000000002e-06, 'epoch': 6.19}
{'loss': 0.6986, 'grad_norm': 4.907577991485596, 'learning_rate': 2.853e-06, 'epoch': 6.2}
{'loss': 0.639, 'grad_norm': 4.858888149261475, 'learning_rate': 2.8560000000000003e-06, 'epoch': 6.21}
{'loss': 0.6216, 'grad_norm': 4.8553266525268555, 'learning_rate': 2.859e-06, 'epoch': 6.21}
{'loss': 0.703, 'grad_norm': 5.426111698150635, 'learning_rate': 2.862e-06, 'epoch': 6.22}
{'loss': 0.6463, 'grad_norm': 7.018607139587402, 'learning_rate': 2.865e-06, 'epoch': 6.23}
{'loss': 0.6902, 'grad_norm': 7.170340538024902, 'learning_rate': 2.8680000000000003e-06, 'epoch': 6.23}
{'loss': 0.6583, 'grad_norm': 4.721878528594971, 'learning_rate': 2.8709999999999997e-06, 'epoch': 6.24}
{'loss': 0.7195, 'grad_norm': 8.374547004699707, 'learning_rate': 2.874e-06, 'epoch': 6.25}
{'loss': 1.3132, 'grad_norm': 9.338476181030273, 'learning_rate': 2.877e-06, 'epoch': 6.25}
{'loss': 1.0428, 'grad_norm': 6.416780948638916, 'learning_rate': 2.88e-06, 'epoch': 6.26}
{'loss': 0.9413, 'grad_norm': 3.479787826538086, 'learning_rate': 2.883e-06, 'epoch': 6.27}
{'loss': 0.9415, 'grad_norm': 3.803175449371338, 'learning_rate': 2.886e-06, 'epoch': 6.27}
{'loss': 0.8609, 'grad_norm': 4.7822489738464355, 'learning_rate': 2.8889999999999998e-06, 'epoch': 6.28}
{'loss': 0.8267, 'grad_norm': 3.861377477645874, 'learning_rate': 2.892e-06, 'epoch': 6.29}
{'loss': 0.7242, 'grad_norm': 3.9338831901550293, 'learning_rate': 2.8950000000000002e-06, 'epoch': 6.29}
{'loss': 0.7027, 'grad_norm': 4.637509822845459, 'learning_rate': 2.898e-06, 'epoch': 6.3}
{'loss': 0.6702, 'grad_norm': 2.7633090019226074, 'learning_rate': 2.901e-06, 'epoch': 6.31}
{'loss': 0.5977, 'grad_norm': 2.4850966930389404, 'learning_rate': 2.904e-06, 'epoch': 6.31}
{'loss': 0.5725, 'grad_norm': 2.1965062618255615, 'learning_rate': 2.907e-06, 'epoch': 6.32}
{'loss': 0.654, 'grad_norm': 3.6495132446289062, 'learning_rate': 2.91e-06, 'epoch': 6.32}
{'loss': 0.7016, 'grad_norm': 2.8258910179138184, 'learning_rate': 2.9130000000000003e-06, 'epoch': 6.33}
{'loss': 0.5699, 'grad_norm': 3.383495330810547, 'learning_rate': 2.916e-06, 'epoch': 6.34}
{'loss': 0.6304, 'grad_norm': 8.55549144744873, 'learning_rate': 2.919e-06, 'epoch': 6.34}
{'loss': 0.5724, 'grad_norm': 3.664799213409424, 'learning_rate': 2.922e-06, 'epoch': 6.35}
{'loss': 0.5638, 'grad_norm': 8.899261474609375, 'learning_rate': 2.9250000000000004e-06, 'epoch': 6.36}
{'loss': 0.6298, 'grad_norm': 3.452695608139038, 'learning_rate': 2.928e-06, 'epoch': 6.36}
{'loss': 0.6453, 'grad_norm': 6.294382572174072, 'learning_rate': 2.931e-06, 'epoch': 6.37}
{'loss': 0.6182, 'grad_norm': 4.397603511810303, 'learning_rate': 2.934e-06, 'epoch': 6.38}
{'loss': 0.6444, 'grad_norm': 4.679192543029785, 'learning_rate': 2.937e-06, 'epoch': 6.38}
{'loss': 0.5576, 'grad_norm': 2.861269950866699, 'learning_rate': 2.9400000000000002e-06, 'epoch': 6.39}
{'loss': 0.7862, 'grad_norm': 6.9195661544799805, 'learning_rate': 2.9430000000000005e-06, 'epoch': 6.4}
{'loss': 0.5261, 'grad_norm': 4.042708873748779, 'learning_rate': 2.946e-06, 'epoch': 6.4}
{'loss': 0.5904, 'grad_norm': 3.664271831512451, 'learning_rate': 2.949e-06, 'epoch': 6.41}
{'loss': 0.5773, 'grad_norm': 3.748257637023926, 'learning_rate': 2.9520000000000003e-06, 'epoch': 6.42}
{'loss': 0.6657, 'grad_norm': 5.200796127319336, 'learning_rate': 2.955e-06, 'epoch': 6.42}
{'loss': 0.6595, 'grad_norm': 4.750246047973633, 'learning_rate': 2.958e-06, 'epoch': 6.43}
{'loss': 0.6365, 'grad_norm': 4.004380702972412, 'learning_rate': 2.961e-06, 'epoch': 6.44}
{'loss': 0.5942, 'grad_norm': 5.388360977172852, 'learning_rate': 2.964e-06, 'epoch': 6.44}
{'loss': 0.6712, 'grad_norm': 6.517637252807617, 'learning_rate': 2.967e-06, 'epoch': 6.45}
{'loss': 0.548, 'grad_norm': 4.539735317230225, 'learning_rate': 2.9700000000000004e-06, 'epoch': 6.45}
{'loss': 0.6217, 'grad_norm': 6.380239009857178, 'learning_rate': 2.9729999999999997e-06, 'epoch': 6.46}
{'loss': 0.5646, 'grad_norm': 5.173495769500732, 'learning_rate': 2.976e-06, 'epoch': 6.47}
{'loss': 0.6673, 'grad_norm': 5.45229434967041, 'learning_rate': 2.979e-06, 'epoch': 6.47}
{'loss': 0.5434, 'grad_norm': 4.6397552490234375, 'learning_rate': 2.982e-06, 'epoch': 6.48}
{'loss': 0.7351, 'grad_norm': 8.36031436920166, 'learning_rate': 2.9850000000000002e-06, 'epoch': 6.49}
{'loss': 0.698, 'grad_norm': 4.787985801696777, 'learning_rate': 2.988e-06, 'epoch': 6.49}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:01<00:01,  1.24it/s][A
 75%|███████▌  | 3/4 [00:03<00:01,  1.11s/it][A
100%|██████████| 4/4 [00:03<00:00,  1.26it/s][A                                                        
                                             [A  1%|          | 1000/100000 [36:17<20:19:28,  1.35it/s]
100%|██████████| 4/4 [00:03<00:00,  1.26it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-1000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-1000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-1000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-1000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-1000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-1000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-1000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
  1%|          | 1001/100000 [36:37<292:22:22, 10.63s/it]                                                           1%|          | 1001/100000 [36:37<292:22:22, 10.63s/it]  1%|          | 1002/100000 [36:46<272:39:55,  9.92s/it]                                                           1%|          | 1002/100000 [36:46<272:39:55,  9.92s/it]  1%|          | 1003/100000 [36:51<239:03:33,  8.69s/it]                                                           1%|          | 1003/100000 [36:51<239:03:33,  8.69s/it]  1%|          | 1004/100000 [36:56<206:14:20,  7.50s/it]                                                           1%|          | 1004/100000 [36:56<206:14:20,  7.50s/it]  1%|          | 1005/100000 [37:00<177:55:08,  6.47s/it]                                                           1%|          | 1005/100000 [37:00<177:55:08,  6.47s/it]  1%|          | 1006/100000 [37:04<152:50:56,  5.56s/it]                                                           1%|          | 1006/100000 [37:04<152:50:56,  5.56s/it]  1%|          | 1007/100000 [37:07<131:10:34,  4.77s/it]                                                           1%|          | 1007/100000 [37:07<131:10:34,  4.77s/it]  1%|          | 1008/100000 [37:09<112:49:17,  4.10s/it]                                                           1%|          | 1008/100000 [37:09<112:49:17,  4.10s/it]  1%|          | 1009/100000 [37:11<98:11:48,  3.57s/it]                                                           1%|          | 1009/100000 [37:11<98:11:48,  3.57s/it]  1%|          | 1010/100000 [37:14<86:19:33,  3.14s/it]                                                          1%|          | 1010/100000 [37:14<86:19:33,  3.14s/it]  1%|          | 1011/100000 [37:16<76:55:07,  2.80s/it]                                                          1%|          | 1011/100000 [37:16<76:55:07,  2.80s/it]  1%|          | 1012/100000 [37:17<69:04:19,  2.51s/it]                                                          1%|          | 1012/100000 [37:17<69:04:19,  2.51s/it]  1%|          | 1013/100000 [37:19<62:15:10,  2.26s/it]                                                          1%|          | 1013/100000 [37:19<62:15:10,  2.26s/it]  1%|          | 1014/100000 [37:21<57:08:52,  2.08s/it]                                                          1%|          | 1014/100000 [37:21<57:08:52,  2.08s/it]  1%|          | 1015/100000 [37:22<53:03:43,  1.93s/it]                                                          1%|          | 1015/100000 [37:22<53:03:43,  1.93s/it]  1%|          | 1016/100000 [37:24<48:49:18,  1.78s/it]                                                          1%|          | 1016/100000 [37:24<48:49:18,  1.78s/it]  1%|          | 1017/100000 [37:25<45:35:29,  1.66s/it]                                                          1%|          | 1017/100000 [37:25<45:35:29,  1.66s/it]  1%|          | 1018/100000 [37:26<42:53:00,  1.56s/it]                                                          1%|          | 1018/100000 [37:26<42:53:00,  1.56s/it]  1%|          | 1019/100000 [37:28<40:43:07,  1.48s/it]                                                          1%|          | 1019/100000 [37:28<40:43:07,  1.48s/it]  1%|          | 1020/100000 [37:29<38:46:34,  1.41s/it]                                                          1%|          | 1020/100000 [37:29<38:46:34,  1.41s/it]  1%|          | 1021/100000 [37:30<36:50:52,  1.34s/it]                                                          1%|          | 1021/100000 [37:30<36:50:52,  1.34s/it]  1%|          | 1022/100000 [37:31<34:50:08,  1.27s/it]                                                          1%|          | 1022/100000 [37:31<34:50:08,  1.27s/it]  1%|          | 1023/100000 [37:32<33:12:44,  1.21s/it]                                                          1%|          | 1023/100000 [37:32<33:12:44,  1.21s/it]  1%|          | 1024/100000 [37:33<31:35:21,  1.15s/it]                                                          1%|          | 1024/100000 [37:33<31:35:21,  1.15s/it]  1%|          | 1025/100000 [37:34<29:42:13,  1.08s/it]                                                          1%|          | 1025/100000 [37:34<29:42:13,  1.08s/it]  1%|          | 1026/100000 [37:35<28:37:52,  1.04s/it]                                                          1%|          | 1026/100000 [37:35<28:37:52,  1.04s/it]  1%|          | 1027/100000 [37:36<28:09:29,  1.02s/it]                                                          1%|          | 1027/100000 [37:36<28:09:29,  1.02s/it]  1%|          | 1028/100000 [37:37<27:30:53,  1.00s/it]                                                          1%|          | 1028/100000 [37:37<27:30:53,  1.00s/it]  1%|          | 1029/100000 [37:38<28:04:19,  1.02s/it]                                                          1%|          | 1029/100000 [37:38<28:04:19,  1.02s/it]  1%|          | 1030/100000 [37:39<26:39:47,  1.03it/s]                                                          1%|          | 1030/100000 [37:39<26:39:47,  1.03it/s]  1%|          | 1031/100000 [37:40<25:54:18,  1.06it/s]                                                          1%|          | 1031/100000 [37:40<25:54:18,  1.06it/s]  1%|          | 1032/100000 [37:41<24:39:03,  1.12it/s]                                                          1%|          | 1032/100000 [37:41<24:39:03,  1.12it/s]  1%|          | 1033/100000 [37:42<24:07:46,  1.14it/s]                                                          1%|          | 1033/100000 [37:42<24:07:46,  1.14it/s]  1%|          | 1034/100000 [37:42<23:31:08,  1.17it/s]                                                          1%|          | 1034/100000 [37:42<23:31:08,  1.17it/s]  1%|          | 1035/100000 [37:43<22:50:16,  1.20it/s]                                                          1%|          | 1035/100000 [37:43<22:50:16,  1.20it/s]  1%|          | 1036/100000 [37:44<21:55:39,  1.25it/s]                                                          1%|          | 1036/100000 [37:44<21:55:39,  1.25it/s]  1%|          | 1037/100000 [37:45<20:59:06,  1.31it/s]                                                          1%|          | 1037/100000 [37:45<20:59:06,  1.31it/s]  1%|          | 1038/100000 [37:45<20:38:03,  1.33it/s]                                                          1%|          | 1038/100000 [37:45<20:38:03,  1.33it/s]  1%|          | 1039/100000 [37:57<114:37:51,  4.17s/it]                                                           1%|          | 1039/100000 [37:57<114:37:51,  4.17s/it]  1%|          | 1040/100000 [38:04<138:30:10,  5.04s/it]                                                           1%|          | 1040/100000 [38:04<138:30:10,  5.04s/it]  1%|          | 1041/100000 [38:10<142:03:11,  5.17s/it]                                                           1%|          | 1041/100000 [38:10<142:03:11,  5.17s/it]  1%|          | 1042/100000 [38:14<135:02:08,  4.91s/it]                                                           1%|          | 1042/100000 [38:14<135:02:08,  4.91s/it]  1%|          | 1043/100000 [38:18<124:53:58,  4.54s/it]                                                           1%|          | 1043/100000 [38:18<124:53:58,  4.54s/it]  1%|          | 1044/100000 [38:21<116:14:55,  4.23s/it]                                                           1%|          | 1044/100000 [38:21<116:14:55,  4.23s/it]  1%|          | 1045/100000 [38:24<105:32:35,  3.84s/it]                                                           1%|          | 1045/100000 [38:24<105:32:35,  3.84s/it]  1%|          | 1046/100000 [38:27<95:34:53,  3.48s/it]                                                           1%|          | 1046/100000 [38:27<95:34:53,  3.48s/it]  1%|          | 1047/100000 [38:29<86:07:50,  3.13s/it]                                                          1%|          | 1047/100000 [38:29<86:07:50,  3.13s/it]  1%|          | 1048/100000 [38:31<77:53:39,  2.83s/it]                                                          1%|          | 1048/100000 [38:31<77:53:39,  2.83s/it]  1%|          | 1049/100000 [38:33<71:07:45,  2.59s/it]                                                          1%|          | 1049/100000 [38:33<71:07:45,  2.59s/it]  1%|          | 1050/100000 [38:35<64:37:50,  2.35s/it]                                                          1%|          | 1050/100000 [38:35<64:37:50,  2.35s/it]  1%|          | 1051/100000 [38:37<59:22:56,  2.16s/it]                                                          1%|          | 1051/100000 [38:37<59:22:56,  2.16s/it]  1%|          | 1052/100000 [38:39<54:45:36,  1.99s/it]                                                          1%|          | 1052/100000 [38:39<54:45:36,  1.99s/it]  1%|          | 1053/100000 [38:40<51:23:17,  1.87s/it]                                                          1%|          | 1053/100000 [38:40<51:23:17,  1.87s/it]  1%|          | 1054/100000 [38:42<47:48:44,  1.74s/it]                                                          1%|          | 1054/100000 [38:42<47:48:44,  1.74s/it]  1%|          | 1055/100000 [38:43<45:12:34,  1.64s/it]                                                          1%|          | 1055/100000 [38:43<45:12:34,  1.64s/it]  1%|          | 1056/100000 [38:44<42:52:34,  1.56s/it]                                                          1%|          | 1056/100000 [38:44<42:52:34,  1.56s/it]  1%|          | 1057/100000 [38:46<40:38:00,  1.48s/it]                                                          1%|          | 1057/100000 [38:46<40:38:00,  1.48s/it]  1%|          | 1058/100000 [38:47<38:40:22,  1.41s/it]                                                          1%|          | 1058/100000 [38:47<38:40:22,  1.41s/it]  1%|          | 1059/100000 [38:48<36:23:04,  1.32s/it]                                                          1%|          | 1059/100000 [38:48<36:23:04,  1.32s/it]  1%|          | 1060/100000 [38:49<34:59:41,  1.27s/it]                                                          1%|          | 1060/100000 [38:49<34:59:41,  1.27s/it]  1%|          | 1061/100000 [38:50<33:40:46,  1.23s/it]                                                          1%|          | 1061/100000 [38:50<33:40:46,  1.23s/it]  1%|          | 1062/100000 [38:51<32:16:45,  1.17s/it]                                                          1%|          | 1062/100000 [38:51<32:16:45,  1.17s/it]  1%|          | 1063/100000 [38:52<31:37:00,  1.15s/it]                                                          1%|          | 1063/100000 [38:52<31:37:00,  1.15s/it]  1%|          | 1064/100000 [38:53<30:22:39,  1.11s/it]                                                          1%|          | 1064/100000 [38:53<30:22:39,  1.11s/it]  1%|          | 1065/100000 [38:54<29:22:59,  1.07s/it]                                                          1%|          | 1065/100000 [38:54<29:22:59,  1.07s/it]  1%|          | 1066/100000 [38:55<28:27:40,  1.04s/it]                                                          1%|          | 1066/100000 [38:55<28:27:40,  1.04s/it]  1%|          | 1067/100000 [38:56<28:08:33,  1.02s/it]                                                          1%|          | 1067/100000 [38:56<28:08:33,  1.02s/it]  1%|          | 1068/100000 [38:57<27:21:13,  1.00it/s]                                                          1%|          | 1068/100000 [38:57<27:21:13,  1.00it/s]  1%|          | 1069/100000 [38:58<26:39:22,  1.03it/s]                                                          1%|          | 1069/100000 [38:58<26:39:22,  1.03it/s]  1%|          | 1070/100000 [38:59<25:24:20,  1.08it/s]                                                          1%|          | 1070/100000 [38:59<25:24:20,  1.08it/s]  1%|          | 1071/100000 [39:00<25:05:18,  1.10it/s]                                                          1%|          | 1071/100000 [39:00<25:05:18,  1.10it/s]  1%|          | 1072/100000 [39:01<24:54:00,  1.10it/s]                                                          1%|          | 1072/100000 [39:01<24:54:00,  1.10it/s]  1%|          | 1073/100000 [39:02<24:22:50,  1.13it/s]                                                          1%|          | 1073/100000 [39:02<24:22:50,  1.13it/s]  1%|          | 1074/100000 [39:02<23:26:02,  1.17it/s]                                                          1%|          | 1074/100000 [39:02<23:26:02,  1.17it/s]  1%|          | 1075/100000 [39:03<22:47:52,  1.21it/s]                                                          1%|          | 1075/100000 [39:03<22:47:52,  1.21it/s]  1%|          | 1076/100000 [39:04<22:28:47,  1.22it/s]                                                          1%|          | 1076/100000 [39:04<22:28:47,  1.22it/s]  1%|          | 1077/100000 [39:13<86:45:48,  3.16s/it]                                                          1%|          | 1077/100000 [39:13<86:45:48,  3.16s/it]  1%|          | 1078/100000 [39:14<73:07:51,  2.66s/it]                                                          1%|          | 1078/100000 [39:14<73:07:51,  2.66s/it]{'eval_loss': 0.7171394228935242, 'eval_wer': 0.5987654320987654, 'eval_cer': 0.1884186009155891, 'eval_runtime': 8.1356, 'eval_samples_per_second': 12.415, 'eval_steps_per_second': 0.492, 'epoch': 6.49}
{'loss': 1.0918, 'grad_norm': 5.278801918029785, 'learning_rate': 2.991e-06, 'epoch': 6.5}
{'loss': 1.0403, 'grad_norm': 3.975191593170166, 'learning_rate': 2.994e-06, 'epoch': 6.51}
{'loss': 0.9984, 'grad_norm': 3.5941321849823, 'learning_rate': 2.9970000000000003e-06, 'epoch': 6.51}
{'loss': 0.8355, 'grad_norm': 4.504596710205078, 'learning_rate': 3e-06, 'epoch': 6.52}
{'loss': 0.7871, 'grad_norm': 5.225439071655273, 'learning_rate': 3.003e-06, 'epoch': 6.53}
{'loss': 0.7132, 'grad_norm': 4.446360111236572, 'learning_rate': 3.006e-06, 'epoch': 6.53}
{'loss': 0.7614, 'grad_norm': 2.4450464248657227, 'learning_rate': 3.009e-06, 'epoch': 6.54}
{'loss': 0.6851, 'grad_norm': 2.6066715717315674, 'learning_rate': 3.012e-06, 'epoch': 6.55}
{'loss': 0.6263, 'grad_norm': 8.716511726379395, 'learning_rate': 3.0150000000000004e-06, 'epoch': 6.55}
{'loss': 0.6321, 'grad_norm': 8.014723777770996, 'learning_rate': 3.0179999999999997e-06, 'epoch': 6.56}
{'loss': 0.6307, 'grad_norm': 3.093825340270996, 'learning_rate': 3.021e-06, 'epoch': 6.56}
{'loss': 0.5406, 'grad_norm': 3.243391752243042, 'learning_rate': 3.024e-06, 'epoch': 6.57}
{'loss': 0.5909, 'grad_norm': 4.333438396453857, 'learning_rate': 3.027e-06, 'epoch': 6.58}
{'loss': 0.4904, 'grad_norm': 3.0492494106292725, 'learning_rate': 3.0300000000000002e-06, 'epoch': 6.58}
{'loss': 0.5213, 'grad_norm': 2.675966501235962, 'learning_rate': 3.033e-06, 'epoch': 6.59}
{'loss': 0.495, 'grad_norm': 6.5239739418029785, 'learning_rate': 3.036e-06, 'epoch': 6.6}
{'loss': 0.6178, 'grad_norm': 2.29504132270813, 'learning_rate': 3.039e-06, 'epoch': 6.6}
{'loss': 0.5206, 'grad_norm': 2.896810531616211, 'learning_rate': 3.0420000000000003e-06, 'epoch': 6.61}
{'loss': 0.5668, 'grad_norm': 6.244792938232422, 'learning_rate': 3.0450000000000005e-06, 'epoch': 6.62}
{'loss': 0.539, 'grad_norm': 9.539036750793457, 'learning_rate': 3.048e-06, 'epoch': 6.62}
{'loss': 0.5302, 'grad_norm': 7.4270453453063965, 'learning_rate': 3.051e-06, 'epoch': 6.63}
{'loss': 0.5745, 'grad_norm': 2.8032727241516113, 'learning_rate': 3.0540000000000003e-06, 'epoch': 6.64}
{'loss': 0.5721, 'grad_norm': 3.2211859226226807, 'learning_rate': 3.057e-06, 'epoch': 6.64}
{'loss': 0.6776, 'grad_norm': 4.050627708435059, 'learning_rate': 3.06e-06, 'epoch': 6.65}
{'loss': 0.5274, 'grad_norm': 5.234857082366943, 'learning_rate': 3.063e-06, 'epoch': 6.66}
{'loss': 0.5309, 'grad_norm': 5.028270244598389, 'learning_rate': 3.066e-06, 'epoch': 6.66}
{'loss': 0.5763, 'grad_norm': 3.202550172805786, 'learning_rate': 3.069e-06, 'epoch': 6.67}
{'loss': 0.5676, 'grad_norm': 4.101551055908203, 'learning_rate': 3.0720000000000004e-06, 'epoch': 6.68}
{'loss': 0.5785, 'grad_norm': 6.379110813140869, 'learning_rate': 3.0749999999999998e-06, 'epoch': 6.68}
{'loss': 0.5128, 'grad_norm': 4.784211158752441, 'learning_rate': 3.078e-06, 'epoch': 6.69}
{'loss': 0.5653, 'grad_norm': 8.613473892211914, 'learning_rate': 3.0810000000000002e-06, 'epoch': 6.69}
{'loss': 0.5597, 'grad_norm': 4.677289009094238, 'learning_rate': 3.084e-06, 'epoch': 6.7}
{'loss': 0.6101, 'grad_norm': 5.525449275970459, 'learning_rate': 3.0870000000000003e-06, 'epoch': 6.71}
{'loss': 0.5456, 'grad_norm': 6.527328968048096, 'learning_rate': 3.09e-06, 'epoch': 6.71}
{'loss': 0.5559, 'grad_norm': 9.223431587219238, 'learning_rate': 3.093e-06, 'epoch': 6.72}
{'loss': 0.5786, 'grad_norm': 14.454623222351074, 'learning_rate': 3.096e-06, 'epoch': 6.73}
{'loss': 0.5528, 'grad_norm': 4.733483791351318, 'learning_rate': 3.0990000000000003e-06, 'epoch': 6.73}
{'loss': 0.9, 'grad_norm': 7.790045261383057, 'learning_rate': 3.102e-06, 'epoch': 6.74}
{'loss': 1.1939, 'grad_norm': 10.692595481872559, 'learning_rate': 3.105e-06, 'epoch': 6.75}
{'loss': 1.1076, 'grad_norm': 7.801525592803955, 'learning_rate': 3.108e-06, 'epoch': 6.75}
{'loss': 0.8743, 'grad_norm': 4.951292514801025, 'learning_rate': 3.111e-06, 'epoch': 6.76}
{'loss': 0.8059, 'grad_norm': 3.081956148147583, 'learning_rate': 3.114e-06, 'epoch': 6.77}
{'loss': 0.7456, 'grad_norm': 5.040670394897461, 'learning_rate': 3.1170000000000004e-06, 'epoch': 6.77}
{'loss': 0.742, 'grad_norm': 6.822417259216309, 'learning_rate': 3.1199999999999998e-06, 'epoch': 6.78}
{'loss': 0.7446, 'grad_norm': 6.115798473358154, 'learning_rate': 3.123e-06, 'epoch': 6.79}
{'loss': 0.6667, 'grad_norm': 3.53255558013916, 'learning_rate': 3.1260000000000002e-06, 'epoch': 6.79}
{'loss': 0.7293, 'grad_norm': 3.6945950984954834, 'learning_rate': 3.129e-06, 'epoch': 6.8}
{'loss': 0.5758, 'grad_norm': 2.697053909301758, 'learning_rate': 3.1320000000000003e-06, 'epoch': 6.81}
{'loss': 0.5132, 'grad_norm': 2.3206558227539062, 'learning_rate': 3.135e-06, 'epoch': 6.81}
{'loss': 0.5154, 'grad_norm': 2.738351583480835, 'learning_rate': 3.138e-06, 'epoch': 6.82}
{'loss': 0.5852, 'grad_norm': 4.056836128234863, 'learning_rate': 3.141e-06, 'epoch': 6.82}
{'loss': 0.5156, 'grad_norm': 6.658797740936279, 'learning_rate': 3.1440000000000003e-06, 'epoch': 6.83}
{'loss': 0.5021, 'grad_norm': 4.297409534454346, 'learning_rate': 3.1469999999999997e-06, 'epoch': 6.84}
{'loss': 0.4632, 'grad_norm': 4.7511796951293945, 'learning_rate': 3.15e-06, 'epoch': 6.84}
{'loss': 0.4758, 'grad_norm': 2.488159418106079, 'learning_rate': 3.153e-06, 'epoch': 6.85}
{'loss': 0.4563, 'grad_norm': 2.61913800239563, 'learning_rate': 3.156e-06, 'epoch': 6.86}
{'loss': 0.5132, 'grad_norm': 2.1874606609344482, 'learning_rate': 3.159e-06, 'epoch': 6.86}
{'loss': 0.5206, 'grad_norm': 3.4602413177490234, 'learning_rate': 3.162e-06, 'epoch': 6.87}
{'loss': 0.5353, 'grad_norm': 3.840428590774536, 'learning_rate': 3.1649999999999998e-06, 'epoch': 6.88}
{'loss': 0.5524, 'grad_norm': 4.704196453094482, 'learning_rate': 3.168e-06, 'epoch': 6.88}
{'loss': 0.4864, 'grad_norm': 4.080796241760254, 'learning_rate': 3.1710000000000002e-06, 'epoch': 6.89}
{'loss': 0.6156, 'grad_norm': 4.39627742767334, 'learning_rate': 3.1740000000000004e-06, 'epoch': 6.9}
{'loss': 0.6039, 'grad_norm': 3.2531208992004395, 'learning_rate': 3.177e-06, 'epoch': 6.9}
{'loss': 0.5729, 'grad_norm': 4.019852638244629, 'learning_rate': 3.18e-06, 'epoch': 6.91}
{'loss': 0.5117, 'grad_norm': 3.0560553073883057, 'learning_rate': 3.1830000000000003e-06, 'epoch': 6.92}
{'loss': 0.6128, 'grad_norm': 3.787039041519165, 'learning_rate': 3.186e-06, 'epoch': 6.92}
{'loss': 0.578, 'grad_norm': 6.470234394073486, 'learning_rate': 3.1890000000000003e-06, 'epoch': 6.93}
{'loss': 0.5029, 'grad_norm': 3.989422082901001, 'learning_rate': 3.192e-06, 'epoch': 6.94}
{'loss': 0.4889, 'grad_norm': 7.135568618774414, 'learning_rate': 3.195e-06, 'epoch': 6.94}
{'loss': 0.5551, 'grad_norm': 3.6549527645111084, 'learning_rate': 3.198e-06, 'epoch': 6.95}
{'loss': 0.5544, 'grad_norm': 6.240041732788086, 'learning_rate': 3.2010000000000004e-06, 'epoch': 6.95}
{'loss': 0.5249, 'grad_norm': 4.248321056365967, 'learning_rate': 3.204e-06, 'epoch': 6.96}
{'loss': 0.5726, 'grad_norm': 5.370997905731201, 'learning_rate': 3.207e-06, 'epoch': 6.97}
{'loss': 0.5685, 'grad_norm': 11.616837501525879, 'learning_rate': 3.21e-06, 'epoch': 6.97}
{'loss': 0.6362, 'grad_norm': 12.518770217895508, 'learning_rate': 3.213e-06, 'epoch': 6.98}
{'loss': 0.7794, 'grad_norm': 9.994401931762695, 'learning_rate': 3.216e-06, 'epoch': 6.99}
{'loss': 0.6778, 'grad_norm': 3.5090866088867188, 'learning_rate': 3.2190000000000004e-06, 'epoch': 6.99}
{'loss': 0.4542, 'grad_norm': 3.6728854179382324, 'learning_rate': 3.222e-06, 'epoch': 7.0}
  1%|          | 1079/100000 [39:32<199:21:58,  7.26s/it]                                                           1%|          | 1079/100000 [39:32<199:21:58,  7.26s/it]  1%|          | 1080/100000 [39:40<205:50:59,  7.49s/it]                                                           1%|          | 1080/100000 [39:40<205:50:59,  7.49s/it]  1%|          | 1081/100000 [39:46<190:40:01,  6.94s/it]                                                           1%|          | 1081/100000 [39:46<190:40:01,  6.94s/it]  1%|          | 1082/100000 [39:50<171:20:31,  6.24s/it]                                                           1%|          | 1082/100000 [39:50<171:20:31,  6.24s/it]  1%|          | 1083/100000 [39:54<153:24:52,  5.58s/it]                                                           1%|          | 1083/100000 [39:54<153:24:52,  5.58s/it]  1%|          | 1084/100000 [39:58<135:28:32,  4.93s/it]                                                           1%|          | 1084/100000 [39:58<135:28:32,  4.93s/it]  1%|          | 1085/100000 [40:01<119:27:56,  4.35s/it]                                                           1%|          | 1085/100000 [40:01<119:27:56,  4.35s/it]  1%|          | 1086/100000 [40:03<104:51:30,  3.82s/it]                                                           1%|          | 1086/100000 [40:03<104:51:30,  3.82s/it]  1%|          | 1087/100000 [40:06<92:27:03,  3.36s/it]                                                           1%|          | 1087/100000 [40:06<92:27:03,  3.36s/it]  1%|          | 1088/100000 [40:08<82:02:05,  2.99s/it]                                                          1%|          | 1088/100000 [40:08<82:02:05,  2.99s/it]  1%|          | 1089/100000 [40:10<73:28:45,  2.67s/it]                                                          1%|          | 1089/100000 [40:10<73:28:45,  2.67s/it]  1%|          | 1090/100000 [40:12<66:23:01,  2.42s/it]                                                          1%|          | 1090/100000 [40:12<66:23:01,  2.42s/it]  1%|          | 1091/100000 [40:13<60:13:17,  2.19s/it]                                                          1%|          | 1091/100000 [40:13<60:13:17,  2.19s/it]  1%|          | 1092/100000 [40:15<55:27:30,  2.02s/it]                                                          1%|          | 1092/100000 [40:15<55:27:30,  2.02s/it]  1%|          | 1093/100000 [40:16<51:27:44,  1.87s/it]                                                          1%|          | 1093/100000 [40:16<51:27:44,  1.87s/it]  1%|          | 1094/100000 [40:18<48:05:00,  1.75s/it]                                                          1%|          | 1094/100000 [40:18<48:05:00,  1.75s/it]  1%|          | 1095/100000 [40:19<44:52:47,  1.63s/it]                                                          1%|          | 1095/100000 [40:19<44:52:47,  1.63s/it]  1%|          | 1096/100000 [40:21<42:41:10,  1.55s/it]                                                          1%|          | 1096/100000 [40:21<42:41:10,  1.55s/it]  1%|          | 1097/100000 [40:22<40:30:30,  1.47s/it]                                                          1%|          | 1097/100000 [40:22<40:30:30,  1.47s/it]  1%|          | 1098/100000 [40:23<38:36:01,  1.41s/it]                                                          1%|          | 1098/100000 [40:23<38:36:01,  1.41s/it]  1%|          | 1099/100000 [40:24<36:12:30,  1.32s/it]                                                          1%|          | 1099/100000 [40:24<36:12:30,  1.32s/it]  1%|          | 1100/100000 [40:25<34:19:56,  1.25s/it]                                                          1%|          | 1100/100000 [40:25<34:19:56,  1.25s/it]  1%|          | 1101/100000 [40:26<32:24:24,  1.18s/it]                                                          1%|          | 1101/100000 [40:26<32:24:24,  1.18s/it]  1%|          | 1102/100000 [40:27<31:04:18,  1.13s/it]                                                          1%|          | 1102/100000 [40:27<31:04:18,  1.13s/it]  1%|          | 1103/100000 [40:28<29:22:48,  1.07s/it]                                                          1%|          | 1103/100000 [40:28<29:22:48,  1.07s/it]  1%|          | 1104/100000 [40:29<28:06:44,  1.02s/it]                                                          1%|          | 1104/100000 [40:29<28:06:44,  1.02s/it]  1%|          | 1105/100000 [40:30<27:00:58,  1.02it/s]                                                          1%|          | 1105/100000 [40:30<27:00:58,  1.02it/s]  1%|          | 1106/100000 [40:31<26:15:53,  1.05it/s]                                                          1%|          | 1106/100000 [40:31<26:15:53,  1.05it/s]  1%|          | 1107/100000 [40:32<25:31:53,  1.08it/s]                                                          1%|          | 1107/100000 [40:32<25:31:53,  1.08it/s]  1%|          | 1108/100000 [40:33<25:30:17,  1.08it/s]                                                          1%|          | 1108/100000 [40:33<25:30:17,  1.08it/s]  1%|          | 1109/100000 [40:34<24:35:09,  1.12it/s]                                                          1%|          | 1109/100000 [40:34<24:35:09,  1.12it/s]  1%|          | 1110/100000 [40:34<23:42:23,  1.16it/s]                                                          1%|          | 1110/100000 [40:34<23:42:23,  1.16it/s]  1%|          | 1111/100000 [40:35<23:01:10,  1.19it/s]                                                          1%|          | 1111/100000 [40:35<23:01:10,  1.19it/s]  1%|          | 1112/100000 [40:36<22:24:50,  1.23it/s]                                                          1%|          | 1112/100000 [40:36<22:24:50,  1.23it/s]  1%|          | 1113/100000 [40:37<22:07:45,  1.24it/s]                                                          1%|          | 1113/100000 [40:37<22:07:45,  1.24it/s]  1%|          | 1114/100000 [40:37<21:22:00,  1.29it/s]                                                          1%|          | 1114/100000 [40:37<21:22:00,  1.29it/s]  1%|          | 1115/100000 [40:38<20:51:46,  1.32it/s]                                                          1%|          | 1115/100000 [40:38<20:51:46,  1.32it/s]  1%|          | 1116/100000 [40:39<20:29:37,  1.34it/s]                                                          1%|          | 1116/100000 [40:39<20:29:37,  1.34it/s]  1%|          | 1117/100000 [40:50<108:44:45,  3.96s/it]                                                           1%|          | 1117/100000 [40:50<108:44:45,  3.96s/it]  1%|          | 1118/100000 [40:58<142:06:24,  5.17s/it]                                                           1%|          | 1118/100000 [40:58<142:06:24,  5.17s/it]  1%|          | 1119/100000 [41:04<147:25:26,  5.37s/it]                                                           1%|          | 1119/100000 [41:04<147:25:26,  5.37s/it]  1%|          | 1120/100000 [41:09<142:47:04,  5.20s/it]                                                           1%|          | 1120/100000 [41:09<142:47:04,  5.20s/it]  1%|          | 1121/100000 [41:13<132:47:13,  4.83s/it]                                                           1%|          | 1121/100000 [41:13<132:47:13,  4.83s/it]  1%|          | 1122/100000 [41:16<122:05:49,  4.45s/it]                                                           1%|          | 1122/100000 [41:17<122:05:49,  4.45s/it]  1%|          | 1123/100000 [41:20<110:16:20,  4.01s/it]                                                           1%|          | 1123/100000 [41:20<110:16:20,  4.01s/it]  1%|          | 1124/100000 [41:22<98:28:34,  3.59s/it]                                                           1%|          | 1124/100000 [41:22<98:28:34,  3.59s/it]  1%|          | 1125/100000 [41:24<87:57:03,  3.20s/it]                                                          1%|          | 1125/100000 [41:24<87:57:03,  3.20s/it]  1%|          | 1126/100000 [41:26<78:00:53,  2.84s/it]                                                          1%|          | 1126/100000 [41:26<78:00:53,  2.84s/it]  1%|          | 1127/100000 [41:28<70:39:34,  2.57s/it]                                                          1%|          | 1127/100000 [41:28<70:39:34,  2.57s/it]  1%|          | 1128/100000 [41:30<64:27:35,  2.35s/it]                                                          1%|          | 1128/100000 [41:30<64:27:35,  2.35s/it]  1%|          | 1129/100000 [41:32<59:14:45,  2.16s/it]                                                          1%|          | 1129/100000 [41:32<59:14:45,  2.16s/it]  1%|          | 1130/100000 [41:33<54:48:48,  2.00s/it]                                                          1%|          | 1130/100000 [41:34<54:48:48,  2.00s/it]  1%|          | 1131/100000 [41:35<51:20:51,  1.87s/it]                                                          1%|          | 1131/100000 [41:35<51:20:51,  1.87s/it]  1%|          | 1132/100000 [41:36<47:40:40,  1.74s/it]                                                          1%|          | 1132/100000 [41:37<47:40:40,  1.74s/it]  1%|          | 1133/100000 [41:38<44:48:02,  1.63s/it]                                                          1%|          | 1133/100000 [41:38<44:48:02,  1.63s/it]  1%|          | 1134/100000 [41:39<41:56:33,  1.53s/it]                                                          1%|          | 1134/100000 [41:39<41:56:33,  1.53s/it]  1%|          | 1135/100000 [41:40<39:37:48,  1.44s/it]                                                          1%|          | 1135/100000 [41:40<39:37:48,  1.44s/it]  1%|          | 1136/100000 [41:42<37:46:46,  1.38s/it]                                                          1%|          | 1136/100000 [41:42<37:46:46,  1.38s/it]  1%|          | 1137/100000 [41:43<35:49:43,  1.30s/it]                                                          1%|          | 1137/100000 [41:43<35:49:43,  1.30s/it]  1%|          | 1138/100000 [41:44<34:15:48,  1.25s/it]                                                          1%|          | 1138/100000 [41:44<34:15:48,  1.25s/it]  1%|          | 1139/100000 [41:45<32:55:37,  1.20s/it]                                                          1%|          | 1139/100000 [41:45<32:55:37,  1.20s/it]  1%|          | 1140/100000 [41:46<31:44:31,  1.16s/it]                                                          1%|          | 1140/100000 [41:46<31:44:31,  1.16s/it]  1%|          | 1141/100000 [41:47<30:34:53,  1.11s/it]                                                          1%|          | 1141/100000 [41:47<30:34:53,  1.11s/it]  1%|          | 1142/100000 [41:48<29:21:20,  1.07s/it]                                                          1%|          | 1142/100000 [41:48<29:21:20,  1.07s/it]  1%|          | 1143/100000 [41:49<28:19:18,  1.03s/it]                                                          1%|          | 1143/100000 [41:49<28:19:18,  1.03s/it]  1%|          | 1144/100000 [41:50<27:21:02,  1.00it/s]                                                          1%|          | 1144/100000 [41:50<27:21:02,  1.00it/s]  1%|          | 1145/100000 [41:51<26:45:55,  1.03it/s]                                                          1%|          | 1145/100000 [41:51<26:45:55,  1.03it/s]  1%|          | 1146/100000 [41:52<26:18:51,  1.04it/s]                                                          1%|          | 1146/100000 [41:52<26:18:51,  1.04it/s]  1%|          | 1147/100000 [41:53<25:22:32,  1.08it/s]                                                          1%|          | 1147/100000 [41:53<25:22:32,  1.08it/s]  1%|          | 1148/100000 [41:53<24:23:34,  1.13it/s]                                                          1%|          | 1148/100000 [41:53<24:23:34,  1.13it/s]  1%|          | 1149/100000 [41:54<23:37:39,  1.16it/s]                                                          1%|          | 1149/100000 [41:54<23:37:39,  1.16it/s]  1%|          | 1150/100000 [41:55<23:21:15,  1.18it/s]                                                          1%|          | 1150/100000 [41:55<23:21:15,  1.18it/s]  1%|          | 1151/100000 [41:56<22:37:43,  1.21it/s]                                                          1%|          | 1151/100000 [41:56<22:37:43,  1.21it/s]  1%|          | 1152/100000 [41:57<22:10:34,  1.24it/s]                                                          1%|          | 1152/100000 [41:57<22:10:34,  1.24it/s]  1%|          | 1153/100000 [41:57<21:27:06,  1.28it/s]                                                          1%|          | 1153/100000 [41:57<21:27:06,  1.28it/s]  1%|          | 1154/100000 [41:58<20:21:56,  1.35it/s]                                                          1%|          | 1154/100000 [41:58<20:21:56,  1.35it/s]  1%|          | 1155/100000 [42:09<106:56:12,  3.89s/it]                                                           1%|          | 1155/100000 [42:09<106:56:12,  3.89s/it]  1%|          | 1156/100000 [42:17<138:10:55,  5.03s/it]                                                           1%|          | 1156/100000 [42:17<138:10:55,  5.03s/it]  1%|          | 1157/100000 [42:22<139:12:07,  5.07s/it]                                                           1%|          | 1157/100000 [42:22<139:12:07,  5.07s/it]  1%|          | 1158/100000 [42:27<135:09:52,  4.92s/it]                                                           1%|          | 1158/100000 [42:27<135:09:52,  4.92s/it]  1%|          | 1159/100000 [42:30<126:42:58,  4.62s/it]                                                           1%|          | 1159/100000 [42:30<126:42:58,  4.62s/it]  1%|          | 1160/100000 [42:34<116:54:41,  4.26s/it]                                                           1%|          | 1160/100000 [42:34<116:54:41,  4.26s/it]  1%|          | 1161/100000 [42:37<107:34:16,  3.92s/it]                                                           1%|          | 1161/100000 [42:37<107:34:16,  3.92s/it]  1%|          | 1162/100000 [42:40<97:35:19,  3.55s/it]                                                           1%|          | 1162/100000 [42:40<97:35:19,  3.55s/it]  1%|          | 1163/100000 [42:42<87:28:59,  3.19s/it]                                                          1%|          | 1163/100000 [42:42<87:28:59,  3.19s/it]  1%|          | 1164/100000 [42:44<78:50:28,  2.87s/it]                                                        {'loss': 1.1014, 'grad_norm': 6.681097030639648, 'learning_rate': 3.225e-06, 'epoch': 7.01}
{'loss': 0.8538, 'grad_norm': 2.9914767742156982, 'learning_rate': 3.2280000000000003e-06, 'epoch': 7.01}
{'loss': 0.7432, 'grad_norm': 2.5316128730773926, 'learning_rate': 3.231e-06, 'epoch': 7.02}
{'loss': 0.7518, 'grad_norm': 3.8451266288757324, 'learning_rate': 3.2340000000000003e-06, 'epoch': 7.03}
{'loss': 0.8133, 'grad_norm': 2.998540163040161, 'learning_rate': 3.237e-06, 'epoch': 7.03}
{'loss': 0.6944, 'grad_norm': 3.306889057159424, 'learning_rate': 3.24e-06, 'epoch': 7.04}
{'loss': 0.686, 'grad_norm': 2.1722192764282227, 'learning_rate': 3.243e-06, 'epoch': 7.05}
{'loss': 0.6285, 'grad_norm': 2.414834976196289, 'learning_rate': 3.2460000000000003e-06, 'epoch': 7.05}
{'loss': 0.59, 'grad_norm': 2.331148147583008, 'learning_rate': 3.2489999999999997e-06, 'epoch': 7.06}
{'loss': 0.5215, 'grad_norm': 2.366549253463745, 'learning_rate': 3.252e-06, 'epoch': 7.06}
{'loss': 0.5141, 'grad_norm': 2.176841974258423, 'learning_rate': 3.255e-06, 'epoch': 7.07}
{'loss': 0.4887, 'grad_norm': 3.4805924892425537, 'learning_rate': 3.258e-06, 'epoch': 7.08}
{'loss': 0.5226, 'grad_norm': 2.5153889656066895, 'learning_rate': 3.261e-06, 'epoch': 7.08}
{'loss': 0.4388, 'grad_norm': 2.1222541332244873, 'learning_rate': 3.264e-06, 'epoch': 7.09}
{'loss': 0.481, 'grad_norm': 2.7529661655426025, 'learning_rate': 3.267e-06, 'epoch': 7.1}
{'loss': 0.4499, 'grad_norm': 3.822631359100342, 'learning_rate': 3.27e-06, 'epoch': 7.1}
{'loss': 0.5064, 'grad_norm': 7.128147125244141, 'learning_rate': 3.2730000000000003e-06, 'epoch': 7.11}
{'loss': 0.46, 'grad_norm': 3.7347030639648438, 'learning_rate': 3.276e-06, 'epoch': 7.12}
{'loss': 0.5215, 'grad_norm': 8.153745651245117, 'learning_rate': 3.279e-06, 'epoch': 7.12}
{'loss': 0.5079, 'grad_norm': 4.122803211212158, 'learning_rate': 3.282e-06, 'epoch': 7.13}
{'loss': 0.5104, 'grad_norm': 7.6597981452941895, 'learning_rate': 3.285e-06, 'epoch': 7.14}
{'loss': 0.4614, 'grad_norm': 9.591153144836426, 'learning_rate': 3.288e-06, 'epoch': 7.14}
{'loss': 0.5364, 'grad_norm': 3.4654464721679688, 'learning_rate': 3.2910000000000003e-06, 'epoch': 7.15}
{'loss': 0.4322, 'grad_norm': 7.03181266784668, 'learning_rate': 3.2939999999999997e-06, 'epoch': 7.16}
{'loss': 0.5359, 'grad_norm': 14.43659496307373, 'learning_rate': 3.297e-06, 'epoch': 7.16}
{'loss': 0.4824, 'grad_norm': 4.542107582092285, 'learning_rate': 3.3e-06, 'epoch': 7.17}
{'loss': 0.6067, 'grad_norm': 3.6274566650390625, 'learning_rate': 3.3030000000000004e-06, 'epoch': 7.18}
{'loss': 0.5474, 'grad_norm': 3.1398792266845703, 'learning_rate': 3.306e-06, 'epoch': 7.18}
{'loss': 0.6309, 'grad_norm': 17.496435165405273, 'learning_rate': 3.309e-06, 'epoch': 7.19}
{'loss': 0.447, 'grad_norm': 4.513796806335449, 'learning_rate': 3.3120000000000002e-06, 'epoch': 7.19}
{'loss': 0.5386, 'grad_norm': 3.9434335231781006, 'learning_rate': 3.315e-06, 'epoch': 7.2}
{'loss': 0.5701, 'grad_norm': 5.274216651916504, 'learning_rate': 3.3180000000000003e-06, 'epoch': 7.21}
{'loss': 0.5362, 'grad_norm': 6.884128570556641, 'learning_rate': 3.3210000000000005e-06, 'epoch': 7.21}
{'loss': 0.4717, 'grad_norm': 4.315817356109619, 'learning_rate': 3.324e-06, 'epoch': 7.22}
{'loss': 0.5285, 'grad_norm': 4.71881628036499, 'learning_rate': 3.327e-06, 'epoch': 7.23}
{'loss': 0.5725, 'grad_norm': 3.7538506984710693, 'learning_rate': 3.3300000000000003e-06, 'epoch': 7.23}
{'loss': 0.6088, 'grad_norm': 7.03577184677124, 'learning_rate': 3.333e-06, 'epoch': 7.24}
{'loss': 0.7699, 'grad_norm': 9.644721031188965, 'learning_rate': 3.336e-06, 'epoch': 7.25}
{'loss': 1.1083, 'grad_norm': 9.75949478149414, 'learning_rate': 3.339e-06, 'epoch': 7.25}
{'loss': 0.969, 'grad_norm': 5.918421745300293, 'learning_rate': 3.342e-06, 'epoch': 7.26}
{'loss': 0.7033, 'grad_norm': 3.569530725479126, 'learning_rate': 3.345e-06, 'epoch': 7.27}
{'loss': 0.7851, 'grad_norm': 3.2638697624206543, 'learning_rate': 3.3480000000000004e-06, 'epoch': 7.27}
{'loss': 0.6911, 'grad_norm': 4.7279582023620605, 'learning_rate': 3.3509999999999998e-06, 'epoch': 7.28}
{'loss': 0.6899, 'grad_norm': 2.9626405239105225, 'learning_rate': 3.354e-06, 'epoch': 7.29}
{'loss': 0.6194, 'grad_norm': 3.0270092487335205, 'learning_rate': 3.3570000000000002e-06, 'epoch': 7.29}
{'loss': 0.6343, 'grad_norm': 2.3754518032073975, 'learning_rate': 3.36e-06, 'epoch': 7.3}
{'loss': 0.5702, 'grad_norm': 2.834935426712036, 'learning_rate': 3.3630000000000002e-06, 'epoch': 7.31}
{'loss': 0.5624, 'grad_norm': 2.467743396759033, 'learning_rate': 3.366e-06, 'epoch': 7.31}
{'loss': 0.5485, 'grad_norm': 4.862417697906494, 'learning_rate': 3.369e-06, 'epoch': 7.32}
{'loss': 0.5873, 'grad_norm': 2.3437650203704834, 'learning_rate': 3.372e-06, 'epoch': 7.32}
{'loss': 0.4808, 'grad_norm': 1.9922921657562256, 'learning_rate': 3.3750000000000003e-06, 'epoch': 7.33}
{'loss': 0.3962, 'grad_norm': 1.9984437227249146, 'learning_rate': 3.378e-06, 'epoch': 7.34}
{'loss': 0.4161, 'grad_norm': 1.649848461151123, 'learning_rate': 3.381e-06, 'epoch': 7.34}
{'loss': 0.4427, 'grad_norm': 2.8404195308685303, 'learning_rate': 3.384e-06, 'epoch': 7.35}
{'loss': 0.4807, 'grad_norm': 2.977522134780884, 'learning_rate': 3.387e-06, 'epoch': 7.36}
{'loss': 0.5118, 'grad_norm': 5.775942325592041, 'learning_rate': 3.39e-06, 'epoch': 7.36}
{'loss': 0.503, 'grad_norm': 2.4015090465545654, 'learning_rate': 3.3930000000000004e-06, 'epoch': 7.37}
{'loss': 0.4938, 'grad_norm': 4.046306133270264, 'learning_rate': 3.3959999999999998e-06, 'epoch': 7.38}
{'loss': 0.4826, 'grad_norm': 2.83695912361145, 'learning_rate': 3.399e-06, 'epoch': 7.38}
{'loss': 0.4637, 'grad_norm': 17.239482879638672, 'learning_rate': 3.402e-06, 'epoch': 7.39}
{'loss': 0.5239, 'grad_norm': 2.727170944213867, 'learning_rate': 3.405e-06, 'epoch': 7.4}
{'loss': 0.6087, 'grad_norm': 3.3542916774749756, 'learning_rate': 3.4080000000000002e-06, 'epoch': 7.4}
{'loss': 0.5255, 'grad_norm': 3.1976699829101562, 'learning_rate': 3.411e-06, 'epoch': 7.41}
{'loss': 0.4311, 'grad_norm': 3.2319672107696533, 'learning_rate': 3.414e-06, 'epoch': 7.42}
{'loss': 0.5415, 'grad_norm': 4.024234294891357, 'learning_rate': 3.417e-06, 'epoch': 7.42}
{'loss': 0.5667, 'grad_norm': 4.605843544006348, 'learning_rate': 3.4200000000000003e-06, 'epoch': 7.43}
{'loss': 0.4706, 'grad_norm': 9.732951164245605, 'learning_rate': 3.4229999999999997e-06, 'epoch': 7.44}
{'loss': 0.503, 'grad_norm': 4.136394023895264, 'learning_rate': 3.426e-06, 'epoch': 7.44}
{'loss': 0.5061, 'grad_norm': 3.828604221343994, 'learning_rate': 3.429e-06, 'epoch': 7.45}
{'loss': 0.3689, 'grad_norm': 3.036004066467285, 'learning_rate': 3.4320000000000003e-06, 'epoch': 7.45}
{'loss': 0.4709, 'grad_norm': 10.849832534790039, 'learning_rate': 3.435e-06, 'epoch': 7.46}
{'loss': 0.4967, 'grad_norm': 7.036123752593994, 'learning_rate': 3.438e-06, 'epoch': 7.47}
{'loss': 0.4074, 'grad_norm': 5.83408260345459, 'learning_rate': 3.441e-06, 'epoch': 7.47}
{'loss': 0.5549, 'grad_norm': 6.741036415100098, 'learning_rate': 3.444e-06, 'epoch': 7.48}
{'loss': 0.5312, 'grad_norm': 5.118810653686523, 'learning_rate': 3.447e-06, 'epoch': 7.49}
{'loss': 0.7084, 'grad_norm': 6.751353740692139, 'learning_rate': 3.4500000000000004e-06, 'epoch': 7.49}
{'loss': 0.9293, 'grad_norm': 3.307438611984253, 'learning_rate': 3.453e-06, 'epoch': 7.5}
{'loss': 0.7836, 'grad_norm': 2.1664180755615234, 'learning_rate': 3.456e-06, 'epoch': 7.51}
{'loss': 0.7821, 'grad_norm': 1.913461685180664, 'learning_rate': 3.4590000000000003e-06, 'epoch': 7.51}
{'loss': 0.7112, 'grad_norm': 2.5407679080963135, 'learning_rate': 3.462e-06, 'epoch': 7.52}
{'loss': 0.6587, 'grad_norm': 2.2972333431243896, 'learning_rate': 3.4650000000000003e-06, 'epoch': 7.53}
{'loss': 0.629, 'grad_norm': 2.5052223205566406, 'learning_rate': 3.468e-06, 'epoch': 7.53}
{'loss': 0.5828, 'grad_norm': 2.631422281265259, 'learning_rate': 3.471e-06, 'epoch': 7.54}
{'loss': 0.5447, 'grad_norm': 1.7604994773864746, 'learning_rate': 3.474e-06, 'epoch': 7.55}
{'loss': 0.6808, 'grad_norm': 3.289361000061035, 'learning_rate': 3.4770000000000003e-06, 'epoch': 7.55}
  1%|          | 1164/100000 [42:44<78:50:28,  2.87s/it]  1%|          | 1165/100000 [42:46<71:36:05,  2.61s/it]                                                          1%|          | 1165/100000 [42:46<71:36:05,  2.61s/it]  1%|          | 1166/100000 [42:48<64:59:15,  2.37s/it]                                                          1%|          | 1166/100000 [42:48<64:59:15,  2.37s/it]  1%|          | 1167/100000 [42:50<60:14:56,  2.19s/it]                                                          1%|          | 1167/100000 [42:50<60:14:56,  2.19s/it]  1%|          | 1168/100000 [42:51<55:38:41,  2.03s/it]                                                          1%|          | 1168/100000 [42:51<55:38:41,  2.03s/it]  1%|          | 1169/100000 [42:53<51:52:56,  1.89s/it]                                                          1%|          | 1169/100000 [42:53<51:52:56,  1.89s/it]  1%|          | 1170/100000 [42:54<48:18:59,  1.76s/it]                                                          1%|          | 1170/100000 [42:54<48:18:59,  1.76s/it]  1%|          | 1171/100000 [42:56<45:02:45,  1.64s/it]                                                          1%|          | 1171/100000 [42:56<45:02:45,  1.64s/it]  1%|          | 1172/100000 [42:57<42:40:17,  1.55s/it]                                                          1%|          | 1172/100000 [42:57<42:40:17,  1.55s/it]  1%|          | 1173/100000 [42:58<40:28:23,  1.47s/it]                                                          1%|          | 1173/100000 [42:58<40:28:23,  1.47s/it]  1%|          | 1174/100000 [43:00<38:33:00,  1.40s/it]                                                          1%|          | 1174/100000 [43:00<38:33:00,  1.40s/it]  1%|          | 1175/100000 [43:01<36:29:16,  1.33s/it]                                                          1%|          | 1175/100000 [43:01<36:29:16,  1.33s/it]  1%|          | 1176/100000 [43:02<34:39:17,  1.26s/it]                                                          1%|          | 1176/100000 [43:02<34:39:17,  1.26s/it]  1%|          | 1177/100000 [43:03<33:12:22,  1.21s/it]                                                          1%|          | 1177/100000 [43:03<33:12:22,  1.21s/it]  1%|          | 1178/100000 [43:04<31:44:06,  1.16s/it]                                                          1%|          | 1178/100000 [43:04<31:44:06,  1.16s/it]  1%|          | 1179/100000 [43:05<30:17:21,  1.10s/it]                                                          1%|          | 1179/100000 [43:05<30:17:21,  1.10s/it]  1%|          | 1180/100000 [43:06<29:08:18,  1.06s/it]                                                          1%|          | 1180/100000 [43:06<29:08:18,  1.06s/it]  1%|          | 1181/100000 [43:07<28:14:57,  1.03s/it]                                                          1%|          | 1181/100000 [43:07<28:14:57,  1.03s/it]  1%|          | 1182/100000 [43:08<27:12:20,  1.01it/s]                                                          1%|          | 1182/100000 [43:08<27:12:20,  1.01it/s]  1%|          | 1183/100000 [43:09<26:15:45,  1.05it/s]                                                          1%|          | 1183/100000 [43:09<26:15:45,  1.05it/s]  1%|          | 1184/100000 [43:10<25:46:57,  1.06it/s]                                                          1%|          | 1184/100000 [43:10<25:46:57,  1.06it/s]  1%|          | 1185/100000 [43:10<25:02:15,  1.10it/s]                                                          1%|          | 1185/100000 [43:10<25:02:15,  1.10it/s]  1%|          | 1186/100000 [43:11<24:15:07,  1.13it/s]                                                          1%|          | 1186/100000 [43:11<24:15:07,  1.13it/s]  1%|          | 1187/100000 [43:12<23:45:35,  1.16it/s]                                                          1%|          | 1187/100000 [43:12<23:45:35,  1.16it/s]  1%|          | 1188/100000 [43:13<22:49:53,  1.20it/s]                                                          1%|          | 1188/100000 [43:13<22:49:53,  1.20it/s]  1%|          | 1189/100000 [43:14<21:50:42,  1.26it/s]                                                          1%|          | 1189/100000 [43:14<21:50:42,  1.26it/s]  1%|          | 1190/100000 [43:14<20:41:06,  1.33it/s]                                                          1%|          | 1190/100000 [43:14<20:41:06,  1.33it/s]  1%|          | 1191/100000 [43:15<21:03:22,  1.30it/s]                                                          1%|          | 1191/100000 [43:15<21:03:22,  1.30it/s]  1%|          | 1192/100000 [43:16<20:39:50,  1.33it/s]                                                          1%|          | 1192/100000 [43:16<20:39:50,  1.33it/s]  1%|          | 1193/100000 [43:29<123:25:17,  4.50s/it]                                                           1%|          | 1193/100000 [43:29<123:25:17,  4.50s/it]  1%|          | 1194/100000 [43:37<152:37:58,  5.56s/it]                                                           1%|          | 1194/100000 [43:37<152:37:58,  5.56s/it]  1%|          | 1195/100000 [43:43<152:25:33,  5.55s/it]                                                           1%|          | 1195/100000 [43:43<152:25:33,  5.55s/it]  1%|          | 1196/100000 [43:47<143:09:53,  5.22s/it]                                                           1%|          | 1196/100000 [43:47<143:09:53,  5.22s/it]  1%|          | 1197/100000 [43:51<133:54:56,  4.88s/it]                                                           1%|          | 1197/100000 [43:51<133:54:56,  4.88s/it]  1%|          | 1198/100000 [43:55<123:38:09,  4.50s/it]                                                           1%|          | 1198/100000 [43:55<123:38:09,  4.50s/it]  1%|          | 1199/100000 [43:58<112:36:35,  4.10s/it]                                                           1%|          | 1199/100000 [43:58<112:36:35,  4.10s/it]  1%|          | 1200/100000 [44:01<102:04:26,  3.72s/it]                                                           1%|          | 1200/100000 [44:01<102:04:26,  3.72s/it]  1%|          | 1201/100000 [44:03<91:32:13,  3.34s/it]                                                           1%|          | 1201/100000 [44:03<91:32:13,  3.34s/it]  1%|          | 1202/100000 [44:05<81:50:45,  2.98s/it]                                                          1%|          | 1202/100000 [44:05<81:50:45,  2.98s/it]  1%|          | 1203/100000 [44:07<73:29:54,  2.68s/it]                                                          1%|          | 1203/100000 [44:07<73:29:54,  2.68s/it]  1%|          | 1204/100000 [44:09<67:11:36,  2.45s/it]                                                          1%|          | 1204/100000 [44:09<67:11:36,  2.45s/it]  1%|          | 1205/100000 [44:11<61:28:58,  2.24s/it]                                                          1%|          | 1205/100000 [44:11<61:28:58,  2.24s/it]  1%|          | 1206/100000 [44:12<55:33:15,  2.02s/it]                                                          1%|          | 1206/100000 [44:12<55:33:15,  2.02s/it]  1%|          | 1207/100000 [44:14<51:48:01,  1.89s/it]                                                          1%|          | 1207/100000 [44:14<51:48:01,  1.89s/it]  1%|          | 1208/100000 [44:16<48:49:49,  1.78s/it]                                                          1%|          | 1208/100000 [44:16<48:49:49,  1.78s/it]  1%|          | 1209/100000 [44:17<46:01:55,  1.68s/it]                                                          1%|          | 1209/100000 [44:17<46:01:55,  1.68s/it]  1%|          | 1210/100000 [44:18<43:20:46,  1.58s/it]                                                          1%|          | 1210/100000 [44:18<43:20:46,  1.58s/it]  1%|          | 1211/100000 [44:20<41:04:04,  1.50s/it]                                                          1%|          | 1211/100000 [44:20<41:04:04,  1.50s/it]  1%|          | 1212/100000 [44:21<39:11:14,  1.43s/it]                                                          1%|          | 1212/100000 [44:21<39:11:14,  1.43s/it]  1%|          | 1213/100000 [44:22<36:53:24,  1.34s/it]                                                          1%|          | 1213/100000 [44:22<36:53:24,  1.34s/it]  1%|          | 1214/100000 [44:23<34:38:35,  1.26s/it]                                                          1%|          | 1214/100000 [44:23<34:38:35,  1.26s/it]  1%|          | 1215/100000 [44:24<32:57:47,  1.20s/it]                                                          1%|          | 1215/100000 [44:24<32:57:47,  1.20s/it]  1%|          | 1216/100000 [44:25<31:04:40,  1.13s/it]                                                          1%|          | 1216/100000 [44:25<31:04:40,  1.13s/it]  1%|          | 1217/100000 [44:26<29:34:45,  1.08s/it]                                                          1%|          | 1217/100000 [44:26<29:34:45,  1.08s/it]  1%|          | 1218/100000 [44:27<28:22:45,  1.03s/it]                                                          1%|          | 1218/100000 [44:27<28:22:45,  1.03s/it]  1%|          | 1219/100000 [44:28<27:16:16,  1.01it/s]                                                          1%|          | 1219/100000 [44:28<27:16:16,  1.01it/s]  1%|          | 1220/100000 [44:29<26:14:47,  1.05it/s]                                                          1%|          | 1220/100000 [44:29<26:14:47,  1.05it/s]  1%|          | 1221/100000 [44:30<24:51:19,  1.10it/s]                                                          1%|          | 1221/100000 [44:30<24:51:19,  1.10it/s]  1%|          | 1222/100000 [44:30<23:49:24,  1.15it/s]                                                          1%|          | 1222/100000 [44:30<23:49:24,  1.15it/s]  1%|          | 1223/100000 [44:31<23:24:11,  1.17it/s]                                                          1%|          | 1223/100000 [44:31<23:24:11,  1.17it/s]  1%|          | 1224/100000 [44:32<22:41:24,  1.21it/s]                                                          1%|          | 1224/100000 [44:32<22:41:24,  1.21it/s]  1%|          | 1225/100000 [44:33<21:41:48,  1.26it/s]                                                          1%|          | 1225/100000 [44:33<21:41:48,  1.26it/s]  1%|          | 1226/100000 [44:33<20:55:59,  1.31it/s]                                                          1%|          | 1226/100000 [44:33<20:55:59,  1.31it/s]  1%|          | 1227/100000 [44:34<20:44:27,  1.32it/s]                                                          1%|          | 1227/100000 [44:34<20:44:27,  1.32it/s]  1%|          | 1228/100000 [44:35<19:43:42,  1.39it/s]                                                          1%|          | 1228/100000 [44:35<19:43:42,  1.39it/s]  1%|          | 1229/100000 [44:35<18:45:38,  1.46it/s]                                                          1%|          | 1229/100000 [44:35<18:45:38,  1.46it/s]  1%|          | 1230/100000 [44:36<18:31:04,  1.48it/s]                                                          1%|          | 1230/100000 [44:36<18:31:04,  1.48it/s]  1%|          | 1231/100000 [44:44<79:42:02,  2.90s/it]                                                          1%|          | 1231/100000 [44:44<79:42:02,  2.90s/it]  1%|          | 1232/100000 [44:46<67:15:58,  2.45s/it]                                                          1%|          | 1232/100000 [44:46<67:15:58,  2.45s/it]{'loss': 0.5337, 'grad_norm': 2.1983072757720947, 'learning_rate': 3.48e-06, 'epoch': 7.56}
{'loss': 0.3714, 'grad_norm': 2.75561785697937, 'learning_rate': 3.483e-06, 'epoch': 7.56}
{'loss': 0.4798, 'grad_norm': 2.670633554458618, 'learning_rate': 3.486e-06, 'epoch': 7.57}
{'loss': 0.5685, 'grad_norm': 4.709747791290283, 'learning_rate': 3.489e-06, 'epoch': 7.58}
{'loss': 0.4448, 'grad_norm': 2.774378538131714, 'learning_rate': 3.492e-06, 'epoch': 7.58}
{'loss': 0.4251, 'grad_norm': 3.15028977394104, 'learning_rate': 3.4950000000000004e-06, 'epoch': 7.59}
{'loss': 0.4782, 'grad_norm': 5.986645698547363, 'learning_rate': 3.498e-06, 'epoch': 7.6}
{'loss': 0.4368, 'grad_norm': 2.3750438690185547, 'learning_rate': 3.501e-06, 'epoch': 7.6}
{'loss': 0.4889, 'grad_norm': 3.496135950088501, 'learning_rate': 3.5040000000000002e-06, 'epoch': 7.61}
{'loss': 0.3677, 'grad_norm': 2.5202391147613525, 'learning_rate': 3.507e-06, 'epoch': 7.62}
{'loss': 0.4029, 'grad_norm': 2.4423608779907227, 'learning_rate': 3.5100000000000003e-06, 'epoch': 7.62}
{'loss': 0.4084, 'grad_norm': 3.890479326248169, 'learning_rate': 3.513e-06, 'epoch': 7.63}
{'loss': 0.4726, 'grad_norm': 3.3083863258361816, 'learning_rate': 3.516e-06, 'epoch': 7.64}
{'loss': 0.4483, 'grad_norm': 4.198374271392822, 'learning_rate': 3.519e-06, 'epoch': 7.64}
{'loss': 0.4477, 'grad_norm': 6.109979152679443, 'learning_rate': 3.5220000000000003e-06, 'epoch': 7.65}
{'loss': 0.4047, 'grad_norm': 2.811729669570923, 'learning_rate': 3.5249999999999997e-06, 'epoch': 7.66}
{'loss': 0.4173, 'grad_norm': 3.4632177352905273, 'learning_rate': 3.528e-06, 'epoch': 7.66}
{'loss': 0.4784, 'grad_norm': 7.3028483390808105, 'learning_rate': 3.531e-06, 'epoch': 7.67}
{'loss': 0.4858, 'grad_norm': 3.8974063396453857, 'learning_rate': 3.534e-06, 'epoch': 7.68}
{'loss': 0.4858, 'grad_norm': 3.5979726314544678, 'learning_rate': 3.537e-06, 'epoch': 7.68}
{'loss': 0.4489, 'grad_norm': 4.196685791015625, 'learning_rate': 3.54e-06, 'epoch': 7.69}
{'loss': 0.3717, 'grad_norm': 2.9608006477355957, 'learning_rate': 3.543e-06, 'epoch': 7.69}
{'loss': 0.4647, 'grad_norm': 3.5658037662506104, 'learning_rate': 3.546e-06, 'epoch': 7.7}
{'loss': 0.4542, 'grad_norm': 4.588896751403809, 'learning_rate': 3.5490000000000002e-06, 'epoch': 7.71}
{'loss': 0.4683, 'grad_norm': 3.4604990482330322, 'learning_rate': 3.552e-06, 'epoch': 7.71}
{'loss': 0.4944, 'grad_norm': 5.315496921539307, 'learning_rate': 3.555e-06, 'epoch': 7.72}
{'loss': 0.4893, 'grad_norm': 4.518588542938232, 'learning_rate': 3.558e-06, 'epoch': 7.73}
{'loss': 0.4257, 'grad_norm': 4.428680896759033, 'learning_rate': 3.5610000000000003e-06, 'epoch': 7.73}
{'loss': 0.5476, 'grad_norm': 5.270693778991699, 'learning_rate': 3.564e-06, 'epoch': 7.74}
{'loss': 0.9687, 'grad_norm': 4.272497177124023, 'learning_rate': 3.5670000000000003e-06, 'epoch': 7.75}
{'loss': 0.8337, 'grad_norm': 3.377183198928833, 'learning_rate': 3.57e-06, 'epoch': 7.75}
{'loss': 0.8521, 'grad_norm': 2.7317392826080322, 'learning_rate': 3.573e-06, 'epoch': 7.76}
{'loss': 0.7064, 'grad_norm': 4.29434871673584, 'learning_rate': 3.576e-06, 'epoch': 7.77}
{'loss': 0.6632, 'grad_norm': 16.61924171447754, 'learning_rate': 3.5790000000000004e-06, 'epoch': 7.77}
{'loss': 0.614, 'grad_norm': 6.805590629577637, 'learning_rate': 3.582e-06, 'epoch': 7.78}
{'loss': 0.5959, 'grad_norm': 4.493930339813232, 'learning_rate': 3.585e-06, 'epoch': 7.79}
{'loss': 0.5596, 'grad_norm': 2.6986517906188965, 'learning_rate': 3.588e-06, 'epoch': 7.79}
{'loss': 0.5306, 'grad_norm': 2.6424028873443604, 'learning_rate': 3.591e-06, 'epoch': 7.8}
{'loss': 0.5359, 'grad_norm': 4.421395301818848, 'learning_rate': 3.5940000000000002e-06, 'epoch': 7.81}
{'loss': 0.4307, 'grad_norm': 7.456873893737793, 'learning_rate': 3.5970000000000005e-06, 'epoch': 7.81}
{'loss': 0.428, 'grad_norm': 2.446387767791748, 'learning_rate': 3.6e-06, 'epoch': 7.82}
{'loss': 0.4234, 'grad_norm': 2.587064266204834, 'learning_rate': 3.603e-06, 'epoch': 7.82}
{'loss': 0.4195, 'grad_norm': 3.0563180446624756, 'learning_rate': 3.6060000000000003e-06, 'epoch': 7.83}
{'loss': 0.4236, 'grad_norm': 2.193781852722168, 'learning_rate': 3.609e-06, 'epoch': 7.84}
{'loss': 0.4139, 'grad_norm': 3.833674669265747, 'learning_rate': 3.612e-06, 'epoch': 7.84}
{'loss': 0.4163, 'grad_norm': 4.40657377243042, 'learning_rate': 3.615e-06, 'epoch': 7.85}
{'loss': 0.3753, 'grad_norm': 1.9013835191726685, 'learning_rate': 3.618e-06, 'epoch': 7.86}
{'loss': 0.427, 'grad_norm': 3.264472484588623, 'learning_rate': 3.621e-06, 'epoch': 7.86}
{'loss': 0.4054, 'grad_norm': 4.020663261413574, 'learning_rate': 3.6240000000000004e-06, 'epoch': 7.87}
{'loss': 0.4932, 'grad_norm': 9.807280540466309, 'learning_rate': 3.6269999999999997e-06, 'epoch': 7.88}
{'loss': 0.4435, 'grad_norm': 4.4589033126831055, 'learning_rate': 3.63e-06, 'epoch': 7.88}
{'loss': 0.4013, 'grad_norm': 13.061604499816895, 'learning_rate': 3.633e-06, 'epoch': 7.89}
{'loss': 0.4315, 'grad_norm': 3.4180543422698975, 'learning_rate': 3.636e-06, 'epoch': 7.9}
{'loss': 0.5375, 'grad_norm': 5.273220062255859, 'learning_rate': 3.6390000000000002e-06, 'epoch': 7.9}
{'loss': 0.3873, 'grad_norm': 3.237931966781616, 'learning_rate': 3.642e-06, 'epoch': 7.91}
{'loss': 0.5119, 'grad_norm': 6.155395030975342, 'learning_rate': 3.645e-06, 'epoch': 7.92}
{'loss': 0.4853, 'grad_norm': 4.067036151885986, 'learning_rate': 3.648e-06, 'epoch': 7.92}
{'loss': 0.4865, 'grad_norm': 3.1355464458465576, 'learning_rate': 3.6510000000000003e-06, 'epoch': 7.93}
{'loss': 0.417, 'grad_norm': 5.63749885559082, 'learning_rate': 3.654e-06, 'epoch': 7.94}
{'loss': 0.4554, 'grad_norm': 3.9084150791168213, 'learning_rate': 3.657e-06, 'epoch': 7.94}
{'loss': 0.5288, 'grad_norm': 9.223315238952637, 'learning_rate': 3.66e-06, 'epoch': 7.95}
{'loss': 0.43, 'grad_norm': 4.639807224273682, 'learning_rate': 3.663e-06, 'epoch': 7.95}
{'loss': 0.4596, 'grad_norm': 5.8677496910095215, 'learning_rate': 3.666e-06, 'epoch': 7.96}
{'loss': 0.524, 'grad_norm': 7.528148651123047, 'learning_rate': 3.6690000000000004e-06, 'epoch': 7.97}
{'loss': 0.5385, 'grad_norm': 6.5924482345581055, 'learning_rate': 3.6719999999999997e-06, 'epoch': 7.97}
{'loss': 0.4811, 'grad_norm': 5.934005260467529, 'learning_rate': 3.675e-06, 'epoch': 7.98}
{'loss': 0.66, 'grad_norm': 4.727666854858398, 'learning_rate': 3.678e-06, 'epoch': 7.99}
{'loss': 0.5637, 'grad_norm': 4.038113594055176, 'learning_rate': 3.681e-06, 'epoch': 7.99}
{'loss': 0.4668, 'grad_norm': 6.566636562347412, 'learning_rate': 3.6840000000000002e-06, 'epoch': 8.0}
  1%|          | 1233/100000 [45:03<191:03:06,  6.96s/it]                                                           1%|          | 1233/100000 [45:03<191:03:06,  6.96s/it]  1%|          | 1234/100000 [45:11<197:10:46,  7.19s/it]                                                           1%|          | 1234/100000 [45:11<197:10:46,  7.19s/it]  1%|          | 1235/100000 [45:16<182:49:00,  6.66s/it]                                                           1%|          | 1235/100000 [45:16<182:49:00,  6.66s/it]  1%|          | 1236/100000 [45:20<162:38:12,  5.93s/it]                                                           1%|          | 1236/100000 [45:20<162:38:12,  5.93s/it]  1%|          | 1237/100000 [45:24<146:54:30,  5.35s/it]                                                           1%|          | 1237/100000 [45:24<146:54:30,  5.35s/it]  1%|          | 1238/100000 [45:28<132:01:04,  4.81s/it]                                                           1%|          | 1238/100000 [45:28<132:01:04,  4.81s/it]  1%|          | 1239/100000 [45:31<118:13:53,  4.31s/it]                                                           1%|          | 1239/100000 [45:31<118:13:53,  4.31s/it]  1%|          | 1240/100000 [45:34<105:31:31,  3.85s/it]                                                           1%|          | 1240/100000 [45:34<105:31:31,  3.85s/it]  1%|          | 1241/100000 [45:36<93:37:42,  3.41s/it]                                                           1%|          | 1241/100000 [45:36<93:37:42,  3.41s/it]  1%|          | 1242/100000 [45:38<83:24:12,  3.04s/it]                                                          1%|          | 1242/100000 [45:38<83:24:12,  3.04s/it]  1%|          | 1243/100000 [45:40<74:55:36,  2.73s/it]                                                          1%|          | 1243/100000 [45:40<74:55:36,  2.73s/it]  1%|          | 1244/100000 [45:42<67:21:36,  2.46s/it]                                                          1%|          | 1244/100000 [45:42<67:21:36,  2.46s/it]  1%|          | 1245/100000 [45:44<61:34:26,  2.24s/it]                                                          1%|          | 1245/100000 [45:44<61:34:26,  2.24s/it]  1%|          | 1246/100000 [45:46<56:57:16,  2.08s/it]                                                          1%|          | 1246/100000 [45:46<56:57:16,  2.08s/it]  1%|          | 1247/100000 [45:47<53:02:55,  1.93s/it]                                                          1%|          | 1247/100000 [45:47<53:02:55,  1.93s/it]  1%|          | 1248/100000 [45:49<49:20:27,  1.80s/it]                                                          1%|          | 1248/100000 [45:49<49:20:27,  1.80s/it]  1%|          | 1249/100000 [45:50<46:22:12,  1.69s/it]                                                          1%|          | 1249/100000 [45:50<46:22:12,  1.69s/it]  1%|▏         | 1250/100000 [45:52<43:54:37,  1.60s/it]                                                          1%|▏         | 1250/100000 [45:52<43:54:37,  1.60s/it]  1%|▏         | 1251/100000 [45:53<41:24:19,  1.51s/it]                                                          1%|▏         | 1251/100000 [45:53<41:24:19,  1.51s/it]  1%|▏         | 1252/100000 [45:54<39:32:22,  1.44s/it]                                                          1%|▏         | 1252/100000 [45:54<39:32:22,  1.44s/it]  1%|▏         | 1253/100000 [45:55<37:42:36,  1.37s/it]                                                          1%|▏         | 1253/100000 [45:55<37:42:36,  1.37s/it]  1%|▏         | 1254/100000 [45:57<35:47:34,  1.30s/it]                                                          1%|▏         | 1254/100000 [45:57<35:47:34,  1.30s/it]  1%|▏         | 1255/100000 [45:58<34:03:17,  1.24s/it]                                                          1%|▏         | 1255/100000 [45:58<34:03:17,  1.24s/it]  1%|▏         | 1256/100000 [45:59<32:11:58,  1.17s/it]                                                          1%|▏         | 1256/100000 [45:59<32:11:58,  1.17s/it]  1%|▏         | 1257/100000 [46:00<30:38:31,  1.12s/it]                                                          1%|▏         | 1257/100000 [46:00<30:38:31,  1.12s/it]  1%|▏         | 1258/100000 [46:01<29:21:48,  1.07s/it]                                                          1%|▏         | 1258/100000 [46:01<29:21:48,  1.07s/it]  1%|▏         | 1259/100000 [46:02<28:18:58,  1.03s/it]                                                          1%|▏         | 1259/100000 [46:02<28:18:58,  1.03s/it]  1%|▏         | 1260/100000 [46:02<27:14:14,  1.01it/s]                                                          1%|▏         | 1260/100000 [46:02<27:14:14,  1.01it/s]  1%|▏         | 1261/100000 [46:03<27:06:55,  1.01it/s]                                                          1%|▏         | 1261/100000 [46:03<27:06:55,  1.01it/s]  1%|▏         | 1262/100000 [46:04<26:14:11,  1.05it/s]                                                          1%|▏         | 1262/100000 [46:04<26:14:11,  1.05it/s]  1%|▏         | 1263/100000 [46:05<25:45:13,  1.06it/s]                                                          1%|▏         | 1263/100000 [46:05<25:45:13,  1.06it/s]  1%|▏         | 1264/100000 [46:06<25:25:23,  1.08it/s]                                                          1%|▏         | 1264/100000 [46:06<25:25:23,  1.08it/s]  1%|▏         | 1265/100000 [46:07<24:54:43,  1.10it/s]                                                          1%|▏         | 1265/100000 [46:07<24:54:43,  1.10it/s]  1%|▏         | 1266/100000 [46:08<24:23:08,  1.12it/s]                                                          1%|▏         | 1266/100000 [46:08<24:23:08,  1.12it/s]  1%|▏         | 1267/100000 [46:09<23:25:35,  1.17it/s]                                                          1%|▏         | 1267/100000 [46:09<23:25:35,  1.17it/s]  1%|▏         | 1268/100000 [46:09<22:57:31,  1.19it/s]                                                          1%|▏         | 1268/100000 [46:09<22:57:31,  1.19it/s]  1%|▏         | 1269/100000 [46:10<22:14:49,  1.23it/s]                                                          1%|▏         | 1269/100000 [46:10<22:14:49,  1.23it/s]  1%|▏         | 1270/100000 [46:11<21:35:18,  1.27it/s]                                                          1%|▏         | 1270/100000 [46:11<21:35:18,  1.27it/s]  1%|▏         | 1271/100000 [46:23<111:17:27,  4.06s/it]                                                           1%|▏         | 1271/100000 [46:23<111:17:27,  4.06s/it]  1%|▏         | 1272/100000 [46:31<144:05:25,  5.25s/it]                                                           1%|▏         | 1272/100000 [46:31<144:05:25,  5.25s/it]  1%|▏         | 1273/100000 [46:36<146:12:49,  5.33s/it]                                                           1%|▏         | 1273/100000 [46:36<146:12:49,  5.33s/it]  1%|▏         | 1274/100000 [46:41<140:21:03,  5.12s/it]                                                           1%|▏         | 1274/100000 [46:41<140:21:03,  5.12s/it]  1%|▏         | 1275/100000 [46:44<129:15:07,  4.71s/it]                                                           1%|▏         | 1275/100000 [46:44<129:15:07,  4.71s/it]  1%|▏         | 1276/100000 [46:48<118:29:50,  4.32s/it]                                                           1%|▏         | 1276/100000 [46:48<118:29:50,  4.32s/it]  1%|▏         | 1277/100000 [46:51<107:15:39,  3.91s/it]                                                           1%|▏         | 1277/100000 [46:51<107:15:39,  3.91s/it]  1%|▏         | 1278/100000 [46:53<96:11:46,  3.51s/it]                                                           1%|▏         | 1278/100000 [46:53<96:11:46,  3.51s/it]  1%|▏         | 1279/100000 [46:56<86:16:13,  3.15s/it]                                                          1%|▏         | 1279/100000 [46:56<86:16:13,  3.15s/it]  1%|▏         | 1280/100000 [46:58<77:35:29,  2.83s/it]                                                          1%|▏         | 1280/100000 [46:58<77:35:29,  2.83s/it]  1%|▏         | 1281/100000 [47:00<70:25:49,  2.57s/it]                                                          1%|▏         | 1281/100000 [47:00<70:25:49,  2.57s/it]  1%|▏         | 1282/100000 [47:02<64:16:09,  2.34s/it]                                                          1%|▏         | 1282/100000 [47:02<64:16:09,  2.34s/it]  1%|▏         | 1283/100000 [47:03<58:40:44,  2.14s/it]                                                          1%|▏         | 1283/100000 [47:03<58:40:44,  2.14s/it]  1%|▏         | 1284/100000 [47:05<54:20:42,  1.98s/it]                                                          1%|▏         | 1284/100000 [47:05<54:20:42,  1.98s/it]  1%|▏         | 1285/100000 [47:06<50:37:52,  1.85s/it]                                                          1%|▏         | 1285/100000 [47:06<50:37:52,  1.85s/it]  1%|▏         | 1286/100000 [47:08<47:19:36,  1.73s/it]                                                          1%|▏         | 1286/100000 [47:08<47:19:36,  1.73s/it]  1%|▏         | 1287/100000 [47:09<44:08:14,  1.61s/it]                                                          1%|▏         | 1287/100000 [47:09<44:08:14,  1.61s/it]  1%|▏         | 1288/100000 [47:11<41:55:31,  1.53s/it]                                                          1%|▏         | 1288/100000 [47:11<41:55:31,  1.53s/it]  1%|▏         | 1289/100000 [47:12<39:57:49,  1.46s/it]                                                          1%|▏         | 1289/100000 [47:12<39:57:49,  1.46s/it]  1%|▏         | 1290/100000 [47:13<38:03:04,  1.39s/it]                                                          1%|▏         | 1290/100000 [47:13<38:03:04,  1.39s/it]  1%|▏         | 1291/100000 [47:14<35:46:24,  1.30s/it]                                                          1%|▏         | 1291/100000 [47:14<35:46:24,  1.30s/it]  1%|▏         | 1292/100000 [47:15<34:00:56,  1.24s/it]                                                          1%|▏         | 1292/100000 [47:15<34:00:56,  1.24s/it]  1%|▏         | 1293/100000 [47:16<32:40:03,  1.19s/it]                                                          1%|▏         | 1293/100000 [47:16<32:40:03,  1.19s/it]  1%|▏         | 1294/100000 [47:17<31:16:31,  1.14s/it]                                                          1%|▏         | 1294/100000 [47:17<31:16:31,  1.14s/it]  1%|▏         | 1295/100000 [47:18<29:29:26,  1.08s/it]                                                          1%|▏         | 1295/100000 [47:18<29:29:26,  1.08s/it]  1%|▏         | 1296/100000 [47:19<28:12:30,  1.03s/it]                                                          1%|▏         | 1296/100000 [47:19<28:12:30,  1.03s/it]  1%|▏         | 1297/100000 [47:20<27:56:35,  1.02s/it]                                                          1%|▏         | 1297/100000 [47:20<27:56:35,  1.02s/it]  1%|▏         | 1298/100000 [47:21<26:57:02,  1.02it/s]                                                          1%|▏         | 1298/100000 [47:21<26:57:02,  1.02it/s]  1%|▏         | 1299/100000 [47:22<25:45:26,  1.06it/s]                                                          1%|▏         | 1299/100000 [47:22<25:45:26,  1.06it/s]  1%|▏         | 1300/100000 [47:23<24:57:49,  1.10it/s]                                                          1%|▏         | 1300/100000 [47:23<24:57:49,  1.10it/s]  1%|▏         | 1301/100000 [47:24<24:33:53,  1.12it/s]                                                          1%|▏         | 1301/100000 [47:24<24:33:53,  1.12it/s]  1%|▏         | 1302/100000 [47:24<24:07:15,  1.14it/s]                                                          1%|▏         | 1302/100000 [47:24<24:07:15,  1.14it/s]  1%|▏         | 1303/100000 [47:25<23:05:26,  1.19it/s]                                                          1%|▏         | 1303/100000 [47:25<23:05:26,  1.19it/s]  1%|▏         | 1304/100000 [47:26<22:35:21,  1.21it/s]                                                          1%|▏         | 1304/100000 [47:26<22:35:21,  1.21it/s]  1%|▏         | 1305/100000 [47:27<21:44:37,  1.26it/s]                                                          1%|▏         | 1305/100000 [47:27<21:44:37,  1.26it/s]  1%|▏         | 1306/100000 [47:27<21:39:39,  1.27it/s]                                                          1%|▏         | 1306/100000 [47:27<21:39:39,  1.27it/s]  1%|▏         | 1307/100000 [47:28<20:59:37,  1.31it/s]                                                          1%|▏         | 1307/100000 [47:28<20:59:37,  1.31it/s]  1%|▏         | 1308/100000 [47:29<20:25:36,  1.34it/s]                                                          1%|▏         | 1308/100000 [47:29<20:25:36,  1.34it/s]  1%|▏         | 1309/100000 [47:41<114:05:06,  4.16s/it]                                                           1%|▏         | 1309/100000 [47:41<114:05:06,  4.16s/it]  1%|▏         | 1310/100000 [47:49<146:48:38,  5.36s/it]                                                           1%|▏         | 1310/100000 [47:49<146:48:38,  5.36s/it]  1%|▏         | 1311/100000 [47:55<149:58:22,  5.47s/it]                                                           1%|▏         | 1311/100000 [47:55<149:58:22,  5.47s/it]  1%|▏         | 1312/100000 [48:00<145:42:46,  5.32s/it]                                                           1%|▏         | 1312/100000 [48:00<145:42:46,  5.32s/it]  1%|▏         | 1313/100000 [48:04<135:25:09,  4.94s/it]                                                           1%|▏         | 1313/100000 [48:04<135:25:09,  4.94s/it]  1%|▏         | 1314/100000 [48:07<124:09:35,  4.53s/it]                                                           1%|▏         | 1314/100000 [48:08<124:09:35,  4.53s/it]  1%|▏         | 1315/100000 [48:11<112:12:23,  4.09s/it]                                                           1%|▏         | 1315/100000 [48:11<112:12:23,  4.09s/it]  1%|▏         | 1316/100000 [48:13<99:36:39,  3.63s/it]                                                           1%|▏         | 1316/100000 [48:13<99:36:39,  3.63s/it]  1%|▏         | 1317/100000 [48:15<89:06:37,  3.25s/it]                                                        {'loss': 0.8141, 'grad_norm': 2.773615598678589, 'learning_rate': 3.687e-06, 'epoch': 8.01}
{'loss': 0.7145, 'grad_norm': 2.1530489921569824, 'learning_rate': 3.6900000000000002e-06, 'epoch': 8.01}
{'loss': 0.6779, 'grad_norm': 1.8286757469177246, 'learning_rate': 3.693e-06, 'epoch': 8.02}
{'loss': 0.6183, 'grad_norm': 2.557987689971924, 'learning_rate': 3.6960000000000003e-06, 'epoch': 8.03}
{'loss': 0.7744, 'grad_norm': 4.517758846282959, 'learning_rate': 3.6990000000000005e-06, 'epoch': 8.03}
{'loss': 0.5253, 'grad_norm': 2.1386818885803223, 'learning_rate': 3.702e-06, 'epoch': 8.04}
{'loss': 0.6467, 'grad_norm': 2.0683438777923584, 'learning_rate': 3.705e-06, 'epoch': 8.05}
{'loss': 0.5283, 'grad_norm': 2.2440412044525146, 'learning_rate': 3.7080000000000003e-06, 'epoch': 8.05}
{'loss': 0.4657, 'grad_norm': 3.047865867614746, 'learning_rate': 3.711e-06, 'epoch': 8.06}
{'loss': 0.4417, 'grad_norm': 1.8304224014282227, 'learning_rate': 3.714e-06, 'epoch': 8.06}
{'loss': 0.3795, 'grad_norm': 2.4595260620117188, 'learning_rate': 3.717e-06, 'epoch': 8.07}
{'loss': 0.4276, 'grad_norm': 3.7565464973449707, 'learning_rate': 3.72e-06, 'epoch': 8.08}
{'loss': 0.3955, 'grad_norm': 1.9328677654266357, 'learning_rate': 3.723e-06, 'epoch': 8.08}
{'loss': 0.3464, 'grad_norm': 6.719051837921143, 'learning_rate': 3.7260000000000004e-06, 'epoch': 8.09}
{'loss': 0.3757, 'grad_norm': 2.6477813720703125, 'learning_rate': 3.7289999999999998e-06, 'epoch': 8.1}
{'loss': 0.3779, 'grad_norm': 8.457260131835938, 'learning_rate': 3.732e-06, 'epoch': 8.1}
{'loss': 0.4251, 'grad_norm': 2.799781084060669, 'learning_rate': 3.7350000000000002e-06, 'epoch': 8.11}
{'loss': 0.3758, 'grad_norm': 3.567464590072632, 'learning_rate': 3.738e-06, 'epoch': 8.12}
{'loss': 0.3786, 'grad_norm': 2.5905566215515137, 'learning_rate': 3.7410000000000003e-06, 'epoch': 8.12}
{'loss': 0.3263, 'grad_norm': 2.8655033111572266, 'learning_rate': 3.744e-06, 'epoch': 8.13}
{'loss': 0.3757, 'grad_norm': 4.015546798706055, 'learning_rate': 3.747e-06, 'epoch': 8.14}
{'loss': 0.4552, 'grad_norm': 3.3165321350097656, 'learning_rate': 3.75e-06, 'epoch': 8.14}
{'loss': 0.4304, 'grad_norm': 5.443431854248047, 'learning_rate': 3.753e-06, 'epoch': 8.15}
{'loss': 0.3851, 'grad_norm': 3.773446798324585, 'learning_rate': 3.756e-06, 'epoch': 8.16}
{'loss': 0.48, 'grad_norm': 3.569288492202759, 'learning_rate': 3.759e-06, 'epoch': 8.16}
{'loss': 0.3957, 'grad_norm': 2.72640061378479, 'learning_rate': 3.7620000000000006e-06, 'epoch': 8.17}
{'loss': 0.3347, 'grad_norm': 3.896915912628174, 'learning_rate': 3.765e-06, 'epoch': 8.18}
{'loss': 0.6008, 'grad_norm': 5.220881462097168, 'learning_rate': 3.7679999999999998e-06, 'epoch': 8.18}
{'loss': 0.5131, 'grad_norm': 3.2401278018951416, 'learning_rate': 3.7710000000000004e-06, 'epoch': 8.19}
{'loss': 0.3623, 'grad_norm': 3.1447958946228027, 'learning_rate': 3.7739999999999998e-06, 'epoch': 8.19}
{'loss': 0.4042, 'grad_norm': 3.65010404586792, 'learning_rate': 3.7770000000000004e-06, 'epoch': 8.2}
{'loss': 0.4591, 'grad_norm': 2.877546787261963, 'learning_rate': 3.7800000000000002e-06, 'epoch': 8.21}
{'loss': 0.4149, 'grad_norm': 3.8819828033447266, 'learning_rate': 3.7829999999999996e-06, 'epoch': 8.21}
{'loss': 0.4079, 'grad_norm': 4.977550029754639, 'learning_rate': 3.7860000000000003e-06, 'epoch': 8.22}
{'loss': 0.4039, 'grad_norm': 4.997954845428467, 'learning_rate': 3.789e-06, 'epoch': 8.23}
{'loss': 0.4878, 'grad_norm': 4.1379475593566895, 'learning_rate': 3.7920000000000003e-06, 'epoch': 8.23}
{'loss': 0.4368, 'grad_norm': 4.410974502563477, 'learning_rate': 3.795e-06, 'epoch': 8.24}
{'loss': 0.7223, 'grad_norm': 5.777427673339844, 'learning_rate': 3.798e-06, 'epoch': 8.25}
{'loss': 0.9053, 'grad_norm': 7.182007312774658, 'learning_rate': 3.801e-06, 'epoch': 8.25}
{'loss': 0.7068, 'grad_norm': 2.356090784072876, 'learning_rate': 3.804e-06, 'epoch': 8.26}
{'loss': 0.6707, 'grad_norm': 2.853494167327881, 'learning_rate': 3.8070000000000006e-06, 'epoch': 8.27}
{'loss': 0.6459, 'grad_norm': 3.2740259170532227, 'learning_rate': 3.81e-06, 'epoch': 8.27}
{'loss': 0.5511, 'grad_norm': 3.6410858631134033, 'learning_rate': 3.8129999999999997e-06, 'epoch': 8.28}
{'loss': 0.5554, 'grad_norm': 3.506216049194336, 'learning_rate': 3.816e-06, 'epoch': 8.29}
{'loss': 0.4469, 'grad_norm': 2.83833909034729, 'learning_rate': 3.819e-06, 'epoch': 8.29}
{'loss': 0.5089, 'grad_norm': 4.0739426612854, 'learning_rate': 3.822000000000001e-06, 'epoch': 8.3}
{'loss': 0.4688, 'grad_norm': 3.2719156742095947, 'learning_rate': 3.825e-06, 'epoch': 8.31}
{'loss': 0.5063, 'grad_norm': 3.978584051132202, 'learning_rate': 3.828e-06, 'epoch': 8.31}
{'loss': 0.4149, 'grad_norm': 1.8439347743988037, 'learning_rate': 3.831e-06, 'epoch': 8.32}
{'loss': 0.3789, 'grad_norm': 2.0416419506073, 'learning_rate': 3.834e-06, 'epoch': 8.32}
{'loss': 0.3796, 'grad_norm': 3.3150250911712646, 'learning_rate': 3.837000000000001e-06, 'epoch': 8.33}
{'loss': 0.4172, 'grad_norm': 2.392110824584961, 'learning_rate': 3.8400000000000005e-06, 'epoch': 8.34}
{'loss': 0.3845, 'grad_norm': 2.6097195148468018, 'learning_rate': 3.8429999999999995e-06, 'epoch': 8.34}
{'loss': 0.3972, 'grad_norm': 3.422980785369873, 'learning_rate': 3.846e-06, 'epoch': 8.35}
{'loss': 0.3502, 'grad_norm': 2.0723745822906494, 'learning_rate': 3.849e-06, 'epoch': 8.36}
{'loss': 0.429, 'grad_norm': 6.0198259353637695, 'learning_rate': 3.852e-06, 'epoch': 8.36}
{'loss': 0.3994, 'grad_norm': 2.7818870544433594, 'learning_rate': 3.855e-06, 'epoch': 8.37}
{'loss': 0.4127, 'grad_norm': 2.8977222442626953, 'learning_rate': 3.858e-06, 'epoch': 8.38}
{'loss': 0.4477, 'grad_norm': 2.9870753288269043, 'learning_rate': 3.861e-06, 'epoch': 8.38}
{'loss': 0.3673, 'grad_norm': 2.7526767253875732, 'learning_rate': 3.864e-06, 'epoch': 8.39}
{'loss': 0.3775, 'grad_norm': 3.5300803184509277, 'learning_rate': 3.8669999999999996e-06, 'epoch': 8.4}
{'loss': 0.3911, 'grad_norm': 4.541041374206543, 'learning_rate': 3.87e-06, 'epoch': 8.4}
{'loss': 0.3865, 'grad_norm': 4.31594705581665, 'learning_rate': 3.873e-06, 'epoch': 8.41}
{'loss': 0.4016, 'grad_norm': 3.5513241291046143, 'learning_rate': 3.876000000000001e-06, 'epoch': 8.42}
{'loss': 0.4505, 'grad_norm': 16.013864517211914, 'learning_rate': 3.8790000000000005e-06, 'epoch': 8.42}
{'loss': 0.4276, 'grad_norm': 3.114772081375122, 'learning_rate': 3.8819999999999994e-06, 'epoch': 8.43}
{'loss': 0.3968, 'grad_norm': 4.308717250823975, 'learning_rate': 3.885e-06, 'epoch': 8.44}
{'loss': 0.3884, 'grad_norm': 4.4487786293029785, 'learning_rate': 3.888e-06, 'epoch': 8.44}
{'loss': 0.3392, 'grad_norm': 3.571425199508667, 'learning_rate': 3.8910000000000005e-06, 'epoch': 8.45}
{'loss': 0.4613, 'grad_norm': 35.43486785888672, 'learning_rate': 3.894e-06, 'epoch': 8.45}
{'loss': 0.3833, 'grad_norm': 2.8894059658050537, 'learning_rate': 3.897e-06, 'epoch': 8.46}
{'loss': 0.3788, 'grad_norm': 14.343280792236328, 'learning_rate': 3.9e-06, 'epoch': 8.47}
{'loss': 0.4741, 'grad_norm': 5.300283432006836, 'learning_rate': 3.903e-06, 'epoch': 8.47}
{'loss': 0.4053, 'grad_norm': 3.643749713897705, 'learning_rate': 3.906e-06, 'epoch': 8.48}
{'loss': 0.373, 'grad_norm': 3.7323830127716064, 'learning_rate': 3.909e-06, 'epoch': 8.49}
{'loss': 0.4808, 'grad_norm': 7.821593284606934, 'learning_rate': 3.912e-06, 'epoch': 8.49}
{'loss': 0.8015, 'grad_norm': 2.360736608505249, 'learning_rate': 3.915000000000001e-06, 'epoch': 8.5}
{'loss': 0.7538, 'grad_norm': 2.523590564727783, 'learning_rate': 3.918e-06, 'epoch': 8.51}
{'loss': 0.7014, 'grad_norm': 3.0809192657470703, 'learning_rate': 3.921e-06, 'epoch': 8.51}
{'loss': 0.5986, 'grad_norm': 2.168491840362549, 'learning_rate': 3.924e-06, 'epoch': 8.52}
{'loss': 0.5303, 'grad_norm': 8.539793014526367, 'learning_rate': 3.927e-06, 'epoch': 8.53}
{'loss': 0.5364, 'grad_norm': 2.6272456645965576, 'learning_rate': 3.9300000000000005e-06, 'epoch': 8.53}
{'loss': 0.4908, 'grad_norm': 2.121840476989746, 'learning_rate': 3.933e-06, 'epoch': 8.54}
{'loss': 0.5439, 'grad_norm': 1.6647862195968628, 'learning_rate': 3.936e-06, 'epoch': 8.55}
  1%|▏         | 1317/100000 [48:15<89:06:37,  3.25s/it]  1%|▏         | 1318/100000 [48:18<80:20:26,  2.93s/it]                                                          1%|▏         | 1318/100000 [48:18<80:20:26,  2.93s/it]  1%|▏         | 1319/100000 [48:20<72:40:39,  2.65s/it]                                                          1%|▏         | 1319/100000 [48:20<72:40:39,  2.65s/it]  1%|▏         | 1320/100000 [48:21<65:38:22,  2.39s/it]                                                          1%|▏         | 1320/100000 [48:21<65:38:22,  2.39s/it]  1%|▏         | 1321/100000 [48:23<59:40:32,  2.18s/it]                                                          1%|▏         | 1321/100000 [48:23<59:40:32,  2.18s/it]  1%|▏         | 1322/100000 [48:25<55:18:07,  2.02s/it]                                                          1%|▏         | 1322/100000 [48:25<55:18:07,  2.02s/it]  1%|▏         | 1323/100000 [48:26<51:47:50,  1.89s/it]                                                          1%|▏         | 1323/100000 [48:26<51:47:50,  1.89s/it]  1%|▏         | 1324/100000 [48:28<48:02:47,  1.75s/it]                                                          1%|▏         | 1324/100000 [48:28<48:02:47,  1.75s/it]  1%|▏         | 1325/100000 [48:29<45:19:51,  1.65s/it]                                                          1%|▏         | 1325/100000 [48:29<45:19:51,  1.65s/it]  1%|▏         | 1326/100000 [48:31<42:44:37,  1.56s/it]                                                          1%|▏         | 1326/100000 [48:31<42:44:37,  1.56s/it]  1%|▏         | 1327/100000 [48:32<40:24:38,  1.47s/it]                                                          1%|▏         | 1327/100000 [48:32<40:24:38,  1.47s/it]  1%|▏         | 1328/100000 [48:33<38:39:26,  1.41s/it]                                                          1%|▏         | 1328/100000 [48:33<38:39:26,  1.41s/it]  1%|▏         | 1329/100000 [48:34<36:33:34,  1.33s/it]                                                          1%|▏         | 1329/100000 [48:34<36:33:34,  1.33s/it]  1%|▏         | 1330/100000 [48:35<34:41:20,  1.27s/it]                                                          1%|▏         | 1330/100000 [48:35<34:41:20,  1.27s/it]  1%|▏         | 1331/100000 [48:36<33:11:11,  1.21s/it]                                                          1%|▏         | 1331/100000 [48:36<33:11:11,  1.21s/it]  1%|▏         | 1332/100000 [48:37<31:42:53,  1.16s/it]                                                          1%|▏         | 1332/100000 [48:37<31:42:53,  1.16s/it]  1%|▏         | 1333/100000 [48:38<30:17:17,  1.11s/it]                                                          1%|▏         | 1333/100000 [48:38<30:17:17,  1.11s/it]  1%|▏         | 1334/100000 [48:39<29:13:23,  1.07s/it]                                                          1%|▏         | 1334/100000 [48:39<29:13:23,  1.07s/it]  1%|▏         | 1335/100000 [48:40<28:22:33,  1.04s/it]                                                          1%|▏         | 1335/100000 [48:40<28:22:33,  1.04s/it]  1%|▏         | 1336/100000 [48:41<27:27:02,  1.00s/it]                                                          1%|▏         | 1336/100000 [48:41<27:27:02,  1.00s/it]  1%|▏         | 1337/100000 [48:42<26:50:13,  1.02it/s]                                                          1%|▏         | 1337/100000 [48:42<26:50:13,  1.02it/s]  1%|▏         | 1338/100000 [48:43<26:31:55,  1.03it/s]                                                          1%|▏         | 1338/100000 [48:43<26:31:55,  1.03it/s]  1%|▏         | 1339/100000 [48:44<25:40:04,  1.07it/s]                                                          1%|▏         | 1339/100000 [48:44<25:40:04,  1.07it/s]  1%|▏         | 1340/100000 [48:45<24:58:29,  1.10it/s]                                                          1%|▏         | 1340/100000 [48:45<24:58:29,  1.10it/s]  1%|▏         | 1341/100000 [48:46<24:15:34,  1.13it/s]                                                          1%|▏         | 1341/100000 [48:46<24:15:34,  1.13it/s]  1%|▏         | 1342/100000 [48:47<23:41:36,  1.16it/s]                                                          1%|▏         | 1342/100000 [48:47<23:41:36,  1.16it/s]  1%|▏         | 1343/100000 [48:47<22:45:19,  1.20it/s]                                                          1%|▏         | 1343/100000 [48:47<22:45:19,  1.20it/s]  1%|▏         | 1344/100000 [48:48<22:27:31,  1.22it/s]                                                          1%|▏         | 1344/100000 [48:48<22:27:31,  1.22it/s]  1%|▏         | 1345/100000 [48:49<22:08:15,  1.24it/s]                                                          1%|▏         | 1345/100000 [48:49<22:08:15,  1.24it/s]  1%|▏         | 1346/100000 [48:50<21:24:06,  1.28it/s]                                                          1%|▏         | 1346/100000 [48:50<21:24:06,  1.28it/s]  1%|▏         | 1347/100000 [49:01<111:16:30,  4.06s/it]                                                           1%|▏         | 1347/100000 [49:01<111:16:30,  4.06s/it]  1%|▏         | 1348/100000 [49:09<142:38:52,  5.21s/it]                                                           1%|▏         | 1348/100000 [49:09<142:38:52,  5.21s/it]  1%|▏         | 1349/100000 [49:14<142:53:41,  5.21s/it]                                                           1%|▏         | 1349/100000 [49:14<142:53:41,  5.21s/it]  1%|▏         | 1350/100000 [49:19<137:21:24,  5.01s/it]                                                           1%|▏         | 1350/100000 [49:19<137:21:24,  5.01s/it]  1%|▏         | 1351/100000 [49:23<128:55:53,  4.71s/it]                                                           1%|▏         | 1351/100000 [49:23<128:55:53,  4.71s/it]  1%|▏         | 1352/100000 [49:26<118:26:31,  4.32s/it]                                                           1%|▏         | 1352/100000 [49:26<118:26:31,  4.32s/it]  1%|▏         | 1353/100000 [49:29<108:08:08,  3.95s/it]                                                           1%|▏         | 1353/100000 [49:29<108:08:08,  3.95s/it]  1%|▏         | 1354/100000 [49:32<97:04:10,  3.54s/it]                                                           1%|▏         | 1354/100000 [49:32<97:04:10,  3.54s/it]  1%|▏         | 1355/100000 [49:34<86:53:39,  3.17s/it]                                                          1%|▏         | 1355/100000 [49:34<86:53:39,  3.17s/it]  1%|▏         | 1356/100000 [49:36<78:15:18,  2.86s/it]                                                          1%|▏         | 1356/100000 [49:36<78:15:18,  2.86s/it]  1%|▏         | 1357/100000 [49:38<71:10:38,  2.60s/it]                                                          1%|▏         | 1357/100000 [49:38<71:10:38,  2.60s/it]  1%|▏         | 1358/100000 [49:40<65:09:41,  2.38s/it]                                                          1%|▏         | 1358/100000 [49:40<65:09:41,  2.38s/it]  1%|▏         | 1359/100000 [49:42<59:27:39,  2.17s/it]                                                          1%|▏         | 1359/100000 [49:42<59:27:39,  2.17s/it]  1%|▏         | 1360/100000 [49:44<55:07:15,  2.01s/it]                                                          1%|▏         | 1360/100000 [49:44<55:07:15,  2.01s/it]  1%|▏         | 1361/100000 [49:45<50:52:45,  1.86s/it]                                                          1%|▏         | 1361/100000 [49:45<50:52:45,  1.86s/it]  1%|▏         | 1362/100000 [49:47<47:28:41,  1.73s/it]                                                          1%|▏         | 1362/100000 [49:47<47:28:41,  1.73s/it]  1%|▏         | 1363/100000 [49:48<44:38:08,  1.63s/it]                                                          1%|▏         | 1363/100000 [49:48<44:38:08,  1.63s/it]  1%|▏         | 1364/100000 [49:49<42:06:31,  1.54s/it]                                                          1%|▏         | 1364/100000 [49:49<42:06:31,  1.54s/it]  1%|▏         | 1365/100000 [49:51<39:55:13,  1.46s/it]                                                          1%|▏         | 1365/100000 [49:51<39:55:13,  1.46s/it]  1%|▏         | 1366/100000 [49:52<37:54:27,  1.38s/it]                                                          1%|▏         | 1366/100000 [49:52<37:54:27,  1.38s/it]  1%|▏         | 1367/100000 [49:53<35:52:12,  1.31s/it]                                                          1%|▏         | 1367/100000 [49:53<35:52:12,  1.31s/it]  1%|▏         | 1368/100000 [49:54<34:11:39,  1.25s/it]                                                          1%|▏         | 1368/100000 [49:54<34:11:39,  1.25s/it]  1%|▏         | 1369/100000 [49:55<32:30:49,  1.19s/it]                                                          1%|▏         | 1369/100000 [49:55<32:30:49,  1.19s/it]  1%|▏         | 1370/100000 [49:56<31:12:18,  1.14s/it]                                                          1%|▏         | 1370/100000 [49:56<31:12:18,  1.14s/it]  1%|▏         | 1371/100000 [49:57<29:50:28,  1.09s/it]                                                          1%|▏         | 1371/100000 [49:57<29:50:28,  1.09s/it]  1%|▏         | 1372/100000 [49:58<28:54:57,  1.06s/it]                                                          1%|▏         | 1372/100000 [49:58<28:54:57,  1.06s/it]  1%|▏         | 1373/100000 [49:59<28:01:15,  1.02s/it]                                                          1%|▏         | 1373/100000 [49:59<28:01:15,  1.02s/it]  1%|▏         | 1374/100000 [50:00<27:18:21,  1.00it/s]                                                          1%|▏         | 1374/100000 [50:00<27:18:21,  1.00it/s]  1%|▏         | 1375/100000 [50:01<26:27:15,  1.04it/s]                                                          1%|▏         | 1375/100000 [50:01<26:27:15,  1.04it/s]  1%|▏         | 1376/100000 [50:02<25:50:04,  1.06it/s]                                                          1%|▏         | 1376/100000 [50:02<25:50:04,  1.06it/s]  1%|▏         | 1377/100000 [50:03<25:13:01,  1.09it/s]                                                          1%|▏         | 1377/100000 [50:03<25:13:01,  1.09it/s]  1%|▏         | 1378/100000 [50:03<24:37:52,  1.11it/s]                                                          1%|▏         | 1378/100000 [50:03<24:37:52,  1.11it/s]  1%|▏         | 1379/100000 [50:04<23:57:56,  1.14it/s]                                                          1%|▏         | 1379/100000 [50:04<23:57:56,  1.14it/s]  1%|▏         | 1380/100000 [50:05<23:25:47,  1.17it/s]                                                          1%|▏         | 1380/100000 [50:05<23:25:47,  1.17it/s]  1%|▏         | 1381/100000 [50:06<22:58:16,  1.19it/s]                                                          1%|▏         | 1381/100000 [50:06<22:58:16,  1.19it/s]  1%|▏         | 1382/100000 [50:07<22:20:51,  1.23it/s]                                                          1%|▏         | 1382/100000 [50:07<22:20:51,  1.23it/s]  1%|▏         | 1383/100000 [50:07<21:46:37,  1.26it/s]                                                          1%|▏         | 1383/100000 [50:07<21:46:37,  1.26it/s]  1%|▏         | 1384/100000 [50:08<21:09:24,  1.29it/s]                                                          1%|▏         | 1384/100000 [50:08<21:09:24,  1.29it/s]  1%|▏         | 1385/100000 [50:16<81:30:55,  2.98s/it]                                                          1%|▏         | 1385/100000 [50:16<81:30:55,  2.98s/it]  1%|▏         | 1386/100000 [50:17<67:39:23,  2.47s/it]                                                          1%|▏         | 1386/100000 [50:17<67:39:23,  2.47s/it]{'loss': 0.5488, 'grad_norm': 2.0909202098846436, 'learning_rate': 3.939e-06, 'epoch': 8.55}
{'loss': 0.3985, 'grad_norm': 1.9139410257339478, 'learning_rate': 3.942e-06, 'epoch': 8.56}
{'loss': 0.4027, 'grad_norm': 3.222212076187134, 'learning_rate': 3.945e-06, 'epoch': 8.56}
{'loss': 0.3476, 'grad_norm': 2.292642831802368, 'learning_rate': 3.948e-06, 'epoch': 8.57}
{'loss': 0.3817, 'grad_norm': 1.647696614265442, 'learning_rate': 3.951000000000001e-06, 'epoch': 8.58}
{'loss': 0.3795, 'grad_norm': 2.0493364334106445, 'learning_rate': 3.954e-06, 'epoch': 8.58}
{'loss': 0.3847, 'grad_norm': 6.520445346832275, 'learning_rate': 3.9569999999999996e-06, 'epoch': 8.59}
{'loss': 0.4091, 'grad_norm': 12.806193351745605, 'learning_rate': 3.96e-06, 'epoch': 8.6}
{'loss': 0.346, 'grad_norm': 2.7466375827789307, 'learning_rate': 3.963e-06, 'epoch': 8.6}
{'loss': 0.3785, 'grad_norm': 8.354785919189453, 'learning_rate': 3.966000000000001e-06, 'epoch': 8.61}
{'loss': 0.3815, 'grad_norm': 3.275832176208496, 'learning_rate': 3.9690000000000005e-06, 'epoch': 8.62}
{'loss': 0.3598, 'grad_norm': 4.05297327041626, 'learning_rate': 3.971999999999999e-06, 'epoch': 8.62}
{'loss': 0.3579, 'grad_norm': 2.63158917427063, 'learning_rate': 3.975e-06, 'epoch': 8.63}
{'loss': 0.3792, 'grad_norm': 4.23232364654541, 'learning_rate': 3.978e-06, 'epoch': 8.64}
{'loss': 0.3731, 'grad_norm': 2.8057329654693604, 'learning_rate': 3.9810000000000005e-06, 'epoch': 8.64}
{'loss': 0.463, 'grad_norm': 6.0990400314331055, 'learning_rate': 3.984e-06, 'epoch': 8.65}
{'loss': 0.4013, 'grad_norm': 3.6126747131347656, 'learning_rate': 3.987e-06, 'epoch': 8.66}
{'loss': 0.3823, 'grad_norm': 4.266658306121826, 'learning_rate': 3.99e-06, 'epoch': 8.66}
{'loss': 0.3506, 'grad_norm': 3.331571578979492, 'learning_rate': 3.993e-06, 'epoch': 8.67}
{'loss': 0.4523, 'grad_norm': 3.409775972366333, 'learning_rate': 3.996e-06, 'epoch': 8.68}
{'loss': 0.3502, 'grad_norm': 3.7389421463012695, 'learning_rate': 3.999e-06, 'epoch': 8.68}
{'loss': 0.477, 'grad_norm': 3.9482264518737793, 'learning_rate': 4.002e-06, 'epoch': 8.69}
{'loss': 0.3782, 'grad_norm': 4.209375858306885, 'learning_rate': 4.005000000000001e-06, 'epoch': 8.69}
{'loss': 0.4051, 'grad_norm': 4.129471302032471, 'learning_rate': 4.008e-06, 'epoch': 8.7}
{'loss': 0.4189, 'grad_norm': 3.69093918800354, 'learning_rate': 4.011e-06, 'epoch': 8.71}
{'loss': 0.4329, 'grad_norm': 3.7734599113464355, 'learning_rate': 4.014e-06, 'epoch': 8.71}
{'loss': 0.5349, 'grad_norm': 9.069267272949219, 'learning_rate': 4.017e-06, 'epoch': 8.72}
{'loss': 0.4361, 'grad_norm': 8.500572204589844, 'learning_rate': 4.0200000000000005e-06, 'epoch': 8.73}
{'loss': 0.494, 'grad_norm': 5.052908897399902, 'learning_rate': 4.023e-06, 'epoch': 8.73}
{'loss': 0.6056, 'grad_norm': 5.142280578613281, 'learning_rate': 4.026000000000001e-06, 'epoch': 8.74}
{'loss': 0.8271, 'grad_norm': 7.734177589416504, 'learning_rate': 4.029e-06, 'epoch': 8.75}
{'loss': 0.7906, 'grad_norm': 2.039592742919922, 'learning_rate': 4.032e-06, 'epoch': 8.75}
{'loss': 0.7044, 'grad_norm': 2.3800933361053467, 'learning_rate': 4.035e-06, 'epoch': 8.76}
{'loss': 0.6553, 'grad_norm': 2.0094428062438965, 'learning_rate': 4.038e-06, 'epoch': 8.77}
{'loss': 0.5665, 'grad_norm': 1.6756759881973267, 'learning_rate': 4.041e-06, 'epoch': 8.77}
{'loss': 0.5451, 'grad_norm': 2.4253385066986084, 'learning_rate': 4.044000000000001e-06, 'epoch': 8.78}
{'loss': 0.4989, 'grad_norm': 3.1185996532440186, 'learning_rate': 4.0469999999999995e-06, 'epoch': 8.79}
{'loss': 0.4988, 'grad_norm': 1.8895233869552612, 'learning_rate': 4.05e-06, 'epoch': 8.79}
{'loss': 0.4541, 'grad_norm': 1.456929326057434, 'learning_rate': 4.053e-06, 'epoch': 8.8}
{'loss': 0.3692, 'grad_norm': 2.9080862998962402, 'learning_rate': 4.056e-06, 'epoch': 8.81}
{'loss': 0.3754, 'grad_norm': 2.606691598892212, 'learning_rate': 4.0590000000000004e-06, 'epoch': 8.81}
{'loss': 0.4552, 'grad_norm': 3.2425458431243896, 'learning_rate': 4.062e-06, 'epoch': 8.82}
{'loss': 0.4174, 'grad_norm': 2.136046886444092, 'learning_rate': 4.065e-06, 'epoch': 8.82}
{'loss': 0.3198, 'grad_norm': 1.7347227334976196, 'learning_rate': 4.068e-06, 'epoch': 8.83}
{'loss': 0.347, 'grad_norm': 2.763242244720459, 'learning_rate': 4.071e-06, 'epoch': 8.84}
{'loss': 0.3561, 'grad_norm': 2.3969860076904297, 'learning_rate': 4.074e-06, 'epoch': 8.84}
{'loss': 0.3541, 'grad_norm': 3.1068575382232666, 'learning_rate': 4.077e-06, 'epoch': 8.85}
{'loss': 0.3786, 'grad_norm': 2.986468553543091, 'learning_rate': 4.080000000000001e-06, 'epoch': 8.86}
{'loss': 0.3684, 'grad_norm': 1.84135901927948, 'learning_rate': 4.083e-06, 'epoch': 8.86}
{'loss': 0.3884, 'grad_norm': 2.9909026622772217, 'learning_rate': 4.0859999999999995e-06, 'epoch': 8.87}
{'loss': 0.3342, 'grad_norm': 2.3391997814178467, 'learning_rate': 4.089e-06, 'epoch': 8.88}
{'loss': 0.3614, 'grad_norm': 1.9084720611572266, 'learning_rate': 4.092e-06, 'epoch': 8.88}
{'loss': 0.401, 'grad_norm': 3.2340359687805176, 'learning_rate': 4.095000000000001e-06, 'epoch': 8.89}
{'loss': 0.4589, 'grad_norm': 6.292741298675537, 'learning_rate': 4.098e-06, 'epoch': 8.9}
{'loss': 0.3194, 'grad_norm': 2.5925581455230713, 'learning_rate': 4.100999999999999e-06, 'epoch': 8.9}
{'loss': 0.3721, 'grad_norm': 3.490147829055786, 'learning_rate': 4.104e-06, 'epoch': 8.91}
{'loss': 0.4212, 'grad_norm': 5.019198417663574, 'learning_rate': 4.107e-06, 'epoch': 8.92}
{'loss': 0.3608, 'grad_norm': 6.613215923309326, 'learning_rate': 4.1100000000000005e-06, 'epoch': 8.92}
{'loss': 0.4312, 'grad_norm': 3.7667076587677, 'learning_rate': 4.113e-06, 'epoch': 8.93}
{'loss': 0.3634, 'grad_norm': 6.714264392852783, 'learning_rate': 4.116e-06, 'epoch': 8.94}
{'loss': 0.3443, 'grad_norm': 3.6966805458068848, 'learning_rate': 4.119e-06, 'epoch': 8.94}
{'loss': 0.3525, 'grad_norm': 3.5613200664520264, 'learning_rate': 4.122e-06, 'epoch': 8.95}
{'loss': 0.4572, 'grad_norm': 3.9169974327087402, 'learning_rate': 4.125e-06, 'epoch': 8.95}
{'loss': 0.4289, 'grad_norm': 4.839521884918213, 'learning_rate': 4.128e-06, 'epoch': 8.96}
{'loss': 0.3757, 'grad_norm': 4.509271621704102, 'learning_rate': 4.131e-06, 'epoch': 8.97}
{'loss': 0.4345, 'grad_norm': 5.512393951416016, 'learning_rate': 4.1340000000000006e-06, 'epoch': 8.97}
{'loss': 0.4108, 'grad_norm': 4.3390607833862305, 'learning_rate': 4.137e-06, 'epoch': 8.98}
{'loss': 0.5967, 'grad_norm': 22.034814834594727, 'learning_rate': 4.14e-06, 'epoch': 8.99}
{'loss': 0.4608, 'grad_norm': 2.8513882160186768, 'learning_rate': 4.143e-06, 'epoch': 8.99}
{'loss': 0.4434, 'grad_norm': 3.437751293182373, 'learning_rate': 4.146e-06, 'epoch': 9.0}
  1%|▏         | 1387/100000 [50:35<193:51:14,  7.08s/it]                                                           1%|▏         | 1387/100000 [50:35<193:51:14,  7.08s/it]  1%|▏         | 1388/100000 [50:43<200:22:58,  7.32s/it]                                                           1%|▏         | 1388/100000 [50:43<200:22:58,  7.32s/it]  1%|▏         | 1389/100000 [50:48<182:25:56,  6.66s/it]                                                           1%|▏         | 1389/100000 [50:48<182:25:56,  6.66s/it]  1%|▏         | 1390/100000 [50:53<166:22:07,  6.07s/it]                                                           1%|▏         | 1390/100000 [50:53<166:22:07,  6.07s/it]  1%|▏         | 1391/100000 [50:57<151:30:30,  5.53s/it]                                                           1%|▏         | 1391/100000 [50:57<151:30:30,  5.53s/it]  1%|▏         | 1392/100000 [51:01<133:39:08,  4.88s/it]                                                           1%|▏         | 1392/100000 [51:01<133:39:08,  4.88s/it]  1%|▏         | 1393/100000 [51:04<119:14:56,  4.35s/it]                                                           1%|▏         | 1393/100000 [51:04<119:14:56,  4.35s/it]  1%|▏         | 1394/100000 [51:06<105:25:35,  3.85s/it]                                                           1%|▏         | 1394/100000 [51:06<105:25:35,  3.85s/it]  1%|▏         | 1395/100000 [51:09<92:23:28,  3.37s/it]                                                           1%|▏         | 1395/100000 [51:09<92:23:28,  3.37s/it]  1%|▏         | 1396/100000 [51:11<82:29:01,  3.01s/it]                                                          1%|▏         | 1396/100000 [51:11<82:29:01,  3.01s/it]  1%|▏         | 1397/100000 [51:13<74:06:26,  2.71s/it]                                                          1%|▏         | 1397/100000 [51:13<74:06:26,  2.71s/it]  1%|▏         | 1398/100000 [51:15<67:06:56,  2.45s/it]                                                          1%|▏         | 1398/100000 [51:15<67:06:56,  2.45s/it]  1%|▏         | 1399/100000 [51:16<61:05:11,  2.23s/it]                                                          1%|▏         | 1399/100000 [51:16<61:05:11,  2.23s/it]  1%|▏         | 1400/100000 [51:18<56:15:45,  2.05s/it]                                                          1%|▏         | 1400/100000 [51:18<56:15:45,  2.05s/it]  1%|▏         | 1401/100000 [51:20<52:12:52,  1.91s/it]                                                          1%|▏         | 1401/100000 [51:20<52:12:52,  1.91s/it]  1%|▏         | 1402/100000 [51:21<48:37:13,  1.78s/it]                                                          1%|▏         | 1402/100000 [51:21<48:37:13,  1.78s/it]  1%|▏         | 1403/100000 [51:23<45:42:09,  1.67s/it]                                                          1%|▏         | 1403/100000 [51:23<45:42:09,  1.67s/it]  1%|▏         | 1404/100000 [51:24<43:00:27,  1.57s/it]                                                          1%|▏         | 1404/100000 [51:24<43:00:27,  1.57s/it]  1%|▏         | 1405/100000 [51:25<40:54:32,  1.49s/it]                                                          1%|▏         | 1405/100000 [51:25<40:54:32,  1.49s/it]  1%|▏         | 1406/100000 [51:26<38:59:10,  1.42s/it]                                                          1%|▏         | 1406/100000 [51:26<38:59:10,  1.42s/it]  1%|▏         | 1407/100000 [51:28<37:11:15,  1.36s/it]                                                          1%|▏         | 1407/100000 [51:28<37:11:15,  1.36s/it]  1%|▏         | 1408/100000 [51:29<35:28:00,  1.30s/it]                                                          1%|▏         | 1408/100000 [51:29<35:28:00,  1.30s/it]  1%|▏         | 1409/100000 [51:30<33:29:20,  1.22s/it]                                                          1%|▏         | 1409/100000 [51:30<33:29:20,  1.22s/it]  1%|▏         | 1410/100000 [51:31<31:55:13,  1.17s/it]                                                          1%|▏         | 1410/100000 [51:31<31:55:13,  1.17s/it]  1%|▏         | 1411/100000 [51:32<30:32:38,  1.12s/it]                                                          1%|▏         | 1411/100000 [51:32<30:32:38,  1.12s/it]  1%|▏         | 1412/100000 [51:33<29:42:30,  1.08s/it]                                                          1%|▏         | 1412/100000 [51:33<29:42:30,  1.08s/it]  1%|▏         | 1413/100000 [51:34<28:28:55,  1.04s/it]                                                          1%|▏         | 1413/100000 [51:34<28:28:55,  1.04s/it]  1%|▏         | 1414/100000 [51:35<27:19:57,  1.00it/s]                                                          1%|▏         | 1414/100000 [51:35<27:19:57,  1.00it/s]  1%|▏         | 1415/100000 [51:36<26:17:56,  1.04it/s]                                                          1%|▏         | 1415/100000 [51:36<26:17:56,  1.04it/s]  1%|▏         | 1416/100000 [51:36<25:26:15,  1.08it/s]                                                          1%|▏         | 1416/100000 [51:36<25:26:15,  1.08it/s]  1%|▏         | 1417/100000 [51:37<25:19:36,  1.08it/s]                                                          1%|▏         | 1417/100000 [51:37<25:19:36,  1.08it/s]  1%|▏         | 1418/100000 [51:38<24:56:42,  1.10it/s]                                                          1%|▏         | 1418/100000 [51:38<24:56:42,  1.10it/s]  1%|▏         | 1419/100000 [51:39<24:19:24,  1.13it/s]                                                          1%|▏         | 1419/100000 [51:39<24:19:24,  1.13it/s]  1%|▏         | 1420/100000 [51:40<23:46:32,  1.15it/s]                                                          1%|▏         | 1420/100000 [51:40<23:46:32,  1.15it/s]  1%|▏         | 1421/100000 [51:41<23:11:47,  1.18it/s]                                                          1%|▏         | 1421/100000 [51:41<23:11:47,  1.18it/s]  1%|▏         | 1422/100000 [51:42<22:54:40,  1.20it/s]                                                          1%|▏         | 1422/100000 [51:42<22:54:40,  1.20it/s]  1%|▏         | 1423/100000 [51:42<22:29:22,  1.22it/s]                                                          1%|▏         | 1423/100000 [51:42<22:29:22,  1.22it/s]  1%|▏         | 1424/100000 [51:43<21:38:50,  1.26it/s]                                                          1%|▏         | 1424/100000 [51:43<21:38:50,  1.26it/s]  1%|▏         | 1425/100000 [51:56<122:25:16,  4.47s/it]                                                           1%|▏         | 1425/100000 [51:56<122:25:16,  4.47s/it]  1%|▏         | 1426/100000 [52:04<152:08:22,  5.56s/it]                                                           1%|▏         | 1426/100000 [52:04<152:08:22,  5.56s/it]  1%|▏         | 1427/100000 [52:10<152:37:52,  5.57s/it]                                                           1%|▏         | 1427/100000 [52:10<152:37:52,  5.57s/it]  1%|▏         | 1428/100000 [52:15<145:53:30,  5.33s/it]                                                           1%|▏         | 1428/100000 [52:15<145:53:30,  5.33s/it]  1%|▏         | 1429/100000 [52:19<135:23:43,  4.94s/it]                                                           1%|▏         | 1429/100000 [52:19<135:23:43,  4.94s/it]  1%|▏         | 1430/100000 [52:22<123:36:45,  4.51s/it]                                                           1%|▏         | 1430/100000 [52:22<123:36:45,  4.51s/it]  1%|▏         | 1431/100000 [52:25<112:11:05,  4.10s/it]                                                           1%|▏         | 1431/100000 [52:25<112:11:05,  4.10s/it]  1%|▏         | 1432/100000 [52:28<98:52:06,  3.61s/it]                                                           1%|▏         | 1432/100000 [52:28<98:52:06,  3.61s/it]  1%|▏         | 1433/100000 [52:30<88:55:43,  3.25s/it]                                                          1%|▏         | 1433/100000 [52:30<88:55:43,  3.25s/it]  1%|▏         | 1434/100000 [52:32<80:20:09,  2.93s/it]                                                          1%|▏         | 1434/100000 [52:32<80:20:09,  2.93s/it]  1%|▏         | 1435/100000 [52:34<72:44:54,  2.66s/it]                                                          1%|▏         | 1435/100000 [52:34<72:44:54,  2.66s/it]  1%|▏         | 1436/100000 [52:36<66:19:04,  2.42s/it]                                                          1%|▏         | 1436/100000 [52:36<66:19:04,  2.42s/it]  1%|▏         | 1437/100000 [52:38<61:05:19,  2.23s/it]                                                          1%|▏         | 1437/100000 [52:38<61:05:19,  2.23s/it]  1%|▏         | 1438/100000 [52:40<56:38:06,  2.07s/it]                                                          1%|▏         | 1438/100000 [52:40<56:38:06,  2.07s/it]  1%|▏         | 1439/100000 [52:41<52:37:11,  1.92s/it]                                                          1%|▏         | 1439/100000 [52:41<52:37:11,  1.92s/it]  1%|▏         | 1440/100000 [52:43<48:58:39,  1.79s/it]                                                          1%|▏         | 1440/100000 [52:43<48:58:39,  1.79s/it]  1%|▏         | 1441/100000 [52:44<45:44:39,  1.67s/it]                                                          1%|▏         | 1441/100000 [52:44<45:44:39,  1.67s/it]  1%|▏         | 1442/100000 [52:46<43:18:27,  1.58s/it]                                                          1%|▏         | 1442/100000 [52:46<43:18:27,  1.58s/it]  1%|▏         | 1443/100000 [52:47<40:55:20,  1.49s/it]                                                          1%|▏         | 1443/100000 [52:47<40:55:20,  1.49s/it]  1%|▏         | 1444/100000 [52:48<38:47:58,  1.42s/it]                                                          1%|▏         | 1444/100000 [52:48<38:47:58,  1.42s/it]  1%|▏         | 1445/100000 [52:49<36:36:45,  1.34s/it]                                                          1%|▏         | 1445/100000 [52:49<36:36:45,  1.34s/it]  1%|▏         | 1446/100000 [52:50<34:45:32,  1.27s/it]                                                          1%|▏         | 1446/100000 [52:50<34:45:32,  1.27s/it]  1%|▏         | 1447/100000 [52:51<32:57:48,  1.20s/it]                                                          1%|▏         | 1447/100000 [52:51<32:57:48,  1.20s/it]  1%|▏         | 1448/100000 [52:52<31:34:01,  1.15s/it]                                                          1%|▏         | 1448/100000 [52:52<31:34:01,  1.15s/it]  1%|▏         | 1449/100000 [52:53<30:16:13,  1.11s/it]                                                          1%|▏         | 1449/100000 [52:53<30:16:13,  1.11s/it]  1%|▏         | 1450/100000 [52:54<29:15:46,  1.07s/it]                                                          1%|▏         | 1450/100000 [52:54<29:15:46,  1.07s/it]  1%|▏         | 1451/100000 [52:55<28:25:58,  1.04s/it]                                                          1%|▏         | 1451/100000 [52:55<28:25:58,  1.04s/it]  1%|▏         | 1452/100000 [52:56<27:38:16,  1.01s/it]                                                          1%|▏         | 1452/100000 [52:56<27:38:16,  1.01s/it]  1%|▏         | 1453/100000 [52:57<26:58:19,  1.01it/s]                                                          1%|▏         | 1453/100000 [52:57<26:58:19,  1.01it/s]  1%|▏         | 1454/100000 [52:58<26:15:39,  1.04it/s]                                                          1%|▏         | 1454/100000 [52:58<26:15:39,  1.04it/s]  1%|▏         | 1455/100000 [52:59<25:28:09,  1.07it/s]                                                          1%|▏         | 1455/100000 [52:59<25:28:09,  1.07it/s]  1%|▏         | 1456/100000 [53:00<23:48:53,  1.15it/s]                                                          1%|▏         | 1456/100000 [53:00<23:48:53,  1.15it/s]  1%|▏         | 1457/100000 [53:01<23:21:17,  1.17it/s]                                                          1%|▏         | 1457/100000 [53:01<23:21:17,  1.17it/s]  1%|▏         | 1458/100000 [53:01<22:52:36,  1.20it/s]                                                          1%|▏         | 1458/100000 [53:01<22:52:36,  1.20it/s]  1%|▏         | 1459/100000 [53:02<21:57:33,  1.25it/s]                                                          1%|▏         | 1459/100000 [53:02<21:57:33,  1.25it/s]  1%|▏         | 1460/100000 [53:03<21:06:57,  1.30it/s]                                                          1%|▏         | 1460/100000 [53:03<21:06:57,  1.30it/s]  1%|▏         | 1461/100000 [53:03<20:34:35,  1.33it/s]                                                          1%|▏         | 1461/100000 [53:03<20:34:35,  1.33it/s]  1%|▏         | 1462/100000 [53:04<20:36:58,  1.33it/s]                                                          1%|▏         | 1462/100000 [53:04<20:36:58,  1.33it/s]  1%|▏         | 1463/100000 [53:17<120:56:00,  4.42s/it]                                                           1%|▏         | 1463/100000 [53:17<120:56:00,  4.42s/it]  1%|▏         | 1464/100000 [53:25<147:25:53,  5.39s/it]                                                           1%|▏         | 1464/100000 [53:25<147:25:53,  5.39s/it]  1%|▏         | 1465/100000 [53:30<147:32:39,  5.39s/it]                                                           1%|▏         | 1465/100000 [53:30<147:32:39,  5.39s/it]  1%|▏         | 1466/100000 [53:35<140:40:56,  5.14s/it]                                                           1%|▏         | 1466/100000 [53:35<140:40:56,  5.14s/it]  1%|▏         | 1467/100000 [53:39<130:47:08,  4.78s/it]                                                           1%|▏         | 1467/100000 [53:39<130:47:08,  4.78s/it]  1%|▏         | 1468/100000 [53:42<119:48:56,  4.38s/it]                                                           1%|▏         | 1468/100000 [53:42<119:48:56,  4.38s/it]  1%|▏         | 1469/100000 [53:45<108:45:24,  3.97s/it]                                                           1%|▏         | 1469/100000 [53:45<108:45:24,  3.97s/it]  1%|▏         | 1470/100000 [53:48<98:05:49,  3.58s/it]                                                           1%|▏         | 1470/100000 [53:48<98:05:49,  3.58s/it]  1%|▏         | 1471/100000 [53:50<88:09:48,  3.22s/it]                                                          1%|▏         | 1471/100000 [53:50<88:09:48,  3.22s/it]  1%|▏         | 1472/100000 [53:52<78:40:34,  2.87s/it]                                                        {'loss': 0.8459, 'grad_norm': 3.292171001434326, 'learning_rate': 4.1490000000000004e-06, 'epoch': 9.01}
{'loss': 0.7291, 'grad_norm': 2.5241377353668213, 'learning_rate': 4.152e-06, 'epoch': 9.01}
{'loss': 0.6414, 'grad_norm': 1.9864565134048462, 'learning_rate': 4.155000000000001e-06, 'epoch': 9.02}
{'loss': 0.5844, 'grad_norm': 1.6974135637283325, 'learning_rate': 4.158e-06, 'epoch': 9.03}
{'loss': 0.572, 'grad_norm': 2.2485721111297607, 'learning_rate': 4.161e-06, 'epoch': 9.03}
{'loss': 0.5034, 'grad_norm': 2.1865787506103516, 'learning_rate': 4.164e-06, 'epoch': 9.04}
{'loss': 0.5202, 'grad_norm': 2.603775978088379, 'learning_rate': 4.167e-06, 'epoch': 9.05}
{'loss': 0.4045, 'grad_norm': 5.141846179962158, 'learning_rate': 4.170000000000001e-06, 'epoch': 9.05}
{'loss': 0.4499, 'grad_norm': 2.210097312927246, 'learning_rate': 4.1730000000000005e-06, 'epoch': 9.06}
{'loss': 0.4175, 'grad_norm': 2.2827465534210205, 'learning_rate': 4.1759999999999995e-06, 'epoch': 9.06}
{'loss': 0.3459, 'grad_norm': 29.9045467376709, 'learning_rate': 4.179e-06, 'epoch': 9.07}
{'loss': 0.3676, 'grad_norm': 2.2415692806243896, 'learning_rate': 4.182e-06, 'epoch': 9.08}
{'loss': 0.353, 'grad_norm': 1.6434427499771118, 'learning_rate': 4.185000000000001e-06, 'epoch': 9.08}
{'loss': 0.3803, 'grad_norm': 2.1284339427948, 'learning_rate': 4.188e-06, 'epoch': 9.09}
{'loss': 0.2803, 'grad_norm': 1.6529512405395508, 'learning_rate': 4.191e-06, 'epoch': 9.1}
{'loss': 0.3017, 'grad_norm': 2.0898096561431885, 'learning_rate': 4.194e-06, 'epoch': 9.1}
{'loss': 0.3104, 'grad_norm': 1.6240315437316895, 'learning_rate': 4.197e-06, 'epoch': 9.11}
{'loss': 0.3355, 'grad_norm': 1.8567768335342407, 'learning_rate': 4.2000000000000004e-06, 'epoch': 9.12}
{'loss': 0.3515, 'grad_norm': 2.936636447906494, 'learning_rate': 4.203e-06, 'epoch': 9.12}
{'loss': 0.3413, 'grad_norm': 2.006387948989868, 'learning_rate': 4.206e-06, 'epoch': 9.13}
{'loss': 0.353, 'grad_norm': 2.2919912338256836, 'learning_rate': 4.209000000000001e-06, 'epoch': 9.14}
{'loss': 0.3371, 'grad_norm': 2.51655650138855, 'learning_rate': 4.212e-06, 'epoch': 9.14}
{'loss': 0.2969, 'grad_norm': 3.1162235736846924, 'learning_rate': 4.215e-06, 'epoch': 9.15}
{'loss': 0.4068, 'grad_norm': 2.801133155822754, 'learning_rate': 4.218e-06, 'epoch': 9.16}
{'loss': 0.3741, 'grad_norm': 2.074859619140625, 'learning_rate': 4.221e-06, 'epoch': 9.16}
{'loss': 0.3303, 'grad_norm': 3.069390058517456, 'learning_rate': 4.2240000000000006e-06, 'epoch': 9.17}
{'loss': 0.3513, 'grad_norm': 3.6528923511505127, 'learning_rate': 4.227e-06, 'epoch': 9.18}
{'loss': 0.418, 'grad_norm': 3.267423391342163, 'learning_rate': 4.229999999999999e-06, 'epoch': 9.18}
{'loss': 0.3766, 'grad_norm': 3.306109666824341, 'learning_rate': 4.233e-06, 'epoch': 9.19}
{'loss': 0.348, 'grad_norm': 2.7302379608154297, 'learning_rate': 4.236e-06, 'epoch': 9.19}
{'loss': 0.3442, 'grad_norm': 3.664323329925537, 'learning_rate': 4.239e-06, 'epoch': 9.2}
{'loss': 0.425, 'grad_norm': 3.0794284343719482, 'learning_rate': 4.242e-06, 'epoch': 9.21}
{'loss': 0.3257, 'grad_norm': 3.5467169284820557, 'learning_rate': 4.245e-06, 'epoch': 9.21}
{'loss': 0.4005, 'grad_norm': 2.940356492996216, 'learning_rate': 4.248e-06, 'epoch': 9.22}
{'loss': 0.3609, 'grad_norm': 7.081599235534668, 'learning_rate': 4.251e-06, 'epoch': 9.23}
{'loss': 0.4099, 'grad_norm': 6.249499320983887, 'learning_rate': 4.254e-06, 'epoch': 9.23}
{'loss': 0.3036, 'grad_norm': 3.796593427658081, 'learning_rate': 4.257e-06, 'epoch': 9.24}
{'loss': 0.5883, 'grad_norm': 62.389617919921875, 'learning_rate': 4.26e-06, 'epoch': 9.25}
{'loss': 0.7291, 'grad_norm': 3.421807289123535, 'learning_rate': 4.2630000000000005e-06, 'epoch': 9.25}
{'loss': 0.6145, 'grad_norm': 2.5223069190979004, 'learning_rate': 4.266e-06, 'epoch': 9.26}
{'loss': 0.6901, 'grad_norm': 2.963884115219116, 'learning_rate': 4.269e-06, 'epoch': 9.27}
{'loss': 0.6098, 'grad_norm': 3.564450740814209, 'learning_rate': 4.272e-06, 'epoch': 9.27}
{'loss': 0.5518, 'grad_norm': 3.8944523334503174, 'learning_rate': 4.275e-06, 'epoch': 9.28}
{'loss': 0.5357, 'grad_norm': 2.434218406677246, 'learning_rate': 4.278e-06, 'epoch': 9.29}
{'loss': 0.4922, 'grad_norm': 2.000952959060669, 'learning_rate': 4.281e-06, 'epoch': 9.29}
{'loss': 0.5107, 'grad_norm': 3.2753095626831055, 'learning_rate': 4.284000000000001e-06, 'epoch': 9.3}
{'loss': 0.4646, 'grad_norm': 2.7073302268981934, 'learning_rate': 4.287e-06, 'epoch': 9.31}
{'loss': 0.3924, 'grad_norm': 1.8625025749206543, 'learning_rate': 4.29e-06, 'epoch': 9.31}
{'loss': 0.3726, 'grad_norm': 2.4850096702575684, 'learning_rate': 4.293e-06, 'epoch': 9.32}
{'loss': 0.3096, 'grad_norm': 2.901254415512085, 'learning_rate': 4.296e-06, 'epoch': 9.32}
{'loss': 0.3769, 'grad_norm': 1.72029709815979, 'learning_rate': 4.299000000000001e-06, 'epoch': 9.33}
{'loss': 0.3194, 'grad_norm': 1.7718281745910645, 'learning_rate': 4.3020000000000005e-06, 'epoch': 9.34}
{'loss': 0.3442, 'grad_norm': 2.222973346710205, 'learning_rate': 4.3049999999999994e-06, 'epoch': 9.34}
{'loss': 0.3486, 'grad_norm': 2.088310956954956, 'learning_rate': 4.308e-06, 'epoch': 9.35}
{'loss': 0.352, 'grad_norm': 3.3325181007385254, 'learning_rate': 4.311e-06, 'epoch': 9.36}
{'loss': 0.3189, 'grad_norm': 1.7383754253387451, 'learning_rate': 4.3140000000000005e-06, 'epoch': 9.36}
{'loss': 0.2661, 'grad_norm': 1.988789677619934, 'learning_rate': 4.317e-06, 'epoch': 9.37}
{'loss': 0.3285, 'grad_norm': 2.3568077087402344, 'learning_rate': 4.32e-06, 'epoch': 9.38}
{'loss': 0.3484, 'grad_norm': 3.0581278800964355, 'learning_rate': 4.323e-06, 'epoch': 9.38}
{'loss': 0.2976, 'grad_norm': 2.6698856353759766, 'learning_rate': 4.326e-06, 'epoch': 9.39}
{'loss': 0.3174, 'grad_norm': 2.9460980892181396, 'learning_rate': 4.329e-06, 'epoch': 9.4}
{'loss': 0.3744, 'grad_norm': 2.6169629096984863, 'learning_rate': 4.332e-06, 'epoch': 9.4}
{'loss': 0.3573, 'grad_norm': 2.657383680343628, 'learning_rate': 4.335e-06, 'epoch': 9.41}
{'loss': 0.3549, 'grad_norm': 2.589002847671509, 'learning_rate': 4.338000000000001e-06, 'epoch': 9.42}
{'loss': 0.3674, 'grad_norm': 3.15130877494812, 'learning_rate': 4.341e-06, 'epoch': 9.42}
{'loss': 0.334, 'grad_norm': 2.631523370742798, 'learning_rate': 4.344e-06, 'epoch': 9.43}
{'loss': 0.3963, 'grad_norm': 8.406436920166016, 'learning_rate': 4.347e-06, 'epoch': 9.44}
{'loss': 0.3764, 'grad_norm': 5.464249134063721, 'learning_rate': 4.35e-06, 'epoch': 9.44}
{'loss': 0.3656, 'grad_norm': 3.9782137870788574, 'learning_rate': 4.3530000000000005e-06, 'epoch': 9.45}
{'loss': 0.408, 'grad_norm': 3.103614568710327, 'learning_rate': 4.356e-06, 'epoch': 9.45}
{'loss': 0.2983, 'grad_norm': 4.875410556793213, 'learning_rate': 4.359e-06, 'epoch': 9.46}
{'loss': 0.3557, 'grad_norm': 4.735171794891357, 'learning_rate': 4.362e-06, 'epoch': 9.47}
{'loss': 0.4427, 'grad_norm': 3.264458656311035, 'learning_rate': 4.365e-06, 'epoch': 9.47}
{'loss': 0.353, 'grad_norm': 3.977233648300171, 'learning_rate': 4.368e-06, 'epoch': 9.48}
{'loss': 0.4305, 'grad_norm': 8.04325008392334, 'learning_rate': 4.371e-06, 'epoch': 9.49}
{'loss': 0.6747, 'grad_norm': 7.855190277099609, 'learning_rate': 4.374000000000001e-06, 'epoch': 9.49}
{'loss': 0.7009, 'grad_norm': 2.7175159454345703, 'learning_rate': 4.377e-06, 'epoch': 9.5}
{'loss': 0.5506, 'grad_norm': 1.8510794639587402, 'learning_rate': 4.3799999999999996e-06, 'epoch': 9.51}
{'loss': 0.5513, 'grad_norm': 3.109290599822998, 'learning_rate': 4.383e-06, 'epoch': 9.51}
{'loss': 0.5459, 'grad_norm': 1.9284911155700684, 'learning_rate': 4.386e-06, 'epoch': 9.52}
{'loss': 0.4836, 'grad_norm': 3.574679136276245, 'learning_rate': 4.389000000000001e-06, 'epoch': 9.53}
{'loss': 0.5573, 'grad_norm': 3.630995512008667, 'learning_rate': 4.3920000000000005e-06, 'epoch': 9.53}
{'loss': 0.3778, 'grad_norm': 2.6721608638763428, 'learning_rate': 4.395e-06, 'epoch': 9.54}
{'loss': 0.4401, 'grad_norm': 2.746781826019287, 'learning_rate': 4.398e-06, 'epoch': 9.55}
{'loss': 0.476, 'grad_norm': 2.722156047821045, 'learning_rate': 4.401e-06, 'epoch': 9.55}
  1%|▏         | 1472/100000 [53:52<78:40:34,  2.87s/it]  1%|▏         | 1473/100000 [53:54<70:27:22,  2.57s/it]                                                          1%|▏         | 1473/100000 [53:54<70:27:22,  2.57s/it]  1%|▏         | 1474/100000 [53:56<64:04:45,  2.34s/it]                                                          1%|▏         | 1474/100000 [53:56<64:04:45,  2.34s/it]  1%|▏         | 1475/100000 [53:58<58:25:30,  2.13s/it]                                                          1%|▏         | 1475/100000 [53:58<58:25:30,  2.13s/it]  1%|▏         | 1476/100000 [53:59<54:11:58,  1.98s/it]                                                          1%|▏         | 1476/100000 [53:59<54:11:58,  1.98s/it]  1%|▏         | 1477/100000 [54:01<50:44:48,  1.85s/it]                                                          1%|▏         | 1477/100000 [54:01<50:44:48,  1.85s/it]  1%|▏         | 1478/100000 [54:02<47:19:26,  1.73s/it]                                                          1%|▏         | 1478/100000 [54:02<47:19:26,  1.73s/it]  1%|▏         | 1479/100000 [54:04<44:25:35,  1.62s/it]                                                          1%|▏         | 1479/100000 [54:04<44:25:35,  1.62s/it]  1%|▏         | 1480/100000 [54:05<42:13:36,  1.54s/it]                                                          1%|▏         | 1480/100000 [54:05<42:13:36,  1.54s/it]  1%|▏         | 1481/100000 [54:06<40:06:58,  1.47s/it]                                                          1%|▏         | 1481/100000 [54:06<40:06:58,  1.47s/it]  1%|▏         | 1482/100000 [54:07<38:11:13,  1.40s/it]                                                          1%|▏         | 1482/100000 [54:07<38:11:13,  1.40s/it]  1%|▏         | 1483/100000 [54:09<36:03:44,  1.32s/it]                                                          1%|▏         | 1483/100000 [54:09<36:03:44,  1.32s/it]  1%|▏         | 1484/100000 [54:10<34:23:09,  1.26s/it]                                                          1%|▏         | 1484/100000 [54:10<34:23:09,  1.26s/it]  1%|▏         | 1485/100000 [54:11<32:27:21,  1.19s/it]                                                          1%|▏         | 1485/100000 [54:11<32:27:21,  1.19s/it]  1%|▏         | 1486/100000 [54:12<30:53:22,  1.13s/it]                                                          1%|▏         | 1486/100000 [54:12<30:53:22,  1.13s/it]  1%|▏         | 1487/100000 [54:13<29:40:54,  1.08s/it]                                                          1%|▏         | 1487/100000 [54:13<29:40:54,  1.08s/it]  1%|▏         | 1488/100000 [54:14<28:42:24,  1.05s/it]                                                          1%|▏         | 1488/100000 [54:14<28:42:24,  1.05s/it]  1%|▏         | 1489/100000 [54:15<27:29:40,  1.00s/it]                                                          1%|▏         | 1489/100000 [54:15<27:29:40,  1.00s/it]  1%|▏         | 1490/100000 [54:15<26:33:53,  1.03it/s]                                                          1%|▏         | 1490/100000 [54:15<26:33:53,  1.03it/s]  1%|▏         | 1491/100000 [54:16<25:48:03,  1.06it/s]                                                          1%|▏         | 1491/100000 [54:16<25:48:03,  1.06it/s]  1%|▏         | 1492/100000 [54:17<24:54:40,  1.10it/s]                                                          1%|▏         | 1492/100000 [54:17<24:54:40,  1.10it/s]  1%|▏         | 1493/100000 [54:18<24:26:44,  1.12it/s]                                                          1%|▏         | 1493/100000 [54:18<24:26:44,  1.12it/s]  1%|▏         | 1494/100000 [54:19<23:38:57,  1.16it/s]                                                          1%|▏         | 1494/100000 [54:19<23:38:57,  1.16it/s]  1%|▏         | 1495/100000 [54:20<23:02:31,  1.19it/s]                                                          1%|▏         | 1495/100000 [54:20<23:02:31,  1.19it/s]  1%|▏         | 1496/100000 [54:20<22:34:21,  1.21it/s]                                                          1%|▏         | 1496/100000 [54:20<22:34:21,  1.21it/s]  1%|▏         | 1497/100000 [54:21<22:39:09,  1.21it/s]                                                          1%|▏         | 1497/100000 [54:21<22:39:09,  1.21it/s]  1%|▏         | 1498/100000 [54:22<22:05:25,  1.24it/s]                                                          1%|▏         | 1498/100000 [54:22<22:05:25,  1.24it/s]  1%|▏         | 1499/100000 [54:23<21:09:46,  1.29it/s]                                                          1%|▏         | 1499/100000 [54:23<21:09:46,  1.29it/s]  2%|▏         | 1500/100000 [54:23<20:35:28,  1.33it/s]                                                          2%|▏         | 1500/100000 [54:23<20:35:28,  1.33it/s]  2%|▏         | 1501/100000 [54:34<102:25:10,  3.74s/it]                                                           2%|▏         | 1501/100000 [54:34<102:25:10,  3.74s/it]  2%|▏         | 1502/100000 [54:42<136:21:51,  4.98s/it]                                                           2%|▏         | 1502/100000 [54:42<136:21:51,  4.98s/it]  2%|▏         | 1503/100000 [54:48<141:29:19,  5.17s/it]                                                           2%|▏         | 1503/100000 [54:48<141:29:19,  5.17s/it]  2%|▏         | 1504/100000 [54:52<135:55:19,  4.97s/it]                                                           2%|▏         | 1504/100000 [54:52<135:55:19,  4.97s/it]  2%|▏         | 1505/100000 [54:56<127:10:34,  4.65s/it]                                                           2%|▏         | 1505/100000 [54:56<127:10:34,  4.65s/it]  2%|▏         | 1506/100000 [54:59<115:59:00,  4.24s/it]                                                           2%|▏         | 1506/100000 [54:59<115:59:00,  4.24s/it]  2%|▏         | 1507/100000 [55:02<106:04:02,  3.88s/it]                                                           2%|▏         | 1507/100000 [55:02<106:04:02,  3.88s/it]  2%|▏         | 1508/100000 [55:05<95:36:10,  3.49s/it]                                                           2%|▏         | 1508/100000 [55:05<95:36:10,  3.49s/it]  2%|▏         | 1509/100000 [55:07<85:48:17,  3.14s/it]                                                          2%|▏         | 1509/100000 [55:07<85:48:17,  3.14s/it]  2%|▏         | 1510/100000 [55:09<77:12:04,  2.82s/it]                                                          2%|▏         | 1510/100000 [55:09<77:12:04,  2.82s/it]  2%|▏         | 1511/100000 [55:11<70:10:38,  2.57s/it]                                                          2%|▏         | 1511/100000 [55:11<70:10:38,  2.57s/it]  2%|▏         | 1512/100000 [55:13<64:16:59,  2.35s/it]                                                          2%|▏         | 1512/100000 [55:13<64:16:59,  2.35s/it]  2%|▏         | 1513/100000 [55:15<59:09:39,  2.16s/it]                                                          2%|▏         | 1513/100000 [55:15<59:09:39,  2.16s/it]  2%|▏         | 1514/100000 [55:16<54:33:29,  1.99s/it]                                                          2%|▏         | 1514/100000 [55:16<54:33:29,  1.99s/it]  2%|▏         | 1515/100000 [55:18<51:00:53,  1.86s/it]                                                          2%|▏         | 1515/100000 [55:18<51:00:53,  1.86s/it]  2%|▏         | 1516/100000 [55:19<47:36:57,  1.74s/it]                                                          2%|▏         | 1516/100000 [55:19<47:36:57,  1.74s/it]  2%|▏         | 1517/100000 [55:21<44:36:57,  1.63s/it]                                                          2%|▏         | 1517/100000 [55:21<44:36:57,  1.63s/it]  2%|▏         | 1518/100000 [55:22<42:00:10,  1.54s/it]                                                          2%|▏         | 1518/100000 [55:22<42:00:10,  1.54s/it]  2%|▏         | 1519/100000 [55:23<39:51:06,  1.46s/it]                                                          2%|▏         | 1519/100000 [55:23<39:51:06,  1.46s/it]  2%|▏         | 1520/100000 [55:25<37:40:44,  1.38s/it]                                                          2%|▏         | 1520/100000 [55:25<37:40:44,  1.38s/it]  2%|▏         | 1521/100000 [55:26<35:45:45,  1.31s/it]                                                          2%|▏         | 1521/100000 [55:26<35:45:45,  1.31s/it]  2%|▏         | 1522/100000 [55:27<33:55:17,  1.24s/it]                                                          2%|▏         | 1522/100000 [55:27<33:55:17,  1.24s/it]  2%|▏         | 1523/100000 [55:28<32:25:00,  1.19s/it]                                                          2%|▏         | 1523/100000 [55:28<32:25:00,  1.19s/it]  2%|▏         | 1524/100000 [55:29<30:40:22,  1.12s/it]                                                          2%|▏         | 1524/100000 [55:29<30:40:22,  1.12s/it]  2%|▏         | 1525/100000 [55:30<29:10:45,  1.07s/it]                                                          2%|▏         | 1525/100000 [55:30<29:10:45,  1.07s/it]  2%|▏         | 1526/100000 [55:31<28:12:03,  1.03s/it]                                                          2%|▏         | 1526/100000 [55:31<28:12:03,  1.03s/it]  2%|▏         | 1527/100000 [55:32<27:11:16,  1.01it/s]                                                          2%|▏         | 1527/100000 [55:32<27:11:16,  1.01it/s]  2%|▏         | 1528/100000 [55:33<25:52:04,  1.06it/s]                                                          2%|▏         | 1528/100000 [55:33<25:52:04,  1.06it/s]  2%|▏         | 1529/100000 [55:33<24:49:22,  1.10it/s]                                                          2%|▏         | 1529/100000 [55:33<24:49:22,  1.10it/s]  2%|▏         | 1530/100000 [55:34<24:30:27,  1.12it/s]                                                          2%|▏         | 1530/100000 [55:34<24:30:27,  1.12it/s]  2%|▏         | 1531/100000 [55:35<23:31:01,  1.16it/s]                                                          2%|▏         | 1531/100000 [55:35<23:31:01,  1.16it/s]  2%|▏         | 1532/100000 [55:36<23:03:27,  1.19it/s]                                                          2%|▏         | 1532/100000 [55:36<23:03:27,  1.19it/s]  2%|▏         | 1533/100000 [55:36<21:48:42,  1.25it/s]                                                          2%|▏         | 1533/100000 [55:36<21:48:42,  1.25it/s]  2%|▏         | 1534/100000 [55:37<20:43:18,  1.32it/s]                                                          2%|▏         | 1534/100000 [55:37<20:43:18,  1.32it/s]  2%|▏         | 1535/100000 [55:38<20:13:45,  1.35it/s]                                                          2%|▏         | 1535/100000 [55:38<20:13:45,  1.35it/s]  2%|▏         | 1536/100000 [55:38<19:21:24,  1.41it/s]                                                          2%|▏         | 1536/100000 [55:38<19:21:24,  1.41it/s]  2%|▏         | 1537/100000 [55:39<18:58:43,  1.44it/s]                                                          2%|▏         | 1537/100000 [55:39<18:58:43,  1.44it/s]  2%|▏         | 1538/100000 [55:40<19:44:54,  1.38it/s]                                                          2%|▏         | 1538/100000 [55:40<19:44:54,  1.38it/s]  2%|▏         | 1539/100000 [55:48<80:32:58,  2.95s/it]                                                          2%|▏         | 1539/100000 [55:48<80:32:58,  2.95s/it]  2%|▏         | 1540/100000 [55:50<68:50:42,  2.52s/it]                                                          2%|▏         | 1540/100000 [55:50<68:50:42,  2.52s/it]{'loss': 0.4058, 'grad_norm': 2.055248737335205, 'learning_rate': 4.4040000000000005e-06, 'epoch': 9.56}
{'loss': 0.3295, 'grad_norm': 1.7853952646255493, 'learning_rate': 4.407e-06, 'epoch': 9.56}
{'loss': 0.3305, 'grad_norm': 2.3265888690948486, 'learning_rate': 4.41e-06, 'epoch': 9.57}
{'loss': 0.3799, 'grad_norm': 1.7491858005523682, 'learning_rate': 4.413000000000001e-06, 'epoch': 9.58}
{'loss': 0.324, 'grad_norm': 2.076725959777832, 'learning_rate': 4.416e-06, 'epoch': 9.58}
{'loss': 0.3182, 'grad_norm': 1.8874510526657104, 'learning_rate': 4.4189999999999995e-06, 'epoch': 9.59}
{'loss': 0.3019, 'grad_norm': 2.023160696029663, 'learning_rate': 4.422e-06, 'epoch': 9.6}
{'loss': 0.3712, 'grad_norm': 1.9360666275024414, 'learning_rate': 4.425e-06, 'epoch': 9.6}
{'loss': 0.3841, 'grad_norm': 2.523454189300537, 'learning_rate': 4.428000000000001e-06, 'epoch': 9.61}
{'loss': 0.2899, 'grad_norm': 2.700906276702881, 'learning_rate': 4.4310000000000004e-06, 'epoch': 9.62}
{'loss': 0.3102, 'grad_norm': 4.51377010345459, 'learning_rate': 4.433999999999999e-06, 'epoch': 9.62}
{'loss': 0.327, 'grad_norm': 2.159588575363159, 'learning_rate': 4.437e-06, 'epoch': 9.63}
{'loss': 0.3676, 'grad_norm': 3.0095722675323486, 'learning_rate': 4.44e-06, 'epoch': 9.64}
{'loss': 0.3732, 'grad_norm': 2.5093510150909424, 'learning_rate': 4.4430000000000005e-06, 'epoch': 9.64}
{'loss': 0.3926, 'grad_norm': 5.373508930206299, 'learning_rate': 4.446e-06, 'epoch': 9.65}
{'loss': 0.3159, 'grad_norm': 4.015987396240234, 'learning_rate': 4.449e-06, 'epoch': 9.66}
{'loss': 0.3499, 'grad_norm': 2.5071749687194824, 'learning_rate': 4.452e-06, 'epoch': 9.66}
{'loss': 0.3353, 'grad_norm': 3.7140302658081055, 'learning_rate': 4.455e-06, 'epoch': 9.67}
{'loss': 0.4276, 'grad_norm': 15.822576522827148, 'learning_rate': 4.458e-06, 'epoch': 9.68}
{'loss': 0.4039, 'grad_norm': 3.7549588680267334, 'learning_rate': 4.461e-06, 'epoch': 9.68}
{'loss': 0.3714, 'grad_norm': 3.267716407775879, 'learning_rate': 4.464e-06, 'epoch': 9.69}
{'loss': 0.3836, 'grad_norm': 2.9182822704315186, 'learning_rate': 4.467000000000001e-06, 'epoch': 9.69}
{'loss': 0.3638, 'grad_norm': 4.226417064666748, 'learning_rate': 4.4699999999999996e-06, 'epoch': 9.7}
{'loss': 0.3442, 'grad_norm': 3.0370428562164307, 'learning_rate': 4.473e-06, 'epoch': 9.71}
{'loss': 0.331, 'grad_norm': 7.957746982574463, 'learning_rate': 4.476e-06, 'epoch': 9.71}
{'loss': 0.6349, 'grad_norm': 50.70269012451172, 'learning_rate': 4.479e-06, 'epoch': 9.72}
{'loss': 0.3671, 'grad_norm': 4.054928779602051, 'learning_rate': 4.4820000000000005e-06, 'epoch': 9.73}
{'loss': 0.4018, 'grad_norm': 4.1667890548706055, 'learning_rate': 4.485e-06, 'epoch': 9.73}
{'loss': 0.4517, 'grad_norm': 10.892786979675293, 'learning_rate': 4.488e-06, 'epoch': 9.74}
{'loss': 0.7194, 'grad_norm': 4.684908866882324, 'learning_rate': 4.491e-06, 'epoch': 9.75}
{'loss': 0.7344, 'grad_norm': 2.99172043800354, 'learning_rate': 4.494e-06, 'epoch': 9.75}
{'loss': 0.5846, 'grad_norm': 1.7268179655075073, 'learning_rate': 4.497e-06, 'epoch': 9.76}
{'loss': 0.5487, 'grad_norm': 2.814180612564087, 'learning_rate': 4.5e-06, 'epoch': 9.77}
{'loss': 0.4453, 'grad_norm': 16.130475997924805, 'learning_rate': 4.503000000000001e-06, 'epoch': 9.77}
{'loss': 0.4044, 'grad_norm': 1.540337324142456, 'learning_rate': 4.506e-06, 'epoch': 9.78}
{'loss': 0.4431, 'grad_norm': 2.40744948387146, 'learning_rate': 4.5089999999999995e-06, 'epoch': 9.79}
{'loss': 0.4744, 'grad_norm': 2.023860216140747, 'learning_rate': 4.512e-06, 'epoch': 9.79}
{'loss': 0.3131, 'grad_norm': 2.0391578674316406, 'learning_rate': 4.515e-06, 'epoch': 9.8}
{'loss': 0.3225, 'grad_norm': 1.6828607320785522, 'learning_rate': 4.518000000000001e-06, 'epoch': 9.81}
{'loss': 0.4289, 'grad_norm': 1.8316750526428223, 'learning_rate': 4.521e-06, 'epoch': 9.81}
{'loss': 0.2905, 'grad_norm': 1.7647075653076172, 'learning_rate': 4.524e-06, 'epoch': 9.82}
{'loss': 0.3059, 'grad_norm': 1.9694690704345703, 'learning_rate': 4.527e-06, 'epoch': 9.82}
{'loss': 0.3032, 'grad_norm': 1.575691819190979, 'learning_rate': 4.53e-06, 'epoch': 9.83}
{'loss': 0.2735, 'grad_norm': 4.7127461433410645, 'learning_rate': 4.5330000000000005e-06, 'epoch': 9.84}
{'loss': 0.3492, 'grad_norm': 2.408831834793091, 'learning_rate': 4.536e-06, 'epoch': 9.84}
{'loss': 0.2874, 'grad_norm': 3.136216640472412, 'learning_rate': 4.539e-06, 'epoch': 9.85}
{'loss': 0.2968, 'grad_norm': 1.7201709747314453, 'learning_rate': 4.542000000000001e-06, 'epoch': 9.86}
{'loss': 0.3244, 'grad_norm': 3.311678886413574, 'learning_rate': 4.545e-06, 'epoch': 9.86}
{'loss': 0.3426, 'grad_norm': 1.7714539766311646, 'learning_rate': 4.548e-06, 'epoch': 9.87}
{'loss': 0.3032, 'grad_norm': 3.1614396572113037, 'learning_rate': 4.551e-06, 'epoch': 9.88}
{'loss': 0.3567, 'grad_norm': 2.4327800273895264, 'learning_rate': 4.554e-06, 'epoch': 9.88}
{'loss': 0.3323, 'grad_norm': 2.813399076461792, 'learning_rate': 4.557000000000001e-06, 'epoch': 9.89}
{'loss': 0.4254, 'grad_norm': 2.3280580043792725, 'learning_rate': 4.56e-06, 'epoch': 9.9}
{'loss': 0.3174, 'grad_norm': 2.9937398433685303, 'learning_rate': 4.563e-06, 'epoch': 9.9}
{'loss': 0.3013, 'grad_norm': 4.348954200744629, 'learning_rate': 4.566e-06, 'epoch': 9.91}
{'loss': 0.3422, 'grad_norm': 2.6318769454956055, 'learning_rate': 4.569e-06, 'epoch': 9.92}
{'loss': 0.3945, 'grad_norm': 2.5153112411499023, 'learning_rate': 4.5720000000000004e-06, 'epoch': 9.92}
{'loss': 0.3417, 'grad_norm': 2.4863569736480713, 'learning_rate': 4.575e-06, 'epoch': 9.93}
{'loss': 0.3257, 'grad_norm': 3.6002931594848633, 'learning_rate': 4.578000000000001e-06, 'epoch': 9.94}
{'loss': 0.3078, 'grad_norm': 3.302818536758423, 'learning_rate': 4.581e-06, 'epoch': 9.94}
{'loss': 0.3708, 'grad_norm': 2.7652649879455566, 'learning_rate': 4.584e-06, 'epoch': 9.95}
{'loss': 0.3304, 'grad_norm': 3.8581442832946777, 'learning_rate': 4.587e-06, 'epoch': 9.95}
{'loss': 0.3176, 'grad_norm': 3.2206385135650635, 'learning_rate': 4.59e-06, 'epoch': 9.96}
{'loss': 0.348, 'grad_norm': 4.870526313781738, 'learning_rate': 4.593000000000001e-06, 'epoch': 9.97}
{'loss': 0.4274, 'grad_norm': 3.2709546089172363, 'learning_rate': 4.5960000000000006e-06, 'epoch': 9.97}
{'loss': 0.3755, 'grad_norm': 4.174152374267578, 'learning_rate': 4.5989999999999995e-06, 'epoch': 9.98}
{'loss': 0.3956, 'grad_norm': 4.581741809844971, 'learning_rate': 4.602e-06, 'epoch': 9.99}
{'loss': 0.4315, 'grad_norm': 1.7897450923919678, 'learning_rate': 4.605e-06, 'epoch': 9.99}
{'loss': 0.3305, 'grad_norm': 4.222837924957275, 'learning_rate': 4.608e-06, 'epoch': 10.0}
  2%|▏         | 1541/100000 [56:07<188:30:07,  6.89s/it]                                                           2%|▏         | 1541/100000 [56:07<188:30:07,  6.89s/it]  2%|▏         | 1542/100000 [56:14<195:22:55,  7.14s/it]                                                           2%|▏         | 1542/100000 [56:14<195:22:55,  7.14s/it]  2%|▏         | 1543/100000 [56:20<183:20:09,  6.70s/it]                                                           2%|▏         | 1543/100000 [56:20<183:20:09,  6.70s/it]  2%|▏         | 1544/100000 [56:25<167:20:12,  6.12s/it]                                                           2%|▏         | 1544/100000 [56:25<167:20:12,  6.12s/it]  2%|▏         | 1545/100000 [56:29<151:08:46,  5.53s/it]                                                           2%|▏         | 1545/100000 [56:29<151:08:46,  5.53s/it]  2%|▏         | 1546/100000 [56:32<133:13:44,  4.87s/it]                                                           2%|▏         | 1546/100000 [56:32<133:13:44,  4.87s/it]  2%|▏         | 1547/100000 [56:35<117:25:57,  4.29s/it]                                                           2%|▏         | 1547/100000 [56:35<117:25:57,  4.29s/it]  2%|▏         | 1548/100000 [56:38<102:57:16,  3.76s/it]                                                           2%|▏         | 1548/100000 [56:38<102:57:16,  3.76s/it]  2%|▏         | 1549/100000 [56:40<90:57:23,  3.33s/it]                                                           2%|▏         | 1549/100000 [56:40<90:57:23,  3.33s/it]  2%|▏         | 1550/100000 [56:42<81:10:44,  2.97s/it]                                                          2%|▏         | 1550/100000 [56:42<81:10:44,  2.97s/it]  2%|▏         | 1551/100000 [56:44<73:04:27,  2.67s/it]                                                          2%|▏         | 1551/100000 [56:44<73:04:27,  2.67s/it]  2%|▏         | 1552/100000 [56:46<65:52:12,  2.41s/it]                                                          2%|▏         | 1552/100000 [56:46<65:52:12,  2.41s/it]  2%|▏         | 1553/100000 [56:48<59:29:33,  2.18s/it]                                                          2%|▏         | 1553/100000 [56:48<59:29:33,  2.18s/it]  2%|▏         | 1554/100000 [56:49<54:48:53,  2.00s/it]                                                          2%|▏         | 1554/100000 [56:49<54:48:53,  2.00s/it]  2%|▏         | 1555/100000 [56:51<51:09:57,  1.87s/it]                                                          2%|▏         | 1555/100000 [56:51<51:09:57,  1.87s/it]  2%|▏         | 1556/100000 [56:52<47:46:45,  1.75s/it]                                                          2%|▏         | 1556/100000 [56:52<47:46:45,  1.75s/it]  2%|▏         | 1557/100000 [56:54<44:39:43,  1.63s/it]                                                          2%|▏         | 1557/100000 [56:54<44:39:43,  1.63s/it]  2%|▏         | 1558/100000 [56:55<42:23:30,  1.55s/it]                                                          2%|▏         | 1558/100000 [56:55<42:23:30,  1.55s/it]  2%|▏         | 1559/100000 [56:56<40:06:45,  1.47s/it]                                                          2%|▏         | 1559/100000 [56:56<40:06:45,  1.47s/it]  2%|▏         | 1560/100000 [56:57<38:16:20,  1.40s/it]                                                          2%|▏         | 1560/100000 [56:57<38:16:20,  1.40s/it]  2%|▏         | 1561/100000 [56:59<36:03:41,  1.32s/it]                                                          2%|▏         | 1561/100000 [56:59<36:03:41,  1.32s/it]  2%|▏         | 1562/100000 [57:00<34:25:04,  1.26s/it]                                                          2%|▏         | 1562/100000 [57:00<34:25:04,  1.26s/it]  2%|▏         | 1563/100000 [57:01<32:16:51,  1.18s/it]                                                          2%|▏         | 1563/100000 [57:01<32:16:51,  1.18s/it]  2%|▏         | 1564/100000 [57:02<30:52:24,  1.13s/it]                                                          2%|▏         | 1564/100000 [57:02<30:52:24,  1.13s/it]  2%|▏         | 1565/100000 [57:03<29:13:31,  1.07s/it]                                                          2%|▏         | 1565/100000 [57:03<29:13:31,  1.07s/it]  2%|▏         | 1566/100000 [57:04<28:15:39,  1.03s/it]                                                          2%|▏         | 1566/100000 [57:04<28:15:39,  1.03s/it]  2%|▏         | 1567/100000 [57:05<27:32:21,  1.01s/it]                                                          2%|▏         | 1567/100000 [57:05<27:32:21,  1.01s/it]  2%|▏         | 1568/100000 [57:05<26:37:35,  1.03it/s]                                                          2%|▏         | 1568/100000 [57:05<26:37:35,  1.03it/s]  2%|▏         | 1569/100000 [57:06<25:29:57,  1.07it/s]                                                          2%|▏         | 1569/100000 [57:06<25:29:57,  1.07it/s]  2%|▏         | 1570/100000 [57:07<24:38:12,  1.11it/s]                                                          2%|▏         | 1570/100000 [57:07<24:38:12,  1.11it/s]  2%|▏         | 1571/100000 [57:08<24:00:46,  1.14it/s]                                                          2%|▏         | 1571/100000 [57:08<24:00:46,  1.14it/s]  2%|▏         | 1572/100000 [57:09<23:32:14,  1.16it/s]                                                          2%|▏         | 1572/100000 [57:09<23:32:14,  1.16it/s]  2%|▏         | 1573/100000 [57:10<23:33:41,  1.16it/s]                                                          2%|▏         | 1573/100000 [57:10<23:33:41,  1.16it/s]  2%|▏         | 1574/100000 [57:10<22:54:44,  1.19it/s]                                                          2%|▏         | 1574/100000 [57:10<22:54:44,  1.19it/s]  2%|▏         | 1575/100000 [57:11<21:46:31,  1.26it/s]                                                          2%|▏         | 1575/100000 [57:11<21:46:31,  1.26it/s]  2%|▏         | 1576/100000 [57:12<21:16:05,  1.29it/s]                                                          2%|▏         | 1576/100000 [57:12<21:16:05,  1.29it/s]  2%|▏         | 1577/100000 [57:13<21:03:26,  1.30it/s]                                                          2%|▏         | 1577/100000 [57:13<21:03:26,  1.30it/s]  2%|▏         | 1578/100000 [57:13<20:25:35,  1.34it/s]                                                          2%|▏         | 1578/100000 [57:13<20:25:35,  1.34it/s]  2%|▏         | 1579/100000 [57:26<121:16:48,  4.44s/it]                                                           2%|▏         | 1579/100000 [57:26<121:16:48,  4.44s/it]  2%|▏         | 1580/100000 [57:34<150:33:35,  5.51s/it]                                                           2%|▏         | 1580/100000 [57:34<150:33:35,  5.51s/it]  2%|▏         | 1581/100000 [57:40<152:37:04,  5.58s/it]                                                           2%|▏         | 1581/100000 [57:40<152:37:04,  5.58s/it]  2%|▏         | 1582/100000 [57:45<145:50:45,  5.33s/it]                                                           2%|▏         | 1582/100000 [57:45<145:50:45,  5.33s/it]  2%|▏         | 1583/100000 [57:49<134:43:36,  4.93s/it]                                                           2%|▏         | 1583/100000 [57:49<134:43:36,  4.93s/it]  2%|▏         | 1584/100000 [57:52<122:48:59,  4.49s/it]                                                           2%|▏         | 1584/100000 [57:52<122:48:59,  4.49s/it]  2%|▏         | 1585/100000 [57:55<111:24:49,  4.08s/it]                                                           2%|▏         | 1585/100000 [57:55<111:24:49,  4.08s/it]  2%|▏         | 1586/100000 [57:58<99:32:52,  3.64s/it]                                                           2%|▏         | 1586/100000 [57:58<99:32:52,  3.64s/it]  2%|▏         | 1587/100000 [58:00<88:35:10,  3.24s/it]                                                          2%|▏         | 1587/100000 [58:00<88:35:10,  3.24s/it]  2%|▏         | 1588/100000 [58:03<80:14:25,  2.94s/it]                                                          2%|▏         | 1588/100000 [58:03<80:14:25,  2.94s/it]  2%|▏         | 1589/100000 [58:05<72:18:30,  2.65s/it]                                                          2%|▏         | 1589/100000 [58:05<72:18:30,  2.65s/it]  2%|▏         | 1590/100000 [58:06<66:18:36,  2.43s/it]                                                          2%|▏         | 1590/100000 [58:06<66:18:36,  2.43s/it]  2%|▏         | 1591/100000 [58:08<61:03:26,  2.23s/it]                                                          2%|▏         | 1591/100000 [58:08<61:03:26,  2.23s/it]  2%|▏         | 1592/100000 [58:10<56:13:21,  2.06s/it]                                                          2%|▏         | 1592/100000 [58:10<56:13:21,  2.06s/it]  2%|▏         | 1593/100000 [58:12<52:35:02,  1.92s/it]                                                          2%|▏         | 1593/100000 [58:12<52:35:02,  1.92s/it]  2%|▏         | 1594/100000 [58:13<48:53:10,  1.79s/it]                                                          2%|▏         | 1594/100000 [58:13<48:53:10,  1.79s/it]  2%|▏         | 1595/100000 [58:14<45:53:18,  1.68s/it]                                                          2%|▏         | 1595/100000 [58:14<45:53:18,  1.68s/it]  2%|▏         | 1596/100000 [58:16<43:18:46,  1.58s/it]                                                          2%|▏         | 1596/100000 [58:16<43:18:46,  1.58s/it]  2%|▏         | 1597/100000 [58:17<40:48:23,  1.49s/it]                                                          2%|▏         | 1597/100000 [58:17<40:48:23,  1.49s/it]  2%|▏         | 1598/100000 [58:18<38:51:49,  1.42s/it]                                                          2%|▏         | 1598/100000 [58:18<38:51:49,  1.42s/it]  2%|▏         | 1599/100000 [58:19<36:52:02,  1.35s/it]                                                          2%|▏         | 1599/100000 [58:19<36:52:02,  1.35s/it]  2%|▏         | 1600/100000 [58:21<34:56:02,  1.28s/it]                                                          2%|▏         | 1600/100000 [58:21<34:56:02,  1.28s/it]  2%|▏         | 1601/100000 [58:22<32:57:52,  1.21s/it]                                                          2%|▏         | 1601/100000 [58:22<32:57:52,  1.21s/it]  2%|▏         | 1602/100000 [58:23<32:33:39,  1.19s/it]                                                          2%|▏         | 1602/100000 [58:23<32:33:39,  1.19s/it]  2%|▏         | 1603/100000 [58:24<30:16:14,  1.11s/it]                                                          2%|▏         | 1603/100000 [58:24<30:16:14,  1.11s/it]  2%|▏         | 1604/100000 [58:25<28:44:55,  1.05s/it]                                                          2%|▏         | 1604/100000 [58:25<28:44:55,  1.05s/it]  2%|▏         | 1605/100000 [58:26<27:32:15,  1.01s/it]                                                          2%|▏         | 1605/100000 [58:26<27:32:15,  1.01s/it]  2%|▏         | 1606/100000 [58:26<26:14:55,  1.04it/s]                                                          2%|▏         | 1606/100000 [58:26<26:14:55,  1.04it/s]  2%|▏         | 1607/100000 [58:27<25:14:42,  1.08it/s]                                                          2%|▏         | 1607/100000 [58:27<25:14:42,  1.08it/s]  2%|▏         | 1608/100000 [58:28<24:34:07,  1.11it/s]                                                          2%|▏         | 1608/100000 [58:28<24:34:07,  1.11it/s]  2%|▏         | 1609/100000 [58:29<24:17:20,  1.13it/s]                                                          2%|▏         | 1609/100000 [58:29<24:17:20,  1.13it/s]  2%|▏         | 1610/100000 [58:30<23:06:23,  1.18it/s]                                                          2%|▏         | 1610/100000 [58:30<23:06:23,  1.18it/s]  2%|▏         | 1611/100000 [58:30<22:18:24,  1.23it/s]                                                          2%|▏         | 1611/100000 [58:30<22:18:24,  1.23it/s]  2%|▏         | 1612/100000 [58:31<21:56:31,  1.25it/s]                                                          2%|▏         | 1612/100000 [58:31<21:56:31,  1.25it/s]  2%|▏         | 1613/100000 [58:32<21:47:00,  1.25it/s]                                                          2%|▏         | 1613/100000 [58:32<21:47:00,  1.25it/s]  2%|▏         | 1614/100000 [58:33<20:47:22,  1.31it/s]                                                          2%|▏         | 1614/100000 [58:33<20:47:22,  1.31it/s]  2%|▏         | 1615/100000 [58:33<20:16:59,  1.35it/s]                                                          2%|▏         | 1615/100000 [58:33<20:16:59,  1.35it/s]  2%|▏         | 1616/100000 [58:34<19:17:14,  1.42it/s]                                                          2%|▏         | 1616/100000 [58:34<19:17:14,  1.42it/s]  2%|▏         | 1617/100000 [58:47<119:50:05,  4.38s/it]                                                           2%|▏         | 1617/100000 [58:47<119:50:05,  4.38s/it]  2%|▏         | 1618/100000 [58:55<149:51:32,  5.48s/it]                                                           2%|▏         | 1618/100000 [58:55<149:51:32,  5.48s/it]  2%|▏         | 1619/100000 [59:00<148:00:26,  5.42s/it]                                                           2%|▏         | 1619/100000 [59:00<148:00:26,  5.42s/it]  2%|▏         | 1620/100000 [59:04<138:03:16,  5.05s/it]                                                           2%|▏         | 1620/100000 [59:04<138:03:16,  5.05s/it]  2%|▏         | 1621/100000 [59:08<126:27:23,  4.63s/it]                                                           2%|▏         | 1621/100000 [59:08<126:27:23,  4.63s/it]  2%|▏         | 1622/100000 [59:11<116:04:23,  4.25s/it]                                                           2%|▏         | 1622/100000 [59:11<116:04:23,  4.25s/it]  2%|▏         | 1623/100000 [59:14<105:34:01,  3.86s/it]                                                           2%|▏         | 1623/100000 [59:14<105:34:01,  3.86s/it]  2%|▏         | 1624/100000 [59:17<95:27:53,  3.49s/it]                                                           2%|▏         | 1624/100000 [59:17<95:27:53,  3.49s/it]  2%|▏         | 1625/100000 [59:19<85:47:16,  3.14s/it]                                                          2%|▏         | 1625/100000 [59:19<85:47:16,  3.14s/it]  2%|▏         | 1626/100000 [59:21<77:00:41,  2.82s/it]                                                        {'loss': 0.7141, 'grad_norm': 4.11719274520874, 'learning_rate': 4.611e-06, 'epoch': 10.01}
{'loss': 0.5858, 'grad_norm': 2.683742046356201, 'learning_rate': 4.614e-06, 'epoch': 10.01}
{'loss': 0.5896, 'grad_norm': 2.619178056716919, 'learning_rate': 4.617e-06, 'epoch': 10.02}
{'loss': 0.5572, 'grad_norm': 2.2044484615325928, 'learning_rate': 4.62e-06, 'epoch': 10.03}
{'loss': 0.5334, 'grad_norm': 2.6542928218841553, 'learning_rate': 4.623e-06, 'epoch': 10.03}
{'loss': 0.473, 'grad_norm': 2.707721471786499, 'learning_rate': 4.626e-06, 'epoch': 10.04}
{'loss': 0.466, 'grad_norm': 2.1502766609191895, 'learning_rate': 4.629e-06, 'epoch': 10.05}
{'loss': 0.4566, 'grad_norm': 1.6519384384155273, 'learning_rate': 4.632000000000001e-06, 'epoch': 10.05}
{'loss': 0.3858, 'grad_norm': 1.5477650165557861, 'learning_rate': 4.635e-06, 'epoch': 10.06}
{'loss': 0.3421, 'grad_norm': 1.7387791872024536, 'learning_rate': 4.6379999999999995e-06, 'epoch': 10.06}
{'loss': 0.3437, 'grad_norm': 1.9775683879852295, 'learning_rate': 4.641e-06, 'epoch': 10.07}
{'loss': 0.3159, 'grad_norm': 1.9854966402053833, 'learning_rate': 4.644e-06, 'epoch': 10.08}
{'loss': 0.2949, 'grad_norm': 1.6945866346359253, 'learning_rate': 4.6470000000000006e-06, 'epoch': 10.08}
{'loss': 0.2903, 'grad_norm': 3.608567953109741, 'learning_rate': 4.65e-06, 'epoch': 10.09}
{'loss': 0.2948, 'grad_norm': 1.743333339691162, 'learning_rate': 4.653e-06, 'epoch': 10.1}
{'loss': 0.3249, 'grad_norm': 2.0765340328216553, 'learning_rate': 4.656e-06, 'epoch': 10.1}
{'loss': 0.2722, 'grad_norm': 1.5633950233459473, 'learning_rate': 4.659e-06, 'epoch': 10.11}
{'loss': 0.3103, 'grad_norm': 1.8081573247909546, 'learning_rate': 4.6620000000000004e-06, 'epoch': 10.12}
{'loss': 0.2346, 'grad_norm': 1.7573909759521484, 'learning_rate': 4.665e-06, 'epoch': 10.12}
{'loss': 0.2911, 'grad_norm': 2.4088175296783447, 'learning_rate': 4.668e-06, 'epoch': 10.13}
{'loss': 0.3201, 'grad_norm': 5.171941757202148, 'learning_rate': 4.671000000000001e-06, 'epoch': 10.14}
{'loss': 0.2559, 'grad_norm': 4.347808361053467, 'learning_rate': 4.674e-06, 'epoch': 10.14}
{'loss': 0.3754, 'grad_norm': 2.634824275970459, 'learning_rate': 4.677e-06, 'epoch': 10.15}
{'loss': 0.2777, 'grad_norm': 2.331305742263794, 'learning_rate': 4.68e-06, 'epoch': 10.16}
{'loss': 0.2963, 'grad_norm': 2.9919252395629883, 'learning_rate': 4.683e-06, 'epoch': 10.16}
{'loss': 0.305, 'grad_norm': 3.772533416748047, 'learning_rate': 4.6860000000000005e-06, 'epoch': 10.17}
{'loss': 0.3069, 'grad_norm': 2.9597055912017822, 'learning_rate': 4.689e-06, 'epoch': 10.18}
{'loss': 0.4235, 'grad_norm': 2.355499029159546, 'learning_rate': 4.692e-06, 'epoch': 10.18}
{'loss': 0.3512, 'grad_norm': 3.7040610313415527, 'learning_rate': 4.695e-06, 'epoch': 10.19}
{'loss': 0.2947, 'grad_norm': 3.0720341205596924, 'learning_rate': 4.698e-06, 'epoch': 10.19}
{'loss': 0.2621, 'grad_norm': 3.786764621734619, 'learning_rate': 4.701e-06, 'epoch': 10.2}
{'loss': 0.4203, 'grad_norm': 3.1777701377868652, 'learning_rate': 4.704e-06, 'epoch': 10.21}
{'loss': 0.2916, 'grad_norm': 2.356865167617798, 'learning_rate': 4.707000000000001e-06, 'epoch': 10.21}
{'loss': 0.294, 'grad_norm': 5.049363136291504, 'learning_rate': 4.71e-06, 'epoch': 10.22}
{'loss': 0.2763, 'grad_norm': 3.6814894676208496, 'learning_rate': 4.713e-06, 'epoch': 10.23}
{'loss': 0.4397, 'grad_norm': 3.625246047973633, 'learning_rate': 4.716e-06, 'epoch': 10.23}
{'loss': 0.3483, 'grad_norm': 4.455193519592285, 'learning_rate': 4.719e-06, 'epoch': 10.24}
{'loss': 0.3583, 'grad_norm': 4.450253009796143, 'learning_rate': 4.722000000000001e-06, 'epoch': 10.25}
{'loss': 0.6642, 'grad_norm': 13.735092163085938, 'learning_rate': 4.7250000000000005e-06, 'epoch': 10.25}
{'loss': 0.5807, 'grad_norm': 1.8398624658584595, 'learning_rate': 4.7279999999999995e-06, 'epoch': 10.26}
{'loss': 0.5696, 'grad_norm': 2.026848077774048, 'learning_rate': 4.731e-06, 'epoch': 10.27}
{'loss': 0.5329, 'grad_norm': 2.0879437923431396, 'learning_rate': 4.734e-06, 'epoch': 10.27}
{'loss': 0.4381, 'grad_norm': 1.6640902757644653, 'learning_rate': 4.7370000000000006e-06, 'epoch': 10.28}
{'loss': 0.4603, 'grad_norm': 1.7450252771377563, 'learning_rate': 4.74e-06, 'epoch': 10.29}
{'loss': 0.3979, 'grad_norm': 1.5506445169448853, 'learning_rate': 4.743e-06, 'epoch': 10.29}
{'loss': 0.3655, 'grad_norm': 1.7142794132232666, 'learning_rate': 4.746e-06, 'epoch': 10.3}
{'loss': 0.3776, 'grad_norm': 2.065741777420044, 'learning_rate': 4.749e-06, 'epoch': 10.31}
{'loss': 0.3511, 'grad_norm': 2.5618979930877686, 'learning_rate': 4.752e-06, 'epoch': 10.31}
{'loss': 0.3466, 'grad_norm': 2.3250083923339844, 'learning_rate': 4.755e-06, 'epoch': 10.32}
{'loss': 0.3269, 'grad_norm': 3.307352304458618, 'learning_rate': 4.758e-06, 'epoch': 10.32}
{'loss': 0.3321, 'grad_norm': 1.6882177591323853, 'learning_rate': 4.761000000000001e-06, 'epoch': 10.33}
{'loss': 0.2839, 'grad_norm': 1.4662508964538574, 'learning_rate': 4.764e-06, 'epoch': 10.34}
{'loss': 0.3084, 'grad_norm': 2.2104172706604004, 'learning_rate': 4.767e-06, 'epoch': 10.34}
{'loss': 0.3327, 'grad_norm': 1.643830418586731, 'learning_rate': 4.77e-06, 'epoch': 10.35}
{'loss': 0.2963, 'grad_norm': 2.5154542922973633, 'learning_rate': 4.773e-06, 'epoch': 10.36}
{'loss': 0.341, 'grad_norm': 2.437030076980591, 'learning_rate': 4.7760000000000005e-06, 'epoch': 10.36}
{'loss': 0.3352, 'grad_norm': 2.0452351570129395, 'learning_rate': 4.779e-06, 'epoch': 10.37}
{'loss': 0.2898, 'grad_norm': 3.3975062370300293, 'learning_rate': 4.782e-06, 'epoch': 10.38}
{'loss': 0.3134, 'grad_norm': 2.417314052581787, 'learning_rate': 4.785e-06, 'epoch': 10.38}
{'loss': 0.3391, 'grad_norm': 3.368612051010132, 'learning_rate': 4.788e-06, 'epoch': 10.39}
{'loss': 0.3548, 'grad_norm': 2.4657528400421143, 'learning_rate': 4.791e-06, 'epoch': 10.4}
{'loss': 0.4306, 'grad_norm': 2.40678071975708, 'learning_rate': 4.794e-06, 'epoch': 10.4}
{'loss': 0.3548, 'grad_norm': 2.0272164344787598, 'learning_rate': 4.797e-06, 'epoch': 10.41}
{'loss': 0.3128, 'grad_norm': 2.6224164962768555, 'learning_rate': 4.800000000000001e-06, 'epoch': 10.42}
{'loss': 0.2776, 'grad_norm': 2.596128225326538, 'learning_rate': 4.803e-06, 'epoch': 10.42}
{'loss': 0.3079, 'grad_norm': 2.6987316608428955, 'learning_rate': 4.806e-06, 'epoch': 10.43}
{'loss': 0.3605, 'grad_norm': 2.3645217418670654, 'learning_rate': 4.809e-06, 'epoch': 10.44}
{'loss': 0.2846, 'grad_norm': 2.7129580974578857, 'learning_rate': 4.812e-06, 'epoch': 10.44}
{'loss': 0.3202, 'grad_norm': 2.4560093879699707, 'learning_rate': 4.8150000000000005e-06, 'epoch': 10.45}
{'loss': 0.3178, 'grad_norm': 2.9828150272369385, 'learning_rate': 4.818e-06, 'epoch': 10.45}
{'loss': 0.2726, 'grad_norm': 2.715636730194092, 'learning_rate': 4.821e-06, 'epoch': 10.46}
{'loss': 0.3318, 'grad_norm': 3.3721675872802734, 'learning_rate': 4.824e-06, 'epoch': 10.47}
{'loss': 0.3118, 'grad_norm': 4.844720363616943, 'learning_rate': 4.827e-06, 'epoch': 10.47}
{'loss': 0.2966, 'grad_norm': 2.7619738578796387, 'learning_rate': 4.83e-06, 'epoch': 10.48}
{'loss': 0.3424, 'grad_norm': 3.7357473373413086, 'learning_rate': 4.833e-06, 'epoch': 10.49}
{'loss': 0.4648, 'grad_norm': 7.557510852813721, 'learning_rate': 4.836000000000001e-06, 'epoch': 10.49}
{'loss': 0.6693, 'grad_norm': 2.378822088241577, 'learning_rate': 4.839e-06, 'epoch': 10.5}
{'loss': 0.5105, 'grad_norm': 1.3502037525177002, 'learning_rate': 4.8419999999999996e-06, 'epoch': 10.51}
{'loss': 0.4985, 'grad_norm': 1.9270867109298706, 'learning_rate': 4.845e-06, 'epoch': 10.51}
{'loss': 0.454, 'grad_norm': 1.8844919204711914, 'learning_rate': 4.848e-06, 'epoch': 10.52}
{'loss': 0.4255, 'grad_norm': 1.5236701965332031, 'learning_rate': 4.851000000000001e-06, 'epoch': 10.53}
{'loss': 0.458, 'grad_norm': 3.4072299003601074, 'learning_rate': 4.8540000000000005e-06, 'epoch': 10.53}
{'loss': 0.4086, 'grad_norm': 3.0882577896118164, 'learning_rate': 4.856999999999999e-06, 'epoch': 10.54}
{'loss': 0.3659, 'grad_norm': 1.798966646194458, 'learning_rate': 4.86e-06, 'epoch': 10.55}
{'loss': 0.3691, 'grad_norm': 1.5834335088729858, 'learning_rate': 4.863e-06, 'epoch': 10.55}
  2%|▏         | 1626/100000 [59:21<77:00:41,  2.82s/it]  2%|▏         | 1627/100000 [59:23<69:40:29,  2.55s/it]                                                          2%|▏         | 1627/100000 [59:23<69:40:29,  2.55s/it]  2%|▏         | 1628/100000 [59:25<62:49:48,  2.30s/it]                                                          2%|▏         | 1628/100000 [59:25<62:49:48,  2.30s/it]  2%|▏         | 1629/100000 [59:27<57:43:02,  2.11s/it]                                                          2%|▏         | 1629/100000 [59:27<57:43:02,  2.11s/it]  2%|▏         | 1630/100000 [59:28<53:22:54,  1.95s/it]                                                          2%|▏         | 1630/100000 [59:28<53:22:54,  1.95s/it]  2%|▏         | 1631/100000 [59:30<49:21:10,  1.81s/it]                                                          2%|▏         | 1631/100000 [59:30<49:21:10,  1.81s/it]  2%|▏         | 1632/100000 [59:31<46:21:11,  1.70s/it]                                                          2%|▏         | 1632/100000 [59:31<46:21:11,  1.70s/it]  2%|▏         | 1633/100000 [59:33<43:24:12,  1.59s/it]                                                          2%|▏         | 1633/100000 [59:33<43:24:12,  1.59s/it]  2%|▏         | 1634/100000 [59:34<40:54:21,  1.50s/it]                                                          2%|▏         | 1634/100000 [59:34<40:54:21,  1.50s/it]  2%|▏         | 1635/100000 [59:35<39:05:16,  1.43s/it]                                                          2%|▏         | 1635/100000 [59:35<39:05:16,  1.43s/it]  2%|▏         | 1636/100000 [59:36<37:03:23,  1.36s/it]                                                          2%|▏         | 1636/100000 [59:36<37:03:23,  1.36s/it]  2%|▏         | 1637/100000 [59:37<35:14:59,  1.29s/it]                                                          2%|▏         | 1637/100000 [59:37<35:14:59,  1.29s/it]  2%|▏         | 1638/100000 [59:39<33:40:54,  1.23s/it]                                                          2%|▏         | 1638/100000 [59:39<33:40:54,  1.23s/it]  2%|▏         | 1639/100000 [59:40<32:01:09,  1.17s/it]                                                          2%|▏         | 1639/100000 [59:40<32:01:09,  1.17s/it]  2%|▏         | 1640/100000 [59:41<30:40:13,  1.12s/it]                                                          2%|▏         | 1640/100000 [59:41<30:40:13,  1.12s/it]  2%|▏         | 1641/100000 [59:42<29:14:16,  1.07s/it]                                                          2%|▏         | 1641/100000 [59:42<29:14:16,  1.07s/it]  2%|▏         | 1642/100000 [59:42<27:55:37,  1.02s/it]                                                          2%|▏         | 1642/100000 [59:42<27:55:37,  1.02s/it]  2%|▏         | 1643/100000 [59:43<26:54:38,  1.02it/s]                                                          2%|▏         | 1643/100000 [59:43<26:54:38,  1.02it/s]  2%|▏         | 1644/100000 [59:44<25:47:42,  1.06it/s]                                                          2%|▏         | 1644/100000 [59:44<25:47:42,  1.06it/s]  2%|▏         | 1645/100000 [59:45<24:56:50,  1.10it/s]                                                          2%|▏         | 1645/100000 [59:45<24:56:50,  1.10it/s]  2%|▏         | 1646/100000 [59:46<24:33:09,  1.11it/s]                                                          2%|▏         | 1646/100000 [59:46<24:33:09,  1.11it/s]  2%|▏         | 1647/100000 [59:47<23:58:41,  1.14it/s]                                                          2%|▏         | 1647/100000 [59:47<23:58:41,  1.14it/s]  2%|▏         | 1648/100000 [59:48<24:02:23,  1.14it/s]                                                          2%|▏         | 1648/100000 [59:48<24:02:23,  1.14it/s]  2%|▏         | 1649/100000 [59:48<23:11:41,  1.18it/s]                                                          2%|▏         | 1649/100000 [59:48<23:11:41,  1.18it/s]  2%|▏         | 1650/100000 [59:49<22:47:49,  1.20it/s]                                                          2%|▏         | 1650/100000 [59:49<22:47:49,  1.20it/s]  2%|▏         | 1651/100000 [59:50<22:09:05,  1.23it/s]                                                          2%|▏         | 1651/100000 [59:50<22:09:05,  1.23it/s]  2%|▏         | 1652/100000 [59:51<21:00:11,  1.30it/s]                                                          2%|▏         | 1652/100000 [59:51<21:00:11,  1.30it/s]  2%|▏         | 1653/100000 [59:51<21:14:02,  1.29it/s]                                                          2%|▏         | 1653/100000 [59:51<21:14:02,  1.29it/s]  2%|▏         | 1654/100000 [59:52<20:10:29,  1.35it/s]                                                          2%|▏         | 1654/100000 [59:52<20:10:29,  1.35it/s]  2%|▏         | 1655/100000 [1:00:04<108:56:37,  3.99s/it]                                                             2%|▏         | 1655/100000 [1:00:04<108:56:37,  3.99s/it]  2%|▏         | 1656/100000 [1:00:12<143:50:42,  5.27s/it]                                                             2%|▏         | 1656/100000 [1:00:12<143:50:42,  5.27s/it]  2%|▏         | 1657/100000 [1:00:17<146:14:05,  5.35s/it]                                                             2%|▏         | 1657/100000 [1:00:17<146:14:05,  5.35s/it]  2%|▏         | 1658/100000 [1:00:22<140:31:51,  5.14s/it]                                                             2%|▏         | 1658/100000 [1:00:22<140:31:51,  5.14s/it]  2%|▏         | 1659/100000 [1:00:26<129:43:11,  4.75s/it]                                                             2%|▏         | 1659/100000 [1:00:26<129:43:11,  4.75s/it]  2%|▏         | 1660/100000 [1:00:29<118:31:40,  4.34s/it]                                                             2%|▏         | 1660/100000 [1:00:29<118:31:40,  4.34s/it]  2%|▏         | 1661/100000 [1:00:32<108:57:41,  3.99s/it]                                                             2%|▏         | 1661/100000 [1:00:32<108:57:41,  3.99s/it]  2%|▏         | 1662/100000 [1:00:35<98:34:34,  3.61s/it]                                                             2%|▏         | 1662/100000 [1:00:35<98:34:34,  3.61s/it]  2%|▏         | 1663/100000 [1:00:38<88:43:32,  3.25s/it]                                                            2%|▏         | 1663/100000 [1:00:38<88:43:32,  3.25s/it]  2%|▏         | 1664/100000 [1:00:40<80:10:26,  2.94s/it]                                                            2%|▏         | 1664/100000 [1:00:40<80:10:26,  2.94s/it]  2%|▏         | 1665/100000 [1:00:42<72:51:48,  2.67s/it]                                                            2%|▏         | 1665/100000 [1:00:42<72:51:48,  2.67s/it]  2%|▏         | 1666/100000 [1:00:44<66:45:39,  2.44s/it]                                                            2%|▏         | 1666/100000 [1:00:44<66:45:39,  2.44s/it]  2%|▏         | 1667/100000 [1:00:45<60:56:44,  2.23s/it]                                                            2%|▏         | 1667/100000 [1:00:46<60:56:44,  2.23s/it]  2%|▏         | 1668/100000 [1:00:47<55:50:34,  2.04s/it]                                                            2%|▏         | 1668/100000 [1:00:47<55:50:34,  2.04s/it]  2%|▏         | 1669/100000 [1:00:49<51:59:33,  1.90s/it]                                                            2%|▏         | 1669/100000 [1:00:49<51:59:33,  1.90s/it]  2%|▏         | 1670/100000 [1:00:50<48:18:05,  1.77s/it]                                                            2%|▏         | 1670/100000 [1:00:50<48:18:05,  1.77s/it]  2%|▏         | 1671/100000 [1:00:52<45:32:11,  1.67s/it]                                                            2%|▏         | 1671/100000 [1:00:52<45:32:11,  1.67s/it]  2%|▏         | 1672/100000 [1:00:53<42:39:10,  1.56s/it]                                                            2%|▏         | 1672/100000 [1:00:53<42:39:10,  1.56s/it]  2%|▏         | 1673/100000 [1:00:54<40:27:23,  1.48s/it]                                                            2%|▏         | 1673/100000 [1:00:54<40:27:23,  1.48s/it]  2%|▏         | 1674/100000 [1:00:55<38:34:04,  1.41s/it]                                                            2%|▏         | 1674/100000 [1:00:55<38:34:04,  1.41s/it]  2%|▏         | 1675/100000 [1:00:57<36:30:30,  1.34s/it]                                                            2%|▏         | 1675/100000 [1:00:57<36:30:30,  1.34s/it]  2%|▏         | 1676/100000 [1:00:58<34:39:41,  1.27s/it]                                                            2%|▏         | 1676/100000 [1:00:58<34:39:41,  1.27s/it]  2%|▏         | 1677/100000 [1:00:59<33:10:53,  1.21s/it]                                                            2%|▏         | 1677/100000 [1:00:59<33:10:53,  1.21s/it]  2%|▏         | 1678/100000 [1:01:00<31:40:08,  1.16s/it]                                                            2%|▏         | 1678/100000 [1:01:00<31:40:08,  1.16s/it]  2%|▏         | 1679/100000 [1:01:01<30:11:54,  1.11s/it]                                                            2%|▏         | 1679/100000 [1:01:01<30:11:54,  1.11s/it]  2%|▏         | 1680/100000 [1:01:02<28:38:19,  1.05s/it]                                                            2%|▏         | 1680/100000 [1:01:02<28:38:19,  1.05s/it]  2%|▏         | 1681/100000 [1:01:03<27:27:32,  1.01s/it]                                                            2%|▏         | 1681/100000 [1:01:03<27:27:32,  1.01s/it]  2%|▏         | 1682/100000 [1:01:03<26:23:36,  1.03it/s]                                                            2%|▏         | 1682/100000 [1:01:03<26:23:36,  1.03it/s]  2%|▏         | 1683/100000 [1:01:04<25:14:38,  1.08it/s]                                                            2%|▏         | 1683/100000 [1:01:04<25:14:38,  1.08it/s]  2%|▏         | 1684/100000 [1:01:05<24:25:24,  1.12it/s]                                                            2%|▏         | 1684/100000 [1:01:05<24:25:24,  1.12it/s]  2%|▏         | 1685/100000 [1:01:06<23:28:45,  1.16it/s]                                                            2%|▏         | 1685/100000 [1:01:06<23:28:45,  1.16it/s]  2%|▏         | 1686/100000 [1:01:07<22:25:53,  1.22it/s]                                                            2%|▏         | 1686/100000 [1:01:07<22:25:53,  1.22it/s]  2%|▏         | 1687/100000 [1:01:07<21:40:42,  1.26it/s]                                                            2%|▏         | 1687/100000 [1:01:07<21:40:42,  1.26it/s]  2%|▏         | 1688/100000 [1:01:08<21:12:54,  1.29it/s]                                                            2%|▏         | 1688/100000 [1:01:08<21:12:54,  1.29it/s]  2%|▏         | 1689/100000 [1:01:09<20:25:57,  1.34it/s]                                                            2%|▏         | 1689/100000 [1:01:09<20:25:57,  1.34it/s]  2%|▏         | 1690/100000 [1:01:09<19:45:17,  1.38it/s]                                                            2%|▏         | 1690/100000 [1:01:09<19:45:17,  1.38it/s]  2%|▏         | 1691/100000 [1:01:10<18:35:57,  1.47it/s]                                                            2%|▏         | 1691/100000 [1:01:10<18:35:57,  1.47it/s]  2%|▏         | 1692/100000 [1:01:11<18:53:01,  1.45it/s]                                                            2%|▏         | 1692/100000 [1:01:11<18:53:01,  1.45it/s]  2%|▏         | 1693/100000 [1:01:18<74:59:05,  2.75s/it]                                                            2%|▏         | 1693/100000 [1:01:18<74:59:05,  2.75s/it]  2%|▏         | 1694/100000 [1:01:20<63:14:34,  2.32s/it]                                                            2%|▏         | 1694/100000 [1:01:20<63:14:34,  2.32s/it]{'loss': 0.3703, 'grad_norm': 1.8701095581054688, 'learning_rate': 4.8660000000000005e-06, 'epoch': 10.56}
{'loss': 0.2755, 'grad_norm': 2.274376630783081, 'learning_rate': 4.869e-06, 'epoch': 10.56}
{'loss': 0.3468, 'grad_norm': 1.9147412776947021, 'learning_rate': 4.872e-06, 'epoch': 10.57}
{'loss': 0.2395, 'grad_norm': 1.8373860120773315, 'learning_rate': 4.875e-06, 'epoch': 10.58}
{'loss': 0.3074, 'grad_norm': 1.735175609588623, 'learning_rate': 4.878e-06, 'epoch': 10.58}
{'loss': 0.2637, 'grad_norm': 2.3361778259277344, 'learning_rate': 4.881e-06, 'epoch': 10.59}
{'loss': 0.2649, 'grad_norm': 3.2403454780578613, 'learning_rate': 4.884e-06, 'epoch': 10.6}
{'loss': 0.2816, 'grad_norm': 2.3809757232666016, 'learning_rate': 4.887e-06, 'epoch': 10.6}
{'loss': 0.2773, 'grad_norm': 2.011415719985962, 'learning_rate': 4.890000000000001e-06, 'epoch': 10.61}
{'loss': 0.2639, 'grad_norm': 2.4941940307617188, 'learning_rate': 4.8929999999999996e-06, 'epoch': 10.62}
{'loss': 0.288, 'grad_norm': 1.6755931377410889, 'learning_rate': 4.896e-06, 'epoch': 10.62}
{'loss': 0.3165, 'grad_norm': 2.2653965950012207, 'learning_rate': 4.899e-06, 'epoch': 10.63}
{'loss': 0.2856, 'grad_norm': 2.0152511596679688, 'learning_rate': 4.902e-06, 'epoch': 10.64}
{'loss': 0.2852, 'grad_norm': 1.9559121131896973, 'learning_rate': 4.9050000000000005e-06, 'epoch': 10.64}
{'loss': 0.3427, 'grad_norm': 2.695146083831787, 'learning_rate': 4.908e-06, 'epoch': 10.65}
{'loss': 0.3074, 'grad_norm': 2.1278645992279053, 'learning_rate': 4.911e-06, 'epoch': 10.66}
{'loss': 0.3167, 'grad_norm': 3.2350974082946777, 'learning_rate': 4.914e-06, 'epoch': 10.66}
{'loss': 0.3011, 'grad_norm': 3.0527029037475586, 'learning_rate': 4.917e-06, 'epoch': 10.67}
{'loss': 0.2836, 'grad_norm': 3.5547330379486084, 'learning_rate': 4.92e-06, 'epoch': 10.68}
{'loss': 0.2507, 'grad_norm': 2.567286491394043, 'learning_rate': 4.923e-06, 'epoch': 10.68}
{'loss': 0.3457, 'grad_norm': 3.566568374633789, 'learning_rate': 4.926000000000001e-06, 'epoch': 10.69}
{'loss': 0.2586, 'grad_norm': 3.3466341495513916, 'learning_rate': 4.929000000000001e-06, 'epoch': 10.69}
{'loss': 0.278, 'grad_norm': 4.248615741729736, 'learning_rate': 4.9319999999999995e-06, 'epoch': 10.7}
{'loss': 0.283, 'grad_norm': 2.5464513301849365, 'learning_rate': 4.935e-06, 'epoch': 10.71}
{'loss': 0.2686, 'grad_norm': 2.6236913204193115, 'learning_rate': 4.938e-06, 'epoch': 10.71}
{'loss': 0.3715, 'grad_norm': 3.194862127304077, 'learning_rate': 4.941000000000001e-06, 'epoch': 10.72}
{'loss': 0.3123, 'grad_norm': 4.008487224578857, 'learning_rate': 4.9440000000000004e-06, 'epoch': 10.73}
{'loss': 0.4432, 'grad_norm': 5.2447099685668945, 'learning_rate': 4.947e-06, 'epoch': 10.73}
{'loss': 0.5774, 'grad_norm': 5.065374374389648, 'learning_rate': 4.95e-06, 'epoch': 10.74}
{'loss': 0.6218, 'grad_norm': 10.688985824584961, 'learning_rate': 4.953e-06, 'epoch': 10.75}
{'loss': 0.691, 'grad_norm': 2.503911018371582, 'learning_rate': 4.9560000000000005e-06, 'epoch': 10.75}
{'loss': 0.5437, 'grad_norm': 2.214874744415283, 'learning_rate': 4.959e-06, 'epoch': 10.76}
{'loss': 0.5042, 'grad_norm': 2.927727460861206, 'learning_rate': 4.962e-06, 'epoch': 10.77}
{'loss': 0.4606, 'grad_norm': 3.0167667865753174, 'learning_rate': 4.965000000000001e-06, 'epoch': 10.77}
{'loss': 0.4054, 'grad_norm': 1.8060777187347412, 'learning_rate': 4.968e-06, 'epoch': 10.78}
{'loss': 0.411, 'grad_norm': 1.6516222953796387, 'learning_rate': 4.9709999999999995e-06, 'epoch': 10.79}
{'loss': 0.4281, 'grad_norm': 2.741854429244995, 'learning_rate': 4.974e-06, 'epoch': 10.79}
{'loss': 0.4364, 'grad_norm': 2.2754838466644287, 'learning_rate': 4.977e-06, 'epoch': 10.8}
{'loss': 0.3341, 'grad_norm': 1.6741585731506348, 'learning_rate': 4.980000000000001e-06, 'epoch': 10.81}
{'loss': 0.2237, 'grad_norm': 1.8143590688705444, 'learning_rate': 4.983e-06, 'epoch': 10.81}
{'loss': 0.3075, 'grad_norm': 1.9614481925964355, 'learning_rate': 4.985999999999999e-06, 'epoch': 10.82}
{'loss': 0.3061, 'grad_norm': 1.4816714525222778, 'learning_rate': 4.989e-06, 'epoch': 10.82}
{'loss': 0.3107, 'grad_norm': 2.333268165588379, 'learning_rate': 4.992e-06, 'epoch': 10.83}
{'loss': 0.2744, 'grad_norm': 1.8925912380218506, 'learning_rate': 4.9950000000000005e-06, 'epoch': 10.84}
{'loss': 0.2573, 'grad_norm': 1.534185767173767, 'learning_rate': 4.998e-06, 'epoch': 10.84}
{'loss': 0.3241, 'grad_norm': 2.226947069168091, 'learning_rate': 5.001e-06, 'epoch': 10.85}
{'loss': 0.2766, 'grad_norm': 2.3511056900024414, 'learning_rate': 5.004e-06, 'epoch': 10.86}
{'loss': 0.2988, 'grad_norm': 2.519460916519165, 'learning_rate': 5.007e-06, 'epoch': 10.86}
{'loss': 0.2665, 'grad_norm': 1.9908556938171387, 'learning_rate': 5.01e-06, 'epoch': 10.87}
{'loss': 0.3236, 'grad_norm': 2.2080888748168945, 'learning_rate': 5.013e-06, 'epoch': 10.88}
{'loss': 0.3132, 'grad_norm': 1.8756989240646362, 'learning_rate': 5.016e-06, 'epoch': 10.88}
{'loss': 0.2733, 'grad_norm': 1.8829983472824097, 'learning_rate': 5.0190000000000006e-06, 'epoch': 10.89}
{'loss': 0.244, 'grad_norm': 2.1588826179504395, 'learning_rate': 5.0219999999999995e-06, 'epoch': 10.9}
{'loss': 0.2625, 'grad_norm': 2.2323877811431885, 'learning_rate': 5.025e-06, 'epoch': 10.9}
{'loss': 0.3046, 'grad_norm': 1.9850505590438843, 'learning_rate': 5.028e-06, 'epoch': 10.91}
{'loss': 0.2833, 'grad_norm': 3.2800755500793457, 'learning_rate': 5.031e-06, 'epoch': 10.92}
{'loss': 0.4476, 'grad_norm': 4.462287902832031, 'learning_rate': 5.034e-06, 'epoch': 10.92}
{'loss': 0.2691, 'grad_norm': 5.416507720947266, 'learning_rate': 5.037e-06, 'epoch': 10.93}
{'loss': 0.2844, 'grad_norm': 2.8018760681152344, 'learning_rate': 5.04e-06, 'epoch': 10.94}
{'loss': 0.3104, 'grad_norm': 4.446120738983154, 'learning_rate': 5.043e-06, 'epoch': 10.94}
{'loss': 0.2904, 'grad_norm': 3.017169237136841, 'learning_rate': 5.046e-06, 'epoch': 10.95}
{'loss': 0.3487, 'grad_norm': 3.1555988788604736, 'learning_rate': 5.049e-06, 'epoch': 10.95}
{'loss': 0.364, 'grad_norm': 2.9826536178588867, 'learning_rate': 5.052e-06, 'epoch': 10.96}
{'loss': 0.3063, 'grad_norm': 3.345557451248169, 'learning_rate': 5.055000000000001e-06, 'epoch': 10.97}
{'loss': 0.3527, 'grad_norm': 3.2668445110321045, 'learning_rate': 5.0580000000000005e-06, 'epoch': 10.97}
{'loss': 0.2891, 'grad_norm': 5.36662483215332, 'learning_rate': 5.0609999999999995e-06, 'epoch': 10.98}
{'loss': 0.4349, 'grad_norm': 3.7360599040985107, 'learning_rate': 5.064e-06, 'epoch': 10.99}
{'loss': 0.363, 'grad_norm': 2.098480701446533, 'learning_rate': 5.067e-06, 'epoch': 10.99}
{'loss': 0.3312, 'grad_norm': 3.15079402923584, 'learning_rate': 5.070000000000001e-06, 'epoch': 11.0}
  2%|▏         | 1695/100000 [1:01:37<186:08:57,  6.82s/it]                                                             2%|▏         | 1695/100000 [1:01:37<186:08:57,  6.82s/it]  2%|▏         | 1696/100000 [1:01:45<193:37:49,  7.09s/it]                                                             2%|▏         | 1696/100000 [1:01:45<193:37:49,  7.09s/it]  2%|▏         | 1697/100000 [1:01:50<180:23:32,  6.61s/it]                                                             2%|▏         | 1697/100000 [1:01:50<180:23:32,  6.61s/it]  2%|▏         | 1698/100000 [1:01:55<163:28:10,  5.99s/it]                                                             2%|▏         | 1698/100000 [1:01:55<163:28:10,  5.99s/it]  2%|▏         | 1699/100000 [1:01:58<145:17:34,  5.32s/it]                                                             2%|▏         | 1699/100000 [1:01:58<145:17:34,  5.32s/it]  2%|▏         | 1700/100000 [1:02:02<130:34:13,  4.78s/it]                                                             2%|▏         | 1700/100000 [1:02:02<130:34:13,  4.78s/it]  2%|▏         | 1701/100000 [1:02:05<116:36:54,  4.27s/it]                                                             2%|▏         | 1701/100000 [1:02:05<116:36:54,  4.27s/it]  2%|▏         | 1702/100000 [1:02:08<103:40:07,  3.80s/it]                                                             2%|▏         | 1702/100000 [1:02:08<103:40:07,  3.80s/it]  2%|▏         | 1703/100000 [1:02:10<91:40:42,  3.36s/it]                                                             2%|▏         | 1703/100000 [1:02:10<91:40:42,  3.36s/it]  2%|▏         | 1704/100000 [1:02:12<81:46:33,  2.99s/it]                                                            2%|▏         | 1704/100000 [1:02:12<81:46:33,  2.99s/it]  2%|▏         | 1705/100000 [1:02:14<73:36:59,  2.70s/it]                                                            2%|▏         | 1705/100000 [1:02:14<73:36:59,  2.70s/it]  2%|▏         | 1706/100000 [1:02:16<67:09:27,  2.46s/it]                                                            2%|▏         | 1706/100000 [1:02:16<67:09:27,  2.46s/it]  2%|▏         | 1707/100000 [1:02:18<61:35:44,  2.26s/it]                                                            2%|▏         | 1707/100000 [1:02:18<61:35:44,  2.26s/it]  2%|▏         | 1708/100000 [1:02:20<56:57:48,  2.09s/it]                                                            2%|▏         | 1708/100000 [1:02:20<56:57:48,  2.09s/it]  2%|▏         | 1709/100000 [1:02:21<52:55:30,  1.94s/it]                                                            2%|▏         | 1709/100000 [1:02:21<52:55:30,  1.94s/it]  2%|▏         | 1710/100000 [1:02:23<48:53:57,  1.79s/it]                                                            2%|▏         | 1710/100000 [1:02:23<48:53:57,  1.79s/it]  2%|▏         | 1711/100000 [1:02:24<45:55:08,  1.68s/it]                                                            2%|▏         | 1711/100000 [1:02:24<45:55:08,  1.68s/it]  2%|▏         | 1712/100000 [1:02:25<43:23:36,  1.59s/it]                                                            2%|▏         | 1712/100000 [1:02:25<43:23:36,  1.59s/it]  2%|▏         | 1713/100000 [1:02:27<40:49:15,  1.50s/it]                                                            2%|▏         | 1713/100000 [1:02:27<40:49:15,  1.50s/it]  2%|▏         | 1714/100000 [1:02:28<38:50:32,  1.42s/it]                                                            2%|▏         | 1714/100000 [1:02:28<38:50:32,  1.42s/it]  2%|▏         | 1715/100000 [1:02:29<36:37:01,  1.34s/it]                                                            2%|▏         | 1715/100000 [1:02:29<36:37:01,  1.34s/it]  2%|▏         | 1716/100000 [1:02:30<34:50:14,  1.28s/it]                                                            2%|▏         | 1716/100000 [1:02:30<34:50:14,  1.28s/it]  2%|▏         | 1717/100000 [1:02:31<33:06:32,  1.21s/it]                                                            2%|▏         | 1717/100000 [1:02:31<33:06:32,  1.21s/it]  2%|▏         | 1718/100000 [1:02:32<31:42:05,  1.16s/it]                                                            2%|▏         | 1718/100000 [1:02:32<31:42:05,  1.16s/it]  2%|▏         | 1719/100000 [1:02:33<30:12:15,  1.11s/it]                                                            2%|▏         | 1719/100000 [1:02:33<30:12:15,  1.11s/it]  2%|▏         | 1720/100000 [1:02:34<29:17:33,  1.07s/it]                                                            2%|▏         | 1720/100000 [1:02:34<29:17:33,  1.07s/it]  2%|▏         | 1721/100000 [1:02:35<28:27:12,  1.04s/it]                                                            2%|▏         | 1721/100000 [1:02:35<28:27:12,  1.04s/it]  2%|▏         | 1722/100000 [1:02:36<27:43:26,  1.02s/it]                                                            2%|▏         | 1722/100000 [1:02:36<27:43:26,  1.02s/it]  2%|▏         | 1723/100000 [1:02:37<26:38:28,  1.02it/s]                                                            2%|▏         | 1723/100000 [1:02:37<26:38:28,  1.02it/s]  2%|▏         | 1724/100000 [1:02:38<25:51:23,  1.06it/s]                                                            2%|▏         | 1724/100000 [1:02:38<25:51:23,  1.06it/s]  2%|▏         | 1725/100000 [1:02:39<25:12:54,  1.08it/s]                                                            2%|▏         | 1725/100000 [1:02:39<25:12:54,  1.08it/s]  2%|▏         | 1726/100000 [1:02:40<23:52:08,  1.14it/s]                                                            2%|▏         | 1726/100000 [1:02:40<23:52:08,  1.14it/s]  2%|▏         | 1727/100000 [1:02:40<23:04:55,  1.18it/s]                                                            2%|▏         | 1727/100000 [1:02:40<23:04:55,  1.18it/s]  2%|▏         | 1728/100000 [1:02:41<21:55:04,  1.25it/s]                                                            2%|▏         | 1728/100000 [1:02:41<21:55:04,  1.25it/s]  2%|▏         | 1729/100000 [1:02:42<21:34:41,  1.27it/s]                                                            2%|▏         | 1729/100000 [1:02:42<21:34:41,  1.27it/s]  2%|▏         | 1730/100000 [1:02:43<21:13:06,  1.29it/s]                                                            2%|▏         | 1730/100000 [1:02:43<21:13:06,  1.29it/s]  2%|▏         | 1731/100000 [1:02:43<20:32:47,  1.33it/s]                                                            2%|▏         | 1731/100000 [1:02:43<20:32:47,  1.33it/s]  2%|▏         | 1732/100000 [1:02:44<20:19:52,  1.34it/s]                                                            2%|▏         | 1732/100000 [1:02:44<20:19:52,  1.34it/s]  2%|▏         | 1733/100000 [1:02:56<113:08:42,  4.15s/it]                                                             2%|▏         | 1733/100000 [1:02:56<113:08:42,  4.15s/it]  2%|▏         | 1734/100000 [1:03:04<145:48:53,  5.34s/it]                                                             2%|▏         | 1734/100000 [1:03:04<145:48:53,  5.34s/it]  2%|▏         | 1735/100000 [1:03:10<145:31:34,  5.33s/it]                                                             2%|▏         | 1735/100000 [1:03:10<145:31:34,  5.33s/it]  2%|▏         | 1736/100000 [1:03:14<137:33:40,  5.04s/it]                                                             2%|▏         | 1736/100000 [1:03:14<137:33:40,  5.04s/it]  2%|▏         | 1737/100000 [1:03:18<127:05:19,  4.66s/it]                                                             2%|▏         | 1737/100000 [1:03:18<127:05:19,  4.66s/it]  2%|▏         | 1738/100000 [1:03:21<116:56:57,  4.28s/it]                                                             2%|▏         | 1738/100000 [1:03:21<116:56:57,  4.28s/it]  2%|▏         | 1739/100000 [1:03:24<106:27:16,  3.90s/it]                                                             2%|▏         | 1739/100000 [1:03:24<106:27:16,  3.90s/it]  2%|▏         | 1740/100000 [1:03:27<95:33:22,  3.50s/it]                                                             2%|▏         | 1740/100000 [1:03:27<95:33:22,  3.50s/it]  2%|▏         | 1741/100000 [1:03:29<85:39:03,  3.14s/it]                                                            2%|▏         | 1741/100000 [1:03:29<85:39:03,  3.14s/it]  2%|▏         | 1742/100000 [1:03:31<76:54:59,  2.82s/it]                                                            2%|▏         | 1742/100000 [1:03:31<76:54:59,  2.82s/it]  2%|▏         | 1743/100000 [1:03:33<69:13:21,  2.54s/it]                                                            2%|▏         | 1743/100000 [1:03:33<69:13:21,  2.54s/it]  2%|▏         | 1744/100000 [1:03:35<64:18:28,  2.36s/it]                                                            2%|▏         | 1744/100000 [1:03:35<64:18:28,  2.36s/it]  2%|▏         | 1745/100000 [1:03:37<58:29:07,  2.14s/it]                                                            2%|▏         | 1745/100000 [1:03:37<58:29:07,  2.14s/it]  2%|▏         | 1746/100000 [1:03:38<54:15:47,  1.99s/it]                                                            2%|▏         | 1746/100000 [1:03:38<54:15:47,  1.99s/it]  2%|▏         | 1747/100000 [1:03:40<50:46:34,  1.86s/it]                                                            2%|▏         | 1747/100000 [1:03:40<50:46:34,  1.86s/it]  2%|▏         | 1748/100000 [1:03:41<47:32:18,  1.74s/it]                                                            2%|▏         | 1748/100000 [1:03:41<47:32:18,  1.74s/it]  2%|▏         | 1749/100000 [1:03:43<44:31:49,  1.63s/it]                                                            2%|▏         | 1749/100000 [1:03:43<44:31:49,  1.63s/it]  2%|▏         | 1750/100000 [1:03:44<42:13:51,  1.55s/it]                                                            2%|▏         | 1750/100000 [1:03:44<42:13:51,  1.55s/it]  2%|▏         | 1751/100000 [1:03:45<40:11:06,  1.47s/it]                                                            2%|▏         | 1751/100000 [1:03:45<40:11:06,  1.47s/it]  2%|▏         | 1752/100000 [1:03:46<38:11:14,  1.40s/it]                                                            2%|▏         | 1752/100000 [1:03:46<38:11:14,  1.40s/it]  2%|▏         | 1753/100000 [1:03:48<36:11:26,  1.33s/it]                                                            2%|▏         | 1753/100000 [1:03:48<36:11:26,  1.33s/it]  2%|▏         | 1754/100000 [1:03:49<34:25:07,  1.26s/it]                                                            2%|▏         | 1754/100000 [1:03:49<34:25:07,  1.26s/it]  2%|▏         | 1755/100000 [1:03:50<32:54:40,  1.21s/it]                                                            2%|▏         | 1755/100000 [1:03:50<32:54:40,  1.21s/it]  2%|▏         | 1756/100000 [1:03:51<31:23:39,  1.15s/it]                                                            2%|▏         | 1756/100000 [1:03:51<31:23:39,  1.15s/it]  2%|▏         | 1757/100000 [1:03:52<30:00:08,  1.10s/it]                                                            2%|▏         | 1757/100000 [1:03:52<30:00:08,  1.10s/it]  2%|▏         | 1758/100000 [1:03:53<28:51:23,  1.06s/it]                                                            2%|▏         | 1758/100000 [1:03:53<28:51:23,  1.06s/it]  2%|▏         | 1759/100000 [1:03:54<27:36:42,  1.01s/it]                                                            2%|▏         | 1759/100000 [1:03:54<27:36:42,  1.01s/it]  2%|▏         | 1760/100000 [1:03:54<26:23:36,  1.03it/s]                                                            2%|▏         | 1760/100000 [1:03:54<26:23:36,  1.03it/s]  2%|▏         | 1761/100000 [1:03:55<25:18:49,  1.08it/s]                                                            2%|▏         | 1761/100000 [1:03:55<25:18:49,  1.08it/s]  2%|▏         | 1762/100000 [1:03:56<24:50:39,  1.10it/s]                                                            2%|▏         | 1762/100000 [1:03:56<24:50:39,  1.10it/s]  2%|▏         | 1763/100000 [1:03:57<23:57:46,  1.14it/s]                                                            2%|▏         | 1763/100000 [1:03:57<23:57:46,  1.14it/s]  2%|▏         | 1764/100000 [1:03:58<23:20:55,  1.17it/s]                                                            2%|▏         | 1764/100000 [1:03:58<23:20:55,  1.17it/s]  2%|▏         | 1765/100000 [1:03:59<22:53:41,  1.19it/s]                                                            2%|▏         | 1765/100000 [1:03:59<22:53:41,  1.19it/s]  2%|▏         | 1766/100000 [1:03:59<22:48:31,  1.20it/s]                                                            2%|▏         | 1766/100000 [1:03:59<22:48:31,  1.20it/s]  2%|▏         | 1767/100000 [1:04:00<22:06:22,  1.23it/s]                                                            2%|▏         | 1767/100000 [1:04:00<22:06:22,  1.23it/s]  2%|▏         | 1768/100000 [1:04:01<21:33:59,  1.27it/s]                                                            2%|▏         | 1768/100000 [1:04:01<21:33:59,  1.27it/s]  2%|▏         | 1769/100000 [1:04:02<20:55:21,  1.30it/s]                                                            2%|▏         | 1769/100000 [1:04:02<20:55:21,  1.30it/s]  2%|▏         | 1770/100000 [1:04:02<19:37:35,  1.39it/s]                                                            2%|▏         | 1770/100000 [1:04:02<19:37:35,  1.39it/s]  2%|▏         | 1771/100000 [1:04:16<123:35:47,  4.53s/it]                                                             2%|▏         | 1771/100000 [1:04:16<123:35:47,  4.53s/it]  2%|▏         | 1772/100000 [1:04:24<153:42:10,  5.63s/it]                                                             2%|▏         | 1772/100000 [1:04:24<153:42:10,  5.63s/it]  2%|▏         | 1773/100000 [1:04:30<156:41:45,  5.74s/it]                                                             2%|▏         | 1773/100000 [1:04:30<156:41:45,  5.74s/it]  2%|▏         | 1774/100000 [1:04:35<149:44:37,  5.49s/it]                                                             2%|▏         | 1774/100000 [1:04:35<149:44:37,  5.49s/it]  2%|▏         | 1775/100000 [1:04:39<139:22:53,  5.11s/it]                                                             2%|▏         | 1775/100000 [1:04:39<139:22:53,  5.11s/it]  2%|▏         | 1776/100000 [1:04:43<127:48:47,  4.68s/it]                                                             2%|▏         | 1776/100000 [1:04:43<127:48:47,  4.68s/it]  2%|▏         | 1777/100000 [1:04:46<115:05:41,  4.22s/it]                                                             2%|▏         | 1777/100000 [1:04:46<115:05:41,  4.22s/it]  2%|▏         | 1778/100000 [1:04:49<102:55:55,  3.77s/it]                                                             2%|▏         | 1778/100000 [1:04:49<102:55:55,  3.77s/it]  2%|▏         | 1779/100000 [1:04:51<91:55:17,  3.37s/it]                                                             2%|▏         | 1779/100000 [1:04:51<91:55:17,  3.37s/it]  2%|▏         | 1780/100000 [1:04:53<82:26:47,  3.02s/it]                                                          {'loss': 0.6572, 'grad_norm': 2.0137722492218018, 'learning_rate': 5.073e-06, 'epoch': 11.01}
{'loss': 0.4967, 'grad_norm': 3.5400710105895996, 'learning_rate': 5.076e-06, 'epoch': 11.01}
{'loss': 0.5158, 'grad_norm': 1.547664999961853, 'learning_rate': 5.079e-06, 'epoch': 11.02}
{'loss': 0.4568, 'grad_norm': 1.8609577417373657, 'learning_rate': 5.082e-06, 'epoch': 11.03}
{'loss': 0.4202, 'grad_norm': 1.6055819988250732, 'learning_rate': 5.0850000000000004e-06, 'epoch': 11.03}
{'loss': 0.4421, 'grad_norm': 2.1798300743103027, 'learning_rate': 5.088e-06, 'epoch': 11.04}
{'loss': 0.4315, 'grad_norm': 2.1498591899871826, 'learning_rate': 5.091e-06, 'epoch': 11.05}
{'loss': 0.4022, 'grad_norm': 1.411322832107544, 'learning_rate': 5.094000000000001e-06, 'epoch': 11.05}
{'loss': 0.4529, 'grad_norm': 2.4641714096069336, 'learning_rate': 5.097e-06, 'epoch': 11.06}
{'loss': 0.2896, 'grad_norm': 2.8900206089019775, 'learning_rate': 5.1e-06, 'epoch': 11.06}
{'loss': 0.3196, 'grad_norm': 2.12677264213562, 'learning_rate': 5.103e-06, 'epoch': 11.07}
{'loss': 0.3142, 'grad_norm': 1.6578989028930664, 'learning_rate': 5.106e-06, 'epoch': 11.08}
{'loss': 0.2638, 'grad_norm': 1.743635654449463, 'learning_rate': 5.1090000000000006e-06, 'epoch': 11.08}
{'loss': 0.219, 'grad_norm': 1.378930926322937, 'learning_rate': 5.112e-06, 'epoch': 11.09}
{'loss': 0.2428, 'grad_norm': 1.9615581035614014, 'learning_rate': 5.115e-06, 'epoch': 11.1}
{'loss': 0.2708, 'grad_norm': 1.861568808555603, 'learning_rate': 5.118e-06, 'epoch': 11.1}
{'loss': 0.2681, 'grad_norm': 2.190250873565674, 'learning_rate': 5.121e-06, 'epoch': 11.11}
{'loss': 0.3151, 'grad_norm': 1.8666309118270874, 'learning_rate': 5.124e-06, 'epoch': 11.12}
{'loss': 0.2727, 'grad_norm': 2.260903835296631, 'learning_rate': 5.127e-06, 'epoch': 11.12}
{'loss': 0.3046, 'grad_norm': 2.0039827823638916, 'learning_rate': 5.130000000000001e-06, 'epoch': 11.13}
{'loss': 0.2567, 'grad_norm': 3.0617916584014893, 'learning_rate': 5.133e-06, 'epoch': 11.14}
{'loss': 0.3117, 'grad_norm': 3.483853816986084, 'learning_rate': 5.136e-06, 'epoch': 11.14}
{'loss': 0.2286, 'grad_norm': 1.7726876735687256, 'learning_rate': 5.139e-06, 'epoch': 11.15}
{'loss': 0.2614, 'grad_norm': 1.8843525648117065, 'learning_rate': 5.142e-06, 'epoch': 11.16}
{'loss': 0.2316, 'grad_norm': 3.0567657947540283, 'learning_rate': 5.145000000000001e-06, 'epoch': 11.16}
{'loss': 0.2206, 'grad_norm': 2.24143123626709, 'learning_rate': 5.1480000000000005e-06, 'epoch': 11.17}
{'loss': 0.2524, 'grad_norm': 2.8539419174194336, 'learning_rate': 5.1509999999999995e-06, 'epoch': 11.18}
{'loss': 0.3404, 'grad_norm': 7.342613697052002, 'learning_rate': 5.154e-06, 'epoch': 11.18}
{'loss': 0.316, 'grad_norm': 3.187671184539795, 'learning_rate': 5.157e-06, 'epoch': 11.19}
{'loss': 0.2834, 'grad_norm': 2.8796255588531494, 'learning_rate': 5.16e-06, 'epoch': 11.19}
{'loss': 0.2978, 'grad_norm': 4.615660667419434, 'learning_rate': 5.163e-06, 'epoch': 11.2}
{'loss': 0.2535, 'grad_norm': 2.771839141845703, 'learning_rate': 5.166e-06, 'epoch': 11.21}
{'loss': 0.2623, 'grad_norm': 2.7515199184417725, 'learning_rate': 5.169e-06, 'epoch': 11.21}
{'loss': 0.2463, 'grad_norm': 3.043038845062256, 'learning_rate': 5.172e-06, 'epoch': 11.22}
{'loss': 0.3546, 'grad_norm': 4.152679920196533, 'learning_rate': 5.175e-06, 'epoch': 11.23}
{'loss': 0.2663, 'grad_norm': 6.431092262268066, 'learning_rate': 5.178e-06, 'epoch': 11.23}
{'loss': 0.2716, 'grad_norm': 3.2086050510406494, 'learning_rate': 5.181e-06, 'epoch': 11.24}
{'loss': 0.4513, 'grad_norm': 4.415246486663818, 'learning_rate': 5.184000000000001e-06, 'epoch': 11.25}
{'loss': 0.569, 'grad_norm': 3.671497344970703, 'learning_rate': 5.1870000000000005e-06, 'epoch': 11.25}
{'loss': 0.5682, 'grad_norm': 2.421901226043701, 'learning_rate': 5.1899999999999994e-06, 'epoch': 11.26}
{'loss': 0.5444, 'grad_norm': 2.912684202194214, 'learning_rate': 5.193e-06, 'epoch': 11.27}
{'loss': 0.4371, 'grad_norm': 1.5893197059631348, 'learning_rate': 5.196e-06, 'epoch': 11.27}
{'loss': 0.4522, 'grad_norm': 2.7903497219085693, 'learning_rate': 5.1990000000000005e-06, 'epoch': 11.28}
{'loss': 0.3551, 'grad_norm': 2.2436745166778564, 'learning_rate': 5.202e-06, 'epoch': 11.29}
{'loss': 0.3486, 'grad_norm': 2.273653507232666, 'learning_rate': 5.205e-06, 'epoch': 11.29}
{'loss': 0.3535, 'grad_norm': 1.4885891675949097, 'learning_rate': 5.208e-06, 'epoch': 11.3}
{'loss': 0.3414, 'grad_norm': 1.7681605815887451, 'learning_rate': 5.211e-06, 'epoch': 11.31}
{'loss': 0.2713, 'grad_norm': 5.033405303955078, 'learning_rate': 5.214e-06, 'epoch': 11.31}
{'loss': 0.2598, 'grad_norm': 1.2638788223266602, 'learning_rate': 5.217e-06, 'epoch': 11.32}
{'loss': 0.2484, 'grad_norm': 1.3318626880645752, 'learning_rate': 5.22e-06, 'epoch': 11.32}
{'loss': 0.2377, 'grad_norm': 1.3479361534118652, 'learning_rate': 5.223000000000001e-06, 'epoch': 11.33}
{'loss': 0.2928, 'grad_norm': 1.529611349105835, 'learning_rate': 5.226e-06, 'epoch': 11.34}
{'loss': 0.2661, 'grad_norm': 1.7530229091644287, 'learning_rate': 5.229e-06, 'epoch': 11.34}
{'loss': 0.2326, 'grad_norm': 1.6797523498535156, 'learning_rate': 5.232e-06, 'epoch': 11.35}
{'loss': 0.2481, 'grad_norm': 2.2387917041778564, 'learning_rate': 5.235e-06, 'epoch': 11.36}
{'loss': 0.2575, 'grad_norm': 2.1720166206359863, 'learning_rate': 5.2380000000000005e-06, 'epoch': 11.36}
{'loss': 0.2315, 'grad_norm': 3.1060147285461426, 'learning_rate': 5.241e-06, 'epoch': 11.37}
{'loss': 0.2883, 'grad_norm': 1.841515302658081, 'learning_rate': 5.244e-06, 'epoch': 11.38}
{'loss': 0.2378, 'grad_norm': 1.6343843936920166, 'learning_rate': 5.247e-06, 'epoch': 11.38}
{'loss': 0.2112, 'grad_norm': 1.733353853225708, 'learning_rate': 5.25e-06, 'epoch': 11.39}
{'loss': 0.246, 'grad_norm': 2.3892085552215576, 'learning_rate': 5.253e-06, 'epoch': 11.4}
{'loss': 0.3244, 'grad_norm': 2.8060922622680664, 'learning_rate': 5.256e-06, 'epoch': 11.4}
{'loss': 0.2779, 'grad_norm': 1.907965064048767, 'learning_rate': 5.259000000000001e-06, 'epoch': 11.41}
{'loss': 0.2599, 'grad_norm': 1.834516167640686, 'learning_rate': 5.262e-06, 'epoch': 11.42}
{'loss': 0.2852, 'grad_norm': 2.663187026977539, 'learning_rate': 5.2649999999999996e-06, 'epoch': 11.42}
{'loss': 0.3057, 'grad_norm': 2.8280324935913086, 'learning_rate': 5.268e-06, 'epoch': 11.43}
{'loss': 0.3235, 'grad_norm': 3.9656763076782227, 'learning_rate': 5.271e-06, 'epoch': 11.44}
{'loss': 0.2355, 'grad_norm': 1.935462474822998, 'learning_rate': 5.274000000000001e-06, 'epoch': 11.44}
{'loss': 0.3081, 'grad_norm': 3.3197267055511475, 'learning_rate': 5.2770000000000005e-06, 'epoch': 11.45}
{'loss': 0.2415, 'grad_norm': 2.5443062782287598, 'learning_rate': 5.279999999999999e-06, 'epoch': 11.45}
{'loss': 0.2569, 'grad_norm': 2.559074878692627, 'learning_rate': 5.283e-06, 'epoch': 11.46}
{'loss': 0.2543, 'grad_norm': 2.7658562660217285, 'learning_rate': 5.286e-06, 'epoch': 11.47}
{'loss': 0.2977, 'grad_norm': 3.603827953338623, 'learning_rate': 5.2890000000000005e-06, 'epoch': 11.47}
{'loss': 0.3106, 'grad_norm': 3.43257737159729, 'learning_rate': 5.292e-06, 'epoch': 11.48}
{'loss': 0.29, 'grad_norm': 3.365471839904785, 'learning_rate': 5.295e-06, 'epoch': 11.49}
{'loss': 0.4048, 'grad_norm': 3.770659923553467, 'learning_rate': 5.298e-06, 'epoch': 11.49}
{'loss': 0.622, 'grad_norm': 3.506934881210327, 'learning_rate': 5.301e-06, 'epoch': 11.5}
{'loss': 0.5209, 'grad_norm': 2.782233715057373, 'learning_rate': 5.304e-06, 'epoch': 11.51}
{'loss': 0.5522, 'grad_norm': 3.9091851711273193, 'learning_rate': 5.307e-06, 'epoch': 11.51}
{'loss': 0.4636, 'grad_norm': 1.6726363897323608, 'learning_rate': 5.31e-06, 'epoch': 11.52}
{'loss': 0.3998, 'grad_norm': 1.1524816751480103, 'learning_rate': 5.313000000000001e-06, 'epoch': 11.53}
{'loss': 0.4059, 'grad_norm': 1.5333744287490845, 'learning_rate': 5.3160000000000004e-06, 'epoch': 11.53}
{'loss': 0.3436, 'grad_norm': 1.244024634361267, 'learning_rate': 5.319e-06, 'epoch': 11.54}
{'loss': 0.4143, 'grad_norm': 1.6428556442260742, 'learning_rate': 5.322e-06, 'epoch': 11.55}
{'loss': 0.274, 'grad_norm': 1.843567967414856, 'learning_rate': 5.325e-06, 'epoch': 11.55}
  2%|▏         | 1780/100000 [1:04:53<82:26:47,  3.02s/it]  2%|▏         | 1781/100000 [1:04:55<74:03:47,  2.71s/it]                                                            2%|▏         | 1781/100000 [1:04:55<74:03:47,  2.71s/it]  2%|▏         | 1782/100000 [1:04:57<66:42:12,  2.44s/it]                                                            2%|▏         | 1782/100000 [1:04:57<66:42:12,  2.44s/it]  2%|▏         | 1783/100000 [1:04:59<60:51:26,  2.23s/it]                                                            2%|▏         | 1783/100000 [1:04:59<60:51:26,  2.23s/it]  2%|▏         | 1784/100000 [1:05:00<55:56:34,  2.05s/it]                                                            2%|▏         | 1784/100000 [1:05:00<55:56:34,  2.05s/it]  2%|▏         | 1785/100000 [1:05:02<52:03:03,  1.91s/it]                                                            2%|▏         | 1785/100000 [1:05:02<52:03:03,  1.91s/it]  2%|▏         | 1786/100000 [1:05:03<48:18:20,  1.77s/it]                                                            2%|▏         | 1786/100000 [1:05:03<48:18:20,  1.77s/it]  2%|▏         | 1787/100000 [1:05:05<44:49:01,  1.64s/it]                                                            2%|▏         | 1787/100000 [1:05:05<44:49:01,  1.64s/it]  2%|▏         | 1788/100000 [1:05:06<42:26:02,  1.56s/it]                                                            2%|▏         | 1788/100000 [1:05:06<42:26:02,  1.56s/it]  2%|▏         | 1789/100000 [1:05:07<40:17:44,  1.48s/it]                                                            2%|▏         | 1789/100000 [1:05:07<40:17:44,  1.48s/it]  2%|▏         | 1790/100000 [1:05:09<38:21:26,  1.41s/it]                                                            2%|▏         | 1790/100000 [1:05:09<38:21:26,  1.41s/it]  2%|▏         | 1791/100000 [1:05:10<36:06:52,  1.32s/it]                                                            2%|▏         | 1791/100000 [1:05:10<36:06:52,  1.32s/it]  2%|▏         | 1792/100000 [1:05:11<34:21:03,  1.26s/it]                                                            2%|▏         | 1792/100000 [1:05:11<34:21:03,  1.26s/it]  2%|▏         | 1793/100000 [1:05:12<32:41:32,  1.20s/it]                                                            2%|▏         | 1793/100000 [1:05:12<32:41:32,  1.20s/it]  2%|▏         | 1794/100000 [1:05:13<31:16:03,  1.15s/it]                                                            2%|▏         | 1794/100000 [1:05:13<31:16:03,  1.15s/it]  2%|▏         | 1795/100000 [1:05:14<29:44:39,  1.09s/it]                                                            2%|▏         | 1795/100000 [1:05:14<29:44:39,  1.09s/it]  2%|▏         | 1796/100000 [1:05:15<28:35:13,  1.05s/it]                                                            2%|▏         | 1796/100000 [1:05:15<28:35:13,  1.05s/it]  2%|▏         | 1797/100000 [1:05:16<27:48:33,  1.02s/it]                                                            2%|▏         | 1797/100000 [1:05:16<27:48:33,  1.02s/it]  2%|▏         | 1798/100000 [1:05:17<26:52:26,  1.02it/s]                                                            2%|▏         | 1798/100000 [1:05:17<26:52:26,  1.02it/s]  2%|▏         | 1799/100000 [1:05:18<25:47:57,  1.06it/s]                                                            2%|▏         | 1799/100000 [1:05:18<25:47:57,  1.06it/s]  2%|▏         | 1800/100000 [1:05:18<25:09:20,  1.08it/s]                                                            2%|▏         | 1800/100000 [1:05:18<25:09:20,  1.08it/s]  2%|▏         | 1801/100000 [1:05:19<24:55:55,  1.09it/s]                                                            2%|▏         | 1801/100000 [1:05:19<24:55:55,  1.09it/s]  2%|▏         | 1802/100000 [1:05:20<24:18:39,  1.12it/s]                                                            2%|▏         | 1802/100000 [1:05:20<24:18:39,  1.12it/s]  2%|▏         | 1803/100000 [1:05:21<23:38:40,  1.15it/s]                                                            2%|▏         | 1803/100000 [1:05:21<23:38:40,  1.15it/s]  2%|▏         | 1804/100000 [1:05:22<23:32:41,  1.16it/s]                                                            2%|▏         | 1804/100000 [1:05:22<23:32:41,  1.16it/s]  2%|▏         | 1805/100000 [1:05:23<22:42:20,  1.20it/s]                                                            2%|▏         | 1805/100000 [1:05:23<22:42:20,  1.20it/s]  2%|▏         | 1806/100000 [1:05:23<22:02:27,  1.24it/s]                                                            2%|▏         | 1806/100000 [1:05:23<22:02:27,  1.24it/s]  2%|▏         | 1807/100000 [1:05:24<21:14:27,  1.28it/s]                                                            2%|▏         | 1807/100000 [1:05:24<21:14:27,  1.28it/s]  2%|▏         | 1808/100000 [1:05:25<20:57:41,  1.30it/s]                                                            2%|▏         | 1808/100000 [1:05:25<20:57:41,  1.30it/s]  2%|▏         | 1809/100000 [1:05:36<109:04:32,  4.00s/it]                                                             2%|▏         | 1809/100000 [1:05:36<109:04:32,  4.00s/it]  2%|▏         | 1810/100000 [1:05:44<139:21:07,  5.11s/it]                                                             2%|▏         | 1810/100000 [1:05:44<139:21:07,  5.11s/it]  2%|▏         | 1811/100000 [1:05:49<140:22:06,  5.15s/it]                                                             2%|▏         | 1811/100000 [1:05:49<140:22:06,  5.15s/it]  2%|▏         | 1812/100000 [1:05:54<136:55:53,  5.02s/it]                                                             2%|▏         | 1812/100000 [1:05:54<136:55:53,  5.02s/it]  2%|▏         | 1813/100000 [1:05:58<127:31:37,  4.68s/it]                                                             2%|▏         | 1813/100000 [1:05:58<127:31:37,  4.68s/it]  2%|▏         | 1814/100000 [1:06:01<117:48:54,  4.32s/it]                                                             2%|▏         | 1814/100000 [1:06:01<117:48:54,  4.32s/it]  2%|▏         | 1815/100000 [1:06:04<107:32:36,  3.94s/it]                                                             2%|▏         | 1815/100000 [1:06:04<107:32:36,  3.94s/it]  2%|▏         | 1816/100000 [1:06:07<96:55:58,  3.55s/it]                                                             2%|▏         | 1816/100000 [1:06:07<96:55:58,  3.55s/it]  2%|▏         | 1817/100000 [1:06:09<86:49:41,  3.18s/it]                                                            2%|▏         | 1817/100000 [1:06:09<86:49:41,  3.18s/it]  2%|▏         | 1818/100000 [1:06:11<77:36:57,  2.85s/it]                                                            2%|▏         | 1818/100000 [1:06:11<77:36:57,  2.85s/it]  2%|▏         | 1819/100000 [1:06:13<70:35:58,  2.59s/it]                                                            2%|▏         | 1819/100000 [1:06:13<70:35:58,  2.59s/it]  2%|▏         | 1820/100000 [1:06:15<64:36:15,  2.37s/it]                                                            2%|▏         | 1820/100000 [1:06:15<64:36:15,  2.37s/it]  2%|▏         | 1821/100000 [1:06:17<58:57:26,  2.16s/it]                                                            2%|▏         | 1821/100000 [1:06:17<58:57:26,  2.16s/it]  2%|▏         | 1822/100000 [1:06:19<54:43:22,  2.01s/it]                                                            2%|▏         | 1822/100000 [1:06:19<54:43:22,  2.01s/it]  2%|▏         | 1823/100000 [1:06:20<51:19:25,  1.88s/it]                                                            2%|▏         | 1823/100000 [1:06:20<51:19:25,  1.88s/it]  2%|▏         | 1824/100000 [1:06:22<48:11:03,  1.77s/it]                                                            2%|▏         | 1824/100000 [1:06:22<48:11:03,  1.77s/it]  2%|▏         | 1825/100000 [1:06:23<45:23:46,  1.66s/it]                                                            2%|▏         | 1825/100000 [1:06:23<45:23:46,  1.66s/it]  2%|▏         | 1826/100000 [1:06:24<42:56:58,  1.57s/it]                                                            2%|▏         | 1826/100000 [1:06:24<42:56:58,  1.57s/it]  2%|▏         | 1827/100000 [1:06:26<40:48:34,  1.50s/it]                                                            2%|▏         | 1827/100000 [1:06:26<40:48:34,  1.50s/it]  2%|▏         | 1828/100000 [1:06:27<38:49:35,  1.42s/it]                                                            2%|▏         | 1828/100000 [1:06:27<38:49:35,  1.42s/it]  2%|▏         | 1829/100000 [1:06:28<36:53:00,  1.35s/it]                                                            2%|▏         | 1829/100000 [1:06:28<36:53:00,  1.35s/it]  2%|▏         | 1830/100000 [1:06:29<34:48:18,  1.28s/it]                                                            2%|▏         | 1830/100000 [1:06:29<34:48:18,  1.28s/it]  2%|▏         | 1831/100000 [1:06:30<33:11:50,  1.22s/it]                                                            2%|▏         | 1831/100000 [1:06:30<33:11:50,  1.22s/it]  2%|▏         | 1832/100000 [1:06:31<31:33:14,  1.16s/it]                                                            2%|▏         | 1832/100000 [1:06:31<31:33:14,  1.16s/it]  2%|▏         | 1833/100000 [1:06:32<30:00:57,  1.10s/it]                                                            2%|▏         | 1833/100000 [1:06:32<30:00:57,  1.10s/it]  2%|▏         | 1834/100000 [1:06:33<28:49:39,  1.06s/it]                                                            2%|▏         | 1834/100000 [1:06:33<28:49:39,  1.06s/it]  2%|▏         | 1835/100000 [1:06:34<27:57:00,  1.03s/it]                                                            2%|▏         | 1835/100000 [1:06:34<27:57:00,  1.03s/it]  2%|▏         | 1836/100000 [1:06:35<26:52:11,  1.01it/s]                                                            2%|▏         | 1836/100000 [1:06:35<26:52:11,  1.01it/s]  2%|▏         | 1837/100000 [1:06:36<25:48:42,  1.06it/s]                                                            2%|▏         | 1837/100000 [1:06:36<25:48:42,  1.06it/s]  2%|▏         | 1838/100000 [1:06:37<24:59:03,  1.09it/s]                                                            2%|▏         | 1838/100000 [1:06:37<24:59:03,  1.09it/s]  2%|▏         | 1839/100000 [1:06:38<24:16:42,  1.12it/s]                                                            2%|▏         | 1839/100000 [1:06:38<24:16:42,  1.12it/s]  2%|▏         | 1840/100000 [1:06:39<23:47:34,  1.15it/s]                                                            2%|▏         | 1840/100000 [1:06:39<23:47:34,  1.15it/s]  2%|▏         | 1841/100000 [1:06:39<23:07:13,  1.18it/s]                                                            2%|▏         | 1841/100000 [1:06:39<23:07:13,  1.18it/s]  2%|▏         | 1842/100000 [1:06:40<22:39:13,  1.20it/s]                                                            2%|▏         | 1842/100000 [1:06:40<22:39:13,  1.20it/s]  2%|▏         | 1843/100000 [1:06:41<21:51:05,  1.25it/s]                                                            2%|▏         | 1843/100000 [1:06:41<21:51:05,  1.25it/s]  2%|▏         | 1844/100000 [1:06:42<21:08:15,  1.29it/s]                                                            2%|▏         | 1844/100000 [1:06:42<21:08:15,  1.29it/s]  2%|▏         | 1845/100000 [1:06:42<20:18:04,  1.34it/s]                                                            2%|▏         | 1845/100000 [1:06:42<20:18:04,  1.34it/s]  2%|▏         | 1846/100000 [1:06:43<19:21:09,  1.41it/s]                                                            2%|▏         | 1846/100000 [1:06:43<19:21:09,  1.41it/s]  2%|▏         | 1847/100000 [1:06:50<68:26:53,  2.51s/it]                                                            2%|▏         | 1847/100000 [1:06:50<68:26:53,  2.51s/it]  2%|▏         | 1848/100000 [1:06:51<58:42:57,  2.15s/it]                                                            2%|▏         | 1848/100000 [1:06:51<58:42:57,  2.15s/it]{'loss': 0.2823, 'grad_norm': 1.050758719444275, 'learning_rate': 5.3280000000000005e-06, 'epoch': 11.56}
{'loss': 0.3303, 'grad_norm': 1.4531724452972412, 'learning_rate': 5.331e-06, 'epoch': 11.56}
{'loss': 0.2379, 'grad_norm': 1.1836470365524292, 'learning_rate': 5.334000000000001e-06, 'epoch': 11.57}
{'loss': 0.2938, 'grad_norm': 1.6831134557724, 'learning_rate': 5.337e-06, 'epoch': 11.58}
{'loss': 0.2274, 'grad_norm': 1.3482089042663574, 'learning_rate': 5.34e-06, 'epoch': 11.58}
{'loss': 0.274, 'grad_norm': 1.3025968074798584, 'learning_rate': 5.343e-06, 'epoch': 11.59}
{'loss': 0.2689, 'grad_norm': 1.9628654718399048, 'learning_rate': 5.346e-06, 'epoch': 11.6}
{'loss': 0.2547, 'grad_norm': 1.7740203142166138, 'learning_rate': 5.349e-06, 'epoch': 11.6}
{'loss': 0.2266, 'grad_norm': 1.3926745653152466, 'learning_rate': 5.352000000000001e-06, 'epoch': 11.61}
{'loss': 0.2697, 'grad_norm': 2.033651113510132, 'learning_rate': 5.3549999999999996e-06, 'epoch': 11.62}
{'loss': 0.2283, 'grad_norm': 1.687082052230835, 'learning_rate': 5.358e-06, 'epoch': 11.62}
{'loss': 0.2656, 'grad_norm': 1.6505111455917358, 'learning_rate': 5.361e-06, 'epoch': 11.63}
{'loss': 0.2634, 'grad_norm': 2.040386915206909, 'learning_rate': 5.364e-06, 'epoch': 11.64}
{'loss': 0.3248, 'grad_norm': 2.009711742401123, 'learning_rate': 5.3670000000000005e-06, 'epoch': 11.64}
{'loss': 0.3974, 'grad_norm': 2.817248821258545, 'learning_rate': 5.37e-06, 'epoch': 11.65}
{'loss': 0.256, 'grad_norm': 2.396268129348755, 'learning_rate': 5.373e-06, 'epoch': 11.66}
{'loss': 0.2802, 'grad_norm': 2.4038894176483154, 'learning_rate': 5.376e-06, 'epoch': 11.66}
{'loss': 0.2437, 'grad_norm': 2.011098623275757, 'learning_rate': 5.379e-06, 'epoch': 11.67}
{'loss': 0.2746, 'grad_norm': 3.260965585708618, 'learning_rate': 5.382e-06, 'epoch': 11.68}
{'loss': 0.2413, 'grad_norm': 3.5765936374664307, 'learning_rate': 5.385e-06, 'epoch': 11.68}
{'loss': 0.2837, 'grad_norm': 2.8507823944091797, 'learning_rate': 5.388000000000001e-06, 'epoch': 11.69}
{'loss': 0.2704, 'grad_norm': 2.06060528755188, 'learning_rate': 5.391e-06, 'epoch': 11.69}
{'loss': 0.3062, 'grad_norm': 2.7952258586883545, 'learning_rate': 5.3939999999999995e-06, 'epoch': 11.7}
{'loss': 0.2973, 'grad_norm': 3.0139265060424805, 'learning_rate': 5.397e-06, 'epoch': 11.71}
{'loss': 0.3507, 'grad_norm': 3.0223207473754883, 'learning_rate': 5.4e-06, 'epoch': 11.71}
{'loss': 0.2378, 'grad_norm': 2.0914337635040283, 'learning_rate': 5.403000000000001e-06, 'epoch': 11.72}
{'loss': 0.3449, 'grad_norm': 2.9974610805511475, 'learning_rate': 5.406e-06, 'epoch': 11.73}
{'loss': 0.2959, 'grad_norm': 3.180529832839966, 'learning_rate': 5.408999999999999e-06, 'epoch': 11.73}
{'loss': 0.5014, 'grad_norm': 4.75991678237915, 'learning_rate': 5.412e-06, 'epoch': 11.74}
{'loss': 0.5487, 'grad_norm': 2.0811233520507812, 'learning_rate': 5.415e-06, 'epoch': 11.75}
{'loss': 0.4735, 'grad_norm': 1.7508515119552612, 'learning_rate': 5.4180000000000005e-06, 'epoch': 11.75}
{'loss': 0.4096, 'grad_norm': 1.5322703123092651, 'learning_rate': 5.421e-06, 'epoch': 11.76}
{'loss': 0.4619, 'grad_norm': 1.9151731729507446, 'learning_rate': 5.424e-06, 'epoch': 11.77}
{'loss': 0.3607, 'grad_norm': 1.291338324546814, 'learning_rate': 5.427e-06, 'epoch': 11.77}
{'loss': 0.3343, 'grad_norm': 3.2414114475250244, 'learning_rate': 5.43e-06, 'epoch': 11.78}
{'loss': 0.4152, 'grad_norm': 1.9578229188919067, 'learning_rate': 5.433e-06, 'epoch': 11.79}
{'loss': 0.3448, 'grad_norm': 1.7706921100616455, 'learning_rate': 5.436e-06, 'epoch': 11.79}
{'loss': 0.3343, 'grad_norm': 1.5334643125534058, 'learning_rate': 5.439e-06, 'epoch': 11.8}
{'loss': 0.294, 'grad_norm': 1.4494056701660156, 'learning_rate': 5.442000000000001e-06, 'epoch': 11.81}
{'loss': 0.2603, 'grad_norm': 1.3578062057495117, 'learning_rate': 5.445e-06, 'epoch': 11.81}
{'loss': 0.282, 'grad_norm': 1.7109113931655884, 'learning_rate': 5.448e-06, 'epoch': 11.82}
{'loss': 0.3394, 'grad_norm': 1.8535226583480835, 'learning_rate': 5.451e-06, 'epoch': 11.82}
{'loss': 0.2409, 'grad_norm': 1.7620564699172974, 'learning_rate': 5.454e-06, 'epoch': 11.83}
{'loss': 0.3282, 'grad_norm': 1.923174500465393, 'learning_rate': 5.4570000000000004e-06, 'epoch': 11.84}
{'loss': 0.2536, 'grad_norm': 1.7893811464309692, 'learning_rate': 5.46e-06, 'epoch': 11.84}
{'loss': 0.2566, 'grad_norm': 2.6447830200195312, 'learning_rate': 5.463000000000001e-06, 'epoch': 11.85}
{'loss': 0.2563, 'grad_norm': 1.9398128986358643, 'learning_rate': 5.466e-06, 'epoch': 11.86}
{'loss': 0.2774, 'grad_norm': 7.140125751495361, 'learning_rate': 5.469e-06, 'epoch': 11.86}
{'loss': 0.2238, 'grad_norm': 1.748875617980957, 'learning_rate': 5.472e-06, 'epoch': 11.87}
{'loss': 0.2936, 'grad_norm': 1.8096715211868286, 'learning_rate': 5.475e-06, 'epoch': 11.88}
{'loss': 0.2965, 'grad_norm': 2.2799530029296875, 'learning_rate': 5.478000000000001e-06, 'epoch': 11.88}
{'loss': 0.2624, 'grad_norm': 2.526293992996216, 'learning_rate': 5.4810000000000005e-06, 'epoch': 11.89}
{'loss': 0.2726, 'grad_norm': 2.7118747234344482, 'learning_rate': 5.4839999999999995e-06, 'epoch': 11.9}
{'loss': 0.2922, 'grad_norm': 2.3171517848968506, 'learning_rate': 5.487e-06, 'epoch': 11.9}
{'loss': 0.2245, 'grad_norm': 1.5775489807128906, 'learning_rate': 5.49e-06, 'epoch': 11.91}
{'loss': 0.2785, 'grad_norm': 2.6410398483276367, 'learning_rate': 5.493000000000001e-06, 'epoch': 11.92}
{'loss': 0.3666, 'grad_norm': 3.6424643993377686, 'learning_rate': 5.496e-06, 'epoch': 11.92}
{'loss': 0.3543, 'grad_norm': 3.724787473678589, 'learning_rate': 5.499e-06, 'epoch': 11.93}
{'loss': 0.2699, 'grad_norm': 3.0762248039245605, 'learning_rate': 5.502e-06, 'epoch': 11.94}
{'loss': 0.2445, 'grad_norm': 3.038003921508789, 'learning_rate': 5.505e-06, 'epoch': 11.94}
{'loss': 0.2997, 'grad_norm': 2.5667145252227783, 'learning_rate': 5.5080000000000005e-06, 'epoch': 11.95}
{'loss': 0.1993, 'grad_norm': 2.0585477352142334, 'learning_rate': 5.511e-06, 'epoch': 11.95}
{'loss': 0.2469, 'grad_norm': 3.1889219284057617, 'learning_rate': 5.514e-06, 'epoch': 11.96}
{'loss': 0.2828, 'grad_norm': 2.8739206790924072, 'learning_rate': 5.517000000000001e-06, 'epoch': 11.97}
{'loss': 0.3133, 'grad_norm': 3.4033520221710205, 'learning_rate': 5.52e-06, 'epoch': 11.97}
{'loss': 0.3048, 'grad_norm': 3.444931983947754, 'learning_rate': 5.523e-06, 'epoch': 11.98}
{'loss': 0.3531, 'grad_norm': 4.456259250640869, 'learning_rate': 5.526e-06, 'epoch': 11.99}
{'loss': 0.3256, 'grad_norm': 1.374964952468872, 'learning_rate': 5.529e-06, 'epoch': 11.99}
{'loss': 0.3252, 'grad_norm': 4.095335483551025, 'learning_rate': 5.5320000000000006e-06, 'epoch': 12.0}
  2%|▏         | 1849/100000 [1:07:08<181:57:17,  6.67s/it]                                                             2%|▏         | 1849/100000 [1:07:08<181:57:17,  6.67s/it]  2%|▏         | 1850/100000 [1:07:16<188:25:19,  6.91s/it]                                                             2%|▏         | 1850/100000 [1:07:16<188:25:19,  6.91s/it]  2%|▏         | 1851/100000 [1:07:21<176:38:58,  6.48s/it]                                                             2%|▏         | 1851/100000 [1:07:21<176:38:58,  6.48s/it]  2%|▏         | 1852/100000 [1:07:26<162:12:24,  5.95s/it]                                                             2%|▏         | 1852/100000 [1:07:26<162:12:24,  5.95s/it]  2%|▏         | 1853/100000 [1:07:30<146:27:58,  5.37s/it]                                                             2%|▏         | 1853/100000 [1:07:30<146:27:58,  5.37s/it]  2%|▏         | 1854/100000 [1:07:33<128:58:25,  4.73s/it]                                                             2%|▏         | 1854/100000 [1:07:33<128:58:25,  4.73s/it]  2%|▏         | 1855/100000 [1:07:36<114:39:39,  4.21s/it]                                                             2%|▏         | 1855/100000 [1:07:36<114:39:39,  4.21s/it]  2%|▏         | 1856/100000 [1:07:39<102:11:03,  3.75s/it]                                                             2%|▏         | 1856/100000 [1:07:39<102:11:03,  3.75s/it]  2%|▏         | 1857/100000 [1:07:41<91:03:30,  3.34s/it]                                                             2%|▏         | 1857/100000 [1:07:41<91:03:30,  3.34s/it]  2%|▏         | 1858/100000 [1:07:43<81:38:44,  2.99s/it]                                                            2%|▏         | 1858/100000 [1:07:43<81:38:44,  2.99s/it]  2%|▏         | 1859/100000 [1:07:45<73:27:47,  2.69s/it]                                                            2%|▏         | 1859/100000 [1:07:45<73:27:47,  2.69s/it]  2%|▏         | 1860/100000 [1:07:47<66:55:26,  2.45s/it]                                                            2%|▏         | 1860/100000 [1:07:47<66:55:26,  2.45s/it]  2%|▏         | 1861/100000 [1:07:49<60:54:57,  2.23s/it]                                                            2%|▏         | 1861/100000 [1:07:49<60:54:57,  2.23s/it]  2%|▏         | 1862/100000 [1:07:51<56:14:54,  2.06s/it]                                                            2%|▏         | 1862/100000 [1:07:51<56:14:54,  2.06s/it]  2%|▏         | 1863/100000 [1:07:52<52:07:22,  1.91s/it]                                                            2%|▏         | 1863/100000 [1:07:52<52:07:22,  1.91s/it]  2%|▏         | 1864/100000 [1:07:54<48:42:41,  1.79s/it]                                                            2%|▏         | 1864/100000 [1:07:54<48:42:41,  1.79s/it]  2%|▏         | 1865/100000 [1:07:55<45:41:55,  1.68s/it]                                                            2%|▏         | 1865/100000 [1:07:55<45:41:55,  1.68s/it]  2%|▏         | 1866/100000 [1:07:56<42:52:27,  1.57s/it]                                                            2%|▏         | 1866/100000 [1:07:56<42:52:27,  1.57s/it]  2%|▏         | 1867/100000 [1:07:58<40:27:27,  1.48s/it]                                                            2%|▏         | 1867/100000 [1:07:58<40:27:27,  1.48s/it]  2%|▏         | 1868/100000 [1:07:59<38:35:14,  1.42s/it]                                                            2%|▏         | 1868/100000 [1:07:59<38:35:14,  1.42s/it]  2%|▏         | 1869/100000 [1:08:00<36:24:47,  1.34s/it]                                                            2%|▏         | 1869/100000 [1:08:00<36:24:47,  1.34s/it]  2%|▏         | 1870/100000 [1:08:01<34:32:08,  1.27s/it]                                                            2%|▏         | 1870/100000 [1:08:01<34:32:08,  1.27s/it]  2%|▏         | 1871/100000 [1:08:02<32:55:10,  1.21s/it]                                                            2%|▏         | 1871/100000 [1:08:02<32:55:10,  1.21s/it]  2%|▏         | 1872/100000 [1:08:03<31:27:32,  1.15s/it]                                                            2%|▏         | 1872/100000 [1:08:03<31:27:32,  1.15s/it]  2%|▏         | 1873/100000 [1:08:04<29:54:03,  1.10s/it]                                                            2%|▏         | 1873/100000 [1:08:04<29:54:03,  1.10s/it]  2%|▏         | 1874/100000 [1:08:05<28:33:17,  1.05s/it]                                                            2%|▏         | 1874/100000 [1:08:05<28:33:17,  1.05s/it]  2%|▏         | 1875/100000 [1:08:06<27:26:40,  1.01s/it]                                                            2%|▏         | 1875/100000 [1:08:06<27:26:40,  1.01s/it]  2%|▏         | 1876/100000 [1:08:07<26:17:36,  1.04it/s]                                                            2%|▏         | 1876/100000 [1:08:07<26:17:36,  1.04it/s]  2%|▏         | 1877/100000 [1:08:08<25:11:04,  1.08it/s]                                                            2%|▏         | 1877/100000 [1:08:08<25:11:04,  1.08it/s]  2%|▏         | 1878/100000 [1:08:09<24:05:47,  1.13it/s]                                                            2%|▏         | 1878/100000 [1:08:09<24:05:47,  1.13it/s]  2%|▏         | 1879/100000 [1:08:09<24:00:03,  1.14it/s]                                                            2%|▏         | 1879/100000 [1:08:09<24:00:03,  1.14it/s]  2%|▏         | 1880/100000 [1:08:10<23:55:14,  1.14it/s]                                                            2%|▏         | 1880/100000 [1:08:10<23:55:14,  1.14it/s]  2%|▏         | 1881/100000 [1:08:11<22:26:19,  1.21it/s]                                                            2%|▏         | 1881/100000 [1:08:11<22:26:19,  1.21it/s]  2%|▏         | 1882/100000 [1:08:12<21:45:40,  1.25it/s]                                                            2%|▏         | 1882/100000 [1:08:12<21:45:40,  1.25it/s]  2%|▏         | 1883/100000 [1:08:13<21:43:34,  1.25it/s]                                                            2%|▏         | 1883/100000 [1:08:13<21:43:34,  1.25it/s]  2%|▏         | 1884/100000 [1:08:13<20:45:26,  1.31it/s]                                                            2%|▏         | 1884/100000 [1:08:13<20:45:26,  1.31it/s]  2%|▏         | 1885/100000 [1:08:14<20:43:40,  1.31it/s]                                                            2%|▏         | 1885/100000 [1:08:14<20:43:40,  1.31it/s]  2%|▏         | 1886/100000 [1:08:15<19:47:07,  1.38it/s]                                                            2%|▏         | 1886/100000 [1:08:15<19:47:07,  1.38it/s]  2%|▏         | 1887/100000 [1:08:26<109:05:38,  4.00s/it]                                                             2%|▏         | 1887/100000 [1:08:26<109:05:38,  4.00s/it]  2%|▏         | 1888/100000 [1:08:33<133:05:39,  4.88s/it]                                                             2%|▏         | 1888/100000 [1:08:33<133:05:39,  4.88s/it]  2%|▏         | 1889/100000 [1:08:39<137:49:05,  5.06s/it]                                                             2%|▏         | 1889/100000 [1:08:39<137:49:05,  5.06s/it]  2%|▏         | 1890/100000 [1:08:43<134:36:18,  4.94s/it]                                                             2%|▏         | 1890/100000 [1:08:43<134:36:18,  4.94s/it]  2%|▏         | 1891/100000 [1:08:47<127:25:02,  4.68s/it]                                                             2%|▏         | 1891/100000 [1:08:47<127:25:02,  4.68s/it]  2%|▏         | 1892/100000 [1:08:51<118:08:19,  4.34s/it]                                                             2%|▏         | 1892/100000 [1:08:51<118:08:19,  4.34s/it]  2%|▏         | 1893/100000 [1:08:54<108:25:51,  3.98s/it]                                                             2%|▏         | 1893/100000 [1:08:54<108:25:51,  3.98s/it]  2%|▏         | 1894/100000 [1:08:57<98:11:50,  3.60s/it]                                                             2%|▏         | 1894/100000 [1:08:57<98:11:50,  3.60s/it]  2%|▏         | 1895/100000 [1:08:59<87:42:53,  3.22s/it]                                                            2%|▏         | 1895/100000 [1:08:59<87:42:53,  3.22s/it]  2%|▏         | 1896/100000 [1:09:01<79:05:38,  2.90s/it]                                                            2%|▏         | 1896/100000 [1:09:01<79:05:38,  2.90s/it]  2%|▏         | 1897/100000 [1:09:03<71:36:20,  2.63s/it]                                                            2%|▏         | 1897/100000 [1:09:03<71:36:20,  2.63s/it]  2%|▏         | 1898/100000 [1:09:05<65:10:28,  2.39s/it]                                                            2%|▏         | 1898/100000 [1:09:05<65:10:28,  2.39s/it]  2%|▏         | 1899/100000 [1:09:07<59:41:02,  2.19s/it]                                                            2%|▏         | 1899/100000 [1:09:07<59:41:02,  2.19s/it]  2%|▏         | 1900/100000 [1:09:08<54:45:10,  2.01s/it]                                                            2%|▏         | 1900/100000 [1:09:08<54:45:10,  2.01s/it]  2%|▏         | 1901/100000 [1:09:10<51:33:34,  1.89s/it]                                                            2%|▏         | 1901/100000 [1:09:10<51:33:34,  1.89s/it]  2%|▏         | 1902/100000 [1:09:12<48:29:50,  1.78s/it]                                                            2%|▏         | 1902/100000 [1:09:12<48:29:50,  1.78s/it]  2%|▏         | 1903/100000 [1:09:13<45:38:27,  1.67s/it]                                                            2%|▏         | 1903/100000 [1:09:13<45:38:27,  1.67s/it]  2%|▏         | 1904/100000 [1:09:14<42:33:02,  1.56s/it]                                                            2%|▏         | 1904/100000 [1:09:14<42:33:02,  1.56s/it]  2%|▏         | 1905/100000 [1:09:16<40:36:46,  1.49s/it]                                                            2%|▏         | 1905/100000 [1:09:16<40:36:46,  1.49s/it]  2%|▏         | 1906/100000 [1:09:17<38:41:21,  1.42s/it]                                                            2%|▏         | 1906/100000 [1:09:17<38:41:21,  1.42s/it]  2%|▏         | 1907/100000 [1:09:18<36:42:58,  1.35s/it]                                                            2%|▏         | 1907/100000 [1:09:18<36:42:58,  1.35s/it]  2%|▏         | 1908/100000 [1:09:19<34:27:56,  1.26s/it]                                                            2%|▏         | 1908/100000 [1:09:19<34:27:56,  1.26s/it]  2%|▏         | 1909/100000 [1:09:20<32:46:02,  1.20s/it]                                                            2%|▏         | 1909/100000 [1:09:20<32:46:02,  1.20s/it]  2%|▏         | 1910/100000 [1:09:21<31:01:50,  1.14s/it]                                                            2%|▏         | 1910/100000 [1:09:21<31:01:50,  1.14s/it]  2%|▏         | 1911/100000 [1:09:22<29:30:12,  1.08s/it]                                                            2%|▏         | 1911/100000 [1:09:22<29:30:12,  1.08s/it]  2%|▏         | 1912/100000 [1:09:23<28:15:09,  1.04s/it]                                                            2%|▏         | 1912/100000 [1:09:23<28:15:09,  1.04s/it]  2%|▏         | 1913/100000 [1:09:24<27:20:52,  1.00s/it]                                                            2%|▏         | 1913/100000 [1:09:24<27:20:52,  1.00s/it]  2%|▏         | 1914/100000 [1:09:25<26:16:04,  1.04it/s]                                                            2%|▏         | 1914/100000 [1:09:25<26:16:04,  1.04it/s]  2%|▏         | 1915/100000 [1:09:26<25:52:38,  1.05it/s]                                                            2%|▏         | 1915/100000 [1:09:26<25:52:38,  1.05it/s]  2%|▏         | 1916/100000 [1:09:27<24:49:30,  1.10it/s]                                                            2%|▏         | 1916/100000 [1:09:27<24:49:30,  1.10it/s]  2%|▏         | 1917/100000 [1:09:27<24:01:19,  1.13it/s]                                                            2%|▏         | 1917/100000 [1:09:27<24:01:19,  1.13it/s]  2%|▏         | 1918/100000 [1:09:28<23:08:51,  1.18it/s]                                                            2%|▏         | 1918/100000 [1:09:28<23:08:51,  1.18it/s]  2%|▏         | 1919/100000 [1:09:29<22:08:59,  1.23it/s]                                                            2%|▏         | 1919/100000 [1:09:29<22:08:59,  1.23it/s]  2%|▏         | 1920/100000 [1:09:30<21:28:54,  1.27it/s]                                                            2%|▏         | 1920/100000 [1:09:30<21:28:54,  1.27it/s]  2%|▏         | 1921/100000 [1:09:30<20:55:53,  1.30it/s]                                                            2%|▏         | 1921/100000 [1:09:30<20:55:53,  1.30it/s]  2%|▏         | 1922/100000 [1:09:31<20:40:50,  1.32it/s]                                                            2%|▏         | 1922/100000 [1:09:31<20:40:50,  1.32it/s]  2%|▏         | 1923/100000 [1:09:32<20:34:03,  1.32it/s]                                                            2%|▏         | 1923/100000 [1:09:32<20:34:03,  1.32it/s]  2%|▏         | 1924/100000 [1:09:33<20:28:38,  1.33it/s]                                                            2%|▏         | 1924/100000 [1:09:33<20:28:38,  1.33it/s]  2%|▏         | 1925/100000 [1:09:46<120:42:27,  4.43s/it]                                                             2%|▏         | 1925/100000 [1:09:46<120:42:27,  4.43s/it]  2%|▏         | 1926/100000 [1:09:53<148:04:56,  5.44s/it]                                                             2%|▏         | 1926/100000 [1:09:53<148:04:56,  5.44s/it]  2%|▏         | 1927/100000 [1:09:59<145:49:51,  5.35s/it]                                                             2%|▏         | 1927/100000 [1:09:59<145:49:51,  5.35s/it]  2%|▏         | 1928/100000 [1:10:03<139:32:30,  5.12s/it]                                                             2%|▏         | 1928/100000 [1:10:03<139:32:30,  5.12s/it]  2%|▏         | 1929/100000 [1:10:07<130:30:52,  4.79s/it]                                                             2%|▏         | 1929/100000 [1:10:07<130:30:52,  4.79s/it]  2%|▏         | 1930/100000 [1:10:11<119:16:35,  4.38s/it]                                                             2%|▏         | 1930/100000 [1:10:11<119:16:35,  4.38s/it]  2%|▏         | 1931/100000 [1:10:13<107:19:13,  3.94s/it]                                                             2%|▏         | 1931/100000 [1:10:13<107:19:13,  3.94s/it]  2%|▏         | 1932/100000 [1:10:16<96:47:59,  3.55s/it]                                                             2%|▏         | 1932/100000 [1:10:16<96:47:59,  3.55s/it]  2%|▏         | 1933/100000 [1:10:18<86:45:03,  3.18s/it]                                                          {'loss': 0.5462, 'grad_norm': 2.9133858680725098, 'learning_rate': 5.535e-06, 'epoch': 12.01}
{'loss': 0.5109, 'grad_norm': 3.818537473678589, 'learning_rate': 5.537999999999999e-06, 'epoch': 12.01}
{'loss': 0.4379, 'grad_norm': 1.6056737899780273, 'learning_rate': 5.541e-06, 'epoch': 12.02}
{'loss': 0.4025, 'grad_norm': 1.6973375082015991, 'learning_rate': 5.544e-06, 'epoch': 12.03}
{'loss': 0.3618, 'grad_norm': 2.0190794467926025, 'learning_rate': 5.547e-06, 'epoch': 12.03}
{'loss': 0.3921, 'grad_norm': 2.146925926208496, 'learning_rate': 5.55e-06, 'epoch': 12.04}
{'loss': 0.2966, 'grad_norm': 1.5515282154083252, 'learning_rate': 5.553e-06, 'epoch': 12.05}
{'loss': 0.3128, 'grad_norm': 2.5327866077423096, 'learning_rate': 5.556e-06, 'epoch': 12.05}
{'loss': 0.3065, 'grad_norm': 1.700023889541626, 'learning_rate': 5.559e-06, 'epoch': 12.06}
{'loss': 0.2846, 'grad_norm': 1.8174738883972168, 'learning_rate': 5.562e-06, 'epoch': 12.06}
{'loss': 0.2231, 'grad_norm': 1.6467547416687012, 'learning_rate': 5.565e-06, 'epoch': 12.07}
{'loss': 0.265, 'grad_norm': 1.3236474990844727, 'learning_rate': 5.568e-06, 'epoch': 12.08}
{'loss': 0.2562, 'grad_norm': 1.7089866399765015, 'learning_rate': 5.5710000000000005e-06, 'epoch': 12.08}
{'loss': 0.2501, 'grad_norm': 1.7144073247909546, 'learning_rate': 5.574e-06, 'epoch': 12.09}
{'loss': 0.2132, 'grad_norm': 1.4985054731369019, 'learning_rate': 5.577e-06, 'epoch': 12.1}
{'loss': 0.2723, 'grad_norm': 2.80440354347229, 'learning_rate': 5.58e-06, 'epoch': 12.1}
{'loss': 0.2385, 'grad_norm': 1.4986790418624878, 'learning_rate': 5.583e-06, 'epoch': 12.11}
{'loss': 0.2297, 'grad_norm': 1.4066975116729736, 'learning_rate': 5.586e-06, 'epoch': 12.12}
{'loss': 0.2014, 'grad_norm': 1.3027254343032837, 'learning_rate': 5.589e-06, 'epoch': 12.12}
{'loss': 0.2631, 'grad_norm': 1.7774078845977783, 'learning_rate': 5.592000000000001e-06, 'epoch': 12.13}
{'loss': 0.2936, 'grad_norm': 1.7085363864898682, 'learning_rate': 5.595e-06, 'epoch': 12.14}
{'loss': 0.2897, 'grad_norm': 2.017240047454834, 'learning_rate': 5.598e-06, 'epoch': 12.14}
{'loss': 0.2478, 'grad_norm': 2.690690755844116, 'learning_rate': 5.601e-06, 'epoch': 12.15}
{'loss': 0.3434, 'grad_norm': 2.0281429290771484, 'learning_rate': 5.604e-06, 'epoch': 12.16}
{'loss': 0.2209, 'grad_norm': 2.357292413711548, 'learning_rate': 5.607000000000001e-06, 'epoch': 12.16}
{'loss': 0.2262, 'grad_norm': 1.973776936531067, 'learning_rate': 5.6100000000000005e-06, 'epoch': 12.17}
{'loss': 0.2319, 'grad_norm': 2.2286276817321777, 'learning_rate': 5.6129999999999995e-06, 'epoch': 12.18}
{'loss': 0.3981, 'grad_norm': 4.309194564819336, 'learning_rate': 5.616e-06, 'epoch': 12.18}
{'loss': 0.2563, 'grad_norm': 2.26033091545105, 'learning_rate': 5.619e-06, 'epoch': 12.19}
{'loss': 0.2563, 'grad_norm': 2.9438741207122803, 'learning_rate': 5.6220000000000006e-06, 'epoch': 12.19}
{'loss': 0.2007, 'grad_norm': 2.343796491622925, 'learning_rate': 5.625e-06, 'epoch': 12.2}
{'loss': 0.2516, 'grad_norm': 3.5363025665283203, 'learning_rate': 5.628e-06, 'epoch': 12.21}
{'loss': 0.2205, 'grad_norm': 1.9876238107681274, 'learning_rate': 5.631e-06, 'epoch': 12.21}
{'loss': 0.271, 'grad_norm': 2.220656633377075, 'learning_rate': 5.634e-06, 'epoch': 12.22}
{'loss': 0.2673, 'grad_norm': 2.17160701751709, 'learning_rate': 5.637e-06, 'epoch': 12.23}
{'loss': 0.2998, 'grad_norm': 3.22099232673645, 'learning_rate': 5.64e-06, 'epoch': 12.23}
{'loss': 0.2516, 'grad_norm': 4.104559898376465, 'learning_rate': 5.643e-06, 'epoch': 12.24}
{'loss': 0.3809, 'grad_norm': 5.327308177947998, 'learning_rate': 5.646000000000001e-06, 'epoch': 12.25}
{'loss': 0.5434, 'grad_norm': 8.363184928894043, 'learning_rate': 5.649e-06, 'epoch': 12.25}
{'loss': 0.5282, 'grad_norm': 2.293140172958374, 'learning_rate': 5.652e-06, 'epoch': 12.26}
{'loss': 0.459, 'grad_norm': 2.3110809326171875, 'learning_rate': 5.655e-06, 'epoch': 12.27}
{'loss': 0.4926, 'grad_norm': 3.2143287658691406, 'learning_rate': 5.658e-06, 'epoch': 12.27}
{'loss': 0.3612, 'grad_norm': 2.704209566116333, 'learning_rate': 5.6610000000000005e-06, 'epoch': 12.28}
{'loss': 0.3625, 'grad_norm': 1.0529080629348755, 'learning_rate': 5.664e-06, 'epoch': 12.29}
{'loss': 0.3659, 'grad_norm': 1.6481201648712158, 'learning_rate': 5.667e-06, 'epoch': 12.29}
{'loss': 0.3971, 'grad_norm': 3.2397053241729736, 'learning_rate': 5.67e-06, 'epoch': 12.3}
{'loss': 0.2806, 'grad_norm': 1.4845939874649048, 'learning_rate': 5.673e-06, 'epoch': 12.31}
{'loss': 0.3348, 'grad_norm': 2.216249465942383, 'learning_rate': 5.676e-06, 'epoch': 12.31}
{'loss': 0.3282, 'grad_norm': 2.6378092765808105, 'learning_rate': 5.679e-06, 'epoch': 12.32}
{'loss': 0.2478, 'grad_norm': 2.361943244934082, 'learning_rate': 5.682000000000001e-06, 'epoch': 12.32}
{'loss': 0.2409, 'grad_norm': 1.968559741973877, 'learning_rate': 5.685e-06, 'epoch': 12.33}
{'loss': 0.1756, 'grad_norm': 1.2353726625442505, 'learning_rate': 5.688e-06, 'epoch': 12.34}
{'loss': 0.2247, 'grad_norm': 1.8483556509017944, 'learning_rate': 5.691e-06, 'epoch': 12.34}
{'loss': 0.2156, 'grad_norm': 1.5820090770721436, 'learning_rate': 5.694e-06, 'epoch': 12.35}
{'loss': 0.2285, 'grad_norm': 2.266193151473999, 'learning_rate': 5.697000000000001e-06, 'epoch': 12.36}
{'loss': 0.2883, 'grad_norm': 1.8508089780807495, 'learning_rate': 5.7000000000000005e-06, 'epoch': 12.36}
{'loss': 0.2259, 'grad_norm': 2.154972553253174, 'learning_rate': 5.703e-06, 'epoch': 12.37}
{'loss': 0.2419, 'grad_norm': 1.594600796699524, 'learning_rate': 5.706e-06, 'epoch': 12.38}
{'loss': 0.2171, 'grad_norm': 1.5906628370285034, 'learning_rate': 5.709e-06, 'epoch': 12.38}
{'loss': 0.2038, 'grad_norm': 1.7555794715881348, 'learning_rate': 5.7120000000000005e-06, 'epoch': 12.39}
{'loss': 0.1861, 'grad_norm': 2.0322108268737793, 'learning_rate': 5.715e-06, 'epoch': 12.4}
{'loss': 0.2376, 'grad_norm': 1.8765575885772705, 'learning_rate': 5.718e-06, 'epoch': 12.4}
{'loss': 0.2567, 'grad_norm': 3.601278066635132, 'learning_rate': 5.721000000000001e-06, 'epoch': 12.41}
{'loss': 0.1764, 'grad_norm': 2.6581246852874756, 'learning_rate': 5.724e-06, 'epoch': 12.42}
{'loss': 0.2294, 'grad_norm': 2.3517374992370605, 'learning_rate': 5.7269999999999995e-06, 'epoch': 12.42}
{'loss': 0.3019, 'grad_norm': 2.9350342750549316, 'learning_rate': 5.73e-06, 'epoch': 12.43}
{'loss': 0.2677, 'grad_norm': 2.383355140686035, 'learning_rate': 5.733e-06, 'epoch': 12.44}
{'loss': 0.2128, 'grad_norm': 2.7507383823394775, 'learning_rate': 5.736000000000001e-06, 'epoch': 12.44}
{'loss': 0.2054, 'grad_norm': 3.883718252182007, 'learning_rate': 5.7390000000000004e-06, 'epoch': 12.45}
{'loss': 0.3921, 'grad_norm': 5.699024200439453, 'learning_rate': 5.741999999999999e-06, 'epoch': 12.45}
{'loss': 0.2503, 'grad_norm': 2.7448291778564453, 'learning_rate': 5.745e-06, 'epoch': 12.46}
{'loss': 0.268, 'grad_norm': 3.424748420715332, 'learning_rate': 5.748e-06, 'epoch': 12.47}
{'loss': 0.2924, 'grad_norm': 2.882977247238159, 'learning_rate': 5.7510000000000005e-06, 'epoch': 12.47}
{'loss': 0.2768, 'grad_norm': 3.421825885772705, 'learning_rate': 5.754e-06, 'epoch': 12.48}
{'loss': 0.2848, 'grad_norm': 5.034663200378418, 'learning_rate': 5.757e-06, 'epoch': 12.49}
{'loss': 0.4188, 'grad_norm': 4.649045944213867, 'learning_rate': 5.76e-06, 'epoch': 12.49}
{'loss': 0.5596, 'grad_norm': 2.89896559715271, 'learning_rate': 5.763e-06, 'epoch': 12.5}
{'loss': 0.4636, 'grad_norm': 2.181452989578247, 'learning_rate': 5.766e-06, 'epoch': 12.51}
{'loss': 0.4573, 'grad_norm': 2.0306458473205566, 'learning_rate': 5.769e-06, 'epoch': 12.51}
{'loss': 0.4041, 'grad_norm': 1.313788890838623, 'learning_rate': 5.772e-06, 'epoch': 12.52}
{'loss': 0.3958, 'grad_norm': 1.693394660949707, 'learning_rate': 5.775000000000001e-06, 'epoch': 12.53}
{'loss': 0.3254, 'grad_norm': 1.1978007555007935, 'learning_rate': 5.7779999999999996e-06, 'epoch': 12.53}
{'loss': 0.3497, 'grad_norm': 1.3188620805740356, 'learning_rate': 5.781e-06, 'epoch': 12.54}
{'loss': 0.3508, 'grad_norm': 1.766810417175293, 'learning_rate': 5.784e-06, 'epoch': 12.55}
{'loss': 0.4249, 'grad_norm': 2.3724725246429443, 'learning_rate': 5.787e-06, 'epoch': 12.55}
  2%|▏         | 1933/100000 [1:10:18<86:45:03,  3.18s/it]  2%|▏         | 1934/100000 [1:10:20<77:23:41,  2.84s/it]                                                            2%|▏         | 1934/100000 [1:10:20<77:23:41,  2.84s/it]  2%|▏         | 1935/100000 [1:10:22<70:08:07,  2.57s/it]                                                            2%|▏         | 1935/100000 [1:10:22<70:08:07,  2.57s/it]  2%|▏         | 1936/100000 [1:10:24<63:56:47,  2.35s/it]                                                            2%|▏         | 1936/100000 [1:10:24<63:56:47,  2.35s/it]  2%|▏         | 1937/100000 [1:10:26<58:35:46,  2.15s/it]                                                            2%|▏         | 1937/100000 [1:10:26<58:35:46,  2.15s/it]  2%|▏         | 1938/100000 [1:10:28<54:10:48,  1.99s/it]                                                            2%|▏         | 1938/100000 [1:10:28<54:10:48,  1.99s/it]  2%|▏         | 1939/100000 [1:10:29<50:22:38,  1.85s/it]                                                            2%|▏         | 1939/100000 [1:10:29<50:22:38,  1.85s/it]  2%|▏         | 1940/100000 [1:10:31<47:11:59,  1.73s/it]                                                            2%|▏         | 1940/100000 [1:10:31<47:11:59,  1.73s/it]  2%|▏         | 1941/100000 [1:10:32<44:11:16,  1.62s/it]                                                            2%|▏         | 1941/100000 [1:10:32<44:11:16,  1.62s/it]  2%|▏         | 1942/100000 [1:10:33<42:00:26,  1.54s/it]                                                            2%|▏         | 1942/100000 [1:10:33<42:00:26,  1.54s/it]  2%|▏         | 1943/100000 [1:10:35<39:55:17,  1.47s/it]                                                            2%|▏         | 1943/100000 [1:10:35<39:55:17,  1.47s/it]  2%|▏         | 1944/100000 [1:10:36<37:51:46,  1.39s/it]                                                            2%|▏         | 1944/100000 [1:10:36<37:51:46,  1.39s/it]  2%|▏         | 1945/100000 [1:10:37<35:40:47,  1.31s/it]                                                            2%|▏         | 1945/100000 [1:10:37<35:40:47,  1.31s/it]  2%|▏         | 1946/100000 [1:10:38<34:01:03,  1.25s/it]                                                            2%|▏         | 1946/100000 [1:10:38<34:01:03,  1.25s/it]  2%|▏         | 1947/100000 [1:10:39<32:11:11,  1.18s/it]                                                            2%|▏         | 1947/100000 [1:10:39<32:11:11,  1.18s/it]  2%|▏         | 1948/100000 [1:10:40<30:43:34,  1.13s/it]                                                            2%|▏         | 1948/100000 [1:10:40<30:43:34,  1.13s/it]  2%|▏         | 1949/100000 [1:10:41<29:31:34,  1.08s/it]                                                            2%|▏         | 1949/100000 [1:10:41<29:31:34,  1.08s/it]  2%|▏         | 1950/100000 [1:10:42<28:33:13,  1.05s/it]                                                            2%|▏         | 1950/100000 [1:10:42<28:33:13,  1.05s/it]  2%|▏         | 1951/100000 [1:10:43<27:33:35,  1.01s/it]                                                            2%|▏         | 1951/100000 [1:10:43<27:33:35,  1.01s/it]  2%|▏         | 1952/100000 [1:10:44<26:36:21,  1.02it/s]                                                            2%|▏         | 1952/100000 [1:10:44<26:36:21,  1.02it/s]  2%|▏         | 1953/100000 [1:10:45<25:45:24,  1.06it/s]                                                            2%|▏         | 1953/100000 [1:10:45<25:45:24,  1.06it/s]  2%|▏         | 1954/100000 [1:10:46<25:06:30,  1.08it/s]                                                            2%|▏         | 1954/100000 [1:10:46<25:06:30,  1.08it/s]  2%|▏         | 1955/100000 [1:10:46<24:47:03,  1.10it/s]                                                            2%|▏         | 1955/100000 [1:10:46<24:47:03,  1.10it/s]  2%|▏         | 1956/100000 [1:10:47<24:25:47,  1.11it/s]                                                            2%|▏         | 1956/100000 [1:10:47<24:25:47,  1.11it/s]  2%|▏         | 1957/100000 [1:10:48<23:13:08,  1.17it/s]                                                            2%|▏         | 1957/100000 [1:10:48<23:13:08,  1.17it/s]  2%|▏         | 1958/100000 [1:10:49<22:14:54,  1.22it/s]                                                            2%|▏         | 1958/100000 [1:10:49<22:14:54,  1.22it/s]  2%|▏         | 1959/100000 [1:10:49<21:28:22,  1.27it/s]                                                            2%|▏         | 1959/100000 [1:10:49<21:28:22,  1.27it/s]  2%|▏         | 1960/100000 [1:10:50<21:04:19,  1.29it/s]                                                            2%|▏         | 1960/100000 [1:10:50<21:04:19,  1.29it/s]  2%|▏         | 1961/100000 [1:10:51<20:06:03,  1.35it/s]                                                            2%|▏         | 1961/100000 [1:10:51<20:06:03,  1.35it/s]  2%|▏         | 1962/100000 [1:10:52<21:21:46,  1.27it/s]                                                            2%|▏         | 1962/100000 [1:10:52<21:21:46,  1.27it/s]  2%|▏         | 1963/100000 [1:11:05<120:11:26,  4.41s/it]                                                             2%|▏         | 1963/100000 [1:11:05<120:11:26,  4.41s/it]  2%|▏         | 1964/100000 [1:11:13<152:24:46,  5.60s/it]                                                             2%|▏         | 1964/100000 [1:11:13<152:24:46,  5.60s/it]  2%|▏         | 1965/100000 [1:11:19<154:26:44,  5.67s/it]                                                             2%|▏         | 1965/100000 [1:11:19<154:26:44,  5.67s/it]  2%|▏         | 1966/100000 [1:11:24<146:41:13,  5.39s/it]                                                             2%|▏         | 1966/100000 [1:11:24<146:41:13,  5.39s/it]  2%|▏         | 1967/100000 [1:11:28<135:56:33,  4.99s/it]                                                             2%|▏         | 1967/100000 [1:11:28<135:56:33,  4.99s/it]  2%|▏         | 1968/100000 [1:11:31<123:49:59,  4.55s/it]                                                             2%|▏         | 1968/100000 [1:11:31<123:49:59,  4.55s/it]  2%|▏         | 1969/100000 [1:11:34<112:00:16,  4.11s/it]                                                             2%|▏         | 1969/100000 [1:11:34<112:00:16,  4.11s/it]  2%|▏         | 1970/100000 [1:11:37<99:52:58,  3.67s/it]                                                             2%|▏         | 1970/100000 [1:11:37<99:52:58,  3.67s/it]  2%|▏         | 1971/100000 [1:11:39<88:40:49,  3.26s/it]                                                            2%|▏         | 1971/100000 [1:11:39<88:40:49,  3.26s/it]  2%|▏         | 1972/100000 [1:11:41<78:42:20,  2.89s/it]                                                            2%|▏         | 1972/100000 [1:11:41<78:42:20,  2.89s/it]  2%|▏         | 1973/100000 [1:11:43<70:59:22,  2.61s/it]                                                            2%|▏         | 1973/100000 [1:11:43<70:59:22,  2.61s/it]  2%|▏         | 1974/100000 [1:11:45<64:35:14,  2.37s/it]                                                            2%|▏         | 1974/100000 [1:11:45<64:35:14,  2.37s/it]  2%|▏         | 1975/100000 [1:11:47<59:15:46,  2.18s/it]                                                            2%|▏         | 1975/100000 [1:11:47<59:15:46,  2.18s/it]  2%|▏         | 1976/100000 [1:11:48<54:40:20,  2.01s/it]                                                            2%|▏         | 1976/100000 [1:11:48<54:40:20,  2.01s/it]  2%|▏         | 1977/100000 [1:11:50<50:14:15,  1.85s/it]                                                            2%|▏         | 1977/100000 [1:11:50<50:14:15,  1.85s/it]  2%|▏         | 1978/100000 [1:11:51<46:48:38,  1.72s/it]                                                            2%|▏         | 1978/100000 [1:11:51<46:48:38,  1.72s/it]  2%|▏         | 1979/100000 [1:11:53<43:55:34,  1.61s/it]                                                            2%|▏         | 1979/100000 [1:11:53<43:55:34,  1.61s/it]  2%|▏         | 1980/100000 [1:11:54<41:37:30,  1.53s/it]                                                            2%|▏         | 1980/100000 [1:11:54<41:37:30,  1.53s/it]  2%|▏         | 1981/100000 [1:11:55<39:17:10,  1.44s/it]                                                            2%|▏         | 1981/100000 [1:11:55<39:17:10,  1.44s/it]  2%|▏         | 1982/100000 [1:11:56<37:22:13,  1.37s/it]                                                            2%|▏         | 1982/100000 [1:11:56<37:22:13,  1.37s/it]  2%|▏         | 1983/100000 [1:11:57<35:27:18,  1.30s/it]                                                            2%|▏         | 1983/100000 [1:11:57<35:27:18,  1.30s/it]  2%|▏         | 1984/100000 [1:11:59<33:43:50,  1.24s/it]                                                            2%|▏         | 1984/100000 [1:11:59<33:43:50,  1.24s/it]  2%|▏         | 1985/100000 [1:12:00<32:11:07,  1.18s/it]                                                            2%|▏         | 1985/100000 [1:12:00<32:11:07,  1.18s/it]  2%|▏         | 1986/100000 [1:12:01<30:50:43,  1.13s/it]                                                            2%|▏         | 1986/100000 [1:12:01<30:50:43,  1.13s/it]  2%|▏         | 1987/100000 [1:12:02<29:22:01,  1.08s/it]                                                            2%|▏         | 1987/100000 [1:12:02<29:22:01,  1.08s/it]  2%|▏         | 1988/100000 [1:12:03<27:59:28,  1.03s/it]                                                            2%|▏         | 1988/100000 [1:12:03<27:59:28,  1.03s/it]  2%|▏         | 1989/100000 [1:12:03<27:23:13,  1.01s/it]                                                            2%|▏         | 1989/100000 [1:12:03<27:23:13,  1.01s/it]  2%|▏         | 1990/100000 [1:12:04<26:04:58,  1.04it/s]                                                            2%|▏         | 1990/100000 [1:12:04<26:04:58,  1.04it/s]  2%|▏         | 1991/100000 [1:12:05<25:09:46,  1.08it/s]                                                            2%|▏         | 1991/100000 [1:12:05<25:09:46,  1.08it/s]  2%|▏         | 1992/100000 [1:12:06<24:24:30,  1.12it/s]                                                            2%|▏         | 1992/100000 [1:12:06<24:24:30,  1.12it/s]  2%|▏         | 1993/100000 [1:12:07<23:48:52,  1.14it/s]                                                            2%|▏         | 1993/100000 [1:12:07<23:48:52,  1.14it/s]  2%|▏         | 1994/100000 [1:12:08<22:54:35,  1.19it/s]                                                            2%|▏         | 1994/100000 [1:12:08<22:54:35,  1.19it/s]  2%|▏         | 1995/100000 [1:12:08<21:40:40,  1.26it/s]                                                            2%|▏         | 1995/100000 [1:12:08<21:40:40,  1.26it/s]  2%|▏         | 1996/100000 [1:12:09<21:16:16,  1.28it/s]                                                            2%|▏         | 1996/100000 [1:12:09<21:16:16,  1.28it/s]  2%|▏         | 1997/100000 [1:12:10<20:40:19,  1.32it/s]                                                            2%|▏         | 1997/100000 [1:12:10<20:40:19,  1.32it/s]  2%|▏         | 1998/100000 [1:12:10<20:14:34,  1.34it/s]                                                            2%|▏         | 1998/100000 [1:12:10<20:14:34,  1.34it/s]  2%|▏         | 1999/100000 [1:12:11<19:33:18,  1.39it/s]                                                            2%|▏         | 1999/100000 [1:12:11<19:33:18,  1.39it/s]  2%|▏         | 2000/100000 [1:12:12<18:25:06,  1.48it/s]                                                            2%|▏         | 2000/100000 [1:12:12<18:25:06,  1.48it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 0.2455, 'grad_norm': 1.2716706991195679, 'learning_rate': 5.7900000000000005e-06, 'epoch': 12.56}
{'loss': 0.2535, 'grad_norm': 1.697928547859192, 'learning_rate': 5.793e-06, 'epoch': 12.56}
{'loss': 0.2263, 'grad_norm': 1.2147585153579712, 'learning_rate': 5.796e-06, 'epoch': 12.57}
{'loss': 0.2502, 'grad_norm': 1.6472710371017456, 'learning_rate': 5.799e-06, 'epoch': 12.58}
{'loss': 0.2181, 'grad_norm': 1.354696273803711, 'learning_rate': 5.802e-06, 'epoch': 12.58}
{'loss': 0.2326, 'grad_norm': 1.33982515335083, 'learning_rate': 5.805e-06, 'epoch': 12.59}
{'loss': 0.3058, 'grad_norm': 2.4562032222747803, 'learning_rate': 5.808e-06, 'epoch': 12.6}
{'loss': 0.2266, 'grad_norm': 1.2716602087020874, 'learning_rate': 5.811000000000001e-06, 'epoch': 12.6}
{'loss': 0.2606, 'grad_norm': 2.279425859451294, 'learning_rate': 5.814e-06, 'epoch': 12.61}
{'loss': 0.2209, 'grad_norm': 2.4212758541107178, 'learning_rate': 5.8169999999999995e-06, 'epoch': 12.62}
{'loss': 0.2285, 'grad_norm': 1.855940580368042, 'learning_rate': 5.82e-06, 'epoch': 12.62}
{'loss': 0.226, 'grad_norm': 2.015374183654785, 'learning_rate': 5.823e-06, 'epoch': 12.63}
{'loss': 0.1691, 'grad_norm': 1.636785626411438, 'learning_rate': 5.826000000000001e-06, 'epoch': 12.64}
{'loss': 0.2199, 'grad_norm': 1.8036727905273438, 'learning_rate': 5.8290000000000004e-06, 'epoch': 12.64}
{'loss': 0.2489, 'grad_norm': 1.8470691442489624, 'learning_rate': 5.832e-06, 'epoch': 12.65}
{'loss': 0.2235, 'grad_norm': 2.447369337081909, 'learning_rate': 5.835e-06, 'epoch': 12.66}
{'loss': 0.1912, 'grad_norm': 2.3451356887817383, 'learning_rate': 5.838e-06, 'epoch': 12.66}
{'loss': 0.234, 'grad_norm': 1.8998510837554932, 'learning_rate': 5.8410000000000005e-06, 'epoch': 12.67}
{'loss': 0.2851, 'grad_norm': 1.8357949256896973, 'learning_rate': 5.844e-06, 'epoch': 12.68}
{'loss': 0.2384, 'grad_norm': 1.9026076793670654, 'learning_rate': 5.847e-06, 'epoch': 12.68}
{'loss': 0.3002, 'grad_norm': 3.5400938987731934, 'learning_rate': 5.850000000000001e-06, 'epoch': 12.69}
{'loss': 0.2514, 'grad_norm': 2.1068577766418457, 'learning_rate': 5.853e-06, 'epoch': 12.69}
{'loss': 0.1767, 'grad_norm': 1.9426387548446655, 'learning_rate': 5.856e-06, 'epoch': 12.7}
{'loss': 0.2031, 'grad_norm': 2.481943130493164, 'learning_rate': 5.859e-06, 'epoch': 12.71}
{'loss': 0.2634, 'grad_norm': 3.1594321727752686, 'learning_rate': 5.862e-06, 'epoch': 12.71}
{'loss': 0.2954, 'grad_norm': 4.214137077331543, 'learning_rate': 5.865000000000001e-06, 'epoch': 12.72}
{'loss': 0.2565, 'grad_norm': 2.6131043434143066, 'learning_rate': 5.868e-06, 'epoch': 12.73}
{'loss': 0.2531, 'grad_norm': 4.073585033416748, 'learning_rate': 5.871e-06, 'epoch': 12.73}
{'loss': 0.5448, 'grad_norm': 5.327925205230713, 'learning_rate': 5.874e-06, 'epoch': 12.74}
{'loss': 0.5315, 'grad_norm': 1.8347947597503662, 'learning_rate': 5.877e-06, 'epoch': 12.75}
{'loss': 0.4172, 'grad_norm': 2.1869399547576904, 'learning_rate': 5.8800000000000005e-06, 'epoch': 12.75}
{'loss': 0.4241, 'grad_norm': 1.4085677862167358, 'learning_rate': 5.883e-06, 'epoch': 12.76}
{'loss': 0.3665, 'grad_norm': 1.1049038171768188, 'learning_rate': 5.886000000000001e-06, 'epoch': 12.77}
{'loss': 0.3465, 'grad_norm': 2.1040396690368652, 'learning_rate': 5.889e-06, 'epoch': 12.77}
{'loss': 0.3213, 'grad_norm': 1.943390130996704, 'learning_rate': 5.892e-06, 'epoch': 12.78}
{'loss': 0.3259, 'grad_norm': 1.1642996072769165, 'learning_rate': 5.895e-06, 'epoch': 12.79}
{'loss': 0.3015, 'grad_norm': 1.6123425960540771, 'learning_rate': 5.898e-06, 'epoch': 12.79}
{'loss': 0.2714, 'grad_norm': 1.9457980394363403, 'learning_rate': 5.901000000000001e-06, 'epoch': 12.8}
{'loss': 0.2337, 'grad_norm': 1.6228023767471313, 'learning_rate': 5.9040000000000006e-06, 'epoch': 12.81}
{'loss': 0.2407, 'grad_norm': 1.437188744544983, 'learning_rate': 5.9069999999999995e-06, 'epoch': 12.81}
{'loss': 0.303, 'grad_norm': 1.5364717245101929, 'learning_rate': 5.91e-06, 'epoch': 12.82}
{'loss': 0.2146, 'grad_norm': 2.5305092334747314, 'learning_rate': 5.913e-06, 'epoch': 12.82}
{'loss': 0.2657, 'grad_norm': 1.8307139873504639, 'learning_rate': 5.916e-06, 'epoch': 12.83}
{'loss': 0.2082, 'grad_norm': 1.3699287176132202, 'learning_rate': 5.919e-06, 'epoch': 12.84}
{'loss': 0.1969, 'grad_norm': 1.1943188905715942, 'learning_rate': 5.922e-06, 'epoch': 12.84}
{'loss': 0.2334, 'grad_norm': 1.769730806350708, 'learning_rate': 5.925e-06, 'epoch': 12.85}
{'loss': 0.2167, 'grad_norm': 1.4371784925460815, 'learning_rate': 5.928e-06, 'epoch': 12.86}
{'loss': 0.2308, 'grad_norm': 2.0150609016418457, 'learning_rate': 5.931e-06, 'epoch': 12.86}
{'loss': 0.2118, 'grad_norm': 1.689220666885376, 'learning_rate': 5.934e-06, 'epoch': 12.87}
{'loss': 0.2255, 'grad_norm': 1.9879460334777832, 'learning_rate': 5.937e-06, 'epoch': 12.88}
{'loss': 0.2711, 'grad_norm': 3.1251895427703857, 'learning_rate': 5.940000000000001e-06, 'epoch': 12.88}
{'loss': 0.2767, 'grad_norm': 2.0551540851593018, 'learning_rate': 5.943e-06, 'epoch': 12.89}
{'loss': 0.2022, 'grad_norm': 2.3856024742126465, 'learning_rate': 5.9459999999999995e-06, 'epoch': 12.9}
{'loss': 0.4048, 'grad_norm': 2.477098226547241, 'learning_rate': 5.949e-06, 'epoch': 12.9}
{'loss': 0.2971, 'grad_norm': 2.3434102535247803, 'learning_rate': 5.952e-06, 'epoch': 12.91}
{'loss': 0.2144, 'grad_norm': 2.2624564170837402, 'learning_rate': 5.955000000000001e-06, 'epoch': 12.92}
{'loss': 0.2577, 'grad_norm': 5.262187957763672, 'learning_rate': 5.958e-06, 'epoch': 12.92}
{'loss': 0.2057, 'grad_norm': 2.591381311416626, 'learning_rate': 5.961e-06, 'epoch': 12.93}
{'loss': 0.2622, 'grad_norm': 2.354342222213745, 'learning_rate': 5.964e-06, 'epoch': 12.94}
{'loss': 0.1864, 'grad_norm': 2.235370397567749, 'learning_rate': 5.967e-06, 'epoch': 12.94}
{'loss': 0.2406, 'grad_norm': 2.47409725189209, 'learning_rate': 5.9700000000000004e-06, 'epoch': 12.95}
{'loss': 0.2052, 'grad_norm': 2.2894558906555176, 'learning_rate': 5.973e-06, 'epoch': 12.95}
{'loss': 0.2059, 'grad_norm': 2.289577007293701, 'learning_rate': 5.976e-06, 'epoch': 12.96}
{'loss': 0.25, 'grad_norm': 8.916860580444336, 'learning_rate': 5.979000000000001e-06, 'epoch': 12.97}
{'loss': 0.3315, 'grad_norm': 2.442958116531372, 'learning_rate': 5.982e-06, 'epoch': 12.97}
{'loss': 0.2392, 'grad_norm': 3.31823468208313, 'learning_rate': 5.985e-06, 'epoch': 12.98}
{'loss': 0.2666, 'grad_norm': 3.173715591430664, 'learning_rate': 5.988e-06, 'epoch': 12.99}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:01<00:01,  1.24it/s][A
 75%|███████▌  | 3/4 [00:03<00:01,  1.11s/it][A
100%|██████████| 4/4 [00:03<00:00,  1.18it/s][A                                                          
                                             [A  2%|▏         | 2000/100000 [1:12:25<18:25:06,  1.48it/s]
100%|██████████| 4/4 [00:03<00:00,  1.18it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-2000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-2000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-2000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-2000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-2000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-2000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-2000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
  2%|▏         | 2001/100000 [1:12:44<278:19:42, 10.22s/it]                                                             2%|▏         | 2001/100000 [1:12:44<278:19:42, 10.22s/it]  2%|▏         | 2002/100000 [1:12:46<206:01:33,  7.57s/it]                                                             2%|▏         | 2002/100000 [1:12:46<206:01:33,  7.57s/it]{'eval_loss': 0.3520650863647461, 'eval_wer': 0.3862433862433862, 'eval_cer': 0.11067384145851739, 'eval_runtime': 8.3446, 'eval_samples_per_second': 12.104, 'eval_steps_per_second': 0.479, 'epoch': 12.99}
{'loss': 0.2826, 'grad_norm': 2.6871910095214844, 'learning_rate': 5.991e-06, 'epoch': 12.99}
{'loss': 0.2914, 'grad_norm': 2.249995470046997, 'learning_rate': 5.9940000000000005e-06, 'epoch': 13.0}
  2%|▏         | 2003/100000 [1:13:03<286:15:06, 10.52s/it]                                                             2%|▏         | 2003/100000 [1:13:03<286:15:06, 10.52s/it]  2%|▏         | 2004/100000 [1:13:11<266:35:28,  9.79s/it]                                                             2%|▏         | 2004/100000 [1:13:11<266:35:28,  9.79s/it]  2%|▏         | 2005/100000 [1:13:16<226:59:58,  8.34s/it]                                                             2%|▏         | 2005/100000 [1:13:16<226:59:58,  8.34s/it]  2%|▏         | 2006/100000 [1:13:21<197:06:36,  7.24s/it]                                                             2%|▏         | 2006/100000 [1:13:21<197:06:36,  7.24s/it]  2%|▏         | 2007/100000 [1:13:25<171:09:35,  6.29s/it]                                                             2%|▏         | 2007/100000 [1:13:25<171:09:35,  6.29s/it]  2%|▏         | 2008/100000 [1:13:28<148:52:43,  5.47s/it]                                                             2%|▏         | 2008/100000 [1:13:28<148:52:43,  5.47s/it]  2%|▏         | 2009/100000 [1:13:31<128:07:31,  4.71s/it]                                                             2%|▏         | 2009/100000 [1:13:31<128:07:31,  4.71s/it]  2%|▏         | 2010/100000 [1:13:34<111:31:51,  4.10s/it]                                                             2%|▏         | 2010/100000 [1:13:34<111:31:51,  4.10s/it]  2%|▏         | 2011/100000 [1:13:36<97:00:27,  3.56s/it]                                                             2%|▏         | 2011/100000 [1:13:36<97:00:27,  3.56s/it]  2%|▏         | 2012/100000 [1:13:38<84:30:02,  3.10s/it]                                                            2%|▏         | 2012/100000 [1:13:38<84:30:02,  3.10s/it]  2%|▏         | 2013/100000 [1:13:40<75:14:17,  2.76s/it]                                                            2%|▏         | 2013/100000 [1:13:40<75:14:17,  2.76s/it]  2%|▏         | 2014/100000 [1:13:42<67:40:20,  2.49s/it]                                                            2%|▏         | 2014/100000 [1:13:42<67:40:20,  2.49s/it]  2%|▏         | 2015/100000 [1:13:44<61:02:22,  2.24s/it]                                                            2%|▏         | 2015/100000 [1:13:44<61:02:22,  2.24s/it]  2%|▏         | 2016/100000 [1:13:45<55:52:16,  2.05s/it]                                                            2%|▏         | 2016/100000 [1:13:45<55:52:16,  2.05s/it]  2%|▏         | 2017/100000 [1:13:47<52:04:43,  1.91s/it]                                                            2%|▏         | 2017/100000 [1:13:47<52:04:43,  1.91s/it]  2%|▏         | 2018/100000 [1:13:48<48:24:04,  1.78s/it]                                                            2%|▏         | 2018/100000 [1:13:48<48:24:04,  1.78s/it]  2%|▏         | 2019/100000 [1:13:50<45:26:53,  1.67s/it]                                                            2%|▏         | 2019/100000 [1:13:50<45:26:53,  1.67s/it]  2%|▏         | 2020/100000 [1:13:51<42:54:08,  1.58s/it]                                                            2%|▏         | 2020/100000 [1:13:51<42:54:08,  1.58s/it]  2%|▏         | 2021/100000 [1:13:52<40:26:51,  1.49s/it]                                                            2%|▏         | 2021/100000 [1:13:52<40:26:51,  1.49s/it]  2%|▏         | 2022/100000 [1:13:54<38:37:18,  1.42s/it]                                                            2%|▏         | 2022/100000 [1:13:54<38:37:18,  1.42s/it]  2%|▏         | 2023/100000 [1:13:55<36:43:06,  1.35s/it]                                                            2%|▏         | 2023/100000 [1:13:55<36:43:06,  1.35s/it]  2%|▏         | 2024/100000 [1:13:56<34:45:59,  1.28s/it]                                                            2%|▏         | 2024/100000 [1:13:56<34:45:59,  1.28s/it]  2%|▏         | 2025/100000 [1:13:57<34:18:49,  1.26s/it]                                                            2%|▏         | 2025/100000 [1:13:57<34:18:49,  1.26s/it]  2%|▏         | 2026/100000 [1:13:58<32:20:34,  1.19s/it]                                                            2%|▏         | 2026/100000 [1:13:58<32:20:34,  1.19s/it]  2%|▏         | 2027/100000 [1:13:59<30:30:16,  1.12s/it]                                                            2%|▏         | 2027/100000 [1:13:59<30:30:16,  1.12s/it]  2%|▏         | 2028/100000 [1:14:00<29:26:49,  1.08s/it]                                                            2%|▏         | 2028/100000 [1:14:00<29:26:49,  1.08s/it]  2%|▏         | 2029/100000 [1:14:01<28:47:40,  1.06s/it]                                                            2%|▏         | 2029/100000 [1:14:01<28:47:40,  1.06s/it]  2%|▏         | 2030/100000 [1:14:02<27:56:51,  1.03s/it]                                                            2%|▏         | 2030/100000 [1:14:02<27:56:51,  1.03s/it]  2%|▏         | 2031/100000 [1:14:03<26:50:35,  1.01it/s]                                                            2%|▏         | 2031/100000 [1:14:03<26:50:35,  1.01it/s]  2%|▏         | 2032/100000 [1:14:04<25:47:24,  1.06it/s]                                                            2%|▏         | 2032/100000 [1:14:04<25:47:24,  1.06it/s]  2%|▏         | 2033/100000 [1:14:05<24:39:33,  1.10it/s]                                                            2%|▏         | 2033/100000 [1:14:05<24:39:33,  1.10it/s]  2%|▏         | 2034/100000 [1:14:05<23:28:27,  1.16it/s]                                                            2%|▏         | 2034/100000 [1:14:05<23:28:27,  1.16it/s]  2%|▏         | 2035/100000 [1:14:06<22:51:28,  1.19it/s]                                                            2%|▏         | 2035/100000 [1:14:06<22:51:28,  1.19it/s]  2%|▏         | 2036/100000 [1:14:07<22:22:45,  1.22it/s]                                                            2%|▏         | 2036/100000 [1:14:07<22:22:45,  1.22it/s]  2%|▏         | 2037/100000 [1:14:08<21:16:09,  1.28it/s]                                                            2%|▏         | 2037/100000 [1:14:08<21:16:09,  1.28it/s]  2%|▏         | 2038/100000 [1:14:09<22:28:14,  1.21it/s]                                                            2%|▏         | 2038/100000 [1:14:09<22:28:14,  1.21it/s]  2%|▏         | 2039/100000 [1:14:09<21:04:58,  1.29it/s]                                                            2%|▏         | 2039/100000 [1:14:09<21:04:58,  1.29it/s]  2%|▏         | 2040/100000 [1:14:10<22:02:43,  1.23it/s]                                                            2%|▏         | 2040/100000 [1:14:10<22:02:43,  1.23it/s]  2%|▏         | 2041/100000 [1:14:23<121:12:51,  4.45s/it]                                                             2%|▏         | 2041/100000 [1:14:23<121:12:51,  4.45s/it]  2%|▏         | 2042/100000 [1:14:31<149:39:12,  5.50s/it]                                                             2%|▏         | 2042/100000 [1:14:31<149:39:12,  5.50s/it]  2%|▏         | 2043/100000 [1:14:37<150:51:09,  5.54s/it]                                                             2%|▏         | 2043/100000 [1:14:37<150:51:09,  5.54s/it]  2%|▏         | 2044/100000 [1:14:41<143:53:42,  5.29s/it]                                                             2%|▏         | 2044/100000 [1:14:41<143:53:42,  5.29s/it]  2%|▏         | 2045/100000 [1:14:46<133:57:02,  4.92s/it]                                                             2%|▏         | 2045/100000 [1:14:46<133:57:02,  4.92s/it]  2%|▏         | 2046/100000 [1:14:49<122:18:34,  4.50s/it]                                                             2%|▏         | 2046/100000 [1:14:49<122:18:34,  4.50s/it]  2%|▏         | 2047/100000 [1:14:52<110:46:09,  4.07s/it]                                                             2%|▏         | 2047/100000 [1:14:52<110:46:09,  4.07s/it]  2%|▏         | 2048/100000 [1:14:55<99:03:02,  3.64s/it]                                                             2%|▏         | 2048/100000 [1:14:55<99:03:02,  3.64s/it]  2%|▏         | 2049/100000 [1:14:57<88:02:27,  3.24s/it]                                                            2%|▏         | 2049/100000 [1:14:57<88:02:27,  3.24s/it]  2%|▏         | 2050/100000 [1:14:59<79:18:11,  2.91s/it]                                                            2%|▏         | 2050/100000 [1:14:59<79:18:11,  2.91s/it]  2%|▏         | 2051/100000 [1:15:01<71:34:51,  2.63s/it]                                                            2%|▏         | 2051/100000 [1:15:01<71:34:51,  2.63s/it]  2%|▏         | 2052/100000 [1:15:03<64:57:28,  2.39s/it]                                                            2%|▏         | 2052/100000 [1:15:03<64:57:28,  2.39s/it]  2%|▏         | 2053/100000 [1:15:05<58:57:00,  2.17s/it]                                                            2%|▏         | 2053/100000 [1:15:05<58:57:00,  2.17s/it]  2%|▏         | 2054/100000 [1:15:06<54:36:10,  2.01s/it]                                                            2%|▏         | 2054/100000 [1:15:06<54:36:10,  2.01s/it]  2%|▏         | 2055/100000 [1:15:08<51:14:07,  1.88s/it]                                                            2%|▏         | 2055/100000 [1:15:08<51:14:07,  1.88s/it]  2%|▏         | 2056/100000 [1:15:09<47:52:01,  1.76s/it]                                                            2%|▏         | 2056/100000 [1:15:09<47:52:01,  1.76s/it]  2%|▏         | 2057/100000 [1:15:11<44:45:14,  1.64s/it]                                                            2%|▏         | 2057/100000 [1:15:11<44:45:14,  1.64s/it]  2%|▏         | 2058/100000 [1:15:12<42:28:21,  1.56s/it]                                                            2%|▏         | 2058/100000 [1:15:12<42:28:21,  1.56s/it]  2%|▏         | 2059/100000 [1:15:13<40:14:49,  1.48s/it]                                                            2%|▏         | 2059/100000 [1:15:13<40:14:49,  1.48s/it]  2%|▏         | 2060/100000 [1:15:15<38:06:11,  1.40s/it]                                                            2%|▏         | 2060/100000 [1:15:15<38:06:11,  1.40s/it]  2%|▏         | 2061/100000 [1:15:16<35:53:19,  1.32s/it]                                                            2%|▏         | 2061/100000 [1:15:16<35:53:19,  1.32s/it]  2%|▏         | 2062/100000 [1:15:17<34:23:27,  1.26s/it]                                                            2%|▏         | 2062/100000 [1:15:17<34:23:27,  1.26s/it]  2%|▏         | 2063/100000 [1:15:18<32:28:30,  1.19s/it]                                                            2%|▏         | 2063/100000 [1:15:18<32:28:30,  1.19s/it]  2%|▏         | 2064/100000 [1:15:19<31:04:18,  1.14s/it]                                                            2%|▏         | 2064/100000 [1:15:19<31:04:18,  1.14s/it]  2%|▏         | 2065/100000 [1:15:20<29:37:11,  1.09s/it]                                                            2%|▏         | 2065/100000 [1:15:20<29:37:11,  1.09s/it]  2%|▏         | 2066/100000 [1:15:21<28:35:10,  1.05s/it]                                                            2%|▏         | 2066/100000 [1:15:21<28:35:10,  1.05s/it]  2%|▏         | 2067/100000 [1:15:22<27:33:14,  1.01s/it]                                                            2%|▏         | 2067/100000 [1:15:22<27:33:14,  1.01s/it]  2%|▏         | 2068/100000 [1:15:23<26:40:54,  1.02it/s]                                                            2%|▏         | 2068/100000 [1:15:23<26:40:54,  1.02it/s]  2%|▏         | 2069/100000 [1:15:24<26:35:26,  1.02it/s]                                                            2%|▏         | 2069/100000 [1:15:24<26:35:26,  1.02it/s]  2%|▏         | 2070/100000 [1:15:24<25:26:00,  1.07it/s]                                                            2%|▏         | 2070/100000 [1:15:24<25:26:00,  1.07it/s]  2%|▏         | 2071/100000 [1:15:25<24:51:53,  1.09it/s]                                                            2%|▏         | 2071/100000 [1:15:25<24:51:53,  1.09it/s]  2%|▏         | 2072/100000 [1:15:26<24:43:56,  1.10it/s]                                                            2%|▏         | 2072/100000 [1:15:26<24:43:56,  1.10it/s]  2%|▏         | 2073/100000 [1:15:27<23:53:09,  1.14it/s]                                                            2%|▏         | 2073/100000 [1:15:27<23:53:09,  1.14it/s]  2%|▏         | 2074/100000 [1:15:28<23:02:50,  1.18it/s]                                                            2%|▏         | 2074/100000 [1:15:28<23:02:50,  1.18it/s]  2%|▏         | 2075/100000 [1:15:29<22:39:17,  1.20it/s]                                                            2%|▏         | 2075/100000 [1:15:29<22:39:17,  1.20it/s]  2%|▏         | 2076/100000 [1:15:29<22:26:43,  1.21it/s]                                                            2%|▏         | 2076/100000 [1:15:29<22:26:43,  1.21it/s]  2%|▏         | 2077/100000 [1:15:30<21:48:23,  1.25it/s]                                                            2%|▏         | 2077/100000 [1:15:30<21:48:23,  1.25it/s]  2%|▏         | 2078/100000 [1:15:31<20:35:05,  1.32it/s]                                                            2%|▏         | 2078/100000 [1:15:31<20:35:05,  1.32it/s]  2%|▏         | 2079/100000 [1:15:42<107:52:28,  3.97s/it]                                                             2%|▏         | 2079/100000 [1:15:42<107:52:28,  3.97s/it]  2%|▏         | 2080/100000 [1:15:50<135:34:00,  4.98s/it]                                                             2%|▏         | 2080/100000 [1:15:50<135:34:00,  4.98s/it]  2%|▏         | 2081/100000 [1:15:55<138:11:38,  5.08s/it]                                                             2%|▏         | 2081/100000 [1:15:55<138:11:38,  5.08s/it]  2%|▏         | 2082/100000 [1:15:59<132:40:18,  4.88s/it]                                                             2%|▏         | 2082/100000 [1:15:59<132:40:18,  4.88s/it]  2%|▏         | 2083/100000 [1:16:03<123:36:52,  4.54s/it]                                                             2%|▏         | 2083/100000 [1:16:03<123:36:52,  4.54s/it]  2%|▏         | 2084/100000 [1:16:06<113:32:10,  4.17s/it]                                                             2%|▏         | 2084/100000 [1:16:06<113:32:10,  4.17s/it]  2%|▏         | 2085/100000 [1:16:09<102:14:24,  3.76s/it]                                                             2%|▏         | 2085/100000 [1:16:09<102:14:24,  3.76s/it]  2%|▏         | 2086/100000 [1:16:12<92:02:22,  3.38s/it]                                                             2%|▏         | 2086/100000 [1:16:12<92:02:22,  3.38s/it]  2%|▏         | 2087/100000 [1:16:14<83:23:42,  3.07s/it]                                                          {'loss': 0.5303, 'grad_norm': 2.425403356552124, 'learning_rate': 5.997e-06, 'epoch': 13.01}
{'loss': 0.4815, 'grad_norm': 2.2761788368225098, 'learning_rate': 6e-06, 'epoch': 13.01}
{'loss': 0.4372, 'grad_norm': 2.3572402000427246, 'learning_rate': 6.003e-06, 'epoch': 13.02}
{'loss': 0.4003, 'grad_norm': 2.530080556869507, 'learning_rate': 6.006e-06, 'epoch': 13.03}
{'loss': 0.3676, 'grad_norm': 2.3103036880493164, 'learning_rate': 6.009e-06, 'epoch': 13.03}
{'loss': 0.318, 'grad_norm': 1.5890427827835083, 'learning_rate': 6.012e-06, 'epoch': 13.04}
{'loss': 0.3464, 'grad_norm': 1.2964376211166382, 'learning_rate': 6.015000000000001e-06, 'epoch': 13.05}
{'loss': 0.2818, 'grad_norm': 2.100890636444092, 'learning_rate': 6.018e-06, 'epoch': 13.05}
{'loss': 0.2843, 'grad_norm': 1.5200529098510742, 'learning_rate': 6.021e-06, 'epoch': 13.06}
{'loss': 0.2359, 'grad_norm': 1.508257269859314, 'learning_rate': 6.024e-06, 'epoch': 13.06}
{'loss': 0.2559, 'grad_norm': 1.6235630512237549, 'learning_rate': 6.027e-06, 'epoch': 13.07}
{'loss': 0.238, 'grad_norm': 1.3738982677459717, 'learning_rate': 6.030000000000001e-06, 'epoch': 13.08}
{'loss': 0.2309, 'grad_norm': 1.7154030799865723, 'learning_rate': 6.0330000000000005e-06, 'epoch': 13.08}
{'loss': 0.1925, 'grad_norm': 1.451722264289856, 'learning_rate': 6.0359999999999995e-06, 'epoch': 13.09}
{'loss': 0.1829, 'grad_norm': 1.6284537315368652, 'learning_rate': 6.039e-06, 'epoch': 13.1}
{'loss': 0.2458, 'grad_norm': 1.6722511053085327, 'learning_rate': 6.042e-06, 'epoch': 13.1}
{'loss': 0.1922, 'grad_norm': 1.1604831218719482, 'learning_rate': 6.0450000000000006e-06, 'epoch': 13.11}
{'loss': 0.2055, 'grad_norm': 1.7387678623199463, 'learning_rate': 6.048e-06, 'epoch': 13.12}
{'loss': 0.228, 'grad_norm': 2.6168665885925293, 'learning_rate': 6.051e-06, 'epoch': 13.12}
{'loss': 0.2138, 'grad_norm': 1.7648297548294067, 'learning_rate': 6.054e-06, 'epoch': 13.13}
{'loss': 0.2434, 'grad_norm': 1.8242348432540894, 'learning_rate': 6.057e-06, 'epoch': 13.14}
{'loss': 0.2382, 'grad_norm': 1.19718337059021, 'learning_rate': 6.0600000000000004e-06, 'epoch': 13.14}
{'loss': 0.209, 'grad_norm': 2.024860382080078, 'learning_rate': 6.063e-06, 'epoch': 13.15}
{'loss': 0.2082, 'grad_norm': 1.8779196739196777, 'learning_rate': 6.066e-06, 'epoch': 13.16}
{'loss': 0.2666, 'grad_norm': 1.7739375829696655, 'learning_rate': 6.069000000000001e-06, 'epoch': 13.16}
{'loss': 0.214, 'grad_norm': 2.0705409049987793, 'learning_rate': 6.072e-06, 'epoch': 13.17}
{'loss': 0.2211, 'grad_norm': 1.809848666191101, 'learning_rate': 6.075e-06, 'epoch': 13.18}
{'loss': 0.2628, 'grad_norm': 2.1497790813446045, 'learning_rate': 6.078e-06, 'epoch': 13.18}
{'loss': 0.1702, 'grad_norm': 1.7569324970245361, 'learning_rate': 6.081e-06, 'epoch': 13.19}
{'loss': 0.2026, 'grad_norm': 2.181321382522583, 'learning_rate': 6.0840000000000005e-06, 'epoch': 13.19}
{'loss': 0.1894, 'grad_norm': 1.9073148965835571, 'learning_rate': 6.087e-06, 'epoch': 13.2}
{'loss': 0.2165, 'grad_norm': 1.6388130187988281, 'learning_rate': 6.090000000000001e-06, 'epoch': 13.21}
{'loss': 0.2273, 'grad_norm': 2.2497146129608154, 'learning_rate': 6.093e-06, 'epoch': 13.21}
{'loss': 0.2408, 'grad_norm': 2.9078407287597656, 'learning_rate': 6.096e-06, 'epoch': 13.22}
{'loss': 0.2545, 'grad_norm': 3.2765727043151855, 'learning_rate': 6.099e-06, 'epoch': 13.23}
{'loss': 0.2735, 'grad_norm': 2.6249442100524902, 'learning_rate': 6.102e-06, 'epoch': 13.23}
{'loss': 0.2284, 'grad_norm': 2.5645039081573486, 'learning_rate': 6.105e-06, 'epoch': 13.24}
{'loss': 0.5044, 'grad_norm': 8.081476211547852, 'learning_rate': 6.108000000000001e-06, 'epoch': 13.25}
{'loss': 0.5012, 'grad_norm': 2.691295623779297, 'learning_rate': 6.111e-06, 'epoch': 13.25}
{'loss': 0.3968, 'grad_norm': 2.2288658618927, 'learning_rate': 6.114e-06, 'epoch': 13.26}
{'loss': 0.4091, 'grad_norm': 1.260420799255371, 'learning_rate': 6.117e-06, 'epoch': 13.27}
{'loss': 0.3865, 'grad_norm': 1.792844295501709, 'learning_rate': 6.12e-06, 'epoch': 13.27}
{'loss': 0.314, 'grad_norm': 5.409976959228516, 'learning_rate': 6.1230000000000005e-06, 'epoch': 13.28}
{'loss': 0.3066, 'grad_norm': 1.6598093509674072, 'learning_rate': 6.126e-06, 'epoch': 13.29}
{'loss': 0.3261, 'grad_norm': 2.6017630100250244, 'learning_rate': 6.129e-06, 'epoch': 13.29}
{'loss': 0.3133, 'grad_norm': 1.5509657859802246, 'learning_rate': 6.132e-06, 'epoch': 13.3}
{'loss': 0.3006, 'grad_norm': 1.4994596242904663, 'learning_rate': 6.135e-06, 'epoch': 13.31}
{'loss': 0.2204, 'grad_norm': 1.1114493608474731, 'learning_rate': 6.138e-06, 'epoch': 13.31}
{'loss': 0.2461, 'grad_norm': 1.2515429258346558, 'learning_rate': 6.141e-06, 'epoch': 13.32}
{'loss': 0.2142, 'grad_norm': 1.3459422588348389, 'learning_rate': 6.144000000000001e-06, 'epoch': 13.32}
{'loss': 0.2187, 'grad_norm': 1.2639778852462769, 'learning_rate': 6.147e-06, 'epoch': 13.33}
{'loss': 0.2268, 'grad_norm': 1.5797455310821533, 'learning_rate': 6.1499999999999996e-06, 'epoch': 13.34}
{'loss': 0.2309, 'grad_norm': 1.2258739471435547, 'learning_rate': 6.153e-06, 'epoch': 13.34}
{'loss': 0.2351, 'grad_norm': 1.7343586683273315, 'learning_rate': 6.156e-06, 'epoch': 13.35}
{'loss': 0.1877, 'grad_norm': 1.5275304317474365, 'learning_rate': 6.159000000000001e-06, 'epoch': 13.36}
{'loss': 0.2103, 'grad_norm': 2.3300259113311768, 'learning_rate': 6.1620000000000005e-06, 'epoch': 13.36}
{'loss': 0.21, 'grad_norm': 1.8783454895019531, 'learning_rate': 6.164999999999999e-06, 'epoch': 13.37}
{'loss': 0.2017, 'grad_norm': 1.4359285831451416, 'learning_rate': 6.168e-06, 'epoch': 13.38}
{'loss': 0.1885, 'grad_norm': 1.421409249305725, 'learning_rate': 6.171e-06, 'epoch': 13.38}
{'loss': 0.239, 'grad_norm': 1.5430729389190674, 'learning_rate': 6.1740000000000005e-06, 'epoch': 13.39}
{'loss': 0.2204, 'grad_norm': 1.7188373804092407, 'learning_rate': 6.177e-06, 'epoch': 13.4}
{'loss': 0.2954, 'grad_norm': 2.1895885467529297, 'learning_rate': 6.18e-06, 'epoch': 13.4}
{'loss': 0.2834, 'grad_norm': 1.6901869773864746, 'learning_rate': 6.183e-06, 'epoch': 13.41}
{'loss': 0.2131, 'grad_norm': 2.5506882667541504, 'learning_rate': 6.186e-06, 'epoch': 13.42}
{'loss': 0.1867, 'grad_norm': 1.8124548196792603, 'learning_rate': 6.189e-06, 'epoch': 13.42}
{'loss': 0.2239, 'grad_norm': 2.1549196243286133, 'learning_rate': 6.192e-06, 'epoch': 13.43}
{'loss': 0.3174, 'grad_norm': 2.74053955078125, 'learning_rate': 6.195e-06, 'epoch': 13.44}
{'loss': 0.2, 'grad_norm': 2.4293878078460693, 'learning_rate': 6.198000000000001e-06, 'epoch': 13.44}
{'loss': 0.2226, 'grad_norm': 2.310429096221924, 'learning_rate': 6.201e-06, 'epoch': 13.45}
{'loss': 0.2522, 'grad_norm': 2.801910161972046, 'learning_rate': 6.204e-06, 'epoch': 13.45}
{'loss': 0.1798, 'grad_norm': 1.922265887260437, 'learning_rate': 6.207e-06, 'epoch': 13.46}
{'loss': 0.2094, 'grad_norm': 2.93613862991333, 'learning_rate': 6.21e-06, 'epoch': 13.47}
{'loss': 0.2811, 'grad_norm': 3.068704128265381, 'learning_rate': 6.2130000000000005e-06, 'epoch': 13.47}
{'loss': 0.2195, 'grad_norm': 4.527105331420898, 'learning_rate': 6.216e-06, 'epoch': 13.48}
{'loss': 0.2517, 'grad_norm': 2.605797052383423, 'learning_rate': 6.219000000000001e-06, 'epoch': 13.49}
{'loss': 0.2963, 'grad_norm': 3.3228795528411865, 'learning_rate': 6.222e-06, 'epoch': 13.49}
{'loss': 0.4853, 'grad_norm': 3.051948070526123, 'learning_rate': 6.225e-06, 'epoch': 13.5}
{'loss': 0.4671, 'grad_norm': 2.564267158508301, 'learning_rate': 6.228e-06, 'epoch': 13.51}
{'loss': 0.361, 'grad_norm': 1.4877411127090454, 'learning_rate': 6.231e-06, 'epoch': 13.51}
{'loss': 0.3754, 'grad_norm': 3.5956032276153564, 'learning_rate': 6.234000000000001e-06, 'epoch': 13.52}
{'loss': 0.326, 'grad_norm': 1.5272403955459595, 'learning_rate': 6.237000000000001e-06, 'epoch': 13.53}
{'loss': 0.3445, 'grad_norm': 1.7654067277908325, 'learning_rate': 6.2399999999999995e-06, 'epoch': 13.53}
{'loss': 0.3154, 'grad_norm': 1.550911784172058, 'learning_rate': 6.243e-06, 'epoch': 13.54}
{'loss': 0.3004, 'grad_norm': 2.2103490829467773, 'learning_rate': 6.246e-06, 'epoch': 13.55}
  2%|▏         | 2087/100000 [1:16:14<83:23:42,  3.07s/it]  2%|▏         | 2088/100000 [1:16:16<75:33:30,  2.78s/it]                                                            2%|▏         | 2088/100000 [1:16:16<75:33:30,  2.78s/it]  2%|▏         | 2089/100000 [1:16:18<68:55:50,  2.53s/it]                                                            2%|▏         | 2089/100000 [1:16:18<68:55:50,  2.53s/it]  2%|▏         | 2090/100000 [1:16:20<63:36:08,  2.34s/it]                                                            2%|▏         | 2090/100000 [1:16:20<63:36:08,  2.34s/it]  2%|▏         | 2091/100000 [1:16:22<58:07:31,  2.14s/it]                                                            2%|▏         | 2091/100000 [1:16:22<58:07:31,  2.14s/it]  2%|▏         | 2092/100000 [1:16:23<54:03:39,  1.99s/it]                                                            2%|▏         | 2092/100000 [1:16:23<54:03:39,  1.99s/it]  2%|▏         | 2093/100000 [1:16:25<50:39:25,  1.86s/it]                                                            2%|▏         | 2093/100000 [1:16:25<50:39:25,  1.86s/it]  2%|▏         | 2094/100000 [1:16:26<47:07:03,  1.73s/it]                                                            2%|▏         | 2094/100000 [1:16:26<47:07:03,  1.73s/it]  2%|▏         | 2095/100000 [1:16:28<44:39:10,  1.64s/it]                                                            2%|▏         | 2095/100000 [1:16:28<44:39:10,  1.64s/it]  2%|▏         | 2096/100000 [1:16:29<42:31:24,  1.56s/it]                                                            2%|▏         | 2096/100000 [1:16:29<42:31:24,  1.56s/it]  2%|▏         | 2097/100000 [1:16:30<40:37:42,  1.49s/it]                                                            2%|▏         | 2097/100000 [1:16:30<40:37:42,  1.49s/it]  2%|▏         | 2098/100000 [1:16:32<38:31:09,  1.42s/it]                                                            2%|▏         | 2098/100000 [1:16:32<38:31:09,  1.42s/it]  2%|▏         | 2099/100000 [1:16:33<36:13:45,  1.33s/it]                                                            2%|▏         | 2099/100000 [1:16:33<36:13:45,  1.33s/it]  2%|▏         | 2100/100000 [1:16:34<34:34:14,  1.27s/it]                                                            2%|▏         | 2100/100000 [1:16:34<34:34:14,  1.27s/it]  2%|▏         | 2101/100000 [1:16:35<32:58:47,  1.21s/it]                                                            2%|▏         | 2101/100000 [1:16:35<32:58:47,  1.21s/it]  2%|▏         | 2102/100000 [1:16:36<31:18:21,  1.15s/it]                                                            2%|▏         | 2102/100000 [1:16:36<31:18:21,  1.15s/it]  2%|▏         | 2103/100000 [1:16:37<29:36:22,  1.09s/it]                                                            2%|▏         | 2103/100000 [1:16:37<29:36:22,  1.09s/it]  2%|▏         | 2104/100000 [1:16:38<28:16:05,  1.04s/it]                                                            2%|▏         | 2104/100000 [1:16:38<28:16:05,  1.04s/it]  2%|▏         | 2105/100000 [1:16:39<27:53:05,  1.03s/it]                                                            2%|▏         | 2105/100000 [1:16:39<27:53:05,  1.03s/it]  2%|▏         | 2106/100000 [1:16:40<26:40:19,  1.02it/s]                                                            2%|▏         | 2106/100000 [1:16:40<26:40:19,  1.02it/s]  2%|▏         | 2107/100000 [1:16:41<25:34:03,  1.06it/s]                                                            2%|▏         | 2107/100000 [1:16:41<25:34:03,  1.06it/s]  2%|▏         | 2108/100000 [1:16:41<24:39:48,  1.10it/s]                                                            2%|▏         | 2108/100000 [1:16:41<24:39:48,  1.10it/s]  2%|▏         | 2109/100000 [1:16:42<24:05:16,  1.13it/s]                                                            2%|▏         | 2109/100000 [1:16:42<24:05:16,  1.13it/s]  2%|▏         | 2110/100000 [1:16:43<22:55:05,  1.19it/s]                                                            2%|▏         | 2110/100000 [1:16:43<22:55:05,  1.19it/s]  2%|▏         | 2111/100000 [1:16:44<22:35:28,  1.20it/s]                                                            2%|▏         | 2111/100000 [1:16:44<22:35:28,  1.20it/s]  2%|▏         | 2112/100000 [1:16:45<21:35:57,  1.26it/s]                                                            2%|▏         | 2112/100000 [1:16:45<21:35:57,  1.26it/s]  2%|▏         | 2113/100000 [1:16:45<20:52:19,  1.30it/s]                                                            2%|▏         | 2113/100000 [1:16:45<20:52:19,  1.30it/s]  2%|▏         | 2114/100000 [1:16:46<20:19:50,  1.34it/s]                                                            2%|▏         | 2114/100000 [1:16:46<20:19:50,  1.34it/s]  2%|▏         | 2115/100000 [1:16:47<19:40:04,  1.38it/s]                                                            2%|▏         | 2115/100000 [1:16:47<19:40:04,  1.38it/s]  2%|▏         | 2116/100000 [1:16:47<19:09:54,  1.42it/s]                                                            2%|▏         | 2116/100000 [1:16:47<19:09:54,  1.42it/s]  2%|▏         | 2117/100000 [1:17:01<123:05:11,  4.53s/it]                                                             2%|▏         | 2117/100000 [1:17:01<123:05:11,  4.53s/it]  2%|▏         | 2118/100000 [1:17:09<154:36:02,  5.69s/it]                                                             2%|▏         | 2118/100000 [1:17:09<154:36:02,  5.69s/it]  2%|▏         | 2119/100000 [1:17:15<153:50:08,  5.66s/it]                                                             2%|▏         | 2119/100000 [1:17:15<153:50:08,  5.66s/it]  2%|▏         | 2120/100000 [1:17:19<146:07:45,  5.37s/it]                                                             2%|▏         | 2120/100000 [1:17:19<146:07:45,  5.37s/it]  2%|▏         | 2121/100000 [1:17:24<136:37:05,  5.02s/it]                                                             2%|▏         | 2121/100000 [1:17:24<136:37:05,  5.02s/it]  2%|▏         | 2122/100000 [1:17:27<125:57:38,  4.63s/it]                                                             2%|▏         | 2122/100000 [1:17:27<125:57:38,  4.63s/it]  2%|▏         | 2123/100000 [1:17:30<114:09:22,  4.20s/it]                                                             2%|▏         | 2123/100000 [1:17:31<114:09:22,  4.20s/it]  2%|▏         | 2124/100000 [1:17:33<102:18:38,  3.76s/it]                                                             2%|▏         | 2124/100000 [1:17:33<102:18:38,  3.76s/it]  2%|▏         | 2125/100000 [1:17:36<91:17:13,  3.36s/it]                                                             2%|▏         | 2125/100000 [1:17:36<91:17:13,  3.36s/it]  2%|▏         | 2126/100000 [1:17:38<81:44:51,  3.01s/it]                                                            2%|▏         | 2126/100000 [1:17:38<81:44:51,  3.01s/it]  2%|▏         | 2127/100000 [1:17:40<73:32:22,  2.70s/it]                                                            2%|▏         | 2127/100000 [1:17:40<73:32:22,  2.70s/it]  2%|▏         | 2128/100000 [1:17:42<66:42:59,  2.45s/it]                                                            2%|▏         | 2128/100000 [1:17:42<66:42:59,  2.45s/it]  2%|▏         | 2129/100000 [1:17:43<60:52:58,  2.24s/it]                                                            2%|▏         | 2129/100000 [1:17:43<60:52:58,  2.24s/it]  2%|▏         | 2130/100000 [1:17:45<55:38:49,  2.05s/it]                                                            2%|▏         | 2130/100000 [1:17:45<55:38:49,  2.05s/it]  2%|▏         | 2131/100000 [1:17:47<51:38:46,  1.90s/it]                                                            2%|▏         | 2131/100000 [1:17:47<51:38:46,  1.90s/it]  2%|▏         | 2132/100000 [1:17:48<47:37:13,  1.75s/it]                                                            2%|▏         | 2132/100000 [1:17:48<47:37:13,  1.75s/it]  2%|▏         | 2133/100000 [1:17:49<44:30:33,  1.64s/it]                                                            2%|▏         | 2133/100000 [1:17:49<44:30:33,  1.64s/it]  2%|▏         | 2134/100000 [1:17:51<41:49:40,  1.54s/it]                                                            2%|▏         | 2134/100000 [1:17:51<41:49:40,  1.54s/it]  2%|▏         | 2135/100000 [1:17:52<39:47:05,  1.46s/it]                                                            2%|▏         | 2135/100000 [1:17:52<39:47:05,  1.46s/it]  2%|▏         | 2136/100000 [1:17:53<37:33:08,  1.38s/it]                                                            2%|▏         | 2136/100000 [1:17:53<37:33:08,  1.38s/it]  2%|▏         | 2137/100000 [1:17:54<35:28:27,  1.30s/it]                                                            2%|▏         | 2137/100000 [1:17:54<35:28:27,  1.30s/it]  2%|▏         | 2138/100000 [1:17:55<33:45:11,  1.24s/it]                                                            2%|▏         | 2138/100000 [1:17:55<33:45:11,  1.24s/it]  2%|▏         | 2139/100000 [1:17:56<31:45:48,  1.17s/it]                                                            2%|▏         | 2139/100000 [1:17:56<31:45:48,  1.17s/it]  2%|▏         | 2140/100000 [1:17:57<30:19:11,  1.12s/it]                                                            2%|▏         | 2140/100000 [1:17:57<30:19:11,  1.12s/it]  2%|▏         | 2141/100000 [1:17:58<28:35:50,  1.05s/it]                                                            2%|▏         | 2141/100000 [1:17:58<28:35:50,  1.05s/it]  2%|▏         | 2142/100000 [1:17:59<27:20:20,  1.01s/it]                                                            2%|▏         | 2142/100000 [1:17:59<27:20:20,  1.01s/it]  2%|▏         | 2143/100000 [1:18:00<26:44:04,  1.02it/s]                                                            2%|▏         | 2143/100000 [1:18:00<26:44:04,  1.02it/s]  2%|▏         | 2144/100000 [1:18:01<25:28:28,  1.07it/s]                                                            2%|▏         | 2144/100000 [1:18:01<25:28:28,  1.07it/s]  2%|▏         | 2145/100000 [1:18:02<24:28:21,  1.11it/s]                                                            2%|▏         | 2145/100000 [1:18:02<24:28:21,  1.11it/s]  2%|▏         | 2146/100000 [1:18:03<23:26:49,  1.16it/s]                                                            2%|▏         | 2146/100000 [1:18:03<23:26:49,  1.16it/s]  2%|▏         | 2147/100000 [1:18:03<22:52:06,  1.19it/s]                                                            2%|▏         | 2147/100000 [1:18:03<22:52:06,  1.19it/s]  2%|▏         | 2148/100000 [1:18:04<22:11:18,  1.23it/s]                                                            2%|▏         | 2148/100000 [1:18:04<22:11:18,  1.23it/s]  2%|▏         | 2149/100000 [1:18:05<21:19:34,  1.27it/s]                                                            2%|▏         | 2149/100000 [1:18:05<21:19:34,  1.27it/s]  2%|▏         | 2150/100000 [1:18:05<20:36:03,  1.32it/s]                                                            2%|▏         | 2150/100000 [1:18:05<20:36:03,  1.32it/s]  2%|▏         | 2151/100000 [1:18:06<20:16:36,  1.34it/s]                                                            2%|▏         | 2151/100000 [1:18:06<20:16:36,  1.34it/s]  2%|▏         | 2152/100000 [1:18:07<19:14:51,  1.41it/s]                                                            2%|▏         | 2152/100000 [1:18:07<19:14:51,  1.41it/s]  2%|▏         | 2153/100000 [1:18:07<18:23:53,  1.48it/s]                                                            2%|▏         | 2153/100000 [1:18:07<18:23:53,  1.48it/s]  2%|▏         | 2154/100000 [1:18:08<17:56:18,  1.52it/s]                                                            2%|▏         | 2154/100000 [1:18:08<17:56:18,  1.52it/s]  2%|▏         | 2155/100000 [1:18:15<73:15:30,  2.70s/it]                                                            2%|▏         | 2155/100000 [1:18:16<73:15:30,  2.70s/it]  2%|▏         | 2156/100000 [1:18:17<62:39:23,  2.31s/it]                                                            2%|▏         | 2156/100000 [1:18:17<62:39:23,  2.31s/it]{'loss': 0.2629, 'grad_norm': 1.4640496969223022, 'learning_rate': 6.249000000000001e-06, 'epoch': 13.55}
{'loss': 0.2482, 'grad_norm': 1.278588891029358, 'learning_rate': 6.2520000000000004e-06, 'epoch': 13.56}
{'loss': 0.2331, 'grad_norm': 1.4441179037094116, 'learning_rate': 6.255e-06, 'epoch': 13.56}
{'loss': 0.2208, 'grad_norm': 1.7148765325546265, 'learning_rate': 6.258e-06, 'epoch': 13.57}
{'loss': 0.2414, 'grad_norm': 1.8387800455093384, 'learning_rate': 6.261e-06, 'epoch': 13.58}
{'loss': 0.2152, 'grad_norm': 1.5173238515853882, 'learning_rate': 6.2640000000000005e-06, 'epoch': 13.58}
{'loss': 0.2268, 'grad_norm': 1.4806584119796753, 'learning_rate': 6.267e-06, 'epoch': 13.59}
{'loss': 0.2119, 'grad_norm': 1.2600358724594116, 'learning_rate': 6.27e-06, 'epoch': 13.6}
{'loss': 0.205, 'grad_norm': 1.3748910427093506, 'learning_rate': 6.273000000000001e-06, 'epoch': 13.6}
{'loss': 0.2296, 'grad_norm': 1.4664684534072876, 'learning_rate': 6.276e-06, 'epoch': 13.61}
{'loss': 0.2046, 'grad_norm': 1.5730559825897217, 'learning_rate': 6.279e-06, 'epoch': 13.62}
{'loss': 0.1879, 'grad_norm': 1.8649457693099976, 'learning_rate': 6.282e-06, 'epoch': 13.62}
{'loss': 0.2323, 'grad_norm': 1.9580007791519165, 'learning_rate': 6.285e-06, 'epoch': 13.63}
{'loss': 0.2403, 'grad_norm': 1.2781633138656616, 'learning_rate': 6.288000000000001e-06, 'epoch': 13.64}
{'loss': 0.2049, 'grad_norm': 1.3123588562011719, 'learning_rate': 6.291e-06, 'epoch': 13.64}
{'loss': 0.2028, 'grad_norm': 1.7932077646255493, 'learning_rate': 6.293999999999999e-06, 'epoch': 13.65}
{'loss': 0.2107, 'grad_norm': 1.9753022193908691, 'learning_rate': 6.297e-06, 'epoch': 13.66}
{'loss': 0.2175, 'grad_norm': 2.3632917404174805, 'learning_rate': 6.3e-06, 'epoch': 13.66}
{'loss': 0.1544, 'grad_norm': 1.5080097913742065, 'learning_rate': 6.3030000000000005e-06, 'epoch': 13.67}
{'loss': 0.4227, 'grad_norm': 2.6762821674346924, 'learning_rate': 6.306e-06, 'epoch': 13.68}
{'loss': 0.2612, 'grad_norm': 2.082754135131836, 'learning_rate': 6.309e-06, 'epoch': 13.68}
{'loss': 0.1898, 'grad_norm': 2.024540662765503, 'learning_rate': 6.312e-06, 'epoch': 13.69}
{'loss': 0.2125, 'grad_norm': 2.174758195877075, 'learning_rate': 6.315e-06, 'epoch': 13.69}
{'loss': 0.235, 'grad_norm': 2.0210421085357666, 'learning_rate': 6.318e-06, 'epoch': 13.7}
{'loss': 0.2386, 'grad_norm': 2.3806650638580322, 'learning_rate': 6.321e-06, 'epoch': 13.71}
{'loss': 0.1969, 'grad_norm': 2.3162107467651367, 'learning_rate': 6.324e-06, 'epoch': 13.71}
{'loss': 0.2283, 'grad_norm': 2.9894726276397705, 'learning_rate': 6.327000000000001e-06, 'epoch': 13.72}
{'loss': 0.2648, 'grad_norm': 3.7381532192230225, 'learning_rate': 6.3299999999999995e-06, 'epoch': 13.73}
{'loss': 0.2415, 'grad_norm': 2.820521831512451, 'learning_rate': 6.333e-06, 'epoch': 13.73}
{'loss': 0.2891, 'grad_norm': 3.7817013263702393, 'learning_rate': 6.336e-06, 'epoch': 13.74}
{'loss': 0.5536, 'grad_norm': 4.837800979614258, 'learning_rate': 6.339e-06, 'epoch': 13.75}
{'loss': 0.4631, 'grad_norm': 2.408449172973633, 'learning_rate': 6.3420000000000004e-06, 'epoch': 13.75}
{'loss': 0.3918, 'grad_norm': 1.8104344606399536, 'learning_rate': 6.345e-06, 'epoch': 13.76}
{'loss': 0.3525, 'grad_norm': 2.0570878982543945, 'learning_rate': 6.348000000000001e-06, 'epoch': 13.77}
{'loss': 0.3574, 'grad_norm': 1.6082874536514282, 'learning_rate': 6.351e-06, 'epoch': 13.77}
{'loss': 0.3203, 'grad_norm': 1.1766159534454346, 'learning_rate': 6.354e-06, 'epoch': 13.78}
{'loss': 0.2715, 'grad_norm': 1.5388365983963013, 'learning_rate': 6.357e-06, 'epoch': 13.79}
{'loss': 0.3046, 'grad_norm': 1.2904053926467896, 'learning_rate': 6.36e-06, 'epoch': 13.79}
{'loss': 0.3351, 'grad_norm': 3.559760570526123, 'learning_rate': 6.363000000000001e-06, 'epoch': 13.8}
{'loss': 0.274, 'grad_norm': 2.183765411376953, 'learning_rate': 6.3660000000000005e-06, 'epoch': 13.81}
{'loss': 0.2207, 'grad_norm': 1.0662004947662354, 'learning_rate': 6.3689999999999995e-06, 'epoch': 13.81}
{'loss': 0.1975, 'grad_norm': 1.327785849571228, 'learning_rate': 6.372e-06, 'epoch': 13.82}
{'loss': 0.2859, 'grad_norm': 1.7854368686676025, 'learning_rate': 6.375e-06, 'epoch': 13.82}
{'loss': 0.1889, 'grad_norm': 0.9711621403694153, 'learning_rate': 6.378000000000001e-06, 'epoch': 13.83}
{'loss': 0.2254, 'grad_norm': 1.8566932678222656, 'learning_rate': 6.381e-06, 'epoch': 13.84}
{'loss': 0.1698, 'grad_norm': 1.183463215827942, 'learning_rate': 6.384e-06, 'epoch': 13.84}
{'loss': 0.2729, 'grad_norm': 1.3121901750564575, 'learning_rate': 6.387e-06, 'epoch': 13.85}
{'loss': 0.2235, 'grad_norm': 1.4069793224334717, 'learning_rate': 6.39e-06, 'epoch': 13.86}
{'loss': 0.1932, 'grad_norm': 1.7789791822433472, 'learning_rate': 6.3930000000000005e-06, 'epoch': 13.86}
{'loss': 0.2452, 'grad_norm': 1.8021546602249146, 'learning_rate': 6.396e-06, 'epoch': 13.87}
{'loss': 0.2134, 'grad_norm': 2.001303195953369, 'learning_rate': 6.399e-06, 'epoch': 13.88}
{'loss': 0.2026, 'grad_norm': 1.8349276781082153, 'learning_rate': 6.402000000000001e-06, 'epoch': 13.88}
{'loss': 0.3391, 'grad_norm': 1.8309541940689087, 'learning_rate': 6.405e-06, 'epoch': 13.89}
{'loss': 0.285, 'grad_norm': 2.0160224437713623, 'learning_rate': 6.408e-06, 'epoch': 13.9}
{'loss': 0.1491, 'grad_norm': 1.362784504890442, 'learning_rate': 6.411e-06, 'epoch': 13.9}
{'loss': 0.2176, 'grad_norm': 2.330334424972534, 'learning_rate': 6.414e-06, 'epoch': 13.91}
{'loss': 0.272, 'grad_norm': 2.397144079208374, 'learning_rate': 6.4170000000000006e-06, 'epoch': 13.92}
{'loss': 0.1837, 'grad_norm': 1.5012102127075195, 'learning_rate': 6.42e-06, 'epoch': 13.92}
{'loss': 0.252, 'grad_norm': 1.9125046730041504, 'learning_rate': 6.423e-06, 'epoch': 13.93}
{'loss': 0.232, 'grad_norm': 7.002713680267334, 'learning_rate': 6.426e-06, 'epoch': 13.94}
{'loss': 0.1906, 'grad_norm': 2.110388994216919, 'learning_rate': 6.429e-06, 'epoch': 13.94}
{'loss': 0.2043, 'grad_norm': 2.945448875427246, 'learning_rate': 6.432e-06, 'epoch': 13.95}
{'loss': 0.1584, 'grad_norm': 2.8906352519989014, 'learning_rate': 6.435e-06, 'epoch': 13.95}
{'loss': 0.2184, 'grad_norm': 2.399963855743408, 'learning_rate': 6.438000000000001e-06, 'epoch': 13.96}
{'loss': 0.2622, 'grad_norm': 2.7939212322235107, 'learning_rate': 6.441e-06, 'epoch': 13.97}
{'loss': 0.2705, 'grad_norm': 2.9931254386901855, 'learning_rate': 6.444e-06, 'epoch': 13.97}
{'loss': 0.2242, 'grad_norm': 3.1694018840789795, 'learning_rate': 6.447e-06, 'epoch': 13.98}
{'loss': 0.2831, 'grad_norm': 3.4117467403411865, 'learning_rate': 6.45e-06, 'epoch': 13.99}
{'loss': 0.2464, 'grad_norm': 1.5170115232467651, 'learning_rate': 6.453000000000001e-06, 'epoch': 13.99}
{'loss': 0.1672, 'grad_norm': 1.644148588180542, 'learning_rate': 6.4560000000000005e-06, 'epoch': 14.0}
  2%|▏         | 2157/100000 [1:18:35<187:36:29,  6.90s/it]                                                             2%|▏         | 2157/100000 [1:18:35<187:36:29,  6.90s/it]  2%|▏         | 2158/100000 [1:18:43<199:47:34,  7.35s/it]                                                             2%|▏         | 2158/100000 [1:18:43<199:47:34,  7.35s/it]  2%|▏         | 2159/100000 [1:18:49<187:43:11,  6.91s/it]                                                             2%|▏         | 2159/100000 [1:18:49<187:43:11,  6.91s/it]  2%|▏         | 2160/100000 [1:18:54<170:29:51,  6.27s/it]                                                             2%|▏         | 2160/100000 [1:18:54<170:29:51,  6.27s/it]  2%|▏         | 2161/100000 [1:18:58<152:30:08,  5.61s/it]                                                             2%|▏         | 2161/100000 [1:18:58<152:30:08,  5.61s/it]  2%|▏         | 2162/100000 [1:19:01<135:25:09,  4.98s/it]                                                             2%|▏         | 2162/100000 [1:19:01<135:25:09,  4.98s/it]  2%|▏         | 2163/100000 [1:19:04<120:15:16,  4.42s/it]                                                             2%|▏         | 2163/100000 [1:19:04<120:15:16,  4.42s/it]  2%|▏         | 2164/100000 [1:19:07<106:13:59,  3.91s/it]                                                             2%|▏         | 2164/100000 [1:19:07<106:13:59,  3.91s/it]  2%|▏         | 2165/100000 [1:19:09<94:02:10,  3.46s/it]                                                             2%|▏         | 2165/100000 [1:19:09<94:02:10,  3.46s/it]  2%|▏         | 2166/100000 [1:19:12<83:50:55,  3.09s/it]                                                            2%|▏         | 2166/100000 [1:19:12<83:50:55,  3.09s/it]  2%|▏         | 2167/100000 [1:19:14<75:15:26,  2.77s/it]                                                            2%|▏         | 2167/100000 [1:19:14<75:15:26,  2.77s/it]  2%|▏         | 2168/100000 [1:19:16<68:14:04,  2.51s/it]                                                            2%|▏         | 2168/100000 [1:19:16<68:14:04,  2.51s/it]  2%|▏         | 2169/100000 [1:19:17<62:05:58,  2.29s/it]                                                            2%|▏         | 2169/100000 [1:19:17<62:05:58,  2.29s/it]  2%|▏         | 2170/100000 [1:19:19<56:56:55,  2.10s/it]                                                            2%|▏         | 2170/100000 [1:19:19<56:56:55,  2.10s/it]  2%|▏         | 2171/100000 [1:19:21<52:45:23,  1.94s/it]                                                            2%|▏         | 2171/100000 [1:19:21<52:45:23,  1.94s/it]  2%|▏         | 2172/100000 [1:19:22<49:19:19,  1.82s/it]                                                            2%|▏         | 2172/100000 [1:19:22<49:19:19,  1.82s/it]  2%|▏         | 2173/100000 [1:19:24<46:17:55,  1.70s/it]                                                            2%|▏         | 2173/100000 [1:19:24<46:17:55,  1.70s/it]  2%|▏         | 2174/100000 [1:19:25<43:36:51,  1.61s/it]                                                            2%|▏         | 2174/100000 [1:19:25<43:36:51,  1.61s/it]  2%|▏         | 2175/100000 [1:19:26<41:05:15,  1.51s/it]                                                            2%|▏         | 2175/100000 [1:19:26<41:05:15,  1.51s/it]  2%|▏         | 2176/100000 [1:19:27<39:05:19,  1.44s/it]                                                            2%|▏         | 2176/100000 [1:19:27<39:05:19,  1.44s/it]  2%|▏         | 2177/100000 [1:19:29<37:08:43,  1.37s/it]                                                            2%|▏         | 2177/100000 [1:19:29<37:08:43,  1.37s/it]  2%|▏         | 2178/100000 [1:19:30<35:00:17,  1.29s/it]                                                            2%|▏         | 2178/100000 [1:19:30<35:00:17,  1.29s/it]  2%|▏         | 2179/100000 [1:19:31<33:17:31,  1.23s/it]                                                            2%|▏         | 2179/100000 [1:19:31<33:17:31,  1.23s/it]  2%|▏         | 2180/100000 [1:19:32<32:01:02,  1.18s/it]                                                            2%|▏         | 2180/100000 [1:19:32<32:01:02,  1.18s/it]  2%|▏         | 2181/100000 [1:19:33<30:45:55,  1.13s/it]                                                            2%|▏         | 2181/100000 [1:19:33<30:45:55,  1.13s/it]  2%|▏         | 2182/100000 [1:19:34<29:00:08,  1.07s/it]                                                            2%|▏         | 2182/100000 [1:19:34<29:00:08,  1.07s/it]  2%|▏         | 2183/100000 [1:19:35<27:45:38,  1.02s/it]                                                            2%|▏         | 2183/100000 [1:19:35<27:45:38,  1.02s/it]  2%|▏         | 2184/100000 [1:19:36<26:53:55,  1.01it/s]                                                            2%|▏         | 2184/100000 [1:19:36<26:53:55,  1.01it/s]  2%|▏         | 2185/100000 [1:19:37<25:44:50,  1.06it/s]                                                            2%|▏         | 2185/100000 [1:19:37<25:44:50,  1.06it/s]  2%|▏         | 2186/100000 [1:19:37<24:41:26,  1.10it/s]                                                            2%|▏         | 2186/100000 [1:19:37<24:41:26,  1.10it/s]  2%|▏         | 2187/100000 [1:19:38<23:42:48,  1.15it/s]                                                            2%|▏         | 2187/100000 [1:19:38<23:42:48,  1.15it/s]  2%|▏         | 2188/100000 [1:19:39<22:49:12,  1.19it/s]                                                            2%|▏         | 2188/100000 [1:19:39<22:49:12,  1.19it/s]  2%|▏         | 2189/100000 [1:19:40<22:21:20,  1.22it/s]                                                            2%|▏         | 2189/100000 [1:19:40<22:21:20,  1.22it/s]  2%|▏         | 2190/100000 [1:19:40<22:13:50,  1.22it/s]                                                            2%|▏         | 2190/100000 [1:19:40<22:13:50,  1.22it/s]  2%|▏         | 2191/100000 [1:19:41<21:14:06,  1.28it/s]                                                            2%|▏         | 2191/100000 [1:19:41<21:14:06,  1.28it/s]  2%|▏         | 2192/100000 [1:19:42<21:20:43,  1.27it/s]                                                            2%|▏         | 2192/100000 [1:19:42<21:20:43,  1.27it/s]  2%|▏         | 2193/100000 [1:19:43<20:10:53,  1.35it/s]                                                            2%|▏         | 2193/100000 [1:19:43<20:10:53,  1.35it/s]  2%|▏         | 2194/100000 [1:19:43<19:36:46,  1.39it/s]                                                            2%|▏         | 2194/100000 [1:19:43<19:36:46,  1.39it/s]  2%|▏         | 2195/100000 [1:19:56<121:22:37,  4.47s/it]                                                             2%|▏         | 2195/100000 [1:19:57<121:22:37,  4.47s/it]  2%|▏         | 2196/100000 [1:20:04<149:32:50,  5.50s/it]                                                             2%|▏         | 2196/100000 [1:20:04<149:32:50,  5.50s/it]  2%|▏         | 2197/100000 [1:20:10<151:18:34,  5.57s/it]                                                             2%|▏         | 2197/100000 [1:20:10<151:18:34,  5.57s/it]  2%|▏         | 2198/100000 [1:20:15<146:22:13,  5.39s/it]                                                             2%|▏         | 2198/100000 [1:20:15<146:22:13,  5.39s/it]  2%|▏         | 2199/100000 [1:20:19<136:36:36,  5.03s/it]                                                             2%|▏         | 2199/100000 [1:20:19<136:36:36,  5.03s/it]  2%|▏         | 2200/100000 [1:20:23<125:01:19,  4.60s/it]                                                             2%|▏         | 2200/100000 [1:20:23<125:01:19,  4.60s/it]  2%|▏         | 2201/100000 [1:20:26<113:02:30,  4.16s/it]                                                             2%|▏         | 2201/100000 [1:20:26<113:02:30,  4.16s/it]  2%|▏         | 2202/100000 [1:20:29<102:08:25,  3.76s/it]                                                             2%|▏         | 2202/100000 [1:20:29<102:08:25,  3.76s/it]  2%|▏         | 2203/100000 [1:20:31<89:34:19,  3.30s/it]                                                             2%|▏         | 2203/100000 [1:20:31<89:34:19,  3.30s/it]  2%|▏         | 2204/100000 [1:20:33<80:20:45,  2.96s/it]                                                            2%|▏         | 2204/100000 [1:20:33<80:20:45,  2.96s/it]  2%|▏         | 2205/100000 [1:20:35<71:51:49,  2.65s/it]                                                            2%|▏         | 2205/100000 [1:20:35<71:51:49,  2.65s/it]  2%|▏         | 2206/100000 [1:20:37<64:47:43,  2.39s/it]                                                            2%|▏         | 2206/100000 [1:20:37<64:47:43,  2.39s/it]  2%|▏         | 2207/100000 [1:20:39<59:35:07,  2.19s/it]                                                            2%|▏         | 2207/100000 [1:20:39<59:35:07,  2.19s/it]  2%|▏         | 2208/100000 [1:20:40<54:41:36,  2.01s/it]                                                            2%|▏         | 2208/100000 [1:20:40<54:41:36,  2.01s/it]  2%|▏         | 2209/100000 [1:20:42<51:04:59,  1.88s/it]                                                            2%|▏         | 2209/100000 [1:20:42<51:04:59,  1.88s/it]  2%|▏         | 2210/100000 [1:20:43<47:25:09,  1.75s/it]                                                            2%|▏         | 2210/100000 [1:20:43<47:25:09,  1.75s/it]  2%|▏         | 2211/100000 [1:20:45<44:15:12,  1.63s/it]                                                            2%|▏         | 2211/100000 [1:20:45<44:15:12,  1.63s/it]  2%|▏         | 2212/100000 [1:20:46<41:52:22,  1.54s/it]                                                            2%|▏         | 2212/100000 [1:20:46<41:52:22,  1.54s/it]  2%|▏         | 2213/100000 [1:20:47<39:42:13,  1.46s/it]                                                            2%|▏         | 2213/100000 [1:20:47<39:42:13,  1.46s/it]  2%|▏         | 2214/100000 [1:20:48<37:34:18,  1.38s/it]                                                            2%|▏         | 2214/100000 [1:20:48<37:34:18,  1.38s/it]  2%|▏         | 2215/100000 [1:20:50<35:21:50,  1.30s/it]                                                            2%|▏         | 2215/100000 [1:20:50<35:21:50,  1.30s/it]  2%|▏         | 2216/100000 [1:20:51<33:30:48,  1.23s/it]                                                            2%|▏         | 2216/100000 [1:20:51<33:30:48,  1.23s/it]  2%|▏         | 2217/100000 [1:20:52<31:52:53,  1.17s/it]                                                            2%|▏         | 2217/100000 [1:20:52<31:52:53,  1.17s/it]  2%|▏         | 2218/100000 [1:20:53<30:13:37,  1.11s/it]                                                            2%|▏         | 2218/100000 [1:20:53<30:13:37,  1.11s/it]  2%|▏         | 2219/100000 [1:20:54<28:50:37,  1.06s/it]                                                            2%|▏         | 2219/100000 [1:20:54<28:50:37,  1.06s/it]  2%|▏         | 2220/100000 [1:20:54<27:31:50,  1.01s/it]                                                            2%|▏         | 2220/100000 [1:20:54<27:31:50,  1.01s/it]  2%|▏         | 2221/100000 [1:20:55<26:30:04,  1.02it/s]                                                            2%|▏         | 2221/100000 [1:20:55<26:30:04,  1.02it/s]  2%|▏         | 2222/100000 [1:20:56<25:23:51,  1.07it/s]                                                            2%|▏         | 2222/100000 [1:20:56<25:23:51,  1.07it/s]  2%|▏         | 2223/100000 [1:20:57<24:51:34,  1.09it/s]                                                            2%|▏         | 2223/100000 [1:20:57<24:51:34,  1.09it/s]  2%|▏         | 2224/100000 [1:20:58<24:24:12,  1.11it/s]                                                            2%|▏         | 2224/100000 [1:20:58<24:24:12,  1.11it/s]  2%|▏         | 2225/100000 [1:20:59<23:17:22,  1.17it/s]                                                            2%|▏         | 2225/100000 [1:20:59<23:17:22,  1.17it/s]  2%|▏         | 2226/100000 [1:20:59<22:46:47,  1.19it/s]                                                            2%|▏         | 2226/100000 [1:20:59<22:46:47,  1.19it/s]  2%|▏         | 2227/100000 [1:21:00<22:19:18,  1.22it/s]                                                            2%|▏         | 2227/100000 [1:21:00<22:19:18,  1.22it/s]  2%|▏         | 2228/100000 [1:21:01<21:30:48,  1.26it/s]                                                            2%|▏         | 2228/100000 [1:21:01<21:30:48,  1.26it/s]  2%|▏         | 2229/100000 [1:21:02<21:06:20,  1.29it/s]                                                            2%|▏         | 2229/100000 [1:21:02<21:06:20,  1.29it/s]  2%|▏         | 2230/100000 [1:21:02<20:44:53,  1.31it/s]                                                            2%|▏         | 2230/100000 [1:21:02<20:44:53,  1.31it/s]  2%|▏         | 2231/100000 [1:21:03<20:15:03,  1.34it/s]                                                            2%|▏         | 2231/100000 [1:21:03<20:15:03,  1.34it/s]  2%|▏         | 2232/100000 [1:21:04<19:38:31,  1.38it/s]                                                            2%|▏         | 2232/100000 [1:21:04<19:38:31,  1.38it/s]  2%|▏         | 2233/100000 [1:21:16<108:41:18,  4.00s/it]                                                             2%|▏         | 2233/100000 [1:21:16<108:41:18,  4.00s/it]  2%|▏         | 2234/100000 [1:21:22<132:10:53,  4.87s/it]                                                             2%|▏         | 2234/100000 [1:21:22<132:10:53,  4.87s/it]  2%|▏         | 2235/100000 [1:21:28<134:50:49,  4.97s/it]                                                             2%|▏         | 2235/100000 [1:21:28<134:50:49,  4.97s/it]  2%|▏         | 2236/100000 [1:21:32<130:04:16,  4.79s/it]                                                             2%|▏         | 2236/100000 [1:21:32<130:04:16,  4.79s/it]  2%|▏         | 2237/100000 [1:21:36<122:18:06,  4.50s/it]                                                             2%|▏         | 2237/100000 [1:21:36<122:18:06,  4.50s/it]  2%|▏         | 2238/100000 [1:21:39<113:39:28,  4.19s/it]                                                             2%|▏         | 2238/100000 [1:21:39<113:39:28,  4.19s/it]  2%|▏         | 2239/100000 [1:21:42<104:38:03,  3.85s/it]                                                             2%|▏         | 2239/100000 [1:21:42<104:38:03,  3.85s/it]  2%|▏         | 2240/100000 [1:21:45<94:31:48,  3.48s/it]                                                             2%|▏         | 2240/100000 [1:21:45<94:31:48,  3.48s/it]  2%|▏         | 2241/100000 [1:21:47<84:53:10,  3.13s/it]                                                          {'loss': 0.5332, 'grad_norm': 4.028221607208252, 'learning_rate': 6.4589999999999995e-06, 'epoch': 14.01}
{'loss': 0.4276, 'grad_norm': 2.179072141647339, 'learning_rate': 6.462e-06, 'epoch': 14.01}
{'loss': 0.3392, 'grad_norm': 2.015415668487549, 'learning_rate': 6.465e-06, 'epoch': 14.02}
{'loss': 0.3609, 'grad_norm': 2.1520307064056396, 'learning_rate': 6.468000000000001e-06, 'epoch': 14.03}
{'loss': 0.3198, 'grad_norm': 1.3960522413253784, 'learning_rate': 6.471e-06, 'epoch': 14.03}
{'loss': 0.308, 'grad_norm': 1.5573376417160034, 'learning_rate': 6.474e-06, 'epoch': 14.04}
{'loss': 0.3185, 'grad_norm': 1.5389072895050049, 'learning_rate': 6.477000000000001e-06, 'epoch': 14.05}
{'loss': 0.2868, 'grad_norm': 1.6435863971710205, 'learning_rate': 6.48e-06, 'epoch': 14.05}
{'loss': 0.234, 'grad_norm': 1.9757108688354492, 'learning_rate': 6.483e-06, 'epoch': 14.06}
{'loss': 0.2798, 'grad_norm': 4.728816986083984, 'learning_rate': 6.486e-06, 'epoch': 14.06}
{'loss': 0.1984, 'grad_norm': 2.1868081092834473, 'learning_rate': 6.489e-06, 'epoch': 14.07}
{'loss': 0.2213, 'grad_norm': 2.002558946609497, 'learning_rate': 6.492000000000001e-06, 'epoch': 14.08}
{'loss': 0.201, 'grad_norm': 1.4887889623641968, 'learning_rate': 6.4950000000000005e-06, 'epoch': 14.08}
{'loss': 0.1617, 'grad_norm': 0.9493610262870789, 'learning_rate': 6.4979999999999994e-06, 'epoch': 14.09}
{'loss': 0.2423, 'grad_norm': 1.686373233795166, 'learning_rate': 6.501e-06, 'epoch': 14.1}
{'loss': 0.2026, 'grad_norm': 1.2690707445144653, 'learning_rate': 6.504e-06, 'epoch': 14.1}
{'loss': 0.2016, 'grad_norm': 1.7778044939041138, 'learning_rate': 6.5070000000000005e-06, 'epoch': 14.11}
{'loss': 0.1669, 'grad_norm': 1.3013368844985962, 'learning_rate': 6.51e-06, 'epoch': 14.12}
{'loss': 0.187, 'grad_norm': 1.5632472038269043, 'learning_rate': 6.513e-06, 'epoch': 14.12}
{'loss': 0.1829, 'grad_norm': 1.2984377145767212, 'learning_rate': 6.516e-06, 'epoch': 14.13}
{'loss': 0.2099, 'grad_norm': 2.090730905532837, 'learning_rate': 6.519e-06, 'epoch': 14.14}
{'loss': 0.1931, 'grad_norm': 1.7640655040740967, 'learning_rate': 6.522e-06, 'epoch': 14.14}
{'loss': 0.1992, 'grad_norm': 1.5545501708984375, 'learning_rate': 6.525e-06, 'epoch': 14.15}
{'loss': 0.288, 'grad_norm': 1.396971344947815, 'learning_rate': 6.528e-06, 'epoch': 14.16}
{'loss': 0.2589, 'grad_norm': 1.649460792541504, 'learning_rate': 6.531000000000001e-06, 'epoch': 14.16}
{'loss': 0.2227, 'grad_norm': 3.376103639602661, 'learning_rate': 6.534e-06, 'epoch': 14.17}
{'loss': 0.1926, 'grad_norm': 1.9444024562835693, 'learning_rate': 6.537e-06, 'epoch': 14.18}
{'loss': 0.1957, 'grad_norm': 1.7908859252929688, 'learning_rate': 6.54e-06, 'epoch': 14.18}
{'loss': 0.2089, 'grad_norm': 1.442683219909668, 'learning_rate': 6.543e-06, 'epoch': 14.19}
{'loss': 0.2249, 'grad_norm': 2.4174842834472656, 'learning_rate': 6.5460000000000005e-06, 'epoch': 14.19}
{'loss': 0.1818, 'grad_norm': 2.218432664871216, 'learning_rate': 6.549e-06, 'epoch': 14.2}
{'loss': 0.1811, 'grad_norm': 1.76146399974823, 'learning_rate': 6.552e-06, 'epoch': 14.21}
{'loss': 0.2109, 'grad_norm': 2.9778201580047607, 'learning_rate': 6.555e-06, 'epoch': 14.21}
{'loss': 0.1774, 'grad_norm': 2.215585470199585, 'learning_rate': 6.558e-06, 'epoch': 14.22}
{'loss': 0.1956, 'grad_norm': 2.60722279548645, 'learning_rate': 6.561e-06, 'epoch': 14.23}
{'loss': 0.2078, 'grad_norm': 2.5366289615631104, 'learning_rate': 6.564e-06, 'epoch': 14.23}
{'loss': 0.1934, 'grad_norm': 3.178586483001709, 'learning_rate': 6.567000000000001e-06, 'epoch': 14.24}
{'loss': 0.2679, 'grad_norm': 3.5759799480438232, 'learning_rate': 6.57e-06, 'epoch': 14.25}
{'loss': 0.4948, 'grad_norm': 3.3431506156921387, 'learning_rate': 6.573e-06, 'epoch': 14.25}
{'loss': 0.4276, 'grad_norm': 2.6312928199768066, 'learning_rate': 6.576e-06, 'epoch': 14.26}
{'loss': 0.3909, 'grad_norm': 1.286041021347046, 'learning_rate': 6.579e-06, 'epoch': 14.27}
{'loss': 0.3266, 'grad_norm': 1.21199631690979, 'learning_rate': 6.582000000000001e-06, 'epoch': 14.27}
{'loss': 0.3728, 'grad_norm': 2.026928186416626, 'learning_rate': 6.5850000000000005e-06, 'epoch': 14.28}
{'loss': 0.3126, 'grad_norm': 1.6292552947998047, 'learning_rate': 6.5879999999999994e-06, 'epoch': 14.29}
{'loss': 0.2831, 'grad_norm': 1.3592000007629395, 'learning_rate': 6.591e-06, 'epoch': 14.29}
{'loss': 0.2955, 'grad_norm': 1.2211850881576538, 'learning_rate': 6.594e-06, 'epoch': 14.3}
{'loss': 0.3394, 'grad_norm': 1.4730700254440308, 'learning_rate': 6.5970000000000005e-06, 'epoch': 14.31}
{'loss': 0.2023, 'grad_norm': 1.0579414367675781, 'learning_rate': 6.6e-06, 'epoch': 14.31}
{'loss': 0.1885, 'grad_norm': 1.0300257205963135, 'learning_rate': 6.603e-06, 'epoch': 14.32}
{'loss': 0.1908, 'grad_norm': 1.1649492979049683, 'learning_rate': 6.606000000000001e-06, 'epoch': 14.32}
{'loss': 0.2199, 'grad_norm': 1.4190746545791626, 'learning_rate': 6.609e-06, 'epoch': 14.33}
{'loss': 0.195, 'grad_norm': 1.3797053098678589, 'learning_rate': 6.612e-06, 'epoch': 14.34}
{'loss': 0.1947, 'grad_norm': 1.1283535957336426, 'learning_rate': 6.615e-06, 'epoch': 14.34}
{'loss': 0.2583, 'grad_norm': 1.9229621887207031, 'learning_rate': 6.618e-06, 'epoch': 14.35}
{'loss': 0.1911, 'grad_norm': 1.4006534814834595, 'learning_rate': 6.621000000000001e-06, 'epoch': 14.36}
{'loss': 0.1831, 'grad_norm': 1.0434263944625854, 'learning_rate': 6.6240000000000004e-06, 'epoch': 14.36}
{'loss': 0.2031, 'grad_norm': 1.2128527164459229, 'learning_rate': 6.627e-06, 'epoch': 14.37}
{'loss': 0.1661, 'grad_norm': 1.1033270359039307, 'learning_rate': 6.63e-06, 'epoch': 14.38}
{'loss': 0.2534, 'grad_norm': 1.4941924810409546, 'learning_rate': 6.633e-06, 'epoch': 14.38}
{'loss': 0.1795, 'grad_norm': 1.2583366632461548, 'learning_rate': 6.6360000000000005e-06, 'epoch': 14.39}
{'loss': 0.3021, 'grad_norm': 1.5941240787506104, 'learning_rate': 6.639e-06, 'epoch': 14.4}
{'loss': 0.2668, 'grad_norm': 1.6976436376571655, 'learning_rate': 6.642000000000001e-06, 'epoch': 14.4}
{'loss': 0.1717, 'grad_norm': 2.333980083465576, 'learning_rate': 6.645e-06, 'epoch': 14.41}
{'loss': 0.166, 'grad_norm': 2.5006415843963623, 'learning_rate': 6.648e-06, 'epoch': 14.42}
{'loss': 0.2017, 'grad_norm': 2.5663394927978516, 'learning_rate': 6.651e-06, 'epoch': 14.42}
{'loss': 0.2497, 'grad_norm': 2.327162265777588, 'learning_rate': 6.654e-06, 'epoch': 14.43}
{'loss': 0.2226, 'grad_norm': 1.7488468885421753, 'learning_rate': 6.657e-06, 'epoch': 14.44}
{'loss': 0.1742, 'grad_norm': 2.150444746017456, 'learning_rate': 6.660000000000001e-06, 'epoch': 14.44}
{'loss': 0.1402, 'grad_norm': 1.6294419765472412, 'learning_rate': 6.6629999999999996e-06, 'epoch': 14.45}
{'loss': 0.2273, 'grad_norm': 2.3716349601745605, 'learning_rate': 6.666e-06, 'epoch': 14.45}
{'loss': 0.1864, 'grad_norm': 2.035064458847046, 'learning_rate': 6.669e-06, 'epoch': 14.46}
{'loss': 0.2075, 'grad_norm': 2.2682383060455322, 'learning_rate': 6.672e-06, 'epoch': 14.47}
{'loss': 0.2292, 'grad_norm': 3.328559160232544, 'learning_rate': 6.6750000000000005e-06, 'epoch': 14.47}
{'loss': 0.3162, 'grad_norm': 3.2998173236846924, 'learning_rate': 6.678e-06, 'epoch': 14.48}
{'loss': 0.1737, 'grad_norm': 3.3033859729766846, 'learning_rate': 6.681e-06, 'epoch': 14.49}
{'loss': 0.3731, 'grad_norm': 3.6590819358825684, 'learning_rate': 6.684e-06, 'epoch': 14.49}
{'loss': 0.4682, 'grad_norm': 1.8368040323257446, 'learning_rate': 6.687e-06, 'epoch': 14.5}
{'loss': 0.4156, 'grad_norm': 1.3937015533447266, 'learning_rate': 6.69e-06, 'epoch': 14.51}
{'loss': 0.3816, 'grad_norm': 1.912153959274292, 'learning_rate': 6.693e-06, 'epoch': 14.51}
{'loss': 0.3487, 'grad_norm': 1.9780528545379639, 'learning_rate': 6.696000000000001e-06, 'epoch': 14.52}
{'loss': 0.3029, 'grad_norm': 1.2205686569213867, 'learning_rate': 6.699e-06, 'epoch': 14.53}
{'loss': 0.2701, 'grad_norm': 0.9854109287261963, 'learning_rate': 6.7019999999999995e-06, 'epoch': 14.53}
{'loss': 0.3415, 'grad_norm': 1.8374882936477661, 'learning_rate': 6.705e-06, 'epoch': 14.54}
{'loss': 0.2545, 'grad_norm': 1.3125412464141846, 'learning_rate': 6.708e-06, 'epoch': 14.55}
  2%|▏         | 2241/100000 [1:21:47<84:53:10,  3.13s/it]  2%|▏         | 2242/100000 [1:21:49<76:42:13,  2.82s/it]                                                            2%|▏         | 2242/100000 [1:21:49<76:42:13,  2.82s/it]  2%|▏         | 2243/100000 [1:21:51<69:39:49,  2.57s/it]                                                            2%|▏         | 2243/100000 [1:21:51<69:39:49,  2.57s/it]  2%|▏         | 2244/100000 [1:21:53<63:37:27,  2.34s/it]                                                            2%|▏         | 2244/100000 [1:21:53<63:37:27,  2.34s/it]  2%|▏         | 2245/100000 [1:21:55<58:05:27,  2.14s/it]                                                            2%|▏         | 2245/100000 [1:21:55<58:05:27,  2.14s/it]  2%|▏         | 2246/100000 [1:21:56<53:54:21,  1.99s/it]                                                            2%|▏         | 2246/100000 [1:21:56<53:54:21,  1.99s/it]  2%|▏         | 2247/100000 [1:21:58<50:14:38,  1.85s/it]                                                            2%|▏         | 2247/100000 [1:21:58<50:14:38,  1.85s/it]  2%|▏         | 2248/100000 [1:21:59<46:50:53,  1.73s/it]                                                            2%|▏         | 2248/100000 [1:21:59<46:50:53,  1.73s/it]  2%|▏         | 2249/100000 [1:22:01<43:54:40,  1.62s/it]                                                            2%|▏         | 2249/100000 [1:22:01<43:54:40,  1.62s/it]  2%|▏         | 2250/100000 [1:22:02<41:15:26,  1.52s/it]                                                            2%|▏         | 2250/100000 [1:22:02<41:15:26,  1.52s/it]  2%|▏         | 2251/100000 [1:22:03<39:23:22,  1.45s/it]                                                            2%|▏         | 2251/100000 [1:22:03<39:23:22,  1.45s/it]  2%|▏         | 2252/100000 [1:22:05<37:30:02,  1.38s/it]                                                            2%|▏         | 2252/100000 [1:22:05<37:30:02,  1.38s/it]  2%|▏         | 2253/100000 [1:22:06<35:18:37,  1.30s/it]                                                            2%|▏         | 2253/100000 [1:22:06<35:18:37,  1.30s/it]  2%|▏         | 2254/100000 [1:22:07<33:41:04,  1.24s/it]                                                            2%|▏         | 2254/100000 [1:22:07<33:41:04,  1.24s/it]  2%|▏         | 2255/100000 [1:22:08<32:11:08,  1.19s/it]                                                            2%|▏         | 2255/100000 [1:22:08<32:11:08,  1.19s/it]  2%|▏         | 2256/100000 [1:22:09<30:38:23,  1.13s/it]                                                            2%|▏         | 2256/100000 [1:22:09<30:38:23,  1.13s/it]  2%|▏         | 2257/100000 [1:22:10<29:11:46,  1.08s/it]                                                            2%|▏         | 2257/100000 [1:22:10<29:11:46,  1.08s/it]  2%|▏         | 2258/100000 [1:22:11<28:13:54,  1.04s/it]                                                            2%|▏         | 2258/100000 [1:22:11<28:13:54,  1.04s/it]  2%|▏         | 2259/100000 [1:22:12<27:15:54,  1.00s/it]                                                            2%|▏         | 2259/100000 [1:22:12<27:15:54,  1.00s/it]  2%|▏         | 2260/100000 [1:22:13<26:36:48,  1.02it/s]                                                            2%|▏         | 2260/100000 [1:22:13<26:36:48,  1.02it/s]  2%|▏         | 2261/100000 [1:22:13<25:51:14,  1.05it/s]                                                            2%|▏         | 2261/100000 [1:22:13<25:51:14,  1.05it/s]  2%|▏         | 2262/100000 [1:22:14<25:25:13,  1.07it/s]                                                            2%|▏         | 2262/100000 [1:22:14<25:25:13,  1.07it/s]  2%|▏         | 2263/100000 [1:22:15<24:55:25,  1.09it/s]                                                            2%|▏         | 2263/100000 [1:22:15<24:55:25,  1.09it/s]  2%|▏         | 2264/100000 [1:22:16<24:43:43,  1.10it/s]                                                            2%|▏         | 2264/100000 [1:22:16<24:43:43,  1.10it/s]  2%|▏         | 2265/100000 [1:22:17<23:36:00,  1.15it/s]                                                            2%|▏         | 2265/100000 [1:22:17<23:36:00,  1.15it/s]  2%|▏         | 2266/100000 [1:22:18<23:13:29,  1.17it/s]                                                            2%|▏         | 2266/100000 [1:22:18<23:13:29,  1.17it/s]  2%|▏         | 2267/100000 [1:22:19<22:36:30,  1.20it/s]                                                            2%|▏         | 2267/100000 [1:22:19<22:36:30,  1.20it/s]  2%|▏         | 2268/100000 [1:22:19<22:14:07,  1.22it/s]                                                            2%|▏         | 2268/100000 [1:22:19<22:14:07,  1.22it/s]  2%|▏         | 2269/100000 [1:22:20<21:39:40,  1.25it/s]                                                            2%|▏         | 2269/100000 [1:22:20<21:39:40,  1.25it/s]  2%|▏         | 2270/100000 [1:22:21<20:47:56,  1.31it/s]                                                            2%|▏         | 2270/100000 [1:22:21<20:47:56,  1.31it/s]  2%|▏         | 2271/100000 [1:22:34<120:24:18,  4.44s/it]                                                             2%|▏         | 2271/100000 [1:22:34<120:24:18,  4.44s/it]  2%|▏         | 2272/100000 [1:22:41<145:02:29,  5.34s/it]                                                             2%|▏         | 2272/100000 [1:22:41<145:02:29,  5.34s/it]  2%|▏         | 2273/100000 [1:22:46<141:39:31,  5.22s/it]                                                             2%|▏         | 2273/100000 [1:22:46<141:39:31,  5.22s/it]  2%|▏         | 2274/100000 [1:22:51<136:15:00,  5.02s/it]                                                             2%|▏         | 2274/100000 [1:22:51<136:15:00,  5.02s/it]  2%|▏         | 2275/100000 [1:22:55<127:14:39,  4.69s/it]                                                             2%|▏         | 2275/100000 [1:22:55<127:14:39,  4.69s/it]  2%|▏         | 2276/100000 [1:22:58<117:02:45,  4.31s/it]                                                             2%|▏         | 2276/100000 [1:22:58<117:02:45,  4.31s/it]  2%|▏         | 2277/100000 [1:23:01<104:52:45,  3.86s/it]                                                             2%|▏         | 2277/100000 [1:23:01<104:52:45,  3.86s/it]  2%|▏         | 2278/100000 [1:23:03<94:07:24,  3.47s/it]                                                             2%|▏         | 2278/100000 [1:23:03<94:07:24,  3.47s/it]  2%|▏         | 2279/100000 [1:23:06<84:35:46,  3.12s/it]                                                            2%|▏         | 2279/100000 [1:23:06<84:35:46,  3.12s/it]  2%|▏         | 2280/100000 [1:23:08<76:10:43,  2.81s/it]                                                            2%|▏         | 2280/100000 [1:23:08<76:10:43,  2.81s/it]  2%|▏         | 2281/100000 [1:23:10<68:52:43,  2.54s/it]                                                            2%|▏         | 2281/100000 [1:23:10<68:52:43,  2.54s/it]  2%|▏         | 2282/100000 [1:23:11<62:53:27,  2.32s/it]                                                            2%|▏         | 2282/100000 [1:23:11<62:53:27,  2.32s/it]  2%|▏         | 2283/100000 [1:23:13<57:15:34,  2.11s/it]                                                            2%|▏         | 2283/100000 [1:23:13<57:15:34,  2.11s/it]  2%|▏         | 2284/100000 [1:23:15<53:19:08,  1.96s/it]                                                            2%|▏         | 2284/100000 [1:23:15<53:19:08,  1.96s/it]  2%|▏         | 2285/100000 [1:23:16<49:59:05,  1.84s/it]                                                            2%|▏         | 2285/100000 [1:23:16<49:59:05,  1.84s/it]  2%|▏         | 2286/100000 [1:23:18<46:40:07,  1.72s/it]                                                            2%|▏         | 2286/100000 [1:23:18<46:40:07,  1.72s/it]  2%|▏         | 2287/100000 [1:23:19<43:52:35,  1.62s/it]                                                            2%|▏         | 2287/100000 [1:23:19<43:52:35,  1.62s/it]  2%|▏         | 2288/100000 [1:23:20<41:23:13,  1.52s/it]                                                            2%|▏         | 2288/100000 [1:23:20<41:23:13,  1.52s/it]  2%|▏         | 2289/100000 [1:23:22<39:11:51,  1.44s/it]                                                            2%|▏         | 2289/100000 [1:23:22<39:11:51,  1.44s/it]  2%|▏         | 2290/100000 [1:23:23<37:27:05,  1.38s/it]                                                            2%|▏         | 2290/100000 [1:23:23<37:27:05,  1.38s/it]  2%|▏         | 2291/100000 [1:23:24<35:18:54,  1.30s/it]                                                            2%|▏         | 2291/100000 [1:23:24<35:18:54,  1.30s/it]  2%|▏         | 2292/100000 [1:23:25<33:28:59,  1.23s/it]                                                            2%|▏         | 2292/100000 [1:23:25<33:28:59,  1.23s/it]  2%|▏         | 2293/100000 [1:23:26<31:32:07,  1.16s/it]                                                            2%|▏         | 2293/100000 [1:23:26<31:32:07,  1.16s/it]  2%|▏         | 2294/100000 [1:23:27<30:07:35,  1.11s/it]                                                            2%|▏         | 2294/100000 [1:23:27<30:07:35,  1.11s/it]  2%|▏         | 2295/100000 [1:23:28<28:27:53,  1.05s/it]                                                            2%|▏         | 2295/100000 [1:23:28<28:27:53,  1.05s/it]  2%|▏         | 2296/100000 [1:23:29<27:17:54,  1.01s/it]                                                            2%|▏         | 2296/100000 [1:23:29<27:17:54,  1.01s/it]  2%|▏         | 2297/100000 [1:23:30<26:19:35,  1.03it/s]                                                            2%|▏         | 2297/100000 [1:23:30<26:19:35,  1.03it/s]  2%|▏         | 2298/100000 [1:23:31<25:31:17,  1.06it/s]                                                            2%|▏         | 2298/100000 [1:23:31<25:31:17,  1.06it/s]  2%|▏         | 2299/100000 [1:23:31<24:25:55,  1.11it/s]                                                            2%|▏         | 2299/100000 [1:23:31<24:25:55,  1.11it/s]  2%|▏         | 2300/100000 [1:23:32<23:33:09,  1.15it/s]                                                            2%|▏         | 2300/100000 [1:23:32<23:33:09,  1.15it/s]  2%|▏         | 2301/100000 [1:23:33<22:33:59,  1.20it/s]                                                            2%|▏         | 2301/100000 [1:23:33<22:33:59,  1.20it/s]  2%|▏         | 2302/100000 [1:23:34<21:44:08,  1.25it/s]                                                            2%|▏         | 2302/100000 [1:23:34<21:44:08,  1.25it/s]  2%|▏         | 2303/100000 [1:23:34<20:51:26,  1.30it/s]                                                            2%|▏         | 2303/100000 [1:23:34<20:51:26,  1.30it/s]  2%|▏         | 2304/100000 [1:23:35<20:34:07,  1.32it/s]                                                            2%|▏         | 2304/100000 [1:23:35<20:34:07,  1.32it/s]  2%|▏         | 2305/100000 [1:23:36<20:11:53,  1.34it/s]                                                            2%|▏         | 2305/100000 [1:23:36<20:11:53,  1.34it/s]  2%|▏         | 2306/100000 [1:23:36<19:11:02,  1.41it/s]                                                            2%|▏         | 2306/100000 [1:23:36<19:11:02,  1.41it/s]  2%|▏         | 2307/100000 [1:23:37<18:30:26,  1.47it/s]                                                            2%|▏         | 2307/100000 [1:23:37<18:30:26,  1.47it/s]  2%|▏         | 2308/100000 [1:23:38<17:14:45,  1.57it/s]                                                            2%|▏         | 2308/100000 [1:23:38<17:14:45,  1.57it/s]  2%|▏         | 2309/100000 [1:23:46<79:03:15,  2.91s/it]                                                            2%|▏         | 2309/100000 [1:23:46<79:03:15,  2.91s/it]  2%|▏         | 2310/100000 [1:23:47<66:34:55,  2.45s/it]                                                            2%|▏         | 2310/100000 [1:23:47<66:34:55,  2.45s/it]{'loss': 0.2057, 'grad_norm': 1.0773950815200806, 'learning_rate': 6.711000000000001e-06, 'epoch': 14.55}
{'loss': 0.2436, 'grad_norm': 1.1039681434631348, 'learning_rate': 6.7140000000000004e-06, 'epoch': 14.56}
{'loss': 0.199, 'grad_norm': 1.172203779220581, 'learning_rate': 6.716999999999999e-06, 'epoch': 14.56}
{'loss': 0.2292, 'grad_norm': 1.1455045938491821, 'learning_rate': 6.72e-06, 'epoch': 14.57}
{'loss': 0.1885, 'grad_norm': 0.9830281138420105, 'learning_rate': 6.723e-06, 'epoch': 14.58}
{'loss': 0.1915, 'grad_norm': 1.0194423198699951, 'learning_rate': 6.7260000000000005e-06, 'epoch': 14.58}
{'loss': 0.2025, 'grad_norm': 1.3704743385314941, 'learning_rate': 6.729e-06, 'epoch': 14.59}
{'loss': 0.1772, 'grad_norm': 1.5115872621536255, 'learning_rate': 6.732e-06, 'epoch': 14.6}
{'loss': 0.1621, 'grad_norm': 1.2651597261428833, 'learning_rate': 6.735000000000001e-06, 'epoch': 14.6}
{'loss': 0.2154, 'grad_norm': 1.4911731481552124, 'learning_rate': 6.738e-06, 'epoch': 14.61}
{'loss': 0.1911, 'grad_norm': 1.2844336032867432, 'learning_rate': 6.741e-06, 'epoch': 14.62}
{'loss': 0.2306, 'grad_norm': 1.5198838710784912, 'learning_rate': 6.744e-06, 'epoch': 14.62}
{'loss': 0.169, 'grad_norm': 1.8110934495925903, 'learning_rate': 6.747e-06, 'epoch': 14.63}
{'loss': 0.2582, 'grad_norm': 1.8560105562210083, 'learning_rate': 6.750000000000001e-06, 'epoch': 14.64}
{'loss': 0.1998, 'grad_norm': 1.9876476526260376, 'learning_rate': 6.753e-06, 'epoch': 14.64}
{'loss': 0.1905, 'grad_norm': 1.7786004543304443, 'learning_rate': 6.756e-06, 'epoch': 14.65}
{'loss': 0.2153, 'grad_norm': 1.702788233757019, 'learning_rate': 6.759e-06, 'epoch': 14.66}
{'loss': 0.197, 'grad_norm': 1.9856536388397217, 'learning_rate': 6.762e-06, 'epoch': 14.66}
{'loss': 0.192, 'grad_norm': 1.6151072978973389, 'learning_rate': 6.7650000000000005e-06, 'epoch': 14.67}
{'loss': 0.3072, 'grad_norm': 2.616748809814453, 'learning_rate': 6.768e-06, 'epoch': 14.68}
{'loss': 0.2293, 'grad_norm': 2.193556547164917, 'learning_rate': 6.771000000000001e-06, 'epoch': 14.68}
{'loss': 0.1914, 'grad_norm': 2.110816717147827, 'learning_rate': 6.774e-06, 'epoch': 14.69}
{'loss': 0.1693, 'grad_norm': 2.0074074268341064, 'learning_rate': 6.777e-06, 'epoch': 14.69}
{'loss': 0.2314, 'grad_norm': 1.968263864517212, 'learning_rate': 6.78e-06, 'epoch': 14.7}
{'loss': 0.2214, 'grad_norm': 2.4521303176879883, 'learning_rate': 6.783e-06, 'epoch': 14.71}
{'loss': 0.155, 'grad_norm': 2.331270217895508, 'learning_rate': 6.786000000000001e-06, 'epoch': 14.71}
{'loss': 0.1669, 'grad_norm': 1.8685963153839111, 'learning_rate': 6.7890000000000006e-06, 'epoch': 14.72}
{'loss': 0.2637, 'grad_norm': 2.7054805755615234, 'learning_rate': 6.7919999999999995e-06, 'epoch': 14.73}
{'loss': 0.1747, 'grad_norm': 2.291569232940674, 'learning_rate': 6.795e-06, 'epoch': 14.73}
{'loss': 0.3505, 'grad_norm': 3.791870594024658, 'learning_rate': 6.798e-06, 'epoch': 14.74}
{'loss': 0.4297, 'grad_norm': 2.070791244506836, 'learning_rate': 6.801000000000001e-06, 'epoch': 14.75}
{'loss': 0.3668, 'grad_norm': 1.292189121246338, 'learning_rate': 6.804e-06, 'epoch': 14.75}
{'loss': 0.3475, 'grad_norm': 1.1063121557235718, 'learning_rate': 6.807e-06, 'epoch': 14.76}
{'loss': 0.3891, 'grad_norm': 8.373438835144043, 'learning_rate': 6.81e-06, 'epoch': 14.77}
{'loss': 0.3153, 'grad_norm': 2.0325870513916016, 'learning_rate': 6.813e-06, 'epoch': 14.77}
{'loss': 0.3242, 'grad_norm': 1.5636686086654663, 'learning_rate': 6.8160000000000005e-06, 'epoch': 14.78}
{'loss': 0.2642, 'grad_norm': 1.3817065954208374, 'learning_rate': 6.819e-06, 'epoch': 14.79}
{'loss': 0.3065, 'grad_norm': 1.489311933517456, 'learning_rate': 6.822e-06, 'epoch': 14.79}
{'loss': 0.2494, 'grad_norm': 1.1707757711410522, 'learning_rate': 6.825000000000001e-06, 'epoch': 14.8}
{'loss': 0.2584, 'grad_norm': 1.4311989545822144, 'learning_rate': 6.828e-06, 'epoch': 14.81}
{'loss': 0.2501, 'grad_norm': 1.2986241579055786, 'learning_rate': 6.831e-06, 'epoch': 14.81}
{'loss': 0.2369, 'grad_norm': 1.2496349811553955, 'learning_rate': 6.834e-06, 'epoch': 14.82}
{'loss': 0.2206, 'grad_norm': 1.1841193437576294, 'learning_rate': 6.837e-06, 'epoch': 14.82}
{'loss': 0.2122, 'grad_norm': 1.1197839975357056, 'learning_rate': 6.840000000000001e-06, 'epoch': 14.83}
{'loss': 0.1516, 'grad_norm': 1.2578034400939941, 'learning_rate': 6.843e-06, 'epoch': 14.84}
{'loss': 0.1523, 'grad_norm': 0.9919670820236206, 'learning_rate': 6.845999999999999e-06, 'epoch': 14.84}
{'loss': 0.2415, 'grad_norm': 1.774156093597412, 'learning_rate': 6.849e-06, 'epoch': 14.85}
{'loss': 0.2517, 'grad_norm': 1.7923691272735596, 'learning_rate': 6.852e-06, 'epoch': 14.86}
{'loss': 0.1646, 'grad_norm': 1.5688140392303467, 'learning_rate': 6.8550000000000004e-06, 'epoch': 14.86}
{'loss': 0.2221, 'grad_norm': 1.2829514741897583, 'learning_rate': 6.858e-06, 'epoch': 14.87}
{'loss': 0.2281, 'grad_norm': 1.3937054872512817, 'learning_rate': 6.861e-06, 'epoch': 14.88}
{'loss': 0.1587, 'grad_norm': 1.2637954950332642, 'learning_rate': 6.864000000000001e-06, 'epoch': 14.88}
{'loss': 0.1588, 'grad_norm': 1.3331753015518188, 'learning_rate': 6.867e-06, 'epoch': 14.89}
{'loss': 0.1873, 'grad_norm': 1.8129836320877075, 'learning_rate': 6.87e-06, 'epoch': 14.9}
{'loss': 0.154, 'grad_norm': 1.6125099658966064, 'learning_rate': 6.873e-06, 'epoch': 14.9}
{'loss': 0.1929, 'grad_norm': 1.6281564235687256, 'learning_rate': 6.876e-06, 'epoch': 14.91}
{'loss': 0.1846, 'grad_norm': 1.8658069372177124, 'learning_rate': 6.8790000000000005e-06, 'epoch': 14.92}
{'loss': 0.2557, 'grad_norm': 2.2213428020477295, 'learning_rate': 6.882e-06, 'epoch': 14.92}
{'loss': 0.253, 'grad_norm': 2.437474250793457, 'learning_rate': 6.885e-06, 'epoch': 14.93}
{'loss': 0.1814, 'grad_norm': 2.2654411792755127, 'learning_rate': 6.888e-06, 'epoch': 14.94}
{'loss': 0.219, 'grad_norm': 2.4985756874084473, 'learning_rate': 6.891e-06, 'epoch': 14.94}
{'loss': 0.2163, 'grad_norm': 2.3598670959472656, 'learning_rate': 6.894e-06, 'epoch': 14.95}
{'loss': 0.1495, 'grad_norm': 1.7170132398605347, 'learning_rate': 6.897e-06, 'epoch': 14.95}
{'loss': 0.1978, 'grad_norm': 2.5051074028015137, 'learning_rate': 6.900000000000001e-06, 'epoch': 14.96}
{'loss': 0.2699, 'grad_norm': 3.0760066509246826, 'learning_rate': 6.903e-06, 'epoch': 14.97}
{'loss': 0.2076, 'grad_norm': 2.705763578414917, 'learning_rate': 6.906e-06, 'epoch': 14.97}
{'loss': 0.2569, 'grad_norm': 2.4213790893554688, 'learning_rate': 6.909e-06, 'epoch': 14.98}
{'loss': 0.2821, 'grad_norm': 7.0860490798950195, 'learning_rate': 6.912e-06, 'epoch': 14.99}
{'loss': 0.2421, 'grad_norm': 1.1678320169448853, 'learning_rate': 6.915000000000001e-06, 'epoch': 14.99}
{'loss': 0.2053, 'grad_norm': 2.0336737632751465, 'learning_rate': 6.9180000000000005e-06, 'epoch': 15.0}
  2%|▏         | 2311/100000 [1:24:05<193:14:17,  7.12s/it]                                                             2%|▏         | 2311/100000 [1:24:05<193:14:17,  7.12s/it]  2%|▏         | 2312/100000 [1:24:13<201:42:03,  7.43s/it]                                                             2%|▏         | 2312/100000 [1:24:13<201:42:03,  7.43s/it]  2%|▏         | 2313/100000 [1:24:19<185:03:10,  6.82s/it]                                                             2%|▏         | 2313/100000 [1:24:19<185:03:10,  6.82s/it]  2%|▏         | 2314/100000 [1:24:23<167:27:16,  6.17s/it]                                                             2%|▏         | 2314/100000 [1:24:23<167:27:16,  6.17s/it]  2%|▏         | 2315/100000 [1:24:28<152:14:16,  5.61s/it]                                                             2%|▏         | 2315/100000 [1:24:28<152:14:16,  5.61s/it]  2%|▏         | 2316/100000 [1:24:31<135:24:23,  4.99s/it]                                                             2%|▏         | 2316/100000 [1:24:31<135:24:23,  4.99s/it]  2%|▏         | 2317/100000 [1:24:35<121:36:42,  4.48s/it]                                                             2%|▏         | 2317/100000 [1:24:35<121:36:42,  4.48s/it]  2%|▏         | 2318/100000 [1:24:37<108:44:42,  4.01s/it]                                                             2%|▏         | 2318/100000 [1:24:38<108:44:42,  4.01s/it]  2%|▏         | 2319/100000 [1:24:40<95:59:30,  3.54s/it]                                                             2%|▏         | 2319/100000 [1:24:40<95:59:30,  3.54s/it]  2%|▏         | 2320/100000 [1:24:42<86:05:22,  3.17s/it]                                                            2%|▏         | 2320/100000 [1:24:42<86:05:22,  3.17s/it]  2%|▏         | 2321/100000 [1:24:44<76:26:00,  2.82s/it]                                                            2%|▏         | 2321/100000 [1:24:44<76:26:00,  2.82s/it]  2%|▏         | 2322/100000 [1:24:46<69:27:14,  2.56s/it]                                                            2%|▏         | 2322/100000 [1:24:46<69:27:14,  2.56s/it]  2%|▏         | 2323/100000 [1:24:48<63:21:03,  2.33s/it]                                                            2%|▏         | 2323/100000 [1:24:48<63:21:03,  2.33s/it]  2%|▏         | 2324/100000 [1:24:50<57:49:41,  2.13s/it]                                                            2%|▏         | 2324/100000 [1:24:50<57:49:41,  2.13s/it]  2%|▏         | 2325/100000 [1:24:51<53:26:43,  1.97s/it]                                                            2%|▏         | 2325/100000 [1:24:51<53:26:43,  1.97s/it]  2%|▏         | 2326/100000 [1:24:53<49:42:10,  1.83s/it]                                                            2%|▏         | 2326/100000 [1:24:53<49:42:10,  1.83s/it]  2%|▏         | 2327/100000 [1:24:54<46:20:04,  1.71s/it]                                                            2%|▏         | 2327/100000 [1:24:54<46:20:04,  1.71s/it]  2%|▏         | 2328/100000 [1:24:56<43:12:54,  1.59s/it]                                                            2%|▏         | 2328/100000 [1:24:56<43:12:54,  1.59s/it]  2%|▏         | 2329/100000 [1:24:57<40:50:30,  1.51s/it]                                                            2%|▏         | 2329/100000 [1:24:57<40:50:30,  1.51s/it]  2%|▏         | 2330/100000 [1:24:58<38:51:04,  1.43s/it]                                                            2%|▏         | 2330/100000 [1:24:58<38:51:04,  1.43s/it]  2%|▏         | 2331/100000 [1:24:59<36:43:05,  1.35s/it]                                                            2%|▏         | 2331/100000 [1:24:59<36:43:05,  1.35s/it]  2%|▏         | 2332/100000 [1:25:00<34:36:52,  1.28s/it]                                                            2%|▏         | 2332/100000 [1:25:00<34:36:52,  1.28s/it]  2%|▏         | 2333/100000 [1:25:01<32:56:38,  1.21s/it]                                                            2%|▏         | 2333/100000 [1:25:01<32:56:38,  1.21s/it]  2%|▏         | 2334/100000 [1:25:02<31:42:36,  1.17s/it]                                                            2%|▏         | 2334/100000 [1:25:02<31:42:36,  1.17s/it]  2%|▏         | 2335/100000 [1:25:03<30:23:04,  1.12s/it]                                                            2%|▏         | 2335/100000 [1:25:03<30:23:04,  1.12s/it]  2%|▏         | 2336/100000 [1:25:04<28:48:06,  1.06s/it]                                                            2%|▏         | 2336/100000 [1:25:04<28:48:06,  1.06s/it]  2%|▏         | 2337/100000 [1:25:05<27:52:43,  1.03s/it]                                                            2%|▏         | 2337/100000 [1:25:05<27:52:43,  1.03s/it]  2%|▏         | 2338/100000 [1:25:06<26:26:07,  1.03it/s]                                                            2%|▏         | 2338/100000 [1:25:06<26:26:07,  1.03it/s]  2%|▏         | 2339/100000 [1:25:07<25:19:00,  1.07it/s]                                                            2%|▏         | 2339/100000 [1:25:07<25:19:00,  1.07it/s]  2%|▏         | 2340/100000 [1:25:08<24:19:32,  1.12it/s]                                                            2%|▏         | 2340/100000 [1:25:08<24:19:32,  1.12it/s]  2%|▏         | 2341/100000 [1:25:09<23:32:09,  1.15it/s]                                                            2%|▏         | 2341/100000 [1:25:09<23:32:09,  1.15it/s]  2%|▏         | 2342/100000 [1:25:09<22:53:35,  1.18it/s]                                                            2%|▏         | 2342/100000 [1:25:09<22:53:35,  1.18it/s]  2%|▏         | 2343/100000 [1:25:10<22:12:11,  1.22it/s]                                                            2%|▏         | 2343/100000 [1:25:10<22:12:11,  1.22it/s]  2%|▏         | 2344/100000 [1:25:11<22:55:09,  1.18it/s]                                                            2%|▏         | 2344/100000 [1:25:11<22:55:09,  1.18it/s]  2%|▏         | 2345/100000 [1:25:12<22:19:24,  1.22it/s]                                                            2%|▏         | 2345/100000 [1:25:12<22:19:24,  1.22it/s]  2%|▏         | 2346/100000 [1:25:13<21:46:02,  1.25it/s]                                                            2%|▏         | 2346/100000 [1:25:13<21:46:02,  1.25it/s]  2%|▏         | 2347/100000 [1:25:13<20:48:21,  1.30it/s]                                                            2%|▏         | 2347/100000 [1:25:13<20:48:21,  1.30it/s]  2%|▏         | 2348/100000 [1:25:14<20:21:36,  1.33it/s]                                                            2%|▏         | 2348/100000 [1:25:14<20:21:36,  1.33it/s]  2%|▏         | 2349/100000 [1:25:27<121:41:15,  4.49s/it]                                                             2%|▏         | 2349/100000 [1:25:27<121:41:15,  4.49s/it]  2%|▏         | 2350/100000 [1:25:35<150:03:56,  5.53s/it]                                                             2%|▏         | 2350/100000 [1:25:35<150:03:56,  5.53s/it]  2%|▏         | 2351/100000 [1:25:41<149:04:51,  5.50s/it]                                                             2%|▏         | 2351/100000 [1:25:41<149:04:51,  5.50s/it]  2%|▏         | 2352/100000 [1:25:45<139:42:51,  5.15s/it]                                                             2%|▏         | 2352/100000 [1:25:45<139:42:51,  5.15s/it]  2%|▏         | 2353/100000 [1:25:49<128:43:27,  4.75s/it]                                                             2%|▏         | 2353/100000 [1:25:49<128:43:27,  4.75s/it]  2%|▏         | 2354/100000 [1:25:52<117:53:48,  4.35s/it]                                                             2%|▏         | 2354/100000 [1:25:52<117:53:48,  4.35s/it]  2%|▏         | 2355/100000 [1:25:55<105:59:45,  3.91s/it]                                                             2%|▏         | 2355/100000 [1:25:55<105:59:45,  3.91s/it]  2%|▏         | 2356/100000 [1:25:58<95:19:13,  3.51s/it]                                                             2%|▏         | 2356/100000 [1:25:58<95:19:13,  3.51s/it]  2%|▏         | 2357/100000 [1:26:00<85:29:55,  3.15s/it]                                                            2%|▏         | 2357/100000 [1:26:00<85:29:55,  3.15s/it]  2%|▏         | 2358/100000 [1:26:02<76:58:50,  2.84s/it]                                                            2%|▏         | 2358/100000 [1:26:02<76:58:50,  2.84s/it]  2%|▏         | 2359/100000 [1:26:04<69:04:13,  2.55s/it]                                                            2%|▏         | 2359/100000 [1:26:04<69:04:13,  2.55s/it]  2%|▏         | 2360/100000 [1:26:06<62:57:15,  2.32s/it]                                                            2%|▏         | 2360/100000 [1:26:06<62:57:15,  2.32s/it]  2%|▏         | 2361/100000 [1:26:07<57:30:24,  2.12s/it]                                                            2%|▏         | 2361/100000 [1:26:07<57:30:24,  2.12s/it]  2%|▏         | 2362/100000 [1:26:09<53:14:44,  1.96s/it]                                                            2%|▏         | 2362/100000 [1:26:09<53:14:44,  1.96s/it]  2%|▏         | 2363/100000 [1:26:11<49:52:42,  1.84s/it]                                                            2%|▏         | 2363/100000 [1:26:11<49:52:42,  1.84s/it]  2%|▏         | 2364/100000 [1:26:12<46:30:15,  1.71s/it]                                                            2%|▏         | 2364/100000 [1:26:12<46:30:15,  1.71s/it]  2%|▏         | 2365/100000 [1:26:13<43:39:16,  1.61s/it]                                                            2%|▏         | 2365/100000 [1:26:13<43:39:16,  1.61s/it]  2%|▏         | 2366/100000 [1:26:15<41:17:39,  1.52s/it]                                                            2%|▏         | 2366/100000 [1:26:15<41:17:39,  1.52s/it]  2%|▏         | 2367/100000 [1:26:16<39:20:18,  1.45s/it]                                                            2%|▏         | 2367/100000 [1:26:16<39:20:18,  1.45s/it]  2%|▏         | 2368/100000 [1:26:17<37:07:48,  1.37s/it]                                                            2%|▏         | 2368/100000 [1:26:17<37:07:48,  1.37s/it]  2%|▏         | 2369/100000 [1:26:18<35:02:45,  1.29s/it]                                                            2%|▏         | 2369/100000 [1:26:18<35:02:45,  1.29s/it]  2%|▏         | 2370/100000 [1:26:19<33:15:04,  1.23s/it]                                                            2%|▏         | 2370/100000 [1:26:19<33:15:04,  1.23s/it]  2%|▏         | 2371/100000 [1:26:20<31:53:40,  1.18s/it]                                                            2%|▏         | 2371/100000 [1:26:20<31:53:40,  1.18s/it]  2%|▏         | 2372/100000 [1:26:21<30:29:30,  1.12s/it]                                                            2%|▏         | 2372/100000 [1:26:21<30:29:30,  1.12s/it]  2%|▏         | 2373/100000 [1:26:22<29:11:42,  1.08s/it]                                                            2%|▏         | 2373/100000 [1:26:22<29:11:42,  1.08s/it]  2%|▏         | 2374/100000 [1:26:23<28:11:45,  1.04s/it]                                                            2%|▏         | 2374/100000 [1:26:23<28:11:45,  1.04s/it]  2%|▏         | 2375/100000 [1:26:24<27:19:19,  1.01s/it]                                                            2%|▏         | 2375/100000 [1:26:24<27:19:19,  1.01s/it]  2%|▏         | 2376/100000 [1:26:25<26:41:03,  1.02it/s]                                                            2%|▏         | 2376/100000 [1:26:25<26:41:03,  1.02it/s]  2%|▏         | 2377/100000 [1:26:26<26:06:51,  1.04it/s]                                                            2%|▏         | 2377/100000 [1:26:26<26:06:51,  1.04it/s]  2%|▏         | 2378/100000 [1:26:27<25:18:17,  1.07it/s]                                                            2%|▏         | 2378/100000 [1:26:27<25:18:17,  1.07it/s]  2%|▏         | 2379/100000 [1:26:28<24:52:12,  1.09it/s]                                                            2%|▏         | 2379/100000 [1:26:28<24:52:12,  1.09it/s]  2%|▏         | 2380/100000 [1:26:29<24:00:04,  1.13it/s]                                                            2%|▏         | 2380/100000 [1:26:29<24:00:04,  1.13it/s]  2%|▏         | 2381/100000 [1:26:29<23:22:41,  1.16it/s]                                                            2%|▏         | 2381/100000 [1:26:29<23:22:41,  1.16it/s]  2%|▏         | 2382/100000 [1:26:30<23:18:35,  1.16it/s]                                                            2%|▏         | 2382/100000 [1:26:30<23:18:35,  1.16it/s]  2%|▏         | 2383/100000 [1:26:31<23:04:14,  1.18it/s]                                                            2%|▏         | 2383/100000 [1:26:31<23:04:14,  1.18it/s]  2%|▏         | 2384/100000 [1:26:32<22:46:11,  1.19it/s]                                                            2%|▏         | 2384/100000 [1:26:32<22:46:11,  1.19it/s]  2%|▏         | 2385/100000 [1:26:33<22:04:04,  1.23it/s]                                                            2%|▏         | 2385/100000 [1:26:33<22:04:04,  1.23it/s]  2%|▏         | 2386/100000 [1:26:33<20:57:37,  1.29it/s]                                                            2%|▏         | 2386/100000 [1:26:33<20:57:37,  1.29it/s]  2%|▏         | 2387/100000 [1:26:46<117:31:55,  4.33s/it]                                                             2%|▏         | 2387/100000 [1:26:46<117:31:55,  4.33s/it]  2%|▏         | 2388/100000 [1:26:54<144:10:17,  5.32s/it]                                                             2%|▏         | 2388/100000 [1:26:54<144:10:17,  5.32s/it]  2%|▏         | 2389/100000 [1:26:59<143:09:42,  5.28s/it]                                                             2%|▏         | 2389/100000 [1:26:59<143:09:42,  5.28s/it]  2%|▏         | 2390/100000 [1:27:03<135:00:44,  4.98s/it]                                                             2%|▏         | 2390/100000 [1:27:03<135:00:44,  4.98s/it]  2%|▏         | 2391/100000 [1:27:07<124:37:08,  4.60s/it]                                                             2%|▏         | 2391/100000 [1:27:07<124:37:08,  4.60s/it]  2%|▏         | 2392/100000 [1:27:10<113:43:13,  4.19s/it]                                                             2%|▏         | 2392/100000 [1:27:10<113:43:13,  4.19s/it]  2%|▏         | 2393/100000 [1:27:13<102:44:49,  3.79s/it]                                                             2%|▏         | 2393/100000 [1:27:13<102:44:49,  3.79s/it]  2%|▏         | 2394/100000 [1:27:15<90:58:15,  3.36s/it]                                                             2%|▏         | 2394/100000 [1:27:15<90:58:15,  3.36s/it]  2%|▏         | 2395/100000 [1:27:17<81:12:51,  3.00s/it]                                                          {'loss': 0.4537, 'grad_norm': 2.732679605484009, 'learning_rate': 6.9209999999999995e-06, 'epoch': 15.01}
{'loss': 0.3931, 'grad_norm': 1.28374183177948, 'learning_rate': 6.924e-06, 'epoch': 15.01}
{'loss': 0.3565, 'grad_norm': 1.296056866645813, 'learning_rate': 6.927e-06, 'epoch': 15.02}
{'loss': 0.359, 'grad_norm': 2.313465118408203, 'learning_rate': 6.9300000000000006e-06, 'epoch': 15.03}
{'loss': 0.3132, 'grad_norm': 1.56074059009552, 'learning_rate': 6.933e-06, 'epoch': 15.03}
{'loss': 0.2615, 'grad_norm': 1.7584607601165771, 'learning_rate': 6.936e-06, 'epoch': 15.04}
{'loss': 0.2817, 'grad_norm': 1.3186373710632324, 'learning_rate': 6.939e-06, 'epoch': 15.05}
{'loss': 0.2604, 'grad_norm': 1.2789177894592285, 'learning_rate': 6.942e-06, 'epoch': 15.05}
{'loss': 0.2433, 'grad_norm': 1.0504074096679688, 'learning_rate': 6.945e-06, 'epoch': 15.06}
{'loss': 0.2409, 'grad_norm': 1.1063764095306396, 'learning_rate': 6.948e-06, 'epoch': 15.06}
{'loss': 0.1902, 'grad_norm': 0.8463593125343323, 'learning_rate': 6.951e-06, 'epoch': 15.07}
{'loss': 0.163, 'grad_norm': 1.0481184720993042, 'learning_rate': 6.954000000000001e-06, 'epoch': 15.08}
{'loss': 0.2063, 'grad_norm': 1.2953294515609741, 'learning_rate': 6.957e-06, 'epoch': 15.08}
{'loss': 0.222, 'grad_norm': 1.7061842679977417, 'learning_rate': 6.96e-06, 'epoch': 15.09}
{'loss': 0.2341, 'grad_norm': 1.476346731185913, 'learning_rate': 6.963e-06, 'epoch': 15.1}
{'loss': 0.1924, 'grad_norm': 1.3022431135177612, 'learning_rate': 6.966e-06, 'epoch': 15.1}
{'loss': 0.1967, 'grad_norm': 1.0978306531906128, 'learning_rate': 6.9690000000000005e-06, 'epoch': 15.11}
{'loss': 0.1698, 'grad_norm': 1.2542792558670044, 'learning_rate': 6.972e-06, 'epoch': 15.12}
{'loss': 0.1542, 'grad_norm': 1.52522611618042, 'learning_rate': 6.975e-06, 'epoch': 15.12}
{'loss': 0.1485, 'grad_norm': 1.1682555675506592, 'learning_rate': 6.978e-06, 'epoch': 15.13}
{'loss': 0.2077, 'grad_norm': 2.1211097240448, 'learning_rate': 6.981e-06, 'epoch': 15.14}
{'loss': 0.1951, 'grad_norm': 2.20388126373291, 'learning_rate': 6.984e-06, 'epoch': 15.14}
{'loss': 0.1469, 'grad_norm': 1.187576413154602, 'learning_rate': 6.987e-06, 'epoch': 15.15}
{'loss': 0.2667, 'grad_norm': 1.5173754692077637, 'learning_rate': 6.990000000000001e-06, 'epoch': 15.16}
{'loss': 0.1783, 'grad_norm': 1.8413747549057007, 'learning_rate': 6.993000000000001e-06, 'epoch': 15.16}
{'loss': 0.1606, 'grad_norm': 1.5518771409988403, 'learning_rate': 6.996e-06, 'epoch': 15.17}
{'loss': 0.1855, 'grad_norm': 2.1132781505584717, 'learning_rate': 6.999e-06, 'epoch': 15.18}
{'loss': 0.2854, 'grad_norm': 2.2895426750183105, 'learning_rate': 7.002e-06, 'epoch': 15.18}
{'loss': 0.1946, 'grad_norm': 2.756945848464966, 'learning_rate': 7.005000000000001e-06, 'epoch': 15.19}
{'loss': 0.1465, 'grad_norm': 1.6699925661087036, 'learning_rate': 7.0080000000000005e-06, 'epoch': 15.19}
{'loss': 0.1245, 'grad_norm': 1.9364573955535889, 'learning_rate': 7.011e-06, 'epoch': 15.2}
{'loss': 0.183, 'grad_norm': 5.727061748504639, 'learning_rate': 7.014e-06, 'epoch': 15.21}
{'loss': 0.1932, 'grad_norm': 1.8450604677200317, 'learning_rate': 7.017e-06, 'epoch': 15.21}
{'loss': 0.1481, 'grad_norm': 1.6540757417678833, 'learning_rate': 7.0200000000000006e-06, 'epoch': 15.22}
{'loss': 0.2127, 'grad_norm': 2.1906425952911377, 'learning_rate': 7.023e-06, 'epoch': 15.23}
{'loss': 0.1851, 'grad_norm': 2.1265718936920166, 'learning_rate': 7.026e-06, 'epoch': 15.23}
{'loss': 0.2191, 'grad_norm': 2.577850103378296, 'learning_rate': 7.029000000000001e-06, 'epoch': 15.24}
{'loss': 0.2567, 'grad_norm': 3.3247687816619873, 'learning_rate': 7.032e-06, 'epoch': 15.25}
{'loss': 0.4212, 'grad_norm': 2.5969507694244385, 'learning_rate': 7.0349999999999996e-06, 'epoch': 15.25}
{'loss': 0.3622, 'grad_norm': 1.9244589805603027, 'learning_rate': 7.038e-06, 'epoch': 15.26}
{'loss': 0.3878, 'grad_norm': 2.0839710235595703, 'learning_rate': 7.041e-06, 'epoch': 15.27}
{'loss': 0.2986, 'grad_norm': 1.456619381904602, 'learning_rate': 7.044000000000001e-06, 'epoch': 15.27}
{'loss': 0.294, 'grad_norm': 2.16351318359375, 'learning_rate': 7.0470000000000005e-06, 'epoch': 15.28}
{'loss': 0.2613, 'grad_norm': 1.069938063621521, 'learning_rate': 7.049999999999999e-06, 'epoch': 15.29}
{'loss': 0.2626, 'grad_norm': 0.9886375069618225, 'learning_rate': 7.053e-06, 'epoch': 15.29}
{'loss': 0.207, 'grad_norm': 1.0459853410720825, 'learning_rate': 7.056e-06, 'epoch': 15.3}
{'loss': 0.2208, 'grad_norm': 1.0626552104949951, 'learning_rate': 7.0590000000000005e-06, 'epoch': 15.31}
{'loss': 0.2562, 'grad_norm': 1.8952802419662476, 'learning_rate': 7.062e-06, 'epoch': 15.31}
{'loss': 0.1998, 'grad_norm': 1.059100866317749, 'learning_rate': 7.065e-06, 'epoch': 15.32}
{'loss': 0.1742, 'grad_norm': 1.1092826128005981, 'learning_rate': 7.068e-06, 'epoch': 15.32}
{'loss': 0.1398, 'grad_norm': 1.3060351610183716, 'learning_rate': 7.071e-06, 'epoch': 15.33}
{'loss': 0.1716, 'grad_norm': 1.1531429290771484, 'learning_rate': 7.074e-06, 'epoch': 15.34}
{'loss': 0.1757, 'grad_norm': 1.0828238725662231, 'learning_rate': 7.077e-06, 'epoch': 15.34}
{'loss': 0.2159, 'grad_norm': 1.4004526138305664, 'learning_rate': 7.08e-06, 'epoch': 15.35}
{'loss': 0.1914, 'grad_norm': 1.3490638732910156, 'learning_rate': 7.083000000000001e-06, 'epoch': 15.36}
{'loss': 0.1773, 'grad_norm': 1.488662600517273, 'learning_rate': 7.086e-06, 'epoch': 15.36}
{'loss': 0.1574, 'grad_norm': 1.1611812114715576, 'learning_rate': 7.089e-06, 'epoch': 15.37}
{'loss': 0.1958, 'grad_norm': 1.1834497451782227, 'learning_rate': 7.092e-06, 'epoch': 15.38}
{'loss': 0.1506, 'grad_norm': 1.2331641912460327, 'learning_rate': 7.095e-06, 'epoch': 15.38}
{'loss': 0.1755, 'grad_norm': 1.5711313486099243, 'learning_rate': 7.0980000000000005e-06, 'epoch': 15.39}
{'loss': 0.1769, 'grad_norm': 2.2031259536743164, 'learning_rate': 7.101e-06, 'epoch': 15.4}
{'loss': 0.2481, 'grad_norm': 1.6226136684417725, 'learning_rate': 7.104e-06, 'epoch': 15.4}
{'loss': 0.1955, 'grad_norm': 1.460425853729248, 'learning_rate': 7.107e-06, 'epoch': 15.41}
{'loss': 0.1724, 'grad_norm': 2.285088539123535, 'learning_rate': 7.11e-06, 'epoch': 15.42}
{'loss': 0.187, 'grad_norm': 1.8209338188171387, 'learning_rate': 7.113e-06, 'epoch': 15.42}
{'loss': 0.2876, 'grad_norm': 3.900830030441284, 'learning_rate': 7.116e-06, 'epoch': 15.43}
{'loss': 0.2081, 'grad_norm': 2.0712146759033203, 'learning_rate': 7.119000000000001e-06, 'epoch': 15.44}
{'loss': 0.1942, 'grad_norm': 3.3340842723846436, 'learning_rate': 7.122000000000001e-06, 'epoch': 15.44}
{'loss': 0.1642, 'grad_norm': 2.1203722953796387, 'learning_rate': 7.1249999999999995e-06, 'epoch': 15.45}
{'loss': 0.1928, 'grad_norm': 2.2871367931365967, 'learning_rate': 7.128e-06, 'epoch': 15.45}
{'loss': 0.1938, 'grad_norm': 2.720536470413208, 'learning_rate': 7.131e-06, 'epoch': 15.46}
{'loss': 0.1794, 'grad_norm': 2.191934823989868, 'learning_rate': 7.134000000000001e-06, 'epoch': 15.47}
{'loss': 0.2789, 'grad_norm': 65.9600830078125, 'learning_rate': 7.1370000000000004e-06, 'epoch': 15.47}
{'loss': 0.2445, 'grad_norm': 2.7520875930786133, 'learning_rate': 7.14e-06, 'epoch': 15.48}
{'loss': 0.1654, 'grad_norm': 2.5571377277374268, 'learning_rate': 7.143e-06, 'epoch': 15.49}
{'loss': 0.2489, 'grad_norm': 3.2057836055755615, 'learning_rate': 7.146e-06, 'epoch': 15.49}
{'loss': 0.4496, 'grad_norm': 2.2211148738861084, 'learning_rate': 7.1490000000000005e-06, 'epoch': 15.5}
{'loss': 0.3689, 'grad_norm': 1.2737771272659302, 'learning_rate': 7.152e-06, 'epoch': 15.51}
{'loss': 0.3179, 'grad_norm': 1.3787721395492554, 'learning_rate': 7.155e-06, 'epoch': 15.51}
{'loss': 0.3165, 'grad_norm': 1.4760663509368896, 'learning_rate': 7.158000000000001e-06, 'epoch': 15.52}
{'loss': 0.2836, 'grad_norm': 1.1182477474212646, 'learning_rate': 7.161e-06, 'epoch': 15.53}
{'loss': 0.2369, 'grad_norm': 0.8804879784584045, 'learning_rate': 7.164e-06, 'epoch': 15.53}
{'loss': 0.3184, 'grad_norm': 1.3472665548324585, 'learning_rate': 7.167e-06, 'epoch': 15.54}
{'loss': 0.3501, 'grad_norm': 1.8242844343185425, 'learning_rate': 7.17e-06, 'epoch': 15.55}
  2%|▏         | 2395/100000 [1:27:17<81:12:51,  3.00s/it]  2%|▏         | 2396/100000 [1:27:19<73:08:23,  2.70s/it]                                                            2%|▏         | 2396/100000 [1:27:19<73:08:23,  2.70s/it]  2%|▏         | 2397/100000 [1:27:21<66:55:18,  2.47s/it]                                                            2%|▏         | 2397/100000 [1:27:21<66:55:18,  2.47s/it]  2%|▏         | 2398/100000 [1:27:23<61:23:32,  2.26s/it]                                                            2%|▏         | 2398/100000 [1:27:23<61:23:32,  2.26s/it]  2%|▏         | 2399/100000 [1:27:25<56:10:53,  2.07s/it]                                                            2%|▏         | 2399/100000 [1:27:25<56:10:53,  2.07s/it]  2%|▏         | 2400/100000 [1:27:26<52:19:32,  1.93s/it]                                                            2%|▏         | 2400/100000 [1:27:26<52:19:32,  1.93s/it]  2%|▏         | 2401/100000 [1:27:28<49:19:33,  1.82s/it]                                                            2%|▏         | 2401/100000 [1:27:28<49:19:33,  1.82s/it]  2%|▏         | 2402/100000 [1:27:29<46:25:06,  1.71s/it]                                                            2%|▏         | 2402/100000 [1:27:29<46:25:06,  1.71s/it]  2%|▏         | 2403/100000 [1:27:31<43:49:56,  1.62s/it]                                                            2%|▏         | 2403/100000 [1:27:31<43:49:56,  1.62s/it]  2%|▏         | 2404/100000 [1:27:32<41:27:02,  1.53s/it]                                                            2%|▏         | 2404/100000 [1:27:32<41:27:02,  1.53s/it]  2%|▏         | 2405/100000 [1:27:33<39:27:33,  1.46s/it]                                                            2%|▏         | 2405/100000 [1:27:33<39:27:33,  1.46s/it]  2%|▏         | 2406/100000 [1:27:35<37:33:15,  1.39s/it]                                                            2%|▏         | 2406/100000 [1:27:35<37:33:15,  1.39s/it]  2%|▏         | 2407/100000 [1:27:36<35:26:29,  1.31s/it]                                                            2%|▏         | 2407/100000 [1:27:36<35:26:29,  1.31s/it]  2%|▏         | 2408/100000 [1:27:37<33:40:15,  1.24s/it]                                                            2%|▏         | 2408/100000 [1:27:37<33:40:15,  1.24s/it]  2%|▏         | 2409/100000 [1:27:38<31:54:50,  1.18s/it]                                                            2%|▏         | 2409/100000 [1:27:38<31:54:50,  1.18s/it]  2%|▏         | 2410/100000 [1:27:39<30:23:07,  1.12s/it]                                                            2%|▏         | 2410/100000 [1:27:39<30:23:07,  1.12s/it]  2%|▏         | 2411/100000 [1:27:40<29:01:31,  1.07s/it]                                                            2%|▏         | 2411/100000 [1:27:40<29:01:31,  1.07s/it]  2%|▏         | 2412/100000 [1:27:41<27:55:49,  1.03s/it]                                                            2%|▏         | 2412/100000 [1:27:41<27:55:49,  1.03s/it]  2%|▏         | 2413/100000 [1:27:42<27:01:32,  1.00it/s]                                                            2%|▏         | 2413/100000 [1:27:42<27:01:32,  1.00it/s]  2%|▏         | 2414/100000 [1:27:42<25:58:24,  1.04it/s]                                                            2%|▏         | 2414/100000 [1:27:42<25:58:24,  1.04it/s]  2%|▏         | 2415/100000 [1:27:43<25:05:26,  1.08it/s]                                                            2%|▏         | 2415/100000 [1:27:43<25:05:26,  1.08it/s]  2%|▏         | 2416/100000 [1:27:44<24:31:38,  1.11it/s]                                                            2%|▏         | 2416/100000 [1:27:44<24:31:38,  1.11it/s]  2%|▏         | 2417/100000 [1:27:45<24:07:50,  1.12it/s]                                                            2%|▏         | 2417/100000 [1:27:45<24:07:50,  1.12it/s]  2%|▏         | 2418/100000 [1:27:46<23:17:16,  1.16it/s]                                                            2%|▏         | 2418/100000 [1:27:46<23:17:16,  1.16it/s]  2%|▏         | 2419/100000 [1:27:47<22:37:57,  1.20it/s]                                                            2%|▏         | 2419/100000 [1:27:47<22:37:57,  1.20it/s]  2%|▏         | 2420/100000 [1:27:47<22:19:28,  1.21it/s]                                                            2%|▏         | 2420/100000 [1:27:47<22:19:28,  1.21it/s]  2%|▏         | 2421/100000 [1:27:48<22:12:15,  1.22it/s]                                                            2%|▏         | 2421/100000 [1:27:48<22:12:15,  1.22it/s]  2%|▏         | 2422/100000 [1:27:49<21:20:50,  1.27it/s]                                                            2%|▏         | 2422/100000 [1:27:49<21:20:50,  1.27it/s]  2%|▏         | 2423/100000 [1:27:50<20:42:28,  1.31it/s]                                                            2%|▏         | 2423/100000 [1:27:50<20:42:28,  1.31it/s]  2%|▏         | 2424/100000 [1:27:50<20:05:35,  1.35it/s]                                                            2%|▏         | 2424/100000 [1:27:50<20:05:35,  1.35it/s]  2%|▏         | 2425/100000 [1:28:02<108:27:37,  4.00s/it]                                                             2%|▏         | 2425/100000 [1:28:02<108:27:37,  4.00s/it]  2%|▏         | 2426/100000 [1:28:10<141:49:23,  5.23s/it]                                                             2%|▏         | 2426/100000 [1:28:10<141:49:23,  5.23s/it]  2%|▏         | 2427/100000 [1:28:16<145:52:30,  5.38s/it]                                                             2%|▏         | 2427/100000 [1:28:16<145:52:30,  5.38s/it]  2%|▏         | 2428/100000 [1:28:21<140:45:12,  5.19s/it]                                                             2%|▏         | 2428/100000 [1:28:21<140:45:12,  5.19s/it]  2%|▏         | 2429/100000 [1:28:25<131:46:07,  4.86s/it]                                                             2%|▏         | 2429/100000 [1:28:25<131:46:07,  4.86s/it]  2%|▏         | 2430/100000 [1:28:28<119:51:41,  4.42s/it]                                                             2%|▏         | 2430/100000 [1:28:28<119:51:41,  4.42s/it]  2%|▏         | 2431/100000 [1:28:31<109:37:05,  4.04s/it]                                                             2%|▏         | 2431/100000 [1:28:31<109:37:05,  4.04s/it]  2%|▏         | 2432/100000 [1:28:34<98:50:37,  3.65s/it]                                                             2%|▏         | 2432/100000 [1:28:34<98:50:37,  3.65s/it]  2%|▏         | 2433/100000 [1:28:36<88:03:02,  3.25s/it]                                                            2%|▏         | 2433/100000 [1:28:36<88:03:02,  3.25s/it]  2%|▏         | 2434/100000 [1:28:38<79:28:49,  2.93s/it]                                                            2%|▏         | 2434/100000 [1:28:38<79:28:49,  2.93s/it]  2%|▏         | 2435/100000 [1:28:40<71:49:56,  2.65s/it]                                                            2%|▏         | 2435/100000 [1:28:40<71:49:56,  2.65s/it]  2%|▏         | 2436/100000 [1:28:42<64:58:47,  2.40s/it]                                                            2%|▏         | 2436/100000 [1:28:42<64:58:47,  2.40s/it]  2%|▏         | 2437/100000 [1:28:44<59:32:42,  2.20s/it]                                                            2%|▏         | 2437/100000 [1:28:44<59:32:42,  2.20s/it]  2%|▏         | 2438/100000 [1:28:46<55:00:21,  2.03s/it]                                                            2%|▏         | 2438/100000 [1:28:46<55:00:21,  2.03s/it]  2%|▏         | 2439/100000 [1:28:47<51:16:20,  1.89s/it]                                                            2%|▏         | 2439/100000 [1:28:47<51:16:20,  1.89s/it]  2%|▏         | 2440/100000 [1:28:49<47:19:44,  1.75s/it]                                                            2%|▏         | 2440/100000 [1:28:49<47:19:44,  1.75s/it]  2%|▏         | 2441/100000 [1:28:50<44:47:53,  1.65s/it]                                                            2%|▏         | 2441/100000 [1:28:50<44:47:53,  1.65s/it]  2%|▏         | 2442/100000 [1:28:51<42:28:27,  1.57s/it]                                                            2%|▏         | 2442/100000 [1:28:51<42:28:27,  1.57s/it]  2%|▏         | 2443/100000 [1:28:53<40:24:52,  1.49s/it]                                                            2%|▏         | 2443/100000 [1:28:53<40:24:52,  1.49s/it]  2%|▏         | 2444/100000 [1:28:54<38:29:57,  1.42s/it]                                                            2%|▏         | 2444/100000 [1:28:54<38:29:57,  1.42s/it]  2%|▏         | 2445/100000 [1:28:55<36:35:00,  1.35s/it]                                                            2%|▏         | 2445/100000 [1:28:55<36:35:00,  1.35s/it]  2%|▏         | 2446/100000 [1:28:56<34:39:21,  1.28s/it]                                                            2%|▏         | 2446/100000 [1:28:56<34:39:21,  1.28s/it]  2%|▏         | 2447/100000 [1:28:57<33:02:52,  1.22s/it]                                                            2%|▏         | 2447/100000 [1:28:57<33:02:52,  1.22s/it]  2%|▏         | 2448/100000 [1:28:58<31:29:30,  1.16s/it]                                                            2%|▏         | 2448/100000 [1:28:58<31:29:30,  1.16s/it]  2%|▏         | 2449/100000 [1:28:59<30:02:41,  1.11s/it]                                                            2%|▏         | 2449/100000 [1:28:59<30:02:41,  1.11s/it]  2%|▏         | 2450/100000 [1:29:00<29:02:57,  1.07s/it]                                                            2%|▏         | 2450/100000 [1:29:00<29:02:57,  1.07s/it]  2%|▏         | 2451/100000 [1:29:01<28:13:45,  1.04s/it]                                                            2%|▏         | 2451/100000 [1:29:01<28:13:45,  1.04s/it]  2%|▏         | 2452/100000 [1:29:02<27:27:28,  1.01s/it]                                                            2%|▏         | 2452/100000 [1:29:02<27:27:28,  1.01s/it]  2%|▏         | 2453/100000 [1:29:03<26:46:19,  1.01it/s]                                                            2%|▏         | 2453/100000 [1:29:03<26:46:19,  1.01it/s]  2%|▏         | 2454/100000 [1:29:04<26:10:35,  1.04it/s]                                                            2%|▏         | 2454/100000 [1:29:04<26:10:35,  1.04it/s]  2%|▏         | 2455/100000 [1:29:05<25:42:03,  1.05it/s]                                                            2%|▏         | 2455/100000 [1:29:05<25:42:03,  1.05it/s]  2%|▏         | 2456/100000 [1:29:06<25:15:46,  1.07it/s]                                                            2%|▏         | 2456/100000 [1:29:06<25:15:46,  1.07it/s]  2%|▏         | 2457/100000 [1:29:07<24:41:44,  1.10it/s]                                                            2%|▏         | 2457/100000 [1:29:07<24:41:44,  1.10it/s]  2%|▏         | 2458/100000 [1:29:08<24:14:46,  1.12it/s]                                                            2%|▏         | 2458/100000 [1:29:08<24:14:46,  1.12it/s]  2%|▏         | 2459/100000 [1:29:08<23:55:26,  1.13it/s]                                                            2%|▏         | 2459/100000 [1:29:08<23:55:26,  1.13it/s]  2%|▏         | 2460/100000 [1:29:09<23:28:28,  1.15it/s]                                                            2%|▏         | 2460/100000 [1:29:09<23:28:28,  1.15it/s]  2%|▏         | 2461/100000 [1:29:10<22:58:52,  1.18it/s]                                                            2%|▏         | 2461/100000 [1:29:10<22:58:52,  1.18it/s]  2%|▏         | 2462/100000 [1:29:11<22:28:39,  1.21it/s]                                                            2%|▏         | 2462/100000 [1:29:11<22:28:39,  1.21it/s]  2%|▏         | 2463/100000 [1:29:18<72:15:17,  2.67s/it]                                                            2%|▏         | 2463/100000 [1:29:18<72:15:17,  2.67s/it]  2%|▏         | 2464/100000 [1:29:19<61:55:33,  2.29s/it]                                                            2%|▏         | 2464/100000 [1:29:19<61:55:33,  2.29s/it]{'loss': 0.2399, 'grad_norm': 1.2190014123916626, 'learning_rate': 7.173000000000001e-06, 'epoch': 15.55}
{'loss': 0.2005, 'grad_norm': 1.1855241060256958, 'learning_rate': 7.176e-06, 'epoch': 15.56}
{'loss': 0.2187, 'grad_norm': 1.5253684520721436, 'learning_rate': 7.179e-06, 'epoch': 15.56}
{'loss': 0.2297, 'grad_norm': 1.167624831199646, 'learning_rate': 7.182e-06, 'epoch': 15.57}
{'loss': 0.1713, 'grad_norm': 0.9367917776107788, 'learning_rate': 7.185e-06, 'epoch': 15.58}
{'loss': 0.1598, 'grad_norm': 1.2101585865020752, 'learning_rate': 7.1880000000000005e-06, 'epoch': 15.58}
{'loss': 0.1761, 'grad_norm': 1.1242058277130127, 'learning_rate': 7.191e-06, 'epoch': 15.59}
{'loss': 0.1625, 'grad_norm': 1.6284934282302856, 'learning_rate': 7.194000000000001e-06, 'epoch': 15.6}
{'loss': 0.1681, 'grad_norm': 1.0076323747634888, 'learning_rate': 7.197e-06, 'epoch': 15.6}
{'loss': 0.1886, 'grad_norm': 1.947763442993164, 'learning_rate': 7.2e-06, 'epoch': 15.61}
{'loss': 0.1516, 'grad_norm': 1.812209129333496, 'learning_rate': 7.203e-06, 'epoch': 15.62}
{'loss': 0.1866, 'grad_norm': 1.515682339668274, 'learning_rate': 7.206e-06, 'epoch': 15.62}
{'loss': 0.1621, 'grad_norm': 1.4018580913543701, 'learning_rate': 7.209000000000001e-06, 'epoch': 15.63}
{'loss': 0.207, 'grad_norm': 1.552309274673462, 'learning_rate': 7.2120000000000006e-06, 'epoch': 15.64}
{'loss': 0.2103, 'grad_norm': 1.521227478981018, 'learning_rate': 7.2149999999999995e-06, 'epoch': 15.64}
{'loss': 0.265, 'grad_norm': 1.7513941526412964, 'learning_rate': 7.218e-06, 'epoch': 15.65}
{'loss': 0.1692, 'grad_norm': 1.4633824825286865, 'learning_rate': 7.221e-06, 'epoch': 15.66}
{'loss': 0.1591, 'grad_norm': 1.908670425415039, 'learning_rate': 7.224e-06, 'epoch': 15.66}
{'loss': 0.1562, 'grad_norm': 1.5335208177566528, 'learning_rate': 7.2270000000000004e-06, 'epoch': 15.67}
{'loss': 0.158, 'grad_norm': 1.405772089958191, 'learning_rate': 7.23e-06, 'epoch': 15.68}
{'loss': 0.2097, 'grad_norm': 2.3289246559143066, 'learning_rate': 7.233e-06, 'epoch': 15.68}
{'loss': 0.1831, 'grad_norm': 2.515005588531494, 'learning_rate': 7.236e-06, 'epoch': 15.69}
{'loss': 0.1933, 'grad_norm': 1.8675965070724487, 'learning_rate': 7.239e-06, 'epoch': 15.69}
{'loss': 0.153, 'grad_norm': 1.7673429250717163, 'learning_rate': 7.242e-06, 'epoch': 15.7}
{'loss': 0.1632, 'grad_norm': 3.7790050506591797, 'learning_rate': 7.245e-06, 'epoch': 15.71}
{'loss': 0.1889, 'grad_norm': 1.7950621843338013, 'learning_rate': 7.248000000000001e-06, 'epoch': 15.71}
{'loss': 0.2471, 'grad_norm': 4.2077226638793945, 'learning_rate': 7.2510000000000005e-06, 'epoch': 15.72}
{'loss': 0.2546, 'grad_norm': 2.6221845149993896, 'learning_rate': 7.2539999999999995e-06, 'epoch': 15.73}
{'loss': 0.2117, 'grad_norm': 2.777226686477661, 'learning_rate': 7.257e-06, 'epoch': 15.73}
{'loss': 0.2465, 'grad_norm': 2.5998728275299072, 'learning_rate': 7.26e-06, 'epoch': 15.74}
{'loss': 0.4716, 'grad_norm': 3.4180169105529785, 'learning_rate': 7.263000000000001e-06, 'epoch': 15.75}
{'loss': 0.3964, 'grad_norm': 1.50673508644104, 'learning_rate': 7.266e-06, 'epoch': 15.75}
{'loss': 0.3411, 'grad_norm': 1.3357120752334595, 'learning_rate': 7.269e-06, 'epoch': 15.76}
{'loss': 0.2894, 'grad_norm': 2.225024700164795, 'learning_rate': 7.272e-06, 'epoch': 15.77}
{'loss': 0.307, 'grad_norm': 1.9975509643554688, 'learning_rate': 7.275e-06, 'epoch': 15.77}
{'loss': 0.3148, 'grad_norm': 0.9673435688018799, 'learning_rate': 7.2780000000000005e-06, 'epoch': 15.78}
{'loss': 0.2686, 'grad_norm': 1.6630313396453857, 'learning_rate': 7.281e-06, 'epoch': 15.79}
{'loss': 0.2891, 'grad_norm': 1.5854570865631104, 'learning_rate': 7.284e-06, 'epoch': 15.79}
{'loss': 0.202, 'grad_norm': 1.116112470626831, 'learning_rate': 7.287000000000001e-06, 'epoch': 15.8}
{'loss': 0.218, 'grad_norm': 1.0732951164245605, 'learning_rate': 7.29e-06, 'epoch': 15.81}
{'loss': 0.1943, 'grad_norm': 1.1510130167007446, 'learning_rate': 7.293e-06, 'epoch': 15.81}
{'loss': 0.2128, 'grad_norm': 1.3421818017959595, 'learning_rate': 7.296e-06, 'epoch': 15.82}
{'loss': 0.2094, 'grad_norm': 1.3385670185089111, 'learning_rate': 7.299e-06, 'epoch': 15.82}
{'loss': 0.1636, 'grad_norm': 1.0176153182983398, 'learning_rate': 7.3020000000000006e-06, 'epoch': 15.83}
{'loss': 0.1977, 'grad_norm': 1.0539336204528809, 'learning_rate': 7.305e-06, 'epoch': 15.84}
{'loss': 0.1513, 'grad_norm': 1.488345980644226, 'learning_rate': 7.308e-06, 'epoch': 15.84}
{'loss': 0.1856, 'grad_norm': 2.5043084621429443, 'learning_rate': 7.311e-06, 'epoch': 15.85}
{'loss': 0.2333, 'grad_norm': 2.0330910682678223, 'learning_rate': 7.314e-06, 'epoch': 15.86}
{'loss': 0.1456, 'grad_norm': 1.2944329977035522, 'learning_rate': 7.317e-06, 'epoch': 15.86}
{'loss': 0.1631, 'grad_norm': 1.4863274097442627, 'learning_rate': 7.32e-06, 'epoch': 15.87}
{'loss': 0.2104, 'grad_norm': 1.2498420476913452, 'learning_rate': 7.323000000000001e-06, 'epoch': 15.88}
{'loss': 0.3008, 'grad_norm': 1.8290857076644897, 'learning_rate': 7.326e-06, 'epoch': 15.88}
{'loss': 0.1383, 'grad_norm': 1.064332365989685, 'learning_rate': 7.329e-06, 'epoch': 15.89}
{'loss': 0.172, 'grad_norm': 2.697967529296875, 'learning_rate': 7.332e-06, 'epoch': 15.9}
{'loss': 0.2123, 'grad_norm': 1.4293557405471802, 'learning_rate': 7.335e-06, 'epoch': 15.9}
{'loss': 0.2138, 'grad_norm': 1.49565851688385, 'learning_rate': 7.338000000000001e-06, 'epoch': 15.91}
{'loss': 0.1637, 'grad_norm': 1.1900233030319214, 'learning_rate': 7.3410000000000005e-06, 'epoch': 15.92}
{'loss': 0.2074, 'grad_norm': 1.6162402629852295, 'learning_rate': 7.3439999999999995e-06, 'epoch': 15.92}
{'loss': 0.2093, 'grad_norm': 1.7728978395462036, 'learning_rate': 7.347e-06, 'epoch': 15.93}
{'loss': 0.1761, 'grad_norm': 1.8303437232971191, 'learning_rate': 7.35e-06, 'epoch': 15.94}
{'loss': 0.136, 'grad_norm': 1.5653531551361084, 'learning_rate': 7.353000000000001e-06, 'epoch': 15.94}
{'loss': 0.1783, 'grad_norm': 2.040618419647217, 'learning_rate': 7.356e-06, 'epoch': 15.95}
{'loss': 0.22, 'grad_norm': 3.0427722930908203, 'learning_rate': 7.359e-06, 'epoch': 15.95}
{'loss': 0.1533, 'grad_norm': 4.571386337280273, 'learning_rate': 7.362e-06, 'epoch': 15.96}
{'loss': 0.222, 'grad_norm': 4.026857852935791, 'learning_rate': 7.365e-06, 'epoch': 15.97}
{'loss': 0.1744, 'grad_norm': 2.198889970779419, 'learning_rate': 7.3680000000000004e-06, 'epoch': 15.97}
{'loss': 0.1826, 'grad_norm': 2.5616655349731445, 'learning_rate': 7.371e-06, 'epoch': 15.98}
{'loss': 0.3118, 'grad_norm': 3.4712018966674805, 'learning_rate': 7.374e-06, 'epoch': 15.99}
{'loss': 0.2735, 'grad_norm': 1.669163465499878, 'learning_rate': 7.377000000000001e-06, 'epoch': 15.99}
{'loss': 0.1953, 'grad_norm': 2.892775058746338, 'learning_rate': 7.3800000000000005e-06, 'epoch': 16.0}
  2%|▏         | 2465/100000 [1:29:37<189:47:01,  7.00s/it]                                                             2%|▏         | 2465/100000 [1:29:37<189:47:01,  7.00s/it]  2%|▏         | 2466/100000 [1:29:45<199:39:52,  7.37s/it]                                                             2%|▏         | 2466/100000 [1:29:45<199:39:52,  7.37s/it]  2%|▏         | 2467/100000 [1:29:51<187:15:48,  6.91s/it]                                                             2%|▏         | 2467/100000 [1:29:51<187:15:48,  6.91s/it]  2%|▏         | 2468/100000 [1:29:56<169:22:45,  6.25s/it]                                                             2%|▏         | 2468/100000 [1:29:56<169:22:45,  6.25s/it]  2%|▏         | 2469/100000 [1:30:00<151:52:57,  5.61s/it]                                                             2%|▏         | 2469/100000 [1:30:00<151:52:57,  5.61s/it]  2%|▏         | 2470/100000 [1:30:03<132:43:17,  4.90s/it]                                                             2%|▏         | 2470/100000 [1:30:03<132:43:17,  4.90s/it]  2%|▏         | 2471/100000 [1:30:07<119:06:41,  4.40s/it]                                                             2%|▏         | 2471/100000 [1:30:07<119:06:41,  4.40s/it]  2%|▏         | 2472/100000 [1:30:09<106:31:11,  3.93s/it]                                                             2%|▏         | 2472/100000 [1:30:09<106:31:11,  3.93s/it]  2%|▏         | 2473/100000 [1:30:12<94:34:16,  3.49s/it]                                                             2%|▏         | 2473/100000 [1:30:12<94:34:16,  3.49s/it]  2%|▏         | 2474/100000 [1:30:14<83:44:57,  3.09s/it]                                                            2%|▏         | 2474/100000 [1:30:14<83:44:57,  3.09s/it]  2%|▏         | 2475/100000 [1:30:16<74:47:35,  2.76s/it]                                                            2%|▏         | 2475/100000 [1:30:16<74:47:35,  2.76s/it]  2%|▏         | 2476/100000 [1:30:18<67:37:21,  2.50s/it]                                                            2%|▏         | 2476/100000 [1:30:18<67:37:21,  2.50s/it]  2%|▏         | 2477/100000 [1:30:20<61:53:39,  2.28s/it]                                                            2%|▏         | 2477/100000 [1:30:20<61:53:39,  2.28s/it]  2%|▏         | 2478/100000 [1:30:21<56:45:08,  2.10s/it]                                                            2%|▏         | 2478/100000 [1:30:21<56:45:08,  2.10s/it]  2%|▏         | 2479/100000 [1:30:23<52:51:57,  1.95s/it]                                                            2%|▏         | 2479/100000 [1:30:23<52:51:57,  1.95s/it]  2%|▏         | 2480/100000 [1:30:25<49:46:02,  1.84s/it]                                                            2%|▏         | 2480/100000 [1:30:25<49:46:02,  1.84s/it]  2%|▏         | 2481/100000 [1:30:26<46:44:43,  1.73s/it]                                                            2%|▏         | 2481/100000 [1:30:26<46:44:43,  1.73s/it]  2%|▏         | 2482/100000 [1:30:27<43:51:12,  1.62s/it]                                                            2%|▏         | 2482/100000 [1:30:27<43:51:12,  1.62s/it]  2%|▏         | 2483/100000 [1:30:29<41:46:22,  1.54s/it]                                                            2%|▏         | 2483/100000 [1:30:29<41:46:22,  1.54s/it]  2%|▏         | 2484/100000 [1:30:30<39:45:43,  1.47s/it]                                                            2%|▏         | 2484/100000 [1:30:30<39:45:43,  1.47s/it]  2%|▏         | 2485/100000 [1:30:31<37:58:19,  1.40s/it]                                                            2%|▏         | 2485/100000 [1:30:31<37:58:19,  1.40s/it]  2%|▏         | 2486/100000 [1:30:32<35:36:08,  1.31s/it]                                                            2%|▏         | 2486/100000 [1:30:32<35:36:08,  1.31s/it]  2%|▏         | 2487/100000 [1:30:33<33:54:31,  1.25s/it]                                                            2%|▏         | 2487/100000 [1:30:33<33:54:31,  1.25s/it]  2%|▏         | 2488/100000 [1:30:35<32:01:04,  1.18s/it]                                                            2%|▏         | 2488/100000 [1:30:35<32:01:04,  1.18s/it]  2%|▏         | 2489/100000 [1:30:36<30:36:02,  1.13s/it]                                                            2%|▏         | 2489/100000 [1:30:36<30:36:02,  1.13s/it]  2%|▏         | 2490/100000 [1:30:36<29:06:20,  1.07s/it]                                                            2%|▏         | 2490/100000 [1:30:36<29:06:20,  1.07s/it]  2%|▏         | 2491/100000 [1:30:37<28:19:59,  1.05s/it]                                                            2%|▏         | 2491/100000 [1:30:37<28:19:59,  1.05s/it]  2%|▏         | 2492/100000 [1:30:38<27:26:46,  1.01s/it]                                                            2%|▏         | 2492/100000 [1:30:38<27:26:46,  1.01s/it]  2%|▏         | 2493/100000 [1:30:39<26:56:10,  1.01it/s]                                                            2%|▏         | 2493/100000 [1:30:39<26:56:10,  1.01it/s]  2%|▏         | 2494/100000 [1:30:40<26:28:46,  1.02it/s]                                                            2%|▏         | 2494/100000 [1:30:40<26:28:46,  1.02it/s]  2%|▏         | 2495/100000 [1:30:41<26:19:16,  1.03it/s]                                                            2%|▏         | 2495/100000 [1:30:41<26:19:16,  1.03it/s]  2%|▏         | 2496/100000 [1:30:42<25:35:26,  1.06it/s]                                                            2%|▏         | 2496/100000 [1:30:42<25:35:26,  1.06it/s]  2%|▏         | 2497/100000 [1:30:43<24:32:43,  1.10it/s]                                                            2%|▏         | 2497/100000 [1:30:43<24:32:43,  1.10it/s]  2%|▏         | 2498/100000 [1:30:44<24:03:01,  1.13it/s]                                                            2%|▏         | 2498/100000 [1:30:44<24:03:01,  1.13it/s]  2%|▏         | 2499/100000 [1:30:45<23:54:22,  1.13it/s]                                                            2%|▏         | 2499/100000 [1:30:45<23:54:22,  1.13it/s]  2%|▎         | 2500/100000 [1:30:45<22:46:02,  1.19it/s]                                                            2%|▎         | 2500/100000 [1:30:45<22:46:02,  1.19it/s]  3%|▎         | 2501/100000 [1:30:46<21:43:57,  1.25it/s]                                                            3%|▎         | 2501/100000 [1:30:46<21:43:57,  1.25it/s]  3%|▎         | 2502/100000 [1:30:47<20:43:01,  1.31it/s]                                                            3%|▎         | 2502/100000 [1:30:47<20:43:01,  1.31it/s]  3%|▎         | 2503/100000 [1:30:58<107:39:02,  3.97s/it]                                                             3%|▎         | 2503/100000 [1:30:58<107:39:02,  3.97s/it]  3%|▎         | 2504/100000 [1:31:06<138:51:55,  5.13s/it]                                                             3%|▎         | 2504/100000 [1:31:06<138:51:55,  5.13s/it]  3%|▎         | 2505/100000 [1:31:12<143:35:43,  5.30s/it]                                                             3%|▎         | 2505/100000 [1:31:12<143:35:43,  5.30s/it]  3%|▎         | 2506/100000 [1:31:16<138:53:25,  5.13s/it]                                                             3%|▎         | 2506/100000 [1:31:17<138:53:25,  5.13s/it]  3%|▎         | 2507/100000 [1:31:21<130:07:58,  4.81s/it]                                                             3%|▎         | 2507/100000 [1:31:21<130:07:58,  4.81s/it]  3%|▎         | 2508/100000 [1:31:24<119:18:53,  4.41s/it]                                                             3%|▎         | 2508/100000 [1:31:24<119:18:53,  4.41s/it]  3%|▎         | 2509/100000 [1:31:27<108:27:42,  4.01s/it]                                                             3%|▎         | 2509/100000 [1:31:27<108:27:42,  4.01s/it]  3%|▎         | 2510/100000 [1:31:30<96:41:04,  3.57s/it]                                                             3%|▎         | 2510/100000 [1:31:30<96:41:04,  3.57s/it]  3%|▎         | 2511/100000 [1:31:32<86:28:16,  3.19s/it]                                                            3%|▎         | 2511/100000 [1:31:32<86:28:16,  3.19s/it]  3%|▎         | 2512/100000 [1:31:34<77:33:16,  2.86s/it]                                                            3%|▎         | 2512/100000 [1:31:34<77:33:16,  2.86s/it]  3%|▎         | 2513/100000 [1:31:36<69:37:39,  2.57s/it]                                                            3%|▎         | 2513/100000 [1:31:36<69:37:39,  2.57s/it]  3%|▎         | 2514/100000 [1:31:38<63:34:32,  2.35s/it]                                                            3%|▎         | 2514/100000 [1:31:38<63:34:32,  2.35s/it]  3%|▎         | 2515/100000 [1:31:39<58:01:27,  2.14s/it]                                                            3%|▎         | 2515/100000 [1:31:39<58:01:27,  2.14s/it]  3%|▎         | 2516/100000 [1:31:41<53:52:07,  1.99s/it]                                                            3%|▎         | 2516/100000 [1:31:41<53:52:07,  1.99s/it]  3%|▎         | 2517/100000 [1:31:43<50:24:13,  1.86s/it]                                                            3%|▎         | 2517/100000 [1:31:43<50:24:13,  1.86s/it]  3%|▎         | 2518/100000 [1:31:44<47:08:40,  1.74s/it]                                                            3%|▎         | 2518/100000 [1:31:44<47:08:40,  1.74s/it]  3%|▎         | 2519/100000 [1:31:45<44:24:09,  1.64s/it]                                                            3%|▎         | 2519/100000 [1:31:45<44:24:09,  1.64s/it]  3%|▎         | 2520/100000 [1:31:47<41:49:45,  1.54s/it]                                                            3%|▎         | 2520/100000 [1:31:47<41:49:45,  1.54s/it]  3%|▎         | 2521/100000 [1:31:48<39:47:16,  1.47s/it]                                                            3%|▎         | 2521/100000 [1:31:48<39:47:16,  1.47s/it]  3%|▎         | 2522/100000 [1:31:49<37:37:14,  1.39s/it]                                                            3%|▎         | 2522/100000 [1:31:49<37:37:14,  1.39s/it]  3%|▎         | 2523/100000 [1:31:50<35:39:11,  1.32s/it]                                                            3%|▎         | 2523/100000 [1:31:50<35:39:11,  1.32s/it]  3%|▎         | 2524/100000 [1:31:52<33:54:35,  1.25s/it]                                                            3%|▎         | 2524/100000 [1:31:52<33:54:35,  1.25s/it]  3%|▎         | 2525/100000 [1:31:53<32:32:29,  1.20s/it]                                                            3%|▎         | 2525/100000 [1:31:53<32:32:29,  1.20s/it]  3%|▎         | 2526/100000 [1:31:54<31:06:47,  1.15s/it]                                                            3%|▎         | 2526/100000 [1:31:54<31:06:47,  1.15s/it]  3%|▎         | 2527/100000 [1:31:55<29:52:58,  1.10s/it]                                                            3%|▎         | 2527/100000 [1:31:55<29:52:58,  1.10s/it]  3%|▎         | 2528/100000 [1:31:56<28:58:17,  1.07s/it]                                                            3%|▎         | 2528/100000 [1:31:56<28:58:17,  1.07s/it]  3%|▎         | 2529/100000 [1:31:57<28:10:18,  1.04s/it]                                                            3%|▎         | 2529/100000 [1:31:57<28:10:18,  1.04s/it]  3%|▎         | 2530/100000 [1:31:58<27:27:27,  1.01s/it]                                                            3%|▎         | 2530/100000 [1:31:58<27:27:27,  1.01s/it]  3%|▎         | 2531/100000 [1:31:58<26:33:21,  1.02it/s]                                                            3%|▎         | 2531/100000 [1:31:58<26:33:21,  1.02it/s]  3%|▎         | 2532/100000 [1:31:59<25:37:49,  1.06it/s]                                                            3%|▎         | 2532/100000 [1:31:59<25:37:49,  1.06it/s]  3%|▎         | 2533/100000 [1:32:00<25:03:55,  1.08it/s]                                                            3%|▎         | 2533/100000 [1:32:00<25:03:55,  1.08it/s]  3%|▎         | 2534/100000 [1:32:01<23:54:16,  1.13it/s]                                                            3%|▎         | 2534/100000 [1:32:01<23:54:16,  1.13it/s]  3%|▎         | 2535/100000 [1:32:02<23:08:33,  1.17it/s]                                                            3%|▎         | 2535/100000 [1:32:02<23:08:33,  1.17it/s]  3%|▎         | 2536/100000 [1:32:03<22:18:08,  1.21it/s]                                                            3%|▎         | 2536/100000 [1:32:03<22:18:08,  1.21it/s]  3%|▎         | 2537/100000 [1:32:03<22:26:16,  1.21it/s]                                                            3%|▎         | 2537/100000 [1:32:03<22:26:16,  1.21it/s]  3%|▎         | 2538/100000 [1:32:04<22:45:16,  1.19it/s]                                                            3%|▎         | 2538/100000 [1:32:04<22:45:16,  1.19it/s]  3%|▎         | 2539/100000 [1:32:05<22:30:27,  1.20it/s]                                                            3%|▎         | 2539/100000 [1:32:05<22:30:27,  1.20it/s]  3%|▎         | 2540/100000 [1:32:06<22:07:19,  1.22it/s]                                                            3%|▎         | 2540/100000 [1:32:06<22:07:19,  1.22it/s]  3%|▎         | 2541/100000 [1:32:18<114:16:18,  4.22s/it]                                                             3%|▎         | 2541/100000 [1:32:18<114:16:18,  4.22s/it]  3%|▎         | 2542/100000 [1:32:26<146:51:29,  5.42s/it]                                                             3%|▎         | 2542/100000 [1:32:26<146:51:29,  5.42s/it]  3%|▎         | 2543/100000 [1:32:32<148:50:41,  5.50s/it]                                                             3%|▎         | 2543/100000 [1:32:32<148:50:41,  5.50s/it]  3%|▎         | 2544/100000 [1:32:37<142:10:56,  5.25s/it]                                                             3%|▎         | 2544/100000 [1:32:37<142:10:56,  5.25s/it]  3%|▎         | 2545/100000 [1:32:41<132:13:26,  4.88s/it]                                                             3%|▎         | 2545/100000 [1:32:41<132:13:26,  4.88s/it]  3%|▎         | 2546/100000 [1:32:44<120:46:10,  4.46s/it]                                                             3%|▎         | 2546/100000 [1:32:44<120:46:10,  4.46s/it]  3%|▎         | 2547/100000 [1:32:47<107:57:27,  3.99s/it]                                                             3%|▎         | 2547/100000 [1:32:47<107:57:27,  3.99s/it]  3%|▎         | 2548/100000 [1:32:50<97:00:29,  3.58s/it]                                                           {'loss': 0.4109, 'grad_norm': 1.9185806512832642, 'learning_rate': 7.383e-06, 'epoch': 16.01}
{'loss': 0.3684, 'grad_norm': 3.5548501014709473, 'learning_rate': 7.386e-06, 'epoch': 16.01}
{'loss': 0.3087, 'grad_norm': 0.9812270402908325, 'learning_rate': 7.389e-06, 'epoch': 16.02}
{'loss': 0.3451, 'grad_norm': 1.057517647743225, 'learning_rate': 7.3920000000000005e-06, 'epoch': 16.03}
{'loss': 0.2831, 'grad_norm': 0.9818133115768433, 'learning_rate': 7.395e-06, 'epoch': 16.03}
{'loss': 0.2916, 'grad_norm': 1.0430865287780762, 'learning_rate': 7.398000000000001e-06, 'epoch': 16.04}
{'loss': 0.2305, 'grad_norm': 1.2667076587677002, 'learning_rate': 7.401e-06, 'epoch': 16.05}
{'loss': 0.2204, 'grad_norm': 1.1544824838638306, 'learning_rate': 7.404e-06, 'epoch': 16.05}
{'loss': 0.2421, 'grad_norm': 1.0260415077209473, 'learning_rate': 7.407e-06, 'epoch': 16.06}
{'loss': 0.2865, 'grad_norm': 2.0247626304626465, 'learning_rate': 7.41e-06, 'epoch': 16.06}
{'loss': 0.1646, 'grad_norm': 0.9427659511566162, 'learning_rate': 7.413e-06, 'epoch': 16.07}
{'loss': 0.1564, 'grad_norm': 2.120408296585083, 'learning_rate': 7.416000000000001e-06, 'epoch': 16.08}
{'loss': 0.1895, 'grad_norm': 0.9471068978309631, 'learning_rate': 7.419e-06, 'epoch': 16.08}
{'loss': 0.195, 'grad_norm': 1.271446943283081, 'learning_rate': 7.422e-06, 'epoch': 16.09}
{'loss': 0.1986, 'grad_norm': 1.1102927923202515, 'learning_rate': 7.425e-06, 'epoch': 16.1}
{'loss': 0.1562, 'grad_norm': 1.005001425743103, 'learning_rate': 7.428e-06, 'epoch': 16.1}
{'loss': 0.1663, 'grad_norm': 1.4556177854537964, 'learning_rate': 7.4310000000000005e-06, 'epoch': 16.11}
{'loss': 0.1484, 'grad_norm': 1.894898772239685, 'learning_rate': 7.434e-06, 'epoch': 16.12}
{'loss': 0.1527, 'grad_norm': 1.1693003177642822, 'learning_rate': 7.437e-06, 'epoch': 16.12}
{'loss': 0.1763, 'grad_norm': 1.6257383823394775, 'learning_rate': 7.44e-06, 'epoch': 16.13}
{'loss': 0.1483, 'grad_norm': 1.4610650539398193, 'learning_rate': 7.443e-06, 'epoch': 16.14}
{'loss': 0.17, 'grad_norm': 1.0294461250305176, 'learning_rate': 7.446e-06, 'epoch': 16.14}
{'loss': 0.1233, 'grad_norm': 1.2860958576202393, 'learning_rate': 7.449e-06, 'epoch': 16.15}
{'loss': 0.2474, 'grad_norm': 1.5144844055175781, 'learning_rate': 7.452000000000001e-06, 'epoch': 16.16}
{'loss': 0.2219, 'grad_norm': 1.5509138107299805, 'learning_rate': 7.455e-06, 'epoch': 16.16}
{'loss': 0.1797, 'grad_norm': 1.5567470788955688, 'learning_rate': 7.4579999999999996e-06, 'epoch': 16.17}
{'loss': 0.1635, 'grad_norm': 1.5820364952087402, 'learning_rate': 7.461e-06, 'epoch': 16.18}
{'loss': 0.244, 'grad_norm': 2.3449110984802246, 'learning_rate': 7.464e-06, 'epoch': 16.18}
{'loss': 0.1811, 'grad_norm': 1.5978847742080688, 'learning_rate': 7.467000000000001e-06, 'epoch': 16.19}
{'loss': 0.2053, 'grad_norm': 2.0689525604248047, 'learning_rate': 7.4700000000000005e-06, 'epoch': 16.19}
{'loss': 0.1485, 'grad_norm': 2.4515559673309326, 'learning_rate': 7.4729999999999994e-06, 'epoch': 16.2}
{'loss': 0.2423, 'grad_norm': 1.8645192384719849, 'learning_rate': 7.476e-06, 'epoch': 16.21}
{'loss': 0.1558, 'grad_norm': 2.375241279602051, 'learning_rate': 7.479e-06, 'epoch': 16.21}
{'loss': 0.1665, 'grad_norm': 3.1420297622680664, 'learning_rate': 7.4820000000000005e-06, 'epoch': 16.22}
{'loss': 0.1918, 'grad_norm': 2.2913079261779785, 'learning_rate': 7.485e-06, 'epoch': 16.23}
{'loss': 0.1871, 'grad_norm': 1.8598341941833496, 'learning_rate': 7.488e-06, 'epoch': 16.23}
{'loss': 0.132, 'grad_norm': 2.019638776779175, 'learning_rate': 7.491e-06, 'epoch': 16.24}
{'loss': 0.239, 'grad_norm': 3.694646120071411, 'learning_rate': 7.494e-06, 'epoch': 16.25}
{'loss': 0.4379, 'grad_norm': 2.341052770614624, 'learning_rate': 7.497e-06, 'epoch': 16.25}
{'loss': 0.3647, 'grad_norm': 2.067028522491455, 'learning_rate': 7.5e-06, 'epoch': 16.26}
{'loss': 0.3372, 'grad_norm': 1.4272948503494263, 'learning_rate': 7.503e-06, 'epoch': 16.27}
{'loss': 0.3208, 'grad_norm': 1.4321480989456177, 'learning_rate': 7.506e-06, 'epoch': 16.27}
{'loss': 0.3082, 'grad_norm': 1.791130542755127, 'learning_rate': 7.5090000000000004e-06, 'epoch': 16.28}
{'loss': 0.2813, 'grad_norm': 1.120152473449707, 'learning_rate': 7.512e-06, 'epoch': 16.29}
{'loss': 0.2774, 'grad_norm': 1.5499811172485352, 'learning_rate': 7.515e-06, 'epoch': 16.29}
{'loss': 0.2472, 'grad_norm': 1.287563681602478, 'learning_rate': 7.518e-06, 'epoch': 16.3}
{'loss': 0.212, 'grad_norm': 1.289833664894104, 'learning_rate': 7.521e-06, 'epoch': 16.31}
{'loss': 0.2109, 'grad_norm': 1.0465867519378662, 'learning_rate': 7.524000000000001e-06, 'epoch': 16.31}
{'loss': 0.1884, 'grad_norm': 1.037969708442688, 'learning_rate': 7.527000000000001e-06, 'epoch': 16.32}
{'loss': 0.1927, 'grad_norm': 1.0687487125396729, 'learning_rate': 7.53e-06, 'epoch': 16.32}
{'loss': 0.1364, 'grad_norm': 0.9720609784126282, 'learning_rate': 7.533e-06, 'epoch': 16.33}
{'loss': 0.1711, 'grad_norm': 1.049626350402832, 'learning_rate': 7.5359999999999995e-06, 'epoch': 16.34}
{'loss': 0.1523, 'grad_norm': 1.1271146535873413, 'learning_rate': 7.539000000000001e-06, 'epoch': 16.34}
{'loss': 0.1301, 'grad_norm': 1.4341877698898315, 'learning_rate': 7.542000000000001e-06, 'epoch': 16.35}
{'loss': 0.1429, 'grad_norm': 1.825464129447937, 'learning_rate': 7.545000000000001e-06, 'epoch': 16.36}
{'loss': 0.1745, 'grad_norm': 1.5627527236938477, 'learning_rate': 7.5479999999999996e-06, 'epoch': 16.36}
{'loss': 0.1488, 'grad_norm': 1.3727080821990967, 'learning_rate': 7.550999999999999e-06, 'epoch': 16.37}
{'loss': 0.1834, 'grad_norm': 1.5740411281585693, 'learning_rate': 7.554000000000001e-06, 'epoch': 16.38}
{'loss': 0.1768, 'grad_norm': 2.0010812282562256, 'learning_rate': 7.557000000000001e-06, 'epoch': 16.38}
{'loss': 0.1638, 'grad_norm': 1.423197865486145, 'learning_rate': 7.5600000000000005e-06, 'epoch': 16.39}
{'loss': 0.1446, 'grad_norm': 1.5166192054748535, 'learning_rate': 7.563e-06, 'epoch': 16.4}
{'loss': 0.1504, 'grad_norm': 1.5605474710464478, 'learning_rate': 7.565999999999999e-06, 'epoch': 16.4}
{'loss': 0.1974, 'grad_norm': 2.391639471054077, 'learning_rate': 7.569000000000001e-06, 'epoch': 16.41}
{'loss': 0.1414, 'grad_norm': 2.00270414352417, 'learning_rate': 7.5720000000000005e-06, 'epoch': 16.42}
{'loss': 0.1651, 'grad_norm': 1.7951043844223022, 'learning_rate': 7.575e-06, 'epoch': 16.42}
{'loss': 0.2163, 'grad_norm': 1.9952893257141113, 'learning_rate': 7.578e-06, 'epoch': 16.43}
{'loss': 0.2051, 'grad_norm': 1.9372669458389282, 'learning_rate': 7.581e-06, 'epoch': 16.44}
{'loss': 0.1726, 'grad_norm': 1.8964451551437378, 'learning_rate': 7.5840000000000006e-06, 'epoch': 16.44}
{'loss': 0.1178, 'grad_norm': 1.8217504024505615, 'learning_rate': 7.587e-06, 'epoch': 16.45}
{'loss': 0.1655, 'grad_norm': 2.821322202682495, 'learning_rate': 7.59e-06, 'epoch': 16.45}
{'loss': 0.1489, 'grad_norm': 1.8291471004486084, 'learning_rate': 7.593e-06, 'epoch': 16.46}
{'loss': 0.1741, 'grad_norm': 2.46323299407959, 'learning_rate': 7.596e-06, 'epoch': 16.47}
{'loss': 0.1727, 'grad_norm': 2.92374587059021, 'learning_rate': 7.599000000000001e-06, 'epoch': 16.47}
{'loss': 0.1719, 'grad_norm': 2.209624767303467, 'learning_rate': 7.602e-06, 'epoch': 16.48}
{'loss': 0.1744, 'grad_norm': 1.8089475631713867, 'learning_rate': 7.605e-06, 'epoch': 16.49}
{'loss': 0.234, 'grad_norm': 3.135239839553833, 'learning_rate': 7.608e-06, 'epoch': 16.49}
{'loss': 0.4527, 'grad_norm': 4.0987138748168945, 'learning_rate': 7.611e-06, 'epoch': 16.5}
{'loss': 0.3825, 'grad_norm': 1.9786710739135742, 'learning_rate': 7.614000000000001e-06, 'epoch': 16.51}
{'loss': 0.4051, 'grad_norm': 2.165065050125122, 'learning_rate': 7.617000000000001e-06, 'epoch': 16.51}
{'loss': 0.2979, 'grad_norm': 2.00464129447937, 'learning_rate': 7.62e-06, 'epoch': 16.52}
{'loss': 0.2565, 'grad_norm': 2.0143065452575684, 'learning_rate': 7.623e-06, 'epoch': 16.53}
{'loss': 0.2289, 'grad_norm': 1.245804786682129, 'learning_rate': 7.6259999999999995e-06, 'epoch': 16.53}
{'loss': 0.2654, 'grad_norm': 1.2589032649993896, 'learning_rate': 7.629000000000001e-06, 'epoch': 16.54}
  3%|▎         | 2548/100000 [1:32:50<97:00:29,  3.58s/it]  3%|▎         | 2549/100000 [1:32:52<86:45:25,  3.20s/it]                                                            3%|▎         | 2549/100000 [1:32:52<86:45:25,  3.20s/it]  3%|▎         | 2550/100000 [1:32:54<76:59:25,  2.84s/it]                                                            3%|▎         | 2550/100000 [1:32:54<76:59:25,  2.84s/it]  3%|▎         | 2551/100000 [1:32:56<70:00:42,  2.59s/it]                                                            3%|▎         | 2551/100000 [1:32:56<70:00:42,  2.59s/it]  3%|▎         | 2552/100000 [1:32:58<64:04:27,  2.37s/it]                                                            3%|▎         | 2552/100000 [1:32:58<64:04:27,  2.37s/it]  3%|▎         | 2553/100000 [1:32:59<58:35:24,  2.16s/it]                                                            3%|▎         | 2553/100000 [1:32:59<58:35:24,  2.16s/it]  3%|▎         | 2554/100000 [1:33:01<54:17:29,  2.01s/it]                                                            3%|▎         | 2554/100000 [1:33:01<54:17:29,  2.01s/it]  3%|▎         | 2555/100000 [1:33:03<50:39:28,  1.87s/it]                                                            3%|▎         | 2555/100000 [1:33:03<50:39:28,  1.87s/it]  3%|▎         | 2556/100000 [1:33:04<47:15:57,  1.75s/it]                                                            3%|▎         | 2556/100000 [1:33:04<47:15:57,  1.75s/it]  3%|▎         | 2557/100000 [1:33:06<44:25:09,  1.64s/it]                                                            3%|▎         | 2557/100000 [1:33:06<44:25:09,  1.64s/it]  3%|▎         | 2558/100000 [1:33:07<41:42:15,  1.54s/it]                                                            3%|▎         | 2558/100000 [1:33:07<41:42:15,  1.54s/it]  3%|▎         | 2559/100000 [1:33:08<39:37:24,  1.46s/it]                                                            3%|▎         | 2559/100000 [1:33:08<39:37:24,  1.46s/it]  3%|▎         | 2560/100000 [1:33:09<37:46:12,  1.40s/it]                                                            3%|▎         | 2560/100000 [1:33:09<37:46:12,  1.40s/it]  3%|▎         | 2561/100000 [1:33:10<35:38:32,  1.32s/it]                                                            3%|▎         | 2561/100000 [1:33:10<35:38:32,  1.32s/it]  3%|▎         | 2562/100000 [1:33:12<33:57:22,  1.25s/it]                                                            3%|▎         | 2562/100000 [1:33:12<33:57:22,  1.25s/it]  3%|▎         | 2563/100000 [1:33:13<32:16:57,  1.19s/it]                                                            3%|▎         | 2563/100000 [1:33:13<32:16:57,  1.19s/it]  3%|▎         | 2564/100000 [1:33:14<31:00:40,  1.15s/it]                                                            3%|▎         | 2564/100000 [1:33:14<31:00:40,  1.15s/it]  3%|▎         | 2565/100000 [1:33:15<29:44:25,  1.10s/it]                                                            3%|▎         | 2565/100000 [1:33:15<29:44:25,  1.10s/it]  3%|▎         | 2566/100000 [1:33:16<28:50:24,  1.07s/it]                                                            3%|▎         | 2566/100000 [1:33:16<28:50:24,  1.07s/it]  3%|▎         | 2567/100000 [1:33:17<28:08:09,  1.04s/it]                                                            3%|▎         | 2567/100000 [1:33:17<28:08:09,  1.04s/it]  3%|▎         | 2568/100000 [1:33:18<27:33:58,  1.02s/it]                                                            3%|▎         | 2568/100000 [1:33:18<27:33:58,  1.02s/it]  3%|▎         | 2569/100000 [1:33:19<26:59:47,  1.00it/s]                                                            3%|▎         | 2569/100000 [1:33:19<26:59:47,  1.00it/s]  3%|▎         | 2570/100000 [1:33:19<26:19:07,  1.03it/s]                                                            3%|▎         | 2570/100000 [1:33:19<26:19:07,  1.03it/s]  3%|▎         | 2571/100000 [1:33:20<25:50:43,  1.05it/s]                                                            3%|▎         | 2571/100000 [1:33:20<25:50:43,  1.05it/s]  3%|▎         | 2572/100000 [1:33:21<25:12:28,  1.07it/s]                                                            3%|▎         | 2572/100000 [1:33:21<25:12:28,  1.07it/s]  3%|▎         | 2573/100000 [1:33:22<24:34:45,  1.10it/s]                                                            3%|▎         | 2573/100000 [1:33:22<24:34:45,  1.10it/s]  3%|▎         | 2574/100000 [1:33:23<24:07:58,  1.12it/s]                                                            3%|▎         | 2574/100000 [1:33:23<24:07:58,  1.12it/s]  3%|▎         | 2575/100000 [1:33:24<23:42:00,  1.14it/s]                                                            3%|▎         | 2575/100000 [1:33:24<23:42:00,  1.14it/s]  3%|▎         | 2576/100000 [1:33:25<23:03:23,  1.17it/s]                                                            3%|▎         | 2576/100000 [1:33:25<23:03:23,  1.17it/s]  3%|▎         | 2577/100000 [1:33:25<22:28:20,  1.20it/s]                                                            3%|▎         | 2577/100000 [1:33:25<22:28:20,  1.20it/s]  3%|▎         | 2578/100000 [1:33:26<22:07:11,  1.22it/s]                                                            3%|▎         | 2578/100000 [1:33:26<22:07:11,  1.22it/s]  3%|▎         | 2579/100000 [1:33:39<121:08:55,  4.48s/it]                                                             3%|▎         | 2579/100000 [1:33:39<121:08:55,  4.48s/it]  3%|▎         | 2580/100000 [1:33:47<146:23:34,  5.41s/it]                                                             3%|▎         | 2580/100000 [1:33:47<146:23:34,  5.41s/it]  3%|▎         | 2581/100000 [1:33:52<145:25:53,  5.37s/it]                                                             3%|▎         | 2581/100000 [1:33:52<145:25:53,  5.37s/it]  3%|▎         | 2582/100000 [1:33:56<136:44:46,  5.05s/it]                                                             3%|▎         | 2582/100000 [1:33:56<136:44:46,  5.05s/it]  3%|▎         | 2583/100000 [1:34:00<126:43:31,  4.68s/it]                                                             3%|▎         | 2583/100000 [1:34:00<126:43:31,  4.68s/it]  3%|▎         | 2584/100000 [1:34:04<116:10:17,  4.29s/it]                                                             3%|▎         | 2584/100000 [1:34:04<116:10:17,  4.29s/it]  3%|▎         | 2585/100000 [1:34:06<105:09:50,  3.89s/it]                                                             3%|▎         | 2585/100000 [1:34:07<105:09:50,  3.89s/it]  3%|▎         | 2586/100000 [1:34:09<94:47:59,  3.50s/it]                                                             3%|▎         | 2586/100000 [1:34:09<94:47:59,  3.50s/it]  3%|▎         | 2587/100000 [1:34:11<85:09:09,  3.15s/it]                                                            3%|▎         | 2587/100000 [1:34:11<85:09:09,  3.15s/it]  3%|▎         | 2588/100000 [1:34:14<76:58:24,  2.84s/it]                                                            3%|▎         | 2588/100000 [1:34:14<76:58:24,  2.84s/it]  3%|▎         | 2589/100000 [1:34:16<69:56:24,  2.58s/it]                                                            3%|▎         | 2589/100000 [1:34:16<69:56:24,  2.58s/it]  3%|▎         | 2590/100000 [1:34:17<63:42:17,  2.35s/it]                                                            3%|▎         | 2590/100000 [1:34:17<63:42:17,  2.35s/it]  3%|▎         | 2591/100000 [1:34:19<58:24:51,  2.16s/it]                                                            3%|▎         | 2591/100000 [1:34:19<58:24:51,  2.16s/it]  3%|▎         | 2592/100000 [1:34:21<54:00:56,  2.00s/it]                                                            3%|▎         | 2592/100000 [1:34:21<54:00:56,  2.00s/it]  3%|▎         | 2593/100000 [1:34:22<49:54:47,  1.84s/it]                                                            3%|▎         | 2593/100000 [1:34:22<49:54:47,  1.84s/it]  3%|▎         | 2594/100000 [1:34:24<46:58:43,  1.74s/it]                                                            3%|▎         | 2594/100000 [1:34:24<46:58:43,  1.74s/it]  3%|▎         | 2595/100000 [1:34:25<44:02:08,  1.63s/it]                                                            3%|▎         | 2595/100000 [1:34:25<44:02:08,  1.63s/it]  3%|▎         | 2596/100000 [1:34:26<41:46:26,  1.54s/it]                                                            3%|▎         | 2596/100000 [1:34:26<41:46:26,  1.54s/it]  3%|▎         | 2597/100000 [1:34:28<39:40:40,  1.47s/it]                                                            3%|▎         | 2597/100000 [1:34:28<39:40:40,  1.47s/it]  3%|▎         | 2598/100000 [1:34:29<37:45:07,  1.40s/it]                                                            3%|▎         | 2598/100000 [1:34:29<37:45:07,  1.40s/it]  3%|▎         | 2599/100000 [1:34:30<35:37:51,  1.32s/it]                                                            3%|▎         | 2599/100000 [1:34:30<35:37:51,  1.32s/it]  3%|▎         | 2600/100000 [1:34:31<33:55:12,  1.25s/it]                                                            3%|▎         | 2600/100000 [1:34:31<33:55:12,  1.25s/it]  3%|▎         | 2601/100000 [1:34:32<32:25:40,  1.20s/it]                                                            3%|▎         | 2601/100000 [1:34:32<32:25:40,  1.20s/it]  3%|▎         | 2602/100000 [1:34:33<31:02:20,  1.15s/it]                                                            3%|▎         | 2602/100000 [1:34:33<31:02:20,  1.15s/it]  3%|▎         | 2603/100000 [1:34:34<29:44:05,  1.10s/it]                                                            3%|▎         | 2603/100000 [1:34:34<29:44:05,  1.10s/it]  3%|▎         | 2604/100000 [1:34:35<28:37:52,  1.06s/it]                                                            3%|▎         | 2604/100000 [1:34:35<28:37:52,  1.06s/it]  3%|▎         | 2605/100000 [1:34:36<27:34:55,  1.02s/it]                                                            3%|▎         | 2605/100000 [1:34:36<27:34:55,  1.02s/it]  3%|▎         | 2606/100000 [1:34:37<26:20:05,  1.03it/s]                                                            3%|▎         | 2606/100000 [1:34:37<26:20:05,  1.03it/s]  3%|▎         | 2607/100000 [1:34:38<25:27:21,  1.06it/s]                                                            3%|▎         | 2607/100000 [1:34:38<25:27:21,  1.06it/s]  3%|▎         | 2608/100000 [1:34:39<24:32:52,  1.10it/s]                                                            3%|▎         | 2608/100000 [1:34:39<24:32:52,  1.10it/s]  3%|▎         | 2609/100000 [1:34:40<24:03:43,  1.12it/s]                                                            3%|▎         | 2609/100000 [1:34:40<24:03:43,  1.12it/s]  3%|▎         | 2610/100000 [1:34:40<23:40:10,  1.14it/s]                                                            3%|▎         | 2610/100000 [1:34:40<23:40:10,  1.14it/s]  3%|▎         | 2611/100000 [1:34:41<22:55:51,  1.18it/s]                                                            3%|▎         | 2611/100000 [1:34:41<22:55:51,  1.18it/s]  3%|▎         | 2612/100000 [1:34:42<23:37:10,  1.15it/s]                                                            3%|▎         | 2612/100000 [1:34:42<23:37:10,  1.15it/s]  3%|▎         | 2613/100000 [1:34:43<22:35:13,  1.20it/s]                                                            3%|▎         | 2613/100000 [1:34:43<22:35:13,  1.20it/s]  3%|▎         | 2614/100000 [1:34:44<21:51:49,  1.24it/s]                                                            3%|▎         | 2614/100000 [1:34:44<21:51:49,  1.24it/s]  3%|▎         | 2615/100000 [1:34:44<21:13:29,  1.27it/s]                                                            3%|▎         | 2615/100000 [1:34:44<21:13:29,  1.27it/s]  3%|▎         | 2616/100000 [1:34:45<20:16:27,  1.33it/s]                                                            3%|▎         | 2616/100000 [1:34:45<20:16:27,  1.33it/s]  3%|▎         | 2617/100000 [1:34:52<71:42:12,  2.65s/it]                                                            3%|▎         | 2617/100000 [1:34:52<71:42:12,  2.65s/it]  3%|▎         | 2618/100000 [1:34:54<62:27:52,  2.31s/it]                                                            3%|▎         | 2618/100000 [1:34:54<62:27:52,  2.31s/it]{'loss': 0.2339, 'grad_norm': 1.2506414651870728, 'learning_rate': 7.632e-06, 'epoch': 16.55}
{'loss': 0.2308, 'grad_norm': 1.7382080554962158, 'learning_rate': 7.635e-06, 'epoch': 16.55}
{'loss': 0.2003, 'grad_norm': 1.9211674928665161, 'learning_rate': 7.638e-06, 'epoch': 16.56}
{'loss': 0.2163, 'grad_norm': 3.2135586738586426, 'learning_rate': 7.641e-06, 'epoch': 16.56}
{'loss': 0.185, 'grad_norm': 1.8240387439727783, 'learning_rate': 7.644000000000002e-06, 'epoch': 16.57}
{'loss': 0.1594, 'grad_norm': 1.3299214839935303, 'learning_rate': 7.647000000000001e-06, 'epoch': 16.58}
{'loss': 0.1542, 'grad_norm': 1.0815461874008179, 'learning_rate': 7.65e-06, 'epoch': 16.58}
{'loss': 0.2365, 'grad_norm': 1.1614973545074463, 'learning_rate': 7.653e-06, 'epoch': 16.59}
{'loss': 0.1769, 'grad_norm': 1.439457654953003, 'learning_rate': 7.656e-06, 'epoch': 16.6}
{'loss': 0.1753, 'grad_norm': 1.3835703134536743, 'learning_rate': 7.659e-06, 'epoch': 16.6}
{'loss': 0.1848, 'grad_norm': 1.5328859090805054, 'learning_rate': 7.662e-06, 'epoch': 16.61}
{'loss': 0.1463, 'grad_norm': 1.3210153579711914, 'learning_rate': 7.665e-06, 'epoch': 16.62}
{'loss': 0.1851, 'grad_norm': 1.2245581150054932, 'learning_rate': 7.668e-06, 'epoch': 16.62}
{'loss': 0.1689, 'grad_norm': 1.2430604696273804, 'learning_rate': 7.671e-06, 'epoch': 16.63}
{'loss': 0.1918, 'grad_norm': 1.1455453634262085, 'learning_rate': 7.674000000000001e-06, 'epoch': 16.64}
{'loss': 0.1952, 'grad_norm': 1.5333963632583618, 'learning_rate': 7.677000000000001e-06, 'epoch': 16.64}
{'loss': 0.2052, 'grad_norm': 1.669357419013977, 'learning_rate': 7.680000000000001e-06, 'epoch': 16.65}
{'loss': 0.1272, 'grad_norm': 1.1940916776657104, 'learning_rate': 7.683e-06, 'epoch': 16.66}
{'loss': 0.1415, 'grad_norm': 1.2602462768554688, 'learning_rate': 7.685999999999999e-06, 'epoch': 16.66}
{'loss': 0.1566, 'grad_norm': 1.6626583337783813, 'learning_rate': 7.688999999999999e-06, 'epoch': 16.67}
{'loss': 0.2299, 'grad_norm': 1.8669073581695557, 'learning_rate': 7.692e-06, 'epoch': 16.68}
{'loss': 0.1799, 'grad_norm': 1.9781873226165771, 'learning_rate': 7.695e-06, 'epoch': 16.68}
{'loss': 0.1651, 'grad_norm': 2.1362733840942383, 'learning_rate': 7.698e-06, 'epoch': 16.69}
{'loss': 0.1593, 'grad_norm': 2.734513521194458, 'learning_rate': 7.701e-06, 'epoch': 16.69}
{'loss': 0.1949, 'grad_norm': 1.8665961027145386, 'learning_rate': 7.704e-06, 'epoch': 16.7}
{'loss': 0.1387, 'grad_norm': 2.2953243255615234, 'learning_rate': 7.707000000000001e-06, 'epoch': 16.71}
{'loss': 0.1391, 'grad_norm': 2.6818134784698486, 'learning_rate': 7.71e-06, 'epoch': 16.71}
{'loss': 0.1826, 'grad_norm': 2.4008655548095703, 'learning_rate': 7.713e-06, 'epoch': 16.72}
{'loss': 0.2634, 'grad_norm': 2.300723075866699, 'learning_rate': 7.716e-06, 'epoch': 16.73}
{'loss': 0.2271, 'grad_norm': 2.6620237827301025, 'learning_rate': 7.719e-06, 'epoch': 16.73}
{'loss': 0.2217, 'grad_norm': 2.7374727725982666, 'learning_rate': 7.722e-06, 'epoch': 16.74}
{'loss': 0.395, 'grad_norm': 1.9335561990737915, 'learning_rate': 7.725e-06, 'epoch': 16.75}
{'loss': 0.3598, 'grad_norm': 1.2480952739715576, 'learning_rate': 7.728e-06, 'epoch': 16.75}
{'loss': 0.2833, 'grad_norm': 0.942141592502594, 'learning_rate': 7.731e-06, 'epoch': 16.76}
{'loss': 0.2976, 'grad_norm': 0.8657096028327942, 'learning_rate': 7.733999999999999e-06, 'epoch': 16.77}
{'loss': 0.2686, 'grad_norm': 1.0608474016189575, 'learning_rate': 7.737e-06, 'epoch': 16.77}
{'loss': 0.2164, 'grad_norm': 1.196947693824768, 'learning_rate': 7.74e-06, 'epoch': 16.78}
{'loss': 0.2676, 'grad_norm': 1.3258564472198486, 'learning_rate': 7.743e-06, 'epoch': 16.79}
{'loss': 0.2353, 'grad_norm': 0.8799100518226624, 'learning_rate': 7.746e-06, 'epoch': 16.79}
{'loss': 0.2398, 'grad_norm': 1.3711711168289185, 'learning_rate': 7.749e-06, 'epoch': 16.8}
{'loss': 0.207, 'grad_norm': 1.110754132270813, 'learning_rate': 7.752000000000001e-06, 'epoch': 16.81}
{'loss': 0.1934, 'grad_norm': 0.9194108843803406, 'learning_rate': 7.755000000000001e-06, 'epoch': 16.81}
{'loss': 0.2062, 'grad_norm': 2.079639434814453, 'learning_rate': 7.758000000000001e-06, 'epoch': 16.82}
{'loss': 0.1687, 'grad_norm': 1.0664737224578857, 'learning_rate': 7.760999999999999e-06, 'epoch': 16.82}
{'loss': 0.1562, 'grad_norm': 0.8214555978775024, 'learning_rate': 7.763999999999999e-06, 'epoch': 16.83}
{'loss': 0.1382, 'grad_norm': 0.989871621131897, 'learning_rate': 7.767e-06, 'epoch': 16.84}
{'loss': 0.2123, 'grad_norm': 1.7512760162353516, 'learning_rate': 7.77e-06, 'epoch': 16.84}
{'loss': 0.1827, 'grad_norm': 0.9768630862236023, 'learning_rate': 7.773e-06, 'epoch': 16.85}
{'loss': 0.1725, 'grad_norm': 1.032433032989502, 'learning_rate': 7.776e-06, 'epoch': 16.86}
{'loss': 0.1687, 'grad_norm': 1.3932619094848633, 'learning_rate': 7.779e-06, 'epoch': 16.86}
{'loss': 0.1836, 'grad_norm': 1.425891637802124, 'learning_rate': 7.782000000000001e-06, 'epoch': 16.87}
{'loss': 0.1758, 'grad_norm': 1.4944617748260498, 'learning_rate': 7.785000000000001e-06, 'epoch': 16.88}
{'loss': 0.2368, 'grad_norm': 1.6273434162139893, 'learning_rate': 7.788e-06, 'epoch': 16.88}
{'loss': 0.1655, 'grad_norm': 1.4590002298355103, 'learning_rate': 7.791e-06, 'epoch': 16.89}
{'loss': 0.2992, 'grad_norm': 1.6860246658325195, 'learning_rate': 7.794e-06, 'epoch': 16.9}
{'loss': 0.1359, 'grad_norm': 1.610745906829834, 'learning_rate': 7.797e-06, 'epoch': 16.9}
{'loss': 0.1395, 'grad_norm': 1.1345430612564087, 'learning_rate': 7.8e-06, 'epoch': 16.91}
{'loss': 0.181, 'grad_norm': 2.3661913871765137, 'learning_rate': 7.803e-06, 'epoch': 16.92}
{'loss': 0.1714, 'grad_norm': 1.6160818338394165, 'learning_rate': 7.806e-06, 'epoch': 16.92}
{'loss': 0.1425, 'grad_norm': 1.3937500715255737, 'learning_rate': 7.809e-06, 'epoch': 16.93}
{'loss': 0.1406, 'grad_norm': 2.0995070934295654, 'learning_rate': 7.812e-06, 'epoch': 16.94}
{'loss': 0.1224, 'grad_norm': 0.9727147817611694, 'learning_rate': 7.815e-06, 'epoch': 16.94}
{'loss': 0.1471, 'grad_norm': 1.7423186302185059, 'learning_rate': 7.818e-06, 'epoch': 16.95}
{'loss': 0.1506, 'grad_norm': 2.216607093811035, 'learning_rate': 7.821e-06, 'epoch': 16.95}
{'loss': 0.2087, 'grad_norm': 1.9694650173187256, 'learning_rate': 7.824e-06, 'epoch': 16.96}
{'loss': 0.1553, 'grad_norm': 2.503711462020874, 'learning_rate': 7.827000000000001e-06, 'epoch': 16.97}
{'loss': 0.1591, 'grad_norm': 1.7517709732055664, 'learning_rate': 7.830000000000001e-06, 'epoch': 16.97}
{'loss': 0.176, 'grad_norm': 2.828362226486206, 'learning_rate': 7.833e-06, 'epoch': 16.98}
{'loss': 0.2897, 'grad_norm': 4.656847953796387, 'learning_rate': 7.836e-06, 'epoch': 16.99}
{'loss': 0.1967, 'grad_norm': 1.3828052282333374, 'learning_rate': 7.838999999999999e-06, 'epoch': 16.99}
{'loss': 0.1806, 'grad_norm': 2.5321061611175537, 'learning_rate': 7.842e-06, 'epoch': 17.0}
  3%|▎         | 2619/100000 [1:35:11<185:05:22,  6.84s/it]                                                             3%|▎         | 2619/100000 [1:35:11<185:05:22,  6.84s/it]  3%|▎         | 2620/100000 [1:35:19<193:22:29,  7.15s/it]                                                             3%|▎         | 2620/100000 [1:35:19<193:22:29,  7.15s/it]  3%|▎         | 2621/100000 [1:35:24<180:55:46,  6.69s/it]                                                             3%|▎         | 2621/100000 [1:35:24<180:55:46,  6.69s/it]  3%|▎         | 2622/100000 [1:35:29<163:18:24,  6.04s/it]                                                             3%|▎         | 2622/100000 [1:35:29<163:18:24,  6.04s/it]  3%|▎         | 2623/100000 [1:35:33<147:17:19,  5.45s/it]                                                             3%|▎         | 2623/100000 [1:35:33<147:17:19,  5.45s/it]  3%|▎         | 2624/100000 [1:35:37<132:55:16,  4.91s/it]                                                             3%|▎         | 2624/100000 [1:35:37<132:55:16,  4.91s/it]  3%|▎         | 2625/100000 [1:35:40<119:38:19,  4.42s/it]                                                             3%|▎         | 2625/100000 [1:35:40<119:38:19,  4.42s/it]  3%|▎         | 2626/100000 [1:35:43<106:38:31,  3.94s/it]                                                             3%|▎         | 2626/100000 [1:35:43<106:38:31,  3.94s/it]  3%|▎         | 2627/100000 [1:35:45<94:42:17,  3.50s/it]                                                             3%|▎         | 2627/100000 [1:35:45<94:42:17,  3.50s/it]  3%|▎         | 2628/100000 [1:35:47<83:50:51,  3.10s/it]                                                            3%|▎         | 2628/100000 [1:35:47<83:50:51,  3.10s/it]  3%|▎         | 2629/100000 [1:35:49<75:02:46,  2.77s/it]                                                            3%|▎         | 2629/100000 [1:35:49<75:02:46,  2.77s/it]  3%|▎         | 2630/100000 [1:35:51<68:07:15,  2.52s/it]                                                            3%|▎         | 2630/100000 [1:35:51<68:07:15,  2.52s/it]  3%|▎         | 2631/100000 [1:35:53<62:17:53,  2.30s/it]                                                            3%|▎         | 2631/100000 [1:35:53<62:17:53,  2.30s/it]  3%|▎         | 2632/100000 [1:35:55<57:19:28,  2.12s/it]                                                            3%|▎         | 2632/100000 [1:35:55<57:19:28,  2.12s/it]  3%|▎         | 2633/100000 [1:35:56<53:13:22,  1.97s/it]                                                            3%|▎         | 2633/100000 [1:35:56<53:13:22,  1.97s/it]  3%|▎         | 2634/100000 [1:35:58<49:39:31,  1.84s/it]                                                            3%|▎         | 2634/100000 [1:35:58<49:39:31,  1.84s/it]  3%|▎         | 2635/100000 [1:35:59<46:24:40,  1.72s/it]                                                            3%|▎         | 2635/100000 [1:35:59<46:24:40,  1.72s/it]  3%|▎         | 2636/100000 [1:36:01<43:28:59,  1.61s/it]                                                            3%|▎         | 2636/100000 [1:36:01<43:28:59,  1.61s/it]  3%|▎         | 2637/100000 [1:36:02<40:55:10,  1.51s/it]                                                            3%|▎         | 2637/100000 [1:36:02<40:55:10,  1.51s/it]  3%|▎         | 2638/100000 [1:36:03<38:59:29,  1.44s/it]                                                            3%|▎         | 2638/100000 [1:36:03<38:59:29,  1.44s/it]  3%|▎         | 2639/100000 [1:36:05<36:55:52,  1.37s/it]                                                            3%|▎         | 2639/100000 [1:36:05<36:55:52,  1.37s/it]  3%|▎         | 2640/100000 [1:36:06<34:46:49,  1.29s/it]                                                            3%|▎         | 2640/100000 [1:36:06<34:46:49,  1.29s/it]  3%|▎         | 2641/100000 [1:36:07<32:51:52,  1.22s/it]                                                            3%|▎         | 2641/100000 [1:36:07<32:51:52,  1.22s/it]  3%|▎         | 2642/100000 [1:36:08<31:02:28,  1.15s/it]                                                            3%|▎         | 2642/100000 [1:36:08<31:02:28,  1.15s/it]  3%|▎         | 2643/100000 [1:36:09<29:16:08,  1.08s/it]                                                            3%|▎         | 2643/100000 [1:36:09<29:16:08,  1.08s/it]  3%|▎         | 2644/100000 [1:36:10<28:23:17,  1.05s/it]                                                            3%|▎         | 2644/100000 [1:36:10<28:23:17,  1.05s/it]  3%|▎         | 2645/100000 [1:36:11<27:13:20,  1.01s/it]                                                            3%|▎         | 2645/100000 [1:36:11<27:13:20,  1.01s/it]  3%|▎         | 2646/100000 [1:36:11<26:51:58,  1.01it/s]                                                            3%|▎         | 2646/100000 [1:36:11<26:51:58,  1.01it/s]  3%|▎         | 2647/100000 [1:36:12<26:08:53,  1.03it/s]                                                            3%|▎         | 2647/100000 [1:36:12<26:08:53,  1.03it/s]  3%|▎         | 2648/100000 [1:36:13<25:57:50,  1.04it/s]                                                            3%|▎         | 2648/100000 [1:36:13<25:57:50,  1.04it/s]  3%|▎         | 2649/100000 [1:36:14<25:35:40,  1.06it/s]                                                            3%|▎         | 2649/100000 [1:36:14<25:35:40,  1.06it/s]  3%|▎         | 2650/100000 [1:36:15<25:05:04,  1.08it/s]                                                            3%|▎         | 2650/100000 [1:36:15<25:05:04,  1.08it/s]  3%|▎         | 2651/100000 [1:36:16<24:32:54,  1.10it/s]                                                            3%|▎         | 2651/100000 [1:36:16<24:32:54,  1.10it/s]  3%|▎         | 2652/100000 [1:36:17<24:07:51,  1.12it/s]                                                            3%|▎         | 2652/100000 [1:36:17<24:07:51,  1.12it/s]  3%|▎         | 2653/100000 [1:36:18<23:42:20,  1.14it/s]                                                            3%|▎         | 2653/100000 [1:36:18<23:42:20,  1.14it/s]  3%|▎         | 2654/100000 [1:36:18<23:05:50,  1.17it/s]                                                            3%|▎         | 2654/100000 [1:36:18<23:05:50,  1.17it/s]  3%|▎         | 2655/100000 [1:36:19<21:57:58,  1.23it/s]                                                            3%|▎         | 2655/100000 [1:36:19<21:57:58,  1.23it/s]  3%|▎         | 2656/100000 [1:36:20<21:07:01,  1.28it/s]                                                            3%|▎         | 2656/100000 [1:36:20<21:07:01,  1.28it/s]  3%|▎         | 2657/100000 [1:36:33<121:39:15,  4.50s/it]                                                             3%|▎         | 2657/100000 [1:36:33<121:39:15,  4.50s/it]  3%|▎         | 2658/100000 [1:36:41<151:25:10,  5.60s/it]                                                             3%|▎         | 2658/100000 [1:36:41<151:25:10,  5.60s/it]  3%|▎         | 2659/100000 [1:36:47<149:32:52,  5.53s/it]                                                             3%|▎         | 2659/100000 [1:36:47<149:32:52,  5.53s/it]  3%|▎         | 2660/100000 [1:36:51<141:48:02,  5.24s/it]                                                             3%|▎         | 2660/100000 [1:36:51<141:48:02,  5.24s/it]  3%|▎         | 2661/100000 [1:36:55<131:28:33,  4.86s/it]                                                             3%|▎         | 2661/100000 [1:36:55<131:28:33,  4.86s/it]  3%|▎         | 2662/100000 [1:36:59<120:37:57,  4.46s/it]                                                             3%|▎         | 2662/100000 [1:36:59<120:37:57,  4.46s/it]  3%|▎         | 2663/100000 [1:37:02<109:46:47,  4.06s/it]                                                             3%|▎         | 2663/100000 [1:37:02<109:46:47,  4.06s/it]  3%|▎         | 2664/100000 [1:37:05<99:06:00,  3.67s/it]                                                             3%|▎         | 2664/100000 [1:37:05<99:06:00,  3.67s/it]  3%|▎         | 2665/100000 [1:37:07<88:39:39,  3.28s/it]                                                            3%|▎         | 2665/100000 [1:37:07<88:39:39,  3.28s/it]  3%|▎         | 2666/100000 [1:37:09<80:02:58,  2.96s/it]                                                            3%|▎         | 2666/100000 [1:37:09<80:02:58,  2.96s/it]  3%|▎         | 2667/100000 [1:37:11<72:29:57,  2.68s/it]                                                            3%|▎         | 2667/100000 [1:37:11<72:29:57,  2.68s/it]  3%|▎         | 2668/100000 [1:37:13<66:05:50,  2.44s/it]                                                            3%|▎         | 2668/100000 [1:37:13<66:05:50,  2.44s/it]  3%|▎         | 2669/100000 [1:37:15<60:33:33,  2.24s/it]                                                            3%|▎         | 2669/100000 [1:37:15<60:33:33,  2.24s/it]  3%|▎         | 2670/100000 [1:37:17<55:52:54,  2.07s/it]                                                            3%|▎         | 2670/100000 [1:37:17<55:52:54,  2.07s/it]  3%|▎         | 2671/100000 [1:37:18<52:03:40,  1.93s/it]                                                            3%|▎         | 2671/100000 [1:37:18<52:03:40,  1.93s/it]  3%|▎         | 2672/100000 [1:37:20<48:03:50,  1.78s/it]                                                            3%|▎         | 2672/100000 [1:37:20<48:03:50,  1.78s/it]  3%|▎         | 2673/100000 [1:37:21<44:46:32,  1.66s/it]                                                            3%|▎         | 2673/100000 [1:37:21<44:46:32,  1.66s/it]  3%|▎         | 2674/100000 [1:37:22<42:27:33,  1.57s/it]                                                            3%|▎         | 2674/100000 [1:37:22<42:27:33,  1.57s/it]  3%|▎         | 2675/100000 [1:37:24<40:07:51,  1.48s/it]                                                            3%|▎         | 2675/100000 [1:37:24<40:07:51,  1.48s/it]  3%|▎         | 2676/100000 [1:37:25<38:18:31,  1.42s/it]                                                            3%|▎         | 2676/100000 [1:37:25<38:18:31,  1.42s/it]  3%|▎         | 2677/100000 [1:37:26<36:25:28,  1.35s/it]                                                            3%|▎         | 2677/100000 [1:37:26<36:25:28,  1.35s/it]  3%|▎         | 2678/100000 [1:37:27<34:17:21,  1.27s/it]                                                            3%|▎         | 2678/100000 [1:37:27<34:17:21,  1.27s/it]  3%|▎         | 2679/100000 [1:37:28<32:37:44,  1.21s/it]                                                            3%|▎         | 2679/100000 [1:37:28<32:37:44,  1.21s/it]  3%|▎         | 2680/100000 [1:37:29<31:09:24,  1.15s/it]                                                            3%|▎         | 2680/100000 [1:37:29<31:09:24,  1.15s/it]  3%|▎         | 2681/100000 [1:37:30<29:51:12,  1.10s/it]                                                            3%|▎         | 2681/100000 [1:37:30<29:51:12,  1.10s/it]  3%|▎         | 2682/100000 [1:37:31<28:40:14,  1.06s/it]                                                            3%|▎         | 2682/100000 [1:37:31<28:40:14,  1.06s/it]  3%|▎         | 2683/100000 [1:37:32<27:39:45,  1.02s/it]                                                            3%|▎         | 2683/100000 [1:37:32<27:39:45,  1.02s/it]  3%|▎         | 2684/100000 [1:37:33<26:32:57,  1.02it/s]                                                            3%|▎         | 2684/100000 [1:37:33<26:32:57,  1.02it/s]  3%|▎         | 2685/100000 [1:37:34<25:37:34,  1.05it/s]                                                            3%|▎         | 2685/100000 [1:37:34<25:37:34,  1.05it/s]  3%|▎         | 2686/100000 [1:37:35<25:03:12,  1.08it/s]                                                            3%|▎         | 2686/100000 [1:37:35<25:03:12,  1.08it/s]  3%|▎         | 2687/100000 [1:37:36<24:30:38,  1.10it/s]                                                            3%|▎         | 2687/100000 [1:37:36<24:30:38,  1.10it/s]  3%|▎         | 2688/100000 [1:37:36<23:40:47,  1.14it/s]                                                            3%|▎         | 2688/100000 [1:37:36<23:40:47,  1.14it/s]  3%|▎         | 2689/100000 [1:37:37<22:57:09,  1.18it/s]                                                            3%|▎         | 2689/100000 [1:37:37<22:57:09,  1.18it/s]  3%|▎         | 2690/100000 [1:37:38<22:35:34,  1.20it/s]                                                            3%|▎         | 2690/100000 [1:37:38<22:35:34,  1.20it/s]  3%|▎         | 2691/100000 [1:37:39<22:44:16,  1.19it/s]                                                            3%|▎         | 2691/100000 [1:37:39<22:44:16,  1.19it/s]  3%|▎         | 2692/100000 [1:37:40<22:37:53,  1.19it/s]                                                            3%|▎         | 2692/100000 [1:37:40<22:37:53,  1.19it/s]  3%|▎         | 2693/100000 [1:37:40<22:26:36,  1.20it/s]                                                            3%|▎         | 2693/100000 [1:37:40<22:26:36,  1.20it/s]  3%|▎         | 2694/100000 [1:37:41<22:03:53,  1.23it/s]                                                            3%|▎         | 2694/100000 [1:37:41<22:03:53,  1.23it/s]  3%|▎         | 2695/100000 [1:37:53<110:26:46,  4.09s/it]                                                             3%|▎         | 2695/100000 [1:37:53<110:26:46,  4.09s/it]  3%|▎         | 2696/100000 [1:38:01<141:16:08,  5.23s/it]                                                             3%|▎         | 2696/100000 [1:38:01<141:16:08,  5.23s/it]  3%|▎         | 2697/100000 [1:38:07<145:13:12,  5.37s/it]                                                             3%|▎         | 2697/100000 [1:38:07<145:13:12,  5.37s/it]  3%|▎         | 2698/100000 [1:38:11<137:48:34,  5.10s/it]                                                             3%|▎         | 2698/100000 [1:38:11<137:48:34,  5.10s/it]  3%|▎         | 2699/100000 [1:38:15<128:25:20,  4.75s/it]                                                             3%|▎         | 2699/100000 [1:38:15<128:25:20,  4.75s/it]  3%|▎         | 2700/100000 [1:38:18<117:46:40,  4.36s/it]                                                             3%|▎         | 2700/100000 [1:38:18<117:46:40,  4.36s/it]  3%|▎         | 2701/100000 [1:38:21<106:14:14,  3.93s/it]                                                             3%|▎         | 2701/100000 [1:38:21<106:14:14,  3.93s/it]  3%|▎         | 2702/100000 [1:38:24<94:34:17,  3.50s/it]                                                             3%|▎         | 2702/100000 [1:38:24<94:34:17,  3.50s/it]  3%|▎         | 2703/100000 [1:38:26<84:47:38,  3.14s/it]                                                          {'loss': 0.3584, 'grad_norm': 1.2041425704956055, 'learning_rate': 7.845e-06, 'epoch': 17.01}
{'loss': 0.3292, 'grad_norm': 2.8352954387664795, 'learning_rate': 7.848e-06, 'epoch': 17.01}
{'loss': 0.2983, 'grad_norm': 1.0948718786239624, 'learning_rate': 7.851e-06, 'epoch': 17.02}
{'loss': 0.2641, 'grad_norm': 0.8304235935211182, 'learning_rate': 7.854e-06, 'epoch': 17.03}
{'loss': 0.2412, 'grad_norm': 1.1543048620224, 'learning_rate': 7.857000000000001e-06, 'epoch': 17.03}
{'loss': 0.2831, 'grad_norm': 0.8660463094711304, 'learning_rate': 7.860000000000001e-06, 'epoch': 17.04}
{'loss': 0.2374, 'grad_norm': 0.8157553672790527, 'learning_rate': 7.863e-06, 'epoch': 17.05}
{'loss': 0.2635, 'grad_norm': 1.354266881942749, 'learning_rate': 7.866e-06, 'epoch': 17.05}
{'loss': 0.1959, 'grad_norm': 1.3649468421936035, 'learning_rate': 7.868999999999999e-06, 'epoch': 17.06}
{'loss': 0.274, 'grad_norm': 1.2110445499420166, 'learning_rate': 7.872e-06, 'epoch': 17.06}
{'loss': 0.178, 'grad_norm': 1.1155116558074951, 'learning_rate': 7.875e-06, 'epoch': 17.07}
{'loss': 0.1774, 'grad_norm': 0.9764212369918823, 'learning_rate': 7.878e-06, 'epoch': 17.08}
{'loss': 0.1726, 'grad_norm': 1.7442787885665894, 'learning_rate': 7.881e-06, 'epoch': 17.08}
{'loss': 0.1489, 'grad_norm': 1.3735581636428833, 'learning_rate': 7.884e-06, 'epoch': 17.09}
{'loss': 0.1769, 'grad_norm': 1.0400909185409546, 'learning_rate': 7.887000000000001e-06, 'epoch': 17.1}
{'loss': 0.1634, 'grad_norm': 1.1862884759902954, 'learning_rate': 7.89e-06, 'epoch': 17.1}
{'loss': 0.151, 'grad_norm': 1.4934051036834717, 'learning_rate': 7.893e-06, 'epoch': 17.11}
{'loss': 0.1653, 'grad_norm': 1.7925457954406738, 'learning_rate': 7.896e-06, 'epoch': 17.12}
{'loss': 0.1516, 'grad_norm': 1.0826807022094727, 'learning_rate': 7.899e-06, 'epoch': 17.12}
{'loss': 0.1609, 'grad_norm': 1.526312232017517, 'learning_rate': 7.902000000000002e-06, 'epoch': 17.13}
{'loss': 0.183, 'grad_norm': 1.2155613899230957, 'learning_rate': 7.905000000000001e-06, 'epoch': 17.14}
{'loss': 0.2551, 'grad_norm': 2.3995649814605713, 'learning_rate': 7.908e-06, 'epoch': 17.14}
{'loss': 0.1441, 'grad_norm': 1.4558727741241455, 'learning_rate': 7.911e-06, 'epoch': 17.15}
{'loss': 0.1358, 'grad_norm': 1.384521245956421, 'learning_rate': 7.913999999999999e-06, 'epoch': 17.16}
{'loss': 0.1332, 'grad_norm': 2.338697671890259, 'learning_rate': 7.917e-06, 'epoch': 17.16}
{'loss': 0.104, 'grad_norm': 1.420516848564148, 'learning_rate': 7.92e-06, 'epoch': 17.17}
{'loss': 0.1305, 'grad_norm': 1.3599053621292114, 'learning_rate': 7.923e-06, 'epoch': 17.18}
{'loss': 0.2372, 'grad_norm': 1.6997199058532715, 'learning_rate': 7.926e-06, 'epoch': 17.18}
{'loss': 0.1515, 'grad_norm': 1.6095848083496094, 'learning_rate': 7.929e-06, 'epoch': 17.19}
{'loss': 0.1192, 'grad_norm': 1.6723579168319702, 'learning_rate': 7.932000000000001e-06, 'epoch': 17.19}
{'loss': 0.1731, 'grad_norm': 1.4350658655166626, 'learning_rate': 7.935000000000001e-06, 'epoch': 17.2}
{'loss': 0.1394, 'grad_norm': 1.6145024299621582, 'learning_rate': 7.938000000000001e-06, 'epoch': 17.21}
{'loss': 0.1461, 'grad_norm': 1.5835723876953125, 'learning_rate': 7.941e-06, 'epoch': 17.21}
{'loss': 0.1773, 'grad_norm': 2.5029425621032715, 'learning_rate': 7.943999999999999e-06, 'epoch': 17.22}
{'loss': 0.1892, 'grad_norm': 2.642160177230835, 'learning_rate': 7.947e-06, 'epoch': 17.23}
{'loss': 0.1551, 'grad_norm': 2.306581735610962, 'learning_rate': 7.95e-06, 'epoch': 17.23}
{'loss': 0.1853, 'grad_norm': 4.850790977478027, 'learning_rate': 7.953e-06, 'epoch': 17.24}
{'loss': 0.2595, 'grad_norm': 4.427525043487549, 'learning_rate': 7.956e-06, 'epoch': 17.25}
{'loss': 0.4428, 'grad_norm': 4.900784969329834, 'learning_rate': 7.959e-06, 'epoch': 17.25}
{'loss': 0.3103, 'grad_norm': 1.2305264472961426, 'learning_rate': 7.962000000000001e-06, 'epoch': 17.26}
{'loss': 0.3014, 'grad_norm': 1.1984786987304688, 'learning_rate': 7.965e-06, 'epoch': 17.27}
{'loss': 0.3135, 'grad_norm': 1.3947710990905762, 'learning_rate': 7.968e-06, 'epoch': 17.27}
{'loss': 0.2368, 'grad_norm': 0.929423987865448, 'learning_rate': 7.971e-06, 'epoch': 17.28}
{'loss': 0.2134, 'grad_norm': 1.1892585754394531, 'learning_rate': 7.974e-06, 'epoch': 17.29}
{'loss': 0.2413, 'grad_norm': 1.3796788454055786, 'learning_rate': 7.977000000000002e-06, 'epoch': 17.29}
{'loss': 0.2182, 'grad_norm': 0.9825115203857422, 'learning_rate': 7.98e-06, 'epoch': 17.3}
{'loss': 0.1948, 'grad_norm': 1.2157471179962158, 'learning_rate': 7.983e-06, 'epoch': 17.31}
{'loss': 0.2145, 'grad_norm': 1.3184484243392944, 'learning_rate': 7.986e-06, 'epoch': 17.31}
{'loss': 0.1844, 'grad_norm': 1.1267402172088623, 'learning_rate': 7.989e-06, 'epoch': 17.32}
{'loss': 0.1532, 'grad_norm': 1.2416034936904907, 'learning_rate': 7.992e-06, 'epoch': 17.32}
{'loss': 0.1894, 'grad_norm': 1.0085445642471313, 'learning_rate': 7.995e-06, 'epoch': 17.33}
{'loss': 0.1597, 'grad_norm': 1.4027825593948364, 'learning_rate': 7.998e-06, 'epoch': 17.34}
{'loss': 0.1459, 'grad_norm': 0.8729755282402039, 'learning_rate': 8.001e-06, 'epoch': 17.34}
{'loss': 0.1376, 'grad_norm': 1.2470279932022095, 'learning_rate': 8.004e-06, 'epoch': 17.35}
{'loss': 0.187, 'grad_norm': 2.2638731002807617, 'learning_rate': 8.007000000000001e-06, 'epoch': 17.36}
{'loss': 0.1722, 'grad_norm': 1.313778042793274, 'learning_rate': 8.010000000000001e-06, 'epoch': 17.36}
{'loss': 0.1203, 'grad_norm': 1.2633864879608154, 'learning_rate': 8.013000000000001e-06, 'epoch': 17.37}
{'loss': 0.1181, 'grad_norm': 1.0465506315231323, 'learning_rate': 8.016e-06, 'epoch': 17.38}
{'loss': 0.1675, 'grad_norm': 1.2322148084640503, 'learning_rate': 8.018999999999999e-06, 'epoch': 17.38}
{'loss': 0.1873, 'grad_norm': 1.5333383083343506, 'learning_rate': 8.022e-06, 'epoch': 17.39}
{'loss': 0.1117, 'grad_norm': 1.725480079650879, 'learning_rate': 8.025e-06, 'epoch': 17.4}
{'loss': 0.242, 'grad_norm': 2.047952175140381, 'learning_rate': 8.028e-06, 'epoch': 17.4}
{'loss': 0.1589, 'grad_norm': 1.381340742111206, 'learning_rate': 8.031e-06, 'epoch': 17.41}
{'loss': 0.1401, 'grad_norm': 1.4147024154663086, 'learning_rate': 8.034e-06, 'epoch': 17.42}
{'loss': 0.1967, 'grad_norm': 1.8836473226547241, 'learning_rate': 8.037000000000001e-06, 'epoch': 17.42}
{'loss': 0.1993, 'grad_norm': 2.7084522247314453, 'learning_rate': 8.040000000000001e-06, 'epoch': 17.43}
{'loss': 0.1528, 'grad_norm': 1.9080828428268433, 'learning_rate': 8.043e-06, 'epoch': 17.44}
{'loss': 0.1602, 'grad_norm': 1.7002801895141602, 'learning_rate': 8.046e-06, 'epoch': 17.44}
{'loss': 0.1497, 'grad_norm': 1.7381207942962646, 'learning_rate': 8.049e-06, 'epoch': 17.45}
{'loss': 0.1411, 'grad_norm': 1.6933287382125854, 'learning_rate': 8.052000000000002e-06, 'epoch': 17.45}
{'loss': 0.1795, 'grad_norm': 2.8773412704467773, 'learning_rate': 8.055e-06, 'epoch': 17.46}
{'loss': 0.1575, 'grad_norm': 2.081108570098877, 'learning_rate': 8.058e-06, 'epoch': 17.47}
{'loss': 0.1904, 'grad_norm': 2.2082667350769043, 'learning_rate': 8.061e-06, 'epoch': 17.47}
{'loss': 0.1694, 'grad_norm': 2.402935743331909, 'learning_rate': 8.064e-06, 'epoch': 17.48}
{'loss': 0.1441, 'grad_norm': 2.24884295463562, 'learning_rate': 8.067e-06, 'epoch': 17.49}
{'loss': 0.2303, 'grad_norm': 2.7921149730682373, 'learning_rate': 8.07e-06, 'epoch': 17.49}
{'loss': 0.4386, 'grad_norm': 2.9130136966705322, 'learning_rate': 8.073e-06, 'epoch': 17.5}
{'loss': 0.329, 'grad_norm': 1.576876163482666, 'learning_rate': 8.076e-06, 'epoch': 17.51}
{'loss': 0.3163, 'grad_norm': 2.1627814769744873, 'learning_rate': 8.079e-06, 'epoch': 17.51}
{'loss': 0.2651, 'grad_norm': 1.406369686126709, 'learning_rate': 8.082e-06, 'epoch': 17.52}
{'loss': 0.2757, 'grad_norm': 1.7736772298812866, 'learning_rate': 8.085000000000001e-06, 'epoch': 17.53}
{'loss': 0.2515, 'grad_norm': 1.8331571817398071, 'learning_rate': 8.088000000000001e-06, 'epoch': 17.53}
{'loss': 0.2273, 'grad_norm': 1.2593272924423218, 'learning_rate': 8.091e-06, 'epoch': 17.54}
{'loss': 0.2487, 'grad_norm': 1.0330111980438232, 'learning_rate': 8.093999999999999e-06, 'epoch': 17.55}
  3%|▎         | 2703/100000 [1:38:26<84:47:38,  3.14s/it]  3%|▎         | 2704/100000 [1:38:28<76:17:25,  2.82s/it]                                                            3%|▎         | 2704/100000 [1:38:28<76:17:25,  2.82s/it]  3%|▎         | 2705/100000 [1:38:30<69:02:55,  2.55s/it]                                                            3%|▎         | 2705/100000 [1:38:30<69:02:55,  2.55s/it]  3%|▎         | 2706/100000 [1:38:32<62:25:42,  2.31s/it]                                                            3%|▎         | 2706/100000 [1:38:32<62:25:42,  2.31s/it]  3%|▎         | 2707/100000 [1:38:34<57:19:31,  2.12s/it]                                                            3%|▎         | 2707/100000 [1:38:34<57:19:31,  2.12s/it]  3%|▎         | 2708/100000 [1:38:35<53:18:44,  1.97s/it]                                                            3%|▎         | 2708/100000 [1:38:35<53:18:44,  1.97s/it]  3%|▎         | 2709/100000 [1:38:37<49:33:17,  1.83s/it]                                                            3%|▎         | 2709/100000 [1:38:37<49:33:17,  1.83s/it]  3%|▎         | 2710/100000 [1:38:38<46:14:02,  1.71s/it]                                                            3%|▎         | 2710/100000 [1:38:38<46:14:02,  1.71s/it]  3%|▎         | 2711/100000 [1:38:39<43:31:20,  1.61s/it]                                                            3%|▎         | 2711/100000 [1:38:39<43:31:20,  1.61s/it]  3%|▎         | 2712/100000 [1:38:41<40:47:13,  1.51s/it]                                                            3%|▎         | 2712/100000 [1:38:41<40:47:13,  1.51s/it]  3%|▎         | 2713/100000 [1:38:42<38:58:08,  1.44s/it]                                                            3%|▎         | 2713/100000 [1:38:42<38:58:08,  1.44s/it]  3%|▎         | 2714/100000 [1:38:43<37:16:38,  1.38s/it]                                                            3%|▎         | 2714/100000 [1:38:43<37:16:38,  1.38s/it]  3%|▎         | 2715/100000 [1:38:44<35:08:33,  1.30s/it]                                                            3%|▎         | 2715/100000 [1:38:44<35:08:33,  1.30s/it]  3%|▎         | 2716/100000 [1:38:46<33:45:36,  1.25s/it]                                                            3%|▎         | 2716/100000 [1:38:46<33:45:36,  1.25s/it]  3%|▎         | 2717/100000 [1:38:47<32:25:47,  1.20s/it]                                                            3%|▎         | 2717/100000 [1:38:47<32:25:47,  1.20s/it]  3%|▎         | 2718/100000 [1:38:48<31:14:07,  1.16s/it]                                                            3%|▎         | 2718/100000 [1:38:48<31:14:07,  1.16s/it]  3%|▎         | 2719/100000 [1:38:49<29:54:01,  1.11s/it]                                                            3%|▎         | 2719/100000 [1:38:49<29:54:01,  1.11s/it]  3%|▎         | 2720/100000 [1:38:50<28:54:23,  1.07s/it]                                                            3%|▎         | 2720/100000 [1:38:50<28:54:23,  1.07s/it]  3%|▎         | 2721/100000 [1:38:51<28:04:58,  1.04s/it]                                                            3%|▎         | 2721/100000 [1:38:51<28:04:58,  1.04s/it]  3%|▎         | 2722/100000 [1:38:52<27:19:26,  1.01s/it]                                                            3%|▎         | 2722/100000 [1:38:52<27:19:26,  1.01s/it]  3%|▎         | 2723/100000 [1:38:53<26:54:41,  1.00it/s]                                                            3%|▎         | 2723/100000 [1:38:53<26:54:41,  1.00it/s]  3%|▎         | 2724/100000 [1:38:53<26:16:28,  1.03it/s]                                                            3%|▎         | 2724/100000 [1:38:53<26:16:28,  1.03it/s]  3%|▎         | 2725/100000 [1:38:54<25:54:34,  1.04it/s]                                                            3%|▎         | 2725/100000 [1:38:54<25:54:34,  1.04it/s]  3%|▎         | 2726/100000 [1:38:55<25:18:08,  1.07it/s]                                                            3%|▎         | 2726/100000 [1:38:55<25:18:08,  1.07it/s]  3%|▎         | 2727/100000 [1:38:56<24:41:52,  1.09it/s]                                                            3%|▎         | 2727/100000 [1:38:56<24:41:52,  1.09it/s]  3%|▎         | 2728/100000 [1:38:57<24:11:25,  1.12it/s]                                                            3%|▎         | 2728/100000 [1:38:57<24:11:25,  1.12it/s]  3%|▎         | 2729/100000 [1:38:58<23:43:10,  1.14it/s]                                                            3%|▎         | 2729/100000 [1:38:58<23:43:10,  1.14it/s]  3%|▎         | 2730/100000 [1:38:59<23:16:12,  1.16it/s]                                                            3%|▎         | 2730/100000 [1:38:59<23:16:12,  1.16it/s]  3%|▎         | 2731/100000 [1:38:59<22:49:25,  1.18it/s]                                                            3%|▎         | 2731/100000 [1:38:59<22:49:25,  1.18it/s]  3%|▎         | 2732/100000 [1:39:00<22:33:41,  1.20it/s]                                                            3%|▎         | 2732/100000 [1:39:00<22:33:41,  1.20it/s]  3%|▎         | 2733/100000 [1:39:13<119:16:52,  4.41s/it]                                                             3%|▎         | 2733/100000 [1:39:13<119:16:52,  4.41s/it]  3%|▎         | 2734/100000 [1:39:21<149:26:26,  5.53s/it]                                                             3%|▎         | 2734/100000 [1:39:21<149:26:26,  5.53s/it]  3%|▎         | 2735/100000 [1:39:27<150:58:05,  5.59s/it]                                                             3%|▎         | 2735/100000 [1:39:27<150:58:05,  5.59s/it]  3%|▎         | 2736/100000 [1:39:31<142:59:23,  5.29s/it]                                                             3%|▎         | 2736/100000 [1:39:31<142:59:23,  5.29s/it]  3%|▎         | 2737/100000 [1:39:35<132:25:38,  4.90s/it]                                                             3%|▎         | 2737/100000 [1:39:35<132:25:38,  4.90s/it]  3%|▎         | 2738/100000 [1:39:39<118:46:56,  4.40s/it]                                                             3%|▎         | 2738/100000 [1:39:39<118:46:56,  4.40s/it]  3%|▎         | 2739/100000 [1:39:42<106:48:57,  3.95s/it]                                                             3%|▎         | 2739/100000 [1:39:42<106:48:57,  3.95s/it]  3%|▎         | 2740/100000 [1:39:44<95:34:13,  3.54s/it]                                                             3%|▎         | 2740/100000 [1:39:44<95:34:13,  3.54s/it]  3%|▎         | 2741/100000 [1:39:46<85:35:08,  3.17s/it]                                                            3%|▎         | 2741/100000 [1:39:46<85:35:08,  3.17s/it]  3%|▎         | 2742/100000 [1:39:49<76:53:26,  2.85s/it]                                                            3%|▎         | 2742/100000 [1:39:49<76:53:26,  2.85s/it]  3%|▎         | 2743/100000 [1:39:51<69:53:46,  2.59s/it]                                                            3%|▎         | 2743/100000 [1:39:51<69:53:46,  2.59s/it]  3%|▎         | 2744/100000 [1:39:52<63:44:53,  2.36s/it]                                                            3%|▎         | 2744/100000 [1:39:52<63:44:53,  2.36s/it]  3%|▎         | 2745/100000 [1:39:54<59:09:15,  2.19s/it]                                                            3%|▎         | 2745/100000 [1:39:54<59:09:15,  2.19s/it]  3%|▎         | 2746/100000 [1:39:56<54:06:13,  2.00s/it]                                                            3%|▎         | 2746/100000 [1:39:56<54:06:13,  2.00s/it]  3%|▎         | 2747/100000 [1:39:57<50:40:34,  1.88s/it]                                                            3%|▎         | 2747/100000 [1:39:57<50:40:34,  1.88s/it]  3%|▎         | 2748/100000 [1:39:59<47:24:23,  1.75s/it]                                                            3%|▎         | 2748/100000 [1:39:59<47:24:23,  1.75s/it]  3%|▎         | 2749/100000 [1:40:00<44:39:24,  1.65s/it]                                                            3%|▎         | 2749/100000 [1:40:00<44:39:24,  1.65s/it]  3%|▎         | 2750/100000 [1:40:02<42:16:22,  1.56s/it]                                                            3%|▎         | 2750/100000 [1:40:02<42:16:22,  1.56s/it]  3%|▎         | 2751/100000 [1:40:03<39:40:50,  1.47s/it]                                                            3%|▎         | 2751/100000 [1:40:03<39:40:50,  1.47s/it]  3%|▎         | 2752/100000 [1:40:04<37:46:32,  1.40s/it]                                                            3%|▎         | 2752/100000 [1:40:04<37:46:32,  1.40s/it]  3%|▎         | 2753/100000 [1:40:05<35:19:51,  1.31s/it]                                                            3%|▎         | 2753/100000 [1:40:05<35:19:51,  1.31s/it]  3%|▎         | 2754/100000 [1:40:06<33:44:20,  1.25s/it]                                                            3%|▎         | 2754/100000 [1:40:06<33:44:20,  1.25s/it]  3%|▎         | 2755/100000 [1:40:07<31:58:03,  1.18s/it]                                                            3%|▎         | 2755/100000 [1:40:07<31:58:03,  1.18s/it]  3%|▎         | 2756/100000 [1:40:08<30:24:29,  1.13s/it]                                                            3%|▎         | 2756/100000 [1:40:08<30:24:29,  1.13s/it]  3%|▎         | 2757/100000 [1:40:09<29:03:20,  1.08s/it]                                                            3%|▎         | 2757/100000 [1:40:09<29:03:20,  1.08s/it]  3%|▎         | 2758/100000 [1:40:10<28:20:30,  1.05s/it]                                                            3%|▎         | 2758/100000 [1:40:10<28:20:30,  1.05s/it]  3%|▎         | 2759/100000 [1:40:11<27:43:03,  1.03s/it]                                                            3%|▎         | 2759/100000 [1:40:11<27:43:03,  1.03s/it]  3%|▎         | 2760/100000 [1:40:12<27:02:09,  1.00s/it]                                                            3%|▎         | 2760/100000 [1:40:12<27:02:09,  1.00s/it]  3%|▎         | 2761/100000 [1:40:13<26:29:21,  1.02it/s]                                                            3%|▎         | 2761/100000 [1:40:13<26:29:21,  1.02it/s]  3%|▎         | 2762/100000 [1:40:14<25:55:53,  1.04it/s]                                                            3%|▎         | 2762/100000 [1:40:14<25:55:53,  1.04it/s]  3%|▎         | 2763/100000 [1:40:15<25:30:25,  1.06it/s]                                                            3%|▎         | 2763/100000 [1:40:15<25:30:25,  1.06it/s]  3%|▎         | 2764/100000 [1:40:16<25:03:16,  1.08it/s]                                                            3%|▎         | 2764/100000 [1:40:16<25:03:16,  1.08it/s]  3%|▎         | 2765/100000 [1:40:17<24:34:32,  1.10it/s]                                                            3%|▎         | 2765/100000 [1:40:17<24:34:32,  1.10it/s]  3%|▎         | 2766/100000 [1:40:17<24:09:43,  1.12it/s]                                                            3%|▎         | 2766/100000 [1:40:17<24:09:43,  1.12it/s]  3%|▎         | 2767/100000 [1:40:18<23:45:28,  1.14it/s]                                                            3%|▎         | 2767/100000 [1:40:18<23:45:28,  1.14it/s]  3%|▎         | 2768/100000 [1:40:19<23:18:55,  1.16it/s]                                                            3%|▎         | 2768/100000 [1:40:19<23:18:55,  1.16it/s]  3%|▎         | 2769/100000 [1:40:20<22:52:29,  1.18it/s]                                                            3%|▎         | 2769/100000 [1:40:20<22:52:29,  1.18it/s]  3%|▎         | 2770/100000 [1:40:21<22:25:23,  1.20it/s]                                                            3%|▎         | 2770/100000 [1:40:21<22:25:23,  1.20it/s]  3%|▎         | 2771/100000 [1:40:29<81:37:18,  3.02s/it]                                                            3%|▎         | 2771/100000 [1:40:29<81:37:18,  3.02s/it]  3%|▎         | 2772/100000 [1:40:30<68:29:18,  2.54s/it]                                                            3%|▎         | 2772/100000 [1:40:30<68:29:18,  2.54s/it]{'loss': 0.2286, 'grad_norm': 1.3327357769012451, 'learning_rate': 8.096999999999999e-06, 'epoch': 17.55}
{'loss': 0.19, 'grad_norm': 0.8657723069190979, 'learning_rate': 8.1e-06, 'epoch': 17.56}
{'loss': 0.1359, 'grad_norm': 1.0189859867095947, 'learning_rate': 8.103e-06, 'epoch': 17.56}
{'loss': 0.177, 'grad_norm': 1.1641299724578857, 'learning_rate': 8.106e-06, 'epoch': 17.57}
{'loss': 0.1989, 'grad_norm': 1.1513781547546387, 'learning_rate': 8.109e-06, 'epoch': 17.58}
{'loss': 0.1913, 'grad_norm': 1.2822272777557373, 'learning_rate': 8.112e-06, 'epoch': 17.58}
{'loss': 0.1141, 'grad_norm': 0.8571683168411255, 'learning_rate': 8.115000000000001e-06, 'epoch': 17.59}
{'loss': 0.2175, 'grad_norm': 1.4737745523452759, 'learning_rate': 8.118000000000001e-06, 'epoch': 17.6}
{'loss': 0.1386, 'grad_norm': 0.9956389665603638, 'learning_rate': 8.121e-06, 'epoch': 17.6}
{'loss': 0.1782, 'grad_norm': 1.3962165117263794, 'learning_rate': 8.124e-06, 'epoch': 17.61}
{'loss': 0.1641, 'grad_norm': 1.2259528636932373, 'learning_rate': 8.126999999999999e-06, 'epoch': 17.62}
{'loss': 0.1502, 'grad_norm': 1.246922254562378, 'learning_rate': 8.13e-06, 'epoch': 17.62}
{'loss': 0.1268, 'grad_norm': 1.4323818683624268, 'learning_rate': 8.133e-06, 'epoch': 17.63}
{'loss': 0.1775, 'grad_norm': 1.547559142112732, 'learning_rate': 8.136e-06, 'epoch': 17.64}
{'loss': 0.1267, 'grad_norm': 1.215585708618164, 'learning_rate': 8.139e-06, 'epoch': 17.64}
{'loss': 0.208, 'grad_norm': 1.6518785953521729, 'learning_rate': 8.142e-06, 'epoch': 17.65}
{'loss': 0.168, 'grad_norm': 1.1685899496078491, 'learning_rate': 8.145e-06, 'epoch': 17.66}
{'loss': 0.1495, 'grad_norm': 1.448291301727295, 'learning_rate': 8.148e-06, 'epoch': 17.66}
{'loss': 0.1322, 'grad_norm': 1.428362250328064, 'learning_rate': 8.151e-06, 'epoch': 17.67}
{'loss': 0.2076, 'grad_norm': 6.252167701721191, 'learning_rate': 8.154e-06, 'epoch': 17.68}
{'loss': 0.2107, 'grad_norm': 1.8534847497940063, 'learning_rate': 8.157e-06, 'epoch': 17.68}
{'loss': 0.1275, 'grad_norm': 1.5978537797927856, 'learning_rate': 8.160000000000001e-06, 'epoch': 17.69}
{'loss': 0.1601, 'grad_norm': 1.8637295961380005, 'learning_rate': 8.163000000000001e-06, 'epoch': 17.69}
{'loss': 0.1494, 'grad_norm': 2.214437246322632, 'learning_rate': 8.166e-06, 'epoch': 17.7}
{'loss': 0.157, 'grad_norm': 3.1695775985717773, 'learning_rate': 8.169e-06, 'epoch': 17.71}
{'loss': 0.1136, 'grad_norm': 1.9781993627548218, 'learning_rate': 8.171999999999999e-06, 'epoch': 17.71}
{'loss': 0.2072, 'grad_norm': 2.512685537338257, 'learning_rate': 8.175e-06, 'epoch': 17.72}
{'loss': 0.1493, 'grad_norm': 1.564788579940796, 'learning_rate': 8.178e-06, 'epoch': 17.73}
{'loss': 0.1248, 'grad_norm': 2.009669303894043, 'learning_rate': 8.181e-06, 'epoch': 17.73}
{'loss': 0.2458, 'grad_norm': 2.57307505607605, 'learning_rate': 8.184e-06, 'epoch': 17.74}
{'loss': 0.4138, 'grad_norm': 2.8548812866210938, 'learning_rate': 8.187e-06, 'epoch': 17.75}
{'loss': 0.3947, 'grad_norm': 2.105464458465576, 'learning_rate': 8.190000000000001e-06, 'epoch': 17.75}
{'loss': 0.3348, 'grad_norm': 1.4670301675796509, 'learning_rate': 8.193000000000001e-06, 'epoch': 17.76}
{'loss': 0.3334, 'grad_norm': 1.4687505960464478, 'learning_rate': 8.196e-06, 'epoch': 17.77}
{'loss': 0.2529, 'grad_norm': 1.2407877445220947, 'learning_rate': 8.199e-06, 'epoch': 17.77}
{'loss': 0.2291, 'grad_norm': 0.94481360912323, 'learning_rate': 8.201999999999999e-06, 'epoch': 17.78}
{'loss': 0.2525, 'grad_norm': 1.2254447937011719, 'learning_rate': 8.205e-06, 'epoch': 17.79}
{'loss': 0.2243, 'grad_norm': 1.389058232307434, 'learning_rate': 8.208e-06, 'epoch': 17.79}
{'loss': 0.2213, 'grad_norm': 0.9106757640838623, 'learning_rate': 8.211e-06, 'epoch': 17.8}
{'loss': 0.2145, 'grad_norm': 1.5905871391296387, 'learning_rate': 8.214e-06, 'epoch': 17.81}
{'loss': 0.1752, 'grad_norm': 1.0393832921981812, 'learning_rate': 8.217e-06, 'epoch': 17.81}
{'loss': 0.198, 'grad_norm': 1.3007850646972656, 'learning_rate': 8.220000000000001e-06, 'epoch': 17.82}
{'loss': 0.1215, 'grad_norm': 0.9803582429885864, 'learning_rate': 8.223e-06, 'epoch': 17.82}
{'loss': 0.138, 'grad_norm': 0.750264048576355, 'learning_rate': 8.226e-06, 'epoch': 17.83}
{'loss': 0.1846, 'grad_norm': 1.2337123155593872, 'learning_rate': 8.229e-06, 'epoch': 17.84}
{'loss': 0.1892, 'grad_norm': 1.1756380796432495, 'learning_rate': 8.232e-06, 'epoch': 17.84}
{'loss': 0.1385, 'grad_norm': 1.0696203708648682, 'learning_rate': 8.235000000000002e-06, 'epoch': 17.85}
{'loss': 0.148, 'grad_norm': 1.3164923191070557, 'learning_rate': 8.238e-06, 'epoch': 17.86}
{'loss': 0.163, 'grad_norm': 1.1396914720535278, 'learning_rate': 8.241e-06, 'epoch': 17.86}
{'loss': 0.1667, 'grad_norm': 1.0200836658477783, 'learning_rate': 8.244e-06, 'epoch': 17.87}
{'loss': 0.1759, 'grad_norm': 1.3886762857437134, 'learning_rate': 8.246999999999999e-06, 'epoch': 17.88}
{'loss': 0.1178, 'grad_norm': 1.306668758392334, 'learning_rate': 8.25e-06, 'epoch': 17.88}
{'loss': 0.1931, 'grad_norm': 1.82112717628479, 'learning_rate': 8.253e-06, 'epoch': 17.89}
{'loss': 0.2622, 'grad_norm': 1.4496314525604248, 'learning_rate': 8.256e-06, 'epoch': 17.9}
{'loss': 0.1446, 'grad_norm': 1.7404495477676392, 'learning_rate': 8.259e-06, 'epoch': 17.9}
{'loss': 0.1603, 'grad_norm': 1.7803199291229248, 'learning_rate': 8.262e-06, 'epoch': 17.91}
{'loss': 0.1831, 'grad_norm': 1.52664315700531, 'learning_rate': 8.265000000000001e-06, 'epoch': 17.92}
{'loss': 0.2169, 'grad_norm': 1.3660717010498047, 'learning_rate': 8.268000000000001e-06, 'epoch': 17.92}
{'loss': 0.185, 'grad_norm': 1.7408469915390015, 'learning_rate': 8.271000000000001e-06, 'epoch': 17.93}
{'loss': 0.1754, 'grad_norm': 2.1395134925842285, 'learning_rate': 8.274e-06, 'epoch': 17.94}
{'loss': 0.1265, 'grad_norm': 1.806655764579773, 'learning_rate': 8.276999999999999e-06, 'epoch': 17.94}
{'loss': 0.187, 'grad_norm': 1.6074347496032715, 'learning_rate': 8.28e-06, 'epoch': 17.95}
{'loss': 0.1201, 'grad_norm': 1.2426646947860718, 'learning_rate': 8.283e-06, 'epoch': 17.95}
{'loss': 0.1479, 'grad_norm': 2.463057279586792, 'learning_rate': 8.286e-06, 'epoch': 17.96}
{'loss': 0.2197, 'grad_norm': 2.7127678394317627, 'learning_rate': 8.289e-06, 'epoch': 17.97}
{'loss': 0.1978, 'grad_norm': 2.2945175170898438, 'learning_rate': 8.292e-06, 'epoch': 17.97}
{'loss': 0.131, 'grad_norm': 2.5743510723114014, 'learning_rate': 8.295000000000001e-06, 'epoch': 17.98}
{'loss': 0.2179, 'grad_norm': 3.04016375541687, 'learning_rate': 8.298000000000001e-06, 'epoch': 17.99}
{'loss': 0.2925, 'grad_norm': 3.210706949234009, 'learning_rate': 8.301e-06, 'epoch': 17.99}
{'loss': 0.197, 'grad_norm': 1.4765875339508057, 'learning_rate': 8.304e-06, 'epoch': 18.0}
  3%|▎         | 2773/100000 [1:40:48<190:06:15,  7.04s/it]                                                             3%|▎         | 2773/100000 [1:40:48<190:06:15,  7.04s/it]  3%|▎         | 2774/100000 [1:40:56<196:04:23,  7.26s/it]                                                             3%|▎         | 2774/100000 [1:40:56<196:04:23,  7.26s/it]  3%|▎         | 2775/100000 [1:41:01<180:06:53,  6.67s/it]                                                             3%|▎         | 2775/100000 [1:41:01<180:06:53,  6.67s/it]  3%|▎         | 2776/100000 [1:41:05<163:02:22,  6.04s/it]                                                             3%|▎         | 2776/100000 [1:41:05<163:02:22,  6.04s/it]  3%|▎         | 2777/100000 [1:41:09<145:13:41,  5.38s/it]                                                             3%|▎         | 2777/100000 [1:41:09<145:13:41,  5.38s/it]  3%|▎         | 2778/100000 [1:41:13<129:00:55,  4.78s/it]                                                             3%|▎         | 2778/100000 [1:41:13<129:00:55,  4.78s/it]  3%|▎         | 2779/100000 [1:41:16<114:01:30,  4.22s/it]                                                             3%|▎         | 2779/100000 [1:41:16<114:01:30,  4.22s/it]  3%|▎         | 2780/100000 [1:41:18<99:20:58,  3.68s/it]                                                             3%|▎         | 2780/100000 [1:41:18<99:20:58,  3.68s/it]  3%|▎         | 2781/100000 [1:41:20<88:02:50,  3.26s/it]                                                            3%|▎         | 2781/100000 [1:41:20<88:02:50,  3.26s/it]  3%|▎         | 2782/100000 [1:41:22<78:43:55,  2.92s/it]                                                            3%|▎         | 2782/100000 [1:41:22<78:43:55,  2.92s/it]  3%|▎         | 2783/100000 [1:41:24<70:43:15,  2.62s/it]                                                            3%|▎         | 2783/100000 [1:41:24<70:43:15,  2.62s/it]  3%|▎         | 2784/100000 [1:41:26<63:20:18,  2.35s/it]                                                            3%|▎         | 2784/100000 [1:41:26<63:20:18,  2.35s/it]  3%|▎         | 2785/100000 [1:41:28<58:02:39,  2.15s/it]                                                            3%|▎         | 2785/100000 [1:41:28<58:02:39,  2.15s/it]  3%|▎         | 2786/100000 [1:41:29<53:29:53,  1.98s/it]                                                            3%|▎         | 2786/100000 [1:41:29<53:29:53,  1.98s/it]  3%|▎         | 2787/100000 [1:41:31<49:41:49,  1.84s/it]                                                            3%|▎         | 2787/100000 [1:41:31<49:41:49,  1.84s/it]  3%|▎         | 2788/100000 [1:41:32<46:03:04,  1.71s/it]                                                            3%|▎         | 2788/100000 [1:41:32<46:03:04,  1.71s/it]  3%|▎         | 2789/100000 [1:41:34<42:51:42,  1.59s/it]                                                            3%|▎         | 2789/100000 [1:41:34<42:51:42,  1.59s/it]  3%|▎         | 2790/100000 [1:41:35<40:38:34,  1.51s/it]                                                            3%|▎         | 2790/100000 [1:41:35<40:38:34,  1.51s/it]  3%|▎         | 2791/100000 [1:41:36<38:31:33,  1.43s/it]                                                            3%|▎         | 2791/100000 [1:41:36<38:31:33,  1.43s/it]  3%|▎         | 2792/100000 [1:41:37<36:35:43,  1.36s/it]                                                            3%|▎         | 2792/100000 [1:41:37<36:35:43,  1.36s/it]  3%|▎         | 2793/100000 [1:41:38<34:23:58,  1.27s/it]                                                            3%|▎         | 2793/100000 [1:41:38<34:23:58,  1.27s/it]  3%|▎         | 2794/100000 [1:41:39<33:02:26,  1.22s/it]                                                            3%|▎         | 2794/100000 [1:41:39<33:02:26,  1.22s/it]  3%|▎         | 2795/100000 [1:41:41<31:26:17,  1.16s/it]                                                            3%|▎         | 2795/100000 [1:41:41<31:26:17,  1.16s/it]  3%|▎         | 2796/100000 [1:41:42<31:16:51,  1.16s/it]                                                            3%|▎         | 2796/100000 [1:41:42<31:16:51,  1.16s/it]  3%|▎         | 2797/100000 [1:41:43<29:45:54,  1.10s/it]                                                            3%|▎         | 2797/100000 [1:41:43<29:45:54,  1.10s/it]  3%|▎         | 2798/100000 [1:41:44<28:45:43,  1.07s/it]                                                            3%|▎         | 2798/100000 [1:41:44<28:45:43,  1.07s/it]  3%|▎         | 2799/100000 [1:41:45<27:36:10,  1.02s/it]                                                            3%|▎         | 2799/100000 [1:41:45<27:36:10,  1.02s/it]  3%|▎         | 2800/100000 [1:41:45<26:32:49,  1.02it/s]                                                            3%|▎         | 2800/100000 [1:41:45<26:32:49,  1.02it/s]  3%|▎         | 2801/100000 [1:41:46<25:06:58,  1.07it/s]                                                            3%|▎         | 2801/100000 [1:41:46<25:06:58,  1.07it/s]  3%|▎         | 2802/100000 [1:41:47<24:08:00,  1.12it/s]                                                            3%|▎         | 2802/100000 [1:41:47<24:08:00,  1.12it/s]  3%|▎         | 2803/100000 [1:41:48<23:19:16,  1.16it/s]                                                            3%|▎         | 2803/100000 [1:41:48<23:19:16,  1.16it/s]  3%|▎         | 2804/100000 [1:41:49<22:29:20,  1.20it/s]                                                            3%|▎         | 2804/100000 [1:41:49<22:29:20,  1.20it/s]  3%|▎         | 2805/100000 [1:41:49<22:41:57,  1.19it/s]                                                            3%|▎         | 2805/100000 [1:41:49<22:41:57,  1.19it/s]  3%|▎         | 2806/100000 [1:41:50<21:52:20,  1.23it/s]                                                            3%|▎         | 2806/100000 [1:41:50<21:52:20,  1.23it/s]  3%|▎         | 2807/100000 [1:41:51<21:03:26,  1.28it/s]                                                            3%|▎         | 2807/100000 [1:41:51<21:03:26,  1.28it/s]  3%|▎         | 2808/100000 [1:41:52<20:37:50,  1.31it/s]                                                            3%|▎         | 2808/100000 [1:41:52<20:37:50,  1.31it/s]  3%|▎         | 2809/100000 [1:41:52<20:24:36,  1.32it/s]                                                            3%|▎         | 2809/100000 [1:41:52<20:24:36,  1.32it/s]  3%|▎         | 2810/100000 [1:41:53<19:02:24,  1.42it/s]                                                            3%|▎         | 2810/100000 [1:41:53<19:02:24,  1.42it/s]  3%|▎         | 2811/100000 [1:42:04<106:47:36,  3.96s/it]                                                             3%|▎         | 2811/100000 [1:42:04<106:47:36,  3.96s/it]  3%|▎         | 2812/100000 [1:42:12<137:47:33,  5.10s/it]                                                             3%|▎         | 2812/100000 [1:42:12<137:47:33,  5.10s/it]  3%|▎         | 2813/100000 [1:42:17<138:03:13,  5.11s/it]                                                             3%|▎         | 2813/100000 [1:42:17<138:03:13,  5.11s/it]  3%|▎         | 2814/100000 [1:42:22<133:32:26,  4.95s/it]                                                             3%|▎         | 2814/100000 [1:42:22<133:32:26,  4.95s/it]  3%|▎         | 2815/100000 [1:42:26<125:49:06,  4.66s/it]                                                             3%|▎         | 2815/100000 [1:42:26<125:49:06,  4.66s/it]  3%|▎         | 2816/100000 [1:42:29<115:04:22,  4.26s/it]                                                             3%|▎         | 2816/100000 [1:42:29<115:04:22,  4.26s/it]  3%|▎         | 2817/100000 [1:42:32<103:02:43,  3.82s/it]                                                             3%|▎         | 2817/100000 [1:42:32<103:02:43,  3.82s/it]  3%|▎         | 2818/100000 [1:42:35<92:36:14,  3.43s/it]                                                             3%|▎         | 2818/100000 [1:42:35<92:36:14,  3.43s/it]  3%|▎         | 2819/100000 [1:42:37<83:00:42,  3.08s/it]                                                            3%|▎         | 2819/100000 [1:42:37<83:00:42,  3.08s/it]  3%|▎         | 2820/100000 [1:42:39<75:01:05,  2.78s/it]                                                            3%|▎         | 2820/100000 [1:42:39<75:01:05,  2.78s/it]  3%|▎         | 2821/100000 [1:42:41<68:13:34,  2.53s/it]                                                            3%|▎         | 2821/100000 [1:42:41<68:13:34,  2.53s/it]  3%|▎         | 2822/100000 [1:42:43<62:36:39,  2.32s/it]                                                            3%|▎         | 2822/100000 [1:42:43<62:36:39,  2.32s/it]  3%|▎         | 2823/100000 [1:42:44<57:22:16,  2.13s/it]                                                            3%|▎         | 2823/100000 [1:42:44<57:22:16,  2.13s/it]  3%|▎         | 2824/100000 [1:42:46<53:15:37,  1.97s/it]                                                            3%|▎         | 2824/100000 [1:42:46<53:15:37,  1.97s/it]  3%|▎         | 2825/100000 [1:42:48<50:13:06,  1.86s/it]                                                            3%|▎         | 2825/100000 [1:42:48<50:13:06,  1.86s/it]  3%|▎         | 2826/100000 [1:42:49<47:15:27,  1.75s/it]                                                            3%|▎         | 2826/100000 [1:42:49<47:15:27,  1.75s/it]  3%|▎         | 2827/100000 [1:42:50<44:19:04,  1.64s/it]                                                            3%|▎         | 2827/100000 [1:42:50<44:19:04,  1.64s/it]  3%|▎         | 2828/100000 [1:42:52<41:49:37,  1.55s/it]                                                            3%|▎         | 2828/100000 [1:42:52<41:49:37,  1.55s/it]  3%|▎         | 2829/100000 [1:42:53<39:29:21,  1.46s/it]                                                            3%|▎         | 2829/100000 [1:42:53<39:29:21,  1.46s/it]  3%|▎         | 2830/100000 [1:42:54<37:36:49,  1.39s/it]                                                            3%|▎         | 2830/100000 [1:42:54<37:36:49,  1.39s/it]  3%|▎         | 2831/100000 [1:42:55<35:26:40,  1.31s/it]                                                            3%|▎         | 2831/100000 [1:42:55<35:26:40,  1.31s/it]  3%|▎         | 2832/100000 [1:42:57<33:44:26,  1.25s/it]                                                            3%|▎         | 2832/100000 [1:42:57<33:44:26,  1.25s/it]  3%|▎         | 2833/100000 [1:42:58<32:08:34,  1.19s/it]                                                            3%|▎         | 2833/100000 [1:42:58<32:08:34,  1.19s/it]  3%|▎         | 2834/100000 [1:42:59<30:32:54,  1.13s/it]                                                            3%|▎         | 2834/100000 [1:42:59<30:32:54,  1.13s/it]  3%|▎         | 2835/100000 [1:43:00<29:22:16,  1.09s/it]                                                            3%|▎         | 2835/100000 [1:43:00<29:22:16,  1.09s/it]  3%|▎         | 2836/100000 [1:43:00<28:08:40,  1.04s/it]                                                            3%|▎         | 2836/100000 [1:43:01<28:08:40,  1.04s/it]  3%|▎         | 2837/100000 [1:43:01<27:03:24,  1.00s/it]                                                            3%|▎         | 2837/100000 [1:43:01<27:03:24,  1.00s/it]  3%|▎         | 2838/100000 [1:43:02<26:11:51,  1.03it/s]                                                            3%|▎         | 2838/100000 [1:43:02<26:11:51,  1.03it/s]  3%|▎         | 2839/100000 [1:43:03<25:29:04,  1.06it/s]                                                            3%|▎         | 2839/100000 [1:43:03<25:29:04,  1.06it/s]  3%|▎         | 2840/100000 [1:43:04<25:05:45,  1.08it/s]                                                            3%|▎         | 2840/100000 [1:43:04<25:05:45,  1.08it/s]  3%|▎         | 2841/100000 [1:43:05<24:28:14,  1.10it/s]                                                            3%|▎         | 2841/100000 [1:43:05<24:28:14,  1.10it/s]  3%|▎         | 2842/100000 [1:43:06<23:32:33,  1.15it/s]                                                            3%|▎         | 2842/100000 [1:43:06<23:32:33,  1.15it/s]  3%|▎         | 2843/100000 [1:43:07<23:40:59,  1.14it/s]                                                            3%|▎         | 2843/100000 [1:43:07<23:40:59,  1.14it/s]  3%|▎         | 2844/100000 [1:43:07<23:30:44,  1.15it/s]                                                            3%|▎         | 2844/100000 [1:43:07<23:30:44,  1.15it/s]  3%|▎         | 2845/100000 [1:43:08<22:43:37,  1.19it/s]                                                            3%|▎         | 2845/100000 [1:43:08<22:43:37,  1.19it/s]  3%|▎         | 2846/100000 [1:43:09<22:27:52,  1.20it/s]                                                            3%|▎         | 2846/100000 [1:43:09<22:27:52,  1.20it/s]  3%|▎         | 2847/100000 [1:43:10<21:22:02,  1.26it/s]                                                            3%|▎         | 2847/100000 [1:43:10<21:22:02,  1.26it/s]  3%|▎         | 2848/100000 [1:43:10<19:46:41,  1.36it/s]                                                            3%|▎         | 2848/100000 [1:43:10<19:46:41,  1.36it/s]  3%|▎         | 2849/100000 [1:43:22<109:01:50,  4.04s/it]                                                             3%|▎         | 2849/100000 [1:43:22<109:01:50,  4.04s/it]  3%|▎         | 2850/100000 [1:43:29<134:36:41,  4.99s/it]                                                             3%|▎         | 2850/100000 [1:43:29<134:36:41,  4.99s/it]  3%|▎         | 2851/100000 [1:43:35<140:50:34,  5.22s/it]                                                             3%|▎         | 2851/100000 [1:43:35<140:50:34,  5.22s/it]  3%|▎         | 2852/100000 [1:43:40<137:05:24,  5.08s/it]                                                             3%|▎         | 2852/100000 [1:43:40<137:05:24,  5.08s/it]  3%|▎         | 2853/100000 [1:43:44<129:06:27,  4.78s/it]                                                             3%|▎         | 2853/100000 [1:43:44<129:06:27,  4.78s/it]  3%|▎         | 2854/100000 [1:43:47<117:59:37,  4.37s/it]                                                             3%|▎         | 2854/100000 [1:43:47<117:59:37,  4.37s/it]  3%|▎         | 2855/100000 [1:43:51<108:32:06,  4.02s/it]                                                             3%|▎         | 2855/100000 [1:43:51<108:32:06,  4.02s/it]  3%|▎         | 2856/100000 [1:43:53<98:56:14,  3.67s/it]                                                             3%|▎         | 2856/100000 [1:43:53<98:56:14,  3.67s/it]  3%|▎         | 2857/100000 [1:43:56<89:26:53,  3.31s/it]                                                            3%|▎         | 2857/100000 [1:43:56<89:26:53,  3.31s/it]  3%|▎         | 2858/100000 [1:43:58<79:51:35,  2.96s/it]                                                          {'loss': 0.3962, 'grad_norm': 1.693952202796936, 'learning_rate': 8.307e-06, 'epoch': 18.01}
{'loss': 0.3179, 'grad_norm': 1.0204167366027832, 'learning_rate': 8.310000000000002e-06, 'epoch': 18.01}
{'loss': 0.3033, 'grad_norm': 1.0259912014007568, 'learning_rate': 8.313e-06, 'epoch': 18.02}
{'loss': 0.2746, 'grad_norm': 1.55439293384552, 'learning_rate': 8.316e-06, 'epoch': 18.03}
{'loss': 0.208, 'grad_norm': 0.8075624108314514, 'learning_rate': 8.319e-06, 'epoch': 18.03}
{'loss': 0.2212, 'grad_norm': 1.006516456604004, 'learning_rate': 8.322e-06, 'epoch': 18.04}
{'loss': 0.2367, 'grad_norm': 0.9842184782028198, 'learning_rate': 8.325e-06, 'epoch': 18.05}
{'loss': 0.223, 'grad_norm': 1.1221603155136108, 'learning_rate': 8.328e-06, 'epoch': 18.05}
{'loss': 0.2751, 'grad_norm': 1.1482285261154175, 'learning_rate': 8.331e-06, 'epoch': 18.06}
{'loss': 0.195, 'grad_norm': 1.31692636013031, 'learning_rate': 8.334e-06, 'epoch': 18.06}
{'loss': 0.142, 'grad_norm': 0.9834471940994263, 'learning_rate': 8.337e-06, 'epoch': 18.07}
{'loss': 0.1797, 'grad_norm': 0.7793787717819214, 'learning_rate': 8.340000000000001e-06, 'epoch': 18.08}
{'loss': 0.1388, 'grad_norm': 0.8896894454956055, 'learning_rate': 8.343000000000001e-06, 'epoch': 18.08}
{'loss': 0.1736, 'grad_norm': 0.9485284090042114, 'learning_rate': 8.346000000000001e-06, 'epoch': 18.09}
{'loss': 0.1244, 'grad_norm': 1.0913678407669067, 'learning_rate': 8.349e-06, 'epoch': 18.1}
{'loss': 0.1302, 'grad_norm': 1.1074705123901367, 'learning_rate': 8.351999999999999e-06, 'epoch': 18.1}
{'loss': 0.1494, 'grad_norm': 1.0676321983337402, 'learning_rate': 8.355e-06, 'epoch': 18.11}
{'loss': 0.1299, 'grad_norm': 1.0183219909667969, 'learning_rate': 8.358e-06, 'epoch': 18.12}
{'loss': 0.1432, 'grad_norm': 0.9712896943092346, 'learning_rate': 8.361e-06, 'epoch': 18.12}
{'loss': 0.1617, 'grad_norm': 1.2498159408569336, 'learning_rate': 8.364e-06, 'epoch': 18.13}
{'loss': 0.1364, 'grad_norm': 2.296797037124634, 'learning_rate': 8.367e-06, 'epoch': 18.14}
{'loss': 0.1278, 'grad_norm': 1.012460708618164, 'learning_rate': 8.370000000000001e-06, 'epoch': 18.14}
{'loss': 0.1655, 'grad_norm': 1.5517627000808716, 'learning_rate': 8.373000000000001e-06, 'epoch': 18.15}
{'loss': 0.1985, 'grad_norm': 2.1816651821136475, 'learning_rate': 8.376e-06, 'epoch': 18.16}
{'loss': 0.1301, 'grad_norm': 1.6554229259490967, 'learning_rate': 8.379e-06, 'epoch': 18.16}
{'loss': 0.1156, 'grad_norm': 1.4277644157409668, 'learning_rate': 8.382e-06, 'epoch': 18.17}
{'loss': 0.15, 'grad_norm': 1.84596586227417, 'learning_rate': 8.385e-06, 'epoch': 18.18}
{'loss': 0.1759, 'grad_norm': 1.576153039932251, 'learning_rate': 8.388e-06, 'epoch': 18.18}
{'loss': 0.1404, 'grad_norm': 1.6512768268585205, 'learning_rate': 8.391e-06, 'epoch': 18.19}
{'loss': 0.138, 'grad_norm': 1.4075303077697754, 'learning_rate': 8.394e-06, 'epoch': 18.19}
{'loss': 0.1343, 'grad_norm': 2.160184621810913, 'learning_rate': 8.397e-06, 'epoch': 18.2}
{'loss': 0.1403, 'grad_norm': 2.5250144004821777, 'learning_rate': 8.400000000000001e-06, 'epoch': 18.21}
{'loss': 0.1361, 'grad_norm': 1.4939396381378174, 'learning_rate': 8.403e-06, 'epoch': 18.21}
{'loss': 0.1443, 'grad_norm': 2.99314022064209, 'learning_rate': 8.406e-06, 'epoch': 18.22}
{'loss': 0.2024, 'grad_norm': 2.880207061767578, 'learning_rate': 8.409e-06, 'epoch': 18.23}
{'loss': 0.1375, 'grad_norm': 2.1336171627044678, 'learning_rate': 8.412e-06, 'epoch': 18.23}
{'loss': 0.1515, 'grad_norm': 1.9636844396591187, 'learning_rate': 8.415000000000002e-06, 'epoch': 18.24}
{'loss': 0.1849, 'grad_norm': 2.105339288711548, 'learning_rate': 8.418000000000001e-06, 'epoch': 18.25}
{'loss': 0.3635, 'grad_norm': 1.4200191497802734, 'learning_rate': 8.421000000000001e-06, 'epoch': 18.25}
{'loss': 0.3521, 'grad_norm': 1.7207520008087158, 'learning_rate': 8.424e-06, 'epoch': 18.26}
{'loss': 0.2552, 'grad_norm': 1.0396528244018555, 'learning_rate': 8.426999999999999e-06, 'epoch': 18.27}
{'loss': 0.2797, 'grad_norm': 1.4590933322906494, 'learning_rate': 8.43e-06, 'epoch': 18.27}
{'loss': 0.2531, 'grad_norm': 1.3884443044662476, 'learning_rate': 8.433e-06, 'epoch': 18.28}
{'loss': 0.1996, 'grad_norm': 3.868022918701172, 'learning_rate': 8.436e-06, 'epoch': 18.29}
{'loss': 0.2529, 'grad_norm': 1.1258050203323364, 'learning_rate': 8.439e-06, 'epoch': 18.29}
{'loss': 0.2304, 'grad_norm': 1.196620225906372, 'learning_rate': 8.442e-06, 'epoch': 18.3}
{'loss': 0.2124, 'grad_norm': 1.0296443700790405, 'learning_rate': 8.445e-06, 'epoch': 18.31}
{'loss': 0.199, 'grad_norm': 1.1353459358215332, 'learning_rate': 8.448000000000001e-06, 'epoch': 18.31}
{'loss': 0.1735, 'grad_norm': 1.2190755605697632, 'learning_rate': 8.451000000000001e-06, 'epoch': 18.32}
{'loss': 0.1828, 'grad_norm': 2.004063844680786, 'learning_rate': 8.454e-06, 'epoch': 18.32}
{'loss': 0.1543, 'grad_norm': 1.145049810409546, 'learning_rate': 8.457e-06, 'epoch': 18.33}
{'loss': 0.1621, 'grad_norm': 0.9991747736930847, 'learning_rate': 8.459999999999999e-06, 'epoch': 18.34}
{'loss': 0.1368, 'grad_norm': 1.069960594177246, 'learning_rate': 8.463e-06, 'epoch': 18.34}
{'loss': 0.1595, 'grad_norm': 1.0847525596618652, 'learning_rate': 8.466e-06, 'epoch': 18.35}
{'loss': 0.1251, 'grad_norm': 1.0163644552230835, 'learning_rate': 8.469e-06, 'epoch': 18.36}
{'loss': 0.1566, 'grad_norm': 1.1430938243865967, 'learning_rate': 8.472e-06, 'epoch': 18.36}
{'loss': 0.115, 'grad_norm': 1.199329137802124, 'learning_rate': 8.475e-06, 'epoch': 18.37}
{'loss': 0.1672, 'grad_norm': 1.2508933544158936, 'learning_rate': 8.478e-06, 'epoch': 18.38}
{'loss': 0.1719, 'grad_norm': 1.2995792627334595, 'learning_rate': 8.481e-06, 'epoch': 18.38}
{'loss': 0.1003, 'grad_norm': 1.081459879875183, 'learning_rate': 8.484e-06, 'epoch': 18.39}
{'loss': 0.2462, 'grad_norm': 1.5968611240386963, 'learning_rate': 8.487e-06, 'epoch': 18.4}
{'loss': 0.1562, 'grad_norm': 1.3608938455581665, 'learning_rate': 8.49e-06, 'epoch': 18.4}
{'loss': 0.2302, 'grad_norm': 1.909637689590454, 'learning_rate': 8.493000000000002e-06, 'epoch': 18.41}
{'loss': 0.1517, 'grad_norm': 2.230450391769409, 'learning_rate': 8.496e-06, 'epoch': 18.42}
{'loss': 0.1814, 'grad_norm': 1.7922075986862183, 'learning_rate': 8.499e-06, 'epoch': 18.42}
{'loss': 0.1838, 'grad_norm': 1.6907331943511963, 'learning_rate': 8.502e-06, 'epoch': 18.43}
{'loss': 0.1162, 'grad_norm': 1.2799140214920044, 'learning_rate': 8.504999999999999e-06, 'epoch': 18.44}
{'loss': 0.1337, 'grad_norm': 1.517853021621704, 'learning_rate': 8.508e-06, 'epoch': 18.44}
{'loss': 0.1106, 'grad_norm': 1.3840985298156738, 'learning_rate': 8.511e-06, 'epoch': 18.45}
{'loss': 0.1456, 'grad_norm': 1.6531953811645508, 'learning_rate': 8.514e-06, 'epoch': 18.45}
{'loss': 0.1173, 'grad_norm': 1.757277488708496, 'learning_rate': 8.517e-06, 'epoch': 18.46}
{'loss': 0.1465, 'grad_norm': 3.391040802001953, 'learning_rate': 8.52e-06, 'epoch': 18.47}
{'loss': 0.1163, 'grad_norm': 5.582279682159424, 'learning_rate': 8.523000000000001e-06, 'epoch': 18.47}
{'loss': 0.1611, 'grad_norm': 3.2421343326568604, 'learning_rate': 8.526000000000001e-06, 'epoch': 18.48}
{'loss': 0.1497, 'grad_norm': 3.753948211669922, 'learning_rate': 8.529e-06, 'epoch': 18.49}
{'loss': 0.2329, 'grad_norm': 2.75300669670105, 'learning_rate': 8.532e-06, 'epoch': 18.49}
{'loss': 0.4275, 'grad_norm': 2.3125829696655273, 'learning_rate': 8.534999999999999e-06, 'epoch': 18.5}
{'loss': 0.3539, 'grad_norm': 1.4031826257705688, 'learning_rate': 8.538e-06, 'epoch': 18.51}
{'loss': 0.3163, 'grad_norm': 1.1692543029785156, 'learning_rate': 8.541e-06, 'epoch': 18.51}
{'loss': 0.2679, 'grad_norm': 0.9425853490829468, 'learning_rate': 8.544e-06, 'epoch': 18.52}
{'loss': 0.2303, 'grad_norm': 1.2272197008132935, 'learning_rate': 8.547e-06, 'epoch': 18.53}
{'loss': 0.2282, 'grad_norm': 1.2783339023590088, 'learning_rate': 8.55e-06, 'epoch': 18.53}
{'loss': 0.2456, 'grad_norm': 1.1375246047973633, 'learning_rate': 8.553000000000001e-06, 'epoch': 18.54}
{'loss': 0.2359, 'grad_norm': 1.1335331201553345, 'learning_rate': 8.556e-06, 'epoch': 18.55}
{'loss': 0.1789, 'grad_norm': 0.9822102785110474, 'learning_rate': 8.559e-06, 'epoch': 18.55}
  3%|▎         | 2858/100000 [1:43:58<79:51:35,  2.96s/it]  3%|▎         | 2859/100000 [1:44:00<72:10:23,  2.67s/it]                                                            3%|▎         | 2859/100000 [1:44:00<72:10:23,  2.67s/it]  3%|▎         | 2860/100000 [1:44:02<65:52:30,  2.44s/it]                                                            3%|▎         | 2860/100000 [1:44:02<65:52:30,  2.44s/it]  3%|▎         | 2861/100000 [1:44:04<60:13:12,  2.23s/it]                                                            3%|▎         | 2861/100000 [1:44:04<60:13:12,  2.23s/it]  3%|▎         | 2862/100000 [1:44:05<55:35:33,  2.06s/it]                                                            3%|▎         | 2862/100000 [1:44:05<55:35:33,  2.06s/it]  3%|▎         | 2863/100000 [1:44:07<51:45:14,  1.92s/it]                                                            3%|▎         | 2863/100000 [1:44:07<51:45:14,  1.92s/it]  3%|▎         | 2864/100000 [1:44:08<48:24:13,  1.79s/it]                                                            3%|▎         | 2864/100000 [1:44:08<48:24:13,  1.79s/it]  3%|▎         | 2865/100000 [1:44:10<45:43:24,  1.69s/it]                                                            3%|▎         | 2865/100000 [1:44:10<45:43:24,  1.69s/it]  3%|▎         | 2866/100000 [1:44:11<42:50:06,  1.59s/it]                                                            3%|▎         | 2866/100000 [1:44:11<42:50:06,  1.59s/it]  3%|▎         | 2867/100000 [1:44:13<40:37:35,  1.51s/it]                                                            3%|▎         | 2867/100000 [1:44:13<40:37:35,  1.51s/it]  3%|▎         | 2868/100000 [1:44:14<38:43:44,  1.44s/it]                                                            3%|▎         | 2868/100000 [1:44:14<38:43:44,  1.44s/it]  3%|▎         | 2869/100000 [1:44:15<36:51:31,  1.37s/it]                                                            3%|▎         | 2869/100000 [1:44:15<36:51:31,  1.37s/it]  3%|▎         | 2870/100000 [1:44:16<35:04:36,  1.30s/it]                                                            3%|▎         | 2870/100000 [1:44:16<35:04:36,  1.30s/it]  3%|▎         | 2871/100000 [1:44:17<33:25:37,  1.24s/it]                                                            3%|▎         | 2871/100000 [1:44:17<33:25:37,  1.24s/it]  3%|▎         | 2872/100000 [1:44:18<31:52:58,  1.18s/it]                                                            3%|▎         | 2872/100000 [1:44:18<31:52:58,  1.18s/it]  3%|▎         | 2873/100000 [1:44:19<30:17:56,  1.12s/it]                                                            3%|▎         | 2873/100000 [1:44:19<30:17:56,  1.12s/it]  3%|▎         | 2874/100000 [1:44:20<28:59:36,  1.07s/it]                                                            3%|▎         | 2874/100000 [1:44:20<28:59:36,  1.07s/it]  3%|▎         | 2875/100000 [1:44:21<28:02:42,  1.04s/it]                                                            3%|▎         | 2875/100000 [1:44:21<28:02:42,  1.04s/it]  3%|▎         | 2876/100000 [1:44:22<27:00:16,  1.00s/it]                                                            3%|▎         | 2876/100000 [1:44:22<27:00:16,  1.00s/it]  3%|▎         | 2877/100000 [1:44:23<26:36:29,  1.01it/s]                                                            3%|▎         | 2877/100000 [1:44:23<26:36:29,  1.01it/s]  3%|▎         | 2878/100000 [1:44:24<25:35:17,  1.05it/s]                                                            3%|▎         | 2878/100000 [1:44:24<25:35:17,  1.05it/s]  3%|▎         | 2879/100000 [1:44:25<24:16:31,  1.11it/s]                                                            3%|▎         | 2879/100000 [1:44:25<24:16:31,  1.11it/s]  3%|▎         | 2880/100000 [1:44:25<23:17:44,  1.16it/s]                                                            3%|▎         | 2880/100000 [1:44:25<23:17:44,  1.16it/s]  3%|▎         | 2881/100000 [1:44:26<23:01:04,  1.17it/s]                                                            3%|▎         | 2881/100000 [1:44:26<23:01:04,  1.17it/s]  3%|▎         | 2882/100000 [1:44:27<22:38:34,  1.19it/s]                                                            3%|▎         | 2882/100000 [1:44:27<22:38:34,  1.19it/s]  3%|▎         | 2883/100000 [1:44:28<22:15:16,  1.21it/s]                                                            3%|▎         | 2883/100000 [1:44:28<22:15:16,  1.21it/s]  3%|▎         | 2884/100000 [1:44:29<20:46:53,  1.30it/s]                                                            3%|▎         | 2884/100000 [1:44:29<20:46:53,  1.30it/s]  3%|▎         | 2885/100000 [1:44:29<20:47:32,  1.30it/s]                                                            3%|▎         | 2885/100000 [1:44:29<20:47:32,  1.30it/s]  3%|▎         | 2886/100000 [1:44:30<19:42:20,  1.37it/s]                                                            3%|▎         | 2886/100000 [1:44:30<19:42:20,  1.37it/s]  3%|▎         | 2887/100000 [1:44:43<120:45:43,  4.48s/it]                                                             3%|▎         | 2887/100000 [1:44:43<120:45:43,  4.48s/it]  3%|▎         | 2888/100000 [1:44:51<150:25:51,  5.58s/it]                                                             3%|▎         | 2888/100000 [1:44:51<150:25:51,  5.58s/it]  3%|▎         | 2889/100000 [1:44:57<151:44:18,  5.63s/it]                                                             3%|▎         | 2889/100000 [1:44:57<151:44:18,  5.63s/it]  3%|▎         | 2890/100000 [1:45:02<144:41:33,  5.36s/it]                                                             3%|▎         | 2890/100000 [1:45:02<144:41:33,  5.36s/it]  3%|▎         | 2891/100000 [1:45:06<134:24:18,  4.98s/it]                                                             3%|▎         | 2891/100000 [1:45:06<134:24:18,  4.98s/it]  3%|▎         | 2892/100000 [1:45:10<123:27:00,  4.58s/it]                                                             3%|▎         | 2892/100000 [1:45:10<123:27:00,  4.58s/it]  3%|▎         | 2893/100000 [1:45:13<112:25:43,  4.17s/it]                                                             3%|▎         | 2893/100000 [1:45:13<112:25:43,  4.17s/it]  3%|▎         | 2894/100000 [1:45:15<100:56:41,  3.74s/it]                                                             3%|▎         | 2894/100000 [1:45:15<100:56:41,  3.74s/it]  3%|▎         | 2895/100000 [1:45:18<90:11:43,  3.34s/it]                                                             3%|▎         | 2895/100000 [1:45:18<90:11:43,  3.34s/it]  3%|▎         | 2896/100000 [1:45:20<81:05:05,  3.01s/it]                                                            3%|▎         | 2896/100000 [1:45:20<81:05:05,  3.01s/it]  3%|▎         | 2897/100000 [1:45:22<72:42:44,  2.70s/it]                                                            3%|▎         | 2897/100000 [1:45:22<72:42:44,  2.70s/it]  3%|▎         | 2898/100000 [1:45:24<66:05:37,  2.45s/it]                                                            3%|▎         | 2898/100000 [1:45:24<66:05:37,  2.45s/it]  3%|▎         | 2899/100000 [1:45:26<60:19:39,  2.24s/it]                                                            3%|▎         | 2899/100000 [1:45:26<60:19:39,  2.24s/it]  3%|▎         | 2900/100000 [1:45:27<55:05:28,  2.04s/it]                                                            3%|▎         | 2900/100000 [1:45:27<55:05:28,  2.04s/it]  3%|▎         | 2901/100000 [1:45:29<51:16:12,  1.90s/it]                                                            3%|▎         | 2901/100000 [1:45:29<51:16:12,  1.90s/it]  3%|▎         | 2902/100000 [1:45:30<47:28:07,  1.76s/it]                                                            3%|▎         | 2902/100000 [1:45:30<47:28:07,  1.76s/it]  3%|▎         | 2903/100000 [1:45:32<44:50:33,  1.66s/it]                                                            3%|▎         | 2903/100000 [1:45:32<44:50:33,  1.66s/it]  3%|▎         | 2904/100000 [1:45:33<42:07:20,  1.56s/it]                                                            3%|▎         | 2904/100000 [1:45:33<42:07:20,  1.56s/it]  3%|▎         | 2905/100000 [1:45:34<39:43:13,  1.47s/it]                                                            3%|▎         | 2905/100000 [1:45:34<39:43:13,  1.47s/it]  3%|▎         | 2906/100000 [1:45:36<37:50:48,  1.40s/it]                                                            3%|▎         | 2906/100000 [1:45:36<37:50:48,  1.40s/it]  3%|▎         | 2907/100000 [1:45:37<36:04:21,  1.34s/it]                                                            3%|▎         | 2907/100000 [1:45:37<36:04:21,  1.34s/it]  3%|▎         | 2908/100000 [1:45:38<34:15:00,  1.27s/it]                                                            3%|▎         | 2908/100000 [1:45:38<34:15:00,  1.27s/it]  3%|▎         | 2909/100000 [1:45:39<32:37:25,  1.21s/it]                                                            3%|▎         | 2909/100000 [1:45:39<32:37:25,  1.21s/it]  3%|▎         | 2910/100000 [1:45:40<31:09:32,  1.16s/it]                                                            3%|▎         | 2910/100000 [1:45:40<31:09:32,  1.16s/it]  3%|▎         | 2911/100000 [1:45:41<29:33:20,  1.10s/it]                                                            3%|▎         | 2911/100000 [1:45:41<29:33:20,  1.10s/it]  3%|▎         | 2912/100000 [1:45:42<28:05:49,  1.04s/it]                                                            3%|▎         | 2912/100000 [1:45:42<28:05:49,  1.04s/it]  3%|▎         | 2913/100000 [1:45:43<26:49:24,  1.01it/s]                                                            3%|▎         | 2913/100000 [1:45:43<26:49:24,  1.01it/s]  3%|▎         | 2914/100000 [1:45:44<25:46:24,  1.05it/s]                                                            3%|▎         | 2914/100000 [1:45:44<25:46:24,  1.05it/s]  3%|▎         | 2915/100000 [1:45:44<24:37:10,  1.10it/s]                                                            3%|▎         | 2915/100000 [1:45:44<24:37:10,  1.10it/s]  3%|▎         | 2916/100000 [1:45:45<23:30:47,  1.15it/s]                                                            3%|▎         | 2916/100000 [1:45:45<23:30:47,  1.15it/s]  3%|▎         | 2917/100000 [1:45:46<22:38:50,  1.19it/s]                                                            3%|▎         | 2917/100000 [1:45:46<22:38:50,  1.19it/s]  3%|▎         | 2918/100000 [1:45:47<21:44:06,  1.24it/s]                                                            3%|▎         | 2918/100000 [1:45:47<21:44:06,  1.24it/s]  3%|▎         | 2919/100000 [1:45:47<20:48:32,  1.30it/s]                                                            3%|▎         | 2919/100000 [1:45:47<20:48:32,  1.30it/s]  3%|▎         | 2920/100000 [1:45:48<20:15:45,  1.33it/s]                                                            3%|▎         | 2920/100000 [1:45:48<20:15:45,  1.33it/s]  3%|▎         | 2921/100000 [1:45:49<19:26:16,  1.39it/s]                                                            3%|▎         | 2921/100000 [1:45:49<19:26:16,  1.39it/s]  3%|▎         | 2922/100000 [1:45:49<19:25:07,  1.39it/s]                                                            3%|▎         | 2922/100000 [1:45:49<19:25:07,  1.39it/s]  3%|▎         | 2923/100000 [1:45:50<18:39:17,  1.45it/s]                                                            3%|▎         | 2923/100000 [1:45:50<18:39:17,  1.45it/s]  3%|▎         | 2924/100000 [1:45:51<17:53:33,  1.51it/s]                                                            3%|▎         | 2924/100000 [1:45:51<17:53:33,  1.51it/s]  3%|▎         | 2925/100000 [1:45:56<57:26:24,  2.13s/it]                                                            3%|▎         | 2925/100000 [1:45:56<57:26:24,  2.13s/it]  3%|▎         | 2926/100000 [1:45:58<51:21:21,  1.90s/it]                                                            3%|▎         | 2926/100000 [1:45:58<51:21:21,  1.90s/it]{'loss': 0.1413, 'grad_norm': 0.9659121036529541, 'learning_rate': 8.562e-06, 'epoch': 18.56}
{'loss': 0.1488, 'grad_norm': 0.791800856590271, 'learning_rate': 8.565e-06, 'epoch': 18.56}
{'loss': 0.1483, 'grad_norm': 0.8394386768341064, 'learning_rate': 8.568000000000002e-06, 'epoch': 18.57}
{'loss': 0.1468, 'grad_norm': 1.2680314779281616, 'learning_rate': 8.571e-06, 'epoch': 18.58}
{'loss': 0.1241, 'grad_norm': 0.8525161147117615, 'learning_rate': 8.574e-06, 'epoch': 18.58}
{'loss': 0.1402, 'grad_norm': 0.8892135620117188, 'learning_rate': 8.577e-06, 'epoch': 18.59}
{'loss': 0.1239, 'grad_norm': 0.8495142459869385, 'learning_rate': 8.58e-06, 'epoch': 18.6}
{'loss': 0.1554, 'grad_norm': 1.1197667121887207, 'learning_rate': 8.583e-06, 'epoch': 18.6}
{'loss': 0.1738, 'grad_norm': 1.3054934740066528, 'learning_rate': 8.586e-06, 'epoch': 18.61}
{'loss': 0.1793, 'grad_norm': 1.3485138416290283, 'learning_rate': 8.589e-06, 'epoch': 18.62}
{'loss': 0.1693, 'grad_norm': 1.6131634712219238, 'learning_rate': 8.592e-06, 'epoch': 18.62}
{'loss': 0.1422, 'grad_norm': 0.9704127311706543, 'learning_rate': 8.595e-06, 'epoch': 18.63}
{'loss': 0.1821, 'grad_norm': 0.9236454963684082, 'learning_rate': 8.598000000000001e-06, 'epoch': 18.64}
{'loss': 0.1142, 'grad_norm': 1.0947233438491821, 'learning_rate': 8.601000000000001e-06, 'epoch': 18.64}
{'loss': 0.1425, 'grad_norm': 1.1425178050994873, 'learning_rate': 8.604000000000001e-06, 'epoch': 18.65}
{'loss': 0.2336, 'grad_norm': 1.5121955871582031, 'learning_rate': 8.606999999999999e-06, 'epoch': 18.66}
{'loss': 0.1163, 'grad_norm': 1.036084532737732, 'learning_rate': 8.609999999999999e-06, 'epoch': 18.66}
{'loss': 0.1164, 'grad_norm': 1.6412153244018555, 'learning_rate': 8.613e-06, 'epoch': 18.67}
{'loss': 0.1646, 'grad_norm': 1.4814635515213013, 'learning_rate': 8.616e-06, 'epoch': 18.68}
{'loss': 0.2246, 'grad_norm': 2.069462299346924, 'learning_rate': 8.619e-06, 'epoch': 18.68}
{'loss': 0.1684, 'grad_norm': 1.888466238975525, 'learning_rate': 8.622e-06, 'epoch': 18.69}
{'loss': 0.143, 'grad_norm': 2.099351644515991, 'learning_rate': 8.625e-06, 'epoch': 18.69}
{'loss': 0.1915, 'grad_norm': 1.2351354360580444, 'learning_rate': 8.628000000000001e-06, 'epoch': 18.7}
{'loss': 0.1096, 'grad_norm': 1.2447733879089355, 'learning_rate': 8.631000000000001e-06, 'epoch': 18.71}
{'loss': 0.122, 'grad_norm': 2.678680419921875, 'learning_rate': 8.634e-06, 'epoch': 18.71}
{'loss': 0.1547, 'grad_norm': 1.7229856252670288, 'learning_rate': 8.637e-06, 'epoch': 18.72}
{'loss': 0.2188, 'grad_norm': 2.3038458824157715, 'learning_rate': 8.64e-06, 'epoch': 18.73}
{'loss': 0.1032, 'grad_norm': 2.6525373458862305, 'learning_rate': 8.643e-06, 'epoch': 18.73}
{'loss': 0.2025, 'grad_norm': 3.421797275543213, 'learning_rate': 8.646e-06, 'epoch': 18.74}
{'loss': 0.3928, 'grad_norm': 2.5008888244628906, 'learning_rate': 8.649e-06, 'epoch': 18.75}
{'loss': 0.2961, 'grad_norm': 1.0760211944580078, 'learning_rate': 8.652e-06, 'epoch': 18.75}
{'loss': 0.3022, 'grad_norm': 1.2236706018447876, 'learning_rate': 8.655e-06, 'epoch': 18.76}
{'loss': 0.2686, 'grad_norm': 1.0115257501602173, 'learning_rate': 8.658e-06, 'epoch': 18.77}
{'loss': 0.2902, 'grad_norm': 1.1835062503814697, 'learning_rate': 8.661e-06, 'epoch': 18.77}
{'loss': 0.2285, 'grad_norm': 0.9513422846794128, 'learning_rate': 8.664e-06, 'epoch': 18.78}
{'loss': 0.2245, 'grad_norm': 1.2192198038101196, 'learning_rate': 8.667e-06, 'epoch': 18.79}
{'loss': 0.1938, 'grad_norm': 0.7742151021957397, 'learning_rate': 8.67e-06, 'epoch': 18.79}
{'loss': 0.1844, 'grad_norm': 1.0052361488342285, 'learning_rate': 8.673000000000001e-06, 'epoch': 18.8}
{'loss': 0.2341, 'grad_norm': 0.9430139660835266, 'learning_rate': 8.676000000000001e-06, 'epoch': 18.81}
{'loss': 0.158, 'grad_norm': 2.5632264614105225, 'learning_rate': 8.679000000000001e-06, 'epoch': 18.81}
{'loss': 0.1559, 'grad_norm': 0.9132009148597717, 'learning_rate': 8.682e-06, 'epoch': 18.82}
{'loss': 0.2216, 'grad_norm': 1.1869863271713257, 'learning_rate': 8.684999999999999e-06, 'epoch': 18.82}
{'loss': 0.1744, 'grad_norm': 0.9621624946594238, 'learning_rate': 8.688e-06, 'epoch': 18.83}
{'loss': 0.1568, 'grad_norm': 1.0208516120910645, 'learning_rate': 8.691e-06, 'epoch': 18.84}
{'loss': 0.2069, 'grad_norm': 1.6736966371536255, 'learning_rate': 8.694e-06, 'epoch': 18.84}
{'loss': 0.1304, 'grad_norm': 1.1670644283294678, 'learning_rate': 8.697e-06, 'epoch': 18.85}
{'loss': 0.1467, 'grad_norm': 0.838723361492157, 'learning_rate': 8.7e-06, 'epoch': 18.86}
{'loss': 0.1172, 'grad_norm': 0.9354908466339111, 'learning_rate': 8.703000000000001e-06, 'epoch': 18.86}
{'loss': 0.1065, 'grad_norm': 0.9700291752815247, 'learning_rate': 8.706000000000001e-06, 'epoch': 18.87}
{'loss': 0.1836, 'grad_norm': 1.848671793937683, 'learning_rate': 8.709e-06, 'epoch': 18.88}
{'loss': 0.2053, 'grad_norm': 1.1209805011749268, 'learning_rate': 8.712e-06, 'epoch': 18.88}
{'loss': 0.1304, 'grad_norm': 1.1149576902389526, 'learning_rate': 8.715e-06, 'epoch': 18.89}
{'loss': 0.1551, 'grad_norm': 1.354841947555542, 'learning_rate': 8.718e-06, 'epoch': 18.9}
{'loss': 0.1391, 'grad_norm': 1.1019033193588257, 'learning_rate': 8.721e-06, 'epoch': 18.9}
{'loss': 0.1578, 'grad_norm': 1.056483507156372, 'learning_rate': 8.724e-06, 'epoch': 18.91}
{'loss': 0.1439, 'grad_norm': 1.1073131561279297, 'learning_rate': 8.727e-06, 'epoch': 18.92}
{'loss': 0.1562, 'grad_norm': 2.42142653465271, 'learning_rate': 8.73e-06, 'epoch': 18.92}
{'loss': 0.1928, 'grad_norm': 1.3493220806121826, 'learning_rate': 8.733000000000001e-06, 'epoch': 18.93}
{'loss': 0.1358, 'grad_norm': 1.2444170713424683, 'learning_rate': 8.736e-06, 'epoch': 18.94}
{'loss': 0.0954, 'grad_norm': 1.1764823198318481, 'learning_rate': 8.739e-06, 'epoch': 18.94}
{'loss': 0.1776, 'grad_norm': 1.5800293684005737, 'learning_rate': 8.742e-06, 'epoch': 18.95}
{'loss': 0.138, 'grad_norm': 2.1105613708496094, 'learning_rate': 8.745e-06, 'epoch': 18.95}
{'loss': 0.1104, 'grad_norm': 1.6945953369140625, 'learning_rate': 8.748000000000002e-06, 'epoch': 18.96}
{'loss': 0.1932, 'grad_norm': 7.554768085479736, 'learning_rate': 8.751000000000001e-06, 'epoch': 18.97}
{'loss': 0.1591, 'grad_norm': 1.7585407495498657, 'learning_rate': 8.754e-06, 'epoch': 18.97}
{'loss': 0.1377, 'grad_norm': 1.5956281423568726, 'learning_rate': 8.757e-06, 'epoch': 18.98}
{'loss': 0.1574, 'grad_norm': 2.205763578414917, 'learning_rate': 8.759999999999999e-06, 'epoch': 18.99}
{'loss': 0.193, 'grad_norm': 1.3986011743545532, 'learning_rate': 8.763e-06, 'epoch': 18.99}
{'loss': 0.1418, 'grad_norm': 3.264782428741455, 'learning_rate': 8.766e-06, 'epoch': 19.0}
  3%|▎         | 2927/100000 [1:46:15<175:56:45,  6.53s/it]                                                             3%|▎         | 2927/100000 [1:46:15<175:56:45,  6.53s/it]  3%|▎         | 2928/100000 [1:46:23<190:57:47,  7.08s/it]                                                             3%|▎         | 2928/100000 [1:46:23<190:57:47,  7.08s/it]  3%|▎         | 2929/100000 [1:46:29<180:43:12,  6.70s/it]                                                             3%|▎         | 2929/100000 [1:46:29<180:43:12,  6.70s/it]  3%|▎         | 2930/100000 [1:46:34<165:24:28,  6.13s/it]                                                             3%|▎         | 2930/100000 [1:46:34<165:24:28,  6.13s/it]  3%|▎         | 2931/100000 [1:46:38<148:13:42,  5.50s/it]                                                             3%|▎         | 2931/100000 [1:46:38<148:13:42,  5.50s/it]  3%|▎         | 2932/100000 [1:46:41<131:54:35,  4.89s/it]                                                             3%|▎         | 2932/100000 [1:46:41<131:54:35,  4.89s/it]  3%|▎         | 2933/100000 [1:46:45<118:38:38,  4.40s/it]                                                             3%|▎         | 2933/100000 [1:46:45<118:38:38,  4.40s/it]  3%|▎         | 2934/100000 [1:46:47<105:40:15,  3.92s/it]                                                             3%|▎         | 2934/100000 [1:46:47<105:40:15,  3.92s/it]  3%|▎         | 2935/100000 [1:46:50<93:19:11,  3.46s/it]                                                             3%|▎         | 2935/100000 [1:46:50<93:19:11,  3.46s/it]  3%|▎         | 2936/100000 [1:46:52<82:46:11,  3.07s/it]                                                            3%|▎         | 2936/100000 [1:46:52<82:46:11,  3.07s/it]  3%|▎         | 2937/100000 [1:46:54<73:52:04,  2.74s/it]                                                            3%|▎         | 2937/100000 [1:46:54<73:52:04,  2.74s/it]  3%|▎         | 2938/100000 [1:46:56<66:32:03,  2.47s/it]                                                            3%|▎         | 2938/100000 [1:46:56<66:32:03,  2.47s/it]  3%|▎         | 2939/100000 [1:46:57<60:24:35,  2.24s/it]                                                            3%|▎         | 2939/100000 [1:46:58<60:24:35,  2.24s/it]  3%|▎         | 2940/100000 [1:46:59<55:23:31,  2.05s/it]                                                            3%|▎         | 2940/100000 [1:46:59<55:23:31,  2.05s/it]  3%|▎         | 2941/100000 [1:47:01<51:15:54,  1.90s/it]                                                            3%|▎         | 2941/100000 [1:47:01<51:15:54,  1.90s/it]  3%|▎         | 2942/100000 [1:47:02<47:33:01,  1.76s/it]                                                            3%|▎         | 2942/100000 [1:47:02<47:33:01,  1.76s/it]  3%|▎         | 2943/100000 [1:47:03<44:25:25,  1.65s/it]                                                            3%|▎         | 2943/100000 [1:47:03<44:25:25,  1.65s/it]  3%|▎         | 2944/100000 [1:47:05<41:52:39,  1.55s/it]                                                            3%|▎         | 2944/100000 [1:47:05<41:52:39,  1.55s/it]  3%|▎         | 2945/100000 [1:47:06<39:26:35,  1.46s/it]                                                            3%|▎         | 2945/100000 [1:47:06<39:26:35,  1.46s/it]  3%|▎         | 2946/100000 [1:47:07<37:40:02,  1.40s/it]                                                            3%|▎         | 2946/100000 [1:47:07<37:40:02,  1.40s/it]  3%|▎         | 2947/100000 [1:47:08<35:36:13,  1.32s/it]                                                            3%|▎         | 2947/100000 [1:47:08<35:36:13,  1.32s/it]  3%|▎         | 2948/100000 [1:47:10<34:00:40,  1.26s/it]                                                            3%|▎         | 2948/100000 [1:47:10<34:00:40,  1.26s/it]  3%|▎         | 2949/100000 [1:47:11<32:35:59,  1.21s/it]                                                            3%|▎         | 2949/100000 [1:47:11<32:35:59,  1.21s/it]  3%|▎         | 2950/100000 [1:47:12<31:04:46,  1.15s/it]                                                            3%|▎         | 2950/100000 [1:47:12<31:04:46,  1.15s/it]  3%|▎         | 2951/100000 [1:47:13<29:27:12,  1.09s/it]                                                            3%|▎         | 2951/100000 [1:47:13<29:27:12,  1.09s/it]  3%|▎         | 2952/100000 [1:47:14<28:11:05,  1.05s/it]                                                            3%|▎         | 2952/100000 [1:47:14<28:11:05,  1.05s/it]  3%|▎         | 2953/100000 [1:47:14<27:04:40,  1.00s/it]                                                            3%|▎         | 2953/100000 [1:47:14<27:04:40,  1.00s/it]  3%|▎         | 2954/100000 [1:47:15<26:25:28,  1.02it/s]                                                            3%|▎         | 2954/100000 [1:47:15<26:25:28,  1.02it/s]  3%|▎         | 2955/100000 [1:47:16<26:01:59,  1.04it/s]                                                            3%|▎         | 2955/100000 [1:47:16<26:01:59,  1.04it/s]  3%|▎         | 2956/100000 [1:47:17<25:18:34,  1.07it/s]                                                            3%|▎         | 2956/100000 [1:47:17<25:18:34,  1.07it/s]  3%|▎         | 2957/100000 [1:47:18<24:57:52,  1.08it/s]                                                            3%|▎         | 2957/100000 [1:47:18<24:57:52,  1.08it/s]  3%|▎         | 2958/100000 [1:47:19<24:13:54,  1.11it/s]                                                            3%|▎         | 2958/100000 [1:47:19<24:13:54,  1.11it/s]  3%|▎         | 2959/100000 [1:47:20<23:40:25,  1.14it/s]                                                            3%|▎         | 2959/100000 [1:47:20<23:40:25,  1.14it/s]  3%|▎         | 2960/100000 [1:47:21<22:50:34,  1.18it/s]                                                            3%|▎         | 2960/100000 [1:47:21<22:50:34,  1.18it/s]  3%|▎         | 2961/100000 [1:47:21<21:52:25,  1.23it/s]                                                            3%|▎         | 2961/100000 [1:47:21<21:52:25,  1.23it/s]  3%|▎         | 2962/100000 [1:47:22<20:50:05,  1.29it/s]                                                            3%|▎         | 2962/100000 [1:47:22<20:50:05,  1.29it/s]  3%|▎         | 2963/100000 [1:47:23<19:50:31,  1.36it/s]                                                            3%|▎         | 2963/100000 [1:47:23<19:50:31,  1.36it/s]  3%|▎         | 2964/100000 [1:47:23<19:00:43,  1.42it/s]                                                            3%|▎         | 2964/100000 [1:47:23<19:00:43,  1.42it/s]  3%|▎         | 2965/100000 [1:47:36<118:18:54,  4.39s/it]                                                             3%|▎         | 2965/100000 [1:47:36<118:18:54,  4.39s/it]  3%|▎         | 2966/100000 [1:47:44<145:40:48,  5.40s/it]                                                             3%|▎         | 2966/100000 [1:47:44<145:40:48,  5.40s/it]  3%|▎         | 2967/100000 [1:47:49<145:53:25,  5.41s/it]                                                             3%|▎         | 2967/100000 [1:47:49<145:53:25,  5.41s/it]  3%|▎         | 2968/100000 [1:47:54<136:49:34,  5.08s/it]                                                             3%|▎         | 2968/100000 [1:47:54<136:49:34,  5.08s/it]  3%|▎         | 2969/100000 [1:47:58<127:59:45,  4.75s/it]                                                             3%|▎         | 2969/100000 [1:47:58<127:59:45,  4.75s/it]  3%|▎         | 2970/100000 [1:48:01<117:53:14,  4.37s/it]                                                             3%|▎         | 2970/100000 [1:48:01<117:53:14,  4.37s/it]  3%|▎         | 2971/100000 [1:48:04<107:03:20,  3.97s/it]                                                             3%|▎         | 2971/100000 [1:48:04<107:03:20,  3.97s/it]  3%|▎         | 2972/100000 [1:48:07<95:58:27,  3.56s/it]                                                             3%|▎         | 2972/100000 [1:48:07<95:58:27,  3.56s/it]  3%|▎         | 2973/100000 [1:48:09<86:02:44,  3.19s/it]                                                            3%|▎         | 2973/100000 [1:48:09<86:02:44,  3.19s/it]  3%|▎         | 2974/100000 [1:48:11<77:41:57,  2.88s/it]                                                            3%|▎         | 2974/100000 [1:48:11<77:41:57,  2.88s/it]  3%|▎         | 2975/100000 [1:48:13<70:49:20,  2.63s/it]                                                            3%|▎         | 2975/100000 [1:48:13<70:49:20,  2.63s/it]  3%|▎         | 2976/100000 [1:48:15<64:53:10,  2.41s/it]                                                            3%|▎         | 2976/100000 [1:48:15<64:53:10,  2.41s/it]  3%|▎         | 2977/100000 [1:48:17<59:52:55,  2.22s/it]                                                            3%|▎         | 2977/100000 [1:48:17<59:52:55,  2.22s/it]  3%|▎         | 2978/100000 [1:48:19<55:07:29,  2.05s/it]                                                            3%|▎         | 2978/100000 [1:48:19<55:07:29,  2.05s/it]  3%|▎         | 2979/100000 [1:48:20<51:16:24,  1.90s/it]                                                            3%|▎         | 2979/100000 [1:48:20<51:16:24,  1.90s/it]  3%|▎         | 2980/100000 [1:48:22<48:01:24,  1.78s/it]                                                            3%|▎         | 2980/100000 [1:48:22<48:01:24,  1.78s/it]  3%|▎         | 2981/100000 [1:48:23<45:13:10,  1.68s/it]                                                            3%|▎         | 2981/100000 [1:48:23<45:13:10,  1.68s/it]  3%|▎         | 2982/100000 [1:48:25<42:32:58,  1.58s/it]                                                            3%|▎         | 2982/100000 [1:48:25<42:32:58,  1.58s/it]  3%|▎         | 2983/100000 [1:48:26<40:27:38,  1.50s/it]                                                            3%|▎         | 2983/100000 [1:48:26<40:27:38,  1.50s/it]  3%|▎         | 2984/100000 [1:48:27<38:33:14,  1.43s/it]                                                            3%|▎         | 2984/100000 [1:48:27<38:33:14,  1.43s/it]  3%|▎         | 2985/100000 [1:48:28<36:36:22,  1.36s/it]                                                            3%|▎         | 2985/100000 [1:48:28<36:36:22,  1.36s/it]  3%|▎         | 2986/100000 [1:48:29<34:22:53,  1.28s/it]                                                            3%|▎         | 2986/100000 [1:48:29<34:22:53,  1.28s/it]  3%|▎         | 2987/100000 [1:48:30<32:48:17,  1.22s/it]                                                            3%|▎         | 2987/100000 [1:48:30<32:48:17,  1.22s/it]  3%|▎         | 2988/100000 [1:48:32<31:26:46,  1.17s/it]                                                            3%|▎         | 2988/100000 [1:48:32<31:26:46,  1.17s/it]  3%|▎         | 2989/100000 [1:48:32<29:48:29,  1.11s/it]                                                            3%|▎         | 2989/100000 [1:48:33<29:48:29,  1.11s/it]  3%|▎         | 2990/100000 [1:48:33<28:18:27,  1.05s/it]                                                            3%|▎         | 2990/100000 [1:48:33<28:18:27,  1.05s/it]  3%|▎         | 2991/100000 [1:48:34<27:47:02,  1.03s/it]                                                            3%|▎         | 2991/100000 [1:48:34<27:47:02,  1.03s/it]  3%|▎         | 2992/100000 [1:48:35<26:45:50,  1.01it/s]                                                            3%|▎         | 2992/100000 [1:48:35<26:45:50,  1.01it/s]  3%|▎         | 2993/100000 [1:48:36<26:13:10,  1.03it/s]                                                            3%|▎         | 2993/100000 [1:48:36<26:13:10,  1.03it/s]  3%|▎         | 2994/100000 [1:48:37<25:21:17,  1.06it/s]                                                            3%|▎         | 2994/100000 [1:48:37<25:21:17,  1.06it/s]  3%|▎         | 2995/100000 [1:48:38<24:32:10,  1.10it/s]                                                            3%|▎         | 2995/100000 [1:48:38<24:32:10,  1.10it/s]  3%|▎         | 2996/100000 [1:48:39<23:28:17,  1.15it/s]                                                            3%|▎         | 2996/100000 [1:48:39<23:28:17,  1.15it/s]  3%|▎         | 2997/100000 [1:48:39<22:20:25,  1.21it/s]                                                            3%|▎         | 2997/100000 [1:48:39<22:20:25,  1.21it/s]  3%|▎         | 2998/100000 [1:48:40<21:42:52,  1.24it/s]                                                            3%|▎         | 2998/100000 [1:48:40<21:42:52,  1.24it/s]  3%|▎         | 2999/100000 [1:48:41<20:56:04,  1.29it/s]                                                            3%|▎         | 2999/100000 [1:48:41<20:56:04,  1.29it/s]  3%|▎         | 3000/100000 [1:48:42<20:19:53,  1.33it/s]                                                            3%|▎         | 3000/100000 [1:48:42<20:19:53,  1.33it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 0.3647, 'grad_norm': 1.5651752948760986, 'learning_rate': 8.769e-06, 'epoch': 19.01}
{'loss': 0.3588, 'grad_norm': 1.2140895128250122, 'learning_rate': 8.772e-06, 'epoch': 19.01}
{'loss': 0.2263, 'grad_norm': 0.7440964579582214, 'learning_rate': 8.775e-06, 'epoch': 19.02}
{'loss': 0.2744, 'grad_norm': 1.238021731376648, 'learning_rate': 8.778000000000001e-06, 'epoch': 19.03}
{'loss': 0.2601, 'grad_norm': 4.581676006317139, 'learning_rate': 8.781000000000001e-06, 'epoch': 19.03}
{'loss': 0.2186, 'grad_norm': 1.0808987617492676, 'learning_rate': 8.784000000000001e-06, 'epoch': 19.04}
{'loss': 0.1841, 'grad_norm': 0.9690039157867432, 'learning_rate': 8.787e-06, 'epoch': 19.05}
{'loss': 0.1702, 'grad_norm': 0.748027503490448, 'learning_rate': 8.79e-06, 'epoch': 19.05}
{'loss': 0.19, 'grad_norm': 1.6565662622451782, 'learning_rate': 8.793e-06, 'epoch': 19.06}
{'loss': 0.1503, 'grad_norm': 0.8068071007728577, 'learning_rate': 8.796e-06, 'epoch': 19.06}
{'loss': 0.1485, 'grad_norm': 0.9905916452407837, 'learning_rate': 8.799e-06, 'epoch': 19.07}
{'loss': 0.1578, 'grad_norm': 1.0378284454345703, 'learning_rate': 8.802e-06, 'epoch': 19.08}
{'loss': 0.1257, 'grad_norm': 1.0289119482040405, 'learning_rate': 8.805e-06, 'epoch': 19.08}
{'loss': 0.1242, 'grad_norm': 1.0588781833648682, 'learning_rate': 8.808000000000001e-06, 'epoch': 19.09}
{'loss': 0.1301, 'grad_norm': 0.8475202918052673, 'learning_rate': 8.811000000000001e-06, 'epoch': 19.1}
{'loss': 0.136, 'grad_norm': 1.1041858196258545, 'learning_rate': 8.814e-06, 'epoch': 19.1}
{'loss': 0.1341, 'grad_norm': 0.9358364343643188, 'learning_rate': 8.817e-06, 'epoch': 19.11}
{'loss': 0.1032, 'grad_norm': 0.8602147102355957, 'learning_rate': 8.82e-06, 'epoch': 19.12}
{'loss': 0.1191, 'grad_norm': 1.0433942079544067, 'learning_rate': 8.823e-06, 'epoch': 19.12}
{'loss': 0.1146, 'grad_norm': 1.0460293292999268, 'learning_rate': 8.826000000000002e-06, 'epoch': 19.13}
{'loss': 0.165, 'grad_norm': 1.1769609451293945, 'learning_rate': 8.829e-06, 'epoch': 19.14}
{'loss': 0.1469, 'grad_norm': 1.4135959148406982, 'learning_rate': 8.832e-06, 'epoch': 19.14}
{'loss': 0.1465, 'grad_norm': 1.2648584842681885, 'learning_rate': 8.835e-06, 'epoch': 19.15}
{'loss': 0.1458, 'grad_norm': 1.3666757345199585, 'learning_rate': 8.837999999999999e-06, 'epoch': 19.16}
{'loss': 0.2217, 'grad_norm': 1.2751774787902832, 'learning_rate': 8.841e-06, 'epoch': 19.16}
{'loss': 0.0776, 'grad_norm': 1.0427119731903076, 'learning_rate': 8.844e-06, 'epoch': 19.17}
{'loss': 0.1088, 'grad_norm': 2.350773334503174, 'learning_rate': 8.847e-06, 'epoch': 19.18}
{'loss': 0.221, 'grad_norm': 2.474271059036255, 'learning_rate': 8.85e-06, 'epoch': 19.18}
{'loss': 0.1358, 'grad_norm': 1.8804064989089966, 'learning_rate': 8.853e-06, 'epoch': 19.19}
{'loss': 0.1229, 'grad_norm': 2.8384029865264893, 'learning_rate': 8.856000000000001e-06, 'epoch': 19.19}
{'loss': 0.152, 'grad_norm': 1.7812129259109497, 'learning_rate': 8.859000000000001e-06, 'epoch': 19.2}
{'loss': 0.165, 'grad_norm': 1.537888765335083, 'learning_rate': 8.862000000000001e-06, 'epoch': 19.21}
{'loss': 0.1201, 'grad_norm': 1.4845961332321167, 'learning_rate': 8.864999999999999e-06, 'epoch': 19.21}
{'loss': 0.139, 'grad_norm': 1.8111463785171509, 'learning_rate': 8.867999999999999e-06, 'epoch': 19.22}
{'loss': 0.1774, 'grad_norm': 2.127880811691284, 'learning_rate': 8.871e-06, 'epoch': 19.23}
{'loss': 0.1382, 'grad_norm': 1.3971081972122192, 'learning_rate': 8.874e-06, 'epoch': 19.23}
{'loss': 0.1076, 'grad_norm': 1.7773327827453613, 'learning_rate': 8.877e-06, 'epoch': 19.24}
{'loss': 0.2095, 'grad_norm': 2.9105117321014404, 'learning_rate': 8.88e-06, 'epoch': 19.25}
{'loss': 0.3616, 'grad_norm': 1.9834933280944824, 'learning_rate': 8.883e-06, 'epoch': 19.25}
{'loss': 0.3096, 'grad_norm': 1.167304277420044, 'learning_rate': 8.886000000000001e-06, 'epoch': 19.26}
{'loss': 0.2801, 'grad_norm': 1.1804405450820923, 'learning_rate': 8.889e-06, 'epoch': 19.27}
{'loss': 0.2512, 'grad_norm': 1.0303324460983276, 'learning_rate': 8.892e-06, 'epoch': 19.27}
{'loss': 0.2156, 'grad_norm': 1.0995891094207764, 'learning_rate': 8.895e-06, 'epoch': 19.28}
{'loss': 0.2336, 'grad_norm': 1.350464940071106, 'learning_rate': 8.898e-06, 'epoch': 19.29}
{'loss': 0.1844, 'grad_norm': 1.4132683277130127, 'learning_rate': 8.901e-06, 'epoch': 19.29}
{'loss': 0.2024, 'grad_norm': 1.2273989915847778, 'learning_rate': 8.904e-06, 'epoch': 19.3}
{'loss': 0.1886, 'grad_norm': 0.9862478971481323, 'learning_rate': 8.907e-06, 'epoch': 19.31}
{'loss': 0.1504, 'grad_norm': 0.6944125294685364, 'learning_rate': 8.91e-06, 'epoch': 19.31}
{'loss': 0.1775, 'grad_norm': 1.1092177629470825, 'learning_rate': 8.913e-06, 'epoch': 19.32}
{'loss': 0.1622, 'grad_norm': 1.0928407907485962, 'learning_rate': 8.916e-06, 'epoch': 19.32}
{'loss': 0.1489, 'grad_norm': 1.0837548971176147, 'learning_rate': 8.919e-06, 'epoch': 19.33}
{'loss': 0.1165, 'grad_norm': 0.9228740930557251, 'learning_rate': 8.922e-06, 'epoch': 19.34}
{'loss': 0.1666, 'grad_norm': 0.8595899343490601, 'learning_rate': 8.925e-06, 'epoch': 19.34}
{'loss': 0.1629, 'grad_norm': 1.3290354013442993, 'learning_rate': 8.928e-06, 'epoch': 19.35}
{'loss': 0.1259, 'grad_norm': 0.868971586227417, 'learning_rate': 8.931000000000001e-06, 'epoch': 19.36}
{'loss': 0.1459, 'grad_norm': 1.3325541019439697, 'learning_rate': 8.934000000000001e-06, 'epoch': 19.36}
{'loss': 0.0923, 'grad_norm': 0.8690565824508667, 'learning_rate': 8.937000000000001e-06, 'epoch': 19.37}
{'loss': 0.1074, 'grad_norm': 1.0924419164657593, 'learning_rate': 8.939999999999999e-06, 'epoch': 19.38}
{'loss': 0.1417, 'grad_norm': 0.888877272605896, 'learning_rate': 8.942999999999999e-06, 'epoch': 19.38}
{'loss': 0.1224, 'grad_norm': 1.566409945487976, 'learning_rate': 8.946e-06, 'epoch': 19.39}
{'loss': 0.1157, 'grad_norm': 0.949775755405426, 'learning_rate': 8.949e-06, 'epoch': 19.4}
{'loss': 0.1132, 'grad_norm': 0.8889673352241516, 'learning_rate': 8.952e-06, 'epoch': 19.4}
{'loss': 0.1541, 'grad_norm': 1.0470085144042969, 'learning_rate': 8.955e-06, 'epoch': 19.41}
{'loss': 0.1526, 'grad_norm': 1.1978886127471924, 'learning_rate': 8.958e-06, 'epoch': 19.42}
{'loss': 0.1327, 'grad_norm': 1.7644293308258057, 'learning_rate': 8.961000000000001e-06, 'epoch': 19.42}
{'loss': 0.1665, 'grad_norm': 1.761497139930725, 'learning_rate': 8.964000000000001e-06, 'epoch': 19.43}
{'loss': 0.2114, 'grad_norm': 3.353592872619629, 'learning_rate': 8.967e-06, 'epoch': 19.44}
{'loss': 0.1656, 'grad_norm': 1.6220953464508057, 'learning_rate': 8.97e-06, 'epoch': 19.44}
{'loss': 0.0964, 'grad_norm': 2.8994386196136475, 'learning_rate': 8.973e-06, 'epoch': 19.45}
{'loss': 0.1121, 'grad_norm': 1.3025580644607544, 'learning_rate': 8.976e-06, 'epoch': 19.45}
{'loss': 0.0999, 'grad_norm': 1.2922786474227905, 'learning_rate': 8.979e-06, 'epoch': 19.46}
{'loss': 0.1299, 'grad_norm': 1.654710292816162, 'learning_rate': 8.982e-06, 'epoch': 19.47}
{'loss': 0.1328, 'grad_norm': 1.7203947305679321, 'learning_rate': 8.985e-06, 'epoch': 19.47}
{'loss': 0.1497, 'grad_norm': 1.644555687904358, 'learning_rate': 8.988e-06, 'epoch': 19.48}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:01<00:01,  1.46it/s][A
 75%|███████▌  | 3/4 [00:02<00:01,  1.07s/it][A
100%|██████████| 4/4 [00:03<00:00,  1.28it/s][A                                                          
                                             [A  3%|▎         | 3000/100000 [1:48:54<20:19:53,  1.33it/s]
100%|██████████| 4/4 [00:03<00:00,  1.28it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-3000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-3000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-3000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-3000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-3000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-3000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-3000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-1000] due to args.save_total_limit
  3%|▎         | 3001/100000 [1:49:09<233:33:32,  8.67s/it]                                                             3%|▎         | 3001/100000 [1:49:09<233:33:32,  8.67s/it]  3%|▎         | 3002/100000 [1:49:09<169:09:13,  6.28s/it]                                                             3%|▎         | 3002/100000 [1:49:09<169:09:13,  6.28s/it]  3%|▎         | 3003/100000 [1:49:22<218:21:10,  8.10s/it]                                                             3%|▎         | 3003/100000 [1:49:22<218:21:10,  8.10s/it]  3%|▎         | 3004/100000 [1:49:29<213:51:04,  7.94s/it]                                                             3%|▎         | 3004/100000 [1:49:29<213:51:04,  7.94s/it]  3%|▎         | 3005/100000 [1:49:35<193:15:50,  7.17s/it]                                                             3%|▎         | 3005/100000 [1:49:35<193:15:50,  7.17s/it]  3%|▎         | 3006/100000 [1:49:39<172:04:07,  6.39s/it]                                                             3%|▎         | 3006/100000 [1:49:39<172:04:07,  6.39s/it]  3%|▎         | 3007/100000 [1:49:43<151:41:38,  5.63s/it]                                                             3%|▎         | 3007/100000 [1:49:43<151:41:38,  5.63s/it]  3%|▎         | 3008/100000 [1:49:47<133:13:51,  4.95s/it]                                                             3%|▎         | 3008/100000 [1:49:47<133:13:51,  4.95s/it]  3%|▎         | 3009/100000 [1:49:49<116:21:48,  4.32s/it]                                                             3%|▎         | 3009/100000 [1:49:49<116:21:48,  4.32s/it]  3%|▎         | 3010/100000 [1:49:52<101:40:26,  3.77s/it]                                                             3%|▎         | 3010/100000 [1:49:52<101:40:26,  3.77s/it]  3%|▎         | 3011/100000 [1:49:54<89:00:58,  3.30s/it]                                                             3%|▎         | 3011/100000 [1:49:54<89:00:58,  3.30s/it]  3%|▎         | 3012/100000 [1:49:56<79:00:28,  2.93s/it]                                                            3%|▎         | 3012/100000 [1:49:56<79:00:28,  2.93s/it]  3%|▎         | 3013/100000 [1:49:58<70:38:46,  2.62s/it]                                                            3%|▎         | 3013/100000 [1:49:58<70:38:46,  2.62s/it]  3%|▎         | 3014/100000 [1:50:00<64:15:15,  2.39s/it]                                                            3%|▎         | 3014/100000 [1:50:00<64:15:15,  2.39s/it]  3%|▎         | 3015/100000 [1:50:02<58:27:44,  2.17s/it]                                                            3%|▎         | 3015/100000 [1:50:02<58:27:44,  2.17s/it]  3%|▎         | 3016/100000 [1:50:03<54:02:37,  2.01s/it]                                                            3%|▎         | 3016/100000 [1:50:03<54:02:37,  2.01s/it]  3%|▎         | 3017/100000 [1:50:05<50:25:30,  1.87s/it]                                                            3%|▎         | 3017/100000 [1:50:05<50:25:30,  1.87s/it]  3%|▎         | 3018/100000 [1:50:06<47:05:19,  1.75s/it]                                                            3%|▎         | 3018/100000 [1:50:06<47:05:19,  1.75s/it]  3%|▎         | 3019/100000 [1:50:08<44:13:19,  1.64s/it]                                                            3%|▎         | 3019/100000 [1:50:08<44:13:19,  1.64s/it]  3%|▎         | 3020/100000 [1:50:09<41:54:37,  1.56s/it]                                                            3%|▎         | 3020/100000 [1:50:09<41:54:37,  1.56s/it]  3%|▎         | 3021/100000 [1:50:10<39:44:46,  1.48s/it]                                                            3%|▎         | 3021/100000 [1:50:10<39:44:46,  1.48s/it]  3%|▎         | 3022/100000 [1:50:11<37:44:29,  1.40s/it]                                                            3%|▎         | 3022/100000 [1:50:11<37:44:29,  1.40s/it]  3%|▎         | 3023/100000 [1:50:13<35:44:41,  1.33s/it]                                                            3%|▎         | 3023/100000 [1:50:13<35:44:41,  1.33s/it]  3%|▎         | 3024/100000 [1:50:14<34:04:40,  1.27s/it]                                                            3%|▎         | 3024/100000 [1:50:14<34:04:40,  1.27s/it]  3%|▎         | 3025/100000 [1:50:15<32:26:48,  1.20s/it]                                                            3%|▎         | 3025/100000 [1:50:15<32:26:48,  1.20s/it]  3%|▎         | 3026/100000 [1:50:16<32:20:22,  1.20s/it]                                                            3%|▎         | 3026/100000 [1:50:16<32:20:22,  1.20s/it]  3%|▎         | 3027/100000 [1:50:17<30:44:14,  1.14s/it]                                                            3%|▎         | 3027/100000 [1:50:17<30:44:14,  1.14s/it]  3%|▎         | 3028/100000 [1:50:18<29:39:20,  1.10s/it]                                                            3%|▎         | 3028/100000 [1:50:18<29:39:20,  1.10s/it]  3%|▎         | 3029/100000 [1:50:19<28:53:23,  1.07s/it]                                                            3%|▎         | 3029/100000 [1:50:19<28:53:23,  1.07s/it]  3%|▎         | 3030/100000 [1:50:20<27:44:13,  1.03s/it]                                                            3%|▎         | 3030/100000 [1:50:20<27:44:13,  1.03s/it]  3%|▎         | 3031/100000 [1:50:21<26:58:45,  1.00s/it]                                                            3%|▎         | 3031/100000 [1:50:21<26:58:45,  1.00s/it]  3%|▎         | 3032/100000 [1:50:22<25:47:25,  1.04it/s]                                                            3%|▎         | 3032/100000 [1:50:22<25:47:25,  1.04it/s]  3%|▎         | 3033/100000 [1:50:23<24:43:12,  1.09it/s]                                                            3%|▎         | 3033/100000 [1:50:23<24:43:12,  1.09it/s]  3%|▎         | 3034/100000 [1:50:23<24:11:16,  1.11it/s]                                                            3%|▎         | 3034/100000 [1:50:23<24:11:16,  1.11it/s]  3%|▎         | 3035/100000 [1:50:24<23:24:28,  1.15it/s]                                                            3%|▎         | 3035/100000 [1:50:24<23:24:28,  1.15it/s]  3%|▎         | 3036/100000 [1:50:25<22:47:23,  1.18it/s]                                                            3%|▎         | 3036/100000 [1:50:25<22:47:23,  1.18it/s]  3%|▎         | 3037/100000 [1:50:26<22:25:58,  1.20it/s]                                                            3%|▎         | 3037/100000 [1:50:26<22:25:58,  1.20it/s]  3%|▎         | 3038/100000 [1:50:27<21:49:21,  1.23it/s]                                                            3%|▎         | 3038/100000 [1:50:27<21:49:21,  1.23it/s]  3%|▎         | 3039/100000 [1:50:27<21:20:30,  1.26it/s]                                                            3%|▎         | 3039/100000 [1:50:27<21:20:30,  1.26it/s]  3%|▎         | 3040/100000 [1:50:28<20:32:23,  1.31it/s]                                                            3%|▎         | 3040/100000 [1:50:28<20:32:23,  1.31it/s]  3%|▎         | 3041/100000 [1:50:40<108:06:57,  4.01s/it]                                                             3%|▎         | 3041/100000 [1:50:40<108:06:57,  4.01s/it]  3%|▎         | 3042/100000 [1:50:48<141:31:07,  5.25s/it]                                                             3%|▎         | 3042/100000 [1:50:48<141:31:07,  5.25s/it]  3%|▎         | 3043/100000 [1:50:53<144:23:31,  5.36s/it]                                                             3%|▎         | 3043/100000 [1:50:53<144:23:31,  5.36s/it]  3%|▎         | 3044/100000 [1:50:58<138:23:32,  5.14s/it]                                                             3%|▎         | 3044/100000 [1:50:58<138:23:32,  5.14s/it]  3%|▎         | 3045/100000 [1:51:02<129:07:00,  4.79s/it]                                                             3%|▎         | 3045/100000 [1:51:02<129:07:00,  4.79s/it]  3%|▎         | 3046/100000 [1:51:05<117:44:28,  4.37s/it]                                                             3%|▎         | 3046/100000 [1:51:05<117:44:28,  4.37s/it]  3%|▎         | 3047/100000 [1:51:08<107:33:27,  3.99s/it]                                                             3%|▎         | 3047/100000 [1:51:08<107:33:27,  3.99s/it]  3%|▎         | 3048/100000 [1:51:11<97:31:08,  3.62s/it]                                                             3%|▎         | 3048/100000 [1:51:11<97:31:08,  3.62s/it]  3%|▎         | 3049/100000 [1:51:14<87:43:40,  3.26s/it]                                                            3%|▎         | 3049/100000 [1:51:14<87:43:40,  3.26s/it]  3%|▎         | 3050/100000 [1:51:16<79:03:14,  2.94s/it]                                                            3%|▎         | 3050/100000 [1:51:16<79:03:14,  2.94s/it]  3%|▎         | 3051/100000 [1:51:18<71:23:17,  2.65s/it]                                                            3%|▎         | 3051/100000 [1:51:18<71:23:17,  2.65s/it]  3%|▎         | 3052/100000 [1:51:20<64:48:24,  2.41s/it]                                                            3%|▎         | 3052/100000 [1:51:20<64:48:24,  2.41s/it]  3%|▎         | 3053/100000 [1:51:21<58:52:22,  2.19s/it]                                                            3%|▎         | 3053/100000 [1:51:21<58:52:22,  2.19s/it]  3%|▎         | 3054/100000 [1:51:23<54:15:59,  2.02s/it]                                                            3%|▎         | 3054/100000 [1:51:23<54:15:59,  2.02s/it]  3%|▎         | 3055/100000 [1:51:24<50:44:11,  1.88s/it]                                                            3%|▎         | 3055/100000 [1:51:24<50:44:11,  1.88s/it]  3%|▎         | 3056/100000 [1:51:26<47:07:34,  1.75s/it]                                                            3%|▎         | 3056/100000 [1:51:26<47:07:34,  1.75s/it]  3%|▎         | 3057/100000 [1:51:27<44:27:15,  1.65s/it]                                                            3%|▎         | 3057/100000 [1:51:27<44:27:15,  1.65s/it]  3%|▎         | 3058/100000 [1:51:29<42:13:37,  1.57s/it]                                                            3%|▎         | 3058/100000 [1:51:29<42:13:37,  1.57s/it]  3%|▎         | 3059/100000 [1:51:30<39:49:50,  1.48s/it]                                                            3%|▎         | 3059/100000 [1:51:30<39:49:50,  1.48s/it]  3%|▎         | 3060/100000 [1:51:31<37:55:50,  1.41s/it]                                                            3%|▎         | 3060/100000 [1:51:31<37:55:50,  1.41s/it]  3%|▎         | 3061/100000 [1:51:32<35:51:14,  1.33s/it]                                                            3%|▎         | 3061/100000 [1:51:32<35:51:14,  1.33s/it]  3%|▎         | 3062/100000 [1:51:33<33:59:03,  1.26s/it]                                                            3%|▎         | 3062/100000 [1:51:33<33:59:03,  1.26s/it]  3%|▎         | 3063/100000 [1:51:35<32:21:51,  1.20s/it]                                                            3%|▎         | 3063/100000 [1:51:35<32:21:51,  1.20s/it]  3%|▎         | 3064/100000 [1:51:36<30:48:29,  1.14s/it]                                                            3%|▎         | 3064/100000 [1:51:36<30:48:29,  1.14s/it]  3%|▎         | 3065/100000 [1:51:37<29:11:29,  1.08s/it]                                                            3%|▎         | 3065/100000 [1:51:37<29:11:29,  1.08s/it]  3%|▎         | 3066/100000 [1:51:37<28:03:59,  1.04s/it]                                                            3%|▎         | 3066/100000 [1:51:37<28:03:59,  1.04s/it]  3%|▎         | 3067/100000 [1:51:38<26:59:40,  1.00s/it]                                                            3%|▎         | 3067/100000 [1:51:38<26:59:40,  1.00s/it]  3%|▎         | 3068/100000 [1:51:39<26:01:08,  1.03it/s]                                                            3%|▎         | 3068/100000 [1:51:39<26:01:08,  1.03it/s]  3%|▎         | 3069/100000 [1:51:40<25:19:36,  1.06it/s]                                                            3%|▎         | 3069/100000 [1:51:40<25:19:36,  1.06it/s]  3%|▎         | 3070/100000 [1:51:41<25:04:31,  1.07it/s]                                                            3%|▎         | 3070/100000 [1:51:41<25:04:31,  1.07it/s]  3%|▎         | 3071/100000 [1:51:42<23:50:22,  1.13it/s]                                                            3%|▎         | 3071/100000 [1:51:42<23:50:22,  1.13it/s]  3%|▎         | 3072/100000 [1:51:43<22:57:20,  1.17it/s]                                                            3%|▎         | 3072/100000 [1:51:43<22:57:20,  1.17it/s]  3%|▎         | 3073/100000 [1:51:43<22:37:35,  1.19it/s]                                                            3%|▎         | 3073/100000 [1:51:43<22:37:35,  1.19it/s]  3%|▎         | 3074/100000 [1:51:44<22:07:41,  1.22it/s]                                                            3%|▎         | 3074/100000 [1:51:44<22:07:41,  1.22it/s]  3%|▎         | 3075/100000 [1:51:45<21:07:41,  1.27it/s]                                                            3%|▎         | 3075/100000 [1:51:45<21:07:41,  1.27it/s]  3%|▎         | 3076/100000 [1:51:46<20:46:34,  1.30it/s]                                                            3%|▎         | 3076/100000 [1:51:46<20:46:34,  1.30it/s]  3%|▎         | 3077/100000 [1:51:46<20:00:58,  1.35it/s]                                                            3%|▎         | 3077/100000 [1:51:46<20:00:58,  1.35it/s]  3%|▎         | 3078/100000 [1:51:47<19:16:45,  1.40it/s]                                                            3%|▎         | 3078/100000 [1:51:47<19:16:45,  1.40it/s]  3%|▎         | 3079/100000 [1:51:55<80:24:40,  2.99s/it]                                                            3%|▎         | 3079/100000 [1:51:55<80:24:40,  2.99s/it]  3%|▎         | 3080/100000 [1:51:57<67:45:22,  2.52s/it]                                                            3%|▎         | 3080/100000 [1:51:57<67:45:22,  2.52s/it]{'eval_loss': 0.2913671135902405, 'eval_wer': 0.3350970017636684, 'eval_cer': 0.09790378282868846, 'eval_runtime': 8.0981, 'eval_samples_per_second': 12.472, 'eval_steps_per_second': 0.494, 'epoch': 19.48}
{'loss': 0.1331, 'grad_norm': 2.3183135986328125, 'learning_rate': 8.991e-06, 'epoch': 19.49}
{'loss': 0.1499, 'grad_norm': 3.3466947078704834, 'learning_rate': 8.994e-06, 'epoch': 19.49}
{'loss': 0.3857, 'grad_norm': 1.6530442237854004, 'learning_rate': 8.997e-06, 'epoch': 19.5}
{'loss': 0.3006, 'grad_norm': 1.1094768047332764, 'learning_rate': 9e-06, 'epoch': 19.51}
{'loss': 0.2723, 'grad_norm': 2.342850685119629, 'learning_rate': 9.003e-06, 'epoch': 19.51}
{'loss': 0.2708, 'grad_norm': 1.232318639755249, 'learning_rate': 9.006000000000002e-06, 'epoch': 19.52}
{'loss': 0.2496, 'grad_norm': 1.0473166704177856, 'learning_rate': 9.009000000000001e-06, 'epoch': 19.53}
{'loss': 0.2277, 'grad_norm': 1.0041851997375488, 'learning_rate': 9.012e-06, 'epoch': 19.53}
{'loss': 0.2314, 'grad_norm': 0.9180925488471985, 'learning_rate': 9.015e-06, 'epoch': 19.54}
{'loss': 0.1759, 'grad_norm': 2.061492681503296, 'learning_rate': 9.017999999999999e-06, 'epoch': 19.55}
{'loss': 0.1677, 'grad_norm': 1.1149365901947021, 'learning_rate': 9.021e-06, 'epoch': 19.55}
{'loss': 0.1738, 'grad_norm': 0.9466104507446289, 'learning_rate': 9.024e-06, 'epoch': 19.56}
{'loss': 0.1355, 'grad_norm': 0.8652827143669128, 'learning_rate': 9.027e-06, 'epoch': 19.56}
{'loss': 0.1934, 'grad_norm': 1.4584237337112427, 'learning_rate': 9.03e-06, 'epoch': 19.57}
{'loss': 0.152, 'grad_norm': 0.9560210108757019, 'learning_rate': 9.033e-06, 'epoch': 19.58}
{'loss': 0.14, 'grad_norm': 0.6975106000900269, 'learning_rate': 9.036000000000001e-06, 'epoch': 19.58}
{'loss': 0.1427, 'grad_norm': 0.7486621737480164, 'learning_rate': 9.039000000000001e-06, 'epoch': 19.59}
{'loss': 0.1341, 'grad_norm': 1.0831539630889893, 'learning_rate': 9.042e-06, 'epoch': 19.6}
{'loss': 0.1552, 'grad_norm': 1.4567073583602905, 'learning_rate': 9.045e-06, 'epoch': 19.6}
{'loss': 0.1514, 'grad_norm': 0.8653159141540527, 'learning_rate': 9.048e-06, 'epoch': 19.61}
{'loss': 0.1292, 'grad_norm': 1.1931759119033813, 'learning_rate': 9.051e-06, 'epoch': 19.62}
{'loss': 0.1468, 'grad_norm': 1.3196971416473389, 'learning_rate': 9.054e-06, 'epoch': 19.62}
{'loss': 0.151, 'grad_norm': 1.1662434339523315, 'learning_rate': 9.057e-06, 'epoch': 19.63}
{'loss': 0.1187, 'grad_norm': 1.2087147235870361, 'learning_rate': 9.06e-06, 'epoch': 19.64}
{'loss': 0.1343, 'grad_norm': 1.134976863861084, 'learning_rate': 9.063e-06, 'epoch': 19.64}
{'loss': 0.1793, 'grad_norm': 2.377988338470459, 'learning_rate': 9.066000000000001e-06, 'epoch': 19.65}
{'loss': 0.1193, 'grad_norm': 3.0181939601898193, 'learning_rate': 9.069e-06, 'epoch': 19.66}
{'loss': 0.1247, 'grad_norm': 1.9374488592147827, 'learning_rate': 9.072e-06, 'epoch': 19.66}
{'loss': 0.217, 'grad_norm': 1.8230639696121216, 'learning_rate': 9.075e-06, 'epoch': 19.67}
{'loss': 0.1424, 'grad_norm': 2.2338197231292725, 'learning_rate': 9.078e-06, 'epoch': 19.68}
{'loss': 0.1875, 'grad_norm': 1.965447187423706, 'learning_rate': 9.081000000000002e-06, 'epoch': 19.68}
{'loss': 0.1097, 'grad_norm': 1.2162946462631226, 'learning_rate': 9.084000000000001e-06, 'epoch': 19.69}
{'loss': 0.1285, 'grad_norm': 3.1977334022521973, 'learning_rate': 9.087e-06, 'epoch': 19.69}
{'loss': 0.1483, 'grad_norm': 1.530584692955017, 'learning_rate': 9.09e-06, 'epoch': 19.7}
{'loss': 0.1112, 'grad_norm': 1.2785191535949707, 'learning_rate': 9.093e-06, 'epoch': 19.71}
{'loss': 0.1183, 'grad_norm': 1.9061694145202637, 'learning_rate': 9.096e-06, 'epoch': 19.71}
{'loss': 0.1727, 'grad_norm': 1.902575135231018, 'learning_rate': 9.099e-06, 'epoch': 19.72}
{'loss': 0.169, 'grad_norm': 2.0365796089172363, 'learning_rate': 9.102e-06, 'epoch': 19.73}
{'loss': 0.1214, 'grad_norm': 1.6703457832336426, 'learning_rate': 9.105e-06, 'epoch': 19.73}
{'loss': 0.1746, 'grad_norm': 2.306424379348755, 'learning_rate': 9.108e-06, 'epoch': 19.74}
{'loss': 0.3784, 'grad_norm': 1.7980124950408936, 'learning_rate': 9.111000000000001e-06, 'epoch': 19.75}
{'loss': 0.3025, 'grad_norm': 1.436898112297058, 'learning_rate': 9.114000000000001e-06, 'epoch': 19.75}
{'loss': 0.2943, 'grad_norm': 1.5737143754959106, 'learning_rate': 9.117000000000001e-06, 'epoch': 19.76}
{'loss': 0.2424, 'grad_norm': 2.343031644821167, 'learning_rate': 9.12e-06, 'epoch': 19.77}
{'loss': 0.2568, 'grad_norm': 1.1188617944717407, 'learning_rate': 9.122999999999999e-06, 'epoch': 19.77}
{'loss': 0.1983, 'grad_norm': 1.0956255197525024, 'learning_rate': 9.126e-06, 'epoch': 19.78}
{'loss': 0.2449, 'grad_norm': 1.1568070650100708, 'learning_rate': 9.129e-06, 'epoch': 19.79}
{'loss': 0.2741, 'grad_norm': 1.5995557308197021, 'learning_rate': 9.132e-06, 'epoch': 19.79}
{'loss': 0.2538, 'grad_norm': 1.7022770643234253, 'learning_rate': 9.135e-06, 'epoch': 19.8}
{'loss': 0.2096, 'grad_norm': 0.9200720191001892, 'learning_rate': 9.138e-06, 'epoch': 19.81}
{'loss': 0.172, 'grad_norm': 1.1145797967910767, 'learning_rate': 9.141000000000001e-06, 'epoch': 19.81}
{'loss': 0.1415, 'grad_norm': 0.8672096133232117, 'learning_rate': 9.144000000000001e-06, 'epoch': 19.82}
{'loss': 0.2033, 'grad_norm': 0.9386470317840576, 'learning_rate': 9.147e-06, 'epoch': 19.82}
{'loss': 0.1554, 'grad_norm': 0.8059804439544678, 'learning_rate': 9.15e-06, 'epoch': 19.83}
{'loss': 0.1389, 'grad_norm': 0.7806958556175232, 'learning_rate': 9.153e-06, 'epoch': 19.84}
{'loss': 0.1247, 'grad_norm': 0.9691771268844604, 'learning_rate': 9.156000000000002e-06, 'epoch': 19.84}
{'loss': 0.1129, 'grad_norm': 0.9706665873527527, 'learning_rate': 9.159e-06, 'epoch': 19.85}
{'loss': 0.1537, 'grad_norm': 0.9972413778305054, 'learning_rate': 9.162e-06, 'epoch': 19.86}
{'loss': 0.1261, 'grad_norm': 0.870252251625061, 'learning_rate': 9.165e-06, 'epoch': 19.86}
{'loss': 0.167, 'grad_norm': 0.9489036798477173, 'learning_rate': 9.168e-06, 'epoch': 19.87}
{'loss': 0.1251, 'grad_norm': 1.0830656290054321, 'learning_rate': 9.171e-06, 'epoch': 19.88}
{'loss': 0.1843, 'grad_norm': 1.061104416847229, 'learning_rate': 9.174e-06, 'epoch': 19.88}
{'loss': 0.2274, 'grad_norm': 1.331343412399292, 'learning_rate': 9.177e-06, 'epoch': 19.89}
{'loss': 0.1622, 'grad_norm': 1.5114930868148804, 'learning_rate': 9.18e-06, 'epoch': 19.9}
{'loss': 0.1512, 'grad_norm': 1.586866855621338, 'learning_rate': 9.183e-06, 'epoch': 19.9}
{'loss': 0.1479, 'grad_norm': 1.5910621881484985, 'learning_rate': 9.186000000000001e-06, 'epoch': 19.91}
{'loss': 0.1267, 'grad_norm': 1.1707093715667725, 'learning_rate': 9.189000000000001e-06, 'epoch': 19.92}
{'loss': 0.115, 'grad_norm': 1.4391478300094604, 'learning_rate': 9.192000000000001e-06, 'epoch': 19.92}
{'loss': 0.1167, 'grad_norm': 1.2032818794250488, 'learning_rate': 9.195000000000001e-06, 'epoch': 19.93}
{'loss': 0.1144, 'grad_norm': 0.9545518159866333, 'learning_rate': 9.197999999999999e-06, 'epoch': 19.94}
{'loss': 0.1625, 'grad_norm': 1.6565296649932861, 'learning_rate': 9.200999999999999e-06, 'epoch': 19.94}
{'loss': 0.0999, 'grad_norm': 1.1804802417755127, 'learning_rate': 9.204e-06, 'epoch': 19.95}
{'loss': 0.1332, 'grad_norm': 1.8142642974853516, 'learning_rate': 9.207e-06, 'epoch': 19.95}
{'loss': 0.1464, 'grad_norm': 2.1756751537323, 'learning_rate': 9.21e-06, 'epoch': 19.96}
{'loss': 0.1177, 'grad_norm': 1.6463546752929688, 'learning_rate': 9.213e-06, 'epoch': 19.97}
{'loss': 0.1625, 'grad_norm': 1.7612358331680298, 'learning_rate': 9.216e-06, 'epoch': 19.97}
{'loss': 0.1584, 'grad_norm': 2.8979074954986572, 'learning_rate': 9.219000000000001e-06, 'epoch': 19.98}
{'loss': 0.2072, 'grad_norm': 3.2939164638519287, 'learning_rate': 9.222e-06, 'epoch': 19.99}
{'loss': 0.212, 'grad_norm': 1.1791863441467285, 'learning_rate': 9.225e-06, 'epoch': 19.99}
{'loss': 0.0994, 'grad_norm': 1.2176522016525269, 'learning_rate': 9.228e-06, 'epoch': 20.0}
  3%|▎         | 3081/100000 [1:52:15<193:03:02,  7.17s/it]                                                             3%|▎         | 3081/100000 [1:52:15<193:03:02,  7.17s/it]  3%|▎         | 3082/100000 [1:52:22<192:43:37,  7.16s/it]                                                             3%|▎         | 3082/100000 [1:52:22<192:43:37,  7.16s/it]  3%|▎         | 3083/100000 [1:52:27<175:53:20,  6.53s/it]                                                             3%|▎         | 3083/100000 [1:52:27<175:53:20,  6.53s/it]  3%|▎         | 3084/100000 [1:52:31<160:13:27,  5.95s/it]                                                             3%|▎         | 3084/100000 [1:52:31<160:13:27,  5.95s/it]  3%|▎         | 3085/100000 [1:52:36<144:52:10,  5.38s/it]                                                             3%|▎         | 3085/100000 [1:52:36<144:52:10,  5.38s/it]  3%|▎         | 3086/100000 [1:52:39<129:47:29,  4.82s/it]                                                             3%|▎         | 3086/100000 [1:52:39<129:47:29,  4.82s/it]  3%|▎         | 3087/100000 [1:52:42<115:30:18,  4.29s/it]                                                             3%|▎         | 3087/100000 [1:52:42<115:30:18,  4.29s/it]  3%|▎         | 3088/100000 [1:52:45<100:47:56,  3.74s/it]                                                             3%|▎         | 3088/100000 [1:52:45<100:47:56,  3.74s/it]  3%|▎         | 3089/100000 [1:52:47<89:30:32,  3.33s/it]                                                             3%|▎         | 3089/100000 [1:52:47<89:30:32,  3.33s/it]  3%|▎         | 3090/100000 [1:52:49<80:01:39,  2.97s/it]                                                            3%|▎         | 3090/100000 [1:52:49<80:01:39,  2.97s/it]  3%|▎         | 3091/100000 [1:52:51<72:12:21,  2.68s/it]                                                            3%|▎         | 3091/100000 [1:52:51<72:12:21,  2.68s/it]  3%|▎         | 3092/100000 [1:52:53<65:16:07,  2.42s/it]                                                            3%|▎         | 3092/100000 [1:52:53<65:16:07,  2.42s/it]  3%|▎         | 3093/100000 [1:52:55<59:06:07,  2.20s/it]                                                            3%|▎         | 3093/100000 [1:52:55<59:06:07,  2.20s/it]  3%|▎         | 3094/100000 [1:52:56<54:35:15,  2.03s/it]                                                            3%|▎         | 3094/100000 [1:52:56<54:35:15,  2.03s/it]  3%|▎         | 3095/100000 [1:52:58<50:45:46,  1.89s/it]                                                            3%|▎         | 3095/100000 [1:52:58<50:45:46,  1.89s/it]  3%|▎         | 3096/100000 [1:52:59<47:33:34,  1.77s/it]                                                            3%|▎         | 3096/100000 [1:52:59<47:33:34,  1.77s/it]  3%|▎         | 3097/100000 [1:53:01<44:28:42,  1.65s/it]                                                            3%|▎         | 3097/100000 [1:53:01<44:28:42,  1.65s/it]  3%|▎         | 3098/100000 [1:53:02<42:13:17,  1.57s/it]                                                            3%|▎         | 3098/100000 [1:53:02<42:13:17,  1.57s/it]  3%|▎         | 3099/100000 [1:53:03<39:56:20,  1.48s/it]                                                            3%|▎         | 3099/100000 [1:53:03<39:56:20,  1.48s/it]  3%|▎         | 3100/100000 [1:53:04<37:46:48,  1.40s/it]                                                            3%|▎         | 3100/100000 [1:53:04<37:46:48,  1.40s/it]  3%|▎         | 3101/100000 [1:53:06<35:51:56,  1.33s/it]                                                            3%|▎         | 3101/100000 [1:53:06<35:51:56,  1.33s/it]  3%|▎         | 3102/100000 [1:53:07<33:59:51,  1.26s/it]                                                            3%|▎         | 3102/100000 [1:53:07<33:59:51,  1.26s/it]  3%|▎         | 3103/100000 [1:53:08<32:12:58,  1.20s/it]                                                            3%|▎         | 3103/100000 [1:53:08<32:12:58,  1.20s/it]  3%|▎         | 3104/100000 [1:53:09<30:41:44,  1.14s/it]                                                            3%|▎         | 3104/100000 [1:53:09<30:41:44,  1.14s/it]  3%|▎         | 3105/100000 [1:53:10<29:12:50,  1.09s/it]                                                            3%|▎         | 3105/100000 [1:53:10<29:12:50,  1.09s/it]  3%|▎         | 3106/100000 [1:53:11<28:13:11,  1.05s/it]                                                            3%|▎         | 3106/100000 [1:53:11<28:13:11,  1.05s/it]  3%|▎         | 3107/100000 [1:53:12<27:27:41,  1.02s/it]                                                            3%|▎         | 3107/100000 [1:53:12<27:27:41,  1.02s/it]  3%|▎         | 3108/100000 [1:53:13<26:55:17,  1.00s/it]                                                            3%|▎         | 3108/100000 [1:53:13<26:55:17,  1.00s/it]  3%|▎         | 3109/100000 [1:53:14<26:04:46,  1.03it/s]                                                            3%|▎         | 3109/100000 [1:53:14<26:04:46,  1.03it/s]  3%|▎         | 3110/100000 [1:53:14<25:28:55,  1.06it/s]                                                            3%|▎         | 3110/100000 [1:53:14<25:28:55,  1.06it/s]  3%|▎         | 3111/100000 [1:53:15<24:57:05,  1.08it/s]                                                            3%|▎         | 3111/100000 [1:53:15<24:57:05,  1.08it/s]  3%|▎         | 3112/100000 [1:53:16<24:21:23,  1.10it/s]                                                            3%|▎         | 3112/100000 [1:53:16<24:21:23,  1.10it/s]  3%|▎         | 3113/100000 [1:53:17<23:46:55,  1.13it/s]                                                            3%|▎         | 3113/100000 [1:53:17<23:46:55,  1.13it/s]  3%|▎         | 3114/100000 [1:53:18<23:10:24,  1.16it/s]                                                            3%|▎         | 3114/100000 [1:53:18<23:10:24,  1.16it/s]  3%|▎         | 3115/100000 [1:53:19<22:28:17,  1.20it/s]                                                            3%|▎         | 3115/100000 [1:53:19<22:28:17,  1.20it/s]  3%|▎         | 3116/100000 [1:53:19<21:56:11,  1.23it/s]                                                            3%|▎         | 3116/100000 [1:53:19<21:56:11,  1.23it/s]  3%|▎         | 3117/100000 [1:53:20<20:45:48,  1.30it/s]                                                            3%|▎         | 3117/100000 [1:53:20<20:45:48,  1.30it/s]  3%|▎         | 3118/100000 [1:53:21<19:49:59,  1.36it/s]                                                            3%|▎         | 3118/100000 [1:53:21<19:49:59,  1.36it/s]  3%|▎         | 3119/100000 [1:53:32<103:22:09,  3.84s/it]                                                             3%|▎         | 3119/100000 [1:53:32<103:22:09,  3.84s/it]  3%|▎         | 3120/100000 [1:53:38<123:03:01,  4.57s/it]                                                             3%|▎         | 3120/100000 [1:53:38<123:03:01,  4.57s/it]  3%|▎         | 3121/100000 [1:53:43<126:33:05,  4.70s/it]                                                             3%|▎         | 3121/100000 [1:53:43<126:33:05,  4.70s/it]  3%|▎         | 3122/100000 [1:53:47<123:14:03,  4.58s/it]                                                             3%|▎         | 3122/100000 [1:53:47<123:14:03,  4.58s/it]  3%|▎         | 3123/100000 [1:53:51<115:52:24,  4.31s/it]                                                             3%|▎         | 3123/100000 [1:53:51<115:52:24,  4.31s/it]  3%|▎         | 3124/100000 [1:53:54<106:37:49,  3.96s/it]                                                             3%|▎         | 3124/100000 [1:53:54<106:37:49,  3.96s/it]  3%|▎         | 3125/100000 [1:53:57<97:07:32,  3.61s/it]                                                             3%|▎         | 3125/100000 [1:53:57<97:07:32,  3.61s/it]  3%|▎         | 3126/100000 [1:53:59<87:24:08,  3.25s/it]                                                            3%|▎         | 3126/100000 [1:53:59<87:24:08,  3.25s/it]  3%|▎         | 3127/100000 [1:54:01<78:21:40,  2.91s/it]                                                            3%|▎         | 3127/100000 [1:54:01<78:21:40,  2.91s/it]  3%|▎         | 3128/100000 [1:54:03<70:40:48,  2.63s/it]                                                            3%|▎         | 3128/100000 [1:54:03<70:40:48,  2.63s/it]  3%|▎         | 3129/100000 [1:54:05<64:54:02,  2.41s/it]                                                            3%|▎         | 3129/100000 [1:54:05<64:54:02,  2.41s/it]  3%|▎         | 3130/100000 [1:54:07<59:13:38,  2.20s/it]                                                            3%|▎         | 3130/100000 [1:54:07<59:13:38,  2.20s/it]  3%|▎         | 3131/100000 [1:54:09<54:49:32,  2.04s/it]                                                            3%|▎         | 3131/100000 [1:54:09<54:49:32,  2.04s/it]  3%|▎         | 3132/100000 [1:54:10<51:15:55,  1.91s/it]                                                            3%|▎         | 3132/100000 [1:54:10<51:15:55,  1.91s/it]  3%|▎         | 3133/100000 [1:54:12<47:58:12,  1.78s/it]                                                            3%|▎         | 3133/100000 [1:54:12<47:58:12,  1.78s/it]  3%|▎         | 3134/100000 [1:54:13<44:53:28,  1.67s/it]                                                            3%|▎         | 3134/100000 [1:54:13<44:53:28,  1.67s/it]  3%|▎         | 3135/100000 [1:54:15<42:29:40,  1.58s/it]                                                            3%|▎         | 3135/100000 [1:54:15<42:29:40,  1.58s/it]  3%|▎         | 3136/100000 [1:54:16<40:14:17,  1.50s/it]                                                            3%|▎         | 3136/100000 [1:54:16<40:14:17,  1.50s/it]  3%|▎         | 3137/100000 [1:54:17<38:21:59,  1.43s/it]                                                            3%|▎         | 3137/100000 [1:54:17<38:21:59,  1.43s/it]  3%|▎         | 3138/100000 [1:54:18<36:43:15,  1.36s/it]                                                            3%|▎         | 3138/100000 [1:54:18<36:43:15,  1.36s/it]  3%|▎         | 3139/100000 [1:54:19<34:43:18,  1.29s/it]                                                            3%|▎         | 3139/100000 [1:54:19<34:43:18,  1.29s/it]  3%|▎         | 3140/100000 [1:54:21<33:05:54,  1.23s/it]                                                            3%|▎         | 3140/100000 [1:54:21<33:05:54,  1.23s/it]  3%|▎         | 3141/100000 [1:54:22<31:47:12,  1.18s/it]                                                            3%|▎         | 3141/100000 [1:54:22<31:47:12,  1.18s/it]  3%|▎         | 3142/100000 [1:54:23<30:19:33,  1.13s/it]                                                            3%|▎         | 3142/100000 [1:54:23<30:19:33,  1.13s/it]  3%|▎         | 3143/100000 [1:54:24<29:06:15,  1.08s/it]                                                            3%|▎         | 3143/100000 [1:54:24<29:06:15,  1.08s/it]  3%|▎         | 3144/100000 [1:54:25<28:13:24,  1.05s/it]                                                            3%|▎         | 3144/100000 [1:54:25<28:13:24,  1.05s/it]  3%|▎         | 3145/100000 [1:54:26<27:32:03,  1.02s/it]                                                            3%|▎         | 3145/100000 [1:54:26<27:32:03,  1.02s/it]  3%|▎         | 3146/100000 [1:54:26<26:31:04,  1.01it/s]                                                            3%|▎         | 3146/100000 [1:54:26<26:31:04,  1.01it/s]  3%|▎         | 3147/100000 [1:54:27<25:12:00,  1.07it/s]                                                            3%|▎         | 3147/100000 [1:54:27<25:12:00,  1.07it/s]  3%|▎         | 3148/100000 [1:54:28<24:16:53,  1.11it/s]                                                            3%|▎         | 3148/100000 [1:54:28<24:16:53,  1.11it/s]  3%|▎         | 3149/100000 [1:54:29<23:12:53,  1.16it/s]                                                            3%|▎         | 3149/100000 [1:54:29<23:12:53,  1.16it/s]  3%|▎         | 3150/100000 [1:54:30<22:33:36,  1.19it/s]                                                            3%|▎         | 3150/100000 [1:54:30<22:33:36,  1.19it/s]  3%|▎         | 3151/100000 [1:54:30<21:42:16,  1.24it/s]                                                            3%|▎         | 3151/100000 [1:54:30<21:42:16,  1.24it/s]  3%|▎         | 3152/100000 [1:54:31<20:58:47,  1.28it/s]                                                            3%|▎         | 3152/100000 [1:54:31<20:58:47,  1.28it/s]  3%|▎         | 3153/100000 [1:54:32<20:24:02,  1.32it/s]                                                            3%|▎         | 3153/100000 [1:54:32<20:24:02,  1.32it/s]  3%|▎         | 3154/100000 [1:54:33<20:14:40,  1.33it/s]                                                            3%|▎         | 3154/100000 [1:54:33<20:14:40,  1.33it/s]  3%|▎         | 3155/100000 [1:54:33<19:46:42,  1.36it/s]                                                            3%|▎         | 3155/100000 [1:54:33<19:46:42,  1.36it/s]  3%|▎         | 3156/100000 [1:54:34<19:36:04,  1.37it/s]                                                            3%|▎         | 3156/100000 [1:54:34<19:36:04,  1.37it/s]  3%|▎         | 3157/100000 [1:54:47<117:51:53,  4.38s/it]                                                             3%|▎         | 3157/100000 [1:54:47<117:51:53,  4.38s/it]  3%|▎         | 3158/100000 [1:54:55<150:53:04,  5.61s/it]                                                             3%|▎         | 3158/100000 [1:54:55<150:53:04,  5.61s/it]  3%|▎         | 3159/100000 [1:55:01<153:26:30,  5.70s/it]                                                             3%|▎         | 3159/100000 [1:55:01<153:26:30,  5.70s/it]  3%|▎         | 3160/100000 [1:55:06<147:07:36,  5.47s/it]                                                             3%|▎         | 3160/100000 [1:55:06<147:07:36,  5.47s/it]  3%|▎         | 3161/100000 [1:55:10<135:22:30,  5.03s/it]                                                             3%|▎         | 3161/100000 [1:55:10<135:22:30,  5.03s/it]  3%|▎         | 3162/100000 [1:55:14<122:50:43,  4.57s/it]                                                             3%|▎         | 3162/100000 [1:55:14<122:50:43,  4.57s/it]  3%|▎         | 3163/100000 [1:55:17<111:29:30,  4.14s/it]                                                             3%|▎         | 3163/100000 [1:55:17<111:29:30,  4.14s/it]  3%|▎         | 3164/100000 [1:55:20<100:38:44,  3.74s/it]                                                             3%|▎         | 3164/100000 [1:55:20<100:38:44,  3.74s/it]  3%|▎         | 3165/100000 [1:55:22<89:55:06,  3.34s/it]                                                           {'loss': 0.3698, 'grad_norm': 1.765926718711853, 'learning_rate': 9.231e-06, 'epoch': 20.01}
{'loss': 0.2592, 'grad_norm': 1.2089036703109741, 'learning_rate': 9.234e-06, 'epoch': 20.01}
{'loss': 0.2679, 'grad_norm': 1.1843770742416382, 'learning_rate': 9.237e-06, 'epoch': 20.02}
{'loss': 0.2449, 'grad_norm': 0.6523835062980652, 'learning_rate': 9.24e-06, 'epoch': 20.03}
{'loss': 0.2139, 'grad_norm': 1.0481290817260742, 'learning_rate': 9.243e-06, 'epoch': 20.03}
{'loss': 0.1636, 'grad_norm': 0.9770159721374512, 'learning_rate': 9.246e-06, 'epoch': 20.04}
{'loss': 0.1786, 'grad_norm': 0.9234278202056885, 'learning_rate': 9.249e-06, 'epoch': 20.05}
{'loss': 0.1835, 'grad_norm': 0.9741215109825134, 'learning_rate': 9.252e-06, 'epoch': 20.05}
{'loss': 0.1719, 'grad_norm': 1.4240983724594116, 'learning_rate': 9.255e-06, 'epoch': 20.06}
{'loss': 0.1747, 'grad_norm': 1.092899203300476, 'learning_rate': 9.258e-06, 'epoch': 20.06}
{'loss': 0.1432, 'grad_norm': 0.767064094543457, 'learning_rate': 9.261e-06, 'epoch': 20.07}
{'loss': 0.1782, 'grad_norm': 1.1288461685180664, 'learning_rate': 9.264000000000001e-06, 'epoch': 20.08}
{'loss': 0.1687, 'grad_norm': 1.4563908576965332, 'learning_rate': 9.267000000000001e-06, 'epoch': 20.08}
{'loss': 0.116, 'grad_norm': 0.7933040857315063, 'learning_rate': 9.27e-06, 'epoch': 20.09}
{'loss': 0.1384, 'grad_norm': 0.8505759239196777, 'learning_rate': 9.272999999999999e-06, 'epoch': 20.1}
{'loss': 0.1899, 'grad_norm': 1.2651872634887695, 'learning_rate': 9.275999999999999e-06, 'epoch': 20.1}
{'loss': 0.1307, 'grad_norm': 0.8462899327278137, 'learning_rate': 9.279e-06, 'epoch': 20.11}
{'loss': 0.138, 'grad_norm': 1.0992103815078735, 'learning_rate': 9.282e-06, 'epoch': 20.12}
{'loss': 0.1294, 'grad_norm': 0.8963575959205627, 'learning_rate': 9.285e-06, 'epoch': 20.12}
{'loss': 0.1057, 'grad_norm': 0.7258943915367126, 'learning_rate': 9.288e-06, 'epoch': 20.13}
{'loss': 0.1274, 'grad_norm': 1.015606164932251, 'learning_rate': 9.291e-06, 'epoch': 20.14}
{'loss': 0.1254, 'grad_norm': 0.9150175452232361, 'learning_rate': 9.294000000000001e-06, 'epoch': 20.14}
{'loss': 0.222, 'grad_norm': 1.3672916889190674, 'learning_rate': 9.297000000000001e-06, 'epoch': 20.15}
{'loss': 0.1282, 'grad_norm': 1.3295668363571167, 'learning_rate': 9.3e-06, 'epoch': 20.16}
{'loss': 0.0967, 'grad_norm': 2.5698235034942627, 'learning_rate': 9.303e-06, 'epoch': 20.16}
{'loss': 0.1086, 'grad_norm': 1.252545714378357, 'learning_rate': 9.306e-06, 'epoch': 20.17}
{'loss': 0.079, 'grad_norm': 0.8582046031951904, 'learning_rate': 9.309e-06, 'epoch': 20.18}
{'loss': 0.179, 'grad_norm': 1.597372055053711, 'learning_rate': 9.312e-06, 'epoch': 20.18}
{'loss': 0.1166, 'grad_norm': 1.5663617849349976, 'learning_rate': 9.315e-06, 'epoch': 20.19}
{'loss': 0.1298, 'grad_norm': 1.8823204040527344, 'learning_rate': 9.318e-06, 'epoch': 20.19}
{'loss': 0.1169, 'grad_norm': 1.4263795614242554, 'learning_rate': 9.321e-06, 'epoch': 20.2}
{'loss': 0.0893, 'grad_norm': 1.7372002601623535, 'learning_rate': 9.324000000000001e-06, 'epoch': 20.21}
{'loss': 0.092, 'grad_norm': 1.2045966386795044, 'learning_rate': 9.327e-06, 'epoch': 20.21}
{'loss': 0.0789, 'grad_norm': 1.1178834438323975, 'learning_rate': 9.33e-06, 'epoch': 20.22}
{'loss': 0.1317, 'grad_norm': 1.8517109155654907, 'learning_rate': 9.333e-06, 'epoch': 20.23}
{'loss': 0.1554, 'grad_norm': 2.1098990440368652, 'learning_rate': 9.336e-06, 'epoch': 20.23}
{'loss': 0.0858, 'grad_norm': 2.0184717178344727, 'learning_rate': 9.339000000000002e-06, 'epoch': 20.24}
{'loss': 0.2182, 'grad_norm': 2.581360340118408, 'learning_rate': 9.342000000000001e-06, 'epoch': 20.25}
{'loss': 0.3729, 'grad_norm': 2.029766321182251, 'learning_rate': 9.345e-06, 'epoch': 20.25}
{'loss': 0.2701, 'grad_norm': 1.2691911458969116, 'learning_rate': 9.348e-06, 'epoch': 20.26}
{'loss': 0.278, 'grad_norm': 1.1275358200073242, 'learning_rate': 9.350999999999999e-06, 'epoch': 20.27}
{'loss': 0.2146, 'grad_norm': 0.9807224869728088, 'learning_rate': 9.354e-06, 'epoch': 20.27}
{'loss': 0.2286, 'grad_norm': 1.0487780570983887, 'learning_rate': 9.357e-06, 'epoch': 20.28}
{'loss': 0.2027, 'grad_norm': 1.010966420173645, 'learning_rate': 9.36e-06, 'epoch': 20.29}
{'loss': 0.1968, 'grad_norm': 1.0525342226028442, 'learning_rate': 9.363e-06, 'epoch': 20.29}
{'loss': 0.1866, 'grad_norm': 1.098313808441162, 'learning_rate': 9.366e-06, 'epoch': 20.3}
{'loss': 0.2499, 'grad_norm': 0.999403715133667, 'learning_rate': 9.369000000000001e-06, 'epoch': 20.31}
{'loss': 0.1391, 'grad_norm': 0.7654256224632263, 'learning_rate': 9.372000000000001e-06, 'epoch': 20.31}
{'loss': 0.1334, 'grad_norm': 0.7122005224227905, 'learning_rate': 9.375000000000001e-06, 'epoch': 20.32}
{'loss': 0.1573, 'grad_norm': 0.9050491452217102, 'learning_rate': 9.378e-06, 'epoch': 20.32}
{'loss': 0.1328, 'grad_norm': 1.0782004594802856, 'learning_rate': 9.380999999999999e-06, 'epoch': 20.33}
{'loss': 0.1569, 'grad_norm': 1.3556413650512695, 'learning_rate': 9.384e-06, 'epoch': 20.34}
{'loss': 0.1325, 'grad_norm': 1.1309517621994019, 'learning_rate': 9.387e-06, 'epoch': 20.34}
{'loss': 0.1257, 'grad_norm': 0.9199045300483704, 'learning_rate': 9.39e-06, 'epoch': 20.35}
{'loss': 0.0998, 'grad_norm': 1.2188434600830078, 'learning_rate': 9.393e-06, 'epoch': 20.36}
{'loss': 0.1176, 'grad_norm': 1.1524450778961182, 'learning_rate': 9.396e-06, 'epoch': 20.36}
{'loss': 0.1227, 'grad_norm': 1.3824281692504883, 'learning_rate': 9.399000000000001e-06, 'epoch': 20.37}
{'loss': 0.125, 'grad_norm': 1.1563329696655273, 'learning_rate': 9.402e-06, 'epoch': 20.38}
{'loss': 0.1644, 'grad_norm': 1.149389624595642, 'learning_rate': 9.405e-06, 'epoch': 20.38}
{'loss': 0.0956, 'grad_norm': 0.8971655964851379, 'learning_rate': 9.408e-06, 'epoch': 20.39}
{'loss': 0.1195, 'grad_norm': 1.3419270515441895, 'learning_rate': 9.411e-06, 'epoch': 20.4}
{'loss': 0.188, 'grad_norm': 1.927010416984558, 'learning_rate': 9.414000000000002e-06, 'epoch': 20.4}
{'loss': 0.1193, 'grad_norm': 1.1180614233016968, 'learning_rate': 9.417e-06, 'epoch': 20.41}
{'loss': 0.1248, 'grad_norm': 2.039278030395508, 'learning_rate': 9.42e-06, 'epoch': 20.42}
{'loss': 0.2041, 'grad_norm': 1.5237054824829102, 'learning_rate': 9.423e-06, 'epoch': 20.42}
{'loss': 0.1714, 'grad_norm': 1.7483161687850952, 'learning_rate': 9.426e-06, 'epoch': 20.43}
{'loss': 0.1634, 'grad_norm': 1.276009440422058, 'learning_rate': 9.429e-06, 'epoch': 20.44}
{'loss': 0.091, 'grad_norm': 1.6060373783111572, 'learning_rate': 9.432e-06, 'epoch': 20.44}
{'loss': 0.1613, 'grad_norm': 1.5222419500350952, 'learning_rate': 9.435e-06, 'epoch': 20.45}
{'loss': 0.1457, 'grad_norm': 2.4201154708862305, 'learning_rate': 9.438e-06, 'epoch': 20.45}
{'loss': 0.1049, 'grad_norm': 1.9850974082946777, 'learning_rate': 9.441e-06, 'epoch': 20.46}
{'loss': 0.1483, 'grad_norm': 2.0153658390045166, 'learning_rate': 9.444000000000001e-06, 'epoch': 20.47}
{'loss': 0.1463, 'grad_norm': 2.326093912124634, 'learning_rate': 9.447000000000001e-06, 'epoch': 20.47}
{'loss': 0.1372, 'grad_norm': 2.3165695667266846, 'learning_rate': 9.450000000000001e-06, 'epoch': 20.48}
{'loss': 0.1162, 'grad_norm': 1.7070201635360718, 'learning_rate': 9.453e-06, 'epoch': 20.49}
{'loss': 0.1534, 'grad_norm': 2.3096678256988525, 'learning_rate': 9.455999999999999e-06, 'epoch': 20.49}
{'loss': 0.3685, 'grad_norm': 1.3464586734771729, 'learning_rate': 9.459e-06, 'epoch': 20.5}
{'loss': 0.303, 'grad_norm': 1.2554988861083984, 'learning_rate': 9.462e-06, 'epoch': 20.51}
{'loss': 0.2827, 'grad_norm': 1.1298611164093018, 'learning_rate': 9.465e-06, 'epoch': 20.51}
{'loss': 0.2285, 'grad_norm': 0.9222885966300964, 'learning_rate': 9.468e-06, 'epoch': 20.52}
{'loss': 0.2993, 'grad_norm': 1.5422039031982422, 'learning_rate': 9.471e-06, 'epoch': 20.53}
{'loss': 0.2037, 'grad_norm': 0.840263843536377, 'learning_rate': 9.474000000000001e-06, 'epoch': 20.53}
{'loss': 0.2225, 'grad_norm': 1.1642603874206543, 'learning_rate': 9.477000000000001e-06, 'epoch': 20.54}
{'loss': 0.2495, 'grad_norm': 1.1145803928375244, 'learning_rate': 9.48e-06, 'epoch': 20.55}
  3%|▎         | 3165/100000 [1:55:22<89:55:06,  3.34s/it]  3%|▎         | 3166/100000 [1:55:24<80:12:18,  2.98s/it]                                                            3%|▎         | 3166/100000 [1:55:24<80:12:18,  2.98s/it]  3%|▎         | 3167/100000 [1:55:26<72:19:39,  2.69s/it]                                                            3%|▎         | 3167/100000 [1:55:26<72:19:39,  2.69s/it]  3%|▎         | 3168/100000 [1:55:28<66:21:38,  2.47s/it]                                                            3%|▎         | 3168/100000 [1:55:28<66:21:38,  2.47s/it]  3%|▎         | 3169/100000 [1:55:30<60:24:51,  2.25s/it]                                                            3%|▎         | 3169/100000 [1:55:30<60:24:51,  2.25s/it]  3%|▎         | 3170/100000 [1:55:31<55:10:18,  2.05s/it]                                                            3%|▎         | 3170/100000 [1:55:31<55:10:18,  2.05s/it]  3%|▎         | 3171/100000 [1:55:33<51:11:16,  1.90s/it]                                                            3%|▎         | 3171/100000 [1:55:33<51:11:16,  1.90s/it]  3%|▎         | 3172/100000 [1:55:35<47:45:56,  1.78s/it]                                                            3%|▎         | 3172/100000 [1:55:35<47:45:56,  1.78s/it]  3%|▎         | 3173/100000 [1:55:36<44:44:47,  1.66s/it]                                                            3%|▎         | 3173/100000 [1:55:36<44:44:47,  1.66s/it]  3%|▎         | 3174/100000 [1:55:37<42:16:05,  1.57s/it]                                                            3%|▎         | 3174/100000 [1:55:37<42:16:05,  1.57s/it]  3%|▎         | 3175/100000 [1:55:39<40:07:31,  1.49s/it]                                                            3%|▎         | 3175/100000 [1:55:39<40:07:31,  1.49s/it]  3%|▎         | 3176/100000 [1:55:40<38:14:06,  1.42s/it]                                                            3%|▎         | 3176/100000 [1:55:40<38:14:06,  1.42s/it]  3%|▎         | 3177/100000 [1:55:41<36:10:33,  1.35s/it]                                                            3%|▎         | 3177/100000 [1:55:41<36:10:33,  1.35s/it]  3%|▎         | 3178/100000 [1:55:42<34:02:35,  1.27s/it]                                                            3%|▎         | 3178/100000 [1:55:42<34:02:35,  1.27s/it]  3%|▎         | 3179/100000 [1:55:43<32:32:19,  1.21s/it]                                                            3%|▎         | 3179/100000 [1:55:43<32:32:19,  1.21s/it]  3%|▎         | 3180/100000 [1:55:44<30:46:07,  1.14s/it]                                                            3%|▎         | 3180/100000 [1:55:44<30:46:07,  1.14s/it]  3%|▎         | 3181/100000 [1:55:45<29:17:27,  1.09s/it]                                                            3%|▎         | 3181/100000 [1:55:45<29:17:27,  1.09s/it]  3%|▎         | 3182/100000 [1:55:46<27:57:24,  1.04s/it]                                                            3%|▎         | 3182/100000 [1:55:46<27:57:24,  1.04s/it]  3%|▎         | 3183/100000 [1:55:47<26:44:08,  1.01it/s]                                                            3%|▎         | 3183/100000 [1:55:47<26:44:08,  1.01it/s]  3%|▎         | 3184/100000 [1:55:48<25:48:18,  1.04it/s]                                                            3%|▎         | 3184/100000 [1:55:48<25:48:18,  1.04it/s]  3%|▎         | 3185/100000 [1:55:49<24:54:19,  1.08it/s]                                                            3%|▎         | 3185/100000 [1:55:49<24:54:19,  1.08it/s]  3%|▎         | 3186/100000 [1:55:49<24:16:25,  1.11it/s]                                                            3%|▎         | 3186/100000 [1:55:50<24:16:25,  1.11it/s]  3%|▎         | 3187/100000 [1:55:50<23:26:15,  1.15it/s]                                                            3%|▎         | 3187/100000 [1:55:50<23:26:15,  1.15it/s]  3%|▎         | 3188/100000 [1:55:51<22:26:58,  1.20it/s]                                                            3%|▎         | 3188/100000 [1:55:51<22:26:58,  1.20it/s]  3%|▎         | 3189/100000 [1:55:52<21:38:16,  1.24it/s]                                                            3%|▎         | 3189/100000 [1:55:52<21:38:16,  1.24it/s]  3%|▎         | 3190/100000 [1:55:52<20:54:07,  1.29it/s]                                                            3%|▎         | 3190/100000 [1:55:53<20:54:07,  1.29it/s]  3%|▎         | 3191/100000 [1:55:53<20:17:35,  1.33it/s]                                                            3%|▎         | 3191/100000 [1:55:53<20:17:35,  1.33it/s]  3%|▎         | 3192/100000 [1:55:54<19:55:53,  1.35it/s]                                                            3%|▎         | 3192/100000 [1:55:54<19:55:53,  1.35it/s]  3%|▎         | 3193/100000 [1:55:55<18:55:53,  1.42it/s]                                                            3%|▎         | 3193/100000 [1:55:55<18:55:53,  1.42it/s]  3%|▎         | 3194/100000 [1:55:55<18:58:21,  1.42it/s]                                                            3%|▎         | 3194/100000 [1:55:55<18:58:21,  1.42it/s]  3%|▎         | 3195/100000 [1:56:08<119:49:11,  4.46s/it]                                                             3%|▎         | 3195/100000 [1:56:08<119:49:11,  4.46s/it]  3%|▎         | 3196/100000 [1:56:16<141:48:03,  5.27s/it]                                                             3%|▎         | 3196/100000 [1:56:16<141:48:03,  5.27s/it]  3%|▎         | 3197/100000 [1:56:22<147:30:07,  5.49s/it]                                                             3%|▎         | 3197/100000 [1:56:22<147:30:07,  5.49s/it]  3%|▎         | 3198/100000 [1:56:26<142:34:48,  5.30s/it]                                                             3%|▎         | 3198/100000 [1:56:26<142:34:48,  5.30s/it]  3%|▎         | 3199/100000 [1:56:31<132:48:56,  4.94s/it]                                                             3%|▎         | 3199/100000 [1:56:31<132:48:56,  4.94s/it]  3%|▎         | 3200/100000 [1:56:34<120:33:10,  4.48s/it]                                                             3%|▎         | 3200/100000 [1:56:34<120:33:10,  4.48s/it]  3%|▎         | 3201/100000 [1:56:37<110:15:59,  4.10s/it]                                                             3%|▎         | 3201/100000 [1:56:37<110:15:59,  4.10s/it]  3%|▎         | 3202/100000 [1:56:40<99:33:41,  3.70s/it]                                                             3%|▎         | 3202/100000 [1:56:40<99:33:41,  3.70s/it]  3%|▎         | 3203/100000 [1:56:42<89:09:48,  3.32s/it]                                                            3%|▎         | 3203/100000 [1:56:42<89:09:48,  3.32s/it]  3%|▎         | 3204/100000 [1:56:45<79:37:43,  2.96s/it]                                                            3%|▎         | 3204/100000 [1:56:45<79:37:43,  2.96s/it]  3%|▎         | 3205/100000 [1:56:47<71:51:54,  2.67s/it]                                                            3%|▎         | 3205/100000 [1:56:47<71:51:54,  2.67s/it]  3%|▎         | 3206/100000 [1:56:48<65:22:05,  2.43s/it]                                                            3%|▎         | 3206/100000 [1:56:48<65:22:05,  2.43s/it]  3%|▎         | 3207/100000 [1:56:50<59:53:01,  2.23s/it]                                                            3%|▎         | 3207/100000 [1:56:50<59:53:01,  2.23s/it]  3%|▎         | 3208/100000 [1:56:52<54:48:49,  2.04s/it]                                                            3%|▎         | 3208/100000 [1:56:52<54:48:49,  2.04s/it]  3%|▎         | 3209/100000 [1:56:53<50:53:32,  1.89s/it]                                                            3%|▎         | 3209/100000 [1:56:53<50:53:32,  1.89s/it]  3%|▎         | 3210/100000 [1:56:55<47:14:09,  1.76s/it]                                                            3%|▎         | 3210/100000 [1:56:55<47:14:09,  1.76s/it]  3%|▎         | 3211/100000 [1:56:56<44:06:46,  1.64s/it]                                                            3%|▎         | 3211/100000 [1:56:56<44:06:46,  1.64s/it]  3%|▎         | 3212/100000 [1:56:57<41:37:15,  1.55s/it]                                                            3%|▎         | 3212/100000 [1:56:57<41:37:15,  1.55s/it]  3%|▎         | 3213/100000 [1:56:59<39:03:33,  1.45s/it]                                                            3%|▎         | 3213/100000 [1:56:59<39:03:33,  1.45s/it]  3%|▎         | 3214/100000 [1:57:00<37:20:45,  1.39s/it]                                                            3%|▎         | 3214/100000 [1:57:00<37:20:45,  1.39s/it]  3%|▎         | 3215/100000 [1:57:01<35:02:41,  1.30s/it]                                                            3%|▎         | 3215/100000 [1:57:01<35:02:41,  1.30s/it]  3%|▎         | 3216/100000 [1:57:02<33:26:22,  1.24s/it]                                                            3%|▎         | 3216/100000 [1:57:02<33:26:22,  1.24s/it]  3%|▎         | 3217/100000 [1:57:03<31:40:37,  1.18s/it]                                                            3%|▎         | 3217/100000 [1:57:03<31:40:37,  1.18s/it]  3%|▎         | 3218/100000 [1:57:04<30:02:01,  1.12s/it]                                                            3%|▎         | 3218/100000 [1:57:04<30:02:01,  1.12s/it]  3%|▎         | 3219/100000 [1:57:05<28:37:08,  1.06s/it]                                                            3%|▎         | 3219/100000 [1:57:05<28:37:08,  1.06s/it]  3%|▎         | 3220/100000 [1:57:06<27:24:49,  1.02s/it]                                                            3%|▎         | 3220/100000 [1:57:06<27:24:49,  1.02s/it]  3%|▎         | 3221/100000 [1:57:07<26:29:59,  1.01it/s]                                                            3%|▎         | 3221/100000 [1:57:07<26:29:59,  1.01it/s]  3%|▎         | 3222/100000 [1:57:08<25:23:47,  1.06it/s]                                                            3%|▎         | 3222/100000 [1:57:08<25:23:47,  1.06it/s]  3%|▎         | 3223/100000 [1:57:09<24:36:33,  1.09it/s]                                                            3%|▎         | 3223/100000 [1:57:09<24:36:33,  1.09it/s]  3%|▎         | 3224/100000 [1:57:09<23:36:25,  1.14it/s]                                                            3%|▎         | 3224/100000 [1:57:09<23:36:25,  1.14it/s]  3%|▎         | 3225/100000 [1:57:10<22:38:02,  1.19it/s]                                                            3%|▎         | 3225/100000 [1:57:10<22:38:02,  1.19it/s]  3%|▎         | 3226/100000 [1:57:11<21:50:24,  1.23it/s]                                                            3%|▎         | 3226/100000 [1:57:11<21:50:24,  1.23it/s]  3%|▎         | 3227/100000 [1:57:12<21:11:06,  1.27it/s]                                                            3%|▎         | 3227/100000 [1:57:12<21:11:06,  1.27it/s]  3%|▎         | 3228/100000 [1:57:12<20:48:43,  1.29it/s]                                                            3%|▎         | 3228/100000 [1:57:12<20:48:43,  1.29it/s]  3%|▎         | 3229/100000 [1:57:13<19:59:23,  1.34it/s]                                                            3%|▎         | 3229/100000 [1:57:13<19:59:23,  1.34it/s]  3%|▎         | 3230/100000 [1:57:14<19:24:57,  1.38it/s]                                                            3%|▎         | 3230/100000 [1:57:14<19:24:57,  1.38it/s]  3%|▎         | 3231/100000 [1:57:14<19:07:32,  1.41it/s]                                                            3%|▎         | 3231/100000 [1:57:14<19:07:32,  1.41it/s]  3%|▎         | 3232/100000 [1:57:15<17:36:40,  1.53it/s]                                                            3%|▎         | 3232/100000 [1:57:15<17:36:40,  1.53it/s]  3%|▎         | 3233/100000 [1:57:22<72:39:39,  2.70s/it]                                                            3%|▎         | 3233/100000 [1:57:22<72:39:39,  2.70s/it]  3%|▎         | 3234/100000 [1:57:24<63:18:07,  2.36s/it]                                                            3%|▎         | 3234/100000 [1:57:24<63:18:07,  2.36s/it]{'loss': 0.1723, 'grad_norm': 1.0097179412841797, 'learning_rate': 9.483e-06, 'epoch': 20.55}
{'loss': 0.1829, 'grad_norm': 0.8206924796104431, 'learning_rate': 9.486e-06, 'epoch': 20.56}
{'loss': 0.1555, 'grad_norm': 0.7179229855537415, 'learning_rate': 9.489000000000002e-06, 'epoch': 20.56}
{'loss': 0.1266, 'grad_norm': 0.8290955424308777, 'learning_rate': 9.492e-06, 'epoch': 20.57}
{'loss': 0.1387, 'grad_norm': 0.7899994850158691, 'learning_rate': 9.495e-06, 'epoch': 20.58}
{'loss': 0.1299, 'grad_norm': 1.03733491897583, 'learning_rate': 9.498e-06, 'epoch': 20.58}
{'loss': 0.1381, 'grad_norm': 0.7394634485244751, 'learning_rate': 9.501e-06, 'epoch': 20.59}
{'loss': 0.1223, 'grad_norm': 0.9344006776809692, 'learning_rate': 9.504e-06, 'epoch': 20.6}
{'loss': 0.1302, 'grad_norm': 1.1745784282684326, 'learning_rate': 9.507e-06, 'epoch': 20.6}
{'loss': 0.1726, 'grad_norm': 0.9275846481323242, 'learning_rate': 9.51e-06, 'epoch': 20.61}
{'loss': 0.1207, 'grad_norm': 0.9392242431640625, 'learning_rate': 9.513e-06, 'epoch': 20.62}
{'loss': 0.1277, 'grad_norm': 1.1278833150863647, 'learning_rate': 9.516e-06, 'epoch': 20.62}
{'loss': 0.1054, 'grad_norm': 0.9613886475563049, 'learning_rate': 9.519000000000002e-06, 'epoch': 20.63}
{'loss': 0.1416, 'grad_norm': 0.8910954594612122, 'learning_rate': 9.522000000000001e-06, 'epoch': 20.64}
{'loss': 0.1416, 'grad_norm': 1.3225353956222534, 'learning_rate': 9.525000000000001e-06, 'epoch': 20.64}
{'loss': 0.1229, 'grad_norm': 1.0350178480148315, 'learning_rate': 9.528e-06, 'epoch': 20.65}
{'loss': 0.1667, 'grad_norm': 1.6736211776733398, 'learning_rate': 9.530999999999999e-06, 'epoch': 20.66}
{'loss': 0.1423, 'grad_norm': 2.580061197280884, 'learning_rate': 9.534e-06, 'epoch': 20.66}
{'loss': 0.0905, 'grad_norm': 1.57022225856781, 'learning_rate': 9.537e-06, 'epoch': 20.67}
{'loss': 0.1321, 'grad_norm': 1.3058217763900757, 'learning_rate': 9.54e-06, 'epoch': 20.68}
{'loss': 0.1781, 'grad_norm': 1.5827288627624512, 'learning_rate': 9.543e-06, 'epoch': 20.68}
{'loss': 0.1143, 'grad_norm': 1.2764381170272827, 'learning_rate': 9.546e-06, 'epoch': 20.69}
{'loss': 0.0955, 'grad_norm': 1.0154751539230347, 'learning_rate': 9.549000000000001e-06, 'epoch': 20.69}
{'loss': 0.1503, 'grad_norm': 1.6063580513000488, 'learning_rate': 9.552000000000001e-06, 'epoch': 20.7}
{'loss': 0.0975, 'grad_norm': 1.3766146898269653, 'learning_rate': 9.555e-06, 'epoch': 20.71}
{'loss': 0.1244, 'grad_norm': 1.5597790479660034, 'learning_rate': 9.558e-06, 'epoch': 20.71}
{'loss': 0.1054, 'grad_norm': 1.2130385637283325, 'learning_rate': 9.561e-06, 'epoch': 20.72}
{'loss': 0.1067, 'grad_norm': 1.4728978872299194, 'learning_rate': 9.564e-06, 'epoch': 20.73}
{'loss': 0.1014, 'grad_norm': 2.371898889541626, 'learning_rate': 9.567e-06, 'epoch': 20.73}
{'loss': 0.1492, 'grad_norm': 2.251716375350952, 'learning_rate': 9.57e-06, 'epoch': 20.74}
{'loss': 0.3594, 'grad_norm': 3.0463764667510986, 'learning_rate': 9.573e-06, 'epoch': 20.75}
{'loss': 0.3264, 'grad_norm': 1.479732632637024, 'learning_rate': 9.576e-06, 'epoch': 20.75}
{'loss': 0.2935, 'grad_norm': 1.2794630527496338, 'learning_rate': 9.579e-06, 'epoch': 20.76}
{'loss': 0.262, 'grad_norm': 1.5643250942230225, 'learning_rate': 9.582e-06, 'epoch': 20.77}
{'loss': 0.1957, 'grad_norm': 0.9703869819641113, 'learning_rate': 9.585e-06, 'epoch': 20.77}
{'loss': 0.2078, 'grad_norm': 1.2914587259292603, 'learning_rate': 9.588e-06, 'epoch': 20.78}
{'loss': 0.209, 'grad_norm': 1.127578854560852, 'learning_rate': 9.591e-06, 'epoch': 20.79}
{'loss': 0.1987, 'grad_norm': 0.6889130473136902, 'learning_rate': 9.594e-06, 'epoch': 20.79}
{'loss': 0.1672, 'grad_norm': 1.1672093868255615, 'learning_rate': 9.597000000000001e-06, 'epoch': 20.8}
{'loss': 0.1526, 'grad_norm': 1.187447190284729, 'learning_rate': 9.600000000000001e-06, 'epoch': 20.81}
{'loss': 0.1485, 'grad_norm': 0.928024172782898, 'learning_rate': 9.603e-06, 'epoch': 20.81}
{'loss': 0.13, 'grad_norm': 0.8864955306053162, 'learning_rate': 9.606e-06, 'epoch': 20.82}
{'loss': 0.1894, 'grad_norm': 1.0914342403411865, 'learning_rate': 9.608999999999999e-06, 'epoch': 20.82}
{'loss': 0.1248, 'grad_norm': 0.7936978340148926, 'learning_rate': 9.612e-06, 'epoch': 20.83}
{'loss': 0.1743, 'grad_norm': 1.7115325927734375, 'learning_rate': 9.615e-06, 'epoch': 20.84}
{'loss': 0.1311, 'grad_norm': 1.0495796203613281, 'learning_rate': 9.618e-06, 'epoch': 20.84}
{'loss': 0.1288, 'grad_norm': 1.027740478515625, 'learning_rate': 9.621e-06, 'epoch': 20.85}
{'loss': 0.1018, 'grad_norm': 0.8625576496124268, 'learning_rate': 9.624e-06, 'epoch': 20.86}
{'loss': 0.0879, 'grad_norm': 1.0221195220947266, 'learning_rate': 9.627000000000001e-06, 'epoch': 20.86}
{'loss': 0.1425, 'grad_norm': 0.9194747805595398, 'learning_rate': 9.630000000000001e-06, 'epoch': 20.87}
{'loss': 0.1456, 'grad_norm': 0.9103896021842957, 'learning_rate': 9.633e-06, 'epoch': 20.88}
{'loss': 0.1187, 'grad_norm': 0.8917446136474609, 'learning_rate': 9.636e-06, 'epoch': 20.88}
{'loss': 0.1246, 'grad_norm': 1.2814675569534302, 'learning_rate': 9.638999999999999e-06, 'epoch': 20.89}
{'loss': 0.2449, 'grad_norm': 1.5361524820327759, 'learning_rate': 9.642e-06, 'epoch': 20.9}
{'loss': 0.1136, 'grad_norm': 1.0087220668792725, 'learning_rate': 9.645e-06, 'epoch': 20.9}
{'loss': 0.1081, 'grad_norm': 1.2114338874816895, 'learning_rate': 9.648e-06, 'epoch': 20.91}
{'loss': 0.1321, 'grad_norm': 1.0607280731201172, 'learning_rate': 9.651e-06, 'epoch': 20.92}
{'loss': 0.1208, 'grad_norm': 1.1222957372665405, 'learning_rate': 9.654e-06, 'epoch': 20.92}
{'loss': 0.1466, 'grad_norm': 2.3592121601104736, 'learning_rate': 9.657000000000001e-06, 'epoch': 20.93}
{'loss': 0.1035, 'grad_norm': 1.0798977613449097, 'learning_rate': 9.66e-06, 'epoch': 20.94}
{'loss': 0.0885, 'grad_norm': 1.2789478302001953, 'learning_rate': 9.663e-06, 'epoch': 20.94}
{'loss': 0.1226, 'grad_norm': 1.3494763374328613, 'learning_rate': 9.666e-06, 'epoch': 20.95}
{'loss': 0.1117, 'grad_norm': 2.1671910285949707, 'learning_rate': 9.669e-06, 'epoch': 20.95}
{'loss': 0.1126, 'grad_norm': 1.4510899782180786, 'learning_rate': 9.672000000000002e-06, 'epoch': 20.96}
{'loss': 0.1512, 'grad_norm': 1.940399408340454, 'learning_rate': 9.675e-06, 'epoch': 20.97}
{'loss': 0.1374, 'grad_norm': 4.550879001617432, 'learning_rate': 9.678e-06, 'epoch': 20.97}
{'loss': 0.1597, 'grad_norm': 2.3083250522613525, 'learning_rate': 9.681e-06, 'epoch': 20.98}
{'loss': 0.181, 'grad_norm': 2.204815149307251, 'learning_rate': 9.683999999999999e-06, 'epoch': 20.99}
{'loss': 0.2077, 'grad_norm': 1.2438629865646362, 'learning_rate': 9.687e-06, 'epoch': 20.99}
{'loss': 0.1378, 'grad_norm': 1.5084609985351562, 'learning_rate': 9.69e-06, 'epoch': 21.0}
  3%|▎         | 3235/100000 [1:57:41<182:35:58,  6.79s/it]                                                             3%|▎         | 3235/100000 [1:57:41<182:35:58,  6.79s/it]  3%|▎         | 3236/100000 [1:57:49<189:52:08,  7.06s/it]                                                             3%|▎         | 3236/100000 [1:57:49<189:52:08,  7.06s/it]  3%|▎         | 3237/100000 [1:57:54<175:20:50,  6.52s/it]                                                             3%|▎         | 3237/100000 [1:57:54<175:20:50,  6.52s/it]  3%|▎         | 3238/100000 [1:57:58<158:44:37,  5.91s/it]                                                             3%|▎         | 3238/100000 [1:57:58<158:44:37,  5.91s/it]  3%|▎         | 3239/100000 [1:58:02<142:03:35,  5.29s/it]                                                             3%|▎         | 3239/100000 [1:58:02<142:03:35,  5.29s/it]  3%|▎         | 3240/100000 [1:58:06<125:42:48,  4.68s/it]                                                             3%|▎         | 3240/100000 [1:58:06<125:42:48,  4.68s/it]  3%|▎         | 3241/100000 [1:58:08<111:03:21,  4.13s/it]                                                             3%|▎         | 3241/100000 [1:58:08<111:03:21,  4.13s/it]  3%|▎         | 3242/100000 [1:58:11<97:04:52,  3.61s/it]                                                             3%|▎         | 3242/100000 [1:58:11<97:04:52,  3.61s/it]  3%|▎         | 3243/100000 [1:58:13<85:12:06,  3.17s/it]                                                            3%|▎         | 3243/100000 [1:58:13<85:12:06,  3.17s/it]  3%|▎         | 3244/100000 [1:58:15<75:49:52,  2.82s/it]                                                            3%|▎         | 3244/100000 [1:58:15<75:49:52,  2.82s/it]  3%|▎         | 3245/100000 [1:58:17<68:26:02,  2.55s/it]                                                            3%|▎         | 3245/100000 [1:58:17<68:26:02,  2.55s/it]  3%|▎         | 3246/100000 [1:58:19<62:04:24,  2.31s/it]                                                            3%|▎         | 3246/100000 [1:58:19<62:04:24,  2.31s/it]  3%|▎         | 3247/100000 [1:58:20<56:35:15,  2.11s/it]                                                            3%|▎         | 3247/100000 [1:58:20<56:35:15,  2.11s/it]  3%|▎         | 3248/100000 [1:58:22<52:16:21,  1.94s/it]                                                            3%|▎         | 3248/100000 [1:58:22<52:16:21,  1.94s/it]  3%|▎         | 3249/100000 [1:58:23<48:27:10,  1.80s/it]                                                            3%|▎         | 3249/100000 [1:58:23<48:27:10,  1.80s/it]  3%|▎         | 3250/100000 [1:58:25<45:22:23,  1.69s/it]                                                            3%|▎         | 3250/100000 [1:58:25<45:22:23,  1.69s/it]  3%|▎         | 3251/100000 [1:58:26<42:14:36,  1.57s/it]                                                            3%|▎         | 3251/100000 [1:58:26<42:14:36,  1.57s/it]  3%|▎         | 3252/100000 [1:58:27<39:54:24,  1.48s/it]                                                            3%|▎         | 3252/100000 [1:58:27<39:54:24,  1.48s/it]  3%|▎         | 3253/100000 [1:58:29<37:48:54,  1.41s/it]                                                            3%|▎         | 3253/100000 [1:58:29<37:48:54,  1.41s/it]  3%|▎         | 3254/100000 [1:58:30<35:59:20,  1.34s/it]                                                            3%|▎         | 3254/100000 [1:58:30<35:59:20,  1.34s/it]  3%|▎         | 3255/100000 [1:58:31<34:07:03,  1.27s/it]                                                            3%|▎         | 3255/100000 [1:58:31<34:07:03,  1.27s/it]  3%|▎         | 3256/100000 [1:58:32<32:27:24,  1.21s/it]                                                            3%|▎         | 3256/100000 [1:58:32<32:27:24,  1.21s/it]  3%|▎         | 3257/100000 [1:58:33<30:49:59,  1.15s/it]                                                            3%|▎         | 3257/100000 [1:58:33<30:49:59,  1.15s/it]  3%|▎         | 3258/100000 [1:58:34<29:15:44,  1.09s/it]                                                            3%|▎         | 3258/100000 [1:58:34<29:15:44,  1.09s/it]  3%|▎         | 3259/100000 [1:58:35<28:17:52,  1.05s/it]                                                            3%|▎         | 3259/100000 [1:58:35<28:17:52,  1.05s/it]  3%|▎         | 3260/100000 [1:58:36<27:04:18,  1.01s/it]                                                            3%|▎         | 3260/100000 [1:58:36<27:04:18,  1.01s/it]  3%|▎         | 3261/100000 [1:58:37<25:54:43,  1.04it/s]                                                            3%|▎         | 3261/100000 [1:58:37<25:54:43,  1.04it/s]  3%|▎         | 3262/100000 [1:58:37<25:16:42,  1.06it/s]                                                            3%|▎         | 3262/100000 [1:58:37<25:16:42,  1.06it/s]  3%|▎         | 3263/100000 [1:58:38<24:36:00,  1.09it/s]                                                            3%|▎         | 3263/100000 [1:58:38<24:36:00,  1.09it/s]  3%|▎         | 3264/100000 [1:58:39<24:03:34,  1.12it/s]                                                            3%|▎         | 3264/100000 [1:58:39<24:03:34,  1.12it/s]  3%|▎         | 3265/100000 [1:58:40<23:42:57,  1.13it/s]                                                            3%|▎         | 3265/100000 [1:58:40<23:42:57,  1.13it/s]  3%|▎         | 3266/100000 [1:58:41<22:42:27,  1.18it/s]                                                            3%|▎         | 3266/100000 [1:58:41<22:42:27,  1.18it/s]  3%|▎         | 3267/100000 [1:58:42<21:38:48,  1.24it/s]                                                            3%|▎         | 3267/100000 [1:58:42<21:38:48,  1.24it/s]  3%|▎         | 3268/100000 [1:58:42<20:50:09,  1.29it/s]                                                            3%|▎         | 3268/100000 [1:58:42<20:50:09,  1.29it/s]  3%|▎         | 3269/100000 [1:58:43<20:12:57,  1.33it/s]                                                            3%|▎         | 3269/100000 [1:58:43<20:12:57,  1.33it/s]  3%|▎         | 3270/100000 [1:58:44<20:28:50,  1.31it/s]                                                            3%|▎         | 3270/100000 [1:58:44<20:28:50,  1.31it/s]  3%|▎         | 3271/100000 [1:58:44<19:46:18,  1.36it/s]                                                            3%|▎         | 3271/100000 [1:58:44<19:46:18,  1.36it/s]  3%|▎         | 3272/100000 [1:58:45<18:36:20,  1.44it/s]                                                            3%|▎         | 3272/100000 [1:58:45<18:36:20,  1.44it/s]  3%|▎         | 3273/100000 [1:58:56<98:32:12,  3.67s/it]                                                            3%|▎         | 3273/100000 [1:58:56<98:32:12,  3.67s/it]  3%|▎         | 3274/100000 [1:59:05<143:08:33,  5.33s/it]                                                             3%|▎         | 3274/100000 [1:59:05<143:08:33,  5.33s/it]  3%|▎         | 3275/100000 [1:59:11<148:54:38,  5.54s/it]                                                             3%|▎         | 3275/100000 [1:59:11<148:54:38,  5.54s/it]  3%|▎         | 3276/100000 [1:59:16<142:33:22,  5.31s/it]                                                             3%|▎         | 3276/100000 [1:59:16<142:33:22,  5.31s/it]  3%|▎         | 3277/100000 [1:59:20<132:51:33,  4.94s/it]                                                             3%|▎         | 3277/100000 [1:59:20<132:51:33,  4.94s/it]  3%|▎         | 3278/100000 [1:59:23<121:04:24,  4.51s/it]                                                             3%|▎         | 3278/100000 [1:59:23<121:04:24,  4.51s/it]  3%|▎         | 3279/100000 [1:59:26<109:42:57,  4.08s/it]                                                             3%|▎         | 3279/100000 [1:59:26<109:42:57,  4.08s/it]  3%|▎         | 3280/100000 [1:59:29<98:37:38,  3.67s/it]                                                             3%|▎         | 3280/100000 [1:59:29<98:37:38,  3.67s/it]  3%|▎         | 3281/100000 [1:59:31<88:29:19,  3.29s/it]                                                            3%|▎         | 3281/100000 [1:59:31<88:29:19,  3.29s/it]  3%|▎         | 3282/100000 [1:59:34<79:29:31,  2.96s/it]                                                            3%|▎         | 3282/100000 [1:59:34<79:29:31,  2.96s/it]  3%|▎         | 3283/100000 [1:59:35<71:09:00,  2.65s/it]                                                            3%|▎         | 3283/100000 [1:59:35<71:09:00,  2.65s/it]  3%|▎         | 3284/100000 [1:59:37<64:44:28,  2.41s/it]                                                            3%|▎         | 3284/100000 [1:59:37<64:44:28,  2.41s/it]  3%|▎         | 3285/100000 [1:59:39<58:47:40,  2.19s/it]                                                            3%|▎         | 3285/100000 [1:59:39<58:47:40,  2.19s/it]  3%|▎         | 3286/100000 [1:59:41<54:25:56,  2.03s/it]                                                            3%|▎         | 3286/100000 [1:59:41<54:25:56,  2.03s/it]  3%|▎         | 3287/100000 [1:59:42<50:30:53,  1.88s/it]                                                            3%|▎         | 3287/100000 [1:59:42<50:30:53,  1.88s/it]  3%|▎         | 3288/100000 [1:59:44<47:11:12,  1.76s/it]                                                            3%|▎         | 3288/100000 [1:59:44<47:11:12,  1.76s/it]  3%|▎         | 3289/100000 [1:59:45<43:44:44,  1.63s/it]                                                            3%|▎         | 3289/100000 [1:59:45<43:44:44,  1.63s/it]  3%|▎         | 3290/100000 [1:59:46<41:22:57,  1.54s/it]                                                            3%|▎         | 3290/100000 [1:59:46<41:22:57,  1.54s/it]  3%|▎         | 3291/100000 [1:59:48<39:30:02,  1.47s/it]                                                            3%|▎         | 3291/100000 [1:59:48<39:30:02,  1.47s/it]  3%|▎         | 3292/100000 [1:59:49<37:44:41,  1.41s/it]                                                            3%|▎         | 3292/100000 [1:59:49<37:44:41,  1.41s/it]  3%|▎         | 3293/100000 [1:59:50<35:54:49,  1.34s/it]                                                            3%|▎         | 3293/100000 [1:59:50<35:54:49,  1.34s/it]  3%|▎         | 3294/100000 [1:59:51<34:10:23,  1.27s/it]                                                            3%|▎         | 3294/100000 [1:59:51<34:10:23,  1.27s/it]  3%|▎         | 3295/100000 [1:59:52<32:39:12,  1.22s/it]                                                            3%|▎         | 3295/100000 [1:59:52<32:39:12,  1.22s/it]  3%|▎         | 3296/100000 [1:59:53<31:06:34,  1.16s/it]                                                            3%|▎         | 3296/100000 [1:59:53<31:06:34,  1.16s/it]  3%|▎         | 3297/100000 [1:59:54<29:35:25,  1.10s/it]                                                            3%|▎         | 3297/100000 [1:59:54<29:35:25,  1.10s/it]  3%|▎         | 3298/100000 [1:59:55<28:30:05,  1.06s/it]                                                            3%|▎         | 3298/100000 [1:59:55<28:30:05,  1.06s/it]  3%|▎         | 3299/100000 [1:59:56<27:40:21,  1.03s/it]                                                            3%|▎         | 3299/100000 [1:59:56<27:40:21,  1.03s/it]  3%|▎         | 3300/100000 [1:59:57<26:48:28,  1.00it/s]                                                            3%|▎         | 3300/100000 [1:59:57<26:48:28,  1.00it/s]  3%|▎         | 3301/100000 [1:59:58<26:03:01,  1.03it/s]                                                            3%|▎         | 3301/100000 [1:59:58<26:03:01,  1.03it/s]  3%|▎         | 3302/100000 [1:59:59<25:33:14,  1.05it/s]                                                            3%|▎         | 3302/100000 [1:59:59<25:33:14,  1.05it/s]  3%|▎         | 3303/100000 [2:00:00<25:14:30,  1.06it/s]                                                            3%|▎         | 3303/100000 [2:00:00<25:14:30,  1.06it/s]  3%|▎         | 3304/100000 [2:00:01<24:13:50,  1.11it/s]                                                            3%|▎         | 3304/100000 [2:00:01<24:13:50,  1.11it/s]  3%|▎         | 3305/100000 [2:00:01<23:24:12,  1.15it/s]                                                            3%|▎         | 3305/100000 [2:00:01<23:24:12,  1.15it/s]  3%|▎         | 3306/100000 [2:00:02<23:06:11,  1.16it/s]                                                            3%|▎         | 3306/100000 [2:00:02<23:06:11,  1.16it/s]  3%|▎         | 3307/100000 [2:00:03<22:22:54,  1.20it/s]                                                            3%|▎         | 3307/100000 [2:00:03<22:22:54,  1.20it/s]  3%|▎         | 3308/100000 [2:00:04<22:01:25,  1.22it/s]                                                            3%|▎         | 3308/100000 [2:00:04<22:01:25,  1.22it/s]  3%|▎         | 3309/100000 [2:00:05<21:11:06,  1.27it/s]                                                            3%|▎         | 3309/100000 [2:00:05<21:11:06,  1.27it/s]  3%|▎         | 3310/100000 [2:00:05<20:21:08,  1.32it/s]                                                            3%|▎         | 3310/100000 [2:00:05<20:21:08,  1.32it/s]  3%|▎         | 3311/100000 [2:00:18<118:09:04,  4.40s/it]                                                             3%|▎         | 3311/100000 [2:00:18<118:09:04,  4.40s/it]  3%|▎         | 3312/100000 [2:00:26<145:47:26,  5.43s/it]                                                             3%|▎         | 3312/100000 [2:00:26<145:47:26,  5.43s/it]  3%|▎         | 3313/100000 [2:00:32<148:55:54,  5.55s/it]                                                             3%|▎         | 3313/100000 [2:00:32<148:55:54,  5.55s/it]  3%|▎         | 3314/100000 [2:00:37<143:07:31,  5.33s/it]                                                             3%|▎         | 3314/100000 [2:00:37<143:07:31,  5.33s/it]  3%|▎         | 3315/100000 [2:00:41<132:31:08,  4.93s/it]                                                             3%|▎         | 3315/100000 [2:00:41<132:31:08,  4.93s/it]  3%|▎         | 3316/100000 [2:00:44<121:01:44,  4.51s/it]                                                             3%|▎         | 3316/100000 [2:00:44<121:01:44,  4.51s/it]  3%|▎         | 3317/100000 [2:00:47<109:26:06,  4.07s/it]                                                             3%|▎         | 3317/100000 [2:00:47<109:26:06,  4.07s/it]  3%|▎         | 3318/100000 [2:00:50<97:56:01,  3.65s/it]                                                             3%|▎         | 3318/100000 [2:00:50<97:56:01,  3.65s/it]  3%|▎         | 3319/100000 [2:00:52<87:07:57,  3.24s/it]                                                          {'loss': 0.2967, 'grad_norm': 1.4683008193969727, 'learning_rate': 9.693e-06, 'epoch': 21.01}
{'loss': 0.2363, 'grad_norm': 0.7822315692901611, 'learning_rate': 9.696e-06, 'epoch': 21.01}
{'loss': 0.2048, 'grad_norm': 0.9314041137695312, 'learning_rate': 9.699e-06, 'epoch': 21.02}
{'loss': 0.2345, 'grad_norm': 0.9965948462486267, 'learning_rate': 9.702000000000001e-06, 'epoch': 21.03}
{'loss': 0.1743, 'grad_norm': 0.8743925094604492, 'learning_rate': 9.705000000000001e-06, 'epoch': 21.03}
{'loss': 0.151, 'grad_norm': 0.7278618216514587, 'learning_rate': 9.708000000000001e-06, 'epoch': 21.04}
{'loss': 0.2072, 'grad_norm': 0.7967779636383057, 'learning_rate': 9.711e-06, 'epoch': 21.05}
{'loss': 0.1765, 'grad_norm': 0.9966423511505127, 'learning_rate': 9.713999999999999e-06, 'epoch': 21.05}
{'loss': 0.1635, 'grad_norm': 0.8546474575996399, 'learning_rate': 9.717e-06, 'epoch': 21.06}
{'loss': 0.1344, 'grad_norm': 1.5777084827423096, 'learning_rate': 9.72e-06, 'epoch': 21.06}
{'loss': 0.1187, 'grad_norm': 0.9047800898551941, 'learning_rate': 9.723e-06, 'epoch': 21.07}
{'loss': 0.1445, 'grad_norm': 0.8435916304588318, 'learning_rate': 9.726e-06, 'epoch': 21.08}
{'loss': 0.1236, 'grad_norm': 0.6720277070999146, 'learning_rate': 9.729e-06, 'epoch': 21.08}
{'loss': 0.1226, 'grad_norm': 0.6831014752388, 'learning_rate': 9.732000000000001e-06, 'epoch': 21.09}
{'loss': 0.1571, 'grad_norm': 1.110105037689209, 'learning_rate': 9.735e-06, 'epoch': 21.1}
{'loss': 0.1091, 'grad_norm': 0.8492193818092346, 'learning_rate': 9.738e-06, 'epoch': 21.1}
{'loss': 0.1301, 'grad_norm': 0.9435958862304688, 'learning_rate': 9.741e-06, 'epoch': 21.11}
{'loss': 0.0972, 'grad_norm': 0.9829345941543579, 'learning_rate': 9.744e-06, 'epoch': 21.12}
{'loss': 0.1177, 'grad_norm': 0.940345287322998, 'learning_rate': 9.747000000000002e-06, 'epoch': 21.12}
{'loss': 0.1161, 'grad_norm': 0.7959175705909729, 'learning_rate': 9.75e-06, 'epoch': 21.13}
{'loss': 0.1526, 'grad_norm': 0.985996425151825, 'learning_rate': 9.753e-06, 'epoch': 21.14}
{'loss': 0.1286, 'grad_norm': 0.9355310201644897, 'learning_rate': 9.756e-06, 'epoch': 21.14}
{'loss': 0.0951, 'grad_norm': 1.040711760520935, 'learning_rate': 9.759e-06, 'epoch': 21.15}
{'loss': 0.1088, 'grad_norm': 1.500330924987793, 'learning_rate': 9.762e-06, 'epoch': 21.16}
{'loss': 0.0977, 'grad_norm': 1.0221673250198364, 'learning_rate': 9.765e-06, 'epoch': 21.16}
{'loss': 0.0837, 'grad_norm': 1.0776246786117554, 'learning_rate': 9.768e-06, 'epoch': 21.17}
{'loss': 0.1114, 'grad_norm': 1.239689826965332, 'learning_rate': 9.771e-06, 'epoch': 21.18}
{'loss': 0.1919, 'grad_norm': 1.8799794912338257, 'learning_rate': 9.774e-06, 'epoch': 21.18}
{'loss': 0.0934, 'grad_norm': 1.4092357158660889, 'learning_rate': 9.777000000000001e-06, 'epoch': 21.19}
{'loss': 0.0745, 'grad_norm': 1.7178455591201782, 'learning_rate': 9.780000000000001e-06, 'epoch': 21.19}
{'loss': 0.0773, 'grad_norm': 1.2038991451263428, 'learning_rate': 9.783000000000001e-06, 'epoch': 21.2}
{'loss': 0.1454, 'grad_norm': 1.2458209991455078, 'learning_rate': 9.785999999999999e-06, 'epoch': 21.21}
{'loss': 0.1065, 'grad_norm': 2.3659520149230957, 'learning_rate': 9.788999999999999e-06, 'epoch': 21.21}
{'loss': 0.1686, 'grad_norm': 1.788451910018921, 'learning_rate': 9.792e-06, 'epoch': 21.22}
{'loss': 0.1338, 'grad_norm': 2.009840726852417, 'learning_rate': 9.795e-06, 'epoch': 21.23}
{'loss': 0.1025, 'grad_norm': 1.3766686916351318, 'learning_rate': 9.798e-06, 'epoch': 21.23}
{'loss': 0.0834, 'grad_norm': 1.6693127155303955, 'learning_rate': 9.801e-06, 'epoch': 21.24}
{'loss': 0.1287, 'grad_norm': 2.1156907081604004, 'learning_rate': 9.804e-06, 'epoch': 21.25}
{'loss': 0.3685, 'grad_norm': 2.3550734519958496, 'learning_rate': 9.807000000000001e-06, 'epoch': 21.25}
{'loss': 0.3642, 'grad_norm': 1.7139637470245361, 'learning_rate': 9.810000000000001e-06, 'epoch': 21.26}
{'loss': 0.2405, 'grad_norm': 1.0503305196762085, 'learning_rate': 9.813e-06, 'epoch': 21.27}
{'loss': 0.2372, 'grad_norm': 1.1896278858184814, 'learning_rate': 9.816e-06, 'epoch': 21.27}
{'loss': 0.2225, 'grad_norm': 0.9169639348983765, 'learning_rate': 9.819e-06, 'epoch': 21.28}
{'loss': 0.2543, 'grad_norm': 1.1591039896011353, 'learning_rate': 9.822e-06, 'epoch': 21.29}
{'loss': 0.1925, 'grad_norm': 0.899071216583252, 'learning_rate': 9.825e-06, 'epoch': 21.29}
{'loss': 0.2069, 'grad_norm': 1.034265160560608, 'learning_rate': 9.828e-06, 'epoch': 21.3}
{'loss': 0.1572, 'grad_norm': 1.8780226707458496, 'learning_rate': 9.831e-06, 'epoch': 21.31}
{'loss': 0.1596, 'grad_norm': 1.03871488571167, 'learning_rate': 9.834e-06, 'epoch': 21.31}
{'loss': 0.1395, 'grad_norm': 0.9658145904541016, 'learning_rate': 9.837000000000001e-06, 'epoch': 21.32}
{'loss': 0.1735, 'grad_norm': 0.6738370060920715, 'learning_rate': 9.84e-06, 'epoch': 21.32}
{'loss': 0.1792, 'grad_norm': 0.864210844039917, 'learning_rate': 9.843e-06, 'epoch': 21.33}
{'loss': 0.1117, 'grad_norm': 1.4702212810516357, 'learning_rate': 9.846e-06, 'epoch': 21.34}
{'loss': 0.1685, 'grad_norm': 1.2345139980316162, 'learning_rate': 9.849e-06, 'epoch': 21.34}
{'loss': 0.1021, 'grad_norm': 1.62801992893219, 'learning_rate': 9.852000000000002e-06, 'epoch': 21.35}
{'loss': 0.1328, 'grad_norm': 0.8586931228637695, 'learning_rate': 9.855000000000001e-06, 'epoch': 21.36}
{'loss': 0.1319, 'grad_norm': 1.1603790521621704, 'learning_rate': 9.858000000000001e-06, 'epoch': 21.36}
{'loss': 0.0979, 'grad_norm': 1.2046575546264648, 'learning_rate': 9.861e-06, 'epoch': 21.37}
{'loss': 0.1293, 'grad_norm': 1.2044565677642822, 'learning_rate': 9.863999999999999e-06, 'epoch': 21.38}
{'loss': 0.1143, 'grad_norm': 0.9726055860519409, 'learning_rate': 9.867e-06, 'epoch': 21.38}
{'loss': 0.1105, 'grad_norm': 0.9060689210891724, 'learning_rate': 9.87e-06, 'epoch': 21.39}
{'loss': 0.0799, 'grad_norm': 1.001508355140686, 'learning_rate': 9.873e-06, 'epoch': 21.4}
{'loss': 0.2082, 'grad_norm': 1.7626231908798218, 'learning_rate': 9.876e-06, 'epoch': 21.4}
{'loss': 0.1407, 'grad_norm': 1.0152323246002197, 'learning_rate': 9.879e-06, 'epoch': 21.41}
{'loss': 0.1075, 'grad_norm': 1.7576465606689453, 'learning_rate': 9.882000000000001e-06, 'epoch': 21.42}
{'loss': 0.1146, 'grad_norm': 1.2339911460876465, 'learning_rate': 9.885000000000001e-06, 'epoch': 21.42}
{'loss': 0.1976, 'grad_norm': 1.3643463850021362, 'learning_rate': 9.888000000000001e-06, 'epoch': 21.43}
{'loss': 0.1192, 'grad_norm': 1.4314460754394531, 'learning_rate': 9.891e-06, 'epoch': 21.44}
{'loss': 0.1163, 'grad_norm': 1.1780312061309814, 'learning_rate': 9.894e-06, 'epoch': 21.44}
{'loss': 0.0985, 'grad_norm': 1.9025728702545166, 'learning_rate': 9.897e-06, 'epoch': 21.45}
{'loss': 0.1202, 'grad_norm': 2.7461097240448, 'learning_rate': 9.9e-06, 'epoch': 21.45}
{'loss': 0.0987, 'grad_norm': 1.3892455101013184, 'learning_rate': 9.903e-06, 'epoch': 21.46}
{'loss': 0.0884, 'grad_norm': 1.2478103637695312, 'learning_rate': 9.906e-06, 'epoch': 21.47}
{'loss': 0.1203, 'grad_norm': 1.5720375776290894, 'learning_rate': 9.909e-06, 'epoch': 21.47}
{'loss': 0.1354, 'grad_norm': 2.2577385902404785, 'learning_rate': 9.912000000000001e-06, 'epoch': 21.48}
{'loss': 0.0742, 'grad_norm': 2.4948782920837402, 'learning_rate': 9.915e-06, 'epoch': 21.49}
{'loss': 0.1027, 'grad_norm': 3.5930192470550537, 'learning_rate': 9.918e-06, 'epoch': 21.49}
{'loss': 0.3721, 'grad_norm': 2.545978546142578, 'learning_rate': 9.921e-06, 'epoch': 21.5}
{'loss': 0.2752, 'grad_norm': 1.4446616172790527, 'learning_rate': 9.924e-06, 'epoch': 21.51}
{'loss': 0.2621, 'grad_norm': 1.0795055627822876, 'learning_rate': 9.927000000000002e-06, 'epoch': 21.51}
{'loss': 0.2387, 'grad_norm': 0.7558190226554871, 'learning_rate': 9.930000000000001e-06, 'epoch': 21.52}
{'loss': 0.1846, 'grad_norm': 0.8171646595001221, 'learning_rate': 9.933e-06, 'epoch': 21.53}
{'loss': 0.1964, 'grad_norm': 1.088918685913086, 'learning_rate': 9.936e-06, 'epoch': 21.53}
{'loss': 0.2179, 'grad_norm': 0.9942890405654907, 'learning_rate': 9.939e-06, 'epoch': 21.54}
{'loss': 0.1606, 'grad_norm': 1.9721277952194214, 'learning_rate': 9.941999999999999e-06, 'epoch': 21.55}
  3%|▎         | 3319/100000 [2:00:52<87:07:57,  3.24s/it]  3%|▎         | 3320/100000 [2:00:54<78:11:00,  2.91s/it]                                                            3%|▎         | 3320/100000 [2:00:54<78:11:00,  2.91s/it]  3%|▎         | 3321/100000 [2:00:56<70:43:10,  2.63s/it]                                                            3%|▎         | 3321/100000 [2:00:56<70:43:10,  2.63s/it]  3%|▎         | 3322/100000 [2:00:58<64:02:50,  2.38s/it]                                                            3%|▎         | 3322/100000 [2:00:58<64:02:50,  2.38s/it]  3%|▎         | 3323/100000 [2:01:00<58:53:37,  2.19s/it]                                                            3%|▎         | 3323/100000 [2:01:00<58:53:37,  2.19s/it]  3%|▎         | 3324/100000 [2:01:01<54:06:27,  2.01s/it]                                                            3%|▎         | 3324/100000 [2:01:01<54:06:27,  2.01s/it]  3%|▎         | 3325/100000 [2:01:03<50:42:49,  1.89s/it]                                                            3%|▎         | 3325/100000 [2:01:03<50:42:49,  1.89s/it]  3%|▎         | 3326/100000 [2:01:04<46:57:45,  1.75s/it]                                                            3%|▎         | 3326/100000 [2:01:04<46:57:45,  1.75s/it]  3%|▎         | 3327/100000 [2:01:06<44:00:05,  1.64s/it]                                                            3%|▎         | 3327/100000 [2:01:06<44:00:05,  1.64s/it]  3%|▎         | 3328/100000 [2:01:07<41:49:01,  1.56s/it]                                                            3%|▎         | 3328/100000 [2:01:07<41:49:01,  1.56s/it]  3%|▎         | 3329/100000 [2:01:08<39:48:05,  1.48s/it]                                                            3%|▎         | 3329/100000 [2:01:08<39:48:05,  1.48s/it]  3%|▎         | 3330/100000 [2:01:10<37:45:04,  1.41s/it]                                                            3%|▎         | 3330/100000 [2:01:10<37:45:04,  1.41s/it]  3%|▎         | 3331/100000 [2:01:11<35:57:56,  1.34s/it]                                                            3%|▎         | 3331/100000 [2:01:11<35:57:56,  1.34s/it]  3%|▎         | 3332/100000 [2:01:12<34:05:39,  1.27s/it]                                                            3%|▎         | 3332/100000 [2:01:12<34:05:39,  1.27s/it]  3%|▎         | 3333/100000 [2:01:13<32:45:54,  1.22s/it]                                                            3%|▎         | 3333/100000 [2:01:13<32:45:54,  1.22s/it]  3%|▎         | 3334/100000 [2:01:14<31:19:19,  1.17s/it]                                                            3%|▎         | 3334/100000 [2:01:14<31:19:19,  1.17s/it]  3%|▎         | 3335/100000 [2:01:15<30:09:56,  1.12s/it]                                                            3%|▎         | 3335/100000 [2:01:15<30:09:56,  1.12s/it]  3%|▎         | 3336/100000 [2:01:16<28:51:48,  1.07s/it]                                                            3%|▎         | 3336/100000 [2:01:16<28:51:48,  1.07s/it]  3%|▎         | 3337/100000 [2:01:17<27:56:51,  1.04s/it]                                                            3%|▎         | 3337/100000 [2:01:17<27:56:51,  1.04s/it]  3%|▎         | 3338/100000 [2:01:18<27:00:46,  1.01s/it]                                                            3%|▎         | 3338/100000 [2:01:18<27:00:46,  1.01s/it]  3%|▎         | 3339/100000 [2:01:19<26:03:26,  1.03it/s]                                                            3%|▎         | 3339/100000 [2:01:19<26:03:26,  1.03it/s]  3%|▎         | 3340/100000 [2:01:20<24:42:13,  1.09it/s]                                                            3%|▎         | 3340/100000 [2:01:20<24:42:13,  1.09it/s]  3%|▎         | 3341/100000 [2:01:21<23:40:04,  1.13it/s]                                                            3%|▎         | 3341/100000 [2:01:21<23:40:04,  1.13it/s]  3%|▎         | 3342/100000 [2:01:21<23:40:18,  1.13it/s]                                                            3%|▎         | 3342/100000 [2:01:21<23:40:18,  1.13it/s]  3%|▎         | 3343/100000 [2:01:22<23:14:33,  1.16it/s]                                                            3%|▎         | 3343/100000 [2:01:22<23:14:33,  1.16it/s]  3%|▎         | 3344/100000 [2:01:23<23:16:13,  1.15it/s]                                                            3%|▎         | 3344/100000 [2:01:23<23:16:13,  1.15it/s]  3%|▎         | 3345/100000 [2:01:24<22:39:19,  1.19it/s]                                                            3%|▎         | 3345/100000 [2:01:24<22:39:19,  1.19it/s]  3%|▎         | 3346/100000 [2:01:25<22:05:32,  1.22it/s]                                                            3%|▎         | 3346/100000 [2:01:25<22:05:32,  1.22it/s]  3%|▎         | 3347/100000 [2:01:25<21:47:51,  1.23it/s]                                                            3%|▎         | 3347/100000 [2:01:25<21:47:51,  1.23it/s]  3%|▎         | 3348/100000 [2:01:26<21:21:28,  1.26it/s]                                                            3%|▎         | 3348/100000 [2:01:26<21:21:28,  1.26it/s]  3%|▎         | 3349/100000 [2:01:39<120:15:30,  4.48s/it]                                                             3%|▎         | 3349/100000 [2:01:39<120:15:30,  4.48s/it]  3%|▎         | 3350/100000 [2:01:47<147:36:33,  5.50s/it]                                                             3%|▎         | 3350/100000 [2:01:47<147:36:33,  5.50s/it]  3%|▎         | 3351/100000 [2:01:53<146:44:18,  5.47s/it]                                                             3%|▎         | 3351/100000 [2:01:53<146:44:18,  5.47s/it]  3%|▎         | 3352/100000 [2:01:57<139:58:14,  5.21s/it]                                                             3%|▎         | 3352/100000 [2:01:57<139:58:14,  5.21s/it]  3%|▎         | 3353/100000 [2:02:01<129:08:07,  4.81s/it]                                                             3%|▎         | 3353/100000 [2:02:01<129:08:07,  4.81s/it]  3%|▎         | 3354/100000 [2:02:05<119:38:11,  4.46s/it]                                                             3%|▎         | 3354/100000 [2:02:05<119:38:11,  4.46s/it]  3%|▎         | 3355/100000 [2:02:08<108:44:06,  4.05s/it]                                                             3%|▎         | 3355/100000 [2:02:08<108:44:06,  4.05s/it]  3%|▎         | 3356/100000 [2:02:11<99:05:20,  3.69s/it]                                                             3%|▎         | 3356/100000 [2:02:11<99:05:20,  3.69s/it]  3%|▎         | 3357/100000 [2:02:13<89:47:46,  3.34s/it]                                                            3%|▎         | 3357/100000 [2:02:13<89:47:46,  3.34s/it]  3%|▎         | 3358/100000 [2:02:15<80:56:57,  3.02s/it]                                                            3%|▎         | 3358/100000 [2:02:15<80:56:57,  3.02s/it]  3%|▎         | 3359/100000 [2:02:17<73:28:47,  2.74s/it]                                                            3%|▎         | 3359/100000 [2:02:17<73:28:47,  2.74s/it]  3%|▎         | 3360/100000 [2:02:19<67:00:42,  2.50s/it]                                                            3%|▎         | 3360/100000 [2:02:19<67:00:42,  2.50s/it]  3%|▎         | 3361/100000 [2:02:21<61:47:12,  2.30s/it]                                                            3%|▎         | 3361/100000 [2:02:21<61:47:12,  2.30s/it]  3%|▎         | 3362/100000 [2:02:23<57:08:35,  2.13s/it]                                                            3%|▎         | 3362/100000 [2:02:23<57:08:35,  2.13s/it]  3%|▎         | 3363/100000 [2:02:25<53:01:19,  1.98s/it]                                                            3%|▎         | 3363/100000 [2:02:25<53:01:19,  1.98s/it]  3%|▎         | 3364/100000 [2:02:26<49:49:49,  1.86s/it]                                                            3%|▎         | 3364/100000 [2:02:26<49:49:49,  1.86s/it]  3%|▎         | 3365/100000 [2:02:28<46:41:37,  1.74s/it]                                                            3%|▎         | 3365/100000 [2:02:28<46:41:37,  1.74s/it]  3%|▎         | 3366/100000 [2:02:29<43:41:17,  1.63s/it]                                                            3%|▎         | 3366/100000 [2:02:29<43:41:17,  1.63s/it]  3%|▎         | 3367/100000 [2:02:30<41:23:33,  1.54s/it]                                                            3%|▎         | 3367/100000 [2:02:30<41:23:33,  1.54s/it]  3%|▎         | 3368/100000 [2:02:32<39:17:06,  1.46s/it]                                                            3%|▎         | 3368/100000 [2:02:32<39:17:06,  1.46s/it]  3%|▎         | 3369/100000 [2:02:33<37:02:24,  1.38s/it]                                                            3%|▎         | 3369/100000 [2:02:33<37:02:24,  1.38s/it]  3%|▎         | 3370/100000 [2:02:34<34:55:10,  1.30s/it]                                                            3%|▎         | 3370/100000 [2:02:34<34:55:10,  1.30s/it]  3%|▎         | 3371/100000 [2:02:35<33:10:19,  1.24s/it]                                                            3%|▎         | 3371/100000 [2:02:35<33:10:19,  1.24s/it]  3%|▎         | 3372/100000 [2:02:36<31:41:43,  1.18s/it]                                                            3%|▎         | 3372/100000 [2:02:36<31:41:43,  1.18s/it]  3%|▎         | 3373/100000 [2:02:37<30:20:38,  1.13s/it]                                                            3%|▎         | 3373/100000 [2:02:37<30:20:38,  1.13s/it]  3%|▎         | 3374/100000 [2:02:38<29:06:46,  1.08s/it]                                                            3%|▎         | 3374/100000 [2:02:38<29:06:46,  1.08s/it]  3%|▎         | 3375/100000 [2:02:39<28:07:19,  1.05s/it]                                                            3%|▎         | 3375/100000 [2:02:39<28:07:19,  1.05s/it]  3%|▎         | 3376/100000 [2:02:40<27:09:51,  1.01s/it]                                                            3%|▎         | 3376/100000 [2:02:40<27:09:51,  1.01s/it]  3%|▎         | 3377/100000 [2:02:41<26:29:06,  1.01it/s]                                                            3%|▎         | 3377/100000 [2:02:41<26:29:06,  1.01it/s]  3%|▎         | 3378/100000 [2:02:42<25:43:28,  1.04it/s]                                                            3%|▎         | 3378/100000 [2:02:42<25:43:28,  1.04it/s]  3%|▎         | 3379/100000 [2:02:43<25:06:28,  1.07it/s]                                                            3%|▎         | 3379/100000 [2:02:43<25:06:28,  1.07it/s]  3%|▎         | 3380/100000 [2:02:43<24:12:46,  1.11it/s]                                                            3%|▎         | 3380/100000 [2:02:43<24:12:46,  1.11it/s]  3%|▎         | 3381/100000 [2:02:44<23:22:19,  1.15it/s]                                                            3%|▎         | 3381/100000 [2:02:44<23:22:19,  1.15it/s]  3%|▎         | 3382/100000 [2:02:45<22:57:41,  1.17it/s]                                                            3%|▎         | 3382/100000 [2:02:45<22:57:41,  1.17it/s]  3%|▎         | 3383/100000 [2:02:46<22:11:08,  1.21it/s]                                                            3%|▎         | 3383/100000 [2:02:46<22:11:08,  1.21it/s]  3%|▎         | 3384/100000 [2:02:47<21:29:49,  1.25it/s]                                                            3%|▎         | 3384/100000 [2:02:47<21:29:49,  1.25it/s]  3%|▎         | 3385/100000 [2:02:47<20:56:18,  1.28it/s]                                                            3%|▎         | 3385/100000 [2:02:47<20:56:18,  1.28it/s]  3%|▎         | 3386/100000 [2:02:48<20:27:20,  1.31it/s]                                                            3%|▎         | 3386/100000 [2:02:48<20:27:20,  1.31it/s]  3%|▎         | 3387/100000 [2:02:55<67:41:21,  2.52s/it]                                                            3%|▎         | 3387/100000 [2:02:55<67:41:21,  2.52s/it]  3%|▎         | 3388/100000 [2:02:56<57:28:50,  2.14s/it]                                                            3%|▎         | 3388/100000 [2:02:56<57:28:50,  2.14s/it]{'loss': 0.3008, 'grad_norm': 1.4295716285705566, 'learning_rate': 9.945e-06, 'epoch': 21.55}
{'loss': 0.1688, 'grad_norm': 0.9158417582511902, 'learning_rate': 9.948e-06, 'epoch': 21.56}
{'loss': 0.1251, 'grad_norm': 0.7775383591651917, 'learning_rate': 9.951e-06, 'epoch': 21.56}
{'loss': 0.1179, 'grad_norm': 0.6163461208343506, 'learning_rate': 9.954e-06, 'epoch': 21.57}
{'loss': 0.1311, 'grad_norm': 0.7292741537094116, 'learning_rate': 9.957e-06, 'epoch': 21.58}
{'loss': 0.1156, 'grad_norm': 0.7015308737754822, 'learning_rate': 9.960000000000001e-06, 'epoch': 21.58}
{'loss': 0.1421, 'grad_norm': 1.2399728298187256, 'learning_rate': 9.963000000000001e-06, 'epoch': 21.59}
{'loss': 0.0921, 'grad_norm': 0.8120842576026917, 'learning_rate': 9.966e-06, 'epoch': 21.6}
{'loss': 0.0993, 'grad_norm': 0.7743186354637146, 'learning_rate': 9.969e-06, 'epoch': 21.6}
{'loss': 0.1202, 'grad_norm': 0.8667427897453308, 'learning_rate': 9.971999999999999e-06, 'epoch': 21.61}
{'loss': 0.1124, 'grad_norm': 0.8377293348312378, 'learning_rate': 9.975e-06, 'epoch': 21.62}
{'loss': 0.1064, 'grad_norm': 0.9574854969978333, 'learning_rate': 9.978e-06, 'epoch': 21.62}
{'loss': 0.1237, 'grad_norm': 0.9263424277305603, 'learning_rate': 9.981e-06, 'epoch': 21.63}
{'loss': 0.1568, 'grad_norm': 0.9255545735359192, 'learning_rate': 9.984e-06, 'epoch': 21.64}
{'loss': 0.1013, 'grad_norm': 1.1190905570983887, 'learning_rate': 9.987e-06, 'epoch': 21.64}
{'loss': 0.1555, 'grad_norm': 1.0499032735824585, 'learning_rate': 9.990000000000001e-06, 'epoch': 21.65}
{'loss': 0.137, 'grad_norm': 1.3904476165771484, 'learning_rate': 9.993e-06, 'epoch': 21.66}
{'loss': 0.1283, 'grad_norm': 1.0436029434204102, 'learning_rate': 9.996e-06, 'epoch': 21.66}
{'loss': 0.0859, 'grad_norm': 0.925941526889801, 'learning_rate': 9.999e-06, 'epoch': 21.67}
{'loss': 0.1376, 'grad_norm': 1.330871343612671, 'learning_rate': 1.0002e-05, 'epoch': 21.68}
{'loss': 0.1118, 'grad_norm': 1.4818356037139893, 'learning_rate': 1.0005000000000002e-05, 'epoch': 21.68}
{'loss': 0.0958, 'grad_norm': 1.2823514938354492, 'learning_rate': 1.0008e-05, 'epoch': 21.69}
{'loss': 0.102, 'grad_norm': 1.9394755363464355, 'learning_rate': 1.0011e-05, 'epoch': 21.69}
{'loss': 0.0919, 'grad_norm': 1.0980432033538818, 'learning_rate': 1.0014e-05, 'epoch': 21.7}
{'loss': 0.1149, 'grad_norm': 1.155956506729126, 'learning_rate': 1.0016999999999999e-05, 'epoch': 21.71}
{'loss': 0.0658, 'grad_norm': 0.9705266952514648, 'learning_rate': 1.002e-05, 'epoch': 21.71}
{'loss': 0.1522, 'grad_norm': 1.9962263107299805, 'learning_rate': 1.0023e-05, 'epoch': 21.72}
{'loss': 0.1515, 'grad_norm': 1.6016356945037842, 'learning_rate': 1.0026e-05, 'epoch': 21.73}
{'loss': 0.1116, 'grad_norm': 2.048776626586914, 'learning_rate': 1.0029e-05, 'epoch': 21.73}
{'loss': 0.2313, 'grad_norm': 3.3937830924987793, 'learning_rate': 1.0032e-05, 'epoch': 21.74}
{'loss': 0.3564, 'grad_norm': 1.478018879890442, 'learning_rate': 1.0035000000000001e-05, 'epoch': 21.75}
{'loss': 0.3222, 'grad_norm': 1.190523386001587, 'learning_rate': 1.0038000000000001e-05, 'epoch': 21.75}
{'loss': 0.3063, 'grad_norm': 1.150460958480835, 'learning_rate': 1.0041000000000001e-05, 'epoch': 21.76}
{'loss': 0.2967, 'grad_norm': 1.174225926399231, 'learning_rate': 1.0043999999999999e-05, 'epoch': 21.77}
{'loss': 0.2212, 'grad_norm': 0.977757453918457, 'learning_rate': 1.0046999999999999e-05, 'epoch': 21.77}
{'loss': 0.193, 'grad_norm': 1.1746861934661865, 'learning_rate': 1.005e-05, 'epoch': 21.78}
{'loss': 0.1696, 'grad_norm': 0.7518811821937561, 'learning_rate': 1.0053e-05, 'epoch': 21.79}
{'loss': 0.1914, 'grad_norm': 0.6296218633651733, 'learning_rate': 1.0056e-05, 'epoch': 21.79}
{'loss': 0.1519, 'grad_norm': 0.7802462577819824, 'learning_rate': 1.0059e-05, 'epoch': 21.8}
{'loss': 0.1651, 'grad_norm': 0.9667266011238098, 'learning_rate': 1.0062e-05, 'epoch': 21.81}
{'loss': 0.1569, 'grad_norm': 0.9221447706222534, 'learning_rate': 1.0065000000000001e-05, 'epoch': 21.81}
{'loss': 0.127, 'grad_norm': 0.8278853893280029, 'learning_rate': 1.0068e-05, 'epoch': 21.82}
{'loss': 0.1423, 'grad_norm': 0.8583475947380066, 'learning_rate': 1.0071e-05, 'epoch': 21.82}
{'loss': 0.136, 'grad_norm': 0.6328392624855042, 'learning_rate': 1.0074e-05, 'epoch': 21.83}
{'loss': 0.136, 'grad_norm': 0.6997376084327698, 'learning_rate': 1.0077e-05, 'epoch': 21.84}
{'loss': 0.113, 'grad_norm': 0.7054926753044128, 'learning_rate': 1.008e-05, 'epoch': 21.84}
{'loss': 0.1427, 'grad_norm': 0.9663823843002319, 'learning_rate': 1.0083e-05, 'epoch': 21.85}
{'loss': 0.1217, 'grad_norm': 0.7659276723861694, 'learning_rate': 1.0086e-05, 'epoch': 21.86}
{'loss': 0.1043, 'grad_norm': 0.8534876108169556, 'learning_rate': 1.0089e-05, 'epoch': 21.86}
{'loss': 0.1073, 'grad_norm': 0.6803724765777588, 'learning_rate': 1.0092e-05, 'epoch': 21.87}
{'loss': 0.1623, 'grad_norm': 0.9612712860107422, 'learning_rate': 1.0095e-05, 'epoch': 21.88}
{'loss': 0.125, 'grad_norm': 0.992729663848877, 'learning_rate': 1.0098e-05, 'epoch': 21.88}
{'loss': 0.1185, 'grad_norm': 0.8952024579048157, 'learning_rate': 1.0101e-05, 'epoch': 21.89}
{'loss': 0.2034, 'grad_norm': 1.2077174186706543, 'learning_rate': 1.0104e-05, 'epoch': 21.9}
{'loss': 0.1559, 'grad_norm': 1.0613670349121094, 'learning_rate': 1.0107e-05, 'epoch': 21.9}
{'loss': 0.1203, 'grad_norm': 1.4649192094802856, 'learning_rate': 1.0110000000000001e-05, 'epoch': 21.91}
{'loss': 0.1146, 'grad_norm': 2.4447309970855713, 'learning_rate': 1.0113000000000001e-05, 'epoch': 21.92}
{'loss': 0.1934, 'grad_norm': 1.5157697200775146, 'learning_rate': 1.0116000000000001e-05, 'epoch': 21.92}
{'loss': 0.1184, 'grad_norm': 1.3307456970214844, 'learning_rate': 1.0119e-05, 'epoch': 21.93}
{'loss': 0.1004, 'grad_norm': 1.488857388496399, 'learning_rate': 1.0121999999999999e-05, 'epoch': 21.94}
{'loss': 0.1398, 'grad_norm': 1.4543424844741821, 'learning_rate': 1.0125e-05, 'epoch': 21.94}
{'loss': 0.1151, 'grad_norm': 1.3373620510101318, 'learning_rate': 1.0128e-05, 'epoch': 21.95}
{'loss': 0.0804, 'grad_norm': 1.6872667074203491, 'learning_rate': 1.0131e-05, 'epoch': 21.95}
{'loss': 0.0786, 'grad_norm': 1.3534468412399292, 'learning_rate': 1.0134e-05, 'epoch': 21.96}
{'loss': 0.1326, 'grad_norm': 1.87277352809906, 'learning_rate': 1.0137e-05, 'epoch': 21.97}
{'loss': 0.1195, 'grad_norm': 2.047382116317749, 'learning_rate': 1.0140000000000001e-05, 'epoch': 21.97}
{'loss': 0.1398, 'grad_norm': 3.433851957321167, 'learning_rate': 1.0143000000000001e-05, 'epoch': 21.98}
{'loss': 0.1971, 'grad_norm': 2.8498711585998535, 'learning_rate': 1.0146e-05, 'epoch': 21.99}
{'loss': 0.1575, 'grad_norm': 1.0983561277389526, 'learning_rate': 1.0149e-05, 'epoch': 21.99}
{'loss': 0.1102, 'grad_norm': 1.5184481143951416, 'learning_rate': 1.0152e-05, 'epoch': 22.0}
  3%|▎         | 3389/100000 [2:03:13<178:42:18,  6.66s/it]                                                             3%|▎         | 3389/100000 [2:03:13<178:42:18,  6.66s/it]  3%|▎         | 3390/100000 [2:03:21<186:36:32,  6.95s/it]                                                             3%|▎         | 3390/100000 [2:03:21<186:36:32,  6.95s/it]  3%|▎         | 3391/100000 [2:03:26<170:26:00,  6.35s/it]                                                             3%|▎         | 3391/100000 [2:03:26<170:26:00,  6.35s/it]  3%|▎         | 3392/100000 [2:03:30<154:10:56,  5.75s/it]                                                             3%|▎         | 3392/100000 [2:03:30<154:10:56,  5.75s/it]  3%|▎         | 3393/100000 [2:03:34<138:14:12,  5.15s/it]                                                             3%|▎         | 3393/100000 [2:03:34<138:14:12,  5.15s/it]  3%|▎         | 3394/100000 [2:03:37<123:17:37,  4.59s/it]                                                             3%|▎         | 3394/100000 [2:03:37<123:17:37,  4.59s/it]  3%|▎         | 3395/100000 [2:03:40<108:40:26,  4.05s/it]                                                             3%|▎         | 3395/100000 [2:03:40<108:40:26,  4.05s/it]  3%|▎         | 3396/100000 [2:03:42<96:57:01,  3.61s/it]                                                             3%|▎         | 3396/100000 [2:03:43<96:57:01,  3.61s/it]  3%|▎         | 3397/100000 [2:03:45<86:20:53,  3.22s/it]                                                            3%|▎         | 3397/100000 [2:03:45<86:20:53,  3.22s/it]  3%|▎         | 3398/100000 [2:03:47<77:23:18,  2.88s/it]                                                            3%|▎         | 3398/100000 [2:03:47<77:23:18,  2.88s/it]  3%|▎         | 3399/100000 [2:03:49<69:54:08,  2.61s/it]                                                            3%|▎         | 3399/100000 [2:03:49<69:54:08,  2.61s/it]  3%|▎         | 3400/100000 [2:03:51<63:19:23,  2.36s/it]                                                            3%|▎         | 3400/100000 [2:03:51<63:19:23,  2.36s/it]  3%|▎         | 3401/100000 [2:03:52<57:45:08,  2.15s/it]                                                            3%|▎         | 3401/100000 [2:03:52<57:45:08,  2.15s/it]  3%|▎         | 3402/100000 [2:03:54<53:27:33,  1.99s/it]                                                            3%|▎         | 3402/100000 [2:03:54<53:27:33,  1.99s/it]  3%|▎         | 3403/100000 [2:03:55<50:07:28,  1.87s/it]                                                            3%|▎         | 3403/100000 [2:03:56<50:07:28,  1.87s/it]  3%|▎         | 3404/100000 [2:03:57<46:21:51,  1.73s/it]                                                            3%|▎         | 3404/100000 [2:03:57<46:21:51,  1.73s/it]  3%|▎         | 3405/100000 [2:03:58<43:36:55,  1.63s/it]                                                            3%|▎         | 3405/100000 [2:03:58<43:36:55,  1.63s/it]  3%|▎         | 3406/100000 [2:04:00<41:27:55,  1.55s/it]                                                            3%|▎         | 3406/100000 [2:04:00<41:27:55,  1.55s/it]  3%|▎         | 3407/100000 [2:04:01<39:31:37,  1.47s/it]                                                            3%|▎         | 3407/100000 [2:04:01<39:31:37,  1.47s/it]  3%|▎         | 3408/100000 [2:04:02<37:42:40,  1.41s/it]                                                            3%|▎         | 3408/100000 [2:04:02<37:42:40,  1.41s/it]  3%|▎         | 3409/100000 [2:04:03<35:53:49,  1.34s/it]                                                            3%|▎         | 3409/100000 [2:04:03<35:53:49,  1.34s/it]  3%|▎         | 3410/100000 [2:04:04<34:04:02,  1.27s/it]                                                            3%|▎         | 3410/100000 [2:04:04<34:04:02,  1.27s/it]  3%|▎         | 3411/100000 [2:04:06<32:19:45,  1.20s/it]                                                            3%|▎         | 3411/100000 [2:04:06<32:19:45,  1.20s/it]  3%|▎         | 3412/100000 [2:04:07<30:39:33,  1.14s/it]                                                            3%|▎         | 3412/100000 [2:04:07<30:39:33,  1.14s/it]  3%|▎         | 3413/100000 [2:04:07<29:10:54,  1.09s/it]                                                            3%|▎         | 3413/100000 [2:04:08<29:10:54,  1.09s/it]  3%|▎         | 3414/100000 [2:04:08<27:53:14,  1.04s/it]                                                            3%|▎         | 3414/100000 [2:04:08<27:53:14,  1.04s/it]  3%|▎         | 3415/100000 [2:04:09<26:45:59,  1.00it/s]                                                            3%|▎         | 3415/100000 [2:04:09<26:45:59,  1.00it/s]  3%|▎         | 3416/100000 [2:04:10<25:51:53,  1.04it/s]                                                            3%|▎         | 3416/100000 [2:04:10<25:51:53,  1.04it/s]  3%|▎         | 3417/100000 [2:04:11<25:20:50,  1.06it/s]                                                            3%|▎         | 3417/100000 [2:04:11<25:20:50,  1.06it/s]  3%|▎         | 3418/100000 [2:04:12<24:45:11,  1.08it/s]                                                            3%|▎         | 3418/100000 [2:04:12<24:45:11,  1.08it/s]  3%|▎         | 3419/100000 [2:04:13<24:19:58,  1.10it/s]                                                            3%|▎         | 3419/100000 [2:04:13<24:19:58,  1.10it/s]  3%|▎         | 3420/100000 [2:04:14<23:40:15,  1.13it/s]                                                            3%|▎         | 3420/100000 [2:04:14<23:40:15,  1.13it/s]  3%|▎         | 3421/100000 [2:04:14<23:00:17,  1.17it/s]                                                            3%|▎         | 3421/100000 [2:04:14<23:00:17,  1.17it/s]  3%|▎         | 3422/100000 [2:04:15<21:54:27,  1.22it/s]                                                            3%|▎         | 3422/100000 [2:04:15<21:54:27,  1.22it/s]  3%|▎         | 3423/100000 [2:04:16<21:46:49,  1.23it/s]                                                            3%|▎         | 3423/100000 [2:04:16<21:46:49,  1.23it/s]  3%|▎         | 3424/100000 [2:04:17<20:36:41,  1.30it/s]                                                            3%|▎         | 3424/100000 [2:04:17<20:36:41,  1.30it/s]  3%|▎         | 3425/100000 [2:04:17<19:43:27,  1.36it/s]                                                            3%|▎         | 3425/100000 [2:04:17<19:43:27,  1.36it/s]  3%|▎         | 3426/100000 [2:04:18<19:06:17,  1.40it/s]                                                            3%|▎         | 3426/100000 [2:04:18<19:06:17,  1.40it/s]  3%|▎         | 3427/100000 [2:04:31<118:24:08,  4.41s/it]                                                             3%|▎         | 3427/100000 [2:04:31<118:24:08,  4.41s/it]  3%|▎         | 3428/100000 [2:04:39<145:52:03,  5.44s/it]                                                             3%|▎         | 3428/100000 [2:04:39<145:52:03,  5.44s/it]  3%|▎         | 3429/100000 [2:04:44<146:37:57,  5.47s/it]                                                             3%|▎         | 3429/100000 [2:04:44<146:37:57,  5.47s/it]  3%|▎         | 3430/100000 [2:04:49<139:20:50,  5.19s/it]                                                             3%|▎         | 3430/100000 [2:04:49<139:20:50,  5.19s/it]  3%|▎         | 3431/100000 [2:04:53<128:54:52,  4.81s/it]                                                             3%|▎         | 3431/100000 [2:04:53<128:54:52,  4.81s/it]  3%|▎         | 3432/100000 [2:04:56<116:37:30,  4.35s/it]                                                             3%|▎         | 3432/100000 [2:04:56<116:37:30,  4.35s/it]  3%|▎         | 3433/100000 [2:04:59<106:00:19,  3.95s/it]                                                             3%|▎         | 3433/100000 [2:04:59<106:00:19,  3.95s/it]  3%|▎         | 3434/100000 [2:05:02<94:50:00,  3.54s/it]                                                             3%|▎         | 3434/100000 [2:05:02<94:50:00,  3.54s/it]  3%|▎         | 3435/100000 [2:05:04<84:59:28,  3.17s/it]                                                            3%|▎         | 3435/100000 [2:05:04<84:59:28,  3.17s/it]  3%|▎         | 3436/100000 [2:05:06<76:25:33,  2.85s/it]                                                            3%|▎         | 3436/100000 [2:05:06<76:25:33,  2.85s/it]  3%|▎         | 3437/100000 [2:05:08<68:58:40,  2.57s/it]                                                            3%|▎         | 3437/100000 [2:05:08<68:58:40,  2.57s/it]  3%|▎         | 3438/100000 [2:05:10<63:04:42,  2.35s/it]                                                            3%|▎         | 3438/100000 [2:05:10<63:04:42,  2.35s/it]  3%|▎         | 3439/100000 [2:05:12<57:57:39,  2.16s/it]                                                            3%|▎         | 3439/100000 [2:05:12<57:57:39,  2.16s/it]  3%|▎         | 3440/100000 [2:05:13<53:26:46,  1.99s/it]                                                            3%|▎         | 3440/100000 [2:05:13<53:26:46,  1.99s/it]  3%|▎         | 3441/100000 [2:05:15<49:30:33,  1.85s/it]                                                            3%|▎         | 3441/100000 [2:05:15<49:30:33,  1.85s/it]  3%|▎         | 3442/100000 [2:05:16<46:06:19,  1.72s/it]                                                            3%|▎         | 3442/100000 [2:05:16<46:06:19,  1.72s/it]  3%|▎         | 3443/100000 [2:05:18<43:35:45,  1.63s/it]                                                            3%|▎         | 3443/100000 [2:05:18<43:35:45,  1.63s/it]  3%|▎         | 3444/100000 [2:05:19<40:53:12,  1.52s/it]                                                            3%|▎         | 3444/100000 [2:05:19<40:53:12,  1.52s/it]  3%|▎         | 3445/100000 [2:05:20<38:58:20,  1.45s/it]                                                            3%|▎         | 3445/100000 [2:05:20<38:58:20,  1.45s/it]  3%|▎         | 3446/100000 [2:05:21<36:53:49,  1.38s/it]                                                            3%|▎         | 3446/100000 [2:05:21<36:53:49,  1.38s/it]  3%|▎         | 3447/100000 [2:05:22<34:56:30,  1.30s/it]                                                            3%|▎         | 3447/100000 [2:05:22<34:56:30,  1.30s/it]  3%|▎         | 3448/100000 [2:05:24<33:21:58,  1.24s/it]                                                            3%|▎         | 3448/100000 [2:05:24<33:21:58,  1.24s/it]  3%|▎         | 3449/100000 [2:05:25<31:47:12,  1.19s/it]                                                            3%|▎         | 3449/100000 [2:05:25<31:47:12,  1.19s/it]  3%|▎         | 3450/100000 [2:05:26<30:18:44,  1.13s/it]                                                            3%|▎         | 3450/100000 [2:05:26<30:18:44,  1.13s/it]  3%|▎         | 3451/100000 [2:05:27<29:14:32,  1.09s/it]                                                            3%|▎         | 3451/100000 [2:05:27<29:14:32,  1.09s/it]  3%|▎         | 3452/100000 [2:05:28<28:16:50,  1.05s/it]                                                            3%|▎         | 3452/100000 [2:05:28<28:16:50,  1.05s/it]  3%|▎         | 3453/100000 [2:05:29<27:27:11,  1.02s/it]                                                            3%|▎         | 3453/100000 [2:05:29<27:27:11,  1.02s/it]  3%|▎         | 3454/100000 [2:05:29<26:30:04,  1.01it/s]                                                            3%|▎         | 3454/100000 [2:05:29<26:30:04,  1.01it/s]  3%|▎         | 3455/100000 [2:05:30<25:48:06,  1.04it/s]                                                            3%|▎         | 3455/100000 [2:05:30<25:48:06,  1.04it/s]  3%|▎         | 3456/100000 [2:05:31<25:20:25,  1.06it/s]                                                            3%|▎         | 3456/100000 [2:05:31<25:20:25,  1.06it/s]  3%|▎         | 3457/100000 [2:05:32<24:22:09,  1.10it/s]                                                            3%|▎         | 3457/100000 [2:05:32<24:22:09,  1.10it/s]  3%|▎         | 3458/100000 [2:05:33<24:00:23,  1.12it/s]                                                            3%|▎         | 3458/100000 [2:05:33<24:00:23,  1.12it/s]  3%|▎         | 3459/100000 [2:05:34<23:11:00,  1.16it/s]                                                            3%|▎         | 3459/100000 [2:05:34<23:11:00,  1.16it/s]  3%|▎         | 3460/100000 [2:05:35<22:34:20,  1.19it/s]                                                            3%|▎         | 3460/100000 [2:05:35<22:34:20,  1.19it/s]  3%|▎         | 3461/100000 [2:05:35<21:51:17,  1.23it/s]                                                            3%|▎         | 3461/100000 [2:05:35<21:51:17,  1.23it/s]  3%|▎         | 3462/100000 [2:05:36<21:08:19,  1.27it/s]                                                            3%|▎         | 3462/100000 [2:05:36<21:08:19,  1.27it/s]  3%|▎         | 3463/100000 [2:05:37<20:13:24,  1.33it/s]                                                            3%|▎         | 3463/100000 [2:05:37<20:13:24,  1.33it/s]  3%|▎         | 3464/100000 [2:05:37<19:42:03,  1.36it/s]                                                            3%|▎         | 3464/100000 [2:05:37<19:42:03,  1.36it/s]  3%|▎         | 3465/100000 [2:05:49<109:37:04,  4.09s/it]                                                             3%|▎         | 3465/100000 [2:05:49<109:37:04,  4.09s/it]  3%|▎         | 3466/100000 [2:05:57<142:09:09,  5.30s/it]                                                             3%|▎         | 3466/100000 [2:05:57<142:09:09,  5.30s/it]  3%|▎         | 3467/100000 [2:06:03<141:44:33,  5.29s/it]                                                             3%|▎         | 3467/100000 [2:06:03<141:44:33,  5.29s/it]  3%|▎         | 3468/100000 [2:06:07<138:03:19,  5.15s/it]                                                             3%|▎         | 3468/100000 [2:06:07<138:03:19,  5.15s/it]  3%|▎         | 3469/100000 [2:06:12<130:44:53,  4.88s/it]                                                             3%|▎         | 3469/100000 [2:06:12<130:44:53,  4.88s/it]  3%|▎         | 3470/100000 [2:06:15<121:54:19,  4.55s/it]                                                             3%|▎         | 3470/100000 [2:06:16<121:54:19,  4.55s/it]  3%|▎         | 3471/100000 [2:06:19<111:33:25,  4.16s/it]                                                             3%|▎         | 3471/100000 [2:06:19<111:33:25,  4.16s/it]  3%|▎         | 3472/100000 [2:06:22<100:17:41,  3.74s/it]                                                           {'loss': 0.2961, 'grad_norm': 1.305891752243042, 'learning_rate': 1.0155e-05, 'epoch': 22.01}
{'loss': 0.262, 'grad_norm': 0.9498744606971741, 'learning_rate': 1.0158e-05, 'epoch': 22.01}
{'loss': 0.2902, 'grad_norm': 0.9139878749847412, 'learning_rate': 1.0161e-05, 'epoch': 22.02}
{'loss': 0.2104, 'grad_norm': 1.2000547647476196, 'learning_rate': 1.0164e-05, 'epoch': 22.03}
{'loss': 0.1802, 'grad_norm': 1.0486611127853394, 'learning_rate': 1.0167e-05, 'epoch': 22.03}
{'loss': 0.2067, 'grad_norm': 0.8833219408988953, 'learning_rate': 1.0170000000000001e-05, 'epoch': 22.04}
{'loss': 0.1579, 'grad_norm': 1.0743805170059204, 'learning_rate': 1.0173e-05, 'epoch': 22.05}
{'loss': 0.1942, 'grad_norm': 1.1189615726470947, 'learning_rate': 1.0176e-05, 'epoch': 22.05}
{'loss': 0.187, 'grad_norm': 0.7862473130226135, 'learning_rate': 1.0179e-05, 'epoch': 22.06}
{'loss': 0.1457, 'grad_norm': 0.8910555839538574, 'learning_rate': 1.0182e-05, 'epoch': 22.06}
{'loss': 0.0956, 'grad_norm': 0.7463229894638062, 'learning_rate': 1.0185000000000002e-05, 'epoch': 22.07}
{'loss': 0.1459, 'grad_norm': 0.9170836210250854, 'learning_rate': 1.0188000000000001e-05, 'epoch': 22.08}
{'loss': 0.1432, 'grad_norm': 0.9181519150733948, 'learning_rate': 1.0191e-05, 'epoch': 22.08}
{'loss': 0.1268, 'grad_norm': 0.8681848049163818, 'learning_rate': 1.0194e-05, 'epoch': 22.09}
{'loss': 0.1588, 'grad_norm': 1.0692284107208252, 'learning_rate': 1.0196999999999999e-05, 'epoch': 22.1}
{'loss': 0.1629, 'grad_norm': 1.6268885135650635, 'learning_rate': 1.02e-05, 'epoch': 22.1}
{'loss': 0.1205, 'grad_norm': 0.8382497429847717, 'learning_rate': 1.0203e-05, 'epoch': 22.11}
{'loss': 0.1023, 'grad_norm': 0.6795969605445862, 'learning_rate': 1.0206e-05, 'epoch': 22.12}
{'loss': 0.092, 'grad_norm': 0.8332559466362, 'learning_rate': 1.0209e-05, 'epoch': 22.12}
{'loss': 0.111, 'grad_norm': 0.7081300616264343, 'learning_rate': 1.0212e-05, 'epoch': 22.13}
{'loss': 0.0941, 'grad_norm': 0.8162583708763123, 'learning_rate': 1.0215000000000001e-05, 'epoch': 22.14}
{'loss': 0.1005, 'grad_norm': 1.1345598697662354, 'learning_rate': 1.0218000000000001e-05, 'epoch': 22.14}
{'loss': 0.1094, 'grad_norm': 1.1939208507537842, 'learning_rate': 1.0221000000000001e-05, 'epoch': 22.15}
{'loss': 0.1732, 'grad_norm': 1.6042869091033936, 'learning_rate': 1.0224e-05, 'epoch': 22.16}
{'loss': 0.1015, 'grad_norm': 2.1991193294525146, 'learning_rate': 1.0227e-05, 'epoch': 22.16}
{'loss': 0.1185, 'grad_norm': 1.456929326057434, 'learning_rate': 1.023e-05, 'epoch': 22.17}
{'loss': 0.1207, 'grad_norm': 1.3528022766113281, 'learning_rate': 1.0233e-05, 'epoch': 22.18}
{'loss': 0.1282, 'grad_norm': 1.3297611474990845, 'learning_rate': 1.0236e-05, 'epoch': 22.18}
{'loss': 0.1757, 'grad_norm': 1.2638068199157715, 'learning_rate': 1.0239e-05, 'epoch': 22.19}
{'loss': 0.0935, 'grad_norm': 2.5542476177215576, 'learning_rate': 1.0242e-05, 'epoch': 22.19}
{'loss': 0.1222, 'grad_norm': 1.496779441833496, 'learning_rate': 1.0245000000000001e-05, 'epoch': 22.2}
{'loss': 0.0894, 'grad_norm': 1.4116480350494385, 'learning_rate': 1.0248e-05, 'epoch': 22.21}
{'loss': 0.0777, 'grad_norm': 1.3642101287841797, 'learning_rate': 1.0251e-05, 'epoch': 22.21}
{'loss': 0.0985, 'grad_norm': 1.4186244010925293, 'learning_rate': 1.0254e-05, 'epoch': 22.22}
{'loss': 0.1046, 'grad_norm': 1.8009601831436157, 'learning_rate': 1.0257e-05, 'epoch': 22.23}
{'loss': 0.0795, 'grad_norm': 1.6595487594604492, 'learning_rate': 1.0260000000000002e-05, 'epoch': 22.23}
{'loss': 0.1151, 'grad_norm': 1.6627109050750732, 'learning_rate': 1.0263000000000002e-05, 'epoch': 22.24}
{'loss': 0.2414, 'grad_norm': 3.5640690326690674, 'learning_rate': 1.0266e-05, 'epoch': 22.25}
{'loss': 0.3216, 'grad_norm': 1.629995346069336, 'learning_rate': 1.0269e-05, 'epoch': 22.25}
{'loss': 0.3229, 'grad_norm': 1.297707438468933, 'learning_rate': 1.0272e-05, 'epoch': 22.26}
{'loss': 0.2451, 'grad_norm': 1.716224193572998, 'learning_rate': 1.0275e-05, 'epoch': 22.27}
{'loss': 0.2321, 'grad_norm': 0.845248818397522, 'learning_rate': 1.0278e-05, 'epoch': 22.27}
{'loss': 0.1683, 'grad_norm': 0.8485568761825562, 'learning_rate': 1.0281e-05, 'epoch': 22.28}
{'loss': 0.1552, 'grad_norm': 0.7699823975563049, 'learning_rate': 1.0284e-05, 'epoch': 22.29}
{'loss': 0.1545, 'grad_norm': 0.7526352405548096, 'learning_rate': 1.0287e-05, 'epoch': 22.29}
{'loss': 0.1388, 'grad_norm': 0.6558833122253418, 'learning_rate': 1.0290000000000001e-05, 'epoch': 22.3}
{'loss': 0.1646, 'grad_norm': 1.2221317291259766, 'learning_rate': 1.0293000000000001e-05, 'epoch': 22.31}
{'loss': 0.157, 'grad_norm': 0.9220226407051086, 'learning_rate': 1.0296000000000001e-05, 'epoch': 22.31}
{'loss': 0.1183, 'grad_norm': 0.9854469299316406, 'learning_rate': 1.0299e-05, 'epoch': 22.32}
{'loss': 0.128, 'grad_norm': 1.0683985948562622, 'learning_rate': 1.0301999999999999e-05, 'epoch': 22.32}
{'loss': 0.1196, 'grad_norm': 0.6581041812896729, 'learning_rate': 1.0305e-05, 'epoch': 22.33}
{'loss': 0.1251, 'grad_norm': 0.8933095932006836, 'learning_rate': 1.0308e-05, 'epoch': 22.34}
{'loss': 0.1104, 'grad_norm': 0.7754901647567749, 'learning_rate': 1.0311e-05, 'epoch': 22.34}
{'loss': 0.0859, 'grad_norm': 0.7025590538978577, 'learning_rate': 1.0314e-05, 'epoch': 22.35}
{'loss': 0.1018, 'grad_norm': 0.9462218880653381, 'learning_rate': 1.0317e-05, 'epoch': 22.36}
{'loss': 0.0976, 'grad_norm': 0.7463772296905518, 'learning_rate': 1.032e-05, 'epoch': 22.36}
{'loss': 0.0961, 'grad_norm': 0.8385257124900818, 'learning_rate': 1.0323000000000001e-05, 'epoch': 22.37}
{'loss': 0.1542, 'grad_norm': 0.9400637149810791, 'learning_rate': 1.0326e-05, 'epoch': 22.38}
{'loss': 0.0763, 'grad_norm': 0.7282876372337341, 'learning_rate': 1.0329e-05, 'epoch': 22.38}
{'loss': 0.0993, 'grad_norm': 1.016154408454895, 'learning_rate': 1.0332e-05, 'epoch': 22.39}
{'loss': 0.0951, 'grad_norm': 0.8949097990989685, 'learning_rate': 1.0335e-05, 'epoch': 22.4}
{'loss': 0.1306, 'grad_norm': 1.265971064567566, 'learning_rate': 1.0338e-05, 'epoch': 22.4}
{'loss': 0.1092, 'grad_norm': 1.240125298500061, 'learning_rate': 1.0341e-05, 'epoch': 22.41}
{'loss': 0.0835, 'grad_norm': 0.9260630011558533, 'learning_rate': 1.0344e-05, 'epoch': 22.42}
{'loss': 0.1151, 'grad_norm': 1.3991159200668335, 'learning_rate': 1.0347e-05, 'epoch': 22.42}
{'loss': 0.1053, 'grad_norm': 1.2445123195648193, 'learning_rate': 1.035e-05, 'epoch': 22.43}
{'loss': 0.1327, 'grad_norm': 1.3611805438995361, 'learning_rate': 1.0353e-05, 'epoch': 22.44}
{'loss': 0.0846, 'grad_norm': 1.0914126634597778, 'learning_rate': 1.0356e-05, 'epoch': 22.44}
{'loss': 0.077, 'grad_norm': 1.1685675382614136, 'learning_rate': 1.0359e-05, 'epoch': 22.45}
{'loss': 0.0772, 'grad_norm': 1.462411642074585, 'learning_rate': 1.0362e-05, 'epoch': 22.45}
{'loss': 0.1045, 'grad_norm': 2.4394333362579346, 'learning_rate': 1.0365e-05, 'epoch': 22.46}
{'loss': 0.0998, 'grad_norm': 1.1384172439575195, 'learning_rate': 1.0368000000000001e-05, 'epoch': 22.47}
{'loss': 0.1081, 'grad_norm': 1.8580965995788574, 'learning_rate': 1.0371000000000001e-05, 'epoch': 22.47}
{'loss': 0.1644, 'grad_norm': 1.8578823804855347, 'learning_rate': 1.0374000000000001e-05, 'epoch': 22.48}
{'loss': 0.0942, 'grad_norm': 2.3907065391540527, 'learning_rate': 1.0376999999999999e-05, 'epoch': 22.49}
{'loss': 0.2278, 'grad_norm': 3.7696073055267334, 'learning_rate': 1.0379999999999999e-05, 'epoch': 22.49}
{'loss': 0.3495, 'grad_norm': 2.07436203956604, 'learning_rate': 1.0383e-05, 'epoch': 22.5}
{'loss': 0.2773, 'grad_norm': 1.3164081573486328, 'learning_rate': 1.0386e-05, 'epoch': 22.51}
{'loss': 0.2532, 'grad_norm': 1.4795465469360352, 'learning_rate': 1.0389e-05, 'epoch': 22.51}
{'loss': 0.1948, 'grad_norm': 0.896486222743988, 'learning_rate': 1.0392e-05, 'epoch': 22.52}
{'loss': 0.2348, 'grad_norm': 1.1229095458984375, 'learning_rate': 1.0395e-05, 'epoch': 22.53}
{'loss': 0.205, 'grad_norm': 1.3202565908432007, 'learning_rate': 1.0398000000000001e-05, 'epoch': 22.53}
{'loss': 0.159, 'grad_norm': 1.070208191871643, 'learning_rate': 1.0401000000000001e-05, 'epoch': 22.54}
  3%|▎         | 3472/100000 [2:06:22<100:17:41,  3.74s/it]  3%|▎         | 3473/100000 [2:06:24<89:43:35,  3.35s/it]                                                             3%|▎         | 3473/100000 [2:06:24<89:43:35,  3.35s/it]  3%|▎         | 3474/100000 [2:06:26<79:52:33,  2.98s/it]                                                            3%|▎         | 3474/100000 [2:06:26<79:52:33,  2.98s/it]  3%|▎         | 3475/100000 [2:06:28<71:36:21,  2.67s/it]                                                            3%|▎         | 3475/100000 [2:06:28<71:36:21,  2.67s/it]  3%|▎         | 3476/100000 [2:06:30<65:19:22,  2.44s/it]                                                            3%|▎         | 3476/100000 [2:06:30<65:19:22,  2.44s/it]  3%|▎         | 3477/100000 [2:06:32<59:43:29,  2.23s/it]                                                            3%|▎         | 3477/100000 [2:06:32<59:43:29,  2.23s/it]  3%|▎         | 3478/100000 [2:06:33<54:45:24,  2.04s/it]                                                            3%|▎         | 3478/100000 [2:06:33<54:45:24,  2.04s/it]  3%|▎         | 3479/100000 [2:06:35<50:59:13,  1.90s/it]                                                            3%|▎         | 3479/100000 [2:06:35<50:59:13,  1.90s/it]  3%|▎         | 3480/100000 [2:06:36<47:12:13,  1.76s/it]                                                            3%|▎         | 3480/100000 [2:06:36<47:12:13,  1.76s/it]  3%|▎         | 3481/100000 [2:06:38<44:23:22,  1.66s/it]                                                            3%|▎         | 3481/100000 [2:06:38<44:23:22,  1.66s/it]  3%|▎         | 3482/100000 [2:06:39<41:59:23,  1.57s/it]                                                            3%|▎         | 3482/100000 [2:06:39<41:59:23,  1.57s/it]  3%|▎         | 3483/100000 [2:06:40<39:25:24,  1.47s/it]                                                            3%|▎         | 3483/100000 [2:06:40<39:25:24,  1.47s/it]  3%|▎         | 3484/100000 [2:06:42<37:32:34,  1.40s/it]                                                            3%|▎         | 3484/100000 [2:06:42<37:32:34,  1.40s/it]  3%|▎         | 3485/100000 [2:06:43<35:34:01,  1.33s/it]                                                            3%|▎         | 3485/100000 [2:06:43<35:34:01,  1.33s/it]  3%|▎         | 3486/100000 [2:06:44<33:45:10,  1.26s/it]                                                            3%|▎         | 3486/100000 [2:06:44<33:45:10,  1.26s/it]  3%|▎         | 3487/100000 [2:06:45<32:17:09,  1.20s/it]                                                            3%|▎         | 3487/100000 [2:06:45<32:17:09,  1.20s/it]  3%|▎         | 3488/100000 [2:06:46<30:46:13,  1.15s/it]                                                            3%|▎         | 3488/100000 [2:06:46<30:46:13,  1.15s/it]  3%|▎         | 3489/100000 [2:06:47<29:26:09,  1.10s/it]                                                            3%|▎         | 3489/100000 [2:06:47<29:26:09,  1.10s/it]  3%|▎         | 3490/100000 [2:06:48<28:21:37,  1.06s/it]                                                            3%|▎         | 3490/100000 [2:06:48<28:21:37,  1.06s/it]  3%|▎         | 3491/100000 [2:06:49<27:35:12,  1.03s/it]                                                            3%|▎         | 3491/100000 [2:06:49<27:35:12,  1.03s/it]  3%|▎         | 3492/100000 [2:06:50<26:34:53,  1.01it/s]                                                            3%|▎         | 3492/100000 [2:06:50<26:34:53,  1.01it/s]  3%|▎         | 3493/100000 [2:06:51<25:45:46,  1.04it/s]                                                            3%|▎         | 3493/100000 [2:06:51<25:45:46,  1.04it/s]  3%|▎         | 3494/100000 [2:06:51<24:56:02,  1.08it/s]                                                            3%|▎         | 3494/100000 [2:06:51<24:56:02,  1.08it/s]  3%|▎         | 3495/100000 [2:06:52<24:21:30,  1.10it/s]                                                            3%|▎         | 3495/100000 [2:06:52<24:21:30,  1.10it/s]  3%|▎         | 3496/100000 [2:06:53<23:54:13,  1.12it/s]                                                            3%|▎         | 3496/100000 [2:06:53<23:54:13,  1.12it/s]  3%|▎         | 3497/100000 [2:06:54<23:13:16,  1.15it/s]                                                            3%|▎         | 3497/100000 [2:06:54<23:13:16,  1.15it/s]  3%|▎         | 3498/100000 [2:06:55<23:12:11,  1.16it/s]                                                            3%|▎         | 3498/100000 [2:06:55<23:12:11,  1.16it/s]  3%|▎         | 3499/100000 [2:06:56<22:03:16,  1.22it/s]                                                            3%|▎         | 3499/100000 [2:06:56<22:03:16,  1.22it/s]  4%|▎         | 3500/100000 [2:06:56<21:42:31,  1.23it/s]                                                            4%|▎         | 3500/100000 [2:06:56<21:42:31,  1.23it/s]  4%|▎         | 3501/100000 [2:06:57<20:16:29,  1.32it/s]                                                            4%|▎         | 3501/100000 [2:06:57<20:16:29,  1.32it/s]  4%|▎         | 3502/100000 [2:06:58<20:05:46,  1.33it/s]                                                            4%|▎         | 3502/100000 [2:06:58<20:05:46,  1.33it/s]  4%|▎         | 3503/100000 [2:07:09<107:52:33,  4.02s/it]                                                             4%|▎         | 3503/100000 [2:07:09<107:52:33,  4.02s/it]  4%|▎         | 3504/100000 [2:07:18<142:10:59,  5.30s/it]                                                             4%|▎         | 3504/100000 [2:07:18<142:10:59,  5.30s/it]  4%|▎         | 3505/100000 [2:07:24<148:47:58,  5.55s/it]                                                             4%|▎         | 3505/100000 [2:07:24<148:47:58,  5.55s/it]  4%|▎         | 3506/100000 [2:07:29<144:22:45,  5.39s/it]                                                             4%|▎         | 3506/100000 [2:07:29<144:22:45,  5.39s/it]  4%|▎         | 3507/100000 [2:07:33<134:08:34,  5.00s/it]                                                             4%|▎         | 3507/100000 [2:07:33<134:08:34,  5.00s/it]  4%|▎         | 3508/100000 [2:07:36<122:55:23,  4.59s/it]                                                             4%|▎         | 3508/100000 [2:07:36<122:55:23,  4.59s/it]  4%|▎         | 3509/100000 [2:07:40<111:23:27,  4.16s/it]                                                             4%|▎         | 3509/100000 [2:07:40<111:23:27,  4.16s/it]  4%|▎         | 3510/100000 [2:07:42<100:42:41,  3.76s/it]                                                             4%|▎         | 3510/100000 [2:07:42<100:42:41,  3.76s/it]  4%|▎         | 3511/100000 [2:07:45<90:30:00,  3.38s/it]                                                             4%|▎         | 3511/100000 [2:07:45<90:30:00,  3.38s/it]  4%|▎         | 3512/100000 [2:07:47<81:08:26,  3.03s/it]                                                            4%|▎         | 3512/100000 [2:07:47<81:08:26,  3.03s/it]  4%|▎         | 3513/100000 [2:07:49<72:58:34,  2.72s/it]                                                            4%|▎         | 3513/100000 [2:07:49<72:58:34,  2.72s/it]  4%|▎         | 3514/100000 [2:07:51<66:20:53,  2.48s/it]                                                            4%|▎         | 3514/100000 [2:07:51<66:20:53,  2.48s/it]  4%|▎         | 3515/100000 [2:07:53<60:49:20,  2.27s/it]                                                            4%|▎         | 3515/100000 [2:07:53<60:49:20,  2.27s/it]  4%|▎         | 3516/100000 [2:07:55<56:01:50,  2.09s/it]                                                            4%|▎         | 3516/100000 [2:07:55<56:01:50,  2.09s/it]  4%|▎         | 3517/100000 [2:07:56<51:52:11,  1.94s/it]                                                            4%|▎         | 3517/100000 [2:07:56<51:52:11,  1.94s/it]  4%|▎         | 3518/100000 [2:07:58<48:27:07,  1.81s/it]                                                            4%|▎         | 3518/100000 [2:07:58<48:27:07,  1.81s/it]  4%|▎         | 3519/100000 [2:07:59<45:33:28,  1.70s/it]                                                            4%|▎         | 3519/100000 [2:07:59<45:33:28,  1.70s/it]  4%|▎         | 3520/100000 [2:08:00<42:24:37,  1.58s/it]                                                            4%|▎         | 3520/100000 [2:08:00<42:24:37,  1.58s/it]  4%|▎         | 3521/100000 [2:08:02<40:18:59,  1.50s/it]                                                            4%|▎         | 3521/100000 [2:08:02<40:18:59,  1.50s/it]  4%|▎         | 3522/100000 [2:08:03<38:07:22,  1.42s/it]                                                            4%|▎         | 3522/100000 [2:08:03<38:07:22,  1.42s/it]  4%|▎         | 3523/100000 [2:08:04<36:07:53,  1.35s/it]                                                            4%|▎         | 3523/100000 [2:08:04<36:07:53,  1.35s/it]  4%|▎         | 3524/100000 [2:08:05<34:15:01,  1.28s/it]                                                            4%|▎         | 3524/100000 [2:08:05<34:15:01,  1.28s/it]  4%|▎         | 3525/100000 [2:08:06<32:39:18,  1.22s/it]                                                            4%|▎         | 3525/100000 [2:08:06<32:39:18,  1.22s/it]  4%|▎         | 3526/100000 [2:08:07<31:17:54,  1.17s/it]                                                            4%|▎         | 3526/100000 [2:08:07<31:17:54,  1.17s/it]  4%|▎         | 3527/100000 [2:08:08<29:37:41,  1.11s/it]                                                            4%|▎         | 3527/100000 [2:08:08<29:37:41,  1.11s/it]  4%|▎         | 3528/100000 [2:08:09<28:26:33,  1.06s/it]                                                            4%|▎         | 3528/100000 [2:08:09<28:26:33,  1.06s/it]  4%|▎         | 3529/100000 [2:08:10<27:25:29,  1.02s/it]                                                            4%|▎         | 3529/100000 [2:08:10<27:25:29,  1.02s/it]  4%|▎         | 3530/100000 [2:08:11<26:07:08,  1.03it/s]                                                            4%|▎         | 3530/100000 [2:08:11<26:07:08,  1.03it/s]  4%|▎         | 3531/100000 [2:08:12<25:06:42,  1.07it/s]                                                            4%|▎         | 3531/100000 [2:08:12<25:06:42,  1.07it/s]  4%|▎         | 3532/100000 [2:08:13<24:13:29,  1.11it/s]                                                            4%|▎         | 3532/100000 [2:08:13<24:13:29,  1.11it/s]  4%|▎         | 3533/100000 [2:08:14<23:20:08,  1.15it/s]                                                            4%|▎         | 3533/100000 [2:08:14<23:20:08,  1.15it/s]  4%|▎         | 3534/100000 [2:08:14<22:19:06,  1.20it/s]                                                            4%|▎         | 3534/100000 [2:08:14<22:19:06,  1.20it/s]  4%|▎         | 3535/100000 [2:08:15<21:37:28,  1.24it/s]                                                            4%|▎         | 3535/100000 [2:08:15<21:37:28,  1.24it/s]  4%|▎         | 3536/100000 [2:08:16<21:28:09,  1.25it/s]                                                            4%|▎         | 3536/100000 [2:08:16<21:28:09,  1.25it/s]  4%|▎         | 3537/100000 [2:08:17<20:36:52,  1.30it/s]                                                            4%|▎         | 3537/100000 [2:08:17<20:36:52,  1.30it/s]  4%|▎         | 3538/100000 [2:08:17<19:41:05,  1.36it/s]                                                            4%|▎         | 3538/100000 [2:08:17<19:41:05,  1.36it/s]  4%|▎         | 3539/100000 [2:08:18<19:03:05,  1.41it/s]                                                            4%|▎         | 3539/100000 [2:08:18<19:03:05,  1.41it/s]  4%|▎         | 3540/100000 [2:08:18<18:03:48,  1.48it/s]                                                            4%|▎         | 3540/100000 [2:08:18<18:03:48,  1.48it/s]  4%|▎         | 3541/100000 [2:08:23<52:09:17,  1.95s/it]                                                            4%|▎         | 3541/100000 [2:08:23<52:09:17,  1.95s/it]  4%|▎         | 3542/100000 [2:08:25<47:45:51,  1.78s/it]                                                            4%|▎         | 3542/100000 [2:08:25<47:45:51,  1.78s/it]{'loss': 0.2344, 'grad_norm': 1.1534056663513184, 'learning_rate': 1.0404e-05, 'epoch': 22.55}
{'loss': 0.1433, 'grad_norm': 0.9720926284790039, 'learning_rate': 1.0407e-05, 'epoch': 22.55}
{'loss': 0.1284, 'grad_norm': 0.8364699482917786, 'learning_rate': 1.041e-05, 'epoch': 22.56}
{'loss': 0.1359, 'grad_norm': 0.7624199390411377, 'learning_rate': 1.0413e-05, 'epoch': 22.56}
{'loss': 0.1232, 'grad_norm': 0.6557332277297974, 'learning_rate': 1.0416e-05, 'epoch': 22.57}
{'loss': 0.156, 'grad_norm': 0.8180530071258545, 'learning_rate': 1.0419e-05, 'epoch': 22.58}
{'loss': 0.1089, 'grad_norm': 0.8051585555076599, 'learning_rate': 1.0422e-05, 'epoch': 22.58}
{'loss': 0.1101, 'grad_norm': 0.7509975433349609, 'learning_rate': 1.0425e-05, 'epoch': 22.59}
{'loss': 0.1037, 'grad_norm': 0.6303302049636841, 'learning_rate': 1.0428e-05, 'epoch': 22.6}
{'loss': 0.0979, 'grad_norm': 0.666039764881134, 'learning_rate': 1.0431e-05, 'epoch': 22.6}
{'loss': 0.1145, 'grad_norm': 0.80300372838974, 'learning_rate': 1.0434e-05, 'epoch': 22.61}
{'loss': 0.0926, 'grad_norm': 0.6365078091621399, 'learning_rate': 1.0437e-05, 'epoch': 22.62}
{'loss': 0.1139, 'grad_norm': 0.8905760049819946, 'learning_rate': 1.044e-05, 'epoch': 22.62}
{'loss': 0.13, 'grad_norm': 1.149756908416748, 'learning_rate': 1.0443000000000001e-05, 'epoch': 22.63}
{'loss': 0.1715, 'grad_norm': 1.5835154056549072, 'learning_rate': 1.0446000000000001e-05, 'epoch': 22.64}
{'loss': 0.0902, 'grad_norm': 0.8669264316558838, 'learning_rate': 1.0449e-05, 'epoch': 22.64}
{'loss': 0.1844, 'grad_norm': 1.9567307233810425, 'learning_rate': 1.0452e-05, 'epoch': 22.65}
{'loss': 0.1495, 'grad_norm': 1.0690021514892578, 'learning_rate': 1.0454999999999999e-05, 'epoch': 22.66}
{'loss': 0.0989, 'grad_norm': 1.548243522644043, 'learning_rate': 1.0458e-05, 'epoch': 22.66}
{'loss': 0.0968, 'grad_norm': 1.0443323850631714, 'learning_rate': 1.0461e-05, 'epoch': 22.67}
{'loss': 0.2505, 'grad_norm': 1.8371505737304688, 'learning_rate': 1.0464e-05, 'epoch': 22.68}
{'loss': 0.1153, 'grad_norm': 2.005699396133423, 'learning_rate': 1.0467e-05, 'epoch': 22.68}
{'loss': 0.1195, 'grad_norm': 1.4363733530044556, 'learning_rate': 1.047e-05, 'epoch': 22.69}
{'loss': 0.1186, 'grad_norm': 1.6035491228103638, 'learning_rate': 1.0473000000000001e-05, 'epoch': 22.69}
{'loss': 0.0927, 'grad_norm': 3.9956228733062744, 'learning_rate': 1.0476000000000001e-05, 'epoch': 22.7}
{'loss': 0.1014, 'grad_norm': 1.7926799058914185, 'learning_rate': 1.0479e-05, 'epoch': 22.71}
{'loss': 0.0948, 'grad_norm': 2.2222113609313965, 'learning_rate': 1.0482e-05, 'epoch': 22.71}
{'loss': 0.1488, 'grad_norm': 2.1253912448883057, 'learning_rate': 1.0485e-05, 'epoch': 22.72}
{'loss': 0.1437, 'grad_norm': 1.6710708141326904, 'learning_rate': 1.0488e-05, 'epoch': 22.73}
{'loss': 0.0879, 'grad_norm': 1.8407232761383057, 'learning_rate': 1.0491e-05, 'epoch': 22.73}
{'loss': 0.1265, 'grad_norm': 2.407623529434204, 'learning_rate': 1.0494e-05, 'epoch': 22.74}
{'loss': 0.3367, 'grad_norm': 1.8883806467056274, 'learning_rate': 1.0497e-05, 'epoch': 22.75}
{'loss': 0.271, 'grad_norm': 1.0357595682144165, 'learning_rate': 1.05e-05, 'epoch': 22.75}
{'loss': 0.2256, 'grad_norm': 0.9596327543258667, 'learning_rate': 1.0503000000000001e-05, 'epoch': 22.76}
{'loss': 0.2266, 'grad_norm': 1.0818555355072021, 'learning_rate': 1.0506e-05, 'epoch': 22.77}
{'loss': 0.2147, 'grad_norm': 1.4010475873947144, 'learning_rate': 1.0509e-05, 'epoch': 22.77}
{'loss': 0.2002, 'grad_norm': 0.9290311932563782, 'learning_rate': 1.0512e-05, 'epoch': 22.78}
{'loss': 0.2006, 'grad_norm': 1.1594430208206177, 'learning_rate': 1.0515e-05, 'epoch': 22.79}
{'loss': 0.2051, 'grad_norm': 1.14633047580719, 'learning_rate': 1.0518000000000002e-05, 'epoch': 22.79}
{'loss': 0.1674, 'grad_norm': 1.1546841859817505, 'learning_rate': 1.0521000000000001e-05, 'epoch': 22.8}
{'loss': 0.2233, 'grad_norm': 1.296700119972229, 'learning_rate': 1.0524e-05, 'epoch': 22.81}
{'loss': 0.1401, 'grad_norm': 1.4868303537368774, 'learning_rate': 1.0527e-05, 'epoch': 22.81}
{'loss': 0.1435, 'grad_norm': 1.3382152318954468, 'learning_rate': 1.0529999999999999e-05, 'epoch': 22.82}
{'loss': 0.1529, 'grad_norm': 1.089888572692871, 'learning_rate': 1.0533e-05, 'epoch': 22.82}
{'loss': 0.1224, 'grad_norm': 1.1285758018493652, 'learning_rate': 1.0536e-05, 'epoch': 22.83}
{'loss': 0.1189, 'grad_norm': 0.7991355061531067, 'learning_rate': 1.0539e-05, 'epoch': 22.84}
{'loss': 0.0992, 'grad_norm': 0.9007806777954102, 'learning_rate': 1.0542e-05, 'epoch': 22.84}
{'loss': 0.1348, 'grad_norm': 1.1262340545654297, 'learning_rate': 1.0545e-05, 'epoch': 22.85}
{'loss': 0.112, 'grad_norm': 0.9144616723060608, 'learning_rate': 1.0548000000000001e-05, 'epoch': 22.86}
{'loss': 0.1235, 'grad_norm': 0.9704145193099976, 'learning_rate': 1.0551000000000001e-05, 'epoch': 22.86}
{'loss': 0.1317, 'grad_norm': 1.256712555885315, 'learning_rate': 1.0554000000000001e-05, 'epoch': 22.87}
{'loss': 0.0997, 'grad_norm': 0.9009913802146912, 'learning_rate': 1.0557e-05, 'epoch': 22.88}
{'loss': 0.1333, 'grad_norm': 1.2566105127334595, 'learning_rate': 1.0559999999999999e-05, 'epoch': 22.88}
{'loss': 0.1121, 'grad_norm': 1.2861778736114502, 'learning_rate': 1.0563e-05, 'epoch': 22.89}
{'loss': 0.178, 'grad_norm': 1.4005208015441895, 'learning_rate': 1.0566e-05, 'epoch': 22.9}
{'loss': 0.1323, 'grad_norm': 1.0328431129455566, 'learning_rate': 1.0569e-05, 'epoch': 22.9}
{'loss': 0.1, 'grad_norm': 1.1679935455322266, 'learning_rate': 1.0572e-05, 'epoch': 22.91}
{'loss': 0.0884, 'grad_norm': 0.8858032822608948, 'learning_rate': 1.0575e-05, 'epoch': 22.92}
{'loss': 0.1345, 'grad_norm': 1.9242912530899048, 'learning_rate': 1.0578000000000001e-05, 'epoch': 22.92}
{'loss': 0.116, 'grad_norm': 1.0823224782943726, 'learning_rate': 1.0581e-05, 'epoch': 22.93}
{'loss': 0.1119, 'grad_norm': 1.6975983381271362, 'learning_rate': 1.0584e-05, 'epoch': 22.94}
{'loss': 0.0717, 'grad_norm': 1.195696234703064, 'learning_rate': 1.0587e-05, 'epoch': 22.94}
{'loss': 0.166, 'grad_norm': 1.536102294921875, 'learning_rate': 1.059e-05, 'epoch': 22.95}
{'loss': 0.086, 'grad_norm': 1.044229507446289, 'learning_rate': 1.0593000000000002e-05, 'epoch': 22.95}
{'loss': 0.0868, 'grad_norm': 1.4412544965744019, 'learning_rate': 1.0596e-05, 'epoch': 22.96}
{'loss': 0.1404, 'grad_norm': 3.387674570083618, 'learning_rate': 1.0599e-05, 'epoch': 22.97}
{'loss': 0.1214, 'grad_norm': 1.9950960874557495, 'learning_rate': 1.0602e-05, 'epoch': 22.97}
{'loss': 0.0909, 'grad_norm': 2.0501646995544434, 'learning_rate': 1.0605e-05, 'epoch': 22.98}
{'loss': 0.1295, 'grad_norm': 2.1335721015930176, 'learning_rate': 1.0608e-05, 'epoch': 22.99}
{'loss': 0.1517, 'grad_norm': 1.17913818359375, 'learning_rate': 1.0611e-05, 'epoch': 22.99}
{'loss': 0.1023, 'grad_norm': 1.5157723426818848, 'learning_rate': 1.0614e-05, 'epoch': 23.0}
  4%|▎         | 3543/100000 [2:08:42<175:08:16,  6.54s/it]                                                             4%|▎         | 3543/100000 [2:08:42<175:08:16,  6.54s/it]  4%|▎         | 3544/100000 [2:08:50<187:22:59,  6.99s/it]                                                             4%|▎         | 3544/100000 [2:08:50<187:22:59,  6.99s/it]  4%|▎         | 3545/100000 [2:08:56<173:22:20,  6.47s/it]                                                             4%|▎         | 3545/100000 [2:08:56<173:22:20,  6.47s/it]  4%|▎         | 3546/100000 [2:09:00<159:09:35,  5.94s/it]                                                             4%|▎         | 3546/100000 [2:09:00<159:09:35,  5.94s/it]  4%|▎         | 3547/100000 [2:09:04<143:25:56,  5.35s/it]                                                             4%|▎         | 3547/100000 [2:09:04<143:25:56,  5.35s/it]  4%|▎         | 3548/100000 [2:09:08<128:19:21,  4.79s/it]                                                             4%|▎         | 3548/100000 [2:09:08<128:19:21,  4.79s/it]  4%|▎         | 3549/100000 [2:09:11<113:42:15,  4.24s/it]                                                             4%|▎         | 3549/100000 [2:09:11<113:42:15,  4.24s/it]  4%|▎         | 3550/100000 [2:09:13<101:04:08,  3.77s/it]                                                             4%|▎         | 3550/100000 [2:09:13<101:04:08,  3.77s/it]  4%|▎         | 3551/100000 [2:09:16<89:29:03,  3.34s/it]                                                             4%|▎         | 3551/100000 [2:09:16<89:29:03,  3.34s/it]  4%|▎         | 3552/100000 [2:09:18<79:55:22,  2.98s/it]                                                            4%|▎         | 3552/100000 [2:09:18<79:55:22,  2.98s/it]  4%|▎         | 3553/100000 [2:09:20<71:49:26,  2.68s/it]                                                            4%|▎         | 3553/100000 [2:09:20<71:49:26,  2.68s/it]  4%|▎         | 3554/100000 [2:09:22<65:24:59,  2.44s/it]                                                            4%|▎         | 3554/100000 [2:09:22<65:24:59,  2.44s/it]  4%|▎         | 3555/100000 [2:09:24<59:46:52,  2.23s/it]                                                            4%|▎         | 3555/100000 [2:09:24<59:46:52,  2.23s/it]  4%|▎         | 3556/100000 [2:09:25<54:29:33,  2.03s/it]                                                            4%|▎         | 3556/100000 [2:09:25<54:29:33,  2.03s/it]  4%|▎         | 3557/100000 [2:09:27<51:00:22,  1.90s/it]                                                            4%|▎         | 3557/100000 [2:09:27<51:00:22,  1.90s/it]  4%|▎         | 3558/100000 [2:09:28<47:37:00,  1.78s/it]                                                            4%|▎         | 3558/100000 [2:09:28<47:37:00,  1.78s/it]  4%|▎         | 3559/100000 [2:09:30<44:57:14,  1.68s/it]                                                            4%|▎         | 3559/100000 [2:09:30<44:57:14,  1.68s/it]  4%|▎         | 3560/100000 [2:09:31<42:10:14,  1.57s/it]                                                            4%|▎         | 3560/100000 [2:09:31<42:10:14,  1.57s/it]  4%|▎         | 3561/100000 [2:09:32<40:04:10,  1.50s/it]                                                            4%|▎         | 3561/100000 [2:09:32<40:04:10,  1.50s/it]  4%|▎         | 3562/100000 [2:09:34<38:13:23,  1.43s/it]                                                            4%|▎         | 3562/100000 [2:09:34<38:13:23,  1.43s/it]  4%|▎         | 3563/100000 [2:09:35<36:01:09,  1.34s/it]                                                            4%|▎         | 3563/100000 [2:09:35<36:01:09,  1.34s/it]  4%|▎         | 3564/100000 [2:09:36<33:50:15,  1.26s/it]                                                            4%|▎         | 3564/100000 [2:09:36<33:50:15,  1.26s/it]  4%|▎         | 3565/100000 [2:09:37<32:10:56,  1.20s/it]                                                            4%|▎         | 3565/100000 [2:09:37<32:10:56,  1.20s/it]  4%|▎         | 3566/100000 [2:09:38<30:28:44,  1.14s/it]                                                            4%|▎         | 3566/100000 [2:09:38<30:28:44,  1.14s/it]  4%|▎         | 3567/100000 [2:09:39<28:55:49,  1.08s/it]                                                            4%|▎         | 3567/100000 [2:09:39<28:55:49,  1.08s/it]  4%|▎         | 3568/100000 [2:09:40<28:01:18,  1.05s/it]                                                            4%|▎         | 3568/100000 [2:09:40<28:01:18,  1.05s/it]  4%|▎         | 3569/100000 [2:09:41<27:06:24,  1.01s/it]                                                            4%|▎         | 3569/100000 [2:09:41<27:06:24,  1.01s/it]  4%|▎         | 3570/100000 [2:09:42<26:01:32,  1.03it/s]                                                            4%|▎         | 3570/100000 [2:09:42<26:01:32,  1.03it/s]  4%|▎         | 3571/100000 [2:09:42<25:08:21,  1.07it/s]                                                            4%|▎         | 3571/100000 [2:09:42<25:08:21,  1.07it/s]  4%|▎         | 3572/100000 [2:09:43<24:27:26,  1.10it/s]                                                            4%|▎         | 3572/100000 [2:09:43<24:27:26,  1.10it/s]  4%|▎         | 3573/100000 [2:09:44<23:59:30,  1.12it/s]                                                            4%|▎         | 3573/100000 [2:09:44<23:59:30,  1.12it/s]  4%|▎         | 3574/100000 [2:09:45<22:48:09,  1.17it/s]                                                            4%|▎         | 3574/100000 [2:09:45<22:48:09,  1.17it/s]  4%|▎         | 3575/100000 [2:09:46<21:51:44,  1.23it/s]                                                            4%|▎         | 3575/100000 [2:09:46<21:51:44,  1.23it/s]  4%|▎         | 3576/100000 [2:09:46<20:57:20,  1.28it/s]                                                            4%|▎         | 3576/100000 [2:09:46<20:57:20,  1.28it/s]  4%|▎         | 3577/100000 [2:09:47<20:24:25,  1.31it/s]                                                            4%|▎         | 3577/100000 [2:09:47<20:24:25,  1.31it/s]  4%|▎         | 3578/100000 [2:09:48<20:10:29,  1.33it/s]                                                            4%|▎         | 3578/100000 [2:09:48<20:10:29,  1.33it/s]  4%|▎         | 3579/100000 [2:09:48<18:57:28,  1.41it/s]                                                            4%|▎         | 3579/100000 [2:09:48<18:57:28,  1.41it/s]  4%|▎         | 3580/100000 [2:09:49<20:34:24,  1.30it/s]                                                            4%|▎         | 3580/100000 [2:09:49<20:34:24,  1.30it/s]  4%|▎         | 3581/100000 [2:10:01<111:57:21,  4.18s/it]                                                             4%|▎         | 3581/100000 [2:10:01<111:57:21,  4.18s/it]  4%|▎         | 3582/100000 [2:10:08<132:48:28,  4.96s/it]                                                             4%|▎         | 3582/100000 [2:10:08<132:48:28,  4.96s/it]  4%|▎         | 3583/100000 [2:10:14<138:24:28,  5.17s/it]                                                             4%|▎         | 3583/100000 [2:10:14<138:24:28,  5.17s/it]  4%|▎         | 3584/100000 [2:10:19<134:30:51,  5.02s/it]                                                             4%|▎         | 3584/100000 [2:10:19<134:30:51,  5.02s/it]  4%|▎         | 3585/100000 [2:10:23<127:02:50,  4.74s/it]                                                             4%|▎         | 3585/100000 [2:10:23<127:02:50,  4.74s/it]  4%|▎         | 3586/100000 [2:10:26<117:33:04,  4.39s/it]                                                             4%|▎         | 3586/100000 [2:10:26<117:33:04,  4.39s/it]  4%|▎         | 3587/100000 [2:10:29<107:36:59,  4.02s/it]                                                             4%|▎         | 3587/100000 [2:10:29<107:36:59,  4.02s/it]  4%|▎         | 3588/100000 [2:10:32<97:06:53,  3.63s/it]                                                             4%|▎         | 3588/100000 [2:10:32<97:06:53,  3.63s/it]  4%|▎         | 3589/100000 [2:10:34<86:30:54,  3.23s/it]                                                            4%|▎         | 3589/100000 [2:10:34<86:30:54,  3.23s/it]  4%|▎         | 3590/100000 [2:10:37<77:59:48,  2.91s/it]                                                            4%|▎         | 3590/100000 [2:10:37<77:59:48,  2.91s/it]  4%|▎         | 3591/100000 [2:10:39<70:47:25,  2.64s/it]                                                            4%|▎         | 3591/100000 [2:10:39<70:47:25,  2.64s/it]  4%|▎         | 3592/100000 [2:10:40<64:44:57,  2.42s/it]                                                            4%|▎         | 3592/100000 [2:10:40<64:44:57,  2.42s/it]  4%|▎         | 3593/100000 [2:10:42<59:13:50,  2.21s/it]                                                            4%|▎         | 3593/100000 [2:10:42<59:13:50,  2.21s/it]  4%|▎         | 3594/100000 [2:10:44<54:22:32,  2.03s/it]                                                            4%|▎         | 3594/100000 [2:10:44<54:22:32,  2.03s/it]  4%|▎         | 3595/100000 [2:10:45<50:31:38,  1.89s/it]                                                            4%|▎         | 3595/100000 [2:10:45<50:31:38,  1.89s/it]  4%|▎         | 3596/100000 [2:10:47<46:54:19,  1.75s/it]                                                            4%|▎         | 3596/100000 [2:10:47<46:54:19,  1.75s/it]  4%|▎         | 3597/100000 [2:10:48<43:35:03,  1.63s/it]                                                            4%|▎         | 3597/100000 [2:10:48<43:35:03,  1.63s/it]  4%|▎         | 3598/100000 [2:10:49<41:26:08,  1.55s/it]                                                            4%|▎         | 3598/100000 [2:10:49<41:26:08,  1.55s/it]  4%|▎         | 3599/100000 [2:10:51<39:15:03,  1.47s/it]                                                            4%|▎         | 3599/100000 [2:10:51<39:15:03,  1.47s/it]  4%|▎         | 3600/100000 [2:10:52<37:15:12,  1.39s/it]                                                            4%|▎         | 3600/100000 [2:10:52<37:15:12,  1.39s/it]  4%|▎         | 3601/100000 [2:10:53<35:32:00,  1.33s/it]                                                            4%|▎         | 3601/100000 [2:10:53<35:32:00,  1.33s/it]  4%|▎         | 3602/100000 [2:10:54<33:48:56,  1.26s/it]                                                            4%|▎         | 3602/100000 [2:10:54<33:48:56,  1.26s/it]  4%|▎         | 3603/100000 [2:10:55<32:14:31,  1.20s/it]                                                            4%|▎         | 3603/100000 [2:10:55<32:14:31,  1.20s/it]  4%|▎         | 3604/100000 [2:10:56<30:47:41,  1.15s/it]                                                            4%|▎         | 3604/100000 [2:10:56<30:47:41,  1.15s/it]  4%|▎         | 3605/100000 [2:10:57<29:17:34,  1.09s/it]                                                            4%|▎         | 3605/100000 [2:10:57<29:17:34,  1.09s/it]  4%|▎         | 3606/100000 [2:10:58<28:17:55,  1.06s/it]                                                            4%|▎         | 3606/100000 [2:10:58<28:17:55,  1.06s/it]  4%|▎         | 3607/100000 [2:10:59<27:16:25,  1.02s/it]                                                            4%|▎         | 3607/100000 [2:10:59<27:16:25,  1.02s/it]  4%|▎         | 3608/100000 [2:11:00<26:30:28,  1.01it/s]                                                            4%|▎         | 3608/100000 [2:11:00<26:30:28,  1.01it/s]  4%|▎         | 3609/100000 [2:11:01<27:14:13,  1.02s/it]                                                            4%|▎         | 3609/100000 [2:11:01<27:14:13,  1.02s/it]  4%|▎         | 3610/100000 [2:11:02<26:00:42,  1.03it/s]                                                            4%|▎         | 3610/100000 [2:11:02<26:00:42,  1.03it/s]  4%|▎         | 3611/100000 [2:11:03<25:07:51,  1.07it/s]                                                            4%|▎         | 3611/100000 [2:11:03<25:07:51,  1.07it/s]  4%|▎         | 3612/100000 [2:11:04<24:42:17,  1.08it/s]                                                            4%|▎         | 3612/100000 [2:11:04<24:42:17,  1.08it/s]  4%|▎         | 3613/100000 [2:11:05<23:35:02,  1.14it/s]                                                            4%|▎         | 3613/100000 [2:11:05<23:35:02,  1.14it/s]  4%|▎         | 3614/100000 [2:11:05<23:07:09,  1.16it/s]                                                            4%|▎         | 3614/100000 [2:11:05<23:07:09,  1.16it/s]  4%|▎         | 3615/100000 [2:11:06<22:29:19,  1.19it/s]                                                            4%|▎         | 3615/100000 [2:11:06<22:29:19,  1.19it/s]  4%|▎         | 3616/100000 [2:11:07<21:35:21,  1.24it/s]                                                            4%|▎         | 3616/100000 [2:11:07<21:35:21,  1.24it/s]  4%|▎         | 3617/100000 [2:11:08<21:16:36,  1.26it/s]                                                            4%|▎         | 3617/100000 [2:11:08<21:16:36,  1.26it/s]  4%|▎         | 3618/100000 [2:11:08<20:35:28,  1.30it/s]                                                            4%|▎         | 3618/100000 [2:11:08<20:35:28,  1.30it/s]  4%|▎         | 3619/100000 [2:11:21<118:29:37,  4.43s/it]                                                             4%|▎         | 3619/100000 [2:11:21<118:29:37,  4.43s/it]  4%|▎         | 3620/100000 [2:11:29<147:55:03,  5.53s/it]                                                             4%|▎         | 3620/100000 [2:11:29<147:55:03,  5.53s/it]  4%|▎         | 3621/100000 [2:11:35<145:32:06,  5.44s/it]                                                             4%|▎         | 3621/100000 [2:11:35<145:32:06,  5.44s/it]  4%|▎         | 3622/100000 [2:11:39<139:15:08,  5.20s/it]                                                             4%|▎         | 3622/100000 [2:11:39<139:15:08,  5.20s/it]  4%|▎         | 3623/100000 [2:11:43<129:27:04,  4.84s/it]                                                             4%|▎         | 3623/100000 [2:11:43<129:27:04,  4.84s/it]  4%|▎         | 3624/100000 [2:11:47<116:52:43,  4.37s/it]                                                             4%|▎         | 3624/100000 [2:11:47<116:52:43,  4.37s/it]  4%|▎         | 3625/100000 [2:11:50<106:33:59,  3.98s/it]                                                             4%|▎         | 3625/100000 [2:11:50<106:33:59,  3.98s/it]  4%|▎         | 3626/100000 [2:11:52<96:00:52,  3.59s/it]                                                           {'loss': 0.3305, 'grad_norm': 1.4840434789657593, 'learning_rate': 1.0617e-05, 'epoch': 23.01}
{'loss': 0.2384, 'grad_norm': 1.220245122909546, 'learning_rate': 1.062e-05, 'epoch': 23.01}
{'loss': 0.2464, 'grad_norm': 0.8919395804405212, 'learning_rate': 1.0623000000000001e-05, 'epoch': 23.02}
{'loss': 0.2096, 'grad_norm': 0.8332191705703735, 'learning_rate': 1.0626000000000001e-05, 'epoch': 23.03}
{'loss': 0.1631, 'grad_norm': 0.6857991218566895, 'learning_rate': 1.0629000000000001e-05, 'epoch': 23.03}
{'loss': 0.1567, 'grad_norm': 0.80948406457901, 'learning_rate': 1.0632000000000001e-05, 'epoch': 23.04}
{'loss': 0.156, 'grad_norm': 0.7894689440727234, 'learning_rate': 1.0634999999999999e-05, 'epoch': 23.05}
{'loss': 0.2082, 'grad_norm': 0.9725802540779114, 'learning_rate': 1.0638e-05, 'epoch': 23.05}
{'loss': 0.1413, 'grad_norm': 0.848757803440094, 'learning_rate': 1.0641e-05, 'epoch': 23.06}
{'loss': 0.1568, 'grad_norm': 0.9824245572090149, 'learning_rate': 1.0644e-05, 'epoch': 23.06}
{'loss': 0.149, 'grad_norm': 0.962483823299408, 'learning_rate': 1.0647e-05, 'epoch': 23.07}
{'loss': 0.1091, 'grad_norm': 0.8402988910675049, 'learning_rate': 1.065e-05, 'epoch': 23.08}
{'loss': 0.1433, 'grad_norm': 0.7838087677955627, 'learning_rate': 1.0653000000000001e-05, 'epoch': 23.08}
{'loss': 0.1074, 'grad_norm': 0.5951391458511353, 'learning_rate': 1.0656000000000001e-05, 'epoch': 23.09}
{'loss': 0.1025, 'grad_norm': 0.7246606349945068, 'learning_rate': 1.0659e-05, 'epoch': 23.1}
{'loss': 0.0875, 'grad_norm': 0.5995137095451355, 'learning_rate': 1.0662e-05, 'epoch': 23.1}
{'loss': 0.0951, 'grad_norm': 0.813899576663971, 'learning_rate': 1.0665e-05, 'epoch': 23.11}
{'loss': 0.126, 'grad_norm': 0.920325756072998, 'learning_rate': 1.0668000000000002e-05, 'epoch': 23.12}
{'loss': 0.0877, 'grad_norm': 0.7462194561958313, 'learning_rate': 1.0671e-05, 'epoch': 23.12}
{'loss': 0.0976, 'grad_norm': 1.1076335906982422, 'learning_rate': 1.0674e-05, 'epoch': 23.13}
{'loss': 0.0803, 'grad_norm': 0.9333564639091492, 'learning_rate': 1.0677e-05, 'epoch': 23.14}
{'loss': 0.0896, 'grad_norm': 0.7846590876579285, 'learning_rate': 1.068e-05, 'epoch': 23.14}
{'loss': 0.1526, 'grad_norm': 0.879942774772644, 'learning_rate': 1.0683000000000001e-05, 'epoch': 23.15}
{'loss': 0.0999, 'grad_norm': 0.8602880835533142, 'learning_rate': 1.0686e-05, 'epoch': 23.16}
{'loss': 0.1085, 'grad_norm': 1.0443534851074219, 'learning_rate': 1.0689e-05, 'epoch': 23.16}
{'loss': 0.0914, 'grad_norm': 1.0313078165054321, 'learning_rate': 1.0692e-05, 'epoch': 23.17}
{'loss': 0.0876, 'grad_norm': 1.9381303787231445, 'learning_rate': 1.0695e-05, 'epoch': 23.18}
{'loss': 0.1263, 'grad_norm': 1.4338502883911133, 'learning_rate': 1.0698e-05, 'epoch': 23.18}
{'loss': 0.1806, 'grad_norm': 1.6412516832351685, 'learning_rate': 1.0701000000000001e-05, 'epoch': 23.19}
{'loss': 0.1139, 'grad_norm': 1.3897817134857178, 'learning_rate': 1.0704000000000001e-05, 'epoch': 23.19}
{'loss': 0.0877, 'grad_norm': 1.273880124092102, 'learning_rate': 1.0707e-05, 'epoch': 23.2}
{'loss': 0.117, 'grad_norm': 1.5369824171066284, 'learning_rate': 1.0709999999999999e-05, 'epoch': 23.21}
{'loss': 0.0658, 'grad_norm': 1.1242612600326538, 'learning_rate': 1.0712999999999999e-05, 'epoch': 23.21}
{'loss': 0.0843, 'grad_norm': 1.0982465744018555, 'learning_rate': 1.0716e-05, 'epoch': 23.22}
{'loss': 0.0984, 'grad_norm': 2.016366958618164, 'learning_rate': 1.0719e-05, 'epoch': 23.23}
{'loss': 0.0903, 'grad_norm': 1.4434590339660645, 'learning_rate': 1.0722e-05, 'epoch': 23.23}
{'loss': 0.0809, 'grad_norm': 1.5103696584701538, 'learning_rate': 1.0725e-05, 'epoch': 23.24}
{'loss': 0.1314, 'grad_norm': 1.9060275554656982, 'learning_rate': 1.0728e-05, 'epoch': 23.25}
{'loss': 0.3103, 'grad_norm': 1.916115403175354, 'learning_rate': 1.0731000000000001e-05, 'epoch': 23.25}
{'loss': 0.2697, 'grad_norm': 1.2507884502410889, 'learning_rate': 1.0734000000000001e-05, 'epoch': 23.26}
{'loss': 0.2232, 'grad_norm': 0.9319681525230408, 'learning_rate': 1.0737e-05, 'epoch': 23.27}
{'loss': 0.2582, 'grad_norm': 0.9989511370658875, 'learning_rate': 1.074e-05, 'epoch': 23.27}
{'loss': 0.1896, 'grad_norm': 1.0042237043380737, 'learning_rate': 1.0743e-05, 'epoch': 23.28}
{'loss': 0.1851, 'grad_norm': 0.8804175853729248, 'learning_rate': 1.0746e-05, 'epoch': 23.29}
{'loss': 0.1469, 'grad_norm': 0.8904348015785217, 'learning_rate': 1.0749e-05, 'epoch': 23.29}
{'loss': 0.1675, 'grad_norm': 0.6247484087944031, 'learning_rate': 1.0752e-05, 'epoch': 23.3}
{'loss': 0.2393, 'grad_norm': 1.164429783821106, 'learning_rate': 1.0755e-05, 'epoch': 23.31}
{'loss': 0.1425, 'grad_norm': 0.8595316410064697, 'learning_rate': 1.0758e-05, 'epoch': 23.31}
{'loss': 0.1323, 'grad_norm': 0.7577179670333862, 'learning_rate': 1.0761e-05, 'epoch': 23.32}
{'loss': 0.1198, 'grad_norm': 0.7062191367149353, 'learning_rate': 1.0764e-05, 'epoch': 23.32}
{'loss': 0.1391, 'grad_norm': 0.8745574355125427, 'learning_rate': 1.0767e-05, 'epoch': 23.33}
{'loss': 0.1189, 'grad_norm': 0.8524920344352722, 'learning_rate': 1.077e-05, 'epoch': 23.34}
{'loss': 0.1143, 'grad_norm': 0.8893603682518005, 'learning_rate': 1.0773e-05, 'epoch': 23.34}
{'loss': 0.1031, 'grad_norm': 0.9978161454200745, 'learning_rate': 1.0776000000000002e-05, 'epoch': 23.35}
{'loss': 0.1101, 'grad_norm': 0.8056603074073792, 'learning_rate': 1.0779000000000001e-05, 'epoch': 23.36}
{'loss': 0.0911, 'grad_norm': 0.7726839184761047, 'learning_rate': 1.0782e-05, 'epoch': 23.36}
{'loss': 0.098, 'grad_norm': 0.9117854237556458, 'learning_rate': 1.0785e-05, 'epoch': 23.37}
{'loss': 0.0913, 'grad_norm': 0.8462114334106445, 'learning_rate': 1.0787999999999999e-05, 'epoch': 23.38}
{'loss': 0.1212, 'grad_norm': 1.1057624816894531, 'learning_rate': 1.0791e-05, 'epoch': 23.38}
{'loss': 0.0864, 'grad_norm': 1.4250292778015137, 'learning_rate': 1.0794e-05, 'epoch': 23.39}
{'loss': 0.0946, 'grad_norm': 1.4405486583709717, 'learning_rate': 1.0797e-05, 'epoch': 23.4}
{'loss': 0.0906, 'grad_norm': 1.3558259010314941, 'learning_rate': 1.08e-05, 'epoch': 23.4}
{'loss': 0.132, 'grad_norm': 1.1269010305404663, 'learning_rate': 1.0803e-05, 'epoch': 23.41}
{'loss': 0.1036, 'grad_norm': 1.5255447626113892, 'learning_rate': 1.0806000000000001e-05, 'epoch': 23.42}
{'loss': 0.1027, 'grad_norm': 0.7776735424995422, 'learning_rate': 1.0809000000000001e-05, 'epoch': 23.42}
{'loss': 0.1579, 'grad_norm': 1.0546259880065918, 'learning_rate': 1.0812e-05, 'epoch': 23.43}
{'loss': 0.0913, 'grad_norm': 1.2884095907211304, 'learning_rate': 1.0815e-05, 'epoch': 23.44}
{'loss': 0.0722, 'grad_norm': 0.9142229557037354, 'learning_rate': 1.0817999999999999e-05, 'epoch': 23.44}
{'loss': 0.0666, 'grad_norm': 1.3167802095413208, 'learning_rate': 1.0821e-05, 'epoch': 23.45}
{'loss': 0.0942, 'grad_norm': 1.1249898672103882, 'learning_rate': 1.0824e-05, 'epoch': 23.45}
{'loss': 0.0892, 'grad_norm': 1.6806254386901855, 'learning_rate': 1.0827e-05, 'epoch': 23.46}
{'loss': 0.118, 'grad_norm': 2.1548776626586914, 'learning_rate': 1.083e-05, 'epoch': 23.47}
{'loss': 0.1143, 'grad_norm': 1.7938451766967773, 'learning_rate': 1.0833e-05, 'epoch': 23.47}
{'loss': 0.0945, 'grad_norm': 1.975470781326294, 'learning_rate': 1.0836000000000001e-05, 'epoch': 23.48}
{'loss': 0.1187, 'grad_norm': 3.0133049488067627, 'learning_rate': 1.0839e-05, 'epoch': 23.49}
{'loss': 0.1479, 'grad_norm': 2.1191799640655518, 'learning_rate': 1.0842e-05, 'epoch': 23.49}
{'loss': 0.332, 'grad_norm': 2.076066732406616, 'learning_rate': 1.0845e-05, 'epoch': 23.5}
{'loss': 0.2414, 'grad_norm': 1.1339038610458374, 'learning_rate': 1.0848e-05, 'epoch': 23.51}
{'loss': 0.2199, 'grad_norm': 0.8236941695213318, 'learning_rate': 1.0851000000000002e-05, 'epoch': 23.51}
{'loss': 0.2138, 'grad_norm': 2.0611114501953125, 'learning_rate': 1.0854e-05, 'epoch': 23.52}
{'loss': 0.221, 'grad_norm': 1.0743486881256104, 'learning_rate': 1.0857e-05, 'epoch': 23.53}
{'loss': 0.1647, 'grad_norm': 0.8186385631561279, 'learning_rate': 1.086e-05, 'epoch': 23.53}
{'loss': 0.2022, 'grad_norm': 1.41816246509552, 'learning_rate': 1.0863e-05, 'epoch': 23.54}
  4%|▎         | 3626/100000 [2:11:52<96:00:52,  3.59s/it]  4%|▎         | 3627/100000 [2:11:55<85:57:14,  3.21s/it]                                                            4%|▎         | 3627/100000 [2:11:55<85:57:14,  3.21s/it]  4%|▎         | 3628/100000 [2:11:57<76:59:20,  2.88s/it]                                                            4%|▎         | 3628/100000 [2:11:57<76:59:20,  2.88s/it]  4%|▎         | 3629/100000 [2:11:59<69:37:38,  2.60s/it]                                                            4%|▎         | 3629/100000 [2:11:59<69:37:38,  2.60s/it]  4%|▎         | 3630/100000 [2:12:01<63:29:47,  2.37s/it]                                                            4%|▎         | 3630/100000 [2:12:01<63:29:47,  2.37s/it]  4%|▎         | 3631/100000 [2:12:02<57:58:35,  2.17s/it]                                                            4%|▎         | 3631/100000 [2:12:02<57:58:35,  2.17s/it]  4%|▎         | 3632/100000 [2:12:04<53:42:50,  2.01s/it]                                                            4%|▎         | 3632/100000 [2:12:04<53:42:50,  2.01s/it]  4%|▎         | 3633/100000 [2:12:05<50:13:17,  1.88s/it]                                                            4%|▎         | 3633/100000 [2:12:05<50:13:17,  1.88s/it]  4%|▎         | 3634/100000 [2:12:07<46:54:31,  1.75s/it]                                                            4%|▎         | 3634/100000 [2:12:07<46:54:31,  1.75s/it]  4%|▎         | 3635/100000 [2:12:08<43:58:54,  1.64s/it]                                                            4%|▎         | 3635/100000 [2:12:08<43:58:54,  1.64s/it]  4%|▎         | 3636/100000 [2:12:10<41:10:05,  1.54s/it]                                                            4%|▎         | 3636/100000 [2:12:10<41:10:05,  1.54s/it]  4%|▎         | 3637/100000 [2:12:11<39:14:38,  1.47s/it]                                                            4%|▎         | 3637/100000 [2:12:11<39:14:38,  1.47s/it]  4%|▎         | 3638/100000 [2:12:12<37:20:10,  1.39s/it]                                                            4%|▎         | 3638/100000 [2:12:12<37:20:10,  1.39s/it]  4%|▎         | 3639/100000 [2:12:13<35:11:53,  1.31s/it]                                                            4%|▎         | 3639/100000 [2:12:13<35:11:53,  1.31s/it]  4%|▎         | 3640/100000 [2:12:14<33:30:03,  1.25s/it]                                                            4%|▎         | 3640/100000 [2:12:14<33:30:03,  1.25s/it]  4%|▎         | 3641/100000 [2:12:15<31:55:12,  1.19s/it]                                                            4%|▎         | 3641/100000 [2:12:15<31:55:12,  1.19s/it]  4%|▎         | 3642/100000 [2:12:16<30:13:38,  1.13s/it]                                                            4%|▎         | 3642/100000 [2:12:16<30:13:38,  1.13s/it]  4%|▎         | 3643/100000 [2:12:17<28:48:49,  1.08s/it]                                                            4%|▎         | 3643/100000 [2:12:17<28:48:49,  1.08s/it]  4%|▎         | 3644/100000 [2:12:18<27:43:55,  1.04s/it]                                                            4%|▎         | 3644/100000 [2:12:18<27:43:55,  1.04s/it]  4%|▎         | 3645/100000 [2:12:19<27:01:14,  1.01s/it]                                                            4%|▎         | 3645/100000 [2:12:19<27:01:14,  1.01s/it]  4%|▎         | 3646/100000 [2:12:20<25:56:12,  1.03it/s]                                                            4%|▎         | 3646/100000 [2:12:20<25:56:12,  1.03it/s]  4%|▎         | 3647/100000 [2:12:21<24:35:29,  1.09it/s]                                                            4%|▎         | 3647/100000 [2:12:21<24:35:29,  1.09it/s]  4%|▎         | 3648/100000 [2:12:22<23:53:23,  1.12it/s]                                                            4%|▎         | 3648/100000 [2:12:22<23:53:23,  1.12it/s]  4%|▎         | 3649/100000 [2:12:23<23:31:49,  1.14it/s]                                                            4%|▎         | 3649/100000 [2:12:23<23:31:49,  1.14it/s]  4%|▎         | 3650/100000 [2:12:23<22:59:55,  1.16it/s]                                                            4%|▎         | 3650/100000 [2:12:23<22:59:55,  1.16it/s]  4%|▎         | 3651/100000 [2:12:24<21:51:19,  1.22it/s]                                                            4%|▎         | 3651/100000 [2:12:24<21:51:19,  1.22it/s]  4%|▎         | 3652/100000 [2:12:25<21:05:19,  1.27it/s]                                                            4%|▎         | 3652/100000 [2:12:25<21:05:19,  1.27it/s]  4%|▎         | 3653/100000 [2:12:26<20:53:48,  1.28it/s]                                                            4%|▎         | 3653/100000 [2:12:26<20:53:48,  1.28it/s]  4%|▎         | 3654/100000 [2:12:26<20:07:44,  1.33it/s]                                                            4%|▎         | 3654/100000 [2:12:26<20:07:44,  1.33it/s]  4%|▎         | 3655/100000 [2:12:27<19:23:38,  1.38it/s]                                                            4%|▎         | 3655/100000 [2:12:27<19:23:38,  1.38it/s]  4%|▎         | 3656/100000 [2:12:28<19:18:58,  1.39it/s]                                                            4%|▎         | 3656/100000 [2:12:28<19:18:58,  1.39it/s]  4%|▎         | 3657/100000 [2:12:39<105:33:33,  3.94s/it]                                                             4%|▎         | 3657/100000 [2:12:39<105:33:33,  3.94s/it]  4%|▎         | 3658/100000 [2:12:47<137:11:39,  5.13s/it]                                                             4%|▎         | 3658/100000 [2:12:47<137:11:39,  5.13s/it]  4%|▎         | 3659/100000 [2:12:53<140:22:19,  5.25s/it]                                                             4%|▎         | 3659/100000 [2:12:53<140:22:19,  5.25s/it]  4%|▎         | 3660/100000 [2:12:57<132:06:32,  4.94s/it]                                                             4%|▎         | 3660/100000 [2:12:57<132:06:32,  4.94s/it]  4%|▎         | 3661/100000 [2:13:01<123:26:44,  4.61s/it]                                                             4%|▎         | 3661/100000 [2:13:01<123:26:44,  4.61s/it]  4%|▎         | 3662/100000 [2:13:04<114:33:36,  4.28s/it]                                                             4%|▎         | 3662/100000 [2:13:04<114:33:36,  4.28s/it]  4%|▎         | 3663/100000 [2:13:07<104:39:05,  3.91s/it]                                                             4%|▎         | 3663/100000 [2:13:07<104:39:05,  3.91s/it]  4%|▎         | 3664/100000 [2:13:10<94:43:18,  3.54s/it]                                                             4%|▎         | 3664/100000 [2:13:10<94:43:18,  3.54s/it]  4%|▎         | 3665/100000 [2:13:12<84:55:12,  3.17s/it]                                                            4%|▎         | 3665/100000 [2:13:12<84:55:12,  3.17s/it]  4%|▎         | 3666/100000 [2:13:14<76:19:39,  2.85s/it]                                                            4%|▎         | 3666/100000 [2:13:14<76:19:39,  2.85s/it]  4%|▎         | 3667/100000 [2:13:16<68:25:33,  2.56s/it]                                                            4%|▎         | 3667/100000 [2:13:16<68:25:33,  2.56s/it]  4%|▎         | 3668/100000 [2:13:18<62:16:04,  2.33s/it]                                                            4%|▎         | 3668/100000 [2:13:18<62:16:04,  2.33s/it]  4%|▎         | 3669/100000 [2:13:20<56:49:29,  2.12s/it]                                                            4%|▎         | 3669/100000 [2:13:20<56:49:29,  2.12s/it]  4%|▎         | 3670/100000 [2:13:21<52:41:35,  1.97s/it]                                                            4%|▎         | 3670/100000 [2:13:21<52:41:35,  1.97s/it]  4%|▎         | 3671/100000 [2:13:23<49:21:17,  1.84s/it]                                                            4%|▎         | 3671/100000 [2:13:23<49:21:17,  1.84s/it]  4%|▎         | 3672/100000 [2:13:24<46:08:52,  1.72s/it]                                                            4%|▎         | 3672/100000 [2:13:24<46:08:52,  1.72s/it]  4%|▎         | 3673/100000 [2:13:26<43:11:29,  1.61s/it]                                                            4%|▎         | 3673/100000 [2:13:26<43:11:29,  1.61s/it]  4%|▎         | 3674/100000 [2:13:27<40:55:19,  1.53s/it]                                                            4%|▎         | 3674/100000 [2:13:27<40:55:19,  1.53s/it]  4%|▎         | 3675/100000 [2:13:28<39:01:19,  1.46s/it]                                                            4%|▎         | 3675/100000 [2:13:28<39:01:19,  1.46s/it]  4%|▎         | 3676/100000 [2:13:29<37:16:25,  1.39s/it]                                                            4%|▎         | 3676/100000 [2:13:29<37:16:25,  1.39s/it]  4%|▎         | 3677/100000 [2:13:31<35:14:32,  1.32s/it]                                                            4%|▎         | 3677/100000 [2:13:31<35:14:32,  1.32s/it]  4%|▎         | 3678/100000 [2:13:32<33:17:09,  1.24s/it]                                                            4%|▎         | 3678/100000 [2:13:32<33:17:09,  1.24s/it]  4%|▎         | 3679/100000 [2:13:33<31:41:23,  1.18s/it]                                                            4%|▎         | 3679/100000 [2:13:33<31:41:23,  1.18s/it]  4%|▎         | 3680/100000 [2:13:34<30:15:05,  1.13s/it]                                                            4%|▎         | 3680/100000 [2:13:34<30:15:05,  1.13s/it]  4%|▎         | 3681/100000 [2:13:35<28:47:55,  1.08s/it]                                                            4%|▎         | 3681/100000 [2:13:35<28:47:55,  1.08s/it]  4%|▎         | 3682/100000 [2:13:36<27:32:46,  1.03s/it]                                                            4%|▎         | 3682/100000 [2:13:36<27:32:46,  1.03s/it]  4%|▎         | 3683/100000 [2:13:36<26:35:30,  1.01it/s]                                                            4%|▎         | 3683/100000 [2:13:36<26:35:30,  1.01it/s]  4%|▎         | 3684/100000 [2:13:37<25:17:38,  1.06it/s]                                                            4%|▎         | 3684/100000 [2:13:37<25:17:38,  1.06it/s]  4%|▎         | 3685/100000 [2:13:38<24:05:08,  1.11it/s]                                                            4%|▎         | 3685/100000 [2:13:38<24:05:08,  1.11it/s]  4%|▎         | 3686/100000 [2:13:39<23:39:00,  1.13it/s]                                                            4%|▎         | 3686/100000 [2:13:39<23:39:00,  1.13it/s]  4%|▎         | 3687/100000 [2:13:40<23:08:03,  1.16it/s]                                                            4%|▎         | 3687/100000 [2:13:40<23:08:03,  1.16it/s]  4%|▎         | 3688/100000 [2:13:40<22:12:24,  1.20it/s]                                                            4%|▎         | 3688/100000 [2:13:40<22:12:24,  1.20it/s]  4%|▎         | 3689/100000 [2:13:41<21:13:16,  1.26it/s]                                                            4%|▎         | 3689/100000 [2:13:41<21:13:16,  1.26it/s]  4%|▎         | 3690/100000 [2:13:42<20:40:02,  1.29it/s]                                                            4%|▎         | 3690/100000 [2:13:42<20:40:02,  1.29it/s]  4%|▎         | 3691/100000 [2:13:43<20:23:36,  1.31it/s]                                                            4%|▎         | 3691/100000 [2:13:43<20:23:36,  1.31it/s]  4%|▎         | 3692/100000 [2:13:43<19:30:04,  1.37it/s]                                                            4%|▎         | 3692/100000 [2:13:43<19:30:04,  1.37it/s]  4%|▎         | 3693/100000 [2:13:44<18:52:35,  1.42it/s]                                                            4%|▎         | 3693/100000 [2:13:44<18:52:35,  1.42it/s]  4%|▎         | 3694/100000 [2:13:45<18:05:02,  1.48it/s]                                                            4%|▎         | 3694/100000 [2:13:45<18:05:02,  1.48it/s]  4%|▎         | 3695/100000 [2:13:53<83:23:51,  3.12s/it]                                                            4%|▎         | 3695/100000 [2:13:53<83:23:51,  3.12s/it]  4%|▎         | 3696/100000 [2:13:55<69:33:22,  2.60s/it]                                                            4%|▎         | 3696/100000 [2:13:55<69:33:22,  2.60s/it]{'loss': 0.1633, 'grad_norm': 0.9924057126045227, 'learning_rate': 1.0866e-05, 'epoch': 23.55}
{'loss': 0.1714, 'grad_norm': 1.3832719326019287, 'learning_rate': 1.0869e-05, 'epoch': 23.55}
{'loss': 0.1308, 'grad_norm': 0.689831554889679, 'learning_rate': 1.0872e-05, 'epoch': 23.56}
{'loss': 0.1119, 'grad_norm': 0.851650595664978, 'learning_rate': 1.0875e-05, 'epoch': 23.56}
{'loss': 0.1504, 'grad_norm': 0.8153380155563354, 'learning_rate': 1.0878e-05, 'epoch': 23.57}
{'loss': 0.1215, 'grad_norm': 1.0395320653915405, 'learning_rate': 1.0881000000000001e-05, 'epoch': 23.58}
{'loss': 0.1405, 'grad_norm': 1.0807081460952759, 'learning_rate': 1.0884000000000001e-05, 'epoch': 23.58}
{'loss': 0.1314, 'grad_norm': 0.6992462277412415, 'learning_rate': 1.0887000000000001e-05, 'epoch': 23.59}
{'loss': 0.1317, 'grad_norm': 0.7520455718040466, 'learning_rate': 1.089e-05, 'epoch': 23.6}
{'loss': 0.1197, 'grad_norm': 1.5349386930465698, 'learning_rate': 1.0892999999999999e-05, 'epoch': 23.6}
{'loss': 0.1249, 'grad_norm': 0.771237850189209, 'learning_rate': 1.0896e-05, 'epoch': 23.61}
{'loss': 0.0775, 'grad_norm': 0.7358618974685669, 'learning_rate': 1.0899e-05, 'epoch': 23.62}
{'loss': 0.1176, 'grad_norm': 2.177069664001465, 'learning_rate': 1.0902e-05, 'epoch': 23.62}
{'loss': 0.1088, 'grad_norm': 1.0084651708602905, 'learning_rate': 1.0905e-05, 'epoch': 23.63}
{'loss': 0.0923, 'grad_norm': 0.8736022114753723, 'learning_rate': 1.0908e-05, 'epoch': 23.64}
{'loss': 0.0948, 'grad_norm': 0.7746031284332275, 'learning_rate': 1.0911000000000001e-05, 'epoch': 23.64}
{'loss': 0.1052, 'grad_norm': 1.311295509338379, 'learning_rate': 1.0914000000000001e-05, 'epoch': 23.65}
{'loss': 0.1788, 'grad_norm': 1.1317414045333862, 'learning_rate': 1.0917e-05, 'epoch': 23.66}
{'loss': 0.09, 'grad_norm': 1.1680335998535156, 'learning_rate': 1.092e-05, 'epoch': 23.66}
{'loss': 0.1533, 'grad_norm': 1.2932275533676147, 'learning_rate': 1.0923e-05, 'epoch': 23.67}
{'loss': 0.1569, 'grad_norm': 1.8129115104675293, 'learning_rate': 1.0926000000000002e-05, 'epoch': 23.68}
{'loss': 0.1192, 'grad_norm': 1.514053463935852, 'learning_rate': 1.0929e-05, 'epoch': 23.68}
{'loss': 0.1069, 'grad_norm': 2.017402410507202, 'learning_rate': 1.0932e-05, 'epoch': 23.69}
{'loss': 0.0805, 'grad_norm': 1.0899487733840942, 'learning_rate': 1.0935e-05, 'epoch': 23.69}
{'loss': 0.0958, 'grad_norm': 2.4761860370635986, 'learning_rate': 1.0938e-05, 'epoch': 23.7}
{'loss': 0.076, 'grad_norm': 1.2299453020095825, 'learning_rate': 1.0941e-05, 'epoch': 23.71}
{'loss': 0.0814, 'grad_norm': 1.1592546701431274, 'learning_rate': 1.0944e-05, 'epoch': 23.71}
{'loss': 0.1067, 'grad_norm': 1.6963924169540405, 'learning_rate': 1.0947e-05, 'epoch': 23.72}
{'loss': 0.1151, 'grad_norm': 1.3958828449249268, 'learning_rate': 1.095e-05, 'epoch': 23.73}
{'loss': 0.0706, 'grad_norm': 1.5857226848602295, 'learning_rate': 1.0953e-05, 'epoch': 23.73}
{'loss': 0.1068, 'grad_norm': 1.9015982151031494, 'learning_rate': 1.0956000000000001e-05, 'epoch': 23.74}
{'loss': 0.3617, 'grad_norm': 1.5291242599487305, 'learning_rate': 1.0959000000000001e-05, 'epoch': 23.75}
{'loss': 0.2753, 'grad_norm': 1.2780845165252686, 'learning_rate': 1.0962000000000001e-05, 'epoch': 23.75}
{'loss': 0.2831, 'grad_norm': 1.0934622287750244, 'learning_rate': 1.0965e-05, 'epoch': 23.76}
{'loss': 0.2278, 'grad_norm': 0.9229949116706848, 'learning_rate': 1.0967999999999999e-05, 'epoch': 23.77}
{'loss': 0.1762, 'grad_norm': 0.7740151286125183, 'learning_rate': 1.0971e-05, 'epoch': 23.77}
{'loss': 0.1666, 'grad_norm': 0.801532506942749, 'learning_rate': 1.0974e-05, 'epoch': 23.78}
{'loss': 0.151, 'grad_norm': 0.7149754166603088, 'learning_rate': 1.0977e-05, 'epoch': 23.79}
{'loss': 0.1518, 'grad_norm': 0.8637322783470154, 'learning_rate': 1.098e-05, 'epoch': 23.79}
{'loss': 0.1331, 'grad_norm': 0.9724532961845398, 'learning_rate': 1.0983e-05, 'epoch': 23.8}
{'loss': 0.1312, 'grad_norm': 0.5838162899017334, 'learning_rate': 1.0986000000000001e-05, 'epoch': 23.81}
{'loss': 0.1119, 'grad_norm': 0.6644796133041382, 'learning_rate': 1.0989000000000001e-05, 'epoch': 23.81}
{'loss': 0.1454, 'grad_norm': 0.7671121954917908, 'learning_rate': 1.0992e-05, 'epoch': 23.82}
{'loss': 0.1021, 'grad_norm': 0.7020429968833923, 'learning_rate': 1.0995e-05, 'epoch': 23.82}
{'loss': 0.093, 'grad_norm': 0.671133279800415, 'learning_rate': 1.0998e-05, 'epoch': 23.83}
{'loss': 0.1108, 'grad_norm': 1.0005899667739868, 'learning_rate': 1.1001e-05, 'epoch': 23.84}
{'loss': 0.1061, 'grad_norm': 1.2451688051223755, 'learning_rate': 1.1004e-05, 'epoch': 23.84}
{'loss': 0.0872, 'grad_norm': 0.8959009051322937, 'learning_rate': 1.1007e-05, 'epoch': 23.85}
{'loss': 0.0814, 'grad_norm': 1.6614201068878174, 'learning_rate': 1.101e-05, 'epoch': 23.86}
{'loss': 0.0957, 'grad_norm': 1.0269652605056763, 'learning_rate': 1.1013e-05, 'epoch': 23.86}
{'loss': 0.1489, 'grad_norm': 1.0811131000518799, 'learning_rate': 1.1016000000000001e-05, 'epoch': 23.87}
{'loss': 0.133, 'grad_norm': 1.175238847732544, 'learning_rate': 1.1019e-05, 'epoch': 23.88}
{'loss': 0.191, 'grad_norm': 1.1314494609832764, 'learning_rate': 1.1022e-05, 'epoch': 23.88}
{'loss': 0.139, 'grad_norm': 1.2498973608016968, 'learning_rate': 1.1025e-05, 'epoch': 23.89}
{'loss': 0.1407, 'grad_norm': 1.4000171422958374, 'learning_rate': 1.1028e-05, 'epoch': 23.9}
{'loss': 0.1015, 'grad_norm': 1.8232369422912598, 'learning_rate': 1.1031000000000002e-05, 'epoch': 23.9}
{'loss': 0.0935, 'grad_norm': 1.511997103691101, 'learning_rate': 1.1034000000000001e-05, 'epoch': 23.91}
{'loss': 0.0638, 'grad_norm': 0.9336631894111633, 'learning_rate': 1.1037000000000001e-05, 'epoch': 23.92}
{'loss': 0.0827, 'grad_norm': 1.3268074989318848, 'learning_rate': 1.104e-05, 'epoch': 23.92}
{'loss': 0.1391, 'grad_norm': 1.934297800064087, 'learning_rate': 1.1042999999999999e-05, 'epoch': 23.93}
{'loss': 0.0746, 'grad_norm': 1.13633394241333, 'learning_rate': 1.1046e-05, 'epoch': 23.94}
{'loss': 0.086, 'grad_norm': 1.7029880285263062, 'learning_rate': 1.1049e-05, 'epoch': 23.94}
{'loss': 0.1019, 'grad_norm': 1.3820147514343262, 'learning_rate': 1.1052e-05, 'epoch': 23.95}
{'loss': 0.083, 'grad_norm': 1.2823160886764526, 'learning_rate': 1.1055e-05, 'epoch': 23.95}
{'loss': 0.071, 'grad_norm': 1.733259677886963, 'learning_rate': 1.1058e-05, 'epoch': 23.96}
{'loss': 0.1154, 'grad_norm': 1.8649282455444336, 'learning_rate': 1.1061000000000001e-05, 'epoch': 23.97}
{'loss': 0.1592, 'grad_norm': 2.440946340560913, 'learning_rate': 1.1064000000000001e-05, 'epoch': 23.97}
{'loss': 0.083, 'grad_norm': 2.418612480163574, 'learning_rate': 1.1067000000000001e-05, 'epoch': 23.98}
{'loss': 0.1521, 'grad_norm': 1.9046335220336914, 'learning_rate': 1.107e-05, 'epoch': 23.99}
{'loss': 0.189, 'grad_norm': 1.4081364870071411, 'learning_rate': 1.1073e-05, 'epoch': 23.99}
{'loss': 0.1272, 'grad_norm': 2.4921157360076904, 'learning_rate': 1.1075999999999999e-05, 'epoch': 24.0}
  4%|▎         | 3697/100000 [2:14:12<190:13:18,  7.11s/it]                                                             4%|▎         | 3697/100000 [2:14:12<190:13:18,  7.11s/it]  4%|▎         | 3698/100000 [2:14:20<195:45:02,  7.32s/it]                                                             4%|▎         | 3698/100000 [2:14:20<195:45:02,  7.32s/it]  4%|▎         | 3699/100000 [2:14:26<179:47:06,  6.72s/it]                                                             4%|▎         | 3699/100000 [2:14:26<179:47:06,  6.72s/it]  4%|▎         | 3700/100000 [2:14:30<163:43:06,  6.12s/it]                                                             4%|▎         | 3700/100000 [2:14:30<163:43:06,  6.12s/it]  4%|▎         | 3701/100000 [2:14:34<146:56:51,  5.49s/it]                                                             4%|▎         | 3701/100000 [2:14:34<146:56:51,  5.49s/it]  4%|▎         | 3702/100000 [2:14:38<130:21:21,  4.87s/it]                                                             4%|▎         | 3702/100000 [2:14:38<130:21:21,  4.87s/it]  4%|▎         | 3703/100000 [2:14:41<116:25:19,  4.35s/it]                                                             4%|▎         | 3703/100000 [2:14:41<116:25:19,  4.35s/it]  4%|▎         | 3704/100000 [2:14:43<102:22:27,  3.83s/it]                                                             4%|▎         | 3704/100000 [2:14:43<102:22:27,  3.83s/it]  4%|▎         | 3705/100000 [2:14:46<90:58:26,  3.40s/it]                                                             4%|▎         | 3705/100000 [2:14:46<90:58:26,  3.40s/it]  4%|▎         | 3706/100000 [2:14:48<80:55:47,  3.03s/it]                                                            4%|▎         | 3706/100000 [2:14:48<80:55:47,  3.03s/it]  4%|▎         | 3707/100000 [2:14:50<72:54:48,  2.73s/it]                                                            4%|▎         | 3707/100000 [2:14:50<72:54:48,  2.73s/it]  4%|▎         | 3708/100000 [2:14:52<66:12:52,  2.48s/it]                                                            4%|▎         | 3708/100000 [2:14:52<66:12:52,  2.48s/it]  4%|▎         | 3709/100000 [2:14:54<60:09:32,  2.25s/it]                                                            4%|▎         | 3709/100000 [2:14:54<60:09:32,  2.25s/it]  4%|▎         | 3710/100000 [2:14:55<55:25:19,  2.07s/it]                                                            4%|▎         | 3710/100000 [2:14:55<55:25:19,  2.07s/it]  4%|▎         | 3711/100000 [2:14:57<51:23:29,  1.92s/it]                                                            4%|▎         | 3711/100000 [2:14:57<51:23:29,  1.92s/it]  4%|▎         | 3712/100000 [2:14:58<47:42:03,  1.78s/it]                                                            4%|▎         | 3712/100000 [2:14:58<47:42:03,  1.78s/it]  4%|▎         | 3713/100000 [2:15:00<44:23:43,  1.66s/it]                                                            4%|▎         | 3713/100000 [2:15:00<44:23:43,  1.66s/it]  4%|▎         | 3714/100000 [2:15:01<42:00:37,  1.57s/it]                                                            4%|▎         | 3714/100000 [2:15:01<42:00:37,  1.57s/it]  4%|▎         | 3715/100000 [2:15:02<39:31:26,  1.48s/it]                                                            4%|▎         | 3715/100000 [2:15:02<39:31:26,  1.48s/it]  4%|▎         | 3716/100000 [2:15:04<37:35:26,  1.41s/it]                                                            4%|▎         | 3716/100000 [2:15:04<37:35:26,  1.41s/it]  4%|▎         | 3717/100000 [2:15:05<35:31:22,  1.33s/it]                                                            4%|▎         | 3717/100000 [2:15:05<35:31:22,  1.33s/it]  4%|▎         | 3718/100000 [2:15:06<33:35:57,  1.26s/it]                                                            4%|▎         | 3718/100000 [2:15:06<33:35:57,  1.26s/it]  4%|▎         | 3719/100000 [2:15:07<31:59:16,  1.20s/it]                                                            4%|▎         | 3719/100000 [2:15:07<31:59:16,  1.20s/it]  4%|▎         | 3720/100000 [2:15:08<30:29:11,  1.14s/it]                                                            4%|▎         | 3720/100000 [2:15:08<30:29:11,  1.14s/it]  4%|▎         | 3721/100000 [2:15:09<29:12:03,  1.09s/it]                                                            4%|▎         | 3721/100000 [2:15:09<29:12:03,  1.09s/it]  4%|▎         | 3722/100000 [2:15:10<27:59:00,  1.05s/it]                                                            4%|▎         | 3722/100000 [2:15:10<27:59:00,  1.05s/it]  4%|▎         | 3723/100000 [2:15:11<26:51:42,  1.00s/it]                                                            4%|▎         | 3723/100000 [2:15:11<26:51:42,  1.00s/it]  4%|▎         | 3724/100000 [2:15:12<25:56:08,  1.03it/s]                                                            4%|▎         | 3724/100000 [2:15:12<25:56:08,  1.03it/s]  4%|▎         | 3725/100000 [2:15:12<25:00:52,  1.07it/s]                                                            4%|▎         | 3725/100000 [2:15:12<25:00:52,  1.07it/s]  4%|▎         | 3726/100000 [2:15:13<24:50:46,  1.08it/s]                                                            4%|▎         | 3726/100000 [2:15:13<24:50:46,  1.08it/s]  4%|▎         | 3727/100000 [2:15:14<24:13:09,  1.10it/s]                                                            4%|▎         | 3727/100000 [2:15:14<24:13:09,  1.10it/s]  4%|▎         | 3728/100000 [2:15:15<23:18:27,  1.15it/s]                                                            4%|▎         | 3728/100000 [2:15:15<23:18:27,  1.15it/s]  4%|▎         | 3729/100000 [2:15:16<22:55:05,  1.17it/s]                                                            4%|▎         | 3729/100000 [2:15:16<22:55:05,  1.17it/s]  4%|▎         | 3730/100000 [2:15:17<21:58:55,  1.22it/s]                                                            4%|▎         | 3730/100000 [2:15:17<21:58:55,  1.22it/s]  4%|▎         | 3731/100000 [2:15:17<22:08:22,  1.21it/s]                                                            4%|▎         | 3731/100000 [2:15:17<22:08:22,  1.21it/s]  4%|▎         | 3732/100000 [2:15:18<21:25:51,  1.25it/s]                                                            4%|▎         | 3732/100000 [2:15:18<21:25:51,  1.25it/s]  4%|▎         | 3733/100000 [2:15:19<21:12:03,  1.26it/s]                                                            4%|▎         | 3733/100000 [2:15:19<21:12:03,  1.26it/s]  4%|▎         | 3734/100000 [2:15:20<20:02:15,  1.33it/s]                                                            4%|▎         | 3734/100000 [2:15:20<20:02:15,  1.33it/s]  4%|▎         | 3735/100000 [2:15:33<118:18:13,  4.42s/it]                                                             4%|▎         | 3735/100000 [2:15:33<118:18:13,  4.42s/it]  4%|▎         | 3736/100000 [2:15:41<147:11:46,  5.50s/it]                                                             4%|▎         | 3736/100000 [2:15:41<147:11:46,  5.50s/it]  4%|▎         | 3737/100000 [2:15:46<146:30:31,  5.48s/it]                                                             4%|▎         | 3737/100000 [2:15:46<146:30:31,  5.48s/it]  4%|▎         | 3738/100000 [2:15:50<138:31:01,  5.18s/it]                                                             4%|▎         | 3738/100000 [2:15:50<138:31:01,  5.18s/it]  4%|▎         | 3739/100000 [2:15:55<129:23:00,  4.84s/it]                                                             4%|▎         | 3739/100000 [2:15:55<129:23:00,  4.84s/it]  4%|▎         | 3740/100000 [2:15:58<119:01:46,  4.45s/it]                                                             4%|▎         | 3740/100000 [2:15:58<119:01:46,  4.45s/it]  4%|▎         | 3741/100000 [2:16:01<107:47:09,  4.03s/it]                                                             4%|▎         | 3741/100000 [2:16:01<107:47:09,  4.03s/it]  4%|▎         | 3742/100000 [2:16:04<97:04:05,  3.63s/it]                                                             4%|▎         | 3742/100000 [2:16:04<97:04:05,  3.63s/it]  4%|▎         | 3743/100000 [2:16:06<86:39:03,  3.24s/it]                                                            4%|▎         | 3743/100000 [2:16:06<86:39:03,  3.24s/it]  4%|▎         | 3744/100000 [2:16:08<79:00:54,  2.96s/it]                                                            4%|▎         | 3744/100000 [2:16:08<79:00:54,  2.96s/it]  4%|▎         | 3745/100000 [2:16:10<71:19:47,  2.67s/it]                                                            4%|▎         | 3745/100000 [2:16:10<71:19:47,  2.67s/it]  4%|▎         | 3746/100000 [2:16:12<65:00:57,  2.43s/it]                                                            4%|▎         | 3746/100000 [2:16:12<65:00:57,  2.43s/it]  4%|▎         | 3747/100000 [2:16:14<59:31:04,  2.23s/it]                                                            4%|▎         | 3747/100000 [2:16:14<59:31:04,  2.23s/it]  4%|▎         | 3748/100000 [2:16:16<54:50:06,  2.05s/it]                                                            4%|▎         | 3748/100000 [2:16:16<54:50:06,  2.05s/it]  4%|▎         | 3749/100000 [2:16:17<50:55:18,  1.90s/it]                                                            4%|▎         | 3749/100000 [2:16:17<50:55:18,  1.90s/it]  4%|▍         | 3750/100000 [2:16:19<47:06:17,  1.76s/it]                                                            4%|▍         | 3750/100000 [2:16:19<47:06:17,  1.76s/it]  4%|▍         | 3751/100000 [2:16:20<44:18:42,  1.66s/it]                                                            4%|▍         | 3751/100000 [2:16:20<44:18:42,  1.66s/it]  4%|▍         | 3752/100000 [2:16:21<41:56:31,  1.57s/it]                                                            4%|▍         | 3752/100000 [2:16:21<41:56:31,  1.57s/it]  4%|▍         | 3753/100000 [2:16:23<39:46:23,  1.49s/it]                                                            4%|▍         | 3753/100000 [2:16:23<39:46:23,  1.49s/it]  4%|▍         | 3754/100000 [2:16:24<37:41:57,  1.41s/it]                                                            4%|▍         | 3754/100000 [2:16:24<37:41:57,  1.41s/it]  4%|▍         | 3755/100000 [2:16:25<35:29:19,  1.33s/it]                                                            4%|▍         | 3755/100000 [2:16:25<35:29:19,  1.33s/it]  4%|▍         | 3756/100000 [2:16:26<33:50:07,  1.27s/it]                                                            4%|▍         | 3756/100000 [2:16:26<33:50:07,  1.27s/it]  4%|▍         | 3757/100000 [2:16:27<32:23:44,  1.21s/it]                                                            4%|▍         | 3757/100000 [2:16:27<32:23:44,  1.21s/it]  4%|▍         | 3758/100000 [2:16:28<30:57:15,  1.16s/it]                                                            4%|▍         | 3758/100000 [2:16:28<30:57:15,  1.16s/it]  4%|▍         | 3759/100000 [2:16:29<29:24:15,  1.10s/it]                                                            4%|▍         | 3759/100000 [2:16:29<29:24:15,  1.10s/it]  4%|▍         | 3760/100000 [2:16:30<28:15:35,  1.06s/it]                                                            4%|▍         | 3760/100000 [2:16:30<28:15:35,  1.06s/it]  4%|▍         | 3761/100000 [2:16:31<27:17:50,  1.02s/it]                                                            4%|▍         | 3761/100000 [2:16:31<27:17:50,  1.02s/it]  4%|▍         | 3762/100000 [2:16:32<26:35:09,  1.01it/s]                                                            4%|▍         | 3762/100000 [2:16:32<26:35:09,  1.01it/s]  4%|▍         | 3763/100000 [2:16:33<25:33:40,  1.05it/s]                                                            4%|▍         | 3763/100000 [2:16:33<25:33:40,  1.05it/s]  4%|▍         | 3764/100000 [2:16:34<24:42:48,  1.08it/s]                                                            4%|▍         | 3764/100000 [2:16:34<24:42:48,  1.08it/s]  4%|▍         | 3765/100000 [2:16:35<24:07:16,  1.11it/s]                                                            4%|▍         | 3765/100000 [2:16:35<24:07:16,  1.11it/s]  4%|▍         | 3766/100000 [2:16:36<23:29:23,  1.14it/s]                                                            4%|▍         | 3766/100000 [2:16:36<23:29:23,  1.14it/s]  4%|▍         | 3767/100000 [2:16:36<22:48:51,  1.17it/s]                                                            4%|▍         | 3767/100000 [2:16:36<22:48:51,  1.17it/s]  4%|▍         | 3768/100000 [2:16:37<22:16:24,  1.20it/s]                                                            4%|▍         | 3768/100000 [2:16:37<22:16:24,  1.20it/s]  4%|▍         | 3769/100000 [2:16:38<21:31:49,  1.24it/s]                                                            4%|▍         | 3769/100000 [2:16:38<21:31:49,  1.24it/s]  4%|▍         | 3770/100000 [2:16:39<21:13:23,  1.26it/s]                                                            4%|▍         | 3770/100000 [2:16:39<21:13:23,  1.26it/s]  4%|▍         | 3771/100000 [2:16:39<20:44:15,  1.29it/s]                                                            4%|▍         | 3771/100000 [2:16:39<20:44:15,  1.29it/s]  4%|▍         | 3772/100000 [2:16:40<20:21:02,  1.31it/s]                                                            4%|▍         | 3772/100000 [2:16:40<20:21:02,  1.31it/s]  4%|▍         | 3773/100000 [2:16:52<107:42:31,  4.03s/it]                                                             4%|▍         | 3773/100000 [2:16:52<107:42:31,  4.03s/it]  4%|▍         | 3774/100000 [2:17:00<141:41:19,  5.30s/it]                                                             4%|▍         | 3774/100000 [2:17:00<141:41:19,  5.30s/it]  4%|▍         | 3775/100000 [2:17:06<144:07:45,  5.39s/it]                                                             4%|▍         | 3775/100000 [2:17:06<144:07:45,  5.39s/it]  4%|▍         | 3776/100000 [2:17:10<137:05:12,  5.13s/it]                                                             4%|▍         | 3776/100000 [2:17:10<137:05:12,  5.13s/it]  4%|▍         | 3777/100000 [2:17:14<127:03:10,  4.75s/it]                                                             4%|▍         | 3777/100000 [2:17:14<127:03:10,  4.75s/it]  4%|▍         | 3778/100000 [2:17:17<115:33:15,  4.32s/it]                                                             4%|▍         | 3778/100000 [2:17:17<115:33:15,  4.32s/it]  4%|▍         | 3779/100000 [2:17:20<104:13:31,  3.90s/it]                                                             4%|▍         | 3779/100000 [2:17:20<104:13:31,  3.90s/it]  4%|▍         | 3780/100000 [2:17:23<93:12:24,  3.49s/it]                                                             4%|▍         | 3780/100000 [2:17:23<93:12:24,  3.49s/it]  4%|▍         | 3781/100000 [2:17:25<83:07:08,  3.11s/it]                                                          {'loss': 0.3215, 'grad_norm': 1.7120463848114014, 'learning_rate': 1.1079e-05, 'epoch': 24.01}
{'loss': 0.2431, 'grad_norm': 1.4611670970916748, 'learning_rate': 1.1082e-05, 'epoch': 24.01}
{'loss': 0.2221, 'grad_norm': 0.9162070751190186, 'learning_rate': 1.1085e-05, 'epoch': 24.02}
{'loss': 0.2222, 'grad_norm': 0.8824396133422852, 'learning_rate': 1.1088e-05, 'epoch': 24.03}
{'loss': 0.1709, 'grad_norm': 0.800770103931427, 'learning_rate': 1.1091e-05, 'epoch': 24.03}
{'loss': 0.1742, 'grad_norm': 0.7629104852676392, 'learning_rate': 1.1094e-05, 'epoch': 24.04}
{'loss': 0.1352, 'grad_norm': 0.917486310005188, 'learning_rate': 1.1097e-05, 'epoch': 24.05}
{'loss': 0.1695, 'grad_norm': 0.9272480010986328, 'learning_rate': 1.11e-05, 'epoch': 24.05}
{'loss': 0.1382, 'grad_norm': 0.8113455772399902, 'learning_rate': 1.1103e-05, 'epoch': 24.06}
{'loss': 0.1395, 'grad_norm': 1.0382237434387207, 'learning_rate': 1.1106e-05, 'epoch': 24.06}
{'loss': 0.1369, 'grad_norm': 1.3329051733016968, 'learning_rate': 1.1109000000000002e-05, 'epoch': 24.07}
{'loss': 0.135, 'grad_norm': 1.0110737085342407, 'learning_rate': 1.1112e-05, 'epoch': 24.08}
{'loss': 0.1487, 'grad_norm': 1.3672797679901123, 'learning_rate': 1.1115e-05, 'epoch': 24.08}
{'loss': 0.0801, 'grad_norm': 0.6696508526802063, 'learning_rate': 1.1118e-05, 'epoch': 24.09}
{'loss': 0.141, 'grad_norm': 0.908443033695221, 'learning_rate': 1.1120999999999999e-05, 'epoch': 24.1}
{'loss': 0.0998, 'grad_norm': 1.759001612663269, 'learning_rate': 1.1124e-05, 'epoch': 24.1}
{'loss': 0.1101, 'grad_norm': 1.0383380651474, 'learning_rate': 1.1127e-05, 'epoch': 24.11}
{'loss': 0.1166, 'grad_norm': 1.0471832752227783, 'learning_rate': 1.113e-05, 'epoch': 24.12}
{'loss': 0.1038, 'grad_norm': 0.6173564195632935, 'learning_rate': 1.1133e-05, 'epoch': 24.12}
{'loss': 0.1066, 'grad_norm': 1.400557041168213, 'learning_rate': 1.1136e-05, 'epoch': 24.13}
{'loss': 0.0726, 'grad_norm': 0.8586140275001526, 'learning_rate': 1.1139000000000001e-05, 'epoch': 24.14}
{'loss': 0.102, 'grad_norm': 0.9508075714111328, 'learning_rate': 1.1142000000000001e-05, 'epoch': 24.14}
{'loss': 0.0844, 'grad_norm': 0.7642263174057007, 'learning_rate': 1.1145000000000001e-05, 'epoch': 24.15}
{'loss': 0.1484, 'grad_norm': 0.9915646910667419, 'learning_rate': 1.1148e-05, 'epoch': 24.16}
{'loss': 0.0774, 'grad_norm': 1.2284774780273438, 'learning_rate': 1.1150999999999999e-05, 'epoch': 24.16}
{'loss': 0.0697, 'grad_norm': 1.6738533973693848, 'learning_rate': 1.1154e-05, 'epoch': 24.17}
{'loss': 0.1089, 'grad_norm': 1.7454744577407837, 'learning_rate': 1.1157e-05, 'epoch': 24.18}
{'loss': 0.1492, 'grad_norm': 1.1011220216751099, 'learning_rate': 1.116e-05, 'epoch': 24.18}
{'loss': 0.1401, 'grad_norm': 1.4334232807159424, 'learning_rate': 1.1163e-05, 'epoch': 24.19}
{'loss': 0.0738, 'grad_norm': 1.4656095504760742, 'learning_rate': 1.1166e-05, 'epoch': 24.19}
{'loss': 0.07, 'grad_norm': 0.8054604530334473, 'learning_rate': 1.1169000000000001e-05, 'epoch': 24.2}
{'loss': 0.0843, 'grad_norm': 0.9356183409690857, 'learning_rate': 1.1172e-05, 'epoch': 24.21}
{'loss': 0.0709, 'grad_norm': 1.596824049949646, 'learning_rate': 1.1175e-05, 'epoch': 24.21}
{'loss': 0.1058, 'grad_norm': 1.3997899293899536, 'learning_rate': 1.1178e-05, 'epoch': 24.22}
{'loss': 0.0953, 'grad_norm': 1.861812710762024, 'learning_rate': 1.1181e-05, 'epoch': 24.23}
{'loss': 0.0747, 'grad_norm': 1.3953543901443481, 'learning_rate': 1.1184000000000002e-05, 'epoch': 24.23}
{'loss': 0.1112, 'grad_norm': 1.895768404006958, 'learning_rate': 1.1187e-05, 'epoch': 24.24}
{'loss': 0.1277, 'grad_norm': 2.7564384937286377, 'learning_rate': 1.119e-05, 'epoch': 24.25}
{'loss': 0.3302, 'grad_norm': 1.6095387935638428, 'learning_rate': 1.1193e-05, 'epoch': 24.25}
{'loss': 0.2364, 'grad_norm': 0.9536451101303101, 'learning_rate': 1.1196e-05, 'epoch': 24.26}
{'loss': 0.2005, 'grad_norm': 0.7512770891189575, 'learning_rate': 1.1199e-05, 'epoch': 24.27}
{'loss': 0.1889, 'grad_norm': 0.9016017317771912, 'learning_rate': 1.1202e-05, 'epoch': 24.27}
{'loss': 0.1954, 'grad_norm': 0.8227468729019165, 'learning_rate': 1.1205e-05, 'epoch': 24.28}
{'loss': 0.1341, 'grad_norm': 0.865341067314148, 'learning_rate': 1.1208e-05, 'epoch': 24.29}
{'loss': 0.1993, 'grad_norm': 1.3471946716308594, 'learning_rate': 1.1211e-05, 'epoch': 24.29}
{'loss': 0.1855, 'grad_norm': 0.9100956916809082, 'learning_rate': 1.1214000000000001e-05, 'epoch': 24.3}
{'loss': 0.1188, 'grad_norm': 0.7957478761672974, 'learning_rate': 1.1217000000000001e-05, 'epoch': 24.31}
{'loss': 0.1411, 'grad_norm': 0.7111573815345764, 'learning_rate': 1.1220000000000001e-05, 'epoch': 24.31}
{'loss': 0.0726, 'grad_norm': 0.704301118850708, 'learning_rate': 1.1222999999999999e-05, 'epoch': 24.32}
{'loss': 0.1187, 'grad_norm': 0.7833393216133118, 'learning_rate': 1.1225999999999999e-05, 'epoch': 24.32}
{'loss': 0.11, 'grad_norm': 0.8527968525886536, 'learning_rate': 1.1229e-05, 'epoch': 24.33}
{'loss': 0.1231, 'grad_norm': 0.8659659624099731, 'learning_rate': 1.1232e-05, 'epoch': 24.34}
{'loss': 0.0908, 'grad_norm': 0.8459967374801636, 'learning_rate': 1.1235e-05, 'epoch': 24.34}
{'loss': 0.1235, 'grad_norm': 0.8719412088394165, 'learning_rate': 1.1238e-05, 'epoch': 24.35}
{'loss': 0.118, 'grad_norm': 1.2831634283065796, 'learning_rate': 1.1241e-05, 'epoch': 24.36}
{'loss': 0.11, 'grad_norm': 1.7772650718688965, 'learning_rate': 1.1244000000000001e-05, 'epoch': 24.36}
{'loss': 0.0688, 'grad_norm': 1.8240087032318115, 'learning_rate': 1.1247000000000001e-05, 'epoch': 24.37}
{'loss': 0.1267, 'grad_norm': 1.3340492248535156, 'learning_rate': 1.125e-05, 'epoch': 24.38}
{'loss': 0.1096, 'grad_norm': 1.2671536207199097, 'learning_rate': 1.1253e-05, 'epoch': 24.38}
{'loss': 0.1003, 'grad_norm': 1.334868311882019, 'learning_rate': 1.1256e-05, 'epoch': 24.39}
{'loss': 0.0865, 'grad_norm': 0.8910415172576904, 'learning_rate': 1.1259e-05, 'epoch': 24.4}
{'loss': 0.0685, 'grad_norm': 1.0988143682479858, 'learning_rate': 1.1262e-05, 'epoch': 24.4}
{'loss': 0.0855, 'grad_norm': 1.243056058883667, 'learning_rate': 1.1265e-05, 'epoch': 24.41}
{'loss': 0.1218, 'grad_norm': 1.3362219333648682, 'learning_rate': 1.1268e-05, 'epoch': 24.42}
{'loss': 0.0822, 'grad_norm': 1.2705129384994507, 'learning_rate': 1.1271e-05, 'epoch': 24.42}
{'loss': 0.1183, 'grad_norm': 1.8475273847579956, 'learning_rate': 1.1274e-05, 'epoch': 24.43}
{'loss': 0.0785, 'grad_norm': 1.099022626876831, 'learning_rate': 1.1277e-05, 'epoch': 24.44}
{'loss': 0.0984, 'grad_norm': 1.4733717441558838, 'learning_rate': 1.128e-05, 'epoch': 24.44}
{'loss': 0.0677, 'grad_norm': 1.2300211191177368, 'learning_rate': 1.1283e-05, 'epoch': 24.45}
{'loss': 0.0914, 'grad_norm': 1.2891511917114258, 'learning_rate': 1.1286e-05, 'epoch': 24.45}
{'loss': 0.0441, 'grad_norm': 1.3962182998657227, 'learning_rate': 1.1289000000000002e-05, 'epoch': 24.46}
{'loss': 0.0825, 'grad_norm': 1.383481502532959, 'learning_rate': 1.1292000000000001e-05, 'epoch': 24.47}
{'loss': 0.0938, 'grad_norm': 2.1209492683410645, 'learning_rate': 1.1295000000000001e-05, 'epoch': 24.47}
{'loss': 0.0836, 'grad_norm': 2.4472386837005615, 'learning_rate': 1.1298e-05, 'epoch': 24.48}
{'loss': 0.0852, 'grad_norm': 2.1298346519470215, 'learning_rate': 1.1300999999999999e-05, 'epoch': 24.49}
{'loss': 0.0911, 'grad_norm': 2.0378940105438232, 'learning_rate': 1.1304e-05, 'epoch': 24.49}
{'loss': 0.3051, 'grad_norm': 1.1135705709457397, 'learning_rate': 1.1307e-05, 'epoch': 24.5}
{'loss': 0.2654, 'grad_norm': 1.1579616069793701, 'learning_rate': 1.131e-05, 'epoch': 24.51}
{'loss': 0.2635, 'grad_norm': 0.9291368126869202, 'learning_rate': 1.1313e-05, 'epoch': 24.51}
{'loss': 0.1838, 'grad_norm': 0.6912447214126587, 'learning_rate': 1.1316e-05, 'epoch': 24.52}
{'loss': 0.1587, 'grad_norm': 0.7275658249855042, 'learning_rate': 1.1319000000000001e-05, 'epoch': 24.53}
{'loss': 0.1594, 'grad_norm': 0.6282575130462646, 'learning_rate': 1.1322000000000001e-05, 'epoch': 24.53}
{'loss': 0.1582, 'grad_norm': 0.6889429688453674, 'learning_rate': 1.1325e-05, 'epoch': 24.54}
{'loss': 0.1594, 'grad_norm': 0.9854135513305664, 'learning_rate': 1.1328e-05, 'epoch': 24.55}
  4%|▍         | 3781/100000 [2:17:25<83:07:08,  3.11s/it]  4%|▍         | 3782/100000 [2:17:27<74:30:00,  2.79s/it]                                                            4%|▍         | 3782/100000 [2:17:27<74:30:00,  2.79s/it]  4%|▍         | 3783/100000 [2:17:29<67:32:13,  2.53s/it]                                                            4%|▍         | 3783/100000 [2:17:29<67:32:13,  2.53s/it]  4%|▍         | 3784/100000 [2:17:31<61:10:25,  2.29s/it]                                                            4%|▍         | 3784/100000 [2:17:31<61:10:25,  2.29s/it]  4%|▍         | 3785/100000 [2:17:32<56:20:57,  2.11s/it]                                                            4%|▍         | 3785/100000 [2:17:32<56:20:57,  2.11s/it]  4%|▍         | 3786/100000 [2:17:34<52:21:28,  1.96s/it]                                                            4%|▍         | 3786/100000 [2:17:34<52:21:28,  1.96s/it]  4%|▍         | 3787/100000 [2:17:35<48:38:16,  1.82s/it]                                                            4%|▍         | 3787/100000 [2:17:35<48:38:16,  1.82s/it]  4%|▍         | 3788/100000 [2:17:37<45:30:52,  1.70s/it]                                                            4%|▍         | 3788/100000 [2:17:37<45:30:52,  1.70s/it]  4%|▍         | 3789/100000 [2:17:38<43:01:26,  1.61s/it]                                                            4%|▍         | 3789/100000 [2:17:38<43:01:26,  1.61s/it]  4%|▍         | 3790/100000 [2:17:40<40:29:42,  1.52s/it]                                                            4%|▍         | 3790/100000 [2:17:40<40:29:42,  1.52s/it]  4%|▍         | 3791/100000 [2:17:41<38:42:02,  1.45s/it]                                                            4%|▍         | 3791/100000 [2:17:41<38:42:02,  1.45s/it]  4%|▍         | 3792/100000 [2:17:42<36:59:48,  1.38s/it]                                                            4%|▍         | 3792/100000 [2:17:42<36:59:48,  1.38s/it]  4%|▍         | 3793/100000 [2:17:43<35:09:30,  1.32s/it]                                                            4%|▍         | 3793/100000 [2:17:43<35:09:30,  1.32s/it]  4%|▍         | 3794/100000 [2:17:44<33:39:46,  1.26s/it]                                                            4%|▍         | 3794/100000 [2:17:44<33:39:46,  1.26s/it]  4%|▍         | 3795/100000 [2:17:46<32:15:23,  1.21s/it]                                                            4%|▍         | 3795/100000 [2:17:46<32:15:23,  1.21s/it]  4%|▍         | 3796/100000 [2:17:47<30:53:49,  1.16s/it]                                                            4%|▍         | 3796/100000 [2:17:47<30:53:49,  1.16s/it]  4%|▍         | 3797/100000 [2:17:48<29:27:56,  1.10s/it]                                                            4%|▍         | 3797/100000 [2:17:48<29:27:56,  1.10s/it]  4%|▍         | 3798/100000 [2:17:48<28:16:49,  1.06s/it]                                                            4%|▍         | 3798/100000 [2:17:48<28:16:49,  1.06s/it]  4%|▍         | 3799/100000 [2:17:49<27:10:45,  1.02s/it]                                                            4%|▍         | 3799/100000 [2:17:49<27:10:45,  1.02s/it]  4%|▍         | 3800/100000 [2:17:50<26:25:18,  1.01it/s]                                                            4%|▍         | 3800/100000 [2:17:50<26:25:18,  1.01it/s]  4%|▍         | 3801/100000 [2:17:51<25:25:22,  1.05it/s]                                                            4%|▍         | 3801/100000 [2:17:51<25:25:22,  1.05it/s]  4%|▍         | 3802/100000 [2:17:52<24:45:38,  1.08it/s]                                                            4%|▍         | 3802/100000 [2:17:52<24:45:38,  1.08it/s]  4%|▍         | 3803/100000 [2:17:53<24:46:49,  1.08it/s]                                                            4%|▍         | 3803/100000 [2:17:53<24:46:49,  1.08it/s]  4%|▍         | 3804/100000 [2:17:54<24:19:11,  1.10it/s]                                                            4%|▍         | 3804/100000 [2:17:54<24:19:11,  1.10it/s]  4%|▍         | 3805/100000 [2:17:55<23:49:20,  1.12it/s]                                                            4%|▍         | 3805/100000 [2:17:55<23:49:20,  1.12it/s]  4%|▍         | 3806/100000 [2:17:55<22:41:16,  1.18it/s]                                                            4%|▍         | 3806/100000 [2:17:55<22:41:16,  1.18it/s]  4%|▍         | 3807/100000 [2:17:56<21:56:16,  1.22it/s]                                                            4%|▍         | 3807/100000 [2:17:56<21:56:16,  1.22it/s]  4%|▍         | 3808/100000 [2:17:57<21:42:27,  1.23it/s]                                                            4%|▍         | 3808/100000 [2:17:57<21:42:27,  1.23it/s]  4%|▍         | 3809/100000 [2:17:58<21:00:36,  1.27it/s]                                                            4%|▍         | 3809/100000 [2:17:58<21:00:36,  1.27it/s]  4%|▍         | 3810/100000 [2:17:58<20:05:04,  1.33it/s]                                                            4%|▍         | 3810/100000 [2:17:58<20:05:04,  1.33it/s]  4%|▍         | 3811/100000 [2:18:11<118:15:08,  4.43s/it]                                                             4%|▍         | 3811/100000 [2:18:11<118:15:08,  4.43s/it]  4%|▍         | 3812/100000 [2:18:18<139:33:06,  5.22s/it]                                                             4%|▍         | 3812/100000 [2:18:18<139:33:06,  5.22s/it]  4%|▍         | 3813/100000 [2:18:24<143:23:52,  5.37s/it]                                                             4%|▍         | 3813/100000 [2:18:24<143:23:52,  5.37s/it]  4%|▍         | 3814/100000 [2:18:29<137:56:48,  5.16s/it]                                                             4%|▍         | 3814/100000 [2:18:29<137:56:48,  5.16s/it]  4%|▍         | 3815/100000 [2:18:33<128:56:12,  4.83s/it]                                                             4%|▍         | 3815/100000 [2:18:33<128:56:12,  4.83s/it]  4%|▍         | 3816/100000 [2:18:36<119:02:32,  4.46s/it]                                                             4%|▍         | 3816/100000 [2:18:37<119:02:32,  4.46s/it]  4%|▍         | 3817/100000 [2:18:40<107:59:44,  4.04s/it]                                                             4%|▍         | 3817/100000 [2:18:40<107:59:44,  4.04s/it]  4%|▍         | 3818/100000 [2:18:42<97:41:10,  3.66s/it]                                                             4%|▍         | 3818/100000 [2:18:42<97:41:10,  3.66s/it]  4%|▍         | 3819/100000 [2:18:45<86:38:07,  3.24s/it]                                                            4%|▍         | 3819/100000 [2:18:45<86:38:07,  3.24s/it]  4%|▍         | 3820/100000 [2:18:47<78:09:53,  2.93s/it]                                                            4%|▍         | 3820/100000 [2:18:47<78:09:53,  2.93s/it]  4%|▍         | 3821/100000 [2:18:49<70:52:37,  2.65s/it]                                                            4%|▍         | 3821/100000 [2:18:49<70:52:37,  2.65s/it]  4%|▍         | 3822/100000 [2:18:51<64:51:20,  2.43s/it]                                                            4%|▍         | 3822/100000 [2:18:51<64:51:20,  2.43s/it]  4%|▍         | 3823/100000 [2:18:52<59:27:50,  2.23s/it]                                                            4%|▍         | 3823/100000 [2:18:52<59:27:50,  2.23s/it]  4%|▍         | 3824/100000 [2:18:54<55:04:12,  2.06s/it]                                                            4%|▍         | 3824/100000 [2:18:54<55:04:12,  2.06s/it]  4%|▍         | 3825/100000 [2:18:56<51:23:22,  1.92s/it]                                                            4%|▍         | 3825/100000 [2:18:56<51:23:22,  1.92s/it]  4%|▍         | 3826/100000 [2:18:57<47:55:32,  1.79s/it]                                                            4%|▍         | 3826/100000 [2:18:57<47:55:32,  1.79s/it]  4%|▍         | 3827/100000 [2:18:59<45:10:10,  1.69s/it]                                                            4%|▍         | 3827/100000 [2:18:59<45:10:10,  1.69s/it]  4%|▍         | 3828/100000 [2:19:00<42:17:34,  1.58s/it]                                                            4%|▍         | 3828/100000 [2:19:00<42:17:34,  1.58s/it]  4%|▍         | 3829/100000 [2:19:01<39:59:06,  1.50s/it]                                                            4%|▍         | 3829/100000 [2:19:01<39:59:06,  1.50s/it]  4%|▍         | 3830/100000 [2:19:03<38:05:08,  1.43s/it]                                                            4%|▍         | 3830/100000 [2:19:03<38:05:08,  1.43s/it]  4%|▍         | 3831/100000 [2:19:04<35:59:51,  1.35s/it]                                                            4%|▍         | 3831/100000 [2:19:04<35:59:51,  1.35s/it]  4%|▍         | 3832/100000 [2:19:05<33:48:37,  1.27s/it]                                                            4%|▍         | 3832/100000 [2:19:05<33:48:37,  1.27s/it]  4%|▍         | 3833/100000 [2:19:06<31:59:26,  1.20s/it]                                                            4%|▍         | 3833/100000 [2:19:06<31:59:26,  1.20s/it]  4%|▍         | 3834/100000 [2:19:07<30:15:31,  1.13s/it]                                                            4%|▍         | 3834/100000 [2:19:07<30:15:31,  1.13s/it]  4%|▍         | 3835/100000 [2:19:08<28:48:30,  1.08s/it]                                                            4%|▍         | 3835/100000 [2:19:08<28:48:30,  1.08s/it]  4%|▍         | 3836/100000 [2:19:09<27:31:15,  1.03s/it]                                                            4%|▍         | 3836/100000 [2:19:09<27:31:15,  1.03s/it]  4%|▍         | 3837/100000 [2:19:10<26:29:01,  1.01it/s]                                                            4%|▍         | 3837/100000 [2:19:10<26:29:01,  1.01it/s]  4%|▍         | 3838/100000 [2:19:11<25:59:00,  1.03it/s]                                                            4%|▍         | 3838/100000 [2:19:11<25:59:00,  1.03it/s]  4%|▍         | 3839/100000 [2:19:11<25:03:23,  1.07it/s]                                                            4%|▍         | 3839/100000 [2:19:11<25:03:23,  1.07it/s]  4%|▍         | 3840/100000 [2:19:12<24:08:56,  1.11it/s]                                                            4%|▍         | 3840/100000 [2:19:12<24:08:56,  1.11it/s]  4%|▍         | 3841/100000 [2:19:13<23:47:02,  1.12it/s]                                                            4%|▍         | 3841/100000 [2:19:13<23:47:02,  1.12it/s]  4%|▍         | 3842/100000 [2:19:14<22:56:06,  1.16it/s]                                                            4%|▍         | 3842/100000 [2:19:14<22:56:06,  1.16it/s]  4%|▍         | 3843/100000 [2:19:15<22:47:28,  1.17it/s]                                                            4%|▍         | 3843/100000 [2:19:15<22:47:28,  1.17it/s]  4%|▍         | 3844/100000 [2:19:15<22:23:43,  1.19it/s]                                                            4%|▍         | 3844/100000 [2:19:16<22:23:43,  1.19it/s]  4%|▍         | 3845/100000 [2:19:16<22:13:23,  1.20it/s]                                                            4%|▍         | 3845/100000 [2:19:16<22:13:23,  1.20it/s]  4%|▍         | 3846/100000 [2:19:17<21:09:04,  1.26it/s]                                                            4%|▍         | 3846/100000 [2:19:17<21:09:04,  1.26it/s]  4%|▍         | 3847/100000 [2:19:18<20:27:57,  1.31it/s]                                                            4%|▍         | 3847/100000 [2:19:18<20:27:57,  1.31it/s]  4%|▍         | 3848/100000 [2:19:18<20:31:41,  1.30it/s]                                                            4%|▍         | 3848/100000 [2:19:18<20:31:41,  1.30it/s]  4%|▍         | 3849/100000 [2:19:26<71:13:26,  2.67s/it]                                                            4%|▍         | 3849/100000 [2:19:26<71:13:26,  2.67s/it]  4%|▍         | 3850/100000 [2:19:27<61:11:59,  2.29s/it]                                                            4%|▍         | 3850/100000 [2:19:27<61:11:59,  2.29s/it]{'loss': 0.2464, 'grad_norm': 1.118403434753418, 'learning_rate': 1.1331e-05, 'epoch': 24.55}
{'loss': 0.1307, 'grad_norm': 0.9511924982070923, 'learning_rate': 1.1334e-05, 'epoch': 24.56}
{'loss': 0.1207, 'grad_norm': 0.8995683193206787, 'learning_rate': 1.1337e-05, 'epoch': 24.56}
{'loss': 0.1305, 'grad_norm': 0.8116040825843811, 'learning_rate': 1.134e-05, 'epoch': 24.57}
{'loss': 0.0869, 'grad_norm': 0.6438891887664795, 'learning_rate': 1.1343e-05, 'epoch': 24.58}
{'loss': 0.1227, 'grad_norm': 0.7544901967048645, 'learning_rate': 1.1346e-05, 'epoch': 24.58}
{'loss': 0.1144, 'grad_norm': 2.383729934692383, 'learning_rate': 1.1349000000000001e-05, 'epoch': 24.59}
{'loss': 0.0956, 'grad_norm': 0.722248911857605, 'learning_rate': 1.1352e-05, 'epoch': 24.6}
{'loss': 0.0906, 'grad_norm': 0.714606761932373, 'learning_rate': 1.1355e-05, 'epoch': 24.6}
{'loss': 0.0773, 'grad_norm': 0.7588274478912354, 'learning_rate': 1.1358e-05, 'epoch': 24.61}
{'loss': 0.0786, 'grad_norm': 0.8345345854759216, 'learning_rate': 1.1361e-05, 'epoch': 24.62}
{'loss': 0.093, 'grad_norm': 0.7201389670372009, 'learning_rate': 1.1364000000000002e-05, 'epoch': 24.62}
{'loss': 0.1145, 'grad_norm': 0.8186337947845459, 'learning_rate': 1.1367000000000001e-05, 'epoch': 24.63}
{'loss': 0.1588, 'grad_norm': 1.2734863758087158, 'learning_rate': 1.137e-05, 'epoch': 24.64}
{'loss': 0.0783, 'grad_norm': 1.1404008865356445, 'learning_rate': 1.1373e-05, 'epoch': 24.64}
{'loss': 0.1823, 'grad_norm': 1.3379558324813843, 'learning_rate': 1.1376e-05, 'epoch': 24.65}
{'loss': 0.1062, 'grad_norm': 0.8231207728385925, 'learning_rate': 1.1379e-05, 'epoch': 24.66}
{'loss': 0.1011, 'grad_norm': 0.9824297428131104, 'learning_rate': 1.1382e-05, 'epoch': 24.66}
{'loss': 0.066, 'grad_norm': 1.061124563217163, 'learning_rate': 1.1385e-05, 'epoch': 24.67}
{'loss': 0.1473, 'grad_norm': 1.5252618789672852, 'learning_rate': 1.1388e-05, 'epoch': 24.68}
{'loss': 0.1085, 'grad_norm': 1.3079477548599243, 'learning_rate': 1.1391e-05, 'epoch': 24.68}
{'loss': 0.0913, 'grad_norm': 0.9441108703613281, 'learning_rate': 1.1394000000000001e-05, 'epoch': 24.69}
{'loss': 0.0666, 'grad_norm': 1.1773160696029663, 'learning_rate': 1.1397000000000001e-05, 'epoch': 24.69}
{'loss': 0.076, 'grad_norm': 1.1620137691497803, 'learning_rate': 1.1400000000000001e-05, 'epoch': 24.7}
{'loss': 0.0849, 'grad_norm': 1.2427374124526978, 'learning_rate': 1.1403e-05, 'epoch': 24.71}
{'loss': 0.066, 'grad_norm': 1.1103707551956177, 'learning_rate': 1.1406e-05, 'epoch': 24.71}
{'loss': 0.1194, 'grad_norm': 2.3547306060791016, 'learning_rate': 1.1409e-05, 'epoch': 24.72}
{'loss': 0.1796, 'grad_norm': 2.4449825286865234, 'learning_rate': 1.1412e-05, 'epoch': 24.73}
{'loss': 0.0935, 'grad_norm': 1.714511513710022, 'learning_rate': 1.1415e-05, 'epoch': 24.73}
{'loss': 0.1577, 'grad_norm': 2.1610536575317383, 'learning_rate': 1.1418e-05, 'epoch': 24.74}
{'loss': 0.344, 'grad_norm': 2.1174092292785645, 'learning_rate': 1.1421e-05, 'epoch': 24.75}
{'loss': 0.2563, 'grad_norm': 1.7129735946655273, 'learning_rate': 1.1424000000000001e-05, 'epoch': 24.75}
{'loss': 0.2205, 'grad_norm': 0.9541326761245728, 'learning_rate': 1.1427000000000001e-05, 'epoch': 24.76}
{'loss': 0.2223, 'grad_norm': 0.9312137365341187, 'learning_rate': 1.143e-05, 'epoch': 24.77}
{'loss': 0.2061, 'grad_norm': 0.7965772747993469, 'learning_rate': 1.1433e-05, 'epoch': 24.77}
{'loss': 0.1695, 'grad_norm': 0.8783497214317322, 'learning_rate': 1.1436e-05, 'epoch': 24.78}
{'loss': 0.1724, 'grad_norm': 0.7565189599990845, 'learning_rate': 1.1439e-05, 'epoch': 24.79}
{'loss': 0.1457, 'grad_norm': 0.7681628465652466, 'learning_rate': 1.1442000000000002e-05, 'epoch': 24.79}
{'loss': 0.1556, 'grad_norm': 0.9401107430458069, 'learning_rate': 1.1445e-05, 'epoch': 24.8}
{'loss': 0.1277, 'grad_norm': 1.1012629270553589, 'learning_rate': 1.1448e-05, 'epoch': 24.81}
{'loss': 0.1285, 'grad_norm': 0.6233494281768799, 'learning_rate': 1.1451e-05, 'epoch': 24.81}
{'loss': 0.1206, 'grad_norm': 0.7323459386825562, 'learning_rate': 1.1453999999999999e-05, 'epoch': 24.82}
{'loss': 0.1615, 'grad_norm': 0.8573296070098877, 'learning_rate': 1.1457e-05, 'epoch': 24.82}
{'loss': 0.0912, 'grad_norm': 0.5911290645599365, 'learning_rate': 1.146e-05, 'epoch': 24.83}
{'loss': 0.1026, 'grad_norm': 0.6287827491760254, 'learning_rate': 1.1463e-05, 'epoch': 24.84}
{'loss': 0.1065, 'grad_norm': 2.044522762298584, 'learning_rate': 1.1466e-05, 'epoch': 24.84}
{'loss': 0.1001, 'grad_norm': 1.014973521232605, 'learning_rate': 1.1469e-05, 'epoch': 24.85}
{'loss': 0.1265, 'grad_norm': 1.1317884922027588, 'learning_rate': 1.1472000000000001e-05, 'epoch': 24.86}
{'loss': 0.099, 'grad_norm': 1.4124195575714111, 'learning_rate': 1.1475000000000001e-05, 'epoch': 24.86}
{'loss': 0.1031, 'grad_norm': 0.8970460295677185, 'learning_rate': 1.1478000000000001e-05, 'epoch': 24.87}
{'loss': 0.1242, 'grad_norm': 0.9816921353340149, 'learning_rate': 1.1480999999999999e-05, 'epoch': 24.88}
{'loss': 0.0964, 'grad_norm': 0.7251312136650085, 'learning_rate': 1.1483999999999999e-05, 'epoch': 24.88}
{'loss': 0.1223, 'grad_norm': 1.8214281797409058, 'learning_rate': 1.1487e-05, 'epoch': 24.89}
{'loss': 0.1732, 'grad_norm': 1.4950534105300903, 'learning_rate': 1.149e-05, 'epoch': 24.9}
{'loss': 0.1093, 'grad_norm': 1.8133820295333862, 'learning_rate': 1.1493e-05, 'epoch': 24.9}
{'loss': 0.0684, 'grad_norm': 1.7666953802108765, 'learning_rate': 1.1496e-05, 'epoch': 24.91}
{'loss': 0.0679, 'grad_norm': 0.7798331379890442, 'learning_rate': 1.1499e-05, 'epoch': 24.92}
{'loss': 0.1546, 'grad_norm': 2.3075594902038574, 'learning_rate': 1.1502000000000001e-05, 'epoch': 24.92}
{'loss': 0.0803, 'grad_norm': 1.1232107877731323, 'learning_rate': 1.1505e-05, 'epoch': 24.93}
{'loss': 0.0748, 'grad_norm': 1.581459403038025, 'learning_rate': 1.1508e-05, 'epoch': 24.94}
{'loss': 0.0754, 'grad_norm': 0.9045611023902893, 'learning_rate': 1.1511e-05, 'epoch': 24.94}
{'loss': 0.1249, 'grad_norm': 1.3201442956924438, 'learning_rate': 1.1514e-05, 'epoch': 24.95}
{'loss': 0.0668, 'grad_norm': 1.0856839418411255, 'learning_rate': 1.1517e-05, 'epoch': 24.95}
{'loss': 0.0733, 'grad_norm': 1.625791311264038, 'learning_rate': 1.152e-05, 'epoch': 24.96}
{'loss': 0.0773, 'grad_norm': 1.231257677078247, 'learning_rate': 1.1523e-05, 'epoch': 24.97}
{'loss': 0.0805, 'grad_norm': 1.3430157899856567, 'learning_rate': 1.1526e-05, 'epoch': 24.97}
{'loss': 0.1085, 'grad_norm': 3.240723133087158, 'learning_rate': 1.1529e-05, 'epoch': 24.98}
{'loss': 0.1557, 'grad_norm': 2.5926640033721924, 'learning_rate': 1.1532e-05, 'epoch': 24.99}
{'loss': 0.1576, 'grad_norm': 1.0519943237304688, 'learning_rate': 1.1535e-05, 'epoch': 24.99}
{'loss': 0.0931, 'grad_norm': 1.1167300939559937, 'learning_rate': 1.1538e-05, 'epoch': 25.0}
  4%|▍         | 3851/100000 [2:19:44<182:00:12,  6.81s/it]                                                             4%|▍         | 3851/100000 [2:19:44<182:00:12,  6.81s/it]  4%|▍         | 3852/100000 [2:19:53<193:05:29,  7.23s/it]                                                             4%|▍         | 3852/100000 [2:19:53<193:05:29,  7.23s/it]  4%|▍         | 3853/100000 [2:19:58<179:59:49,  6.74s/it]                                                             4%|▍         | 3853/100000 [2:19:58<179:59:49,  6.74s/it]  4%|▍         | 3854/100000 [2:20:03<164:24:43,  6.16s/it]                                                             4%|▍         | 3854/100000 [2:20:03<164:24:43,  6.16s/it]  4%|▍         | 3855/100000 [2:20:07<147:23:07,  5.52s/it]                                                             4%|▍         | 3855/100000 [2:20:07<147:23:07,  5.52s/it]  4%|▍         | 3856/100000 [2:20:10<130:37:43,  4.89s/it]                                                             4%|▍         | 3856/100000 [2:20:10<130:37:43,  4.89s/it]  4%|▍         | 3857/100000 [2:20:14<117:34:03,  4.40s/it]                                                             4%|▍         | 3857/100000 [2:20:14<117:34:03,  4.40s/it]  4%|▍         | 3858/100000 [2:20:16<104:32:07,  3.91s/it]                                                             4%|▍         | 3858/100000 [2:20:16<104:32:07,  3.91s/it]  4%|▍         | 3859/100000 [2:20:19<93:06:20,  3.49s/it]                                                             4%|▍         | 3859/100000 [2:20:19<93:06:20,  3.49s/it]  4%|▍         | 3860/100000 [2:20:21<83:28:21,  3.13s/it]                                                            4%|▍         | 3860/100000 [2:20:21<83:28:21,  3.13s/it]  4%|▍         | 3861/100000 [2:20:23<75:00:26,  2.81s/it]                                                            4%|▍         | 3861/100000 [2:20:23<75:00:26,  2.81s/it]  4%|▍         | 3862/100000 [2:20:25<67:49:13,  2.54s/it]                                                            4%|▍         | 3862/100000 [2:20:25<67:49:13,  2.54s/it]  4%|▍         | 3863/100000 [2:20:27<61:19:55,  2.30s/it]                                                            4%|▍         | 3863/100000 [2:20:27<61:19:55,  2.30s/it]  4%|▍         | 3864/100000 [2:20:29<56:26:02,  2.11s/it]                                                            4%|▍         | 3864/100000 [2:20:29<56:26:02,  2.11s/it]  4%|▍         | 3865/100000 [2:20:30<52:17:49,  1.96s/it]                                                            4%|▍         | 3865/100000 [2:20:30<52:17:49,  1.96s/it]  4%|▍         | 3866/100000 [2:20:32<48:31:23,  1.82s/it]                                                            4%|▍         | 3866/100000 [2:20:32<48:31:23,  1.82s/it]  4%|▍         | 3867/100000 [2:20:33<45:38:03,  1.71s/it]                                                            4%|▍         | 3867/100000 [2:20:33<45:38:03,  1.71s/it]  4%|▍         | 3868/100000 [2:20:35<42:53:40,  1.61s/it]                                                            4%|▍         | 3868/100000 [2:20:35<42:53:40,  1.61s/it]  4%|▍         | 3869/100000 [2:20:36<40:34:16,  1.52s/it]                                                            4%|▍         | 3869/100000 [2:20:36<40:34:16,  1.52s/it]  4%|▍         | 3870/100000 [2:20:37<38:24:25,  1.44s/it]                                                            4%|▍         | 3870/100000 [2:20:37<38:24:25,  1.44s/it]  4%|▍         | 3871/100000 [2:20:38<36:21:54,  1.36s/it]                                                            4%|▍         | 3871/100000 [2:20:38<36:21:54,  1.36s/it]  4%|▍         | 3872/100000 [2:20:39<34:20:34,  1.29s/it]                                                            4%|▍         | 3872/100000 [2:20:39<34:20:34,  1.29s/it]  4%|▍         | 3873/100000 [2:20:40<32:44:53,  1.23s/it]                                                            4%|▍         | 3873/100000 [2:20:40<32:44:53,  1.23s/it]  4%|▍         | 3874/100000 [2:20:42<31:15:36,  1.17s/it]                                                            4%|▍         | 3874/100000 [2:20:42<31:15:36,  1.17s/it]  4%|▍         | 3875/100000 [2:20:43<29:58:15,  1.12s/it]                                                            4%|▍         | 3875/100000 [2:20:43<29:58:15,  1.12s/it]  4%|▍         | 3876/100000 [2:20:44<28:46:02,  1.08s/it]                                                            4%|▍         | 3876/100000 [2:20:44<28:46:02,  1.08s/it]  4%|▍         | 3877/100000 [2:20:44<27:55:59,  1.05s/it]                                                            4%|▍         | 3877/100000 [2:20:44<27:55:59,  1.05s/it]  4%|▍         | 3878/100000 [2:20:45<26:50:30,  1.01s/it]                                                            4%|▍         | 3878/100000 [2:20:45<26:50:30,  1.01s/it]  4%|▍         | 3879/100000 [2:20:46<26:38:51,  1.00it/s]                                                            4%|▍         | 3879/100000 [2:20:46<26:38:51,  1.00it/s]  4%|▍         | 3880/100000 [2:20:47<25:39:05,  1.04it/s]                                                            4%|▍         | 3880/100000 [2:20:47<25:39:05,  1.04it/s]  4%|▍         | 3881/100000 [2:20:48<25:29:10,  1.05it/s]                                                            4%|▍         | 3881/100000 [2:20:48<25:29:10,  1.05it/s]  4%|▍         | 3882/100000 [2:20:49<24:38:26,  1.08it/s]                                                            4%|▍         | 3882/100000 [2:20:49<24:38:26,  1.08it/s]  4%|▍         | 3883/100000 [2:20:50<23:38:43,  1.13it/s]                                                            4%|▍         | 3883/100000 [2:20:50<23:38:43,  1.13it/s]  4%|▍         | 3884/100000 [2:20:51<22:50:05,  1.17it/s]                                                            4%|▍         | 3884/100000 [2:20:51<22:50:05,  1.17it/s]  4%|▍         | 3885/100000 [2:20:51<22:41:54,  1.18it/s]                                                            4%|▍         | 3885/100000 [2:20:51<22:41:54,  1.18it/s]  4%|▍         | 3886/100000 [2:20:52<21:25:05,  1.25it/s]                                                            4%|▍         | 3886/100000 [2:20:52<21:25:05,  1.25it/s]  4%|▍         | 3887/100000 [2:20:53<20:23:32,  1.31it/s]                                                            4%|▍         | 3887/100000 [2:20:53<20:23:32,  1.31it/s]  4%|▍         | 3888/100000 [2:20:54<20:40:28,  1.29it/s]                                                            4%|▍         | 3888/100000 [2:20:54<20:40:28,  1.29it/s]  4%|▍         | 3889/100000 [2:21:06<114:41:57,  4.30s/it]                                                             4%|▍         | 3889/100000 [2:21:06<114:41:57,  4.30s/it]  4%|▍         | 3890/100000 [2:21:14<141:00:46,  5.28s/it]                                                             4%|▍         | 3890/100000 [2:21:14<141:00:46,  5.28s/it]  4%|▍         | 3891/100000 [2:21:19<142:19:43,  5.33s/it]                                                             4%|▍         | 3891/100000 [2:21:19<142:19:43,  5.33s/it]  4%|▍         | 3892/100000 [2:21:24<135:49:47,  5.09s/it]                                                             4%|▍         | 3892/100000 [2:21:24<135:49:47,  5.09s/it]  4%|▍         | 3893/100000 [2:21:27<124:57:40,  4.68s/it]                                                             4%|▍         | 3893/100000 [2:21:27<124:57:40,  4.68s/it]  4%|▍         | 3894/100000 [2:21:31<113:43:07,  4.26s/it]                                                             4%|▍         | 3894/100000 [2:21:31<113:43:07,  4.26s/it]  4%|▍         | 3895/100000 [2:21:34<103:47:20,  3.89s/it]                                                             4%|▍         | 3895/100000 [2:21:34<103:47:20,  3.89s/it]  4%|▍         | 3896/100000 [2:21:36<94:01:09,  3.52s/it]                                                             4%|▍         | 3896/100000 [2:21:36<94:01:09,  3.52s/it]  4%|▍         | 3897/100000 [2:21:39<84:29:03,  3.16s/it]                                                            4%|▍         | 3897/100000 [2:21:39<84:29:03,  3.16s/it]  4%|▍         | 3898/100000 [2:21:41<76:17:52,  2.86s/it]                                                            4%|▍         | 3898/100000 [2:21:41<76:17:52,  2.86s/it]  4%|▍         | 3899/100000 [2:21:43<69:23:35,  2.60s/it]                                                            4%|▍         | 3899/100000 [2:21:43<69:23:35,  2.60s/it]  4%|▍         | 3900/100000 [2:21:45<63:32:01,  2.38s/it]                                                            4%|▍         | 3900/100000 [2:21:45<63:32:01,  2.38s/it]  4%|▍         | 3901/100000 [2:21:46<57:52:44,  2.17s/it]                                                            4%|▍         | 3901/100000 [2:21:46<57:52:44,  2.17s/it]  4%|▍         | 3902/100000 [2:21:48<53:38:00,  2.01s/it]                                                            4%|▍         | 3902/100000 [2:21:48<53:38:00,  2.01s/it]  4%|▍         | 3903/100000 [2:21:50<49:58:03,  1.87s/it]                                                            4%|▍         | 3903/100000 [2:21:50<49:58:03,  1.87s/it]  4%|▍         | 3904/100000 [2:21:51<46:39:28,  1.75s/it]                                                            4%|▍         | 3904/100000 [2:21:51<46:39:28,  1.75s/it]  4%|▍         | 3905/100000 [2:21:52<43:38:47,  1.64s/it]                                                            4%|▍         | 3905/100000 [2:21:52<43:38:47,  1.64s/it]  4%|▍         | 3906/100000 [2:21:54<41:20:17,  1.55s/it]                                                            4%|▍         | 3906/100000 [2:21:54<41:20:17,  1.55s/it]  4%|▍         | 3907/100000 [2:21:55<38:56:01,  1.46s/it]                                                            4%|▍         | 3907/100000 [2:21:55<38:56:01,  1.46s/it]  4%|▍         | 3908/100000 [2:21:56<36:50:29,  1.38s/it]                                                            4%|▍         | 3908/100000 [2:21:56<36:50:29,  1.38s/it]  4%|▍         | 3909/100000 [2:21:57<34:48:10,  1.30s/it]                                                            4%|▍         | 3909/100000 [2:21:57<34:48:10,  1.30s/it]  4%|▍         | 3910/100000 [2:21:58<33:13:36,  1.24s/it]                                                            4%|▍         | 3910/100000 [2:21:58<33:13:36,  1.24s/it]  4%|▍         | 3911/100000 [2:22:00<31:58:31,  1.20s/it]                                                            4%|▍         | 3911/100000 [2:22:00<31:58:31,  1.20s/it]  4%|▍         | 3912/100000 [2:22:01<30:36:03,  1.15s/it]                                                            4%|▍         | 3912/100000 [2:22:01<30:36:03,  1.15s/it]  4%|▍         | 3913/100000 [2:22:02<29:05:34,  1.09s/it]                                                            4%|▍         | 3913/100000 [2:22:02<29:05:34,  1.09s/it]  4%|▍         | 3914/100000 [2:22:02<28:12:55,  1.06s/it]                                                            4%|▍         | 3914/100000 [2:22:02<28:12:55,  1.06s/it]  4%|▍         | 3915/100000 [2:22:03<27:27:04,  1.03s/it]                                                            4%|▍         | 3915/100000 [2:22:03<27:27:04,  1.03s/it]  4%|▍         | 3916/100000 [2:22:04<26:26:24,  1.01it/s]                                                            4%|▍         | 3916/100000 [2:22:04<26:26:24,  1.01it/s]  4%|▍         | 3917/100000 [2:22:05<25:41:50,  1.04it/s]                                                            4%|▍         | 3917/100000 [2:22:05<25:41:50,  1.04it/s]  4%|▍         | 3918/100000 [2:22:06<25:01:15,  1.07it/s]                                                            4%|▍         | 3918/100000 [2:22:06<25:01:15,  1.07it/s]  4%|▍         | 3919/100000 [2:22:07<24:35:14,  1.09it/s]                                                            4%|▍         | 3919/100000 [2:22:07<24:35:14,  1.09it/s]  4%|▍         | 3920/100000 [2:22:08<23:37:46,  1.13it/s]                                                            4%|▍         | 3920/100000 [2:22:08<23:37:46,  1.13it/s]  4%|▍         | 3921/100000 [2:22:09<22:59:11,  1.16it/s]                                                            4%|▍         | 3921/100000 [2:22:09<22:59:11,  1.16it/s]  4%|▍         | 3922/100000 [2:22:09<22:09:04,  1.20it/s]                                                            4%|▍         | 3922/100000 [2:22:09<22:09:04,  1.20it/s]  4%|▍         | 3923/100000 [2:22:10<21:52:36,  1.22it/s]                                                            4%|▍         | 3923/100000 [2:22:10<21:52:36,  1.22it/s]  4%|▍         | 3924/100000 [2:22:11<21:19:30,  1.25it/s]                                                            4%|▍         | 3924/100000 [2:22:11<21:19:30,  1.25it/s]  4%|▍         | 3925/100000 [2:22:12<20:55:15,  1.28it/s]                                                            4%|▍         | 3925/100000 [2:22:12<20:55:15,  1.28it/s]  4%|▍         | 3926/100000 [2:22:12<20:37:39,  1.29it/s]                                                            4%|▍         | 3926/100000 [2:22:12<20:37:39,  1.29it/s]  4%|▍         | 3927/100000 [2:22:26<119:42:28,  4.49s/it]                                                             4%|▍         | 3927/100000 [2:22:26<119:42:28,  4.49s/it]  4%|▍         | 3928/100000 [2:22:33<145:35:09,  5.46s/it]                                                             4%|▍         | 3928/100000 [2:22:33<145:35:09,  5.46s/it]  4%|▍         | 3929/100000 [2:22:39<147:40:35,  5.53s/it]                                                             4%|▍         | 3929/100000 [2:22:39<147:40:35,  5.53s/it]  4%|▍         | 3930/100000 [2:22:44<140:43:19,  5.27s/it]                                                             4%|▍         | 3930/100000 [2:22:44<140:43:19,  5.27s/it]  4%|▍         | 3931/100000 [2:22:48<130:53:27,  4.90s/it]                                                             4%|▍         | 3931/100000 [2:22:48<130:53:27,  4.90s/it]  4%|▍         | 3932/100000 [2:22:51<119:20:33,  4.47s/it]                                                             4%|▍         | 3932/100000 [2:22:51<119:20:33,  4.47s/it]  4%|▍         | 3933/100000 [2:22:54<107:33:09,  4.03s/it]                                                             4%|▍         | 3933/100000 [2:22:54<107:33:09,  4.03s/it]  4%|▍         | 3934/100000 [2:22:57<95:01:43,  3.56s/it]                                                           {'loss': 0.2772, 'grad_norm': 0.8676669597625732, 'learning_rate': 1.1541e-05, 'epoch': 25.01}
{'loss': 0.2409, 'grad_norm': 1.0196658372879028, 'learning_rate': 1.1544e-05, 'epoch': 25.01}
{'loss': 0.2017, 'grad_norm': 0.8855013847351074, 'learning_rate': 1.1547000000000001e-05, 'epoch': 25.02}
{'loss': 0.1871, 'grad_norm': 0.6068717241287231, 'learning_rate': 1.1550000000000001e-05, 'epoch': 25.03}
{'loss': 0.1825, 'grad_norm': 0.7734284996986389, 'learning_rate': 1.1553000000000001e-05, 'epoch': 25.03}
{'loss': 0.1423, 'grad_norm': 0.7569427490234375, 'learning_rate': 1.1555999999999999e-05, 'epoch': 25.04}
{'loss': 0.1501, 'grad_norm': 0.6347604990005493, 'learning_rate': 1.1558999999999999e-05, 'epoch': 25.05}
{'loss': 0.1628, 'grad_norm': 0.779198944568634, 'learning_rate': 1.1562e-05, 'epoch': 25.05}
{'loss': 0.1591, 'grad_norm': 0.7005256414413452, 'learning_rate': 1.1565e-05, 'epoch': 25.06}
{'loss': 0.1394, 'grad_norm': 0.9795486927032471, 'learning_rate': 1.1568e-05, 'epoch': 25.06}
{'loss': 0.1188, 'grad_norm': 0.731576144695282, 'learning_rate': 1.1571e-05, 'epoch': 25.07}
{'loss': 0.0795, 'grad_norm': 0.8722661733627319, 'learning_rate': 1.1574e-05, 'epoch': 25.08}
{'loss': 0.1371, 'grad_norm': 0.9402600526809692, 'learning_rate': 1.1577000000000001e-05, 'epoch': 25.08}
{'loss': 0.0841, 'grad_norm': 0.589274525642395, 'learning_rate': 1.1580000000000001e-05, 'epoch': 25.09}
{'loss': 0.0832, 'grad_norm': 0.7678185105323792, 'learning_rate': 1.1583e-05, 'epoch': 25.1}
{'loss': 0.0771, 'grad_norm': 0.8643242120742798, 'learning_rate': 1.1586e-05, 'epoch': 25.1}
{'loss': 0.0778, 'grad_norm': 0.6978511810302734, 'learning_rate': 1.1589e-05, 'epoch': 25.11}
{'loss': 0.0813, 'grad_norm': 0.7649335861206055, 'learning_rate': 1.1592e-05, 'epoch': 25.12}
{'loss': 0.0822, 'grad_norm': 0.934592604637146, 'learning_rate': 1.1595e-05, 'epoch': 25.12}
{'loss': 0.0787, 'grad_norm': 0.7139069437980652, 'learning_rate': 1.1598e-05, 'epoch': 25.13}
{'loss': 0.0848, 'grad_norm': 0.8998556733131409, 'learning_rate': 1.1601e-05, 'epoch': 25.14}
{'loss': 0.14, 'grad_norm': 0.8636197447776794, 'learning_rate': 1.1604e-05, 'epoch': 25.14}
{'loss': 0.096, 'grad_norm': 0.7832009792327881, 'learning_rate': 1.1607000000000001e-05, 'epoch': 25.15}
{'loss': 0.0875, 'grad_norm': 1.3458689451217651, 'learning_rate': 1.161e-05, 'epoch': 25.16}
{'loss': 0.1544, 'grad_norm': 1.4119253158569336, 'learning_rate': 1.1613e-05, 'epoch': 25.16}
{'loss': 0.0867, 'grad_norm': 1.7136633396148682, 'learning_rate': 1.1616e-05, 'epoch': 25.17}
{'loss': 0.086, 'grad_norm': 1.1563457250595093, 'learning_rate': 1.1619e-05, 'epoch': 25.18}
{'loss': 0.1206, 'grad_norm': 1.5779130458831787, 'learning_rate': 1.1622000000000002e-05, 'epoch': 25.18}
{'loss': 0.0797, 'grad_norm': 1.4051506519317627, 'learning_rate': 1.1625000000000001e-05, 'epoch': 25.19}
{'loss': 0.0887, 'grad_norm': 1.362042784690857, 'learning_rate': 1.1628e-05, 'epoch': 25.19}
{'loss': 0.0891, 'grad_norm': 1.1584370136260986, 'learning_rate': 1.1631e-05, 'epoch': 25.2}
{'loss': 0.0685, 'grad_norm': 1.88783597946167, 'learning_rate': 1.1633999999999999e-05, 'epoch': 25.21}
{'loss': 0.0651, 'grad_norm': 1.747212290763855, 'learning_rate': 1.1637e-05, 'epoch': 25.21}
{'loss': 0.0993, 'grad_norm': 1.5228115320205688, 'learning_rate': 1.164e-05, 'epoch': 25.22}
{'loss': 0.0596, 'grad_norm': 1.041382074356079, 'learning_rate': 1.1643e-05, 'epoch': 25.23}
{'loss': 0.1018, 'grad_norm': 1.0643985271453857, 'learning_rate': 1.1646e-05, 'epoch': 25.23}
{'loss': 0.0856, 'grad_norm': 2.013719081878662, 'learning_rate': 1.1649e-05, 'epoch': 25.24}
{'loss': 0.1107, 'grad_norm': 1.68975031375885, 'learning_rate': 1.1652000000000001e-05, 'epoch': 25.25}
{'loss': 0.3315, 'grad_norm': 1.9793834686279297, 'learning_rate': 1.1655000000000001e-05, 'epoch': 25.25}
{'loss': 0.2299, 'grad_norm': 1.2538785934448242, 'learning_rate': 1.1658000000000001e-05, 'epoch': 25.26}
{'loss': 0.21, 'grad_norm': 1.3637040853500366, 'learning_rate': 1.1661e-05, 'epoch': 25.27}
{'loss': 0.2026, 'grad_norm': 0.9621273279190063, 'learning_rate': 1.1664e-05, 'epoch': 25.27}
{'loss': 0.1539, 'grad_norm': 0.7189934849739075, 'learning_rate': 1.1667e-05, 'epoch': 25.28}
{'loss': 0.1371, 'grad_norm': 0.866974413394928, 'learning_rate': 1.167e-05, 'epoch': 25.29}
{'loss': 0.1643, 'grad_norm': 0.8052727580070496, 'learning_rate': 1.1673e-05, 'epoch': 25.29}
{'loss': 0.1533, 'grad_norm': 0.7695145606994629, 'learning_rate': 1.1676e-05, 'epoch': 25.3}
{'loss': 0.2182, 'grad_norm': 0.997136116027832, 'learning_rate': 1.1679e-05, 'epoch': 25.31}
{'loss': 0.1302, 'grad_norm': 0.7714191675186157, 'learning_rate': 1.1682000000000001e-05, 'epoch': 25.31}
{'loss': 0.107, 'grad_norm': 0.7141004204750061, 'learning_rate': 1.1685e-05, 'epoch': 25.32}
{'loss': 0.121, 'grad_norm': 0.8669259548187256, 'learning_rate': 1.1688e-05, 'epoch': 25.32}
{'loss': 0.1229, 'grad_norm': 0.7881768941879272, 'learning_rate': 1.1691e-05, 'epoch': 25.33}
{'loss': 0.1074, 'grad_norm': 0.7060734629631042, 'learning_rate': 1.1694e-05, 'epoch': 25.34}
{'loss': 0.1348, 'grad_norm': 0.833366334438324, 'learning_rate': 1.1697000000000002e-05, 'epoch': 25.34}
{'loss': 0.0967, 'grad_norm': 0.7298909425735474, 'learning_rate': 1.1700000000000001e-05, 'epoch': 25.35}
{'loss': 0.0977, 'grad_norm': 0.849469006061554, 'learning_rate': 1.1703e-05, 'epoch': 25.36}
{'loss': 0.1049, 'grad_norm': 0.6183924674987793, 'learning_rate': 1.1706e-05, 'epoch': 25.36}
{'loss': 0.0839, 'grad_norm': 1.0478453636169434, 'learning_rate': 1.1709e-05, 'epoch': 25.37}
{'loss': 0.1064, 'grad_norm': 0.7980798482894897, 'learning_rate': 1.1712e-05, 'epoch': 25.38}
{'loss': 0.0837, 'grad_norm': 0.6635812520980835, 'learning_rate': 1.1715e-05, 'epoch': 25.38}
{'loss': 0.0728, 'grad_norm': 0.5989981293678284, 'learning_rate': 1.1718e-05, 'epoch': 25.39}
{'loss': 0.0859, 'grad_norm': 0.8956275582313538, 'learning_rate': 1.1721e-05, 'epoch': 25.4}
{'loss': 0.1694, 'grad_norm': 1.2911443710327148, 'learning_rate': 1.1724e-05, 'epoch': 25.4}
{'loss': 0.0852, 'grad_norm': 0.9458697438240051, 'learning_rate': 1.1727000000000001e-05, 'epoch': 25.41}
{'loss': 0.0956, 'grad_norm': 1.2058305740356445, 'learning_rate': 1.1730000000000001e-05, 'epoch': 25.42}
{'loss': 0.0726, 'grad_norm': 1.371267318725586, 'learning_rate': 1.1733000000000001e-05, 'epoch': 25.42}
{'loss': 0.0955, 'grad_norm': 1.3067878484725952, 'learning_rate': 1.1736e-05, 'epoch': 25.43}
{'loss': 0.1335, 'grad_norm': 1.4370542764663696, 'learning_rate': 1.1738999999999999e-05, 'epoch': 25.44}
{'loss': 0.0742, 'grad_norm': 1.3144210577011108, 'learning_rate': 1.1742e-05, 'epoch': 25.44}
{'loss': 0.0565, 'grad_norm': 0.8380814790725708, 'learning_rate': 1.1745e-05, 'epoch': 25.45}
{'loss': 0.1038, 'grad_norm': 0.9375843405723572, 'learning_rate': 1.1748e-05, 'epoch': 25.45}
{'loss': 0.0429, 'grad_norm': 0.9089103937149048, 'learning_rate': 1.1751e-05, 'epoch': 25.46}
{'loss': 0.0729, 'grad_norm': 1.4195317029953003, 'learning_rate': 1.1754e-05, 'epoch': 25.47}
{'loss': 0.0786, 'grad_norm': 1.7374941110610962, 'learning_rate': 1.1757000000000001e-05, 'epoch': 25.47}
{'loss': 0.0932, 'grad_norm': 1.5108505487442017, 'learning_rate': 1.1760000000000001e-05, 'epoch': 25.48}
{'loss': 0.0476, 'grad_norm': 1.1869416236877441, 'learning_rate': 1.1763e-05, 'epoch': 25.49}
{'loss': 0.1132, 'grad_norm': 2.6935315132141113, 'learning_rate': 1.1766e-05, 'epoch': 25.49}
{'loss': 0.2804, 'grad_norm': 0.9618173241615295, 'learning_rate': 1.1769e-05, 'epoch': 25.5}
{'loss': 0.2285, 'grad_norm': 0.8608406782150269, 'learning_rate': 1.1772000000000002e-05, 'epoch': 25.51}
{'loss': 0.2183, 'grad_norm': 0.8673555254936218, 'learning_rate': 1.1775000000000002e-05, 'epoch': 25.51}
{'loss': 0.1895, 'grad_norm': 0.713858425617218, 'learning_rate': 1.1778e-05, 'epoch': 25.52}
{'loss': 0.1885, 'grad_norm': 0.9804835319519043, 'learning_rate': 1.1781e-05, 'epoch': 25.53}
{'loss': 0.1528, 'grad_norm': 0.7635667324066162, 'learning_rate': 1.1784e-05, 'epoch': 25.53}
{'loss': 0.1378, 'grad_norm': 0.9819628000259399, 'learning_rate': 1.1787e-05, 'epoch': 25.54}
  4%|▍         | 3934/100000 [2:22:57<95:01:43,  3.56s/it]  4%|▍         | 3935/100000 [2:22:59<84:26:15,  3.16s/it]                                                            4%|▍         | 3935/100000 [2:22:59<84:26:15,  3.16s/it]  4%|▍         | 3936/100000 [2:23:01<75:34:40,  2.83s/it]                                                            4%|▍         | 3936/100000 [2:23:01<75:34:40,  2.83s/it]  4%|▍         | 3937/100000 [2:23:03<68:03:36,  2.55s/it]                                                            4%|▍         | 3937/100000 [2:23:03<68:03:36,  2.55s/it]  4%|▍         | 3938/100000 [2:23:05<61:56:03,  2.32s/it]                                                            4%|▍         | 3938/100000 [2:23:05<61:56:03,  2.32s/it]  4%|▍         | 3939/100000 [2:23:06<56:35:45,  2.12s/it]                                                            4%|▍         | 3939/100000 [2:23:06<56:35:45,  2.12s/it]  4%|▍         | 3940/100000 [2:23:08<52:18:51,  1.96s/it]                                                            4%|▍         | 3940/100000 [2:23:08<52:18:51,  1.96s/it]  4%|▍         | 3941/100000 [2:23:09<48:25:56,  1.82s/it]                                                            4%|▍         | 3941/100000 [2:23:09<48:25:56,  1.82s/it]  4%|▍         | 3942/100000 [2:23:11<45:19:28,  1.70s/it]                                                            4%|▍         | 3942/100000 [2:23:11<45:19:28,  1.70s/it]  4%|▍         | 3943/100000 [2:23:12<42:14:33,  1.58s/it]                                                            4%|▍         | 3943/100000 [2:23:12<42:14:33,  1.58s/it]  4%|▍         | 3944/100000 [2:23:13<39:49:51,  1.49s/it]                                                            4%|▍         | 3944/100000 [2:23:13<39:49:51,  1.49s/it]  4%|▍         | 3945/100000 [2:23:15<37:55:50,  1.42s/it]                                                            4%|▍         | 3945/100000 [2:23:15<37:55:50,  1.42s/it]  4%|▍         | 3946/100000 [2:23:16<36:22:50,  1.36s/it]                                                            4%|▍         | 3946/100000 [2:23:16<36:22:50,  1.36s/it]  4%|▍         | 3947/100000 [2:23:17<34:20:50,  1.29s/it]                                                            4%|▍         | 3947/100000 [2:23:17<34:20:50,  1.29s/it]  4%|▍         | 3948/100000 [2:23:18<32:47:29,  1.23s/it]                                                            4%|▍         | 3948/100000 [2:23:18<32:47:29,  1.23s/it]  4%|▍         | 3949/100000 [2:23:19<31:22:43,  1.18s/it]                                                            4%|▍         | 3949/100000 [2:23:19<31:22:43,  1.18s/it]  4%|▍         | 3950/100000 [2:23:20<30:09:33,  1.13s/it]                                                            4%|▍         | 3950/100000 [2:23:20<30:09:33,  1.13s/it]  4%|▍         | 3951/100000 [2:23:21<29:08:28,  1.09s/it]                                                            4%|▍         | 3951/100000 [2:23:21<29:08:28,  1.09s/it]  4%|▍         | 3952/100000 [2:23:22<28:06:31,  1.05s/it]                                                            4%|▍         | 3952/100000 [2:23:22<28:06:31,  1.05s/it]  4%|▍         | 3953/100000 [2:23:23<27:11:29,  1.02s/it]                                                            4%|▍         | 3953/100000 [2:23:23<27:11:29,  1.02s/it]  4%|▍         | 3954/100000 [2:23:24<26:09:03,  1.02it/s]                                                            4%|▍         | 3954/100000 [2:23:24<26:09:03,  1.02it/s]  4%|▍         | 3955/100000 [2:23:25<25:07:57,  1.06it/s]                                                            4%|▍         | 3955/100000 [2:23:25<25:07:57,  1.06it/s]  4%|▍         | 3956/100000 [2:23:26<24:17:35,  1.10it/s]                                                            4%|▍         | 3956/100000 [2:23:26<24:17:35,  1.10it/s]  4%|▍         | 3957/100000 [2:23:26<23:48:07,  1.12it/s]                                                            4%|▍         | 3957/100000 [2:23:26<23:48:07,  1.12it/s]  4%|▍         | 3958/100000 [2:23:27<22:57:46,  1.16it/s]                                                            4%|▍         | 3958/100000 [2:23:27<22:57:46,  1.16it/s]  4%|▍         | 3959/100000 [2:23:28<22:35:53,  1.18it/s]                                                            4%|▍         | 3959/100000 [2:23:28<22:35:53,  1.18it/s]  4%|▍         | 3960/100000 [2:23:29<21:59:46,  1.21it/s]                                                            4%|▍         | 3960/100000 [2:23:29<21:59:46,  1.21it/s]  4%|▍         | 3961/100000 [2:23:30<21:05:08,  1.27it/s]                                                            4%|▍         | 3961/100000 [2:23:30<21:05:08,  1.27it/s]  4%|▍         | 3962/100000 [2:23:30<21:10:26,  1.26it/s]                                                            4%|▍         | 3962/100000 [2:23:30<21:10:26,  1.26it/s]  4%|▍         | 3963/100000 [2:23:31<20:33:19,  1.30it/s]                                                            4%|▍         | 3963/100000 [2:23:31<20:33:19,  1.30it/s]  4%|▍         | 3964/100000 [2:23:32<20:12:51,  1.32it/s]                                                            4%|▍         | 3964/100000 [2:23:32<20:12:51,  1.32it/s]  4%|▍         | 3965/100000 [2:23:43<107:50:23,  4.04s/it]                                                             4%|▍         | 3965/100000 [2:23:44<107:50:23,  4.04s/it]  4%|▍         | 3966/100000 [2:23:52<141:55:44,  5.32s/it]                                                             4%|▍         | 3966/100000 [2:23:52<141:55:44,  5.32s/it]  4%|▍         | 3967/100000 [2:23:57<144:33:21,  5.42s/it]                                                             4%|▍         | 3967/100000 [2:23:57<144:33:21,  5.42s/it]  4%|▍         | 3968/100000 [2:24:02<138:29:12,  5.19s/it]                                                             4%|▍         | 3968/100000 [2:24:02<138:29:12,  5.19s/it]  4%|▍         | 3969/100000 [2:24:06<128:36:53,  4.82s/it]                                                             4%|▍         | 3969/100000 [2:24:06<128:36:53,  4.82s/it]  4%|▍         | 3970/100000 [2:24:09<117:21:12,  4.40s/it]                                                             4%|▍         | 3970/100000 [2:24:09<117:21:12,  4.40s/it]  4%|▍         | 3971/100000 [2:24:12<105:38:48,  3.96s/it]                                                             4%|▍         | 3971/100000 [2:24:12<105:38:48,  3.96s/it]  4%|▍         | 3972/100000 [2:24:15<93:26:34,  3.50s/it]                                                             4%|▍         | 3972/100000 [2:24:15<93:26:34,  3.50s/it]  4%|▍         | 3973/100000 [2:24:17<83:50:24,  3.14s/it]                                                            4%|▍         | 3973/100000 [2:24:17<83:50:24,  3.14s/it]  4%|▍         | 3974/100000 [2:24:19<75:39:56,  2.84s/it]                                                            4%|▍         | 3974/100000 [2:24:19<75:39:56,  2.84s/it]  4%|▍         | 3975/100000 [2:24:21<68:54:38,  2.58s/it]                                                            4%|▍         | 3975/100000 [2:24:21<68:54:38,  2.58s/it]  4%|▍         | 3976/100000 [2:24:23<63:00:18,  2.36s/it]                                                            4%|▍         | 3976/100000 [2:24:23<63:00:18,  2.36s/it]  4%|▍         | 3977/100000 [2:24:25<57:33:49,  2.16s/it]                                                            4%|▍         | 3977/100000 [2:24:25<57:33:49,  2.16s/it]  4%|▍         | 3978/100000 [2:24:26<53:25:36,  2.00s/it]                                                            4%|▍         | 3978/100000 [2:24:26<53:25:36,  2.00s/it]  4%|▍         | 3979/100000 [2:24:28<49:54:25,  1.87s/it]                                                            4%|▍         | 3979/100000 [2:24:28<49:54:25,  1.87s/it]  4%|▍         | 3980/100000 [2:24:29<46:31:13,  1.74s/it]                                                            4%|▍         | 3980/100000 [2:24:29<46:31:13,  1.74s/it]  4%|▍         | 3981/100000 [2:24:31<43:59:58,  1.65s/it]                                                            4%|▍         | 3981/100000 [2:24:31<43:59:58,  1.65s/it]  4%|▍         | 3982/100000 [2:24:32<41:19:39,  1.55s/it]                                                            4%|▍         | 3982/100000 [2:24:32<41:19:39,  1.55s/it]  4%|▍         | 3983/100000 [2:24:33<39:03:36,  1.46s/it]                                                            4%|▍         | 3983/100000 [2:24:33<39:03:36,  1.46s/it]  4%|▍         | 3984/100000 [2:24:35<36:57:02,  1.39s/it]                                                            4%|▍         | 3984/100000 [2:24:35<36:57:02,  1.39s/it]  4%|▍         | 3985/100000 [2:24:36<34:37:21,  1.30s/it]                                                            4%|▍         | 3985/100000 [2:24:36<34:37:21,  1.30s/it]  4%|▍         | 3986/100000 [2:24:37<32:47:06,  1.23s/it]                                                            4%|▍         | 3986/100000 [2:24:37<32:47:06,  1.23s/it]  4%|▍         | 3987/100000 [2:24:38<30:56:31,  1.16s/it]                                                            4%|▍         | 3987/100000 [2:24:38<30:56:31,  1.16s/it]  4%|▍         | 3988/100000 [2:24:39<29:36:02,  1.11s/it]                                                            4%|▍         | 3988/100000 [2:24:39<29:36:02,  1.11s/it]  4%|▍         | 3989/100000 [2:24:40<28:06:41,  1.05s/it]                                                            4%|▍         | 3989/100000 [2:24:40<28:06:41,  1.05s/it]  4%|▍         | 3990/100000 [2:24:41<26:51:23,  1.01s/it]                                                            4%|▍         | 3990/100000 [2:24:41<26:51:23,  1.01s/it]  4%|▍         | 3991/100000 [2:24:42<26:05:50,  1.02it/s]                                                            4%|▍         | 3991/100000 [2:24:42<26:05:50,  1.02it/s]  4%|▍         | 3992/100000 [2:24:42<25:18:13,  1.05it/s]                                                            4%|▍         | 3992/100000 [2:24:42<25:18:13,  1.05it/s]  4%|▍         | 3993/100000 [2:24:43<24:14:37,  1.10it/s]                                                            4%|▍         | 3993/100000 [2:24:43<24:14:37,  1.10it/s]  4%|▍         | 3994/100000 [2:24:44<23:25:25,  1.14it/s]                                                            4%|▍         | 3994/100000 [2:24:44<23:25:25,  1.14it/s]  4%|▍         | 3995/100000 [2:24:45<22:49:00,  1.17it/s]                                                            4%|▍         | 3995/100000 [2:24:45<22:49:00,  1.17it/s]  4%|▍         | 3996/100000 [2:24:46<21:55:36,  1.22it/s]                                                            4%|▍         | 3996/100000 [2:24:46<21:55:36,  1.22it/s]  4%|▍         | 3997/100000 [2:24:46<21:26:49,  1.24it/s]                                                            4%|▍         | 3997/100000 [2:24:46<21:26:49,  1.24it/s]  4%|▍         | 3998/100000 [2:24:47<20:42:49,  1.29it/s]                                                            4%|▍         | 3998/100000 [2:24:47<20:42:49,  1.29it/s]  4%|▍         | 3999/100000 [2:24:48<20:23:46,  1.31it/s]                                                            4%|▍         | 3999/100000 [2:24:48<20:23:46,  1.31it/s]  4%|▍         | 4000/100000 [2:24:49<19:56:25,  1.34it/s]                                                            4%|▍         | 4000/100000 [2:24:49<19:56:25,  1.34it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 0.1354, 'grad_norm': 0.7142342925071716, 'learning_rate': 1.179e-05, 'epoch': 25.55}
{'loss': 0.1389, 'grad_norm': 0.7103531360626221, 'learning_rate': 1.1793e-05, 'epoch': 25.55}
{'loss': 0.1279, 'grad_norm': 0.7548195719718933, 'learning_rate': 1.1796e-05, 'epoch': 25.56}
{'loss': 0.1241, 'grad_norm': 0.8422061800956726, 'learning_rate': 1.1799e-05, 'epoch': 25.56}
{'loss': 0.0966, 'grad_norm': 1.3863210678100586, 'learning_rate': 1.1802000000000002e-05, 'epoch': 25.57}
{'loss': 0.0988, 'grad_norm': 0.6469026207923889, 'learning_rate': 1.1805000000000001e-05, 'epoch': 25.58}
{'loss': 0.1014, 'grad_norm': 0.9296602010726929, 'learning_rate': 1.1808000000000001e-05, 'epoch': 25.58}
{'loss': 0.1186, 'grad_norm': 0.6679566502571106, 'learning_rate': 1.1811000000000001e-05, 'epoch': 25.59}
{'loss': 0.1141, 'grad_norm': 0.7767114639282227, 'learning_rate': 1.1813999999999999e-05, 'epoch': 25.6}
{'loss': 0.0916, 'grad_norm': 0.768244206905365, 'learning_rate': 1.1816999999999999e-05, 'epoch': 25.6}
{'loss': 0.0692, 'grad_norm': 0.6136749386787415, 'learning_rate': 1.182e-05, 'epoch': 25.61}
{'loss': 0.0791, 'grad_norm': 0.9963086843490601, 'learning_rate': 1.1823e-05, 'epoch': 25.62}
{'loss': 0.113, 'grad_norm': 0.737740159034729, 'learning_rate': 1.1826e-05, 'epoch': 25.62}
{'loss': 0.1151, 'grad_norm': 1.054131031036377, 'learning_rate': 1.1829e-05, 'epoch': 25.63}
{'loss': 0.1106, 'grad_norm': 0.8079078197479248, 'learning_rate': 1.1832e-05, 'epoch': 25.64}
{'loss': 0.0789, 'grad_norm': 0.9260688424110413, 'learning_rate': 1.1835000000000001e-05, 'epoch': 25.64}
{'loss': 0.086, 'grad_norm': 0.9254720211029053, 'learning_rate': 1.1838e-05, 'epoch': 25.65}
{'loss': 0.0795, 'grad_norm': 0.773637592792511, 'learning_rate': 1.1841e-05, 'epoch': 25.66}
{'loss': 0.0933, 'grad_norm': 1.1322308778762817, 'learning_rate': 1.1844e-05, 'epoch': 25.66}
{'loss': 0.0783, 'grad_norm': 1.66121506690979, 'learning_rate': 1.1847e-05, 'epoch': 25.67}
{'loss': 0.1051, 'grad_norm': 0.9421566128730774, 'learning_rate': 1.185e-05, 'epoch': 25.68}
{'loss': 0.1059, 'grad_norm': 2.1519296169281006, 'learning_rate': 1.1853e-05, 'epoch': 25.68}
{'loss': 0.0889, 'grad_norm': 1.2004865407943726, 'learning_rate': 1.1856e-05, 'epoch': 25.69}
{'loss': 0.0691, 'grad_norm': 1.22012197971344, 'learning_rate': 1.1859e-05, 'epoch': 25.69}
{'loss': 0.1088, 'grad_norm': 1.399351954460144, 'learning_rate': 1.1862e-05, 'epoch': 25.7}
{'loss': 0.0654, 'grad_norm': 2.5805704593658447, 'learning_rate': 1.1865e-05, 'epoch': 25.71}
{'loss': 0.059, 'grad_norm': 1.2948198318481445, 'learning_rate': 1.1868e-05, 'epoch': 25.71}
{'loss': 0.0976, 'grad_norm': 1.2020450830459595, 'learning_rate': 1.1871e-05, 'epoch': 25.72}
{'loss': 0.113, 'grad_norm': 1.4225151538848877, 'learning_rate': 1.1874e-05, 'epoch': 25.73}
{'loss': 0.0713, 'grad_norm': 1.6577337980270386, 'learning_rate': 1.1877e-05, 'epoch': 25.73}
{'loss': 0.1402, 'grad_norm': 1.7459369897842407, 'learning_rate': 1.1880000000000001e-05, 'epoch': 25.74}
{'loss': 0.2883, 'grad_norm': 1.3890295028686523, 'learning_rate': 1.1883000000000001e-05, 'epoch': 25.75}
{'loss': 0.2628, 'grad_norm': 1.0214039087295532, 'learning_rate': 1.1886e-05, 'epoch': 25.75}
{'loss': 0.2489, 'grad_norm': 1.0720545053482056, 'learning_rate': 1.1889e-05, 'epoch': 25.76}
{'loss': 0.1632, 'grad_norm': 0.7661951184272766, 'learning_rate': 1.1891999999999999e-05, 'epoch': 25.77}
{'loss': 0.1693, 'grad_norm': 0.7748704552650452, 'learning_rate': 1.1895e-05, 'epoch': 25.77}
{'loss': 0.1329, 'grad_norm': 0.8346809148788452, 'learning_rate': 1.1898e-05, 'epoch': 25.78}
{'loss': 0.1559, 'grad_norm': 0.9318622946739197, 'learning_rate': 1.1901e-05, 'epoch': 25.79}
{'loss': 0.1424, 'grad_norm': 0.8227401375770569, 'learning_rate': 1.1904e-05, 'epoch': 25.79}
{'loss': 0.1278, 'grad_norm': 0.8354383707046509, 'learning_rate': 1.1907e-05, 'epoch': 25.8}
{'loss': 0.1143, 'grad_norm': 1.1624995470046997, 'learning_rate': 1.1910000000000001e-05, 'epoch': 25.81}
{'loss': 0.1013, 'grad_norm': 0.8412463068962097, 'learning_rate': 1.1913000000000001e-05, 'epoch': 25.81}
{'loss': 0.1453, 'grad_norm': 0.908104658126831, 'learning_rate': 1.1916e-05, 'epoch': 25.82}
{'loss': 0.109, 'grad_norm': 0.6679495573043823, 'learning_rate': 1.1919e-05, 'epoch': 25.82}
{'loss': 0.1078, 'grad_norm': 0.8421603441238403, 'learning_rate': 1.1922e-05, 'epoch': 25.83}
{'loss': 0.0883, 'grad_norm': 0.8081064224243164, 'learning_rate': 1.1925e-05, 'epoch': 25.84}
{'loss': 0.1032, 'grad_norm': 0.8437609076499939, 'learning_rate': 1.1928e-05, 'epoch': 25.84}
{'loss': 0.1034, 'grad_norm': 0.94292151927948, 'learning_rate': 1.1931e-05, 'epoch': 25.85}
{'loss': 0.1029, 'grad_norm': 0.8513587713241577, 'learning_rate': 1.1934e-05, 'epoch': 25.86}
{'loss': 0.1055, 'grad_norm': 0.8692747950553894, 'learning_rate': 1.1937e-05, 'epoch': 25.86}
{'loss': 0.0879, 'grad_norm': 0.6443184614181519, 'learning_rate': 1.1940000000000001e-05, 'epoch': 25.87}
{'loss': 0.0828, 'grad_norm': 0.7050882577896118, 'learning_rate': 1.1943e-05, 'epoch': 25.88}
{'loss': 0.0779, 'grad_norm': 1.1336963176727295, 'learning_rate': 1.1946e-05, 'epoch': 25.88}
{'loss': 0.0869, 'grad_norm': 0.9134963154792786, 'learning_rate': 1.1949e-05, 'epoch': 25.89}
{'loss': 0.1534, 'grad_norm': 1.3215051889419556, 'learning_rate': 1.1952e-05, 'epoch': 25.9}
{'loss': 0.0719, 'grad_norm': 1.1578484773635864, 'learning_rate': 1.1955000000000002e-05, 'epoch': 25.9}
{'loss': 0.0942, 'grad_norm': 2.3975303173065186, 'learning_rate': 1.1958000000000001e-05, 'epoch': 25.91}
{'loss': 0.1398, 'grad_norm': 1.1831691265106201, 'learning_rate': 1.1961e-05, 'epoch': 25.92}
{'loss': 0.0898, 'grad_norm': 0.9683492183685303, 'learning_rate': 1.1964e-05, 'epoch': 25.92}
{'loss': 0.1456, 'grad_norm': 2.0419580936431885, 'learning_rate': 1.1966999999999999e-05, 'epoch': 25.93}
{'loss': 0.0687, 'grad_norm': 0.8597037196159363, 'learning_rate': 1.197e-05, 'epoch': 25.94}
{'loss': 0.0668, 'grad_norm': 1.4346981048583984, 'learning_rate': 1.1973e-05, 'epoch': 25.94}
{'loss': 0.0685, 'grad_norm': 0.8998269438743591, 'learning_rate': 1.1976e-05, 'epoch': 25.95}
{'loss': 0.0905, 'grad_norm': 1.5654209852218628, 'learning_rate': 1.1979e-05, 'epoch': 25.95}
{'loss': 0.0609, 'grad_norm': 0.9641937017440796, 'learning_rate': 1.1982e-05, 'epoch': 25.96}
{'loss': 0.1118, 'grad_norm': 1.6202541589736938, 'learning_rate': 1.1985000000000001e-05, 'epoch': 25.97}
{'loss': 0.0802, 'grad_norm': 1.4481867551803589, 'learning_rate': 1.1988000000000001e-05, 'epoch': 25.97}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:01<00:01,  1.40it/s][A
 75%|███████▌  | 3/4 [00:03<00:01,  1.09s/it][A
100%|██████████| 4/4 [00:03<00:00,  1.29it/s][A                                                          
                                             [A  4%|▍         | 4000/100000 [2:25:01<19:56:25,  1.34it/s]
100%|██████████| 4/4 [00:03<00:00,  1.29it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-4000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-4000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-4000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-4000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-4000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-4000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-4000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-2000] due to args.save_total_limit
  4%|▍         | 4001/100000 [2:25:15<229:43:52,  8.62s/it]                                                             4%|▍         | 4001/100000 [2:25:15<229:43:52,  8.62s/it]  4%|▍         | 4002/100000 [2:25:16<166:46:14,  6.25s/it]                                                             4%|▍         | 4002/100000 [2:25:16<166:46:14,  6.25s/it]  4%|▍         | 4003/100000 [2:25:24<182:25:24,  6.84s/it]                                                             4%|▍         | 4003/100000 [2:25:24<182:25:24,  6.84s/it]  4%|▍         | 4004/100000 [2:25:26<138:12:58,  5.18s/it]                                                             4%|▍         | 4004/100000 [2:25:26<138:12:58,  5.18s/it]{'eval_loss': 0.26823195815086365, 'eval_wer': 0.2976190476190476, 'eval_cer': 0.09308489277969641, 'eval_runtime': 8.0748, 'eval_samples_per_second': 12.508, 'eval_steps_per_second': 0.495, 'epoch': 25.97}
{'loss': 0.0932, 'grad_norm': 2.179933786392212, 'learning_rate': 1.1991000000000001e-05, 'epoch': 25.98}
{'loss': 0.1223, 'grad_norm': 2.124910354614258, 'learning_rate': 1.1994e-05, 'epoch': 25.99}
{'loss': 0.1606, 'grad_norm': 1.0761641263961792, 'learning_rate': 1.1996999999999999e-05, 'epoch': 25.99}
{'loss': 0.1039, 'grad_norm': 1.887999176979065, 'learning_rate': 1.2e-05, 'epoch': 26.0}
  4%|▍         | 4005/100000 [2:25:43<235:36:29,  8.84s/it]                                                             4%|▍         | 4005/100000 [2:25:43<235:36:29,  8.84s/it]  4%|▍         | 4006/100000 [2:25:50<222:32:45,  8.35s/it]                                                             4%|▍         | 4006/100000 [2:25:50<222:32:45,  8.35s/it]  4%|▍         | 4007/100000 [2:25:56<197:20:50,  7.40s/it]                                                             4%|▍         | 4007/100000 [2:25:56<197:20:50,  7.40s/it]  4%|▍         | 4008/100000 [2:26:00<172:30:06,  6.47s/it]                                                             4%|▍         | 4008/100000 [2:26:00<172:30:06,  6.47s/it]  4%|▍         | 4009/100000 [2:26:04<151:14:02,  5.67s/it]                                                             4%|▍         | 4009/100000 [2:26:04<151:14:02,  5.67s/it]  4%|▍         | 4010/100000 [2:26:07<131:38:26,  4.94s/it]                                                             4%|▍         | 4010/100000 [2:26:07<131:38:26,  4.94s/it]  4%|▍         | 4011/100000 [2:26:10<116:10:25,  4.36s/it]                                                             4%|▍         | 4011/100000 [2:26:10<116:10:25,  4.36s/it]  4%|▍         | 4012/100000 [2:26:12<102:09:14,  3.83s/it]                                                             4%|▍         | 4012/100000 [2:26:12<102:09:14,  3.83s/it]  4%|▍         | 4013/100000 [2:26:15<90:03:01,  3.38s/it]                                                             4%|▍         | 4013/100000 [2:26:15<90:03:01,  3.38s/it]  4%|▍         | 4014/100000 [2:26:17<78:57:04,  2.96s/it]                                                            4%|▍         | 4014/100000 [2:26:17<78:57:04,  2.96s/it]  4%|▍         | 4015/100000 [2:26:19<70:55:48,  2.66s/it]                                                            4%|▍         | 4015/100000 [2:26:19<70:55:48,  2.66s/it]  4%|▍         | 4016/100000 [2:26:21<64:08:07,  2.41s/it]                                                            4%|▍         | 4016/100000 [2:26:21<64:08:07,  2.41s/it]  4%|▍         | 4017/100000 [2:26:22<58:17:44,  2.19s/it]                                                            4%|▍         | 4017/100000 [2:26:22<58:17:44,  2.19s/it]  4%|▍         | 4018/100000 [2:26:24<53:55:48,  2.02s/it]                                                            4%|▍         | 4018/100000 [2:26:24<53:55:48,  2.02s/it]  4%|▍         | 4019/100000 [2:26:25<50:20:32,  1.89s/it]                                                            4%|▍         | 4019/100000 [2:26:25<50:20:32,  1.89s/it]  4%|▍         | 4020/100000 [2:26:27<46:47:04,  1.75s/it]                                                            4%|▍         | 4020/100000 [2:26:27<46:47:04,  1.75s/it]  4%|▍         | 4021/100000 [2:26:28<43:44:08,  1.64s/it]                                                            4%|▍         | 4021/100000 [2:26:28<43:44:08,  1.64s/it]  4%|▍         | 4022/100000 [2:26:30<41:13:56,  1.55s/it]                                                            4%|▍         | 4022/100000 [2:26:30<41:13:56,  1.55s/it]  4%|▍         | 4023/100000 [2:26:31<39:07:51,  1.47s/it]                                                            4%|▍         | 4023/100000 [2:26:31<39:07:51,  1.47s/it]  4%|▍         | 4024/100000 [2:26:32<37:19:21,  1.40s/it]                                                            4%|▍         | 4024/100000 [2:26:32<37:19:21,  1.40s/it]  4%|▍         | 4025/100000 [2:26:33<35:27:40,  1.33s/it]                                                            4%|▍         | 4025/100000 [2:26:33<35:27:40,  1.33s/it]  4%|▍         | 4026/100000 [2:26:34<33:49:48,  1.27s/it]                                                            4%|▍         | 4026/100000 [2:26:34<33:49:48,  1.27s/it]  4%|▍         | 4027/100000 [2:26:36<33:09:39,  1.24s/it]                                                            4%|▍         | 4027/100000 [2:26:36<33:09:39,  1.24s/it]  4%|▍         | 4028/100000 [2:26:37<31:20:19,  1.18s/it]                                                            4%|▍         | 4028/100000 [2:26:37<31:20:19,  1.18s/it]  4%|▍         | 4029/100000 [2:26:38<29:59:21,  1.12s/it]                                                            4%|▍         | 4029/100000 [2:26:38<29:59:21,  1.12s/it]  4%|▍         | 4030/100000 [2:26:38<28:12:15,  1.06s/it]                                                            4%|▍         | 4030/100000 [2:26:39<28:12:15,  1.06s/it]  4%|▍         | 4031/100000 [2:26:39<27:11:47,  1.02s/it]                                                            4%|▍         | 4031/100000 [2:26:39<27:11:47,  1.02s/it]  4%|▍         | 4032/100000 [2:26:40<26:22:57,  1.01it/s]                                                            4%|▍         | 4032/100000 [2:26:40<26:22:57,  1.01it/s]  4%|▍         | 4033/100000 [2:26:41<25:25:29,  1.05it/s]                                                            4%|▍         | 4033/100000 [2:26:41<25:25:29,  1.05it/s]  4%|▍         | 4034/100000 [2:26:42<24:23:57,  1.09it/s]                                                            4%|▍         | 4034/100000 [2:26:42<24:23:57,  1.09it/s]  4%|▍         | 4035/100000 [2:26:43<23:32:19,  1.13it/s]                                                            4%|▍         | 4035/100000 [2:26:43<23:32:19,  1.13it/s]  4%|▍         | 4036/100000 [2:26:44<23:17:46,  1.14it/s]                                                            4%|▍         | 4036/100000 [2:26:44<23:17:46,  1.14it/s]  4%|▍         | 4037/100000 [2:26:45<23:27:03,  1.14it/s]                                                            4%|▍         | 4037/100000 [2:26:45<23:27:03,  1.14it/s]  4%|▍         | 4038/100000 [2:26:45<22:39:46,  1.18it/s]                                                            4%|▍         | 4038/100000 [2:26:45<22:39:46,  1.18it/s]  4%|▍         | 4039/100000 [2:26:46<22:32:17,  1.18it/s]                                                            4%|▍         | 4039/100000 [2:26:46<22:32:17,  1.18it/s]  4%|▍         | 4040/100000 [2:26:47<21:44:14,  1.23it/s]                                                            4%|▍         | 4040/100000 [2:26:47<21:44:14,  1.23it/s]  4%|▍         | 4041/100000 [2:26:48<21:37:23,  1.23it/s]                                                            4%|▍         | 4041/100000 [2:26:48<21:37:23,  1.23it/s]  4%|▍         | 4042/100000 [2:26:49<21:17:16,  1.25it/s]                                                            4%|▍         | 4042/100000 [2:26:49<21:17:16,  1.25it/s]  4%|▍         | 4043/100000 [2:27:01<110:49:05,  4.16s/it]                                                             4%|▍         | 4043/100000 [2:27:01<110:49:05,  4.16s/it]  4%|▍         | 4044/100000 [2:27:08<133:58:30,  5.03s/it]                                                             4%|▍         | 4044/100000 [2:27:08<133:58:30,  5.03s/it]  4%|▍         | 4045/100000 [2:27:13<139:27:10,  5.23s/it]                                                             4%|▍         | 4045/100000 [2:27:13<139:27:10,  5.23s/it]  4%|▍         | 4046/100000 [2:27:18<135:36:01,  5.09s/it]                                                             4%|▍         | 4046/100000 [2:27:18<135:36:01,  5.09s/it]  4%|▍         | 4047/100000 [2:27:22<127:13:35,  4.77s/it]                                                             4%|▍         | 4047/100000 [2:27:22<127:13:35,  4.77s/it]  4%|▍         | 4048/100000 [2:27:26<117:47:23,  4.42s/it]                                                             4%|▍         | 4048/100000 [2:27:26<117:47:23,  4.42s/it]  4%|▍         | 4049/100000 [2:27:29<107:25:01,  4.03s/it]                                                             4%|▍         | 4049/100000 [2:27:29<107:25:01,  4.03s/it]  4%|▍         | 4050/100000 [2:27:31<96:50:15,  3.63s/it]                                                             4%|▍         | 4050/100000 [2:27:32<96:50:15,  3.63s/it]  4%|▍         | 4051/100000 [2:27:34<86:51:13,  3.26s/it]                                                            4%|▍         | 4051/100000 [2:27:34<86:51:13,  3.26s/it]  4%|▍         | 4052/100000 [2:27:36<77:58:44,  2.93s/it]                                                            4%|▍         | 4052/100000 [2:27:36<77:58:44,  2.93s/it]  4%|▍         | 4053/100000 [2:27:38<69:56:24,  2.62s/it]                                                            4%|▍         | 4053/100000 [2:27:38<69:56:24,  2.62s/it]  4%|▍         | 4054/100000 [2:27:40<63:42:33,  2.39s/it]                                                            4%|▍         | 4054/100000 [2:27:40<63:42:33,  2.39s/it]  4%|▍         | 4055/100000 [2:27:42<58:24:04,  2.19s/it]                                                            4%|▍         | 4055/100000 [2:27:42<58:24:04,  2.19s/it]  4%|▍         | 4056/100000 [2:27:43<54:12:04,  2.03s/it]                                                            4%|▍         | 4056/100000 [2:27:43<54:12:04,  2.03s/it]  4%|▍         | 4057/100000 [2:27:45<50:31:36,  1.90s/it]                                                            4%|▍         | 4057/100000 [2:27:45<50:31:36,  1.90s/it]  4%|▍         | 4058/100000 [2:27:46<47:04:41,  1.77s/it]                                                            4%|▍         | 4058/100000 [2:27:46<47:04:41,  1.77s/it]  4%|▍         | 4059/100000 [2:27:48<44:02:07,  1.65s/it]                                                            4%|▍         | 4059/100000 [2:27:48<44:02:07,  1.65s/it]  4%|▍         | 4060/100000 [2:27:49<41:47:34,  1.57s/it]                                                            4%|▍         | 4060/100000 [2:27:49<41:47:34,  1.57s/it]  4%|▍         | 4061/100000 [2:27:50<39:41:48,  1.49s/it]                                                            4%|▍         | 4061/100000 [2:27:50<39:41:48,  1.49s/it]  4%|▍         | 4062/100000 [2:27:52<37:48:53,  1.42s/it]                                                            4%|▍         | 4062/100000 [2:27:52<37:48:53,  1.42s/it]  4%|▍         | 4063/100000 [2:27:53<35:38:03,  1.34s/it]                                                            4%|▍         | 4063/100000 [2:27:53<35:38:03,  1.34s/it]  4%|▍         | 4064/100000 [2:27:54<33:51:07,  1.27s/it]                                                            4%|▍         | 4064/100000 [2:27:54<33:51:07,  1.27s/it]  4%|▍         | 4065/100000 [2:27:55<32:24:57,  1.22s/it]                                                            4%|▍         | 4065/100000 [2:27:55<32:24:57,  1.22s/it]  4%|▍         | 4066/100000 [2:27:56<30:43:40,  1.15s/it]                                                            4%|▍         | 4066/100000 [2:27:56<30:43:40,  1.15s/it]  4%|▍         | 4067/100000 [2:27:57<29:05:31,  1.09s/it]                                                            4%|▍         | 4067/100000 [2:27:57<29:05:31,  1.09s/it]  4%|▍         | 4068/100000 [2:27:58<28:04:38,  1.05s/it]                                                            4%|▍         | 4068/100000 [2:27:58<28:04:38,  1.05s/it]  4%|▍         | 4069/100000 [2:27:59<27:15:47,  1.02s/it]                                                            4%|▍         | 4069/100000 [2:27:59<27:15:47,  1.02s/it]  4%|▍         | 4070/100000 [2:28:00<26:01:08,  1.02it/s]                                                            4%|▍         | 4070/100000 [2:28:00<26:01:08,  1.02it/s]  4%|▍         | 4071/100000 [2:28:01<25:53:09,  1.03it/s]                                                            4%|▍         | 4071/100000 [2:28:01<25:53:09,  1.03it/s]  4%|▍         | 4072/100000 [2:28:01<25:20:36,  1.05it/s]                                                            4%|▍         | 4072/100000 [2:28:02<25:20:36,  1.05it/s]  4%|▍         | 4073/100000 [2:28:02<24:44:36,  1.08it/s]                                                            4%|▍         | 4073/100000 [2:28:02<24:44:36,  1.08it/s]  4%|▍         | 4074/100000 [2:28:03<23:38:44,  1.13it/s]                                                            4%|▍         | 4074/100000 [2:28:03<23:38:44,  1.13it/s]  4%|▍         | 4075/100000 [2:28:04<23:06:53,  1.15it/s]                                                            4%|▍         | 4075/100000 [2:28:04<23:06:53,  1.15it/s]  4%|▍         | 4076/100000 [2:28:05<22:52:00,  1.17it/s]                                                            4%|▍         | 4076/100000 [2:28:05<22:52:00,  1.17it/s]  4%|▍         | 4077/100000 [2:28:06<22:04:12,  1.21it/s]                                                            4%|▍         | 4077/100000 [2:28:06<22:04:12,  1.21it/s]  4%|▍         | 4078/100000 [2:28:06<21:12:46,  1.26it/s]                                                            4%|▍         | 4078/100000 [2:28:06<21:12:46,  1.26it/s]  4%|▍         | 4079/100000 [2:28:07<21:34:49,  1.23it/s]                                                            4%|▍         | 4079/100000 [2:28:07<21:34:49,  1.23it/s]  4%|▍         | 4080/100000 [2:28:08<21:15:17,  1.25it/s]                                                            4%|▍         | 4080/100000 [2:28:08<21:15:17,  1.25it/s]  4%|▍         | 4081/100000 [2:28:20<111:34:13,  4.19s/it]                                                             4%|▍         | 4081/100000 [2:28:20<111:34:13,  4.19s/it]  4%|▍         | 4082/100000 [2:28:27<135:38:28,  5.09s/it]                                                             4%|▍         | 4082/100000 [2:28:27<135:38:28,  5.09s/it]  4%|▍         | 4083/100000 [2:28:32<137:11:20,  5.15s/it]                                                             4%|▍         | 4083/100000 [2:28:33<137:11:20,  5.15s/it]  4%|▍         | 4084/100000 [2:28:37<132:56:28,  4.99s/it]                                                             4%|▍         | 4084/100000 [2:28:37<132:56:28,  4.99s/it]  4%|▍         | 4085/100000 [2:28:41<125:13:19,  4.70s/it]                                                             4%|▍         | 4085/100000 [2:28:41<125:13:19,  4.70s/it]  4%|▍         | 4086/100000 [2:28:45<115:16:04,  4.33s/it]                                                             4%|▍         | 4086/100000 [2:28:45<115:16:04,  4.33s/it]  4%|▍         | 4087/100000 [2:28:48<104:34:12,  3.92s/it]                                                             4%|▍         | 4087/100000 [2:28:48<104:34:12,  3.92s/it]  4%|▍         | 4088/100000 [2:28:50<94:23:44,  3.54s/it]                                                           {'loss': 0.2618, 'grad_norm': 1.1905547380447388, 'learning_rate': 1.2003e-05, 'epoch': 26.01}
{'loss': 0.2236, 'grad_norm': 0.6991287469863892, 'learning_rate': 1.2006e-05, 'epoch': 26.01}
{'loss': 0.1507, 'grad_norm': 0.7999261021614075, 'learning_rate': 1.2009e-05, 'epoch': 26.02}
{'loss': 0.1773, 'grad_norm': 1.101037621498108, 'learning_rate': 1.2012e-05, 'epoch': 26.03}
{'loss': 0.1541, 'grad_norm': 0.7876929044723511, 'learning_rate': 1.2015000000000001e-05, 'epoch': 26.03}
{'loss': 0.1448, 'grad_norm': 0.6173211932182312, 'learning_rate': 1.2018e-05, 'epoch': 26.04}
{'loss': 0.1355, 'grad_norm': 0.6074464321136475, 'learning_rate': 1.2021e-05, 'epoch': 26.05}
{'loss': 0.13, 'grad_norm': 0.7768895626068115, 'learning_rate': 1.2024e-05, 'epoch': 26.05}
{'loss': 0.1492, 'grad_norm': 1.075761079788208, 'learning_rate': 1.2027e-05, 'epoch': 26.06}
{'loss': 0.1341, 'grad_norm': 1.1517232656478882, 'learning_rate': 1.2030000000000002e-05, 'epoch': 26.06}
{'loss': 0.1072, 'grad_norm': 0.9820564389228821, 'learning_rate': 1.2033000000000002e-05, 'epoch': 26.07}
{'loss': 0.0894, 'grad_norm': 1.047010898590088, 'learning_rate': 1.2036e-05, 'epoch': 26.08}
{'loss': 0.1394, 'grad_norm': 0.7471311688423157, 'learning_rate': 1.2039e-05, 'epoch': 26.08}
{'loss': 0.0906, 'grad_norm': 0.6695844531059265, 'learning_rate': 1.2042e-05, 'epoch': 26.09}
{'loss': 0.0939, 'grad_norm': 0.7910340428352356, 'learning_rate': 1.2045e-05, 'epoch': 26.1}
{'loss': 0.1107, 'grad_norm': 0.8032594323158264, 'learning_rate': 1.2048e-05, 'epoch': 26.1}
{'loss': 0.0788, 'grad_norm': 1.5346406698226929, 'learning_rate': 1.2051e-05, 'epoch': 26.11}
{'loss': 0.0856, 'grad_norm': 0.7831682562828064, 'learning_rate': 1.2054e-05, 'epoch': 26.12}
{'loss': 0.076, 'grad_norm': 0.6533076763153076, 'learning_rate': 1.2057e-05, 'epoch': 26.12}
{'loss': 0.1213, 'grad_norm': 0.9050570130348206, 'learning_rate': 1.2060000000000001e-05, 'epoch': 26.13}
{'loss': 0.1142, 'grad_norm': 0.8110316395759583, 'learning_rate': 1.2063000000000001e-05, 'epoch': 26.14}
{'loss': 0.1076, 'grad_norm': 0.8990859389305115, 'learning_rate': 1.2066000000000001e-05, 'epoch': 26.14}
{'loss': 0.0716, 'grad_norm': 0.7926197648048401, 'learning_rate': 1.2069e-05, 'epoch': 26.15}
{'loss': 0.0709, 'grad_norm': 0.782890260219574, 'learning_rate': 1.2071999999999999e-05, 'epoch': 26.16}
{'loss': 0.103, 'grad_norm': 0.9007981419563293, 'learning_rate': 1.2075e-05, 'epoch': 26.16}
{'loss': 0.0817, 'grad_norm': 1.3924548625946045, 'learning_rate': 1.2078e-05, 'epoch': 26.17}
{'loss': 0.0976, 'grad_norm': 1.4073636531829834, 'learning_rate': 1.2081e-05, 'epoch': 26.18}
{'loss': 0.0959, 'grad_norm': 1.2305350303649902, 'learning_rate': 1.2084e-05, 'epoch': 26.18}
{'loss': 0.0869, 'grad_norm': 1.1275964975357056, 'learning_rate': 1.2087e-05, 'epoch': 26.19}
{'loss': 0.0691, 'grad_norm': 0.7813279032707214, 'learning_rate': 1.2090000000000001e-05, 'epoch': 26.19}
{'loss': 0.0578, 'grad_norm': 0.8310858607292175, 'learning_rate': 1.2093000000000001e-05, 'epoch': 26.2}
{'loss': 0.0959, 'grad_norm': 1.1668068170547485, 'learning_rate': 1.2096e-05, 'epoch': 26.21}
{'loss': 0.0423, 'grad_norm': 1.0249760150909424, 'learning_rate': 1.2099e-05, 'epoch': 26.21}
{'loss': 0.0709, 'grad_norm': 1.1846401691436768, 'learning_rate': 1.2102e-05, 'epoch': 26.22}
{'loss': 0.0788, 'grad_norm': 1.5327537059783936, 'learning_rate': 1.2105000000000002e-05, 'epoch': 26.23}
{'loss': 0.0651, 'grad_norm': 1.0379854440689087, 'learning_rate': 1.2108e-05, 'epoch': 26.23}
{'loss': 0.0653, 'grad_norm': 1.0489304065704346, 'learning_rate': 1.2111e-05, 'epoch': 26.24}
{'loss': 0.0691, 'grad_norm': 1.3931219577789307, 'learning_rate': 1.2114e-05, 'epoch': 26.25}
{'loss': 0.3041, 'grad_norm': 1.2421306371688843, 'learning_rate': 1.2117e-05, 'epoch': 26.25}
{'loss': 0.2366, 'grad_norm': 0.9392236471176147, 'learning_rate': 1.2120000000000001e-05, 'epoch': 26.26}
{'loss': 0.2437, 'grad_norm': 0.8014417290687561, 'learning_rate': 1.2123e-05, 'epoch': 26.27}
{'loss': 0.1971, 'grad_norm': 0.8386054635047913, 'learning_rate': 1.2126e-05, 'epoch': 26.27}
{'loss': 0.1668, 'grad_norm': 0.8746961951255798, 'learning_rate': 1.2129e-05, 'epoch': 26.28}
{'loss': 0.1634, 'grad_norm': 0.9400022625923157, 'learning_rate': 1.2132e-05, 'epoch': 26.29}
{'loss': 0.123, 'grad_norm': 1.0737733840942383, 'learning_rate': 1.2135000000000002e-05, 'epoch': 26.29}
{'loss': 0.1528, 'grad_norm': 0.7659681439399719, 'learning_rate': 1.2138000000000001e-05, 'epoch': 26.3}
{'loss': 0.1256, 'grad_norm': 0.8145089745521545, 'learning_rate': 1.2141000000000001e-05, 'epoch': 26.31}
{'loss': 0.1054, 'grad_norm': 0.6461129188537598, 'learning_rate': 1.2144e-05, 'epoch': 26.31}
{'loss': 0.1177, 'grad_norm': 0.6362199783325195, 'learning_rate': 1.2146999999999999e-05, 'epoch': 26.32}
{'loss': 0.1242, 'grad_norm': 0.7337572574615479, 'learning_rate': 1.215e-05, 'epoch': 26.32}
{'loss': 0.11, 'grad_norm': 0.7421326637268066, 'learning_rate': 1.2153e-05, 'epoch': 26.33}
{'loss': 0.0841, 'grad_norm': 0.7746877670288086, 'learning_rate': 1.2156e-05, 'epoch': 26.34}
{'loss': 0.1118, 'grad_norm': 1.5410451889038086, 'learning_rate': 1.2159e-05, 'epoch': 26.34}
{'loss': 0.0883, 'grad_norm': 0.9729808568954468, 'learning_rate': 1.2162e-05, 'epoch': 26.35}
{'loss': 0.1003, 'grad_norm': 0.8701256513595581, 'learning_rate': 1.2165000000000001e-05, 'epoch': 26.36}
{'loss': 0.091, 'grad_norm': 0.834458589553833, 'learning_rate': 1.2168000000000001e-05, 'epoch': 26.36}
{'loss': 0.0872, 'grad_norm': 1.204957365989685, 'learning_rate': 1.2171000000000001e-05, 'epoch': 26.37}
{'loss': 0.0795, 'grad_norm': 0.810221254825592, 'learning_rate': 1.2174e-05, 'epoch': 26.38}
{'loss': 0.091, 'grad_norm': 1.1703212261199951, 'learning_rate': 1.2177e-05, 'epoch': 26.38}
{'loss': 0.0853, 'grad_norm': 0.9192107319831848, 'learning_rate': 1.2180000000000002e-05, 'epoch': 26.39}
{'loss': 0.0746, 'grad_norm': 1.0240037441253662, 'learning_rate': 1.2183e-05, 'epoch': 26.4}
{'loss': 0.0864, 'grad_norm': 1.497860074043274, 'learning_rate': 1.2186e-05, 'epoch': 26.4}
{'loss': 0.0757, 'grad_norm': 0.8879045248031616, 'learning_rate': 1.2189e-05, 'epoch': 26.41}
{'loss': 0.0736, 'grad_norm': 0.8702827095985413, 'learning_rate': 1.2192e-05, 'epoch': 26.42}
{'loss': 0.0806, 'grad_norm': 1.1664177179336548, 'learning_rate': 1.2195e-05, 'epoch': 26.42}
{'loss': 0.115, 'grad_norm': 1.7539077997207642, 'learning_rate': 1.2198e-05, 'epoch': 26.43}
{'loss': 0.097, 'grad_norm': 2.0384488105773926, 'learning_rate': 1.2201e-05, 'epoch': 26.44}
{'loss': 0.0942, 'grad_norm': 1.5243425369262695, 'learning_rate': 1.2204e-05, 'epoch': 26.44}
{'loss': 0.0721, 'grad_norm': 1.180574893951416, 'learning_rate': 1.2207e-05, 'epoch': 26.45}
{'loss': 0.0656, 'grad_norm': 1.06357741355896, 'learning_rate': 1.221e-05, 'epoch': 26.45}
{'loss': 0.0694, 'grad_norm': 1.801296353340149, 'learning_rate': 1.2213000000000001e-05, 'epoch': 26.46}
{'loss': 0.0768, 'grad_norm': 1.79593026638031, 'learning_rate': 1.2216000000000001e-05, 'epoch': 26.47}
{'loss': 0.0823, 'grad_norm': 1.6490790843963623, 'learning_rate': 1.2219e-05, 'epoch': 26.47}
{'loss': 0.0692, 'grad_norm': 2.3049659729003906, 'learning_rate': 1.2222e-05, 'epoch': 26.48}
{'loss': 0.0975, 'grad_norm': 2.6960220336914062, 'learning_rate': 1.2224999999999999e-05, 'epoch': 26.49}
{'loss': 0.0845, 'grad_norm': 1.4758472442626953, 'learning_rate': 1.2228e-05, 'epoch': 26.49}
{'loss': 0.3214, 'grad_norm': 2.7915031909942627, 'learning_rate': 1.2231e-05, 'epoch': 26.5}
{'loss': 0.2448, 'grad_norm': 1.1988556385040283, 'learning_rate': 1.2234e-05, 'epoch': 26.51}
{'loss': 0.2073, 'grad_norm': 1.294036865234375, 'learning_rate': 1.2237e-05, 'epoch': 26.51}
{'loss': 0.2117, 'grad_norm': 0.9791666269302368, 'learning_rate': 1.224e-05, 'epoch': 26.52}
{'loss': 0.1881, 'grad_norm': 1.2352654933929443, 'learning_rate': 1.2243000000000001e-05, 'epoch': 26.53}
{'loss': 0.1421, 'grad_norm': 0.7548229694366455, 'learning_rate': 1.2246000000000001e-05, 'epoch': 26.53}
{'loss': 0.1718, 'grad_norm': 0.8154425621032715, 'learning_rate': 1.2249e-05, 'epoch': 26.54}
  4%|▍         | 4088/100000 [2:28:50<94:23:44,  3.54s/it]  4%|▍         | 4089/100000 [2:28:53<84:31:06,  3.17s/it]                                                            4%|▍         | 4089/100000 [2:28:53<84:31:06,  3.17s/it]  4%|▍         | 4090/100000 [2:28:55<76:03:57,  2.86s/it]                                                            4%|▍         | 4090/100000 [2:28:55<76:03:57,  2.86s/it]  4%|▍         | 4091/100000 [2:28:57<68:53:58,  2.59s/it]                                                            4%|▍         | 4091/100000 [2:28:57<68:53:58,  2.59s/it]  4%|▍         | 4092/100000 [2:28:58<62:59:50,  2.36s/it]                                                            4%|▍         | 4092/100000 [2:28:58<62:59:50,  2.36s/it]  4%|▍         | 4093/100000 [2:29:00<57:22:56,  2.15s/it]                                                            4%|▍         | 4093/100000 [2:29:00<57:22:56,  2.15s/it]  4%|▍         | 4094/100000 [2:29:02<53:17:26,  2.00s/it]                                                            4%|▍         | 4094/100000 [2:29:02<53:17:26,  2.00s/it]  4%|▍         | 4095/100000 [2:29:03<49:51:14,  1.87s/it]                                                            4%|▍         | 4095/100000 [2:29:03<49:51:14,  1.87s/it]  4%|▍         | 4096/100000 [2:29:05<46:16:49,  1.74s/it]                                                            4%|▍         | 4096/100000 [2:29:05<46:16:49,  1.74s/it]  4%|▍         | 4097/100000 [2:29:06<43:30:26,  1.63s/it]                                                            4%|▍         | 4097/100000 [2:29:06<43:30:26,  1.63s/it]  4%|▍         | 4098/100000 [2:29:08<41:24:52,  1.55s/it]                                                            4%|▍         | 4098/100000 [2:29:08<41:24:52,  1.55s/it]  4%|▍         | 4099/100000 [2:29:09<39:09:03,  1.47s/it]                                                            4%|▍         | 4099/100000 [2:29:09<39:09:03,  1.47s/it]  4%|▍         | 4100/100000 [2:29:10<37:21:00,  1.40s/it]                                                            4%|▍         | 4100/100000 [2:29:10<37:21:00,  1.40s/it]  4%|▍         | 4101/100000 [2:29:11<35:39:22,  1.34s/it]                                                            4%|▍         | 4101/100000 [2:29:11<35:39:22,  1.34s/it]  4%|▍         | 4102/100000 [2:29:12<33:39:14,  1.26s/it]                                                            4%|▍         | 4102/100000 [2:29:12<33:39:14,  1.26s/it]  4%|▍         | 4103/100000 [2:29:13<32:06:08,  1.21s/it]                                                            4%|▍         | 4103/100000 [2:29:13<32:06:08,  1.21s/it]  4%|▍         | 4104/100000 [2:29:14<30:37:01,  1.15s/it]                                                            4%|▍         | 4104/100000 [2:29:14<30:37:01,  1.15s/it]  4%|▍         | 4105/100000 [2:29:15<29:18:43,  1.10s/it]                                                            4%|▍         | 4105/100000 [2:29:15<29:18:43,  1.10s/it]  4%|▍         | 4106/100000 [2:29:16<28:17:20,  1.06s/it]                                                            4%|▍         | 4106/100000 [2:29:16<28:17:20,  1.06s/it]  4%|▍         | 4107/100000 [2:29:17<27:06:02,  1.02s/it]                                                            4%|▍         | 4107/100000 [2:29:17<27:06:02,  1.02s/it]  4%|▍         | 4108/100000 [2:29:18<26:31:29,  1.00it/s]                                                            4%|▍         | 4108/100000 [2:29:18<26:31:29,  1.00it/s]  4%|▍         | 4109/100000 [2:29:19<26:02:53,  1.02it/s]                                                            4%|▍         | 4109/100000 [2:29:19<26:02:53,  1.02it/s]  4%|▍         | 4110/100000 [2:29:20<25:22:47,  1.05it/s]                                                            4%|▍         | 4110/100000 [2:29:20<25:22:47,  1.05it/s]  4%|▍         | 4111/100000 [2:29:21<24:33:05,  1.08it/s]                                                            4%|▍         | 4111/100000 [2:29:21<24:33:05,  1.08it/s]  4%|▍         | 4112/100000 [2:29:22<24:20:54,  1.09it/s]                                                            4%|▍         | 4112/100000 [2:29:22<24:20:54,  1.09it/s]  4%|▍         | 4113/100000 [2:29:23<23:40:22,  1.13it/s]                                                            4%|▍         | 4113/100000 [2:29:23<23:40:22,  1.13it/s]  4%|▍         | 4114/100000 [2:29:23<23:00:27,  1.16it/s]                                                            4%|▍         | 4114/100000 [2:29:23<23:00:27,  1.16it/s]  4%|▍         | 4115/100000 [2:29:24<22:50:31,  1.17it/s]                                                            4%|▍         | 4115/100000 [2:29:24<22:50:31,  1.17it/s]  4%|▍         | 4116/100000 [2:29:25<21:52:46,  1.22it/s]                                                            4%|▍         | 4116/100000 [2:29:25<21:52:46,  1.22it/s]  4%|▍         | 4117/100000 [2:29:26<21:59:12,  1.21it/s]                                                            4%|▍         | 4117/100000 [2:29:26<21:59:12,  1.21it/s]  4%|▍         | 4118/100000 [2:29:27<20:57:33,  1.27it/s]                                                            4%|▍         | 4118/100000 [2:29:27<20:57:33,  1.27it/s]  4%|▍         | 4119/100000 [2:29:40<120:46:24,  4.53s/it]                                                             4%|▍         | 4119/100000 [2:29:40<120:46:24,  4.53s/it]  4%|▍         | 4120/100000 [2:29:48<151:02:25,  5.67s/it]                                                             4%|▍         | 4120/100000 [2:29:48<151:02:25,  5.67s/it]  4%|▍         | 4121/100000 [2:29:54<151:33:39,  5.69s/it]                                                             4%|▍         | 4121/100000 [2:29:54<151:33:39,  5.69s/it]  4%|▍         | 4122/100000 [2:29:59<145:04:40,  5.45s/it]                                                             4%|▍         | 4122/100000 [2:29:59<145:04:40,  5.45s/it]  4%|▍         | 4123/100000 [2:30:03<134:11:00,  5.04s/it]                                                             4%|▍         | 4123/100000 [2:30:03<134:11:00,  5.04s/it]  4%|▍         | 4124/100000 [2:30:06<122:02:23,  4.58s/it]                                                             4%|▍         | 4124/100000 [2:30:06<122:02:23,  4.58s/it]  4%|▍         | 4125/100000 [2:30:09<109:18:26,  4.10s/it]                                                             4%|▍         | 4125/100000 [2:30:09<109:18:26,  4.10s/it]  4%|▍         | 4126/100000 [2:30:12<98:26:40,  3.70s/it]                                                             4%|▍         | 4126/100000 [2:30:12<98:26:40,  3.70s/it]  4%|▍         | 4127/100000 [2:30:15<88:15:23,  3.31s/it]                                                            4%|▍         | 4127/100000 [2:30:15<88:15:23,  3.31s/it]  4%|▍         | 4128/100000 [2:30:17<79:04:57,  2.97s/it]                                                            4%|▍         | 4128/100000 [2:30:17<79:04:57,  2.97s/it]  4%|▍         | 4129/100000 [2:30:19<71:06:38,  2.67s/it]                                                            4%|▍         | 4129/100000 [2:30:19<71:06:38,  2.67s/it]  4%|▍         | 4130/100000 [2:30:21<65:05:19,  2.44s/it]                                                            4%|▍         | 4130/100000 [2:30:21<65:05:19,  2.44s/it]  4%|▍         | 4131/100000 [2:30:22<59:35:47,  2.24s/it]                                                            4%|▍         | 4131/100000 [2:30:22<59:35:47,  2.24s/it]  4%|▍         | 4132/100000 [2:30:24<54:33:22,  2.05s/it]                                                            4%|▍         | 4132/100000 [2:30:24<54:33:22,  2.05s/it]  4%|▍         | 4133/100000 [2:30:26<50:43:58,  1.91s/it]                                                            4%|▍         | 4133/100000 [2:30:26<50:43:58,  1.91s/it]  4%|▍         | 4134/100000 [2:30:27<46:59:19,  1.76s/it]                                                            4%|▍         | 4134/100000 [2:30:27<46:59:19,  1.76s/it]  4%|▍         | 4135/100000 [2:30:28<44:18:04,  1.66s/it]                                                            4%|▍         | 4135/100000 [2:30:28<44:18:04,  1.66s/it]  4%|▍         | 4136/100000 [2:30:30<41:41:14,  1.57s/it]                                                            4%|▍         | 4136/100000 [2:30:30<41:41:14,  1.57s/it]  4%|▍         | 4137/100000 [2:30:31<39:21:53,  1.48s/it]                                                            4%|▍         | 4137/100000 [2:30:31<39:21:53,  1.48s/it]  4%|▍         | 4138/100000 [2:30:32<37:31:01,  1.41s/it]                                                            4%|▍         | 4138/100000 [2:30:32<37:31:01,  1.41s/it]  4%|▍         | 4139/100000 [2:30:33<35:43:39,  1.34s/it]                                                            4%|▍         | 4139/100000 [2:30:33<35:43:39,  1.34s/it]  4%|▍         | 4140/100000 [2:30:35<33:51:44,  1.27s/it]                                                            4%|▍         | 4140/100000 [2:30:35<33:51:44,  1.27s/it]  4%|▍         | 4141/100000 [2:30:36<32:20:57,  1.21s/it]                                                            4%|▍         | 4141/100000 [2:30:36<32:20:57,  1.21s/it]  4%|▍         | 4142/100000 [2:30:37<30:56:39,  1.16s/it]                                                            4%|▍         | 4142/100000 [2:30:37<30:56:39,  1.16s/it]  4%|▍         | 4143/100000 [2:30:38<29:38:05,  1.11s/it]                                                            4%|▍         | 4143/100000 [2:30:38<29:38:05,  1.11s/it]  4%|▍         | 4144/100000 [2:30:39<28:40:35,  1.08s/it]                                                            4%|▍         | 4144/100000 [2:30:39<28:40:35,  1.08s/it]  4%|▍         | 4145/100000 [2:30:40<27:54:31,  1.05s/it]                                                            4%|▍         | 4145/100000 [2:30:40<27:54:31,  1.05s/it]  4%|▍         | 4146/100000 [2:30:41<27:17:20,  1.02s/it]                                                            4%|▍         | 4146/100000 [2:30:41<27:17:20,  1.02s/it]  4%|▍         | 4147/100000 [2:30:41<26:23:53,  1.01it/s]                                                            4%|▍         | 4147/100000 [2:30:42<26:23:53,  1.01it/s]  4%|▍         | 4148/100000 [2:30:42<25:37:39,  1.04it/s]                                                            4%|▍         | 4148/100000 [2:30:42<25:37:39,  1.04it/s]  4%|▍         | 4149/100000 [2:30:43<24:59:01,  1.07it/s]                                                            4%|▍         | 4149/100000 [2:30:43<24:59:01,  1.07it/s]  4%|▍         | 4150/100000 [2:30:44<24:36:29,  1.08it/s]                                                            4%|▍         | 4150/100000 [2:30:44<24:36:29,  1.08it/s]  4%|▍         | 4151/100000 [2:30:45<24:16:05,  1.10it/s]                                                            4%|▍         | 4151/100000 [2:30:45<24:16:05,  1.10it/s]  4%|▍         | 4152/100000 [2:30:46<23:31:32,  1.13it/s]                                                            4%|▍         | 4152/100000 [2:30:46<23:31:32,  1.13it/s]  4%|▍         | 4153/100000 [2:30:47<22:45:35,  1.17it/s]                                                            4%|▍         | 4153/100000 [2:30:47<22:45:35,  1.17it/s]  4%|▍         | 4154/100000 [2:30:47<22:01:36,  1.21it/s]                                                            4%|▍         | 4154/100000 [2:30:47<22:01:36,  1.21it/s]  4%|▍         | 4155/100000 [2:30:48<20:39:29,  1.29it/s]                                                            4%|▍         | 4155/100000 [2:30:48<20:39:29,  1.29it/s]  4%|▍         | 4156/100000 [2:30:49<19:48:20,  1.34it/s]                                                            4%|▍         | 4156/100000 [2:30:49<19:48:20,  1.34it/s]  4%|▍         | 4157/100000 [2:30:53<46:52:55,  1.76s/it]                                                            4%|▍         | 4157/100000 [2:30:53<46:52:55,  1.76s/it]  4%|▍         | 4158/100000 [2:30:54<43:17:46,  1.63s/it]                                                            4%|▍         | 4158/100000 [2:30:54<43:17:46,  1.63s/it]{'loss': 0.132, 'grad_norm': 0.7376577854156494, 'learning_rate': 1.2252e-05, 'epoch': 26.55}
{'loss': 0.1197, 'grad_norm': 0.6426613330841064, 'learning_rate': 1.2254999999999999e-05, 'epoch': 26.55}
{'loss': 0.1217, 'grad_norm': 0.8288314342498779, 'learning_rate': 1.2258e-05, 'epoch': 26.56}
{'loss': 0.0905, 'grad_norm': 0.7398501634597778, 'learning_rate': 1.2261e-05, 'epoch': 26.56}
{'loss': 0.0977, 'grad_norm': 0.6554951667785645, 'learning_rate': 1.2264e-05, 'epoch': 26.57}
{'loss': 0.0988, 'grad_norm': 0.7936205267906189, 'learning_rate': 1.2267e-05, 'epoch': 26.58}
{'loss': 0.0997, 'grad_norm': 0.6674092411994934, 'learning_rate': 1.227e-05, 'epoch': 26.58}
{'loss': 0.0911, 'grad_norm': 0.6969135403633118, 'learning_rate': 1.2273000000000001e-05, 'epoch': 26.59}
{'loss': 0.0871, 'grad_norm': 0.8525595664978027, 'learning_rate': 1.2276e-05, 'epoch': 26.6}
{'loss': 0.1241, 'grad_norm': 0.910296618938446, 'learning_rate': 1.2279e-05, 'epoch': 26.6}
{'loss': 0.1136, 'grad_norm': 1.1153297424316406, 'learning_rate': 1.2282e-05, 'epoch': 26.61}
{'loss': 0.0882, 'grad_norm': 1.210328221321106, 'learning_rate': 1.2285e-05, 'epoch': 26.62}
{'loss': 0.0886, 'grad_norm': 1.1258386373519897, 'learning_rate': 1.2288000000000002e-05, 'epoch': 26.62}
{'loss': 0.1013, 'grad_norm': 0.8726353645324707, 'learning_rate': 1.2291000000000001e-05, 'epoch': 26.63}
{'loss': 0.1217, 'grad_norm': 0.9669299721717834, 'learning_rate': 1.2294e-05, 'epoch': 26.64}
{'loss': 0.0905, 'grad_norm': 1.06246817111969, 'learning_rate': 1.2297e-05, 'epoch': 26.64}
{'loss': 0.0756, 'grad_norm': 0.6863667368888855, 'learning_rate': 1.2299999999999999e-05, 'epoch': 26.65}
{'loss': 0.1341, 'grad_norm': 1.0624607801437378, 'learning_rate': 1.2303e-05, 'epoch': 26.66}
{'loss': 0.0929, 'grad_norm': 0.9682468175888062, 'learning_rate': 1.2306e-05, 'epoch': 26.66}
{'loss': 0.0558, 'grad_norm': 0.7359504699707031, 'learning_rate': 1.2309e-05, 'epoch': 26.67}
{'loss': 0.1816, 'grad_norm': 0.9963997006416321, 'learning_rate': 1.2312e-05, 'epoch': 26.68}
{'loss': 0.0929, 'grad_norm': 0.8153926730155945, 'learning_rate': 1.2315e-05, 'epoch': 26.68}
{'loss': 0.0828, 'grad_norm': 1.3356781005859375, 'learning_rate': 1.2318000000000001e-05, 'epoch': 26.69}
{'loss': 0.0556, 'grad_norm': 0.9584279656410217, 'learning_rate': 1.2321000000000001e-05, 'epoch': 26.69}
{'loss': 0.1023, 'grad_norm': 1.1368392705917358, 'learning_rate': 1.2324000000000001e-05, 'epoch': 26.7}
{'loss': 0.067, 'grad_norm': 0.9747141599655151, 'learning_rate': 1.2327e-05, 'epoch': 26.71}
{'loss': 0.0556, 'grad_norm': 1.2871346473693848, 'learning_rate': 1.2329999999999999e-05, 'epoch': 26.71}
{'loss': 0.0642, 'grad_norm': 1.1659908294677734, 'learning_rate': 1.2333e-05, 'epoch': 26.72}
{'loss': 0.1187, 'grad_norm': 1.7689146995544434, 'learning_rate': 1.2336e-05, 'epoch': 26.73}
{'loss': 0.0599, 'grad_norm': 1.027232050895691, 'learning_rate': 1.2339e-05, 'epoch': 26.73}
{'loss': 0.1119, 'grad_norm': 3.5442705154418945, 'learning_rate': 1.2342e-05, 'epoch': 26.74}
{'loss': 0.2973, 'grad_norm': 2.229377269744873, 'learning_rate': 1.2345e-05, 'epoch': 26.75}
{'loss': 0.2325, 'grad_norm': 1.1573333740234375, 'learning_rate': 1.2348000000000001e-05, 'epoch': 26.75}
{'loss': 0.1948, 'grad_norm': 0.793957531452179, 'learning_rate': 1.2351e-05, 'epoch': 26.76}
{'loss': 0.1612, 'grad_norm': 0.6664026975631714, 'learning_rate': 1.2354e-05, 'epoch': 26.77}
{'loss': 0.1503, 'grad_norm': 0.9193817973136902, 'learning_rate': 1.2357e-05, 'epoch': 26.77}
{'loss': 0.1291, 'grad_norm': 0.9064640998840332, 'learning_rate': 1.236e-05, 'epoch': 26.78}
{'loss': 0.1384, 'grad_norm': 2.297280788421631, 'learning_rate': 1.2363000000000002e-05, 'epoch': 26.79}
{'loss': 0.1466, 'grad_norm': 0.837247908115387, 'learning_rate': 1.2366e-05, 'epoch': 26.79}
{'loss': 0.158, 'grad_norm': 0.9671890735626221, 'learning_rate': 1.2369e-05, 'epoch': 26.8}
{'loss': 0.1997, 'grad_norm': 1.0198488235473633, 'learning_rate': 1.2372e-05, 'epoch': 26.81}
{'loss': 0.1141, 'grad_norm': 0.8462244272232056, 'learning_rate': 1.2375e-05, 'epoch': 26.81}
{'loss': 0.1165, 'grad_norm': 0.8508419394493103, 'learning_rate': 1.2378e-05, 'epoch': 26.82}
{'loss': 0.101, 'grad_norm': 0.7461628317832947, 'learning_rate': 1.2381e-05, 'epoch': 26.82}
{'loss': 0.0913, 'grad_norm': 0.6997146606445312, 'learning_rate': 1.2384e-05, 'epoch': 26.83}
{'loss': 0.1241, 'grad_norm': 0.8427839279174805, 'learning_rate': 1.2387e-05, 'epoch': 26.84}
{'loss': 0.0869, 'grad_norm': 0.9006430506706238, 'learning_rate': 1.239e-05, 'epoch': 26.84}
{'loss': 0.0934, 'grad_norm': 1.103858232498169, 'learning_rate': 1.2393000000000001e-05, 'epoch': 26.85}
{'loss': 0.0806, 'grad_norm': 1.4866716861724854, 'learning_rate': 1.2396000000000001e-05, 'epoch': 26.86}
{'loss': 0.0646, 'grad_norm': 1.0015710592269897, 'learning_rate': 1.2399000000000001e-05, 'epoch': 26.86}
{'loss': 0.0947, 'grad_norm': 1.1639859676361084, 'learning_rate': 1.2402e-05, 'epoch': 26.87}
{'loss': 0.0771, 'grad_norm': 0.9196042418479919, 'learning_rate': 1.2404999999999999e-05, 'epoch': 26.88}
{'loss': 0.0678, 'grad_norm': 0.757224977016449, 'learning_rate': 1.2408e-05, 'epoch': 26.88}
{'loss': 0.0889, 'grad_norm': 1.1891738176345825, 'learning_rate': 1.2411e-05, 'epoch': 26.89}
{'loss': 0.1783, 'grad_norm': 1.4251093864440918, 'learning_rate': 1.2414e-05, 'epoch': 26.9}
{'loss': 0.0846, 'grad_norm': 1.155540943145752, 'learning_rate': 1.2417e-05, 'epoch': 26.9}
{'loss': 0.0769, 'grad_norm': 1.150896668434143, 'learning_rate': 1.242e-05, 'epoch': 26.91}
{'loss': 0.0642, 'grad_norm': 1.5616850852966309, 'learning_rate': 1.2423000000000001e-05, 'epoch': 26.92}
{'loss': 0.1129, 'grad_norm': 1.2817438840866089, 'learning_rate': 1.2426000000000001e-05, 'epoch': 26.92}
{'loss': 0.1051, 'grad_norm': 1.2283083200454712, 'learning_rate': 1.2429e-05, 'epoch': 26.93}
{'loss': 0.0669, 'grad_norm': 0.9921537637710571, 'learning_rate': 1.2432e-05, 'epoch': 26.94}
{'loss': 0.079, 'grad_norm': 1.2890340089797974, 'learning_rate': 1.2435e-05, 'epoch': 26.94}
{'loss': 0.0741, 'grad_norm': 0.7310552597045898, 'learning_rate': 1.2438000000000002e-05, 'epoch': 26.95}
{'loss': 0.0432, 'grad_norm': 1.1254699230194092, 'learning_rate': 1.2441e-05, 'epoch': 26.95}
{'loss': 0.0502, 'grad_norm': 1.1970531940460205, 'learning_rate': 1.2444e-05, 'epoch': 26.96}
{'loss': 0.0954, 'grad_norm': 1.4256956577301025, 'learning_rate': 1.2447e-05, 'epoch': 26.97}
{'loss': 0.0839, 'grad_norm': 1.977683663368225, 'learning_rate': 1.245e-05, 'epoch': 26.97}
{'loss': 0.0738, 'grad_norm': 1.4242491722106934, 'learning_rate': 1.2453000000000001e-05, 'epoch': 26.98}
{'loss': 0.1259, 'grad_norm': 1.3351595401763916, 'learning_rate': 1.2456e-05, 'epoch': 26.99}
{'loss': 0.1433, 'grad_norm': 1.2377698421478271, 'learning_rate': 1.2459e-05, 'epoch': 26.99}
{'loss': 0.0503, 'grad_norm': 0.9343820810317993, 'learning_rate': 1.2462e-05, 'epoch': 27.0}
  4%|▍         | 4159/100000 [2:31:12<173:02:03,  6.50s/it]                                                             4%|▍         | 4159/100000 [2:31:12<173:02:03,  6.50s/it]  4%|▍         | 4160/100000 [2:31:21<188:44:39,  7.09s/it]                                                             4%|▍         | 4160/100000 [2:31:21<188:44:39,  7.09s/it]  4%|▍         | 4161/100000 [2:31:26<175:38:19,  6.60s/it]                                                             4%|▍         | 4161/100000 [2:31:26<175:38:19,  6.60s/it]  4%|▍         | 4162/100000 [2:31:31<161:00:02,  6.05s/it]                                                             4%|▍         | 4162/100000 [2:31:31<161:00:02,  6.05s/it]  4%|▍         | 4163/100000 [2:31:35<145:16:10,  5.46s/it]                                                             4%|▍         | 4163/100000 [2:31:35<145:16:10,  5.46s/it]  4%|▍         | 4164/100000 [2:31:39<131:18:53,  4.93s/it]                                                             4%|▍         | 4164/100000 [2:31:39<131:18:53,  4.93s/it]  4%|▍         | 4165/100000 [2:31:42<117:48:26,  4.43s/it]                                                             4%|▍         | 4165/100000 [2:31:42<117:48:26,  4.43s/it]  4%|▍         | 4166/100000 [2:31:45<105:01:15,  3.95s/it]                                                             4%|▍         | 4166/100000 [2:31:45<105:01:15,  3.95s/it]  4%|▍         | 4167/100000 [2:31:47<92:39:16,  3.48s/it]                                                             4%|▍         | 4167/100000 [2:31:47<92:39:16,  3.48s/it]  4%|▍         | 4168/100000 [2:31:49<82:01:16,  3.08s/it]                                                            4%|▍         | 4168/100000 [2:31:49<82:01:16,  3.08s/it]  4%|▍         | 4169/100000 [2:31:51<73:31:10,  2.76s/it]                                                            4%|▍         | 4169/100000 [2:31:51<73:31:10,  2.76s/it]  4%|▍         | 4170/100000 [2:31:53<65:58:00,  2.48s/it]                                                            4%|▍         | 4170/100000 [2:31:53<65:58:00,  2.48s/it]  4%|▍         | 4171/100000 [2:31:55<60:14:40,  2.26s/it]                                                            4%|▍         | 4171/100000 [2:31:55<60:14:40,  2.26s/it]  4%|▍         | 4172/100000 [2:31:56<54:56:27,  2.06s/it]                                                            4%|▍         | 4172/100000 [2:31:56<54:56:27,  2.06s/it]  4%|▍         | 4173/100000 [2:31:58<51:05:42,  1.92s/it]                                                            4%|▍         | 4173/100000 [2:31:58<51:05:42,  1.92s/it]  4%|▍         | 4174/100000 [2:31:59<47:12:59,  1.77s/it]                                                            4%|▍         | 4174/100000 [2:31:59<47:12:59,  1.77s/it]  4%|▍         | 4175/100000 [2:32:01<44:21:41,  1.67s/it]                                                            4%|▍         | 4175/100000 [2:32:01<44:21:41,  1.67s/it]  4%|▍         | 4176/100000 [2:32:02<41:44:42,  1.57s/it]                                                            4%|▍         | 4176/100000 [2:32:02<41:44:42,  1.57s/it]  4%|▍         | 4177/100000 [2:32:03<39:23:20,  1.48s/it]                                                            4%|▍         | 4177/100000 [2:32:03<39:23:20,  1.48s/it]  4%|▍         | 4178/100000 [2:32:05<37:31:26,  1.41s/it]                                                            4%|▍         | 4178/100000 [2:32:05<37:31:26,  1.41s/it]  4%|▍         | 4179/100000 [2:32:06<35:32:31,  1.34s/it]                                                            4%|▍         | 4179/100000 [2:32:06<35:32:31,  1.34s/it]  4%|▍         | 4180/100000 [2:32:07<33:48:26,  1.27s/it]                                                            4%|▍         | 4180/100000 [2:32:07<33:48:26,  1.27s/it]  4%|▍         | 4181/100000 [2:32:08<32:30:30,  1.22s/it]                                                            4%|▍         | 4181/100000 [2:32:08<32:30:30,  1.22s/it]  4%|▍         | 4182/100000 [2:32:09<31:09:04,  1.17s/it]                                                            4%|▍         | 4182/100000 [2:32:09<31:09:04,  1.17s/it]  4%|▍         | 4183/100000 [2:32:10<29:52:51,  1.12s/it]                                                            4%|▍         | 4183/100000 [2:32:10<29:52:51,  1.12s/it]  4%|▍         | 4184/100000 [2:32:11<28:42:56,  1.08s/it]                                                            4%|▍         | 4184/100000 [2:32:11<28:42:56,  1.08s/it]  4%|▍         | 4185/100000 [2:32:12<27:39:58,  1.04s/it]                                                            4%|▍         | 4185/100000 [2:32:12<27:39:58,  1.04s/it]  4%|▍         | 4186/100000 [2:32:13<26:59:37,  1.01s/it]                                                            4%|▍         | 4186/100000 [2:32:13<26:59:37,  1.01s/it]  4%|▍         | 4187/100000 [2:32:14<26:22:42,  1.01it/s]                                                            4%|▍         | 4187/100000 [2:32:14<26:22:42,  1.01it/s]  4%|▍         | 4188/100000 [2:32:15<25:54:52,  1.03it/s]                                                            4%|▍         | 4188/100000 [2:32:15<25:54:52,  1.03it/s]  4%|▍         | 4189/100000 [2:32:16<25:07:40,  1.06it/s]                                                            4%|▍         | 4189/100000 [2:32:16<25:07:40,  1.06it/s]  4%|▍         | 4190/100000 [2:32:17<24:21:23,  1.09it/s]                                                            4%|▍         | 4190/100000 [2:32:17<24:21:23,  1.09it/s]  4%|▍         | 4191/100000 [2:32:17<23:38:37,  1.13it/s]                                                            4%|▍         | 4191/100000 [2:32:17<23:38:37,  1.13it/s]  4%|▍         | 4192/100000 [2:32:18<22:51:19,  1.16it/s]                                                            4%|▍         | 4192/100000 [2:32:18<22:51:19,  1.16it/s]  4%|▍         | 4193/100000 [2:32:19<22:25:53,  1.19it/s]                                                            4%|▍         | 4193/100000 [2:32:19<22:25:53,  1.19it/s]  4%|▍         | 4194/100000 [2:32:20<22:07:17,  1.20it/s]                                                            4%|▍         | 4194/100000 [2:32:20<22:07:17,  1.20it/s]  4%|▍         | 4195/100000 [2:32:21<21:21:15,  1.25it/s]                                                            4%|▍         | 4195/100000 [2:32:21<21:21:15,  1.25it/s]  4%|▍         | 4196/100000 [2:32:21<20:20:06,  1.31it/s]                                                            4%|▍         | 4196/100000 [2:32:21<20:20:06,  1.31it/s]  4%|▍         | 4197/100000 [2:32:34<112:52:51,  4.24s/it]                                                             4%|▍         | 4197/100000 [2:32:34<112:52:51,  4.24s/it]  4%|▍         | 4198/100000 [2:32:41<136:51:07,  5.14s/it]                                                             4%|▍         | 4198/100000 [2:32:41<136:51:07,  5.14s/it]  4%|▍         | 4199/100000 [2:32:46<136:21:00,  5.12s/it]                                                             4%|▍         | 4199/100000 [2:32:46<136:21:00,  5.12s/it]  4%|▍         | 4200/100000 [2:32:50<129:39:14,  4.87s/it]                                                             4%|▍         | 4200/100000 [2:32:50<129:39:14,  4.87s/it]  4%|▍         | 4201/100000 [2:32:54<119:46:44,  4.50s/it]                                                             4%|▍         | 4201/100000 [2:32:54<119:46:44,  4.50s/it]  4%|▍         | 4202/100000 [2:32:57<110:08:45,  4.14s/it]                                                             4%|▍         | 4202/100000 [2:32:57<110:08:45,  4.14s/it]  4%|▍         | 4203/100000 [2:33:00<99:28:16,  3.74s/it]                                                             4%|▍         | 4203/100000 [2:33:00<99:28:16,  3.74s/it]  4%|▍         | 4204/100000 [2:33:02<89:32:59,  3.37s/it]                                                            4%|▍         | 4204/100000 [2:33:02<89:32:59,  3.37s/it]  4%|▍         | 4205/100000 [2:33:05<80:48:23,  3.04s/it]                                                            4%|▍         | 4205/100000 [2:33:05<80:48:23,  3.04s/it]  4%|▍         | 4206/100000 [2:33:07<73:15:02,  2.75s/it]                                                            4%|▍         | 4206/100000 [2:33:07<73:15:02,  2.75s/it]  4%|▍         | 4207/100000 [2:33:09<66:50:57,  2.51s/it]                                                            4%|▍         | 4207/100000 [2:33:09<66:50:57,  2.51s/it]  4%|▍         | 4208/100000 [2:33:11<61:25:39,  2.31s/it]                                                            4%|▍         | 4208/100000 [2:33:11<61:25:39,  2.31s/it]  4%|▍         | 4209/100000 [2:33:12<56:45:59,  2.13s/it]                                                            4%|▍         | 4209/100000 [2:33:12<56:45:59,  2.13s/it]  4%|▍         | 4210/100000 [2:33:14<52:49:06,  1.99s/it]                                                            4%|▍         | 4210/100000 [2:33:14<52:49:06,  1.99s/it]  4%|▍         | 4211/100000 [2:33:15<49:32:48,  1.86s/it]                                                            4%|▍         | 4211/100000 [2:33:15<49:32:48,  1.86s/it]  4%|▍         | 4212/100000 [2:33:17<46:26:50,  1.75s/it]                                                            4%|▍         | 4212/100000 [2:33:17<46:26:50,  1.75s/it]  4%|▍         | 4213/100000 [2:33:18<43:48:01,  1.65s/it]                                                            4%|▍         | 4213/100000 [2:33:18<43:48:01,  1.65s/it]  4%|▍         | 4214/100000 [2:33:20<41:31:07,  1.56s/it]                                                            4%|▍         | 4214/100000 [2:33:20<41:31:07,  1.56s/it]  4%|▍         | 4215/100000 [2:33:21<39:12:18,  1.47s/it]                                                            4%|▍         | 4215/100000 [2:33:21<39:12:18,  1.47s/it]  4%|▍         | 4216/100000 [2:33:22<37:31:31,  1.41s/it]                                                            4%|▍         | 4216/100000 [2:33:22<37:31:31,  1.41s/it]  4%|▍         | 4217/100000 [2:33:23<35:43:34,  1.34s/it]                                                            4%|▍         | 4217/100000 [2:33:23<35:43:34,  1.34s/it]  4%|▍         | 4218/100000 [2:33:25<33:57:32,  1.28s/it]                                                            4%|▍         | 4218/100000 [2:33:25<33:57:32,  1.28s/it]  4%|▍         | 4219/100000 [2:33:26<32:31:10,  1.22s/it]                                                            4%|▍         | 4219/100000 [2:33:26<32:31:10,  1.22s/it]  4%|▍         | 4220/100000 [2:33:27<31:10:13,  1.17s/it]                                                            4%|▍         | 4220/100000 [2:33:27<31:10:13,  1.17s/it]  4%|▍         | 4221/100000 [2:33:28<29:41:01,  1.12s/it]                                                            4%|▍         | 4221/100000 [2:33:28<29:41:01,  1.12s/it]  4%|▍         | 4222/100000 [2:33:29<28:28:36,  1.07s/it]                                                            4%|▍         | 4222/100000 [2:33:29<28:28:36,  1.07s/it]  4%|▍         | 4223/100000 [2:33:30<27:37:04,  1.04s/it]                                                            4%|▍         | 4223/100000 [2:33:30<27:37:04,  1.04s/it]  4%|▍         | 4224/100000 [2:33:31<26:46:39,  1.01s/it]                                                            4%|▍         | 4224/100000 [2:33:31<26:46:39,  1.01s/it]  4%|▍         | 4225/100000 [2:33:31<26:03:22,  1.02it/s]                                                            4%|▍         | 4225/100000 [2:33:31<26:03:22,  1.02it/s]  4%|▍         | 4226/100000 [2:33:32<25:16:57,  1.05it/s]                                                            4%|▍         | 4226/100000 [2:33:32<25:16:57,  1.05it/s]  4%|▍         | 4227/100000 [2:33:33<24:19:38,  1.09it/s]                                                            4%|▍         | 4227/100000 [2:33:33<24:19:38,  1.09it/s]  4%|▍         | 4228/100000 [2:33:34<23:44:50,  1.12it/s]                                                            4%|▍         | 4228/100000 [2:33:34<23:44:50,  1.12it/s]  4%|▍         | 4229/100000 [2:33:35<23:24:53,  1.14it/s]                                                            4%|▍         | 4229/100000 [2:33:35<23:24:53,  1.14it/s]  4%|▍         | 4230/100000 [2:33:36<22:39:38,  1.17it/s]                                                            4%|▍         | 4230/100000 [2:33:36<22:39:38,  1.17it/s]  4%|▍         | 4231/100000 [2:33:36<22:29:29,  1.18it/s]                                                            4%|▍         | 4231/100000 [2:33:36<22:29:29,  1.18it/s]  4%|▍         | 4232/100000 [2:33:37<21:42:05,  1.23it/s]                                                            4%|▍         | 4232/100000 [2:33:37<21:42:05,  1.23it/s]  4%|▍         | 4233/100000 [2:33:38<20:59:12,  1.27it/s]                                                            4%|▍         | 4233/100000 [2:33:38<20:59:12,  1.27it/s]  4%|▍         | 4234/100000 [2:33:39<20:41:13,  1.29it/s]                                                            4%|▍         | 4234/100000 [2:33:39<20:41:13,  1.29it/s]  4%|▍         | 4235/100000 [2:33:52<117:53:16,  4.43s/it]                                                             4%|▍         | 4235/100000 [2:33:52<117:53:16,  4.43s/it]  4%|▍         | 4236/100000 [2:34:00<147:38:42,  5.55s/it]                                                             4%|▍         | 4236/100000 [2:34:00<147:38:42,  5.55s/it]  4%|▍         | 4237/100000 [2:34:06<150:26:19,  5.66s/it]                                                             4%|▍         | 4237/100000 [2:34:06<150:26:19,  5.66s/it]  4%|▍         | 4238/100000 [2:34:10<142:29:52,  5.36s/it]                                                             4%|▍         | 4238/100000 [2:34:10<142:29:52,  5.36s/it]  4%|▍         | 4239/100000 [2:34:15<134:06:08,  5.04s/it]                                                             4%|▍         | 4239/100000 [2:34:15<134:06:08,  5.04s/it]  4%|▍         | 4240/100000 [2:34:18<122:41:54,  4.61s/it]                                                             4%|▍         | 4240/100000 [2:34:18<122:41:54,  4.61s/it]  4%|▍         | 4241/100000 [2:34:21<110:08:29,  4.14s/it]                                                             4%|▍         | 4241/100000 [2:34:21<110:08:29,  4.14s/it]  4%|▍         | 4242/100000 [2:34:24<99:55:56,  3.76s/it]                                                           {'loss': 0.3008, 'grad_norm': 1.7404905557632446, 'learning_rate': 1.2465e-05, 'epoch': 27.01}
{'loss': 0.2297, 'grad_norm': 1.063420057296753, 'learning_rate': 1.2468000000000002e-05, 'epoch': 27.01}
{'loss': 0.1882, 'grad_norm': 1.3378020524978638, 'learning_rate': 1.2471000000000001e-05, 'epoch': 27.02}
{'loss': 0.1827, 'grad_norm': 0.8787932395935059, 'learning_rate': 1.2474000000000001e-05, 'epoch': 27.03}
{'loss': 0.1425, 'grad_norm': 0.8005325794219971, 'learning_rate': 1.2477e-05, 'epoch': 27.03}
{'loss': 0.1279, 'grad_norm': 0.6511887311935425, 'learning_rate': 1.2479999999999999e-05, 'epoch': 27.04}
{'loss': 0.1159, 'grad_norm': 1.0240774154663086, 'learning_rate': 1.2483e-05, 'epoch': 27.05}
{'loss': 0.1613, 'grad_norm': 1.07056725025177, 'learning_rate': 1.2486e-05, 'epoch': 27.05}
{'loss': 0.1071, 'grad_norm': 0.8231801986694336, 'learning_rate': 1.2489e-05, 'epoch': 27.06}
{'loss': 0.1189, 'grad_norm': 0.7100170850753784, 'learning_rate': 1.2492e-05, 'epoch': 27.06}
{'loss': 0.0787, 'grad_norm': 0.6339953541755676, 'learning_rate': 1.2495e-05, 'epoch': 27.07}
{'loss': 0.0939, 'grad_norm': 0.9220690727233887, 'learning_rate': 1.2498000000000001e-05, 'epoch': 27.08}
{'loss': 0.0944, 'grad_norm': 0.5886051058769226, 'learning_rate': 1.2501000000000001e-05, 'epoch': 27.08}
{'loss': 0.0877, 'grad_norm': 0.6310503482818604, 'learning_rate': 1.2504000000000001e-05, 'epoch': 27.09}
{'loss': 0.0803, 'grad_norm': 1.0417450666427612, 'learning_rate': 1.2507e-05, 'epoch': 27.1}
{'loss': 0.1258, 'grad_norm': 0.9232417345046997, 'learning_rate': 1.251e-05, 'epoch': 27.1}
{'loss': 0.0842, 'grad_norm': 1.0339616537094116, 'learning_rate': 1.2513e-05, 'epoch': 27.11}
{'loss': 0.0934, 'grad_norm': 0.9228723049163818, 'learning_rate': 1.2516e-05, 'epoch': 27.12}
{'loss': 0.0719, 'grad_norm': 0.7434341907501221, 'learning_rate': 1.2519e-05, 'epoch': 27.12}
{'loss': 0.0683, 'grad_norm': 0.9306923747062683, 'learning_rate': 1.2522e-05, 'epoch': 27.13}
{'loss': 0.0986, 'grad_norm': 0.8313508033752441, 'learning_rate': 1.2525e-05, 'epoch': 27.14}
{'loss': 0.1394, 'grad_norm': 1.1888983249664307, 'learning_rate': 1.2528000000000001e-05, 'epoch': 27.14}
{'loss': 0.0656, 'grad_norm': 0.9790636301040649, 'learning_rate': 1.2531e-05, 'epoch': 27.15}
{'loss': 0.0625, 'grad_norm': 1.198679804801941, 'learning_rate': 1.2534e-05, 'epoch': 27.16}
{'loss': 0.0603, 'grad_norm': 0.9570955038070679, 'learning_rate': 1.2537e-05, 'epoch': 27.16}
{'loss': 0.0541, 'grad_norm': 0.8636799454689026, 'learning_rate': 1.254e-05, 'epoch': 27.17}
{'loss': 0.0704, 'grad_norm': 1.0421619415283203, 'learning_rate': 1.2543000000000002e-05, 'epoch': 27.18}
{'loss': 0.0764, 'grad_norm': 1.4020332098007202, 'learning_rate': 1.2546000000000002e-05, 'epoch': 27.18}
{'loss': 0.1067, 'grad_norm': 1.804673433303833, 'learning_rate': 1.2549000000000001e-05, 'epoch': 27.19}
{'loss': 0.0488, 'grad_norm': 0.9358262419700623, 'learning_rate': 1.2552e-05, 'epoch': 27.19}
{'loss': 0.0432, 'grad_norm': 1.0345115661621094, 'learning_rate': 1.2555e-05, 'epoch': 27.2}
{'loss': 0.0543, 'grad_norm': 2.49283766746521, 'learning_rate': 1.2558e-05, 'epoch': 27.21}
{'loss': 0.0619, 'grad_norm': 1.7972276210784912, 'learning_rate': 1.2561e-05, 'epoch': 27.21}
{'loss': 0.0698, 'grad_norm': 1.003901481628418, 'learning_rate': 1.2564e-05, 'epoch': 27.22}
{'loss': 0.0575, 'grad_norm': 1.7386895418167114, 'learning_rate': 1.2567e-05, 'epoch': 27.23}
{'loss': 0.0764, 'grad_norm': 1.8758175373077393, 'learning_rate': 1.257e-05, 'epoch': 27.23}
{'loss': 0.0625, 'grad_norm': 1.4494699239730835, 'learning_rate': 1.2573e-05, 'epoch': 27.24}
{'loss': 0.0515, 'grad_norm': 1.034011721611023, 'learning_rate': 1.2576000000000001e-05, 'epoch': 27.25}
{'loss': 0.2635, 'grad_norm': 1.4605361223220825, 'learning_rate': 1.2579000000000001e-05, 'epoch': 27.25}
{'loss': 0.1984, 'grad_norm': 0.8761290311813354, 'learning_rate': 1.2582e-05, 'epoch': 27.26}
{'loss': 0.2052, 'grad_norm': 1.132736325263977, 'learning_rate': 1.2585e-05, 'epoch': 27.27}
{'loss': 0.147, 'grad_norm': 0.7798956632614136, 'learning_rate': 1.2587999999999999e-05, 'epoch': 27.27}
{'loss': 0.1441, 'grad_norm': 1.6294554471969604, 'learning_rate': 1.2591e-05, 'epoch': 27.28}
{'loss': 0.1267, 'grad_norm': 0.6677366495132446, 'learning_rate': 1.2594e-05, 'epoch': 27.29}
{'loss': 0.121, 'grad_norm': 0.8687950372695923, 'learning_rate': 1.2597e-05, 'epoch': 27.29}
{'loss': 0.1224, 'grad_norm': 0.7585638165473938, 'learning_rate': 1.26e-05, 'epoch': 27.3}
{'loss': 0.0959, 'grad_norm': 0.7153280973434448, 'learning_rate': 1.2603e-05, 'epoch': 27.31}
{'loss': 0.1416, 'grad_norm': 0.8072177171707153, 'learning_rate': 1.2606000000000001e-05, 'epoch': 27.31}
{'loss': 0.0902, 'grad_norm': 0.6992760896682739, 'learning_rate': 1.2609e-05, 'epoch': 27.32}
{'loss': 0.1281, 'grad_norm': 0.8222962021827698, 'learning_rate': 1.2612e-05, 'epoch': 27.32}
{'loss': 0.1113, 'grad_norm': 0.7387590408325195, 'learning_rate': 1.2615e-05, 'epoch': 27.33}
{'loss': 0.0906, 'grad_norm': 0.6939879655838013, 'learning_rate': 1.2618e-05, 'epoch': 27.34}
{'loss': 0.0781, 'grad_norm': 0.8776523470878601, 'learning_rate': 1.2621000000000002e-05, 'epoch': 27.34}
{'loss': 0.0839, 'grad_norm': 0.7189319133758545, 'learning_rate': 1.2624e-05, 'epoch': 27.35}
{'loss': 0.0654, 'grad_norm': 0.5492307543754578, 'learning_rate': 1.2627e-05, 'epoch': 27.36}
{'loss': 0.0887, 'grad_norm': 1.292298674583435, 'learning_rate': 1.263e-05, 'epoch': 27.36}
{'loss': 0.0715, 'grad_norm': 0.7085472345352173, 'learning_rate': 1.2633e-05, 'epoch': 27.37}
{'loss': 0.0725, 'grad_norm': 0.9256441593170166, 'learning_rate': 1.2636e-05, 'epoch': 27.38}
{'loss': 0.1012, 'grad_norm': 1.073701024055481, 'learning_rate': 1.2639e-05, 'epoch': 27.38}
{'loss': 0.0713, 'grad_norm': 0.8560710549354553, 'learning_rate': 1.2642e-05, 'epoch': 27.39}
{'loss': 0.0677, 'grad_norm': 0.7442865371704102, 'learning_rate': 1.2645e-05, 'epoch': 27.4}
{'loss': 0.0746, 'grad_norm': 1.288297414779663, 'learning_rate': 1.2648e-05, 'epoch': 27.4}
{'loss': 0.1612, 'grad_norm': 0.9246038794517517, 'learning_rate': 1.2651000000000001e-05, 'epoch': 27.41}
{'loss': 0.0478, 'grad_norm': 0.7161549925804138, 'learning_rate': 1.2654000000000001e-05, 'epoch': 27.42}
{'loss': 0.0795, 'grad_norm': 1.156493902206421, 'learning_rate': 1.2657000000000001e-05, 'epoch': 27.42}
{'loss': 0.0737, 'grad_norm': 1.3429378271102905, 'learning_rate': 1.2659999999999999e-05, 'epoch': 27.43}
{'loss': 0.0684, 'grad_norm': 1.0344082117080688, 'learning_rate': 1.2662999999999999e-05, 'epoch': 27.44}
{'loss': 0.0758, 'grad_norm': 1.3558999300003052, 'learning_rate': 1.2666e-05, 'epoch': 27.44}
{'loss': 0.0593, 'grad_norm': 1.0277540683746338, 'learning_rate': 1.2669e-05, 'epoch': 27.45}
{'loss': 0.1022, 'grad_norm': 1.5910344123840332, 'learning_rate': 1.2672e-05, 'epoch': 27.45}
{'loss': 0.0458, 'grad_norm': 0.954985499382019, 'learning_rate': 1.2675e-05, 'epoch': 27.46}
{'loss': 0.0583, 'grad_norm': 1.0186585187911987, 'learning_rate': 1.2678e-05, 'epoch': 27.47}
{'loss': 0.0982, 'grad_norm': 2.1386873722076416, 'learning_rate': 1.2681000000000001e-05, 'epoch': 27.47}
{'loss': 0.0639, 'grad_norm': 1.1131099462509155, 'learning_rate': 1.2684000000000001e-05, 'epoch': 27.48}
{'loss': 0.0742, 'grad_norm': 1.8030568361282349, 'learning_rate': 1.2687e-05, 'epoch': 27.49}
{'loss': 0.1139, 'grad_norm': 3.332314968109131, 'learning_rate': 1.269e-05, 'epoch': 27.49}
{'loss': 0.2841, 'grad_norm': 1.7421984672546387, 'learning_rate': 1.2693e-05, 'epoch': 27.5}
{'loss': 0.2539, 'grad_norm': 1.3046835660934448, 'learning_rate': 1.2696000000000002e-05, 'epoch': 27.51}
{'loss': 0.1999, 'grad_norm': 0.8895928859710693, 'learning_rate': 1.2699e-05, 'epoch': 27.51}
{'loss': 0.1861, 'grad_norm': 0.9301742315292358, 'learning_rate': 1.2702e-05, 'epoch': 27.52}
{'loss': 0.1791, 'grad_norm': 1.101854681968689, 'learning_rate': 1.2705e-05, 'epoch': 27.53}
{'loss': 0.1588, 'grad_norm': 0.8217328786849976, 'learning_rate': 1.2708e-05, 'epoch': 27.53}
{'loss': 0.1196, 'grad_norm': 0.6197951436042786, 'learning_rate': 1.2711e-05, 'epoch': 27.54}
  4%|▍         | 4242/100000 [2:34:24<99:55:56,  3.76s/it]  4%|▍         | 4243/100000 [2:34:27<89:05:12,  3.35s/it]                                                            4%|▍         | 4243/100000 [2:34:27<89:05:12,  3.35s/it]  4%|▍         | 4244/100000 [2:34:29<79:49:17,  3.00s/it]                                                            4%|▍         | 4244/100000 [2:34:29<79:49:17,  3.00s/it]  4%|▍         | 4245/100000 [2:34:31<71:47:10,  2.70s/it]                                                            4%|▍         | 4245/100000 [2:34:31<71:47:10,  2.70s/it]  4%|▍         | 4246/100000 [2:34:33<65:15:47,  2.45s/it]                                                            4%|▍         | 4246/100000 [2:34:33<65:15:47,  2.45s/it]  4%|▍         | 4247/100000 [2:34:34<59:32:34,  2.24s/it]                                                            4%|▍         | 4247/100000 [2:34:34<59:32:34,  2.24s/it]  4%|▍         | 4248/100000 [2:34:36<55:03:41,  2.07s/it]                                                            4%|▍         | 4248/100000 [2:34:36<55:03:41,  2.07s/it]  4%|▍         | 4249/100000 [2:34:38<51:03:53,  1.92s/it]                                                            4%|▍         | 4249/100000 [2:34:38<51:03:53,  1.92s/it]  4%|▍         | 4250/100000 [2:34:39<47:41:55,  1.79s/it]                                                            4%|▍         | 4250/100000 [2:34:39<47:41:55,  1.79s/it]  4%|▍         | 4251/100000 [2:34:41<44:31:08,  1.67s/it]                                                            4%|▍         | 4251/100000 [2:34:41<44:31:08,  1.67s/it]  4%|▍         | 4252/100000 [2:34:42<42:05:41,  1.58s/it]                                                            4%|▍         | 4252/100000 [2:34:42<42:05:41,  1.58s/it]  4%|▍         | 4253/100000 [2:34:43<39:32:15,  1.49s/it]                                                            4%|▍         | 4253/100000 [2:34:43<39:32:15,  1.49s/it]  4%|▍         | 4254/100000 [2:34:44<37:26:19,  1.41s/it]                                                            4%|▍         | 4254/100000 [2:34:44<37:26:19,  1.41s/it]  4%|▍         | 4255/100000 [2:34:46<35:12:35,  1.32s/it]                                                            4%|▍         | 4255/100000 [2:34:46<35:12:35,  1.32s/it]  4%|▍         | 4256/100000 [2:34:47<33:18:34,  1.25s/it]                                                            4%|▍         | 4256/100000 [2:34:47<33:18:34,  1.25s/it]  4%|▍         | 4257/100000 [2:34:48<31:51:48,  1.20s/it]                                                            4%|▍         | 4257/100000 [2:34:48<31:51:48,  1.20s/it]  4%|▍         | 4258/100000 [2:34:49<30:06:03,  1.13s/it]                                                            4%|▍         | 4258/100000 [2:34:49<30:06:03,  1.13s/it]  4%|▍         | 4259/100000 [2:34:50<28:45:18,  1.08s/it]                                                            4%|▍         | 4259/100000 [2:34:50<28:45:18,  1.08s/it]  4%|▍         | 4260/100000 [2:34:51<27:30:17,  1.03s/it]                                                            4%|▍         | 4260/100000 [2:34:51<27:30:17,  1.03s/it]  4%|▍         | 4261/100000 [2:34:51<26:26:22,  1.01it/s]                                                            4%|▍         | 4261/100000 [2:34:51<26:26:22,  1.01it/s]  4%|▍         | 4262/100000 [2:34:52<25:30:30,  1.04it/s]                                                            4%|▍         | 4262/100000 [2:34:52<25:30:30,  1.04it/s]  4%|▍         | 4263/100000 [2:34:53<24:31:26,  1.08it/s]                                                            4%|▍         | 4263/100000 [2:34:53<24:31:26,  1.08it/s]  4%|▍         | 4264/100000 [2:34:54<23:48:51,  1.12it/s]                                                            4%|▍         | 4264/100000 [2:34:54<23:48:51,  1.12it/s]  4%|▍         | 4265/100000 [2:34:55<23:07:26,  1.15it/s]                                                            4%|▍         | 4265/100000 [2:34:55<23:07:26,  1.15it/s]  4%|▍         | 4266/100000 [2:34:56<22:32:38,  1.18it/s]                                                            4%|▍         | 4266/100000 [2:34:56<22:32:38,  1.18it/s]  4%|▍         | 4267/100000 [2:34:56<21:51:46,  1.22it/s]                                                            4%|▍         | 4267/100000 [2:34:56<21:51:46,  1.22it/s]  4%|▍         | 4268/100000 [2:34:57<21:57:12,  1.21it/s]                                                            4%|▍         | 4268/100000 [2:34:57<21:57:12,  1.21it/s]  4%|▍         | 4269/100000 [2:34:58<20:53:43,  1.27it/s]                                                            4%|▍         | 4269/100000 [2:34:58<20:53:43,  1.27it/s]  4%|▍         | 4270/100000 [2:34:59<20:38:12,  1.29it/s]                                                            4%|▍         | 4270/100000 [2:34:59<20:38:12,  1.29it/s]  4%|▍         | 4271/100000 [2:34:59<19:29:18,  1.36it/s]                                                            4%|▍         | 4271/100000 [2:34:59<19:29:18,  1.36it/s]  4%|▍         | 4272/100000 [2:35:00<19:18:00,  1.38it/s]                                                            4%|▍         | 4272/100000 [2:35:00<19:18:00,  1.38it/s]  4%|▍         | 4273/100000 [2:35:13<118:27:52,  4.46s/it]                                                             4%|▍         | 4273/100000 [2:35:13<118:27:52,  4.46s/it]  4%|▍         | 4274/100000 [2:35:20<140:25:19,  5.28s/it]                                                             4%|▍         | 4274/100000 [2:35:20<140:25:19,  5.28s/it]  4%|▍         | 4275/100000 [2:35:26<143:57:09,  5.41s/it]                                                             4%|▍         | 4275/100000 [2:35:26<143:57:09,  5.41s/it]  4%|▍         | 4276/100000 [2:35:31<137:18:28,  5.16s/it]                                                             4%|▍         | 4276/100000 [2:35:31<137:18:28,  5.16s/it]  4%|▍         | 4277/100000 [2:35:35<127:16:27,  4.79s/it]                                                             4%|▍         | 4277/100000 [2:35:35<127:16:27,  4.79s/it]  4%|▍         | 4278/100000 [2:35:38<115:58:30,  4.36s/it]                                                             4%|▍         | 4278/100000 [2:35:38<115:58:30,  4.36s/it]  4%|▍         | 4279/100000 [2:35:41<103:35:19,  3.90s/it]                                                             4%|▍         | 4279/100000 [2:35:41<103:35:19,  3.90s/it]  4%|▍         | 4280/100000 [2:35:43<93:09:06,  3.50s/it]                                                             4%|▍         | 4280/100000 [2:35:43<93:09:06,  3.50s/it]  4%|▍         | 4281/100000 [2:35:46<83:32:40,  3.14s/it]                                                            4%|▍         | 4281/100000 [2:35:46<83:32:40,  3.14s/it]  4%|▍         | 4282/100000 [2:35:48<74:51:14,  2.82s/it]                                                            4%|▍         | 4282/100000 [2:35:48<74:51:14,  2.82s/it]  4%|▍         | 4283/100000 [2:35:50<67:29:07,  2.54s/it]                                                            4%|▍         | 4283/100000 [2:35:50<67:29:07,  2.54s/it]  4%|▍         | 4284/100000 [2:35:51<61:07:07,  2.30s/it]                                                            4%|▍         | 4284/100000 [2:35:51<61:07:07,  2.30s/it]  4%|▍         | 4285/100000 [2:35:53<56:09:59,  2.11s/it]                                                            4%|▍         | 4285/100000 [2:35:53<56:09:59,  2.11s/it]  4%|▍         | 4286/100000 [2:35:55<51:52:58,  1.95s/it]                                                            4%|▍         | 4286/100000 [2:35:55<51:52:58,  1.95s/it]  4%|▍         | 4287/100000 [2:35:56<48:35:05,  1.83s/it]                                                            4%|▍         | 4287/100000 [2:35:56<48:35:05,  1.83s/it]  4%|▍         | 4288/100000 [2:35:58<45:28:51,  1.71s/it]                                                            4%|▍         | 4288/100000 [2:35:58<45:28:51,  1.71s/it]  4%|▍         | 4289/100000 [2:35:59<42:54:16,  1.61s/it]                                                            4%|▍         | 4289/100000 [2:35:59<42:54:16,  1.61s/it]  4%|▍         | 4290/100000 [2:36:00<40:22:54,  1.52s/it]                                                            4%|▍         | 4290/100000 [2:36:00<40:22:54,  1.52s/it]  4%|▍         | 4291/100000 [2:36:02<38:28:26,  1.45s/it]                                                            4%|▍         | 4291/100000 [2:36:02<38:28:26,  1.45s/it]  4%|▍         | 4292/100000 [2:36:03<36:22:00,  1.37s/it]                                                            4%|▍         | 4292/100000 [2:36:03<36:22:00,  1.37s/it]  4%|▍         | 4293/100000 [2:36:04<34:22:26,  1.29s/it]                                                            4%|▍         | 4293/100000 [2:36:04<34:22:26,  1.29s/it]  4%|▍         | 4294/100000 [2:36:05<32:46:57,  1.23s/it]                                                            4%|▍         | 4294/100000 [2:36:05<32:46:57,  1.23s/it]  4%|▍         | 4295/100000 [2:36:06<31:14:49,  1.18s/it]                                                            4%|▍         | 4295/100000 [2:36:06<31:14:49,  1.18s/it]  4%|▍         | 4296/100000 [2:36:07<30:02:44,  1.13s/it]                                                            4%|▍         | 4296/100000 [2:36:07<30:02:44,  1.13s/it]  4%|▍         | 4297/100000 [2:36:08<28:43:46,  1.08s/it]                                                            4%|▍         | 4297/100000 [2:36:08<28:43:46,  1.08s/it]  4%|▍         | 4298/100000 [2:36:09<27:54:10,  1.05s/it]                                                            4%|▍         | 4298/100000 [2:36:09<27:54:10,  1.05s/it]  4%|▍         | 4299/100000 [2:36:10<27:10:39,  1.02s/it]                                                            4%|▍         | 4299/100000 [2:36:10<27:10:39,  1.02s/it]  4%|▍         | 4300/100000 [2:36:11<26:15:51,  1.01it/s]                                                            4%|▍         | 4300/100000 [2:36:11<26:15:51,  1.01it/s]  4%|▍         | 4301/100000 [2:36:12<25:24:10,  1.05it/s]                                                            4%|▍         | 4301/100000 [2:36:12<25:24:10,  1.05it/s]  4%|▍         | 4302/100000 [2:36:13<24:42:57,  1.08it/s]                                                            4%|▍         | 4302/100000 [2:36:13<24:42:57,  1.08it/s]  4%|▍         | 4303/100000 [2:36:13<24:01:34,  1.11it/s]                                                            4%|▍         | 4303/100000 [2:36:13<24:01:34,  1.11it/s]  4%|▍         | 4304/100000 [2:36:14<23:33:24,  1.13it/s]                                                            4%|▍         | 4304/100000 [2:36:14<23:33:24,  1.13it/s]  4%|▍         | 4305/100000 [2:36:15<23:10:23,  1.15it/s]                                                            4%|▍         | 4305/100000 [2:36:15<23:10:23,  1.15it/s]  4%|▍         | 4306/100000 [2:36:16<22:36:15,  1.18it/s]                                                            4%|▍         | 4306/100000 [2:36:16<22:36:15,  1.18it/s]  4%|▍         | 4307/100000 [2:36:17<21:50:50,  1.22it/s]                                                            4%|▍         | 4307/100000 [2:36:17<21:50:50,  1.22it/s]  4%|▍         | 4308/100000 [2:36:17<20:45:04,  1.28it/s]                                                            4%|▍         | 4308/100000 [2:36:17<20:45:04,  1.28it/s]  4%|▍         | 4309/100000 [2:36:18<19:48:42,  1.34it/s]                                                            4%|▍         | 4309/100000 [2:36:18<19:48:42,  1.34it/s]  4%|▍         | 4310/100000 [2:36:19<19:39:00,  1.35it/s]                                                            4%|▍         | 4310/100000 [2:36:19<19:39:00,  1.35it/s]  4%|▍         | 4311/100000 [2:36:25<62:21:33,  2.35s/it]                                                            4%|▍         | 4311/100000 [2:36:25<62:21:33,  2.35s/it]  4%|▍         | 4312/100000 [2:36:26<54:46:42,  2.06s/it]                                                            4%|▍         | 4312/100000 [2:36:26<54:46:42,  2.06s/it]{'loss': 0.123, 'grad_norm': 0.8575024604797363, 'learning_rate': 1.2714e-05, 'epoch': 27.55}
{'loss': 0.1003, 'grad_norm': 0.6947224736213684, 'learning_rate': 1.2717e-05, 'epoch': 27.55}
{'loss': 0.1744, 'grad_norm': 0.9760362505912781, 'learning_rate': 1.272e-05, 'epoch': 27.56}
{'loss': 0.0905, 'grad_norm': 0.6452432870864868, 'learning_rate': 1.2723e-05, 'epoch': 27.56}
{'loss': 0.0918, 'grad_norm': 0.689196765422821, 'learning_rate': 1.2726000000000001e-05, 'epoch': 27.57}
{'loss': 0.1163, 'grad_norm': 0.827441394329071, 'learning_rate': 1.2729000000000001e-05, 'epoch': 27.58}
{'loss': 0.0865, 'grad_norm': 0.69993656873703, 'learning_rate': 1.2732000000000001e-05, 'epoch': 27.58}
{'loss': 0.1071, 'grad_norm': 0.7435072660446167, 'learning_rate': 1.2735e-05, 'epoch': 27.59}
{'loss': 0.0788, 'grad_norm': 1.6352049112319946, 'learning_rate': 1.2737999999999999e-05, 'epoch': 27.6}
{'loss': 0.0775, 'grad_norm': 0.5902912020683289, 'learning_rate': 1.2741e-05, 'epoch': 27.6}
{'loss': 0.0912, 'grad_norm': 1.1355687379837036, 'learning_rate': 1.2744e-05, 'epoch': 27.61}
{'loss': 0.0888, 'grad_norm': 0.973534107208252, 'learning_rate': 1.2747e-05, 'epoch': 27.62}
{'loss': 0.1135, 'grad_norm': 0.9078962206840515, 'learning_rate': 1.275e-05, 'epoch': 27.62}
{'loss': 0.0506, 'grad_norm': 0.505385160446167, 'learning_rate': 1.2753e-05, 'epoch': 27.63}
{'loss': 0.0562, 'grad_norm': 0.9443877935409546, 'learning_rate': 1.2756000000000001e-05, 'epoch': 27.64}
{'loss': 0.1684, 'grad_norm': 1.586427092552185, 'learning_rate': 1.2759000000000001e-05, 'epoch': 27.64}
{'loss': 0.1019, 'grad_norm': 0.9783598780632019, 'learning_rate': 1.2762e-05, 'epoch': 27.65}
{'loss': 0.0768, 'grad_norm': 1.3077598810195923, 'learning_rate': 1.2765e-05, 'epoch': 27.66}
{'loss': 0.0558, 'grad_norm': 1.1936116218566895, 'learning_rate': 1.2768e-05, 'epoch': 27.66}
{'loss': 0.0907, 'grad_norm': 1.5890625715255737, 'learning_rate': 1.2771e-05, 'epoch': 27.67}
{'loss': 0.0771, 'grad_norm': 0.9344772100448608, 'learning_rate': 1.2774e-05, 'epoch': 27.68}
{'loss': 0.1079, 'grad_norm': 1.0886045694351196, 'learning_rate': 1.2777e-05, 'epoch': 27.68}
{'loss': 0.0978, 'grad_norm': 2.7846531867980957, 'learning_rate': 1.278e-05, 'epoch': 27.69}
{'loss': 0.0675, 'grad_norm': 1.10916006565094, 'learning_rate': 1.2783e-05, 'epoch': 27.69}
{'loss': 0.1038, 'grad_norm': 1.1623845100402832, 'learning_rate': 1.2786000000000001e-05, 'epoch': 27.7}
{'loss': 0.0586, 'grad_norm': 1.162148356437683, 'learning_rate': 1.2789e-05, 'epoch': 27.71}
{'loss': 0.0559, 'grad_norm': 1.3808666467666626, 'learning_rate': 1.2792e-05, 'epoch': 27.71}
{'loss': 0.0619, 'grad_norm': 1.525072455406189, 'learning_rate': 1.2795e-05, 'epoch': 27.72}
{'loss': 0.0747, 'grad_norm': 2.056926965713501, 'learning_rate': 1.2798e-05, 'epoch': 27.73}
{'loss': 0.0914, 'grad_norm': 2.4721426963806152, 'learning_rate': 1.2801000000000002e-05, 'epoch': 27.73}
{'loss': 0.081, 'grad_norm': 1.4298911094665527, 'learning_rate': 1.2804000000000001e-05, 'epoch': 27.74}
{'loss': 0.2619, 'grad_norm': 1.3677043914794922, 'learning_rate': 1.2807000000000001e-05, 'epoch': 27.75}
{'loss': 0.2341, 'grad_norm': 0.9927806854248047, 'learning_rate': 1.281e-05, 'epoch': 27.75}
{'loss': 0.2005, 'grad_norm': 0.8259415030479431, 'learning_rate': 1.2812999999999999e-05, 'epoch': 27.76}
{'loss': 0.166, 'grad_norm': 0.8866557478904724, 'learning_rate': 1.2816e-05, 'epoch': 27.77}
{'loss': 0.1456, 'grad_norm': 0.7465900182723999, 'learning_rate': 1.2819e-05, 'epoch': 27.77}
{'loss': 0.1607, 'grad_norm': 0.7057128548622131, 'learning_rate': 1.2822e-05, 'epoch': 27.78}
{'loss': 0.1647, 'grad_norm': 0.7441197037696838, 'learning_rate': 1.2825e-05, 'epoch': 27.79}
{'loss': 0.1554, 'grad_norm': 0.8992250561714172, 'learning_rate': 1.2828e-05, 'epoch': 27.79}
{'loss': 0.1532, 'grad_norm': 0.8932901620864868, 'learning_rate': 1.2831000000000001e-05, 'epoch': 27.8}
{'loss': 0.1014, 'grad_norm': 0.7147877812385559, 'learning_rate': 1.2834000000000001e-05, 'epoch': 27.81}
{'loss': 0.1172, 'grad_norm': 0.6549986004829407, 'learning_rate': 1.2837000000000001e-05, 'epoch': 27.81}
{'loss': 0.1071, 'grad_norm': 0.8302908539772034, 'learning_rate': 1.284e-05, 'epoch': 27.82}
{'loss': 0.0864, 'grad_norm': 0.5971077084541321, 'learning_rate': 1.2843e-05, 'epoch': 27.82}
{'loss': 0.114, 'grad_norm': 0.8085246682167053, 'learning_rate': 1.2846e-05, 'epoch': 27.83}
{'loss': 0.0928, 'grad_norm': 0.8389049768447876, 'learning_rate': 1.2849e-05, 'epoch': 27.84}
{'loss': 0.0924, 'grad_norm': 0.780451774597168, 'learning_rate': 1.2852e-05, 'epoch': 27.84}
{'loss': 0.1049, 'grad_norm': 0.9598225355148315, 'learning_rate': 1.2855e-05, 'epoch': 27.85}
{'loss': 0.0788, 'grad_norm': 0.8798603415489197, 'learning_rate': 1.2858e-05, 'epoch': 27.86}
{'loss': 0.0816, 'grad_norm': 0.6873149871826172, 'learning_rate': 1.2861000000000001e-05, 'epoch': 27.86}
{'loss': 0.0854, 'grad_norm': 1.4509016275405884, 'learning_rate': 1.2864e-05, 'epoch': 27.87}
{'loss': 0.074, 'grad_norm': 0.709452748298645, 'learning_rate': 1.2867e-05, 'epoch': 27.88}
{'loss': 0.0846, 'grad_norm': 1.4481016397476196, 'learning_rate': 1.287e-05, 'epoch': 27.88}
{'loss': 0.089, 'grad_norm': 0.7503888010978699, 'learning_rate': 1.2873e-05, 'epoch': 27.89}
{'loss': 0.0914, 'grad_norm': 0.8353742957115173, 'learning_rate': 1.2876000000000002e-05, 'epoch': 27.9}
{'loss': 0.0946, 'grad_norm': 0.9850819706916809, 'learning_rate': 1.2879000000000002e-05, 'epoch': 27.9}
{'loss': 0.0868, 'grad_norm': 1.202283263206482, 'learning_rate': 1.2882e-05, 'epoch': 27.91}
{'loss': 0.1322, 'grad_norm': 1.3671075105667114, 'learning_rate': 1.2885e-05, 'epoch': 27.92}
{'loss': 0.1391, 'grad_norm': 2.2430293560028076, 'learning_rate': 1.2888e-05, 'epoch': 27.92}
{'loss': 0.078, 'grad_norm': 1.1449155807495117, 'learning_rate': 1.2891e-05, 'epoch': 27.93}
{'loss': 0.0642, 'grad_norm': 0.7491375207901001, 'learning_rate': 1.2894e-05, 'epoch': 27.94}
{'loss': 0.0546, 'grad_norm': 1.0637277364730835, 'learning_rate': 1.2897e-05, 'epoch': 27.94}
{'loss': 0.0711, 'grad_norm': 1.4308243989944458, 'learning_rate': 1.29e-05, 'epoch': 27.95}
{'loss': 0.0398, 'grad_norm': 0.7065823674201965, 'learning_rate': 1.2903e-05, 'epoch': 27.95}
{'loss': 0.0657, 'grad_norm': 1.1107863187789917, 'learning_rate': 1.2906000000000001e-05, 'epoch': 27.96}
{'loss': 0.0776, 'grad_norm': 1.797759771347046, 'learning_rate': 1.2909000000000001e-05, 'epoch': 27.97}
{'loss': 0.1111, 'grad_norm': 1.920426368713379, 'learning_rate': 1.2912000000000001e-05, 'epoch': 27.97}
{'loss': 0.0675, 'grad_norm': 1.2925474643707275, 'learning_rate': 1.2915000000000001e-05, 'epoch': 27.98}
{'loss': 0.1496, 'grad_norm': 1.5885114669799805, 'learning_rate': 1.2917999999999999e-05, 'epoch': 27.99}
{'loss': 0.1477, 'grad_norm': 1.1575462818145752, 'learning_rate': 1.2921e-05, 'epoch': 27.99}
{'loss': 0.0662, 'grad_norm': 1.22584068775177, 'learning_rate': 1.2924e-05, 'epoch': 28.0}
  4%|▍         | 4313/100000 [2:36:44<178:51:47,  6.73s/it]                                                             4%|▍         | 4313/100000 [2:36:44<178:51:47,  6.73s/it]  4%|▍         | 4314/100000 [2:36:52<189:46:00,  7.14s/it]                                                             4%|▍         | 4314/100000 [2:36:52<189:46:00,  7.14s/it]  4%|▍         | 4315/100000 [2:36:57<173:51:12,  6.54s/it]                                                             4%|▍         | 4315/100000 [2:36:57<173:51:12,  6.54s/it]  4%|▍         | 4316/100000 [2:37:02<158:02:19,  5.95s/it]                                                             4%|▍         | 4316/100000 [2:37:02<158:02:19,  5.95s/it]  4%|▍         | 4317/100000 [2:37:05<140:27:04,  5.28s/it]                                                             4%|▍         | 4317/100000 [2:37:05<140:27:04,  5.28s/it]  4%|▍         | 4318/100000 [2:37:09<126:25:13,  4.76s/it]                                                             4%|▍         | 4318/100000 [2:37:09<126:25:13,  4.76s/it]  4%|▍         | 4319/100000 [2:37:12<113:11:00,  4.26s/it]                                                             4%|▍         | 4319/100000 [2:37:12<113:11:00,  4.26s/it]  4%|▍         | 4320/100000 [2:37:15<101:17:12,  3.81s/it]                                                             4%|▍         | 4320/100000 [2:37:15<101:17:12,  3.81s/it]  4%|▍         | 4321/100000 [2:37:17<90:00:18,  3.39s/it]                                                             4%|▍         | 4321/100000 [2:37:17<90:00:18,  3.39s/it]  4%|▍         | 4322/100000 [2:37:19<80:34:35,  3.03s/it]                                                            4%|▍         | 4322/100000 [2:37:19<80:34:35,  3.03s/it]  4%|▍         | 4323/100000 [2:37:21<72:37:17,  2.73s/it]                                                            4%|▍         | 4323/100000 [2:37:21<72:37:17,  2.73s/it]  4%|▍         | 4324/100000 [2:37:23<66:03:56,  2.49s/it]                                                            4%|▍         | 4324/100000 [2:37:23<66:03:56,  2.49s/it]  4%|▍         | 4325/100000 [2:37:25<60:29:44,  2.28s/it]                                                            4%|▍         | 4325/100000 [2:37:25<60:29:44,  2.28s/it]  4%|▍         | 4326/100000 [2:37:27<55:28:18,  2.09s/it]                                                            4%|▍         | 4326/100000 [2:37:27<55:28:18,  2.09s/it]  4%|▍         | 4327/100000 [2:37:28<51:21:34,  1.93s/it]                                                            4%|▍         | 4327/100000 [2:37:28<51:21:34,  1.93s/it]  4%|▍         | 4328/100000 [2:37:30<47:41:33,  1.79s/it]                                                            4%|▍         | 4328/100000 [2:37:30<47:41:33,  1.79s/it]  4%|▍         | 4329/100000 [2:37:31<44:54:10,  1.69s/it]                                                            4%|▍         | 4329/100000 [2:37:31<44:54:10,  1.69s/it]  4%|▍         | 4330/100000 [2:37:33<42:02:11,  1.58s/it]                                                            4%|▍         | 4330/100000 [2:37:33<42:02:11,  1.58s/it]  4%|▍         | 4331/100000 [2:37:34<39:31:07,  1.49s/it]                                                            4%|▍         | 4331/100000 [2:37:34<39:31:07,  1.49s/it]  4%|▍         | 4332/100000 [2:37:35<37:40:29,  1.42s/it]                                                            4%|▍         | 4332/100000 [2:37:35<37:40:29,  1.42s/it]  4%|▍         | 4333/100000 [2:37:36<35:39:29,  1.34s/it]                                                            4%|▍         | 4333/100000 [2:37:36<35:39:29,  1.34s/it]  4%|▍         | 4334/100000 [2:37:37<33:41:12,  1.27s/it]                                                            4%|▍         | 4334/100000 [2:37:37<33:41:12,  1.27s/it]  4%|▍         | 4335/100000 [2:37:38<32:00:51,  1.20s/it]                                                            4%|▍         | 4335/100000 [2:37:38<32:00:51,  1.20s/it]  4%|▍         | 4336/100000 [2:37:39<30:38:04,  1.15s/it]                                                            4%|▍         | 4336/100000 [2:37:39<30:38:04,  1.15s/it]  4%|▍         | 4337/100000 [2:37:40<29:19:24,  1.10s/it]                                                            4%|▍         | 4337/100000 [2:37:40<29:19:24,  1.10s/it]  4%|▍         | 4338/100000 [2:37:41<27:49:45,  1.05s/it]                                                            4%|▍         | 4338/100000 [2:37:41<27:49:45,  1.05s/it]  4%|▍         | 4339/100000 [2:37:42<27:01:41,  1.02s/it]                                                            4%|▍         | 4339/100000 [2:37:42<27:01:41,  1.02s/it]  4%|▍         | 4340/100000 [2:37:43<26:02:19,  1.02it/s]                                                            4%|▍         | 4340/100000 [2:37:43<26:02:19,  1.02it/s]  4%|▍         | 4341/100000 [2:37:44<25:14:19,  1.05it/s]                                                            4%|▍         | 4341/100000 [2:37:44<25:14:19,  1.05it/s]  4%|▍         | 4342/100000 [2:37:45<24:57:14,  1.06it/s]                                                            4%|▍         | 4342/100000 [2:37:45<24:57:14,  1.06it/s]  4%|▍         | 4343/100000 [2:37:46<24:03:08,  1.10it/s]                                                            4%|▍         | 4343/100000 [2:37:46<24:03:08,  1.10it/s]  4%|▍         | 4344/100000 [2:37:47<22:56:12,  1.16it/s]                                                            4%|▍         | 4344/100000 [2:37:47<22:56:12,  1.16it/s]  4%|▍         | 4345/100000 [2:37:47<22:28:17,  1.18it/s]                                                            4%|▍         | 4345/100000 [2:37:47<22:28:17,  1.18it/s]  4%|▍         | 4346/100000 [2:37:48<22:18:34,  1.19it/s]                                                            4%|▍         | 4346/100000 [2:37:48<22:18:34,  1.19it/s]  4%|▍         | 4347/100000 [2:37:49<21:54:43,  1.21it/s]                                                            4%|▍         | 4347/100000 [2:37:49<21:54:43,  1.21it/s]  4%|▍         | 4348/100000 [2:37:50<21:17:15,  1.25it/s]                                                            4%|▍         | 4348/100000 [2:37:50<21:17:15,  1.25it/s]  4%|▍         | 4349/100000 [2:37:51<21:27:31,  1.24it/s]                                                            4%|▍         | 4349/100000 [2:37:51<21:27:31,  1.24it/s]  4%|▍         | 4350/100000 [2:37:51<20:42:36,  1.28it/s]                                                            4%|▍         | 4350/100000 [2:37:51<20:42:36,  1.28it/s]  4%|▍         | 4351/100000 [2:38:04<116:51:44,  4.40s/it]                                                             4%|▍         | 4351/100000 [2:38:04<116:51:44,  4.40s/it]  4%|▍         | 4352/100000 [2:38:12<146:18:08,  5.51s/it]                                                             4%|▍         | 4352/100000 [2:38:12<146:18:08,  5.51s/it]  4%|▍         | 4353/100000 [2:38:17<144:41:37,  5.45s/it]                                                             4%|▍         | 4353/100000 [2:38:17<144:41:37,  5.45s/it]  4%|▍         | 4354/100000 [2:38:22<138:02:30,  5.20s/it]                                                             4%|▍         | 4354/100000 [2:38:22<138:02:30,  5.20s/it]  4%|▍         | 4355/100000 [2:38:26<128:15:38,  4.83s/it]                                                             4%|▍         | 4355/100000 [2:38:26<128:15:38,  4.83s/it]  4%|▍         | 4356/100000 [2:38:30<117:41:07,  4.43s/it]                                                             4%|▍         | 4356/100000 [2:38:30<117:41:07,  4.43s/it]  4%|▍         | 4357/100000 [2:38:32<105:42:18,  3.98s/it]                                                             4%|▍         | 4357/100000 [2:38:32<105:42:18,  3.98s/it]  4%|▍         | 4358/100000 [2:38:35<93:56:33,  3.54s/it]                                                             4%|▍         | 4358/100000 [2:38:35<93:56:33,  3.54s/it]  4%|▍         | 4359/100000 [2:38:37<82:57:13,  3.12s/it]                                                            4%|▍         | 4359/100000 [2:38:37<82:57:13,  3.12s/it]  4%|▍         | 4360/100000 [2:38:39<74:22:13,  2.80s/it]                                                            4%|▍         | 4360/100000 [2:38:39<74:22:13,  2.80s/it]  4%|▍         | 4361/100000 [2:38:41<66:59:12,  2.52s/it]                                                            4%|▍         | 4361/100000 [2:38:41<66:59:12,  2.52s/it]  4%|▍         | 4362/100000 [2:38:43<61:13:42,  2.30s/it]                                                            4%|▍         | 4362/100000 [2:38:43<61:13:42,  2.30s/it]  4%|▍         | 4363/100000 [2:38:45<56:05:34,  2.11s/it]                                                            4%|▍         | 4363/100000 [2:38:45<56:05:34,  2.11s/it]  4%|▍         | 4364/100000 [2:38:46<52:07:58,  1.96s/it]                                                            4%|▍         | 4364/100000 [2:38:46<52:07:58,  1.96s/it]  4%|▍         | 4365/100000 [2:38:48<48:21:55,  1.82s/it]                                                            4%|▍         | 4365/100000 [2:38:48<48:21:55,  1.82s/it]  4%|▍         | 4366/100000 [2:38:49<45:29:33,  1.71s/it]                                                            4%|▍         | 4366/100000 [2:38:49<45:29:33,  1.71s/it]  4%|▍         | 4367/100000 [2:38:50<42:56:30,  1.62s/it]                                                            4%|▍         | 4367/100000 [2:38:50<42:56:30,  1.62s/it]  4%|▍         | 4368/100000 [2:38:52<40:50:58,  1.54s/it]                                                            4%|▍         | 4368/100000 [2:38:52<40:50:58,  1.54s/it]  4%|▍         | 4369/100000 [2:38:53<38:52:15,  1.46s/it]                                                            4%|▍         | 4369/100000 [2:38:53<38:52:15,  1.46s/it]  4%|▍         | 4370/100000 [2:38:54<36:58:05,  1.39s/it]                                                            4%|▍         | 4370/100000 [2:38:54<36:58:05,  1.39s/it]  4%|▍         | 4371/100000 [2:38:55<34:55:42,  1.31s/it]                                                            4%|▍         | 4371/100000 [2:38:55<34:55:42,  1.31s/it]  4%|▍         | 4372/100000 [2:38:57<33:12:27,  1.25s/it]                                                            4%|▍         | 4372/100000 [2:38:57<33:12:27,  1.25s/it]  4%|▍         | 4373/100000 [2:38:58<31:36:41,  1.19s/it]                                                            4%|▍         | 4373/100000 [2:38:58<31:36:41,  1.19s/it]  4%|▍         | 4374/100000 [2:38:59<30:16:00,  1.14s/it]                                                            4%|▍         | 4374/100000 [2:38:59<30:16:00,  1.14s/it]  4%|▍         | 4375/100000 [2:39:00<29:00:29,  1.09s/it]                                                            4%|▍         | 4375/100000 [2:39:00<29:00:29,  1.09s/it]  4%|▍         | 4376/100000 [2:39:01<27:35:34,  1.04s/it]                                                            4%|▍         | 4376/100000 [2:39:01<27:35:34,  1.04s/it]  4%|▍         | 4377/100000 [2:39:01<26:45:09,  1.01s/it]                                                            4%|▍         | 4377/100000 [2:39:01<26:45:09,  1.01s/it]  4%|▍         | 4378/100000 [2:39:02<25:46:00,  1.03it/s]                                                            4%|▍         | 4378/100000 [2:39:02<25:46:00,  1.03it/s]  4%|▍         | 4379/100000 [2:39:03<24:46:51,  1.07it/s]                                                            4%|▍         | 4379/100000 [2:39:03<24:46:51,  1.07it/s]  4%|▍         | 4380/100000 [2:39:04<23:51:45,  1.11it/s]                                                            4%|▍         | 4380/100000 [2:39:04<23:51:45,  1.11it/s]  4%|▍         | 4381/100000 [2:39:05<23:17:56,  1.14it/s]                                                            4%|▍         | 4381/100000 [2:39:05<23:17:56,  1.14it/s]  4%|▍         | 4382/100000 [2:39:06<22:48:07,  1.16it/s]                                                            4%|▍         | 4382/100000 [2:39:06<22:48:07,  1.16it/s]  4%|▍         | 4383/100000 [2:39:07<22:48:52,  1.16it/s]                                                            4%|▍         | 4383/100000 [2:39:07<22:48:52,  1.16it/s]  4%|▍         | 4384/100000 [2:39:07<22:11:37,  1.20it/s]                                                            4%|▍         | 4384/100000 [2:39:07<22:11:37,  1.20it/s]  4%|▍         | 4385/100000 [2:39:08<21:57:22,  1.21it/s]                                                            4%|▍         | 4385/100000 [2:39:08<21:57:22,  1.21it/s]  4%|▍         | 4386/100000 [2:39:09<21:24:07,  1.24it/s]                                                            4%|▍         | 4386/100000 [2:39:09<21:24:07,  1.24it/s]  4%|▍         | 4387/100000 [2:39:10<20:56:48,  1.27it/s]                                                            4%|▍         | 4387/100000 [2:39:10<20:56:48,  1.27it/s]  4%|▍         | 4388/100000 [2:39:10<20:16:44,  1.31it/s]                                                            4%|▍         | 4388/100000 [2:39:10<20:16:44,  1.31it/s]  4%|▍         | 4389/100000 [2:39:22<103:34:49,  3.90s/it]                                                             4%|▍         | 4389/100000 [2:39:22<103:34:49,  3.90s/it]  4%|▍         | 4390/100000 [2:39:29<134:49:05,  5.08s/it]                                                             4%|▍         | 4390/100000 [2:39:29<134:49:05,  5.08s/it]  4%|▍         | 4391/100000 [2:39:35<139:36:07,  5.26s/it]                                                             4%|▍         | 4391/100000 [2:39:35<139:36:07,  5.26s/it]  4%|▍         | 4392/100000 [2:39:39<132:55:43,  5.01s/it]                                                             4%|▍         | 4392/100000 [2:39:39<132:55:43,  5.01s/it]  4%|▍         | 4393/100000 [2:39:44<125:25:42,  4.72s/it]                                                             4%|▍         | 4393/100000 [2:39:44<125:25:42,  4.72s/it]  4%|▍         | 4394/100000 [2:39:47<115:29:52,  4.35s/it]                                                             4%|▍         | 4394/100000 [2:39:47<115:29:52,  4.35s/it]  4%|▍         | 4395/100000 [2:39:50<105:14:22,  3.96s/it]                                                             4%|▍         | 4395/100000 [2:39:50<105:14:22,  3.96s/it]  4%|▍         | 4396/100000 [2:39:53<94:52:45,  3.57s/it]                                                           {'loss': 0.2536, 'grad_norm': 1.3007605075836182, 'learning_rate': 1.2927e-05, 'epoch': 28.01}
{'loss': 0.1956, 'grad_norm': 0.8629398345947266, 'learning_rate': 1.293e-05, 'epoch': 28.01}
{'loss': 0.1757, 'grad_norm': 0.6755945086479187, 'learning_rate': 1.2933e-05, 'epoch': 28.02}
{'loss': 0.1448, 'grad_norm': 0.779072105884552, 'learning_rate': 1.2936000000000001e-05, 'epoch': 28.03}
{'loss': 0.1406, 'grad_norm': 0.7457791566848755, 'learning_rate': 1.2939000000000001e-05, 'epoch': 28.03}
{'loss': 0.1348, 'grad_norm': 0.8470367193222046, 'learning_rate': 1.2942e-05, 'epoch': 28.04}
{'loss': 0.1117, 'grad_norm': 0.7269439101219177, 'learning_rate': 1.2945e-05, 'epoch': 28.05}
{'loss': 0.1413, 'grad_norm': 0.7207189202308655, 'learning_rate': 1.2948e-05, 'epoch': 28.05}
{'loss': 0.1064, 'grad_norm': 0.8195495009422302, 'learning_rate': 1.2951e-05, 'epoch': 28.06}
{'loss': 0.1233, 'grad_norm': 1.0578043460845947, 'learning_rate': 1.2954000000000002e-05, 'epoch': 28.06}
{'loss': 0.0915, 'grad_norm': 0.7729897499084473, 'learning_rate': 1.2957e-05, 'epoch': 28.07}
{'loss': 0.0918, 'grad_norm': 0.7348483800888062, 'learning_rate': 1.296e-05, 'epoch': 28.08}
{'loss': 0.1058, 'grad_norm': 0.8181034922599792, 'learning_rate': 1.2963e-05, 'epoch': 28.08}
{'loss': 0.0665, 'grad_norm': 0.6622414588928223, 'learning_rate': 1.2966e-05, 'epoch': 28.09}
{'loss': 0.0807, 'grad_norm': 0.7445705533027649, 'learning_rate': 1.2969e-05, 'epoch': 28.1}
{'loss': 0.1152, 'grad_norm': 0.7618295550346375, 'learning_rate': 1.2972e-05, 'epoch': 28.1}
{'loss': 0.0623, 'grad_norm': 0.6022865176200867, 'learning_rate': 1.2975e-05, 'epoch': 28.11}
{'loss': 0.053, 'grad_norm': 1.0193122625350952, 'learning_rate': 1.2978e-05, 'epoch': 28.12}
{'loss': 0.0649, 'grad_norm': 0.8751917481422424, 'learning_rate': 1.2981e-05, 'epoch': 28.12}
{'loss': 0.0825, 'grad_norm': 0.7003873586654663, 'learning_rate': 1.2984000000000001e-05, 'epoch': 28.13}
{'loss': 0.0824, 'grad_norm': 0.814751148223877, 'learning_rate': 1.2987000000000001e-05, 'epoch': 28.14}
{'loss': 0.0655, 'grad_norm': 0.875694990158081, 'learning_rate': 1.2990000000000001e-05, 'epoch': 28.14}
{'loss': 0.0707, 'grad_norm': 0.8812039494514465, 'learning_rate': 1.2992999999999999e-05, 'epoch': 28.15}
{'loss': 0.0612, 'grad_norm': 0.9401082992553711, 'learning_rate': 1.2995999999999999e-05, 'epoch': 28.16}
{'loss': 0.0878, 'grad_norm': 0.6967106461524963, 'learning_rate': 1.2999e-05, 'epoch': 28.16}
{'loss': 0.0579, 'grad_norm': 0.8395044207572937, 'learning_rate': 1.3002e-05, 'epoch': 28.17}
{'loss': 0.0555, 'grad_norm': 1.4260778427124023, 'learning_rate': 1.3005e-05, 'epoch': 28.18}
{'loss': 0.0798, 'grad_norm': 1.1241953372955322, 'learning_rate': 1.3008e-05, 'epoch': 28.18}
{'loss': 0.0507, 'grad_norm': 0.9503706693649292, 'learning_rate': 1.3011e-05, 'epoch': 28.19}
{'loss': 0.046, 'grad_norm': 0.6715103983879089, 'learning_rate': 1.3014000000000001e-05, 'epoch': 28.19}
{'loss': 0.0411, 'grad_norm': 0.7477260231971741, 'learning_rate': 1.3017000000000001e-05, 'epoch': 28.2}
{'loss': 0.0467, 'grad_norm': 0.9765486717224121, 'learning_rate': 1.302e-05, 'epoch': 28.21}
{'loss': 0.0305, 'grad_norm': 0.6666557788848877, 'learning_rate': 1.3023e-05, 'epoch': 28.21}
{'loss': 0.0518, 'grad_norm': 1.209472894668579, 'learning_rate': 1.3026e-05, 'epoch': 28.22}
{'loss': 0.0585, 'grad_norm': 1.4806445837020874, 'learning_rate': 1.3029e-05, 'epoch': 28.23}
{'loss': 0.1011, 'grad_norm': 2.595966100692749, 'learning_rate': 1.3032e-05, 'epoch': 28.23}
{'loss': 0.0658, 'grad_norm': 1.4252328872680664, 'learning_rate': 1.3035e-05, 'epoch': 28.24}
{'loss': 0.0529, 'grad_norm': 1.2799376249313354, 'learning_rate': 1.3038e-05, 'epoch': 28.25}
{'loss': 0.264, 'grad_norm': 1.3161883354187012, 'learning_rate': 1.3041e-05, 'epoch': 28.25}
{'loss': 0.218, 'grad_norm': 0.7921498417854309, 'learning_rate': 1.3044e-05, 'epoch': 28.26}
{'loss': 0.178, 'grad_norm': 0.8636370897293091, 'learning_rate': 1.3047e-05, 'epoch': 28.27}
{'loss': 0.1595, 'grad_norm': 0.8469812273979187, 'learning_rate': 1.305e-05, 'epoch': 28.27}
{'loss': 0.1523, 'grad_norm': 0.69217449426651, 'learning_rate': 1.3053e-05, 'epoch': 28.28}
{'loss': 0.1038, 'grad_norm': 0.6151135563850403, 'learning_rate': 1.3056e-05, 'epoch': 28.29}
{'loss': 0.1253, 'grad_norm': 0.8619831800460815, 'learning_rate': 1.3059000000000002e-05, 'epoch': 28.29}
{'loss': 0.133, 'grad_norm': 0.8852291703224182, 'learning_rate': 1.3062000000000001e-05, 'epoch': 28.3}
{'loss': 0.1834, 'grad_norm': 0.8725070953369141, 'learning_rate': 1.3065000000000001e-05, 'epoch': 28.31}
{'loss': 0.1151, 'grad_norm': 0.6943581104278564, 'learning_rate': 1.3068e-05, 'epoch': 28.31}
{'loss': 0.0778, 'grad_norm': 0.5854505896568298, 'learning_rate': 1.3070999999999999e-05, 'epoch': 28.32}
{'loss': 0.0932, 'grad_norm': 0.8655887246131897, 'learning_rate': 1.3074e-05, 'epoch': 28.32}
{'loss': 0.0943, 'grad_norm': 0.702250063419342, 'learning_rate': 1.3077e-05, 'epoch': 28.33}
{'loss': 0.0855, 'grad_norm': 1.055787205696106, 'learning_rate': 1.308e-05, 'epoch': 28.34}
{'loss': 0.0857, 'grad_norm': 0.6084420084953308, 'learning_rate': 1.3083e-05, 'epoch': 28.34}
{'loss': 0.0699, 'grad_norm': 1.1215986013412476, 'learning_rate': 1.3086e-05, 'epoch': 28.35}
{'loss': 0.0792, 'grad_norm': 0.7978671789169312, 'learning_rate': 1.3089000000000001e-05, 'epoch': 28.36}
{'loss': 0.0734, 'grad_norm': 0.777678370475769, 'learning_rate': 1.3092000000000001e-05, 'epoch': 28.36}
{'loss': 0.0568, 'grad_norm': 0.8944449424743652, 'learning_rate': 1.3095e-05, 'epoch': 28.37}
{'loss': 0.076, 'grad_norm': 0.8371613621711731, 'learning_rate': 1.3098e-05, 'epoch': 28.38}
{'loss': 0.0966, 'grad_norm': 0.8554826974868774, 'learning_rate': 1.3101e-05, 'epoch': 28.38}
{'loss': 0.0778, 'grad_norm': 0.6729946136474609, 'learning_rate': 1.3104e-05, 'epoch': 28.39}
{'loss': 0.1368, 'grad_norm': 1.2482084035873413, 'learning_rate': 1.3107e-05, 'epoch': 28.4}
{'loss': 0.1141, 'grad_norm': 1.0543164014816284, 'learning_rate': 1.311e-05, 'epoch': 28.4}
{'loss': 0.0645, 'grad_norm': 1.1171306371688843, 'learning_rate': 1.3113e-05, 'epoch': 28.41}
{'loss': 0.0743, 'grad_norm': 1.264367699623108, 'learning_rate': 1.3116e-05, 'epoch': 28.42}
{'loss': 0.0658, 'grad_norm': 2.2277212142944336, 'learning_rate': 1.3119000000000001e-05, 'epoch': 28.42}
{'loss': 0.1184, 'grad_norm': 1.8829351663589478, 'learning_rate': 1.3122e-05, 'epoch': 28.43}
{'loss': 0.0412, 'grad_norm': 0.9213155508041382, 'learning_rate': 1.3125e-05, 'epoch': 28.44}
{'loss': 0.0531, 'grad_norm': 0.9701739549636841, 'learning_rate': 1.3128e-05, 'epoch': 28.44}
{'loss': 0.0363, 'grad_norm': 1.0843915939331055, 'learning_rate': 1.3131e-05, 'epoch': 28.45}
{'loss': 0.0554, 'grad_norm': 1.5838682651519775, 'learning_rate': 1.3134000000000002e-05, 'epoch': 28.45}
{'loss': 0.0614, 'grad_norm': 1.0683317184448242, 'learning_rate': 1.3137000000000001e-05, 'epoch': 28.46}
{'loss': 0.0554, 'grad_norm': 1.7040998935699463, 'learning_rate': 1.314e-05, 'epoch': 28.47}
{'loss': 0.0568, 'grad_norm': 1.2504009008407593, 'learning_rate': 1.3143e-05, 'epoch': 28.47}
{'loss': 0.1011, 'grad_norm': 1.9336570501327515, 'learning_rate': 1.3146e-05, 'epoch': 28.48}
{'loss': 0.0407, 'grad_norm': 2.2072947025299072, 'learning_rate': 1.3149e-05, 'epoch': 28.49}
{'loss': 0.105, 'grad_norm': 1.8302960395812988, 'learning_rate': 1.3152e-05, 'epoch': 28.49}
{'loss': 0.2742, 'grad_norm': 1.6704671382904053, 'learning_rate': 1.3155e-05, 'epoch': 28.5}
{'loss': 0.1883, 'grad_norm': 0.8538006544113159, 'learning_rate': 1.3158e-05, 'epoch': 28.51}
{'loss': 0.1803, 'grad_norm': 0.907832682132721, 'learning_rate': 1.3161e-05, 'epoch': 28.51}
{'loss': 0.1833, 'grad_norm': 0.9766905903816223, 'learning_rate': 1.3164000000000001e-05, 'epoch': 28.52}
{'loss': 0.1376, 'grad_norm': 0.8742786049842834, 'learning_rate': 1.3167000000000001e-05, 'epoch': 28.53}
{'loss': 0.1339, 'grad_norm': 0.6521729826927185, 'learning_rate': 1.3170000000000001e-05, 'epoch': 28.53}
{'loss': 0.1494, 'grad_norm': 0.8259990811347961, 'learning_rate': 1.3173e-05, 'epoch': 28.54}
  4%|▍         | 4396/100000 [2:39:53<94:52:45,  3.57s/it]  4%|▍         | 4397/100000 [2:39:55<85:39:18,  3.23s/it]                                                            4%|▍         | 4397/100000 [2:39:55<85:39:18,  3.23s/it]  4%|▍         | 4398/100000 [2:39:57<77:33:25,  2.92s/it]                                                            4%|▍         | 4398/100000 [2:39:57<77:33:25,  2.92s/it]  4%|▍         | 4399/100000 [2:39:59<69:39:28,  2.62s/it]                                                            4%|▍         | 4399/100000 [2:39:59<69:39:28,  2.62s/it]  4%|▍         | 4400/100000 [2:40:01<63:37:44,  2.40s/it]                                                            4%|▍         | 4400/100000 [2:40:01<63:37:44,  2.40s/it]  4%|▍         | 4401/100000 [2:40:03<58:25:56,  2.20s/it]                                                            4%|▍         | 4401/100000 [2:40:03<58:25:56,  2.20s/it]  4%|▍         | 4402/100000 [2:40:05<53:59:33,  2.03s/it]                                                            4%|▍         | 4402/100000 [2:40:05<53:59:33,  2.03s/it]  4%|▍         | 4403/100000 [2:40:06<50:16:08,  1.89s/it]                                                            4%|▍         | 4403/100000 [2:40:06<50:16:08,  1.89s/it]  4%|▍         | 4404/100000 [2:40:08<47:04:54,  1.77s/it]                                                            4%|▍         | 4404/100000 [2:40:08<47:04:54,  1.77s/it]  4%|▍         | 4405/100000 [2:40:09<44:03:06,  1.66s/it]                                                            4%|▍         | 4405/100000 [2:40:09<44:03:06,  1.66s/it]  4%|▍         | 4406/100000 [2:40:10<41:28:52,  1.56s/it]                                                            4%|▍         | 4406/100000 [2:40:10<41:28:52,  1.56s/it]  4%|▍         | 4407/100000 [2:40:12<39:30:59,  1.49s/it]                                                            4%|▍         | 4407/100000 [2:40:12<39:30:59,  1.49s/it]  4%|▍         | 4408/100000 [2:40:13<37:26:45,  1.41s/it]                                                            4%|▍         | 4408/100000 [2:40:13<37:26:45,  1.41s/it]  4%|▍         | 4409/100000 [2:40:14<35:40:27,  1.34s/it]                                                            4%|▍         | 4409/100000 [2:40:14<35:40:27,  1.34s/it]  4%|▍         | 4410/100000 [2:40:15<33:46:46,  1.27s/it]                                                            4%|▍         | 4410/100000 [2:40:15<33:46:46,  1.27s/it]  4%|▍         | 4411/100000 [2:40:16<32:03:11,  1.21s/it]                                                            4%|▍         | 4411/100000 [2:40:16<32:03:11,  1.21s/it]  4%|▍         | 4412/100000 [2:40:17<30:16:27,  1.14s/it]                                                            4%|▍         | 4412/100000 [2:40:17<30:16:27,  1.14s/it]  4%|▍         | 4413/100000 [2:40:18<28:34:43,  1.08s/it]                                                            4%|▍         | 4413/100000 [2:40:18<28:34:43,  1.08s/it]  4%|▍         | 4414/100000 [2:40:19<27:23:26,  1.03s/it]                                                            4%|▍         | 4414/100000 [2:40:19<27:23:26,  1.03s/it]  4%|▍         | 4415/100000 [2:40:20<26:41:56,  1.01s/it]                                                            4%|▍         | 4415/100000 [2:40:20<26:41:56,  1.01s/it]  4%|▍         | 4416/100000 [2:40:21<25:32:54,  1.04it/s]                                                            4%|▍         | 4416/100000 [2:40:21<25:32:54,  1.04it/s]  4%|▍         | 4417/100000 [2:40:22<24:39:02,  1.08it/s]                                                            4%|▍         | 4417/100000 [2:40:22<24:39:02,  1.08it/s]  4%|▍         | 4418/100000 [2:40:23<24:03:40,  1.10it/s]                                                            4%|▍         | 4418/100000 [2:40:23<24:03:40,  1.10it/s]  4%|▍         | 4419/100000 [2:40:23<23:50:23,  1.11it/s]                                                            4%|▍         | 4419/100000 [2:40:23<23:50:23,  1.11it/s]  4%|▍         | 4420/100000 [2:40:24<23:58:28,  1.11it/s]                                                            4%|▍         | 4420/100000 [2:40:24<23:58:28,  1.11it/s]  4%|▍         | 4421/100000 [2:40:25<23:02:50,  1.15it/s]                                                            4%|▍         | 4421/100000 [2:40:25<23:02:50,  1.15it/s]  4%|▍         | 4422/100000 [2:40:26<22:07:18,  1.20it/s]                                                            4%|▍         | 4422/100000 [2:40:26<22:07:18,  1.20it/s]  4%|▍         | 4423/100000 [2:40:27<21:16:58,  1.25it/s]                                                            4%|▍         | 4423/100000 [2:40:27<21:16:58,  1.25it/s]  4%|▍         | 4424/100000 [2:40:27<20:37:12,  1.29it/s]                                                            4%|▍         | 4424/100000 [2:40:27<20:37:12,  1.29it/s]  4%|▍         | 4425/100000 [2:40:28<19:46:19,  1.34it/s]                                                            4%|▍         | 4425/100000 [2:40:28<19:46:19,  1.34it/s]  4%|▍         | 4426/100000 [2:40:29<18:52:43,  1.41it/s]                                                            4%|▍         | 4426/100000 [2:40:29<18:52:43,  1.41it/s]  4%|▍         | 4427/100000 [2:40:42<121:05:18,  4.56s/it]                                                             4%|▍         | 4427/100000 [2:40:42<121:05:18,  4.56s/it]  4%|▍         | 4428/100000 [2:40:49<142:06:08,  5.35s/it]                                                             4%|▍         | 4428/100000 [2:40:49<142:06:08,  5.35s/it]  4%|▍         | 4429/100000 [2:40:55<143:54:25,  5.42s/it]                                                             4%|▍         | 4429/100000 [2:40:55<143:54:25,  5.42s/it]  4%|▍         | 4430/100000 [2:41:00<139:28:25,  5.25s/it]                                                             4%|▍         | 4430/100000 [2:41:00<139:28:25,  5.25s/it]  4%|▍         | 4431/100000 [2:41:04<130:13:31,  4.91s/it]                                                             4%|▍         | 4431/100000 [2:41:04<130:13:31,  4.91s/it]  4%|▍         | 4432/100000 [2:41:07<118:59:06,  4.48s/it]                                                             4%|▍         | 4432/100000 [2:41:07<118:59:06,  4.48s/it]  4%|▍         | 4433/100000 [2:41:10<107:25:13,  4.05s/it]                                                             4%|▍         | 4433/100000 [2:41:10<107:25:13,  4.05s/it]  4%|▍         | 4434/100000 [2:41:13<96:17:59,  3.63s/it]                                                             4%|▍         | 4434/100000 [2:41:13<96:17:59,  3.63s/it]  4%|▍         | 4435/100000 [2:41:15<85:48:38,  3.23s/it]                                                            4%|▍         | 4435/100000 [2:41:15<85:48:38,  3.23s/it]  4%|▍         | 4436/100000 [2:41:17<76:29:47,  2.88s/it]                                                            4%|▍         | 4436/100000 [2:41:17<76:29:47,  2.88s/it]  4%|▍         | 4437/100000 [2:41:19<68:26:04,  2.58s/it]                                                            4%|▍         | 4437/100000 [2:41:19<68:26:04,  2.58s/it]  4%|▍         | 4438/100000 [2:41:21<62:09:55,  2.34s/it]                                                            4%|▍         | 4438/100000 [2:41:21<62:09:55,  2.34s/it]  4%|▍         | 4439/100000 [2:41:23<56:34:44,  2.13s/it]                                                            4%|▍         | 4439/100000 [2:41:23<56:34:44,  2.13s/it]  4%|▍         | 4440/100000 [2:41:24<52:32:30,  1.98s/it]                                                            4%|▍         | 4440/100000 [2:41:24<52:32:30,  1.98s/it]  4%|▍         | 4441/100000 [2:41:26<49:17:21,  1.86s/it]                                                            4%|▍         | 4441/100000 [2:41:26<49:17:21,  1.86s/it]  4%|▍         | 4442/100000 [2:41:27<46:04:20,  1.74s/it]                                                            4%|▍         | 4442/100000 [2:41:27<46:04:20,  1.74s/it]  4%|▍         | 4443/100000 [2:41:29<43:06:58,  1.62s/it]                                                            4%|▍         | 4443/100000 [2:41:29<43:06:58,  1.62s/it]  4%|▍         | 4444/100000 [2:41:30<40:24:45,  1.52s/it]                                                            4%|▍         | 4444/100000 [2:41:30<40:24:45,  1.52s/it]  4%|▍         | 4445/100000 [2:41:31<38:28:43,  1.45s/it]                                                            4%|▍         | 4445/100000 [2:41:31<38:28:43,  1.45s/it]  4%|▍         | 4446/100000 [2:41:33<36:30:03,  1.38s/it]                                                            4%|▍         | 4446/100000 [2:41:33<36:30:03,  1.38s/it]  4%|▍         | 4447/100000 [2:41:34<34:23:44,  1.30s/it]                                                            4%|▍         | 4447/100000 [2:41:34<34:23:44,  1.30s/it]  4%|▍         | 4448/100000 [2:41:35<32:30:38,  1.22s/it]                                                            4%|▍         | 4448/100000 [2:41:35<32:30:38,  1.22s/it]  4%|▍         | 4449/100000 [2:41:36<31:12:41,  1.18s/it]                                                            4%|▍         | 4449/100000 [2:41:36<31:12:41,  1.18s/it]  4%|▍         | 4450/100000 [2:41:37<29:38:56,  1.12s/it]                                                            4%|▍         | 4450/100000 [2:41:37<29:38:56,  1.12s/it]  4%|▍         | 4451/100000 [2:41:38<28:23:27,  1.07s/it]                                                            4%|▍         | 4451/100000 [2:41:38<28:23:27,  1.07s/it]  4%|▍         | 4452/100000 [2:41:39<27:02:16,  1.02s/it]                                                            4%|▍         | 4452/100000 [2:41:39<27:02:16,  1.02s/it]  4%|▍         | 4453/100000 [2:41:40<26:05:21,  1.02it/s]                                                            4%|▍         | 4453/100000 [2:41:40<26:05:21,  1.02it/s]  4%|▍         | 4454/100000 [2:41:40<24:51:19,  1.07it/s]                                                            4%|▍         | 4454/100000 [2:41:40<24:51:19,  1.07it/s]  4%|▍         | 4455/100000 [2:41:41<23:51:14,  1.11it/s]                                                            4%|▍         | 4455/100000 [2:41:41<23:51:14,  1.11it/s]  4%|▍         | 4456/100000 [2:41:42<23:07:26,  1.15it/s]                                                            4%|▍         | 4456/100000 [2:41:42<23:07:26,  1.15it/s]  4%|▍         | 4457/100000 [2:41:43<22:29:53,  1.18it/s]                                                            4%|▍         | 4457/100000 [2:41:43<22:29:53,  1.18it/s]  4%|▍         | 4458/100000 [2:41:44<22:21:04,  1.19it/s]                                                            4%|▍         | 4458/100000 [2:41:44<22:21:04,  1.19it/s]  4%|▍         | 4459/100000 [2:41:44<21:18:37,  1.25it/s]                                                            4%|▍         | 4459/100000 [2:41:44<21:18:37,  1.25it/s]  4%|▍         | 4460/100000 [2:41:45<20:29:05,  1.30it/s]                                                            4%|▍         | 4460/100000 [2:41:45<20:29:05,  1.30it/s]  4%|▍         | 4461/100000 [2:41:46<19:39:27,  1.35it/s]                                                            4%|▍         | 4461/100000 [2:41:46<19:39:27,  1.35it/s]  4%|▍         | 4462/100000 [2:41:46<19:29:32,  1.36it/s]                                                            4%|▍         | 4462/100000 [2:41:46<19:29:32,  1.36it/s]  4%|▍         | 4463/100000 [2:41:47<18:29:36,  1.43it/s]                                                            4%|▍         | 4463/100000 [2:41:47<18:29:36,  1.43it/s]  4%|▍         | 4464/100000 [2:41:48<18:05:02,  1.47it/s]                                                            4%|▍         | 4464/100000 [2:41:48<18:05:02,  1.47it/s]  4%|▍         | 4465/100000 [2:41:54<59:43:06,  2.25s/it]                                                            4%|▍         | 4465/100000 [2:41:54<59:43:06,  2.25s/it]  4%|▍         | 4466/100000 [2:41:55<52:44:22,  1.99s/it]                                                            4%|▍         | 4466/100000 [2:41:55<52:44:22,  1.99s/it]{'loss': 0.1385, 'grad_norm': 0.8337199687957764, 'learning_rate': 1.3175999999999999e-05, 'epoch': 28.55}
{'loss': 0.1303, 'grad_norm': 1.085648536682129, 'learning_rate': 1.3179e-05, 'epoch': 28.55}
{'loss': 0.1194, 'grad_norm': 0.7048804759979248, 'learning_rate': 1.3182e-05, 'epoch': 28.56}
{'loss': 0.1001, 'grad_norm': 0.7407380938529968, 'learning_rate': 1.3185e-05, 'epoch': 28.56}
{'loss': 0.1111, 'grad_norm': 0.7774785757064819, 'learning_rate': 1.3188e-05, 'epoch': 28.57}
{'loss': 0.1103, 'grad_norm': 0.7637922763824463, 'learning_rate': 1.3191e-05, 'epoch': 28.58}
{'loss': 0.0721, 'grad_norm': 0.6169243454933167, 'learning_rate': 1.3194000000000001e-05, 'epoch': 28.58}
{'loss': 0.0798, 'grad_norm': 0.7480208873748779, 'learning_rate': 1.3197000000000001e-05, 'epoch': 28.59}
{'loss': 0.0681, 'grad_norm': 0.6545014381408691, 'learning_rate': 1.32e-05, 'epoch': 28.6}
{'loss': 0.0732, 'grad_norm': 0.8210376501083374, 'learning_rate': 1.3203e-05, 'epoch': 28.6}
{'loss': 0.0894, 'grad_norm': 1.4949380159378052, 'learning_rate': 1.3206e-05, 'epoch': 28.61}
{'loss': 0.081, 'grad_norm': 0.8000546097755432, 'learning_rate': 1.3209000000000002e-05, 'epoch': 28.62}
{'loss': 0.0866, 'grad_norm': 0.9493790864944458, 'learning_rate': 1.3212000000000002e-05, 'epoch': 28.62}
{'loss': 0.0886, 'grad_norm': 0.6717552542686462, 'learning_rate': 1.3215e-05, 'epoch': 28.63}
{'loss': 0.0547, 'grad_norm': 0.6521053314208984, 'learning_rate': 1.3218e-05, 'epoch': 28.64}
{'loss': 0.0734, 'grad_norm': 1.205336093902588, 'learning_rate': 1.3221e-05, 'epoch': 28.64}
{'loss': 0.0568, 'grad_norm': 0.8687588572502136, 'learning_rate': 1.3224e-05, 'epoch': 28.65}
{'loss': 0.0629, 'grad_norm': 0.7698371410369873, 'learning_rate': 1.3227e-05, 'epoch': 28.66}
{'loss': 0.0556, 'grad_norm': 1.0150201320648193, 'learning_rate': 1.323e-05, 'epoch': 28.66}
{'loss': 0.0407, 'grad_norm': 1.0196599960327148, 'learning_rate': 1.3233e-05, 'epoch': 28.67}
{'loss': 0.1213, 'grad_norm': 1.4322789907455444, 'learning_rate': 1.3236e-05, 'epoch': 28.68}
{'loss': 0.0974, 'grad_norm': 1.1305242776870728, 'learning_rate': 1.3239000000000001e-05, 'epoch': 28.68}
{'loss': 0.0632, 'grad_norm': 1.200440526008606, 'learning_rate': 1.3242000000000001e-05, 'epoch': 28.69}
{'loss': 0.0557, 'grad_norm': 1.6632194519042969, 'learning_rate': 1.3245000000000001e-05, 'epoch': 28.69}
{'loss': 0.0531, 'grad_norm': 0.714501142501831, 'learning_rate': 1.3248000000000001e-05, 'epoch': 28.7}
{'loss': 0.0448, 'grad_norm': 1.756935715675354, 'learning_rate': 1.3250999999999999e-05, 'epoch': 28.71}
{'loss': 0.0465, 'grad_norm': 3.4547576904296875, 'learning_rate': 1.3254e-05, 'epoch': 28.71}
{'loss': 0.0527, 'grad_norm': 0.8146939873695374, 'learning_rate': 1.3257e-05, 'epoch': 28.72}
{'loss': 0.0501, 'grad_norm': 1.832181453704834, 'learning_rate': 1.326e-05, 'epoch': 28.73}
{'loss': 0.0589, 'grad_norm': 1.4182661771774292, 'learning_rate': 1.3263e-05, 'epoch': 28.73}
{'loss': 0.1727, 'grad_norm': 2.424470901489258, 'learning_rate': 1.3266e-05, 'epoch': 28.74}
{'loss': 0.2956, 'grad_norm': 2.0746705532073975, 'learning_rate': 1.3269000000000001e-05, 'epoch': 28.75}
{'loss': 0.2248, 'grad_norm': 0.785389244556427, 'learning_rate': 1.3272000000000001e-05, 'epoch': 28.75}
{'loss': 0.2302, 'grad_norm': 0.8688095211982727, 'learning_rate': 1.3275e-05, 'epoch': 28.76}
{'loss': 0.149, 'grad_norm': 0.6881900429725647, 'learning_rate': 1.3278e-05, 'epoch': 28.77}
{'loss': 0.1726, 'grad_norm': 1.112224817276001, 'learning_rate': 1.3281e-05, 'epoch': 28.77}
{'loss': 0.1325, 'grad_norm': 0.7771461606025696, 'learning_rate': 1.3284000000000002e-05, 'epoch': 28.78}
{'loss': 0.1353, 'grad_norm': 0.8179129958152771, 'learning_rate': 1.3287e-05, 'epoch': 28.79}
{'loss': 0.105, 'grad_norm': 0.7009305953979492, 'learning_rate': 1.329e-05, 'epoch': 28.79}
{'loss': 0.1037, 'grad_norm': 0.7650024890899658, 'learning_rate': 1.3293e-05, 'epoch': 28.8}
{'loss': 0.1045, 'grad_norm': 0.7607441544532776, 'learning_rate': 1.3296e-05, 'epoch': 28.81}
{'loss': 0.0942, 'grad_norm': 0.810100257396698, 'learning_rate': 1.3299000000000001e-05, 'epoch': 28.81}
{'loss': 0.1089, 'grad_norm': 0.7878574132919312, 'learning_rate': 1.3302e-05, 'epoch': 28.82}
{'loss': 0.1127, 'grad_norm': 1.2633311748504639, 'learning_rate': 1.3305e-05, 'epoch': 28.82}
{'loss': 0.0992, 'grad_norm': 0.9124471545219421, 'learning_rate': 1.3308e-05, 'epoch': 28.83}
{'loss': 0.1302, 'grad_norm': 1.180546522140503, 'learning_rate': 1.3311e-05, 'epoch': 28.84}
{'loss': 0.0858, 'grad_norm': 0.8521630764007568, 'learning_rate': 1.3314e-05, 'epoch': 28.84}
{'loss': 0.0917, 'grad_norm': 0.9003086090087891, 'learning_rate': 1.3317000000000001e-05, 'epoch': 28.85}
{'loss': 0.0877, 'grad_norm': 0.7369164824485779, 'learning_rate': 1.3320000000000001e-05, 'epoch': 28.86}
{'loss': 0.0706, 'grad_norm': 0.8922184705734253, 'learning_rate': 1.3323000000000001e-05, 'epoch': 28.86}
{'loss': 0.0832, 'grad_norm': 0.9054221510887146, 'learning_rate': 1.3325999999999999e-05, 'epoch': 28.87}
{'loss': 0.0904, 'grad_norm': 1.009839415550232, 'learning_rate': 1.3328999999999999e-05, 'epoch': 28.88}
{'loss': 0.0716, 'grad_norm': 1.210645079612732, 'learning_rate': 1.3332e-05, 'epoch': 28.88}
{'loss': 0.0704, 'grad_norm': 1.2287265062332153, 'learning_rate': 1.3335e-05, 'epoch': 28.89}
{'loss': 0.0906, 'grad_norm': 0.7764612436294556, 'learning_rate': 1.3338e-05, 'epoch': 28.9}
{'loss': 0.0668, 'grad_norm': 0.8964731693267822, 'learning_rate': 1.3341e-05, 'epoch': 28.9}
{'loss': 0.0685, 'grad_norm': 1.7122747898101807, 'learning_rate': 1.3344e-05, 'epoch': 28.91}
{'loss': 0.0882, 'grad_norm': 0.9253993034362793, 'learning_rate': 1.3347000000000001e-05, 'epoch': 28.92}
{'loss': 0.0762, 'grad_norm': 1.2688785791397095, 'learning_rate': 1.3350000000000001e-05, 'epoch': 28.92}
{'loss': 0.144, 'grad_norm': 1.8010128736495972, 'learning_rate': 1.3353e-05, 'epoch': 28.93}
{'loss': 0.0732, 'grad_norm': 1.5783190727233887, 'learning_rate': 1.3356e-05, 'epoch': 28.94}
{'loss': 0.0526, 'grad_norm': 1.0817958116531372, 'learning_rate': 1.3359e-05, 'epoch': 28.94}
{'loss': 0.1075, 'grad_norm': 1.224268913269043, 'learning_rate': 1.3362e-05, 'epoch': 28.95}
{'loss': 0.0531, 'grad_norm': 0.7983710765838623, 'learning_rate': 1.3365e-05, 'epoch': 28.95}
{'loss': 0.055, 'grad_norm': 1.3145629167556763, 'learning_rate': 1.3368e-05, 'epoch': 28.96}
{'loss': 0.0536, 'grad_norm': 1.3513705730438232, 'learning_rate': 1.3371e-05, 'epoch': 28.97}
{'loss': 0.052, 'grad_norm': 1.354046106338501, 'learning_rate': 1.3374e-05, 'epoch': 28.97}
{'loss': 0.0351, 'grad_norm': 0.8715737462043762, 'learning_rate': 1.3377e-05, 'epoch': 28.98}
{'loss': 0.0721, 'grad_norm': 1.9649457931518555, 'learning_rate': 1.338e-05, 'epoch': 28.99}
{'loss': 0.1282, 'grad_norm': 0.825955331325531, 'learning_rate': 1.3383e-05, 'epoch': 28.99}
{'loss': 0.0859, 'grad_norm': 1.4694538116455078, 'learning_rate': 1.3386e-05, 'epoch': 29.0}
  4%|▍         | 4467/100000 [2:42:13<177:20:50,  6.68s/it]                                                             4%|▍         | 4467/100000 [2:42:13<177:20:50,  6.68s/it]  4%|▍         | 4468/100000 [2:42:19<178:39:20,  6.73s/it]                                                             4%|▍         | 4468/100000 [2:42:19<178:39:20,  6.73s/it]  4%|▍         | 4469/100000 [2:42:25<169:06:26,  6.37s/it]                                                             4%|▍         | 4469/100000 [2:42:25<169:06:26,  6.37s/it]  4%|▍         | 4470/100000 [2:42:30<154:53:54,  5.84s/it]                                                             4%|▍         | 4470/100000 [2:42:30<154:53:54,  5.84s/it]  4%|▍         | 4471/100000 [2:42:33<139:55:35,  5.27s/it]                                                             4%|▍         | 4471/100000 [2:42:33<139:55:35,  5.27s/it]  4%|▍         | 4472/100000 [2:42:37<125:51:23,  4.74s/it]                                                             4%|▍         | 4472/100000 [2:42:37<125:51:23,  4.74s/it]  4%|▍         | 4473/100000 [2:42:40<112:52:52,  4.25s/it]                                                             4%|▍         | 4473/100000 [2:42:40<112:52:52,  4.25s/it]  4%|▍         | 4474/100000 [2:42:43<100:48:21,  3.80s/it]                                                             4%|▍         | 4474/100000 [2:42:43<100:48:21,  3.80s/it]  4%|▍         | 4475/100000 [2:42:45<89:44:18,  3.38s/it]                                                             4%|▍         | 4475/100000 [2:42:45<89:44:18,  3.38s/it]  4%|▍         | 4476/100000 [2:42:47<79:54:41,  3.01s/it]                                                            4%|▍         | 4476/100000 [2:42:47<79:54:41,  3.01s/it]  4%|▍         | 4477/100000 [2:42:49<71:31:45,  2.70s/it]                                                            4%|▍         | 4477/100000 [2:42:49<71:31:45,  2.70s/it]  4%|▍         | 4478/100000 [2:42:51<65:10:20,  2.46s/it]                                                            4%|▍         | 4478/100000 [2:42:51<65:10:20,  2.46s/it]  4%|▍         | 4479/100000 [2:42:53<59:12:07,  2.23s/it]                                                            4%|▍         | 4479/100000 [2:42:53<59:12:07,  2.23s/it]  4%|▍         | 4480/100000 [2:42:55<54:38:24,  2.06s/it]                                                            4%|▍         | 4480/100000 [2:42:55<54:38:24,  2.06s/it]  4%|▍         | 4481/100000 [2:42:56<51:03:43,  1.92s/it]                                                            4%|▍         | 4481/100000 [2:42:56<51:03:43,  1.92s/it]  4%|▍         | 4482/100000 [2:42:58<47:33:51,  1.79s/it]                                                            4%|▍         | 4482/100000 [2:42:58<47:33:51,  1.79s/it]  4%|▍         | 4483/100000 [2:42:59<44:47:41,  1.69s/it]                                                            4%|▍         | 4483/100000 [2:42:59<44:47:41,  1.69s/it]  4%|▍         | 4484/100000 [2:43:00<41:58:04,  1.58s/it]                                                            4%|▍         | 4484/100000 [2:43:00<41:58:04,  1.58s/it]  4%|▍         | 4485/100000 [2:43:02<39:52:28,  1.50s/it]                                                            4%|▍         | 4485/100000 [2:43:02<39:52:28,  1.50s/it]  4%|▍         | 4486/100000 [2:43:03<37:43:57,  1.42s/it]                                                            4%|▍         | 4486/100000 [2:43:03<37:43:57,  1.42s/it]  4%|▍         | 4487/100000 [2:43:04<35:57:50,  1.36s/it]                                                            4%|▍         | 4487/100000 [2:43:04<35:57:50,  1.36s/it]  4%|▍         | 4488/100000 [2:43:05<33:57:49,  1.28s/it]                                                            4%|▍         | 4488/100000 [2:43:05<33:57:49,  1.28s/it]  4%|▍         | 4489/100000 [2:43:06<32:08:21,  1.21s/it]                                                            4%|▍         | 4489/100000 [2:43:06<32:08:21,  1.21s/it]  4%|▍         | 4490/100000 [2:43:07<30:32:23,  1.15s/it]                                                            4%|▍         | 4490/100000 [2:43:07<30:32:23,  1.15s/it]  4%|▍         | 4491/100000 [2:43:08<29:06:40,  1.10s/it]                                                            4%|▍         | 4491/100000 [2:43:08<29:06:40,  1.10s/it]  4%|▍         | 4492/100000 [2:43:09<28:22:43,  1.07s/it]                                                            4%|▍         | 4492/100000 [2:43:09<28:22:43,  1.07s/it]  4%|▍         | 4493/100000 [2:43:10<27:03:43,  1.02s/it]                                                            4%|▍         | 4493/100000 [2:43:10<27:03:43,  1.02s/it]  4%|▍         | 4494/100000 [2:43:11<25:56:00,  1.02it/s]                                                            4%|▍         | 4494/100000 [2:43:11<25:56:00,  1.02it/s]  4%|▍         | 4495/100000 [2:43:12<25:11:04,  1.05it/s]                                                            4%|▍         | 4495/100000 [2:43:12<25:11:04,  1.05it/s]  4%|▍         | 4496/100000 [2:43:13<24:22:19,  1.09it/s]                                                            4%|▍         | 4496/100000 [2:43:13<24:22:19,  1.09it/s]  4%|▍         | 4497/100000 [2:43:14<23:24:01,  1.13it/s]                                                            4%|▍         | 4497/100000 [2:43:14<23:24:01,  1.13it/s]  4%|▍         | 4498/100000 [2:43:14<22:42:32,  1.17it/s]                                                            4%|▍         | 4498/100000 [2:43:14<22:42:32,  1.17it/s]  4%|▍         | 4499/100000 [2:43:15<22:36:45,  1.17it/s]                                                            4%|▍         | 4499/100000 [2:43:15<22:36:45,  1.17it/s]  4%|▍         | 4500/100000 [2:43:16<21:49:35,  1.22it/s]                                                            4%|▍         | 4500/100000 [2:43:16<21:49:35,  1.22it/s]  5%|▍         | 4501/100000 [2:43:17<21:30:38,  1.23it/s]                                                            5%|▍         | 4501/100000 [2:43:17<21:30:38,  1.23it/s]  5%|▍         | 4502/100000 [2:43:18<20:53:26,  1.27it/s]                                                            5%|▍         | 4502/100000 [2:43:18<20:53:26,  1.27it/s]  5%|▍         | 4503/100000 [2:43:18<20:41:22,  1.28it/s]                                                            5%|▍         | 4503/100000 [2:43:18<20:41:22,  1.28it/s]  5%|▍         | 4504/100000 [2:43:19<19:37:58,  1.35it/s]                                                            5%|▍         | 4504/100000 [2:43:19<19:37:58,  1.35it/s]  5%|▍         | 4505/100000 [2:43:32<117:45:58,  4.44s/it]                                                             5%|▍         | 4505/100000 [2:43:32<117:45:58,  4.44s/it]  5%|▍         | 4506/100000 [2:43:40<148:20:01,  5.59s/it]                                                             5%|▍         | 4506/100000 [2:43:40<148:20:01,  5.59s/it]  5%|▍         | 4507/100000 [2:43:46<147:31:06,  5.56s/it]                                                             5%|▍         | 4507/100000 [2:43:46<147:31:06,  5.56s/it]  5%|▍         | 4508/100000 [2:43:50<138:41:23,  5.23s/it]                                                             5%|▍         | 4508/100000 [2:43:50<138:41:23,  5.23s/it]  5%|▍         | 4509/100000 [2:43:54<128:23:48,  4.84s/it]                                                             5%|▍         | 4509/100000 [2:43:54<128:23:48,  4.84s/it]  5%|▍         | 4510/100000 [2:43:58<117:11:36,  4.42s/it]                                                             5%|▍         | 4510/100000 [2:43:58<117:11:36,  4.42s/it]  5%|▍         | 4511/100000 [2:44:01<105:33:01,  3.98s/it]                                                             5%|▍         | 4511/100000 [2:44:01<105:33:01,  3.98s/it]  5%|▍         | 4512/100000 [2:44:03<94:16:01,  3.55s/it]                                                             5%|▍         | 4512/100000 [2:44:03<94:16:01,  3.55s/it]  5%|▍         | 4513/100000 [2:44:05<84:15:39,  3.18s/it]                                                            5%|▍         | 4513/100000 [2:44:06<84:15:39,  3.18s/it]  5%|▍         | 4514/100000 [2:44:08<75:13:57,  2.84s/it]                                                            5%|▍         | 4514/100000 [2:44:08<75:13:57,  2.84s/it]  5%|▍         | 4515/100000 [2:44:09<68:12:07,  2.57s/it]                                                            5%|▍         | 4515/100000 [2:44:09<68:12:07,  2.57s/it]  5%|▍         | 4516/100000 [2:44:11<62:03:30,  2.34s/it]                                                            5%|▍         | 4516/100000 [2:44:11<62:03:30,  2.34s/it]  5%|▍         | 4517/100000 [2:44:13<57:08:26,  2.15s/it]                                                            5%|▍         | 4517/100000 [2:44:13<57:08:26,  2.15s/it]  5%|▍         | 4518/100000 [2:44:15<52:49:40,  1.99s/it]                                                            5%|▍         | 4518/100000 [2:44:15<52:49:40,  1.99s/it]  5%|▍         | 4519/100000 [2:44:16<48:58:26,  1.85s/it]                                                            5%|▍         | 4519/100000 [2:44:16<48:58:26,  1.85s/it]  5%|▍         | 4520/100000 [2:44:18<45:49:10,  1.73s/it]                                                            5%|▍         | 4520/100000 [2:44:18<45:49:10,  1.73s/it]  5%|▍         | 4521/100000 [2:44:19<43:02:29,  1.62s/it]                                                            5%|▍         | 4521/100000 [2:44:19<43:02:29,  1.62s/it]  5%|▍         | 4522/100000 [2:44:20<40:27:00,  1.53s/it]                                                            5%|▍         | 4522/100000 [2:44:20<40:27:00,  1.53s/it]  5%|▍         | 4523/100000 [2:44:22<38:24:23,  1.45s/it]                                                            5%|▍         | 4523/100000 [2:44:22<38:24:23,  1.45s/it]  5%|▍         | 4524/100000 [2:44:23<36:33:21,  1.38s/it]                                                            5%|▍         | 4524/100000 [2:44:23<36:33:21,  1.38s/it]  5%|▍         | 4525/100000 [2:44:24<34:35:32,  1.30s/it]                                                            5%|▍         | 4525/100000 [2:44:24<34:35:32,  1.30s/it]  5%|▍         | 4526/100000 [2:44:25<32:57:32,  1.24s/it]                                                            5%|▍         | 4526/100000 [2:44:25<32:57:32,  1.24s/it]  5%|▍         | 4527/100000 [2:44:26<31:01:59,  1.17s/it]                                                            5%|▍         | 4527/100000 [2:44:26<31:01:59,  1.17s/it]  5%|▍         | 4528/100000 [2:44:27<29:39:55,  1.12s/it]                                                            5%|▍         | 4528/100000 [2:44:27<29:39:55,  1.12s/it]  5%|▍         | 4529/100000 [2:44:28<28:15:46,  1.07s/it]                                                            5%|▍         | 4529/100000 [2:44:28<28:15:46,  1.07s/it]  5%|▍         | 4530/100000 [2:44:29<26:57:07,  1.02s/it]                                                            5%|▍         | 4530/100000 [2:44:29<26:57:07,  1.02s/it]  5%|▍         | 4531/100000 [2:44:30<25:46:30,  1.03it/s]                                                            5%|▍         | 4531/100000 [2:44:30<25:46:30,  1.03it/s]  5%|▍         | 4532/100000 [2:44:31<25:09:57,  1.05it/s]                                                            5%|▍         | 4532/100000 [2:44:31<25:09:57,  1.05it/s]  5%|▍         | 4533/100000 [2:44:31<24:28:21,  1.08it/s]                                                            5%|▍         | 4533/100000 [2:44:31<24:28:21,  1.08it/s]  5%|▍         | 4534/100000 [2:44:32<23:46:36,  1.12it/s]                                                            5%|▍         | 4534/100000 [2:44:32<23:46:36,  1.12it/s]  5%|▍         | 4535/100000 [2:44:33<23:05:59,  1.15it/s]                                                            5%|▍         | 4535/100000 [2:44:33<23:05:59,  1.15it/s]  5%|▍         | 4536/100000 [2:44:34<22:38:04,  1.17it/s]                                                            5%|▍         | 4536/100000 [2:44:34<22:38:04,  1.17it/s]  5%|▍         | 4537/100000 [2:44:35<21:43:58,  1.22it/s]                                                            5%|▍         | 4537/100000 [2:44:35<21:43:58,  1.22it/s]  5%|▍         | 4538/100000 [2:44:35<21:32:11,  1.23it/s]                                                            5%|▍         | 4538/100000 [2:44:35<21:32:11,  1.23it/s]  5%|▍         | 4539/100000 [2:44:36<21:14:27,  1.25it/s]                                                            5%|▍         | 4539/100000 [2:44:36<21:14:27,  1.25it/s]  5%|▍         | 4540/100000 [2:44:37<19:47:14,  1.34it/s]                                                            5%|▍         | 4540/100000 [2:44:37<19:47:14,  1.34it/s]  5%|▍         | 4541/100000 [2:44:37<19:11:10,  1.38it/s]                                                            5%|▍         | 4541/100000 [2:44:38<19:11:10,  1.38it/s]  5%|▍         | 4542/100000 [2:44:38<18:33:00,  1.43it/s]                                                            5%|▍         | 4542/100000 [2:44:38<18:33:00,  1.43it/s]  5%|▍         | 4543/100000 [2:44:50<105:18:06,  3.97s/it]                                                             5%|▍         | 4543/100000 [2:44:50<105:18:06,  3.97s/it]  5%|▍         | 4544/100000 [2:44:58<138:50:33,  5.24s/it]                                                             5%|▍         | 4544/100000 [2:44:58<138:50:33,  5.24s/it]  5%|▍         | 4545/100000 [2:45:03<140:14:33,  5.29s/it]                                                             5%|▍         | 4545/100000 [2:45:03<140:14:33,  5.29s/it]  5%|▍         | 4546/100000 [2:45:08<134:08:34,  5.06s/it]                                                             5%|▍         | 4546/100000 [2:45:08<134:08:34,  5.06s/it]  5%|▍         | 4547/100000 [2:45:12<126:01:58,  4.75s/it]                                                             5%|▍         | 4547/100000 [2:45:12<126:01:58,  4.75s/it]  5%|▍         | 4548/100000 [2:45:15<115:49:59,  4.37s/it]                                                             5%|▍         | 4548/100000 [2:45:15<115:49:59,  4.37s/it]  5%|▍         | 4549/100000 [2:45:18<104:15:23,  3.93s/it]                                                             5%|▍         | 4549/100000 [2:45:18<104:15:23,  3.93s/it]  5%|▍         | 4550/100000 [2:45:21<94:01:16,  3.55s/it]                                                           {'loss': 0.2492, 'grad_norm': 1.3654288053512573, 'learning_rate': 1.3389e-05, 'epoch': 29.01}
{'loss': 0.204, 'grad_norm': 1.511484980583191, 'learning_rate': 1.3392000000000002e-05, 'epoch': 29.01}
{'loss': 0.1623, 'grad_norm': 0.7241348624229431, 'learning_rate': 1.3395000000000001e-05, 'epoch': 29.02}
{'loss': 0.1404, 'grad_norm': 0.5594854354858398, 'learning_rate': 1.3398e-05, 'epoch': 29.03}
{'loss': 0.1189, 'grad_norm': 0.6243067383766174, 'learning_rate': 1.3401e-05, 'epoch': 29.03}
{'loss': 0.1166, 'grad_norm': 0.6255965232849121, 'learning_rate': 1.3403999999999999e-05, 'epoch': 29.04}
{'loss': 0.1257, 'grad_norm': 0.8928231000900269, 'learning_rate': 1.3407e-05, 'epoch': 29.05}
{'loss': 0.1189, 'grad_norm': 0.883475661277771, 'learning_rate': 1.341e-05, 'epoch': 29.05}
{'loss': 0.1233, 'grad_norm': 1.0961133241653442, 'learning_rate': 1.3413e-05, 'epoch': 29.06}
{'loss': 0.0849, 'grad_norm': 0.6722148060798645, 'learning_rate': 1.3416e-05, 'epoch': 29.06}
{'loss': 0.1082, 'grad_norm': 0.9426427483558655, 'learning_rate': 1.3419e-05, 'epoch': 29.07}
{'loss': 0.0805, 'grad_norm': 0.6917785406112671, 'learning_rate': 1.3422000000000001e-05, 'epoch': 29.08}
{'loss': 0.0821, 'grad_norm': 0.8856989145278931, 'learning_rate': 1.3425000000000001e-05, 'epoch': 29.08}
{'loss': 0.0558, 'grad_norm': 0.4767233729362488, 'learning_rate': 1.3428000000000001e-05, 'epoch': 29.09}
{'loss': 0.0775, 'grad_norm': 0.6593291163444519, 'learning_rate': 1.3431e-05, 'epoch': 29.1}
{'loss': 0.1233, 'grad_norm': 0.9035670161247253, 'learning_rate': 1.3433999999999999e-05, 'epoch': 29.1}
{'loss': 0.0744, 'grad_norm': 0.9418391585350037, 'learning_rate': 1.3437e-05, 'epoch': 29.11}
{'loss': 0.0634, 'grad_norm': 0.7727978229522705, 'learning_rate': 1.344e-05, 'epoch': 29.12}
{'loss': 0.0773, 'grad_norm': 0.7939252853393555, 'learning_rate': 1.3443e-05, 'epoch': 29.12}
{'loss': 0.0673, 'grad_norm': 0.7881439924240112, 'learning_rate': 1.3446e-05, 'epoch': 29.13}
{'loss': 0.0627, 'grad_norm': 0.6287757754325867, 'learning_rate': 1.3449e-05, 'epoch': 29.14}
{'loss': 0.0523, 'grad_norm': 0.8592125773429871, 'learning_rate': 1.3452000000000001e-05, 'epoch': 29.14}
{'loss': 0.1026, 'grad_norm': 1.215252161026001, 'learning_rate': 1.3455e-05, 'epoch': 29.15}
{'loss': 0.0662, 'grad_norm': 1.1871676445007324, 'learning_rate': 1.3458e-05, 'epoch': 29.16}
{'loss': 0.0667, 'grad_norm': 1.797897458076477, 'learning_rate': 1.3461e-05, 'epoch': 29.16}
{'loss': 0.0517, 'grad_norm': 0.9302417635917664, 'learning_rate': 1.3464e-05, 'epoch': 29.17}
{'loss': 0.052, 'grad_norm': 0.8155327439308167, 'learning_rate': 1.3467000000000002e-05, 'epoch': 29.18}
{'loss': 0.137, 'grad_norm': 5.187142372131348, 'learning_rate': 1.3470000000000001e-05, 'epoch': 29.18}
{'loss': 0.0515, 'grad_norm': 1.0602713823318481, 'learning_rate': 1.3473e-05, 'epoch': 29.19}
{'loss': 0.0542, 'grad_norm': 1.4093886613845825, 'learning_rate': 1.3476e-05, 'epoch': 29.19}
{'loss': 0.0505, 'grad_norm': 1.1318225860595703, 'learning_rate': 1.3479e-05, 'epoch': 29.2}
{'loss': 0.0402, 'grad_norm': 0.9861502051353455, 'learning_rate': 1.3482e-05, 'epoch': 29.21}
{'loss': 0.028, 'grad_norm': 0.6014944314956665, 'learning_rate': 1.3485e-05, 'epoch': 29.21}
{'loss': 0.0603, 'grad_norm': 1.6478079557418823, 'learning_rate': 1.3488e-05, 'epoch': 29.22}
{'loss': 0.066, 'grad_norm': 2.208874464035034, 'learning_rate': 1.3491e-05, 'epoch': 29.23}
{'loss': 0.0957, 'grad_norm': 1.6418641805648804, 'learning_rate': 1.3494e-05, 'epoch': 29.23}
{'loss': 0.0522, 'grad_norm': 1.396464228630066, 'learning_rate': 1.3497000000000001e-05, 'epoch': 29.24}
{'loss': 0.0543, 'grad_norm': 1.1269739866256714, 'learning_rate': 1.3500000000000001e-05, 'epoch': 29.25}
{'loss': 0.2814, 'grad_norm': 2.0433058738708496, 'learning_rate': 1.3503000000000001e-05, 'epoch': 29.25}
{'loss': 0.1961, 'grad_norm': 0.8256158232688904, 'learning_rate': 1.3506e-05, 'epoch': 29.26}
{'loss': 0.1928, 'grad_norm': 0.7559121251106262, 'learning_rate': 1.3508999999999999e-05, 'epoch': 29.27}
{'loss': 0.1777, 'grad_norm': 0.8750606179237366, 'learning_rate': 1.3512e-05, 'epoch': 29.27}
{'loss': 0.1308, 'grad_norm': 0.7478016018867493, 'learning_rate': 1.3515e-05, 'epoch': 29.28}
{'loss': 0.13, 'grad_norm': 0.7860391139984131, 'learning_rate': 1.3518e-05, 'epoch': 29.29}
{'loss': 0.1125, 'grad_norm': 0.7936200499534607, 'learning_rate': 1.3521e-05, 'epoch': 29.29}
{'loss': 0.1185, 'grad_norm': 0.9009530544281006, 'learning_rate': 1.3524e-05, 'epoch': 29.3}
{'loss': 0.1688, 'grad_norm': 0.9184311628341675, 'learning_rate': 1.3527000000000001e-05, 'epoch': 29.31}
{'loss': 0.0897, 'grad_norm': 0.7458061575889587, 'learning_rate': 1.3530000000000001e-05, 'epoch': 29.31}
{'loss': 0.0668, 'grad_norm': 0.7309168577194214, 'learning_rate': 1.3533e-05, 'epoch': 29.32}
{'loss': 0.0922, 'grad_norm': 0.8847863078117371, 'learning_rate': 1.3536e-05, 'epoch': 29.32}
{'loss': 0.1004, 'grad_norm': 0.7297860980033875, 'learning_rate': 1.3539e-05, 'epoch': 29.33}
{'loss': 0.0784, 'grad_norm': 1.5967134237289429, 'learning_rate': 1.3542000000000002e-05, 'epoch': 29.34}
{'loss': 0.0779, 'grad_norm': 0.8748092651367188, 'learning_rate': 1.3545e-05, 'epoch': 29.34}
{'loss': 0.0716, 'grad_norm': 1.0295573472976685, 'learning_rate': 1.3548e-05, 'epoch': 29.35}
{'loss': 0.0687, 'grad_norm': 0.7383063435554504, 'learning_rate': 1.3551e-05, 'epoch': 29.36}
{'loss': 0.0735, 'grad_norm': 0.7018437385559082, 'learning_rate': 1.3554e-05, 'epoch': 29.36}
{'loss': 0.0503, 'grad_norm': 0.6325172781944275, 'learning_rate': 1.3557e-05, 'epoch': 29.37}
{'loss': 0.0585, 'grad_norm': 0.9918721318244934, 'learning_rate': 1.356e-05, 'epoch': 29.38}
{'loss': 0.1224, 'grad_norm': 1.0697407722473145, 'learning_rate': 1.3563e-05, 'epoch': 29.38}
{'loss': 0.0542, 'grad_norm': 0.7327952980995178, 'learning_rate': 1.3566e-05, 'epoch': 29.39}
{'loss': 0.1179, 'grad_norm': 1.8970892429351807, 'learning_rate': 1.3569e-05, 'epoch': 29.4}
{'loss': 0.0814, 'grad_norm': 0.92253178358078, 'learning_rate': 1.3572000000000002e-05, 'epoch': 29.4}
{'loss': 0.0655, 'grad_norm': 0.7921541333198547, 'learning_rate': 1.3575000000000001e-05, 'epoch': 29.41}
{'loss': 0.0643, 'grad_norm': 0.9238033294677734, 'learning_rate': 1.3578000000000001e-05, 'epoch': 29.42}
{'loss': 0.0587, 'grad_norm': 1.1507281064987183, 'learning_rate': 1.3581000000000001e-05, 'epoch': 29.42}
{'loss': 0.0517, 'grad_norm': 0.8354796767234802, 'learning_rate': 1.3583999999999999e-05, 'epoch': 29.43}
{'loss': 0.0461, 'grad_norm': 1.3374885320663452, 'learning_rate': 1.3587e-05, 'epoch': 29.44}
{'loss': 0.0447, 'grad_norm': 0.8384568691253662, 'learning_rate': 1.359e-05, 'epoch': 29.44}
{'loss': 0.0503, 'grad_norm': 1.977921962738037, 'learning_rate': 1.3593e-05, 'epoch': 29.45}
{'loss': 0.0595, 'grad_norm': 1.5825507640838623, 'learning_rate': 1.3596e-05, 'epoch': 29.45}
{'loss': 0.0319, 'grad_norm': 0.9959651231765747, 'learning_rate': 1.3599e-05, 'epoch': 29.46}
{'loss': 0.0375, 'grad_norm': 3.046444892883301, 'learning_rate': 1.3602000000000001e-05, 'epoch': 29.47}
{'loss': 0.0411, 'grad_norm': 0.741223156452179, 'learning_rate': 1.3605000000000001e-05, 'epoch': 29.47}
{'loss': 0.063, 'grad_norm': 1.6851778030395508, 'learning_rate': 1.3608e-05, 'epoch': 29.48}
{'loss': 0.0498, 'grad_norm': 1.2510294914245605, 'learning_rate': 1.3611e-05, 'epoch': 29.49}
{'loss': 0.0521, 'grad_norm': 1.651628017425537, 'learning_rate': 1.3614e-05, 'epoch': 29.49}
{'loss': 0.238, 'grad_norm': 1.152978777885437, 'learning_rate': 1.3617000000000002e-05, 'epoch': 29.5}
{'loss': 0.2136, 'grad_norm': 0.8663762807846069, 'learning_rate': 1.362e-05, 'epoch': 29.51}
{'loss': 0.1509, 'grad_norm': 0.6594489812850952, 'learning_rate': 1.3623e-05, 'epoch': 29.51}
{'loss': 0.1704, 'grad_norm': 1.0032662153244019, 'learning_rate': 1.3626e-05, 'epoch': 29.52}
{'loss': 0.1312, 'grad_norm': 0.7353255152702332, 'learning_rate': 1.3629e-05, 'epoch': 29.53}
{'loss': 0.1337, 'grad_norm': 0.7039512991905212, 'learning_rate': 1.3632000000000001e-05, 'epoch': 29.53}
{'loss': 0.1448, 'grad_norm': 0.925941526889801, 'learning_rate': 1.3635e-05, 'epoch': 29.54}
  5%|▍         | 4550/100000 [2:45:21<94:01:16,  3.55s/it]  5%|▍         | 4551/100000 [2:45:23<84:11:56,  3.18s/it]                                                            5%|▍         | 4551/100000 [2:45:23<84:11:56,  3.18s/it]  5%|▍         | 4552/100000 [2:45:25<75:02:55,  2.83s/it]                                                            5%|▍         | 4552/100000 [2:45:25<75:02:55,  2.83s/it]  5%|▍         | 4553/100000 [2:45:27<67:59:25,  2.56s/it]                                                            5%|▍         | 4553/100000 [2:45:27<67:59:25,  2.56s/it]  5%|▍         | 4554/100000 [2:45:29<61:13:26,  2.31s/it]                                                            5%|▍         | 4554/100000 [2:45:29<61:13:26,  2.31s/it]  5%|▍         | 4555/100000 [2:45:31<56:02:46,  2.11s/it]                                                            5%|▍         | 4555/100000 [2:45:31<56:02:46,  2.11s/it]  5%|▍         | 4556/100000 [2:45:32<51:51:44,  1.96s/it]                                                            5%|▍         | 4556/100000 [2:45:32<51:51:44,  1.96s/it]  5%|▍         | 4557/100000 [2:45:34<48:36:24,  1.83s/it]                                                            5%|▍         | 4557/100000 [2:45:34<48:36:24,  1.83s/it]  5%|▍         | 4558/100000 [2:45:35<45:30:54,  1.72s/it]                                                            5%|▍         | 4558/100000 [2:45:35<45:30:54,  1.72s/it]  5%|▍         | 4559/100000 [2:45:37<42:58:10,  1.62s/it]                                                            5%|▍         | 4559/100000 [2:45:37<42:58:10,  1.62s/it]  5%|▍         | 4560/100000 [2:45:38<40:37:13,  1.53s/it]                                                            5%|▍         | 4560/100000 [2:45:38<40:37:13,  1.53s/it]  5%|▍         | 4561/100000 [2:45:39<38:44:57,  1.46s/it]                                                            5%|▍         | 4561/100000 [2:45:39<38:44:57,  1.46s/it]  5%|▍         | 4562/100000 [2:45:40<36:41:14,  1.38s/it]                                                            5%|▍         | 4562/100000 [2:45:40<36:41:14,  1.38s/it]  5%|▍         | 4563/100000 [2:45:42<34:35:05,  1.30s/it]                                                            5%|▍         | 4563/100000 [2:45:42<34:35:05,  1.30s/it]  5%|▍         | 4564/100000 [2:45:43<32:45:06,  1.24s/it]                                                            5%|▍         | 4564/100000 [2:45:43<32:45:06,  1.24s/it]  5%|▍         | 4565/100000 [2:45:44<31:20:11,  1.18s/it]                                                            5%|▍         | 4565/100000 [2:45:44<31:20:11,  1.18s/it]  5%|▍         | 4566/100000 [2:45:45<29:49:08,  1.12s/it]                                                            5%|▍         | 4566/100000 [2:45:45<29:49:08,  1.12s/it]  5%|▍         | 4567/100000 [2:45:46<28:19:46,  1.07s/it]                                                            5%|▍         | 4567/100000 [2:45:46<28:19:46,  1.07s/it]  5%|▍         | 4568/100000 [2:45:47<27:23:46,  1.03s/it]                                                            5%|▍         | 4568/100000 [2:45:47<27:23:46,  1.03s/it]  5%|▍         | 4569/100000 [2:45:47<26:18:46,  1.01it/s]                                                            5%|▍         | 4569/100000 [2:45:47<26:18:46,  1.01it/s]  5%|▍         | 4570/100000 [2:45:48<25:38:00,  1.03it/s]                                                            5%|▍         | 4570/100000 [2:45:48<25:38:00,  1.03it/s]  5%|▍         | 4571/100000 [2:45:49<24:36:32,  1.08it/s]                                                            5%|▍         | 4571/100000 [2:45:49<24:36:32,  1.08it/s]  5%|▍         | 4572/100000 [2:45:50<23:45:05,  1.12it/s]                                                            5%|▍         | 4572/100000 [2:45:50<23:45:05,  1.12it/s]  5%|▍         | 4573/100000 [2:45:51<23:24:56,  1.13it/s]                                                            5%|▍         | 4573/100000 [2:45:51<23:24:56,  1.13it/s]  5%|▍         | 4574/100000 [2:45:52<22:48:19,  1.16it/s]                                                            5%|▍         | 4574/100000 [2:45:52<22:48:19,  1.16it/s]  5%|▍         | 4575/100000 [2:45:52<22:10:23,  1.20it/s]                                                            5%|▍         | 4575/100000 [2:45:52<22:10:23,  1.20it/s]  5%|▍         | 4576/100000 [2:45:53<21:30:25,  1.23it/s]                                                            5%|▍         | 4576/100000 [2:45:53<21:30:25,  1.23it/s]  5%|▍         | 4577/100000 [2:45:54<21:26:33,  1.24it/s]                                                            5%|▍         | 4577/100000 [2:45:54<21:26:33,  1.24it/s]  5%|▍         | 4578/100000 [2:45:55<21:08:24,  1.25it/s]                                                            5%|▍         | 4578/100000 [2:45:55<21:08:24,  1.25it/s]  5%|▍         | 4579/100000 [2:45:55<20:22:56,  1.30it/s]                                                            5%|▍         | 4579/100000 [2:45:55<20:22:56,  1.30it/s]  5%|▍         | 4580/100000 [2:45:56<19:42:43,  1.34it/s]                                                            5%|▍         | 4580/100000 [2:45:56<19:42:43,  1.34it/s]  5%|▍         | 4581/100000 [2:46:08<109:02:51,  4.11s/it]                                                             5%|▍         | 4581/100000 [2:46:08<109:02:51,  4.11s/it]  5%|▍         | 4582/100000 [2:46:16<138:35:25,  5.23s/it]                                                             5%|▍         | 4582/100000 [2:46:16<138:35:25,  5.23s/it]  5%|▍         | 4583/100000 [2:46:22<141:21:35,  5.33s/it]                                                             5%|▍         | 4583/100000 [2:46:22<141:21:35,  5.33s/it]  5%|▍         | 4584/100000 [2:46:26<136:34:32,  5.15s/it]                                                             5%|▍         | 4584/100000 [2:46:26<136:34:32,  5.15s/it]  5%|▍         | 4585/100000 [2:46:30<127:59:56,  4.83s/it]                                                             5%|▍         | 4585/100000 [2:46:30<127:59:56,  4.83s/it]  5%|▍         | 4586/100000 [2:46:34<118:17:07,  4.46s/it]                                                             5%|▍         | 4586/100000 [2:46:34<118:17:07,  4.46s/it]  5%|▍         | 4587/100000 [2:46:37<107:51:05,  4.07s/it]                                                             5%|▍         | 4587/100000 [2:46:37<107:51:05,  4.07s/it]  5%|▍         | 4588/100000 [2:46:40<95:14:14,  3.59s/it]                                                             5%|▍         | 4588/100000 [2:46:40<95:14:14,  3.59s/it]  5%|▍         | 4589/100000 [2:46:42<85:07:08,  3.21s/it]                                                            5%|▍         | 4589/100000 [2:46:42<85:07:08,  3.21s/it]  5%|▍         | 4590/100000 [2:46:44<77:03:27,  2.91s/it]                                                            5%|▍         | 4590/100000 [2:46:44<77:03:27,  2.91s/it]  5%|▍         | 4591/100000 [2:46:46<69:58:58,  2.64s/it]                                                            5%|▍         | 4591/100000 [2:46:46<69:58:58,  2.64s/it]  5%|▍         | 4592/100000 [2:46:48<64:14:39,  2.42s/it]                                                            5%|▍         | 4592/100000 [2:46:48<64:14:39,  2.42s/it]  5%|▍         | 4593/100000 [2:46:50<58:40:08,  2.21s/it]                                                            5%|▍         | 4593/100000 [2:46:50<58:40:08,  2.21s/it]  5%|▍         | 4594/100000 [2:46:51<54:26:18,  2.05s/it]                                                            5%|▍         | 4594/100000 [2:46:51<54:26:18,  2.05s/it]  5%|▍         | 4595/100000 [2:46:53<50:34:46,  1.91s/it]                                                            5%|▍         | 4595/100000 [2:46:53<50:34:46,  1.91s/it]  5%|▍         | 4596/100000 [2:46:55<47:24:03,  1.79s/it]                                                            5%|▍         | 4596/100000 [2:46:55<47:24:03,  1.79s/it]  5%|▍         | 4597/100000 [2:46:56<44:17:51,  1.67s/it]                                                            5%|▍         | 4597/100000 [2:46:56<44:17:51,  1.67s/it]  5%|▍         | 4598/100000 [2:46:57<41:24:59,  1.56s/it]                                                            5%|▍         | 4598/100000 [2:46:57<41:24:59,  1.56s/it]  5%|▍         | 4599/100000 [2:46:59<39:29:18,  1.49s/it]                                                            5%|▍         | 4599/100000 [2:46:59<39:29:18,  1.49s/it]  5%|▍         | 4600/100000 [2:47:00<37:19:28,  1.41s/it]                                                            5%|▍         | 4600/100000 [2:47:00<37:19:28,  1.41s/it]  5%|▍         | 4601/100000 [2:47:01<35:37:53,  1.34s/it]                                                            5%|▍         | 4601/100000 [2:47:01<35:37:53,  1.34s/it]  5%|▍         | 4602/100000 [2:47:02<33:40:17,  1.27s/it]                                                            5%|▍         | 4602/100000 [2:47:02<33:40:17,  1.27s/it]  5%|▍         | 4603/100000 [2:47:03<32:01:41,  1.21s/it]                                                            5%|▍         | 4603/100000 [2:47:03<32:01:41,  1.21s/it]  5%|▍         | 4604/100000 [2:47:04<30:14:08,  1.14s/it]                                                            5%|▍         | 4604/100000 [2:47:04<30:14:08,  1.14s/it]  5%|▍         | 4605/100000 [2:47:05<28:35:47,  1.08s/it]                                                            5%|▍         | 4605/100000 [2:47:05<28:35:47,  1.08s/it]  5%|▍         | 4606/100000 [2:47:06<27:15:48,  1.03s/it]                                                            5%|▍         | 4606/100000 [2:47:06<27:15:48,  1.03s/it]  5%|▍         | 4607/100000 [2:47:07<26:13:57,  1.01it/s]                                                            5%|▍         | 4607/100000 [2:47:07<26:13:57,  1.01it/s]  5%|▍         | 4608/100000 [2:47:08<25:09:10,  1.05it/s]                                                            5%|▍         | 4608/100000 [2:47:08<25:09:10,  1.05it/s]  5%|▍         | 4609/100000 [2:47:09<24:16:36,  1.09it/s]                                                            5%|▍         | 4609/100000 [2:47:09<24:16:36,  1.09it/s]  5%|▍         | 4610/100000 [2:47:09<23:12:47,  1.14it/s]                                                            5%|▍         | 4610/100000 [2:47:09<23:12:47,  1.14it/s]  5%|▍         | 4611/100000 [2:47:10<22:17:17,  1.19it/s]                                                            5%|▍         | 4611/100000 [2:47:10<22:17:17,  1.19it/s]  5%|▍         | 4612/100000 [2:47:11<21:40:55,  1.22it/s]                                                            5%|▍         | 4612/100000 [2:47:11<21:40:55,  1.22it/s]  5%|▍         | 4613/100000 [2:47:12<20:59:03,  1.26it/s]                                                            5%|▍         | 4613/100000 [2:47:12<20:59:03,  1.26it/s]  5%|▍         | 4614/100000 [2:47:12<20:23:13,  1.30it/s]                                                            5%|▍         | 4614/100000 [2:47:12<20:23:13,  1.30it/s]  5%|▍         | 4615/100000 [2:47:13<19:32:40,  1.36it/s]                                                            5%|▍         | 4615/100000 [2:47:13<19:32:40,  1.36it/s]  5%|▍         | 4616/100000 [2:47:14<18:42:32,  1.42it/s]                                                            5%|▍         | 4616/100000 [2:47:14<18:42:32,  1.42it/s]  5%|▍         | 4617/100000 [2:47:14<18:07:56,  1.46it/s]                                                            5%|▍         | 4617/100000 [2:47:14<18:07:56,  1.46it/s]  5%|▍         | 4618/100000 [2:47:15<17:29:06,  1.52it/s]                                                            5%|▍         | 4618/100000 [2:47:15<17:29:06,  1.52it/s]  5%|▍         | 4619/100000 [2:47:23<77:23:09,  2.92s/it]                                                            5%|▍         | 4619/100000 [2:47:23<77:23:09,  2.92s/it]  5%|▍         | 4620/100000 [2:47:25<66:23:58,  2.51s/it]                                                            5%|▍         | 4620/100000 [2:47:25<66:23:58,  2.51s/it]{'loss': 0.1198, 'grad_norm': 0.6937835812568665, 'learning_rate': 1.3638e-05, 'epoch': 29.55}
{'loss': 0.1092, 'grad_norm': 0.7902761697769165, 'learning_rate': 1.3641e-05, 'epoch': 29.55}
{'loss': 0.1056, 'grad_norm': 0.5206705927848816, 'learning_rate': 1.3644e-05, 'epoch': 29.56}
{'loss': 0.102, 'grad_norm': 0.7292296290397644, 'learning_rate': 1.3647000000000002e-05, 'epoch': 29.56}
{'loss': 0.1211, 'grad_norm': 0.871569812297821, 'learning_rate': 1.3650000000000001e-05, 'epoch': 29.57}
{'loss': 0.0802, 'grad_norm': 0.8523483276367188, 'learning_rate': 1.3653000000000001e-05, 'epoch': 29.58}
{'loss': 0.0828, 'grad_norm': 0.5639498829841614, 'learning_rate': 1.3656e-05, 'epoch': 29.58}
{'loss': 0.0999, 'grad_norm': 1.3578310012817383, 'learning_rate': 1.3659e-05, 'epoch': 29.59}
{'loss': 0.0607, 'grad_norm': 0.7930300831794739, 'learning_rate': 1.3662e-05, 'epoch': 29.6}
{'loss': 0.0782, 'grad_norm': 0.6671005487442017, 'learning_rate': 1.3665e-05, 'epoch': 29.6}
{'loss': 0.0626, 'grad_norm': 0.7606794834136963, 'learning_rate': 1.3668e-05, 'epoch': 29.61}
{'loss': 0.0529, 'grad_norm': 0.7164478898048401, 'learning_rate': 1.3671e-05, 'epoch': 29.62}
{'loss': 0.1054, 'grad_norm': 0.8557323813438416, 'learning_rate': 1.3674e-05, 'epoch': 29.62}
{'loss': 0.0778, 'grad_norm': 0.8256477117538452, 'learning_rate': 1.3677000000000001e-05, 'epoch': 29.63}
{'loss': 0.0572, 'grad_norm': 1.0043216943740845, 'learning_rate': 1.3680000000000001e-05, 'epoch': 29.64}
{'loss': 0.0596, 'grad_norm': 1.205782175064087, 'learning_rate': 1.3683000000000001e-05, 'epoch': 29.64}
{'loss': 0.0865, 'grad_norm': 1.011041283607483, 'learning_rate': 1.3686e-05, 'epoch': 29.65}
{'loss': 0.0565, 'grad_norm': 1.0038586854934692, 'learning_rate': 1.3689e-05, 'epoch': 29.66}
{'loss': 0.0382, 'grad_norm': 0.6381617784500122, 'learning_rate': 1.3691999999999999e-05, 'epoch': 29.66}
{'loss': 0.0448, 'grad_norm': 0.859695315361023, 'learning_rate': 1.3695e-05, 'epoch': 29.67}
{'loss': 0.0857, 'grad_norm': 1.0611263513565063, 'learning_rate': 1.3698e-05, 'epoch': 29.68}
{'loss': 0.0982, 'grad_norm': 2.2423107624053955, 'learning_rate': 1.3701e-05, 'epoch': 29.68}
{'loss': 0.0565, 'grad_norm': 1.5598864555358887, 'learning_rate': 1.3704e-05, 'epoch': 29.69}
{'loss': 0.0351, 'grad_norm': 0.796387255191803, 'learning_rate': 1.3707e-05, 'epoch': 29.69}
{'loss': 0.0651, 'grad_norm': 1.5034509897232056, 'learning_rate': 1.3710000000000001e-05, 'epoch': 29.7}
{'loss': 0.0289, 'grad_norm': 0.8169642090797424, 'learning_rate': 1.3713e-05, 'epoch': 29.71}
{'loss': 0.0325, 'grad_norm': 1.1170703172683716, 'learning_rate': 1.3716e-05, 'epoch': 29.71}
{'loss': 0.0709, 'grad_norm': 2.480978012084961, 'learning_rate': 1.3719e-05, 'epoch': 29.72}
{'loss': 0.0662, 'grad_norm': 2.0321099758148193, 'learning_rate': 1.3722e-05, 'epoch': 29.73}
{'loss': 0.0527, 'grad_norm': 1.3978729248046875, 'learning_rate': 1.3725000000000002e-05, 'epoch': 29.73}
{'loss': 0.1534, 'grad_norm': 2.4914908409118652, 'learning_rate': 1.3728000000000001e-05, 'epoch': 29.74}
{'loss': 0.2561, 'grad_norm': 1.224976897239685, 'learning_rate': 1.3731e-05, 'epoch': 29.75}
{'loss': 0.1774, 'grad_norm': 1.0703057050704956, 'learning_rate': 1.3734e-05, 'epoch': 29.75}
{'loss': 0.1857, 'grad_norm': 0.790722131729126, 'learning_rate': 1.3736999999999999e-05, 'epoch': 29.76}
{'loss': 0.1499, 'grad_norm': 0.7561639547348022, 'learning_rate': 1.374e-05, 'epoch': 29.77}
{'loss': 0.1482, 'grad_norm': 1.565095067024231, 'learning_rate': 1.3743e-05, 'epoch': 29.77}
{'loss': 0.1271, 'grad_norm': 1.0672026872634888, 'learning_rate': 1.3746e-05, 'epoch': 29.78}
{'loss': 0.0972, 'grad_norm': 0.8734769225120544, 'learning_rate': 1.3749e-05, 'epoch': 29.79}
{'loss': 0.125, 'grad_norm': 0.9294219017028809, 'learning_rate': 1.3752e-05, 'epoch': 29.79}
{'loss': 0.096, 'grad_norm': 0.9803280234336853, 'learning_rate': 1.3755000000000001e-05, 'epoch': 29.8}
{'loss': 0.1053, 'grad_norm': 0.754086971282959, 'learning_rate': 1.3758000000000001e-05, 'epoch': 29.81}
{'loss': 0.1033, 'grad_norm': 0.7129412889480591, 'learning_rate': 1.3761000000000001e-05, 'epoch': 29.81}
{'loss': 0.0929, 'grad_norm': 0.760847270488739, 'learning_rate': 1.3764e-05, 'epoch': 29.82}
{'loss': 0.1103, 'grad_norm': 0.790314793586731, 'learning_rate': 1.3766999999999999e-05, 'epoch': 29.82}
{'loss': 0.0718, 'grad_norm': 0.7577985525131226, 'learning_rate': 1.377e-05, 'epoch': 29.83}
{'loss': 0.076, 'grad_norm': 0.7881470322608948, 'learning_rate': 1.3773e-05, 'epoch': 29.84}
{'loss': 0.0616, 'grad_norm': 1.3903443813323975, 'learning_rate': 1.3776e-05, 'epoch': 29.84}
{'loss': 0.0596, 'grad_norm': 0.6722569465637207, 'learning_rate': 1.3779e-05, 'epoch': 29.85}
{'loss': 0.1137, 'grad_norm': 1.5526015758514404, 'learning_rate': 1.3782e-05, 'epoch': 29.86}
{'loss': 0.0651, 'grad_norm': 0.7724618911743164, 'learning_rate': 1.3785000000000001e-05, 'epoch': 29.86}
{'loss': 0.0636, 'grad_norm': 1.3136558532714844, 'learning_rate': 1.3788e-05, 'epoch': 29.87}
{'loss': 0.0731, 'grad_norm': 0.6349177956581116, 'learning_rate': 1.3791e-05, 'epoch': 29.88}
{'loss': 0.0734, 'grad_norm': 0.8690415024757385, 'learning_rate': 1.3794e-05, 'epoch': 29.88}
{'loss': 0.0647, 'grad_norm': 2.2298641204833984, 'learning_rate': 1.3797e-05, 'epoch': 29.89}
{'loss': 0.0614, 'grad_norm': 0.9403302669525146, 'learning_rate': 1.3800000000000002e-05, 'epoch': 29.9}
{'loss': 0.0579, 'grad_norm': 0.9721440076828003, 'learning_rate': 1.3803e-05, 'epoch': 29.9}
{'loss': 0.0564, 'grad_norm': 0.885632336139679, 'learning_rate': 1.3806e-05, 'epoch': 29.91}
{'loss': 0.1068, 'grad_norm': 1.35715651512146, 'learning_rate': 1.3809e-05, 'epoch': 29.92}
{'loss': 0.0748, 'grad_norm': 1.5566595792770386, 'learning_rate': 1.3812e-05, 'epoch': 29.92}
{'loss': 0.0722, 'grad_norm': 2.5682036876678467, 'learning_rate': 1.3815e-05, 'epoch': 29.93}
{'loss': 0.0626, 'grad_norm': 1.2224769592285156, 'learning_rate': 1.3818e-05, 'epoch': 29.94}
{'loss': 0.0382, 'grad_norm': 1.1346944570541382, 'learning_rate': 1.3821e-05, 'epoch': 29.94}
{'loss': 0.1228, 'grad_norm': 2.152695655822754, 'learning_rate': 1.3824e-05, 'epoch': 29.95}
{'loss': 0.0555, 'grad_norm': 1.082676649093628, 'learning_rate': 1.3827e-05, 'epoch': 29.95}
{'loss': 0.0686, 'grad_norm': 1.1753718852996826, 'learning_rate': 1.3830000000000001e-05, 'epoch': 29.96}
{'loss': 0.0602, 'grad_norm': 3.267191171646118, 'learning_rate': 1.3833000000000001e-05, 'epoch': 29.97}
{'loss': 0.0444, 'grad_norm': 1.2166613340377808, 'learning_rate': 1.3836000000000001e-05, 'epoch': 29.97}
{'loss': 0.04, 'grad_norm': 1.2222003936767578, 'learning_rate': 1.3839e-05, 'epoch': 29.98}
{'loss': 0.0655, 'grad_norm': 2.091024875640869, 'learning_rate': 1.3841999999999999e-05, 'epoch': 29.99}
{'loss': 0.1136, 'grad_norm': 0.8335068821907043, 'learning_rate': 1.3845e-05, 'epoch': 29.99}
{'loss': 0.1411, 'grad_norm': 1.3664684295654297, 'learning_rate': 1.3848e-05, 'epoch': 30.0}
  5%|▍         | 4621/100000 [2:47:42<183:51:27,  6.94s/it]                                                             5%|▍         | 4621/100000 [2:47:42<183:51:27,  6.94s/it]  5%|▍         | 4622/100000 [2:47:50<195:45:53,  7.39s/it]                                                             5%|▍         | 4622/100000 [2:47:50<195:45:53,  7.39s/it]  5%|▍         | 4623/100000 [2:47:55<175:29:16,  6.62s/it]                                                             5%|▍         | 4623/100000 [2:47:55<175:29:16,  6.62s/it]  5%|▍         | 4624/100000 [2:48:00<159:34:37,  6.02s/it]                                                             5%|▍         | 4624/100000 [2:48:00<159:34:37,  6.02s/it]  5%|▍         | 4625/100000 [2:48:04<141:52:07,  5.35s/it]                                                             5%|▍         | 4625/100000 [2:48:04<141:52:07,  5.35s/it]  5%|▍         | 4626/100000 [2:48:07<126:31:35,  4.78s/it]                                                             5%|▍         | 4626/100000 [2:48:07<126:31:35,  4.78s/it]  5%|▍         | 4627/100000 [2:48:10<113:18:48,  4.28s/it]                                                             5%|▍         | 4627/100000 [2:48:10<113:18:48,  4.28s/it]  5%|▍         | 4628/100000 [2:48:13<100:52:03,  3.81s/it]                                                             5%|▍         | 4628/100000 [2:48:13<100:52:03,  3.81s/it]  5%|▍         | 4629/100000 [2:48:15<89:39:07,  3.38s/it]                                                             5%|▍         | 4629/100000 [2:48:15<89:39:07,  3.38s/it]  5%|▍         | 4630/100000 [2:48:17<80:08:31,  3.03s/it]                                                            5%|▍         | 4630/100000 [2:48:17<80:08:31,  3.03s/it]  5%|▍         | 4631/100000 [2:48:19<72:13:47,  2.73s/it]                                                            5%|▍         | 4631/100000 [2:48:19<72:13:47,  2.73s/it]  5%|▍         | 4632/100000 [2:48:21<65:50:59,  2.49s/it]                                                            5%|▍         | 4632/100000 [2:48:21<65:50:59,  2.49s/it]  5%|▍         | 4633/100000 [2:48:23<60:02:53,  2.27s/it]                                                            5%|▍         | 4633/100000 [2:48:23<60:02:53,  2.27s/it]  5%|▍         | 4634/100000 [2:48:25<54:43:57,  2.07s/it]                                                            5%|▍         | 4634/100000 [2:48:25<54:43:57,  2.07s/it]  5%|▍         | 4635/100000 [2:48:26<50:48:55,  1.92s/it]                                                            5%|▍         | 4635/100000 [2:48:26<50:48:55,  1.92s/it]  5%|▍         | 4636/100000 [2:48:28<47:11:24,  1.78s/it]                                                            5%|▍         | 4636/100000 [2:48:28<47:11:24,  1.78s/it]  5%|▍         | 4637/100000 [2:48:29<43:54:18,  1.66s/it]                                                            5%|▍         | 4637/100000 [2:48:29<43:54:18,  1.66s/it]  5%|▍         | 4638/100000 [2:48:30<41:34:49,  1.57s/it]                                                            5%|▍         | 4638/100000 [2:48:30<41:34:49,  1.57s/it]  5%|▍         | 4639/100000 [2:48:32<39:14:29,  1.48s/it]                                                            5%|▍         | 4639/100000 [2:48:32<39:14:29,  1.48s/it]  5%|▍         | 4640/100000 [2:48:33<37:26:57,  1.41s/it]                                                            5%|▍         | 4640/100000 [2:48:33<37:26:57,  1.41s/it]  5%|▍         | 4641/100000 [2:48:34<35:38:19,  1.35s/it]                                                            5%|▍         | 4641/100000 [2:48:34<35:38:19,  1.35s/it]  5%|▍         | 4642/100000 [2:48:35<33:50:43,  1.28s/it]                                                            5%|▍         | 4642/100000 [2:48:35<33:50:43,  1.28s/it]  5%|▍         | 4643/100000 [2:48:36<32:20:19,  1.22s/it]                                                            5%|▍         | 4643/100000 [2:48:36<32:20:19,  1.22s/it]  5%|▍         | 4644/100000 [2:48:37<31:00:22,  1.17s/it]                                                            5%|▍         | 4644/100000 [2:48:37<31:00:22,  1.17s/it]  5%|▍         | 4645/100000 [2:48:38<29:39:16,  1.12s/it]                                                            5%|▍         | 4645/100000 [2:48:38<29:39:16,  1.12s/it]  5%|▍         | 4646/100000 [2:48:39<28:39:55,  1.08s/it]                                                            5%|▍         | 4646/100000 [2:48:39<28:39:55,  1.08s/it]  5%|▍         | 4647/100000 [2:48:40<27:50:50,  1.05s/it]                                                            5%|▍         | 4647/100000 [2:48:40<27:50:50,  1.05s/it]  5%|▍         | 4648/100000 [2:48:41<26:53:15,  1.02s/it]                                                            5%|▍         | 4648/100000 [2:48:41<26:53:15,  1.02s/it]  5%|▍         | 4649/100000 [2:48:42<26:15:07,  1.01it/s]                                                            5%|▍         | 4649/100000 [2:48:42<26:15:07,  1.01it/s]  5%|▍         | 4650/100000 [2:48:43<25:39:04,  1.03it/s]                                                            5%|▍         | 4650/100000 [2:48:43<25:39:04,  1.03it/s]  5%|▍         | 4651/100000 [2:48:44<24:56:49,  1.06it/s]                                                            5%|▍         | 4651/100000 [2:48:44<24:56:49,  1.06it/s]  5%|▍         | 4652/100000 [2:48:45<24:02:05,  1.10it/s]                                                            5%|▍         | 4652/100000 [2:48:45<24:02:05,  1.10it/s]  5%|▍         | 4653/100000 [2:48:46<23:23:15,  1.13it/s]                                                            5%|▍         | 4653/100000 [2:48:46<23:23:15,  1.13it/s]  5%|▍         | 4654/100000 [2:48:47<22:40:41,  1.17it/s]                                                            5%|▍         | 4654/100000 [2:48:47<22:40:41,  1.17it/s]  5%|▍         | 4655/100000 [2:48:47<22:05:46,  1.20it/s]                                                            5%|▍         | 4655/100000 [2:48:47<22:05:46,  1.20it/s]  5%|▍         | 4656/100000 [2:48:48<21:28:27,  1.23it/s]                                                            5%|▍         | 4656/100000 [2:48:48<21:28:27,  1.23it/s]  5%|▍         | 4657/100000 [2:48:49<20:13:10,  1.31it/s]                                                            5%|▍         | 4657/100000 [2:48:49<20:13:10,  1.31it/s]  5%|▍         | 4658/100000 [2:48:49<20:06:24,  1.32it/s]                                                            5%|▍         | 4658/100000 [2:48:49<20:06:24,  1.32it/s]  5%|▍         | 4659/100000 [2:49:03<118:14:34,  4.46s/it]                                                             5%|▍         | 4659/100000 [2:49:03<118:14:34,  4.46s/it]  5%|▍         | 4660/100000 [2:49:10<145:08:31,  5.48s/it]                                                             5%|▍         | 4660/100000 [2:49:10<145:08:31,  5.48s/it]  5%|▍         | 4661/100000 [2:49:16<143:18:26,  5.41s/it]                                                             5%|▍         | 4661/100000 [2:49:16<143:18:26,  5.41s/it]  5%|▍         | 4662/100000 [2:49:20<138:05:19,  5.21s/it]                                                             5%|▍         | 4662/100000 [2:49:20<138:05:19,  5.21s/it]  5%|▍         | 4663/100000 [2:49:25<129:42:04,  4.90s/it]                                                             5%|▍         | 4663/100000 [2:49:25<129:42:04,  4.90s/it]  5%|▍         | 4664/100000 [2:49:28<119:54:14,  4.53s/it]                                                             5%|▍         | 4664/100000 [2:49:28<119:54:14,  4.53s/it]  5%|▍         | 4665/100000 [2:49:31<108:46:18,  4.11s/it]                                                             5%|▍         | 4665/100000 [2:49:31<108:46:18,  4.11s/it]  5%|▍         | 4666/100000 [2:49:34<96:46:18,  3.65s/it]                                                             5%|▍         | 4666/100000 [2:49:34<96:46:18,  3.65s/it]  5%|▍         | 4667/100000 [2:49:36<86:50:32,  3.28s/it]                                                            5%|▍         | 4667/100000 [2:49:36<86:50:32,  3.28s/it]  5%|▍         | 4668/100000 [2:49:39<77:59:34,  2.95s/it]                                                            5%|▍         | 4668/100000 [2:49:39<77:59:34,  2.95s/it]  5%|▍         | 4669/100000 [2:49:41<70:17:57,  2.65s/it]                                                            5%|▍         | 4669/100000 [2:49:41<70:17:57,  2.65s/it]  5%|▍         | 4670/100000 [2:49:42<63:42:07,  2.41s/it]                                                            5%|▍         | 4670/100000 [2:49:42<63:42:07,  2.41s/it]  5%|▍         | 4671/100000 [2:49:44<57:48:22,  2.18s/it]                                                            5%|▍         | 4671/100000 [2:49:44<57:48:22,  2.18s/it]  5%|▍         | 4672/100000 [2:49:46<53:28:02,  2.02s/it]                                                            5%|▍         | 4672/100000 [2:49:46<53:28:02,  2.02s/it]  5%|▍         | 4673/100000 [2:49:47<49:54:07,  1.88s/it]                                                            5%|▍         | 4673/100000 [2:49:47<49:54:07,  1.88s/it]  5%|▍         | 4674/100000 [2:49:49<46:31:55,  1.76s/it]                                                            5%|▍         | 4674/100000 [2:49:49<46:31:55,  1.76s/it]  5%|▍         | 4675/100000 [2:49:50<43:50:05,  1.66s/it]                                                            5%|▍         | 4675/100000 [2:49:50<43:50:05,  1.66s/it]  5%|▍         | 4676/100000 [2:49:51<41:28:56,  1.57s/it]                                                            5%|▍         | 4676/100000 [2:49:51<41:28:56,  1.57s/it]  5%|▍         | 4677/100000 [2:49:53<39:06:52,  1.48s/it]                                                            5%|▍         | 4677/100000 [2:49:53<39:06:52,  1.48s/it]  5%|▍         | 4678/100000 [2:49:54<37:15:53,  1.41s/it]                                                            5%|▍         | 4678/100000 [2:49:54<37:15:53,  1.41s/it]  5%|▍         | 4679/100000 [2:49:55<35:13:35,  1.33s/it]                                                            5%|▍         | 4679/100000 [2:49:55<35:13:35,  1.33s/it]  5%|▍         | 4680/100000 [2:49:56<33:33:03,  1.27s/it]                                                            5%|▍         | 4680/100000 [2:49:56<33:33:03,  1.27s/it]  5%|▍         | 4681/100000 [2:49:57<31:49:40,  1.20s/it]                                                            5%|▍         | 4681/100000 [2:49:57<31:49:40,  1.20s/it]  5%|▍         | 4682/100000 [2:49:58<30:35:20,  1.16s/it]                                                            5%|▍         | 4682/100000 [2:49:58<30:35:20,  1.16s/it]  5%|▍         | 4683/100000 [2:49:59<29:08:32,  1.10s/it]                                                            5%|▍         | 4683/100000 [2:49:59<29:08:32,  1.10s/it]  5%|▍         | 4684/100000 [2:50:00<28:13:42,  1.07s/it]                                                            5%|▍         | 4684/100000 [2:50:00<28:13:42,  1.07s/it]  5%|▍         | 4685/100000 [2:50:01<27:11:23,  1.03s/it]                                                            5%|▍         | 4685/100000 [2:50:01<27:11:23,  1.03s/it]  5%|▍         | 4686/100000 [2:50:02<26:18:31,  1.01it/s]                                                            5%|▍         | 4686/100000 [2:50:02<26:18:31,  1.01it/s]  5%|▍         | 4687/100000 [2:50:03<25:30:50,  1.04it/s]                                                            5%|▍         | 4687/100000 [2:50:03<25:30:50,  1.04it/s]  5%|▍         | 4688/100000 [2:50:04<25:02:57,  1.06it/s]                                                            5%|▍         | 4688/100000 [2:50:04<25:02:57,  1.06it/s]  5%|▍         | 4689/100000 [2:50:05<24:27:20,  1.08it/s]                                                            5%|▍         | 4689/100000 [2:50:05<24:27:20,  1.08it/s]  5%|▍         | 4690/100000 [2:50:06<24:10:51,  1.09it/s]                                                            5%|▍         | 4690/100000 [2:50:06<24:10:51,  1.09it/s]  5%|▍         | 4691/100000 [2:50:06<23:03:08,  1.15it/s]                                                            5%|▍         | 4691/100000 [2:50:06<23:03:08,  1.15it/s]  5%|▍         | 4692/100000 [2:50:07<22:10:40,  1.19it/s]                                                            5%|▍         | 4692/100000 [2:50:07<22:10:40,  1.19it/s]  5%|▍         | 4693/100000 [2:50:08<22:15:34,  1.19it/s]                                                            5%|▍         | 4693/100000 [2:50:08<22:15:34,  1.19it/s]  5%|▍         | 4694/100000 [2:50:09<21:37:44,  1.22it/s]                                                            5%|▍         | 4694/100000 [2:50:09<21:37:44,  1.22it/s]  5%|▍         | 4695/100000 [2:50:10<21:02:22,  1.26it/s]                                                            5%|▍         | 4695/100000 [2:50:10<21:02:22,  1.26it/s]  5%|▍         | 4696/100000 [2:50:10<19:51:37,  1.33it/s]                                                            5%|▍         | 4696/100000 [2:50:10<19:51:37,  1.33it/s]  5%|▍         | 4697/100000 [2:50:23<117:25:37,  4.44s/it]                                                             5%|▍         | 4697/100000 [2:50:23<117:25:37,  4.44s/it]  5%|▍         | 4698/100000 [2:50:31<145:59:52,  5.52s/it]                                                             5%|▍         | 4698/100000 [2:50:31<145:59:52,  5.52s/it]  5%|▍         | 4699/100000 [2:50:37<148:01:15,  5.59s/it]                                                             5%|▍         | 4699/100000 [2:50:37<148:01:15,  5.59s/it]  5%|▍         | 4700/100000 [2:50:42<140:10:11,  5.29s/it]                                                             5%|▍         | 4700/100000 [2:50:42<140:10:11,  5.29s/it]  5%|▍         | 4701/100000 [2:50:46<130:37:23,  4.93s/it]                                                             5%|▍         | 4701/100000 [2:50:46<130:37:23,  4.93s/it]  5%|▍         | 4702/100000 [2:50:49<119:57:48,  4.53s/it]                                                             5%|▍         | 4702/100000 [2:50:49<119:57:48,  4.53s/it]  5%|▍         | 4703/100000 [2:50:52<108:59:26,  4.12s/it]                                                             5%|▍         | 4703/100000 [2:50:53<108:59:26,  4.12s/it]  5%|▍         | 4704/100000 [2:50:55<97:57:01,  3.70s/it]                                                           {'loss': 0.2384, 'grad_norm': 1.01663339138031, 'learning_rate': 1.3851e-05, 'epoch': 30.01}
{'loss': 0.1923, 'grad_norm': 0.678228497505188, 'learning_rate': 1.3854e-05, 'epoch': 30.01}
{'loss': 0.1728, 'grad_norm': 1.7691266536712646, 'learning_rate': 1.3857e-05, 'epoch': 30.02}
{'loss': 0.1256, 'grad_norm': 0.8906358480453491, 'learning_rate': 1.3860000000000001e-05, 'epoch': 30.03}
{'loss': 0.1239, 'grad_norm': 0.9666730761528015, 'learning_rate': 1.3863000000000001e-05, 'epoch': 30.03}
{'loss': 0.1033, 'grad_norm': 0.7401788830757141, 'learning_rate': 1.3866e-05, 'epoch': 30.04}
{'loss': 0.12, 'grad_norm': 0.869311511516571, 'learning_rate': 1.3869e-05, 'epoch': 30.05}
{'loss': 0.1179, 'grad_norm': 0.7442841529846191, 'learning_rate': 1.3872e-05, 'epoch': 30.05}
{'loss': 0.1483, 'grad_norm': 0.9521846175193787, 'learning_rate': 1.3875000000000002e-05, 'epoch': 30.06}
{'loss': 0.093, 'grad_norm': 1.0873489379882812, 'learning_rate': 1.3878e-05, 'epoch': 30.06}
{'loss': 0.0922, 'grad_norm': 1.2504509687423706, 'learning_rate': 1.3881e-05, 'epoch': 30.07}
{'loss': 0.0674, 'grad_norm': 0.8822623491287231, 'learning_rate': 1.3884e-05, 'epoch': 30.08}
{'loss': 0.1061, 'grad_norm': 0.7971377372741699, 'learning_rate': 1.3887e-05, 'epoch': 30.08}
{'loss': 0.0782, 'grad_norm': 0.7172585129737854, 'learning_rate': 1.389e-05, 'epoch': 30.09}
{'loss': 0.0789, 'grad_norm': 0.7589926719665527, 'learning_rate': 1.3893e-05, 'epoch': 30.1}
{'loss': 0.0728, 'grad_norm': 0.9849128127098083, 'learning_rate': 1.3896e-05, 'epoch': 30.1}
{'loss': 0.0635, 'grad_norm': 0.5703741908073425, 'learning_rate': 1.3899e-05, 'epoch': 30.11}
{'loss': 0.068, 'grad_norm': 0.9088597893714905, 'learning_rate': 1.3902e-05, 'epoch': 30.12}
{'loss': 0.0422, 'grad_norm': 0.7123645544052124, 'learning_rate': 1.3905000000000002e-05, 'epoch': 30.12}
{'loss': 0.0887, 'grad_norm': 1.435579776763916, 'learning_rate': 1.3908000000000001e-05, 'epoch': 30.13}
{'loss': 0.0511, 'grad_norm': 0.7352572083473206, 'learning_rate': 1.3911000000000001e-05, 'epoch': 30.14}
{'loss': 0.0718, 'grad_norm': 0.6783315539360046, 'learning_rate': 1.3914e-05, 'epoch': 30.14}
{'loss': 0.0614, 'grad_norm': 0.7040768265724182, 'learning_rate': 1.3916999999999999e-05, 'epoch': 30.15}
{'loss': 0.0902, 'grad_norm': 1.097145676612854, 'learning_rate': 1.392e-05, 'epoch': 30.16}
{'loss': 0.0545, 'grad_norm': 0.6862853169441223, 'learning_rate': 1.3923e-05, 'epoch': 30.16}
{'loss': 0.044, 'grad_norm': 0.8385059237480164, 'learning_rate': 1.3926e-05, 'epoch': 30.17}
{'loss': 0.0593, 'grad_norm': 0.966773509979248, 'learning_rate': 1.3929e-05, 'epoch': 30.18}
{'loss': 0.0714, 'grad_norm': 1.048484444618225, 'learning_rate': 1.3932e-05, 'epoch': 30.18}
{'loss': 0.0573, 'grad_norm': 0.8939758539199829, 'learning_rate': 1.3935000000000001e-05, 'epoch': 30.19}
{'loss': 0.0671, 'grad_norm': 0.9554288387298584, 'learning_rate': 1.3938000000000001e-05, 'epoch': 30.19}
{'loss': 0.0415, 'grad_norm': 1.2786914110183716, 'learning_rate': 1.3941000000000001e-05, 'epoch': 30.2}
{'loss': 0.0377, 'grad_norm': 1.4091813564300537, 'learning_rate': 1.3944e-05, 'epoch': 30.21}
{'loss': 0.0337, 'grad_norm': 1.2073955535888672, 'learning_rate': 1.3947e-05, 'epoch': 30.21}
{'loss': 0.0571, 'grad_norm': 2.3405466079711914, 'learning_rate': 1.395e-05, 'epoch': 30.22}
{'loss': 0.0468, 'grad_norm': 1.2274806499481201, 'learning_rate': 1.3953e-05, 'epoch': 30.23}
{'loss': 0.036, 'grad_norm': 0.9693858027458191, 'learning_rate': 1.3956e-05, 'epoch': 30.23}
{'loss': 0.0378, 'grad_norm': 1.20377516746521, 'learning_rate': 1.3959e-05, 'epoch': 30.24}
{'loss': 0.0922, 'grad_norm': 1.248049259185791, 'learning_rate': 1.3962e-05, 'epoch': 30.25}
{'loss': 0.2717, 'grad_norm': 1.8597742319107056, 'learning_rate': 1.3965000000000001e-05, 'epoch': 30.25}
{'loss': 0.2003, 'grad_norm': 0.9801405072212219, 'learning_rate': 1.3968e-05, 'epoch': 30.26}
{'loss': 0.1549, 'grad_norm': 0.7598603963851929, 'learning_rate': 1.3971e-05, 'epoch': 30.27}
{'loss': 0.1657, 'grad_norm': 0.8438012599945068, 'learning_rate': 1.3974e-05, 'epoch': 30.27}
{'loss': 0.1445, 'grad_norm': 0.7742036581039429, 'learning_rate': 1.3977e-05, 'epoch': 30.28}
{'loss': 0.1104, 'grad_norm': 1.4539648294448853, 'learning_rate': 1.3980000000000002e-05, 'epoch': 30.29}
{'loss': 0.1012, 'grad_norm': 0.6804013252258301, 'learning_rate': 1.3983000000000001e-05, 'epoch': 30.29}
{'loss': 0.1417, 'grad_norm': 1.1054425239562988, 'learning_rate': 1.3986000000000001e-05, 'epoch': 30.3}
{'loss': 0.0959, 'grad_norm': 0.822104275226593, 'learning_rate': 1.3989e-05, 'epoch': 30.31}
{'loss': 0.0929, 'grad_norm': 0.8248615264892578, 'learning_rate': 1.3992e-05, 'epoch': 30.31}
{'loss': 0.0729, 'grad_norm': 1.121253490447998, 'learning_rate': 1.3995e-05, 'epoch': 30.32}
{'loss': 0.1103, 'grad_norm': 0.8086001873016357, 'learning_rate': 1.3998e-05, 'epoch': 30.32}
{'loss': 0.0779, 'grad_norm': 0.7829222679138184, 'learning_rate': 1.4001e-05, 'epoch': 30.33}
{'loss': 0.0742, 'grad_norm': 1.024922490119934, 'learning_rate': 1.4004e-05, 'epoch': 30.34}
{'loss': 0.0709, 'grad_norm': 0.8380363583564758, 'learning_rate': 1.4007e-05, 'epoch': 30.34}
{'loss': 0.111, 'grad_norm': 0.8832443952560425, 'learning_rate': 1.4010000000000001e-05, 'epoch': 30.35}
{'loss': 0.0754, 'grad_norm': 0.8586940765380859, 'learning_rate': 1.4013000000000001e-05, 'epoch': 30.36}
{'loss': 0.0754, 'grad_norm': 0.9190220236778259, 'learning_rate': 1.4016000000000001e-05, 'epoch': 30.36}
{'loss': 0.0444, 'grad_norm': 0.733974814414978, 'learning_rate': 1.4019e-05, 'epoch': 30.37}
{'loss': 0.0668, 'grad_norm': 0.9719566106796265, 'learning_rate': 1.4022e-05, 'epoch': 30.38}
{'loss': 0.0677, 'grad_norm': 0.9125960469245911, 'learning_rate': 1.4025e-05, 'epoch': 30.38}
{'loss': 0.082, 'grad_norm': 0.8287379741668701, 'learning_rate': 1.4028e-05, 'epoch': 30.39}
{'loss': 0.0486, 'grad_norm': 0.7634711861610413, 'learning_rate': 1.4031e-05, 'epoch': 30.4}
{'loss': 0.109, 'grad_norm': 1.1290919780731201, 'learning_rate': 1.4034e-05, 'epoch': 30.4}
{'loss': 0.0681, 'grad_norm': 2.042052984237671, 'learning_rate': 1.4037e-05, 'epoch': 30.41}
{'loss': 0.043, 'grad_norm': 1.6798726320266724, 'learning_rate': 1.4040000000000001e-05, 'epoch': 30.42}
{'loss': 0.0642, 'grad_norm': 1.4056026935577393, 'learning_rate': 1.4043000000000001e-05, 'epoch': 30.42}
{'loss': 0.1062, 'grad_norm': 1.2314889430999756, 'learning_rate': 1.4046e-05, 'epoch': 30.43}
{'loss': 0.0365, 'grad_norm': 2.112245798110962, 'learning_rate': 1.4049e-05, 'epoch': 30.44}
{'loss': 0.0262, 'grad_norm': 1.0387401580810547, 'learning_rate': 1.4052e-05, 'epoch': 30.44}
{'loss': 0.0892, 'grad_norm': 1.8606536388397217, 'learning_rate': 1.4055000000000002e-05, 'epoch': 30.45}
{'loss': 0.0632, 'grad_norm': 1.3259360790252686, 'learning_rate': 1.4058000000000002e-05, 'epoch': 30.45}
{'loss': 0.0402, 'grad_norm': 0.9367951154708862, 'learning_rate': 1.4061e-05, 'epoch': 30.46}
{'loss': 0.048, 'grad_norm': 2.232241153717041, 'learning_rate': 1.4064e-05, 'epoch': 30.47}
{'loss': 0.0687, 'grad_norm': 1.3125379085540771, 'learning_rate': 1.4067e-05, 'epoch': 30.47}
{'loss': 0.0897, 'grad_norm': 1.4035536050796509, 'learning_rate': 1.4069999999999999e-05, 'epoch': 30.48}
{'loss': 0.0323, 'grad_norm': 0.8975755572319031, 'learning_rate': 1.4073e-05, 'epoch': 30.49}
{'loss': 0.0716, 'grad_norm': 2.5253419876098633, 'learning_rate': 1.4076e-05, 'epoch': 30.49}
{'loss': 0.2599, 'grad_norm': 1.2244751453399658, 'learning_rate': 1.4079e-05, 'epoch': 30.5}
{'loss': 0.176, 'grad_norm': 0.7024486064910889, 'learning_rate': 1.4082e-05, 'epoch': 30.51}
{'loss': 0.1614, 'grad_norm': 0.6666786074638367, 'learning_rate': 1.4085e-05, 'epoch': 30.51}
{'loss': 0.1527, 'grad_norm': 0.7115687727928162, 'learning_rate': 1.4088000000000001e-05, 'epoch': 30.52}
{'loss': 0.1369, 'grad_norm': 0.9047578573226929, 'learning_rate': 1.4091000000000001e-05, 'epoch': 30.53}
{'loss': 0.1275, 'grad_norm': 0.6705058217048645, 'learning_rate': 1.4094000000000001e-05, 'epoch': 30.53}
{'loss': 0.1326, 'grad_norm': 0.6673280000686646, 'learning_rate': 1.4097e-05, 'epoch': 30.54}
  5%|▍         | 4704/100000 [2:50:55<97:57:01,  3.70s/it]  5%|▍         | 4705/100000 [2:50:58<87:35:25,  3.31s/it]                                                            5%|▍         | 4705/100000 [2:50:58<87:35:25,  3.31s/it]  5%|▍         | 4706/100000 [2:51:00<78:38:33,  2.97s/it]                                                            5%|▍         | 4706/100000 [2:51:00<78:38:33,  2.97s/it]  5%|▍         | 4707/100000 [2:51:02<70:55:24,  2.68s/it]                                                            5%|▍         | 4707/100000 [2:51:02<70:55:24,  2.68s/it]  5%|▍         | 4708/100000 [2:51:04<63:58:43,  2.42s/it]                                                            5%|▍         | 4708/100000 [2:51:04<63:58:43,  2.42s/it]  5%|▍         | 4709/100000 [2:51:05<58:34:41,  2.21s/it]                                                            5%|▍         | 4709/100000 [2:51:05<58:34:41,  2.21s/it]  5%|▍         | 4710/100000 [2:51:07<54:01:22,  2.04s/it]                                                            5%|▍         | 4710/100000 [2:51:07<54:01:22,  2.04s/it]  5%|▍         | 4711/100000 [2:51:09<50:15:15,  1.90s/it]                                                            5%|▍         | 4711/100000 [2:51:09<50:15:15,  1.90s/it]  5%|▍         | 4712/100000 [2:51:10<46:46:42,  1.77s/it]                                                            5%|▍         | 4712/100000 [2:51:10<46:46:42,  1.77s/it]  5%|▍         | 4713/100000 [2:51:11<43:40:10,  1.65s/it]                                                            5%|▍         | 4713/100000 [2:51:11<43:40:10,  1.65s/it]  5%|▍         | 4714/100000 [2:51:13<40:57:35,  1.55s/it]                                                            5%|▍         | 4714/100000 [2:51:13<40:57:35,  1.55s/it]  5%|▍         | 4715/100000 [2:51:14<38:50:46,  1.47s/it]                                                            5%|▍         | 4715/100000 [2:51:14<38:50:46,  1.47s/it]  5%|▍         | 4716/100000 [2:51:15<36:53:00,  1.39s/it]                                                            5%|▍         | 4716/100000 [2:51:15<36:53:00,  1.39s/it]  5%|▍         | 4717/100000 [2:51:16<34:50:00,  1.32s/it]                                                            5%|▍         | 4717/100000 [2:51:16<34:50:00,  1.32s/it]  5%|▍         | 4718/100000 [2:51:17<33:08:10,  1.25s/it]                                                            5%|▍         | 4718/100000 [2:51:17<33:08:10,  1.25s/it]  5%|▍         | 4719/100000 [2:51:19<31:39:47,  1.20s/it]                                                            5%|▍         | 4719/100000 [2:51:19<31:39:47,  1.20s/it]  5%|▍         | 4720/100000 [2:51:20<30:21:54,  1.15s/it]                                                            5%|▍         | 4720/100000 [2:51:20<30:21:54,  1.15s/it]  5%|▍         | 4721/100000 [2:51:21<28:58:28,  1.09s/it]                                                            5%|▍         | 4721/100000 [2:51:21<28:58:28,  1.09s/it]  5%|▍         | 4722/100000 [2:51:21<27:58:51,  1.06s/it]                                                            5%|▍         | 4722/100000 [2:51:21<27:58:51,  1.06s/it]  5%|▍         | 4723/100000 [2:51:22<27:21:21,  1.03s/it]                                                            5%|▍         | 4723/100000 [2:51:22<27:21:21,  1.03s/it]  5%|▍         | 4724/100000 [2:51:23<26:19:16,  1.01it/s]                                                            5%|▍         | 4724/100000 [2:51:23<26:19:16,  1.01it/s]  5%|▍         | 4725/100000 [2:51:24<25:34:27,  1.03it/s]                                                            5%|▍         | 4725/100000 [2:51:24<25:34:27,  1.03it/s]  5%|▍         | 4726/100000 [2:51:25<24:15:13,  1.09it/s]                                                            5%|▍         | 4726/100000 [2:51:25<24:15:13,  1.09it/s]  5%|▍         | 4727/100000 [2:51:26<23:36:17,  1.12it/s]                                                            5%|▍         | 4727/100000 [2:51:26<23:36:17,  1.12it/s]  5%|▍         | 4728/100000 [2:51:27<23:11:06,  1.14it/s]                                                            5%|▍         | 4728/100000 [2:51:27<23:11:06,  1.14it/s]  5%|▍         | 4729/100000 [2:51:28<22:46:58,  1.16it/s]                                                            5%|▍         | 4729/100000 [2:51:28<22:46:58,  1.16it/s]  5%|▍         | 4730/100000 [2:51:28<21:48:14,  1.21it/s]                                                            5%|▍         | 4730/100000 [2:51:28<21:48:14,  1.21it/s]  5%|▍         | 4731/100000 [2:51:29<21:06:06,  1.25it/s]                                                            5%|▍         | 4731/100000 [2:51:29<21:06:06,  1.25it/s]  5%|▍         | 4732/100000 [2:51:30<20:30:49,  1.29it/s]                                                            5%|▍         | 4732/100000 [2:51:30<20:30:49,  1.29it/s]  5%|▍         | 4733/100000 [2:51:30<19:25:23,  1.36it/s]                                                            5%|▍         | 4733/100000 [2:51:30<19:25:23,  1.36it/s]  5%|▍         | 4734/100000 [2:51:31<19:03:14,  1.39it/s]                                                            5%|▍         | 4734/100000 [2:51:31<19:03:14,  1.39it/s]  5%|▍         | 4735/100000 [2:51:42<97:30:03,  3.68s/it]                                                            5%|▍         | 4735/100000 [2:51:42<97:30:03,  3.68s/it]  5%|▍         | 4736/100000 [2:51:50<130:36:29,  4.94s/it]                                                             5%|▍         | 4736/100000 [2:51:50<130:36:29,  4.94s/it]  5%|▍         | 4737/100000 [2:51:55<134:46:42,  5.09s/it]                                                             5%|▍         | 4737/100000 [2:51:55<134:46:42,  5.09s/it]  5%|▍         | 4738/100000 [2:51:59<127:48:20,  4.83s/it]                                                             5%|▍         | 4738/100000 [2:51:59<127:48:20,  4.83s/it]  5%|▍         | 4739/100000 [2:52:03<120:05:45,  4.54s/it]                                                             5%|▍         | 4739/100000 [2:52:03<120:05:45,  4.54s/it]  5%|▍         | 4740/100000 [2:52:06<109:54:42,  4.15s/it]                                                             5%|▍         | 4740/100000 [2:52:06<109:54:42,  4.15s/it]  5%|▍         | 4741/100000 [2:52:09<99:44:13,  3.77s/it]                                                             5%|▍         | 4741/100000 [2:52:09<99:44:13,  3.77s/it]  5%|▍         | 4742/100000 [2:52:12<89:19:41,  3.38s/it]                                                            5%|▍         | 4742/100000 [2:52:12<89:19:41,  3.38s/it]  5%|▍         | 4743/100000 [2:52:14<80:09:05,  3.03s/it]                                                            5%|▍         | 4743/100000 [2:52:14<80:09:05,  3.03s/it]  5%|▍         | 4744/100000 [2:52:16<72:42:28,  2.75s/it]                                                            5%|▍         | 4744/100000 [2:52:16<72:42:28,  2.75s/it]  5%|▍         | 4745/100000 [2:52:18<65:43:56,  2.48s/it]                                                            5%|▍         | 4745/100000 [2:52:18<65:43:56,  2.48s/it]  5%|▍         | 4746/100000 [2:52:20<60:43:06,  2.29s/it]                                                            5%|▍         | 4746/100000 [2:52:20<60:43:06,  2.29s/it]  5%|▍         | 4747/100000 [2:52:21<55:50:37,  2.11s/it]                                                            5%|▍         | 4747/100000 [2:52:21<55:50:37,  2.11s/it]  5%|▍         | 4748/100000 [2:52:23<52:06:15,  1.97s/it]                                                            5%|▍         | 4748/100000 [2:52:23<52:06:15,  1.97s/it]  5%|▍         | 4749/100000 [2:52:25<49:01:52,  1.85s/it]                                                            5%|▍         | 4749/100000 [2:52:25<49:01:52,  1.85s/it]  5%|▍         | 4750/100000 [2:52:26<46:10:22,  1.75s/it]                                                            5%|▍         | 4750/100000 [2:52:26<46:10:22,  1.75s/it]  5%|▍         | 4751/100000 [2:52:27<43:31:43,  1.65s/it]                                                            5%|▍         | 4751/100000 [2:52:28<43:31:43,  1.65s/it]  5%|▍         | 4752/100000 [2:52:29<41:12:41,  1.56s/it]                                                            5%|▍         | 4752/100000 [2:52:29<41:12:41,  1.56s/it]  5%|▍         | 4753/100000 [2:52:30<38:51:35,  1.47s/it]                                                            5%|▍         | 4753/100000 [2:52:30<38:51:35,  1.47s/it]  5%|▍         | 4754/100000 [2:52:31<36:53:23,  1.39s/it]                                                            5%|▍         | 4754/100000 [2:52:31<36:53:23,  1.39s/it]  5%|▍         | 4755/100000 [2:52:32<34:46:31,  1.31s/it]                                                            5%|▍         | 4755/100000 [2:52:32<34:46:31,  1.31s/it]  5%|▍         | 4756/100000 [2:52:34<34:01:53,  1.29s/it]                                                            5%|▍         | 4756/100000 [2:52:34<34:01:53,  1.29s/it]  5%|▍         | 4757/100000 [2:52:35<32:20:22,  1.22s/it]                                                            5%|▍         | 4757/100000 [2:52:35<32:20:22,  1.22s/it]  5%|▍         | 4758/100000 [2:52:36<30:53:25,  1.17s/it]                                                            5%|▍         | 4758/100000 [2:52:36<30:53:25,  1.17s/it]  5%|▍         | 4759/100000 [2:52:37<29:23:06,  1.11s/it]                                                            5%|▍         | 4759/100000 [2:52:37<29:23:06,  1.11s/it]  5%|▍         | 4760/100000 [2:52:38<28:20:16,  1.07s/it]                                                            5%|▍         | 4760/100000 [2:52:38<28:20:16,  1.07s/it]  5%|▍         | 4761/100000 [2:52:39<27:28:07,  1.04s/it]                                                            5%|▍         | 4761/100000 [2:52:39<27:28:07,  1.04s/it]  5%|▍         | 4762/100000 [2:52:40<26:25:18,  1.00it/s]                                                            5%|▍         | 4762/100000 [2:52:40<26:25:18,  1.00it/s]  5%|▍         | 4763/100000 [2:52:41<25:40:36,  1.03it/s]                                                            5%|▍         | 4763/100000 [2:52:41<25:40:36,  1.03it/s]  5%|▍         | 4764/100000 [2:52:41<25:00:22,  1.06it/s]                                                            5%|▍         | 4764/100000 [2:52:41<25:00:22,  1.06it/s]  5%|▍         | 4765/100000 [2:52:42<24:40:03,  1.07it/s]                                                            5%|▍         | 4765/100000 [2:52:42<24:40:03,  1.07it/s]  5%|▍         | 4766/100000 [2:52:43<24:01:00,  1.10it/s]                                                            5%|▍         | 4766/100000 [2:52:43<24:01:00,  1.10it/s]  5%|▍         | 4767/100000 [2:52:44<23:05:49,  1.15it/s]                                                            5%|▍         | 4767/100000 [2:52:44<23:05:49,  1.15it/s]  5%|▍         | 4768/100000 [2:52:45<22:38:07,  1.17it/s]                                                            5%|▍         | 4768/100000 [2:52:45<22:38:07,  1.17it/s]  5%|▍         | 4769/100000 [2:52:46<22:18:21,  1.19it/s]                                                            5%|▍         | 4769/100000 [2:52:46<22:18:21,  1.19it/s]  5%|▍         | 4770/100000 [2:52:46<21:38:13,  1.22it/s]                                                            5%|▍         | 4770/100000 [2:52:46<21:38:13,  1.22it/s]  5%|▍         | 4771/100000 [2:52:47<21:21:03,  1.24it/s]                                                            5%|▍         | 4771/100000 [2:52:47<21:21:03,  1.24it/s]  5%|▍         | 4772/100000 [2:52:48<20:37:21,  1.28it/s]                                                            5%|▍         | 4772/100000 [2:52:48<20:37:21,  1.28it/s]  5%|▍         | 4773/100000 [2:52:54<62:44:26,  2.37s/it]                                                            5%|▍         | 4773/100000 [2:52:54<62:44:26,  2.37s/it]  5%|▍         | 4774/100000 [2:52:55<55:25:07,  2.10s/it]                                                            5%|▍         | 4774/100000 [2:52:55<55:25:07,  2.10s/it]{'loss': 0.1007, 'grad_norm': 0.641748309135437, 'learning_rate': 1.4099999999999999e-05, 'epoch': 30.55}
{'loss': 0.0971, 'grad_norm': 0.6174684762954712, 'learning_rate': 1.4103e-05, 'epoch': 30.55}
{'loss': 0.0918, 'grad_norm': 0.7298972010612488, 'learning_rate': 1.4106e-05, 'epoch': 30.56}
{'loss': 0.1152, 'grad_norm': 0.7542017698287964, 'learning_rate': 1.4109e-05, 'epoch': 30.56}
{'loss': 0.0887, 'grad_norm': 0.9699891209602356, 'learning_rate': 1.4112e-05, 'epoch': 30.57}
{'loss': 0.0893, 'grad_norm': 0.6454124450683594, 'learning_rate': 1.4115e-05, 'epoch': 30.58}
{'loss': 0.0816, 'grad_norm': 0.7892380356788635, 'learning_rate': 1.4118000000000001e-05, 'epoch': 30.58}
{'loss': 0.0805, 'grad_norm': 0.5732355117797852, 'learning_rate': 1.4121e-05, 'epoch': 30.59}
{'loss': 0.0638, 'grad_norm': 0.6670686602592468, 'learning_rate': 1.4124e-05, 'epoch': 30.6}
{'loss': 0.0787, 'grad_norm': 0.5322674512863159, 'learning_rate': 1.4127e-05, 'epoch': 30.6}
{'loss': 0.0743, 'grad_norm': 0.6472877264022827, 'learning_rate': 1.413e-05, 'epoch': 30.61}
{'loss': 0.0649, 'grad_norm': 0.8768196702003479, 'learning_rate': 1.4133000000000002e-05, 'epoch': 30.62}
{'loss': 0.0884, 'grad_norm': 1.1077252626419067, 'learning_rate': 1.4136e-05, 'epoch': 30.62}
{'loss': 0.0576, 'grad_norm': 1.0697712898254395, 'learning_rate': 1.4139e-05, 'epoch': 30.63}
{'loss': 0.0585, 'grad_norm': 0.9975532293319702, 'learning_rate': 1.4142e-05, 'epoch': 30.64}
{'loss': 0.0601, 'grad_norm': 1.0717695951461792, 'learning_rate': 1.4145e-05, 'epoch': 30.64}
{'loss': 0.058, 'grad_norm': 0.995822012424469, 'learning_rate': 1.4148e-05, 'epoch': 30.65}
{'loss': 0.0348, 'grad_norm': 0.5774345397949219, 'learning_rate': 1.4151e-05, 'epoch': 30.66}
{'loss': 0.0552, 'grad_norm': 1.0928153991699219, 'learning_rate': 1.4154e-05, 'epoch': 30.66}
{'loss': 0.0461, 'grad_norm': 1.3136783838272095, 'learning_rate': 1.4157e-05, 'epoch': 30.67}
{'loss': 0.0923, 'grad_norm': 2.074153184890747, 'learning_rate': 1.416e-05, 'epoch': 30.68}
{'loss': 0.0558, 'grad_norm': 1.0309075117111206, 'learning_rate': 1.4163000000000001e-05, 'epoch': 30.68}
{'loss': 0.0573, 'grad_norm': 1.2002698183059692, 'learning_rate': 1.4166000000000001e-05, 'epoch': 30.69}
{'loss': 0.0312, 'grad_norm': 0.6854349970817566, 'learning_rate': 1.4169000000000001e-05, 'epoch': 30.69}
{'loss': 0.0354, 'grad_norm': 0.9573253393173218, 'learning_rate': 1.4172e-05, 'epoch': 30.7}
{'loss': 0.0434, 'grad_norm': 0.7695679664611816, 'learning_rate': 1.4174999999999999e-05, 'epoch': 30.71}
{'loss': 0.0501, 'grad_norm': 1.8326499462127686, 'learning_rate': 1.4178e-05, 'epoch': 30.71}
{'loss': 0.0353, 'grad_norm': 1.2673832178115845, 'learning_rate': 1.4181e-05, 'epoch': 30.72}
{'loss': 0.06, 'grad_norm': 2.103245973587036, 'learning_rate': 1.4184e-05, 'epoch': 30.73}
{'loss': 0.0501, 'grad_norm': 1.036482334136963, 'learning_rate': 1.4187e-05, 'epoch': 30.73}
{'loss': 0.0804, 'grad_norm': 1.3430513143539429, 'learning_rate': 1.419e-05, 'epoch': 30.74}
{'loss': 0.2176, 'grad_norm': 1.078507900238037, 'learning_rate': 1.4193000000000001e-05, 'epoch': 30.75}
{'loss': 0.1752, 'grad_norm': 0.8614161610603333, 'learning_rate': 1.4196000000000001e-05, 'epoch': 30.75}
{'loss': 0.1682, 'grad_norm': 0.8104414343833923, 'learning_rate': 1.4199e-05, 'epoch': 30.76}
{'loss': 0.181, 'grad_norm': 0.8141324520111084, 'learning_rate': 1.4202e-05, 'epoch': 30.77}
{'loss': 0.1331, 'grad_norm': 0.7578079104423523, 'learning_rate': 1.4205e-05, 'epoch': 30.77}
{'loss': 0.1092, 'grad_norm': 0.9355598092079163, 'learning_rate': 1.4208e-05, 'epoch': 30.78}
{'loss': 0.1024, 'grad_norm': 0.5395940542221069, 'learning_rate': 1.4211e-05, 'epoch': 30.79}
{'loss': 0.1088, 'grad_norm': 0.666628897190094, 'learning_rate': 1.4214e-05, 'epoch': 30.79}
{'loss': 0.13, 'grad_norm': 0.9367405772209167, 'learning_rate': 1.4217e-05, 'epoch': 30.8}
{'loss': 0.0856, 'grad_norm': 0.572862982749939, 'learning_rate': 1.422e-05, 'epoch': 30.81}
{'loss': 0.0876, 'grad_norm': 0.701521635055542, 'learning_rate': 1.4223000000000001e-05, 'epoch': 30.81}
{'loss': 0.0709, 'grad_norm': 0.6825761198997498, 'learning_rate': 1.4226e-05, 'epoch': 30.82}
{'loss': 0.0787, 'grad_norm': 0.6398329138755798, 'learning_rate': 1.4229e-05, 'epoch': 30.82}
{'loss': 0.082, 'grad_norm': 0.855042576789856, 'learning_rate': 1.4232e-05, 'epoch': 30.83}
{'loss': 0.0761, 'grad_norm': 0.8947113156318665, 'learning_rate': 1.4235e-05, 'epoch': 30.84}
{'loss': 0.0765, 'grad_norm': 0.957639753818512, 'learning_rate': 1.4238000000000002e-05, 'epoch': 30.84}
{'loss': 0.0567, 'grad_norm': 0.9555712938308716, 'learning_rate': 1.4241000000000001e-05, 'epoch': 30.85}
{'loss': 0.0627, 'grad_norm': 0.7057625651359558, 'learning_rate': 1.4244000000000001e-05, 'epoch': 30.86}
{'loss': 0.0715, 'grad_norm': 1.1457760334014893, 'learning_rate': 1.4247e-05, 'epoch': 30.86}
{'loss': 0.0729, 'grad_norm': 1.0568307638168335, 'learning_rate': 1.4249999999999999e-05, 'epoch': 30.87}
{'loss': 0.0563, 'grad_norm': 0.6852195858955383, 'learning_rate': 1.4253e-05, 'epoch': 30.88}
{'loss': 0.0716, 'grad_norm': 1.0850883722305298, 'learning_rate': 1.4256e-05, 'epoch': 30.88}
{'loss': 0.0701, 'grad_norm': 1.238348126411438, 'learning_rate': 1.4259e-05, 'epoch': 30.89}
{'loss': 0.0984, 'grad_norm': 1.2271842956542969, 'learning_rate': 1.4262e-05, 'epoch': 30.9}
{'loss': 0.0527, 'grad_norm': 1.033010482788086, 'learning_rate': 1.4265e-05, 'epoch': 30.9}
{'loss': 0.0729, 'grad_norm': 0.9911835789680481, 'learning_rate': 1.4268000000000001e-05, 'epoch': 30.91}
{'loss': 0.0424, 'grad_norm': 0.8808297514915466, 'learning_rate': 1.4271000000000001e-05, 'epoch': 30.92}
{'loss': 0.0626, 'grad_norm': 1.2607324123382568, 'learning_rate': 1.4274000000000001e-05, 'epoch': 30.92}
{'loss': 0.1641, 'grad_norm': 1.286858081817627, 'learning_rate': 1.4277e-05, 'epoch': 30.93}
{'loss': 0.0448, 'grad_norm': 1.3879106044769287, 'learning_rate': 1.428e-05, 'epoch': 30.94}
{'loss': 0.0536, 'grad_norm': 1.0365921258926392, 'learning_rate': 1.4283e-05, 'epoch': 30.94}
{'loss': 0.0399, 'grad_norm': 1.2124652862548828, 'learning_rate': 1.4286e-05, 'epoch': 30.95}
{'loss': 0.0682, 'grad_norm': 1.0645382404327393, 'learning_rate': 1.4289e-05, 'epoch': 30.95}
{'loss': 0.0446, 'grad_norm': 0.916506826877594, 'learning_rate': 1.4292e-05, 'epoch': 30.96}
{'loss': 0.0567, 'grad_norm': 1.584403157234192, 'learning_rate': 1.4295e-05, 'epoch': 30.97}
{'loss': 0.0646, 'grad_norm': 2.8112874031066895, 'learning_rate': 1.4298000000000001e-05, 'epoch': 30.97}
{'loss': 0.0365, 'grad_norm': 0.965600311756134, 'learning_rate': 1.4301e-05, 'epoch': 30.98}
{'loss': 0.0734, 'grad_norm': 1.8547000885009766, 'learning_rate': 1.4304e-05, 'epoch': 30.99}
{'loss': 0.1234, 'grad_norm': 1.1219159364700317, 'learning_rate': 1.4307e-05, 'epoch': 30.99}
{'loss': 0.072, 'grad_norm': 1.2402524948120117, 'learning_rate': 1.431e-05, 'epoch': 31.0}
  5%|▍         | 4775/100000 [2:53:13<175:10:29,  6.62s/it]                                                             5%|▍         | 4775/100000 [2:53:13<175:10:29,  6.62s/it]  5%|▍         | 4776/100000 [2:53:20<185:09:33,  7.00s/it]                                                             5%|▍         | 4776/100000 [2:53:20<185:09:33,  7.00s/it]  5%|▍         | 4777/100000 [2:53:26<170:56:40,  6.46s/it]                                                             5%|▍         | 4777/100000 [2:53:26<170:56:40,  6.46s/it]  5%|▍         | 4778/100000 [2:53:30<157:28:12,  5.95s/it]                                                             5%|▍         | 4778/100000 [2:53:30<157:28:12,  5.95s/it]  5%|▍         | 4779/100000 [2:53:35<142:53:18,  5.40s/it]                                                             5%|▍         | 4779/100000 [2:53:35<142:53:18,  5.40s/it]  5%|▍         | 4780/100000 [2:53:38<128:24:23,  4.85s/it]                                                             5%|▍         | 4780/100000 [2:53:38<128:24:23,  4.85s/it]  5%|▍         | 4781/100000 [2:53:41<115:22:10,  4.36s/it]                                                             5%|▍         | 4781/100000 [2:53:41<115:22:10,  4.36s/it]  5%|▍         | 4782/100000 [2:53:44<102:50:56,  3.89s/it]                                                             5%|▍         | 4782/100000 [2:53:44<102:50:56,  3.89s/it]  5%|▍         | 4783/100000 [2:53:47<91:13:43,  3.45s/it]                                                             5%|▍         | 4783/100000 [2:53:47<91:13:43,  3.45s/it]  5%|▍         | 4784/100000 [2:53:49<80:46:40,  3.05s/it]                                                            5%|▍         | 4784/100000 [2:53:49<80:46:40,  3.05s/it]  5%|▍         | 4785/100000 [2:53:51<72:45:56,  2.75s/it]                                                            5%|▍         | 4785/100000 [2:53:51<72:45:56,  2.75s/it]  5%|▍         | 4786/100000 [2:53:53<65:50:13,  2.49s/it]                                                            5%|▍         | 4786/100000 [2:53:53<65:50:13,  2.49s/it]  5%|▍         | 4787/100000 [2:53:54<59:35:34,  2.25s/it]                                                            5%|▍         | 4787/100000 [2:53:54<59:35:34,  2.25s/it]  5%|▍         | 4788/100000 [2:53:56<55:04:33,  2.08s/it]                                                            5%|▍         | 4788/100000 [2:53:56<55:04:33,  2.08s/it]  5%|▍         | 4789/100000 [2:53:58<51:01:44,  1.93s/it]                                                            5%|▍         | 4789/100000 [2:53:58<51:01:44,  1.93s/it]  5%|▍         | 4790/100000 [2:53:59<47:51:35,  1.81s/it]                                                            5%|▍         | 4790/100000 [2:53:59<47:51:35,  1.81s/it]  5%|▍         | 4791/100000 [2:54:00<44:38:34,  1.69s/it]                                                            5%|▍         | 4791/100000 [2:54:00<44:38:34,  1.69s/it]  5%|▍         | 4792/100000 [2:54:02<42:15:00,  1.60s/it]                                                            5%|▍         | 4792/100000 [2:54:02<42:15:00,  1.60s/it]  5%|▍         | 4793/100000 [2:54:03<40:07:11,  1.52s/it]                                                            5%|▍         | 4793/100000 [2:54:03<40:07:11,  1.52s/it]  5%|▍         | 4794/100000 [2:54:04<38:03:35,  1.44s/it]                                                            5%|▍         | 4794/100000 [2:54:04<38:03:35,  1.44s/it]  5%|▍         | 4795/100000 [2:54:06<36:02:46,  1.36s/it]                                                            5%|▍         | 4795/100000 [2:54:06<36:02:46,  1.36s/it]  5%|▍         | 4796/100000 [2:54:07<34:00:04,  1.29s/it]                                                            5%|▍         | 4796/100000 [2:54:07<34:00:04,  1.29s/it]  5%|▍         | 4797/100000 [2:54:08<32:18:14,  1.22s/it]                                                            5%|▍         | 4797/100000 [2:54:08<32:18:14,  1.22s/it]  5%|▍         | 4798/100000 [2:54:09<30:34:08,  1.16s/it]                                                            5%|▍         | 4798/100000 [2:54:09<30:34:08,  1.16s/it]  5%|▍         | 4799/100000 [2:54:10<29:23:32,  1.11s/it]                                                            5%|▍         | 4799/100000 [2:54:10<29:23:32,  1.11s/it]  5%|▍         | 4800/100000 [2:54:11<27:51:12,  1.05s/it]                                                            5%|▍         | 4800/100000 [2:54:11<27:51:12,  1.05s/it]  5%|▍         | 4801/100000 [2:54:12<27:00:47,  1.02s/it]                                                            5%|▍         | 4801/100000 [2:54:12<27:00:47,  1.02s/it]  5%|▍         | 4802/100000 [2:54:13<25:52:07,  1.02it/s]                                                            5%|▍         | 4802/100000 [2:54:13<25:52:07,  1.02it/s]  5%|▍         | 4803/100000 [2:54:13<24:55:58,  1.06it/s]                                                            5%|▍         | 4803/100000 [2:54:13<24:55:58,  1.06it/s]  5%|▍         | 4804/100000 [2:54:14<23:49:45,  1.11it/s]                                                            5%|▍         | 4804/100000 [2:54:14<23:49:45,  1.11it/s]  5%|▍         | 4805/100000 [2:54:15<23:00:33,  1.15it/s]                                                            5%|▍         | 4805/100000 [2:54:15<23:00:33,  1.15it/s]  5%|▍         | 4806/100000 [2:54:16<22:13:01,  1.19it/s]                                                            5%|▍         | 4806/100000 [2:54:16<22:13:01,  1.19it/s]  5%|▍         | 4807/100000 [2:54:17<21:39:17,  1.22it/s]                                                            5%|▍         | 4807/100000 [2:54:17<21:39:17,  1.22it/s]  5%|▍         | 4808/100000 [2:54:17<21:12:17,  1.25it/s]                                                            5%|▍         | 4808/100000 [2:54:17<21:12:17,  1.25it/s]  5%|▍         | 4809/100000 [2:54:18<20:28:51,  1.29it/s]                                                            5%|▍         | 4809/100000 [2:54:18<20:28:51,  1.29it/s]  5%|▍         | 4810/100000 [2:54:19<20:19:10,  1.30it/s]                                                            5%|▍         | 4810/100000 [2:54:19<20:19:10,  1.30it/s]  5%|▍         | 4811/100000 [2:54:20<19:50:02,  1.33it/s]                                                            5%|▍         | 4811/100000 [2:54:20<19:50:02,  1.33it/s]  5%|▍         | 4812/100000 [2:54:20<19:50:33,  1.33it/s]                                                            5%|▍         | 4812/100000 [2:54:20<19:50:33,  1.33it/s]  5%|▍         | 4813/100000 [2:54:33<118:30:37,  4.48s/it]                                                             5%|▍         | 4813/100000 [2:54:33<118:30:37,  4.48s/it]  5%|▍         | 4814/100000 [2:54:42<149:53:12,  5.67s/it]                                                             5%|▍         | 4814/100000 [2:54:42<149:53:12,  5.67s/it]  5%|▍         | 4815/100000 [2:54:48<149:30:46,  5.65s/it]                                                             5%|▍         | 4815/100000 [2:54:48<149:30:46,  5.65s/it]  5%|▍         | 4816/100000 [2:54:52<142:23:57,  5.39s/it]                                                             5%|▍         | 4816/100000 [2:54:52<142:23:57,  5.39s/it]  5%|▍         | 4817/100000 [2:54:56<131:44:48,  4.98s/it]                                                             5%|▍         | 4817/100000 [2:54:56<131:44:48,  4.98s/it]  5%|▍         | 4818/100000 [2:55:00<119:56:00,  4.54s/it]                                                             5%|▍         | 4818/100000 [2:55:00<119:56:00,  4.54s/it]  5%|▍         | 4819/100000 [2:55:03<108:44:25,  4.11s/it]                                                             5%|▍         | 4819/100000 [2:55:03<108:44:25,  4.11s/it]  5%|▍         | 4820/100000 [2:55:06<97:05:29,  3.67s/it]                                                             5%|▍         | 4820/100000 [2:55:06<97:05:29,  3.67s/it]  5%|▍         | 4821/100000 [2:55:08<86:24:23,  3.27s/it]                                                            5%|▍         | 4821/100000 [2:55:08<86:24:23,  3.27s/it]  5%|▍         | 4822/100000 [2:55:10<77:25:46,  2.93s/it]                                                            5%|▍         | 4822/100000 [2:55:10<77:25:46,  2.93s/it]  5%|▍         | 4823/100000 [2:55:12<70:01:05,  2.65s/it]                                                            5%|▍         | 4823/100000 [2:55:12<70:01:05,  2.65s/it]  5%|▍         | 4824/100000 [2:55:14<63:31:35,  2.40s/it]                                                            5%|▍         | 4824/100000 [2:55:14<63:31:35,  2.40s/it]  5%|▍         | 4825/100000 [2:55:16<58:21:47,  2.21s/it]                                                            5%|▍         | 4825/100000 [2:55:16<58:21:47,  2.21s/it]  5%|▍         | 4826/100000 [2:55:17<53:21:37,  2.02s/it]                                                            5%|▍         | 4826/100000 [2:55:17<53:21:37,  2.02s/it]  5%|▍         | 4827/100000 [2:55:19<50:03:09,  1.89s/it]                                                            5%|▍         | 4827/100000 [2:55:19<50:03:09,  1.89s/it]  5%|▍         | 4828/100000 [2:55:20<46:26:11,  1.76s/it]                                                            5%|▍         | 4828/100000 [2:55:20<46:26:11,  1.76s/it]  5%|▍         | 4829/100000 [2:55:22<43:48:16,  1.66s/it]                                                            5%|▍         | 4829/100000 [2:55:22<43:48:16,  1.66s/it]  5%|▍         | 4830/100000 [2:55:23<41:09:19,  1.56s/it]                                                            5%|▍         | 4830/100000 [2:55:23<41:09:19,  1.56s/it]  5%|▍         | 4831/100000 [2:55:24<38:43:31,  1.46s/it]                                                            5%|▍         | 4831/100000 [2:55:24<38:43:31,  1.46s/it]  5%|▍         | 4832/100000 [2:55:25<36:54:15,  1.40s/it]                                                            5%|▍         | 4832/100000 [2:55:25<36:54:15,  1.40s/it]  5%|▍         | 4833/100000 [2:55:27<34:56:37,  1.32s/it]                                                            5%|▍         | 4833/100000 [2:55:27<34:56:37,  1.32s/it]  5%|▍         | 4834/100000 [2:55:28<33:03:42,  1.25s/it]                                                            5%|▍         | 4834/100000 [2:55:28<33:03:42,  1.25s/it]  5%|▍         | 4835/100000 [2:55:29<31:17:06,  1.18s/it]                                                            5%|▍         | 4835/100000 [2:55:29<31:17:06,  1.18s/it]  5%|▍         | 4836/100000 [2:55:30<29:57:30,  1.13s/it]                                                            5%|▍         | 4836/100000 [2:55:30<29:57:30,  1.13s/it]  5%|▍         | 4837/100000 [2:55:31<28:40:35,  1.08s/it]                                                            5%|▍         | 4837/100000 [2:55:31<28:40:35,  1.08s/it]  5%|▍         | 4838/100000 [2:55:32<27:46:05,  1.05s/it]                                                            5%|▍         | 4838/100000 [2:55:32<27:46:05,  1.05s/it]  5%|▍         | 4839/100000 [2:55:33<26:43:09,  1.01s/it]                                                            5%|▍         | 4839/100000 [2:55:33<26:43:09,  1.01s/it]  5%|▍         | 4840/100000 [2:55:33<25:25:43,  1.04it/s]                                                            5%|▍         | 4840/100000 [2:55:33<25:25:43,  1.04it/s]  5%|▍         | 4841/100000 [2:55:34<24:29:20,  1.08it/s]                                                            5%|▍         | 4841/100000 [2:55:34<24:29:20,  1.08it/s]  5%|▍         | 4842/100000 [2:55:35<23:58:54,  1.10it/s]                                                            5%|▍         | 4842/100000 [2:55:35<23:58:54,  1.10it/s]  5%|▍         | 4843/100000 [2:55:36<23:11:56,  1.14it/s]                                                            5%|▍         | 4843/100000 [2:55:36<23:11:56,  1.14it/s]  5%|▍         | 4844/100000 [2:55:37<22:40:16,  1.17it/s]                                                            5%|▍         | 4844/100000 [2:55:37<22:40:16,  1.17it/s]  5%|▍         | 4845/100000 [2:55:38<22:29:13,  1.18it/s]                                                            5%|▍         | 4845/100000 [2:55:38<22:29:13,  1.18it/s]  5%|▍         | 4846/100000 [2:55:38<21:43:22,  1.22it/s]                                                            5%|▍         | 4846/100000 [2:55:38<21:43:22,  1.22it/s]  5%|▍         | 4847/100000 [2:55:39<21:24:03,  1.24it/s]                                                            5%|▍         | 4847/100000 [2:55:39<21:24:03,  1.24it/s]  5%|▍         | 4848/100000 [2:55:40<20:33:22,  1.29it/s]                                                            5%|▍         | 4848/100000 [2:55:40<20:33:22,  1.29it/s]  5%|▍         | 4849/100000 [2:55:41<20:13:28,  1.31it/s]                                                            5%|▍         | 4849/100000 [2:55:41<20:13:28,  1.31it/s]  5%|▍         | 4850/100000 [2:55:41<19:50:15,  1.33it/s]                                                            5%|▍         | 4850/100000 [2:55:41<19:50:15,  1.33it/s]  5%|▍         | 4851/100000 [2:55:52<96:54:26,  3.67s/it]                                                            5%|▍         | 4851/100000 [2:55:52<96:54:26,  3.67s/it]  5%|▍         | 4852/100000 [2:56:00<131:39:28,  4.98s/it]                                                             5%|▍         | 4852/100000 [2:56:00<131:39:28,  4.98s/it]  5%|▍         | 4853/100000 [2:56:06<138:09:27,  5.23s/it]                                                             5%|▍         | 4853/100000 [2:56:06<138:09:27,  5.23s/it]  5%|▍         | 4854/100000 [2:56:10<132:51:27,  5.03s/it]                                                             5%|▍         | 4854/100000 [2:56:10<132:51:27,  5.03s/it]  5%|▍         | 4855/100000 [2:56:14<122:54:14,  4.65s/it]                                                             5%|▍         | 4855/100000 [2:56:14<122:54:14,  4.65s/it]  5%|▍         | 4856/100000 [2:56:17<113:08:13,  4.28s/it]                                                             5%|▍         | 4856/100000 [2:56:17<113:08:13,  4.28s/it]  5%|▍         | 4857/100000 [2:56:20<102:39:52,  3.88s/it]                                                             5%|▍         | 4857/100000 [2:56:20<102:39:52,  3.88s/it]  5%|▍         | 4858/100000 [2:56:23<92:59:44,  3.52s/it]                                                           {'loss': 0.2152, 'grad_norm': 0.9389845132827759, 'learning_rate': 1.4313000000000002e-05, 'epoch': 31.01}
{'loss': 0.1869, 'grad_norm': 0.8530293107032776, 'learning_rate': 1.4316000000000002e-05, 'epoch': 31.01}
{'loss': 0.1813, 'grad_norm': 0.9490246176719666, 'learning_rate': 1.4319e-05, 'epoch': 31.02}
{'loss': 0.1228, 'grad_norm': 1.0098044872283936, 'learning_rate': 1.4322e-05, 'epoch': 31.03}
{'loss': 0.1411, 'grad_norm': 0.7724544405937195, 'learning_rate': 1.4325e-05, 'epoch': 31.03}
{'loss': 0.1017, 'grad_norm': 0.7052514553070068, 'learning_rate': 1.4328e-05, 'epoch': 31.04}
{'loss': 0.1079, 'grad_norm': 0.6916924715042114, 'learning_rate': 1.4331e-05, 'epoch': 31.05}
{'loss': 0.1175, 'grad_norm': 0.701209306716919, 'learning_rate': 1.4334e-05, 'epoch': 31.05}
{'loss': 0.1015, 'grad_norm': 0.6812064051628113, 'learning_rate': 1.4337e-05, 'epoch': 31.06}
{'loss': 0.0825, 'grad_norm': 0.8061193227767944, 'learning_rate': 1.434e-05, 'epoch': 31.06}
{'loss': 0.09, 'grad_norm': 0.6832452416419983, 'learning_rate': 1.4343000000000001e-05, 'epoch': 31.07}
{'loss': 0.0777, 'grad_norm': 0.6586152911186218, 'learning_rate': 1.4346000000000001e-05, 'epoch': 31.08}
{'loss': 0.0752, 'grad_norm': 0.5858330130577087, 'learning_rate': 1.4349000000000001e-05, 'epoch': 31.08}
{'loss': 0.0682, 'grad_norm': 0.6333785653114319, 'learning_rate': 1.4352e-05, 'epoch': 31.09}
{'loss': 0.0704, 'grad_norm': 0.47683829069137573, 'learning_rate': 1.4355e-05, 'epoch': 31.1}
{'loss': 0.0554, 'grad_norm': 0.5491999387741089, 'learning_rate': 1.4358e-05, 'epoch': 31.1}
{'loss': 0.0615, 'grad_norm': 0.8095775842666626, 'learning_rate': 1.4361e-05, 'epoch': 31.11}
{'loss': 0.0811, 'grad_norm': 0.9484201073646545, 'learning_rate': 1.4364e-05, 'epoch': 31.12}
{'loss': 0.0665, 'grad_norm': 1.2987520694732666, 'learning_rate': 1.4367e-05, 'epoch': 31.12}
{'loss': 0.0542, 'grad_norm': 1.0098234415054321, 'learning_rate': 1.437e-05, 'epoch': 31.13}
{'loss': 0.0599, 'grad_norm': 1.1258183717727661, 'learning_rate': 1.4373000000000001e-05, 'epoch': 31.14}
{'loss': 0.0797, 'grad_norm': 1.0848515033721924, 'learning_rate': 1.4376000000000001e-05, 'epoch': 31.14}
{'loss': 0.0441, 'grad_norm': 0.7276148200035095, 'learning_rate': 1.4379e-05, 'epoch': 31.15}
{'loss': 0.0602, 'grad_norm': 1.2148867845535278, 'learning_rate': 1.4382e-05, 'epoch': 31.16}
{'loss': 0.0636, 'grad_norm': 1.061376929283142, 'learning_rate': 1.4385e-05, 'epoch': 31.16}
{'loss': 0.0404, 'grad_norm': 0.6230520606040955, 'learning_rate': 1.4388000000000002e-05, 'epoch': 31.17}
{'loss': 0.0449, 'grad_norm': 0.8026833534240723, 'learning_rate': 1.4391000000000002e-05, 'epoch': 31.18}
{'loss': 0.0474, 'grad_norm': 0.9112318754196167, 'learning_rate': 1.4394e-05, 'epoch': 31.18}
{'loss': 0.0566, 'grad_norm': 1.4532040357589722, 'learning_rate': 1.4397e-05, 'epoch': 31.19}
{'loss': 0.0279, 'grad_norm': 0.6261730790138245, 'learning_rate': 1.44e-05, 'epoch': 31.19}
{'loss': 0.0423, 'grad_norm': 2.6525235176086426, 'learning_rate': 1.4403e-05, 'epoch': 31.2}
{'loss': 0.0973, 'grad_norm': 0.9930526614189148, 'learning_rate': 1.4406e-05, 'epoch': 31.21}
{'loss': 0.0298, 'grad_norm': 2.1247406005859375, 'learning_rate': 1.4409e-05, 'epoch': 31.21}
{'loss': 0.0239, 'grad_norm': 1.1990876197814941, 'learning_rate': 1.4412e-05, 'epoch': 31.22}
{'loss': 0.0367, 'grad_norm': 1.049575924873352, 'learning_rate': 1.4415e-05, 'epoch': 31.23}
{'loss': 0.0357, 'grad_norm': 2.810716152191162, 'learning_rate': 1.4418000000000002e-05, 'epoch': 31.23}
{'loss': 0.0373, 'grad_norm': 1.7566319704055786, 'learning_rate': 1.4421000000000001e-05, 'epoch': 31.24}
{'loss': 0.0551, 'grad_norm': 2.3153159618377686, 'learning_rate': 1.4424000000000001e-05, 'epoch': 31.25}
{'loss': 0.2163, 'grad_norm': 0.8476157188415527, 'learning_rate': 1.4427000000000001e-05, 'epoch': 31.25}
{'loss': 0.173, 'grad_norm': 0.7855810523033142, 'learning_rate': 1.4429999999999999e-05, 'epoch': 31.26}
{'loss': 0.1382, 'grad_norm': 0.5940059423446655, 'learning_rate': 1.4433e-05, 'epoch': 31.27}
{'loss': 0.1476, 'grad_norm': 0.64802086353302, 'learning_rate': 1.4436e-05, 'epoch': 31.27}
{'loss': 0.1268, 'grad_norm': 0.6128617525100708, 'learning_rate': 1.4439e-05, 'epoch': 31.28}
{'loss': 0.104, 'grad_norm': 0.6860062479972839, 'learning_rate': 1.4442e-05, 'epoch': 31.29}
{'loss': 0.094, 'grad_norm': 0.6936570405960083, 'learning_rate': 1.4445e-05, 'epoch': 31.29}
{'loss': 0.0916, 'grad_norm': 0.6942169070243835, 'learning_rate': 1.4448e-05, 'epoch': 31.3}
{'loss': 0.1405, 'grad_norm': 0.8765883445739746, 'learning_rate': 1.4451000000000001e-05, 'epoch': 31.31}
{'loss': 0.0669, 'grad_norm': 0.5160287618637085, 'learning_rate': 1.4454000000000001e-05, 'epoch': 31.31}
{'loss': 0.0777, 'grad_norm': 0.7408214807510376, 'learning_rate': 1.4457e-05, 'epoch': 31.32}
{'loss': 0.0769, 'grad_norm': 0.6498836278915405, 'learning_rate': 1.446e-05, 'epoch': 31.32}
{'loss': 0.0957, 'grad_norm': 0.9095423817634583, 'learning_rate': 1.4463e-05, 'epoch': 31.33}
{'loss': 0.0721, 'grad_norm': 0.6407284736633301, 'learning_rate': 1.4466e-05, 'epoch': 31.34}
{'loss': 0.0654, 'grad_norm': 0.8382486701011658, 'learning_rate': 1.4469e-05, 'epoch': 31.34}
{'loss': 0.1026, 'grad_norm': 0.779349148273468, 'learning_rate': 1.4472e-05, 'epoch': 31.35}
{'loss': 0.0706, 'grad_norm': 2.408250093460083, 'learning_rate': 1.4475e-05, 'epoch': 31.36}
{'loss': 0.0481, 'grad_norm': 1.4665913581848145, 'learning_rate': 1.4478e-05, 'epoch': 31.36}
{'loss': 0.0379, 'grad_norm': 1.0442850589752197, 'learning_rate': 1.4481e-05, 'epoch': 31.37}
{'loss': 0.08, 'grad_norm': 1.033433437347412, 'learning_rate': 1.4484e-05, 'epoch': 31.38}
{'loss': 0.0587, 'grad_norm': 1.063158392906189, 'learning_rate': 1.4487e-05, 'epoch': 31.38}
{'loss': 0.0433, 'grad_norm': 0.6191327571868896, 'learning_rate': 1.449e-05, 'epoch': 31.39}
{'loss': 0.0524, 'grad_norm': 1.210107684135437, 'learning_rate': 1.4493e-05, 'epoch': 31.4}
{'loss': 0.0773, 'grad_norm': 0.8553476333618164, 'learning_rate': 1.4496000000000001e-05, 'epoch': 31.4}
{'loss': 0.0643, 'grad_norm': 1.1340841054916382, 'learning_rate': 1.4499000000000001e-05, 'epoch': 31.41}
{'loss': 0.0296, 'grad_norm': 0.945054292678833, 'learning_rate': 1.4502000000000001e-05, 'epoch': 31.42}
{'loss': 0.0662, 'grad_norm': 1.3615015745162964, 'learning_rate': 1.4505e-05, 'epoch': 31.42}
{'loss': 0.1514, 'grad_norm': 1.122593879699707, 'learning_rate': 1.4507999999999999e-05, 'epoch': 31.43}
{'loss': 0.0908, 'grad_norm': 1.5506094694137573, 'learning_rate': 1.4511e-05, 'epoch': 31.44}
{'loss': 0.0445, 'grad_norm': 1.4204453229904175, 'learning_rate': 1.4514e-05, 'epoch': 31.44}
{'loss': 0.0436, 'grad_norm': 0.8300713896751404, 'learning_rate': 1.4517e-05, 'epoch': 31.45}
{'loss': 0.0351, 'grad_norm': 0.7318785190582275, 'learning_rate': 1.452e-05, 'epoch': 31.45}
{'loss': 0.0603, 'grad_norm': 0.9786814451217651, 'learning_rate': 1.4523e-05, 'epoch': 31.46}
{'loss': 0.0381, 'grad_norm': 1.2333734035491943, 'learning_rate': 1.4526000000000001e-05, 'epoch': 31.47}
{'loss': 0.0533, 'grad_norm': 1.42760169506073, 'learning_rate': 1.4529000000000001e-05, 'epoch': 31.47}
{'loss': 0.0353, 'grad_norm': 0.7781135439872742, 'learning_rate': 1.4532e-05, 'epoch': 31.48}
{'loss': 0.0511, 'grad_norm': 3.4386842250823975, 'learning_rate': 1.4535e-05, 'epoch': 31.49}
{'loss': 0.0781, 'grad_norm': 2.6492438316345215, 'learning_rate': 1.4538e-05, 'epoch': 31.49}
{'loss': 0.2501, 'grad_norm': 1.2762634754180908, 'learning_rate': 1.4541e-05, 'epoch': 31.5}
{'loss': 0.1816, 'grad_norm': 0.7216265797615051, 'learning_rate': 1.4544e-05, 'epoch': 31.51}
{'loss': 0.1667, 'grad_norm': 0.9256450533866882, 'learning_rate': 1.4547e-05, 'epoch': 31.51}
{'loss': 0.1411, 'grad_norm': 0.8780951499938965, 'learning_rate': 1.455e-05, 'epoch': 31.52}
{'loss': 0.1077, 'grad_norm': 0.6344889998435974, 'learning_rate': 1.4553e-05, 'epoch': 31.53}
{'loss': 0.1115, 'grad_norm': 0.6549082398414612, 'learning_rate': 1.4556000000000001e-05, 'epoch': 31.53}
{'loss': 0.1114, 'grad_norm': 0.6846075057983398, 'learning_rate': 1.4559e-05, 'epoch': 31.54}
  5%|▍         | 4858/100000 [2:56:23<92:59:44,  3.52s/it]  5%|▍         | 4859/100000 [2:56:25<83:17:30,  3.15s/it]                                                            5%|▍         | 4859/100000 [2:56:25<83:17:30,  3.15s/it]  5%|▍         | 4860/100000 [2:56:27<75:11:42,  2.85s/it]                                                            5%|▍         | 4860/100000 [2:56:27<75:11:42,  2.85s/it]  5%|▍         | 4861/100000 [2:56:29<68:17:02,  2.58s/it]                                                            5%|▍         | 4861/100000 [2:56:29<68:17:02,  2.58s/it]  5%|▍         | 4862/100000 [2:56:31<62:03:31,  2.35s/it]                                                            5%|▍         | 4862/100000 [2:56:31<62:03:31,  2.35s/it]  5%|▍         | 4863/100000 [2:56:33<56:35:08,  2.14s/it]                                                            5%|▍         | 4863/100000 [2:56:33<56:35:08,  2.14s/it]  5%|▍         | 4864/100000 [2:56:34<52:25:17,  1.98s/it]                                                            5%|▍         | 4864/100000 [2:56:34<52:25:17,  1.98s/it]  5%|▍         | 4865/100000 [2:56:36<49:07:31,  1.86s/it]                                                            5%|▍         | 4865/100000 [2:56:36<49:07:31,  1.86s/it]  5%|▍         | 4866/100000 [2:56:37<45:52:37,  1.74s/it]                                                            5%|▍         | 4866/100000 [2:56:37<45:52:37,  1.74s/it]  5%|▍         | 4867/100000 [2:56:39<42:58:45,  1.63s/it]                                                            5%|▍         | 4867/100000 [2:56:39<42:58:45,  1.63s/it]  5%|▍         | 4868/100000 [2:56:40<40:43:50,  1.54s/it]                                                            5%|▍         | 4868/100000 [2:56:40<40:43:50,  1.54s/it]  5%|▍         | 4869/100000 [2:56:41<38:32:35,  1.46s/it]                                                            5%|▍         | 4869/100000 [2:56:41<38:32:35,  1.46s/it]  5%|▍         | 4870/100000 [2:56:43<36:50:42,  1.39s/it]                                                            5%|▍         | 4870/100000 [2:56:43<36:50:42,  1.39s/it]  5%|▍         | 4871/100000 [2:56:44<34:44:18,  1.31s/it]                                                            5%|▍         | 4871/100000 [2:56:44<34:44:18,  1.31s/it]  5%|▍         | 4872/100000 [2:56:45<33:04:14,  1.25s/it]                                                            5%|▍         | 4872/100000 [2:56:45<33:04:14,  1.25s/it]  5%|▍         | 4873/100000 [2:56:46<31:39:25,  1.20s/it]                                                            5%|▍         | 4873/100000 [2:56:46<31:39:25,  1.20s/it]  5%|▍         | 4874/100000 [2:56:47<30:15:16,  1.14s/it]                                                            5%|▍         | 4874/100000 [2:56:47<30:15:16,  1.14s/it]  5%|▍         | 4875/100000 [2:56:48<28:46:05,  1.09s/it]                                                            5%|▍         | 4875/100000 [2:56:48<28:46:05,  1.09s/it]  5%|▍         | 4876/100000 [2:56:49<27:29:45,  1.04s/it]                                                            5%|▍         | 4876/100000 [2:56:49<27:29:45,  1.04s/it]  5%|▍         | 4877/100000 [2:56:50<26:24:45,  1.00it/s]                                                            5%|▍         | 4877/100000 [2:56:50<26:24:45,  1.00it/s]  5%|▍         | 4878/100000 [2:56:51<25:32:38,  1.03it/s]                                                            5%|▍         | 4878/100000 [2:56:51<25:32:38,  1.03it/s]  5%|▍         | 4879/100000 [2:56:52<24:54:09,  1.06it/s]                                                            5%|▍         | 4879/100000 [2:56:52<24:54:09,  1.06it/s]  5%|▍         | 4880/100000 [2:56:52<24:23:39,  1.08it/s]                                                            5%|▍         | 4880/100000 [2:56:52<24:23:39,  1.08it/s]  5%|▍         | 4881/100000 [2:56:53<23:40:29,  1.12it/s]                                                            5%|▍         | 4881/100000 [2:56:53<23:40:29,  1.12it/s]  5%|▍         | 4882/100000 [2:56:54<23:12:31,  1.14it/s]                                                            5%|▍         | 4882/100000 [2:56:54<23:12:31,  1.14it/s]  5%|▍         | 4883/100000 [2:56:55<22:16:58,  1.19it/s]                                                            5%|▍         | 4883/100000 [2:56:55<22:16:58,  1.19it/s]  5%|▍         | 4884/100000 [2:56:56<22:05:32,  1.20it/s]                                                            5%|▍         | 4884/100000 [2:56:56<22:05:32,  1.20it/s]  5%|▍         | 4885/100000 [2:56:56<21:34:19,  1.22it/s]                                                            5%|▍         | 4885/100000 [2:56:56<21:34:19,  1.22it/s]  5%|▍         | 4886/100000 [2:56:57<21:07:07,  1.25it/s]                                                            5%|▍         | 4886/100000 [2:56:57<21:07:07,  1.25it/s]  5%|▍         | 4887/100000 [2:56:58<20:16:26,  1.30it/s]                                                            5%|▍         | 4887/100000 [2:56:58<20:16:26,  1.30it/s]  5%|▍         | 4888/100000 [2:56:59<19:11:11,  1.38it/s]                                                            5%|▍         | 4888/100000 [2:56:59<19:11:11,  1.38it/s]  5%|▍         | 4889/100000 [2:57:12<116:10:14,  4.40s/it]                                                             5%|▍         | 4889/100000 [2:57:12<116:10:14,  4.40s/it]  5%|▍         | 4890/100000 [2:57:19<141:08:40,  5.34s/it]                                                             5%|▍         | 4890/100000 [2:57:19<141:08:40,  5.34s/it]  5%|▍         | 4891/100000 [2:57:24<141:06:15,  5.34s/it]                                                             5%|▍         | 4891/100000 [2:57:24<141:06:15,  5.34s/it]  5%|▍         | 4892/100000 [2:57:29<134:56:17,  5.11s/it]                                                             5%|▍         | 4892/100000 [2:57:29<134:56:17,  5.11s/it]  5%|▍         | 4893/100000 [2:57:33<125:33:47,  4.75s/it]                                                             5%|▍         | 4893/100000 [2:57:33<125:33:47,  4.75s/it]  5%|▍         | 4894/100000 [2:57:36<115:08:42,  4.36s/it]                                                             5%|▍         | 4894/100000 [2:57:36<115:08:42,  4.36s/it]  5%|▍         | 4895/100000 [2:57:39<104:26:52,  3.95s/it]                                                             5%|▍         | 4895/100000 [2:57:39<104:26:52,  3.95s/it]  5%|▍         | 4896/100000 [2:57:42<93:26:09,  3.54s/it]                                                             5%|▍         | 4896/100000 [2:57:42<93:26:09,  3.54s/it]  5%|▍         | 4897/100000 [2:57:44<83:54:10,  3.18s/it]                                                            5%|▍         | 4897/100000 [2:57:44<83:54:10,  3.18s/it]  5%|▍         | 4898/100000 [2:57:46<75:12:18,  2.85s/it]                                                            5%|▍         | 4898/100000 [2:57:46<75:12:18,  2.85s/it]  5%|▍         | 4899/100000 [2:57:48<67:49:59,  2.57s/it]                                                            5%|▍         | 4899/100000 [2:57:48<67:49:59,  2.57s/it]  5%|▍         | 4900/100000 [2:57:50<61:16:31,  2.32s/it]                                                            5%|▍         | 4900/100000 [2:57:50<61:16:31,  2.32s/it]  5%|▍         | 4901/100000 [2:57:52<55:45:58,  2.11s/it]                                                            5%|▍         | 4901/100000 [2:57:52<55:45:58,  2.11s/it]  5%|▍         | 4902/100000 [2:57:53<51:55:07,  1.97s/it]                                                            5%|▍         | 4902/100000 [2:57:53<51:55:07,  1.97s/it]  5%|▍         | 4903/100000 [2:57:55<48:37:44,  1.84s/it]                                                            5%|▍         | 4903/100000 [2:57:55<48:37:44,  1.84s/it]  5%|▍         | 4904/100000 [2:57:56<45:32:11,  1.72s/it]                                                            5%|▍         | 4904/100000 [2:57:56<45:32:11,  1.72s/it]  5%|▍         | 4905/100000 [2:57:58<42:53:50,  1.62s/it]                                                            5%|▍         | 4905/100000 [2:57:58<42:53:50,  1.62s/it]  5%|▍         | 4906/100000 [2:57:59<40:41:53,  1.54s/it]                                                            5%|▍         | 4906/100000 [2:57:59<40:41:53,  1.54s/it]  5%|▍         | 4907/100000 [2:58:00<38:19:19,  1.45s/it]                                                            5%|▍         | 4907/100000 [2:58:00<38:19:19,  1.45s/it]  5%|▍         | 4908/100000 [2:58:01<36:21:41,  1.38s/it]                                                            5%|▍         | 4908/100000 [2:58:01<36:21:41,  1.38s/it]  5%|▍         | 4909/100000 [2:58:03<34:11:08,  1.29s/it]                                                            5%|▍         | 4909/100000 [2:58:03<34:11:08,  1.29s/it]  5%|▍         | 4910/100000 [2:58:04<32:43:12,  1.24s/it]                                                            5%|▍         | 4910/100000 [2:58:04<32:43:12,  1.24s/it]  5%|▍         | 4911/100000 [2:58:05<31:00:39,  1.17s/it]                                                            5%|▍         | 4911/100000 [2:58:05<31:00:39,  1.17s/it]  5%|▍         | 4912/100000 [2:58:06<29:26:25,  1.11s/it]                                                            5%|▍         | 4912/100000 [2:58:06<29:26:25,  1.11s/it]  5%|▍         | 4913/100000 [2:58:07<27:45:25,  1.05s/it]                                                            5%|▍         | 4913/100000 [2:58:07<27:45:25,  1.05s/it]  5%|▍         | 4914/100000 [2:58:07<26:51:53,  1.02s/it]                                                            5%|▍         | 4914/100000 [2:58:07<26:51:53,  1.02s/it]  5%|▍         | 4915/100000 [2:58:08<26:11:51,  1.01it/s]                                                            5%|▍         | 4915/100000 [2:58:08<26:11:51,  1.01it/s]  5%|▍         | 4916/100000 [2:58:09<25:27:06,  1.04it/s]                                                            5%|▍         | 4916/100000 [2:58:09<25:27:06,  1.04it/s]  5%|▍         | 4917/100000 [2:58:10<24:18:13,  1.09it/s]                                                            5%|▍         | 4917/100000 [2:58:10<24:18:13,  1.09it/s]  5%|▍         | 4918/100000 [2:58:11<23:12:16,  1.14it/s]                                                            5%|▍         | 4918/100000 [2:58:11<23:12:16,  1.14it/s]  5%|▍         | 4919/100000 [2:58:12<22:35:17,  1.17it/s]                                                            5%|▍         | 4919/100000 [2:58:12<22:35:17,  1.17it/s]  5%|▍         | 4920/100000 [2:58:12<21:58:55,  1.20it/s]                                                            5%|▍         | 4920/100000 [2:58:13<21:58:55,  1.20it/s]  5%|▍         | 4921/100000 [2:58:13<21:50:36,  1.21it/s]                                                            5%|▍         | 4921/100000 [2:58:13<21:50:36,  1.21it/s]  5%|▍         | 4922/100000 [2:58:14<20:51:45,  1.27it/s]                                                            5%|▍         | 4922/100000 [2:58:14<20:51:45,  1.27it/s]  5%|▍         | 4923/100000 [2:58:15<20:20:33,  1.30it/s]                                                            5%|▍         | 4923/100000 [2:58:15<20:20:33,  1.30it/s]  5%|▍         | 4924/100000 [2:58:15<19:45:56,  1.34it/s]                                                            5%|▍         | 4924/100000 [2:58:15<19:45:56,  1.34it/s]  5%|▍         | 4925/100000 [2:58:16<18:46:59,  1.41it/s]                                                            5%|▍         | 4925/100000 [2:58:16<18:46:59,  1.41it/s]  5%|▍         | 4926/100000 [2:58:17<17:47:02,  1.49it/s]                                                            5%|▍         | 4926/100000 [2:58:17<17:47:02,  1.49it/s]  5%|▍         | 4927/100000 [2:58:23<66:17:38,  2.51s/it]                                                            5%|▍         | 4927/100000 [2:58:23<66:17:38,  2.51s/it]  5%|▍         | 4928/100000 [2:58:25<56:45:47,  2.15s/it]                                                            5%|▍         | 4928/100000 [2:58:25<56:45:47,  2.15s/it]{'loss': 0.1277, 'grad_norm': 0.7760695815086365, 'learning_rate': 1.4562e-05, 'epoch': 31.55}
{'loss': 0.0918, 'grad_norm': 0.833493709564209, 'learning_rate': 1.4565e-05, 'epoch': 31.55}
{'loss': 0.1051, 'grad_norm': 0.7983660101890564, 'learning_rate': 1.4568e-05, 'epoch': 31.56}
{'loss': 0.0599, 'grad_norm': 0.6545389294624329, 'learning_rate': 1.4571000000000002e-05, 'epoch': 31.56}
{'loss': 0.0746, 'grad_norm': 0.6538467407226562, 'learning_rate': 1.4574000000000001e-05, 'epoch': 31.57}
{'loss': 0.0961, 'grad_norm': 0.8958870768547058, 'learning_rate': 1.4577e-05, 'epoch': 31.58}
{'loss': 0.0705, 'grad_norm': 0.6526986360549927, 'learning_rate': 1.458e-05, 'epoch': 31.58}
{'loss': 0.0593, 'grad_norm': 0.8846220374107361, 'learning_rate': 1.4582999999999999e-05, 'epoch': 31.59}
{'loss': 0.0526, 'grad_norm': 0.6057655215263367, 'learning_rate': 1.4586e-05, 'epoch': 31.6}
{'loss': 0.0584, 'grad_norm': 0.5538528561592102, 'learning_rate': 1.4589e-05, 'epoch': 31.6}
{'loss': 0.0741, 'grad_norm': 0.8314157128334045, 'learning_rate': 1.4592e-05, 'epoch': 31.61}
{'loss': 0.0624, 'grad_norm': 0.9434900879859924, 'learning_rate': 1.4595e-05, 'epoch': 31.62}
{'loss': 0.067, 'grad_norm': 0.861737847328186, 'learning_rate': 1.4598e-05, 'epoch': 31.62}
{'loss': 0.0569, 'grad_norm': 1.0186567306518555, 'learning_rate': 1.4601000000000001e-05, 'epoch': 31.63}
{'loss': 0.0689, 'grad_norm': 0.8320642113685608, 'learning_rate': 1.4604000000000001e-05, 'epoch': 31.64}
{'loss': 0.0637, 'grad_norm': 1.7923310995101929, 'learning_rate': 1.4607000000000001e-05, 'epoch': 31.64}
{'loss': 0.0554, 'grad_norm': 1.0524548292160034, 'learning_rate': 1.461e-05, 'epoch': 31.65}
{'loss': 0.0471, 'grad_norm': 0.8654986023902893, 'learning_rate': 1.4613e-05, 'epoch': 31.66}
{'loss': 0.0685, 'grad_norm': 1.3118962049484253, 'learning_rate': 1.4616e-05, 'epoch': 31.66}
{'loss': 0.1048, 'grad_norm': 1.7596864700317383, 'learning_rate': 1.4619e-05, 'epoch': 31.67}
{'loss': 0.0629, 'grad_norm': 1.3256093263626099, 'learning_rate': 1.4622e-05, 'epoch': 31.68}
{'loss': 0.0561, 'grad_norm': 1.3688424825668335, 'learning_rate': 1.4625e-05, 'epoch': 31.68}
{'loss': 0.0389, 'grad_norm': 0.8166205286979675, 'learning_rate': 1.4628e-05, 'epoch': 31.69}
{'loss': 0.0495, 'grad_norm': 1.7156615257263184, 'learning_rate': 1.4631000000000001e-05, 'epoch': 31.69}
{'loss': 0.026, 'grad_norm': 0.7459705471992493, 'learning_rate': 1.4634e-05, 'epoch': 31.7}
{'loss': 0.0305, 'grad_norm': 1.0205364227294922, 'learning_rate': 1.4637e-05, 'epoch': 31.71}
{'loss': 0.0389, 'grad_norm': 0.8992369771003723, 'learning_rate': 1.464e-05, 'epoch': 31.71}
{'loss': 0.0363, 'grad_norm': 0.9857311248779297, 'learning_rate': 1.4643e-05, 'epoch': 31.72}
{'loss': 0.0713, 'grad_norm': 1.1252074241638184, 'learning_rate': 1.4646000000000002e-05, 'epoch': 31.73}
{'loss': 0.0394, 'grad_norm': 1.1036921739578247, 'learning_rate': 1.4649000000000002e-05, 'epoch': 31.73}
{'loss': 0.094, 'grad_norm': 1.8769259452819824, 'learning_rate': 1.4652e-05, 'epoch': 31.74}
{'loss': 0.2566, 'grad_norm': 1.4164923429489136, 'learning_rate': 1.4655e-05, 'epoch': 31.75}
{'loss': 0.1677, 'grad_norm': 0.818852961063385, 'learning_rate': 1.4658e-05, 'epoch': 31.75}
{'loss': 0.1368, 'grad_norm': 0.7142597436904907, 'learning_rate': 1.4661e-05, 'epoch': 31.76}
{'loss': 0.1537, 'grad_norm': 0.5949402451515198, 'learning_rate': 1.4664e-05, 'epoch': 31.77}
{'loss': 0.1254, 'grad_norm': 0.8608210682868958, 'learning_rate': 1.4667e-05, 'epoch': 31.77}
{'loss': 0.1157, 'grad_norm': 0.7480873465538025, 'learning_rate': 1.467e-05, 'epoch': 31.78}
{'loss': 0.1195, 'grad_norm': 0.658393919467926, 'learning_rate': 1.4673e-05, 'epoch': 31.79}
{'loss': 0.1084, 'grad_norm': 0.6822196245193481, 'learning_rate': 1.4676000000000001e-05, 'epoch': 31.79}
{'loss': 0.1113, 'grad_norm': 0.8846068978309631, 'learning_rate': 1.4679000000000001e-05, 'epoch': 31.8}
{'loss': 0.0798, 'grad_norm': 0.7029904723167419, 'learning_rate': 1.4682000000000001e-05, 'epoch': 31.81}
{'loss': 0.088, 'grad_norm': 0.7375058531761169, 'learning_rate': 1.4685000000000001e-05, 'epoch': 31.81}
{'loss': 0.1012, 'grad_norm': 0.8748653531074524, 'learning_rate': 1.4687999999999999e-05, 'epoch': 31.82}
{'loss': 0.0733, 'grad_norm': 0.6897084712982178, 'learning_rate': 1.4691e-05, 'epoch': 31.82}
{'loss': 0.0821, 'grad_norm': 0.671869695186615, 'learning_rate': 1.4694e-05, 'epoch': 31.83}
{'loss': 0.0733, 'grad_norm': 0.7819983959197998, 'learning_rate': 1.4697e-05, 'epoch': 31.84}
{'loss': 0.0482, 'grad_norm': 0.6284136772155762, 'learning_rate': 1.47e-05, 'epoch': 31.84}
{'loss': 0.0659, 'grad_norm': 0.7863951921463013, 'learning_rate': 1.4703e-05, 'epoch': 31.85}
{'loss': 0.0747, 'grad_norm': 0.9674959778785706, 'learning_rate': 1.4706000000000001e-05, 'epoch': 31.86}
{'loss': 0.0542, 'grad_norm': 0.6137912273406982, 'learning_rate': 1.4709000000000001e-05, 'epoch': 31.86}
{'loss': 0.0604, 'grad_norm': 0.7553110718727112, 'learning_rate': 1.4712e-05, 'epoch': 31.87}
{'loss': 0.0795, 'grad_norm': 1.015889048576355, 'learning_rate': 1.4715e-05, 'epoch': 31.88}
{'loss': 0.0661, 'grad_norm': 0.7493953108787537, 'learning_rate': 1.4718e-05, 'epoch': 31.88}
{'loss': 0.0866, 'grad_norm': 0.8917388916015625, 'learning_rate': 1.4721000000000002e-05, 'epoch': 31.89}
{'loss': 0.0872, 'grad_norm': 0.7878811359405518, 'learning_rate': 1.4724e-05, 'epoch': 31.9}
{'loss': 0.0496, 'grad_norm': 2.3491480350494385, 'learning_rate': 1.4727e-05, 'epoch': 31.9}
{'loss': 0.0512, 'grad_norm': 1.4784071445465088, 'learning_rate': 1.473e-05, 'epoch': 31.91}
{'loss': 0.0516, 'grad_norm': 1.1213449239730835, 'learning_rate': 1.4733e-05, 'epoch': 31.92}
{'loss': 0.038, 'grad_norm': 0.8379979729652405, 'learning_rate': 1.4736000000000001e-05, 'epoch': 31.92}
{'loss': 0.0599, 'grad_norm': 0.9598119258880615, 'learning_rate': 1.4739e-05, 'epoch': 31.93}
{'loss': 0.0432, 'grad_norm': 1.2286758422851562, 'learning_rate': 1.4742e-05, 'epoch': 31.94}
{'loss': 0.064, 'grad_norm': 2.512359619140625, 'learning_rate': 1.4745e-05, 'epoch': 31.94}
{'loss': 0.0483, 'grad_norm': 1.431888222694397, 'learning_rate': 1.4748e-05, 'epoch': 31.95}
{'loss': 0.0244, 'grad_norm': 0.6181659698486328, 'learning_rate': 1.4751000000000002e-05, 'epoch': 31.95}
{'loss': 0.0747, 'grad_norm': 2.087533950805664, 'learning_rate': 1.4754000000000001e-05, 'epoch': 31.96}
{'loss': 0.0623, 'grad_norm': 2.6063005924224854, 'learning_rate': 1.4757000000000001e-05, 'epoch': 31.97}
{'loss': 0.0386, 'grad_norm': 1.4315541982650757, 'learning_rate': 1.4760000000000001e-05, 'epoch': 31.97}
{'loss': 0.0412, 'grad_norm': 1.611786127090454, 'learning_rate': 1.4762999999999999e-05, 'epoch': 31.98}
{'loss': 0.0841, 'grad_norm': 2.3395190238952637, 'learning_rate': 1.4766e-05, 'epoch': 31.99}
{'loss': 0.1282, 'grad_norm': 1.2452571392059326, 'learning_rate': 1.4769e-05, 'epoch': 31.99}
{'loss': 0.0383, 'grad_norm': 1.0657449960708618, 'learning_rate': 1.4772e-05, 'epoch': 32.0}
  5%|▍         | 4929/100000 [2:58:42<179:17:57,  6.79s/it]                                                             5%|▍         | 4929/100000 [2:58:42<179:17:57,  6.79s/it]  5%|▍         | 4930/100000 [2:58:50<188:08:00,  7.12s/it]                                                             5%|▍         | 4930/100000 [2:58:50<188:08:00,  7.12s/it]  5%|▍         | 4931/100000 [2:58:56<176:03:17,  6.67s/it]                                                             5%|▍         | 4931/100000 [2:58:56<176:03:17,  6.67s/it]  5%|▍         | 4932/100000 [2:59:01<160:08:27,  6.06s/it]                                                             5%|▍         | 4932/100000 [2:59:01<160:08:27,  6.06s/it]  5%|▍         | 4933/100000 [2:59:05<144:09:57,  5.46s/it]                                                             5%|▍         | 4933/100000 [2:59:05<144:09:57,  5.46s/it]  5%|▍         | 4934/100000 [2:59:08<129:20:14,  4.90s/it]                                                             5%|▍         | 4934/100000 [2:59:08<129:20:14,  4.90s/it]  5%|▍         | 4935/100000 [2:59:11<115:03:13,  4.36s/it]                                                             5%|▍         | 4935/100000 [2:59:11<115:03:13,  4.36s/it]  5%|▍         | 4936/100000 [2:59:14<101:56:11,  3.86s/it]                                                             5%|▍         | 4936/100000 [2:59:14<101:56:11,  3.86s/it]  5%|▍         | 4937/100000 [2:59:16<90:15:55,  3.42s/it]                                                             5%|▍         | 4937/100000 [2:59:16<90:15:55,  3.42s/it]  5%|▍         | 4938/100000 [2:59:18<80:08:27,  3.03s/it]                                                            5%|▍         | 4938/100000 [2:59:18<80:08:27,  3.03s/it]  5%|▍         | 4939/100000 [2:59:20<71:51:34,  2.72s/it]                                                            5%|▍         | 4939/100000 [2:59:20<71:51:34,  2.72s/it]  5%|▍         | 4940/100000 [2:59:22<64:28:39,  2.44s/it]                                                            5%|▍         | 4940/100000 [2:59:22<64:28:39,  2.44s/it]  5%|▍         | 4941/100000 [2:59:24<58:16:43,  2.21s/it]                                                            5%|▍         | 4941/100000 [2:59:24<58:16:43,  2.21s/it]  5%|▍         | 4942/100000 [2:59:26<53:36:55,  2.03s/it]                                                            5%|▍         | 4942/100000 [2:59:26<53:36:55,  2.03s/it]  5%|▍         | 4943/100000 [2:59:27<49:59:19,  1.89s/it]                                                            5%|▍         | 4943/100000 [2:59:27<49:59:19,  1.89s/it]  5%|▍         | 4944/100000 [2:59:29<47:01:05,  1.78s/it]                                                            5%|▍         | 4944/100000 [2:59:29<47:01:05,  1.78s/it]  5%|▍         | 4945/100000 [2:59:30<43:54:44,  1.66s/it]                                                            5%|▍         | 4945/100000 [2:59:30<43:54:44,  1.66s/it]  5%|▍         | 4946/100000 [2:59:31<41:19:26,  1.57s/it]                                                            5%|▍         | 4946/100000 [2:59:31<41:19:26,  1.57s/it]  5%|▍         | 4947/100000 [2:59:33<38:31:01,  1.46s/it]                                                            5%|▍         | 4947/100000 [2:59:33<38:31:01,  1.46s/it]  5%|▍         | 4948/100000 [2:59:34<36:49:26,  1.39s/it]                                                            5%|▍         | 4948/100000 [2:59:34<36:49:26,  1.39s/it]  5%|▍         | 4949/100000 [2:59:35<35:05:51,  1.33s/it]                                                            5%|▍         | 4949/100000 [2:59:35<35:05:51,  1.33s/it]  5%|▍         | 4950/100000 [2:59:36<33:16:09,  1.26s/it]                                                            5%|▍         | 4950/100000 [2:59:36<33:16:09,  1.26s/it]  5%|▍         | 4951/100000 [2:59:37<31:32:40,  1.19s/it]                                                            5%|▍         | 4951/100000 [2:59:37<31:32:40,  1.19s/it]  5%|▍         | 4952/100000 [2:59:38<30:03:18,  1.14s/it]                                                            5%|▍         | 4952/100000 [2:59:38<30:03:18,  1.14s/it]  5%|▍         | 4953/100000 [2:59:39<28:54:58,  1.10s/it]                                                            5%|▍         | 4953/100000 [2:59:39<28:54:58,  1.10s/it]  5%|▍         | 4954/100000 [2:59:40<28:00:55,  1.06s/it]                                                            5%|▍         | 4954/100000 [2:59:40<28:00:55,  1.06s/it]  5%|▍         | 4955/100000 [2:59:41<27:11:37,  1.03s/it]                                                            5%|▍         | 4955/100000 [2:59:41<27:11:37,  1.03s/it]  5%|▍         | 4956/100000 [2:59:42<26:04:26,  1.01it/s]                                                            5%|▍         | 4956/100000 [2:59:42<26:04:26,  1.01it/s]  5%|▍         | 4957/100000 [2:59:43<24:54:27,  1.06it/s]                                                            5%|▍         | 4957/100000 [2:59:43<24:54:27,  1.06it/s]  5%|▍         | 4958/100000 [2:59:44<24:20:17,  1.08it/s]                                                            5%|▍         | 4958/100000 [2:59:44<24:20:17,  1.08it/s]  5%|▍         | 4959/100000 [2:59:44<23:34:12,  1.12it/s]                                                            5%|▍         | 4959/100000 [2:59:44<23:34:12,  1.12it/s]  5%|▍         | 4960/100000 [2:59:45<23:23:03,  1.13it/s]                                                            5%|▍         | 4960/100000 [2:59:45<23:23:03,  1.13it/s]  5%|▍         | 4961/100000 [2:59:46<22:30:43,  1.17it/s]                                                            5%|▍         | 4961/100000 [2:59:46<22:30:43,  1.17it/s]  5%|▍         | 4962/100000 [2:59:47<21:49:10,  1.21it/s]                                                            5%|▍         | 4962/100000 [2:59:47<21:49:10,  1.21it/s]  5%|▍         | 4963/100000 [2:59:48<21:12:25,  1.24it/s]                                                            5%|▍         | 4963/100000 [2:59:48<21:12:25,  1.24it/s]  5%|▍         | 4964/100000 [2:59:48<20:31:54,  1.29it/s]                                                            5%|▍         | 4964/100000 [2:59:48<20:31:54,  1.29it/s]  5%|▍         | 4965/100000 [2:59:49<20:43:43,  1.27it/s]                                                            5%|▍         | 4965/100000 [2:59:49<20:43:43,  1.27it/s]  5%|▍         | 4966/100000 [2:59:50<20:00:11,  1.32it/s]                                                            5%|▍         | 4966/100000 [2:59:50<20:00:11,  1.32it/s]  5%|▍         | 4967/100000 [3:00:03<116:57:51,  4.43s/it]                                                             5%|▍         | 4967/100000 [3:00:03<116:57:51,  4.43s/it]  5%|▍         | 4968/100000 [3:00:11<145:27:37,  5.51s/it]                                                             5%|▍         | 4968/100000 [3:00:11<145:27:37,  5.51s/it]  5%|▍         | 4969/100000 [3:00:17<146:45:31,  5.56s/it]                                                             5%|▍         | 4969/100000 [3:00:17<146:45:31,  5.56s/it]  5%|▍         | 4970/100000 [3:00:21<139:26:06,  5.28s/it]                                                             5%|▍         | 4970/100000 [3:00:21<139:26:06,  5.28s/it]  5%|▍         | 4971/100000 [3:00:25<128:11:28,  4.86s/it]                                                             5%|▍         | 4971/100000 [3:00:25<128:11:28,  4.86s/it]  5%|▍         | 4972/100000 [3:00:29<116:55:47,  4.43s/it]                                                             5%|▍         | 4972/100000 [3:00:29<116:55:47,  4.43s/it]  5%|▍         | 4973/100000 [3:00:32<105:43:49,  4.01s/it]                                                             5%|▍         | 4973/100000 [3:00:32<105:43:49,  4.01s/it]  5%|▍         | 4974/100000 [3:00:34<95:14:55,  3.61s/it]                                                             5%|▍         | 4974/100000 [3:00:34<95:14:55,  3.61s/it]  5%|▍         | 4975/100000 [3:00:37<85:08:00,  3.23s/it]                                                            5%|▍         | 4975/100000 [3:00:37<85:08:00,  3.23s/it]  5%|▍         | 4976/100000 [3:00:39<76:29:45,  2.90s/it]                                                            5%|▍         | 4976/100000 [3:00:39<76:29:45,  2.90s/it]  5%|▍         | 4977/100000 [3:00:41<69:09:00,  2.62s/it]                                                            5%|▍         | 4977/100000 [3:00:41<69:09:00,  2.62s/it]  5%|▍         | 4978/100000 [3:00:42<62:59:40,  2.39s/it]                                                            5%|▍         | 4978/100000 [3:00:42<62:59:40,  2.39s/it]  5%|▍         | 4979/100000 [3:00:44<57:20:21,  2.17s/it]                                                            5%|▍         | 4979/100000 [3:00:44<57:20:21,  2.17s/it]  5%|▍         | 4980/100000 [3:00:46<52:57:25,  2.01s/it]                                                            5%|▍         | 4980/100000 [3:00:46<52:57:25,  2.01s/it]  5%|▍         | 4981/100000 [3:00:47<48:59:25,  1.86s/it]                                                            5%|▍         | 4981/100000 [3:00:47<48:59:25,  1.86s/it]  5%|▍         | 4982/100000 [3:00:49<45:41:06,  1.73s/it]                                                            5%|▍         | 4982/100000 [3:00:49<45:41:06,  1.73s/it]  5%|▍         | 4983/100000 [3:00:50<42:35:15,  1.61s/it]                                                            5%|▍         | 4983/100000 [3:00:50<42:35:15,  1.61s/it]  5%|▍         | 4984/100000 [3:00:51<40:14:40,  1.52s/it]                                                            5%|▍         | 4984/100000 [3:00:51<40:14:40,  1.52s/it]  5%|▍         | 4985/100000 [3:00:53<38:07:41,  1.44s/it]                                                            5%|▍         | 4985/100000 [3:00:53<38:07:41,  1.44s/it]  5%|▍         | 4986/100000 [3:00:54<36:05:26,  1.37s/it]                                                            5%|▍         | 4986/100000 [3:00:54<36:05:26,  1.37s/it]  5%|▍         | 4987/100000 [3:00:55<34:07:33,  1.29s/it]                                                            5%|▍         | 4987/100000 [3:00:55<34:07:33,  1.29s/it]  5%|▍         | 4988/100000 [3:00:56<32:32:05,  1.23s/it]                                                            5%|▍         | 4988/100000 [3:00:56<32:32:05,  1.23s/it]  5%|▍         | 4989/100000 [3:00:57<31:11:16,  1.18s/it]                                                            5%|▍         | 4989/100000 [3:00:57<31:11:16,  1.18s/it]  5%|▍         | 4990/100000 [3:00:58<29:53:31,  1.13s/it]                                                            5%|▍         | 4990/100000 [3:00:58<29:53:31,  1.13s/it]  5%|▍         | 4991/100000 [3:00:59<28:44:35,  1.09s/it]                                                            5%|▍         | 4991/100000 [3:00:59<28:44:35,  1.09s/it]  5%|▍         | 4992/100000 [3:01:00<27:56:48,  1.06s/it]                                                            5%|▍         | 4992/100000 [3:01:00<27:56:48,  1.06s/it]  5%|▍         | 4993/100000 [3:01:01<27:16:13,  1.03s/it]                                                            5%|▍         | 4993/100000 [3:01:01<27:16:13,  1.03s/it]  5%|▍         | 4994/100000 [3:01:02<26:09:30,  1.01it/s]                                                            5%|▍         | 4994/100000 [3:01:02<26:09:30,  1.01it/s]  5%|▍         | 4995/100000 [3:01:03<24:54:08,  1.06it/s]                                                            5%|▍         | 4995/100000 [3:01:03<24:54:08,  1.06it/s]  5%|▍         | 4996/100000 [3:01:04<24:17:17,  1.09it/s]                                                            5%|▍         | 4996/100000 [3:01:04<24:17:17,  1.09it/s]  5%|▍         | 4997/100000 [3:01:05<24:08:05,  1.09it/s]                                                            5%|▍         | 4997/100000 [3:01:05<24:08:05,  1.09it/s]  5%|▍         | 4998/100000 [3:01:05<23:34:38,  1.12it/s]                                                            5%|▍         | 4998/100000 [3:01:05<23:34:38,  1.12it/s]  5%|▍         | 4999/100000 [3:01:06<22:52:58,  1.15it/s]                                                            5%|▍         | 4999/100000 [3:01:06<22:52:58,  1.15it/s]  5%|▌         | 5000/100000 [3:01:07<22:25:29,  1.18it/s]                                                            5%|▌         | 5000/100000 [3:01:07<22:25:29,  1.18it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 0.2331, 'grad_norm': 1.279414176940918, 'learning_rate': 1.4775e-05, 'epoch': 32.01}
{'loss': 0.1484, 'grad_norm': 0.7083441615104675, 'learning_rate': 1.4778e-05, 'epoch': 32.01}
{'loss': 0.1482, 'grad_norm': 0.67668217420578, 'learning_rate': 1.4781000000000001e-05, 'epoch': 32.02}
{'loss': 0.1324, 'grad_norm': 0.7800728678703308, 'learning_rate': 1.4784000000000001e-05, 'epoch': 32.03}
{'loss': 0.1032, 'grad_norm': 0.8157713413238525, 'learning_rate': 1.4787000000000001e-05, 'epoch': 32.03}
{'loss': 0.1093, 'grad_norm': 0.6340461373329163, 'learning_rate': 1.479e-05, 'epoch': 32.04}
{'loss': 0.0895, 'grad_norm': 0.744588315486908, 'learning_rate': 1.4793e-05, 'epoch': 32.05}
{'loss': 0.1118, 'grad_norm': 1.0774991512298584, 'learning_rate': 1.4796000000000002e-05, 'epoch': 32.05}
{'loss': 0.0755, 'grad_norm': 1.316935420036316, 'learning_rate': 1.4799e-05, 'epoch': 32.06}
{'loss': 0.0937, 'grad_norm': 0.6885671615600586, 'learning_rate': 1.4802e-05, 'epoch': 32.06}
{'loss': 0.0737, 'grad_norm': 0.6402544975280762, 'learning_rate': 1.4805e-05, 'epoch': 32.07}
{'loss': 0.0964, 'grad_norm': 0.8422995805740356, 'learning_rate': 1.4808e-05, 'epoch': 32.08}
{'loss': 0.0823, 'grad_norm': 0.7351409196853638, 'learning_rate': 1.4811000000000001e-05, 'epoch': 32.08}
{'loss': 0.0599, 'grad_norm': 0.5192690491676331, 'learning_rate': 1.4814e-05, 'epoch': 32.09}
{'loss': 0.0603, 'grad_norm': 0.7876615524291992, 'learning_rate': 1.4817e-05, 'epoch': 32.1}
{'loss': 0.0628, 'grad_norm': 0.845742404460907, 'learning_rate': 1.482e-05, 'epoch': 32.1}
{'loss': 0.059, 'grad_norm': 0.6027899980545044, 'learning_rate': 1.4823e-05, 'epoch': 32.11}
{'loss': 0.0522, 'grad_norm': 0.9211918115615845, 'learning_rate': 1.4826e-05, 'epoch': 32.12}
{'loss': 0.0491, 'grad_norm': 0.5514487028121948, 'learning_rate': 1.4829000000000002e-05, 'epoch': 32.12}
{'loss': 0.0513, 'grad_norm': 0.8076877593994141, 'learning_rate': 1.4832000000000001e-05, 'epoch': 32.13}
{'loss': 0.0622, 'grad_norm': 1.0097594261169434, 'learning_rate': 1.4835e-05, 'epoch': 32.14}
{'loss': 0.0486, 'grad_norm': 0.9546148777008057, 'learning_rate': 1.4838e-05, 'epoch': 32.14}
{'loss': 0.0536, 'grad_norm': 0.8698120713233948, 'learning_rate': 1.4840999999999999e-05, 'epoch': 32.15}
{'loss': 0.0347, 'grad_norm': 0.6035293340682983, 'learning_rate': 1.4844e-05, 'epoch': 32.16}
{'loss': 0.034, 'grad_norm': 1.0977014303207397, 'learning_rate': 1.4847e-05, 'epoch': 32.16}
{'loss': 0.0409, 'grad_norm': 0.7672975659370422, 'learning_rate': 1.485e-05, 'epoch': 32.17}
{'loss': 0.0365, 'grad_norm': 0.9916992783546448, 'learning_rate': 1.4853e-05, 'epoch': 32.18}
{'loss': 0.1425, 'grad_norm': 1.7454878091812134, 'learning_rate': 1.4856e-05, 'epoch': 32.18}
{'loss': 0.1069, 'grad_norm': 1.5120986700057983, 'learning_rate': 1.4859000000000001e-05, 'epoch': 32.19}
{'loss': 0.0452, 'grad_norm': 1.1292170286178589, 'learning_rate': 1.4862000000000001e-05, 'epoch': 32.19}
{'loss': 0.0323, 'grad_norm': 0.7369430661201477, 'learning_rate': 1.4865e-05, 'epoch': 32.2}
{'loss': 0.0295, 'grad_norm': 1.471523642539978, 'learning_rate': 1.4868e-05, 'epoch': 32.21}
{'loss': 0.0376, 'grad_norm': 0.973239541053772, 'learning_rate': 1.4871e-05, 'epoch': 32.21}
{'loss': 0.0291, 'grad_norm': 1.667687177658081, 'learning_rate': 1.4874e-05, 'epoch': 32.22}
{'loss': 0.0176, 'grad_norm': 0.6724942922592163, 'learning_rate': 1.4877e-05, 'epoch': 32.23}
{'loss': 0.0402, 'grad_norm': 1.3324857950210571, 'learning_rate': 1.488e-05, 'epoch': 32.23}
{'loss': 0.0372, 'grad_norm': 1.394324541091919, 'learning_rate': 1.4883e-05, 'epoch': 32.24}
{'loss': 0.0652, 'grad_norm': 1.6559048891067505, 'learning_rate': 1.4886e-05, 'epoch': 32.25}
{'loss': 0.2154, 'grad_norm': 1.1965231895446777, 'learning_rate': 1.4889000000000001e-05, 'epoch': 32.25}
{'loss': 0.1808, 'grad_norm': 0.8969153165817261, 'learning_rate': 1.4892e-05, 'epoch': 32.26}
{'loss': 0.1283, 'grad_norm': 0.9647745490074158, 'learning_rate': 1.4895e-05, 'epoch': 32.27}
{'loss': 0.1721, 'grad_norm': 0.7997347712516785, 'learning_rate': 1.4898e-05, 'epoch': 32.27}
{'loss': 0.1143, 'grad_norm': 1.1097989082336426, 'learning_rate': 1.4901e-05, 'epoch': 32.28}
{'loss': 0.117, 'grad_norm': 0.5961610674858093, 'learning_rate': 1.4904000000000002e-05, 'epoch': 32.29}
{'loss': 0.0885, 'grad_norm': 0.644808828830719, 'learning_rate': 1.4907000000000001e-05, 'epoch': 32.29}
{'loss': 0.1163, 'grad_norm': 0.6936522126197815, 'learning_rate': 1.491e-05, 'epoch': 32.3}
{'loss': 0.0779, 'grad_norm': 0.6697927117347717, 'learning_rate': 1.4913e-05, 'epoch': 32.31}
{'loss': 0.0629, 'grad_norm': 0.573721170425415, 'learning_rate': 1.4915999999999999e-05, 'epoch': 32.31}
{'loss': 0.0842, 'grad_norm': 1.7489280700683594, 'learning_rate': 1.4919e-05, 'epoch': 32.32}
{'loss': 0.0725, 'grad_norm': 0.7512322664260864, 'learning_rate': 1.4922e-05, 'epoch': 32.32}
{'loss': 0.0835, 'grad_norm': 0.7068670392036438, 'learning_rate': 1.4925e-05, 'epoch': 32.33}
{'loss': 0.0748, 'grad_norm': 1.2212481498718262, 'learning_rate': 1.4928e-05, 'epoch': 32.34}
{'loss': 0.0664, 'grad_norm': 0.9301168918609619, 'learning_rate': 1.4931e-05, 'epoch': 32.34}
{'loss': 0.0387, 'grad_norm': 1.2604022026062012, 'learning_rate': 1.4934000000000001e-05, 'epoch': 32.35}
{'loss': 0.057, 'grad_norm': 0.6793972849845886, 'learning_rate': 1.4937000000000001e-05, 'epoch': 32.36}
{'loss': 0.0562, 'grad_norm': 0.7110183835029602, 'learning_rate': 1.4940000000000001e-05, 'epoch': 32.36}
{'loss': 0.0538, 'grad_norm': 1.5112184286117554, 'learning_rate': 1.4943e-05, 'epoch': 32.37}
{'loss': 0.0681, 'grad_norm': 0.7276199460029602, 'learning_rate': 1.4945999999999999e-05, 'epoch': 32.38}
{'loss': 0.0406, 'grad_norm': 1.020015001296997, 'learning_rate': 1.4949e-05, 'epoch': 32.38}
{'loss': 0.0555, 'grad_norm': 0.9445845484733582, 'learning_rate': 1.4952e-05, 'epoch': 32.39}
{'loss': 0.0607, 'grad_norm': 0.8539082407951355, 'learning_rate': 1.4955e-05, 'epoch': 32.4}
{'loss': 0.0575, 'grad_norm': 1.1269752979278564, 'learning_rate': 1.4958e-05, 'epoch': 32.4}
{'loss': 0.0349, 'grad_norm': 0.7579942941665649, 'learning_rate': 1.4961e-05, 'epoch': 32.41}
{'loss': 0.0355, 'grad_norm': 1.068170189857483, 'learning_rate': 1.4964000000000001e-05, 'epoch': 32.42}
{'loss': 0.1297, 'grad_norm': 2.5328307151794434, 'learning_rate': 1.4967000000000001e-05, 'epoch': 32.42}
{'loss': 0.0401, 'grad_norm': 1.2204346656799316, 'learning_rate': 1.497e-05, 'epoch': 32.43}
{'loss': 0.0452, 'grad_norm': 3.2026431560516357, 'learning_rate': 1.4973e-05, 'epoch': 32.44}
{'loss': 0.0465, 'grad_norm': 1.1942856311798096, 'learning_rate': 1.4976e-05, 'epoch': 32.44}
{'loss': 0.0168, 'grad_norm': 0.4299866855144501, 'learning_rate': 1.4979000000000002e-05, 'epoch': 32.45}
{'loss': 0.0325, 'grad_norm': 1.1033244132995605, 'learning_rate': 1.4982e-05, 'epoch': 32.45}
{'loss': 0.0442, 'grad_norm': 1.792740821838379, 'learning_rate': 1.4985e-05, 'epoch': 32.46}
{'loss': 0.053, 'grad_norm': 1.9287141561508179, 'learning_rate': 1.4988e-05, 'epoch': 32.47}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:00<00:00,  2.96it/s][A
 75%|███████▌  | 3/4 [00:02<00:00,  1.15it/s][A
100%|██████████| 4/4 [00:02<00:00,  1.44it/s][A                                                          
                                             [A  5%|▌         | 5000/100000 [3:01:19<22:25:29,  1.18it/s]
100%|██████████| 4/4 [00:02<00:00,  1.44it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-5000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-5000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-5000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-5000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-5000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-5000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-5000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-3000] due to args.save_total_limit
  5%|▌         | 5001/100000 [3:01:32<216:14:24,  8.19s/it]                                                             5%|▌         | 5001/100000 [3:01:32<216:14:24,  8.19s/it]  5%|▌         | 5002/100000 [3:01:33<157:49:17,  5.98s/it]                                                             5%|▌         | 5002/100000 [3:01:33<157:49:17,  5.98s/it]  5%|▌         | 5003/100000 [3:01:34<116:51:48,  4.43s/it]                                                             5%|▌         | 5003/100000 [3:01:34<116:51:48,  4.43s/it]  5%|▌         | 5004/100000 [3:01:35<87:48:01,  3.33s/it]                                                             5%|▌         | 5004/100000 [3:01:35<87:48:01,  3.33s/it]  5%|▌         | 5005/100000 [3:01:48<162:57:20,  6.18s/it]                                                             5%|▌         | 5005/100000 [3:01:48<162:57:20,  6.18s/it]  5%|▌         | 5006/100000 [3:01:55<174:18:42,  6.61s/it]                                                             5%|▌         | 5006/100000 [3:01:55<174:18:42,  6.61s/it]  5%|▌         | 5007/100000 [3:02:00<162:15:36,  6.15s/it]                                                             5%|▌         | 5007/100000 [3:02:00<162:15:36,  6.15s/it]  5%|▌         | 5008/100000 [3:02:05<150:43:00,  5.71s/it]                                                             5%|▌         | 5008/100000 [3:02:05<150:43:00,  5.71s/it]  5%|▌         | 5009/100000 [3:02:09<138:10:34,  5.24s/it]                                                             5%|▌         | 5009/100000 [3:02:09<138:10:34,  5.24s/it]  5%|▌         | 5010/100000 [3:02:13<125:07:36,  4.74s/it]                                                             5%|▌         | 5010/100000 [3:02:13<125:07:36,  4.74s/it]  5%|▌         | 5011/100000 [3:02:16<112:20:12,  4.26s/it]                                                             5%|▌         | 5011/100000 [3:02:16<112:20:12,  4.26s/it]  5%|▌         | 5012/100000 [3:02:18<99:26:54,  3.77s/it]                                                             5%|▌         | 5012/100000 [3:02:18<99:26:54,  3.77s/it]  5%|▌         | 5013/100000 [3:02:21<88:04:21,  3.34s/it]                                                            5%|▌         | 5013/100000 [3:02:21<88:04:21,  3.34s/it]  5%|▌         | 5014/100000 [3:02:23<79:04:38,  3.00s/it]                                                            5%|▌         | 5014/100000 [3:02:23<79:04:38,  3.00s/it]  5%|▌         | 5015/100000 [3:02:25<71:26:45,  2.71s/it]                                                            5%|▌         | 5015/100000 [3:02:25<71:26:45,  2.71s/it]  5%|▌         | 5016/100000 [3:02:27<65:03:19,  2.47s/it]                                                            5%|▌         | 5016/100000 [3:02:27<65:03:19,  2.47s/it]  5%|▌         | 5017/100000 [3:02:29<59:38:16,  2.26s/it]                                                            5%|▌         | 5017/100000 [3:02:29<59:38:16,  2.26s/it]  5%|▌         | 5018/100000 [3:02:30<54:55:46,  2.08s/it]                                                            5%|▌         | 5018/100000 [3:02:30<54:55:46,  2.08s/it]  5%|▌         | 5019/100000 [3:02:32<51:00:55,  1.93s/it]                                                            5%|▌         | 5019/100000 [3:02:32<51:00:55,  1.93s/it]  5%|▌         | 5020/100000 [3:02:33<47:43:07,  1.81s/it]                                                            5%|▌         | 5020/100000 [3:02:33<47:43:07,  1.81s/it]  5%|▌         | 5021/100000 [3:02:35<44:31:54,  1.69s/it]                                                            5%|▌         | 5021/100000 [3:02:35<44:31:54,  1.69s/it]  5%|▌         | 5022/100000 [3:02:36<42:15:00,  1.60s/it]                                                            5%|▌         | 5022/100000 [3:02:36<42:15:00,  1.60s/it]  5%|▌         | 5023/100000 [3:02:38<40:22:18,  1.53s/it]                                                            5%|▌         | 5023/100000 [3:02:38<40:22:18,  1.53s/it]  5%|▌         | 5024/100000 [3:02:39<38:25:31,  1.46s/it]                                                            5%|▌         | 5024/100000 [3:02:39<38:25:31,  1.46s/it]  5%|▌         | 5025/100000 [3:02:40<36:43:04,  1.39s/it]                                                            5%|▌         | 5025/100000 [3:02:40<36:43:04,  1.39s/it]  5%|▌         | 5026/100000 [3:02:41<34:32:37,  1.31s/it]                                                            5%|▌         | 5026/100000 [3:02:41<34:32:37,  1.31s/it]  5%|▌         | 5027/100000 [3:02:42<32:35:52,  1.24s/it]                                                            5%|▌         | 5027/100000 [3:02:42<32:35:52,  1.24s/it]  5%|▌         | 5028/100000 [3:02:43<30:50:11,  1.17s/it]                                                            5%|▌         | 5028/100000 [3:02:43<30:50:11,  1.17s/it]  5%|▌         | 5029/100000 [3:02:44<29:28:19,  1.12s/it]                                                            5%|▌         | 5029/100000 [3:02:44<29:28:19,  1.12s/it]  5%|▌         | 5030/100000 [3:02:45<28:18:16,  1.07s/it]                                                            5%|▌         | 5030/100000 [3:02:45<28:18:16,  1.07s/it]  5%|▌         | 5031/100000 [3:02:46<27:29:49,  1.04s/it]                                                            5%|▌         | 5031/100000 [3:02:46<27:29:49,  1.04s/it]  5%|▌         | 5032/100000 [3:02:47<26:43:58,  1.01s/it]                                                            5%|▌         | 5032/100000 [3:02:47<26:43:58,  1.01s/it]  5%|▌         | 5033/100000 [3:02:48<25:59:10,  1.02it/s]                                                            5%|▌         | 5033/100000 [3:02:48<25:59:10,  1.02it/s]  5%|▌         | 5034/100000 [3:02:49<25:09:09,  1.05it/s]                                                            5%|▌         | 5034/100000 [3:02:49<25:09:09,  1.05it/s]  5%|▌         | 5035/100000 [3:02:50<25:12:02,  1.05it/s]                                                            5%|▌         | 5035/100000 [3:02:50<25:12:02,  1.05it/s]  5%|▌         | 5036/100000 [3:02:51<24:24:31,  1.08it/s]                                                            5%|▌         | 5036/100000 [3:02:51<24:24:31,  1.08it/s]  5%|▌         | 5037/100000 [3:02:52<23:35:49,  1.12it/s]                                                            5%|▌         | 5037/100000 [3:02:52<23:35:49,  1.12it/s]  5%|▌         | 5038/100000 [3:02:52<22:55:58,  1.15it/s]                                                            5%|▌         | 5038/100000 [3:02:52<22:55:58,  1.15it/s]  5%|▌         | 5039/100000 [3:02:53<21:45:32,  1.21it/s]                                                            5%|▌         | 5039/100000 [3:02:53<21:45:32,  1.21it/s]  5%|▌         | 5040/100000 [3:02:54<22:25:24,  1.18it/s]                                                            5%|▌         | 5040/100000 [3:02:54<22:25:24,  1.18it/s]  5%|▌         | 5041/100000 [3:02:55<21:02:10,  1.25it/s]                                                            5%|▌         | 5041/100000 [3:02:55<21:02:10,  1.25it/s]  5%|▌         | 5042/100000 [3:02:55<20:31:34,  1.29it/s]                                                            5%|▌         | 5042/100000 [3:02:55<20:31:34,  1.29it/s]  5%|▌         | 5043/100000 [3:03:07<107:01:52,  4.06s/it]                                                             5%|▌         | 5043/100000 [3:03:07<107:01:52,  4.06s/it]  5%|▌         | 5044/100000 [3:03:16<141:07:24,  5.35s/it]                                                             5%|▌         | 5044/100000 [3:03:16<141:07:24,  5.35s/it]  5%|▌         | 5045/100000 [3:03:21<142:33:01,  5.40s/it]                                                             5%|▌         | 5045/100000 [3:03:21<142:33:01,  5.40s/it]  5%|▌         | 5046/100000 [3:03:26<136:32:51,  5.18s/it]                                                             5%|▌         | 5046/100000 [3:03:26<136:32:51,  5.18s/it]  5%|▌         | 5047/100000 [3:03:29<125:03:19,  4.74s/it]                                                             5%|▌         | 5047/100000 [3:03:29<125:03:19,  4.74s/it]  5%|▌         | 5048/100000 [3:03:33<115:00:17,  4.36s/it]                                                             5%|▌         | 5048/100000 [3:03:33<115:00:17,  4.36s/it]  5%|▌         | 5049/100000 [3:03:36<103:41:33,  3.93s/it]                                                             5%|▌         | 5049/100000 [3:03:36<103:41:33,  3.93s/it]  5%|▌         | 5050/100000 [3:03:38<93:12:47,  3.53s/it]                                                             5%|▌         | 5050/100000 [3:03:38<93:12:47,  3.53s/it]  5%|▌         | 5051/100000 [3:03:41<83:36:32,  3.17s/it]                                                            5%|▌         | 5051/100000 [3:03:41<83:36:32,  3.17s/it]  5%|▌         | 5052/100000 [3:03:43<74:43:09,  2.83s/it]                                                            5%|▌         | 5052/100000 [3:03:43<74:43:09,  2.83s/it]  5%|▌         | 5053/100000 [3:03:45<67:42:23,  2.57s/it]                                                            5%|▌         | 5053/100000 [3:03:45<67:42:23,  2.57s/it]  5%|▌         | 5054/100000 [3:03:47<61:35:53,  2.34s/it]                                                            5%|▌         | 5054/100000 [3:03:47<61:35:53,  2.34s/it]  5%|▌         | 5055/100000 [3:03:48<56:41:44,  2.15s/it]                                                            5%|▌         | 5055/100000 [3:03:48<56:41:44,  2.15s/it]  5%|▌         | 5056/100000 [3:03:50<52:21:28,  1.99s/it]                                                            5%|▌         | 5056/100000 [3:03:50<52:21:28,  1.99s/it]  5%|▌         | 5057/100000 [3:03:51<49:06:23,  1.86s/it]                                                            5%|▌         | 5057/100000 [3:03:51<49:06:23,  1.86s/it]  5%|▌         | 5058/100000 [3:03:53<45:46:15,  1.74s/it]                                                            5%|▌         | 5058/100000 [3:03:53<45:46:15,  1.74s/it]  5%|▌         | 5059/100000 [3:03:54<42:57:16,  1.63s/it]                                                            5%|▌         | 5059/100000 [3:03:54<42:57:16,  1.63s/it]  5%|▌         | 5060/100000 [3:03:56<40:43:42,  1.54s/it]                                                            5%|▌         | 5060/100000 [3:03:56<40:43:42,  1.54s/it]  5%|▌         | 5061/100000 [3:03:57<38:49:29,  1.47s/it]                                                            5%|▌         | 5061/100000 [3:03:57<38:49:29,  1.47s/it]  5%|▌         | 5062/100000 [3:03:58<36:53:19,  1.40s/it]                                                            5%|▌         | 5062/100000 [3:03:58<36:53:19,  1.40s/it]  5%|▌         | 5063/100000 [3:03:59<34:54:34,  1.32s/it]                                                            5%|▌         | 5063/100000 [3:03:59<34:54:34,  1.32s/it]  5%|▌         | 5064/100000 [3:04:00<33:04:44,  1.25s/it]                                                            5%|▌         | 5064/100000 [3:04:00<33:04:44,  1.25s/it]  5%|▌         | 5065/100000 [3:04:01<31:18:41,  1.19s/it]                                                            5%|▌         | 5065/100000 [3:04:01<31:18:41,  1.19s/it]  5%|▌         | 5066/100000 [3:04:02<29:46:16,  1.13s/it]                                                            5%|▌         | 5066/100000 [3:04:02<29:46:16,  1.13s/it]  5%|▌         | 5067/100000 [3:04:03<28:24:39,  1.08s/it]                                                            5%|▌         | 5067/100000 [3:04:03<28:24:39,  1.08s/it]  5%|▌         | 5068/100000 [3:04:04<27:42:03,  1.05s/it]                                                            5%|▌         | 5068/100000 [3:04:04<27:42:03,  1.05s/it]  5%|▌         | 5069/100000 [3:04:05<26:50:45,  1.02s/it]                                                            5%|▌         | 5069/100000 [3:04:05<26:50:45,  1.02s/it]  5%|▌         | 5070/100000 [3:04:06<25:51:04,  1.02it/s]                                                            5%|▌         | 5070/100000 [3:04:06<25:51:04,  1.02it/s]  5%|▌         | 5071/100000 [3:04:07<25:01:10,  1.05it/s]                                                            5%|▌         | 5071/100000 [3:04:07<25:01:10,  1.05it/s]  5%|▌         | 5072/100000 [3:04:08<23:46:50,  1.11it/s]                                                            5%|▌         | 5072/100000 [3:04:08<23:46:50,  1.11it/s]  5%|▌         | 5073/100000 [3:04:09<23:08:38,  1.14it/s]                                                            5%|▌         | 5073/100000 [3:04:09<23:08:38,  1.14it/s]  5%|▌         | 5074/100000 [3:04:09<22:27:16,  1.17it/s]                                                            5%|▌         | 5074/100000 [3:04:10<22:27:16,  1.17it/s]  5%|▌         | 5075/100000 [3:04:10<22:07:22,  1.19it/s]                                                            5%|▌         | 5075/100000 [3:04:10<22:07:22,  1.19it/s]  5%|▌         | 5076/100000 [3:04:11<21:18:11,  1.24it/s]                                                            5%|▌         | 5076/100000 [3:04:11<21:18:11,  1.24it/s]  5%|▌         | 5077/100000 [3:04:12<20:24:44,  1.29it/s]                                                            5%|▌         | 5077/100000 [3:04:12<20:24:44,  1.29it/s]  5%|▌         | 5078/100000 [3:04:12<20:18:46,  1.30it/s]                                                            5%|▌         | 5078/100000 [3:04:13<20:18:46,  1.30it/s]  5%|▌         | 5079/100000 [3:04:13<19:23:35,  1.36it/s]                                                            5%|▌         | 5079/100000 [3:04:13<19:23:35,  1.36it/s]  5%|▌         | 5080/100000 [3:04:14<18:32:35,  1.42it/s]                                                            5%|▌         | 5080/100000 [3:04:14<18:32:35,  1.42it/s]  5%|▌         | 5081/100000 [3:04:22<77:54:07,  2.95s/it]                                                          {'eval_loss': 0.30355244874954224, 'eval_wer': 0.30599647266313934, 'eval_cer': 0.09131796642839933, 'eval_runtime': 7.289, 'eval_samples_per_second': 13.856, 'eval_steps_per_second': 0.549, 'epoch': 32.47}
{'loss': 0.0563, 'grad_norm': 1.1062198877334595, 'learning_rate': 1.4991e-05, 'epoch': 32.47}
{'loss': 0.0347, 'grad_norm': 1.506386160850525, 'learning_rate': 1.4994e-05, 'epoch': 32.48}
{'loss': 0.0354, 'grad_norm': 1.8818637132644653, 'learning_rate': 1.4997e-05, 'epoch': 32.49}
{'loss': 0.1449, 'grad_norm': 1.9288724660873413, 'learning_rate': 1.5e-05, 'epoch': 32.49}
{'loss': 0.2132, 'grad_norm': 1.2084133625030518, 'learning_rate': 1.5003e-05, 'epoch': 32.5}
{'loss': 0.197, 'grad_norm': 0.9584254622459412, 'learning_rate': 1.5006e-05, 'epoch': 32.51}
{'loss': 0.1519, 'grad_norm': 0.6805424094200134, 'learning_rate': 1.5009e-05, 'epoch': 32.51}
{'loss': 0.139, 'grad_norm': 0.897591233253479, 'learning_rate': 1.5012e-05, 'epoch': 32.52}
{'loss': 0.1029, 'grad_norm': 0.6091408729553223, 'learning_rate': 1.5015e-05, 'epoch': 32.53}
{'loss': 0.1004, 'grad_norm': 0.6837660074234009, 'learning_rate': 1.5018000000000001e-05, 'epoch': 32.53}
{'loss': 0.1313, 'grad_norm': 0.7407671809196472, 'learning_rate': 1.5021e-05, 'epoch': 32.54}
{'loss': 0.102, 'grad_norm': 0.9771384000778198, 'learning_rate': 1.5024e-05, 'epoch': 32.55}
{'loss': 0.115, 'grad_norm': 0.8734707236289978, 'learning_rate': 1.5027e-05, 'epoch': 32.55}
{'loss': 0.113, 'grad_norm': 3.1484949588775635, 'learning_rate': 1.503e-05, 'epoch': 32.56}
{'loss': 0.0721, 'grad_norm': 0.6982251405715942, 'learning_rate': 1.5033e-05, 'epoch': 32.56}
{'loss': 0.0733, 'grad_norm': 0.7445480823516846, 'learning_rate': 1.5036e-05, 'epoch': 32.57}
{'loss': 0.0795, 'grad_norm': 0.9705765843391418, 'learning_rate': 1.5039e-05, 'epoch': 32.58}
{'loss': 0.0581, 'grad_norm': 0.7486830353736877, 'learning_rate': 1.5042e-05, 'epoch': 32.58}
{'loss': 0.0744, 'grad_norm': 0.7742496132850647, 'learning_rate': 1.5044999999999999e-05, 'epoch': 32.59}
{'loss': 0.0466, 'grad_norm': 0.5968542695045471, 'learning_rate': 1.5048000000000002e-05, 'epoch': 32.6}
{'loss': 0.0778, 'grad_norm': 0.6181124448776245, 'learning_rate': 1.5051000000000002e-05, 'epoch': 32.6}
{'loss': 0.078, 'grad_norm': 1.0174734592437744, 'learning_rate': 1.5054000000000002e-05, 'epoch': 32.61}
{'loss': 0.0524, 'grad_norm': 0.7936164736747742, 'learning_rate': 1.5057e-05, 'epoch': 32.62}
{'loss': 0.0555, 'grad_norm': 0.7814052700996399, 'learning_rate': 1.506e-05, 'epoch': 32.62}
{'loss': 0.0633, 'grad_norm': 0.8591564297676086, 'learning_rate': 1.5063e-05, 'epoch': 32.63}
{'loss': 0.0499, 'grad_norm': 0.7050063014030457, 'learning_rate': 1.5066e-05, 'epoch': 32.64}
{'loss': 0.0492, 'grad_norm': 1.1334803104400635, 'learning_rate': 1.5069e-05, 'epoch': 32.64}
{'loss': 0.0442, 'grad_norm': 0.8089879155158997, 'learning_rate': 1.5071999999999999e-05, 'epoch': 32.65}
{'loss': 0.0558, 'grad_norm': 0.888122022151947, 'learning_rate': 1.5074999999999999e-05, 'epoch': 32.66}
{'loss': 0.0496, 'grad_norm': 1.1355805397033691, 'learning_rate': 1.5078000000000002e-05, 'epoch': 32.66}
{'loss': 0.0419, 'grad_norm': 0.8574393391609192, 'learning_rate': 1.5081000000000002e-05, 'epoch': 32.67}
{'loss': 0.0526, 'grad_norm': 1.160768985748291, 'learning_rate': 1.5084000000000002e-05, 'epoch': 32.68}
{'loss': 0.0947, 'grad_norm': 1.5434561967849731, 'learning_rate': 1.5087000000000001e-05, 'epoch': 32.68}
{'loss': 0.024, 'grad_norm': 0.739068329334259, 'learning_rate': 1.5090000000000001e-05, 'epoch': 32.69}
{'loss': 0.0258, 'grad_norm': 0.6745542883872986, 'learning_rate': 1.5093e-05, 'epoch': 32.69}
{'loss': 0.0383, 'grad_norm': 0.8870782852172852, 'learning_rate': 1.5095999999999999e-05, 'epoch': 32.7}
{'loss': 0.0488, 'grad_norm': 1.804648518562317, 'learning_rate': 1.5098999999999999e-05, 'epoch': 32.71}
{'loss': 0.0481, 'grad_norm': 1.3287649154663086, 'learning_rate': 1.5101999999999999e-05, 'epoch': 32.71}
{'loss': 0.0313, 'grad_norm': 1.081408143043518, 'learning_rate': 1.5104999999999999e-05, 'epoch': 32.72}
{'loss': 0.0427, 'grad_norm': 1.740571141242981, 'learning_rate': 1.5108000000000002e-05, 'epoch': 32.73}
{'loss': 0.0501, 'grad_norm': 2.0730583667755127, 'learning_rate': 1.5111000000000002e-05, 'epoch': 32.73}
{'loss': 0.0319, 'grad_norm': 1.0467193126678467, 'learning_rate': 1.5114000000000001e-05, 'epoch': 32.74}
{'loss': 0.2395, 'grad_norm': 1.313405990600586, 'learning_rate': 1.5117000000000001e-05, 'epoch': 32.75}
{'loss': 0.1838, 'grad_norm': 0.9249423742294312, 'learning_rate': 1.5120000000000001e-05, 'epoch': 32.75}
{'loss': 0.1683, 'grad_norm': 0.7661290764808655, 'learning_rate': 1.5123e-05, 'epoch': 32.76}
{'loss': 0.1362, 'grad_norm': 0.723060131072998, 'learning_rate': 1.5126e-05, 'epoch': 32.77}
{'loss': 0.1279, 'grad_norm': 0.7304574847221375, 'learning_rate': 1.5129e-05, 'epoch': 32.77}
{'loss': 0.0978, 'grad_norm': 1.1036477088928223, 'learning_rate': 1.5131999999999998e-05, 'epoch': 32.78}
{'loss': 0.086, 'grad_norm': 0.788582444190979, 'learning_rate': 1.5134999999999998e-05, 'epoch': 32.79}
{'loss': 0.0974, 'grad_norm': 0.8145105838775635, 'learning_rate': 1.5138000000000001e-05, 'epoch': 32.79}
{'loss': 0.1386, 'grad_norm': 0.9410908818244934, 'learning_rate': 1.5141000000000001e-05, 'epoch': 32.8}
{'loss': 0.0857, 'grad_norm': 0.6864774823188782, 'learning_rate': 1.5144000000000001e-05, 'epoch': 32.81}
{'loss': 0.0658, 'grad_norm': 0.6072608828544617, 'learning_rate': 1.5147e-05, 'epoch': 32.81}
{'loss': 0.0991, 'grad_norm': 0.8941296935081482, 'learning_rate': 1.515e-05, 'epoch': 32.82}
{'loss': 0.075, 'grad_norm': 0.7575282454490662, 'learning_rate': 1.5153e-05, 'epoch': 32.82}
{'loss': 0.0795, 'grad_norm': 0.9140391945838928, 'learning_rate': 1.5156e-05, 'epoch': 32.83}
{'loss': 0.0799, 'grad_norm': 0.5855744481086731, 'learning_rate': 1.5159e-05, 'epoch': 32.84}
{'loss': 0.0954, 'grad_norm': 1.1215331554412842, 'learning_rate': 1.5162e-05, 'epoch': 32.84}
{'loss': 0.066, 'grad_norm': 0.69150310754776, 'learning_rate': 1.5165e-05, 'epoch': 32.85}
{'loss': 0.0562, 'grad_norm': 0.6278370022773743, 'learning_rate': 1.5168000000000001e-05, 'epoch': 32.86}
{'loss': 0.0475, 'grad_norm': 0.510669469833374, 'learning_rate': 1.5171000000000001e-05, 'epoch': 32.86}
{'loss': 0.0602, 'grad_norm': 0.5806531310081482, 'learning_rate': 1.5174e-05, 'epoch': 32.87}
{'loss': 0.0526, 'grad_norm': 0.9002693891525269, 'learning_rate': 1.5177e-05, 'epoch': 32.88}
{'loss': 0.071, 'grad_norm': 1.5101131200790405, 'learning_rate': 1.518e-05, 'epoch': 32.88}
{'loss': 0.053, 'grad_norm': 1.0255873203277588, 'learning_rate': 1.5183e-05, 'epoch': 32.89}
{'loss': 0.1494, 'grad_norm': 2.5395348072052, 'learning_rate': 1.5186e-05, 'epoch': 32.9}
{'loss': 0.0688, 'grad_norm': 1.4886314868927002, 'learning_rate': 1.5189e-05, 'epoch': 32.9}
{'loss': 0.0484, 'grad_norm': 0.7230986952781677, 'learning_rate': 1.5192e-05, 'epoch': 32.91}
{'loss': 0.0474, 'grad_norm': 0.8616464138031006, 'learning_rate': 1.5195e-05, 'epoch': 32.92}
{'loss': 0.0416, 'grad_norm': 1.0440620183944702, 'learning_rate': 1.5198000000000003e-05, 'epoch': 32.92}
{'loss': 0.0461, 'grad_norm': 1.492868423461914, 'learning_rate': 1.5201000000000002e-05, 'epoch': 32.93}
{'loss': 0.0387, 'grad_norm': 0.7914733290672302, 'learning_rate': 1.5204e-05, 'epoch': 32.94}
{'loss': 0.0517, 'grad_norm': 1.431624412536621, 'learning_rate': 1.5207e-05, 'epoch': 32.94}
{'loss': 0.0749, 'grad_norm': 2.5621612071990967, 'learning_rate': 1.521e-05, 'epoch': 32.95}
{'loss': 0.0243, 'grad_norm': 1.3590174913406372, 'learning_rate': 1.5213e-05, 'epoch': 32.95}
{'loss': 0.0492, 'grad_norm': 1.660049319267273, 'learning_rate': 1.5216e-05, 'epoch': 32.96}
{'loss': 0.0384, 'grad_norm': 1.32474946975708, 'learning_rate': 1.5219e-05, 'epoch': 32.97}
{'loss': 0.0903, 'grad_norm': 1.6311815977096558, 'learning_rate': 1.5222e-05, 'epoch': 32.97}
{'loss': 0.0171, 'grad_norm': 0.9702728390693665, 'learning_rate': 1.5224999999999999e-05, 'epoch': 32.98}
{'loss': 0.0514, 'grad_norm': 1.4515758752822876, 'learning_rate': 1.5228000000000002e-05, 'epoch': 32.99}
  5%|▌         | 5081/100000 [3:04:22<77:54:07,  2.95s/it]  5%|▌         | 5082/100000 [3:04:23<65:49:01,  2.50s/it]                                                            5%|▌         | 5082/100000 [3:04:23<65:49:01,  2.50s/it]{'loss': 0.1085, 'grad_norm': 0.8917949795722961, 'learning_rate': 1.5231000000000002e-05, 'epoch': 32.99}
{'loss': 0.0503, 'grad_norm': 1.163613200187683, 'learning_rate': 1.5234000000000002e-05, 'epoch': 33.0}
  5%|▌         | 5083/100000 [3:04:42<189:24:05,  7.18s/it]                                                             5%|▌         | 5083/100000 [3:04:42<189:24:05,  7.18s/it]  5%|▌         | 5084/100000 [3:04:50<196:40:56,  7.46s/it]                                                             5%|▌         | 5084/100000 [3:04:50<196:40:56,  7.46s/it]  5%|▌         | 5085/100000 [3:04:55<181:58:08,  6.90s/it]                                                             5%|▌         | 5085/100000 [3:04:55<181:58:08,  6.90s/it]  5%|▌         | 5086/100000 [3:05:00<163:44:03,  6.21s/it]                                                             5%|▌         | 5086/100000 [3:05:00<163:44:03,  6.21s/it]  5%|▌         | 5087/100000 [3:05:04<146:13:53,  5.55s/it]                                                             5%|▌         | 5087/100000 [3:05:04<146:13:53,  5.55s/it]  5%|▌         | 5088/100000 [3:05:07<130:23:54,  4.95s/it]                                                             5%|▌         | 5088/100000 [3:05:07<130:23:54,  4.95s/it]  5%|▌         | 5089/100000 [3:05:10<114:03:32,  4.33s/it]                                                             5%|▌         | 5089/100000 [3:05:10<114:03:32,  4.33s/it]  5%|▌         | 5090/100000 [3:05:13<100:37:55,  3.82s/it]                                                             5%|▌         | 5090/100000 [3:05:13<100:37:55,  3.82s/it]  5%|▌         | 5091/100000 [3:05:15<88:36:14,  3.36s/it]                                                             5%|▌         | 5091/100000 [3:05:15<88:36:14,  3.36s/it]  5%|▌         | 5092/100000 [3:05:17<78:17:29,  2.97s/it]                                                            5%|▌         | 5092/100000 [3:05:17<78:17:29,  2.97s/it]  5%|▌         | 5093/100000 [3:05:19<70:03:45,  2.66s/it]                                                            5%|▌         | 5093/100000 [3:05:19<70:03:45,  2.66s/it]  5%|▌         | 5094/100000 [3:05:21<63:28:47,  2.41s/it]                                                            5%|▌         | 5094/100000 [3:05:21<63:28:47,  2.41s/it]  5%|▌         | 5095/100000 [3:05:23<58:16:49,  2.21s/it]                                                            5%|▌         | 5095/100000 [3:05:23<58:16:49,  2.21s/it]  5%|▌         | 5096/100000 [3:05:24<53:44:55,  2.04s/it]                                                            5%|▌         | 5096/100000 [3:05:24<53:44:55,  2.04s/it]  5%|▌         | 5097/100000 [3:05:26<50:02:40,  1.90s/it]                                                            5%|▌         | 5097/100000 [3:05:26<50:02:40,  1.90s/it]  5%|▌         | 5098/100000 [3:05:27<46:38:45,  1.77s/it]                                                            5%|▌         | 5098/100000 [3:05:27<46:38:45,  1.77s/it]  5%|▌         | 5099/100000 [3:05:29<43:56:51,  1.67s/it]                                                            5%|▌         | 5099/100000 [3:05:29<43:56:51,  1.67s/it]  5%|▌         | 5100/100000 [3:05:30<41:34:09,  1.58s/it]                                                            5%|▌         | 5100/100000 [3:05:30<41:34:09,  1.58s/it]  5%|▌         | 5101/100000 [3:05:31<39:09:34,  1.49s/it]                                                            5%|▌         | 5101/100000 [3:05:31<39:09:34,  1.49s/it]  5%|▌         | 5102/100000 [3:05:33<37:18:23,  1.42s/it]                                                            5%|▌         | 5102/100000 [3:05:33<37:18:23,  1.42s/it]  5%|▌         | 5103/100000 [3:05:34<35:30:43,  1.35s/it]                                                            5%|▌         | 5103/100000 [3:05:34<35:30:43,  1.35s/it]  5%|▌         | 5104/100000 [3:05:35<33:33:17,  1.27s/it]                                                            5%|▌         | 5104/100000 [3:05:35<33:33:17,  1.27s/it]  5%|▌         | 5105/100000 [3:05:36<32:05:29,  1.22s/it]                                                            5%|▌         | 5105/100000 [3:05:36<32:05:29,  1.22s/it]  5%|▌         | 5106/100000 [3:05:37<30:37:05,  1.16s/it]                                                            5%|▌         | 5106/100000 [3:05:37<30:37:05,  1.16s/it]  5%|▌         | 5107/100000 [3:05:38<29:22:37,  1.11s/it]                                                            5%|▌         | 5107/100000 [3:05:38<29:22:37,  1.11s/it]  5%|▌         | 5108/100000 [3:05:39<28:02:45,  1.06s/it]                                                            5%|▌         | 5108/100000 [3:05:39<28:02:45,  1.06s/it]  5%|▌         | 5109/100000 [3:05:40<27:05:09,  1.03s/it]                                                            5%|▌         | 5109/100000 [3:05:40<27:05:09,  1.03s/it]  5%|▌         | 5110/100000 [3:05:41<25:58:06,  1.02it/s]                                                            5%|▌         | 5110/100000 [3:05:41<25:58:06,  1.02it/s]  5%|▌         | 5111/100000 [3:05:42<25:04:08,  1.05it/s]                                                            5%|▌         | 5111/100000 [3:05:42<25:04:08,  1.05it/s]  5%|▌         | 5112/100000 [3:05:43<23:59:34,  1.10it/s]                                                            5%|▌         | 5112/100000 [3:05:43<23:59:34,  1.10it/s]  5%|▌         | 5113/100000 [3:05:44<23:55:53,  1.10it/s]                                                            5%|▌         | 5113/100000 [3:05:44<23:55:53,  1.10it/s]  5%|▌         | 5114/100000 [3:05:44<22:59:20,  1.15it/s]                                                            5%|▌         | 5114/100000 [3:05:44<22:59:20,  1.15it/s]  5%|▌         | 5115/100000 [3:05:45<21:57:59,  1.20it/s]                                                            5%|▌         | 5115/100000 [3:05:45<21:57:59,  1.20it/s]  5%|▌         | 5116/100000 [3:05:46<21:10:22,  1.24it/s]                                                            5%|▌         | 5116/100000 [3:05:46<21:10:22,  1.24it/s]  5%|▌         | 5117/100000 [3:05:46<20:30:58,  1.28it/s]                                                            5%|▌         | 5117/100000 [3:05:47<20:30:58,  1.28it/s]  5%|▌         | 5118/100000 [3:05:47<19:50:24,  1.33it/s]                                                            5%|▌         | 5118/100000 [3:05:47<19:50:24,  1.33it/s]  5%|▌         | 5119/100000 [3:05:48<19:36:45,  1.34it/s]                                                            5%|▌         | 5119/100000 [3:05:48<19:36:45,  1.34it/s]  5%|▌         | 5120/100000 [3:05:49<19:36:34,  1.34it/s]                                                            5%|▌         | 5120/100000 [3:05:49<19:36:34,  1.34it/s]  5%|▌         | 5121/100000 [3:06:02<115:18:21,  4.38s/it]                                                             5%|▌         | 5121/100000 [3:06:02<115:18:21,  4.38s/it]  5%|▌         | 5122/100000 [3:06:08<135:42:08,  5.15s/it]                                                             5%|▌         | 5122/100000 [3:06:08<135:42:08,  5.15s/it]  5%|▌         | 5123/100000 [3:06:14<136:47:59,  5.19s/it]                                                             5%|▌         | 5123/100000 [3:06:14<136:47:59,  5.19s/it]  5%|▌         | 5124/100000 [3:06:18<131:05:14,  4.97s/it]                                                             5%|▌         | 5124/100000 [3:06:18<131:05:14,  4.97s/it]  5%|▌         | 5125/100000 [3:06:22<121:56:09,  4.63s/it]                                                             5%|▌         | 5125/100000 [3:06:22<121:56:09,  4.63s/it]  5%|▌         | 5126/100000 [3:06:25<111:02:13,  4.21s/it]                                                             5%|▌         | 5126/100000 [3:06:25<111:02:13,  4.21s/it]  5%|▌         | 5127/100000 [3:06:28<101:21:56,  3.85s/it]                                                             5%|▌         | 5127/100000 [3:06:28<101:21:56,  3.85s/it]  5%|▌         | 5128/100000 [3:06:31<91:20:33,  3.47s/it]                                                             5%|▌         | 5128/100000 [3:06:31<91:20:33,  3.47s/it]  5%|▌         | 5129/100000 [3:06:33<82:11:05,  3.12s/it]                                                            5%|▌         | 5129/100000 [3:06:33<82:11:05,  3.12s/it]  5%|▌         | 5130/100000 [3:06:35<73:43:18,  2.80s/it]                                                            5%|▌         | 5130/100000 [3:06:35<73:43:18,  2.80s/it]  5%|▌         | 5131/100000 [3:06:37<67:01:40,  2.54s/it]                                                            5%|▌         | 5131/100000 [3:06:37<67:01:40,  2.54s/it]  5%|▌         | 5132/100000 [3:06:39<61:14:26,  2.32s/it]                                                            5%|▌         | 5132/100000 [3:06:39<61:14:26,  2.32s/it]  5%|▌         | 5133/100000 [3:06:41<55:49:18,  2.12s/it]                                                            5%|▌         | 5133/100000 [3:06:41<55:49:18,  2.12s/it]  5%|▌         | 5134/100000 [3:06:42<51:47:57,  1.97s/it]                                                            5%|▌         | 5134/100000 [3:06:42<51:47:57,  1.97s/it]  5%|▌         | 5135/100000 [3:06:44<47:56:05,  1.82s/it]                                                            5%|▌         | 5135/100000 [3:06:44<47:56:05,  1.82s/it]  5%|▌         | 5136/100000 [3:06:45<44:54:56,  1.70s/it]                                                            5%|▌         | 5136/100000 [3:06:45<44:54:56,  1.70s/it]  5%|▌         | 5137/100000 [3:06:46<42:09:18,  1.60s/it]                                                            5%|▌         | 5137/100000 [3:06:47<42:09:18,  1.60s/it]  5%|▌         | 5138/100000 [3:06:48<39:55:18,  1.52s/it]                                                            5%|▌         | 5138/100000 [3:06:48<39:55:18,  1.52s/it]  5%|▌         | 5139/100000 [3:06:49<38:08:13,  1.45s/it]                                                            5%|▌         | 5139/100000 [3:06:49<38:08:13,  1.45s/it]  5%|▌         | 5140/100000 [3:06:50<36:23:02,  1.38s/it]                                                            5%|▌         | 5140/100000 [3:06:50<36:23:02,  1.38s/it]  5%|▌         | 5141/100000 [3:06:51<34:08:28,  1.30s/it]                                                            5%|▌         | 5141/100000 [3:06:51<34:08:28,  1.30s/it]  5%|▌         | 5142/100000 [3:06:53<32:44:08,  1.24s/it]                                                            5%|▌         | 5142/100000 [3:06:53<32:44:08,  1.24s/it]  5%|▌         | 5143/100000 [3:06:54<31:04:45,  1.18s/it]                                                            5%|▌         | 5143/100000 [3:06:54<31:04:45,  1.18s/it]  5%|▌         | 5144/100000 [3:06:55<29:39:44,  1.13s/it]                                                            5%|▌         | 5144/100000 [3:06:55<29:39:44,  1.13s/it]  5%|▌         | 5145/100000 [3:06:56<28:13:48,  1.07s/it]                                                            5%|▌         | 5145/100000 [3:06:56<28:13:48,  1.07s/it]  5%|▌         | 5146/100000 [3:06:56<27:17:09,  1.04s/it]                                                            5%|▌         | 5146/100000 [3:06:56<27:17:09,  1.04s/it]  5%|▌         | 5147/100000 [3:06:57<26:41:09,  1.01s/it]                                                            5%|▌         | 5147/100000 [3:06:57<26:41:09,  1.01s/it]  5%|▌         | 5148/100000 [3:06:58<25:37:33,  1.03it/s]                                                            5%|▌         | 5148/100000 [3:06:58<25:37:33,  1.03it/s]  5%|▌         | 5149/100000 [3:06:59<24:41:47,  1.07it/s]                                                            5%|▌         | 5149/100000 [3:06:59<24:41:47,  1.07it/s]  5%|▌         | 5150/100000 [3:07:00<24:34:08,  1.07it/s]                                                            5%|▌         | 5150/100000 [3:07:00<24:34:08,  1.07it/s]  5%|▌         | 5151/100000 [3:07:01<23:38:04,  1.11it/s]                                                            5%|▌         | 5151/100000 [3:07:01<23:38:04,  1.11it/s]  5%|▌         | 5152/100000 [3:07:02<23:32:29,  1.12it/s]                                                            5%|▌         | 5152/100000 [3:07:02<23:32:29,  1.12it/s]  5%|▌         | 5153/100000 [3:07:03<23:00:48,  1.14it/s]                                                            5%|▌         | 5153/100000 [3:07:03<23:00:48,  1.14it/s]  5%|▌         | 5154/100000 [3:07:03<22:54:31,  1.15it/s]                                                            5%|▌         | 5154/100000 [3:07:03<22:54:31,  1.15it/s]  5%|▌         | 5155/100000 [3:07:04<22:24:15,  1.18it/s]                                                            5%|▌         | 5155/100000 [3:07:04<22:24:15,  1.18it/s]  5%|▌         | 5156/100000 [3:07:05<21:45:46,  1.21it/s]                                                            5%|▌         | 5156/100000 [3:07:05<21:45:46,  1.21it/s]  5%|▌         | 5157/100000 [3:07:06<21:35:07,  1.22it/s]                                                            5%|▌         | 5157/100000 [3:07:06<21:35:07,  1.22it/s]  5%|▌         | 5158/100000 [3:07:06<19:59:01,  1.32it/s]                                                            5%|▌         | 5158/100000 [3:07:06<19:59:01,  1.32it/s]  5%|▌         | 5159/100000 [3:07:20<118:14:41,  4.49s/it]                                                             5%|▌         | 5159/100000 [3:07:20<118:14:41,  4.49s/it]  5%|▌         | 5160/100000 [3:07:28<146:19:24,  5.55s/it]                                                             5%|▌         | 5160/100000 [3:07:28<146:19:24,  5.55s/it]  5%|▌         | 5161/100000 [3:07:33<146:41:56,  5.57s/it]                                                             5%|▌         | 5161/100000 [3:07:33<146:41:56,  5.57s/it]  5%|▌         | 5162/100000 [3:07:38<141:13:54,  5.36s/it]                                                             5%|▌         | 5162/100000 [3:07:38<141:13:54,  5.36s/it]  5%|▌         | 5163/100000 [3:07:42<130:57:43,  4.97s/it]                                                             5%|▌         | 5163/100000 [3:07:42<130:57:43,  4.97s/it]  5%|▌         | 5164/100000 [3:07:46<119:39:09,  4.54s/it]                                                             5%|▌         | 5164/100000 [3:07:46<119:39:09,  4.54s/it]  5%|▌         | 5165/100000 [3:07:49<108:12:10,  4.11s/it]                                                             5%|▌         | 5165/100000 [3:07:49<108:12:10,  4.11s/it]  5%|▌         | 5166/100000 [3:07:52<96:51:27,  3.68s/it]                                                           {'loss': 0.2103, 'grad_norm': 0.8847101330757141, 'learning_rate': 1.5237000000000002e-05, 'epoch': 33.01}
{'loss': 0.1589, 'grad_norm': 0.7205188870429993, 'learning_rate': 1.524e-05, 'epoch': 33.01}
{'loss': 0.1625, 'grad_norm': 0.8383134603500366, 'learning_rate': 1.5243e-05, 'epoch': 33.02}
{'loss': 0.1182, 'grad_norm': 0.6120002269744873, 'learning_rate': 1.5246e-05, 'epoch': 33.03}
{'loss': 0.1197, 'grad_norm': 0.9107397198677063, 'learning_rate': 1.5249e-05, 'epoch': 33.03}
{'loss': 0.0911, 'grad_norm': 0.606744647026062, 'learning_rate': 1.5251999999999999e-05, 'epoch': 33.04}
{'loss': 0.0985, 'grad_norm': 1.1645424365997314, 'learning_rate': 1.5254999999999999e-05, 'epoch': 33.05}
{'loss': 0.0888, 'grad_norm': 0.557867705821991, 'learning_rate': 1.5258000000000002e-05, 'epoch': 33.05}
{'loss': 0.0766, 'grad_norm': 0.674491286277771, 'learning_rate': 1.5261000000000002e-05, 'epoch': 33.06}
{'loss': 0.0715, 'grad_norm': 0.6101033091545105, 'learning_rate': 1.5264e-05, 'epoch': 33.06}
{'loss': 0.0634, 'grad_norm': 0.832878589630127, 'learning_rate': 1.5267e-05, 'epoch': 33.07}
{'loss': 0.0678, 'grad_norm': 0.6581653356552124, 'learning_rate': 1.527e-05, 'epoch': 33.08}
{'loss': 0.0891, 'grad_norm': 1.6086385250091553, 'learning_rate': 1.5273e-05, 'epoch': 33.08}
{'loss': 0.0407, 'grad_norm': 0.43095773458480835, 'learning_rate': 1.5276e-05, 'epoch': 33.09}
{'loss': 0.0626, 'grad_norm': 0.5653504133224487, 'learning_rate': 1.5279e-05, 'epoch': 33.1}
{'loss': 0.053, 'grad_norm': 0.7994450926780701, 'learning_rate': 1.5282e-05, 'epoch': 33.1}
{'loss': 0.058, 'grad_norm': 0.8845233917236328, 'learning_rate': 1.5285e-05, 'epoch': 33.11}
{'loss': 0.0536, 'grad_norm': 0.9417306780815125, 'learning_rate': 1.5288000000000003e-05, 'epoch': 33.12}
{'loss': 0.0558, 'grad_norm': 0.9163253307342529, 'learning_rate': 1.5291000000000003e-05, 'epoch': 33.12}
{'loss': 0.0521, 'grad_norm': 0.8114675879478455, 'learning_rate': 1.5294000000000003e-05, 'epoch': 33.13}
{'loss': 0.0476, 'grad_norm': 0.8159179091453552, 'learning_rate': 1.5297e-05, 'epoch': 33.14}
{'loss': 0.0649, 'grad_norm': 0.6613773703575134, 'learning_rate': 1.53e-05, 'epoch': 33.14}
{'loss': 0.0366, 'grad_norm': 0.7573087811470032, 'learning_rate': 1.5303e-05, 'epoch': 33.15}
{'loss': 0.0612, 'grad_norm': 1.1413426399230957, 'learning_rate': 1.5306e-05, 'epoch': 33.16}
{'loss': 0.0373, 'grad_norm': 0.9167512059211731, 'learning_rate': 1.5309e-05, 'epoch': 33.16}
{'loss': 0.0288, 'grad_norm': 1.6182435750961304, 'learning_rate': 1.5312e-05, 'epoch': 33.17}
{'loss': 0.0391, 'grad_norm': 0.8402690887451172, 'learning_rate': 1.5314999999999998e-05, 'epoch': 33.18}
{'loss': 0.0376, 'grad_norm': 1.526072382926941, 'learning_rate': 1.5318e-05, 'epoch': 33.18}
{'loss': 0.0355, 'grad_norm': 0.7389092445373535, 'learning_rate': 1.5321e-05, 'epoch': 33.19}
{'loss': 0.0412, 'grad_norm': 1.0933008193969727, 'learning_rate': 1.5324e-05, 'epoch': 33.19}
{'loss': 0.0337, 'grad_norm': 1.1365560293197632, 'learning_rate': 1.5327e-05, 'epoch': 33.2}
{'loss': 0.0418, 'grad_norm': 1.0641030073165894, 'learning_rate': 1.533e-05, 'epoch': 33.21}
{'loss': 0.019, 'grad_norm': 0.6305559277534485, 'learning_rate': 1.5333e-05, 'epoch': 33.21}
{'loss': 0.0217, 'grad_norm': 0.6678081750869751, 'learning_rate': 1.5336e-05, 'epoch': 33.22}
{'loss': 0.0371, 'grad_norm': 1.9666142463684082, 'learning_rate': 1.5339e-05, 'epoch': 33.23}
{'loss': 0.0325, 'grad_norm': 1.302539587020874, 'learning_rate': 1.5342e-05, 'epoch': 33.23}
{'loss': 0.0588, 'grad_norm': 2.5799548625946045, 'learning_rate': 1.5345e-05, 'epoch': 33.24}
{'loss': 0.0319, 'grad_norm': 1.3143752813339233, 'learning_rate': 1.5348000000000003e-05, 'epoch': 33.25}
{'loss': 0.238, 'grad_norm': 1.21543288230896, 'learning_rate': 1.5351000000000003e-05, 'epoch': 33.25}
{'loss': 0.1415, 'grad_norm': 0.8573551177978516, 'learning_rate': 1.5354000000000002e-05, 'epoch': 33.26}
{'loss': 0.1141, 'grad_norm': 0.6682296395301819, 'learning_rate': 1.5357000000000002e-05, 'epoch': 33.27}
{'loss': 0.1218, 'grad_norm': 1.2235373258590698, 'learning_rate': 1.5360000000000002e-05, 'epoch': 33.27}
{'loss': 0.0875, 'grad_norm': 0.6215090155601501, 'learning_rate': 1.5363000000000002e-05, 'epoch': 33.28}
{'loss': 0.0832, 'grad_norm': 0.6436797380447388, 'learning_rate': 1.5366e-05, 'epoch': 33.29}
{'loss': 0.1062, 'grad_norm': 1.1767531633377075, 'learning_rate': 1.5368999999999998e-05, 'epoch': 33.29}
{'loss': 0.078, 'grad_norm': 0.6375547051429749, 'learning_rate': 1.5371999999999998e-05, 'epoch': 33.3}
{'loss': 0.1457, 'grad_norm': 1.0754611492156982, 'learning_rate': 1.5374999999999998e-05, 'epoch': 33.31}
{'loss': 0.0735, 'grad_norm': 0.9327831268310547, 'learning_rate': 1.5377999999999997e-05, 'epoch': 33.31}
{'loss': 0.0713, 'grad_norm': 0.6731791496276855, 'learning_rate': 1.5381e-05, 'epoch': 33.32}
{'loss': 0.0835, 'grad_norm': 0.7390891313552856, 'learning_rate': 1.5384e-05, 'epoch': 33.32}
{'loss': 0.0546, 'grad_norm': 0.6642033457756042, 'learning_rate': 1.5387e-05, 'epoch': 33.33}
{'loss': 0.078, 'grad_norm': 0.7842952013015747, 'learning_rate': 1.539e-05, 'epoch': 33.34}
{'loss': 0.0477, 'grad_norm': 0.8989185690879822, 'learning_rate': 1.5393e-05, 'epoch': 33.34}
{'loss': 0.102, 'grad_norm': 0.9209191799163818, 'learning_rate': 1.5396e-05, 'epoch': 33.35}
{'loss': 0.0601, 'grad_norm': 1.3184237480163574, 'learning_rate': 1.5399e-05, 'epoch': 33.36}
{'loss': 0.0645, 'grad_norm': 0.7291510105133057, 'learning_rate': 1.5402e-05, 'epoch': 33.36}
{'loss': 0.0451, 'grad_norm': 0.9125019907951355, 'learning_rate': 1.5405e-05, 'epoch': 33.37}
{'loss': 0.0784, 'grad_norm': 1.3326128721237183, 'learning_rate': 1.5408e-05, 'epoch': 33.38}
{'loss': 0.0323, 'grad_norm': 0.5779189467430115, 'learning_rate': 1.5411000000000002e-05, 'epoch': 33.38}
{'loss': 0.0548, 'grad_norm': 0.7854769825935364, 'learning_rate': 1.5414000000000002e-05, 'epoch': 33.39}
{'loss': 0.0385, 'grad_norm': 0.6049229502677917, 'learning_rate': 1.5417e-05, 'epoch': 33.4}
{'loss': 0.0848, 'grad_norm': 0.8857052326202393, 'learning_rate': 1.542e-05, 'epoch': 33.4}
{'loss': 0.0335, 'grad_norm': 0.7854300141334534, 'learning_rate': 1.5423e-05, 'epoch': 33.41}
{'loss': 0.0329, 'grad_norm': 0.8159604072570801, 'learning_rate': 1.5426e-05, 'epoch': 33.42}
{'loss': 0.0346, 'grad_norm': 1.0076788663864136, 'learning_rate': 1.5429e-05, 'epoch': 33.42}
{'loss': 0.1054, 'grad_norm': 2.244873046875, 'learning_rate': 1.5432e-05, 'epoch': 33.43}
{'loss': 0.0475, 'grad_norm': 1.2827976942062378, 'learning_rate': 1.5435e-05, 'epoch': 33.44}
{'loss': 0.0353, 'grad_norm': 1.350456714630127, 'learning_rate': 1.5438e-05, 'epoch': 33.44}
{'loss': 0.0381, 'grad_norm': 2.4621052742004395, 'learning_rate': 1.5441000000000003e-05, 'epoch': 33.45}
{'loss': 0.082, 'grad_norm': 1.013929843902588, 'learning_rate': 1.5444e-05, 'epoch': 33.45}
{'loss': 0.0268, 'grad_norm': 0.9708065390586853, 'learning_rate': 1.5447e-05, 'epoch': 33.46}
{'loss': 0.0298, 'grad_norm': 0.9544668793678284, 'learning_rate': 1.545e-05, 'epoch': 33.47}
{'loss': 0.0352, 'grad_norm': 1.3805468082427979, 'learning_rate': 1.5453e-05, 'epoch': 33.47}
{'loss': 0.0282, 'grad_norm': 1.3157129287719727, 'learning_rate': 1.5456e-05, 'epoch': 33.48}
{'loss': 0.0415, 'grad_norm': 1.4294133186340332, 'learning_rate': 1.5459e-05, 'epoch': 33.49}
{'loss': 0.0541, 'grad_norm': 1.989772081375122, 'learning_rate': 1.5462e-05, 'epoch': 33.49}
{'loss': 0.2185, 'grad_norm': 1.1005194187164307, 'learning_rate': 1.5465e-05, 'epoch': 33.5}
{'loss': 0.1705, 'grad_norm': 0.9335855841636658, 'learning_rate': 1.5467999999999998e-05, 'epoch': 33.51}
{'loss': 0.1556, 'grad_norm': 0.8032011985778809, 'learning_rate': 1.5471e-05, 'epoch': 33.51}
{'loss': 0.1236, 'grad_norm': 0.6318575143814087, 'learning_rate': 1.5474e-05, 'epoch': 33.52}
{'loss': 0.1451, 'grad_norm': 0.8619038462638855, 'learning_rate': 1.5477e-05, 'epoch': 33.53}
{'loss': 0.1032, 'grad_norm': 0.6444358229637146, 'learning_rate': 1.548e-05, 'epoch': 33.53}
{'loss': 0.1014, 'grad_norm': 1.2404518127441406, 'learning_rate': 1.5483e-05, 'epoch': 33.54}
  5%|▌         | 5166/100000 [3:07:52<96:51:27,  3.68s/it]  5%|▌         | 5167/100000 [3:07:54<86:03:39,  3.27s/it]                                                            5%|▌         | 5167/100000 [3:07:54<86:03:39,  3.27s/it]  5%|▌         | 5168/100000 [3:07:56<77:12:13,  2.93s/it]                                                            5%|▌         | 5168/100000 [3:07:56<77:12:13,  2.93s/it]  5%|▌         | 5169/100000 [3:07:58<69:55:03,  2.65s/it]                                                            5%|▌         | 5169/100000 [3:07:58<69:55:03,  2.65s/it]  5%|▌         | 5170/100000 [3:08:00<63:36:20,  2.41s/it]                                                            5%|▌         | 5170/100000 [3:08:00<63:36:20,  2.41s/it]  5%|▌         | 5171/100000 [3:08:02<57:52:50,  2.20s/it]                                                            5%|▌         | 5171/100000 [3:08:02<57:52:50,  2.20s/it]  5%|▌         | 5172/100000 [3:08:03<53:31:21,  2.03s/it]                                                            5%|▌         | 5172/100000 [3:08:03<53:31:21,  2.03s/it]  5%|▌         | 5173/100000 [3:08:05<49:52:42,  1.89s/it]                                                            5%|▌         | 5173/100000 [3:08:05<49:52:42,  1.89s/it]  5%|▌         | 5174/100000 [3:08:06<47:43:55,  1.81s/it]                                                            5%|▌         | 5174/100000 [3:08:06<47:43:55,  1.81s/it]  5%|▌         | 5175/100000 [3:08:08<44:14:06,  1.68s/it]                                                            5%|▌         | 5175/100000 [3:08:08<44:14:06,  1.68s/it]  5%|▌         | 5176/100000 [3:08:09<41:14:52,  1.57s/it]                                                            5%|▌         | 5176/100000 [3:08:09<41:14:52,  1.57s/it]  5%|▌         | 5177/100000 [3:08:10<39:04:17,  1.48s/it]                                                            5%|▌         | 5177/100000 [3:08:10<39:04:17,  1.48s/it]  5%|▌         | 5178/100000 [3:08:12<36:44:03,  1.39s/it]                                                            5%|▌         | 5178/100000 [3:08:12<36:44:03,  1.39s/it]  5%|▌         | 5179/100000 [3:08:13<34:32:14,  1.31s/it]                                                            5%|▌         | 5179/100000 [3:08:13<34:32:14,  1.31s/it]  5%|▌         | 5180/100000 [3:08:14<32:47:11,  1.24s/it]                                                            5%|▌         | 5180/100000 [3:08:14<32:47:11,  1.24s/it]  5%|▌         | 5181/100000 [3:08:15<31:30:16,  1.20s/it]                                                            5%|▌         | 5181/100000 [3:08:15<31:30:16,  1.20s/it]  5%|▌         | 5182/100000 [3:08:16<30:09:12,  1.14s/it]                                                            5%|▌         | 5182/100000 [3:08:16<30:09:12,  1.14s/it]  5%|▌         | 5183/100000 [3:08:17<28:53:57,  1.10s/it]                                                            5%|▌         | 5183/100000 [3:08:17<28:53:57,  1.10s/it]  5%|▌         | 5184/100000 [3:08:18<27:55:08,  1.06s/it]                                                            5%|▌         | 5184/100000 [3:08:18<27:55:08,  1.06s/it]  5%|▌         | 5185/100000 [3:08:19<27:01:57,  1.03s/it]                                                            5%|▌         | 5185/100000 [3:08:19<27:01:57,  1.03s/it]  5%|▌         | 5186/100000 [3:08:20<26:05:42,  1.01it/s]                                                            5%|▌         | 5186/100000 [3:08:20<26:05:42,  1.01it/s]  5%|▌         | 5187/100000 [3:08:21<25:38:14,  1.03it/s]                                                            5%|▌         | 5187/100000 [3:08:21<25:38:14,  1.03it/s]  5%|▌         | 5188/100000 [3:08:22<25:31:49,  1.03it/s]                                                            5%|▌         | 5188/100000 [3:08:22<25:31:49,  1.03it/s]  5%|▌         | 5189/100000 [3:08:22<24:50:17,  1.06it/s]                                                            5%|▌         | 5189/100000 [3:08:22<24:50:17,  1.06it/s]  5%|▌         | 5190/100000 [3:08:23<24:22:56,  1.08it/s]                                                            5%|▌         | 5190/100000 [3:08:23<24:22:56,  1.08it/s]  5%|▌         | 5191/100000 [3:08:24<23:18:31,  1.13it/s]                                                            5%|▌         | 5191/100000 [3:08:24<23:18:31,  1.13it/s]  5%|▌         | 5192/100000 [3:08:25<22:36:00,  1.17it/s]                                                            5%|▌         | 5192/100000 [3:08:25<22:36:00,  1.17it/s]  5%|▌         | 5193/100000 [3:08:26<22:12:05,  1.19it/s]                                                            5%|▌         | 5193/100000 [3:08:26<22:12:05,  1.19it/s]  5%|▌         | 5194/100000 [3:08:27<21:58:52,  1.20it/s]                                                            5%|▌         | 5194/100000 [3:08:27<21:58:52,  1.20it/s]  5%|▌         | 5195/100000 [3:08:27<21:37:41,  1.22it/s]                                                            5%|▌         | 5195/100000 [3:08:27<21:37:41,  1.22it/s]  5%|▌         | 5196/100000 [3:08:28<20:46:00,  1.27it/s]                                                            5%|▌         | 5196/100000 [3:08:28<20:46:00,  1.27it/s]  5%|▌         | 5197/100000 [3:08:40<112:31:14,  4.27s/it]                                                             5%|▌         | 5197/100000 [3:08:40<112:31:14,  4.27s/it]  5%|▌         | 5198/100000 [3:08:49<142:32:47,  5.41s/it]                                                             5%|▌         | 5198/100000 [3:08:49<142:32:47,  5.41s/it]  5%|▌         | 5199/100000 [3:08:54<144:05:02,  5.47s/it]                                                             5%|▌         | 5199/100000 [3:08:54<144:05:02,  5.47s/it]  5%|▌         | 5200/100000 [3:08:59<137:53:18,  5.24s/it]                                                             5%|▌         | 5200/100000 [3:08:59<137:53:18,  5.24s/it]  5%|▌         | 5201/100000 [3:09:03<127:48:08,  4.85s/it]                                                             5%|▌         | 5201/100000 [3:09:03<127:48:08,  4.85s/it]  5%|▌         | 5202/100000 [3:09:06<117:41:25,  4.47s/it]                                                             5%|▌         | 5202/100000 [3:09:06<117:41:25,  4.47s/it]  5%|▌         | 5203/100000 [3:09:09<106:23:37,  4.04s/it]                                                             5%|▌         | 5203/100000 [3:09:09<106:23:37,  4.04s/it]  5%|▌         | 5204/100000 [3:09:12<96:22:26,  3.66s/it]                                                             5%|▌         | 5204/100000 [3:09:12<96:22:26,  3.66s/it]  5%|▌         | 5205/100000 [3:09:15<86:34:42,  3.29s/it]                                                            5%|▌         | 5205/100000 [3:09:15<86:34:42,  3.29s/it]  5%|▌         | 5206/100000 [3:09:17<77:38:03,  2.95s/it]                                                            5%|▌         | 5206/100000 [3:09:17<77:38:03,  2.95s/it]  5%|▌         | 5207/100000 [3:09:19<70:29:04,  2.68s/it]                                                            5%|▌         | 5207/100000 [3:09:19<70:29:04,  2.68s/it]  5%|▌         | 5208/100000 [3:09:21<64:28:20,  2.45s/it]                                                            5%|▌         | 5208/100000 [3:09:21<64:28:20,  2.45s/it]  5%|▌         | 5209/100000 [3:09:22<59:00:45,  2.24s/it]                                                            5%|▌         | 5209/100000 [3:09:22<59:00:45,  2.24s/it]  5%|▌         | 5210/100000 [3:09:24<54:31:27,  2.07s/it]                                                            5%|▌         | 5210/100000 [3:09:24<54:31:27,  2.07s/it]  5%|▌         | 5211/100000 [3:09:26<50:48:00,  1.93s/it]                                                            5%|▌         | 5211/100000 [3:09:26<50:48:00,  1.93s/it]  5%|▌         | 5212/100000 [3:09:27<47:30:25,  1.80s/it]                                                            5%|▌         | 5212/100000 [3:09:27<47:30:25,  1.80s/it]  5%|▌         | 5213/100000 [3:09:29<44:32:02,  1.69s/it]                                                            5%|▌         | 5213/100000 [3:09:29<44:32:02,  1.69s/it]  5%|▌         | 5214/100000 [3:09:30<41:46:25,  1.59s/it]                                                            5%|▌         | 5214/100000 [3:09:30<41:46:25,  1.59s/it]  5%|▌         | 5215/100000 [3:09:31<39:36:54,  1.50s/it]                                                            5%|▌         | 5215/100000 [3:09:31<39:36:54,  1.50s/it]  5%|▌         | 5216/100000 [3:09:33<37:38:23,  1.43s/it]                                                            5%|▌         | 5216/100000 [3:09:33<37:38:23,  1.43s/it]  5%|▌         | 5217/100000 [3:09:34<35:38:00,  1.35s/it]                                                            5%|▌         | 5217/100000 [3:09:34<35:38:00,  1.35s/it]  5%|▌         | 5218/100000 [3:09:35<33:48:53,  1.28s/it]                                                            5%|▌         | 5218/100000 [3:09:35<33:48:53,  1.28s/it]  5%|▌         | 5219/100000 [3:09:36<32:09:10,  1.22s/it]                                                            5%|▌         | 5219/100000 [3:09:36<32:09:10,  1.22s/it]  5%|▌         | 5220/100000 [3:09:37<30:34:31,  1.16s/it]                                                            5%|▌         | 5220/100000 [3:09:37<30:34:31,  1.16s/it]  5%|▌         | 5221/100000 [3:09:38<29:00:23,  1.10s/it]                                                            5%|▌         | 5221/100000 [3:09:38<29:00:23,  1.10s/it]  5%|▌         | 5222/100000 [3:09:39<27:54:47,  1.06s/it]                                                            5%|▌         | 5222/100000 [3:09:39<27:54:47,  1.06s/it]  5%|▌         | 5223/100000 [3:09:40<26:53:31,  1.02s/it]                                                            5%|▌         | 5223/100000 [3:09:40<26:53:31,  1.02s/it]  5%|▌         | 5224/100000 [3:09:41<26:06:25,  1.01it/s]                                                            5%|▌         | 5224/100000 [3:09:41<26:06:25,  1.01it/s]  5%|▌         | 5225/100000 [3:09:42<25:22:13,  1.04it/s]                                                            5%|▌         | 5225/100000 [3:09:42<25:22:13,  1.04it/s]  5%|▌         | 5226/100000 [3:09:43<24:35:24,  1.07it/s]                                                            5%|▌         | 5226/100000 [3:09:43<24:35:24,  1.07it/s]  5%|▌         | 5227/100000 [3:09:43<24:05:36,  1.09it/s]                                                            5%|▌         | 5227/100000 [3:09:43<24:05:36,  1.09it/s]  5%|▌         | 5228/100000 [3:09:44<23:35:49,  1.12it/s]                                                            5%|▌         | 5228/100000 [3:09:44<23:35:49,  1.12it/s]  5%|▌         | 5229/100000 [3:09:45<22:41:32,  1.16it/s]                                                            5%|▌         | 5229/100000 [3:09:45<22:41:32,  1.16it/s]  5%|▌         | 5230/100000 [3:09:46<22:02:29,  1.19it/s]                                                            5%|▌         | 5230/100000 [3:09:46<22:02:29,  1.19it/s]  5%|▌         | 5231/100000 [3:09:47<21:23:16,  1.23it/s]                                                            5%|▌         | 5231/100000 [3:09:47<21:23:16,  1.23it/s]  5%|▌         | 5232/100000 [3:09:47<20:43:41,  1.27it/s]                                                            5%|▌         | 5232/100000 [3:09:47<20:43:41,  1.27it/s]  5%|▌         | 5233/100000 [3:09:48<20:16:55,  1.30it/s]                                                            5%|▌         | 5233/100000 [3:09:48<20:16:55,  1.30it/s]  5%|▌         | 5234/100000 [3:09:49<19:24:06,  1.36it/s]                                                            5%|▌         | 5234/100000 [3:09:49<19:24:06,  1.36it/s]  5%|▌         | 5235/100000 [3:09:56<73:21:46,  2.79s/it]                                                            5%|▌         | 5235/100000 [3:09:56<73:21:46,  2.79s/it]  5%|▌         | 5236/100000 [3:09:58<62:13:30,  2.36s/it]                                                            5%|▌         | 5236/100000 [3:09:58<62:13:30,  2.36s/it]{'loss': 0.104, 'grad_norm': 0.7936319708824158, 'learning_rate': 1.5486e-05, 'epoch': 33.55}
{'loss': 0.0774, 'grad_norm': 0.7198922634124756, 'learning_rate': 1.5489e-05, 'epoch': 33.55}
{'loss': 0.0961, 'grad_norm': 0.8103563785552979, 'learning_rate': 1.5492e-05, 'epoch': 33.56}
{'loss': 0.0641, 'grad_norm': 0.72404545545578, 'learning_rate': 1.5495e-05, 'epoch': 33.56}
{'loss': 0.0594, 'grad_norm': 0.5627443790435791, 'learning_rate': 1.5498e-05, 'epoch': 33.57}
{'loss': 0.0746, 'grad_norm': 0.9336516857147217, 'learning_rate': 1.5501000000000003e-05, 'epoch': 33.58}
{'loss': 0.058, 'grad_norm': 0.5952929258346558, 'learning_rate': 1.5504000000000003e-05, 'epoch': 33.58}
{'loss': 0.0671, 'grad_norm': 0.9274543523788452, 'learning_rate': 1.5507000000000002e-05, 'epoch': 33.59}
{'loss': 0.0532, 'grad_norm': 0.8131608963012695, 'learning_rate': 1.5510000000000002e-05, 'epoch': 33.6}
{'loss': 0.0503, 'grad_norm': 0.9352902770042419, 'learning_rate': 1.5513000000000002e-05, 'epoch': 33.6}
{'loss': 0.056, 'grad_norm': 0.8488790392875671, 'learning_rate': 1.5516000000000002e-05, 'epoch': 33.61}
{'loss': 0.0491, 'grad_norm': 0.7652056813240051, 'learning_rate': 1.5518999999999998e-05, 'epoch': 33.62}
{'loss': 0.0722, 'grad_norm': 0.8743225336074829, 'learning_rate': 1.5521999999999998e-05, 'epoch': 33.62}
{'loss': 0.0588, 'grad_norm': 0.6933091878890991, 'learning_rate': 1.5524999999999998e-05, 'epoch': 33.63}
{'loss': 0.0333, 'grad_norm': 0.7022791504859924, 'learning_rate': 1.5527999999999998e-05, 'epoch': 33.64}
{'loss': 0.0726, 'grad_norm': 1.023491382598877, 'learning_rate': 1.5531e-05, 'epoch': 33.64}
{'loss': 0.0376, 'grad_norm': 0.6919969320297241, 'learning_rate': 1.5534e-05, 'epoch': 33.65}
{'loss': 0.0357, 'grad_norm': 0.7698909044265747, 'learning_rate': 1.5537e-05, 'epoch': 33.66}
{'loss': 0.0243, 'grad_norm': 0.6057400703430176, 'learning_rate': 1.554e-05, 'epoch': 33.66}
{'loss': 0.0517, 'grad_norm': 1.4566869735717773, 'learning_rate': 1.5543e-05, 'epoch': 33.67}
{'loss': 0.1012, 'grad_norm': 1.2847157716751099, 'learning_rate': 1.5546e-05, 'epoch': 33.68}
{'loss': 0.0349, 'grad_norm': 0.7685272097587585, 'learning_rate': 1.5549e-05, 'epoch': 33.68}
{'loss': 0.0311, 'grad_norm': 0.8994750380516052, 'learning_rate': 1.5552e-05, 'epoch': 33.69}
{'loss': 0.0367, 'grad_norm': 1.1985173225402832, 'learning_rate': 1.5555e-05, 'epoch': 33.69}
{'loss': 0.0291, 'grad_norm': 0.8166470527648926, 'learning_rate': 1.5558e-05, 'epoch': 33.7}
{'loss': 0.0258, 'grad_norm': 0.8442025780677795, 'learning_rate': 1.5561000000000002e-05, 'epoch': 33.71}
{'loss': 0.0323, 'grad_norm': 1.6519397497177124, 'learning_rate': 1.5564000000000002e-05, 'epoch': 33.71}
{'loss': 0.0543, 'grad_norm': 2.10593843460083, 'learning_rate': 1.5567000000000002e-05, 'epoch': 33.72}
{'loss': 0.1145, 'grad_norm': 3.089470624923706, 'learning_rate': 1.5570000000000002e-05, 'epoch': 33.73}
{'loss': 0.0602, 'grad_norm': 6.025755405426025, 'learning_rate': 1.5573e-05, 'epoch': 33.73}
{'loss': 0.1225, 'grad_norm': 2.127213954925537, 'learning_rate': 1.5576e-05, 'epoch': 33.74}
{'loss': 0.2621, 'grad_norm': 4.202207088470459, 'learning_rate': 1.5579e-05, 'epoch': 33.75}
{'loss': 0.1708, 'grad_norm': 0.8725625276565552, 'learning_rate': 1.5582e-05, 'epoch': 33.75}
{'loss': 0.1383, 'grad_norm': 0.9273687601089478, 'learning_rate': 1.5585e-05, 'epoch': 33.76}
{'loss': 0.1391, 'grad_norm': 0.6155219078063965, 'learning_rate': 1.5588e-05, 'epoch': 33.77}
{'loss': 0.1127, 'grad_norm': 0.6432406306266785, 'learning_rate': 1.5591e-05, 'epoch': 33.77}
{'loss': 0.1141, 'grad_norm': 1.0327023267745972, 'learning_rate': 1.5594e-05, 'epoch': 33.78}
{'loss': 0.0849, 'grad_norm': 0.605593740940094, 'learning_rate': 1.5597e-05, 'epoch': 33.79}
{'loss': 0.1448, 'grad_norm': 0.9518284797668457, 'learning_rate': 1.56e-05, 'epoch': 33.79}
{'loss': 0.0853, 'grad_norm': 0.6082231998443604, 'learning_rate': 1.5603e-05, 'epoch': 33.8}
{'loss': 0.0754, 'grad_norm': 0.6969344019889832, 'learning_rate': 1.5606e-05, 'epoch': 33.81}
{'loss': 0.0833, 'grad_norm': 0.6174032688140869, 'learning_rate': 1.5609e-05, 'epoch': 33.81}
{'loss': 0.0873, 'grad_norm': 0.8106878399848938, 'learning_rate': 1.5612e-05, 'epoch': 33.82}
{'loss': 0.0864, 'grad_norm': 0.8439644575119019, 'learning_rate': 1.5615e-05, 'epoch': 33.82}
{'loss': 0.0658, 'grad_norm': 0.5862246751785278, 'learning_rate': 1.5618e-05, 'epoch': 33.83}
{'loss': 0.0501, 'grad_norm': 1.1331270933151245, 'learning_rate': 1.5621000000000002e-05, 'epoch': 33.84}
{'loss': 0.0612, 'grad_norm': 0.6544787883758545, 'learning_rate': 1.5624e-05, 'epoch': 33.84}
{'loss': 0.0535, 'grad_norm': 0.7790687084197998, 'learning_rate': 1.5627e-05, 'epoch': 33.85}
{'loss': 0.0647, 'grad_norm': 0.7761514782905579, 'learning_rate': 1.563e-05, 'epoch': 33.86}
{'loss': 0.0443, 'grad_norm': 1.582919955253601, 'learning_rate': 1.5633e-05, 'epoch': 33.86}
{'loss': 0.0568, 'grad_norm': 0.7046923041343689, 'learning_rate': 1.5636e-05, 'epoch': 33.87}
{'loss': 0.0432, 'grad_norm': 1.020194411277771, 'learning_rate': 1.5639e-05, 'epoch': 33.88}
{'loss': 0.0512, 'grad_norm': 0.7460124492645264, 'learning_rate': 1.5642e-05, 'epoch': 33.88}
{'loss': 0.0523, 'grad_norm': 0.7668077349662781, 'learning_rate': 1.5645e-05, 'epoch': 33.89}
{'loss': 0.0529, 'grad_norm': 0.8679250478744507, 'learning_rate': 1.5648e-05, 'epoch': 33.9}
{'loss': 0.0595, 'grad_norm': 1.3417810201644897, 'learning_rate': 1.5651000000000003e-05, 'epoch': 33.9}
{'loss': 0.0578, 'grad_norm': 1.4577828645706177, 'learning_rate': 1.5654000000000003e-05, 'epoch': 33.91}
{'loss': 0.0491, 'grad_norm': 1.3857457637786865, 'learning_rate': 1.5657000000000003e-05, 'epoch': 33.92}
{'loss': 0.0355, 'grad_norm': 0.8829866647720337, 'learning_rate': 1.5660000000000003e-05, 'epoch': 33.92}
{'loss': 0.1361, 'grad_norm': 0.9656375646591187, 'learning_rate': 1.5663000000000002e-05, 'epoch': 33.93}
{'loss': 0.0299, 'grad_norm': 1.0372930765151978, 'learning_rate': 1.5666e-05, 'epoch': 33.94}
{'loss': 0.0403, 'grad_norm': 1.5481982231140137, 'learning_rate': 1.5669e-05, 'epoch': 33.94}
{'loss': 0.0302, 'grad_norm': 1.1539740562438965, 'learning_rate': 1.5672e-05, 'epoch': 33.95}
{'loss': 0.0333, 'grad_norm': 2.1770925521850586, 'learning_rate': 1.5674999999999998e-05, 'epoch': 33.95}
{'loss': 0.0293, 'grad_norm': 0.8949639201164246, 'learning_rate': 1.5677999999999998e-05, 'epoch': 33.96}
{'loss': 0.0598, 'grad_norm': 1.6873301267623901, 'learning_rate': 1.5681e-05, 'epoch': 33.97}
{'loss': 0.0369, 'grad_norm': 1.966697096824646, 'learning_rate': 1.5684e-05, 'epoch': 33.97}
{'loss': 0.0426, 'grad_norm': 2.173419237136841, 'learning_rate': 1.5687e-05, 'epoch': 33.98}
{'loss': 0.0308, 'grad_norm': 0.9376464486122131, 'learning_rate': 1.569e-05, 'epoch': 33.99}
{'loss': 0.0871, 'grad_norm': 0.9160957336425781, 'learning_rate': 1.5693e-05, 'epoch': 33.99}
{'loss': 0.05, 'grad_norm': 2.01594877243042, 'learning_rate': 1.5696e-05, 'epoch': 34.0}
  5%|▌         | 5237/100000 [3:10:15<183:17:09,  6.96s/it]                                                             5%|▌         | 5237/100000 [3:10:15<183:17:09,  6.96s/it]  5%|▌         | 5238/100000 [3:10:22<183:51:08,  6.98s/it]                                                             5%|▌         | 5238/100000 [3:10:22<183:51:08,  6.98s/it]  5%|▌         | 5239/100000 [3:10:27<169:08:00,  6.43s/it]                                                             5%|▌         | 5239/100000 [3:10:27<169:08:00,  6.43s/it]  5%|▌         | 5240/100000 [3:10:32<155:23:04,  5.90s/it]                                                             5%|▌         | 5240/100000 [3:10:32<155:23:04,  5.90s/it]  5%|▌         | 5241/100000 [3:10:36<140:13:54,  5.33s/it]                                                             5%|▌         | 5241/100000 [3:10:36<140:13:54,  5.33s/it]  5%|▌         | 5242/100000 [3:10:40<125:29:30,  4.77s/it]                                                             5%|▌         | 5242/100000 [3:10:40<125:29:30,  4.77s/it]  5%|▌         | 5243/100000 [3:10:42<110:31:14,  4.20s/it]                                                             5%|▌         | 5243/100000 [3:10:42<110:31:14,  4.20s/it]  5%|▌         | 5244/100000 [3:10:45<98:09:00,  3.73s/it]                                                             5%|▌         | 5244/100000 [3:10:45<98:09:00,  3.73s/it]  5%|▌         | 5245/100000 [3:10:47<86:58:00,  3.30s/it]                                                            5%|▌         | 5245/100000 [3:10:47<86:58:00,  3.30s/it]  5%|▌         | 5246/100000 [3:10:50<77:36:36,  2.95s/it]                                                            5%|▌         | 5246/100000 [3:10:50<77:36:36,  2.95s/it]  5%|▌         | 5247/100000 [3:10:52<70:03:49,  2.66s/it]                                                            5%|▌         | 5247/100000 [3:10:52<70:03:49,  2.66s/it]  5%|▌         | 5248/100000 [3:10:53<63:36:10,  2.42s/it]                                                            5%|▌         | 5248/100000 [3:10:53<63:36:10,  2.42s/it]  5%|▌         | 5249/100000 [3:10:55<58:04:05,  2.21s/it]                                                            5%|▌         | 5249/100000 [3:10:55<58:04:05,  2.21s/it]  5%|▌         | 5250/100000 [3:10:57<53:06:28,  2.02s/it]                                                            5%|▌         | 5250/100000 [3:10:57<53:06:28,  2.02s/it]  5%|▌         | 5251/100000 [3:10:58<49:47:37,  1.89s/it]                                                            5%|▌         | 5251/100000 [3:10:58<49:47:37,  1.89s/it]  5%|▌         | 5252/100000 [3:11:00<46:34:27,  1.77s/it]                                                            5%|▌         | 5252/100000 [3:11:00<46:34:27,  1.77s/it]  5%|▌         | 5253/100000 [3:11:01<43:47:34,  1.66s/it]                                                            5%|▌         | 5253/100000 [3:11:01<43:47:34,  1.66s/it]  5%|▌         | 5254/100000 [3:11:03<41:39:38,  1.58s/it]                                                            5%|▌         | 5254/100000 [3:11:03<41:39:38,  1.58s/it]  5%|▌         | 5255/100000 [3:11:04<39:22:30,  1.50s/it]                                                            5%|▌         | 5255/100000 [3:11:04<39:22:30,  1.50s/it]  5%|▌         | 5256/100000 [3:11:05<37:39:26,  1.43s/it]                                                            5%|▌         | 5256/100000 [3:11:05<37:39:26,  1.43s/it]  5%|▌         | 5257/100000 [3:11:06<35:47:02,  1.36s/it]                                                            5%|▌         | 5257/100000 [3:11:06<35:47:02,  1.36s/it]  5%|▌         | 5258/100000 [3:11:07<33:55:13,  1.29s/it]                                                            5%|▌         | 5258/100000 [3:11:07<33:55:13,  1.29s/it]  5%|▌         | 5259/100000 [3:11:09<32:31:49,  1.24s/it]                                                            5%|▌         | 5259/100000 [3:11:09<32:31:49,  1.24s/it]  5%|▌         | 5260/100000 [3:11:10<31:04:43,  1.18s/it]                                                            5%|▌         | 5260/100000 [3:11:10<31:04:43,  1.18s/it]  5%|▌         | 5261/100000 [3:11:11<29:43:48,  1.13s/it]                                                            5%|▌         | 5261/100000 [3:11:11<29:43:48,  1.13s/it]  5%|▌         | 5262/100000 [3:11:12<28:23:20,  1.08s/it]                                                            5%|▌         | 5262/100000 [3:11:12<28:23:20,  1.08s/it]  5%|▌         | 5263/100000 [3:11:13<27:28:48,  1.04s/it]                                                            5%|▌         | 5263/100000 [3:11:13<27:28:48,  1.04s/it]  5%|▌         | 5264/100000 [3:11:13<26:37:53,  1.01s/it]                                                            5%|▌         | 5264/100000 [3:11:13<26:37:53,  1.01s/it]  5%|▌         | 5265/100000 [3:11:14<25:23:11,  1.04it/s]                                                            5%|▌         | 5265/100000 [3:11:14<25:23:11,  1.04it/s]  5%|▌         | 5266/100000 [3:11:15<24:11:48,  1.09it/s]                                                            5%|▌         | 5266/100000 [3:11:15<24:11:48,  1.09it/s]  5%|▌         | 5267/100000 [3:11:16<23:16:20,  1.13it/s]                                                            5%|▌         | 5267/100000 [3:11:16<23:16:20,  1.13it/s]  5%|▌         | 5268/100000 [3:11:17<22:42:59,  1.16it/s]                                                            5%|▌         | 5268/100000 [3:11:17<22:42:59,  1.16it/s]  5%|▌         | 5269/100000 [3:11:18<22:21:33,  1.18it/s]                                                            5%|▌         | 5269/100000 [3:11:18<22:21:33,  1.18it/s]  5%|▌         | 5270/100000 [3:11:18<21:38:08,  1.22it/s]                                                            5%|▌         | 5270/100000 [3:11:18<21:38:08,  1.22it/s]  5%|▌         | 5271/100000 [3:11:19<20:57:52,  1.26it/s]                                                            5%|▌         | 5271/100000 [3:11:19<20:57:52,  1.26it/s]  5%|▌         | 5272/100000 [3:11:20<20:38:16,  1.28it/s]                                                            5%|▌         | 5272/100000 [3:11:20<20:38:16,  1.28it/s]  5%|▌         | 5273/100000 [3:11:21<20:32:03,  1.28it/s]                                                            5%|▌         | 5273/100000 [3:11:21<20:32:03,  1.28it/s]  5%|▌         | 5274/100000 [3:11:21<20:11:43,  1.30it/s]                                                            5%|▌         | 5274/100000 [3:11:21<20:11:43,  1.30it/s]  5%|▌         | 5275/100000 [3:11:33<106:26:58,  4.05s/it]                                                             5%|▌         | 5275/100000 [3:11:33<106:26:58,  4.05s/it]  5%|▌         | 5276/100000 [3:11:41<140:59:01,  5.36s/it]                                                             5%|▌         | 5276/100000 [3:11:41<140:59:01,  5.36s/it]  5%|▌         | 5277/100000 [3:11:47<142:55:14,  5.43s/it]                                                             5%|▌         | 5277/100000 [3:11:47<142:55:14,  5.43s/it]  5%|▌         | 5278/100000 [3:11:52<136:33:08,  5.19s/it]                                                             5%|▌         | 5278/100000 [3:11:52<136:33:08,  5.19s/it]  5%|▌         | 5279/100000 [3:11:55<124:52:55,  4.75s/it]                                                             5%|▌         | 5279/100000 [3:11:55<124:52:55,  4.75s/it]  5%|▌         | 5280/100000 [3:11:59<115:30:47,  4.39s/it]                                                             5%|▌         | 5280/100000 [3:11:59<115:30:47,  4.39s/it]  5%|▌         | 5281/100000 [3:12:02<105:11:02,  4.00s/it]                                                             5%|▌         | 5281/100000 [3:12:02<105:11:02,  4.00s/it]  5%|▌         | 5282/100000 [3:12:05<94:22:56,  3.59s/it]                                                             5%|▌         | 5282/100000 [3:12:05<94:22:56,  3.59s/it]  5%|▌         | 5283/100000 [3:12:07<84:16:48,  3.20s/it]                                                            5%|▌         | 5283/100000 [3:12:07<84:16:48,  3.20s/it]  5%|▌         | 5284/100000 [3:12:09<75:09:05,  2.86s/it]                                                            5%|▌         | 5284/100000 [3:12:09<75:09:05,  2.86s/it]  5%|▌         | 5285/100000 [3:12:11<68:03:28,  2.59s/it]                                                            5%|▌         | 5285/100000 [3:12:11<68:03:28,  2.59s/it]  5%|▌         | 5286/100000 [3:12:13<62:04:51,  2.36s/it]                                                            5%|▌         | 5286/100000 [3:12:13<62:04:51,  2.36s/it]  5%|▌         | 5287/100000 [3:12:14<56:24:15,  2.14s/it]                                                            5%|▌         | 5287/100000 [3:12:14<56:24:15,  2.14s/it]  5%|▌         | 5288/100000 [3:12:16<51:59:43,  1.98s/it]                                                            5%|▌         | 5288/100000 [3:12:16<51:59:43,  1.98s/it]  5%|▌         | 5289/100000 [3:12:18<48:03:48,  1.83s/it]                                                            5%|▌         | 5289/100000 [3:12:18<48:03:48,  1.83s/it]  5%|▌         | 5290/100000 [3:12:19<44:55:02,  1.71s/it]                                                            5%|▌         | 5290/100000 [3:12:19<44:55:02,  1.71s/it]  5%|▌         | 5291/100000 [3:12:20<42:02:22,  1.60s/it]                                                            5%|▌         | 5291/100000 [3:12:20<42:02:22,  1.60s/it]  5%|▌         | 5292/100000 [3:12:22<39:44:55,  1.51s/it]                                                            5%|▌         | 5292/100000 [3:12:22<39:44:55,  1.51s/it]  5%|▌         | 5293/100000 [3:12:23<37:51:07,  1.44s/it]                                                            5%|▌         | 5293/100000 [3:12:23<37:51:07,  1.44s/it]  5%|▌         | 5294/100000 [3:12:24<36:09:36,  1.37s/it]                                                            5%|▌         | 5294/100000 [3:12:24<36:09:36,  1.37s/it]  5%|▌         | 5295/100000 [3:12:25<34:15:24,  1.30s/it]                                                            5%|▌         | 5295/100000 [3:12:25<34:15:24,  1.30s/it]  5%|▌         | 5296/100000 [3:12:26<32:39:55,  1.24s/it]                                                            5%|▌         | 5296/100000 [3:12:26<32:39:55,  1.24s/it]  5%|▌         | 5297/100000 [3:12:27<31:11:29,  1.19s/it]                                                            5%|▌         | 5297/100000 [3:12:27<31:11:29,  1.19s/it]  5%|▌         | 5298/100000 [3:12:28<29:50:45,  1.13s/it]                                                            5%|▌         | 5298/100000 [3:12:28<29:50:45,  1.13s/it]  5%|▌         | 5299/100000 [3:12:29<28:37:03,  1.09s/it]                                                            5%|▌         | 5299/100000 [3:12:29<28:37:03,  1.09s/it]  5%|▌         | 5300/100000 [3:12:30<27:38:23,  1.05s/it]                                                            5%|▌         | 5300/100000 [3:12:30<27:38:23,  1.05s/it]  5%|▌         | 5301/100000 [3:12:31<26:55:44,  1.02s/it]                                                            5%|▌         | 5301/100000 [3:12:31<26:55:44,  1.02s/it]  5%|▌         | 5302/100000 [3:12:32<26:03:16,  1.01it/s]                                                            5%|▌         | 5302/100000 [3:12:32<26:03:16,  1.01it/s]  5%|▌         | 5303/100000 [3:12:33<25:07:34,  1.05it/s]                                                            5%|▌         | 5303/100000 [3:12:33<25:07:34,  1.05it/s]  5%|▌         | 5304/100000 [3:12:34<24:44:06,  1.06it/s]                                                            5%|▌         | 5304/100000 [3:12:34<24:44:06,  1.06it/s]  5%|▌         | 5305/100000 [3:12:35<24:13:01,  1.09it/s]                                                            5%|▌         | 5305/100000 [3:12:35<24:13:01,  1.09it/s]  5%|▌         | 5306/100000 [3:12:36<23:39:37,  1.11it/s]                                                            5%|▌         | 5306/100000 [3:12:36<23:39:37,  1.11it/s]  5%|▌         | 5307/100000 [3:12:37<23:10:41,  1.13it/s]                                                            5%|▌         | 5307/100000 [3:12:37<23:10:41,  1.13it/s]  5%|▌         | 5308/100000 [3:12:37<22:19:49,  1.18it/s]                                                            5%|▌         | 5308/100000 [3:12:37<22:19:49,  1.18it/s]  5%|▌         | 5309/100000 [3:12:38<21:57:43,  1.20it/s]                                                            5%|▌         | 5309/100000 [3:12:38<21:57:43,  1.20it/s]  5%|▌         | 5310/100000 [3:12:39<21:30:46,  1.22it/s]                                                            5%|▌         | 5310/100000 [3:12:39<21:30:46,  1.22it/s]  5%|▌         | 5311/100000 [3:12:40<20:38:49,  1.27it/s]                                                            5%|▌         | 5311/100000 [3:12:40<20:38:49,  1.27it/s]  5%|▌         | 5312/100000 [3:12:40<19:18:03,  1.36it/s]                                                            5%|▌         | 5312/100000 [3:12:40<19:18:03,  1.36it/s]  5%|▌         | 5313/100000 [3:12:52<106:22:08,  4.04s/it]                                                             5%|▌         | 5313/100000 [3:12:52<106:22:08,  4.04s/it]  5%|▌         | 5314/100000 [3:12:59<132:16:24,  5.03s/it]                                                             5%|▌         | 5314/100000 [3:12:59<132:16:24,  5.03s/it]  5%|▌         | 5315/100000 [3:13:05<135:32:26,  5.15s/it]                                                             5%|▌         | 5315/100000 [3:13:05<135:32:26,  5.15s/it]  5%|▌         | 5316/100000 [3:13:09<131:02:36,  4.98s/it]                                                             5%|▌         | 5316/100000 [3:13:09<131:02:36,  4.98s/it]  5%|▌         | 5317/100000 [3:13:13<123:11:17,  4.68s/it]                                                             5%|▌         | 5317/100000 [3:13:13<123:11:17,  4.68s/it]  5%|▌         | 5318/100000 [3:13:17<111:56:10,  4.26s/it]                                                             5%|▌         | 5318/100000 [3:13:17<111:56:10,  4.26s/it]  5%|▌         | 5319/100000 [3:13:20<101:59:05,  3.88s/it]                                                             5%|▌         | 5319/100000 [3:13:20<101:59:05,  3.88s/it]  5%|▌         | 5320/100000 [3:13:22<92:32:19,  3.52s/it]                                                           {'loss': 0.2159, 'grad_norm': 1.2437278032302856, 'learning_rate': 1.5699e-05, 'epoch': 34.01}
{'loss': 0.1717, 'grad_norm': 0.7899268865585327, 'learning_rate': 1.5702e-05, 'epoch': 34.01}
{'loss': 0.1108, 'grad_norm': 0.5883212685585022, 'learning_rate': 1.5705e-05, 'epoch': 34.02}
{'loss': 0.1239, 'grad_norm': 0.696313202381134, 'learning_rate': 1.5708e-05, 'epoch': 34.03}
{'loss': 0.1004, 'grad_norm': 0.5628563761711121, 'learning_rate': 1.5711000000000003e-05, 'epoch': 34.03}
{'loss': 0.072, 'grad_norm': 0.6407255530357361, 'learning_rate': 1.5714000000000002e-05, 'epoch': 34.04}
{'loss': 0.0985, 'grad_norm': 0.7172696590423584, 'learning_rate': 1.5717000000000002e-05, 'epoch': 34.05}
{'loss': 0.0948, 'grad_norm': 0.6920188069343567, 'learning_rate': 1.5720000000000002e-05, 'epoch': 34.05}
{'loss': 0.0729, 'grad_norm': 0.8620734214782715, 'learning_rate': 1.5723000000000002e-05, 'epoch': 34.06}
{'loss': 0.0624, 'grad_norm': 0.576660692691803, 'learning_rate': 1.5726e-05, 'epoch': 34.06}
{'loss': 0.0626, 'grad_norm': 0.6892585754394531, 'learning_rate': 1.5729e-05, 'epoch': 34.07}
{'loss': 0.075, 'grad_norm': 0.8607601523399353, 'learning_rate': 1.5732e-05, 'epoch': 34.08}
{'loss': 0.0786, 'grad_norm': 0.8389067053794861, 'learning_rate': 1.5735e-05, 'epoch': 34.08}
{'loss': 0.0586, 'grad_norm': 0.975559413433075, 'learning_rate': 1.5737999999999997e-05, 'epoch': 34.09}
{'loss': 0.0652, 'grad_norm': 0.9104018211364746, 'learning_rate': 1.5741e-05, 'epoch': 34.1}
{'loss': 0.0441, 'grad_norm': 0.8961312174797058, 'learning_rate': 1.5744e-05, 'epoch': 34.1}
{'loss': 0.0469, 'grad_norm': 0.7198812961578369, 'learning_rate': 1.5747e-05, 'epoch': 34.11}
{'loss': 0.0399, 'grad_norm': 0.49785682559013367, 'learning_rate': 1.575e-05, 'epoch': 34.12}
{'loss': 0.0572, 'grad_norm': 0.871451199054718, 'learning_rate': 1.5753e-05, 'epoch': 34.12}
{'loss': 0.0413, 'grad_norm': 0.6070541739463806, 'learning_rate': 1.5756e-05, 'epoch': 34.13}
{'loss': 0.0599, 'grad_norm': 0.8134071230888367, 'learning_rate': 1.5759e-05, 'epoch': 34.14}
{'loss': 0.048, 'grad_norm': 0.670565664768219, 'learning_rate': 1.5762e-05, 'epoch': 34.14}
{'loss': 0.0288, 'grad_norm': 0.6291729807853699, 'learning_rate': 1.5765e-05, 'epoch': 34.15}
{'loss': 0.0606, 'grad_norm': 0.8610562086105347, 'learning_rate': 1.5768e-05, 'epoch': 34.16}
{'loss': 0.0442, 'grad_norm': 0.8630634546279907, 'learning_rate': 1.5771e-05, 'epoch': 34.16}
{'loss': 0.0272, 'grad_norm': 0.6450409889221191, 'learning_rate': 1.5774000000000002e-05, 'epoch': 34.17}
{'loss': 0.0493, 'grad_norm': 1.4954555034637451, 'learning_rate': 1.5777e-05, 'epoch': 34.18}
{'loss': 0.0962, 'grad_norm': 1.0175197124481201, 'learning_rate': 1.578e-05, 'epoch': 34.18}
{'loss': 0.0379, 'grad_norm': 1.021427035331726, 'learning_rate': 1.5783e-05, 'epoch': 34.19}
{'loss': 0.045, 'grad_norm': 1.3578836917877197, 'learning_rate': 1.5786e-05, 'epoch': 34.19}
{'loss': 0.0218, 'grad_norm': 1.524630069732666, 'learning_rate': 1.5789e-05, 'epoch': 34.2}
{'loss': 0.0348, 'grad_norm': 0.9138495326042175, 'learning_rate': 1.5792e-05, 'epoch': 34.21}
{'loss': 0.0299, 'grad_norm': 1.0145076513290405, 'learning_rate': 1.5795e-05, 'epoch': 34.21}
{'loss': 0.027, 'grad_norm': 1.1977872848510742, 'learning_rate': 1.5798e-05, 'epoch': 34.22}
{'loss': 0.0191, 'grad_norm': 0.9180108308792114, 'learning_rate': 1.5801e-05, 'epoch': 34.23}
{'loss': 0.0742, 'grad_norm': 4.7710490226745605, 'learning_rate': 1.5804000000000003e-05, 'epoch': 34.23}
{'loss': 0.0226, 'grad_norm': 1.1487919092178345, 'learning_rate': 1.5807000000000003e-05, 'epoch': 34.24}
{'loss': 0.0531, 'grad_norm': 1.9678324460983276, 'learning_rate': 1.5810000000000003e-05, 'epoch': 34.25}
{'loss': 0.2476, 'grad_norm': 2.111537456512451, 'learning_rate': 1.5813e-05, 'epoch': 34.25}
{'loss': 0.1649, 'grad_norm': 0.9518532752990723, 'learning_rate': 1.5816e-05, 'epoch': 34.26}
{'loss': 0.1567, 'grad_norm': 0.81813645362854, 'learning_rate': 1.5819e-05, 'epoch': 34.27}
{'loss': 0.1283, 'grad_norm': 0.7641911506652832, 'learning_rate': 1.5822e-05, 'epoch': 34.27}
{'loss': 0.1179, 'grad_norm': 0.8014715909957886, 'learning_rate': 1.5825e-05, 'epoch': 34.28}
{'loss': 0.1104, 'grad_norm': 1.2097622156143188, 'learning_rate': 1.5827999999999998e-05, 'epoch': 34.29}
{'loss': 0.0835, 'grad_norm': 0.6493738889694214, 'learning_rate': 1.5830999999999998e-05, 'epoch': 34.29}
{'loss': 0.1164, 'grad_norm': 0.8392916917800903, 'learning_rate': 1.5834e-05, 'epoch': 34.3}
{'loss': 0.1147, 'grad_norm': 0.763482391834259, 'learning_rate': 1.5837e-05, 'epoch': 34.31}
{'loss': 0.0868, 'grad_norm': 0.6780973672866821, 'learning_rate': 1.584e-05, 'epoch': 34.31}
{'loss': 0.0641, 'grad_norm': 0.6172299981117249, 'learning_rate': 1.5843e-05, 'epoch': 34.32}
{'loss': 0.0665, 'grad_norm': 0.9115999341011047, 'learning_rate': 1.5846e-05, 'epoch': 34.32}
{'loss': 0.0597, 'grad_norm': 0.6455320119857788, 'learning_rate': 1.5849e-05, 'epoch': 34.33}
{'loss': 0.0723, 'grad_norm': 0.6605980396270752, 'learning_rate': 1.5852e-05, 'epoch': 34.34}
{'loss': 0.0635, 'grad_norm': 0.646420955657959, 'learning_rate': 1.5855e-05, 'epoch': 34.34}
{'loss': 0.0924, 'grad_norm': 0.8729896545410156, 'learning_rate': 1.5858e-05, 'epoch': 34.35}
{'loss': 0.0533, 'grad_norm': 0.9405582547187805, 'learning_rate': 1.5861e-05, 'epoch': 34.36}
{'loss': 0.0525, 'grad_norm': 0.7549998164176941, 'learning_rate': 1.5864000000000003e-05, 'epoch': 34.36}
{'loss': 0.0388, 'grad_norm': 0.7132949829101562, 'learning_rate': 1.5867000000000002e-05, 'epoch': 34.37}
{'loss': 0.0295, 'grad_norm': 0.6098141670227051, 'learning_rate': 1.5870000000000002e-05, 'epoch': 34.38}
{'loss': 0.0464, 'grad_norm': 0.8023358583450317, 'learning_rate': 1.5873000000000002e-05, 'epoch': 34.38}
{'loss': 0.0492, 'grad_norm': 0.7831292748451233, 'learning_rate': 1.5876000000000002e-05, 'epoch': 34.39}
{'loss': 0.0268, 'grad_norm': 0.6643553376197815, 'learning_rate': 1.5879e-05, 'epoch': 34.4}
{'loss': 0.0505, 'grad_norm': 0.8662900924682617, 'learning_rate': 1.5882e-05, 'epoch': 34.4}
{'loss': 0.0301, 'grad_norm': 0.8215698599815369, 'learning_rate': 1.5884999999999998e-05, 'epoch': 34.41}
{'loss': 0.0378, 'grad_norm': 1.0306235551834106, 'learning_rate': 1.5887999999999998e-05, 'epoch': 34.42}
{'loss': 0.0492, 'grad_norm': 2.6205265522003174, 'learning_rate': 1.5890999999999997e-05, 'epoch': 34.42}
{'loss': 0.042, 'grad_norm': 0.915905237197876, 'learning_rate': 1.5894e-05, 'epoch': 34.43}
{'loss': 0.0345, 'grad_norm': 1.0447847843170166, 'learning_rate': 1.5897e-05, 'epoch': 34.44}
{'loss': 0.0524, 'grad_norm': 2.911843776702881, 'learning_rate': 1.59e-05, 'epoch': 34.44}
{'loss': 0.0222, 'grad_norm': 0.5945908427238464, 'learning_rate': 1.5903e-05, 'epoch': 34.45}
{'loss': 0.026, 'grad_norm': 0.9359211921691895, 'learning_rate': 1.5906e-05, 'epoch': 34.45}
{'loss': 0.0213, 'grad_norm': 0.8161317110061646, 'learning_rate': 1.5909e-05, 'epoch': 34.46}
{'loss': 0.0312, 'grad_norm': 1.3972889184951782, 'learning_rate': 1.5912e-05, 'epoch': 34.47}
{'loss': 0.0527, 'grad_norm': 1.5152937173843384, 'learning_rate': 1.5915e-05, 'epoch': 34.47}
{'loss': 0.0233, 'grad_norm': 1.487558126449585, 'learning_rate': 1.5918e-05, 'epoch': 34.48}
{'loss': 0.0278, 'grad_norm': 1.014306664466858, 'learning_rate': 1.5921e-05, 'epoch': 34.49}
{'loss': 0.0898, 'grad_norm': 1.3970142602920532, 'learning_rate': 1.5924000000000002e-05, 'epoch': 34.49}
{'loss': 0.1959, 'grad_norm': 0.9789620637893677, 'learning_rate': 1.5927000000000002e-05, 'epoch': 34.5}
{'loss': 0.1413, 'grad_norm': 0.8968880772590637, 'learning_rate': 1.593e-05, 'epoch': 34.51}
{'loss': 0.1458, 'grad_norm': 0.8370104432106018, 'learning_rate': 1.5933e-05, 'epoch': 34.51}
{'loss': 0.1289, 'grad_norm': 0.7015842795372009, 'learning_rate': 1.5936e-05, 'epoch': 34.52}
{'loss': 0.1026, 'grad_norm': 0.769739031791687, 'learning_rate': 1.5939e-05, 'epoch': 34.53}
{'loss': 0.0837, 'grad_norm': 0.7823619842529297, 'learning_rate': 1.5942e-05, 'epoch': 34.53}
{'loss': 0.0775, 'grad_norm': 0.6863033771514893, 'learning_rate': 1.5945e-05, 'epoch': 34.54}
  5%|▌         | 5320/100000 [3:13:22<92:32:19,  3.52s/it]  5%|▌         | 5321/100000 [3:13:25<82:56:43,  3.15s/it]                                                            5%|▌         | 5321/100000 [3:13:25<82:56:43,  3.15s/it]  5%|▌         | 5322/100000 [3:13:27<73:45:34,  2.80s/it]                                                            5%|▌         | 5322/100000 [3:13:27<73:45:34,  2.80s/it]  5%|▌         | 5323/100000 [3:13:29<67:00:53,  2.55s/it]                                                            5%|▌         | 5323/100000 [3:13:29<67:00:53,  2.55s/it]  5%|▌         | 5324/100000 [3:13:30<61:29:47,  2.34s/it]                                                            5%|▌         | 5324/100000 [3:13:30<61:29:47,  2.34s/it]  5%|▌         | 5325/100000 [3:13:32<56:46:42,  2.16s/it]                                                            5%|▌         | 5325/100000 [3:13:32<56:46:42,  2.16s/it]  5%|▌         | 5326/100000 [3:13:34<52:39:02,  2.00s/it]                                                            5%|▌         | 5326/100000 [3:13:34<52:39:02,  2.00s/it]  5%|▌         | 5327/100000 [3:13:35<49:12:50,  1.87s/it]                                                            5%|▌         | 5327/100000 [3:13:35<49:12:50,  1.87s/it]  5%|▌         | 5328/100000 [3:13:37<45:58:28,  1.75s/it]                                                            5%|▌         | 5328/100000 [3:13:37<45:58:28,  1.75s/it]  5%|▌         | 5329/100000 [3:13:38<42:59:14,  1.63s/it]                                                            5%|▌         | 5329/100000 [3:13:38<42:59:14,  1.63s/it]  5%|▌         | 5330/100000 [3:13:39<40:44:40,  1.55s/it]                                                            5%|▌         | 5330/100000 [3:13:39<40:44:40,  1.55s/it]  5%|▌         | 5331/100000 [3:13:41<38:40:11,  1.47s/it]                                                            5%|▌         | 5331/100000 [3:13:41<38:40:11,  1.47s/it]  5%|▌         | 5332/100000 [3:13:42<36:52:52,  1.40s/it]                                                            5%|▌         | 5332/100000 [3:13:42<36:52:52,  1.40s/it]  5%|▌         | 5333/100000 [3:13:43<34:42:55,  1.32s/it]                                                            5%|▌         | 5333/100000 [3:13:43<34:42:55,  1.32s/it]  5%|▌         | 5334/100000 [3:13:44<33:00:03,  1.25s/it]                                                            5%|▌         | 5334/100000 [3:13:44<33:00:03,  1.25s/it]  5%|▌         | 5335/100000 [3:13:45<31:28:32,  1.20s/it]                                                            5%|▌         | 5335/100000 [3:13:45<31:28:32,  1.20s/it]  5%|▌         | 5336/100000 [3:13:46<30:05:50,  1.14s/it]                                                            5%|▌         | 5336/100000 [3:13:46<30:05:50,  1.14s/it]  5%|▌         | 5337/100000 [3:13:47<28:43:12,  1.09s/it]                                                            5%|▌         | 5337/100000 [3:13:47<28:43:12,  1.09s/it]  5%|▌         | 5338/100000 [3:13:48<27:41:19,  1.05s/it]                                                            5%|▌         | 5338/100000 [3:13:48<27:41:19,  1.05s/it]  5%|▌         | 5339/100000 [3:13:49<26:50:41,  1.02s/it]                                                            5%|▌         | 5339/100000 [3:13:49<26:50:41,  1.02s/it]  5%|▌         | 5340/100000 [3:13:50<25:55:29,  1.01it/s]                                                            5%|▌         | 5340/100000 [3:13:50<25:55:29,  1.01it/s]  5%|▌         | 5341/100000 [3:13:51<25:03:45,  1.05it/s]                                                            5%|▌         | 5341/100000 [3:13:51<25:03:45,  1.05it/s]  5%|▌         | 5342/100000 [3:13:52<24:25:48,  1.08it/s]                                                            5%|▌         | 5342/100000 [3:13:52<24:25:48,  1.08it/s]  5%|▌         | 5343/100000 [3:13:53<23:25:58,  1.12it/s]                                                            5%|▌         | 5343/100000 [3:13:53<23:25:58,  1.12it/s]  5%|▌         | 5344/100000 [3:13:53<22:14:16,  1.18it/s]                                                            5%|▌         | 5344/100000 [3:13:53<22:14:16,  1.18it/s]  5%|▌         | 5345/100000 [3:13:54<21:05:20,  1.25it/s]                                                            5%|▌         | 5345/100000 [3:13:54<21:05:20,  1.25it/s]  5%|▌         | 5346/100000 [3:13:55<20:19:20,  1.29it/s]                                                            5%|▌         | 5346/100000 [3:13:55<20:19:20,  1.29it/s]  5%|▌         | 5347/100000 [3:13:56<20:09:22,  1.30it/s]                                                            5%|▌         | 5347/100000 [3:13:56<20:09:22,  1.30it/s]  5%|▌         | 5348/100000 [3:13:56<19:36:27,  1.34it/s]                                                            5%|▌         | 5348/100000 [3:13:56<19:36:27,  1.34it/s]  5%|▌         | 5349/100000 [3:13:57<19:10:38,  1.37it/s]                                                            5%|▌         | 5349/100000 [3:13:57<19:10:38,  1.37it/s]  5%|▌         | 5350/100000 [3:13:58<18:21:26,  1.43it/s]                                                            5%|▌         | 5350/100000 [3:13:58<18:21:26,  1.43it/s]  5%|▌         | 5351/100000 [3:14:11<114:48:10,  4.37s/it]                                                             5%|▌         | 5351/100000 [3:14:11<114:48:10,  4.37s/it]  5%|▌         | 5352/100000 [3:14:18<137:52:43,  5.24s/it]                                                             5%|▌         | 5352/100000 [3:14:18<137:52:43,  5.24s/it]  5%|▌         | 5353/100000 [3:14:23<141:02:42,  5.36s/it]                                                             5%|▌         | 5353/100000 [3:14:23<141:02:42,  5.36s/it]  5%|▌         | 5354/100000 [3:14:28<136:14:54,  5.18s/it]                                                             5%|▌         | 5354/100000 [3:14:28<136:14:54,  5.18s/it]  5%|▌         | 5355/100000 [3:14:32<126:11:18,  4.80s/it]                                                             5%|▌         | 5355/100000 [3:14:32<126:11:18,  4.80s/it]  5%|▌         | 5356/100000 [3:14:36<116:01:06,  4.41s/it]                                                             5%|▌         | 5356/100000 [3:14:36<116:01:06,  4.41s/it]  5%|▌         | 5357/100000 [3:14:39<105:26:49,  4.01s/it]                                                             5%|▌         | 5357/100000 [3:14:39<105:26:49,  4.01s/it]  5%|▌         | 5358/100000 [3:14:41<95:27:30,  3.63s/it]                                                             5%|▌         | 5358/100000 [3:14:41<95:27:30,  3.63s/it]  5%|▌         | 5359/100000 [3:14:44<85:47:19,  3.26s/it]                                                            5%|▌         | 5359/100000 [3:14:44<85:47:19,  3.26s/it]  5%|▌         | 5360/100000 [3:14:46<76:50:38,  2.92s/it]                                                            5%|▌         | 5360/100000 [3:14:46<76:50:38,  2.92s/it]  5%|▌         | 5361/100000 [3:14:48<69:43:27,  2.65s/it]                                                            5%|▌         | 5361/100000 [3:14:48<69:43:27,  2.65s/it]  5%|▌         | 5362/100000 [3:14:50<63:46:37,  2.43s/it]                                                            5%|▌         | 5362/100000 [3:14:50<63:46:37,  2.43s/it]  5%|▌         | 5363/100000 [3:14:52<58:25:25,  2.22s/it]                                                            5%|▌         | 5363/100000 [3:14:52<58:25:25,  2.22s/it]  5%|▌         | 5364/100000 [3:14:53<53:17:13,  2.03s/it]                                                            5%|▌         | 5364/100000 [3:14:53<53:17:13,  2.03s/it]  5%|▌         | 5365/100000 [3:14:55<49:52:10,  1.90s/it]                                                            5%|▌         | 5365/100000 [3:14:55<49:52:10,  1.90s/it]  5%|▌         | 5366/100000 [3:14:56<45:56:09,  1.75s/it]                                                            5%|▌         | 5366/100000 [3:14:56<45:56:09,  1.75s/it]  5%|▌         | 5367/100000 [3:14:58<43:00:52,  1.64s/it]                                                            5%|▌         | 5367/100000 [3:14:58<43:00:52,  1.64s/it]  5%|▌         | 5368/100000 [3:14:59<40:28:38,  1.54s/it]                                                            5%|▌         | 5368/100000 [3:14:59<40:28:38,  1.54s/it]  5%|▌         | 5369/100000 [3:15:00<38:23:28,  1.46s/it]                                                            5%|▌         | 5369/100000 [3:15:00<38:23:28,  1.46s/it]  5%|▌         | 5370/100000 [3:15:01<36:35:43,  1.39s/it]                                                            5%|▌         | 5370/100000 [3:15:01<36:35:43,  1.39s/it]  5%|▌         | 5371/100000 [3:15:03<34:21:03,  1.31s/it]                                                            5%|▌         | 5371/100000 [3:15:03<34:21:03,  1.31s/it]  5%|▌         | 5372/100000 [3:15:04<32:44:24,  1.25s/it]                                                            5%|▌         | 5372/100000 [3:15:04<32:44:24,  1.25s/it]  5%|▌         | 5373/100000 [3:15:05<31:19:16,  1.19s/it]                                                            5%|▌         | 5373/100000 [3:15:05<31:19:16,  1.19s/it]  5%|▌         | 5374/100000 [3:15:06<30:07:15,  1.15s/it]                                                            5%|▌         | 5374/100000 [3:15:06<30:07:15,  1.15s/it]  5%|▌         | 5375/100000 [3:15:07<28:48:08,  1.10s/it]                                                            5%|▌         | 5375/100000 [3:15:07<28:48:08,  1.10s/it]  5%|▌         | 5376/100000 [3:15:08<27:48:23,  1.06s/it]                                                            5%|▌         | 5376/100000 [3:15:08<27:48:23,  1.06s/it]  5%|▌         | 5377/100000 [3:15:09<26:56:02,  1.02s/it]                                                            5%|▌         | 5377/100000 [3:15:09<26:56:02,  1.02s/it]  5%|▌         | 5378/100000 [3:15:10<25:59:14,  1.01it/s]                                                            5%|▌         | 5378/100000 [3:15:10<25:59:14,  1.01it/s]  5%|▌         | 5379/100000 [3:15:10<25:04:10,  1.05it/s]                                                            5%|▌         | 5379/100000 [3:15:10<25:04:10,  1.05it/s]  5%|▌         | 5380/100000 [3:15:11<24:32:49,  1.07it/s]                                                            5%|▌         | 5380/100000 [3:15:11<24:32:49,  1.07it/s]  5%|▌         | 5381/100000 [3:15:12<24:02:44,  1.09it/s]                                                            5%|▌         | 5381/100000 [3:15:12<24:02:44,  1.09it/s]  5%|▌         | 5382/100000 [3:15:13<23:12:34,  1.13it/s]                                                            5%|▌         | 5382/100000 [3:15:13<23:12:34,  1.13it/s]  5%|▌         | 5383/100000 [3:15:14<22:36:45,  1.16it/s]                                                            5%|▌         | 5383/100000 [3:15:14<22:36:45,  1.16it/s]  5%|▌         | 5384/100000 [3:15:15<21:56:55,  1.20it/s]                                                            5%|▌         | 5384/100000 [3:15:15<21:56:55,  1.20it/s]  5%|▌         | 5385/100000 [3:15:15<21:21:37,  1.23it/s]                                                            5%|▌         | 5385/100000 [3:15:15<21:21:37,  1.23it/s]  5%|▌         | 5386/100000 [3:15:16<20:58:43,  1.25it/s]                                                            5%|▌         | 5386/100000 [3:15:16<20:58:43,  1.25it/s]  5%|▌         | 5387/100000 [3:15:17<20:11:50,  1.30it/s]                                                            5%|▌         | 5387/100000 [3:15:17<20:11:50,  1.30it/s]  5%|▌         | 5388/100000 [3:15:18<20:06:58,  1.31it/s]                                                            5%|▌         | 5388/100000 [3:15:18<20:06:58,  1.31it/s]  5%|▌         | 5389/100000 [3:15:25<69:37:03,  2.65s/it]                                                            5%|▌         | 5389/100000 [3:15:25<69:37:03,  2.65s/it]  5%|▌         | 5390/100000 [3:15:26<59:29:27,  2.26s/it]                                                            5%|▌         | 5390/100000 [3:15:26<59:29:27,  2.26s/it]{'loss': 0.092, 'grad_norm': 1.3700015544891357, 'learning_rate': 1.5948e-05, 'epoch': 34.55}
{'loss': 0.088, 'grad_norm': 0.949514627456665, 'learning_rate': 1.5951e-05, 'epoch': 34.55}
{'loss': 0.0825, 'grad_norm': 0.6118194460868835, 'learning_rate': 1.5954000000000003e-05, 'epoch': 34.56}
{'loss': 0.0562, 'grad_norm': 0.7544664144515991, 'learning_rate': 1.5957000000000003e-05, 'epoch': 34.56}
{'loss': 0.0716, 'grad_norm': 0.7492053508758545, 'learning_rate': 1.596e-05, 'epoch': 34.57}
{'loss': 0.0728, 'grad_norm': 0.8898014426231384, 'learning_rate': 1.5963e-05, 'epoch': 34.58}
{'loss': 0.0488, 'grad_norm': 0.6283159255981445, 'learning_rate': 1.5966e-05, 'epoch': 34.58}
{'loss': 0.044, 'grad_norm': 0.9239694476127625, 'learning_rate': 1.5969e-05, 'epoch': 34.59}
{'loss': 0.0421, 'grad_norm': 0.7046608328819275, 'learning_rate': 1.5972e-05, 'epoch': 34.6}
{'loss': 0.0452, 'grad_norm': 0.7038847208023071, 'learning_rate': 1.5975e-05, 'epoch': 34.6}
{'loss': 0.0439, 'grad_norm': 0.9329318404197693, 'learning_rate': 1.5978e-05, 'epoch': 34.61}
{'loss': 0.0604, 'grad_norm': 1.170060396194458, 'learning_rate': 1.5980999999999998e-05, 'epoch': 34.62}
{'loss': 0.0512, 'grad_norm': 0.9652862548828125, 'learning_rate': 1.5984e-05, 'epoch': 34.62}
{'loss': 0.0335, 'grad_norm': 1.0544099807739258, 'learning_rate': 1.5987e-05, 'epoch': 34.63}
{'loss': 0.0343, 'grad_norm': 1.0278785228729248, 'learning_rate': 1.599e-05, 'epoch': 34.64}
{'loss': 0.0387, 'grad_norm': 0.8040785193443298, 'learning_rate': 1.5993e-05, 'epoch': 34.64}
{'loss': 0.0374, 'grad_norm': 1.1678128242492676, 'learning_rate': 1.5996e-05, 'epoch': 34.65}
{'loss': 0.0415, 'grad_norm': 0.9784690737724304, 'learning_rate': 1.5999e-05, 'epoch': 34.66}
{'loss': 0.0299, 'grad_norm': 1.0254026651382446, 'learning_rate': 1.6002e-05, 'epoch': 34.66}
{'loss': 0.0791, 'grad_norm': 1.3267765045166016, 'learning_rate': 1.6005e-05, 'epoch': 34.67}
{'loss': 0.0332, 'grad_norm': 0.8249589204788208, 'learning_rate': 1.6008e-05, 'epoch': 34.68}
{'loss': 0.034, 'grad_norm': 1.984235167503357, 'learning_rate': 1.6011e-05, 'epoch': 34.68}
{'loss': 0.0223, 'grad_norm': 1.0542914867401123, 'learning_rate': 1.6014000000000003e-05, 'epoch': 34.69}
{'loss': 0.0378, 'grad_norm': 1.4759159088134766, 'learning_rate': 1.6017000000000003e-05, 'epoch': 34.69}
{'loss': 0.0294, 'grad_norm': 1.055845022201538, 'learning_rate': 1.6020000000000002e-05, 'epoch': 34.7}
{'loss': 0.0619, 'grad_norm': 1.8337550163269043, 'learning_rate': 1.6023000000000002e-05, 'epoch': 34.71}
{'loss': 0.0265, 'grad_norm': 1.169260859489441, 'learning_rate': 1.6026000000000002e-05, 'epoch': 34.71}
{'loss': 0.0478, 'grad_norm': 2.1642065048217773, 'learning_rate': 1.6029000000000002e-05, 'epoch': 34.72}
{'loss': 0.0312, 'grad_norm': 1.448804259300232, 'learning_rate': 1.6032e-05, 'epoch': 34.73}
{'loss': 0.0339, 'grad_norm': 1.8333417177200317, 'learning_rate': 1.6034999999999998e-05, 'epoch': 34.73}
{'loss': 0.0846, 'grad_norm': 2.2290170192718506, 'learning_rate': 1.6037999999999998e-05, 'epoch': 34.74}
{'loss': 0.2131, 'grad_norm': 1.4850062131881714, 'learning_rate': 1.6040999999999998e-05, 'epoch': 34.75}
{'loss': 0.1654, 'grad_norm': 0.9001623392105103, 'learning_rate': 1.6044e-05, 'epoch': 34.75}
{'loss': 0.1573, 'grad_norm': 0.7455754280090332, 'learning_rate': 1.6047e-05, 'epoch': 34.76}
{'loss': 0.1131, 'grad_norm': 0.6602984070777893, 'learning_rate': 1.605e-05, 'epoch': 34.77}
{'loss': 0.1349, 'grad_norm': 0.9257817268371582, 'learning_rate': 1.6053e-05, 'epoch': 34.77}
{'loss': 0.0882, 'grad_norm': 0.7120020985603333, 'learning_rate': 1.6056e-05, 'epoch': 34.78}
{'loss': 0.0968, 'grad_norm': 0.9859920144081116, 'learning_rate': 1.6059e-05, 'epoch': 34.79}
{'loss': 0.0944, 'grad_norm': 0.7607647180557251, 'learning_rate': 1.6062e-05, 'epoch': 34.79}
{'loss': 0.0713, 'grad_norm': 1.2746953964233398, 'learning_rate': 1.6065e-05, 'epoch': 34.8}
{'loss': 0.0846, 'grad_norm': 0.9481309652328491, 'learning_rate': 1.6068e-05, 'epoch': 34.81}
{'loss': 0.0779, 'grad_norm': 0.839719831943512, 'learning_rate': 1.6071e-05, 'epoch': 34.81}
{'loss': 0.058, 'grad_norm': 0.7360739707946777, 'learning_rate': 1.6074000000000002e-05, 'epoch': 34.82}
{'loss': 0.0742, 'grad_norm': 1.035368800163269, 'learning_rate': 1.6077000000000002e-05, 'epoch': 34.82}
{'loss': 0.0566, 'grad_norm': 0.6712138056755066, 'learning_rate': 1.6080000000000002e-05, 'epoch': 34.83}
{'loss': 0.0502, 'grad_norm': 0.6248607635498047, 'learning_rate': 1.6083000000000002e-05, 'epoch': 34.84}
{'loss': 0.0507, 'grad_norm': 0.8740768432617188, 'learning_rate': 1.6086e-05, 'epoch': 34.84}
{'loss': 0.0719, 'grad_norm': 0.9570551514625549, 'learning_rate': 1.6089e-05, 'epoch': 34.85}
{'loss': 0.0576, 'grad_norm': 1.1687686443328857, 'learning_rate': 1.6092e-05, 'epoch': 34.86}
{'loss': 0.0508, 'grad_norm': 0.7776139378547668, 'learning_rate': 1.6095e-05, 'epoch': 34.86}
{'loss': 0.0491, 'grad_norm': 0.687975287437439, 'learning_rate': 1.6098e-05, 'epoch': 34.87}
{'loss': 0.0405, 'grad_norm': 0.5399781465530396, 'learning_rate': 1.6101e-05, 'epoch': 34.88}
{'loss': 0.0635, 'grad_norm': 0.9008913040161133, 'learning_rate': 1.6104000000000004e-05, 'epoch': 34.88}
{'loss': 0.0344, 'grad_norm': 0.6796814203262329, 'learning_rate': 1.6107e-05, 'epoch': 34.89}
{'loss': 0.0392, 'grad_norm': 0.8441262245178223, 'learning_rate': 1.611e-05, 'epoch': 34.9}
{'loss': 0.0703, 'grad_norm': 1.0175126791000366, 'learning_rate': 1.6113e-05, 'epoch': 34.9}
{'loss': 0.0265, 'grad_norm': 0.6964982151985168, 'learning_rate': 1.6116e-05, 'epoch': 34.91}
{'loss': 0.0373, 'grad_norm': 0.8952733278274536, 'learning_rate': 1.6119e-05, 'epoch': 34.92}
{'loss': 0.0361, 'grad_norm': 1.6623643636703491, 'learning_rate': 1.6122e-05, 'epoch': 34.92}
{'loss': 0.1421, 'grad_norm': 1.968039631843567, 'learning_rate': 1.6125e-05, 'epoch': 34.93}
{'loss': 0.02, 'grad_norm': 0.626754879951477, 'learning_rate': 1.6128e-05, 'epoch': 34.94}
{'loss': 0.0443, 'grad_norm': 1.1688218116760254, 'learning_rate': 1.6131e-05, 'epoch': 34.94}
{'loss': 0.0763, 'grad_norm': 1.0611463785171509, 'learning_rate': 1.6134e-05, 'epoch': 34.95}
{'loss': 0.0195, 'grad_norm': 0.926195502281189, 'learning_rate': 1.6137e-05, 'epoch': 34.95}
{'loss': 0.0688, 'grad_norm': 3.4876179695129395, 'learning_rate': 1.614e-05, 'epoch': 34.96}
{'loss': 0.0313, 'grad_norm': 1.2770382165908813, 'learning_rate': 1.6143e-05, 'epoch': 34.97}
{'loss': 0.0429, 'grad_norm': 1.334099292755127, 'learning_rate': 1.6146e-05, 'epoch': 34.97}
{'loss': 0.0727, 'grad_norm': 3.9726507663726807, 'learning_rate': 1.6149e-05, 'epoch': 34.98}
{'loss': 0.0482, 'grad_norm': 2.6107916831970215, 'learning_rate': 1.6152e-05, 'epoch': 34.99}
{'loss': 0.0896, 'grad_norm': 0.9771506786346436, 'learning_rate': 1.6155e-05, 'epoch': 34.99}
{'loss': 0.0348, 'grad_norm': 1.3586024045944214, 'learning_rate': 1.6158e-05, 'epoch': 35.0}
  5%|▌         | 5391/100000 [3:15:44<182:29:09,  6.94s/it]                                                             5%|▌         | 5391/100000 [3:15:44<182:29:09,  6.94s/it]  5%|▌         | 5392/100000 [3:15:52<190:01:13,  7.23s/it]                                                             5%|▌         | 5392/100000 [3:15:52<190:01:13,  7.23s/it]  5%|▌         | 5393/100000 [3:15:57<174:46:43,  6.65s/it]                                                             5%|▌         | 5393/100000 [3:15:57<174:46:43,  6.65s/it]  5%|▌         | 5394/100000 [3:16:02<159:39:07,  6.08s/it]                                                             5%|▌         | 5394/100000 [3:16:02<159:39:07,  6.08s/it]  5%|▌         | 5395/100000 [3:16:06<141:56:37,  5.40s/it]                                                             5%|▌         | 5395/100000 [3:16:06<141:56:37,  5.40s/it]  5%|▌         | 5396/100000 [3:16:09<124:49:51,  4.75s/it]                                                             5%|▌         | 5396/100000 [3:16:09<124:49:51,  4.75s/it]  5%|▌         | 5397/100000 [3:16:12<111:05:47,  4.23s/it]                                                             5%|▌         | 5397/100000 [3:16:12<111:05:47,  4.23s/it]  5%|▌         | 5398/100000 [3:16:14<98:34:01,  3.75s/it]                                                             5%|▌         | 5398/100000 [3:16:14<98:34:01,  3.75s/it]  5%|▌         | 5399/100000 [3:16:17<86:54:24,  3.31s/it]                                                            5%|▌         | 5399/100000 [3:16:17<86:54:24,  3.31s/it]  5%|▌         | 5400/100000 [3:16:19<76:49:48,  2.92s/it]                                                            5%|▌         | 5400/100000 [3:16:19<76:49:48,  2.92s/it]  5%|▌         | 5401/100000 [3:16:21<68:58:54,  2.63s/it]                                                            5%|▌         | 5401/100000 [3:16:21<68:58:54,  2.63s/it]  5%|▌         | 5402/100000 [3:16:22<62:37:38,  2.38s/it]                                                            5%|▌         | 5402/100000 [3:16:22<62:37:38,  2.38s/it]  5%|▌         | 5403/100000 [3:16:24<57:12:27,  2.18s/it]                                                            5%|▌         | 5403/100000 [3:16:24<57:12:27,  2.18s/it]  5%|▌         | 5404/100000 [3:16:26<52:55:45,  2.01s/it]                                                            5%|▌         | 5404/100000 [3:16:26<52:55:45,  2.01s/it]  5%|▌         | 5405/100000 [3:16:27<49:26:53,  1.88s/it]                                                            5%|▌         | 5405/100000 [3:16:27<49:26:53,  1.88s/it]  5%|▌         | 5406/100000 [3:16:29<45:46:07,  1.74s/it]                                                            5%|▌         | 5406/100000 [3:16:29<45:46:07,  1.74s/it]  5%|▌         | 5407/100000 [3:16:30<42:44:58,  1.63s/it]                                                            5%|▌         | 5407/100000 [3:16:30<42:44:58,  1.63s/it]  5%|▌         | 5408/100000 [3:16:31<40:21:02,  1.54s/it]                                                            5%|▌         | 5408/100000 [3:16:31<40:21:02,  1.54s/it]  5%|▌         | 5409/100000 [3:16:33<37:57:55,  1.44s/it]                                                            5%|▌         | 5409/100000 [3:16:33<37:57:55,  1.44s/it]  5%|▌         | 5410/100000 [3:16:34<35:57:43,  1.37s/it]                                                            5%|▌         | 5410/100000 [3:16:34<35:57:43,  1.37s/it]  5%|▌         | 5411/100000 [3:16:35<33:56:00,  1.29s/it]                                                            5%|▌         | 5411/100000 [3:16:35<33:56:00,  1.29s/it]  5%|▌         | 5412/100000 [3:16:36<32:20:09,  1.23s/it]                                                            5%|▌         | 5412/100000 [3:16:36<32:20:09,  1.23s/it]  5%|▌         | 5413/100000 [3:16:37<30:50:07,  1.17s/it]                                                            5%|▌         | 5413/100000 [3:16:37<30:50:07,  1.17s/it]  5%|▌         | 5414/100000 [3:16:38<29:34:50,  1.13s/it]                                                            5%|▌         | 5414/100000 [3:16:38<29:34:50,  1.13s/it]  5%|▌         | 5415/100000 [3:16:39<28:27:04,  1.08s/it]                                                            5%|▌         | 5415/100000 [3:16:39<28:27:04,  1.08s/it]  5%|▌         | 5416/100000 [3:16:40<27:31:12,  1.05s/it]                                                            5%|▌         | 5416/100000 [3:16:40<27:31:12,  1.05s/it]  5%|▌         | 5417/100000 [3:16:41<26:26:59,  1.01s/it]                                                            5%|▌         | 5417/100000 [3:16:41<26:26:59,  1.01s/it]  5%|▌         | 5418/100000 [3:16:42<25:17:11,  1.04it/s]                                                            5%|▌         | 5418/100000 [3:16:42<25:17:11,  1.04it/s]  5%|▌         | 5419/100000 [3:16:43<23:54:18,  1.10it/s]                                                            5%|▌         | 5419/100000 [3:16:43<23:54:18,  1.10it/s]  5%|▌         | 5420/100000 [3:16:44<23:55:01,  1.10it/s]                                                            5%|▌         | 5420/100000 [3:16:44<23:55:01,  1.10it/s]  5%|▌         | 5421/100000 [3:16:44<23:03:17,  1.14it/s]                                                            5%|▌         | 5421/100000 [3:16:44<23:03:17,  1.14it/s]  5%|▌         | 5422/100000 [3:16:45<22:08:31,  1.19it/s]                                                            5%|▌         | 5422/100000 [3:16:45<22:08:31,  1.19it/s]  5%|▌         | 5423/100000 [3:16:46<20:56:50,  1.25it/s]                                                            5%|▌         | 5423/100000 [3:16:46<20:56:50,  1.25it/s]  5%|▌         | 5424/100000 [3:16:47<20:38:23,  1.27it/s]                                                            5%|▌         | 5424/100000 [3:16:47<20:38:23,  1.27it/s]  5%|▌         | 5425/100000 [3:16:47<20:11:08,  1.30it/s]                                                            5%|▌         | 5425/100000 [3:16:47<20:11:08,  1.30it/s]  5%|▌         | 5426/100000 [3:16:48<19:31:37,  1.35it/s]                                                            5%|▌         | 5426/100000 [3:16:48<19:31:37,  1.35it/s]  5%|▌         | 5427/100000 [3:16:49<18:54:43,  1.39it/s]                                                            5%|▌         | 5427/100000 [3:16:49<18:54:43,  1.39it/s]  5%|▌         | 5428/100000 [3:16:49<18:17:12,  1.44it/s]                                                            5%|▌         | 5428/100000 [3:16:49<18:17:12,  1.44it/s]  5%|▌         | 5429/100000 [3:17:01<106:41:38,  4.06s/it]                                                             5%|▌         | 5429/100000 [3:17:01<106:41:38,  4.06s/it]  5%|▌         | 5430/100000 [3:17:08<131:27:50,  5.00s/it]                                                             5%|▌         | 5430/100000 [3:17:08<131:27:50,  5.00s/it]  5%|▌         | 5431/100000 [3:17:14<134:52:27,  5.13s/it]                                                             5%|▌         | 5431/100000 [3:17:14<134:52:27,  5.13s/it]  5%|▌         | 5432/100000 [3:17:18<130:27:36,  4.97s/it]                                                             5%|▌         | 5432/100000 [3:17:18<130:27:36,  4.97s/it]  5%|▌         | 5433/100000 [3:17:23<123:23:00,  4.70s/it]                                                             5%|▌         | 5433/100000 [3:17:23<123:23:00,  4.70s/it]  5%|▌         | 5434/100000 [3:17:26<113:43:44,  4.33s/it]                                                             5%|▌         | 5434/100000 [3:17:26<113:43:44,  4.33s/it]  5%|▌         | 5435/100000 [3:17:29<104:01:45,  3.96s/it]                                                             5%|▌         | 5435/100000 [3:17:29<104:01:45,  3.96s/it]  5%|▌         | 5436/100000 [3:17:32<93:46:09,  3.57s/it]                                                             5%|▌         | 5436/100000 [3:17:32<93:46:09,  3.57s/it]  5%|▌         | 5437/100000 [3:17:34<84:07:49,  3.20s/it]                                                            5%|▌         | 5437/100000 [3:17:34<84:07:49,  3.20s/it]  5%|▌         | 5438/100000 [3:17:36<75:59:46,  2.89s/it]                                                            5%|▌         | 5438/100000 [3:17:36<75:59:46,  2.89s/it]  5%|▌         | 5439/100000 [3:17:38<68:45:39,  2.62s/it]                                                            5%|▌         | 5439/100000 [3:17:38<68:45:39,  2.62s/it]  5%|▌         | 5440/100000 [3:17:40<62:41:50,  2.39s/it]                                                            5%|▌         | 5440/100000 [3:17:40<62:41:50,  2.39s/it]  5%|▌         | 5441/100000 [3:17:42<56:57:33,  2.17s/it]                                                            5%|▌         | 5441/100000 [3:17:42<56:57:33,  2.17s/it]  5%|▌         | 5442/100000 [3:17:43<52:35:16,  2.00s/it]                                                            5%|▌         | 5442/100000 [3:17:43<52:35:16,  2.00s/it]  5%|▌         | 5443/100000 [3:17:45<49:10:23,  1.87s/it]                                                            5%|▌         | 5443/100000 [3:17:45<49:10:23,  1.87s/it]  5%|▌         | 5444/100000 [3:17:46<45:36:23,  1.74s/it]                                                            5%|▌         | 5444/100000 [3:17:46<45:36:23,  1.74s/it]  5%|▌         | 5445/100000 [3:17:48<43:09:19,  1.64s/it]                                                            5%|▌         | 5445/100000 [3:17:48<43:09:19,  1.64s/it]  5%|▌         | 5446/100000 [3:17:49<40:32:24,  1.54s/it]                                                            5%|▌         | 5446/100000 [3:17:49<40:32:24,  1.54s/it]  5%|▌         | 5447/100000 [3:17:50<38:36:26,  1.47s/it]                                                            5%|▌         | 5447/100000 [3:17:50<38:36:26,  1.47s/it]  5%|▌         | 5448/100000 [3:17:52<37:02:22,  1.41s/it]                                                            5%|▌         | 5448/100000 [3:17:52<37:02:22,  1.41s/it]  5%|▌         | 5449/100000 [3:17:53<35:03:28,  1.33s/it]                                                            5%|▌         | 5449/100000 [3:17:53<35:03:28,  1.33s/it]  5%|▌         | 5450/100000 [3:17:54<33:14:56,  1.27s/it]                                                            5%|▌         | 5450/100000 [3:17:54<33:14:56,  1.27s/it]  5%|▌         | 5451/100000 [3:17:55<31:42:49,  1.21s/it]                                                            5%|▌         | 5451/100000 [3:17:55<31:42:49,  1.21s/it]  5%|▌         | 5452/100000 [3:17:56<30:03:24,  1.14s/it]                                                            5%|▌         | 5452/100000 [3:17:56<30:03:24,  1.14s/it]  5%|▌         | 5453/100000 [3:17:57<28:33:04,  1.09s/it]                                                            5%|▌         | 5453/100000 [3:17:57<28:33:04,  1.09s/it]  5%|▌         | 5454/100000 [3:17:58<27:24:35,  1.04s/it]                                                            5%|▌         | 5454/100000 [3:17:58<27:24:35,  1.04s/it]  5%|▌         | 5455/100000 [3:17:59<26:12:45,  1.00it/s]                                                            5%|▌         | 5455/100000 [3:17:59<26:12:45,  1.00it/s]  5%|▌         | 5456/100000 [3:18:00<25:37:38,  1.02it/s]                                                            5%|▌         | 5456/100000 [3:18:00<25:37:38,  1.02it/s]  5%|▌         | 5457/100000 [3:18:01<24:43:38,  1.06it/s]                                                            5%|▌         | 5457/100000 [3:18:01<24:43:38,  1.06it/s]  5%|▌         | 5458/100000 [3:18:01<24:02:20,  1.09it/s]                                                            5%|▌         | 5458/100000 [3:18:01<24:02:20,  1.09it/s]  5%|▌         | 5459/100000 [3:18:02<23:17:59,  1.13it/s]                                                            5%|▌         | 5459/100000 [3:18:02<23:17:59,  1.13it/s]  5%|▌         | 5460/100000 [3:18:03<22:26:36,  1.17it/s]                                                            5%|▌         | 5460/100000 [3:18:03<22:26:36,  1.17it/s]  5%|▌         | 5461/100000 [3:18:04<21:44:24,  1.21it/s]                                                            5%|▌         | 5461/100000 [3:18:04<21:44:24,  1.21it/s]  5%|▌         | 5462/100000 [3:18:04<20:43:25,  1.27it/s]                                                            5%|▌         | 5462/100000 [3:18:04<20:43:25,  1.27it/s]  5%|▌         | 5463/100000 [3:18:05<20:13:36,  1.30it/s]                                                            5%|▌         | 5463/100000 [3:18:05<20:13:36,  1.30it/s]  5%|▌         | 5464/100000 [3:18:06<19:30:40,  1.35it/s]                                                            5%|▌         | 5464/100000 [3:18:06<19:30:40,  1.35it/s]  5%|▌         | 5465/100000 [3:18:06<18:37:12,  1.41it/s]                                                            5%|▌         | 5465/100000 [3:18:07<18:37:12,  1.41it/s]  5%|▌         | 5466/100000 [3:18:07<17:40:17,  1.49it/s]                                                            5%|▌         | 5466/100000 [3:18:07<17:40:17,  1.49it/s]  5%|▌         | 5467/100000 [3:18:19<105:31:40,  4.02s/it]                                                             5%|▌         | 5467/100000 [3:18:19<105:31:40,  4.02s/it]  5%|▌         | 5468/100000 [3:18:27<140:05:14,  5.33s/it]                                                             5%|▌         | 5468/100000 [3:18:27<140:05:14,  5.33s/it]  5%|▌         | 5469/100000 [3:18:33<143:39:47,  5.47s/it]                                                             5%|▌         | 5469/100000 [3:18:33<143:39:47,  5.47s/it]  5%|▌         | 5470/100000 [3:18:38<138:03:10,  5.26s/it]                                                             5%|▌         | 5470/100000 [3:18:38<138:03:10,  5.26s/it]  5%|▌         | 5471/100000 [3:18:42<129:15:00,  4.92s/it]                                                             5%|▌         | 5471/100000 [3:18:42<129:15:00,  4.92s/it]  5%|▌         | 5472/100000 [3:18:45<117:07:52,  4.46s/it]                                                             5%|▌         | 5472/100000 [3:18:45<117:07:52,  4.46s/it]  5%|▌         | 5473/100000 [3:18:49<106:30:57,  4.06s/it]                                                             5%|▌         | 5473/100000 [3:18:49<106:30:57,  4.06s/it]  5%|▌         | 5474/100000 [3:18:51<96:18:44,  3.67s/it]                                                           {'loss': 0.1841, 'grad_norm': 1.0111569166183472, 'learning_rate': 1.6161e-05, 'epoch': 35.01}
{'loss': 0.1251, 'grad_norm': 0.7908366918563843, 'learning_rate': 1.6164e-05, 'epoch': 35.01}
{'loss': 0.1537, 'grad_norm': 0.635944664478302, 'learning_rate': 1.6167000000000003e-05, 'epoch': 35.02}
{'loss': 0.1324, 'grad_norm': 0.6945570707321167, 'learning_rate': 1.6170000000000003e-05, 'epoch': 35.03}
{'loss': 0.0889, 'grad_norm': 0.7069478631019592, 'learning_rate': 1.6173000000000003e-05, 'epoch': 35.03}
{'loss': 0.0796, 'grad_norm': 0.5475477576255798, 'learning_rate': 1.6176000000000002e-05, 'epoch': 35.04}
{'loss': 0.0804, 'grad_norm': 0.8836475014686584, 'learning_rate': 1.6179000000000002e-05, 'epoch': 35.05}
{'loss': 0.0787, 'grad_norm': 0.7574072480201721, 'learning_rate': 1.6182e-05, 'epoch': 35.05}
{'loss': 0.0811, 'grad_norm': 0.6840881705284119, 'learning_rate': 1.6185e-05, 'epoch': 35.06}
{'loss': 0.0538, 'grad_norm': 0.6670483946800232, 'learning_rate': 1.6187999999999998e-05, 'epoch': 35.06}
{'loss': 0.0792, 'grad_norm': 0.7306461334228516, 'learning_rate': 1.6190999999999998e-05, 'epoch': 35.07}
{'loss': 0.0623, 'grad_norm': 0.9384361505508423, 'learning_rate': 1.6193999999999998e-05, 'epoch': 35.08}
{'loss': 0.0538, 'grad_norm': 0.733826220035553, 'learning_rate': 1.6197e-05, 'epoch': 35.08}
{'loss': 0.0627, 'grad_norm': 0.8612247109413147, 'learning_rate': 1.62e-05, 'epoch': 35.09}
{'loss': 0.0492, 'grad_norm': 0.5418152809143066, 'learning_rate': 1.6203e-05, 'epoch': 35.1}
{'loss': 0.0479, 'grad_norm': 0.5810943841934204, 'learning_rate': 1.6206e-05, 'epoch': 35.1}
{'loss': 0.0445, 'grad_norm': 0.6866037845611572, 'learning_rate': 1.6209e-05, 'epoch': 35.11}
{'loss': 0.0462, 'grad_norm': 0.7978613972663879, 'learning_rate': 1.6212e-05, 'epoch': 35.12}
{'loss': 0.0543, 'grad_norm': 1.017016053199768, 'learning_rate': 1.6215e-05, 'epoch': 35.12}
{'loss': 0.0549, 'grad_norm': 1.0676792860031128, 'learning_rate': 1.6218e-05, 'epoch': 35.13}
{'loss': 0.0374, 'grad_norm': 0.8380295038223267, 'learning_rate': 1.6221e-05, 'epoch': 35.14}
{'loss': 0.0381, 'grad_norm': 1.5920549631118774, 'learning_rate': 1.6224e-05, 'epoch': 35.14}
{'loss': 0.045, 'grad_norm': 1.0648934841156006, 'learning_rate': 1.6227000000000002e-05, 'epoch': 35.15}
{'loss': 0.0713, 'grad_norm': 1.158806562423706, 'learning_rate': 1.6230000000000002e-05, 'epoch': 35.16}
{'loss': 0.0462, 'grad_norm': 1.1224292516708374, 'learning_rate': 1.6233000000000002e-05, 'epoch': 35.16}
{'loss': 0.0335, 'grad_norm': 0.7661073803901672, 'learning_rate': 1.6236000000000002e-05, 'epoch': 35.17}
{'loss': 0.0859, 'grad_norm': 1.939354419708252, 'learning_rate': 1.6239e-05, 'epoch': 35.18}
{'loss': 0.0409, 'grad_norm': 1.4141790866851807, 'learning_rate': 1.6242e-05, 'epoch': 35.18}
{'loss': 0.0445, 'grad_norm': 1.2554155588150024, 'learning_rate': 1.6245e-05, 'epoch': 35.19}
{'loss': 0.0264, 'grad_norm': 0.960681676864624, 'learning_rate': 1.6248e-05, 'epoch': 35.19}
{'loss': 0.0203, 'grad_norm': 0.7990043759346008, 'learning_rate': 1.6251e-05, 'epoch': 35.2}
{'loss': 0.0349, 'grad_norm': 1.040914535522461, 'learning_rate': 1.6253999999999997e-05, 'epoch': 35.21}
{'loss': 0.0344, 'grad_norm': 1.3167870044708252, 'learning_rate': 1.6257e-05, 'epoch': 35.21}
{'loss': 0.029, 'grad_norm': 2.2867419719696045, 'learning_rate': 1.626e-05, 'epoch': 35.22}
{'loss': 0.0252, 'grad_norm': 0.9730902910232544, 'learning_rate': 1.6263e-05, 'epoch': 35.23}
{'loss': 0.0152, 'grad_norm': 0.8294404149055481, 'learning_rate': 1.6266e-05, 'epoch': 35.23}
{'loss': 0.0244, 'grad_norm': 0.8464316129684448, 'learning_rate': 1.6269e-05, 'epoch': 35.24}
{'loss': 0.0883, 'grad_norm': 1.1113840341567993, 'learning_rate': 1.6272e-05, 'epoch': 35.25}
{'loss': 0.2415, 'grad_norm': 1.4220746755599976, 'learning_rate': 1.6275e-05, 'epoch': 35.25}
{'loss': 0.1475, 'grad_norm': 0.919415295124054, 'learning_rate': 1.6278e-05, 'epoch': 35.26}
{'loss': 0.1197, 'grad_norm': 0.7422602772712708, 'learning_rate': 1.6281e-05, 'epoch': 35.27}
{'loss': 0.1045, 'grad_norm': 0.6162002086639404, 'learning_rate': 1.6284e-05, 'epoch': 35.27}
{'loss': 0.1063, 'grad_norm': 0.8349243402481079, 'learning_rate': 1.6287000000000002e-05, 'epoch': 35.28}
{'loss': 0.0981, 'grad_norm': 1.1212027072906494, 'learning_rate': 1.629e-05, 'epoch': 35.29}
{'loss': 0.0898, 'grad_norm': 0.711004376411438, 'learning_rate': 1.6293e-05, 'epoch': 35.29}
{'loss': 0.0823, 'grad_norm': 0.6167694926261902, 'learning_rate': 1.6296e-05, 'epoch': 35.3}
{'loss': 0.0799, 'grad_norm': 0.9510167241096497, 'learning_rate': 1.6299e-05, 'epoch': 35.31}
{'loss': 0.074, 'grad_norm': 1.6946333646774292, 'learning_rate': 1.6302e-05, 'epoch': 35.31}
{'loss': 0.0718, 'grad_norm': 0.8208367228507996, 'learning_rate': 1.6305e-05, 'epoch': 35.32}
{'loss': 0.0564, 'grad_norm': 0.6322821378707886, 'learning_rate': 1.6308e-05, 'epoch': 35.32}
{'loss': 0.0601, 'grad_norm': 0.7694088816642761, 'learning_rate': 1.6311e-05, 'epoch': 35.33}
{'loss': 0.0548, 'grad_norm': 1.0116097927093506, 'learning_rate': 1.6314e-05, 'epoch': 35.34}
{'loss': 0.052, 'grad_norm': 0.8318193554878235, 'learning_rate': 1.6317000000000003e-05, 'epoch': 35.34}
{'loss': 0.044, 'grad_norm': 0.6784781813621521, 'learning_rate': 1.6320000000000003e-05, 'epoch': 35.35}
{'loss': 0.0575, 'grad_norm': 0.8903945684432983, 'learning_rate': 1.6323000000000003e-05, 'epoch': 35.36}
{'loss': 0.0463, 'grad_norm': 0.7892940044403076, 'learning_rate': 1.6326000000000003e-05, 'epoch': 35.36}
{'loss': 0.0477, 'grad_norm': 0.6819648742675781, 'learning_rate': 1.6329e-05, 'epoch': 35.37}
{'loss': 0.0317, 'grad_norm': 0.6901054978370667, 'learning_rate': 1.6332e-05, 'epoch': 35.38}
{'loss': 0.0367, 'grad_norm': 0.8064695000648499, 'learning_rate': 1.6335e-05, 'epoch': 35.38}
{'loss': 0.035, 'grad_norm': 0.6764047741889954, 'learning_rate': 1.6338e-05, 'epoch': 35.39}
{'loss': 0.0451, 'grad_norm': 0.9102991223335266, 'learning_rate': 1.6340999999999998e-05, 'epoch': 35.4}
{'loss': 0.0472, 'grad_norm': 0.996138870716095, 'learning_rate': 1.6343999999999998e-05, 'epoch': 35.4}
{'loss': 0.0546, 'grad_norm': 1.1133770942687988, 'learning_rate': 1.6347e-05, 'epoch': 35.41}
{'loss': 0.0282, 'grad_norm': 1.161150574684143, 'learning_rate': 1.635e-05, 'epoch': 35.42}
{'loss': 0.0383, 'grad_norm': 3.252140998840332, 'learning_rate': 1.6353e-05, 'epoch': 35.42}
{'loss': 0.1013, 'grad_norm': 1.8044809103012085, 'learning_rate': 1.6356e-05, 'epoch': 35.43}
{'loss': 0.035, 'grad_norm': 1.4054757356643677, 'learning_rate': 1.6359e-05, 'epoch': 35.44}
{'loss': 0.028, 'grad_norm': 1.2343709468841553, 'learning_rate': 1.6362e-05, 'epoch': 35.44}
{'loss': 0.0284, 'grad_norm': 1.5336774587631226, 'learning_rate': 1.6365e-05, 'epoch': 35.45}
{'loss': 0.0238, 'grad_norm': 1.4333041906356812, 'learning_rate': 1.6368e-05, 'epoch': 35.45}
{'loss': 0.0274, 'grad_norm': 1.9963505268096924, 'learning_rate': 1.6371e-05, 'epoch': 35.46}
{'loss': 0.0207, 'grad_norm': 0.877492368221283, 'learning_rate': 1.6374e-05, 'epoch': 35.47}
{'loss': 0.0466, 'grad_norm': 3.4499645233154297, 'learning_rate': 1.6377000000000003e-05, 'epoch': 35.47}
{'loss': 0.0777, 'grad_norm': 2.704984426498413, 'learning_rate': 1.6380000000000002e-05, 'epoch': 35.48}
{'loss': 0.0363, 'grad_norm': 1.7850255966186523, 'learning_rate': 1.6383000000000002e-05, 'epoch': 35.49}
{'loss': 0.0341, 'grad_norm': 1.0902245044708252, 'learning_rate': 1.6386000000000002e-05, 'epoch': 35.49}
{'loss': 0.2061, 'grad_norm': 1.1518232822418213, 'learning_rate': 1.6389000000000002e-05, 'epoch': 35.5}
{'loss': 0.153, 'grad_norm': 0.8065178990364075, 'learning_rate': 1.6392e-05, 'epoch': 35.51}
{'loss': 0.1151, 'grad_norm': 0.7263288497924805, 'learning_rate': 1.6395e-05, 'epoch': 35.51}
{'loss': 0.1143, 'grad_norm': 0.8279619216918945, 'learning_rate': 1.6398e-05, 'epoch': 35.52}
{'loss': 0.0861, 'grad_norm': 0.7627319693565369, 'learning_rate': 1.6400999999999998e-05, 'epoch': 35.53}
{'loss': 0.0801, 'grad_norm': 0.5543253421783447, 'learning_rate': 1.6403999999999997e-05, 'epoch': 35.53}
{'loss': 0.0815, 'grad_norm': 0.5292409658432007, 'learning_rate': 1.6407e-05, 'epoch': 35.54}
  5%|▌         | 5474/100000 [3:18:51<96:18:44,  3.67s/it]  5%|▌         | 5475/100000 [3:18:54<86:19:53,  3.29s/it]                                                            5%|▌         | 5475/100000 [3:18:54<86:19:53,  3.29s/it]  5%|▌         | 5476/100000 [3:18:56<77:48:50,  2.96s/it]                                                            5%|▌         | 5476/100000 [3:18:56<77:48:50,  2.96s/it]  5%|▌         | 5477/100000 [3:18:58<70:49:37,  2.70s/it]                                                            5%|▌         | 5477/100000 [3:18:58<70:49:37,  2.70s/it]  5%|▌         | 5478/100000 [3:19:00<64:36:01,  2.46s/it]                                                            5%|▌         | 5478/100000 [3:19:00<64:36:01,  2.46s/it]  5%|▌         | 5479/100000 [3:19:02<59:16:30,  2.26s/it]                                                            5%|▌         | 5479/100000 [3:19:02<59:16:30,  2.26s/it]  5%|▌         | 5480/100000 [3:19:03<54:37:28,  2.08s/it]                                                            5%|▌         | 5480/100000 [3:19:03<54:37:28,  2.08s/it]  5%|▌         | 5481/100000 [3:19:05<50:41:52,  1.93s/it]                                                            5%|▌         | 5481/100000 [3:19:05<50:41:52,  1.93s/it]  5%|▌         | 5482/100000 [3:19:06<47:31:55,  1.81s/it]                                                            5%|▌         | 5482/100000 [3:19:06<47:31:55,  1.81s/it]  5%|▌         | 5483/100000 [3:19:08<44:27:56,  1.69s/it]                                                            5%|▌         | 5483/100000 [3:19:08<44:27:56,  1.69s/it]  5%|▌         | 5484/100000 [3:19:09<41:39:01,  1.59s/it]                                                            5%|▌         | 5484/100000 [3:19:09<41:39:01,  1.59s/it]  5%|▌         | 5485/100000 [3:19:11<39:34:34,  1.51s/it]                                                            5%|▌         | 5485/100000 [3:19:11<39:34:34,  1.51s/it]  5%|▌         | 5486/100000 [3:19:12<37:41:30,  1.44s/it]                                                            5%|▌         | 5486/100000 [3:19:12<37:41:30,  1.44s/it]  5%|▌         | 5487/100000 [3:19:13<35:43:56,  1.36s/it]                                                            5%|▌         | 5487/100000 [3:19:13<35:43:56,  1.36s/it]  5%|▌         | 5488/100000 [3:19:14<33:48:21,  1.29s/it]                                                            5%|▌         | 5488/100000 [3:19:14<33:48:21,  1.29s/it]  5%|▌         | 5489/100000 [3:19:15<32:09:25,  1.22s/it]                                                            5%|▌         | 5489/100000 [3:19:15<32:09:25,  1.22s/it]  5%|▌         | 5490/100000 [3:19:16<30:51:39,  1.18s/it]                                                            5%|▌         | 5490/100000 [3:19:16<30:51:39,  1.18s/it]  5%|▌         | 5491/100000 [3:19:17<29:27:30,  1.12s/it]                                                            5%|▌         | 5491/100000 [3:19:17<29:27:30,  1.12s/it]  5%|▌         | 5492/100000 [3:19:18<28:00:41,  1.07s/it]                                                            5%|▌         | 5492/100000 [3:19:18<28:00:41,  1.07s/it]  5%|▌         | 5493/100000 [3:19:19<27:04:57,  1.03s/it]                                                            5%|▌         | 5493/100000 [3:19:19<27:04:57,  1.03s/it]  5%|▌         | 5494/100000 [3:19:20<25:57:47,  1.01it/s]                                                            5%|▌         | 5494/100000 [3:19:20<25:57:47,  1.01it/s]  5%|▌         | 5495/100000 [3:19:21<24:51:08,  1.06it/s]                                                            5%|▌         | 5495/100000 [3:19:21<24:51:08,  1.06it/s]  5%|▌         | 5496/100000 [3:19:22<23:53:17,  1.10it/s]                                                            5%|▌         | 5496/100000 [3:19:22<23:53:17,  1.10it/s]  5%|▌         | 5497/100000 [3:19:22<23:16:48,  1.13it/s]                                                            5%|▌         | 5497/100000 [3:19:23<23:16:48,  1.13it/s]  5%|▌         | 5498/100000 [3:19:23<22:38:46,  1.16it/s]                                                            5%|▌         | 5498/100000 [3:19:23<22:38:46,  1.16it/s]  5%|▌         | 5499/100000 [3:19:24<22:51:55,  1.15it/s]                                                            5%|▌         | 5499/100000 [3:19:24<22:51:55,  1.15it/s]  6%|▌         | 5500/100000 [3:19:25<21:50:30,  1.20it/s]                                                            6%|▌         | 5500/100000 [3:19:25<21:50:30,  1.20it/s]  6%|▌         | 5501/100000 [3:19:26<21:28:40,  1.22it/s]                                                            6%|▌         | 5501/100000 [3:19:26<21:28:40,  1.22it/s]  6%|▌         | 5502/100000 [3:19:26<20:41:08,  1.27it/s]                                                            6%|▌         | 5502/100000 [3:19:26<20:41:08,  1.27it/s]  6%|▌         | 5503/100000 [3:19:27<20:18:56,  1.29it/s]                                                            6%|▌         | 5503/100000 [3:19:27<20:18:56,  1.29it/s]  6%|▌         | 5504/100000 [3:19:28<19:31:53,  1.34it/s]                                                            6%|▌         | 5504/100000 [3:19:28<19:31:53,  1.34it/s]  6%|▌         | 5505/100000 [3:19:40<112:28:54,  4.29s/it]                                                             6%|▌         | 5505/100000 [3:19:40<112:28:54,  4.29s/it]  6%|▌         | 5506/100000 [3:19:48<138:05:24,  5.26s/it]                                                             6%|▌         | 5506/100000 [3:19:48<138:05:24,  5.26s/it]  6%|▌         | 5507/100000 [3:19:53<134:06:06,  5.11s/it]                                                             6%|▌         | 5507/100000 [3:19:53<134:06:06,  5.11s/it]  6%|▌         | 5508/100000 [3:19:57<129:36:00,  4.94s/it]                                                             6%|▌         | 5508/100000 [3:19:57<129:36:00,  4.94s/it]  6%|▌         | 5509/100000 [3:20:01<120:02:52,  4.57s/it]                                                             6%|▌         | 5509/100000 [3:20:01<120:02:52,  4.57s/it]  6%|▌         | 5510/100000 [3:20:04<111:06:12,  4.23s/it]                                                             6%|▌         | 5510/100000 [3:20:04<111:06:12,  4.23s/it]  6%|▌         | 5511/100000 [3:20:07<101:02:20,  3.85s/it]                                                             6%|▌         | 5511/100000 [3:20:07<101:02:20,  3.85s/it]  6%|▌         | 5512/100000 [3:20:10<91:08:43,  3.47s/it]                                                             6%|▌         | 5512/100000 [3:20:10<91:08:43,  3.47s/it]  6%|▌         | 5513/100000 [3:20:12<81:53:47,  3.12s/it]                                                            6%|▌         | 5513/100000 [3:20:12<81:53:47,  3.12s/it]  6%|▌         | 5514/100000 [3:20:14<73:42:26,  2.81s/it]                                                            6%|▌         | 5514/100000 [3:20:14<73:42:26,  2.81s/it]  6%|▌         | 5515/100000 [3:20:16<66:47:16,  2.54s/it]                                                            6%|▌         | 5515/100000 [3:20:16<66:47:16,  2.54s/it]  6%|▌         | 5516/100000 [3:20:18<61:05:50,  2.33s/it]                                                            6%|▌         | 5516/100000 [3:20:18<61:05:50,  2.33s/it]  6%|▌         | 5517/100000 [3:20:20<55:46:34,  2.13s/it]                                                            6%|▌         | 5517/100000 [3:20:20<55:46:34,  2.13s/it]  6%|▌         | 5518/100000 [3:20:21<51:45:06,  1.97s/it]                                                            6%|▌         | 5518/100000 [3:20:21<51:45:06,  1.97s/it]  6%|▌         | 5519/100000 [3:20:23<48:11:11,  1.84s/it]                                                            6%|▌         | 5519/100000 [3:20:23<48:11:11,  1.84s/it]  6%|▌         | 5520/100000 [3:20:24<44:53:13,  1.71s/it]                                                            6%|▌         | 5520/100000 [3:20:24<44:53:13,  1.71s/it]  6%|▌         | 5521/100000 [3:20:26<42:19:51,  1.61s/it]                                                            6%|▌         | 5521/100000 [3:20:26<42:19:51,  1.61s/it]  6%|▌         | 5522/100000 [3:20:27<39:49:18,  1.52s/it]                                                            6%|▌         | 5522/100000 [3:20:27<39:49:18,  1.52s/it]  6%|▌         | 5523/100000 [3:20:28<37:40:59,  1.44s/it]                                                            6%|▌         | 5523/100000 [3:20:28<37:40:59,  1.44s/it]  6%|▌         | 5524/100000 [3:20:29<35:51:24,  1.37s/it]                                                            6%|▌         | 5524/100000 [3:20:29<35:51:24,  1.37s/it]  6%|▌         | 5525/100000 [3:20:31<33:48:34,  1.29s/it]                                                            6%|▌         | 5525/100000 [3:20:31<33:48:34,  1.29s/it]  6%|▌         | 5526/100000 [3:20:32<32:26:37,  1.24s/it]                                                            6%|▌         | 5526/100000 [3:20:32<32:26:37,  1.24s/it]  6%|▌         | 5527/100000 [3:20:33<30:56:57,  1.18s/it]                                                            6%|▌         | 5527/100000 [3:20:33<30:56:57,  1.18s/it]  6%|▌         | 5528/100000 [3:20:34<29:17:37,  1.12s/it]                                                            6%|▌         | 5528/100000 [3:20:34<29:17:37,  1.12s/it]  6%|▌         | 5529/100000 [3:20:35<27:40:26,  1.05s/it]                                                            6%|▌         | 5529/100000 [3:20:35<27:40:26,  1.05s/it]  6%|▌         | 5530/100000 [3:20:35<26:52:31,  1.02s/it]                                                            6%|▌         | 5530/100000 [3:20:36<26:52:31,  1.02s/it]  6%|▌         | 5531/100000 [3:20:36<25:39:58,  1.02it/s]                                                            6%|▌         | 5531/100000 [3:20:36<25:39:58,  1.02it/s]  6%|▌         | 5532/100000 [3:20:37<24:40:07,  1.06it/s]                                                            6%|▌         | 5532/100000 [3:20:37<24:40:07,  1.06it/s]  6%|▌         | 5533/100000 [3:20:38<24:04:48,  1.09it/s]                                                            6%|▌         | 5533/100000 [3:20:38<24:04:48,  1.09it/s]  6%|▌         | 5534/100000 [3:20:39<23:28:45,  1.12it/s]                                                            6%|▌         | 5534/100000 [3:20:39<23:28:45,  1.12it/s]  6%|▌         | 5535/100000 [3:20:40<22:54:05,  1.15it/s]                                                            6%|▌         | 5535/100000 [3:20:40<22:54:05,  1.15it/s]  6%|▌         | 5536/100000 [3:20:41<22:13:33,  1.18it/s]                                                            6%|▌         | 5536/100000 [3:20:41<22:13:33,  1.18it/s]  6%|▌         | 5537/100000 [3:20:41<21:24:49,  1.23it/s]                                                            6%|▌         | 5537/100000 [3:20:41<21:24:49,  1.23it/s]  6%|▌         | 5538/100000 [3:20:42<20:59:49,  1.25it/s]                                                            6%|▌         | 5538/100000 [3:20:42<20:59:49,  1.25it/s]  6%|▌         | 5539/100000 [3:20:43<20:39:38,  1.27it/s]                                                            6%|▌         | 5539/100000 [3:20:43<20:39:38,  1.27it/s]  6%|▌         | 5540/100000 [3:20:44<20:02:34,  1.31it/s]                                                            6%|▌         | 5540/100000 [3:20:44<20:02:34,  1.31it/s]  6%|▌         | 5541/100000 [3:20:44<19:09:35,  1.37it/s]                                                            6%|▌         | 5541/100000 [3:20:44<19:09:35,  1.37it/s]  6%|▌         | 5542/100000 [3:20:45<18:09:08,  1.45it/s]                                                            6%|▌         | 5542/100000 [3:20:45<18:09:08,  1.45it/s]  6%|▌         | 5543/100000 [3:20:52<67:51:53,  2.59s/it]                                                            6%|▌         | 5543/100000 [3:20:52<67:51:53,  2.59s/it]  6%|▌         | 5544/100000 [3:20:53<59:00:38,  2.25s/it]                                                            6%|▌         | 5544/100000 [3:20:53<59:00:38,  2.25s/it]{'loss': 0.0808, 'grad_norm': 0.6180534362792969, 'learning_rate': 1.641e-05, 'epoch': 35.55}
{'loss': 0.0761, 'grad_norm': 0.6925671696662903, 'learning_rate': 1.6413e-05, 'epoch': 35.55}
{'loss': 0.0639, 'grad_norm': 0.840717077255249, 'learning_rate': 1.6416e-05, 'epoch': 35.56}
{'loss': 0.0813, 'grad_norm': 3.590719223022461, 'learning_rate': 1.6419e-05, 'epoch': 35.56}
{'loss': 0.0591, 'grad_norm': 1.439001202583313, 'learning_rate': 1.6422e-05, 'epoch': 35.57}
{'loss': 0.0736, 'grad_norm': 0.6091472506523132, 'learning_rate': 1.6425e-05, 'epoch': 35.58}
{'loss': 0.0576, 'grad_norm': 0.5775534510612488, 'learning_rate': 1.6428e-05, 'epoch': 35.58}
{'loss': 0.0452, 'grad_norm': 0.6860626339912415, 'learning_rate': 1.6431e-05, 'epoch': 35.59}
{'loss': 0.0942, 'grad_norm': 1.0024824142456055, 'learning_rate': 1.6434e-05, 'epoch': 35.6}
{'loss': 0.0478, 'grad_norm': 0.9797446727752686, 'learning_rate': 1.6437000000000002e-05, 'epoch': 35.6}
{'loss': 0.0432, 'grad_norm': 1.0834072828292847, 'learning_rate': 1.6440000000000002e-05, 'epoch': 35.61}
{'loss': 0.04, 'grad_norm': 0.710385799407959, 'learning_rate': 1.6443e-05, 'epoch': 35.62}
{'loss': 0.0304, 'grad_norm': 0.7062103748321533, 'learning_rate': 1.6446e-05, 'epoch': 35.62}
{'loss': 0.0437, 'grad_norm': 0.8243283629417419, 'learning_rate': 1.6449e-05, 'epoch': 35.63}
{'loss': 0.0365, 'grad_norm': 0.9063324928283691, 'learning_rate': 1.6452e-05, 'epoch': 35.64}
{'loss': 0.0354, 'grad_norm': 0.8636640906333923, 'learning_rate': 1.6455e-05, 'epoch': 35.64}
{'loss': 0.0471, 'grad_norm': 1.3841502666473389, 'learning_rate': 1.6458e-05, 'epoch': 35.65}
{'loss': 0.0332, 'grad_norm': 0.864492654800415, 'learning_rate': 1.6461e-05, 'epoch': 35.66}
{'loss': 0.0229, 'grad_norm': 0.572938859462738, 'learning_rate': 1.6464e-05, 'epoch': 35.66}
{'loss': 0.0391, 'grad_norm': 1.4826343059539795, 'learning_rate': 1.6467000000000003e-05, 'epoch': 35.67}
{'loss': 0.0307, 'grad_norm': 0.7507847547531128, 'learning_rate': 1.6470000000000003e-05, 'epoch': 35.68}
{'loss': 0.0895, 'grad_norm': 1.3109773397445679, 'learning_rate': 1.6473000000000003e-05, 'epoch': 35.68}
{'loss': 0.0255, 'grad_norm': 4.821005821228027, 'learning_rate': 1.6476e-05, 'epoch': 35.69}
{'loss': 0.0286, 'grad_norm': 1.3318405151367188, 'learning_rate': 1.6479e-05, 'epoch': 35.69}
{'loss': 0.0219, 'grad_norm': 0.7988265752792358, 'learning_rate': 1.6482e-05, 'epoch': 35.7}
{'loss': 0.0168, 'grad_norm': 0.6451314687728882, 'learning_rate': 1.6485e-05, 'epoch': 35.71}
{'loss': 0.0218, 'grad_norm': 0.9783576130867004, 'learning_rate': 1.6488e-05, 'epoch': 35.71}
{'loss': 0.0399, 'grad_norm': 3.4054079055786133, 'learning_rate': 1.6491e-05, 'epoch': 35.72}
{'loss': 0.0376, 'grad_norm': 2.993084192276001, 'learning_rate': 1.6493999999999998e-05, 'epoch': 35.73}
{'loss': 0.0266, 'grad_norm': 1.4805301427841187, 'learning_rate': 1.6497e-05, 'epoch': 35.73}
{'loss': 0.0401, 'grad_norm': 0.9970624446868896, 'learning_rate': 1.65e-05, 'epoch': 35.74}
{'loss': 0.2037, 'grad_norm': 1.2057020664215088, 'learning_rate': 1.6503e-05, 'epoch': 35.75}
{'loss': 0.1826, 'grad_norm': 0.8432661294937134, 'learning_rate': 1.6506e-05, 'epoch': 35.75}
{'loss': 0.1134, 'grad_norm': 0.8139992356300354, 'learning_rate': 1.6509e-05, 'epoch': 35.76}
{'loss': 0.1373, 'grad_norm': 0.7694306373596191, 'learning_rate': 1.6512e-05, 'epoch': 35.77}
{'loss': 0.1127, 'grad_norm': 0.7898879647254944, 'learning_rate': 1.6515e-05, 'epoch': 35.77}
{'loss': 0.0993, 'grad_norm': 0.7032478451728821, 'learning_rate': 1.6518e-05, 'epoch': 35.78}
{'loss': 0.0951, 'grad_norm': 0.8181779980659485, 'learning_rate': 1.6521e-05, 'epoch': 35.79}
{'loss': 0.0785, 'grad_norm': 0.6730068325996399, 'learning_rate': 1.6524e-05, 'epoch': 35.79}
{'loss': 0.1125, 'grad_norm': 1.650828242301941, 'learning_rate': 1.6527e-05, 'epoch': 35.8}
{'loss': 0.0735, 'grad_norm': 0.6602190732955933, 'learning_rate': 1.6530000000000003e-05, 'epoch': 35.81}
{'loss': 0.0527, 'grad_norm': 0.5410872101783752, 'learning_rate': 1.6533000000000002e-05, 'epoch': 35.81}
{'loss': 0.058, 'grad_norm': 0.5118373036384583, 'learning_rate': 1.6536000000000002e-05, 'epoch': 35.82}
{'loss': 0.0562, 'grad_norm': 0.9823230504989624, 'learning_rate': 1.6539000000000002e-05, 'epoch': 35.82}
{'loss': 0.0656, 'grad_norm': 0.8060421943664551, 'learning_rate': 1.6542000000000002e-05, 'epoch': 35.83}
{'loss': 0.0685, 'grad_norm': 0.7274273633956909, 'learning_rate': 1.6545e-05, 'epoch': 35.84}
{'loss': 0.0387, 'grad_norm': 1.5809522867202759, 'learning_rate': 1.6548e-05, 'epoch': 35.84}
{'loss': 0.0482, 'grad_norm': 0.5004517436027527, 'learning_rate': 1.6550999999999998e-05, 'epoch': 35.85}
{'loss': 0.0461, 'grad_norm': 0.6365528702735901, 'learning_rate': 1.6553999999999998e-05, 'epoch': 35.86}
{'loss': 0.0473, 'grad_norm': 0.6638319492340088, 'learning_rate': 1.6556999999999998e-05, 'epoch': 35.86}
{'loss': 0.0529, 'grad_norm': 0.6351282000541687, 'learning_rate': 1.656e-05, 'epoch': 35.87}
{'loss': 0.0636, 'grad_norm': 1.6565107107162476, 'learning_rate': 1.6563e-05, 'epoch': 35.88}
{'loss': 0.0511, 'grad_norm': 1.1253979206085205, 'learning_rate': 1.6566e-05, 'epoch': 35.88}
{'loss': 0.0393, 'grad_norm': 0.8223544359207153, 'learning_rate': 1.6569e-05, 'epoch': 35.89}
{'loss': 0.0343, 'grad_norm': 0.7435981035232544, 'learning_rate': 1.6572e-05, 'epoch': 35.9}
{'loss': 0.0422, 'grad_norm': 0.8630067706108093, 'learning_rate': 1.6575e-05, 'epoch': 35.9}
{'loss': 0.0304, 'grad_norm': 1.128170132637024, 'learning_rate': 1.6578e-05, 'epoch': 35.91}
{'loss': 0.0396, 'grad_norm': 1.254016637802124, 'learning_rate': 1.6581e-05, 'epoch': 35.92}
{'loss': 0.047, 'grad_norm': 2.430370569229126, 'learning_rate': 1.6584e-05, 'epoch': 35.92}
{'loss': 0.0768, 'grad_norm': 1.184041976928711, 'learning_rate': 1.6587e-05, 'epoch': 35.93}
{'loss': 0.0445, 'grad_norm': 1.322824239730835, 'learning_rate': 1.6590000000000002e-05, 'epoch': 35.94}
{'loss': 0.0284, 'grad_norm': 1.149269461631775, 'learning_rate': 1.6593000000000002e-05, 'epoch': 35.94}
{'loss': 0.078, 'grad_norm': 1.0328491926193237, 'learning_rate': 1.6596000000000002e-05, 'epoch': 35.95}
{'loss': 0.0518, 'grad_norm': 2.845771551132202, 'learning_rate': 1.6599e-05, 'epoch': 35.95}
{'loss': 0.0452, 'grad_norm': 1.6223819255828857, 'learning_rate': 1.6602e-05, 'epoch': 35.96}
{'loss': 0.0306, 'grad_norm': 1.3968729972839355, 'learning_rate': 1.6605e-05, 'epoch': 35.97}
{'loss': 0.0342, 'grad_norm': 1.6559288501739502, 'learning_rate': 1.6608e-05, 'epoch': 35.97}
{'loss': 0.0266, 'grad_norm': 1.3510143756866455, 'learning_rate': 1.6611e-05, 'epoch': 35.98}
{'loss': 0.0786, 'grad_norm': 3.6133766174316406, 'learning_rate': 1.6614e-05, 'epoch': 35.99}
{'loss': 0.1188, 'grad_norm': 1.2203950881958008, 'learning_rate': 1.6617e-05, 'epoch': 35.99}
{'loss': 0.0236, 'grad_norm': 0.7415958046913147, 'learning_rate': 1.6620000000000004e-05, 'epoch': 36.0}
  6%|▌         | 5545/100000 [3:21:10<174:15:01,  6.64s/it]                                                             6%|▌         | 5545/100000 [3:21:10<174:15:01,  6.64s/it]  6%|▌         | 5546/100000 [3:21:18<183:51:40,  7.01s/it]                                                             6%|▌         | 5546/100000 [3:21:18<183:51:40,  7.01s/it]  6%|▌         | 5547/100000 [3:21:23<170:31:17,  6.50s/it]                                                             6%|▌         | 5547/100000 [3:21:23<170:31:17,  6.50s/it]  6%|▌         | 5548/100000 [3:21:28<155:06:58,  5.91s/it]                                                             6%|▌         | 5548/100000 [3:21:28<155:06:58,  5.91s/it]  6%|▌         | 5549/100000 [3:21:32<140:34:19,  5.36s/it]                                                             6%|▌         | 5549/100000 [3:21:32<140:34:19,  5.36s/it]  6%|▌         | 5550/100000 [3:21:35<126:17:27,  4.81s/it]                                                             6%|▌         | 5550/100000 [3:21:35<126:17:27,  4.81s/it]  6%|▌         | 5551/100000 [3:21:38<112:00:47,  4.27s/it]                                                             6%|▌         | 5551/100000 [3:21:38<112:00:47,  4.27s/it]  6%|▌         | 5552/100000 [3:21:41<98:23:15,  3.75s/it]                                                             6%|▌         | 5552/100000 [3:21:41<98:23:15,  3.75s/it]  6%|▌         | 5553/100000 [3:21:43<87:05:40,  3.32s/it]                                                            6%|▌         | 5553/100000 [3:21:43<87:05:40,  3.32s/it]  6%|▌         | 5554/100000 [3:21:45<77:13:52,  2.94s/it]                                                            6%|▌         | 5554/100000 [3:21:45<77:13:52,  2.94s/it]  6%|▌         | 5555/100000 [3:21:47<69:36:29,  2.65s/it]                                                            6%|▌         | 5555/100000 [3:21:47<69:36:29,  2.65s/it]  6%|▌         | 5556/100000 [3:21:49<63:13:28,  2.41s/it]                                                            6%|▌         | 5556/100000 [3:21:49<63:13:28,  2.41s/it]  6%|▌         | 5557/100000 [3:21:51<57:57:53,  2.21s/it]                                                            6%|▌         | 5557/100000 [3:21:51<57:57:53,  2.21s/it]  6%|▌         | 5558/100000 [3:21:53<53:22:15,  2.03s/it]                                                            6%|▌         | 5558/100000 [3:21:53<53:22:15,  2.03s/it]  6%|▌         | 5559/100000 [3:21:54<49:42:07,  1.89s/it]                                                            6%|▌         | 5559/100000 [3:21:54<49:42:07,  1.89s/it]  6%|▌         | 5560/100000 [3:21:56<46:40:52,  1.78s/it]                                                            6%|▌         | 5560/100000 [3:21:56<46:40:52,  1.78s/it]  6%|▌         | 5561/100000 [3:21:57<43:11:54,  1.65s/it]                                                            6%|▌         | 5561/100000 [3:21:57<43:11:54,  1.65s/it]  6%|▌         | 5562/100000 [3:21:58<41:00:36,  1.56s/it]                                                            6%|▌         | 5562/100000 [3:21:58<41:00:36,  1.56s/it]  6%|▌         | 5563/100000 [3:22:00<38:51:32,  1.48s/it]                                                            6%|▌         | 5563/100000 [3:22:00<38:51:32,  1.48s/it]  6%|▌         | 5564/100000 [3:22:01<36:49:40,  1.40s/it]                                                            6%|▌         | 5564/100000 [3:22:01<36:49:40,  1.40s/it]  6%|▌         | 5565/100000 [3:22:02<34:24:56,  1.31s/it]                                                            6%|▌         | 5565/100000 [3:22:02<34:24:56,  1.31s/it]  6%|▌         | 5566/100000 [3:22:03<32:46:12,  1.25s/it]                                                            6%|▌         | 5566/100000 [3:22:03<32:46:12,  1.25s/it]  6%|▌         | 5567/100000 [3:22:04<31:22:00,  1.20s/it]                                                            6%|▌         | 5567/100000 [3:22:04<31:22:00,  1.20s/it]  6%|▌         | 5568/100000 [3:22:05<29:44:07,  1.13s/it]                                                            6%|▌         | 5568/100000 [3:22:05<29:44:07,  1.13s/it]  6%|▌         | 5569/100000 [3:22:06<28:05:28,  1.07s/it]                                                            6%|▌         | 5569/100000 [3:22:06<28:05:28,  1.07s/it]  6%|▌         | 5570/100000 [3:22:07<27:16:30,  1.04s/it]                                                            6%|▌         | 5570/100000 [3:22:07<27:16:30,  1.04s/it]  6%|▌         | 5571/100000 [3:22:08<26:12:02,  1.00it/s]                                                            6%|▌         | 5571/100000 [3:22:08<26:12:02,  1.00it/s]  6%|▌         | 5572/100000 [3:22:09<25:34:41,  1.03it/s]                                                            6%|▌         | 5572/100000 [3:22:09<25:34:41,  1.03it/s]  6%|▌         | 5573/100000 [3:22:10<24:27:49,  1.07it/s]                                                            6%|▌         | 5573/100000 [3:22:10<24:27:49,  1.07it/s]  6%|▌         | 5574/100000 [3:22:11<23:48:35,  1.10it/s]                                                            6%|▌         | 5574/100000 [3:22:11<23:48:35,  1.10it/s]  6%|▌         | 5575/100000 [3:22:11<22:53:09,  1.15it/s]                                                            6%|▌         | 5575/100000 [3:22:11<22:53:09,  1.15it/s]  6%|▌         | 5576/100000 [3:22:12<22:33:53,  1.16it/s]                                                            6%|▌         | 5576/100000 [3:22:12<22:33:53,  1.16it/s]  6%|▌         | 5577/100000 [3:22:13<21:49:01,  1.20it/s]                                                            6%|▌         | 5577/100000 [3:22:13<21:49:01,  1.20it/s]  6%|▌         | 5578/100000 [3:22:14<21:24:41,  1.22it/s]                                                            6%|▌         | 5578/100000 [3:22:14<21:24:41,  1.22it/s]  6%|▌         | 5579/100000 [3:22:14<21:06:54,  1.24it/s]                                                            6%|▌         | 5579/100000 [3:22:14<21:06:54,  1.24it/s]  6%|▌         | 5580/100000 [3:22:15<20:46:58,  1.26it/s]                                                            6%|▌         | 5580/100000 [3:22:15<20:46:58,  1.26it/s]  6%|▌         | 5581/100000 [3:22:16<20:08:03,  1.30it/s]                                                            6%|▌         | 5581/100000 [3:22:16<20:08:03,  1.30it/s]  6%|▌         | 5582/100000 [3:22:17<18:41:46,  1.40it/s]                                                            6%|▌         | 5582/100000 [3:22:17<18:41:46,  1.40it/s]  6%|▌         | 5583/100000 [3:22:30<118:44:17,  4.53s/it]                                                             6%|▌         | 5583/100000 [3:22:30<118:44:17,  4.53s/it]  6%|▌         | 5584/100000 [3:22:38<148:35:59,  5.67s/it]                                                             6%|▌         | 5584/100000 [3:22:38<148:35:59,  5.67s/it]  6%|▌         | 5585/100000 [3:22:44<145:30:42,  5.55s/it]                                                             6%|▌         | 5585/100000 [3:22:44<145:30:42,  5.55s/it]  6%|▌         | 5586/100000 [3:22:48<138:31:32,  5.28s/it]                                                             6%|▌         | 5586/100000 [3:22:48<138:31:32,  5.28s/it]  6%|▌         | 5587/100000 [3:22:52<127:28:21,  4.86s/it]                                                             6%|▌         | 5587/100000 [3:22:52<127:28:21,  4.86s/it]  6%|▌         | 5588/100000 [3:22:56<116:15:42,  4.43s/it]                                                             6%|▌         | 5588/100000 [3:22:56<116:15:42,  4.43s/it]  6%|▌         | 5589/100000 [3:22:59<105:10:41,  4.01s/it]                                                             6%|▌         | 5589/100000 [3:22:59<105:10:41,  4.01s/it]  6%|▌         | 5590/100000 [3:23:01<94:06:15,  3.59s/it]                                                             6%|▌         | 5590/100000 [3:23:01<94:06:15,  3.59s/it]  6%|▌         | 5591/100000 [3:23:03<83:58:23,  3.20s/it]                                                            6%|▌         | 5591/100000 [3:23:03<83:58:23,  3.20s/it]  6%|▌         | 5592/100000 [3:23:06<75:24:09,  2.88s/it]                                                            6%|▌         | 5592/100000 [3:23:06<75:24:09,  2.88s/it]  6%|▌         | 5593/100000 [3:23:08<68:24:59,  2.61s/it]                                                            6%|▌         | 5593/100000 [3:23:08<68:24:59,  2.61s/it]  6%|▌         | 5594/100000 [3:23:09<62:04:53,  2.37s/it]                                                            6%|▌         | 5594/100000 [3:23:09<62:04:53,  2.37s/it]  6%|▌         | 5595/100000 [3:23:11<56:35:04,  2.16s/it]                                                            6%|▌         | 5595/100000 [3:23:11<56:35:04,  2.16s/it]  6%|▌         | 5596/100000 [3:23:13<52:29:36,  2.00s/it]                                                            6%|▌         | 5596/100000 [3:23:13<52:29:36,  2.00s/it]  6%|▌         | 5597/100000 [3:23:14<48:50:11,  1.86s/it]                                                            6%|▌         | 5597/100000 [3:23:14<48:50:11,  1.86s/it]  6%|▌         | 5598/100000 [3:23:16<45:41:16,  1.74s/it]                                                            6%|▌         | 5598/100000 [3:23:16<45:41:16,  1.74s/it]  6%|▌         | 5599/100000 [3:23:17<42:54:20,  1.64s/it]                                                            6%|▌         | 5599/100000 [3:23:17<42:54:20,  1.64s/it]  6%|▌         | 5600/100000 [3:23:18<40:41:54,  1.55s/it]                                                            6%|▌         | 5600/100000 [3:23:18<40:41:54,  1.55s/it]  6%|▌         | 5601/100000 [3:23:20<38:28:06,  1.47s/it]                                                            6%|▌         | 5601/100000 [3:23:20<38:28:06,  1.47s/it]  6%|▌         | 5602/100000 [3:23:21<36:34:28,  1.39s/it]                                                            6%|▌         | 5602/100000 [3:23:21<36:34:28,  1.39s/it]  6%|▌         | 5603/100000 [3:23:22<34:52:13,  1.33s/it]                                                            6%|▌         | 5603/100000 [3:23:22<34:52:13,  1.33s/it]  6%|▌         | 5604/100000 [3:23:23<33:02:44,  1.26s/it]                                                            6%|▌         | 5604/100000 [3:23:23<33:02:44,  1.26s/it]  6%|▌         | 5605/100000 [3:23:24<31:48:33,  1.21s/it]                                                            6%|▌         | 5605/100000 [3:23:24<31:48:33,  1.21s/it]  6%|▌         | 5606/100000 [3:23:25<30:16:11,  1.15s/it]                                                            6%|▌         | 5606/100000 [3:23:25<30:16:11,  1.15s/it]  6%|▌         | 5607/100000 [3:23:26<28:34:42,  1.09s/it]                                                            6%|▌         | 5607/100000 [3:23:26<28:34:42,  1.09s/it]  6%|▌         | 5608/100000 [3:23:27<27:46:28,  1.06s/it]                                                            6%|▌         | 5608/100000 [3:23:27<27:46:28,  1.06s/it]  6%|▌         | 5609/100000 [3:23:28<27:06:25,  1.03s/it]                                                            6%|▌         | 5609/100000 [3:23:28<27:06:25,  1.03s/it]  6%|▌         | 5610/100000 [3:23:29<25:43:25,  1.02it/s]                                                            6%|▌         | 5610/100000 [3:23:29<25:43:25,  1.02it/s]  6%|▌         | 5611/100000 [3:23:30<24:52:31,  1.05it/s]                                                            6%|▌         | 5611/100000 [3:23:30<24:52:31,  1.05it/s]  6%|▌         | 5612/100000 [3:23:31<24:27:07,  1.07it/s]                                                            6%|▌         | 5612/100000 [3:23:31<24:27:07,  1.07it/s]  6%|▌         | 5613/100000 [3:23:32<23:11:39,  1.13it/s]                                                            6%|▌         | 5613/100000 [3:23:32<23:11:39,  1.13it/s]  6%|▌         | 5614/100000 [3:23:32<22:41:16,  1.16it/s]                                                            6%|▌         | 5614/100000 [3:23:32<22:41:16,  1.16it/s]  6%|▌         | 5615/100000 [3:23:33<22:06:47,  1.19it/s]                                                            6%|▌         | 5615/100000 [3:23:33<22:06:47,  1.19it/s]  6%|▌         | 5616/100000 [3:23:34<21:58:34,  1.19it/s]                                                            6%|▌         | 5616/100000 [3:23:34<21:58:34,  1.19it/s]  6%|▌         | 5617/100000 [3:23:35<21:16:56,  1.23it/s]                                                            6%|▌         | 5617/100000 [3:23:35<21:16:56,  1.23it/s]  6%|▌         | 5618/100000 [3:23:35<19:52:41,  1.32it/s]                                                            6%|▌         | 5618/100000 [3:23:35<19:52:41,  1.32it/s]  6%|▌         | 5619/100000 [3:23:36<19:10:15,  1.37it/s]                                                            6%|▌         | 5619/100000 [3:23:36<19:10:15,  1.37it/s]  6%|▌         | 5620/100000 [3:23:37<18:12:04,  1.44it/s]                                                            6%|▌         | 5620/100000 [3:23:37<18:12:04,  1.44it/s]  6%|▌         | 5621/100000 [3:23:48<104:04:40,  3.97s/it]                                                             6%|▌         | 5621/100000 [3:23:48<104:04:40,  3.97s/it]  6%|▌         | 5622/100000 [3:23:56<134:24:57,  5.13s/it]                                                             6%|▌         | 5622/100000 [3:23:56<134:24:57,  5.13s/it]  6%|▌         | 5623/100000 [3:24:02<139:12:26,  5.31s/it]                                                             6%|▌         | 5623/100000 [3:24:02<139:12:26,  5.31s/it]  6%|▌         | 5624/100000 [3:24:07<134:20:44,  5.12s/it]                                                             6%|▌         | 5624/100000 [3:24:07<134:20:44,  5.12s/it]  6%|▌         | 5625/100000 [3:24:10<123:29:31,  4.71s/it]                                                             6%|▌         | 5625/100000 [3:24:10<123:29:31,  4.71s/it]  6%|▌         | 5626/100000 [3:24:14<113:57:15,  4.35s/it]                                                             6%|▌         | 5626/100000 [3:24:14<113:57:15,  4.35s/it]  6%|▌         | 5627/100000 [3:24:17<103:59:55,  3.97s/it]                                                             6%|▌         | 5627/100000 [3:24:17<103:59:55,  3.97s/it]  6%|▌         | 5628/100000 [3:24:20<93:47:57,  3.58s/it]                                                           {'loss': 0.2155, 'grad_norm': 1.7441385984420776, 'learning_rate': 1.6623e-05, 'epoch': 36.01}
{'loss': 0.1439, 'grad_norm': 0.8600872755050659, 'learning_rate': 1.6626e-05, 'epoch': 36.01}
{'loss': 0.1067, 'grad_norm': 0.7536966800689697, 'learning_rate': 1.6629e-05, 'epoch': 36.02}
{'loss': 0.1273, 'grad_norm': 0.8218570351600647, 'learning_rate': 1.6632e-05, 'epoch': 36.03}
{'loss': 0.0887, 'grad_norm': 0.5255005359649658, 'learning_rate': 1.6635e-05, 'epoch': 36.03}
{'loss': 0.0708, 'grad_norm': 1.4956876039505005, 'learning_rate': 1.6638e-05, 'epoch': 36.04}
{'loss': 0.0997, 'grad_norm': 0.870635449886322, 'learning_rate': 1.6641e-05, 'epoch': 36.05}
{'loss': 0.0812, 'grad_norm': 0.8328516483306885, 'learning_rate': 1.6644e-05, 'epoch': 36.05}
{'loss': 0.0856, 'grad_norm': 0.8527392745018005, 'learning_rate': 1.6647e-05, 'epoch': 36.06}
{'loss': 0.0697, 'grad_norm': 0.7536471486091614, 'learning_rate': 1.665e-05, 'epoch': 36.06}
{'loss': 0.0737, 'grad_norm': 1.0289690494537354, 'learning_rate': 1.6653e-05, 'epoch': 36.07}
{'loss': 0.0644, 'grad_norm': 0.8041430115699768, 'learning_rate': 1.6656e-05, 'epoch': 36.08}
{'loss': 0.073, 'grad_norm': 0.8533033728599548, 'learning_rate': 1.6659e-05, 'epoch': 36.08}
{'loss': 0.0581, 'grad_norm': 0.7097473740577698, 'learning_rate': 1.6662e-05, 'epoch': 36.09}
{'loss': 0.0516, 'grad_norm': 0.6513652205467224, 'learning_rate': 1.6665e-05, 'epoch': 36.1}
{'loss': 0.0821, 'grad_norm': 0.7427861094474792, 'learning_rate': 1.6668e-05, 'epoch': 36.1}
{'loss': 0.0472, 'grad_norm': 0.6973609924316406, 'learning_rate': 1.6671e-05, 'epoch': 36.11}
{'loss': 0.0347, 'grad_norm': 0.46843159198760986, 'learning_rate': 1.6674e-05, 'epoch': 36.12}
{'loss': 0.0409, 'grad_norm': 0.6961785554885864, 'learning_rate': 1.6677e-05, 'epoch': 36.12}
{'loss': 0.0273, 'grad_norm': 0.6966133117675781, 'learning_rate': 1.6680000000000003e-05, 'epoch': 36.13}
{'loss': 0.036, 'grad_norm': 1.6002655029296875, 'learning_rate': 1.6683000000000003e-05, 'epoch': 36.14}
{'loss': 0.0577, 'grad_norm': 1.574100136756897, 'learning_rate': 1.6686000000000003e-05, 'epoch': 36.14}
{'loss': 0.0594, 'grad_norm': 0.7698895335197449, 'learning_rate': 1.6689000000000002e-05, 'epoch': 36.15}
{'loss': 0.0341, 'grad_norm': 0.8354880213737488, 'learning_rate': 1.6692000000000002e-05, 'epoch': 36.16}
{'loss': 0.0217, 'grad_norm': 0.5799800753593445, 'learning_rate': 1.6695000000000002e-05, 'epoch': 36.16}
{'loss': 0.0316, 'grad_norm': 1.4341777563095093, 'learning_rate': 1.6698e-05, 'epoch': 36.17}
{'loss': 0.0234, 'grad_norm': 0.6734203696250916, 'learning_rate': 1.6700999999999998e-05, 'epoch': 36.18}
{'loss': 0.0302, 'grad_norm': 1.2147265672683716, 'learning_rate': 1.6703999999999998e-05, 'epoch': 36.18}
{'loss': 0.0222, 'grad_norm': 0.8579756617546082, 'learning_rate': 1.6706999999999998e-05, 'epoch': 36.19}
{'loss': 0.0327, 'grad_norm': 1.5201724767684937, 'learning_rate': 1.671e-05, 'epoch': 36.19}
{'loss': 0.0213, 'grad_norm': 1.4035910367965698, 'learning_rate': 1.6713e-05, 'epoch': 36.2}
{'loss': 0.0823, 'grad_norm': 1.4561357498168945, 'learning_rate': 1.6716e-05, 'epoch': 36.21}
{'loss': 0.0168, 'grad_norm': 0.7790207266807556, 'learning_rate': 1.6719e-05, 'epoch': 36.21}
{'loss': 0.018, 'grad_norm': 0.9397640824317932, 'learning_rate': 1.6722e-05, 'epoch': 36.22}
{'loss': 0.0653, 'grad_norm': 7.8806376457214355, 'learning_rate': 1.6725e-05, 'epoch': 36.23}
{'loss': 0.0238, 'grad_norm': 1.5380269289016724, 'learning_rate': 1.6728e-05, 'epoch': 36.23}
{'loss': 0.0236, 'grad_norm': 4.959921836853027, 'learning_rate': 1.6731e-05, 'epoch': 36.24}
{'loss': 0.0903, 'grad_norm': 1.5025169849395752, 'learning_rate': 1.6734e-05, 'epoch': 36.25}
{'loss': 0.2087, 'grad_norm': 1.2504111528396606, 'learning_rate': 1.6737e-05, 'epoch': 36.25}
{'loss': 0.1169, 'grad_norm': 0.8853276371955872, 'learning_rate': 1.6740000000000002e-05, 'epoch': 36.26}
{'loss': 0.1011, 'grad_norm': 0.5494815111160278, 'learning_rate': 1.6743000000000002e-05, 'epoch': 36.27}
{'loss': 0.0936, 'grad_norm': 0.4982158839702606, 'learning_rate': 1.6746000000000002e-05, 'epoch': 36.27}
{'loss': 0.0954, 'grad_norm': 0.8200173377990723, 'learning_rate': 1.6749000000000002e-05, 'epoch': 36.28}
{'loss': 0.0838, 'grad_norm': 0.8459362387657166, 'learning_rate': 1.6752e-05, 'epoch': 36.29}
{'loss': 0.0755, 'grad_norm': 0.7006298303604126, 'learning_rate': 1.6755e-05, 'epoch': 36.29}
{'loss': 0.0723, 'grad_norm': 0.7367172837257385, 'learning_rate': 1.6758e-05, 'epoch': 36.3}
{'loss': 0.0708, 'grad_norm': 0.62955242395401, 'learning_rate': 1.6761e-05, 'epoch': 36.31}
{'loss': 0.0637, 'grad_norm': 0.575022280216217, 'learning_rate': 1.6764e-05, 'epoch': 36.31}
{'loss': 0.0563, 'grad_norm': 1.2841522693634033, 'learning_rate': 1.6767e-05, 'epoch': 36.32}
{'loss': 0.0654, 'grad_norm': 0.8259163498878479, 'learning_rate': 1.677e-05, 'epoch': 36.32}
{'loss': 0.0604, 'grad_norm': 0.8602928519248962, 'learning_rate': 1.6773e-05, 'epoch': 36.33}
{'loss': 0.05, 'grad_norm': 0.8726515769958496, 'learning_rate': 1.6776e-05, 'epoch': 36.34}
{'loss': 0.045, 'grad_norm': 0.7757441997528076, 'learning_rate': 1.6779e-05, 'epoch': 36.34}
{'loss': 0.0399, 'grad_norm': 0.5359334349632263, 'learning_rate': 1.6782e-05, 'epoch': 36.35}
{'loss': 0.0508, 'grad_norm': 0.7064621448516846, 'learning_rate': 1.6785e-05, 'epoch': 36.36}
{'loss': 0.0463, 'grad_norm': 0.6514090299606323, 'learning_rate': 1.6788e-05, 'epoch': 36.36}
{'loss': 0.0257, 'grad_norm': 2.0469088554382324, 'learning_rate': 1.6791e-05, 'epoch': 36.37}
{'loss': 0.0468, 'grad_norm': 0.9353988170623779, 'learning_rate': 1.6794e-05, 'epoch': 36.38}
{'loss': 0.0411, 'grad_norm': 0.6826835870742798, 'learning_rate': 1.6797e-05, 'epoch': 36.38}
{'loss': 0.0336, 'grad_norm': 0.79556804895401, 'learning_rate': 1.6800000000000002e-05, 'epoch': 36.39}
{'loss': 0.0245, 'grad_norm': 0.8994273543357849, 'learning_rate': 1.6803e-05, 'epoch': 36.4}
{'loss': 0.0507, 'grad_norm': 1.2084094285964966, 'learning_rate': 1.6806e-05, 'epoch': 36.4}
{'loss': 0.0934, 'grad_norm': 2.2236006259918213, 'learning_rate': 1.6809e-05, 'epoch': 36.41}
{'loss': 0.0294, 'grad_norm': 0.9243901968002319, 'learning_rate': 1.6812e-05, 'epoch': 36.42}
{'loss': 0.0398, 'grad_norm': 2.505596399307251, 'learning_rate': 1.6815e-05, 'epoch': 36.42}
{'loss': 0.0404, 'grad_norm': 1.6409533023834229, 'learning_rate': 1.6818e-05, 'epoch': 36.43}
{'loss': 0.0326, 'grad_norm': 1.0417709350585938, 'learning_rate': 1.6821e-05, 'epoch': 36.44}
{'loss': 0.0396, 'grad_norm': 1.1140795946121216, 'learning_rate': 1.6824e-05, 'epoch': 36.44}
{'loss': 0.0266, 'grad_norm': 1.218400001525879, 'learning_rate': 1.6827e-05, 'epoch': 36.45}
{'loss': 0.03, 'grad_norm': 2.228727340698242, 'learning_rate': 1.6830000000000003e-05, 'epoch': 36.45}
{'loss': 0.0203, 'grad_norm': 0.7743595242500305, 'learning_rate': 1.6833000000000003e-05, 'epoch': 36.46}
{'loss': 0.0518, 'grad_norm': 1.605010986328125, 'learning_rate': 1.6836000000000003e-05, 'epoch': 36.47}
{'loss': 0.0478, 'grad_norm': 3.109588384628296, 'learning_rate': 1.6839000000000003e-05, 'epoch': 36.47}
{'loss': 0.0269, 'grad_norm': 0.9207916259765625, 'learning_rate': 1.6842000000000002e-05, 'epoch': 36.48}
{'loss': 0.038, 'grad_norm': 2.9240214824676514, 'learning_rate': 1.6845e-05, 'epoch': 36.49}
{'loss': 0.0506, 'grad_norm': 1.3790616989135742, 'learning_rate': 1.6848e-05, 'epoch': 36.49}
{'loss': 0.245, 'grad_norm': 4.663704872131348, 'learning_rate': 1.6851e-05, 'epoch': 36.5}
{'loss': 0.1525, 'grad_norm': 0.975746750831604, 'learning_rate': 1.6853999999999998e-05, 'epoch': 36.51}
{'loss': 0.1119, 'grad_norm': 0.7533509135246277, 'learning_rate': 1.6856999999999998e-05, 'epoch': 36.51}
{'loss': 0.1068, 'grad_norm': 1.4311176538467407, 'learning_rate': 1.686e-05, 'epoch': 36.52}
{'loss': 0.1054, 'grad_norm': 0.9973927140235901, 'learning_rate': 1.6863e-05, 'epoch': 36.53}
{'loss': 0.0823, 'grad_norm': 1.0111291408538818, 'learning_rate': 1.6866e-05, 'epoch': 36.53}
{'loss': 0.0943, 'grad_norm': 1.0960081815719604, 'learning_rate': 1.6869e-05, 'epoch': 36.54}
  6%|▌         | 5628/100000 [3:24:20<93:47:57,  3.58s/it]  6%|▌         | 5629/100000 [3:24:22<84:07:41,  3.21s/it]                                                            6%|▌         | 5629/100000 [3:24:22<84:07:41,  3.21s/it]  6%|▌         | 5630/100000 [3:24:24<75:32:51,  2.88s/it]                                                            6%|▌         | 5630/100000 [3:24:24<75:32:51,  2.88s/it]  6%|▌         | 5631/100000 [3:24:26<68:17:12,  2.61s/it]                                                            6%|▌         | 5631/100000 [3:24:26<68:17:12,  2.61s/it]  6%|▌         | 5632/100000 [3:24:28<62:16:37,  2.38s/it]                                                            6%|▌         | 5632/100000 [3:24:28<62:16:37,  2.38s/it]  6%|▌         | 5633/100000 [3:24:29<56:32:16,  2.16s/it]                                                            6%|▌         | 5633/100000 [3:24:29<56:32:16,  2.16s/it]  6%|▌         | 5634/100000 [3:24:31<52:17:24,  1.99s/it]                                                            6%|▌         | 5634/100000 [3:24:31<52:17:24,  1.99s/it]  6%|▌         | 5635/100000 [3:24:33<49:03:51,  1.87s/it]                                                            6%|▌         | 5635/100000 [3:24:33<49:03:51,  1.87s/it]  6%|▌         | 5636/100000 [3:24:34<45:40:42,  1.74s/it]                                                            6%|▌         | 5636/100000 [3:24:34<45:40:42,  1.74s/it]  6%|▌         | 5637/100000 [3:24:35<42:40:21,  1.63s/it]                                                            6%|▌         | 5637/100000 [3:24:35<42:40:21,  1.63s/it]  6%|▌         | 5638/100000 [3:24:37<40:24:23,  1.54s/it]                                                            6%|▌         | 5638/100000 [3:24:37<40:24:23,  1.54s/it]  6%|▌         | 5639/100000 [3:24:38<38:28:09,  1.47s/it]                                                            6%|▌         | 5639/100000 [3:24:38<38:28:09,  1.47s/it]  6%|▌         | 5640/100000 [3:24:39<36:32:44,  1.39s/it]                                                            6%|▌         | 5640/100000 [3:24:39<36:32:44,  1.39s/it]  6%|▌         | 5641/100000 [3:24:40<34:20:24,  1.31s/it]                                                            6%|▌         | 5641/100000 [3:24:40<34:20:24,  1.31s/it]  6%|▌         | 5642/100000 [3:24:42<32:40:54,  1.25s/it]                                                            6%|▌         | 5642/100000 [3:24:42<32:40:54,  1.25s/it]  6%|▌         | 5643/100000 [3:24:43<31:14:49,  1.19s/it]                                                            6%|▌         | 5643/100000 [3:24:43<31:14:49,  1.19s/it]  6%|▌         | 5644/100000 [3:24:44<29:52:29,  1.14s/it]                                                            6%|▌         | 5644/100000 [3:24:44<29:52:29,  1.14s/it]  6%|▌         | 5645/100000 [3:24:45<28:21:34,  1.08s/it]                                                            6%|▌         | 5645/100000 [3:24:45<28:21:34,  1.08s/it]  6%|▌         | 5646/100000 [3:24:46<27:16:56,  1.04s/it]                                                            6%|▌         | 5646/100000 [3:24:46<27:16:56,  1.04s/it]  6%|▌         | 5647/100000 [3:24:46<26:31:29,  1.01s/it]                                                            6%|▌         | 5647/100000 [3:24:46<26:31:29,  1.01s/it]  6%|▌         | 5648/100000 [3:24:47<25:46:39,  1.02it/s]                                                            6%|▌         | 5648/100000 [3:24:47<25:46:39,  1.02it/s]  6%|▌         | 5649/100000 [3:24:48<25:05:05,  1.04it/s]                                                            6%|▌         | 5649/100000 [3:24:48<25:05:05,  1.04it/s]  6%|▌         | 5650/100000 [3:24:49<24:00:45,  1.09it/s]                                                            6%|▌         | 5650/100000 [3:24:49<24:00:45,  1.09it/s]  6%|▌         | 5651/100000 [3:24:50<22:50:33,  1.15it/s]                                                            6%|▌         | 5651/100000 [3:24:50<22:50:33,  1.15it/s]  6%|▌         | 5652/100000 [3:24:51<22:48:26,  1.15it/s]                                                            6%|▌         | 5652/100000 [3:24:51<22:48:26,  1.15it/s]  6%|▌         | 5653/100000 [3:24:52<22:09:31,  1.18it/s]                                                            6%|▌         | 5653/100000 [3:24:52<22:09:31,  1.18it/s]  6%|▌         | 5654/100000 [3:24:52<21:14:32,  1.23it/s]                                                            6%|▌         | 5654/100000 [3:24:52<21:14:32,  1.23it/s]  6%|▌         | 5655/100000 [3:24:53<21:17:50,  1.23it/s]                                                            6%|▌         | 5655/100000 [3:24:53<21:17:50,  1.23it/s]  6%|▌         | 5656/100000 [3:24:54<20:21:11,  1.29it/s]                                                            6%|▌         | 5656/100000 [3:24:54<20:21:11,  1.29it/s]  6%|▌         | 5657/100000 [3:24:54<19:37:52,  1.33it/s]                                                            6%|▌         | 5657/100000 [3:24:54<19:37:52,  1.33it/s]  6%|▌         | 5658/100000 [3:24:55<19:51:26,  1.32it/s]                                                            6%|▌         | 5658/100000 [3:24:55<19:51:26,  1.32it/s]  6%|▌         | 5659/100000 [3:25:08<116:41:27,  4.45s/it]                                                             6%|▌         | 5659/100000 [3:25:08<116:41:27,  4.45s/it]  6%|▌         | 5660/100000 [3:25:16<143:00:23,  5.46s/it]                                                             6%|▌         | 5660/100000 [3:25:16<143:00:23,  5.46s/it]  6%|▌         | 5661/100000 [3:25:22<144:33:52,  5.52s/it]                                                             6%|▌         | 5661/100000 [3:25:22<144:33:52,  5.52s/it]  6%|▌         | 5662/100000 [3:25:26<137:39:25,  5.25s/it]                                                             6%|▌         | 5662/100000 [3:25:26<137:39:25,  5.25s/it]  6%|▌         | 5663/100000 [3:25:30<128:43:01,  4.91s/it]                                                             6%|▌         | 5663/100000 [3:25:31<128:43:01,  4.91s/it]  6%|▌         | 5664/100000 [3:25:34<118:37:45,  4.53s/it]                                                             6%|▌         | 5664/100000 [3:25:34<118:37:45,  4.53s/it]  6%|▌         | 5665/100000 [3:25:37<108:03:29,  4.12s/it]                                                             6%|▌         | 5665/100000 [3:25:37<108:03:29,  4.12s/it]  6%|▌         | 5666/100000 [3:25:40<97:39:46,  3.73s/it]                                                             6%|▌         | 5666/100000 [3:25:40<97:39:46,  3.73s/it]  6%|▌         | 5667/100000 [3:25:43<87:13:19,  3.33s/it]                                                            6%|▌         | 5667/100000 [3:25:43<87:13:19,  3.33s/it]  6%|▌         | 5668/100000 [3:25:45<77:53:25,  2.97s/it]                                                            6%|▌         | 5668/100000 [3:25:45<77:53:25,  2.97s/it]  6%|▌         | 5669/100000 [3:25:47<70:06:33,  2.68s/it]                                                            6%|▌         | 5669/100000 [3:25:47<70:06:33,  2.68s/it]  6%|▌         | 5670/100000 [3:25:49<63:56:56,  2.44s/it]                                                            6%|▌         | 5670/100000 [3:25:49<63:56:56,  2.44s/it]  6%|▌         | 5671/100000 [3:25:50<58:43:18,  2.24s/it]                                                            6%|▌         | 5671/100000 [3:25:50<58:43:18,  2.24s/it]  6%|▌         | 5672/100000 [3:25:52<54:00:12,  2.06s/it]                                                            6%|▌         | 5672/100000 [3:25:52<54:00:12,  2.06s/it]  6%|▌         | 5673/100000 [3:25:54<50:05:03,  1.91s/it]                                                            6%|▌         | 5673/100000 [3:25:54<50:05:03,  1.91s/it]  6%|▌         | 5674/100000 [3:25:55<46:13:19,  1.76s/it]                                                            6%|▌         | 5674/100000 [3:25:55<46:13:19,  1.76s/it]  6%|▌         | 5675/100000 [3:25:56<43:29:32,  1.66s/it]                                                            6%|▌         | 5675/100000 [3:25:56<43:29:32,  1.66s/it]  6%|▌         | 5676/100000 [3:25:58<41:03:46,  1.57s/it]                                                            6%|▌         | 5676/100000 [3:25:58<41:03:46,  1.57s/it]  6%|▌         | 5677/100000 [3:25:59<38:32:34,  1.47s/it]                                                            6%|▌         | 5677/100000 [3:25:59<38:32:34,  1.47s/it]  6%|▌         | 5678/100000 [3:26:00<36:40:54,  1.40s/it]                                                            6%|▌         | 5678/100000 [3:26:00<36:40:54,  1.40s/it]  6%|▌         | 5679/100000 [3:26:01<34:25:52,  1.31s/it]                                                            6%|▌         | 5679/100000 [3:26:01<34:25:52,  1.31s/it]  6%|▌         | 5680/100000 [3:26:02<32:31:28,  1.24s/it]                                                            6%|▌         | 5680/100000 [3:26:02<32:31:28,  1.24s/it]  6%|▌         | 5681/100000 [3:26:03<30:58:31,  1.18s/it]                                                            6%|▌         | 5681/100000 [3:26:03<30:58:31,  1.18s/it]  6%|▌         | 5682/100000 [3:26:04<29:19:57,  1.12s/it]                                                            6%|▌         | 5682/100000 [3:26:04<29:19:57,  1.12s/it]  6%|▌         | 5683/100000 [3:26:05<27:49:24,  1.06s/it]                                                            6%|▌         | 5683/100000 [3:26:05<27:49:24,  1.06s/it]  6%|▌         | 5684/100000 [3:26:06<26:35:58,  1.02s/it]                                                            6%|▌         | 5684/100000 [3:26:06<26:35:58,  1.02s/it]  6%|▌         | 5685/100000 [3:26:07<25:59:28,  1.01it/s]                                                            6%|▌         | 5685/100000 [3:26:07<25:59:28,  1.01it/s]  6%|▌         | 5686/100000 [3:26:08<25:15:05,  1.04it/s]                                                            6%|▌         | 5686/100000 [3:26:08<25:15:05,  1.04it/s]  6%|▌         | 5687/100000 [3:26:09<24:23:09,  1.07it/s]                                                            6%|▌         | 5687/100000 [3:26:09<24:23:09,  1.07it/s]  6%|▌         | 5688/100000 [3:26:10<23:18:45,  1.12it/s]                                                            6%|▌         | 5688/100000 [3:26:10<23:18:45,  1.12it/s]  6%|▌         | 5689/100000 [3:26:10<22:31:32,  1.16it/s]                                                            6%|▌         | 5689/100000 [3:26:10<22:31:32,  1.16it/s]  6%|▌         | 5690/100000 [3:26:11<21:28:50,  1.22it/s]                                                            6%|▌         | 5690/100000 [3:26:11<21:28:50,  1.22it/s]  6%|▌         | 5691/100000 [3:26:12<20:47:19,  1.26it/s]                                                            6%|▌         | 5691/100000 [3:26:12<20:47:19,  1.26it/s]  6%|▌         | 5692/100000 [3:26:13<20:05:45,  1.30it/s]                                                            6%|▌         | 5692/100000 [3:26:13<20:05:45,  1.30it/s]  6%|▌         | 5693/100000 [3:26:13<19:45:01,  1.33it/s]                                                            6%|▌         | 5693/100000 [3:26:13<19:45:01,  1.33it/s]  6%|▌         | 5694/100000 [3:26:14<18:48:03,  1.39it/s]                                                            6%|▌         | 5694/100000 [3:26:14<18:48:03,  1.39it/s]  6%|▌         | 5695/100000 [3:26:15<17:55:26,  1.46it/s]                                                            6%|▌         | 5695/100000 [3:26:15<17:55:26,  1.46it/s]  6%|▌         | 5696/100000 [3:26:15<16:59:12,  1.54it/s]                                                            6%|▌         | 5696/100000 [3:26:15<16:59:12,  1.54it/s]  6%|▌         | 5697/100000 [3:26:23<75:48:59,  2.89s/it]                                                            6%|▌         | 5697/100000 [3:26:23<75:48:59,  2.89s/it]  6%|▌         | 5698/100000 [3:26:25<63:44:36,  2.43s/it]                                                            6%|▌         | 5698/100000 [3:26:25<63:44:36,  2.43s/it]{'loss': 0.0849, 'grad_norm': 0.6643431186676025, 'learning_rate': 1.6872e-05, 'epoch': 36.55}
{'loss': 0.1037, 'grad_norm': 0.8235331177711487, 'learning_rate': 1.6875e-05, 'epoch': 36.55}
{'loss': 0.0847, 'grad_norm': 0.7135102152824402, 'learning_rate': 1.6878e-05, 'epoch': 36.56}
{'loss': 0.0536, 'grad_norm': 0.6796485781669617, 'learning_rate': 1.6881e-05, 'epoch': 36.56}
{'loss': 0.0584, 'grad_norm': 0.6374061703681946, 'learning_rate': 1.6884e-05, 'epoch': 36.57}
{'loss': 0.0735, 'grad_norm': 0.8407233953475952, 'learning_rate': 1.6887e-05, 'epoch': 36.58}
{'loss': 0.0496, 'grad_norm': 0.5711674094200134, 'learning_rate': 1.689e-05, 'epoch': 36.58}
{'loss': 0.0446, 'grad_norm': 0.5591414570808411, 'learning_rate': 1.6893000000000002e-05, 'epoch': 36.59}
{'loss': 0.0533, 'grad_norm': 1.305158257484436, 'learning_rate': 1.6896000000000002e-05, 'epoch': 36.6}
{'loss': 0.0341, 'grad_norm': 0.6431418061256409, 'learning_rate': 1.6899000000000002e-05, 'epoch': 36.6}
{'loss': 0.0426, 'grad_norm': 0.7269093990325928, 'learning_rate': 1.6902000000000002e-05, 'epoch': 36.61}
{'loss': 0.0363, 'grad_norm': 0.6993678212165833, 'learning_rate': 1.6905e-05, 'epoch': 36.62}
{'loss': 0.0614, 'grad_norm': 1.0103498697280884, 'learning_rate': 1.6908e-05, 'epoch': 36.62}
{'loss': 0.0375, 'grad_norm': 0.8588583469390869, 'learning_rate': 1.6911e-05, 'epoch': 36.63}
{'loss': 0.0367, 'grad_norm': 0.7279948592185974, 'learning_rate': 1.6914e-05, 'epoch': 36.64}
{'loss': 0.04, 'grad_norm': 1.2612000703811646, 'learning_rate': 1.6916999999999997e-05, 'epoch': 36.64}
{'loss': 0.0365, 'grad_norm': 0.9983683228492737, 'learning_rate': 1.6919999999999997e-05, 'epoch': 36.65}
{'loss': 0.0343, 'grad_norm': 1.5170689821243286, 'learning_rate': 1.6923e-05, 'epoch': 36.66}
{'loss': 0.0268, 'grad_norm': 0.8901492357254028, 'learning_rate': 1.6926e-05, 'epoch': 36.66}
{'loss': 0.0377, 'grad_norm': 1.0628329515457153, 'learning_rate': 1.6929e-05, 'epoch': 36.67}
{'loss': 0.0373, 'grad_norm': 1.0517581701278687, 'learning_rate': 1.6932e-05, 'epoch': 36.68}
{'loss': 0.0906, 'grad_norm': 1.6540533304214478, 'learning_rate': 1.6935e-05, 'epoch': 36.68}
{'loss': 0.0299, 'grad_norm': 1.5197350978851318, 'learning_rate': 1.6938e-05, 'epoch': 36.69}
{'loss': 0.0315, 'grad_norm': 1.1704401969909668, 'learning_rate': 1.6941e-05, 'epoch': 36.69}
{'loss': 0.0171, 'grad_norm': 0.6070331931114197, 'learning_rate': 1.6944e-05, 'epoch': 36.7}
{'loss': 0.0257, 'grad_norm': 0.9019739031791687, 'learning_rate': 1.6947e-05, 'epoch': 36.71}
{'loss': 0.0158, 'grad_norm': 0.6742686033248901, 'learning_rate': 1.695e-05, 'epoch': 36.71}
{'loss': 0.0273, 'grad_norm': 1.3139722347259521, 'learning_rate': 1.6953000000000002e-05, 'epoch': 36.72}
{'loss': 0.0216, 'grad_norm': 0.9058051109313965, 'learning_rate': 1.6956e-05, 'epoch': 36.73}
{'loss': 0.019, 'grad_norm': 1.3755125999450684, 'learning_rate': 1.6959e-05, 'epoch': 36.73}
{'loss': 0.0314, 'grad_norm': 1.923660397529602, 'learning_rate': 1.6962e-05, 'epoch': 36.74}
{'loss': 0.2079, 'grad_norm': 1.079805850982666, 'learning_rate': 1.6965e-05, 'epoch': 36.75}
{'loss': 0.1887, 'grad_norm': 1.0522691011428833, 'learning_rate': 1.6968e-05, 'epoch': 36.75}
{'loss': 0.1774, 'grad_norm': 1.562563180923462, 'learning_rate': 1.6971e-05, 'epoch': 36.76}
{'loss': 0.1546, 'grad_norm': 0.7595989108085632, 'learning_rate': 1.6974e-05, 'epoch': 36.77}
{'loss': 0.1164, 'grad_norm': 0.6375410556793213, 'learning_rate': 1.6977e-05, 'epoch': 36.77}
{'loss': 0.0936, 'grad_norm': 0.5554978251457214, 'learning_rate': 1.698e-05, 'epoch': 36.78}
{'loss': 0.0799, 'grad_norm': 0.5354553461074829, 'learning_rate': 1.6983000000000003e-05, 'epoch': 36.79}
{'loss': 0.0921, 'grad_norm': 0.640418529510498, 'learning_rate': 1.6986000000000003e-05, 'epoch': 36.79}
{'loss': 0.0588, 'grad_norm': 0.6407775282859802, 'learning_rate': 1.6989000000000003e-05, 'epoch': 36.8}
{'loss': 0.0711, 'grad_norm': 0.8139461278915405, 'learning_rate': 1.6992e-05, 'epoch': 36.81}
{'loss': 0.0565, 'grad_norm': 0.7290877103805542, 'learning_rate': 1.6995e-05, 'epoch': 36.81}
{'loss': 0.0611, 'grad_norm': 0.6902516484260559, 'learning_rate': 1.6998e-05, 'epoch': 36.82}
{'loss': 0.0523, 'grad_norm': 1.411387324333191, 'learning_rate': 1.7001e-05, 'epoch': 36.82}
{'loss': 0.0484, 'grad_norm': 0.7077982425689697, 'learning_rate': 1.7004e-05, 'epoch': 36.83}
{'loss': 0.0708, 'grad_norm': 0.8066951632499695, 'learning_rate': 1.7006999999999998e-05, 'epoch': 36.84}
{'loss': 0.046, 'grad_norm': 0.892748236656189, 'learning_rate': 1.7009999999999998e-05, 'epoch': 36.84}
{'loss': 0.0459, 'grad_norm': 0.5822304487228394, 'learning_rate': 1.7013e-05, 'epoch': 36.85}
{'loss': 0.0497, 'grad_norm': 0.9849515557289124, 'learning_rate': 1.7016e-05, 'epoch': 36.86}
{'loss': 0.0428, 'grad_norm': 1.4067884683609009, 'learning_rate': 1.7019e-05, 'epoch': 36.86}
{'loss': 0.0391, 'grad_norm': 0.7085466384887695, 'learning_rate': 1.7022e-05, 'epoch': 36.87}
{'loss': 0.0573, 'grad_norm': 0.9968199729919434, 'learning_rate': 1.7025e-05, 'epoch': 36.88}
{'loss': 0.0366, 'grad_norm': 1.059046983718872, 'learning_rate': 1.7028e-05, 'epoch': 36.88}
{'loss': 0.029, 'grad_norm': 0.824355959892273, 'learning_rate': 1.7031e-05, 'epoch': 36.89}
{'loss': 0.0427, 'grad_norm': 1.1645907163619995, 'learning_rate': 1.7034e-05, 'epoch': 36.9}
{'loss': 0.0324, 'grad_norm': 0.8073227405548096, 'learning_rate': 1.7037e-05, 'epoch': 36.9}
{'loss': 0.0333, 'grad_norm': 0.8278406262397766, 'learning_rate': 1.704e-05, 'epoch': 36.91}
{'loss': 0.0269, 'grad_norm': 0.8354420065879822, 'learning_rate': 1.7043000000000003e-05, 'epoch': 36.92}
{'loss': 0.1423, 'grad_norm': 1.4108926057815552, 'learning_rate': 1.7046000000000002e-05, 'epoch': 36.92}
{'loss': 0.0736, 'grad_norm': 6.090075492858887, 'learning_rate': 1.7049000000000002e-05, 'epoch': 36.93}
{'loss': 0.0191, 'grad_norm': 0.6664292216300964, 'learning_rate': 1.7052000000000002e-05, 'epoch': 36.94}
{'loss': 0.0185, 'grad_norm': 1.0764347314834595, 'learning_rate': 1.7055000000000002e-05, 'epoch': 36.94}
{'loss': 0.0273, 'grad_norm': 1.1082719564437866, 'learning_rate': 1.7058e-05, 'epoch': 36.95}
{'loss': 0.03, 'grad_norm': 1.3936892747879028, 'learning_rate': 1.7061e-05, 'epoch': 36.95}
{'loss': 0.0486, 'grad_norm': 3.5147287845611572, 'learning_rate': 1.7064e-05, 'epoch': 36.96}
{'loss': 0.0249, 'grad_norm': 1.4269124269485474, 'learning_rate': 1.7066999999999998e-05, 'epoch': 36.97}
{'loss': 0.0749, 'grad_norm': 1.4984941482543945, 'learning_rate': 1.7069999999999998e-05, 'epoch': 36.97}
{'loss': 0.0411, 'grad_norm': 3.2125484943389893, 'learning_rate': 1.7073e-05, 'epoch': 36.98}
{'loss': 0.0385, 'grad_norm': 1.6581830978393555, 'learning_rate': 1.7076e-05, 'epoch': 36.99}
{'loss': 0.1108, 'grad_norm': 1.3440250158309937, 'learning_rate': 1.7079e-05, 'epoch': 36.99}
{'loss': 0.0426, 'grad_norm': 1.3609342575073242, 'learning_rate': 1.7082e-05, 'epoch': 37.0}
  6%|▌         | 5699/100000 [3:26:42<178:18:18,  6.81s/it]                                                             6%|▌         | 5699/100000 [3:26:42<178:18:18,  6.81s/it]  6%|▌         | 5700/100000 [3:26:49<184:56:09,  7.06s/it]                                                             6%|▌         | 5700/100000 [3:26:49<184:56:09,  7.06s/it]  6%|▌         | 5701/100000 [3:26:55<171:33:28,  6.55s/it]                                                             6%|▌         | 5701/100000 [3:26:55<171:33:28,  6.55s/it]  6%|▌         | 5702/100000 [3:26:59<155:28:05,  5.94s/it]                                                             6%|▌         | 5702/100000 [3:26:59<155:28:05,  5.94s/it]  6%|▌         | 5703/100000 [3:27:03<139:40:12,  5.33s/it]                                                             6%|▌         | 5703/100000 [3:27:03<139:40:12,  5.33s/it]  6%|▌         | 5704/100000 [3:27:07<124:44:32,  4.76s/it]                                                             6%|▌         | 5704/100000 [3:27:07<124:44:32,  4.76s/it]  6%|▌         | 5705/100000 [3:27:10<110:42:21,  4.23s/it]                                                             6%|▌         | 5705/100000 [3:27:10<110:42:21,  4.23s/it]  6%|▌         | 5706/100000 [3:27:12<97:54:33,  3.74s/it]                                                             6%|▌         | 5706/100000 [3:27:12<97:54:33,  3.74s/it]  6%|▌         | 5707/100000 [3:27:14<86:37:47,  3.31s/it]                                                            6%|▌         | 5707/100000 [3:27:14<86:37:47,  3.31s/it]  6%|▌         | 5708/100000 [3:27:16<76:48:02,  2.93s/it]                                                            6%|▌         | 5708/100000 [3:27:16<76:48:02,  2.93s/it]  6%|▌         | 5709/100000 [3:27:18<69:21:04,  2.65s/it]                                                            6%|▌         | 5709/100000 [3:27:18<69:21:04,  2.65s/it]  6%|▌         | 5710/100000 [3:27:20<62:42:22,  2.39s/it]                                                            6%|▌         | 5710/100000 [3:27:20<62:42:22,  2.39s/it]  6%|▌         | 5711/100000 [3:27:22<57:30:24,  2.20s/it]                                                            6%|▌         | 5711/100000 [3:27:22<57:30:24,  2.20s/it]  6%|▌         | 5712/100000 [3:27:24<53:07:36,  2.03s/it]                                                            6%|▌         | 5712/100000 [3:27:24<53:07:36,  2.03s/it]  6%|▌         | 5713/100000 [3:27:25<49:31:16,  1.89s/it]                                                            6%|▌         | 5713/100000 [3:27:25<49:31:16,  1.89s/it]  6%|▌         | 5714/100000 [3:27:27<45:37:54,  1.74s/it]                                                            6%|▌         | 5714/100000 [3:27:27<45:37:54,  1.74s/it]  6%|▌         | 5715/100000 [3:27:28<42:48:35,  1.63s/it]                                                            6%|▌         | 5715/100000 [3:27:28<42:48:35,  1.63s/it]  6%|▌         | 5716/100000 [3:27:29<40:43:27,  1.55s/it]                                                            6%|▌         | 5716/100000 [3:27:29<40:43:27,  1.55s/it]  6%|▌         | 5717/100000 [3:27:31<38:37:01,  1.47s/it]                                                            6%|▌         | 5717/100000 [3:27:31<38:37:01,  1.47s/it]  6%|▌         | 5718/100000 [3:27:32<36:28:33,  1.39s/it]                                                            6%|▌         | 5718/100000 [3:27:32<36:28:33,  1.39s/it]  6%|▌         | 5719/100000 [3:27:33<34:31:43,  1.32s/it]                                                            6%|▌         | 5719/100000 [3:27:33<34:31:43,  1.32s/it]  6%|▌         | 5720/100000 [3:27:34<32:54:17,  1.26s/it]                                                            6%|▌         | 5720/100000 [3:27:34<32:54:17,  1.26s/it]  6%|▌         | 5721/100000 [3:27:35<31:23:41,  1.20s/it]                                                            6%|▌         | 5721/100000 [3:27:35<31:23:41,  1.20s/it]  6%|▌         | 5722/100000 [3:27:36<29:58:46,  1.14s/it]                                                            6%|▌         | 5722/100000 [3:27:36<29:58:46,  1.14s/it]  6%|▌         | 5723/100000 [3:27:37<28:29:39,  1.09s/it]                                                            6%|▌         | 5723/100000 [3:27:37<28:29:39,  1.09s/it]  6%|▌         | 5724/100000 [3:27:38<27:16:49,  1.04s/it]                                                            6%|▌         | 5724/100000 [3:27:38<27:16:49,  1.04s/it]  6%|▌         | 5725/100000 [3:27:39<26:11:47,  1.00s/it]                                                            6%|▌         | 5725/100000 [3:27:39<26:11:47,  1.00s/it]  6%|▌         | 5726/100000 [3:27:40<25:03:52,  1.04it/s]                                                            6%|▌         | 5726/100000 [3:27:40<25:03:52,  1.04it/s]  6%|▌         | 5727/100000 [3:27:41<24:08:38,  1.08it/s]                                                            6%|▌         | 5727/100000 [3:27:41<24:08:38,  1.08it/s]  6%|▌         | 5728/100000 [3:27:42<23:27:19,  1.12it/s]                                                            6%|▌         | 5728/100000 [3:27:42<23:27:19,  1.12it/s]  6%|▌         | 5729/100000 [3:27:42<23:02:25,  1.14it/s]                                                            6%|▌         | 5729/100000 [3:27:42<23:02:25,  1.14it/s]  6%|▌         | 5730/100000 [3:27:43<21:49:22,  1.20it/s]                                                            6%|▌         | 5730/100000 [3:27:43<21:49:22,  1.20it/s]  6%|▌         | 5731/100000 [3:27:44<20:55:49,  1.25it/s]                                                            6%|▌         | 5731/100000 [3:27:44<20:55:49,  1.25it/s]  6%|▌         | 5732/100000 [3:27:45<20:21:51,  1.29it/s]                                                            6%|▌         | 5732/100000 [3:27:45<20:21:51,  1.29it/s]  6%|▌         | 5733/100000 [3:27:45<20:06:44,  1.30it/s]                                                            6%|▌         | 5733/100000 [3:27:45<20:06:44,  1.30it/s]  6%|▌         | 5734/100000 [3:27:46<19:39:36,  1.33it/s]                                                            6%|▌         | 5734/100000 [3:27:46<19:39:36,  1.33it/s]  6%|▌         | 5735/100000 [3:27:47<19:12:30,  1.36it/s]                                                            6%|▌         | 5735/100000 [3:27:47<19:12:30,  1.36it/s]  6%|▌         | 5736/100000 [3:27:47<18:09:52,  1.44it/s]                                                            6%|▌         | 5736/100000 [3:27:47<18:09:52,  1.44it/s]  6%|▌         | 5737/100000 [3:28:00<115:57:40,  4.43s/it]                                                             6%|▌         | 5737/100000 [3:28:00<115:57:40,  4.43s/it]  6%|▌         | 5738/100000 [3:28:08<139:49:51,  5.34s/it]                                                             6%|▌         | 5738/100000 [3:28:08<139:49:51,  5.34s/it]  6%|▌         | 5739/100000 [3:28:14<143:46:44,  5.49s/it]                                                             6%|▌         | 5739/100000 [3:28:14<143:46:44,  5.49s/it]  6%|▌         | 5740/100000 [3:28:19<139:10:43,  5.32s/it]                                                             6%|▌         | 5740/100000 [3:28:19<139:10:43,  5.32s/it]  6%|▌         | 5741/100000 [3:28:23<129:54:55,  4.96s/it]                                                             6%|▌         | 5741/100000 [3:28:23<129:54:55,  4.96s/it]  6%|▌         | 5742/100000 [3:28:26<119:01:03,  4.55s/it]                                                             6%|▌         | 5742/100000 [3:28:26<119:01:03,  4.55s/it]  6%|▌         | 5743/100000 [3:28:29<107:37:40,  4.11s/it]                                                             6%|▌         | 5743/100000 [3:28:29<107:37:40,  4.11s/it]  6%|▌         | 5744/100000 [3:28:32<95:40:43,  3.65s/it]                                                             6%|▌         | 5744/100000 [3:28:32<95:40:43,  3.65s/it]  6%|▌         | 5745/100000 [3:28:34<85:59:04,  3.28s/it]                                                            6%|▌         | 5745/100000 [3:28:34<85:59:04,  3.28s/it]  6%|▌         | 5746/100000 [3:28:37<76:55:24,  2.94s/it]                                                            6%|▌         | 5746/100000 [3:28:37<76:55:24,  2.94s/it]  6%|▌         | 5747/100000 [3:28:39<69:22:07,  2.65s/it]                                                            6%|▌         | 5747/100000 [3:28:39<69:22:07,  2.65s/it]  6%|▌         | 5748/100000 [3:28:40<63:25:01,  2.42s/it]                                                            6%|▌         | 5748/100000 [3:28:40<63:25:01,  2.42s/it]  6%|▌         | 5749/100000 [3:28:42<58:11:41,  2.22s/it]                                                            6%|▌         | 5749/100000 [3:28:42<58:11:41,  2.22s/it]  6%|▌         | 5750/100000 [3:28:44<53:17:10,  2.04s/it]                                                            6%|▌         | 5750/100000 [3:28:44<53:17:10,  2.04s/it]  6%|▌         | 5751/100000 [3:28:45<49:31:46,  1.89s/it]                                                            6%|▌         | 5751/100000 [3:28:45<49:31:46,  1.89s/it]  6%|▌         | 5752/100000 [3:28:47<46:09:08,  1.76s/it]                                                            6%|▌         | 5752/100000 [3:28:47<46:09:08,  1.76s/it]  6%|▌         | 5753/100000 [3:28:48<43:00:06,  1.64s/it]                                                            6%|▌         | 5753/100000 [3:28:48<43:00:06,  1.64s/it]  6%|▌         | 5754/100000 [3:28:49<40:18:08,  1.54s/it]                                                            6%|▌         | 5754/100000 [3:28:49<40:18:08,  1.54s/it]  6%|▌         | 5755/100000 [3:28:51<39:19:20,  1.50s/it]                                                            6%|▌         | 5755/100000 [3:28:51<39:19:20,  1.50s/it]  6%|▌         | 5756/100000 [3:28:52<37:13:24,  1.42s/it]                                                            6%|▌         | 5756/100000 [3:28:52<37:13:24,  1.42s/it]  6%|▌         | 5757/100000 [3:28:53<34:44:47,  1.33s/it]                                                            6%|▌         | 5757/100000 [3:28:53<34:44:47,  1.33s/it]  6%|▌         | 5758/100000 [3:28:54<32:57:02,  1.26s/it]                                                            6%|▌         | 5758/100000 [3:28:54<32:57:02,  1.26s/it]  6%|▌         | 5759/100000 [3:28:55<31:14:11,  1.19s/it]                                                            6%|▌         | 5759/100000 [3:28:55<31:14:11,  1.19s/it]  6%|▌         | 5760/100000 [3:28:56<29:31:47,  1.13s/it]                                                            6%|▌         | 5760/100000 [3:28:56<29:31:47,  1.13s/it]  6%|▌         | 5761/100000 [3:28:57<27:53:40,  1.07s/it]                                                            6%|▌         | 5761/100000 [3:28:57<27:53:40,  1.07s/it]  6%|▌         | 5762/100000 [3:28:58<26:49:40,  1.02s/it]                                                            6%|▌         | 5762/100000 [3:28:58<26:49:40,  1.02s/it]  6%|▌         | 5763/100000 [3:28:59<25:54:31,  1.01it/s]                                                            6%|▌         | 5763/100000 [3:28:59<25:54:31,  1.01it/s]  6%|▌         | 5764/100000 [3:29:00<24:51:27,  1.05it/s]                                                            6%|▌         | 5764/100000 [3:29:00<24:51:27,  1.05it/s]  6%|▌         | 5765/100000 [3:29:01<24:10:44,  1.08it/s]                                                            6%|▌         | 5765/100000 [3:29:01<24:10:44,  1.08it/s]  6%|▌         | 5766/100000 [3:29:02<23:13:33,  1.13it/s]                                                            6%|▌         | 5766/100000 [3:29:02<23:13:33,  1.13it/s]  6%|▌         | 5767/100000 [3:29:02<22:21:52,  1.17it/s]                                                            6%|▌         | 5767/100000 [3:29:02<22:21:52,  1.17it/s]  6%|▌         | 5768/100000 [3:29:03<21:28:33,  1.22it/s]                                                            6%|▌         | 5768/100000 [3:29:03<21:28:33,  1.22it/s]  6%|▌         | 5769/100000 [3:29:04<20:42:30,  1.26it/s]                                                            6%|▌         | 5769/100000 [3:29:04<20:42:30,  1.26it/s]  6%|▌         | 5770/100000 [3:29:05<20:03:18,  1.31it/s]                                                            6%|▌         | 5770/100000 [3:29:05<20:03:18,  1.31it/s]  6%|▌         | 5771/100000 [3:29:05<19:32:06,  1.34it/s]                                                            6%|▌         | 5771/100000 [3:29:05<19:32:06,  1.34it/s]  6%|▌         | 5772/100000 [3:29:06<19:07:04,  1.37it/s]                                                            6%|▌         | 5772/100000 [3:29:06<19:07:04,  1.37it/s]  6%|▌         | 5773/100000 [3:29:07<18:34:58,  1.41it/s]                                                            6%|▌         | 5773/100000 [3:29:07<18:34:58,  1.41it/s]  6%|▌         | 5774/100000 [3:29:07<18:03:48,  1.45it/s]                                                            6%|▌         | 5774/100000 [3:29:07<18:03:48,  1.45it/s]  6%|▌         | 5775/100000 [3:29:21<119:11:08,  4.55s/it]                                                             6%|▌         | 5775/100000 [3:29:21<119:11:08,  4.55s/it]  6%|▌         | 5776/100000 [3:29:29<148:51:28,  5.69s/it]                                                             6%|▌         | 5776/100000 [3:29:29<148:51:28,  5.69s/it]  6%|▌         | 5777/100000 [3:29:35<148:44:42,  5.68s/it]                                                             6%|▌         | 5777/100000 [3:29:35<148:44:42,  5.68s/it]  6%|▌         | 5778/100000 [3:29:39<139:53:52,  5.35s/it]                                                             6%|▌         | 5778/100000 [3:29:39<139:53:52,  5.35s/it]  6%|▌         | 5779/100000 [3:29:43<129:01:39,  4.93s/it]                                                             6%|▌         | 5779/100000 [3:29:43<129:01:39,  4.93s/it]  6%|▌         | 5780/100000 [3:29:47<117:37:58,  4.49s/it]                                                             6%|▌         | 5780/100000 [3:29:47<117:37:58,  4.49s/it]  6%|▌         | 5781/100000 [3:29:50<105:56:42,  4.05s/it]                                                             6%|▌         | 5781/100000 [3:29:50<105:56:42,  4.05s/it]  6%|▌         | 5782/100000 [3:29:52<94:37:05,  3.62s/it]                                                             6%|▌         | 5782/100000 [3:29:52<94:37:05,  3.62s/it]  6%|▌         | 5783/100000 [3:29:55<84:09:27,  3.22s/it]                                                          {'loss': 0.2062, 'grad_norm': 1.1334292888641357, 'learning_rate': 1.7085e-05, 'epoch': 37.01}
{'loss': 0.0984, 'grad_norm': 0.7660831212997437, 'learning_rate': 1.7088e-05, 'epoch': 37.01}
{'loss': 0.1098, 'grad_norm': 0.7454615235328674, 'learning_rate': 1.7091e-05, 'epoch': 37.02}
{'loss': 0.1012, 'grad_norm': 0.6970952749252319, 'learning_rate': 1.7094e-05, 'epoch': 37.03}
{'loss': 0.082, 'grad_norm': 0.6063674688339233, 'learning_rate': 1.7097e-05, 'epoch': 37.03}
{'loss': 0.0827, 'grad_norm': 0.6604208946228027, 'learning_rate': 1.71e-05, 'epoch': 37.04}
{'loss': 0.0755, 'grad_norm': 1.046697735786438, 'learning_rate': 1.7103000000000002e-05, 'epoch': 37.05}
{'loss': 0.0685, 'grad_norm': 0.6330594420433044, 'learning_rate': 1.7106000000000002e-05, 'epoch': 37.05}
{'loss': 0.0671, 'grad_norm': 0.7544529438018799, 'learning_rate': 1.7109000000000002e-05, 'epoch': 37.06}
{'loss': 0.0599, 'grad_norm': 0.5452218651771545, 'learning_rate': 1.7112e-05, 'epoch': 37.06}
{'loss': 0.0569, 'grad_norm': 0.9836612939834595, 'learning_rate': 1.7115e-05, 'epoch': 37.07}
{'loss': 0.0602, 'grad_norm': 1.0307976007461548, 'learning_rate': 1.7118e-05, 'epoch': 37.08}
{'loss': 0.0542, 'grad_norm': 1.1556767225265503, 'learning_rate': 1.7121e-05, 'epoch': 37.08}
{'loss': 0.0492, 'grad_norm': 0.6957878470420837, 'learning_rate': 1.7124e-05, 'epoch': 37.09}
{'loss': 0.0433, 'grad_norm': 0.4967989921569824, 'learning_rate': 1.7127e-05, 'epoch': 37.1}
{'loss': 0.0402, 'grad_norm': 0.8635286688804626, 'learning_rate': 1.713e-05, 'epoch': 37.1}
{'loss': 0.0527, 'grad_norm': 0.5959172248840332, 'learning_rate': 1.7133000000000004e-05, 'epoch': 37.11}
{'loss': 0.044, 'grad_norm': 0.7301958799362183, 'learning_rate': 1.7136000000000003e-05, 'epoch': 37.12}
{'loss': 0.0368, 'grad_norm': 0.7209638953208923, 'learning_rate': 1.7139e-05, 'epoch': 37.12}
{'loss': 0.0412, 'grad_norm': 0.6433260440826416, 'learning_rate': 1.7142e-05, 'epoch': 37.13}
{'loss': 0.0392, 'grad_norm': 0.8160542249679565, 'learning_rate': 1.7145e-05, 'epoch': 37.14}
{'loss': 0.0234, 'grad_norm': 0.6958345174789429, 'learning_rate': 1.7148e-05, 'epoch': 37.14}
{'loss': 0.0248, 'grad_norm': 0.8268086314201355, 'learning_rate': 1.7151e-05, 'epoch': 37.15}
{'loss': 0.035, 'grad_norm': 0.8937343955039978, 'learning_rate': 1.7154e-05, 'epoch': 37.16}
{'loss': 0.0273, 'grad_norm': 1.1688623428344727, 'learning_rate': 1.7157e-05, 'epoch': 37.16}
{'loss': 0.0201, 'grad_norm': 0.6257572770118713, 'learning_rate': 1.716e-05, 'epoch': 37.17}
{'loss': 0.0361, 'grad_norm': 0.8103420734405518, 'learning_rate': 1.7163e-05, 'epoch': 37.18}
{'loss': 0.0718, 'grad_norm': 0.9322624206542969, 'learning_rate': 1.7166e-05, 'epoch': 37.18}
{'loss': 0.0718, 'grad_norm': 1.797329068183899, 'learning_rate': 1.7169e-05, 'epoch': 37.19}
{'loss': 0.0235, 'grad_norm': 1.5244590044021606, 'learning_rate': 1.7172e-05, 'epoch': 37.19}
{'loss': 0.0273, 'grad_norm': 1.2508708238601685, 'learning_rate': 1.7175e-05, 'epoch': 37.2}
{'loss': 0.0235, 'grad_norm': 1.0045535564422607, 'learning_rate': 1.7178e-05, 'epoch': 37.21}
{'loss': 0.0151, 'grad_norm': 0.9271621704101562, 'learning_rate': 1.7181e-05, 'epoch': 37.21}
{'loss': 0.0379, 'grad_norm': 1.365433931350708, 'learning_rate': 1.7184e-05, 'epoch': 37.22}
{'loss': 0.0206, 'grad_norm': 1.124583125114441, 'learning_rate': 1.7187e-05, 'epoch': 37.23}
{'loss': 0.05, 'grad_norm': 0.9550461173057556, 'learning_rate': 1.719e-05, 'epoch': 37.23}
{'loss': 0.0309, 'grad_norm': 1.3872320652008057, 'learning_rate': 1.7193000000000003e-05, 'epoch': 37.24}
{'loss': 0.0314, 'grad_norm': 1.669493317604065, 'learning_rate': 1.7196000000000003e-05, 'epoch': 37.25}
{'loss': 0.2046, 'grad_norm': 1.627392053604126, 'learning_rate': 1.7199000000000003e-05, 'epoch': 37.25}
{'loss': 0.1712, 'grad_norm': 1.403280258178711, 'learning_rate': 1.7202000000000002e-05, 'epoch': 37.26}
{'loss': 0.1597, 'grad_norm': 0.9655000567436218, 'learning_rate': 1.7205000000000002e-05, 'epoch': 37.27}
{'loss': 0.1038, 'grad_norm': 0.6900349855422974, 'learning_rate': 1.7208000000000002e-05, 'epoch': 37.27}
{'loss': 0.099, 'grad_norm': 1.0884501934051514, 'learning_rate': 1.7211000000000002e-05, 'epoch': 37.28}
{'loss': 0.0857, 'grad_norm': 0.8192713856697083, 'learning_rate': 1.7213999999999998e-05, 'epoch': 37.29}
{'loss': 0.0712, 'grad_norm': 0.6455428004264832, 'learning_rate': 1.7216999999999998e-05, 'epoch': 37.29}
{'loss': 0.0668, 'grad_norm': 0.5363640785217285, 'learning_rate': 1.7219999999999998e-05, 'epoch': 37.3}
{'loss': 0.0644, 'grad_norm': 0.8357273936271667, 'learning_rate': 1.7223e-05, 'epoch': 37.31}
{'loss': 0.0965, 'grad_norm': 0.9027391076087952, 'learning_rate': 1.7226e-05, 'epoch': 37.31}
{'loss': 0.0691, 'grad_norm': 0.9699553847312927, 'learning_rate': 1.7229e-05, 'epoch': 37.32}
{'loss': 0.0533, 'grad_norm': 0.8015051484107971, 'learning_rate': 1.7232e-05, 'epoch': 37.32}
{'loss': 0.0699, 'grad_norm': 0.6687750816345215, 'learning_rate': 1.7235e-05, 'epoch': 37.33}
{'loss': 0.0497, 'grad_norm': 0.7467076182365417, 'learning_rate': 1.7238e-05, 'epoch': 37.34}
{'loss': 0.0439, 'grad_norm': 0.7071698904037476, 'learning_rate': 1.7241e-05, 'epoch': 37.34}
{'loss': 0.0327, 'grad_norm': 0.6792380213737488, 'learning_rate': 1.7244e-05, 'epoch': 37.35}
{'loss': 0.0459, 'grad_norm': 0.9628933668136597, 'learning_rate': 1.7247e-05, 'epoch': 37.36}
{'loss': 0.0445, 'grad_norm': 0.8605318069458008, 'learning_rate': 1.725e-05, 'epoch': 37.36}
{'loss': 0.0414, 'grad_norm': 1.5665125846862793, 'learning_rate': 1.7253e-05, 'epoch': 37.37}
{'loss': 0.048, 'grad_norm': 0.9074105620384216, 'learning_rate': 1.7256000000000002e-05, 'epoch': 37.38}
{'loss': 0.0272, 'grad_norm': 1.0730267763137817, 'learning_rate': 1.7259000000000002e-05, 'epoch': 37.38}
{'loss': 0.0291, 'grad_norm': 0.670157790184021, 'learning_rate': 1.7262000000000002e-05, 'epoch': 37.39}
{'loss': 0.0491, 'grad_norm': 0.7516063451766968, 'learning_rate': 1.7265e-05, 'epoch': 37.4}
{'loss': 0.0667, 'grad_norm': 1.1593263149261475, 'learning_rate': 1.7268e-05, 'epoch': 37.4}
{'loss': 0.0251, 'grad_norm': 0.9657774567604065, 'learning_rate': 1.7271e-05, 'epoch': 37.41}
{'loss': 0.045, 'grad_norm': 1.255046010017395, 'learning_rate': 1.7274e-05, 'epoch': 37.42}
{'loss': 0.041, 'grad_norm': 0.7826346755027771, 'learning_rate': 1.7277e-05, 'epoch': 37.42}
{'loss': 0.0236, 'grad_norm': 0.971733808517456, 'learning_rate': 1.728e-05, 'epoch': 37.43}
{'loss': 0.1093, 'grad_norm': 3.683788299560547, 'learning_rate': 1.7283e-05, 'epoch': 37.44}
{'loss': 0.0297, 'grad_norm': 0.9714518189430237, 'learning_rate': 1.7286e-05, 'epoch': 37.44}
{'loss': 0.0297, 'grad_norm': 1.0599550008773804, 'learning_rate': 1.7289e-05, 'epoch': 37.45}
{'loss': 0.0122, 'grad_norm': 0.7278720140457153, 'learning_rate': 1.7292e-05, 'epoch': 37.45}
{'loss': 0.0276, 'grad_norm': 1.3217406272888184, 'learning_rate': 1.7295e-05, 'epoch': 37.46}
{'loss': 0.0232, 'grad_norm': 0.9924108386039734, 'learning_rate': 1.7298e-05, 'epoch': 37.47}
{'loss': 0.0259, 'grad_norm': 1.4007917642593384, 'learning_rate': 1.7301e-05, 'epoch': 37.47}
{'loss': 0.0299, 'grad_norm': 1.0249673128128052, 'learning_rate': 1.7304e-05, 'epoch': 37.48}
{'loss': 0.0316, 'grad_norm': 1.3321986198425293, 'learning_rate': 1.7307e-05, 'epoch': 37.49}
{'loss': 0.0569, 'grad_norm': 3.1942138671875, 'learning_rate': 1.731e-05, 'epoch': 37.49}
{'loss': 0.2134, 'grad_norm': 1.2103971242904663, 'learning_rate': 1.7313e-05, 'epoch': 37.5}
{'loss': 0.1538, 'grad_norm': 0.7024197578430176, 'learning_rate': 1.7316e-05, 'epoch': 37.51}
{'loss': 0.1063, 'grad_norm': 0.5609453916549683, 'learning_rate': 1.7319e-05, 'epoch': 37.51}
{'loss': 0.1031, 'grad_norm': 0.5807946920394897, 'learning_rate': 1.7322e-05, 'epoch': 37.52}
{'loss': 0.0766, 'grad_norm': 0.5718410015106201, 'learning_rate': 1.7325e-05, 'epoch': 37.53}
{'loss': 0.07, 'grad_norm': 0.5519632697105408, 'learning_rate': 1.7328e-05, 'epoch': 37.53}
{'loss': 0.0882, 'grad_norm': 0.6089639067649841, 'learning_rate': 1.7331e-05, 'epoch': 37.54}
{'loss': 0.0724, 'grad_norm': 0.653283417224884, 'learning_rate': 1.7334e-05, 'epoch': 37.55}
  6%|▌         | 5783/100000 [3:29:55<84:09:27,  3.22s/it]  6%|▌         | 5784/100000 [3:29:57<75:23:04,  2.88s/it]                                                            6%|▌         | 5784/100000 [3:29:57<75:23:04,  2.88s/it]  6%|▌         | 5785/100000 [3:29:59<67:18:27,  2.57s/it]                                                            6%|▌         | 5785/100000 [3:29:59<67:18:27,  2.57s/it]  6%|▌         | 5786/100000 [3:30:01<61:20:05,  2.34s/it]                                                            6%|▌         | 5786/100000 [3:30:01<61:20:05,  2.34s/it]  6%|▌         | 5787/100000 [3:30:02<56:27:48,  2.16s/it]                                                            6%|▌         | 5787/100000 [3:30:02<56:27:48,  2.16s/it]  6%|▌         | 5788/100000 [3:30:04<52:21:19,  2.00s/it]                                                            6%|▌         | 5788/100000 [3:30:04<52:21:19,  2.00s/it]  6%|▌         | 5789/100000 [3:30:05<48:45:01,  1.86s/it]                                                            6%|▌         | 5789/100000 [3:30:05<48:45:01,  1.86s/it]  6%|▌         | 5790/100000 [3:30:07<45:26:28,  1.74s/it]                                                            6%|▌         | 5790/100000 [3:30:07<45:26:28,  1.74s/it]  6%|▌         | 5791/100000 [3:30:08<42:59:55,  1.64s/it]                                                            6%|▌         | 5791/100000 [3:30:08<42:59:55,  1.64s/it]  6%|▌         | 5792/100000 [3:30:10<40:28:36,  1.55s/it]                                                            6%|▌         | 5792/100000 [3:30:10<40:28:36,  1.55s/it]  6%|▌         | 5793/100000 [3:30:11<38:20:27,  1.47s/it]                                                            6%|▌         | 5793/100000 [3:30:11<38:20:27,  1.47s/it]  6%|▌         | 5794/100000 [3:30:12<36:36:28,  1.40s/it]                                                            6%|▌         | 5794/100000 [3:30:12<36:36:28,  1.40s/it]  6%|▌         | 5795/100000 [3:30:13<34:46:04,  1.33s/it]                                                            6%|▌         | 5795/100000 [3:30:13<34:46:04,  1.33s/it]  6%|▌         | 5796/100000 [3:30:14<32:48:26,  1.25s/it]                                                            6%|▌         | 5796/100000 [3:30:14<32:48:26,  1.25s/it]  6%|▌         | 5797/100000 [3:30:15<31:16:29,  1.20s/it]                                                            6%|▌         | 5797/100000 [3:30:15<31:16:29,  1.20s/it]  6%|▌         | 5798/100000 [3:30:16<29:39:55,  1.13s/it]                                                            6%|▌         | 5798/100000 [3:30:16<29:39:55,  1.13s/it]  6%|▌         | 5799/100000 [3:30:17<28:07:12,  1.07s/it]                                                            6%|▌         | 5799/100000 [3:30:17<28:07:12,  1.07s/it]  6%|▌         | 5800/100000 [3:30:18<27:04:08,  1.03s/it]                                                            6%|▌         | 5800/100000 [3:30:18<27:04:08,  1.03s/it]  6%|▌         | 5801/100000 [3:30:19<26:14:58,  1.00s/it]                                                            6%|▌         | 5801/100000 [3:30:19<26:14:58,  1.00s/it]  6%|▌         | 5802/100000 [3:30:20<25:18:18,  1.03it/s]                                                            6%|▌         | 5802/100000 [3:30:20<25:18:18,  1.03it/s]  6%|▌         | 5803/100000 [3:30:21<24:18:22,  1.08it/s]                                                            6%|▌         | 5803/100000 [3:30:21<24:18:22,  1.08it/s]  6%|▌         | 5804/100000 [3:30:22<23:39:54,  1.11it/s]                                                            6%|▌         | 5804/100000 [3:30:22<23:39:54,  1.11it/s]  6%|▌         | 5805/100000 [3:30:23<23:07:43,  1.13it/s]                                                            6%|▌         | 5805/100000 [3:30:23<23:07:43,  1.13it/s]  6%|▌         | 5806/100000 [3:30:23<22:38:37,  1.16it/s]                                                            6%|▌         | 5806/100000 [3:30:23<22:38:37,  1.16it/s]  6%|▌         | 5807/100000 [3:30:24<21:46:59,  1.20it/s]                                                            6%|▌         | 5807/100000 [3:30:24<21:46:59,  1.20it/s]  6%|▌         | 5808/100000 [3:30:25<20:57:01,  1.25it/s]                                                            6%|▌         | 5808/100000 [3:30:25<20:57:01,  1.25it/s]  6%|▌         | 5809/100000 [3:30:26<20:35:58,  1.27it/s]                                                            6%|▌         | 5809/100000 [3:30:26<20:35:58,  1.27it/s]  6%|▌         | 5810/100000 [3:30:26<19:54:17,  1.31it/s]                                                            6%|▌         | 5810/100000 [3:30:26<19:54:17,  1.31it/s]  6%|▌         | 5811/100000 [3:30:27<19:11:23,  1.36it/s]                                                            6%|▌         | 5811/100000 [3:30:27<19:11:23,  1.36it/s]  6%|▌         | 5812/100000 [3:30:28<18:43:27,  1.40it/s]                                                            6%|▌         | 5812/100000 [3:30:28<18:43:27,  1.40it/s]  6%|▌         | 5813/100000 [3:30:39<100:33:47,  3.84s/it]                                                             6%|▌         | 5813/100000 [3:30:39<100:33:47,  3.84s/it]  6%|▌         | 5814/100000 [3:30:47<130:23:51,  4.98s/it]                                                             6%|▌         | 5814/100000 [3:30:47<130:23:51,  4.98s/it]  6%|▌         | 5815/100000 [3:30:52<133:00:01,  5.08s/it]                                                             6%|▌         | 5815/100000 [3:30:52<133:00:01,  5.08s/it]  6%|▌         | 5816/100000 [3:30:56<129:12:39,  4.94s/it]                                                             6%|▌         | 5816/100000 [3:30:56<129:12:39,  4.94s/it]  6%|▌         | 5817/100000 [3:31:00<121:52:58,  4.66s/it]                                                             6%|▌         | 5817/100000 [3:31:00<121:52:58,  4.66s/it]  6%|▌         | 5818/100000 [3:31:04<112:48:22,  4.31s/it]                                                             6%|▌         | 5818/100000 [3:31:04<112:48:22,  4.31s/it]  6%|▌         | 5819/100000 [3:31:07<102:21:15,  3.91s/it]                                                             6%|▌         | 5819/100000 [3:31:07<102:21:15,  3.91s/it]  6%|▌         | 5820/100000 [3:31:10<91:59:48,  3.52s/it]                                                             6%|▌         | 5820/100000 [3:31:10<91:59:48,  3.52s/it]  6%|▌         | 5821/100000 [3:31:12<82:34:17,  3.16s/it]                                                            6%|▌         | 5821/100000 [3:31:12<82:34:17,  3.16s/it]  6%|▌         | 5822/100000 [3:31:14<74:57:38,  2.87s/it]                                                            6%|▌         | 5822/100000 [3:31:14<74:57:38,  2.87s/it]  6%|▌         | 5823/100000 [3:31:16<68:10:41,  2.61s/it]                                                            6%|▌         | 5823/100000 [3:31:16<68:10:41,  2.61s/it]  6%|▌         | 5824/100000 [3:31:18<61:53:46,  2.37s/it]                                                            6%|▌         | 5824/100000 [3:31:18<61:53:46,  2.37s/it]  6%|▌         | 5825/100000 [3:31:20<57:06:31,  2.18s/it]                                                            6%|▌         | 5825/100000 [3:31:20<57:06:31,  2.18s/it]  6%|▌         | 5826/100000 [3:31:21<52:31:02,  2.01s/it]                                                            6%|▌         | 5826/100000 [3:31:21<52:31:02,  2.01s/it]  6%|▌         | 5827/100000 [3:31:23<49:19:06,  1.89s/it]                                                            6%|▌         | 5827/100000 [3:31:23<49:19:06,  1.89s/it]  6%|▌         | 5828/100000 [3:31:24<45:44:50,  1.75s/it]                                                            6%|▌         | 5828/100000 [3:31:24<45:44:50,  1.75s/it]  6%|▌         | 5829/100000 [3:31:26<42:57:06,  1.64s/it]                                                            6%|▌         | 5829/100000 [3:31:26<42:57:06,  1.64s/it]  6%|▌         | 5830/100000 [3:31:27<40:21:49,  1.54s/it]                                                            6%|▌         | 5830/100000 [3:31:27<40:21:49,  1.54s/it]  6%|▌         | 5831/100000 [3:31:28<38:32:11,  1.47s/it]                                                            6%|▌         | 5831/100000 [3:31:28<38:32:11,  1.47s/it]  6%|▌         | 5832/100000 [3:31:29<36:32:12,  1.40s/it]                                                            6%|▌         | 5832/100000 [3:31:29<36:32:12,  1.40s/it]  6%|▌         | 5833/100000 [3:31:31<34:26:20,  1.32s/it]                                                            6%|▌         | 5833/100000 [3:31:31<34:26:20,  1.32s/it]  6%|▌         | 5834/100000 [3:31:32<32:34:54,  1.25s/it]                                                            6%|▌         | 5834/100000 [3:31:32<32:34:54,  1.25s/it]  6%|▌         | 5835/100000 [3:31:33<30:55:29,  1.18s/it]                                                            6%|▌         | 5835/100000 [3:31:33<30:55:29,  1.18s/it]  6%|▌         | 5836/100000 [3:31:34<29:17:06,  1.12s/it]                                                            6%|▌         | 5836/100000 [3:31:34<29:17:06,  1.12s/it]  6%|▌         | 5837/100000 [3:31:35<28:04:12,  1.07s/it]                                                            6%|▌         | 5837/100000 [3:31:35<28:04:12,  1.07s/it]  6%|▌         | 5838/100000 [3:31:36<27:08:02,  1.04s/it]                                                            6%|▌         | 5838/100000 [3:31:36<27:08:02,  1.04s/it]  6%|▌         | 5839/100000 [3:31:36<25:50:03,  1.01it/s]                                                            6%|▌         | 5839/100000 [3:31:36<25:50:03,  1.01it/s]  6%|▌         | 5840/100000 [3:31:37<24:44:20,  1.06it/s]                                                            6%|▌         | 5840/100000 [3:31:37<24:44:20,  1.06it/s]  6%|▌         | 5841/100000 [3:31:38<23:39:43,  1.11it/s]                                                            6%|▌         | 5841/100000 [3:31:38<23:39:43,  1.11it/s]  6%|▌         | 5842/100000 [3:31:39<22:58:06,  1.14it/s]                                                            6%|▌         | 5842/100000 [3:31:39<22:58:06,  1.14it/s]  6%|▌         | 5843/100000 [3:31:40<22:26:23,  1.17it/s]                                                            6%|▌         | 5843/100000 [3:31:40<22:26:23,  1.17it/s]  6%|▌         | 5844/100000 [3:31:41<21:59:09,  1.19it/s]                                                            6%|▌         | 5844/100000 [3:31:41<21:59:09,  1.19it/s]  6%|▌         | 5845/100000 [3:31:41<20:55:09,  1.25it/s]                                                            6%|▌         | 5845/100000 [3:31:41<20:55:09,  1.25it/s]  6%|▌         | 5846/100000 [3:31:42<20:27:52,  1.28it/s]                                                            6%|▌         | 5846/100000 [3:31:42<20:27:52,  1.28it/s]  6%|▌         | 5847/100000 [3:31:43<20:06:22,  1.30it/s]                                                            6%|▌         | 5847/100000 [3:31:43<20:06:22,  1.30it/s]  6%|▌         | 5848/100000 [3:31:43<19:23:19,  1.35it/s]                                                            6%|▌         | 5848/100000 [3:31:43<19:23:19,  1.35it/s]  6%|▌         | 5849/100000 [3:31:44<18:24:07,  1.42it/s]                                                            6%|▌         | 5849/100000 [3:31:44<18:24:07,  1.42it/s]  6%|▌         | 5850/100000 [3:31:45<17:49:00,  1.47it/s]                                                            6%|▌         | 5850/100000 [3:31:45<17:49:00,  1.47it/s]  6%|▌         | 5851/100000 [3:31:51<65:01:56,  2.49s/it]                                                            6%|▌         | 5851/100000 [3:31:51<65:01:56,  2.49s/it]  6%|▌         | 5852/100000 [3:31:53<55:31:29,  2.12s/it]                                                            6%|▌         | 5852/100000 [3:31:53<55:31:29,  2.12s/it]{'loss': 0.084, 'grad_norm': 0.8783876895904541, 'learning_rate': 1.7337e-05, 'epoch': 37.55}
{'loss': 0.0633, 'grad_norm': 0.6336365342140198, 'learning_rate': 1.734e-05, 'epoch': 37.56}
{'loss': 0.051, 'grad_norm': 0.67479008436203, 'learning_rate': 1.7343e-05, 'epoch': 37.56}
{'loss': 0.0785, 'grad_norm': 0.7415522933006287, 'learning_rate': 1.7346000000000003e-05, 'epoch': 37.57}
{'loss': 0.0473, 'grad_norm': 0.758065938949585, 'learning_rate': 1.7349000000000003e-05, 'epoch': 37.58}
{'loss': 0.0472, 'grad_norm': 0.6210603713989258, 'learning_rate': 1.7352000000000003e-05, 'epoch': 37.58}
{'loss': 0.0565, 'grad_norm': 0.7808500528335571, 'learning_rate': 1.7355000000000002e-05, 'epoch': 37.59}
{'loss': 0.0898, 'grad_norm': 0.6554234623908997, 'learning_rate': 1.7358000000000002e-05, 'epoch': 37.6}
{'loss': 0.0376, 'grad_norm': 0.793032169342041, 'learning_rate': 1.7361e-05, 'epoch': 37.6}
{'loss': 0.0442, 'grad_norm': 0.6790408492088318, 'learning_rate': 1.7364e-05, 'epoch': 37.61}
{'loss': 0.035, 'grad_norm': 0.9405946731567383, 'learning_rate': 1.7366999999999998e-05, 'epoch': 37.62}
{'loss': 0.0358, 'grad_norm': 0.7565609812736511, 'learning_rate': 1.7369999999999998e-05, 'epoch': 37.62}
{'loss': 0.0335, 'grad_norm': 0.6306857466697693, 'learning_rate': 1.7372999999999998e-05, 'epoch': 37.63}
{'loss': 0.0339, 'grad_norm': 0.5620885491371155, 'learning_rate': 1.7376e-05, 'epoch': 37.64}
{'loss': 0.0445, 'grad_norm': 1.1474175453186035, 'learning_rate': 1.7379e-05, 'epoch': 37.64}
{'loss': 0.0225, 'grad_norm': 0.771521806716919, 'learning_rate': 1.7382e-05, 'epoch': 37.65}
{'loss': 0.0331, 'grad_norm': 0.8267678618431091, 'learning_rate': 1.7385e-05, 'epoch': 37.66}
{'loss': 0.0185, 'grad_norm': 1.05136239528656, 'learning_rate': 1.7388e-05, 'epoch': 37.66}
{'loss': 0.0305, 'grad_norm': 2.978750228881836, 'learning_rate': 1.7391e-05, 'epoch': 37.67}
{'loss': 0.0815, 'grad_norm': 1.0309536457061768, 'learning_rate': 1.7394e-05, 'epoch': 37.68}
{'loss': 0.0199, 'grad_norm': 0.754971444606781, 'learning_rate': 1.7397e-05, 'epoch': 37.68}
{'loss': 0.0479, 'grad_norm': 1.1287074089050293, 'learning_rate': 1.74e-05, 'epoch': 37.69}
{'loss': 0.0342, 'grad_norm': 7.607512474060059, 'learning_rate': 1.7403e-05, 'epoch': 37.69}
{'loss': 0.0596, 'grad_norm': 0.8304714560508728, 'learning_rate': 1.7406000000000002e-05, 'epoch': 37.7}
{'loss': 0.0436, 'grad_norm': 2.147242546081543, 'learning_rate': 1.7409000000000002e-05, 'epoch': 37.71}
{'loss': 0.018, 'grad_norm': 0.5442707538604736, 'learning_rate': 1.7412000000000002e-05, 'epoch': 37.71}
{'loss': 0.0374, 'grad_norm': 1.617563247680664, 'learning_rate': 1.7415000000000002e-05, 'epoch': 37.72}
{'loss': 0.0532, 'grad_norm': 1.5006717443466187, 'learning_rate': 1.7418e-05, 'epoch': 37.73}
{'loss': 0.0435, 'grad_norm': 1.3319306373596191, 'learning_rate': 1.7421e-05, 'epoch': 37.73}
{'loss': 0.0621, 'grad_norm': 2.7878146171569824, 'learning_rate': 1.7424e-05, 'epoch': 37.74}
{'loss': 0.1678, 'grad_norm': 1.0715336799621582, 'learning_rate': 1.7427e-05, 'epoch': 37.75}
{'loss': 0.1501, 'grad_norm': 1.0001554489135742, 'learning_rate': 1.743e-05, 'epoch': 37.75}
{'loss': 0.136, 'grad_norm': 1.3929139375686646, 'learning_rate': 1.7432999999999997e-05, 'epoch': 37.76}
{'loss': 0.1305, 'grad_norm': 0.753821074962616, 'learning_rate': 1.7436e-05, 'epoch': 37.77}
{'loss': 0.1067, 'grad_norm': 0.9422836899757385, 'learning_rate': 1.7439e-05, 'epoch': 37.77}
{'loss': 0.0774, 'grad_norm': 0.738175630569458, 'learning_rate': 1.7442e-05, 'epoch': 37.78}
{'loss': 0.0777, 'grad_norm': 0.8037830591201782, 'learning_rate': 1.7445e-05, 'epoch': 37.79}
{'loss': 0.0824, 'grad_norm': 0.653579592704773, 'learning_rate': 1.7448e-05, 'epoch': 37.79}
{'loss': 0.0549, 'grad_norm': 0.7349414825439453, 'learning_rate': 1.7451e-05, 'epoch': 37.8}
{'loss': 0.0744, 'grad_norm': 0.6245487928390503, 'learning_rate': 1.7454e-05, 'epoch': 37.81}
{'loss': 0.0599, 'grad_norm': 0.593313992023468, 'learning_rate': 1.7457e-05, 'epoch': 37.81}
{'loss': 0.0534, 'grad_norm': 0.8314938545227051, 'learning_rate': 1.746e-05, 'epoch': 37.82}
{'loss': 0.055, 'grad_norm': 0.8039278388023376, 'learning_rate': 1.7463e-05, 'epoch': 37.82}
{'loss': 0.0384, 'grad_norm': 0.7795524597167969, 'learning_rate': 1.7466000000000002e-05, 'epoch': 37.83}
{'loss': 0.0537, 'grad_norm': 0.9712786078453064, 'learning_rate': 1.7469e-05, 'epoch': 37.84}
{'loss': 0.0376, 'grad_norm': 0.7342591881752014, 'learning_rate': 1.7472e-05, 'epoch': 37.84}
{'loss': 0.0239, 'grad_norm': 0.3758125603199005, 'learning_rate': 1.7475e-05, 'epoch': 37.85}
{'loss': 0.0334, 'grad_norm': 0.5516881942749023, 'learning_rate': 1.7478e-05, 'epoch': 37.86}
{'loss': 0.0512, 'grad_norm': 1.0056655406951904, 'learning_rate': 1.7481e-05, 'epoch': 37.86}
{'loss': 0.0436, 'grad_norm': 2.4269204139709473, 'learning_rate': 1.7484e-05, 'epoch': 37.87}
{'loss': 0.0422, 'grad_norm': 1.199601650238037, 'learning_rate': 1.7487e-05, 'epoch': 37.88}
{'loss': 0.0486, 'grad_norm': 0.9890825748443604, 'learning_rate': 1.749e-05, 'epoch': 37.88}
{'loss': 0.0337, 'grad_norm': 0.9170809984207153, 'learning_rate': 1.7493e-05, 'epoch': 37.89}
{'loss': 0.035, 'grad_norm': 0.7678168416023254, 'learning_rate': 1.7496000000000003e-05, 'epoch': 37.9}
{'loss': 0.0178, 'grad_norm': 0.6635600328445435, 'learning_rate': 1.7499000000000003e-05, 'epoch': 37.9}
{'loss': 0.0239, 'grad_norm': 0.7869285345077515, 'learning_rate': 1.7502000000000003e-05, 'epoch': 37.91}
{'loss': 0.0259, 'grad_norm': 0.7818475961685181, 'learning_rate': 1.7505000000000003e-05, 'epoch': 37.92}
{'loss': 0.035, 'grad_norm': 1.2312337160110474, 'learning_rate': 1.7508e-05, 'epoch': 37.92}
{'loss': 0.0202, 'grad_norm': 0.5463338494300842, 'learning_rate': 1.7511e-05, 'epoch': 37.93}
{'loss': 0.0269, 'grad_norm': 1.0371822118759155, 'learning_rate': 1.7514e-05, 'epoch': 37.94}
{'loss': 0.0298, 'grad_norm': 1.0620023012161255, 'learning_rate': 1.7517e-05, 'epoch': 37.94}
{'loss': 0.0304, 'grad_norm': 0.980640172958374, 'learning_rate': 1.7519999999999998e-05, 'epoch': 37.95}
{'loss': 0.0201, 'grad_norm': 0.8618109226226807, 'learning_rate': 1.7522999999999998e-05, 'epoch': 37.95}
{'loss': 0.0133, 'grad_norm': 0.6005764007568359, 'learning_rate': 1.7526e-05, 'epoch': 37.96}
{'loss': 0.0239, 'grad_norm': 0.9647967219352722, 'learning_rate': 1.7529e-05, 'epoch': 37.97}
{'loss': 0.0111, 'grad_norm': 0.8149131536483765, 'learning_rate': 1.7532e-05, 'epoch': 37.97}
{'loss': 0.0321, 'grad_norm': 1.2063897848129272, 'learning_rate': 1.7535e-05, 'epoch': 37.98}
{'loss': 0.0766, 'grad_norm': 2.4794888496398926, 'learning_rate': 1.7538e-05, 'epoch': 37.99}
{'loss': 0.0944, 'grad_norm': 1.2258323431015015, 'learning_rate': 1.7541e-05, 'epoch': 37.99}
{'loss': 0.0247, 'grad_norm': 1.3348525762557983, 'learning_rate': 1.7544e-05, 'epoch': 38.0}
  6%|▌         | 5853/100000 [3:32:10<173:59:23,  6.65s/it]                                                             6%|▌         | 5853/100000 [3:32:10<173:59:23,  6.65s/it]  6%|▌         | 5854/100000 [3:32:18<182:09:54,  6.97s/it]                                                             6%|▌         | 5854/100000 [3:32:18<182:09:54,  6.97s/it]  6%|▌         | 5855/100000 [3:32:23<170:31:58,  6.52s/it]                                                             6%|▌         | 5855/100000 [3:32:23<170:31:58,  6.52s/it]  6%|▌         | 5856/100000 [3:32:28<155:46:06,  5.96s/it]                                                             6%|▌         | 5856/100000 [3:32:28<155:46:06,  5.96s/it]  6%|▌         | 5857/100000 [3:32:32<139:29:22,  5.33s/it]                                                             6%|▌         | 5857/100000 [3:32:32<139:29:22,  5.33s/it]  6%|▌         | 5858/100000 [3:32:35<124:47:56,  4.77s/it]                                                             6%|▌         | 5858/100000 [3:32:35<124:47:56,  4.77s/it]  6%|▌         | 5859/100000 [3:32:38<111:00:10,  4.24s/it]                                                             6%|▌         | 5859/100000 [3:32:38<111:00:10,  4.24s/it]  6%|▌         | 5860/100000 [3:32:41<98:44:05,  3.78s/it]                                                             6%|▌         | 5860/100000 [3:32:41<98:44:05,  3.78s/it]  6%|▌         | 5861/100000 [3:32:43<87:31:19,  3.35s/it]                                                            6%|▌         | 5861/100000 [3:32:43<87:31:19,  3.35s/it]  6%|▌         | 5862/100000 [3:32:45<77:28:30,  2.96s/it]                                                            6%|▌         | 5862/100000 [3:32:45<77:28:30,  2.96s/it]  6%|▌         | 5863/100000 [3:32:47<69:35:56,  2.66s/it]                                                            6%|▌         | 5863/100000 [3:32:47<69:35:56,  2.66s/it]  6%|▌         | 5864/100000 [3:32:49<62:54:03,  2.41s/it]                                                            6%|▌         | 5864/100000 [3:32:49<62:54:03,  2.41s/it]  6%|▌         | 5865/100000 [3:32:51<57:19:21,  2.19s/it]                                                            6%|▌         | 5865/100000 [3:32:51<57:19:21,  2.19s/it]  6%|▌         | 5866/100000 [3:32:52<52:51:10,  2.02s/it]                                                            6%|▌         | 5866/100000 [3:32:52<52:51:10,  2.02s/it]  6%|▌         | 5867/100000 [3:32:54<48:56:55,  1.87s/it]                                                            6%|▌         | 5867/100000 [3:32:54<48:56:55,  1.87s/it]  6%|▌         | 5868/100000 [3:32:55<45:28:36,  1.74s/it]                                                            6%|▌         | 5868/100000 [3:32:55<45:28:36,  1.74s/it]  6%|▌         | 5869/100000 [3:32:56<42:19:11,  1.62s/it]                                                            6%|▌         | 5869/100000 [3:32:56<42:19:11,  1.62s/it]  6%|▌         | 5870/100000 [3:32:58<39:43:17,  1.52s/it]                                                            6%|▌         | 5870/100000 [3:32:58<39:43:17,  1.52s/it]  6%|▌         | 5871/100000 [3:32:59<38:00:43,  1.45s/it]                                                            6%|▌         | 5871/100000 [3:32:59<38:00:43,  1.45s/it]  6%|▌         | 5872/100000 [3:33:00<36:12:59,  1.39s/it]                                                            6%|▌         | 5872/100000 [3:33:00<36:12:59,  1.39s/it]  6%|▌         | 5873/100000 [3:33:01<34:14:28,  1.31s/it]                                                            6%|▌         | 5873/100000 [3:33:01<34:14:28,  1.31s/it]  6%|▌         | 5874/100000 [3:33:03<32:42:47,  1.25s/it]                                                            6%|▌         | 5874/100000 [3:33:03<32:42:47,  1.25s/it]  6%|▌         | 5875/100000 [3:33:04<31:18:53,  1.20s/it]                                                            6%|▌         | 5875/100000 [3:33:04<31:18:53,  1.20s/it]  6%|▌         | 5876/100000 [3:33:05<29:51:32,  1.14s/it]                                                            6%|▌         | 5876/100000 [3:33:05<29:51:32,  1.14s/it]  6%|▌         | 5877/100000 [3:33:06<28:17:27,  1.08s/it]                                                            6%|▌         | 5877/100000 [3:33:06<28:17:27,  1.08s/it]  6%|▌         | 5878/100000 [3:33:07<27:09:28,  1.04s/it]                                                            6%|▌         | 5878/100000 [3:33:07<27:09:28,  1.04s/it]  6%|▌         | 5879/100000 [3:33:07<26:12:49,  1.00s/it]                                                            6%|▌         | 5879/100000 [3:33:07<26:12:49,  1.00s/it]  6%|▌         | 5880/100000 [3:33:08<25:30:46,  1.02it/s]                                                            6%|▌         | 5880/100000 [3:33:08<25:30:46,  1.02it/s]  6%|▌         | 5881/100000 [3:33:09<24:26:15,  1.07it/s]                                                            6%|▌         | 5881/100000 [3:33:09<24:26:15,  1.07it/s]  6%|▌         | 5882/100000 [3:33:10<23:35:26,  1.11it/s]                                                            6%|▌         | 5882/100000 [3:33:10<23:35:26,  1.11it/s]  6%|▌         | 5883/100000 [3:33:11<23:10:36,  1.13it/s]                                                            6%|▌         | 5883/100000 [3:33:11<23:10:36,  1.13it/s]  6%|▌         | 5884/100000 [3:33:12<22:49:03,  1.15it/s]                                                            6%|▌         | 5884/100000 [3:33:12<22:49:03,  1.15it/s]  6%|▌         | 5885/100000 [3:33:13<22:28:06,  1.16it/s]                                                            6%|▌         | 5885/100000 [3:33:13<22:28:06,  1.16it/s]  6%|▌         | 5886/100000 [3:33:13<22:05:13,  1.18it/s]                                                            6%|▌         | 5886/100000 [3:33:13<22:05:13,  1.18it/s]  6%|▌         | 5887/100000 [3:33:14<21:54:00,  1.19it/s]                                                            6%|▌         | 5887/100000 [3:33:14<21:54:00,  1.19it/s]  6%|▌         | 5888/100000 [3:33:15<20:39:22,  1.27it/s]                                                            6%|▌         | 5888/100000 [3:33:15<20:39:22,  1.27it/s]  6%|▌         | 5889/100000 [3:33:16<20:04:02,  1.30it/s]                                                            6%|▌         | 5889/100000 [3:33:16<20:04:02,  1.30it/s]  6%|▌         | 5890/100000 [3:33:16<19:14:58,  1.36it/s]                                                            6%|▌         | 5890/100000 [3:33:16<19:14:58,  1.36it/s]  6%|▌         | 5891/100000 [3:33:29<117:24:01,  4.49s/it]                                                             6%|▌         | 5891/100000 [3:33:29<117:24:01,  4.49s/it]  6%|▌         | 5892/100000 [3:33:38<147:18:42,  5.64s/it]                                                             6%|▌         | 5892/100000 [3:33:38<147:18:42,  5.64s/it]  6%|▌         | 5893/100000 [3:33:44<148:45:00,  5.69s/it]                                                             6%|▌         | 5893/100000 [3:33:44<148:45:00,  5.69s/it]  6%|▌         | 5894/100000 [3:33:48<138:17:12,  5.29s/it]                                                             6%|▌         | 5894/100000 [3:33:48<138:17:12,  5.29s/it]  6%|▌         | 5895/100000 [3:33:52<129:13:03,  4.94s/it]                                                             6%|▌         | 5895/100000 [3:33:52<129:13:03,  4.94s/it]  6%|▌         | 5896/100000 [3:33:56<117:58:11,  4.51s/it]                                                             6%|▌         | 5896/100000 [3:33:56<117:58:11,  4.51s/it]  6%|▌         | 5897/100000 [3:33:59<107:07:37,  4.10s/it]                                                             6%|▌         | 5897/100000 [3:33:59<107:07:37,  4.10s/it]  6%|▌         | 5898/100000 [3:34:02<97:22:02,  3.72s/it]                                                             6%|▌         | 5898/100000 [3:34:02<97:22:02,  3.72s/it]  6%|▌         | 5899/100000 [3:34:04<86:20:51,  3.30s/it]                                                            6%|▌         | 5899/100000 [3:34:04<86:20:51,  3.30s/it]  6%|▌         | 5900/100000 [3:34:06<77:39:16,  2.97s/it]                                                            6%|▌         | 5900/100000 [3:34:06<77:39:16,  2.97s/it]  6%|▌         | 5901/100000 [3:34:08<70:01:42,  2.68s/it]                                                            6%|▌         | 5901/100000 [3:34:08<70:01:42,  2.68s/it]  6%|▌         | 5902/100000 [3:34:10<63:38:56,  2.44s/it]                                                            6%|▌         | 5902/100000 [3:34:10<63:38:56,  2.44s/it]  6%|▌         | 5903/100000 [3:34:12<58:39:41,  2.24s/it]                                                            6%|▌         | 5903/100000 [3:34:12<58:39:41,  2.24s/it]  6%|▌         | 5904/100000 [3:34:13<53:29:37,  2.05s/it]                                                            6%|▌         | 5904/100000 [3:34:13<53:29:37,  2.05s/it]  6%|▌         | 5905/100000 [3:34:15<49:49:34,  1.91s/it]                                                            6%|▌         | 5905/100000 [3:34:15<49:49:34,  1.91s/it]  6%|▌         | 5906/100000 [3:34:16<46:42:07,  1.79s/it]                                                            6%|▌         | 5906/100000 [3:34:16<46:42:07,  1.79s/it]  6%|▌         | 5907/100000 [3:34:18<43:51:41,  1.68s/it]                                                            6%|▌         | 5907/100000 [3:34:18<43:51:41,  1.68s/it]  6%|▌         | 5908/100000 [3:34:19<41:29:01,  1.59s/it]                                                            6%|▌         | 5908/100000 [3:34:19<41:29:01,  1.59s/it]  6%|▌         | 5909/100000 [3:34:21<39:12:34,  1.50s/it]                                                            6%|▌         | 5909/100000 [3:34:21<39:12:34,  1.50s/it]  6%|▌         | 5910/100000 [3:34:22<37:28:06,  1.43s/it]                                                            6%|▌         | 5910/100000 [3:34:22<37:28:06,  1.43s/it]  6%|▌         | 5911/100000 [3:34:23<35:27:13,  1.36s/it]                                                            6%|▌         | 5911/100000 [3:34:23<35:27:13,  1.36s/it]  6%|▌         | 5912/100000 [3:34:24<33:26:33,  1.28s/it]                                                            6%|▌         | 5912/100000 [3:34:24<33:26:33,  1.28s/it]  6%|▌         | 5913/100000 [3:34:25<31:43:20,  1.21s/it]                                                            6%|▌         | 5913/100000 [3:34:25<31:43:20,  1.21s/it]  6%|▌         | 5914/100000 [3:34:26<30:01:40,  1.15s/it]                                                            6%|▌         | 5914/100000 [3:34:26<30:01:40,  1.15s/it]  6%|▌         | 5915/100000 [3:34:27<28:33:30,  1.09s/it]                                                            6%|▌         | 5915/100000 [3:34:27<28:33:30,  1.09s/it]  6%|▌         | 5916/100000 [3:34:28<27:17:53,  1.04s/it]                                                            6%|▌         | 5916/100000 [3:34:28<27:17:53,  1.04s/it]  6%|▌         | 5917/100000 [3:34:29<26:26:09,  1.01s/it]                                                            6%|▌         | 5917/100000 [3:34:29<26:26:09,  1.01s/it]  6%|▌         | 5918/100000 [3:34:30<25:11:45,  1.04it/s]                                                            6%|▌         | 5918/100000 [3:34:30<25:11:45,  1.04it/s]  6%|▌         | 5919/100000 [3:34:31<24:00:50,  1.09it/s]                                                            6%|▌         | 5919/100000 [3:34:31<24:00:50,  1.09it/s]  6%|▌         | 5920/100000 [3:34:31<23:14:46,  1.12it/s]                                                            6%|▌         | 5920/100000 [3:34:31<23:14:46,  1.12it/s]  6%|▌         | 5921/100000 [3:34:32<22:26:16,  1.16it/s]                                                            6%|▌         | 5921/100000 [3:34:32<22:26:16,  1.16it/s]  6%|▌         | 5922/100000 [3:34:33<21:49:59,  1.20it/s]                                                            6%|▌         | 5922/100000 [3:34:33<21:49:59,  1.20it/s]  6%|▌         | 5923/100000 [3:34:34<20:47:17,  1.26it/s]                                                            6%|▌         | 5923/100000 [3:34:34<20:47:17,  1.26it/s]  6%|▌         | 5924/100000 [3:34:34<20:20:11,  1.28it/s]                                                            6%|▌         | 5924/100000 [3:34:34<20:20:11,  1.28it/s]  6%|▌         | 5925/100000 [3:34:35<19:50:50,  1.32it/s]                                                            6%|▌         | 5925/100000 [3:34:35<19:50:50,  1.32it/s]  6%|▌         | 5926/100000 [3:34:36<19:40:35,  1.33it/s]                                                            6%|▌         | 5926/100000 [3:34:36<19:40:35,  1.33it/s]  6%|▌         | 5927/100000 [3:34:37<19:35:23,  1.33it/s]                                                            6%|▌         | 5927/100000 [3:34:37<19:35:23,  1.33it/s]  6%|▌         | 5928/100000 [3:34:37<19:18:07,  1.35it/s]                                                            6%|▌         | 5928/100000 [3:34:37<19:18:07,  1.35it/s]  6%|▌         | 5929/100000 [3:34:51<119:10:10,  4.56s/it]                                                             6%|▌         | 5929/100000 [3:34:51<119:10:10,  4.56s/it]  6%|▌         | 5930/100000 [3:34:59<148:49:04,  5.70s/it]                                                             6%|▌         | 5930/100000 [3:34:59<148:49:04,  5.70s/it]  6%|▌         | 5931/100000 [3:35:05<147:24:31,  5.64s/it]                                                             6%|▌         | 5931/100000 [3:35:05<147:24:31,  5.64s/it]  6%|▌         | 5932/100000 [3:35:10<140:52:34,  5.39s/it]                                                             6%|▌         | 5932/100000 [3:35:10<140:52:34,  5.39s/it]  6%|▌         | 5933/100000 [3:35:14<130:27:51,  4.99s/it]                                                             6%|▌         | 5933/100000 [3:35:14<130:27:51,  4.99s/it]  6%|▌         | 5934/100000 [3:35:17<118:22:17,  4.53s/it]                                                             6%|▌         | 5934/100000 [3:35:17<118:22:17,  4.53s/it]  6%|▌         | 5935/100000 [3:35:20<106:11:35,  4.06s/it]                                                             6%|▌         | 5935/100000 [3:35:20<106:11:35,  4.06s/it]  6%|▌         | 5936/100000 [3:35:23<94:55:50,  3.63s/it]                                                           {'loss': 0.164, 'grad_norm': 1.0075709819793701, 'learning_rate': 1.7547e-05, 'epoch': 38.01}
{'loss': 0.1126, 'grad_norm': 0.9286705851554871, 'learning_rate': 1.755e-05, 'epoch': 38.01}
{'loss': 0.117, 'grad_norm': 0.9415996074676514, 'learning_rate': 1.7553e-05, 'epoch': 38.02}
{'loss': 0.1086, 'grad_norm': 0.9077398180961609, 'learning_rate': 1.7556000000000003e-05, 'epoch': 38.03}
{'loss': 0.0912, 'grad_norm': 0.6373693943023682, 'learning_rate': 1.7559000000000002e-05, 'epoch': 38.03}
{'loss': 0.082, 'grad_norm': 0.8386255502700806, 'learning_rate': 1.7562000000000002e-05, 'epoch': 38.04}
{'loss': 0.0847, 'grad_norm': 0.5315903425216675, 'learning_rate': 1.7565000000000002e-05, 'epoch': 38.05}
{'loss': 0.0783, 'grad_norm': 0.7371470928192139, 'learning_rate': 1.7568000000000002e-05, 'epoch': 38.05}
{'loss': 0.0622, 'grad_norm': 0.6015598177909851, 'learning_rate': 1.7571e-05, 'epoch': 38.06}
{'loss': 0.0587, 'grad_norm': 0.5679024457931519, 'learning_rate': 1.7574e-05, 'epoch': 38.06}
{'loss': 0.0423, 'grad_norm': 0.44590020179748535, 'learning_rate': 1.7577e-05, 'epoch': 38.07}
{'loss': 0.0546, 'grad_norm': 0.5081321001052856, 'learning_rate': 1.758e-05, 'epoch': 38.08}
{'loss': 0.0506, 'grad_norm': 0.8421340584754944, 'learning_rate': 1.7582999999999998e-05, 'epoch': 38.08}
{'loss': 0.0415, 'grad_norm': 0.6203944087028503, 'learning_rate': 1.7586e-05, 'epoch': 38.09}
{'loss': 0.0277, 'grad_norm': 0.6761109232902527, 'learning_rate': 1.7589e-05, 'epoch': 38.1}
{'loss': 0.0919, 'grad_norm': 0.9474225044250488, 'learning_rate': 1.7592e-05, 'epoch': 38.1}
{'loss': 0.0487, 'grad_norm': 0.6608201265335083, 'learning_rate': 1.7595e-05, 'epoch': 38.11}
{'loss': 0.0357, 'grad_norm': 1.2236202955245972, 'learning_rate': 1.7598e-05, 'epoch': 38.12}
{'loss': 0.027, 'grad_norm': 0.5522843599319458, 'learning_rate': 1.7601e-05, 'epoch': 38.12}
{'loss': 0.0295, 'grad_norm': 0.6526004672050476, 'learning_rate': 1.7604e-05, 'epoch': 38.13}
{'loss': 0.0561, 'grad_norm': 1.073377013206482, 'learning_rate': 1.7607e-05, 'epoch': 38.14}
{'loss': 0.0448, 'grad_norm': 1.6637687683105469, 'learning_rate': 1.761e-05, 'epoch': 38.14}
{'loss': 0.0268, 'grad_norm': 0.850856602191925, 'learning_rate': 1.7613e-05, 'epoch': 38.15}
{'loss': 0.0425, 'grad_norm': 0.542837917804718, 'learning_rate': 1.7616000000000002e-05, 'epoch': 38.16}
{'loss': 0.0146, 'grad_norm': 0.4743064343929291, 'learning_rate': 1.7619000000000002e-05, 'epoch': 38.16}
{'loss': 0.0282, 'grad_norm': 1.2160650491714478, 'learning_rate': 1.7622000000000002e-05, 'epoch': 38.17}
{'loss': 0.0212, 'grad_norm': 1.1361639499664307, 'learning_rate': 1.7625e-05, 'epoch': 38.18}
{'loss': 0.0764, 'grad_norm': 1.0319571495056152, 'learning_rate': 1.7628e-05, 'epoch': 38.18}
{'loss': 0.0702, 'grad_norm': 0.8487963080406189, 'learning_rate': 1.7631e-05, 'epoch': 38.19}
{'loss': 0.0267, 'grad_norm': 1.2172826528549194, 'learning_rate': 1.7634e-05, 'epoch': 38.19}
{'loss': 0.0101, 'grad_norm': 0.5022777318954468, 'learning_rate': 1.7637e-05, 'epoch': 38.2}
{'loss': 0.0178, 'grad_norm': 1.3031482696533203, 'learning_rate': 1.764e-05, 'epoch': 38.21}
{'loss': 0.0191, 'grad_norm': 1.0166181325912476, 'learning_rate': 1.7643e-05, 'epoch': 38.21}
{'loss': 0.0151, 'grad_norm': 0.6707989573478699, 'learning_rate': 1.7646e-05, 'epoch': 38.22}
{'loss': 0.0271, 'grad_norm': 0.9645249247550964, 'learning_rate': 1.7649000000000003e-05, 'epoch': 38.23}
{'loss': 0.0168, 'grad_norm': 0.9719868898391724, 'learning_rate': 1.7652000000000003e-05, 'epoch': 38.23}
{'loss': 0.027, 'grad_norm': 3.3965375423431396, 'learning_rate': 1.7655e-05, 'epoch': 38.24}
{'loss': 0.0967, 'grad_norm': 2.835753917694092, 'learning_rate': 1.7658e-05, 'epoch': 38.25}
{'loss': 0.1771, 'grad_norm': 1.0869702100753784, 'learning_rate': 1.7661e-05, 'epoch': 38.25}
{'loss': 0.1483, 'grad_norm': 0.9287381172180176, 'learning_rate': 1.7664e-05, 'epoch': 38.26}
{'loss': 0.1237, 'grad_norm': 0.8517118096351624, 'learning_rate': 1.7667e-05, 'epoch': 38.27}
{'loss': 0.1254, 'grad_norm': 1.1620362997055054, 'learning_rate': 1.767e-05, 'epoch': 38.27}
{'loss': 0.0801, 'grad_norm': 0.5935000777244568, 'learning_rate': 1.7673e-05, 'epoch': 38.28}
{'loss': 0.0649, 'grad_norm': 0.5212371349334717, 'learning_rate': 1.7675999999999998e-05, 'epoch': 38.29}
{'loss': 0.0613, 'grad_norm': 0.5525925159454346, 'learning_rate': 1.7679e-05, 'epoch': 38.29}
{'loss': 0.0651, 'grad_norm': 0.5318480730056763, 'learning_rate': 1.7682e-05, 'epoch': 38.3}
{'loss': 0.0452, 'grad_norm': 1.4099011421203613, 'learning_rate': 1.7685e-05, 'epoch': 38.31}
{'loss': 0.0648, 'grad_norm': 1.127008318901062, 'learning_rate': 1.7688e-05, 'epoch': 38.31}
{'loss': 0.076, 'grad_norm': 0.922404944896698, 'learning_rate': 1.7691e-05, 'epoch': 38.32}
{'loss': 0.0464, 'grad_norm': 0.4956114590167999, 'learning_rate': 1.7694e-05, 'epoch': 38.32}
{'loss': 0.0485, 'grad_norm': 0.7384037375450134, 'learning_rate': 1.7697e-05, 'epoch': 38.33}
{'loss': 0.0356, 'grad_norm': 0.597120463848114, 'learning_rate': 1.77e-05, 'epoch': 38.34}
{'loss': 0.0412, 'grad_norm': 0.6572065353393555, 'learning_rate': 1.7703e-05, 'epoch': 38.34}
{'loss': 0.0303, 'grad_norm': 0.5842458605766296, 'learning_rate': 1.7706e-05, 'epoch': 38.35}
{'loss': 0.0301, 'grad_norm': 0.46461477875709534, 'learning_rate': 1.7709000000000003e-05, 'epoch': 38.36}
{'loss': 0.0328, 'grad_norm': 0.7791070342063904, 'learning_rate': 1.7712000000000003e-05, 'epoch': 38.36}
{'loss': 0.0414, 'grad_norm': 0.9068104028701782, 'learning_rate': 1.7715000000000002e-05, 'epoch': 38.37}
{'loss': 0.035, 'grad_norm': 0.8233644366264343, 'learning_rate': 1.7718000000000002e-05, 'epoch': 38.38}
{'loss': 0.0433, 'grad_norm': 0.8373520970344543, 'learning_rate': 1.7721000000000002e-05, 'epoch': 38.38}
{'loss': 0.0269, 'grad_norm': 0.9255775809288025, 'learning_rate': 1.7724000000000002e-05, 'epoch': 38.39}
{'loss': 0.0241, 'grad_norm': 0.7593950033187866, 'learning_rate': 1.7727e-05, 'epoch': 38.4}
{'loss': 0.0183, 'grad_norm': 0.5171689987182617, 'learning_rate': 1.7729999999999998e-05, 'epoch': 38.4}
{'loss': 0.0229, 'grad_norm': 1.6212735176086426, 'learning_rate': 1.7732999999999998e-05, 'epoch': 38.41}
{'loss': 0.0211, 'grad_norm': 1.136062741279602, 'learning_rate': 1.7735999999999998e-05, 'epoch': 38.42}
{'loss': 0.0356, 'grad_norm': 1.1944258213043213, 'learning_rate': 1.7739e-05, 'epoch': 38.42}
{'loss': 0.0218, 'grad_norm': 0.751748263835907, 'learning_rate': 1.7742e-05, 'epoch': 38.43}
{'loss': 0.0394, 'grad_norm': 2.1889004707336426, 'learning_rate': 1.7745e-05, 'epoch': 38.44}
{'loss': 0.025, 'grad_norm': 0.9382796883583069, 'learning_rate': 1.7748e-05, 'epoch': 38.44}
{'loss': 0.0252, 'grad_norm': 1.8169697523117065, 'learning_rate': 1.7751e-05, 'epoch': 38.45}
{'loss': 0.0593, 'grad_norm': 1.1218597888946533, 'learning_rate': 1.7754e-05, 'epoch': 38.45}
{'loss': 0.0183, 'grad_norm': 0.7256269454956055, 'learning_rate': 1.7757e-05, 'epoch': 38.46}
{'loss': 0.0079, 'grad_norm': 0.5877451300621033, 'learning_rate': 1.776e-05, 'epoch': 38.47}
{'loss': 0.015, 'grad_norm': 0.6531568169593811, 'learning_rate': 1.7763e-05, 'epoch': 38.47}
{'loss': 0.025, 'grad_norm': 1.8489186763763428, 'learning_rate': 1.7766e-05, 'epoch': 38.48}
{'loss': 0.0198, 'grad_norm': 0.9990827441215515, 'learning_rate': 1.7769000000000002e-05, 'epoch': 38.49}
{'loss': 0.0441, 'grad_norm': 2.29071044921875, 'learning_rate': 1.7772000000000002e-05, 'epoch': 38.49}
{'loss': 0.2123, 'grad_norm': 2.7065491676330566, 'learning_rate': 1.7775000000000002e-05, 'epoch': 38.5}
{'loss': 0.1388, 'grad_norm': 0.711410641670227, 'learning_rate': 1.7778e-05, 'epoch': 38.51}
{'loss': 0.1045, 'grad_norm': 0.6377979516983032, 'learning_rate': 1.7781e-05, 'epoch': 38.51}
{'loss': 0.0949, 'grad_norm': 0.6302648186683655, 'learning_rate': 1.7784e-05, 'epoch': 38.52}
{'loss': 0.0825, 'grad_norm': 0.6939002871513367, 'learning_rate': 1.7787e-05, 'epoch': 38.53}
{'loss': 0.0726, 'grad_norm': 0.7145371437072754, 'learning_rate': 1.779e-05, 'epoch': 38.53}
{'loss': 0.0678, 'grad_norm': 0.626923680305481, 'learning_rate': 1.7793e-05, 'epoch': 38.54}
  6%|▌         | 5936/100000 [3:35:23<94:55:50,  3.63s/it]  6%|▌         | 5937/100000 [3:35:25<84:15:11,  3.22s/it]                                                            6%|▌         | 5937/100000 [3:35:25<84:15:11,  3.22s/it]  6%|▌         | 5938/100000 [3:35:27<74:59:04,  2.87s/it]                                                            6%|▌         | 5938/100000 [3:35:27<74:59:04,  2.87s/it]  6%|▌         | 5939/100000 [3:35:29<67:35:12,  2.59s/it]                                                            6%|▌         | 5939/100000 [3:35:29<67:35:12,  2.59s/it]  6%|▌         | 5940/100000 [3:35:31<61:20:05,  2.35s/it]                                                            6%|▌         | 5940/100000 [3:35:31<61:20:05,  2.35s/it]  6%|▌         | 5941/100000 [3:35:32<55:52:13,  2.14s/it]                                                            6%|▌         | 5941/100000 [3:35:32<55:52:13,  2.14s/it]  6%|▌         | 5942/100000 [3:35:34<51:49:13,  1.98s/it]                                                            6%|▌         | 5942/100000 [3:35:34<51:49:13,  1.98s/it]  6%|▌         | 5943/100000 [3:35:36<48:36:45,  1.86s/it]                                                            6%|▌         | 5943/100000 [3:35:36<48:36:45,  1.86s/it]  6%|▌         | 5944/100000 [3:35:37<45:15:07,  1.73s/it]                                                            6%|▌         | 5944/100000 [3:35:37<45:15:07,  1.73s/it]  6%|▌         | 5945/100000 [3:35:38<42:46:56,  1.64s/it]                                                            6%|▌         | 5945/100000 [3:35:38<42:46:56,  1.64s/it]  6%|▌         | 5946/100000 [3:35:40<40:20:31,  1.54s/it]                                                            6%|▌         | 5946/100000 [3:35:40<40:20:31,  1.54s/it]  6%|▌         | 5947/100000 [3:35:41<38:23:34,  1.47s/it]                                                            6%|▌         | 5947/100000 [3:35:41<38:23:34,  1.47s/it]  6%|▌         | 5948/100000 [3:35:42<36:18:53,  1.39s/it]                                                            6%|▌         | 5948/100000 [3:35:42<36:18:53,  1.39s/it]  6%|▌         | 5949/100000 [3:35:43<34:26:43,  1.32s/it]                                                            6%|▌         | 5949/100000 [3:35:43<34:26:43,  1.32s/it]  6%|▌         | 5950/100000 [3:35:44<32:29:00,  1.24s/it]                                                            6%|▌         | 5950/100000 [3:35:44<32:29:00,  1.24s/it]  6%|▌         | 5951/100000 [3:35:45<30:56:43,  1.18s/it]                                                            6%|▌         | 5951/100000 [3:35:45<30:56:43,  1.18s/it]  6%|▌         | 5952/100000 [3:35:46<29:39:03,  1.13s/it]                                                            6%|▌         | 5952/100000 [3:35:46<29:39:03,  1.13s/it]  6%|▌         | 5953/100000 [3:35:47<28:08:38,  1.08s/it]                                                            6%|▌         | 5953/100000 [3:35:47<28:08:38,  1.08s/it]  6%|▌         | 5954/100000 [3:35:48<27:00:48,  1.03s/it]                                                            6%|▌         | 5954/100000 [3:35:48<27:00:48,  1.03s/it]  6%|▌         | 5955/100000 [3:35:49<25:56:57,  1.01it/s]                                                            6%|▌         | 5955/100000 [3:35:49<25:56:57,  1.01it/s]  6%|▌         | 5956/100000 [3:35:50<24:56:05,  1.05it/s]                                                            6%|▌         | 5956/100000 [3:35:50<24:56:05,  1.05it/s]  6%|▌         | 5957/100000 [3:35:51<24:04:43,  1.08it/s]                                                            6%|▌         | 5957/100000 [3:35:51<24:04:43,  1.08it/s]  6%|▌         | 5958/100000 [3:35:52<23:09:46,  1.13it/s]                                                            6%|▌         | 5958/100000 [3:35:52<23:09:46,  1.13it/s]  6%|▌         | 5959/100000 [3:35:53<22:15:11,  1.17it/s]                                                            6%|▌         | 5959/100000 [3:35:53<22:15:11,  1.17it/s]  6%|▌         | 5960/100000 [3:35:53<21:24:19,  1.22it/s]                                                            6%|▌         | 5960/100000 [3:35:53<21:24:19,  1.22it/s]  6%|▌         | 5961/100000 [3:35:54<20:29:57,  1.27it/s]                                                            6%|▌         | 5961/100000 [3:35:54<20:29:57,  1.27it/s]  6%|▌         | 5962/100000 [3:35:55<19:48:00,  1.32it/s]                                                            6%|▌         | 5962/100000 [3:35:55<19:48:00,  1.32it/s]  6%|▌         | 5963/100000 [3:35:55<19:25:41,  1.34it/s]                                                            6%|▌         | 5963/100000 [3:35:55<19:25:41,  1.34it/s]  6%|▌         | 5964/100000 [3:35:56<19:15:09,  1.36it/s]                                                            6%|▌         | 5964/100000 [3:35:56<19:15:09,  1.36it/s]  6%|▌         | 5965/100000 [3:35:57<18:12:57,  1.43it/s]                                                            6%|▌         | 5965/100000 [3:35:57<18:12:57,  1.43it/s]  6%|▌         | 5966/100000 [3:35:57<17:13:12,  1.52it/s]                                                            6%|▌         | 5966/100000 [3:35:57<17:13:12,  1.52it/s]  6%|▌         | 5967/100000 [3:36:09<101:25:37,  3.88s/it]                                                             6%|▌         | 5967/100000 [3:36:09<101:25:37,  3.88s/it]  6%|▌         | 5968/100000 [3:36:16<130:38:14,  5.00s/it]                                                             6%|▌         | 5968/100000 [3:36:16<130:38:14,  5.00s/it]  6%|▌         | 5969/100000 [3:36:22<132:56:00,  5.09s/it]                                                             6%|▌         | 5969/100000 [3:36:22<132:56:00,  5.09s/it]  6%|▌         | 5970/100000 [3:36:26<126:47:26,  4.85s/it]                                                             6%|▌         | 5970/100000 [3:36:26<126:47:26,  4.85s/it]  6%|▌         | 5971/100000 [3:36:30<119:53:13,  4.59s/it]                                                             6%|▌         | 5971/100000 [3:36:30<119:53:13,  4.59s/it]  6%|▌         | 5972/100000 [3:36:33<111:15:51,  4.26s/it]                                                             6%|▌         | 5972/100000 [3:36:33<111:15:51,  4.26s/it]  6%|▌         | 5973/100000 [3:36:36<100:38:20,  3.85s/it]                                                             6%|▌         | 5973/100000 [3:36:36<100:38:20,  3.85s/it]  6%|▌         | 5974/100000 [3:36:39<91:26:14,  3.50s/it]                                                             6%|▌         | 5974/100000 [3:36:39<91:26:14,  3.50s/it]  6%|▌         | 5975/100000 [3:36:41<81:48:45,  3.13s/it]                                                            6%|▌         | 5975/100000 [3:36:41<81:48:45,  3.13s/it]  6%|▌         | 5976/100000 [3:36:43<74:02:44,  2.84s/it]                                                            6%|▌         | 5976/100000 [3:36:43<74:02:44,  2.84s/it]  6%|▌         | 5977/100000 [3:36:45<67:30:03,  2.58s/it]                                                            6%|▌         | 5977/100000 [3:36:45<67:30:03,  2.58s/it]  6%|▌         | 5978/100000 [3:36:47<61:26:05,  2.35s/it]                                                            6%|▌         | 5978/100000 [3:36:47<61:26:05,  2.35s/it]  6%|▌         | 5979/100000 [3:36:49<56:33:29,  2.17s/it]                                                            6%|▌         | 5979/100000 [3:36:49<56:33:29,  2.17s/it]  6%|▌         | 5980/100000 [3:36:51<52:24:51,  2.01s/it]                                                            6%|▌         | 5980/100000 [3:36:51<52:24:51,  2.01s/it]  6%|▌         | 5981/100000 [3:36:52<48:55:28,  1.87s/it]                                                            6%|▌         | 5981/100000 [3:36:52<48:55:28,  1.87s/it]  6%|▌         | 5982/100000 [3:36:54<45:33:30,  1.74s/it]                                                            6%|▌         | 5982/100000 [3:36:54<45:33:30,  1.74s/it]  6%|▌         | 5983/100000 [3:36:55<42:40:22,  1.63s/it]                                                            6%|▌         | 5983/100000 [3:36:55<42:40:22,  1.63s/it]  6%|▌         | 5984/100000 [3:36:56<40:11:51,  1.54s/it]                                                            6%|▌         | 5984/100000 [3:36:56<40:11:51,  1.54s/it]  6%|▌         | 5985/100000 [3:36:57<38:01:41,  1.46s/it]                                                            6%|▌         | 5985/100000 [3:36:58<38:01:41,  1.46s/it]  6%|▌         | 5986/100000 [3:36:59<36:00:47,  1.38s/it]                                                            6%|▌         | 5986/100000 [3:36:59<36:00:47,  1.38s/it]  6%|▌         | 5987/100000 [3:37:00<33:49:25,  1.30s/it]                                                            6%|▌         | 5987/100000 [3:37:00<33:49:25,  1.30s/it]  6%|▌         | 5988/100000 [3:37:01<32:10:46,  1.23s/it]                                                            6%|▌         | 5988/100000 [3:37:01<32:10:46,  1.23s/it]  6%|▌         | 5989/100000 [3:37:02<30:52:24,  1.18s/it]                                                            6%|▌         | 5989/100000 [3:37:02<30:52:24,  1.18s/it]  6%|▌         | 5990/100000 [3:37:03<29:18:55,  1.12s/it]                                                            6%|▌         | 5990/100000 [3:37:03<29:18:55,  1.12s/it]  6%|▌         | 5991/100000 [3:37:04<27:56:00,  1.07s/it]                                                            6%|▌         | 5991/100000 [3:37:04<27:56:00,  1.07s/it]  6%|▌         | 5992/100000 [3:37:05<26:40:10,  1.02s/it]                                                            6%|▌         | 5992/100000 [3:37:05<26:40:10,  1.02s/it]  6%|▌         | 5993/100000 [3:37:06<25:36:44,  1.02it/s]                                                            6%|▌         | 5993/100000 [3:37:06<25:36:44,  1.02it/s]  6%|▌         | 5994/100000 [3:37:07<24:38:53,  1.06it/s]                                                            6%|▌         | 5994/100000 [3:37:07<24:38:53,  1.06it/s]  6%|▌         | 5995/100000 [3:37:07<23:26:52,  1.11it/s]                                                            6%|▌         | 5995/100000 [3:37:07<23:26:52,  1.11it/s]  6%|▌         | 5996/100000 [3:37:08<22:59:35,  1.14it/s]                                                            6%|▌         | 5996/100000 [3:37:08<22:59:35,  1.14it/s]  6%|▌         | 5997/100000 [3:37:09<22:09:53,  1.18it/s]                                                            6%|▌         | 5997/100000 [3:37:09<22:09:53,  1.18it/s]  6%|▌         | 5998/100000 [3:37:10<21:16:18,  1.23it/s]                                                            6%|▌         | 5998/100000 [3:37:10<21:16:18,  1.23it/s]  6%|▌         | 5999/100000 [3:37:10<20:40:40,  1.26it/s]                                                            6%|▌         | 5999/100000 [3:37:10<20:40:40,  1.26it/s]  6%|▌         | 6000/100000 [3:37:11<20:02:30,  1.30it/s]                                                            6%|▌         | 6000/100000 [3:37:11<20:02:30,  1.30it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 0.0729, 'grad_norm': 0.6645925641059875, 'learning_rate': 1.7796e-05, 'epoch': 38.55}
{'loss': 0.069, 'grad_norm': 0.7164369225502014, 'learning_rate': 1.7799000000000004e-05, 'epoch': 38.55}
{'loss': 0.054, 'grad_norm': 0.5908076763153076, 'learning_rate': 1.7802e-05, 'epoch': 38.56}
{'loss': 0.0442, 'grad_norm': 0.7542762160301208, 'learning_rate': 1.7805e-05, 'epoch': 38.56}
{'loss': 0.058, 'grad_norm': 0.6068297028541565, 'learning_rate': 1.7808e-05, 'epoch': 38.57}
{'loss': 0.0447, 'grad_norm': 1.0949379205703735, 'learning_rate': 1.7811e-05, 'epoch': 38.58}
{'loss': 0.0487, 'grad_norm': 0.7354004383087158, 'learning_rate': 1.7814e-05, 'epoch': 38.58}
{'loss': 0.0632, 'grad_norm': 7.143629550933838, 'learning_rate': 1.7817e-05, 'epoch': 38.59}
{'loss': 0.0361, 'grad_norm': 0.6095757484436035, 'learning_rate': 1.782e-05, 'epoch': 38.6}
{'loss': 0.0265, 'grad_norm': 0.6132419109344482, 'learning_rate': 1.7823e-05, 'epoch': 38.6}
{'loss': 0.0537, 'grad_norm': 0.8836900591850281, 'learning_rate': 1.7826e-05, 'epoch': 38.61}
{'loss': 0.0309, 'grad_norm': 0.6604915857315063, 'learning_rate': 1.7829e-05, 'epoch': 38.62}
{'loss': 0.0347, 'grad_norm': 0.6743779182434082, 'learning_rate': 1.7832e-05, 'epoch': 38.62}
{'loss': 0.0174, 'grad_norm': 0.42872312664985657, 'learning_rate': 1.7835e-05, 'epoch': 38.63}
{'loss': 0.0264, 'grad_norm': 0.6884660124778748, 'learning_rate': 1.7838e-05, 'epoch': 38.64}
{'loss': 0.0322, 'grad_norm': 2.128488063812256, 'learning_rate': 1.7841e-05, 'epoch': 38.64}
{'loss': 0.0426, 'grad_norm': 0.8408986330032349, 'learning_rate': 1.7844e-05, 'epoch': 38.65}
{'loss': 0.0336, 'grad_norm': 1.2455768585205078, 'learning_rate': 1.7847e-05, 'epoch': 38.66}
{'loss': 0.0236, 'grad_norm': 1.1813410520553589, 'learning_rate': 1.785e-05, 'epoch': 38.66}
{'loss': 0.0373, 'grad_norm': 1.2485427856445312, 'learning_rate': 1.7853e-05, 'epoch': 38.67}
{'loss': 0.0204, 'grad_norm': 0.6752532124519348, 'learning_rate': 1.7856e-05, 'epoch': 38.68}
{'loss': 0.043, 'grad_norm': 1.6170405149459839, 'learning_rate': 1.7859000000000003e-05, 'epoch': 38.68}
{'loss': 0.0173, 'grad_norm': 0.708975613117218, 'learning_rate': 1.7862000000000003e-05, 'epoch': 38.69}
{'loss': 0.0235, 'grad_norm': 0.8291651606559753, 'learning_rate': 1.7865000000000003e-05, 'epoch': 38.69}
{'loss': 0.0395, 'grad_norm': 1.8658169507980347, 'learning_rate': 1.7868000000000002e-05, 'epoch': 38.7}
{'loss': 0.0343, 'grad_norm': 1.9064381122589111, 'learning_rate': 1.7871000000000002e-05, 'epoch': 38.71}
{'loss': 0.0166, 'grad_norm': 1.6772875785827637, 'learning_rate': 1.7874000000000002e-05, 'epoch': 38.71}
{'loss': 0.0152, 'grad_norm': 0.8873107433319092, 'learning_rate': 1.7877e-05, 'epoch': 38.72}
{'loss': 0.03, 'grad_norm': 2.2988572120666504, 'learning_rate': 1.7879999999999998e-05, 'epoch': 38.73}
{'loss': 0.0353, 'grad_norm': 6.824059963226318, 'learning_rate': 1.7882999999999998e-05, 'epoch': 38.73}
{'loss': 0.0739, 'grad_norm': 3.586970567703247, 'learning_rate': 1.7885999999999998e-05, 'epoch': 38.74}
{'loss': 0.1823, 'grad_norm': 1.6160213947296143, 'learning_rate': 1.7889e-05, 'epoch': 38.75}
{'loss': 0.1416, 'grad_norm': 0.7822889089584351, 'learning_rate': 1.7892e-05, 'epoch': 38.75}
{'loss': 0.115, 'grad_norm': 1.3216359615325928, 'learning_rate': 1.7895e-05, 'epoch': 38.76}
{'loss': 0.087, 'grad_norm': 0.5816987156867981, 'learning_rate': 1.7898e-05, 'epoch': 38.77}
{'loss': 0.0945, 'grad_norm': 0.8368484377861023, 'learning_rate': 1.7901e-05, 'epoch': 38.77}
{'loss': 0.0733, 'grad_norm': 0.7540056109428406, 'learning_rate': 1.7904e-05, 'epoch': 38.78}
{'loss': 0.0855, 'grad_norm': 0.722984790802002, 'learning_rate': 1.7907e-05, 'epoch': 38.79}
{'loss': 0.0619, 'grad_norm': 0.7341681122779846, 'learning_rate': 1.791e-05, 'epoch': 38.79}
{'loss': 0.0959, 'grad_norm': 0.9353470206260681, 'learning_rate': 1.7913e-05, 'epoch': 38.8}
{'loss': 0.0603, 'grad_norm': 0.7635180950164795, 'learning_rate': 1.7916e-05, 'epoch': 38.81}
{'loss': 0.055, 'grad_norm': 0.8885642886161804, 'learning_rate': 1.7919000000000002e-05, 'epoch': 38.81}
{'loss': 0.0412, 'grad_norm': 0.6239437460899353, 'learning_rate': 1.7922000000000002e-05, 'epoch': 38.82}
{'loss': 0.0526, 'grad_norm': 0.5106947422027588, 'learning_rate': 1.7925000000000002e-05, 'epoch': 38.82}
{'loss': 0.049, 'grad_norm': 0.9904175996780396, 'learning_rate': 1.7928000000000002e-05, 'epoch': 38.83}
{'loss': 0.0591, 'grad_norm': 0.9479867219924927, 'learning_rate': 1.7931e-05, 'epoch': 38.84}
{'loss': 0.0335, 'grad_norm': 0.8760769367218018, 'learning_rate': 1.7934e-05, 'epoch': 38.84}
{'loss': 0.0335, 'grad_norm': 1.2383270263671875, 'learning_rate': 1.7937e-05, 'epoch': 38.85}
{'loss': 0.033, 'grad_norm': 0.711348295211792, 'learning_rate': 1.794e-05, 'epoch': 38.86}
{'loss': 0.0295, 'grad_norm': 0.5385429263114929, 'learning_rate': 1.7943e-05, 'epoch': 38.86}
{'loss': 0.0369, 'grad_norm': 0.6137906908988953, 'learning_rate': 1.7946e-05, 'epoch': 38.87}
{'loss': 0.0273, 'grad_norm': 0.542019248008728, 'learning_rate': 1.7949e-05, 'epoch': 38.88}
{'loss': 0.0258, 'grad_norm': 0.7769850492477417, 'learning_rate': 1.7952e-05, 'epoch': 38.88}
{'loss': 0.0238, 'grad_norm': 0.6705248355865479, 'learning_rate': 1.7955e-05, 'epoch': 38.89}
{'loss': 0.0528, 'grad_norm': 0.5803936719894409, 'learning_rate': 1.7958e-05, 'epoch': 38.9}
{'loss': 0.0194, 'grad_norm': 0.9674137234687805, 'learning_rate': 1.7961e-05, 'epoch': 38.9}
{'loss': 0.0183, 'grad_norm': 0.7011078000068665, 'learning_rate': 1.7964e-05, 'epoch': 38.91}
{'loss': 0.044, 'grad_norm': 1.4851346015930176, 'learning_rate': 1.7967e-05, 'epoch': 38.92}
{'loss': 0.0717, 'grad_norm': 0.8567346930503845, 'learning_rate': 1.797e-05, 'epoch': 38.92}
{'loss': 0.0708, 'grad_norm': 0.9977046251296997, 'learning_rate': 1.7973e-05, 'epoch': 38.93}
{'loss': 0.0272, 'grad_norm': 1.5121363401412964, 'learning_rate': 1.7976e-05, 'epoch': 38.94}
{'loss': 0.02, 'grad_norm': 1.0876654386520386, 'learning_rate': 1.7979000000000002e-05, 'epoch': 38.94}
{'loss': 0.0135, 'grad_norm': 0.8032264113426208, 'learning_rate': 1.7982e-05, 'epoch': 38.95}
{'loss': 0.0284, 'grad_norm': 1.7344547510147095, 'learning_rate': 1.7985e-05, 'epoch': 38.95}
{'loss': 0.0309, 'grad_norm': 1.7902381420135498, 'learning_rate': 1.7988e-05, 'epoch': 38.96}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:01<00:01,  1.24it/s][A
 75%|███████▌  | 3/4 [00:03<00:01,  1.06s/it][A
100%|██████████| 4/4 [00:03<00:00,  1.29it/s][A                                                          
                                             [A  6%|▌         | 6000/100000 [3:37:24<20:02:30,  1.30it/s]
100%|██████████| 4/4 [00:03<00:00,  1.29it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-6000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-6000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-6000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-6000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-6000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-6000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-6000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-5000] due to args.save_total_limit
  6%|▌         | 6001/100000 [3:37:38<227:04:09,  8.70s/it]                                                             6%|▌         | 6001/100000 [3:37:38<227:04:09,  8.70s/it]  6%|▌         | 6002/100000 [3:37:39<164:41:54,  6.31s/it]                                                             6%|▌         | 6002/100000 [3:37:39<164:41:54,  6.31s/it]  6%|▌         | 6003/100000 [3:37:40<121:08:32,  4.64s/it]                                                             6%|▌         | 6003/100000 [3:37:40<121:08:32,  4.64s/it]  6%|▌         | 6004/100000 [3:37:41<90:46:59,  3.48s/it]                                                             6%|▌         | 6004/100000 [3:37:41<90:46:59,  3.48s/it]  6%|▌         | 6005/100000 [3:37:48<123:25:56,  4.73s/it]                                                             6%|▌         | 6005/100000 [3:37:48<123:25:56,  4.73s/it]  6%|▌         | 6006/100000 [3:37:50<97:50:32,  3.75s/it]                                                             6%|▌         | 6006/100000 [3:37:50<97:50:32,  3.75s/it]{'eval_loss': 0.36886993050575256, 'eval_wer': 0.29056437389770723, 'eval_cer': 0.09388804112119509, 'eval_runtime': 8.2319, 'eval_samples_per_second': 12.269, 'eval_steps_per_second': 0.486, 'epoch': 38.96}
{'loss': 0.0484, 'grad_norm': 1.9711809158325195, 'learning_rate': 1.7991e-05, 'epoch': 38.97}
{'loss': 0.0337, 'grad_norm': 2.1123735904693604, 'learning_rate': 1.7994e-05, 'epoch': 38.97}
{'loss': 0.0191, 'grad_norm': 1.385513186454773, 'learning_rate': 1.7997e-05, 'epoch': 38.98}
{'loss': 0.0168, 'grad_norm': 1.2252720594406128, 'learning_rate': 1.8e-05, 'epoch': 38.99}
{'loss': 0.0827, 'grad_norm': 0.8665770888328552, 'learning_rate': 1.8003e-05, 'epoch': 38.99}
{'loss': 0.0666, 'grad_norm': 0.850644052028656, 'learning_rate': 1.8006e-05, 'epoch': 39.0}
  6%|▌         | 6007/100000 [3:38:08<208:44:09,  7.99s/it]                                                             6%|▌         | 6007/100000 [3:38:08<208:44:09,  7.99s/it]  6%|▌         | 6008/100000 [3:38:16<210:54:37,  8.08s/it]                                                             6%|▌         | 6008/100000 [3:38:16<210:54:37,  8.08s/it]  6%|▌         | 6009/100000 [3:38:21<191:27:27,  7.33s/it]                                                             6%|▌         | 6009/100000 [3:38:21<191:27:27,  7.33s/it]  6%|▌         | 6010/100000 [3:38:26<173:03:36,  6.63s/it]                                                             6%|▌         | 6010/100000 [3:38:26<173:03:36,  6.63s/it]  6%|▌         | 6011/100000 [3:38:31<155:05:42,  5.94s/it]                                                             6%|▌         | 6011/100000 [3:38:31<155:05:42,  5.94s/it]  6%|▌         | 6012/100000 [3:38:35<138:27:21,  5.30s/it]                                                             6%|▌         | 6012/100000 [3:38:35<138:27:21,  5.30s/it]  6%|▌         | 6013/100000 [3:38:38<123:11:36,  4.72s/it]                                                             6%|▌         | 6013/100000 [3:38:38<123:11:36,  4.72s/it]  6%|▌         | 6014/100000 [3:38:41<109:27:03,  4.19s/it]                                                             6%|▌         | 6014/100000 [3:38:41<109:27:03,  4.19s/it]  6%|▌         | 6015/100000 [3:38:44<97:31:47,  3.74s/it]                                                             6%|▌         | 6015/100000 [3:38:44<97:31:47,  3.74s/it]  6%|▌         | 6016/100000 [3:38:46<86:26:24,  3.31s/it]                                                            6%|▌         | 6016/100000 [3:38:46<86:26:24,  3.31s/it]  6%|▌         | 6017/100000 [3:38:48<76:08:29,  2.92s/it]                                                            6%|▌         | 6017/100000 [3:38:48<76:08:29,  2.92s/it]  6%|▌         | 6018/100000 [3:38:50<68:55:34,  2.64s/it]                                                            6%|▌         | 6018/100000 [3:38:50<68:55:34,  2.64s/it]  6%|▌         | 6019/100000 [3:38:52<62:42:06,  2.40s/it]                                                            6%|▌         | 6019/100000 [3:38:52<62:42:06,  2.40s/it]  6%|▌         | 6020/100000 [3:38:53<57:27:47,  2.20s/it]                                                            6%|▌         | 6020/100000 [3:38:53<57:27:47,  2.20s/it]  6%|▌         | 6021/100000 [3:38:55<52:57:52,  2.03s/it]                                                            6%|▌         | 6021/100000 [3:38:55<52:57:52,  2.03s/it]  6%|▌         | 6022/100000 [3:38:57<49:13:06,  1.89s/it]                                                            6%|▌         | 6022/100000 [3:38:57<49:13:06,  1.89s/it]  6%|▌         | 6023/100000 [3:38:58<45:44:53,  1.75s/it]                                                            6%|▌         | 6023/100000 [3:38:58<45:44:53,  1.75s/it]  6%|▌         | 6024/100000 [3:38:59<42:41:21,  1.64s/it]                                                            6%|▌         | 6024/100000 [3:38:59<42:41:21,  1.64s/it]  6%|▌         | 6025/100000 [3:39:01<40:30:05,  1.55s/it]                                                            6%|▌         | 6025/100000 [3:39:01<40:30:05,  1.55s/it]  6%|▌         | 6026/100000 [3:39:02<38:24:51,  1.47s/it]                                                            6%|▌         | 6026/100000 [3:39:02<38:24:51,  1.47s/it]  6%|▌         | 6027/100000 [3:39:03<36:24:28,  1.39s/it]                                                            6%|▌         | 6027/100000 [3:39:03<36:24:28,  1.39s/it]  6%|▌         | 6028/100000 [3:39:04<34:16:32,  1.31s/it]                                                            6%|▌         | 6028/100000 [3:39:04<34:16:32,  1.31s/it]  6%|▌         | 6029/100000 [3:39:06<32:36:51,  1.25s/it]                                                            6%|▌         | 6029/100000 [3:39:06<32:36:51,  1.25s/it]  6%|▌         | 6030/100000 [3:39:07<31:06:24,  1.19s/it]                                                            6%|▌         | 6030/100000 [3:39:07<31:06:24,  1.19s/it]  6%|▌         | 6031/100000 [3:39:08<29:57:30,  1.15s/it]                                                            6%|▌         | 6031/100000 [3:39:08<29:57:30,  1.15s/it]  6%|▌         | 6032/100000 [3:39:09<28:38:44,  1.10s/it]                                                            6%|▌         | 6032/100000 [3:39:09<28:38:44,  1.10s/it]  6%|▌         | 6033/100000 [3:39:10<27:34:41,  1.06s/it]                                                            6%|▌         | 6033/100000 [3:39:10<27:34:41,  1.06s/it]  6%|▌         | 6034/100000 [3:39:11<26:44:01,  1.02s/it]                                                            6%|▌         | 6034/100000 [3:39:11<26:44:01,  1.02s/it]  6%|▌         | 6035/100000 [3:39:11<26:08:53,  1.00s/it]                                                            6%|▌         | 6035/100000 [3:39:11<26:08:53,  1.00s/it]  6%|▌         | 6036/100000 [3:39:12<25:37:10,  1.02it/s]                                                            6%|▌         | 6036/100000 [3:39:12<25:37:10,  1.02it/s]  6%|▌         | 6037/100000 [3:39:13<26:00:33,  1.00it/s]                                                            6%|▌         | 6037/100000 [3:39:13<26:00:33,  1.00it/s]  6%|▌         | 6038/100000 [3:39:14<25:36:14,  1.02it/s]                                                            6%|▌         | 6038/100000 [3:39:14<25:36:14,  1.02it/s]  6%|▌         | 6039/100000 [3:39:15<24:50:02,  1.05it/s]                                                            6%|▌         | 6039/100000 [3:39:15<24:50:02,  1.05it/s]  6%|▌         | 6040/100000 [3:39:16<23:42:46,  1.10it/s]                                                            6%|▌         | 6040/100000 [3:39:16<23:42:46,  1.10it/s]  6%|▌         | 6041/100000 [3:39:17<22:15:58,  1.17it/s]                                                            6%|▌         | 6041/100000 [3:39:17<22:15:58,  1.17it/s]  6%|▌         | 6042/100000 [3:39:18<21:38:02,  1.21it/s]                                                            6%|▌         | 6042/100000 [3:39:18<21:38:02,  1.21it/s]  6%|▌         | 6043/100000 [3:39:18<21:18:43,  1.22it/s]                                                            6%|▌         | 6043/100000 [3:39:18<21:18:43,  1.22it/s]  6%|▌         | 6044/100000 [3:39:19<20:39:48,  1.26it/s]                                                            6%|▌         | 6044/100000 [3:39:19<20:39:48,  1.26it/s]  6%|▌         | 6045/100000 [3:39:30<98:30:21,  3.77s/it]                                                            6%|▌         | 6045/100000 [3:39:30<98:30:21,  3.77s/it]  6%|▌         | 6046/100000 [3:39:38<129:41:10,  4.97s/it]                                                             6%|▌         | 6046/100000 [3:39:38<129:41:10,  4.97s/it]  6%|▌         | 6047/100000 [3:39:43<131:52:49,  5.05s/it]                                                             6%|▌         | 6047/100000 [3:39:43<131:52:49,  5.05s/it]  6%|▌         | 6048/100000 [3:39:47<128:03:10,  4.91s/it]                                                             6%|▌         | 6048/100000 [3:39:47<128:03:10,  4.91s/it]  6%|▌         | 6049/100000 [3:39:51<120:02:04,  4.60s/it]                                                             6%|▌         | 6049/100000 [3:39:51<120:02:04,  4.60s/it]  6%|▌         | 6050/100000 [3:39:54<109:11:29,  4.18s/it]                                                             6%|▌         | 6050/100000 [3:39:54<109:11:29,  4.18s/it]  6%|▌         | 6051/100000 [3:39:57<99:42:39,  3.82s/it]                                                             6%|▌         | 6051/100000 [3:39:57<99:42:39,  3.82s/it]  6%|▌         | 6052/100000 [3:40:00<88:50:53,  3.40s/it]                                                            6%|▌         | 6052/100000 [3:40:00<88:50:53,  3.40s/it]  6%|▌         | 6053/100000 [3:40:02<80:09:44,  3.07s/it]                                                            6%|▌         | 6053/100000 [3:40:02<80:09:44,  3.07s/it]  6%|▌         | 6054/100000 [3:40:04<71:52:34,  2.75s/it]                                                            6%|▌         | 6054/100000 [3:40:04<71:52:34,  2.75s/it]  6%|▌         | 6055/100000 [3:40:06<65:22:01,  2.50s/it]                                                            6%|▌         | 6055/100000 [3:40:06<65:22:01,  2.50s/it]  6%|▌         | 6056/100000 [3:40:08<59:20:07,  2.27s/it]                                                            6%|▌         | 6056/100000 [3:40:08<59:20:07,  2.27s/it]  6%|▌         | 6057/100000 [3:40:10<54:43:10,  2.10s/it]                                                            6%|▌         | 6057/100000 [3:40:10<54:43:10,  2.10s/it]  6%|▌         | 6058/100000 [3:40:11<50:50:56,  1.95s/it]                                                            6%|▌         | 6058/100000 [3:40:11<50:50:56,  1.95s/it]  6%|▌         | 6059/100000 [3:40:13<47:28:44,  1.82s/it]                                                            6%|▌         | 6059/100000 [3:40:13<47:28:44,  1.82s/it]  6%|▌         | 6060/100000 [3:40:14<44:25:52,  1.70s/it]                                                            6%|▌         | 6060/100000 [3:40:14<44:25:52,  1.70s/it]  6%|▌         | 6061/100000 [3:40:15<41:34:37,  1.59s/it]                                                            6%|▌         | 6061/100000 [3:40:15<41:34:37,  1.59s/it]  6%|▌         | 6062/100000 [3:40:17<39:08:02,  1.50s/it]                                                            6%|▌         | 6062/100000 [3:40:17<39:08:02,  1.50s/it]  6%|▌         | 6063/100000 [3:40:18<37:19:51,  1.43s/it]                                                            6%|▌         | 6063/100000 [3:40:18<37:19:51,  1.43s/it]  6%|▌         | 6064/100000 [3:40:19<35:24:52,  1.36s/it]                                                            6%|▌         | 6064/100000 [3:40:19<35:24:52,  1.36s/it]  6%|▌         | 6065/100000 [3:40:20<33:34:06,  1.29s/it]                                                            6%|▌         | 6065/100000 [3:40:20<33:34:06,  1.29s/it]  6%|▌         | 6066/100000 [3:40:21<32:09:56,  1.23s/it]                                                            6%|▌         | 6066/100000 [3:40:21<32:09:56,  1.23s/it]  6%|▌         | 6067/100000 [3:40:22<30:38:21,  1.17s/it]                                                            6%|▌         | 6067/100000 [3:40:22<30:38:21,  1.17s/it]  6%|▌         | 6068/100000 [3:40:23<29:24:21,  1.13s/it]                                                            6%|▌         | 6068/100000 [3:40:23<29:24:21,  1.13s/it]  6%|▌         | 6069/100000 [3:40:24<28:25:47,  1.09s/it]                                                            6%|▌         | 6069/100000 [3:40:24<28:25:47,  1.09s/it]  6%|▌         | 6070/100000 [3:40:25<27:49:10,  1.07s/it]                                                            6%|▌         | 6070/100000 [3:40:25<27:49:10,  1.07s/it]  6%|▌         | 6071/100000 [3:40:26<26:49:11,  1.03s/it]                                                            6%|▌         | 6071/100000 [3:40:26<26:49:11,  1.03s/it]  6%|▌         | 6072/100000 [3:40:27<26:39:52,  1.02s/it]                                                            6%|▌         | 6072/100000 [3:40:27<26:39:52,  1.02s/it]  6%|▌         | 6073/100000 [3:40:28<26:06:50,  1.00s/it]                                                            6%|▌         | 6073/100000 [3:40:28<26:06:50,  1.00s/it]  6%|▌         | 6074/100000 [3:40:29<25:46:02,  1.01it/s]                                                            6%|▌         | 6074/100000 [3:40:29<25:46:02,  1.01it/s]  6%|▌         | 6075/100000 [3:40:30<25:17:36,  1.03it/s]                                                            6%|▌         | 6075/100000 [3:40:30<25:17:36,  1.03it/s]  6%|▌         | 6076/100000 [3:40:31<24:48:47,  1.05it/s]                                                            6%|▌         | 6076/100000 [3:40:31<24:48:47,  1.05it/s]  6%|▌         | 6077/100000 [3:40:32<24:21:04,  1.07it/s]                                                            6%|▌         | 6077/100000 [3:40:32<24:21:04,  1.07it/s]  6%|▌         | 6078/100000 [3:40:33<23:36:16,  1.11it/s]                                                            6%|▌         | 6078/100000 [3:40:33<23:36:16,  1.11it/s]  6%|▌         | 6079/100000 [3:40:34<23:07:13,  1.13it/s]                                                            6%|▌         | 6079/100000 [3:40:34<23:07:13,  1.13it/s]  6%|▌         | 6080/100000 [3:40:35<22:40:57,  1.15it/s]                                                            6%|▌         | 6080/100000 [3:40:35<22:40:57,  1.15it/s]  6%|▌         | 6081/100000 [3:40:35<22:17:43,  1.17it/s]                                                            6%|▌         | 6081/100000 [3:40:35<22:17:43,  1.17it/s]  6%|▌         | 6082/100000 [3:40:36<21:54:14,  1.19it/s]                                                            6%|▌         | 6082/100000 [3:40:36<21:54:14,  1.19it/s]  6%|▌         | 6083/100000 [3:40:48<107:18:09,  4.11s/it]                                                             6%|▌         | 6083/100000 [3:40:48<107:18:09,  4.11s/it]  6%|▌         | 6084/100000 [3:40:55<134:22:39,  5.15s/it]                                                             6%|▌         | 6084/100000 [3:40:56<134:22:39,  5.15s/it]  6%|▌         | 6085/100000 [3:41:01<135:14:01,  5.18s/it]                                                             6%|▌         | 6085/100000 [3:41:01<135:14:01,  5.18s/it]  6%|▌         | 6086/100000 [3:41:05<130:30:36,  5.00s/it]                                                             6%|▌         | 6086/100000 [3:41:05<130:30:36,  5.00s/it]  6%|▌         | 6087/100000 [3:41:09<121:04:39,  4.64s/it]                                                             6%|▌         | 6087/100000 [3:41:09<121:04:39,  4.64s/it]  6%|▌         | 6088/100000 [3:41:12<110:37:35,  4.24s/it]                                                             6%|▌         | 6088/100000 [3:41:12<110:37:35,  4.24s/it]  6%|▌         | 6089/100000 [3:41:15<99:28:29,  3.81s/it]                                                             6%|▌         | 6089/100000 [3:41:15<99:28:29,  3.81s/it]  6%|▌         | 6090/100000 [3:41:18<88:52:48,  3.41s/it]                                                          {'loss': 0.352, 'grad_norm': 5.716525554656982, 'learning_rate': 1.8009e-05, 'epoch': 39.01}
{'loss': 0.1682, 'grad_norm': 1.3915514945983887, 'learning_rate': 1.8012000000000003e-05, 'epoch': 39.01}
{'loss': 0.1255, 'grad_norm': 1.0155829191207886, 'learning_rate': 1.8015000000000003e-05, 'epoch': 39.02}
{'loss': 0.0915, 'grad_norm': 0.6016585826873779, 'learning_rate': 1.8018000000000003e-05, 'epoch': 39.03}
{'loss': 0.0981, 'grad_norm': 0.6418358683586121, 'learning_rate': 1.8021000000000002e-05, 'epoch': 39.03}
{'loss': 0.063, 'grad_norm': 0.6745943427085876, 'learning_rate': 1.8024e-05, 'epoch': 39.04}
{'loss': 0.0662, 'grad_norm': 0.6121821999549866, 'learning_rate': 1.8027e-05, 'epoch': 39.05}
{'loss': 0.0587, 'grad_norm': 0.7439408898353577, 'learning_rate': 1.803e-05, 'epoch': 39.05}
{'loss': 0.0626, 'grad_norm': 0.7821932435035706, 'learning_rate': 1.8032999999999998e-05, 'epoch': 39.06}
{'loss': 0.0573, 'grad_norm': 0.6620733141899109, 'learning_rate': 1.8035999999999998e-05, 'epoch': 39.06}
{'loss': 0.0598, 'grad_norm': 0.7702510356903076, 'learning_rate': 1.8038999999999998e-05, 'epoch': 39.07}
{'loss': 0.0392, 'grad_norm': 0.5428978204727173, 'learning_rate': 1.8042e-05, 'epoch': 39.08}
{'loss': 0.0469, 'grad_norm': 0.5941924452781677, 'learning_rate': 1.8045e-05, 'epoch': 39.08}
{'loss': 0.0459, 'grad_norm': 0.9745397567749023, 'learning_rate': 1.8048e-05, 'epoch': 39.09}
{'loss': 0.0338, 'grad_norm': 0.541696310043335, 'learning_rate': 1.8051e-05, 'epoch': 39.1}
{'loss': 0.0447, 'grad_norm': 0.5863649249076843, 'learning_rate': 1.8054e-05, 'epoch': 39.1}
{'loss': 0.0313, 'grad_norm': 0.8670515418052673, 'learning_rate': 1.8057e-05, 'epoch': 39.11}
{'loss': 0.0443, 'grad_norm': 0.939079999923706, 'learning_rate': 1.806e-05, 'epoch': 39.12}
{'loss': 0.0363, 'grad_norm': 0.6961963772773743, 'learning_rate': 1.8063e-05, 'epoch': 39.12}
{'loss': 0.0255, 'grad_norm': 1.0356218814849854, 'learning_rate': 1.8066e-05, 'epoch': 39.13}
{'loss': 0.0415, 'grad_norm': 1.3823339939117432, 'learning_rate': 1.8069e-05, 'epoch': 39.14}
{'loss': 0.0355, 'grad_norm': 0.6239956021308899, 'learning_rate': 1.8072000000000002e-05, 'epoch': 39.14}
{'loss': 0.0229, 'grad_norm': 0.777051568031311, 'learning_rate': 1.8075000000000002e-05, 'epoch': 39.15}
{'loss': 0.0312, 'grad_norm': 1.5952541828155518, 'learning_rate': 1.8078000000000002e-05, 'epoch': 39.16}
{'loss': 0.0524, 'grad_norm': 1.2164453268051147, 'learning_rate': 1.8081000000000002e-05, 'epoch': 39.16}
{'loss': 0.0258, 'grad_norm': 0.9162309169769287, 'learning_rate': 1.8084e-05, 'epoch': 39.17}
{'loss': 0.0264, 'grad_norm': 0.7024365067481995, 'learning_rate': 1.8087e-05, 'epoch': 39.18}
{'loss': 0.0619, 'grad_norm': 1.0142568349838257, 'learning_rate': 1.809e-05, 'epoch': 39.18}
{'loss': 0.0172, 'grad_norm': 0.9516074061393738, 'learning_rate': 1.8093e-05, 'epoch': 39.19}
{'loss': 0.0283, 'grad_norm': 0.9816046357154846, 'learning_rate': 1.8096e-05, 'epoch': 39.19}
{'loss': 0.0165, 'grad_norm': 0.5553900599479675, 'learning_rate': 1.8098999999999997e-05, 'epoch': 39.2}
{'loss': 0.0104, 'grad_norm': 0.55959153175354, 'learning_rate': 1.8102e-05, 'epoch': 39.21}
{'loss': 0.0135, 'grad_norm': 0.6582878232002258, 'learning_rate': 1.8105e-05, 'epoch': 39.21}
{'loss': 0.0216, 'grad_norm': 1.1514511108398438, 'learning_rate': 1.8108e-05, 'epoch': 39.22}
{'loss': 0.0229, 'grad_norm': 1.3590607643127441, 'learning_rate': 1.8111e-05, 'epoch': 39.23}
{'loss': 0.0278, 'grad_norm': 1.334602952003479, 'learning_rate': 1.8114e-05, 'epoch': 39.23}
{'loss': 0.0165, 'grad_norm': 0.9056864380836487, 'learning_rate': 1.8117e-05, 'epoch': 39.24}
{'loss': 0.0151, 'grad_norm': 0.8353835344314575, 'learning_rate': 1.812e-05, 'epoch': 39.25}
{'loss': 0.2103, 'grad_norm': 1.2540669441223145, 'learning_rate': 1.8123e-05, 'epoch': 39.25}
{'loss': 0.121, 'grad_norm': 0.7623471617698669, 'learning_rate': 1.8126e-05, 'epoch': 39.26}
{'loss': 0.0839, 'grad_norm': 0.8100235462188721, 'learning_rate': 1.8129e-05, 'epoch': 39.27}
{'loss': 0.1069, 'grad_norm': 0.744015634059906, 'learning_rate': 1.8132000000000002e-05, 'epoch': 39.27}
{'loss': 0.0898, 'grad_norm': 0.744346022605896, 'learning_rate': 1.8135000000000002e-05, 'epoch': 39.28}
{'loss': 0.0748, 'grad_norm': 0.6035146713256836, 'learning_rate': 1.8138e-05, 'epoch': 39.29}
{'loss': 0.0628, 'grad_norm': 0.5537256598472595, 'learning_rate': 1.8141e-05, 'epoch': 39.29}
{'loss': 0.062, 'grad_norm': 0.7918384671211243, 'learning_rate': 1.8144e-05, 'epoch': 39.3}
{'loss': 0.0861, 'grad_norm': 0.9700677394866943, 'learning_rate': 1.8147e-05, 'epoch': 39.31}
{'loss': 0.0519, 'grad_norm': 0.5960966944694519, 'learning_rate': 1.815e-05, 'epoch': 39.31}
{'loss': 0.0495, 'grad_norm': 0.8199923038482666, 'learning_rate': 1.8153e-05, 'epoch': 39.32}
{'loss': 0.0475, 'grad_norm': 0.8436587452888489, 'learning_rate': 1.8156e-05, 'epoch': 39.32}
{'loss': 0.0313, 'grad_norm': 0.6380473971366882, 'learning_rate': 1.8159e-05, 'epoch': 39.33}
{'loss': 0.0389, 'grad_norm': 0.609105110168457, 'learning_rate': 1.8162000000000003e-05, 'epoch': 39.34}
{'loss': 0.0331, 'grad_norm': 0.941967785358429, 'learning_rate': 1.8165000000000003e-05, 'epoch': 39.34}
{'loss': 0.0336, 'grad_norm': 1.1690638065338135, 'learning_rate': 1.8168000000000003e-05, 'epoch': 39.35}
{'loss': 0.0424, 'grad_norm': 1.0576680898666382, 'learning_rate': 1.8171e-05, 'epoch': 39.36}
{'loss': 0.0311, 'grad_norm': 0.7190921902656555, 'learning_rate': 1.8174e-05, 'epoch': 39.36}
{'loss': 0.0381, 'grad_norm': 0.706520140171051, 'learning_rate': 1.8177e-05, 'epoch': 39.37}
{'loss': 0.0325, 'grad_norm': 0.8569806814193726, 'learning_rate': 1.818e-05, 'epoch': 39.38}
{'loss': 0.0432, 'grad_norm': 1.090793490409851, 'learning_rate': 1.8183e-05, 'epoch': 39.38}
{'loss': 0.0254, 'grad_norm': 0.9280833601951599, 'learning_rate': 1.8186e-05, 'epoch': 39.39}
{'loss': 0.0353, 'grad_norm': 1.1428636312484741, 'learning_rate': 1.8188999999999998e-05, 'epoch': 39.4}
{'loss': 0.0352, 'grad_norm': 1.2236415147781372, 'learning_rate': 1.8192e-05, 'epoch': 39.4}
{'loss': 0.027, 'grad_norm': 1.2226265668869019, 'learning_rate': 1.8195e-05, 'epoch': 39.41}
{'loss': 0.0245, 'grad_norm': 0.9317640662193298, 'learning_rate': 1.8198e-05, 'epoch': 39.42}
{'loss': 0.0291, 'grad_norm': 0.9384621381759644, 'learning_rate': 1.8201e-05, 'epoch': 39.42}
{'loss': 0.0903, 'grad_norm': 1.1701205968856812, 'learning_rate': 1.8204e-05, 'epoch': 39.43}
{'loss': 0.0237, 'grad_norm': 1.2922000885009766, 'learning_rate': 1.8207e-05, 'epoch': 39.44}
{'loss': 0.0215, 'grad_norm': 1.1265684366226196, 'learning_rate': 1.821e-05, 'epoch': 39.44}
{'loss': 0.0265, 'grad_norm': 1.7304493188858032, 'learning_rate': 1.8213e-05, 'epoch': 39.45}
{'loss': 0.0393, 'grad_norm': 1.7193567752838135, 'learning_rate': 1.8216e-05, 'epoch': 39.45}
{'loss': 0.0323, 'grad_norm': 1.121928334236145, 'learning_rate': 1.8219e-05, 'epoch': 39.46}
{'loss': 0.0361, 'grad_norm': 1.8738435506820679, 'learning_rate': 1.8222000000000003e-05, 'epoch': 39.47}
{'loss': 0.028, 'grad_norm': 1.4767138957977295, 'learning_rate': 1.8225000000000003e-05, 'epoch': 39.47}
{'loss': 0.066, 'grad_norm': 1.3499677181243896, 'learning_rate': 1.8228000000000002e-05, 'epoch': 39.48}
{'loss': 0.0202, 'grad_norm': 1.4970879554748535, 'learning_rate': 1.8231000000000002e-05, 'epoch': 39.49}
{'loss': 0.0306, 'grad_norm': 2.6396944522857666, 'learning_rate': 1.8234000000000002e-05, 'epoch': 39.49}
{'loss': 0.1766, 'grad_norm': 1.2037310600280762, 'learning_rate': 1.8237000000000002e-05, 'epoch': 39.5}
{'loss': 0.124, 'grad_norm': 1.0261235237121582, 'learning_rate': 1.824e-05, 'epoch': 39.51}
{'loss': 0.1177, 'grad_norm': 0.6485314965248108, 'learning_rate': 1.8243e-05, 'epoch': 39.51}
{'loss': 0.0952, 'grad_norm': 0.7117434740066528, 'learning_rate': 1.8245999999999998e-05, 'epoch': 39.52}
{'loss': 0.0784, 'grad_norm': 0.7355024218559265, 'learning_rate': 1.8248999999999998e-05, 'epoch': 39.53}
{'loss': 0.0757, 'grad_norm': 0.7093989253044128, 'learning_rate': 1.8252e-05, 'epoch': 39.53}
{'loss': 0.0885, 'grad_norm': 0.8398922681808472, 'learning_rate': 1.8255e-05, 'epoch': 39.54}
  6%|▌         | 6090/100000 [3:41:18<88:52:48,  3.41s/it]  6%|▌         | 6091/100000 [3:41:20<79:33:02,  3.05s/it]                                                            6%|▌         | 6091/100000 [3:41:20<79:33:02,  3.05s/it]  6%|▌         | 6092/100000 [3:41:22<71:46:16,  2.75s/it]                                                            6%|▌         | 6092/100000 [3:41:22<71:46:16,  2.75s/it]  6%|▌         | 6093/100000 [3:41:24<65:15:50,  2.50s/it]                                                            6%|▌         | 6093/100000 [3:41:24<65:15:50,  2.50s/it]  6%|▌         | 6094/100000 [3:41:26<59:13:58,  2.27s/it]                                                            6%|▌         | 6094/100000 [3:41:26<59:13:58,  2.27s/it]  6%|▌         | 6095/100000 [3:41:27<54:33:05,  2.09s/it]                                                            6%|▌         | 6095/100000 [3:41:27<54:33:05,  2.09s/it]  6%|▌         | 6096/100000 [3:41:29<50:42:32,  1.94s/it]                                                            6%|▌         | 6096/100000 [3:41:29<50:42:32,  1.94s/it]  6%|▌         | 6097/100000 [3:41:30<47:21:21,  1.82s/it]                                                            6%|▌         | 6097/100000 [3:41:30<47:21:21,  1.82s/it]  6%|▌         | 6098/100000 [3:41:32<44:14:38,  1.70s/it]                                                            6%|▌         | 6098/100000 [3:41:32<44:14:38,  1.70s/it]  6%|▌         | 6099/100000 [3:41:33<41:42:40,  1.60s/it]                                                            6%|▌         | 6099/100000 [3:41:33<41:42:40,  1.60s/it]  6%|▌         | 6100/100000 [3:41:35<39:42:50,  1.52s/it]                                                            6%|▌         | 6100/100000 [3:41:35<39:42:50,  1.52s/it]  6%|▌         | 6101/100000 [3:41:36<37:55:51,  1.45s/it]                                                            6%|▌         | 6101/100000 [3:41:36<37:55:51,  1.45s/it]  6%|▌         | 6102/100000 [3:41:37<36:09:47,  1.39s/it]                                                            6%|▌         | 6102/100000 [3:41:37<36:09:47,  1.39s/it]  6%|▌         | 6103/100000 [3:41:38<34:14:10,  1.31s/it]                                                            6%|▌         | 6103/100000 [3:41:38<34:14:10,  1.31s/it]  6%|▌         | 6104/100000 [3:41:39<32:38:01,  1.25s/it]                                                            6%|▌         | 6104/100000 [3:41:39<32:38:01,  1.25s/it]  6%|▌         | 6105/100000 [3:41:40<31:17:37,  1.20s/it]                                                            6%|▌         | 6105/100000 [3:41:40<31:17:37,  1.20s/it]  6%|▌         | 6106/100000 [3:41:41<30:01:20,  1.15s/it]                                                            6%|▌         | 6106/100000 [3:41:41<30:01:20,  1.15s/it]  6%|▌         | 6107/100000 [3:41:42<28:51:11,  1.11s/it]                                                            6%|▌         | 6107/100000 [3:41:42<28:51:11,  1.11s/it]  6%|▌         | 6108/100000 [3:41:43<27:46:30,  1.06s/it]                                                            6%|▌         | 6108/100000 [3:41:43<27:46:30,  1.06s/it]  6%|▌         | 6109/100000 [3:41:44<26:43:25,  1.02s/it]                                                            6%|▌         | 6109/100000 [3:41:44<26:43:25,  1.02s/it]  6%|▌         | 6110/100000 [3:41:45<25:29:04,  1.02it/s]                                                            6%|▌         | 6110/100000 [3:41:45<25:29:04,  1.02it/s]  6%|▌         | 6111/100000 [3:41:46<24:35:31,  1.06it/s]                                                            6%|▌         | 6111/100000 [3:41:46<24:35:31,  1.06it/s]  6%|▌         | 6112/100000 [3:41:47<24:15:07,  1.08it/s]                                                            6%|▌         | 6112/100000 [3:41:47<24:15:07,  1.08it/s]  6%|▌         | 6113/100000 [3:41:48<23:50:39,  1.09it/s]                                                            6%|▌         | 6113/100000 [3:41:48<23:50:39,  1.09it/s]  6%|▌         | 6114/100000 [3:41:49<23:07:25,  1.13it/s]                                                            6%|▌         | 6114/100000 [3:41:49<23:07:25,  1.13it/s]  6%|▌         | 6115/100000 [3:41:50<22:41:42,  1.15it/s]                                                            6%|▌         | 6115/100000 [3:41:50<22:41:42,  1.15it/s]  6%|▌         | 6116/100000 [3:41:50<22:22:10,  1.17it/s]                                                            6%|▌         | 6116/100000 [3:41:50<22:22:10,  1.17it/s]  6%|▌         | 6117/100000 [3:41:51<21:58:16,  1.19it/s]                                                            6%|▌         | 6117/100000 [3:41:51<21:58:16,  1.19it/s]  6%|▌         | 6118/100000 [3:41:52<21:20:55,  1.22it/s]                                                            6%|▌         | 6118/100000 [3:41:52<21:20:55,  1.22it/s]  6%|▌         | 6119/100000 [3:41:53<20:50:17,  1.25it/s]                                                            6%|▌         | 6119/100000 [3:41:53<20:50:17,  1.25it/s]  6%|▌         | 6120/100000 [3:41:53<19:27:06,  1.34it/s]                                                            6%|▌         | 6120/100000 [3:41:53<19:27:06,  1.34it/s]  6%|▌         | 6121/100000 [3:42:06<114:02:07,  4.37s/it]                                                             6%|▌         | 6121/100000 [3:42:06<114:02:07,  4.37s/it]  6%|▌         | 6122/100000 [3:42:14<142:28:57,  5.46s/it]                                                             6%|▌         | 6122/100000 [3:42:14<142:28:57,  5.46s/it]  6%|▌         | 6123/100000 [3:42:20<144:13:39,  5.53s/it]                                                             6%|▌         | 6123/100000 [3:42:20<144:13:39,  5.53s/it]  6%|▌         | 6124/100000 [3:42:24<137:29:04,  5.27s/it]                                                             6%|▌         | 6124/100000 [3:42:24<137:29:04,  5.27s/it]  6%|▌         | 6125/100000 [3:42:28<125:55:18,  4.83s/it]                                                             6%|▌         | 6125/100000 [3:42:28<125:55:18,  4.83s/it]  6%|▌         | 6126/100000 [3:42:32<116:14:57,  4.46s/it]                                                             6%|▌         | 6126/100000 [3:42:32<116:14:57,  4.46s/it]  6%|▌         | 6127/100000 [3:42:35<105:51:04,  4.06s/it]                                                             6%|▌         | 6127/100000 [3:42:35<105:51:04,  4.06s/it]  6%|▌         | 6128/100000 [3:42:38<94:21:37,  3.62s/it]                                                             6%|▌         | 6128/100000 [3:42:38<94:21:37,  3.62s/it]  6%|▌         | 6129/100000 [3:42:40<84:46:55,  3.25s/it]                                                            6%|▌         | 6129/100000 [3:42:40<84:46:55,  3.25s/it]  6%|▌         | 6130/100000 [3:42:42<76:29:50,  2.93s/it]                                                            6%|▌         | 6130/100000 [3:42:42<76:29:50,  2.93s/it]  6%|▌         | 6131/100000 [3:42:44<69:09:30,  2.65s/it]                                                            6%|▌         | 6131/100000 [3:42:44<69:09:30,  2.65s/it]  6%|▌         | 6132/100000 [3:42:46<62:35:22,  2.40s/it]                                                            6%|▌         | 6132/100000 [3:42:46<62:35:22,  2.40s/it]  6%|▌         | 6133/100000 [3:42:48<57:36:46,  2.21s/it]                                                            6%|▌         | 6133/100000 [3:42:48<57:36:46,  2.21s/it]  6%|▌         | 6134/100000 [3:42:49<52:50:50,  2.03s/it]                                                            6%|▌         | 6134/100000 [3:42:49<52:50:50,  2.03s/it]  6%|▌         | 6135/100000 [3:42:51<49:24:48,  1.90s/it]                                                            6%|▌         | 6135/100000 [3:42:51<49:24:48,  1.90s/it]  6%|▌         | 6136/100000 [3:42:52<45:49:17,  1.76s/it]                                                            6%|▌         | 6136/100000 [3:42:52<45:49:17,  1.76s/it]  6%|▌         | 6137/100000 [3:42:54<43:07:17,  1.65s/it]                                                            6%|▌         | 6137/100000 [3:42:54<43:07:17,  1.65s/it]  6%|▌         | 6138/100000 [3:42:55<40:38:21,  1.56s/it]                                                            6%|▌         | 6138/100000 [3:42:55<40:38:21,  1.56s/it]  6%|▌         | 6139/100000 [3:42:56<38:13:04,  1.47s/it]                                                            6%|▌         | 6139/100000 [3:42:56<38:13:04,  1.47s/it]  6%|▌         | 6140/100000 [3:42:58<36:28:23,  1.40s/it]                                                            6%|▌         | 6140/100000 [3:42:58<36:28:23,  1.40s/it]  6%|▌         | 6141/100000 [3:42:59<34:46:47,  1.33s/it]                                                            6%|▌         | 6141/100000 [3:42:59<34:46:47,  1.33s/it]  6%|▌         | 6142/100000 [3:43:00<33:00:49,  1.27s/it]                                                            6%|▌         | 6142/100000 [3:43:00<33:00:49,  1.27s/it]  6%|▌         | 6143/100000 [3:43:01<31:30:18,  1.21s/it]                                                            6%|▌         | 6143/100000 [3:43:01<31:30:18,  1.21s/it]  6%|▌         | 6144/100000 [3:43:02<30:10:44,  1.16s/it]                                                            6%|▌         | 6144/100000 [3:43:02<30:10:44,  1.16s/it]  6%|▌         | 6145/100000 [3:43:03<28:51:17,  1.11s/it]                                                            6%|▌         | 6145/100000 [3:43:03<28:51:17,  1.11s/it]  6%|▌         | 6146/100000 [3:43:04<27:47:16,  1.07s/it]                                                            6%|▌         | 6146/100000 [3:43:04<27:47:16,  1.07s/it]  6%|▌         | 6147/100000 [3:43:05<26:45:13,  1.03s/it]                                                            6%|▌         | 6147/100000 [3:43:05<26:45:13,  1.03s/it]  6%|▌         | 6148/100000 [3:43:06<25:50:26,  1.01it/s]                                                            6%|▌         | 6148/100000 [3:43:06<25:50:26,  1.01it/s]  6%|▌         | 6149/100000 [3:43:07<24:52:08,  1.05it/s]                                                            6%|▌         | 6149/100000 [3:43:07<24:52:08,  1.05it/s]  6%|▌         | 6150/100000 [3:43:08<24:03:50,  1.08it/s]                                                            6%|▌         | 6150/100000 [3:43:08<24:03:50,  1.08it/s]  6%|▌         | 6151/100000 [3:43:08<23:10:56,  1.12it/s]                                                            6%|▌         | 6151/100000 [3:43:08<23:10:56,  1.12it/s]  6%|▌         | 6152/100000 [3:43:09<22:28:59,  1.16it/s]                                                            6%|▌         | 6152/100000 [3:43:09<22:28:59,  1.16it/s]  6%|▌         | 6153/100000 [3:43:10<21:39:00,  1.20it/s]                                                            6%|▌         | 6153/100000 [3:43:10<21:39:00,  1.20it/s]  6%|▌         | 6154/100000 [3:43:11<21:58:38,  1.19it/s]                                                            6%|▌         | 6154/100000 [3:43:11<21:58:38,  1.19it/s]  6%|▌         | 6155/100000 [3:43:12<22:00:04,  1.18it/s]                                                            6%|▌         | 6155/100000 [3:43:12<22:00:04,  1.18it/s]  6%|▌         | 6156/100000 [3:43:12<21:39:22,  1.20it/s]                                                            6%|▌         | 6156/100000 [3:43:12<21:39:22,  1.20it/s]  6%|▌         | 6157/100000 [3:43:13<21:06:03,  1.24it/s]                                                            6%|▌         | 6157/100000 [3:43:13<21:06:03,  1.24it/s]  6%|▌         | 6158/100000 [3:43:14<20:26:44,  1.27it/s]                                                            6%|▌         | 6158/100000 [3:43:14<20:26:44,  1.27it/s]  6%|▌         | 6159/100000 [3:43:20<64:20:30,  2.47s/it]                                                            6%|▌         | 6159/100000 [3:43:20<64:20:30,  2.47s/it]  6%|▌         | 6160/100000 [3:43:22<55:38:58,  2.13s/it]                                                            6%|▌         | 6160/100000 [3:43:22<55:38:58,  2.13s/it]{'loss': 0.0554, 'grad_norm': 0.78313148021698, 'learning_rate': 1.8258e-05, 'epoch': 39.55}
{'loss': 0.0668, 'grad_norm': 0.8842349648475647, 'learning_rate': 1.8261e-05, 'epoch': 39.55}
{'loss': 0.0608, 'grad_norm': 0.8847678303718567, 'learning_rate': 1.8264e-05, 'epoch': 39.56}
{'loss': 0.0464, 'grad_norm': 0.8287792801856995, 'learning_rate': 1.8267e-05, 'epoch': 39.56}
{'loss': 0.0645, 'grad_norm': 0.7545167207717896, 'learning_rate': 1.827e-05, 'epoch': 39.57}
{'loss': 0.0389, 'grad_norm': 0.5827290415763855, 'learning_rate': 1.8273e-05, 'epoch': 39.58}
{'loss': 0.0491, 'grad_norm': 0.808221697807312, 'learning_rate': 1.8276e-05, 'epoch': 39.58}
{'loss': 0.0353, 'grad_norm': 0.6701194047927856, 'learning_rate': 1.8279e-05, 'epoch': 39.59}
{'loss': 0.1031, 'grad_norm': 1.194973349571228, 'learning_rate': 1.8282000000000002e-05, 'epoch': 39.6}
{'loss': 0.0423, 'grad_norm': 0.9648839235305786, 'learning_rate': 1.8285000000000002e-05, 'epoch': 39.6}
{'loss': 0.0369, 'grad_norm': 0.6969296336174011, 'learning_rate': 1.8288000000000002e-05, 'epoch': 39.61}
{'loss': 0.0358, 'grad_norm': 0.7409701943397522, 'learning_rate': 1.8291e-05, 'epoch': 39.62}
{'loss': 0.0476, 'grad_norm': 1.0505458116531372, 'learning_rate': 1.8294e-05, 'epoch': 39.62}
{'loss': 0.0183, 'grad_norm': 0.46810904145240784, 'learning_rate': 1.8297e-05, 'epoch': 39.63}
{'loss': 0.0331, 'grad_norm': 0.8882371783256531, 'learning_rate': 1.83e-05, 'epoch': 39.64}
{'loss': 0.0421, 'grad_norm': 0.6967545747756958, 'learning_rate': 1.8303e-05, 'epoch': 39.64}
{'loss': 0.0251, 'grad_norm': 1.0608502626419067, 'learning_rate': 1.8306e-05, 'epoch': 39.65}
{'loss': 0.0224, 'grad_norm': 0.6698757410049438, 'learning_rate': 1.8309e-05, 'epoch': 39.66}
{'loss': 0.0146, 'grad_norm': 0.5390737652778625, 'learning_rate': 1.8312000000000004e-05, 'epoch': 39.66}
{'loss': 0.0202, 'grad_norm': 0.886146605014801, 'learning_rate': 1.8315000000000003e-05, 'epoch': 39.67}
{'loss': 0.0271, 'grad_norm': 0.9155662059783936, 'learning_rate': 1.8318e-05, 'epoch': 39.68}
{'loss': 0.0199, 'grad_norm': 0.5360510945320129, 'learning_rate': 1.8321e-05, 'epoch': 39.68}
{'loss': 0.0181, 'grad_norm': 0.9342222213745117, 'learning_rate': 1.8324e-05, 'epoch': 39.69}
{'loss': 0.0573, 'grad_norm': 0.7991882562637329, 'learning_rate': 1.8327e-05, 'epoch': 39.69}
{'loss': 0.0174, 'grad_norm': 1.1201775074005127, 'learning_rate': 1.833e-05, 'epoch': 39.7}
{'loss': 0.0163, 'grad_norm': 0.8949344158172607, 'learning_rate': 1.8333e-05, 'epoch': 39.71}
{'loss': 0.0138, 'grad_norm': 0.7886539697647095, 'learning_rate': 1.8336e-05, 'epoch': 39.71}
{'loss': 0.0267, 'grad_norm': 2.4058258533477783, 'learning_rate': 1.8339e-05, 'epoch': 39.72}
{'loss': 0.0472, 'grad_norm': 1.8548085689544678, 'learning_rate': 1.8342e-05, 'epoch': 39.73}
{'loss': 0.0345, 'grad_norm': 1.828371524810791, 'learning_rate': 1.8345e-05, 'epoch': 39.73}
{'loss': 0.0904, 'grad_norm': 1.5872812271118164, 'learning_rate': 1.8348e-05, 'epoch': 39.74}
{'loss': 0.2164, 'grad_norm': 1.9531699419021606, 'learning_rate': 1.8351e-05, 'epoch': 39.75}
{'loss': 0.1389, 'grad_norm': 0.8813822269439697, 'learning_rate': 1.8354e-05, 'epoch': 39.75}
{'loss': 0.1483, 'grad_norm': 1.4481539726257324, 'learning_rate': 1.8357e-05, 'epoch': 39.76}
{'loss': 0.1225, 'grad_norm': 1.8706459999084473, 'learning_rate': 1.836e-05, 'epoch': 39.77}
{'loss': 0.0994, 'grad_norm': 0.7682450413703918, 'learning_rate': 1.8363e-05, 'epoch': 39.77}
{'loss': 0.0816, 'grad_norm': 0.7392944097518921, 'learning_rate': 1.8366e-05, 'epoch': 39.78}
{'loss': 0.0822, 'grad_norm': 0.6808486580848694, 'learning_rate': 1.8369e-05, 'epoch': 39.79}
{'loss': 0.0793, 'grad_norm': 0.8159737586975098, 'learning_rate': 1.8372000000000003e-05, 'epoch': 39.79}
{'loss': 0.0711, 'grad_norm': 1.7045190334320068, 'learning_rate': 1.8375000000000003e-05, 'epoch': 39.8}
{'loss': 0.0601, 'grad_norm': 0.5911356210708618, 'learning_rate': 1.8378000000000003e-05, 'epoch': 39.81}
{'loss': 0.0639, 'grad_norm': 0.9438943862915039, 'learning_rate': 1.8381000000000002e-05, 'epoch': 39.81}
{'loss': 0.0426, 'grad_norm': 0.9106824994087219, 'learning_rate': 1.8384000000000002e-05, 'epoch': 39.82}
{'loss': 0.0505, 'grad_norm': 0.7607027888298035, 'learning_rate': 1.8387000000000002e-05, 'epoch': 39.82}
{'loss': 0.0474, 'grad_norm': 0.6793646812438965, 'learning_rate': 1.8390000000000002e-05, 'epoch': 39.83}
{'loss': 0.0386, 'grad_norm': 0.4647156596183777, 'learning_rate': 1.8392999999999998e-05, 'epoch': 39.84}
{'loss': 0.0361, 'grad_norm': 0.6247865557670593, 'learning_rate': 1.8395999999999998e-05, 'epoch': 39.84}
{'loss': 0.0359, 'grad_norm': 0.7363436222076416, 'learning_rate': 1.8398999999999998e-05, 'epoch': 39.85}
{'loss': 0.0406, 'grad_norm': 0.6662306189537048, 'learning_rate': 1.8401999999999998e-05, 'epoch': 39.86}
{'loss': 0.0238, 'grad_norm': 0.5776302218437195, 'learning_rate': 1.8405e-05, 'epoch': 39.86}
{'loss': 0.0363, 'grad_norm': 0.7065545320510864, 'learning_rate': 1.8408e-05, 'epoch': 39.87}
{'loss': 0.0388, 'grad_norm': 1.2946563959121704, 'learning_rate': 1.8411e-05, 'epoch': 39.88}
{'loss': 0.0278, 'grad_norm': 0.6314737796783447, 'learning_rate': 1.8414e-05, 'epoch': 39.88}
{'loss': 0.0218, 'grad_norm': 0.7235029935836792, 'learning_rate': 1.8417e-05, 'epoch': 39.89}
{'loss': 0.0301, 'grad_norm': 0.9905074834823608, 'learning_rate': 1.842e-05, 'epoch': 39.9}
{'loss': 0.0247, 'grad_norm': 1.1246447563171387, 'learning_rate': 1.8423e-05, 'epoch': 39.9}
{'loss': 0.0149, 'grad_norm': 0.5292117595672607, 'learning_rate': 1.8426e-05, 'epoch': 39.91}
{'loss': 0.0217, 'grad_norm': 0.7608446478843689, 'learning_rate': 1.8429e-05, 'epoch': 39.92}
{'loss': 0.0391, 'grad_norm': 2.8596115112304688, 'learning_rate': 1.8432e-05, 'epoch': 39.92}
{'loss': 0.1258, 'grad_norm': 1.8559650182724, 'learning_rate': 1.8435000000000002e-05, 'epoch': 39.93}
{'loss': 0.0266, 'grad_norm': 1.918633222579956, 'learning_rate': 1.8438000000000002e-05, 'epoch': 39.94}
{'loss': 0.0131, 'grad_norm': 0.5388943552970886, 'learning_rate': 1.8441000000000002e-05, 'epoch': 39.94}
{'loss': 0.01, 'grad_norm': 0.581250786781311, 'learning_rate': 1.8444e-05, 'epoch': 39.95}
{'loss': 0.0222, 'grad_norm': 1.4323475360870361, 'learning_rate': 1.8447e-05, 'epoch': 39.95}
{'loss': 0.0167, 'grad_norm': 0.9367706775665283, 'learning_rate': 1.845e-05, 'epoch': 39.96}
{'loss': 0.0272, 'grad_norm': 1.978089451789856, 'learning_rate': 1.8453e-05, 'epoch': 39.97}
{'loss': 0.0193, 'grad_norm': 0.8379437923431396, 'learning_rate': 1.8456e-05, 'epoch': 39.97}
{'loss': 0.0543, 'grad_norm': 3.2121715545654297, 'learning_rate': 1.8459e-05, 'epoch': 39.98}
{'loss': 0.0425, 'grad_norm': 1.2084208726882935, 'learning_rate': 1.8462e-05, 'epoch': 39.99}
{'loss': 0.1096, 'grad_norm': 3.25605845451355, 'learning_rate': 1.8465e-05, 'epoch': 39.99}
{'loss': 0.0321, 'grad_norm': 1.0398457050323486, 'learning_rate': 1.8468e-05, 'epoch': 40.0}
  6%|▌         | 6161/100000 [3:43:39<177:07:06,  6.79s/it]                                                             6%|▌         | 6161/100000 [3:43:39<177:07:06,  6.79s/it]  6%|▌         | 6162/100000 [3:43:47<186:24:07,  7.15s/it]                                                             6%|▌         | 6162/100000 [3:43:47<186:24:07,  7.15s/it]  6%|▌         | 6163/100000 [3:43:53<176:27:41,  6.77s/it]                                                             6%|▌         | 6163/100000 [3:43:53<176:27:41,  6.77s/it]  6%|▌         | 6164/100000 [3:43:58<160:10:47,  6.15s/it]                                                             6%|▌         | 6164/100000 [3:43:58<160:10:47,  6.15s/it]  6%|▌         | 6165/100000 [3:44:02<144:18:39,  5.54s/it]                                                             6%|▌         | 6165/100000 [3:44:02<144:18:39,  5.54s/it]  6%|▌         | 6166/100000 [3:44:06<128:32:50,  4.93s/it]                                                             6%|▌         | 6166/100000 [3:44:06<128:32:50,  4.93s/it]  6%|▌         | 6167/100000 [3:44:09<113:34:25,  4.36s/it]                                                             6%|▌         | 6167/100000 [3:44:09<113:34:25,  4.36s/it]  6%|▌         | 6168/100000 [3:44:11<100:05:18,  3.84s/it]                                                             6%|▌         | 6168/100000 [3:44:11<100:05:18,  3.84s/it]  6%|▌         | 6169/100000 [3:44:13<88:16:31,  3.39s/it]                                                             6%|▌         | 6169/100000 [3:44:14<88:16:31,  3.39s/it]  6%|▌         | 6170/100000 [3:44:16<78:35:52,  3.02s/it]                                                            6%|▌         | 6170/100000 [3:44:16<78:35:52,  3.02s/it]  6%|▌         | 6171/100000 [3:44:18<70:38:42,  2.71s/it]                                                            6%|▌         | 6171/100000 [3:44:18<70:38:42,  2.71s/it]  6%|▌         | 6172/100000 [3:44:19<63:52:13,  2.45s/it]                                                            6%|▌         | 6172/100000 [3:44:19<63:52:13,  2.45s/it]  6%|▌         | 6173/100000 [3:44:21<57:45:58,  2.22s/it]                                                            6%|▌         | 6173/100000 [3:44:21<57:45:58,  2.22s/it]  6%|▌         | 6174/100000 [3:44:23<53:14:59,  2.04s/it]                                                            6%|▌         | 6174/100000 [3:44:23<53:14:59,  2.04s/it]  6%|▌         | 6175/100000 [3:44:24<50:07:59,  1.92s/it]                                                            6%|▌         | 6175/100000 [3:44:24<50:07:59,  1.92s/it]  6%|▌         | 6176/100000 [3:44:26<46:16:09,  1.78s/it]                                                            6%|▌         | 6176/100000 [3:44:26<46:16:09,  1.78s/it]  6%|▌         | 6177/100000 [3:44:27<42:46:36,  1.64s/it]                                                            6%|▌         | 6177/100000 [3:44:27<42:46:36,  1.64s/it]  6%|▌         | 6178/100000 [3:44:29<40:31:59,  1.56s/it]                                                            6%|▌         | 6178/100000 [3:44:29<40:31:59,  1.56s/it]  6%|▌         | 6179/100000 [3:44:30<38:14:45,  1.47s/it]                                                            6%|▌         | 6179/100000 [3:44:30<38:14:45,  1.47s/it]  6%|▌         | 6180/100000 [3:44:31<36:13:20,  1.39s/it]                                                            6%|▌         | 6180/100000 [3:44:31<36:13:20,  1.39s/it]  6%|▌         | 6181/100000 [3:44:32<34:10:27,  1.31s/it]                                                            6%|▌         | 6181/100000 [3:44:32<34:10:27,  1.31s/it]  6%|▌         | 6182/100000 [3:44:33<32:16:23,  1.24s/it]                                                            6%|▌         | 6182/100000 [3:44:33<32:16:23,  1.24s/it]  6%|▌         | 6183/100000 [3:44:34<30:46:54,  1.18s/it]                                                            6%|▌         | 6183/100000 [3:44:34<30:46:54,  1.18s/it]  6%|▌         | 6184/100000 [3:44:35<29:17:46,  1.12s/it]                                                            6%|▌         | 6184/100000 [3:44:35<29:17:46,  1.12s/it]  6%|▌         | 6185/100000 [3:44:36<27:55:31,  1.07s/it]                                                            6%|▌         | 6185/100000 [3:44:36<27:55:31,  1.07s/it]  6%|▌         | 6186/100000 [3:44:37<27:03:39,  1.04s/it]                                                            6%|▌         | 6186/100000 [3:44:37<27:03:39,  1.04s/it]  6%|▌         | 6187/100000 [3:44:38<26:08:27,  1.00s/it]                                                            6%|▌         | 6187/100000 [3:44:38<26:08:27,  1.00s/it]  6%|▌         | 6188/100000 [3:44:39<25:29:11,  1.02it/s]                                                            6%|▌         | 6188/100000 [3:44:39<25:29:11,  1.02it/s]  6%|▌         | 6189/100000 [3:44:40<24:36:49,  1.06it/s]                                                            6%|▌         | 6189/100000 [3:44:40<24:36:49,  1.06it/s]  6%|▌         | 6190/100000 [3:44:41<24:37:35,  1.06it/s]                                                            6%|▌         | 6190/100000 [3:44:41<24:37:35,  1.06it/s]  6%|▌         | 6191/100000 [3:44:42<24:12:14,  1.08it/s]                                                            6%|▌         | 6191/100000 [3:44:42<24:12:14,  1.08it/s]  6%|▌         | 6192/100000 [3:44:42<23:03:12,  1.13it/s]                                                            6%|▌         | 6192/100000 [3:44:43<23:03:12,  1.13it/s]  6%|▌         | 6193/100000 [3:44:43<22:45:35,  1.14it/s]                                                            6%|▌         | 6193/100000 [3:44:43<22:45:35,  1.14it/s]  6%|▌         | 6194/100000 [3:44:44<21:44:44,  1.20it/s]                                                            6%|▌         | 6194/100000 [3:44:44<21:44:44,  1.20it/s]  6%|▌         | 6195/100000 [3:44:45<20:49:05,  1.25it/s]                                                            6%|▌         | 6195/100000 [3:44:45<20:49:05,  1.25it/s]  6%|▌         | 6196/100000 [3:44:46<20:31:19,  1.27it/s]                                                            6%|▌         | 6196/100000 [3:44:46<20:31:19,  1.27it/s]  6%|▌         | 6197/100000 [3:44:46<20:34:04,  1.27it/s]                                                            6%|▌         | 6197/100000 [3:44:46<20:34:04,  1.27it/s]  6%|▌         | 6198/100000 [3:44:47<19:03:41,  1.37it/s]                                                            6%|▌         | 6198/100000 [3:44:47<19:03:41,  1.37it/s]  6%|▌         | 6199/100000 [3:44:58<103:31:12,  3.97s/it]                                                             6%|▌         | 6199/100000 [3:44:59<103:31:12,  3.97s/it]  6%|▌         | 6200/100000 [3:45:06<134:00:13,  5.14s/it]                                                             6%|▌         | 6200/100000 [3:45:06<134:00:13,  5.14s/it]  6%|▌         | 6201/100000 [3:45:12<135:37:49,  5.21s/it]                                                             6%|▌         | 6201/100000 [3:45:12<135:37:49,  5.21s/it]  6%|▌         | 6202/100000 [3:45:16<130:35:07,  5.01s/it]                                                             6%|▌         | 6202/100000 [3:45:16<130:35:07,  5.01s/it]  6%|▌         | 6203/100000 [3:45:20<122:56:00,  4.72s/it]                                                             6%|▌         | 6203/100000 [3:45:20<122:56:00,  4.72s/it]  6%|▌         | 6204/100000 [3:45:24<114:20:15,  4.39s/it]                                                             6%|▌         | 6204/100000 [3:45:24<114:20:15,  4.39s/it]  6%|▌         | 6205/100000 [3:45:27<105:19:49,  4.04s/it]                                                             6%|▌         | 6205/100000 [3:45:27<105:19:49,  4.04s/it]  6%|▌         | 6206/100000 [3:45:30<95:44:41,  3.67s/it]                                                             6%|▌         | 6206/100000 [3:45:30<95:44:41,  3.67s/it]  6%|▌         | 6207/100000 [3:45:32<86:20:42,  3.31s/it]                                                            6%|▌         | 6207/100000 [3:45:32<86:20:42,  3.31s/it]  6%|▌         | 6208/100000 [3:45:35<77:34:48,  2.98s/it]                                                            6%|▌         | 6208/100000 [3:45:35<77:34:48,  2.98s/it]  6%|▌         | 6209/100000 [3:45:37<70:03:00,  2.69s/it]                                                            6%|▌         | 6209/100000 [3:45:37<70:03:00,  2.69s/it]  6%|▌         | 6210/100000 [3:45:38<63:07:59,  2.42s/it]                                                            6%|▌         | 6210/100000 [3:45:38<63:07:59,  2.42s/it]  6%|▌         | 6211/100000 [3:45:40<57:11:08,  2.20s/it]                                                            6%|▌         | 6211/100000 [3:45:40<57:11:08,  2.20s/it]  6%|▌         | 6212/100000 [3:45:42<52:42:56,  2.02s/it]                                                            6%|▌         | 6212/100000 [3:45:42<52:42:56,  2.02s/it]  6%|▌         | 6213/100000 [3:45:43<49:21:27,  1.89s/it]                                                            6%|▌         | 6213/100000 [3:45:43<49:21:27,  1.89s/it]  6%|▌         | 6214/100000 [3:45:45<45:59:54,  1.77s/it]                                                            6%|▌         | 6214/100000 [3:45:45<45:59:54,  1.77s/it]  6%|▌         | 6215/100000 [3:45:46<43:29:32,  1.67s/it]                                                            6%|▌         | 6215/100000 [3:45:46<43:29:32,  1.67s/it]  6%|▌         | 6216/100000 [3:45:48<40:51:04,  1.57s/it]                                                            6%|▌         | 6216/100000 [3:45:48<40:51:04,  1.57s/it]  6%|▌         | 6217/100000 [3:45:49<38:30:04,  1.48s/it]                                                            6%|▌         | 6217/100000 [3:45:49<38:30:04,  1.48s/it]  6%|▌         | 6218/100000 [3:45:50<36:41:08,  1.41s/it]                                                            6%|▌         | 6218/100000 [3:45:50<36:41:08,  1.41s/it]  6%|▌         | 6219/100000 [3:45:51<34:50:04,  1.34s/it]                                                            6%|▌         | 6219/100000 [3:45:51<34:50:04,  1.34s/it]  6%|▌         | 6220/100000 [3:45:52<33:05:39,  1.27s/it]                                                            6%|▌         | 6220/100000 [3:45:52<33:05:39,  1.27s/it]  6%|▌         | 6221/100000 [3:45:53<31:18:40,  1.20s/it]                                                            6%|▌         | 6221/100000 [3:45:53<31:18:40,  1.20s/it]  6%|▌         | 6222/100000 [3:45:54<29:41:59,  1.14s/it]                                                            6%|▌         | 6222/100000 [3:45:54<29:41:59,  1.14s/it]  6%|▌         | 6223/100000 [3:45:55<28:16:09,  1.09s/it]                                                            6%|▌         | 6223/100000 [3:45:55<28:16:09,  1.09s/it]  6%|▌         | 6224/100000 [3:45:56<26:56:32,  1.03s/it]                                                            6%|▌         | 6224/100000 [3:45:56<26:56:32,  1.03s/it]  6%|▌         | 6225/100000 [3:45:57<25:58:38,  1.00it/s]                                                            6%|▌         | 6225/100000 [3:45:57<25:58:38,  1.00it/s]  6%|▌         | 6226/100000 [3:45:58<24:51:38,  1.05it/s]                                                            6%|▌         | 6226/100000 [3:45:58<24:51:38,  1.05it/s]  6%|▌         | 6227/100000 [3:45:59<24:03:51,  1.08it/s]                                                            6%|▌         | 6227/100000 [3:45:59<24:03:51,  1.08it/s]  6%|▌         | 6228/100000 [3:46:00<23:06:03,  1.13it/s]                                                            6%|▌         | 6228/100000 [3:46:00<23:06:03,  1.13it/s]  6%|▌         | 6229/100000 [3:46:01<22:38:26,  1.15it/s]                                                            6%|▌         | 6229/100000 [3:46:01<22:38:26,  1.15it/s]  6%|▌         | 6230/100000 [3:46:01<22:24:52,  1.16it/s]                                                            6%|▌         | 6230/100000 [3:46:01<22:24:52,  1.16it/s]  6%|▌         | 6231/100000 [3:46:02<22:14:46,  1.17it/s]                                                            6%|▌         | 6231/100000 [3:46:02<22:14:46,  1.17it/s]  6%|▌         | 6232/100000 [3:46:03<21:39:28,  1.20it/s]                                                            6%|▌         | 6232/100000 [3:46:03<21:39:28,  1.20it/s]  6%|▌         | 6233/100000 [3:46:04<21:06:21,  1.23it/s]                                                            6%|▌         | 6233/100000 [3:46:04<21:06:21,  1.23it/s]  6%|▌         | 6234/100000 [3:46:04<19:52:41,  1.31it/s]                                                            6%|▌         | 6234/100000 [3:46:04<19:52:41,  1.31it/s]  6%|▌         | 6235/100000 [3:46:05<19:38:49,  1.33it/s]                                                            6%|▌         | 6235/100000 [3:46:05<19:38:49,  1.33it/s]  6%|▌         | 6236/100000 [3:46:06<18:47:00,  1.39it/s]                                                            6%|▌         | 6236/100000 [3:46:06<18:47:00,  1.39it/s]  6%|▌         | 6237/100000 [3:46:19<113:17:36,  4.35s/it]                                                             6%|▌         | 6237/100000 [3:46:19<113:17:36,  4.35s/it]  6%|▌         | 6238/100000 [3:46:27<141:24:19,  5.43s/it]                                                             6%|▌         | 6238/100000 [3:46:27<141:24:19,  5.43s/it]  6%|▌         | 6239/100000 [3:46:32<140:51:50,  5.41s/it]                                                             6%|▌         | 6239/100000 [3:46:32<140:51:50,  5.41s/it]  6%|▌         | 6240/100000 [3:46:36<131:48:25,  5.06s/it]                                                             6%|▌         | 6240/100000 [3:46:36<131:48:25,  5.06s/it]  6%|▌         | 6241/100000 [3:46:40<122:04:54,  4.69s/it]                                                             6%|▌         | 6241/100000 [3:46:40<122:04:54,  4.69s/it]  6%|▌         | 6242/100000 [3:46:43<111:49:21,  4.29s/it]                                                             6%|▌         | 6242/100000 [3:46:43<111:49:21,  4.29s/it]  6%|▌         | 6243/100000 [3:46:46<100:57:10,  3.88s/it]                                                             6%|▌         | 6243/100000 [3:46:46<100:57:10,  3.88s/it]  6%|▌         | 6244/100000 [3:46:49<90:27:06,  3.47s/it]                                                             6%|▌         | 6244/100000 [3:46:49<90:27:06,  3.47s/it]  6%|▌         | 6245/100000 [3:46:51<81:20:04,  3.12s/it]                                                          {'loss': 0.1939, 'grad_norm': 1.344175100326538, 'learning_rate': 1.8471e-05, 'epoch': 40.01}
{'loss': 0.1181, 'grad_norm': 0.8153163194656372, 'learning_rate': 1.8474e-05, 'epoch': 40.01}
{'loss': 0.1175, 'grad_norm': 1.6695311069488525, 'learning_rate': 1.8477e-05, 'epoch': 40.02}
{'loss': 0.0991, 'grad_norm': 1.0396455526351929, 'learning_rate': 1.848e-05, 'epoch': 40.03}
{'loss': 0.1104, 'grad_norm': 1.144445538520813, 'learning_rate': 1.8483e-05, 'epoch': 40.03}
{'loss': 0.0767, 'grad_norm': 0.8900977969169617, 'learning_rate': 1.8486e-05, 'epoch': 40.04}
{'loss': 0.0585, 'grad_norm': 0.8154230117797852, 'learning_rate': 1.8489e-05, 'epoch': 40.05}
{'loss': 0.0616, 'grad_norm': 0.8653688430786133, 'learning_rate': 1.8492e-05, 'epoch': 40.05}
{'loss': 0.1036, 'grad_norm': 0.9976421594619751, 'learning_rate': 1.8495e-05, 'epoch': 40.06}
{'loss': 0.0635, 'grad_norm': 0.9142682552337646, 'learning_rate': 1.8498e-05, 'epoch': 40.06}
{'loss': 0.0506, 'grad_norm': 0.805510938167572, 'learning_rate': 1.8501e-05, 'epoch': 40.07}
{'loss': 0.0417, 'grad_norm': 0.5761610865592957, 'learning_rate': 1.8504e-05, 'epoch': 40.08}
{'loss': 0.0364, 'grad_norm': 0.6637842059135437, 'learning_rate': 1.8507e-05, 'epoch': 40.08}
{'loss': 0.0296, 'grad_norm': 0.4683845043182373, 'learning_rate': 1.851e-05, 'epoch': 40.09}
{'loss': 0.0301, 'grad_norm': 0.5053468346595764, 'learning_rate': 1.8513e-05, 'epoch': 40.1}
{'loss': 0.0277, 'grad_norm': 0.8361409902572632, 'learning_rate': 1.8516e-05, 'epoch': 40.1}
{'loss': 0.019, 'grad_norm': 0.5149993896484375, 'learning_rate': 1.8519e-05, 'epoch': 40.11}
{'loss': 0.0271, 'grad_norm': 0.5909863114356995, 'learning_rate': 1.8522e-05, 'epoch': 40.12}
{'loss': 0.0251, 'grad_norm': 1.1526108980178833, 'learning_rate': 1.8525000000000003e-05, 'epoch': 40.12}
{'loss': 0.0358, 'grad_norm': 0.972576916217804, 'learning_rate': 1.8528000000000003e-05, 'epoch': 40.13}
{'loss': 0.0283, 'grad_norm': 0.7003979086875916, 'learning_rate': 1.8531000000000003e-05, 'epoch': 40.14}
{'loss': 0.0204, 'grad_norm': 0.8211936354637146, 'learning_rate': 1.8534000000000002e-05, 'epoch': 40.14}
{'loss': 0.0489, 'grad_norm': 1.638113260269165, 'learning_rate': 1.8537000000000002e-05, 'epoch': 40.15}
{'loss': 0.0179, 'grad_norm': 0.6128904223442078, 'learning_rate': 1.854e-05, 'epoch': 40.16}
{'loss': 0.0255, 'grad_norm': 1.9637333154678345, 'learning_rate': 1.8543e-05, 'epoch': 40.16}
{'loss': 0.022, 'grad_norm': 0.76689612865448, 'learning_rate': 1.8545999999999998e-05, 'epoch': 40.17}
{'loss': 0.0321, 'grad_norm': 2.3805201053619385, 'learning_rate': 1.8548999999999998e-05, 'epoch': 40.18}
{'loss': 0.0189, 'grad_norm': 0.9242407083511353, 'learning_rate': 1.8551999999999998e-05, 'epoch': 40.18}
{'loss': 0.0189, 'grad_norm': 5.792920112609863, 'learning_rate': 1.8555e-05, 'epoch': 40.19}
{'loss': 0.0188, 'grad_norm': 0.7765170335769653, 'learning_rate': 1.8558e-05, 'epoch': 40.19}
{'loss': 0.0328, 'grad_norm': 1.9445929527282715, 'learning_rate': 1.8561e-05, 'epoch': 40.2}
{'loss': 0.0828, 'grad_norm': 1.3002711534500122, 'learning_rate': 1.8564e-05, 'epoch': 40.21}
{'loss': 0.0135, 'grad_norm': 0.8080471158027649, 'learning_rate': 1.8567e-05, 'epoch': 40.21}
{'loss': 0.0161, 'grad_norm': 2.0020034313201904, 'learning_rate': 1.857e-05, 'epoch': 40.22}
{'loss': 0.0237, 'grad_norm': 1.3254870176315308, 'learning_rate': 1.8573e-05, 'epoch': 40.23}
{'loss': 0.0266, 'grad_norm': 1.4903990030288696, 'learning_rate': 1.8576e-05, 'epoch': 40.23}
{'loss': 0.0151, 'grad_norm': 1.3611377477645874, 'learning_rate': 1.8579e-05, 'epoch': 40.24}
{'loss': 0.0301, 'grad_norm': 2.96016788482666, 'learning_rate': 1.8582e-05, 'epoch': 40.25}
{'loss': 0.2621, 'grad_norm': 3.340163230895996, 'learning_rate': 1.8585000000000002e-05, 'epoch': 40.25}
{'loss': 0.1301, 'grad_norm': 1.1299679279327393, 'learning_rate': 1.8588000000000002e-05, 'epoch': 40.26}
{'loss': 0.1217, 'grad_norm': 1.1526319980621338, 'learning_rate': 1.8591000000000002e-05, 'epoch': 40.27}
{'loss': 0.1049, 'grad_norm': 0.6074711084365845, 'learning_rate': 1.8594000000000002e-05, 'epoch': 40.27}
{'loss': 0.0778, 'grad_norm': 0.9123733043670654, 'learning_rate': 1.8597e-05, 'epoch': 40.28}
{'loss': 0.0647, 'grad_norm': 0.8235252499580383, 'learning_rate': 1.86e-05, 'epoch': 40.29}
{'loss': 0.0566, 'grad_norm': 0.5180758237838745, 'learning_rate': 1.8603e-05, 'epoch': 40.29}
{'loss': 0.0674, 'grad_norm': 1.1045981645584106, 'learning_rate': 1.8606e-05, 'epoch': 40.3}
{'loss': 0.053, 'grad_norm': 0.6573255658149719, 'learning_rate': 1.8609e-05, 'epoch': 40.31}
{'loss': 0.0553, 'grad_norm': 0.8179526925086975, 'learning_rate': 1.8612e-05, 'epoch': 40.31}
{'loss': 0.053, 'grad_norm': 0.7580869197845459, 'learning_rate': 1.8615e-05, 'epoch': 40.32}
{'loss': 0.0381, 'grad_norm': 0.5735749006271362, 'learning_rate': 1.8618e-05, 'epoch': 40.32}
{'loss': 0.049, 'grad_norm': 0.6271796822547913, 'learning_rate': 1.8621e-05, 'epoch': 40.33}
{'loss': 0.0271, 'grad_norm': 0.5057021379470825, 'learning_rate': 1.8624e-05, 'epoch': 40.34}
{'loss': 0.0421, 'grad_norm': 1.4660958051681519, 'learning_rate': 1.8627e-05, 'epoch': 40.34}
{'loss': 0.0743, 'grad_norm': 0.8472790122032166, 'learning_rate': 1.863e-05, 'epoch': 40.35}
{'loss': 0.0236, 'grad_norm': 0.9963818788528442, 'learning_rate': 1.8633e-05, 'epoch': 40.36}
{'loss': 0.0358, 'grad_norm': 0.644977331161499, 'learning_rate': 1.8636e-05, 'epoch': 40.36}
{'loss': 0.0258, 'grad_norm': 0.7143937349319458, 'learning_rate': 1.8639e-05, 'epoch': 40.37}
{'loss': 0.0337, 'grad_norm': 1.1315659284591675, 'learning_rate': 1.8642e-05, 'epoch': 40.38}
{'loss': 0.0213, 'grad_norm': 0.7089486718177795, 'learning_rate': 1.8645000000000002e-05, 'epoch': 40.38}
{'loss': 0.027, 'grad_norm': 1.079629898071289, 'learning_rate': 1.8648000000000002e-05, 'epoch': 40.39}
{'loss': 0.0202, 'grad_norm': 0.5043243169784546, 'learning_rate': 1.8651e-05, 'epoch': 40.4}
{'loss': 0.0246, 'grad_norm': 1.4710540771484375, 'learning_rate': 1.8654e-05, 'epoch': 40.4}
{'loss': 0.0275, 'grad_norm': 0.9877092838287354, 'learning_rate': 1.8657e-05, 'epoch': 40.41}
{'loss': 0.0197, 'grad_norm': 0.7607738375663757, 'learning_rate': 1.866e-05, 'epoch': 40.42}
{'loss': 0.0237, 'grad_norm': 1.0961865186691284, 'learning_rate': 1.8663e-05, 'epoch': 40.42}
{'loss': 0.0794, 'grad_norm': 1.8243297338485718, 'learning_rate': 1.8666e-05, 'epoch': 40.43}
{'loss': 0.0717, 'grad_norm': 1.2057924270629883, 'learning_rate': 1.8669e-05, 'epoch': 40.44}
{'loss': 0.0244, 'grad_norm': 1.225601315498352, 'learning_rate': 1.8672e-05, 'epoch': 40.44}
{'loss': 0.0125, 'grad_norm': 0.9652702808380127, 'learning_rate': 1.8675000000000003e-05, 'epoch': 40.45}
{'loss': 0.0294, 'grad_norm': 2.0543529987335205, 'learning_rate': 1.8678000000000003e-05, 'epoch': 40.45}
{'loss': 0.0064, 'grad_norm': 0.4780767261981964, 'learning_rate': 1.8681000000000003e-05, 'epoch': 40.46}
{'loss': 0.0221, 'grad_norm': 0.912083625793457, 'learning_rate': 1.8684000000000003e-05, 'epoch': 40.47}
{'loss': 0.0144, 'grad_norm': 0.806200385093689, 'learning_rate': 1.8687e-05, 'epoch': 40.47}
{'loss': 0.0294, 'grad_norm': 1.27926504611969, 'learning_rate': 1.869e-05, 'epoch': 40.48}
{'loss': 0.0213, 'grad_norm': 1.590809941291809, 'learning_rate': 1.8693e-05, 'epoch': 40.49}
{'loss': 0.0462, 'grad_norm': 3.5740840435028076, 'learning_rate': 1.8696e-05, 'epoch': 40.49}
{'loss': 0.1941, 'grad_norm': 1.613538384437561, 'learning_rate': 1.8699e-05, 'epoch': 40.5}
{'loss': 0.126, 'grad_norm': 0.9145419001579285, 'learning_rate': 1.8701999999999998e-05, 'epoch': 40.51}
{'loss': 0.1053, 'grad_norm': 0.9865044951438904, 'learning_rate': 1.8705e-05, 'epoch': 40.51}
{'loss': 0.1024, 'grad_norm': 1.0114099979400635, 'learning_rate': 1.8708e-05, 'epoch': 40.52}
{'loss': 0.0884, 'grad_norm': 0.8498464226722717, 'learning_rate': 1.8711e-05, 'epoch': 40.53}
{'loss': 0.0643, 'grad_norm': 0.8077744245529175, 'learning_rate': 1.8714e-05, 'epoch': 40.53}
{'loss': 0.0647, 'grad_norm': 0.5789283514022827, 'learning_rate': 1.8717e-05, 'epoch': 40.54}
{'loss': 0.0708, 'grad_norm': 0.778915524482727, 'learning_rate': 1.872e-05, 'epoch': 40.55}
  6%|▌         | 6245/100000 [3:46:51<81:20:04,  3.12s/it]  6%|▌         | 6246/100000 [3:46:53<72:29:43,  2.78s/it]                                                            6%|▌         | 6246/100000 [3:46:53<72:29:43,  2.78s/it]  6%|▌         | 6247/100000 [3:46:55<65:57:16,  2.53s/it]                                                            6%|▌         | 6247/100000 [3:46:55<65:57:16,  2.53s/it]  6%|▌         | 6248/100000 [3:46:57<60:23:41,  2.32s/it]                                                            6%|▌         | 6248/100000 [3:46:57<60:23:41,  2.32s/it]  6%|▌         | 6249/100000 [3:46:59<55:19:20,  2.12s/it]                                                            6%|▌         | 6249/100000 [3:46:59<55:19:20,  2.12s/it]  6%|▋         | 6250/100000 [3:47:00<51:07:29,  1.96s/it]                                                            6%|▋         | 6250/100000 [3:47:00<51:07:29,  1.96s/it]  6%|▋         | 6251/100000 [3:47:02<47:46:06,  1.83s/it]                                                            6%|▋         | 6251/100000 [3:47:02<47:46:06,  1.83s/it]  6%|▋         | 6252/100000 [3:47:03<44:43:22,  1.72s/it]                                                            6%|▋         | 6252/100000 [3:47:03<44:43:22,  1.72s/it]  6%|▋         | 6253/100000 [3:47:04<41:44:38,  1.60s/it]                                                            6%|▋         | 6253/100000 [3:47:04<41:44:38,  1.60s/it]  6%|▋         | 6254/100000 [3:47:06<39:47:20,  1.53s/it]                                                            6%|▋         | 6254/100000 [3:47:06<39:47:20,  1.53s/it]  6%|▋         | 6255/100000 [3:47:07<37:52:44,  1.45s/it]                                                            6%|▋         | 6255/100000 [3:47:07<37:52:44,  1.45s/it]  6%|▋         | 6256/100000 [3:47:08<36:19:23,  1.39s/it]                                                            6%|▋         | 6256/100000 [3:47:08<36:19:23,  1.39s/it]  6%|▋         | 6257/100000 [3:47:10<34:38:29,  1.33s/it]                                                            6%|▋         | 6257/100000 [3:47:10<34:38:29,  1.33s/it]  6%|▋         | 6258/100000 [3:47:11<32:55:49,  1.26s/it]                                                            6%|▋         | 6258/100000 [3:47:11<32:55:49,  1.26s/it]  6%|▋         | 6259/100000 [3:47:12<31:20:04,  1.20s/it]                                                            6%|▋         | 6259/100000 [3:47:12<31:20:04,  1.20s/it]  6%|▋         | 6260/100000 [3:47:13<29:46:27,  1.14s/it]                                                            6%|▋         | 6260/100000 [3:47:13<29:46:27,  1.14s/it]  6%|▋         | 6261/100000 [3:47:14<28:21:55,  1.09s/it]                                                            6%|▋         | 6261/100000 [3:47:14<28:21:55,  1.09s/it]  6%|▋         | 6262/100000 [3:47:15<27:25:43,  1.05s/it]                                                            6%|▋         | 6262/100000 [3:47:15<27:25:43,  1.05s/it]  6%|▋         | 6263/100000 [3:47:16<26:32:30,  1.02s/it]                                                            6%|▋         | 6263/100000 [3:47:16<26:32:30,  1.02s/it]  6%|▋         | 6264/100000 [3:47:16<25:29:16,  1.02it/s]                                                            6%|▋         | 6264/100000 [3:47:16<25:29:16,  1.02it/s]  6%|▋         | 6265/100000 [3:47:17<24:15:35,  1.07it/s]                                                            6%|▋         | 6265/100000 [3:47:17<24:15:35,  1.07it/s]  6%|▋         | 6266/100000 [3:47:18<23:25:26,  1.11it/s]                                                            6%|▋         | 6266/100000 [3:47:18<23:25:26,  1.11it/s]  6%|▋         | 6267/100000 [3:47:19<22:36:27,  1.15it/s]                                                            6%|▋         | 6267/100000 [3:47:19<22:36:27,  1.15it/s]  6%|▋         | 6268/100000 [3:47:20<22:00:05,  1.18it/s]                                                            6%|▋         | 6268/100000 [3:47:20<22:00:05,  1.18it/s]  6%|▋         | 6269/100000 [3:47:20<21:30:56,  1.21it/s]                                                            6%|▋         | 6269/100000 [3:47:20<21:30:56,  1.21it/s]  6%|▋         | 6270/100000 [3:47:21<20:43:47,  1.26it/s]                                                            6%|▋         | 6270/100000 [3:47:21<20:43:47,  1.26it/s]  6%|▋         | 6271/100000 [3:47:22<19:50:53,  1.31it/s]                                                            6%|▋         | 6271/100000 [3:47:22<19:50:53,  1.31it/s]  6%|▋         | 6272/100000 [3:47:23<19:09:11,  1.36it/s]                                                            6%|▋         | 6272/100000 [3:47:23<19:09:11,  1.36it/s]  6%|▋         | 6273/100000 [3:47:23<19:09:49,  1.36it/s]                                                            6%|▋         | 6273/100000 [3:47:23<19:09:49,  1.36it/s]  6%|▋         | 6274/100000 [3:47:24<18:13:50,  1.43it/s]                                                            6%|▋         | 6274/100000 [3:47:24<18:13:50,  1.43it/s]  6%|▋         | 6275/100000 [3:47:36<105:52:56,  4.07s/it]                                                             6%|▋         | 6275/100000 [3:47:36<105:52:56,  4.07s/it]  6%|▋         | 6276/100000 [3:47:44<138:38:04,  5.33s/it]                                                             6%|▋         | 6276/100000 [3:47:44<138:38:04,  5.33s/it]  6%|▋         | 6277/100000 [3:47:49<138:33:01,  5.32s/it]                                                             6%|▋         | 6277/100000 [3:47:49<138:33:01,  5.32s/it]  6%|▋         | 6278/100000 [3:47:54<132:49:37,  5.10s/it]                                                             6%|▋         | 6278/100000 [3:47:54<132:49:37,  5.10s/it]  6%|▋         | 6279/100000 [3:47:58<124:21:49,  4.78s/it]                                                             6%|▋         | 6279/100000 [3:47:58<124:21:49,  4.78s/it]  6%|▋         | 6280/100000 [3:48:02<114:42:29,  4.41s/it]                                                             6%|▋         | 6280/100000 [3:48:02<114:42:29,  4.41s/it]  6%|▋         | 6281/100000 [3:48:04<102:48:36,  3.95s/it]                                                             6%|▋         | 6281/100000 [3:48:04<102:48:36,  3.95s/it]  6%|▋         | 6282/100000 [3:48:07<92:54:47,  3.57s/it]                                                             6%|▋         | 6282/100000 [3:48:07<92:54:47,  3.57s/it]  6%|▋         | 6283/100000 [3:48:09<83:07:21,  3.19s/it]                                                            6%|▋         | 6283/100000 [3:48:09<83:07:21,  3.19s/it]  6%|▋         | 6284/100000 [3:48:11<74:20:03,  2.86s/it]                                                            6%|▋         | 6284/100000 [3:48:11<74:20:03,  2.86s/it]  6%|▋         | 6285/100000 [3:48:13<67:13:17,  2.58s/it]                                                            6%|▋         | 6285/100000 [3:48:13<67:13:17,  2.58s/it]  6%|▋         | 6286/100000 [3:48:15<61:28:32,  2.36s/it]                                                            6%|▋         | 6286/100000 [3:48:15<61:28:32,  2.36s/it]  6%|▋         | 6287/100000 [3:48:17<56:27:04,  2.17s/it]                                                            6%|▋         | 6287/100000 [3:48:17<56:27:04,  2.17s/it]  6%|▋         | 6288/100000 [3:48:19<52:03:05,  2.00s/it]                                                            6%|▋         | 6288/100000 [3:48:19<52:03:05,  2.00s/it]  6%|▋         | 6289/100000 [3:48:20<48:44:18,  1.87s/it]                                                            6%|▋         | 6289/100000 [3:48:20<48:44:18,  1.87s/it]  6%|▋         | 6290/100000 [3:48:22<45:20:22,  1.74s/it]                                                            6%|▋         | 6290/100000 [3:48:22<45:20:22,  1.74s/it]  6%|▋         | 6291/100000 [3:48:23<42:46:06,  1.64s/it]                                                            6%|▋         | 6291/100000 [3:48:23<42:46:06,  1.64s/it]  6%|▋         | 6292/100000 [3:48:24<40:28:54,  1.56s/it]                                                            6%|▋         | 6292/100000 [3:48:24<40:28:54,  1.56s/it]  6%|▋         | 6293/100000 [3:48:26<38:25:23,  1.48s/it]                                                            6%|▋         | 6293/100000 [3:48:26<38:25:23,  1.48s/it]  6%|▋         | 6294/100000 [3:48:27<36:27:07,  1.40s/it]                                                            6%|▋         | 6294/100000 [3:48:27<36:27:07,  1.40s/it]  6%|▋         | 6295/100000 [3:48:28<34:21:08,  1.32s/it]                                                            6%|▋         | 6295/100000 [3:48:28<34:21:08,  1.32s/it]  6%|▋         | 6296/100000 [3:48:29<32:40:55,  1.26s/it]                                                            6%|▋         | 6296/100000 [3:48:29<32:40:55,  1.26s/it]  6%|▋         | 6297/100000 [3:48:30<31:12:43,  1.20s/it]                                                            6%|▋         | 6297/100000 [3:48:30<31:12:43,  1.20s/it]  6%|▋         | 6298/100000 [3:48:31<29:56:28,  1.15s/it]                                                            6%|▋         | 6298/100000 [3:48:31<29:56:28,  1.15s/it]  6%|▋         | 6299/100000 [3:48:32<28:34:58,  1.10s/it]                                                            6%|▋         | 6299/100000 [3:48:32<28:34:58,  1.10s/it]  6%|▋         | 6300/100000 [3:48:33<27:32:08,  1.06s/it]                                                            6%|▋         | 6300/100000 [3:48:33<27:32:08,  1.06s/it]  6%|▋         | 6301/100000 [3:48:34<26:32:09,  1.02s/it]                                                            6%|▋         | 6301/100000 [3:48:34<26:32:09,  1.02s/it]  6%|▋         | 6302/100000 [3:48:35<25:34:32,  1.02it/s]                                                            6%|▋         | 6302/100000 [3:48:35<25:34:32,  1.02it/s]  6%|▋         | 6303/100000 [3:48:36<24:44:11,  1.05it/s]                                                            6%|▋         | 6303/100000 [3:48:36<24:44:11,  1.05it/s]  6%|▋         | 6304/100000 [3:48:37<24:05:03,  1.08it/s]                                                            6%|▋         | 6304/100000 [3:48:37<24:05:03,  1.08it/s]  6%|▋         | 6305/100000 [3:48:38<23:26:23,  1.11it/s]                                                            6%|▋         | 6305/100000 [3:48:38<23:26:23,  1.11it/s]  6%|▋         | 6306/100000 [3:48:38<22:43:03,  1.15it/s]                                                            6%|▋         | 6306/100000 [3:48:38<22:43:03,  1.15it/s]  6%|▋         | 6307/100000 [3:48:39<22:13:08,  1.17it/s]                                                            6%|▋         | 6307/100000 [3:48:39<22:13:08,  1.17it/s]  6%|▋         | 6308/100000 [3:48:40<21:35:19,  1.21it/s]                                                            6%|▋         | 6308/100000 [3:48:40<21:35:19,  1.21it/s]  6%|▋         | 6309/100000 [3:48:41<21:03:11,  1.24it/s]                                                            6%|▋         | 6309/100000 [3:48:41<21:03:11,  1.24it/s]  6%|▋         | 6310/100000 [3:48:41<20:41:04,  1.26it/s]                                                            6%|▋         | 6310/100000 [3:48:41<20:41:04,  1.26it/s]  6%|▋         | 6311/100000 [3:48:42<20:00:22,  1.30it/s]                                                            6%|▋         | 6311/100000 [3:48:42<20:00:22,  1.30it/s]  6%|▋         | 6312/100000 [3:48:43<19:10:05,  1.36it/s]                                                            6%|▋         | 6312/100000 [3:48:43<19:10:05,  1.36it/s]  6%|▋         | 6313/100000 [3:48:50<71:28:59,  2.75s/it]                                                            6%|▋         | 6313/100000 [3:48:50<71:28:59,  2.75s/it]  6%|▋         | 6314/100000 [3:48:52<60:32:52,  2.33s/it]                                                            6%|▋         | 6314/100000 [3:48:52<60:32:52,  2.33s/it]{'loss': 0.0589, 'grad_norm': 0.7071232795715332, 'learning_rate': 1.8723e-05, 'epoch': 40.55}
{'loss': 0.0566, 'grad_norm': 0.8259699940681458, 'learning_rate': 1.8726e-05, 'epoch': 40.56}
{'loss': 0.0485, 'grad_norm': 0.8158546090126038, 'learning_rate': 1.8729e-05, 'epoch': 40.56}
{'loss': 0.0568, 'grad_norm': 0.788875162601471, 'learning_rate': 1.8732e-05, 'epoch': 40.57}
{'loss': 0.0359, 'grad_norm': 0.6523961424827576, 'learning_rate': 1.8735000000000003e-05, 'epoch': 40.58}
{'loss': 0.0421, 'grad_norm': 0.6001706123352051, 'learning_rate': 1.8738000000000003e-05, 'epoch': 40.58}
{'loss': 0.0357, 'grad_norm': 0.7644896507263184, 'learning_rate': 1.8741000000000002e-05, 'epoch': 40.59}
{'loss': 0.039, 'grad_norm': 0.6514295935630798, 'learning_rate': 1.8744000000000002e-05, 'epoch': 40.6}
{'loss': 0.0414, 'grad_norm': 0.8166672587394714, 'learning_rate': 1.8747000000000002e-05, 'epoch': 40.6}
{'loss': 0.0526, 'grad_norm': 1.0543783903121948, 'learning_rate': 1.8750000000000002e-05, 'epoch': 40.61}
{'loss': 0.0277, 'grad_norm': 0.6876105666160583, 'learning_rate': 1.8753e-05, 'epoch': 40.62}
{'loss': 0.0221, 'grad_norm': 0.5617102980613708, 'learning_rate': 1.8756e-05, 'epoch': 40.62}
{'loss': 0.025, 'grad_norm': 0.5303105115890503, 'learning_rate': 1.8759e-05, 'epoch': 40.63}
{'loss': 0.034, 'grad_norm': 0.7508689165115356, 'learning_rate': 1.8761999999999998e-05, 'epoch': 40.64}
{'loss': 0.0214, 'grad_norm': 0.6014113426208496, 'learning_rate': 1.8764999999999997e-05, 'epoch': 40.64}
{'loss': 0.0307, 'grad_norm': 0.7118474841117859, 'learning_rate': 1.8768e-05, 'epoch': 40.65}
{'loss': 0.0526, 'grad_norm': 0.6390939950942993, 'learning_rate': 1.8771e-05, 'epoch': 40.66}
{'loss': 0.0157, 'grad_norm': 1.0444390773773193, 'learning_rate': 1.8774e-05, 'epoch': 40.66}
{'loss': 0.0149, 'grad_norm': 0.46261414885520935, 'learning_rate': 1.8777e-05, 'epoch': 40.67}
{'loss': 0.0598, 'grad_norm': 0.745787501335144, 'learning_rate': 1.878e-05, 'epoch': 40.68}
{'loss': 0.0163, 'grad_norm': 0.7781829833984375, 'learning_rate': 1.8783e-05, 'epoch': 40.68}
{'loss': 0.0184, 'grad_norm': 1.4470444917678833, 'learning_rate': 1.8786e-05, 'epoch': 40.69}
{'loss': 0.0199, 'grad_norm': 1.2058249711990356, 'learning_rate': 1.8789e-05, 'epoch': 40.69}
{'loss': 0.0117, 'grad_norm': 0.7284272313117981, 'learning_rate': 1.8792e-05, 'epoch': 40.7}
{'loss': 0.0149, 'grad_norm': 1.1393837928771973, 'learning_rate': 1.8795e-05, 'epoch': 40.71}
{'loss': 0.0106, 'grad_norm': 1.522074580192566, 'learning_rate': 1.8798000000000002e-05, 'epoch': 40.71}
{'loss': 0.0285, 'grad_norm': 1.7996737957000732, 'learning_rate': 1.8801000000000002e-05, 'epoch': 40.72}
{'loss': 0.0191, 'grad_norm': 1.3021751642227173, 'learning_rate': 1.8804e-05, 'epoch': 40.73}
{'loss': 0.0132, 'grad_norm': 1.2761015892028809, 'learning_rate': 1.8807e-05, 'epoch': 40.73}
{'loss': 0.0374, 'grad_norm': 1.0180068016052246, 'learning_rate': 1.881e-05, 'epoch': 40.74}
{'loss': 0.1932, 'grad_norm': 1.4213173389434814, 'learning_rate': 1.8813e-05, 'epoch': 40.75}
{'loss': 0.1216, 'grad_norm': 0.8834714889526367, 'learning_rate': 1.8816e-05, 'epoch': 40.75}
{'loss': 0.1213, 'grad_norm': 0.6347234845161438, 'learning_rate': 1.8819e-05, 'epoch': 40.76}
{'loss': 0.095, 'grad_norm': 0.8324016332626343, 'learning_rate': 1.8822e-05, 'epoch': 40.77}
{'loss': 0.0708, 'grad_norm': 0.5777264833450317, 'learning_rate': 1.8825e-05, 'epoch': 40.77}
{'loss': 0.0729, 'grad_norm': 0.5501468777656555, 'learning_rate': 1.8828000000000003e-05, 'epoch': 40.78}
{'loss': 0.0828, 'grad_norm': 0.6845635175704956, 'learning_rate': 1.8831000000000003e-05, 'epoch': 40.79}
{'loss': 0.0597, 'grad_norm': 0.6777744293212891, 'learning_rate': 1.8834e-05, 'epoch': 40.79}
{'loss': 0.0458, 'grad_norm': 0.829833447933197, 'learning_rate': 1.8837e-05, 'epoch': 40.8}
{'loss': 0.0466, 'grad_norm': 0.5780515670776367, 'learning_rate': 1.884e-05, 'epoch': 40.81}
{'loss': 0.0469, 'grad_norm': 0.9105579257011414, 'learning_rate': 1.8843e-05, 'epoch': 40.81}
{'loss': 0.0454, 'grad_norm': 1.0091626644134521, 'learning_rate': 1.8846e-05, 'epoch': 40.82}
{'loss': 0.059, 'grad_norm': 0.7236059904098511, 'learning_rate': 1.8849e-05, 'epoch': 40.82}
{'loss': 0.0357, 'grad_norm': 0.6154184341430664, 'learning_rate': 1.8852e-05, 'epoch': 40.83}
{'loss': 0.0392, 'grad_norm': 0.7514036297798157, 'learning_rate': 1.8854999999999998e-05, 'epoch': 40.84}
{'loss': 0.0323, 'grad_norm': 0.5912222266197205, 'learning_rate': 1.8858e-05, 'epoch': 40.84}
{'loss': 0.0304, 'grad_norm': 0.5732391476631165, 'learning_rate': 1.8861e-05, 'epoch': 40.85}
{'loss': 0.0521, 'grad_norm': 1.0895826816558838, 'learning_rate': 1.8864e-05, 'epoch': 40.86}
{'loss': 0.0237, 'grad_norm': 1.0260740518569946, 'learning_rate': 1.8867e-05, 'epoch': 40.86}
{'loss': 0.0451, 'grad_norm': 1.1492801904678345, 'learning_rate': 1.887e-05, 'epoch': 40.87}
{'loss': 0.0323, 'grad_norm': 0.9686635732650757, 'learning_rate': 1.8873e-05, 'epoch': 40.88}
{'loss': 0.0267, 'grad_norm': 1.1432750225067139, 'learning_rate': 1.8876e-05, 'epoch': 40.88}
{'loss': 0.022, 'grad_norm': 0.7402122616767883, 'learning_rate': 1.8879e-05, 'epoch': 40.89}
{'loss': 0.0216, 'grad_norm': 0.6123377680778503, 'learning_rate': 1.8882e-05, 'epoch': 40.9}
{'loss': 0.0157, 'grad_norm': 0.8297821879386902, 'learning_rate': 1.8885e-05, 'epoch': 40.9}
{'loss': 0.0189, 'grad_norm': 0.9675143957138062, 'learning_rate': 1.8888000000000003e-05, 'epoch': 40.91}
{'loss': 0.0283, 'grad_norm': 1.16506826877594, 'learning_rate': 1.8891000000000003e-05, 'epoch': 40.92}
{'loss': 0.0302, 'grad_norm': 1.0982977151870728, 'learning_rate': 1.8894000000000002e-05, 'epoch': 40.92}
{'loss': 0.083, 'grad_norm': 1.7857592105865479, 'learning_rate': 1.8897000000000002e-05, 'epoch': 40.93}
{'loss': 0.0307, 'grad_norm': 1.1157970428466797, 'learning_rate': 1.8900000000000002e-05, 'epoch': 40.94}
{'loss': 0.0199, 'grad_norm': 0.9536949992179871, 'learning_rate': 1.8903000000000002e-05, 'epoch': 40.94}
{'loss': 0.0248, 'grad_norm': 1.2462109327316284, 'learning_rate': 1.8906e-05, 'epoch': 40.95}
{'loss': 0.0128, 'grad_norm': 0.7242942452430725, 'learning_rate': 1.8908999999999998e-05, 'epoch': 40.95}
{'loss': 0.0314, 'grad_norm': 1.0016968250274658, 'learning_rate': 1.8911999999999998e-05, 'epoch': 40.96}
{'loss': 0.0191, 'grad_norm': 1.2221837043762207, 'learning_rate': 1.8914999999999998e-05, 'epoch': 40.97}
{'loss': 0.0624, 'grad_norm': 1.2868987321853638, 'learning_rate': 1.8918e-05, 'epoch': 40.97}
{'loss': 0.0526, 'grad_norm': 1.630297064781189, 'learning_rate': 1.8921e-05, 'epoch': 40.98}
{'loss': 0.0651, 'grad_norm': 0.9202849268913269, 'learning_rate': 1.8924e-05, 'epoch': 40.99}
{'loss': 0.0715, 'grad_norm': 0.8754194378852844, 'learning_rate': 1.8927e-05, 'epoch': 40.99}
{'loss': 0.0291, 'grad_norm': 1.1313141584396362, 'learning_rate': 1.893e-05, 'epoch': 41.0}
  6%|▋         | 6315/100000 [3:49:08<170:26:03,  6.55s/it]                                                             6%|▋         | 6315/100000 [3:49:08<170:26:03,  6.55s/it]  6%|▋         | 6316/100000 [3:49:16<177:46:06,  6.83s/it]                                                             6%|▋         | 6316/100000 [3:49:16<177:46:06,  6.83s/it]  6%|▋         | 6317/100000 [3:49:21<164:39:18,  6.33s/it]                                                             6%|▋         | 6317/100000 [3:49:21<164:39:18,  6.33s/it]  6%|▋         | 6318/100000 [3:49:25<149:25:47,  5.74s/it]                                                             6%|▋         | 6318/100000 [3:49:25<149:25:47,  5.74s/it]  6%|▋         | 6319/100000 [3:49:29<134:12:36,  5.16s/it]                                                             6%|▋         | 6319/100000 [3:49:29<134:12:36,  5.16s/it]  6%|▋         | 6320/100000 [3:49:32<119:58:26,  4.61s/it]                                                             6%|▋         | 6320/100000 [3:49:32<119:58:26,  4.61s/it]  6%|▋         | 6321/100000 [3:49:35<107:06:48,  4.12s/it]                                                             6%|▋         | 6321/100000 [3:49:35<107:06:48,  4.12s/it]  6%|▋         | 6322/100000 [3:49:38<95:08:07,  3.66s/it]                                                             6%|▋         | 6322/100000 [3:49:38<95:08:07,  3.66s/it]  6%|▋         | 6323/100000 [3:49:40<83:46:38,  3.22s/it]                                                            6%|▋         | 6323/100000 [3:49:40<83:46:38,  3.22s/it]  6%|▋         | 6324/100000 [3:49:42<74:56:33,  2.88s/it]                                                            6%|▋         | 6324/100000 [3:49:42<74:56:33,  2.88s/it]  6%|▋         | 6325/100000 [3:49:44<67:41:33,  2.60s/it]                                                            6%|▋         | 6325/100000 [3:49:44<67:41:33,  2.60s/it]  6%|▋         | 6326/100000 [3:49:46<61:28:32,  2.36s/it]                                                            6%|▋         | 6326/100000 [3:49:46<61:28:32,  2.36s/it]  6%|▋         | 6327/100000 [3:49:48<56:34:19,  2.17s/it]                                                            6%|▋         | 6327/100000 [3:49:48<56:34:19,  2.17s/it]  6%|▋         | 6328/100000 [3:49:49<52:23:08,  2.01s/it]                                                            6%|▋         | 6328/100000 [3:49:49<52:23:08,  2.01s/it]  6%|▋         | 6329/100000 [3:49:51<48:55:26,  1.88s/it]                                                            6%|▋         | 6329/100000 [3:49:51<48:55:26,  1.88s/it]  6%|▋         | 6330/100000 [3:49:52<45:39:31,  1.75s/it]                                                            6%|▋         | 6330/100000 [3:49:52<45:39:31,  1.75s/it]  6%|▋         | 6331/100000 [3:49:54<42:58:05,  1.65s/it]                                                            6%|▋         | 6331/100000 [3:49:54<42:58:05,  1.65s/it]  6%|▋         | 6332/100000 [3:49:55<40:43:22,  1.57s/it]                                                            6%|▋         | 6332/100000 [3:49:55<40:43:22,  1.57s/it]  6%|▋         | 6333/100000 [3:49:56<38:43:15,  1.49s/it]                                                            6%|▋         | 6333/100000 [3:49:56<38:43:15,  1.49s/it]  6%|▋         | 6334/100000 [3:49:58<36:58:10,  1.42s/it]                                                            6%|▋         | 6334/100000 [3:49:58<36:58:10,  1.42s/it]  6%|▋         | 6335/100000 [3:49:59<35:10:08,  1.35s/it]                                                            6%|▋         | 6335/100000 [3:49:59<35:10:08,  1.35s/it]  6%|▋         | 6336/100000 [3:50:00<33:17:35,  1.28s/it]                                                            6%|▋         | 6336/100000 [3:50:00<33:17:35,  1.28s/it]  6%|▋         | 6337/100000 [3:50:01<31:41:45,  1.22s/it]                                                            6%|▋         | 6337/100000 [3:50:01<31:41:45,  1.22s/it]  6%|▋         | 6338/100000 [3:50:02<30:08:55,  1.16s/it]                                                            6%|▋         | 6338/100000 [3:50:02<30:08:55,  1.16s/it]  6%|▋         | 6339/100000 [3:50:03<28:42:30,  1.10s/it]                                                            6%|▋         | 6339/100000 [3:50:03<28:42:30,  1.10s/it]  6%|▋         | 6340/100000 [3:50:04<27:59:49,  1.08s/it]                                                            6%|▋         | 6340/100000 [3:50:04<27:59:49,  1.08s/it]  6%|▋         | 6341/100000 [3:50:05<27:03:08,  1.04s/it]                                                            6%|▋         | 6341/100000 [3:50:05<27:03:08,  1.04s/it]  6%|▋         | 6342/100000 [3:50:06<26:14:00,  1.01s/it]                                                            6%|▋         | 6342/100000 [3:50:06<26:14:00,  1.01s/it]  6%|▋         | 6343/100000 [3:50:07<25:37:01,  1.02it/s]                                                            6%|▋         | 6343/100000 [3:50:07<25:37:01,  1.02it/s]  6%|▋         | 6344/100000 [3:50:08<25:13:19,  1.03it/s]                                                            6%|▋         | 6344/100000 [3:50:08<25:13:19,  1.03it/s]  6%|▋         | 6345/100000 [3:50:09<24:33:55,  1.06it/s]                                                            6%|▋         | 6345/100000 [3:50:09<24:33:55,  1.06it/s]  6%|▋         | 6346/100000 [3:50:09<23:30:32,  1.11it/s]                                                            6%|▋         | 6346/100000 [3:50:09<23:30:32,  1.11it/s]  6%|▋         | 6347/100000 [3:50:10<22:20:53,  1.16it/s]                                                            6%|▋         | 6347/100000 [3:50:10<22:20:53,  1.16it/s]  6%|▋         | 6348/100000 [3:50:11<22:00:24,  1.18it/s]                                                            6%|▋         | 6348/100000 [3:50:11<22:00:24,  1.18it/s]  6%|▋         | 6349/100000 [3:50:12<21:46:42,  1.19it/s]                                                            6%|▋         | 6349/100000 [3:50:12<21:46:42,  1.19it/s]  6%|▋         | 6350/100000 [3:50:12<20:46:19,  1.25it/s]                                                            6%|▋         | 6350/100000 [3:50:12<20:46:19,  1.25it/s]  6%|▋         | 6351/100000 [3:50:13<20:52:32,  1.25it/s]                                                            6%|▋         | 6351/100000 [3:50:13<20:52:32,  1.25it/s]  6%|▋         | 6352/100000 [3:50:14<20:11:34,  1.29it/s]                                                            6%|▋         | 6352/100000 [3:50:14<20:11:34,  1.29it/s]  6%|▋         | 6353/100000 [3:50:27<117:12:20,  4.51s/it]                                                             6%|▋         | 6353/100000 [3:50:27<117:12:20,  4.51s/it]  6%|▋         | 6354/100000 [3:50:36<147:33:11,  5.67s/it]                                                             6%|▋         | 6354/100000 [3:50:36<147:33:11,  5.67s/it]  6%|▋         | 6355/100000 [3:50:41<149:05:09,  5.73s/it]                                                             6%|▋         | 6355/100000 [3:50:41<149:05:09,  5.73s/it]  6%|▋         | 6356/100000 [3:50:46<140:41:52,  5.41s/it]                                                             6%|▋         | 6356/100000 [3:50:46<140:41:52,  5.41s/it]  6%|▋         | 6357/100000 [3:50:50<131:16:39,  5.05s/it]                                                             6%|▋         | 6357/100000 [3:50:50<131:16:39,  5.05s/it]  6%|▋         | 6358/100000 [3:50:54<120:10:23,  4.62s/it]                                                             6%|▋         | 6358/100000 [3:50:54<120:10:23,  4.62s/it]  6%|▋         | 6359/100000 [3:50:57<108:49:48,  4.18s/it]                                                             6%|▋         | 6359/100000 [3:50:57<108:49:48,  4.18s/it]  6%|▋         | 6360/100000 [3:51:00<98:01:31,  3.77s/it]                                                             6%|▋         | 6360/100000 [3:51:00<98:01:31,  3.77s/it]  6%|▋         | 6361/100000 [3:51:02<87:35:11,  3.37s/it]                                                            6%|▋         | 6361/100000 [3:51:02<87:35:11,  3.37s/it]  6%|▋         | 6362/100000 [3:51:05<78:38:29,  3.02s/it]                                                            6%|▋         | 6362/100000 [3:51:05<78:38:29,  3.02s/it]  6%|▋         | 6363/100000 [3:51:06<70:01:26,  2.69s/it]                                                            6%|▋         | 6363/100000 [3:51:06<70:01:26,  2.69s/it]  6%|▋         | 6364/100000 [3:51:08<63:06:08,  2.43s/it]                                                            6%|▋         | 6364/100000 [3:51:08<63:06:08,  2.43s/it]  6%|▋         | 6365/100000 [3:51:10<57:17:19,  2.20s/it]                                                            6%|▋         | 6365/100000 [3:51:10<57:17:19,  2.20s/it]  6%|▋         | 6366/100000 [3:51:12<52:55:05,  2.03s/it]                                                            6%|▋         | 6366/100000 [3:51:12<52:55:05,  2.03s/it]  6%|▋         | 6367/100000 [3:51:13<49:16:13,  1.89s/it]                                                            6%|▋         | 6367/100000 [3:51:13<49:16:13,  1.89s/it]  6%|▋         | 6368/100000 [3:51:15<45:53:00,  1.76s/it]                                                            6%|▋         | 6368/100000 [3:51:15<45:53:00,  1.76s/it]  6%|▋         | 6369/100000 [3:51:16<42:42:31,  1.64s/it]                                                            6%|▋         | 6369/100000 [3:51:16<42:42:31,  1.64s/it]  6%|▋         | 6370/100000 [3:51:17<40:22:12,  1.55s/it]                                                            6%|▋         | 6370/100000 [3:51:17<40:22:12,  1.55s/it]  6%|▋         | 6371/100000 [3:51:19<38:16:54,  1.47s/it]                                                            6%|▋         | 6371/100000 [3:51:19<38:16:54,  1.47s/it]  6%|▋         | 6372/100000 [3:51:20<36:25:46,  1.40s/it]                                                            6%|▋         | 6372/100000 [3:51:20<36:25:46,  1.40s/it]  6%|▋         | 6373/100000 [3:51:21<34:22:21,  1.32s/it]                                                            6%|▋         | 6373/100000 [3:51:21<34:22:21,  1.32s/it]  6%|▋         | 6374/100000 [3:51:22<32:46:04,  1.26s/it]                                                            6%|▋         | 6374/100000 [3:51:22<32:46:04,  1.26s/it]  6%|▋         | 6375/100000 [3:51:23<31:22:19,  1.21s/it]                                                            6%|▋         | 6375/100000 [3:51:23<31:22:19,  1.21s/it]  6%|▋         | 6376/100000 [3:51:24<29:58:34,  1.15s/it]                                                            6%|▋         | 6376/100000 [3:51:24<29:58:34,  1.15s/it]  6%|▋         | 6377/100000 [3:51:25<28:39:43,  1.10s/it]                                                            6%|▋         | 6377/100000 [3:51:25<28:39:43,  1.10s/it]  6%|▋         | 6378/100000 [3:51:26<27:41:44,  1.06s/it]                                                            6%|▋         | 6378/100000 [3:51:26<27:41:44,  1.06s/it]  6%|▋         | 6379/100000 [3:51:27<26:42:34,  1.03s/it]                                                            6%|▋         | 6379/100000 [3:51:27<26:42:34,  1.03s/it]  6%|▋         | 6380/100000 [3:51:28<25:51:23,  1.01it/s]                                                            6%|▋         | 6380/100000 [3:51:28<25:51:23,  1.01it/s]  6%|▋         | 6381/100000 [3:51:29<25:05:32,  1.04it/s]                                                            6%|▋         | 6381/100000 [3:51:29<25:05:32,  1.04it/s]  6%|▋         | 6382/100000 [3:51:30<24:42:05,  1.05it/s]                                                            6%|▋         | 6382/100000 [3:51:30<24:42:05,  1.05it/s]  6%|▋         | 6383/100000 [3:51:31<24:02:51,  1.08it/s]                                                            6%|▋         | 6383/100000 [3:51:31<24:02:51,  1.08it/s]  6%|▋         | 6384/100000 [3:51:32<23:35:22,  1.10it/s]                                                            6%|▋         | 6384/100000 [3:51:32<23:35:22,  1.10it/s]  6%|▋         | 6385/100000 [3:51:32<22:52:07,  1.14it/s]                                                            6%|▋         | 6385/100000 [3:51:32<22:52:07,  1.14it/s]  6%|▋         | 6386/100000 [3:51:33<22:43:29,  1.14it/s]                                                            6%|▋         | 6386/100000 [3:51:33<22:43:29,  1.14it/s]  6%|▋         | 6387/100000 [3:51:34<22:05:32,  1.18it/s]                                                            6%|▋         | 6387/100000 [3:51:34<22:05:32,  1.18it/s]  6%|▋         | 6388/100000 [3:51:35<21:48:15,  1.19it/s]                                                            6%|▋         | 6388/100000 [3:51:35<21:48:15,  1.19it/s]  6%|▋         | 6389/100000 [3:51:36<21:27:36,  1.21it/s]                                                            6%|▋         | 6389/100000 [3:51:36<21:27:36,  1.21it/s]  6%|▋         | 6390/100000 [3:51:36<20:04:14,  1.30it/s]                                                            6%|▋         | 6390/100000 [3:51:36<20:04:14,  1.30it/s]  6%|▋         | 6391/100000 [3:51:49<116:30:40,  4.48s/it]                                                             6%|▋         | 6391/100000 [3:51:49<116:30:40,  4.48s/it]  6%|▋         | 6392/100000 [3:51:58<145:37:22,  5.60s/it]                                                             6%|▋         | 6392/100000 [3:51:58<145:37:22,  5.60s/it]  6%|▋         | 6393/100000 [3:52:03<146:27:38,  5.63s/it]                                                             6%|▋         | 6393/100000 [3:52:03<146:27:38,  5.63s/it]  6%|▋         | 6394/100000 [3:52:08<137:44:47,  5.30s/it]                                                             6%|▋         | 6394/100000 [3:52:08<137:44:47,  5.30s/it]  6%|▋         | 6395/100000 [3:52:12<126:20:50,  4.86s/it]                                                             6%|▋         | 6395/100000 [3:52:12<126:20:50,  4.86s/it]  6%|▋         | 6396/100000 [3:52:15<113:54:30,  4.38s/it]                                                             6%|▋         | 6396/100000 [3:52:15<113:54:30,  4.38s/it]  6%|▋         | 6397/100000 [3:52:18<102:46:06,  3.95s/it]                                                             6%|▋         | 6397/100000 [3:52:18<102:46:06,  3.95s/it]  6%|▋         | 6398/100000 [3:52:21<92:08:06,  3.54s/it]                                                             6%|▋         | 6398/100000 [3:52:21<92:08:06,  3.54s/it]  6%|▋         | 6399/100000 [3:52:23<82:23:56,  3.17s/it]                                                          {'loss': 0.1488, 'grad_norm': 0.9385741949081421, 'learning_rate': 1.8933e-05, 'epoch': 41.01}
{'loss': 0.1231, 'grad_norm': 0.9590888023376465, 'learning_rate': 1.8936e-05, 'epoch': 41.01}
{'loss': 0.1146, 'grad_norm': 0.6172536015510559, 'learning_rate': 1.8939e-05, 'epoch': 41.02}
{'loss': 0.1097, 'grad_norm': 0.7266265153884888, 'learning_rate': 1.8942e-05, 'epoch': 41.03}
{'loss': 0.0701, 'grad_norm': 0.6515531539916992, 'learning_rate': 1.8945e-05, 'epoch': 41.03}
{'loss': 0.0538, 'grad_norm': 0.5793574452400208, 'learning_rate': 1.8948000000000002e-05, 'epoch': 41.04}
{'loss': 0.0663, 'grad_norm': 0.6313468813896179, 'learning_rate': 1.8951000000000002e-05, 'epoch': 41.05}
{'loss': 0.0451, 'grad_norm': 0.599757730960846, 'learning_rate': 1.8954000000000002e-05, 'epoch': 41.05}
{'loss': 0.0604, 'grad_norm': 0.6393733024597168, 'learning_rate': 1.8957e-05, 'epoch': 41.06}
{'loss': 0.051, 'grad_norm': 0.7366121411323547, 'learning_rate': 1.896e-05, 'epoch': 41.06}
{'loss': 0.048, 'grad_norm': 0.689690113067627, 'learning_rate': 1.8963e-05, 'epoch': 41.07}
{'loss': 0.0462, 'grad_norm': 0.7293993830680847, 'learning_rate': 1.8966e-05, 'epoch': 41.08}
{'loss': 0.0358, 'grad_norm': 0.8323740363121033, 'learning_rate': 1.8969e-05, 'epoch': 41.08}
{'loss': 0.0274, 'grad_norm': 1.0877914428710938, 'learning_rate': 1.8972e-05, 'epoch': 41.09}
{'loss': 0.0259, 'grad_norm': 0.5176004767417908, 'learning_rate': 1.8975e-05, 'epoch': 41.1}
{'loss': 0.0233, 'grad_norm': 0.5631142258644104, 'learning_rate': 1.8978000000000004e-05, 'epoch': 41.1}
{'loss': 0.023, 'grad_norm': 0.7363721132278442, 'learning_rate': 1.8981e-05, 'epoch': 41.11}
{'loss': 0.0206, 'grad_norm': 0.5338172912597656, 'learning_rate': 1.8984e-05, 'epoch': 41.12}
{'loss': 0.0244, 'grad_norm': 0.6234838366508484, 'learning_rate': 1.8987e-05, 'epoch': 41.12}
{'loss': 0.0462, 'grad_norm': 0.9870463609695435, 'learning_rate': 1.899e-05, 'epoch': 41.13}
{'loss': 0.0309, 'grad_norm': 0.8450999855995178, 'learning_rate': 1.8993e-05, 'epoch': 41.14}
{'loss': 0.0402, 'grad_norm': 0.8461350798606873, 'learning_rate': 1.8996e-05, 'epoch': 41.14}
{'loss': 0.0151, 'grad_norm': 0.5751461982727051, 'learning_rate': 1.8999e-05, 'epoch': 41.15}
{'loss': 0.0293, 'grad_norm': 0.7202263474464417, 'learning_rate': 1.9002e-05, 'epoch': 41.16}
{'loss': 0.0235, 'grad_norm': 1.2919725179672241, 'learning_rate': 1.9005e-05, 'epoch': 41.16}
{'loss': 0.021, 'grad_norm': 1.292330265045166, 'learning_rate': 1.9008e-05, 'epoch': 41.17}
{'loss': 0.0177, 'grad_norm': 1.174574375152588, 'learning_rate': 1.9011e-05, 'epoch': 41.18}
{'loss': 0.0531, 'grad_norm': 1.7892855405807495, 'learning_rate': 1.9014e-05, 'epoch': 41.18}
{'loss': 0.0177, 'grad_norm': 0.6216467022895813, 'learning_rate': 1.9017e-05, 'epoch': 41.19}
{'loss': 0.014, 'grad_norm': 0.7123816013336182, 'learning_rate': 1.902e-05, 'epoch': 41.19}
{'loss': 0.0134, 'grad_norm': 1.1609477996826172, 'learning_rate': 1.9023e-05, 'epoch': 41.2}
{'loss': 0.0239, 'grad_norm': 0.8344945311546326, 'learning_rate': 1.9026e-05, 'epoch': 41.21}
{'loss': 0.0217, 'grad_norm': 1.55525541305542, 'learning_rate': 1.9029e-05, 'epoch': 41.21}
{'loss': 0.0105, 'grad_norm': 1.2472301721572876, 'learning_rate': 1.9032e-05, 'epoch': 41.22}
{'loss': 0.0129, 'grad_norm': 1.526579737663269, 'learning_rate': 1.9035e-05, 'epoch': 41.23}
{'loss': 0.0104, 'grad_norm': 0.8670012354850769, 'learning_rate': 1.9038000000000003e-05, 'epoch': 41.23}
{'loss': 0.0219, 'grad_norm': 1.5244169235229492, 'learning_rate': 1.9041000000000003e-05, 'epoch': 41.24}
{'loss': 0.0228, 'grad_norm': 1.7022074460983276, 'learning_rate': 1.9044000000000003e-05, 'epoch': 41.25}
{'loss': 0.1853, 'grad_norm': 1.3256672620773315, 'learning_rate': 1.9047000000000002e-05, 'epoch': 41.25}
{'loss': 0.1351, 'grad_norm': 0.7950419783592224, 'learning_rate': 1.9050000000000002e-05, 'epoch': 41.26}
{'loss': 0.1065, 'grad_norm': 0.9331644773483276, 'learning_rate': 1.9053000000000002e-05, 'epoch': 41.27}
{'loss': 0.0887, 'grad_norm': 0.6140454411506653, 'learning_rate': 1.9056e-05, 'epoch': 41.27}
{'loss': 0.097, 'grad_norm': 0.6513078212738037, 'learning_rate': 1.9058999999999998e-05, 'epoch': 41.28}
{'loss': 0.064, 'grad_norm': 0.45564186573028564, 'learning_rate': 1.9061999999999998e-05, 'epoch': 41.29}
{'loss': 0.0647, 'grad_norm': 0.5821430087089539, 'learning_rate': 1.9064999999999998e-05, 'epoch': 41.29}
{'loss': 0.0672, 'grad_norm': 0.6275985240936279, 'learning_rate': 1.9068e-05, 'epoch': 41.3}
{'loss': 0.0679, 'grad_norm': 0.7509575486183167, 'learning_rate': 1.9071e-05, 'epoch': 41.31}
{'loss': 0.0487, 'grad_norm': 0.6622464656829834, 'learning_rate': 1.9074e-05, 'epoch': 41.31}
{'loss': 0.0326, 'grad_norm': 0.6145580410957336, 'learning_rate': 1.9077e-05, 'epoch': 41.32}
{'loss': 0.0368, 'grad_norm': 0.6252219080924988, 'learning_rate': 1.908e-05, 'epoch': 41.32}
{'loss': 0.0347, 'grad_norm': 1.0496087074279785, 'learning_rate': 1.9083e-05, 'epoch': 41.33}
{'loss': 0.0413, 'grad_norm': 0.7017173767089844, 'learning_rate': 1.9086e-05, 'epoch': 41.34}
{'loss': 0.0423, 'grad_norm': 0.8240925669670105, 'learning_rate': 1.9089e-05, 'epoch': 41.34}
{'loss': 0.0207, 'grad_norm': 0.7911173701286316, 'learning_rate': 1.9092e-05, 'epoch': 41.35}
{'loss': 0.0452, 'grad_norm': 1.0336254835128784, 'learning_rate': 1.9095e-05, 'epoch': 41.36}
{'loss': 0.032, 'grad_norm': 1.010688304901123, 'learning_rate': 1.9098000000000002e-05, 'epoch': 41.36}
{'loss': 0.0186, 'grad_norm': 0.9351293444633484, 'learning_rate': 1.9101000000000002e-05, 'epoch': 41.37}
{'loss': 0.0202, 'grad_norm': 0.6158555150032043, 'learning_rate': 1.9104000000000002e-05, 'epoch': 41.38}
{'loss': 0.0251, 'grad_norm': 0.5898241996765137, 'learning_rate': 1.9107000000000002e-05, 'epoch': 41.38}
{'loss': 0.0297, 'grad_norm': 0.7100145220756531, 'learning_rate': 1.911e-05, 'epoch': 41.39}
{'loss': 0.0176, 'grad_norm': 0.6911229491233826, 'learning_rate': 1.9113e-05, 'epoch': 41.4}
{'loss': 0.0452, 'grad_norm': 1.8205642700195312, 'learning_rate': 1.9116e-05, 'epoch': 41.4}
{'loss': 0.0179, 'grad_norm': 0.6168829202651978, 'learning_rate': 1.9119e-05, 'epoch': 41.41}
{'loss': 0.0229, 'grad_norm': 0.8375409245491028, 'learning_rate': 1.9122e-05, 'epoch': 41.42}
{'loss': 0.0278, 'grad_norm': 1.4690531492233276, 'learning_rate': 1.9125e-05, 'epoch': 41.42}
{'loss': 0.0292, 'grad_norm': 1.08584463596344, 'learning_rate': 1.9128e-05, 'epoch': 41.43}
{'loss': 0.054, 'grad_norm': 0.5605520606040955, 'learning_rate': 1.9131e-05, 'epoch': 41.44}
{'loss': 0.0174, 'grad_norm': 1.053823709487915, 'learning_rate': 1.9134e-05, 'epoch': 41.44}
{'loss': 0.0138, 'grad_norm': 0.8314346075057983, 'learning_rate': 1.9137e-05, 'epoch': 41.45}
{'loss': 0.015, 'grad_norm': 0.9620791077613831, 'learning_rate': 1.914e-05, 'epoch': 41.45}
{'loss': 0.0228, 'grad_norm': 1.1294914484024048, 'learning_rate': 1.9143e-05, 'epoch': 41.46}
{'loss': 0.009, 'grad_norm': 0.7300167083740234, 'learning_rate': 1.9146e-05, 'epoch': 41.47}
{'loss': 0.0088, 'grad_norm': 0.4674479067325592, 'learning_rate': 1.9149e-05, 'epoch': 41.47}
{'loss': 0.0426, 'grad_norm': 0.7254549860954285, 'learning_rate': 1.9152e-05, 'epoch': 41.48}
{'loss': 0.0255, 'grad_norm': 1.530195713043213, 'learning_rate': 1.9155e-05, 'epoch': 41.49}
{'loss': 0.0316, 'grad_norm': 1.9292267560958862, 'learning_rate': 1.9158e-05, 'epoch': 41.49}
{'loss': 0.2102, 'grad_norm': 1.3076332807540894, 'learning_rate': 1.9161000000000002e-05, 'epoch': 41.5}
{'loss': 0.1298, 'grad_norm': 0.9123840928077698, 'learning_rate': 1.9164e-05, 'epoch': 41.51}
{'loss': 0.0728, 'grad_norm': 0.622927188873291, 'learning_rate': 1.9167e-05, 'epoch': 41.51}
{'loss': 0.0812, 'grad_norm': 0.6582483053207397, 'learning_rate': 1.917e-05, 'epoch': 41.52}
{'loss': 0.0565, 'grad_norm': 0.8113957643508911, 'learning_rate': 1.9173e-05, 'epoch': 41.53}
{'loss': 0.0608, 'grad_norm': 0.7185471057891846, 'learning_rate': 1.9176e-05, 'epoch': 41.53}
{'loss': 0.0663, 'grad_norm': 0.6815695762634277, 'learning_rate': 1.9179e-05, 'epoch': 41.54}
{'loss': 0.0559, 'grad_norm': 0.8880130052566528, 'learning_rate': 1.9182e-05, 'epoch': 41.55}
  6%|▋         | 6399/100000 [3:52:23<82:23:56,  3.17s/it]  6%|▋         | 6400/100000 [3:52:25<74:04:13,  2.85s/it]                                                            6%|▋         | 6400/100000 [3:52:25<74:04:13,  2.85s/it]  6%|▋         | 6401/100000 [3:52:27<67:01:50,  2.58s/it]                                                            6%|▋         | 6401/100000 [3:52:27<67:01:50,  2.58s/it]  6%|▋         | 6402/100000 [3:52:29<60:59:02,  2.35s/it]                                                            6%|▋         | 6402/100000 [3:52:29<60:59:02,  2.35s/it]  6%|▋         | 6403/100000 [3:52:30<55:32:50,  2.14s/it]                                                            6%|▋         | 6403/100000 [3:52:30<55:32:50,  2.14s/it]  6%|▋         | 6404/100000 [3:52:32<51:29:23,  1.98s/it]                                                            6%|▋         | 6404/100000 [3:52:32<51:29:23,  1.98s/it]  6%|▋         | 6405/100000 [3:52:33<48:08:06,  1.85s/it]                                                            6%|▋         | 6405/100000 [3:52:33<48:08:06,  1.85s/it]  6%|▋         | 6406/100000 [3:52:35<45:05:00,  1.73s/it]                                                            6%|▋         | 6406/100000 [3:52:35<45:05:00,  1.73s/it]  6%|▋         | 6407/100000 [3:52:36<42:13:03,  1.62s/it]                                                            6%|▋         | 6407/100000 [3:52:36<42:13:03,  1.62s/it]  6%|▋         | 6408/100000 [3:52:38<40:03:20,  1.54s/it]                                                            6%|▋         | 6408/100000 [3:52:38<40:03:20,  1.54s/it]  6%|▋         | 6409/100000 [3:52:39<38:01:53,  1.46s/it]                                                            6%|▋         | 6409/100000 [3:52:39<38:01:53,  1.46s/it]  6%|▋         | 6410/100000 [3:52:40<35:51:26,  1.38s/it]                                                            6%|▋         | 6410/100000 [3:52:40<35:51:26,  1.38s/it]  6%|▋         | 6411/100000 [3:52:41<33:46:43,  1.30s/it]                                                            6%|▋         | 6411/100000 [3:52:41<33:46:43,  1.30s/it]  6%|▋         | 6412/100000 [3:52:42<32:07:57,  1.24s/it]                                                            6%|▋         | 6412/100000 [3:52:42<32:07:57,  1.24s/it]  6%|▋         | 6413/100000 [3:52:43<30:37:41,  1.18s/it]                                                            6%|▋         | 6413/100000 [3:52:43<30:37:41,  1.18s/it]  6%|▋         | 6414/100000 [3:52:44<29:31:06,  1.14s/it]                                                            6%|▋         | 6414/100000 [3:52:44<29:31:06,  1.14s/it]  6%|▋         | 6415/100000 [3:52:45<28:10:49,  1.08s/it]                                                            6%|▋         | 6415/100000 [3:52:45<28:10:49,  1.08s/it]  6%|▋         | 6416/100000 [3:52:46<27:21:32,  1.05s/it]                                                            6%|▋         | 6416/100000 [3:52:46<27:21:32,  1.05s/it]  6%|▋         | 6417/100000 [3:52:47<26:22:47,  1.01s/it]                                                            6%|▋         | 6417/100000 [3:52:47<26:22:47,  1.01s/it]  6%|▋         | 6418/100000 [3:52:48<25:31:49,  1.02it/s]                                                            6%|▋         | 6418/100000 [3:52:48<25:31:49,  1.02it/s]  6%|▋         | 6419/100000 [3:52:49<24:31:31,  1.06it/s]                                                            6%|▋         | 6419/100000 [3:52:49<24:31:31,  1.06it/s]  6%|▋         | 6420/100000 [3:52:50<24:20:27,  1.07it/s]                                                            6%|▋         | 6420/100000 [3:52:50<24:20:27,  1.07it/s]  6%|▋         | 6421/100000 [3:52:51<23:56:39,  1.09it/s]                                                            6%|▋         | 6421/100000 [3:52:51<23:56:39,  1.09it/s]  6%|▋         | 6422/100000 [3:52:52<23:29:08,  1.11it/s]                                                            6%|▋         | 6422/100000 [3:52:52<23:29:08,  1.11it/s]  6%|▋         | 6423/100000 [3:52:53<23:01:00,  1.13it/s]                                                            6%|▋         | 6423/100000 [3:52:53<23:01:00,  1.13it/s]  6%|▋         | 6424/100000 [3:52:53<22:06:43,  1.18it/s]                                                            6%|▋         | 6424/100000 [3:52:53<22:06:43,  1.18it/s]  6%|▋         | 6425/100000 [3:52:54<21:53:36,  1.19it/s]                                                            6%|▋         | 6425/100000 [3:52:54<21:53:36,  1.19it/s]  6%|▋         | 6426/100000 [3:52:55<21:34:10,  1.21it/s]                                                            6%|▋         | 6426/100000 [3:52:55<21:34:10,  1.21it/s]  6%|▋         | 6427/100000 [3:52:56<20:24:19,  1.27it/s]                                                            6%|▋         | 6427/100000 [3:52:56<20:24:19,  1.27it/s]  6%|▋         | 6428/100000 [3:52:56<19:05:29,  1.36it/s]                                                            6%|▋         | 6428/100000 [3:52:56<19:05:29,  1.36it/s]  6%|▋         | 6429/100000 [3:53:08<106:31:45,  4.10s/it]                                                             6%|▋         | 6429/100000 [3:53:08<106:31:45,  4.10s/it]  6%|▋         | 6430/100000 [3:53:16<138:29:45,  5.33s/it]                                                             6%|▋         | 6430/100000 [3:53:16<138:29:45,  5.33s/it]  6%|▋         | 6431/100000 [3:53:22<141:11:09,  5.43s/it]                                                             6%|▋         | 6431/100000 [3:53:22<141:11:09,  5.43s/it]  6%|▋         | 6432/100000 [3:53:27<135:49:29,  5.23s/it]                                                             6%|▋         | 6432/100000 [3:53:27<135:49:29,  5.23s/it]  6%|▋         | 6433/100000 [3:53:31<127:44:59,  4.92s/it]                                                             6%|▋         | 6433/100000 [3:53:31<127:44:59,  4.92s/it]  6%|▋         | 6434/100000 [3:53:35<117:40:16,  4.53s/it]                                                             6%|▋         | 6434/100000 [3:53:35<117:40:16,  4.53s/it]  6%|▋         | 6435/100000 [3:53:38<106:27:59,  4.10s/it]                                                             6%|▋         | 6435/100000 [3:53:38<106:27:59,  4.10s/it]  6%|▋         | 6436/100000 [3:53:40<96:02:42,  3.70s/it]                                                             6%|▋         | 6436/100000 [3:53:40<96:02:42,  3.70s/it]  6%|▋         | 6437/100000 [3:53:43<86:01:18,  3.31s/it]                                                            6%|▋         | 6437/100000 [3:53:43<86:01:18,  3.31s/it]  6%|▋         | 6438/100000 [3:53:45<77:23:11,  2.98s/it]                                                            6%|▋         | 6438/100000 [3:53:45<77:23:11,  2.98s/it]  6%|▋         | 6439/100000 [3:53:47<69:58:48,  2.69s/it]                                                            6%|▋         | 6439/100000 [3:53:47<69:58:48,  2.69s/it]  6%|▋         | 6440/100000 [3:53:49<63:48:26,  2.46s/it]                                                            6%|▋         | 6440/100000 [3:53:49<63:48:26,  2.46s/it]  6%|▋         | 6441/100000 [3:53:51<58:33:20,  2.25s/it]                                                            6%|▋         | 6441/100000 [3:53:51<58:33:20,  2.25s/it]  6%|▋         | 6442/100000 [3:53:52<53:50:26,  2.07s/it]                                                            6%|▋         | 6442/100000 [3:53:52<53:50:26,  2.07s/it]  6%|▋         | 6443/100000 [3:53:54<49:56:30,  1.92s/it]                                                            6%|▋         | 6443/100000 [3:53:54<49:56:30,  1.92s/it]  6%|▋         | 6444/100000 [3:53:55<46:34:28,  1.79s/it]                                                            6%|▋         | 6444/100000 [3:53:55<46:34:28,  1.79s/it]  6%|▋         | 6445/100000 [3:53:57<43:46:51,  1.68s/it]                                                            6%|▋         | 6445/100000 [3:53:57<43:46:51,  1.68s/it]  6%|▋         | 6446/100000 [3:53:58<40:47:09,  1.57s/it]                                                            6%|▋         | 6446/100000 [3:53:58<40:47:09,  1.57s/it]  6%|▋         | 6447/100000 [3:54:00<38:53:26,  1.50s/it]                                                            6%|▋         | 6447/100000 [3:54:00<38:53:26,  1.50s/it]  6%|▋         | 6448/100000 [3:54:01<36:52:03,  1.42s/it]                                                            6%|▋         | 6448/100000 [3:54:01<36:52:03,  1.42s/it]  6%|▋         | 6449/100000 [3:54:02<34:51:19,  1.34s/it]                                                            6%|▋         | 6449/100000 [3:54:02<34:51:19,  1.34s/it]  6%|▋         | 6450/100000 [3:54:03<32:59:59,  1.27s/it]                                                            6%|▋         | 6450/100000 [3:54:03<32:59:59,  1.27s/it]  6%|▋         | 6451/100000 [3:54:04<31:16:33,  1.20s/it]                                                            6%|▋         | 6451/100000 [3:54:04<31:16:33,  1.20s/it]  6%|▋         | 6452/100000 [3:54:05<29:46:46,  1.15s/it]                                                            6%|▋         | 6452/100000 [3:54:05<29:46:46,  1.15s/it]  6%|▋         | 6453/100000 [3:54:06<28:03:24,  1.08s/it]                                                            6%|▋         | 6453/100000 [3:54:06<28:03:24,  1.08s/it]  6%|▋         | 6454/100000 [3:54:07<26:44:16,  1.03s/it]                                                            6%|▋         | 6454/100000 [3:54:07<26:44:16,  1.03s/it]  6%|▋         | 6455/100000 [3:54:08<25:54:32,  1.00it/s]                                                            6%|▋         | 6455/100000 [3:54:08<25:54:32,  1.00it/s]  6%|▋         | 6456/100000 [3:54:09<24:53:22,  1.04it/s]                                                            6%|▋         | 6456/100000 [3:54:09<24:53:22,  1.04it/s]  6%|▋         | 6457/100000 [3:54:10<25:10:25,  1.03it/s]                                                            6%|▋         | 6457/100000 [3:54:10<25:10:25,  1.03it/s]  6%|▋         | 6458/100000 [3:54:11<23:54:27,  1.09it/s]                                                            6%|▋         | 6458/100000 [3:54:11<23:54:27,  1.09it/s]  6%|▋         | 6459/100000 [3:54:11<22:52:26,  1.14it/s]                                                            6%|▋         | 6459/100000 [3:54:11<22:52:26,  1.14it/s]  6%|▋         | 6460/100000 [3:54:12<22:07:32,  1.17it/s]                                                            6%|▋         | 6460/100000 [3:54:12<22:07:32,  1.17it/s]  6%|▋         | 6461/100000 [3:54:13<21:03:24,  1.23it/s]                                                            6%|▋         | 6461/100000 [3:54:13<21:03:24,  1.23it/s]  6%|▋         | 6462/100000 [3:54:14<20:16:38,  1.28it/s]                                                            6%|▋         | 6462/100000 [3:54:14<20:16:38,  1.28it/s]  6%|▋         | 6463/100000 [3:54:14<19:53:22,  1.31it/s]                                                            6%|▋         | 6463/100000 [3:54:14<19:53:22,  1.31it/s]  6%|▋         | 6464/100000 [3:54:15<19:11:47,  1.35it/s]                                                            6%|▋         | 6464/100000 [3:54:15<19:11:47,  1.35it/s]  6%|▋         | 6465/100000 [3:54:16<18:46:50,  1.38it/s]                                                            6%|▋         | 6465/100000 [3:54:16<18:46:50,  1.38it/s]  6%|▋         | 6466/100000 [3:54:16<17:28:10,  1.49it/s]                                                            6%|▋         | 6466/100000 [3:54:16<17:28:10,  1.49it/s]  6%|▋         | 6467/100000 [3:54:23<67:04:41,  2.58s/it]                                                            6%|▋         | 6467/100000 [3:54:23<67:04:41,  2.58s/it]  6%|▋         | 6468/100000 [3:54:25<57:16:23,  2.20s/it]                                                            6%|▋         | 6468/100000 [3:54:25<57:16:23,  2.20s/it]{'loss': 0.0502, 'grad_norm': 0.7291624546051025, 'learning_rate': 1.9185e-05, 'epoch': 41.55}
{'loss': 0.0557, 'grad_norm': 0.6217973828315735, 'learning_rate': 1.9188e-05, 'epoch': 41.56}
{'loss': 0.0567, 'grad_norm': 0.7012580633163452, 'learning_rate': 1.9191000000000003e-05, 'epoch': 41.56}
{'loss': 0.045, 'grad_norm': 0.5694246292114258, 'learning_rate': 1.9194000000000003e-05, 'epoch': 41.57}
{'loss': 0.0495, 'grad_norm': 0.7836206555366516, 'learning_rate': 1.9197000000000003e-05, 'epoch': 41.58}
{'loss': 0.0481, 'grad_norm': 0.6300112009048462, 'learning_rate': 1.9200000000000003e-05, 'epoch': 41.58}
{'loss': 0.0255, 'grad_norm': 0.5377911329269409, 'learning_rate': 1.9203e-05, 'epoch': 41.59}
{'loss': 0.0722, 'grad_norm': 0.7680366039276123, 'learning_rate': 1.9206e-05, 'epoch': 41.6}
{'loss': 0.0219, 'grad_norm': 0.373300164937973, 'learning_rate': 1.9209e-05, 'epoch': 41.6}
{'loss': 0.027, 'grad_norm': 0.7401449084281921, 'learning_rate': 1.9212e-05, 'epoch': 41.61}
{'loss': 0.0283, 'grad_norm': 1.2247185707092285, 'learning_rate': 1.9214999999999998e-05, 'epoch': 41.62}
{'loss': 0.0265, 'grad_norm': 0.5223338007926941, 'learning_rate': 1.9217999999999998e-05, 'epoch': 41.62}
{'loss': 0.0227, 'grad_norm': 0.6905393004417419, 'learning_rate': 1.9221e-05, 'epoch': 41.63}
{'loss': 0.016, 'grad_norm': 0.617003321647644, 'learning_rate': 1.9224e-05, 'epoch': 41.64}
{'loss': 0.039, 'grad_norm': 0.703651487827301, 'learning_rate': 1.9227e-05, 'epoch': 41.64}
{'loss': 0.0154, 'grad_norm': 0.7111040949821472, 'learning_rate': 1.923e-05, 'epoch': 41.65}
{'loss': 0.0177, 'grad_norm': 0.5266287922859192, 'learning_rate': 1.9233e-05, 'epoch': 41.66}
{'loss': 0.009, 'grad_norm': 0.7538241744041443, 'learning_rate': 1.9236e-05, 'epoch': 41.66}
{'loss': 0.0161, 'grad_norm': 1.0143040418624878, 'learning_rate': 1.9239e-05, 'epoch': 41.67}
{'loss': 0.0928, 'grad_norm': 2.119568347930908, 'learning_rate': 1.9242e-05, 'epoch': 41.68}
{'loss': 0.0264, 'grad_norm': 1.0023670196533203, 'learning_rate': 1.9245e-05, 'epoch': 41.68}
{'loss': 0.0312, 'grad_norm': 1.6149119138717651, 'learning_rate': 1.9248e-05, 'epoch': 41.69}
{'loss': 0.0291, 'grad_norm': 1.4832121133804321, 'learning_rate': 1.9251000000000003e-05, 'epoch': 41.69}
{'loss': 0.0608, 'grad_norm': 2.4243834018707275, 'learning_rate': 1.9254000000000002e-05, 'epoch': 41.7}
{'loss': 0.0165, 'grad_norm': 1.0749127864837646, 'learning_rate': 1.9257000000000002e-05, 'epoch': 41.71}
{'loss': 0.0155, 'grad_norm': 0.7841988205909729, 'learning_rate': 1.9260000000000002e-05, 'epoch': 41.71}
{'loss': 0.0168, 'grad_norm': 0.8364874124526978, 'learning_rate': 1.9263000000000002e-05, 'epoch': 41.72}
{'loss': 0.0228, 'grad_norm': 1.4101531505584717, 'learning_rate': 1.9266e-05, 'epoch': 41.73}
{'loss': 0.0251, 'grad_norm': 1.15642249584198, 'learning_rate': 1.9269e-05, 'epoch': 41.73}
{'loss': 0.0407, 'grad_norm': 1.9451292753219604, 'learning_rate': 1.9272e-05, 'epoch': 41.74}
{'loss': 0.1851, 'grad_norm': 1.0686285495758057, 'learning_rate': 1.9275e-05, 'epoch': 41.75}
{'loss': 0.1442, 'grad_norm': 0.921332061290741, 'learning_rate': 1.9277999999999997e-05, 'epoch': 41.75}
{'loss': 0.1005, 'grad_norm': 0.746961236000061, 'learning_rate': 1.9281e-05, 'epoch': 41.76}
{'loss': 0.0855, 'grad_norm': 0.6434423327445984, 'learning_rate': 1.9284e-05, 'epoch': 41.77}
{'loss': 0.0844, 'grad_norm': 0.6775519847869873, 'learning_rate': 1.9287e-05, 'epoch': 41.77}
{'loss': 0.0724, 'grad_norm': 0.6040651798248291, 'learning_rate': 1.929e-05, 'epoch': 41.78}
{'loss': 0.0804, 'grad_norm': 0.6850730776786804, 'learning_rate': 1.9293e-05, 'epoch': 41.79}
{'loss': 0.06, 'grad_norm': 0.6084417700767517, 'learning_rate': 1.9296e-05, 'epoch': 41.79}
{'loss': 0.0488, 'grad_norm': 0.7479844093322754, 'learning_rate': 1.9299e-05, 'epoch': 41.8}
{'loss': 0.0632, 'grad_norm': 0.8194841742515564, 'learning_rate': 1.9302e-05, 'epoch': 41.81}
{'loss': 0.0646, 'grad_norm': 0.8135772943496704, 'learning_rate': 1.9305e-05, 'epoch': 41.81}
{'loss': 0.0445, 'grad_norm': 0.6566426753997803, 'learning_rate': 1.9308e-05, 'epoch': 41.82}
{'loss': 0.0561, 'grad_norm': 0.6082063317298889, 'learning_rate': 1.9311000000000002e-05, 'epoch': 41.82}
{'loss': 0.0394, 'grad_norm': 0.6758004426956177, 'learning_rate': 1.9314000000000002e-05, 'epoch': 41.83}
{'loss': 0.0466, 'grad_norm': 0.6846888065338135, 'learning_rate': 1.9317e-05, 'epoch': 41.84}
{'loss': 0.0509, 'grad_norm': 4.70868444442749, 'learning_rate': 1.932e-05, 'epoch': 41.84}
{'loss': 0.0276, 'grad_norm': 0.9848657846450806, 'learning_rate': 1.9323e-05, 'epoch': 41.85}
{'loss': 0.0392, 'grad_norm': 0.7212517261505127, 'learning_rate': 1.9326e-05, 'epoch': 41.86}
{'loss': 0.0471, 'grad_norm': 1.12032151222229, 'learning_rate': 1.9329e-05, 'epoch': 41.86}
{'loss': 0.0366, 'grad_norm': 0.7769595980644226, 'learning_rate': 1.9332e-05, 'epoch': 41.87}
{'loss': 0.0325, 'grad_norm': 1.2950929403305054, 'learning_rate': 1.9335e-05, 'epoch': 41.88}
{'loss': 0.0368, 'grad_norm': 0.9419100284576416, 'learning_rate': 1.9338e-05, 'epoch': 41.88}
{'loss': 0.0231, 'grad_norm': 0.6085621118545532, 'learning_rate': 1.9341000000000003e-05, 'epoch': 41.89}
{'loss': 0.0542, 'grad_norm': 0.8462844491004944, 'learning_rate': 1.9344000000000003e-05, 'epoch': 41.9}
{'loss': 0.0188, 'grad_norm': 0.7519163489341736, 'learning_rate': 1.9347000000000003e-05, 'epoch': 41.9}
{'loss': 0.0137, 'grad_norm': 0.6257036328315735, 'learning_rate': 1.935e-05, 'epoch': 41.91}
{'loss': 0.0167, 'grad_norm': 0.47319743037223816, 'learning_rate': 1.9353e-05, 'epoch': 41.92}
{'loss': 0.0335, 'grad_norm': 1.5442090034484863, 'learning_rate': 1.9356e-05, 'epoch': 41.92}
{'loss': 0.0612, 'grad_norm': 0.8454265594482422, 'learning_rate': 1.9359e-05, 'epoch': 41.93}
{'loss': 0.0361, 'grad_norm': 1.4999700784683228, 'learning_rate': 1.9362e-05, 'epoch': 41.94}
{'loss': 0.0225, 'grad_norm': 0.8898206949234009, 'learning_rate': 1.9365e-05, 'epoch': 41.94}
{'loss': 0.0393, 'grad_norm': 1.6084673404693604, 'learning_rate': 1.9367999999999998e-05, 'epoch': 41.95}
{'loss': 0.0279, 'grad_norm': 1.6745883226394653, 'learning_rate': 1.9371e-05, 'epoch': 41.95}
{'loss': 0.0259, 'grad_norm': 1.609399437904358, 'learning_rate': 1.9374e-05, 'epoch': 41.96}
{'loss': 0.0333, 'grad_norm': 1.69591224193573, 'learning_rate': 1.9377e-05, 'epoch': 41.97}
{'loss': 0.0238, 'grad_norm': 1.3665860891342163, 'learning_rate': 1.938e-05, 'epoch': 41.97}
{'loss': 0.0318, 'grad_norm': 1.39214289188385, 'learning_rate': 1.9383e-05, 'epoch': 41.98}
{'loss': 0.0983, 'grad_norm': 4.477849960327148, 'learning_rate': 1.9386e-05, 'epoch': 41.99}
{'loss': 0.095, 'grad_norm': 1.1790993213653564, 'learning_rate': 1.9389e-05, 'epoch': 41.99}
{'loss': 0.0341, 'grad_norm': 1.8391228914260864, 'learning_rate': 1.9392e-05, 'epoch': 42.0}
  6%|▋         | 6469/100000 [3:54:41<170:54:38,  6.58s/it]                                                             6%|▋         | 6469/100000 [3:54:41<170:54:38,  6.58s/it]  6%|▋         | 6470/100000 [3:54:50<185:05:14,  7.12s/it]                                                             6%|▋         | 6470/100000 [3:54:50<185:05:14,  7.12s/it]  6%|▋         | 6471/100000 [3:54:56<175:22:47,  6.75s/it]                                                             6%|▋         | 6471/100000 [3:54:56<175:22:47,  6.75s/it]  6%|▋         | 6472/100000 [3:55:01<161:15:35,  6.21s/it]                                                             6%|▋         | 6472/100000 [3:55:01<161:15:35,  6.21s/it]  6%|▋         | 6473/100000 [3:55:05<145:06:05,  5.59s/it]                                                             6%|▋         | 6473/100000 [3:55:05<145:06:05,  5.59s/it]  6%|▋         | 6474/100000 [3:55:08<129:30:10,  4.98s/it]                                                             6%|▋         | 6474/100000 [3:55:08<129:30:10,  4.98s/it]  6%|▋         | 6475/100000 [3:55:11<115:13:23,  4.44s/it]                                                             6%|▋         | 6475/100000 [3:55:11<115:13:23,  4.44s/it]  6%|▋         | 6476/100000 [3:55:14<102:02:44,  3.93s/it]                                                             6%|▋         | 6476/100000 [3:55:14<102:02:44,  3.93s/it]  6%|▋         | 6477/100000 [3:55:17<90:09:14,  3.47s/it]                                                             6%|▋         | 6477/100000 [3:55:17<90:09:14,  3.47s/it]  6%|▋         | 6478/100000 [3:55:19<79:52:27,  3.07s/it]                                                            6%|▋         | 6478/100000 [3:55:19<79:52:27,  3.07s/it]  6%|▋         | 6479/100000 [3:55:21<71:15:42,  2.74s/it]                                                            6%|▋         | 6479/100000 [3:55:21<71:15:42,  2.74s/it]  6%|▋         | 6480/100000 [3:55:23<64:47:36,  2.49s/it]                                                            6%|▋         | 6480/100000 [3:55:23<64:47:36,  2.49s/it]  6%|▋         | 6481/100000 [3:55:24<59:19:13,  2.28s/it]                                                            6%|▋         | 6481/100000 [3:55:24<59:19:13,  2.28s/it]  6%|▋         | 6482/100000 [3:55:26<54:18:06,  2.09s/it]                                                            6%|▋         | 6482/100000 [3:55:26<54:18:06,  2.09s/it]  6%|▋         | 6483/100000 [3:55:28<50:45:40,  1.95s/it]                                                            6%|▋         | 6483/100000 [3:55:28<50:45:40,  1.95s/it]  6%|▋         | 6484/100000 [3:55:29<47:39:56,  1.83s/it]                                                            6%|▋         | 6484/100000 [3:55:29<47:39:56,  1.83s/it]  6%|▋         | 6485/100000 [3:55:31<44:24:34,  1.71s/it]                                                            6%|▋         | 6485/100000 [3:55:31<44:24:34,  1.71s/it]  6%|▋         | 6486/100000 [3:55:32<41:52:28,  1.61s/it]                                                            6%|▋         | 6486/100000 [3:55:32<41:52:28,  1.61s/it]  6%|▋         | 6487/100000 [3:55:33<39:20:04,  1.51s/it]                                                            6%|▋         | 6487/100000 [3:55:33<39:20:04,  1.51s/it]  6%|▋         | 6488/100000 [3:55:35<37:31:45,  1.44s/it]                                                            6%|▋         | 6488/100000 [3:55:35<37:31:45,  1.44s/it]  6%|▋         | 6489/100000 [3:55:36<35:23:03,  1.36s/it]                                                            6%|▋         | 6489/100000 [3:55:36<35:23:03,  1.36s/it]  6%|▋         | 6490/100000 [3:55:37<33:33:06,  1.29s/it]                                                            6%|▋         | 6490/100000 [3:55:37<33:33:06,  1.29s/it]  6%|▋         | 6491/100000 [3:55:38<32:05:14,  1.24s/it]                                                            6%|▋         | 6491/100000 [3:55:38<32:05:14,  1.24s/it]  6%|▋         | 6492/100000 [3:55:39<30:25:50,  1.17s/it]                                                            6%|▋         | 6492/100000 [3:55:39<30:25:50,  1.17s/it]  6%|▋         | 6493/100000 [3:55:40<29:04:36,  1.12s/it]                                                            6%|▋         | 6493/100000 [3:55:40<29:04:36,  1.12s/it]  6%|▋         | 6494/100000 [3:55:41<27:30:29,  1.06s/it]                                                            6%|▋         | 6494/100000 [3:55:41<27:30:29,  1.06s/it]  6%|▋         | 6495/100000 [3:55:42<26:36:23,  1.02s/it]                                                            6%|▋         | 6495/100000 [3:55:42<26:36:23,  1.02s/it]  6%|▋         | 6496/100000 [3:55:43<25:34:32,  1.02it/s]                                                            6%|▋         | 6496/100000 [3:55:43<25:34:32,  1.02it/s]  6%|▋         | 6497/100000 [3:55:44<24:38:39,  1.05it/s]                                                            6%|▋         | 6497/100000 [3:55:44<24:38:39,  1.05it/s]  6%|▋         | 6498/100000 [3:55:45<24:07:59,  1.08it/s]                                                            6%|▋         | 6498/100000 [3:55:45<24:07:59,  1.08it/s]  6%|▋         | 6499/100000 [3:55:45<23:36:59,  1.10it/s]                                                            6%|▋         | 6499/100000 [3:55:45<23:36:59,  1.10it/s]  6%|▋         | 6500/100000 [3:55:46<22:45:31,  1.14it/s]                                                            6%|▋         | 6500/100000 [3:55:46<22:45:31,  1.14it/s]  7%|▋         | 6501/100000 [3:55:47<21:54:54,  1.19it/s]                                                            7%|▋         | 6501/100000 [3:55:47<21:54:54,  1.19it/s]  7%|▋         | 6502/100000 [3:55:48<21:21:03,  1.22it/s]                                                            7%|▋         | 6502/100000 [3:55:48<21:21:03,  1.22it/s]  7%|▋         | 6503/100000 [3:55:48<20:45:24,  1.25it/s]                                                            7%|▋         | 6503/100000 [3:55:48<20:45:24,  1.25it/s]  7%|▋         | 6504/100000 [3:55:49<19:35:18,  1.33it/s]                                                            7%|▋         | 6504/100000 [3:55:49<19:35:18,  1.33it/s]  7%|▋         | 6505/100000 [3:55:50<18:55:19,  1.37it/s]                                                            7%|▋         | 6505/100000 [3:55:50<18:55:19,  1.37it/s]  7%|▋         | 6506/100000 [3:55:50<18:39:56,  1.39it/s]                                                            7%|▋         | 6506/100000 [3:55:50<18:39:56,  1.39it/s]  7%|▋         | 6507/100000 [3:56:03<113:13:43,  4.36s/it]                                                             7%|▋         | 6507/100000 [3:56:03<113:13:43,  4.36s/it]  7%|▋         | 6508/100000 [3:56:10<132:27:20,  5.10s/it]                                                             7%|▋         | 6508/100000 [3:56:10<132:27:20,  5.10s/it]  7%|▋         | 6509/100000 [3:56:15<134:09:35,  5.17s/it]                                                             7%|▋         | 6509/100000 [3:56:15<134:09:35,  5.17s/it]  7%|▋         | 6510/100000 [3:56:20<129:04:56,  4.97s/it]                                                             7%|▋         | 6510/100000 [3:56:20<129:04:56,  4.97s/it]  7%|▋         | 6511/100000 [3:56:24<120:24:19,  4.64s/it]                                                             7%|▋         | 6511/100000 [3:56:24<120:24:19,  4.64s/it]  7%|▋         | 6512/100000 [3:56:27<110:12:22,  4.24s/it]                                                             7%|▋         | 6512/100000 [3:56:27<110:12:22,  4.24s/it]  7%|▋         | 6513/100000 [3:56:30<99:36:33,  3.84s/it]                                                             7%|▋         | 6513/100000 [3:56:30<99:36:33,  3.84s/it]  7%|▋         | 6514/100000 [3:56:33<89:34:46,  3.45s/it]                                                            7%|▋         | 6514/100000 [3:56:33<89:34:46,  3.45s/it]  7%|▋         | 6515/100000 [3:56:35<80:34:40,  3.10s/it]                                                            7%|▋         | 6515/100000 [3:56:35<80:34:40,  3.10s/it]  7%|▋         | 6516/100000 [3:56:37<72:43:56,  2.80s/it]                                                            7%|▋         | 6516/100000 [3:56:37<72:43:56,  2.80s/it]  7%|▋         | 6517/100000 [3:56:39<65:39:37,  2.53s/it]                                                            7%|▋         | 6517/100000 [3:56:39<65:39:37,  2.53s/it]  7%|▋         | 6518/100000 [3:56:41<59:17:43,  2.28s/it]                                                            7%|▋         | 6518/100000 [3:56:41<59:17:43,  2.28s/it]  7%|▋         | 6519/100000 [3:56:42<54:41:27,  2.11s/it]                                                            7%|▋         | 6519/100000 [3:56:42<54:41:27,  2.11s/it]  7%|▋         | 6520/100000 [3:56:44<50:34:19,  1.95s/it]                                                            7%|▋         | 6520/100000 [3:56:44<50:34:19,  1.95s/it]  7%|▋         | 6521/100000 [3:56:45<47:05:37,  1.81s/it]                                                            7%|▋         | 6521/100000 [3:56:45<47:05:37,  1.81s/it]  7%|▋         | 6522/100000 [3:56:47<43:57:20,  1.69s/it]                                                            7%|▋         | 6522/100000 [3:56:47<43:57:20,  1.69s/it]  7%|▋         | 6523/100000 [3:56:48<41:25:47,  1.60s/it]                                                            7%|▋         | 6523/100000 [3:56:48<41:25:47,  1.60s/it]  7%|▋         | 6524/100000 [3:56:49<39:09:39,  1.51s/it]                                                            7%|▋         | 6524/100000 [3:56:49<39:09:39,  1.51s/it]  7%|▋         | 6525/100000 [3:56:51<37:20:11,  1.44s/it]                                                            7%|▋         | 6525/100000 [3:56:51<37:20:11,  1.44s/it]  7%|▋         | 6526/100000 [3:56:52<35:27:44,  1.37s/it]                                                            7%|▋         | 6526/100000 [3:56:52<35:27:44,  1.37s/it]  7%|▋         | 6527/100000 [3:56:53<33:28:52,  1.29s/it]                                                            7%|▋         | 6527/100000 [3:56:53<33:28:52,  1.29s/it]  7%|▋         | 6528/100000 [3:56:54<31:52:57,  1.23s/it]                                                            7%|▋         | 6528/100000 [3:56:54<31:52:57,  1.23s/it]  7%|▋         | 6529/100000 [3:56:55<30:07:15,  1.16s/it]                                                            7%|▋         | 6529/100000 [3:56:55<30:07:15,  1.16s/it]  7%|▋         | 6530/100000 [3:56:56<28:39:58,  1.10s/it]                                                            7%|▋         | 6530/100000 [3:56:56<28:39:58,  1.10s/it]  7%|▋         | 6531/100000 [3:56:57<27:20:37,  1.05s/it]                                                            7%|▋         | 6531/100000 [3:56:57<27:20:37,  1.05s/it]  7%|▋         | 6532/100000 [3:56:58<26:17:48,  1.01s/it]                                                            7%|▋         | 6532/100000 [3:56:58<26:17:48,  1.01s/it]  7%|▋         | 6533/100000 [3:56:59<25:40:39,  1.01it/s]                                                            7%|▋         | 6533/100000 [3:56:59<25:40:39,  1.01it/s]  7%|▋         | 6534/100000 [3:57:00<25:06:39,  1.03it/s]                                                            7%|▋         | 6534/100000 [3:57:00<25:06:39,  1.03it/s]  7%|▋         | 6535/100000 [3:57:01<24:16:27,  1.07it/s]                                                            7%|▋         | 6535/100000 [3:57:01<24:16:27,  1.07it/s]  7%|▋         | 6536/100000 [3:57:01<23:20:12,  1.11it/s]                                                            7%|▋         | 6536/100000 [3:57:01<23:20:12,  1.11it/s]  7%|▋         | 6537/100000 [3:57:02<23:10:05,  1.12it/s]                                                            7%|▋         | 6537/100000 [3:57:02<23:10:05,  1.12it/s]  7%|▋         | 6538/100000 [3:57:03<22:27:22,  1.16it/s]                                                            7%|▋         | 6538/100000 [3:57:03<22:27:22,  1.16it/s]  7%|▋         | 6539/100000 [3:57:04<21:48:19,  1.19it/s]                                                            7%|▋         | 6539/100000 [3:57:04<21:48:19,  1.19it/s]  7%|▋         | 6540/100000 [3:57:05<21:27:12,  1.21it/s]                                                            7%|▋         | 6540/100000 [3:57:05<21:27:12,  1.21it/s]  7%|▋         | 6541/100000 [3:57:06<21:28:14,  1.21it/s]                                                            7%|▋         | 6541/100000 [3:57:06<21:28:14,  1.21it/s]  7%|▋         | 6542/100000 [3:57:06<20:31:21,  1.26it/s]                                                            7%|▋         | 6542/100000 [3:57:06<20:31:21,  1.26it/s]  7%|▋         | 6543/100000 [3:57:07<19:45:41,  1.31it/s]                                                            7%|▋         | 6543/100000 [3:57:07<19:45:41,  1.31it/s]  7%|▋         | 6544/100000 [3:57:08<18:58:14,  1.37it/s]                                                            7%|▋         | 6544/100000 [3:57:08<18:58:14,  1.37it/s]  7%|▋         | 6545/100000 [3:57:21<116:09:18,  4.47s/it]                                                             7%|▋         | 6545/100000 [3:57:21<116:09:18,  4.47s/it]  7%|▋         | 6546/100000 [3:57:29<144:27:21,  5.56s/it]                                                             7%|▋         | 6546/100000 [3:57:29<144:27:21,  5.56s/it]  7%|▋         | 6547/100000 [3:57:35<144:45:21,  5.58s/it]                                                             7%|▋         | 6547/100000 [3:57:35<144:45:21,  5.58s/it]  7%|▋         | 6548/100000 [3:57:39<136:06:10,  5.24s/it]                                                             7%|▋         | 6548/100000 [3:57:39<136:06:10,  5.24s/it]  7%|▋         | 6549/100000 [3:57:43<127:31:25,  4.91s/it]                                                             7%|▋         | 6549/100000 [3:57:43<127:31:25,  4.91s/it]  7%|▋         | 6550/100000 [3:57:47<117:08:46,  4.51s/it]                                                             7%|▋         | 6550/100000 [3:57:47<117:08:46,  4.51s/it]  7%|▋         | 6551/100000 [3:57:50<105:28:09,  4.06s/it]                                                             7%|▋         | 6551/100000 [3:57:50<105:28:09,  4.06s/it]  7%|▋         | 6552/100000 [3:57:52<94:36:33,  3.64s/it]                                                           {'loss': 0.1653, 'grad_norm': 0.7115846872329712, 'learning_rate': 1.9395e-05, 'epoch': 42.01}
{'loss': 0.1136, 'grad_norm': 0.625372052192688, 'learning_rate': 1.9398e-05, 'epoch': 42.01}
{'loss': 0.0947, 'grad_norm': 0.5794596076011658, 'learning_rate': 1.9401000000000003e-05, 'epoch': 42.02}
{'loss': 0.0802, 'grad_norm': 0.5596446990966797, 'learning_rate': 1.9404000000000003e-05, 'epoch': 42.03}
{'loss': 0.0757, 'grad_norm': 0.5795884728431702, 'learning_rate': 1.9407000000000002e-05, 'epoch': 42.03}
{'loss': 0.0648, 'grad_norm': 0.6883950233459473, 'learning_rate': 1.9410000000000002e-05, 'epoch': 42.04}
{'loss': 0.0522, 'grad_norm': 0.6582047343254089, 'learning_rate': 1.9413000000000002e-05, 'epoch': 42.05}
{'loss': 0.0613, 'grad_norm': 0.5836002230644226, 'learning_rate': 1.9416000000000002e-05, 'epoch': 42.05}
{'loss': 0.0388, 'grad_norm': 0.5479675531387329, 'learning_rate': 1.9419e-05, 'epoch': 42.06}
{'loss': 0.0418, 'grad_norm': 0.6543635725975037, 'learning_rate': 1.9422e-05, 'epoch': 42.06}
{'loss': 0.0393, 'grad_norm': 0.5936154127120972, 'learning_rate': 1.9424999999999998e-05, 'epoch': 42.07}
{'loss': 0.0415, 'grad_norm': 0.5232976675033569, 'learning_rate': 1.9427999999999998e-05, 'epoch': 42.08}
{'loss': 0.0394, 'grad_norm': 0.807671844959259, 'learning_rate': 1.9431e-05, 'epoch': 42.08}
{'loss': 0.0351, 'grad_norm': 0.6888717412948608, 'learning_rate': 1.9434e-05, 'epoch': 42.09}
{'loss': 0.025, 'grad_norm': 0.5413336157798767, 'learning_rate': 1.9437e-05, 'epoch': 42.1}
{'loss': 0.0328, 'grad_norm': 0.7684804797172546, 'learning_rate': 1.944e-05, 'epoch': 42.1}
{'loss': 0.0294, 'grad_norm': 0.6724046468734741, 'learning_rate': 1.9443e-05, 'epoch': 42.11}
{'loss': 0.0495, 'grad_norm': 0.8081504106521606, 'learning_rate': 1.9446e-05, 'epoch': 42.12}
{'loss': 0.0269, 'grad_norm': 0.8486129641532898, 'learning_rate': 1.9449e-05, 'epoch': 42.12}
{'loss': 0.0268, 'grad_norm': 0.776893138885498, 'learning_rate': 1.9452e-05, 'epoch': 42.13}
{'loss': 0.0179, 'grad_norm': 0.8335561156272888, 'learning_rate': 1.9455e-05, 'epoch': 42.14}
{'loss': 0.0248, 'grad_norm': 0.620692253112793, 'learning_rate': 1.9458e-05, 'epoch': 42.14}
{'loss': 0.0157, 'grad_norm': 0.6689258813858032, 'learning_rate': 1.9461000000000002e-05, 'epoch': 42.15}
{'loss': 0.0191, 'grad_norm': 1.1803497076034546, 'learning_rate': 1.9464000000000002e-05, 'epoch': 42.16}
{'loss': 0.0233, 'grad_norm': 0.6771017909049988, 'learning_rate': 1.9467000000000002e-05, 'epoch': 42.16}
{'loss': 0.0185, 'grad_norm': 0.8736618161201477, 'learning_rate': 1.947e-05, 'epoch': 42.17}
{'loss': 0.0223, 'grad_norm': 0.9915840029716492, 'learning_rate': 1.9473e-05, 'epoch': 42.18}
{'loss': 0.018, 'grad_norm': 1.4043320417404175, 'learning_rate': 1.9476e-05, 'epoch': 42.18}
{'loss': 0.1208, 'grad_norm': 1.864554762840271, 'learning_rate': 1.9479e-05, 'epoch': 42.19}
{'loss': 0.0164, 'grad_norm': 0.6943219304084778, 'learning_rate': 1.9482e-05, 'epoch': 42.19}
{'loss': 0.0239, 'grad_norm': 0.837921142578125, 'learning_rate': 1.9485e-05, 'epoch': 42.2}
{'loss': 0.0164, 'grad_norm': 1.0157181024551392, 'learning_rate': 1.9488e-05, 'epoch': 42.21}
{'loss': 0.0105, 'grad_norm': 0.6435731649398804, 'learning_rate': 1.9491000000000004e-05, 'epoch': 42.21}
{'loss': 0.0109, 'grad_norm': 0.8011875748634338, 'learning_rate': 1.9494000000000003e-05, 'epoch': 42.22}
{'loss': 0.0169, 'grad_norm': 1.9761755466461182, 'learning_rate': 1.9497e-05, 'epoch': 42.23}
{'loss': 0.0549, 'grad_norm': 1.9618957042694092, 'learning_rate': 1.95e-05, 'epoch': 42.23}
{'loss': 0.0188, 'grad_norm': 0.760688304901123, 'learning_rate': 1.9503e-05, 'epoch': 42.24}
{'loss': 0.0256, 'grad_norm': 2.1987669467926025, 'learning_rate': 1.9506e-05, 'epoch': 42.25}
{'loss': 0.1755, 'grad_norm': 3.3889272212982178, 'learning_rate': 1.9509e-05, 'epoch': 42.25}
{'loss': 0.1, 'grad_norm': 0.6537994742393494, 'learning_rate': 1.9512e-05, 'epoch': 42.26}
{'loss': 0.0969, 'grad_norm': 0.895270049571991, 'learning_rate': 1.9515e-05, 'epoch': 42.27}
{'loss': 0.075, 'grad_norm': 0.6331336498260498, 'learning_rate': 1.9518e-05, 'epoch': 42.27}
{'loss': 0.0596, 'grad_norm': 0.5491575002670288, 'learning_rate': 1.9520999999999998e-05, 'epoch': 42.28}
{'loss': 0.0517, 'grad_norm': 0.48980090022087097, 'learning_rate': 1.9524e-05, 'epoch': 42.29}
{'loss': 0.0557, 'grad_norm': 0.5542644262313843, 'learning_rate': 1.9527e-05, 'epoch': 42.29}
{'loss': 0.0461, 'grad_norm': 0.5950270295143127, 'learning_rate': 1.953e-05, 'epoch': 42.3}
{'loss': 0.0483, 'grad_norm': 0.5332586765289307, 'learning_rate': 1.9533e-05, 'epoch': 42.31}
{'loss': 0.0536, 'grad_norm': 0.8017160296440125, 'learning_rate': 1.9536e-05, 'epoch': 42.31}
{'loss': 0.0458, 'grad_norm': 0.9528058171272278, 'learning_rate': 1.9539e-05, 'epoch': 42.32}
{'loss': 0.0423, 'grad_norm': 0.6590191125869751, 'learning_rate': 1.9542e-05, 'epoch': 42.32}
{'loss': 0.0339, 'grad_norm': 0.6791760921478271, 'learning_rate': 1.9545e-05, 'epoch': 42.33}
{'loss': 0.0338, 'grad_norm': 0.5785344839096069, 'learning_rate': 1.9548e-05, 'epoch': 42.34}
{'loss': 0.021, 'grad_norm': 0.5965824127197266, 'learning_rate': 1.9551e-05, 'epoch': 42.34}
{'loss': 0.0255, 'grad_norm': 0.7356664538383484, 'learning_rate': 1.9554000000000003e-05, 'epoch': 42.35}
{'loss': 0.0262, 'grad_norm': 0.7111058235168457, 'learning_rate': 1.9557000000000003e-05, 'epoch': 42.36}
{'loss': 0.02, 'grad_norm': 0.7918907403945923, 'learning_rate': 1.9560000000000002e-05, 'epoch': 42.36}
{'loss': 0.0287, 'grad_norm': 0.9153908491134644, 'learning_rate': 1.9563000000000002e-05, 'epoch': 42.37}
{'loss': 0.0313, 'grad_norm': 0.9852260947227478, 'learning_rate': 1.9566000000000002e-05, 'epoch': 42.38}
{'loss': 0.0185, 'grad_norm': 0.7899075746536255, 'learning_rate': 1.9569000000000002e-05, 'epoch': 42.38}
{'loss': 0.0191, 'grad_norm': 0.5835033655166626, 'learning_rate': 1.9571999999999998e-05, 'epoch': 42.39}
{'loss': 0.0213, 'grad_norm': 1.0863183736801147, 'learning_rate': 1.9574999999999998e-05, 'epoch': 42.4}
{'loss': 0.0177, 'grad_norm': 0.6796407103538513, 'learning_rate': 1.9577999999999998e-05, 'epoch': 42.4}
{'loss': 0.0278, 'grad_norm': 1.0266368389129639, 'learning_rate': 1.9580999999999998e-05, 'epoch': 42.41}
{'loss': 0.0144, 'grad_norm': 0.6750860214233398, 'learning_rate': 1.9584e-05, 'epoch': 42.42}
{'loss': 0.0277, 'grad_norm': 1.057716965675354, 'learning_rate': 1.9587e-05, 'epoch': 42.42}
{'loss': 0.0162, 'grad_norm': 1.2355356216430664, 'learning_rate': 1.959e-05, 'epoch': 42.43}
{'loss': 0.0163, 'grad_norm': 0.9510194063186646, 'learning_rate': 1.9593e-05, 'epoch': 42.44}
{'loss': 0.0255, 'grad_norm': 1.085869312286377, 'learning_rate': 1.9596e-05, 'epoch': 42.44}
{'loss': 0.018, 'grad_norm': 0.8415030837059021, 'learning_rate': 1.9599e-05, 'epoch': 42.45}
{'loss': 0.0267, 'grad_norm': 1.0171529054641724, 'learning_rate': 1.9602e-05, 'epoch': 42.45}
{'loss': 0.0097, 'grad_norm': 0.8718962669372559, 'learning_rate': 1.9605e-05, 'epoch': 42.46}
{'loss': 0.0318, 'grad_norm': 1.271035075187683, 'learning_rate': 1.9608e-05, 'epoch': 42.47}
{'loss': 0.0199, 'grad_norm': 1.2632126808166504, 'learning_rate': 1.9611e-05, 'epoch': 42.47}
{'loss': 0.0196, 'grad_norm': 1.5094572305679321, 'learning_rate': 1.9614000000000002e-05, 'epoch': 42.48}
{'loss': 0.0429, 'grad_norm': 1.8116881847381592, 'learning_rate': 1.9617000000000002e-05, 'epoch': 42.49}
{'loss': 0.0333, 'grad_norm': 1.5700929164886475, 'learning_rate': 1.9620000000000002e-05, 'epoch': 42.49}
{'loss': 0.1918, 'grad_norm': 1.3508343696594238, 'learning_rate': 1.9623e-05, 'epoch': 42.5}
{'loss': 0.1531, 'grad_norm': 0.9859562516212463, 'learning_rate': 1.9626e-05, 'epoch': 42.51}
{'loss': 0.1289, 'grad_norm': 1.2594993114471436, 'learning_rate': 1.9629e-05, 'epoch': 42.51}
{'loss': 0.0931, 'grad_norm': 0.7296412587165833, 'learning_rate': 1.9632e-05, 'epoch': 42.52}
{'loss': 0.0928, 'grad_norm': 1.4138065576553345, 'learning_rate': 1.9635e-05, 'epoch': 42.53}
{'loss': 0.0828, 'grad_norm': 0.8780218362808228, 'learning_rate': 1.9638e-05, 'epoch': 42.53}
{'loss': 0.0762, 'grad_norm': 0.7061718702316284, 'learning_rate': 1.9641e-05, 'epoch': 42.54}
  7%|▋         | 6552/100000 [3:57:52<94:36:33,  3.64s/it]  7%|▋         | 6553/100000 [3:57:55<84:31:39,  3.26s/it]                                                            7%|▋         | 6553/100000 [3:57:55<84:31:39,  3.26s/it]  7%|▋         | 6554/100000 [3:57:57<75:46:31,  2.92s/it]                                                            7%|▋         | 6554/100000 [3:57:57<75:46:31,  2.92s/it]  7%|▋         | 6555/100000 [3:57:59<68:34:11,  2.64s/it]                                                            7%|▋         | 6555/100000 [3:57:59<68:34:11,  2.64s/it]  7%|▋         | 6556/100000 [3:58:01<62:22:09,  2.40s/it]                                                            7%|▋         | 6556/100000 [3:58:01<62:22:09,  2.40s/it]  7%|▋         | 6557/100000 [3:58:02<57:06:43,  2.20s/it]                                                            7%|▋         | 6557/100000 [3:58:02<57:06:43,  2.20s/it]  7%|▋         | 6558/100000 [3:58:04<52:34:39,  2.03s/it]                                                            7%|▋         | 6558/100000 [3:58:04<52:34:39,  2.03s/it]  7%|▋         | 6559/100000 [3:58:06<48:53:42,  1.88s/it]                                                            7%|▋         | 6559/100000 [3:58:06<48:53:42,  1.88s/it]  7%|▋         | 6560/100000 [3:58:07<45:41:28,  1.76s/it]                                                            7%|▋         | 6560/100000 [3:58:07<45:41:28,  1.76s/it]  7%|▋         | 6561/100000 [3:58:08<42:47:38,  1.65s/it]                                                            7%|▋         | 6561/100000 [3:58:08<42:47:38,  1.65s/it]  7%|▋         | 6562/100000 [3:58:10<40:19:19,  1.55s/it]                                                            7%|▋         | 6562/100000 [3:58:10<40:19:19,  1.55s/it]  7%|▋         | 6563/100000 [3:58:11<38:13:34,  1.47s/it]                                                            7%|▋         | 6563/100000 [3:58:11<38:13:34,  1.47s/it]  7%|▋         | 6564/100000 [3:58:12<36:22:40,  1.40s/it]                                                            7%|▋         | 6564/100000 [3:58:12<36:22:40,  1.40s/it]  7%|▋         | 6565/100000 [3:58:13<34:02:51,  1.31s/it]                                                            7%|▋         | 6565/100000 [3:58:13<34:02:51,  1.31s/it]  7%|▋         | 6566/100000 [3:58:15<32:24:42,  1.25s/it]                                                            7%|▋         | 6566/100000 [3:58:15<32:24:42,  1.25s/it]  7%|▋         | 6567/100000 [3:58:16<30:58:26,  1.19s/it]                                                            7%|▋         | 6567/100000 [3:58:16<30:58:26,  1.19s/it]  7%|▋         | 6568/100000 [3:58:17<29:47:26,  1.15s/it]                                                            7%|▋         | 6568/100000 [3:58:17<29:47:26,  1.15s/it]  7%|▋         | 6569/100000 [3:58:18<28:24:08,  1.09s/it]                                                            7%|▋         | 6569/100000 [3:58:18<28:24:08,  1.09s/it]  7%|▋         | 6570/100000 [3:58:19<27:34:23,  1.06s/it]                                                            7%|▋         | 6570/100000 [3:58:19<27:34:23,  1.06s/it]  7%|▋         | 6571/100000 [3:58:19<26:05:57,  1.01s/it]                                                            7%|▋         | 6571/100000 [3:58:19<26:05:57,  1.01s/it]  7%|▋         | 6572/100000 [3:58:20<25:14:52,  1.03it/s]                                                            7%|▋         | 6572/100000 [3:58:20<25:14:52,  1.03it/s]  7%|▋         | 6573/100000 [3:58:21<24:40:49,  1.05it/s]                                                            7%|▋         | 6573/100000 [3:58:21<24:40:49,  1.05it/s]  7%|▋         | 6574/100000 [3:58:22<24:40:46,  1.05it/s]                                                            7%|▋         | 6574/100000 [3:58:22<24:40:46,  1.05it/s]  7%|▋         | 6575/100000 [3:58:23<24:12:36,  1.07it/s]                                                            7%|▋         | 6575/100000 [3:58:23<24:12:36,  1.07it/s]  7%|▋         | 6576/100000 [3:58:24<23:24:19,  1.11it/s]                                                            7%|▋         | 6576/100000 [3:58:24<23:24:19,  1.11it/s]  7%|▋         | 6577/100000 [3:58:25<22:14:08,  1.17it/s]                                                            7%|▋         | 6577/100000 [3:58:25<22:14:08,  1.17it/s]  7%|▋         | 6578/100000 [3:58:26<21:52:04,  1.19it/s]                                                            7%|▋         | 6578/100000 [3:58:26<21:52:04,  1.19it/s]  7%|▋         | 6579/100000 [3:58:26<21:41:52,  1.20it/s]                                                            7%|▋         | 6579/100000 [3:58:26<21:41:52,  1.20it/s]  7%|▋         | 6580/100000 [3:58:27<21:20:07,  1.22it/s]                                                            7%|▋         | 6580/100000 [3:58:27<21:20:07,  1.22it/s]  7%|▋         | 6581/100000 [3:58:28<21:07:46,  1.23it/s]                                                            7%|▋         | 6581/100000 [3:58:28<21:07:46,  1.23it/s]  7%|▋         | 6582/100000 [3:58:29<20:16:45,  1.28it/s]                                                            7%|▋         | 6582/100000 [3:58:29<20:16:45,  1.28it/s]  7%|▋         | 6583/100000 [3:58:42<114:26:24,  4.41s/it]                                                             7%|▋         | 6583/100000 [3:58:42<114:26:24,  4.41s/it]  7%|▋         | 6584/100000 [3:58:49<141:12:55,  5.44s/it]                                                             7%|▋         | 6584/100000 [3:58:49<141:12:55,  5.44s/it]  7%|▋         | 6585/100000 [3:58:55<140:00:42,  5.40s/it]                                                             7%|▋         | 6585/100000 [3:58:55<140:00:42,  5.40s/it]  7%|▋         | 6586/100000 [3:58:59<134:12:12,  5.17s/it]                                                             7%|▋         | 6586/100000 [3:58:59<134:12:12,  5.17s/it]  7%|▋         | 6587/100000 [3:59:03<124:49:51,  4.81s/it]                                                             7%|▋         | 6587/100000 [3:59:03<124:49:51,  4.81s/it]  7%|▋         | 6588/100000 [3:59:07<113:42:45,  4.38s/it]                                                             7%|▋         | 6588/100000 [3:59:07<113:42:45,  4.38s/it]  7%|▋         | 6589/100000 [3:59:10<103:49:58,  4.00s/it]                                                             7%|▋         | 6589/100000 [3:59:10<103:49:58,  4.00s/it]  7%|▋         | 6590/100000 [3:59:12<93:20:11,  3.60s/it]                                                             7%|▋         | 6590/100000 [3:59:12<93:20:11,  3.60s/it]  7%|▋         | 6591/100000 [3:59:15<83:28:10,  3.22s/it]                                                            7%|▋         | 6591/100000 [3:59:15<83:28:10,  3.22s/it]  7%|▋         | 6592/100000 [3:59:17<74:59:37,  2.89s/it]                                                            7%|▋         | 6592/100000 [3:59:17<74:59:37,  2.89s/it]  7%|▋         | 6593/100000 [3:59:19<68:01:40,  2.62s/it]                                                            7%|▋         | 6593/100000 [3:59:19<68:01:40,  2.62s/it]  7%|▋         | 6594/100000 [3:59:21<62:00:17,  2.39s/it]                                                            7%|▋         | 6594/100000 [3:59:21<62:00:17,  2.39s/it]  7%|▋         | 6595/100000 [3:59:22<56:50:12,  2.19s/it]                                                            7%|▋         | 6595/100000 [3:59:22<56:50:12,  2.19s/it]  7%|▋         | 6596/100000 [3:59:24<52:27:04,  2.02s/it]                                                            7%|▋         | 6596/100000 [3:59:24<52:27:04,  2.02s/it]  7%|▋         | 6597/100000 [3:59:26<48:55:16,  1.89s/it]                                                            7%|▋         | 6597/100000 [3:59:26<48:55:16,  1.89s/it]  7%|▋         | 6598/100000 [3:59:27<45:37:23,  1.76s/it]                                                            7%|▋         | 6598/100000 [3:59:27<45:37:23,  1.76s/it]  7%|▋         | 6599/100000 [3:59:28<42:36:21,  1.64s/it]                                                            7%|▋         | 6599/100000 [3:59:28<42:36:21,  1.64s/it]  7%|▋         | 6600/100000 [3:59:30<40:18:08,  1.55s/it]                                                            7%|▋         | 6600/100000 [3:59:30<40:18:08,  1.55s/it]  7%|▋         | 6601/100000 [3:59:31<38:04:24,  1.47s/it]                                                            7%|▋         | 6601/100000 [3:59:31<38:04:24,  1.47s/it]  7%|▋         | 6602/100000 [3:59:32<36:22:57,  1.40s/it]                                                            7%|▋         | 6602/100000 [3:59:32<36:22:57,  1.40s/it]  7%|▋         | 6603/100000 [3:59:34<34:36:48,  1.33s/it]                                                            7%|▋         | 6603/100000 [3:59:34<34:36:48,  1.33s/it]  7%|▋         | 6604/100000 [3:59:35<32:56:42,  1.27s/it]                                                            7%|▋         | 6604/100000 [3:59:35<32:56:42,  1.27s/it]  7%|▋         | 6605/100000 [3:59:36<31:28:40,  1.21s/it]                                                            7%|▋         | 6605/100000 [3:59:36<31:28:40,  1.21s/it]  7%|▋         | 6606/100000 [3:59:37<30:02:47,  1.16s/it]                                                            7%|▋         | 6606/100000 [3:59:37<30:02:47,  1.16s/it]  7%|▋         | 6607/100000 [3:59:38<28:47:05,  1.11s/it]                                                            7%|▋         | 6607/100000 [3:59:38<28:47:05,  1.11s/it]  7%|▋         | 6608/100000 [3:59:39<27:44:46,  1.07s/it]                                                            7%|▋         | 6608/100000 [3:59:39<27:44:46,  1.07s/it]  7%|▋         | 6609/100000 [3:59:40<27:04:01,  1.04s/it]                                                            7%|▋         | 6609/100000 [3:59:40<27:04:01,  1.04s/it]  7%|▋         | 6610/100000 [3:59:41<26:07:04,  1.01s/it]                                                            7%|▋         | 6610/100000 [3:59:41<26:07:04,  1.01s/it]  7%|▋         | 6611/100000 [3:59:42<25:14:52,  1.03it/s]                                                            7%|▋         | 6611/100000 [3:59:42<25:14:52,  1.03it/s]  7%|▋         | 6612/100000 [3:59:42<24:31:59,  1.06it/s]                                                            7%|▋         | 6612/100000 [3:59:42<24:31:59,  1.06it/s]  7%|▋         | 6613/100000 [3:59:43<23:48:49,  1.09it/s]                                                            7%|▋         | 6613/100000 [3:59:43<23:48:49,  1.09it/s]  7%|▋         | 6614/100000 [3:59:44<23:16:35,  1.11it/s]                                                            7%|▋         | 6614/100000 [3:59:44<23:16:35,  1.11it/s]  7%|▋         | 6615/100000 [3:59:45<22:28:11,  1.15it/s]                                                            7%|▋         | 6615/100000 [3:59:45<22:28:11,  1.15it/s]  7%|▋         | 6616/100000 [3:59:46<21:49:36,  1.19it/s]                                                            7%|▋         | 6616/100000 [3:59:46<21:49:36,  1.19it/s]  7%|▋         | 6617/100000 [3:59:46<21:08:46,  1.23it/s]                                                            7%|▋         | 6617/100000 [3:59:46<21:08:46,  1.23it/s]  7%|▋         | 6618/100000 [3:59:47<20:26:57,  1.27it/s]                                                            7%|▋         | 6618/100000 [3:59:47<20:26:57,  1.27it/s]  7%|▋         | 6619/100000 [3:59:48<20:07:59,  1.29it/s]                                                            7%|▋         | 6619/100000 [3:59:48<20:07:59,  1.29it/s]  7%|▋         | 6620/100000 [3:59:49<19:40:45,  1.32it/s]                                                            7%|▋         | 6620/100000 [3:59:49<19:40:45,  1.32it/s]  7%|▋         | 6621/100000 [3:59:56<69:35:55,  2.68s/it]                                                            7%|▋         | 6621/100000 [3:59:56<69:35:55,  2.68s/it]  7%|▋         | 6622/100000 [3:59:57<59:47:38,  2.31s/it]                                                            7%|▋         | 6622/100000 [3:59:57<59:47:38,  2.31s/it]{'loss': 0.0643, 'grad_norm': 0.7243272066116333, 'learning_rate': 1.9644e-05, 'epoch': 42.55}
{'loss': 0.0816, 'grad_norm': 0.6411910057067871, 'learning_rate': 1.9647e-05, 'epoch': 42.55}
{'loss': 0.057, 'grad_norm': 0.7057309746742249, 'learning_rate': 1.965e-05, 'epoch': 42.56}
{'loss': 0.0342, 'grad_norm': 0.6163709163665771, 'learning_rate': 1.9653e-05, 'epoch': 42.56}
{'loss': 0.041, 'grad_norm': 0.7697005271911621, 'learning_rate': 1.9656e-05, 'epoch': 42.57}
{'loss': 0.0322, 'grad_norm': 0.5972934365272522, 'learning_rate': 1.9659e-05, 'epoch': 42.58}
{'loss': 0.028, 'grad_norm': 0.5983456373214722, 'learning_rate': 1.9662e-05, 'epoch': 42.58}
{'loss': 0.0406, 'grad_norm': 0.5383129715919495, 'learning_rate': 1.9665e-05, 'epoch': 42.59}
{'loss': 0.0288, 'grad_norm': 1.1059949398040771, 'learning_rate': 1.9668e-05, 'epoch': 42.6}
{'loss': 0.023, 'grad_norm': 0.7346503734588623, 'learning_rate': 1.9671e-05, 'epoch': 42.6}
{'loss': 0.0274, 'grad_norm': 0.5533797144889832, 'learning_rate': 1.9674000000000002e-05, 'epoch': 42.61}
{'loss': 0.0336, 'grad_norm': 0.8205274939537048, 'learning_rate': 1.9677e-05, 'epoch': 42.62}
{'loss': 0.0401, 'grad_norm': 1.735280990600586, 'learning_rate': 1.968e-05, 'epoch': 42.62}
{'loss': 0.0373, 'grad_norm': 0.8732119202613831, 'learning_rate': 1.9683e-05, 'epoch': 42.63}
{'loss': 0.0264, 'grad_norm': 1.4349204301834106, 'learning_rate': 1.9686e-05, 'epoch': 42.64}
{'loss': 0.0471, 'grad_norm': 0.8496891856193542, 'learning_rate': 1.9689e-05, 'epoch': 42.64}
{'loss': 0.0213, 'grad_norm': 1.145401120185852, 'learning_rate': 1.9692e-05, 'epoch': 42.65}
{'loss': 0.0124, 'grad_norm': 0.5889931321144104, 'learning_rate': 1.9695e-05, 'epoch': 42.66}
{'loss': 0.0145, 'grad_norm': 0.7977054715156555, 'learning_rate': 1.9698e-05, 'epoch': 42.66}
{'loss': 0.0328, 'grad_norm': 2.160313129425049, 'learning_rate': 1.9701e-05, 'epoch': 42.67}
{'loss': 0.0351, 'grad_norm': 1.133973240852356, 'learning_rate': 1.9704000000000003e-05, 'epoch': 42.68}
{'loss': 0.0894, 'grad_norm': 1.1727656126022339, 'learning_rate': 1.9707000000000003e-05, 'epoch': 42.68}
{'loss': 0.0219, 'grad_norm': 0.8001171350479126, 'learning_rate': 1.9710000000000003e-05, 'epoch': 42.69}
{'loss': 0.0837, 'grad_norm': 1.1992768049240112, 'learning_rate': 1.9713000000000003e-05, 'epoch': 42.69}
{'loss': 0.0071, 'grad_norm': 0.30815643072128296, 'learning_rate': 1.9716000000000002e-05, 'epoch': 42.7}
{'loss': 0.0166, 'grad_norm': 1.1636497974395752, 'learning_rate': 1.9719e-05, 'epoch': 42.71}
{'loss': 0.0182, 'grad_norm': 2.301999092102051, 'learning_rate': 1.9722e-05, 'epoch': 42.71}
{'loss': 0.0315, 'grad_norm': 1.5533865690231323, 'learning_rate': 1.9725e-05, 'epoch': 42.72}
{'loss': 0.0165, 'grad_norm': 1.0209742784500122, 'learning_rate': 1.9727999999999998e-05, 'epoch': 42.73}
{'loss': 0.0624, 'grad_norm': 5.265852928161621, 'learning_rate': 1.9730999999999998e-05, 'epoch': 42.73}
{'loss': 0.0277, 'grad_norm': 1.1908632516860962, 'learning_rate': 1.9734e-05, 'epoch': 42.74}
{'loss': 0.161, 'grad_norm': 0.9698712229728699, 'learning_rate': 1.9737e-05, 'epoch': 42.75}
{'loss': 0.1315, 'grad_norm': 0.8368573784828186, 'learning_rate': 1.974e-05, 'epoch': 42.75}
{'loss': 0.0939, 'grad_norm': 0.6770711541175842, 'learning_rate': 1.9743e-05, 'epoch': 42.76}
{'loss': 0.0954, 'grad_norm': 0.7102550268173218, 'learning_rate': 1.9746e-05, 'epoch': 42.77}
{'loss': 0.0853, 'grad_norm': 0.7236666083335876, 'learning_rate': 1.9749e-05, 'epoch': 42.77}
{'loss': 0.06, 'grad_norm': 0.5785136818885803, 'learning_rate': 1.9752e-05, 'epoch': 42.78}
{'loss': 0.0666, 'grad_norm': 0.735474169254303, 'learning_rate': 1.9755e-05, 'epoch': 42.79}
{'loss': 0.0536, 'grad_norm': 0.5951943397521973, 'learning_rate': 1.9758e-05, 'epoch': 42.79}
{'loss': 0.0567, 'grad_norm': 0.630668044090271, 'learning_rate': 1.9761e-05, 'epoch': 42.8}
{'loss': 0.0504, 'grad_norm': 0.5510284900665283, 'learning_rate': 1.9764000000000003e-05, 'epoch': 42.81}
{'loss': 0.04, 'grad_norm': 0.6580771207809448, 'learning_rate': 1.9767000000000002e-05, 'epoch': 42.81}
{'loss': 0.0385, 'grad_norm': 0.5022491812705994, 'learning_rate': 1.9770000000000002e-05, 'epoch': 42.82}
{'loss': 0.0452, 'grad_norm': 0.7973517179489136, 'learning_rate': 1.9773000000000002e-05, 'epoch': 42.82}
{'loss': 0.035, 'grad_norm': 0.44711005687713623, 'learning_rate': 1.9776000000000002e-05, 'epoch': 42.83}
{'loss': 0.0218, 'grad_norm': 0.47360751032829285, 'learning_rate': 1.9779e-05, 'epoch': 42.84}
{'loss': 0.0959, 'grad_norm': 0.9727458357810974, 'learning_rate': 1.9782e-05, 'epoch': 42.84}
{'loss': 0.0565, 'grad_norm': 0.8176020383834839, 'learning_rate': 1.9785e-05, 'epoch': 42.85}
{'loss': 0.0337, 'grad_norm': 0.852384626865387, 'learning_rate': 1.9788e-05, 'epoch': 42.86}
{'loss': 0.019, 'grad_norm': 0.5666680335998535, 'learning_rate': 1.9791e-05, 'epoch': 42.86}
{'loss': 0.0386, 'grad_norm': 0.9903863668441772, 'learning_rate': 1.9794e-05, 'epoch': 42.87}
{'loss': 0.0304, 'grad_norm': 0.9956037402153015, 'learning_rate': 1.9797e-05, 'epoch': 42.88}
{'loss': 0.0391, 'grad_norm': 1.0165350437164307, 'learning_rate': 1.98e-05, 'epoch': 42.88}
{'loss': 0.019, 'grad_norm': 0.8197529911994934, 'learning_rate': 1.9803e-05, 'epoch': 42.89}
{'loss': 0.0223, 'grad_norm': 1.0906776189804077, 'learning_rate': 1.9806e-05, 'epoch': 42.9}
{'loss': 0.0468, 'grad_norm': 0.8545072674751282, 'learning_rate': 1.9809e-05, 'epoch': 42.9}
{'loss': 0.0247, 'grad_norm': 1.0694924592971802, 'learning_rate': 1.9812e-05, 'epoch': 42.91}
{'loss': 0.0334, 'grad_norm': 1.2150664329528809, 'learning_rate': 1.9815e-05, 'epoch': 42.92}
{'loss': 0.0753, 'grad_norm': 0.978368878364563, 'learning_rate': 1.9818e-05, 'epoch': 42.92}
{'loss': 0.0175, 'grad_norm': 0.7317432761192322, 'learning_rate': 1.9821e-05, 'epoch': 42.93}
{'loss': 0.0286, 'grad_norm': 5.802969455718994, 'learning_rate': 1.9824000000000002e-05, 'epoch': 42.94}
{'loss': 0.0222, 'grad_norm': 0.7741077542304993, 'learning_rate': 1.9827000000000002e-05, 'epoch': 42.94}
{'loss': 0.0205, 'grad_norm': 2.645758867263794, 'learning_rate': 1.983e-05, 'epoch': 42.95}
{'loss': 0.0194, 'grad_norm': 1.2646591663360596, 'learning_rate': 1.9833e-05, 'epoch': 42.95}
{'loss': 0.0213, 'grad_norm': 2.171220302581787, 'learning_rate': 1.9836e-05, 'epoch': 42.96}
{'loss': 0.0118, 'grad_norm': 0.6583138108253479, 'learning_rate': 1.9839e-05, 'epoch': 42.97}
{'loss': 0.019, 'grad_norm': 1.9716551303863525, 'learning_rate': 1.9842e-05, 'epoch': 42.97}
{'loss': 0.0273, 'grad_norm': 0.9601061940193176, 'learning_rate': 1.9845e-05, 'epoch': 42.98}
{'loss': 0.0765, 'grad_norm': 1.75575590133667, 'learning_rate': 1.9848e-05, 'epoch': 42.99}
{'loss': 0.0513, 'grad_norm': 0.543293833732605, 'learning_rate': 1.9851e-05, 'epoch': 42.99}
{'loss': 0.0264, 'grad_norm': 1.119238257408142, 'learning_rate': 1.9854000000000003e-05, 'epoch': 43.0}
  7%|▋         | 6623/100000 [4:00:15<177:02:24,  6.83s/it]                                                             7%|▋         | 6623/100000 [4:00:15<177:02:24,  6.83s/it]  7%|▋         | 6624/100000 [4:00:23<185:51:40,  7.17s/it]                                                             7%|▋         | 6624/100000 [4:00:23<185:51:40,  7.17s/it]  7%|▋         | 6625/100000 [4:00:28<170:21:28,  6.57s/it]                                                             7%|▋         | 6625/100000 [4:00:28<170:21:28,  6.57s/it]  7%|▋         | 6626/100000 [4:00:32<154:41:20,  5.96s/it]                                                             7%|▋         | 6626/100000 [4:00:32<154:41:20,  5.96s/it]  7%|▋         | 6627/100000 [4:00:36<137:35:11,  5.30s/it]                                                             7%|▋         | 6627/100000 [4:00:36<137:35:11,  5.30s/it]  7%|▋         | 6628/100000 [4:00:40<124:09:12,  4.79s/it]                                                             7%|▋         | 6628/100000 [4:00:40<124:09:12,  4.79s/it]  7%|▋         | 6629/100000 [4:00:43<111:07:26,  4.28s/it]                                                             7%|▋         | 6629/100000 [4:00:43<111:07:26,  4.28s/it]  7%|▋         | 6630/100000 [4:00:45<98:06:40,  3.78s/it]                                                             7%|▋         | 6630/100000 [4:00:45<98:06:40,  3.78s/it]  7%|▋         | 6631/100000 [4:00:48<86:39:38,  3.34s/it]                                                            7%|▋         | 6631/100000 [4:00:48<86:39:38,  3.34s/it]  7%|▋         | 6632/100000 [4:00:50<77:13:37,  2.98s/it]                                                            7%|▋         | 6632/100000 [4:00:50<77:13:37,  2.98s/it]  7%|▋         | 6633/100000 [4:00:52<69:30:31,  2.68s/it]                                                            7%|▋         | 6633/100000 [4:00:52<69:30:31,  2.68s/it]  7%|▋         | 6634/100000 [4:00:54<62:43:35,  2.42s/it]                                                            7%|▋         | 6634/100000 [4:00:54<62:43:35,  2.42s/it]  7%|▋         | 6635/100000 [4:00:55<57:05:05,  2.20s/it]                                                            7%|▋         | 6635/100000 [4:00:55<57:05:05,  2.20s/it]  7%|▋         | 6636/100000 [4:00:57<52:25:24,  2.02s/it]                                                            7%|▋         | 6636/100000 [4:00:57<52:25:24,  2.02s/it]  7%|▋         | 6637/100000 [4:00:58<49:09:27,  1.90s/it]                                                            7%|▋         | 6637/100000 [4:00:58<49:09:27,  1.90s/it]  7%|▋         | 6638/100000 [4:01:00<46:01:43,  1.77s/it]                                                            7%|▋         | 6638/100000 [4:01:00<46:01:43,  1.77s/it]  7%|▋         | 6639/100000 [4:01:01<43:15:53,  1.67s/it]                                                            7%|▋         | 6639/100000 [4:01:01<43:15:53,  1.67s/it]  7%|▋         | 6640/100000 [4:01:03<40:59:12,  1.58s/it]                                                            7%|▋         | 6640/100000 [4:01:03<40:59:12,  1.58s/it]  7%|▋         | 6641/100000 [4:01:04<38:58:08,  1.50s/it]                                                            7%|▋         | 6641/100000 [4:01:04<38:58:08,  1.50s/it]  7%|▋         | 6642/100000 [4:01:05<36:59:26,  1.43s/it]                                                            7%|▋         | 6642/100000 [4:01:05<36:59:26,  1.43s/it]  7%|▋         | 6643/100000 [4:01:06<34:55:16,  1.35s/it]                                                            7%|▋         | 6643/100000 [4:01:06<34:55:16,  1.35s/it]  7%|▋         | 6644/100000 [4:01:08<32:58:59,  1.27s/it]                                                            7%|▋         | 6644/100000 [4:01:08<32:58:59,  1.27s/it]  7%|▋         | 6645/100000 [4:01:09<31:14:17,  1.20s/it]                                                            7%|▋         | 6645/100000 [4:01:09<31:14:17,  1.20s/it]  7%|▋         | 6646/100000 [4:01:10<29:47:34,  1.15s/it]                                                            7%|▋         | 6646/100000 [4:01:10<29:47:34,  1.15s/it]  7%|▋         | 6647/100000 [4:01:11<28:20:33,  1.09s/it]                                                            7%|▋         | 6647/100000 [4:01:11<28:20:33,  1.09s/it]  7%|▋         | 6648/100000 [4:01:12<27:19:04,  1.05s/it]                                                            7%|▋         | 6648/100000 [4:01:12<27:19:04,  1.05s/it]  7%|▋         | 6649/100000 [4:01:12<26:09:48,  1.01s/it]                                                            7%|▋         | 6649/100000 [4:01:12<26:09:48,  1.01s/it]  7%|▋         | 6650/100000 [4:01:13<25:03:48,  1.03it/s]                                                            7%|▋         | 6650/100000 [4:01:13<25:03:48,  1.03it/s]  7%|▋         | 6651/100000 [4:01:14<24:13:28,  1.07it/s]                                                            7%|▋         | 6651/100000 [4:01:14<24:13:28,  1.07it/s]  7%|▋         | 6652/100000 [4:01:15<23:24:09,  1.11it/s]                                                            7%|▋         | 6652/100000 [4:01:15<23:24:09,  1.11it/s]  7%|▋         | 6653/100000 [4:01:16<22:44:47,  1.14it/s]                                                            7%|▋         | 6653/100000 [4:01:16<22:44:47,  1.14it/s]  7%|▋         | 6654/100000 [4:01:17<22:05:14,  1.17it/s]                                                            7%|▋         | 6654/100000 [4:01:17<22:05:14,  1.17it/s]  7%|▋         | 6655/100000 [4:01:17<21:31:50,  1.20it/s]                                                            7%|▋         | 6655/100000 [4:01:17<21:31:50,  1.20it/s]  7%|▋         | 6656/100000 [4:01:18<20:46:55,  1.25it/s]                                                            7%|▋         | 6656/100000 [4:01:18<20:46:55,  1.25it/s]  7%|▋         | 6657/100000 [4:01:19<20:34:27,  1.26it/s]                                                            7%|▋         | 6657/100000 [4:01:19<20:34:27,  1.26it/s]  7%|▋         | 6658/100000 [4:01:20<19:46:05,  1.31it/s]                                                            7%|▋         | 6658/100000 [4:01:20<19:46:05,  1.31it/s]  7%|▋         | 6659/100000 [4:01:20<19:09:04,  1.35it/s]                                                            7%|▋         | 6659/100000 [4:01:20<19:09:04,  1.35it/s]  7%|▋         | 6660/100000 [4:01:21<18:06:04,  1.43it/s]                                                            7%|▋         | 6660/100000 [4:01:21<18:06:04,  1.43it/s]  7%|▋         | 6661/100000 [4:01:34<113:10:48,  4.37s/it]                                                             7%|▋         | 6661/100000 [4:01:34<113:10:48,  4.37s/it]  7%|▋         | 6662/100000 [4:01:42<142:59:15,  5.51s/it]                                                             7%|▋         | 6662/100000 [4:01:42<142:59:15,  5.51s/it]  7%|▋         | 6663/100000 [4:01:47<142:20:48,  5.49s/it]                                                             7%|▋         | 6663/100000 [4:01:47<142:20:48,  5.49s/it]  7%|▋         | 6664/100000 [4:01:52<136:51:34,  5.28s/it]                                                             7%|▋         | 6664/100000 [4:01:52<136:51:34,  5.28s/it]  7%|▋         | 6665/100000 [4:01:56<125:59:42,  4.86s/it]                                                             7%|▋         | 6665/100000 [4:01:56<125:59:42,  4.86s/it]  7%|▋         | 6666/100000 [4:02:00<116:05:35,  4.48s/it]                                                             7%|▋         | 6666/100000 [4:02:00<116:05:35,  4.48s/it]  7%|▋         | 6667/100000 [4:02:03<105:39:44,  4.08s/it]                                                             7%|▋         | 6667/100000 [4:02:03<105:39:44,  4.08s/it]  7%|▋         | 6668/100000 [4:02:05<94:17:01,  3.64s/it]                                                             7%|▋         | 6668/100000 [4:02:05<94:17:01,  3.64s/it]  7%|▋         | 6669/100000 [4:02:08<84:37:26,  3.26s/it]                                                            7%|▋         | 6669/100000 [4:02:08<84:37:26,  3.26s/it]  7%|▋         | 6670/100000 [4:02:10<76:28:01,  2.95s/it]                                                            7%|▋         | 6670/100000 [4:02:10<76:28:01,  2.95s/it]  7%|▋         | 6671/100000 [4:02:12<68:48:37,  2.65s/it]                                                            7%|▋         | 6671/100000 [4:02:12<68:48:37,  2.65s/it]  7%|▋         | 6672/100000 [4:02:14<63:02:03,  2.43s/it]                                                            7%|▋         | 6672/100000 [4:02:14<63:02:03,  2.43s/it]  7%|▋         | 6673/100000 [4:02:16<57:52:03,  2.23s/it]                                                            7%|▋         | 6673/100000 [4:02:16<57:52:03,  2.23s/it]  7%|▋         | 6674/100000 [4:02:17<53:14:20,  2.05s/it]                                                            7%|▋         | 6674/100000 [4:02:17<53:14:20,  2.05s/it]  7%|▋         | 6675/100000 [4:02:19<49:20:06,  1.90s/it]                                                            7%|▋         | 6675/100000 [4:02:19<49:20:06,  1.90s/it]  7%|▋         | 6676/100000 [4:02:20<45:42:30,  1.76s/it]                                                            7%|▋         | 6676/100000 [4:02:20<45:42:30,  1.76s/it]  7%|▋         | 6677/100000 [4:02:22<42:26:57,  1.64s/it]                                                            7%|▋         | 6677/100000 [4:02:22<42:26:57,  1.64s/it]  7%|▋         | 6678/100000 [4:02:23<39:49:39,  1.54s/it]                                                            7%|▋         | 6678/100000 [4:02:23<39:49:39,  1.54s/it]  7%|▋         | 6679/100000 [4:02:24<37:51:58,  1.46s/it]                                                            7%|▋         | 6679/100000 [4:02:24<37:51:58,  1.46s/it]  7%|▋         | 6680/100000 [4:02:25<35:56:37,  1.39s/it]                                                            7%|▋         | 6680/100000 [4:02:25<35:56:37,  1.39s/it]  7%|▋         | 6681/100000 [4:02:27<33:56:00,  1.31s/it]                                                            7%|▋         | 6681/100000 [4:02:27<33:56:00,  1.31s/it]  7%|▋         | 6682/100000 [4:02:28<32:17:59,  1.25s/it]                                                            7%|▋         | 6682/100000 [4:02:28<32:17:59,  1.25s/it]  7%|▋         | 6683/100000 [4:02:29<30:47:17,  1.19s/it]                                                            7%|▋         | 6683/100000 [4:02:29<30:47:17,  1.19s/it]  7%|▋         | 6684/100000 [4:02:30<29:30:46,  1.14s/it]                                                            7%|▋         | 6684/100000 [4:02:30<29:30:46,  1.14s/it]  7%|▋         | 6685/100000 [4:02:31<27:56:24,  1.08s/it]                                                            7%|▋         | 6685/100000 [4:02:31<27:56:24,  1.08s/it]  7%|▋         | 6686/100000 [4:02:32<27:04:44,  1.04s/it]                                                            7%|▋         | 6686/100000 [4:02:32<27:04:44,  1.04s/it]  7%|▋         | 6687/100000 [4:02:33<26:04:45,  1.01s/it]                                                            7%|▋         | 6687/100000 [4:02:33<26:04:45,  1.01s/it]  7%|▋         | 6688/100000 [4:02:34<25:21:25,  1.02it/s]                                                            7%|▋         | 6688/100000 [4:02:34<25:21:25,  1.02it/s]  7%|▋         | 6689/100000 [4:02:34<24:32:13,  1.06it/s]                                                            7%|▋         | 6689/100000 [4:02:34<24:32:13,  1.06it/s]  7%|▋         | 6690/100000 [4:02:35<23:13:12,  1.12it/s]                                                            7%|▋         | 6690/100000 [4:02:35<23:13:12,  1.12it/s]  7%|▋         | 6691/100000 [4:02:36<22:43:58,  1.14it/s]                                                            7%|▋         | 6691/100000 [4:02:36<22:43:58,  1.14it/s]  7%|▋         | 6692/100000 [4:02:37<21:54:02,  1.18it/s]                                                            7%|▋         | 6692/100000 [4:02:37<21:54:02,  1.18it/s]  7%|▋         | 6693/100000 [4:02:38<20:59:07,  1.24it/s]                                                            7%|▋         | 6693/100000 [4:02:38<20:59:07,  1.24it/s]  7%|▋         | 6694/100000 [4:02:38<20:27:54,  1.27it/s]                                                            7%|▋         | 6694/100000 [4:02:38<20:27:54,  1.27it/s]  7%|▋         | 6695/100000 [4:02:39<19:58:40,  1.30it/s]                                                            7%|▋         | 6695/100000 [4:02:39<19:58:40,  1.30it/s]  7%|▋         | 6696/100000 [4:02:40<20:24:17,  1.27it/s]                                                            7%|▋         | 6696/100000 [4:02:40<20:24:17,  1.27it/s]  7%|▋         | 6697/100000 [4:02:40<19:29:36,  1.33it/s]                                                            7%|▋         | 6697/100000 [4:02:40<19:29:36,  1.33it/s]  7%|▋         | 6698/100000 [4:02:41<19:34:05,  1.32it/s]                                                            7%|▋         | 6698/100000 [4:02:41<19:34:05,  1.32it/s]  7%|▋         | 6699/100000 [4:02:54<115:48:09,  4.47s/it]                                                             7%|▋         | 6699/100000 [4:02:54<115:48:09,  4.47s/it]  7%|▋         | 6700/100000 [4:03:02<140:00:38,  5.40s/it]                                                             7%|▋         | 6700/100000 [4:03:02<140:00:38,  5.40s/it]  7%|▋         | 6701/100000 [4:03:07<140:34:47,  5.42s/it]                                                             7%|▋         | 6701/100000 [4:03:07<140:34:47,  5.42s/it]  7%|▋         | 6702/100000 [4:03:12<133:07:24,  5.14s/it]                                                             7%|▋         | 6702/100000 [4:03:12<133:07:24,  5.14s/it]  7%|▋         | 6703/100000 [4:03:16<124:12:07,  4.79s/it]                                                             7%|▋         | 6703/100000 [4:03:16<124:12:07,  4.79s/it]  7%|▋         | 6704/100000 [4:03:19<113:54:49,  4.40s/it]                                                             7%|▋         | 6704/100000 [4:03:19<113:54:49,  4.40s/it]  7%|▋         | 6705/100000 [4:03:22<103:05:17,  3.98s/it]                                                             7%|▋         | 6705/100000 [4:03:22<103:05:17,  3.98s/it]  7%|▋         | 6706/100000 [4:03:25<92:54:24,  3.59s/it]                                                           {'loss': 0.1507, 'grad_norm': 0.8536932468414307, 'learning_rate': 1.9857000000000003e-05, 'epoch': 43.01}
{'loss': 0.0941, 'grad_norm': 0.5763986110687256, 'learning_rate': 1.9860000000000003e-05, 'epoch': 43.01}
{'loss': 0.0867, 'grad_norm': 0.5894725322723389, 'learning_rate': 1.9863000000000003e-05, 'epoch': 43.02}
{'loss': 0.0694, 'grad_norm': 0.6007189750671387, 'learning_rate': 1.9866e-05, 'epoch': 43.03}
{'loss': 0.09, 'grad_norm': 0.8063735365867615, 'learning_rate': 1.9869e-05, 'epoch': 43.03}
{'loss': 0.0427, 'grad_norm': 0.4954495131969452, 'learning_rate': 1.9872e-05, 'epoch': 43.04}
{'loss': 0.0478, 'grad_norm': 0.47901925444602966, 'learning_rate': 1.9875e-05, 'epoch': 43.05}
{'loss': 0.0408, 'grad_norm': 0.6285454034805298, 'learning_rate': 1.9878e-05, 'epoch': 43.05}
{'loss': 0.0423, 'grad_norm': 0.5881154537200928, 'learning_rate': 1.9880999999999998e-05, 'epoch': 43.06}
{'loss': 0.0408, 'grad_norm': 0.461198091506958, 'learning_rate': 1.9883999999999998e-05, 'epoch': 43.06}
{'loss': 0.03, 'grad_norm': 0.5579171776771545, 'learning_rate': 1.9887e-05, 'epoch': 43.07}
{'loss': 0.0351, 'grad_norm': 0.4776075780391693, 'learning_rate': 1.989e-05, 'epoch': 43.08}
{'loss': 0.033, 'grad_norm': 0.9016042947769165, 'learning_rate': 1.9893e-05, 'epoch': 43.08}
{'loss': 0.0338, 'grad_norm': 0.717063844203949, 'learning_rate': 1.9896e-05, 'epoch': 43.09}
{'loss': 0.0326, 'grad_norm': 0.6425835490226746, 'learning_rate': 1.9899e-05, 'epoch': 43.1}
{'loss': 0.0283, 'grad_norm': 0.7470777034759521, 'learning_rate': 1.9902e-05, 'epoch': 43.1}
{'loss': 0.0313, 'grad_norm': 0.7305102944374084, 'learning_rate': 1.9905e-05, 'epoch': 43.11}
{'loss': 0.0268, 'grad_norm': 1.3464910984039307, 'learning_rate': 1.9908e-05, 'epoch': 43.12}
{'loss': 0.0315, 'grad_norm': 1.4134026765823364, 'learning_rate': 1.9911e-05, 'epoch': 43.12}
{'loss': 0.0306, 'grad_norm': 0.7520797848701477, 'learning_rate': 1.9914e-05, 'epoch': 43.13}
{'loss': 0.0232, 'grad_norm': 0.633952260017395, 'learning_rate': 1.9917000000000003e-05, 'epoch': 43.14}
{'loss': 0.0318, 'grad_norm': 1.2602263689041138, 'learning_rate': 1.9920000000000002e-05, 'epoch': 43.14}
{'loss': 0.0228, 'grad_norm': 0.8980751037597656, 'learning_rate': 1.9923000000000002e-05, 'epoch': 43.15}
{'loss': 0.0168, 'grad_norm': 0.6122481822967529, 'learning_rate': 1.9926000000000002e-05, 'epoch': 43.16}
{'loss': 0.0266, 'grad_norm': 1.016008973121643, 'learning_rate': 1.9929000000000002e-05, 'epoch': 43.16}
{'loss': 0.0087, 'grad_norm': 0.5339874625205994, 'learning_rate': 1.9932e-05, 'epoch': 43.17}
{'loss': 0.029, 'grad_norm': 0.9480982422828674, 'learning_rate': 1.9935e-05, 'epoch': 43.18}
{'loss': 0.0138, 'grad_norm': 0.503567099571228, 'learning_rate': 1.9938e-05, 'epoch': 43.18}
{'loss': 0.0909, 'grad_norm': 1.1246542930603027, 'learning_rate': 1.9940999999999998e-05, 'epoch': 43.19}
{'loss': 0.0087, 'grad_norm': 0.46423888206481934, 'learning_rate': 1.9943999999999997e-05, 'epoch': 43.19}
{'loss': 0.012, 'grad_norm': 0.5923248529434204, 'learning_rate': 1.9947e-05, 'epoch': 43.2}
{'loss': 0.0286, 'grad_norm': 1.8598021268844604, 'learning_rate': 1.995e-05, 'epoch': 43.21}
{'loss': 0.0194, 'grad_norm': 0.7034642696380615, 'learning_rate': 1.9953e-05, 'epoch': 43.21}
{'loss': 0.0145, 'grad_norm': 1.21112859249115, 'learning_rate': 1.9956e-05, 'epoch': 43.22}
{'loss': 0.0253, 'grad_norm': 0.8840702176094055, 'learning_rate': 1.9959e-05, 'epoch': 43.23}
{'loss': 0.0235, 'grad_norm': 2.145944118499756, 'learning_rate': 1.9962e-05, 'epoch': 43.23}
{'loss': 0.006, 'grad_norm': 0.36061805486679077, 'learning_rate': 1.9965e-05, 'epoch': 43.24}
{'loss': 0.0677, 'grad_norm': 0.789935290813446, 'learning_rate': 1.9968e-05, 'epoch': 43.25}
{'loss': 0.1982, 'grad_norm': 1.1584972143173218, 'learning_rate': 1.9971e-05, 'epoch': 43.25}
{'loss': 0.129, 'grad_norm': 0.7903621196746826, 'learning_rate': 1.9974e-05, 'epoch': 43.26}
{'loss': 0.0809, 'grad_norm': 0.679814338684082, 'learning_rate': 1.9977000000000002e-05, 'epoch': 43.27}
{'loss': 0.1113, 'grad_norm': 0.736375629901886, 'learning_rate': 1.9980000000000002e-05, 'epoch': 43.27}
{'loss': 0.0797, 'grad_norm': 0.7990635633468628, 'learning_rate': 1.9983e-05, 'epoch': 43.28}
{'loss': 0.0608, 'grad_norm': 0.7091905474662781, 'learning_rate': 1.9986e-05, 'epoch': 43.29}
{'loss': 0.0698, 'grad_norm': 0.5322083830833435, 'learning_rate': 1.9989e-05, 'epoch': 43.29}
{'loss': 0.0547, 'grad_norm': 0.67546147108078, 'learning_rate': 1.9992e-05, 'epoch': 43.3}
{'loss': 0.0549, 'grad_norm': 0.6902977228164673, 'learning_rate': 1.9995e-05, 'epoch': 43.31}
{'loss': 0.0697, 'grad_norm': 0.7767776846885681, 'learning_rate': 1.9998e-05, 'epoch': 43.31}
{'loss': 0.0513, 'grad_norm': 0.6849920153617859, 'learning_rate': 2.0001e-05, 'epoch': 43.32}
{'loss': 0.0247, 'grad_norm': 0.5116387605667114, 'learning_rate': 2.0004e-05, 'epoch': 43.32}
{'loss': 0.0296, 'grad_norm': 0.4629683196544647, 'learning_rate': 2.0007000000000003e-05, 'epoch': 43.33}
{'loss': 0.0271, 'grad_norm': 0.5446616411209106, 'learning_rate': 2.0010000000000003e-05, 'epoch': 43.34}
{'loss': 0.0321, 'grad_norm': 0.6835734248161316, 'learning_rate': 2.0013e-05, 'epoch': 43.34}
{'loss': 0.0266, 'grad_norm': 0.5487874150276184, 'learning_rate': 2.0016e-05, 'epoch': 43.35}
{'loss': 0.0167, 'grad_norm': 0.4964075982570648, 'learning_rate': 2.0019e-05, 'epoch': 43.36}
{'loss': 0.0264, 'grad_norm': 0.8094862103462219, 'learning_rate': 2.0022e-05, 'epoch': 43.36}
{'loss': 0.0161, 'grad_norm': 0.9219251871109009, 'learning_rate': 2.0025e-05, 'epoch': 43.37}
{'loss': 0.0229, 'grad_norm': 0.5550127625465393, 'learning_rate': 2.0028e-05, 'epoch': 43.38}
{'loss': 0.0151, 'grad_norm': 0.6966792345046997, 'learning_rate': 2.0031e-05, 'epoch': 43.38}
{'loss': 0.024, 'grad_norm': 0.7104716300964355, 'learning_rate': 2.0033999999999998e-05, 'epoch': 43.39}
{'loss': 0.0093, 'grad_norm': 0.42424339056015015, 'learning_rate': 2.0037e-05, 'epoch': 43.4}
{'loss': 0.0251, 'grad_norm': 0.8822811841964722, 'learning_rate': 2.004e-05, 'epoch': 43.4}
{'loss': 0.0408, 'grad_norm': 0.6951886415481567, 'learning_rate': 2.0043e-05, 'epoch': 43.41}
{'loss': 0.0256, 'grad_norm': 1.413489580154419, 'learning_rate': 2.0046e-05, 'epoch': 43.42}
{'loss': 0.0207, 'grad_norm': 1.0629090070724487, 'learning_rate': 2.0049e-05, 'epoch': 43.42}
{'loss': 0.0274, 'grad_norm': 1.0763545036315918, 'learning_rate': 2.0052e-05, 'epoch': 43.43}
{'loss': 0.017, 'grad_norm': 1.2168141603469849, 'learning_rate': 2.0055e-05, 'epoch': 43.44}
{'loss': 0.0155, 'grad_norm': 0.863180935382843, 'learning_rate': 2.0058e-05, 'epoch': 43.44}
{'loss': 0.0165, 'grad_norm': 1.0472983121871948, 'learning_rate': 2.0061e-05, 'epoch': 43.45}
{'loss': 0.0196, 'grad_norm': 0.9193974733352661, 'learning_rate': 2.0064e-05, 'epoch': 43.45}
{'loss': 0.0133, 'grad_norm': 2.9573888778686523, 'learning_rate': 2.0067000000000003e-05, 'epoch': 43.46}
{'loss': 0.0101, 'grad_norm': 0.605743408203125, 'learning_rate': 2.0070000000000003e-05, 'epoch': 43.47}
{'loss': 0.0333, 'grad_norm': 1.38394033908844, 'learning_rate': 2.0073000000000002e-05, 'epoch': 43.47}
{'loss': 0.0876, 'grad_norm': 2.8775975704193115, 'learning_rate': 2.0076000000000002e-05, 'epoch': 43.48}
{'loss': 0.0183, 'grad_norm': 0.9769250750541687, 'learning_rate': 2.0079000000000002e-05, 'epoch': 43.49}
{'loss': 0.0139, 'grad_norm': 0.8758386969566345, 'learning_rate': 2.0082000000000002e-05, 'epoch': 43.49}
{'loss': 0.1531, 'grad_norm': 1.0780655145645142, 'learning_rate': 2.0085e-05, 'epoch': 43.5}
{'loss': 0.1288, 'grad_norm': 0.9533976912498474, 'learning_rate': 2.0087999999999998e-05, 'epoch': 43.51}
{'loss': 0.0843, 'grad_norm': 0.579148530960083, 'learning_rate': 2.0090999999999998e-05, 'epoch': 43.51}
{'loss': 0.07, 'grad_norm': 0.5864019393920898, 'learning_rate': 2.0093999999999998e-05, 'epoch': 43.52}
{'loss': 0.0622, 'grad_norm': 0.573232114315033, 'learning_rate': 2.0097e-05, 'epoch': 43.53}
{'loss': 0.0711, 'grad_norm': 1.0439647436141968, 'learning_rate': 2.01e-05, 'epoch': 43.53}
{'loss': 0.0511, 'grad_norm': 0.6591123938560486, 'learning_rate': 2.0103e-05, 'epoch': 43.54}
  7%|▋         | 6706/100000 [4:03:25<92:54:24,  3.59s/it]  7%|▋         | 6707/100000 [4:03:27<83:22:16,  3.22s/it]                                                            7%|▋         | 6707/100000 [4:03:27<83:22:16,  3.22s/it]  7%|▋         | 6708/100000 [4:03:29<74:51:37,  2.89s/it]                                                            7%|▋         | 6708/100000 [4:03:30<74:51:37,  2.89s/it]  7%|▋         | 6709/100000 [4:03:31<67:39:39,  2.61s/it]                                                            7%|▋         | 6709/100000 [4:03:31<67:39:39,  2.61s/it]  7%|▋         | 6710/100000 [4:03:33<61:32:51,  2.38s/it]                                                            7%|▋         | 6710/100000 [4:03:33<61:32:51,  2.38s/it]  7%|▋         | 6711/100000 [4:03:35<55:59:19,  2.16s/it]                                                            7%|▋         | 6711/100000 [4:03:35<55:59:19,  2.16s/it]  7%|▋         | 6712/100000 [4:03:37<51:36:26,  1.99s/it]                                                            7%|▋         | 6712/100000 [4:03:37<51:36:26,  1.99s/it]  7%|▋         | 6713/100000 [4:03:38<48:11:56,  1.86s/it]                                                            7%|▋         | 6713/100000 [4:03:38<48:11:56,  1.86s/it]  7%|▋         | 6714/100000 [4:03:40<45:06:01,  1.74s/it]                                                            7%|▋         | 6714/100000 [4:03:40<45:06:01,  1.74s/it]  7%|▋         | 6715/100000 [4:03:41<41:56:53,  1.62s/it]                                                            7%|▋         | 6715/100000 [4:03:41<41:56:53,  1.62s/it]  7%|▋         | 6716/100000 [4:03:42<39:56:53,  1.54s/it]                                                            7%|▋         | 6716/100000 [4:03:42<39:56:53,  1.54s/it]  7%|▋         | 6717/100000 [4:03:44<37:51:48,  1.46s/it]                                                            7%|▋         | 6717/100000 [4:03:44<37:51:48,  1.46s/it]  7%|▋         | 6718/100000 [4:03:45<35:53:42,  1.39s/it]                                                            7%|▋         | 6718/100000 [4:03:45<35:53:42,  1.39s/it]  7%|▋         | 6719/100000 [4:03:46<33:53:21,  1.31s/it]                                                            7%|▋         | 6719/100000 [4:03:46<33:53:21,  1.31s/it]  7%|▋         | 6720/100000 [4:03:47<32:15:03,  1.24s/it]                                                            7%|▋         | 6720/100000 [4:03:47<32:15:03,  1.24s/it]  7%|▋         | 6721/100000 [4:03:48<30:42:47,  1.19s/it]                                                            7%|▋         | 6721/100000 [4:03:48<30:42:47,  1.19s/it]  7%|▋         | 6722/100000 [4:03:49<29:21:51,  1.13s/it]                                                            7%|▋         | 6722/100000 [4:03:49<29:21:51,  1.13s/it]  7%|▋         | 6723/100000 [4:03:50<28:09:25,  1.09s/it]                                                            7%|▋         | 6723/100000 [4:03:50<28:09:25,  1.09s/it]  7%|▋         | 6724/100000 [4:03:51<27:01:27,  1.04s/it]                                                            7%|▋         | 6724/100000 [4:03:51<27:01:27,  1.04s/it]  7%|▋         | 6725/100000 [4:03:52<26:12:16,  1.01s/it]                                                            7%|▋         | 6725/100000 [4:03:52<26:12:16,  1.01s/it]  7%|▋         | 6726/100000 [4:03:53<24:51:00,  1.04it/s]                                                            7%|▋         | 6726/100000 [4:03:53<24:51:00,  1.04it/s]  7%|▋         | 6727/100000 [4:03:54<23:56:50,  1.08it/s]                                                            7%|▋         | 6727/100000 [4:03:54<23:56:50,  1.08it/s]  7%|▋         | 6728/100000 [4:03:54<23:22:13,  1.11it/s]                                                            7%|▋         | 6728/100000 [4:03:54<23:22:13,  1.11it/s]  7%|▋         | 6729/100000 [4:03:55<22:42:05,  1.14it/s]                                                            7%|▋         | 6729/100000 [4:03:55<22:42:05,  1.14it/s]  7%|▋         | 6730/100000 [4:03:56<22:51:32,  1.13it/s]                                                            7%|▋         | 6730/100000 [4:03:56<22:51:32,  1.13it/s]  7%|▋         | 6731/100000 [4:03:57<21:43:12,  1.19it/s]                                                            7%|▋         | 6731/100000 [4:03:57<21:43:12,  1.19it/s]  7%|▋         | 6732/100000 [4:03:58<21:03:56,  1.23it/s]                                                            7%|▋         | 6732/100000 [4:03:58<21:03:56,  1.23it/s]  7%|▋         | 6733/100000 [4:03:58<20:57:01,  1.24it/s]                                                            7%|▋         | 6733/100000 [4:03:58<20:57:01,  1.24it/s]  7%|▋         | 6734/100000 [4:03:59<19:46:49,  1.31it/s]                                                            7%|▋         | 6734/100000 [4:03:59<19:46:49,  1.31it/s]  7%|▋         | 6735/100000 [4:04:00<19:51:00,  1.31it/s]                                                            7%|▋         | 6735/100000 [4:04:00<19:51:00,  1.31it/s]  7%|▋         | 6736/100000 [4:04:00<18:56:44,  1.37it/s]                                                            7%|▋         | 6736/100000 [4:04:00<18:56:44,  1.37it/s]  7%|▋         | 6737/100000 [4:04:12<103:26:46,  3.99s/it]                                                             7%|▋         | 6737/100000 [4:04:12<103:26:46,  3.99s/it]  7%|▋         | 6738/100000 [4:04:19<127:21:37,  4.92s/it]                                                             7%|▋         | 6738/100000 [4:04:19<127:21:37,  4.92s/it]  7%|▋         | 6739/100000 [4:04:24<129:46:53,  5.01s/it]                                                             7%|▋         | 6739/100000 [4:04:24<129:46:53,  5.01s/it]  7%|▋         | 6740/100000 [4:04:29<126:05:24,  4.87s/it]                                                             7%|▋         | 6740/100000 [4:04:29<126:05:24,  4.87s/it]  7%|▋         | 6741/100000 [4:04:33<117:12:23,  4.52s/it]                                                             7%|▋         | 6741/100000 [4:04:33<117:12:23,  4.52s/it]  7%|▋         | 6742/100000 [4:04:36<108:36:38,  4.19s/it]                                                             7%|▋         | 6742/100000 [4:04:36<108:36:38,  4.19s/it]  7%|▋         | 6743/100000 [4:04:39<99:15:34,  3.83s/it]                                                             7%|▋         | 6743/100000 [4:04:39<99:15:34,  3.83s/it]  7%|▋         | 6744/100000 [4:04:42<89:19:37,  3.45s/it]                                                            7%|▋         | 6744/100000 [4:04:42<89:19:37,  3.45s/it]  7%|▋         | 6745/100000 [4:04:44<80:23:39,  3.10s/it]                                                            7%|▋         | 6745/100000 [4:04:44<80:23:39,  3.10s/it]  7%|▋         | 6746/100000 [4:04:46<72:35:09,  2.80s/it]                                                            7%|▋         | 6746/100000 [4:04:46<72:35:09,  2.80s/it]  7%|▋         | 6747/100000 [4:04:48<65:53:55,  2.54s/it]                                                            7%|▋         | 6747/100000 [4:04:48<65:53:55,  2.54s/it]  7%|▋         | 6748/100000 [4:04:50<60:12:16,  2.32s/it]                                                            7%|▋         | 6748/100000 [4:04:50<60:12:16,  2.32s/it]  7%|▋         | 6749/100000 [4:04:51<55:35:55,  2.15s/it]                                                            7%|▋         | 6749/100000 [4:04:52<55:35:55,  2.15s/it]  7%|▋         | 6750/100000 [4:04:53<51:34:15,  1.99s/it]                                                            7%|▋         | 6750/100000 [4:04:53<51:34:15,  1.99s/it]  7%|▋         | 6751/100000 [4:04:55<48:08:13,  1.86s/it]                                                            7%|▋         | 6751/100000 [4:04:55<48:08:13,  1.86s/it]  7%|▋         | 6752/100000 [4:04:56<45:04:11,  1.74s/it]                                                            7%|▋         | 6752/100000 [4:04:56<45:04:11,  1.74s/it]  7%|▋         | 6753/100000 [4:04:58<42:28:57,  1.64s/it]                                                            7%|▋         | 6753/100000 [4:04:58<42:28:57,  1.64s/it]  7%|▋         | 6754/100000 [4:04:59<40:04:13,  1.55s/it]                                                            7%|▋         | 6754/100000 [4:04:59<40:04:13,  1.55s/it]  7%|▋         | 6755/100000 [4:05:00<37:57:33,  1.47s/it]                                                            7%|▋         | 6755/100000 [4:05:00<37:57:33,  1.47s/it]  7%|▋         | 6756/100000 [4:05:01<35:46:46,  1.38s/it]                                                            7%|▋         | 6756/100000 [4:05:01<35:46:46,  1.38s/it]  7%|▋         | 6757/100000 [4:05:02<33:36:27,  1.30s/it]                                                            7%|▋         | 6757/100000 [4:05:02<33:36:27,  1.30s/it]  7%|▋         | 6758/100000 [4:05:04<32:01:50,  1.24s/it]                                                            7%|▋         | 6758/100000 [4:05:04<32:01:50,  1.24s/it]  7%|▋         | 6759/100000 [4:05:05<30:32:32,  1.18s/it]                                                            7%|▋         | 6759/100000 [4:05:05<30:32:32,  1.18s/it]  7%|▋         | 6760/100000 [4:05:06<29:08:49,  1.13s/it]                                                            7%|▋         | 6760/100000 [4:05:06<29:08:49,  1.13s/it]  7%|▋         | 6761/100000 [4:05:06<27:31:46,  1.06s/it]                                                            7%|▋         | 6761/100000 [4:05:07<27:31:46,  1.06s/it]  7%|▋         | 6762/100000 [4:05:07<26:37:29,  1.03s/it]                                                            7%|▋         | 6762/100000 [4:05:07<26:37:29,  1.03s/it]  7%|▋         | 6763/100000 [4:05:08<25:33:25,  1.01it/s]                                                            7%|▋         | 6763/100000 [4:05:08<25:33:25,  1.01it/s]  7%|▋         | 6764/100000 [4:05:09<24:35:18,  1.05it/s]                                                            7%|▋         | 6764/100000 [4:05:09<24:35:18,  1.05it/s]  7%|▋         | 6765/100000 [4:05:10<24:42:55,  1.05it/s]                                                            7%|▋         | 6765/100000 [4:05:10<24:42:55,  1.05it/s]  7%|▋         | 6766/100000 [4:05:11<23:28:31,  1.10it/s]                                                            7%|▋         | 6766/100000 [4:05:11<23:28:31,  1.10it/s]  7%|▋         | 6767/100000 [4:05:12<22:43:37,  1.14it/s]                                                            7%|▋         | 6767/100000 [4:05:12<22:43:37,  1.14it/s]  7%|▋         | 6768/100000 [4:05:13<21:54:29,  1.18it/s]                                                            7%|▋         | 6768/100000 [4:05:13<21:54:29,  1.18it/s]  7%|▋         | 6769/100000 [4:05:13<20:51:47,  1.24it/s]                                                            7%|▋         | 6769/100000 [4:05:13<20:51:47,  1.24it/s]  7%|▋         | 6770/100000 [4:05:14<20:10:22,  1.28it/s]                                                            7%|▋         | 6770/100000 [4:05:14<20:10:22,  1.28it/s]  7%|▋         | 6771/100000 [4:05:15<19:36:47,  1.32it/s]                                                            7%|▋         | 6771/100000 [4:05:15<19:36:47,  1.32it/s]  7%|▋         | 6772/100000 [4:05:15<19:09:27,  1.35it/s]                                                            7%|▋         | 6772/100000 [4:05:15<19:09:27,  1.35it/s]  7%|▋         | 6773/100000 [4:05:16<18:48:00,  1.38it/s]                                                            7%|▋         | 6773/100000 [4:05:16<18:48:00,  1.38it/s]  7%|▋         | 6774/100000 [4:05:17<17:21:17,  1.49it/s]                                                            7%|▋         | 6774/100000 [4:05:17<17:21:17,  1.49it/s]  7%|▋         | 6775/100000 [4:05:24<67:43:35,  2.62s/it]                                                            7%|▋         | 6775/100000 [4:05:24<67:43:35,  2.62s/it]  7%|▋         | 6776/100000 [4:05:25<58:28:56,  2.26s/it]                                                            7%|▋         | 6776/100000 [4:05:25<58:28:56,  2.26s/it]{'loss': 0.0803, 'grad_norm': 5.936758995056152, 'learning_rate': 2.0106e-05, 'epoch': 43.55}
{'loss': 0.0542, 'grad_norm': 0.9425314664840698, 'learning_rate': 2.0109e-05, 'epoch': 43.55}
{'loss': 0.0481, 'grad_norm': 0.6922643184661865, 'learning_rate': 2.0112e-05, 'epoch': 43.56}
{'loss': 0.0494, 'grad_norm': 0.8949994444847107, 'learning_rate': 2.0115e-05, 'epoch': 43.56}
{'loss': 0.0435, 'grad_norm': 0.7823596596717834, 'learning_rate': 2.0118e-05, 'epoch': 43.57}
{'loss': 0.0417, 'grad_norm': 1.113901972770691, 'learning_rate': 2.0121e-05, 'epoch': 43.58}
{'loss': 0.0416, 'grad_norm': 0.7013765573501587, 'learning_rate': 2.0124e-05, 'epoch': 43.58}
{'loss': 0.0351, 'grad_norm': 0.5366150140762329, 'learning_rate': 2.0127000000000002e-05, 'epoch': 43.59}
{'loss': 0.0649, 'grad_norm': 0.6393283605575562, 'learning_rate': 2.0130000000000002e-05, 'epoch': 43.6}
{'loss': 0.027, 'grad_norm': 0.8745232224464417, 'learning_rate': 2.0133000000000002e-05, 'epoch': 43.6}
{'loss': 0.0382, 'grad_norm': 2.386652708053589, 'learning_rate': 2.0136e-05, 'epoch': 43.61}
{'loss': 0.0268, 'grad_norm': 1.020164132118225, 'learning_rate': 2.0139e-05, 'epoch': 43.62}
{'loss': 0.03, 'grad_norm': 0.6844817399978638, 'learning_rate': 2.0142e-05, 'epoch': 43.62}
{'loss': 0.0329, 'grad_norm': 3.6850407123565674, 'learning_rate': 2.0145e-05, 'epoch': 43.63}
{'loss': 0.0287, 'grad_norm': 1.34493887424469, 'learning_rate': 2.0148e-05, 'epoch': 43.64}
{'loss': 0.0547, 'grad_norm': 1.361106038093567, 'learning_rate': 2.0151e-05, 'epoch': 43.64}
{'loss': 0.018, 'grad_norm': 0.7698661684989929, 'learning_rate': 2.0154e-05, 'epoch': 43.65}
{'loss': 0.0121, 'grad_norm': 0.7271445393562317, 'learning_rate': 2.0157000000000004e-05, 'epoch': 43.66}
{'loss': 0.009, 'grad_norm': 0.8881511688232422, 'learning_rate': 2.016e-05, 'epoch': 43.66}
{'loss': 0.067, 'grad_norm': 1.1027848720550537, 'learning_rate': 2.0163e-05, 'epoch': 43.67}
{'loss': 0.0649, 'grad_norm': 0.8629711270332336, 'learning_rate': 2.0166e-05, 'epoch': 43.68}
{'loss': 0.0247, 'grad_norm': 0.796047031879425, 'learning_rate': 2.0169e-05, 'epoch': 43.68}
{'loss': 0.0318, 'grad_norm': 1.0627355575561523, 'learning_rate': 2.0172e-05, 'epoch': 43.69}
{'loss': 0.0678, 'grad_norm': 1.067792534828186, 'learning_rate': 2.0175e-05, 'epoch': 43.69}
{'loss': 0.0079, 'grad_norm': 0.6985580921173096, 'learning_rate': 2.0178e-05, 'epoch': 43.7}
{'loss': 0.0103, 'grad_norm': 0.6782317757606506, 'learning_rate': 2.0181e-05, 'epoch': 43.71}
{'loss': 0.0241, 'grad_norm': 1.1560430526733398, 'learning_rate': 2.0184e-05, 'epoch': 43.71}
{'loss': 0.0195, 'grad_norm': 0.8259967565536499, 'learning_rate': 2.0187000000000002e-05, 'epoch': 43.72}
{'loss': 0.0176, 'grad_norm': 1.2090576887130737, 'learning_rate': 2.019e-05, 'epoch': 43.73}
{'loss': 0.0151, 'grad_norm': 1.1534136533737183, 'learning_rate': 2.0193e-05, 'epoch': 43.73}
{'loss': 0.0219, 'grad_norm': 1.6660282611846924, 'learning_rate': 2.0196e-05, 'epoch': 43.74}
{'loss': 0.1664, 'grad_norm': 1.1956942081451416, 'learning_rate': 2.0199e-05, 'epoch': 43.75}
{'loss': 0.1031, 'grad_norm': 0.7355432510375977, 'learning_rate': 2.0202e-05, 'epoch': 43.75}
{'loss': 0.1177, 'grad_norm': 0.7005652785301208, 'learning_rate': 2.0205e-05, 'epoch': 43.76}
{'loss': 0.0669, 'grad_norm': 0.5232174396514893, 'learning_rate': 2.0208e-05, 'epoch': 43.77}
{'loss': 0.0691, 'grad_norm': 0.6860355734825134, 'learning_rate': 2.0211e-05, 'epoch': 43.77}
{'loss': 0.0754, 'grad_norm': 0.8188457489013672, 'learning_rate': 2.0214e-05, 'epoch': 43.78}
{'loss': 0.0672, 'grad_norm': 0.9107158780097961, 'learning_rate': 2.0217000000000003e-05, 'epoch': 43.79}
{'loss': 0.0596, 'grad_norm': 0.935087263584137, 'learning_rate': 2.0220000000000003e-05, 'epoch': 43.79}
{'loss': 0.067, 'grad_norm': 0.7188795804977417, 'learning_rate': 2.0223000000000003e-05, 'epoch': 43.8}
{'loss': 0.0424, 'grad_norm': 0.6583229899406433, 'learning_rate': 2.0226000000000003e-05, 'epoch': 43.81}
{'loss': 0.0501, 'grad_norm': 0.8135886788368225, 'learning_rate': 2.0229000000000002e-05, 'epoch': 43.81}
{'loss': 0.0385, 'grad_norm': 0.7132591605186462, 'learning_rate': 2.0232000000000002e-05, 'epoch': 43.82}
{'loss': 0.0443, 'grad_norm': 0.5882033109664917, 'learning_rate': 2.0235e-05, 'epoch': 43.82}
{'loss': 0.0444, 'grad_norm': 0.844528317451477, 'learning_rate': 2.0238e-05, 'epoch': 43.83}
{'loss': 0.0275, 'grad_norm': 1.1504744291305542, 'learning_rate': 2.0240999999999998e-05, 'epoch': 43.84}
{'loss': 0.0245, 'grad_norm': 0.5948688983917236, 'learning_rate': 2.0243999999999998e-05, 'epoch': 43.84}
{'loss': 0.0389, 'grad_norm': 0.6801788806915283, 'learning_rate': 2.0247e-05, 'epoch': 43.85}
{'loss': 0.0394, 'grad_norm': 1.067664623260498, 'learning_rate': 2.025e-05, 'epoch': 43.86}
{'loss': 0.0269, 'grad_norm': 0.6051676273345947, 'learning_rate': 2.0253e-05, 'epoch': 43.86}
{'loss': 0.0382, 'grad_norm': 0.8410778045654297, 'learning_rate': 2.0256e-05, 'epoch': 43.87}
{'loss': 0.018, 'grad_norm': 0.6053673624992371, 'learning_rate': 2.0259e-05, 'epoch': 43.88}
{'loss': 0.0251, 'grad_norm': 1.4013350009918213, 'learning_rate': 2.0262e-05, 'epoch': 43.88}
{'loss': 0.0241, 'grad_norm': 1.5055615901947021, 'learning_rate': 2.0265e-05, 'epoch': 43.89}
{'loss': 0.0205, 'grad_norm': 0.5915362238883972, 'learning_rate': 2.0268e-05, 'epoch': 43.9}
{'loss': 0.0252, 'grad_norm': 1.1965911388397217, 'learning_rate': 2.0271e-05, 'epoch': 43.9}
{'loss': 0.0284, 'grad_norm': 1.0777390003204346, 'learning_rate': 2.0274e-05, 'epoch': 43.91}
{'loss': 0.0173, 'grad_norm': 0.6692749857902527, 'learning_rate': 2.0277e-05, 'epoch': 43.92}
{'loss': 0.0696, 'grad_norm': 0.7948747277259827, 'learning_rate': 2.0280000000000002e-05, 'epoch': 43.92}
{'loss': 0.0337, 'grad_norm': 1.6137393712997437, 'learning_rate': 2.0283000000000002e-05, 'epoch': 43.93}
{'loss': 0.027, 'grad_norm': 1.4910895824432373, 'learning_rate': 2.0286000000000002e-05, 'epoch': 43.94}
{'loss': 0.0234, 'grad_norm': 0.969173014163971, 'learning_rate': 2.0289000000000002e-05, 'epoch': 43.94}
{'loss': 0.0621, 'grad_norm': 1.4501991271972656, 'learning_rate': 2.0292e-05, 'epoch': 43.95}
{'loss': 0.011, 'grad_norm': 0.6987743377685547, 'learning_rate': 2.0295e-05, 'epoch': 43.95}
{'loss': 0.0172, 'grad_norm': 0.7517117261886597, 'learning_rate': 2.0298e-05, 'epoch': 43.96}
{'loss': 0.028, 'grad_norm': 3.6783649921417236, 'learning_rate': 2.0301e-05, 'epoch': 43.97}
{'loss': 0.0384, 'grad_norm': 2.84503436088562, 'learning_rate': 2.0304e-05, 'epoch': 43.97}
{'loss': 0.0097, 'grad_norm': 0.6273069381713867, 'learning_rate': 2.0307e-05, 'epoch': 43.98}
{'loss': 0.0343, 'grad_norm': 1.3501383066177368, 'learning_rate': 2.031e-05, 'epoch': 43.99}
{'loss': 0.077, 'grad_norm': 0.8687573671340942, 'learning_rate': 2.0313e-05, 'epoch': 43.99}
{'loss': 0.0299, 'grad_norm': 1.428825855255127, 'learning_rate': 2.0316e-05, 'epoch': 44.0}
  7%|▋         | 6777/100000 [4:05:42<174:19:29,  6.73s/it]                                                             7%|▋         | 6777/100000 [4:05:42<174:19:29,  6.73s/it]  7%|▋         | 6778/100000 [4:05:51<185:25:56,  7.16s/it]                                                             7%|▋         | 6778/100000 [4:05:51<185:25:56,  7.16s/it]  7%|▋         | 6779/100000 [4:05:56<172:41:02,  6.67s/it]                                                             7%|▋         | 6779/100000 [4:05:56<172:41:02,  6.67s/it]  7%|▋         | 6780/100000 [4:06:01<155:37:52,  6.01s/it]                                                             7%|▋         | 6780/100000 [4:06:01<155:37:52,  6.01s/it]  7%|▋         | 6781/100000 [4:06:04<139:40:54,  5.39s/it]                                                             7%|▋         | 6781/100000 [4:06:04<139:40:54,  5.39s/it]  7%|▋         | 6782/100000 [4:06:08<123:00:58,  4.75s/it]                                                             7%|▋         | 6782/100000 [4:06:08<123:00:58,  4.75s/it]  7%|▋         | 6783/100000 [4:06:11<109:42:01,  4.24s/it]                                                             7%|▋         | 6783/100000 [4:06:11<109:42:01,  4.24s/it]  7%|▋         | 6784/100000 [4:06:13<97:43:18,  3.77s/it]                                                             7%|▋         | 6784/100000 [4:06:13<97:43:18,  3.77s/it]  7%|▋         | 6785/100000 [4:06:16<86:20:58,  3.33s/it]                                                            7%|▋         | 6785/100000 [4:06:16<86:20:58,  3.33s/it]  7%|▋         | 6786/100000 [4:06:18<77:08:14,  2.98s/it]                                                            7%|▋         | 6786/100000 [4:06:18<77:08:14,  2.98s/it]  7%|▋         | 6787/100000 [4:06:20<69:16:49,  2.68s/it]                                                            7%|▋         | 6787/100000 [4:06:20<69:16:49,  2.68s/it]  7%|▋         | 6788/100000 [4:06:22<62:36:08,  2.42s/it]                                                            7%|▋         | 6788/100000 [4:06:22<62:36:08,  2.42s/it]  7%|▋         | 6789/100000 [4:06:23<57:03:18,  2.20s/it]                                                            7%|▋         | 6789/100000 [4:06:23<57:03:18,  2.20s/it]  7%|▋         | 6790/100000 [4:06:25<52:32:23,  2.03s/it]                                                            7%|▋         | 6790/100000 [4:06:25<52:32:23,  2.03s/it]  7%|▋         | 6791/100000 [4:06:27<48:30:06,  1.87s/it]                                                            7%|▋         | 6791/100000 [4:06:27<48:30:06,  1.87s/it]  7%|▋         | 6792/100000 [4:06:28<45:12:30,  1.75s/it]                                                            7%|▋         | 6792/100000 [4:06:28<45:12:30,  1.75s/it]  7%|▋         | 6793/100000 [4:06:29<42:25:58,  1.64s/it]                                                            7%|▋         | 6793/100000 [4:06:29<42:25:58,  1.64s/it]  7%|▋         | 6794/100000 [4:06:31<39:57:23,  1.54s/it]                                                            7%|▋         | 6794/100000 [4:06:31<39:57:23,  1.54s/it]  7%|▋         | 6795/100000 [4:06:32<37:54:33,  1.46s/it]                                                            7%|▋         | 6795/100000 [4:06:32<37:54:33,  1.46s/it]  7%|▋         | 6796/100000 [4:06:33<36:04:35,  1.39s/it]                                                            7%|▋         | 6796/100000 [4:06:33<36:04:35,  1.39s/it]  7%|▋         | 6797/100000 [4:06:34<34:09:57,  1.32s/it]                                                            7%|▋         | 6797/100000 [4:06:34<34:09:57,  1.32s/it]  7%|▋         | 6798/100000 [4:06:35<32:32:11,  1.26s/it]                                                            7%|▋         | 6798/100000 [4:06:35<32:32:11,  1.26s/it]  7%|▋         | 6799/100000 [4:06:36<30:47:21,  1.19s/it]                                                            7%|▋         | 6799/100000 [4:06:36<30:47:21,  1.19s/it]  7%|▋         | 6800/100000 [4:06:37<29:16:21,  1.13s/it]                                                            7%|▋         | 6800/100000 [4:06:37<29:16:21,  1.13s/it]  7%|▋         | 6801/100000 [4:06:38<27:44:44,  1.07s/it]                                                            7%|▋         | 6801/100000 [4:06:38<27:44:44,  1.07s/it]  7%|▋         | 6802/100000 [4:06:39<26:53:24,  1.04s/it]                                                            7%|▋         | 6802/100000 [4:06:39<26:53:24,  1.04s/it]  7%|▋         | 6803/100000 [4:06:40<26:00:45,  1.00s/it]                                                            7%|▋         | 6803/100000 [4:06:40<26:00:45,  1.00s/it]  7%|▋         | 6804/100000 [4:06:41<24:46:35,  1.04it/s]                                                            7%|▋         | 6804/100000 [4:06:41<24:46:35,  1.04it/s]  7%|▋         | 6805/100000 [4:06:42<23:45:04,  1.09it/s]                                                            7%|▋         | 6805/100000 [4:06:42<23:45:04,  1.09it/s]  7%|▋         | 6806/100000 [4:06:43<23:23:06,  1.11it/s]                                                            7%|▋         | 6806/100000 [4:06:43<23:23:06,  1.11it/s]  7%|▋         | 6807/100000 [4:06:44<23:01:55,  1.12it/s]                                                            7%|▋         | 6807/100000 [4:06:44<23:01:55,  1.12it/s]  7%|▋         | 6808/100000 [4:06:45<22:38:07,  1.14it/s]                                                            7%|▋         | 6808/100000 [4:06:45<22:38:07,  1.14it/s]  7%|▋         | 6809/100000 [4:06:45<22:29:12,  1.15it/s]                                                            7%|▋         | 6809/100000 [4:06:45<22:29:12,  1.15it/s]  7%|▋         | 6810/100000 [4:06:46<21:29:30,  1.20it/s]                                                            7%|▋         | 6810/100000 [4:06:46<21:29:30,  1.20it/s]  7%|▋         | 6811/100000 [4:06:47<20:34:38,  1.26it/s]                                                            7%|▋         | 6811/100000 [4:06:47<20:34:38,  1.26it/s]  7%|▋         | 6812/100000 [4:06:47<19:28:30,  1.33it/s]                                                            7%|▋         | 6812/100000 [4:06:48<19:28:30,  1.33it/s]  7%|▋         | 6813/100000 [4:06:48<18:39:06,  1.39it/s]                                                            7%|▋         | 6813/100000 [4:06:48<18:39:06,  1.39it/s]  7%|▋         | 6814/100000 [4:06:49<18:24:09,  1.41it/s]                                                            7%|▋         | 6814/100000 [4:06:49<18:24:09,  1.41it/s]  7%|▋         | 6815/100000 [4:07:02<115:37:22,  4.47s/it]                                                             7%|▋         | 6815/100000 [4:07:02<115:37:22,  4.47s/it]  7%|▋         | 6816/100000 [4:07:10<142:16:13,  5.50s/it]                                                             7%|▋         | 6816/100000 [4:07:10<142:16:13,  5.50s/it]  7%|▋         | 6817/100000 [4:07:15<141:39:52,  5.47s/it]                                                             7%|▋         | 6817/100000 [4:07:15<141:39:52,  5.47s/it]  7%|▋         | 6818/100000 [4:07:20<136:05:28,  5.26s/it]                                                             7%|▋         | 6818/100000 [4:07:20<136:05:28,  5.26s/it]  7%|▋         | 6819/100000 [4:07:24<126:35:47,  4.89s/it]                                                             7%|▋         | 6819/100000 [4:07:24<126:35:47,  4.89s/it]  7%|▋         | 6820/100000 [4:07:28<115:53:53,  4.48s/it]                                                             7%|▋         | 6820/100000 [4:07:28<115:53:53,  4.48s/it]  7%|▋         | 6821/100000 [4:07:31<104:52:58,  4.05s/it]                                                             7%|▋         | 6821/100000 [4:07:31<104:52:58,  4.05s/it]  7%|▋         | 6822/100000 [4:07:33<94:02:00,  3.63s/it]                                                             7%|▋         | 6822/100000 [4:07:33<94:02:00,  3.63s/it]  7%|▋         | 6823/100000 [4:07:36<83:53:59,  3.24s/it]                                                            7%|▋         | 6823/100000 [4:07:36<83:53:59,  3.24s/it]  7%|▋         | 6824/100000 [4:07:38<75:04:40,  2.90s/it]                                                            7%|▋         | 6824/100000 [4:07:38<75:04:40,  2.90s/it]  7%|▋         | 6825/100000 [4:07:40<68:09:35,  2.63s/it]                                                            7%|▋         | 6825/100000 [4:07:40<68:09:35,  2.63s/it]  7%|▋         | 6826/100000 [4:07:42<62:04:02,  2.40s/it]                                                            7%|▋         | 6826/100000 [4:07:42<62:04:02,  2.40s/it]  7%|▋         | 6827/100000 [4:07:43<57:13:56,  2.21s/it]                                                            7%|▋         | 6827/100000 [4:07:43<57:13:56,  2.21s/it]  7%|▋         | 6828/100000 [4:07:45<53:03:40,  2.05s/it]                                                            7%|▋         | 6828/100000 [4:07:45<53:03:40,  2.05s/it]  7%|▋         | 6829/100000 [4:07:47<49:23:40,  1.91s/it]                                                            7%|▋         | 6829/100000 [4:07:47<49:23:40,  1.91s/it]  7%|▋         | 6830/100000 [4:07:48<45:56:53,  1.78s/it]                                                            7%|▋         | 6830/100000 [4:07:48<45:56:53,  1.78s/it]  7%|▋         | 6831/100000 [4:07:50<43:11:19,  1.67s/it]                                                            7%|▋         | 6831/100000 [4:07:50<43:11:19,  1.67s/it]  7%|▋         | 6832/100000 [4:07:51<40:49:30,  1.58s/it]                                                            7%|▋         | 6832/100000 [4:07:51<40:49:30,  1.58s/it]  7%|▋         | 6833/100000 [4:07:52<38:51:17,  1.50s/it]                                                            7%|▋         | 6833/100000 [4:07:52<38:51:17,  1.50s/it]  7%|▋         | 6834/100000 [4:07:54<36:52:09,  1.42s/it]                                                            7%|▋         | 6834/100000 [4:07:54<36:52:09,  1.42s/it]  7%|▋         | 6835/100000 [4:07:55<34:48:17,  1.34s/it]                                                            7%|▋         | 6835/100000 [4:07:55<34:48:17,  1.34s/it]  7%|▋         | 6836/100000 [4:07:56<32:53:11,  1.27s/it]                                                            7%|▋         | 6836/100000 [4:07:56<32:53:11,  1.27s/it]  7%|▋         | 6837/100000 [4:07:57<31:08:42,  1.20s/it]                                                            7%|▋         | 6837/100000 [4:07:57<31:08:42,  1.20s/it]  7%|▋         | 6838/100000 [4:07:58<29:27:51,  1.14s/it]                                                            7%|▋         | 6838/100000 [4:07:58<29:27:51,  1.14s/it]  7%|▋         | 6839/100000 [4:07:59<27:52:15,  1.08s/it]                                                            7%|▋         | 6839/100000 [4:07:59<27:52:15,  1.08s/it]  7%|▋         | 6840/100000 [4:08:00<26:46:14,  1.03s/it]                                                            7%|▋         | 6840/100000 [4:08:00<26:46:14,  1.03s/it]  7%|▋         | 6841/100000 [4:08:01<25:59:31,  1.00s/it]                                                            7%|▋         | 6841/100000 [4:08:01<25:59:31,  1.00s/it]  7%|▋         | 6842/100000 [4:08:01<24:51:26,  1.04it/s]                                                            7%|▋         | 6842/100000 [4:08:01<24:51:26,  1.04it/s]  7%|▋         | 6843/100000 [4:08:02<24:03:49,  1.08it/s]                                                            7%|▋         | 6843/100000 [4:08:02<24:03:49,  1.08it/s]  7%|▋         | 6844/100000 [4:08:03<23:05:49,  1.12it/s]                                                            7%|▋         | 6844/100000 [4:08:03<23:05:49,  1.12it/s]  7%|▋         | 6845/100000 [4:08:04<22:25:11,  1.15it/s]                                                            7%|▋         | 6845/100000 [4:08:04<22:25:11,  1.15it/s]  7%|▋         | 6846/100000 [4:08:05<21:54:38,  1.18it/s]                                                            7%|▋         | 6846/100000 [4:08:05<21:54:38,  1.18it/s]  7%|▋         | 6847/100000 [4:08:06<21:42:45,  1.19it/s]                                                            7%|▋         | 6847/100000 [4:08:06<21:42:45,  1.19it/s]  7%|▋         | 6848/100000 [4:08:06<20:56:03,  1.24it/s]                                                            7%|▋         | 6848/100000 [4:08:06<20:56:03,  1.24it/s]  7%|▋         | 6849/100000 [4:08:07<20:23:32,  1.27it/s]                                                            7%|▋         | 6849/100000 [4:08:07<20:23:32,  1.27it/s]  7%|▋         | 6850/100000 [4:08:08<20:17:05,  1.28it/s]                                                            7%|▋         | 6850/100000 [4:08:08<20:17:05,  1.28it/s]  7%|▋         | 6851/100000 [4:08:09<20:13:24,  1.28it/s]                                                            7%|▋         | 6851/100000 [4:08:09<20:13:24,  1.28it/s]  7%|▋         | 6852/100000 [4:08:09<18:24:18,  1.41it/s]                                                            7%|▋         | 6852/100000 [4:08:09<18:24:18,  1.41it/s]  7%|▋         | 6853/100000 [4:08:22<114:53:08,  4.44s/it]                                                             7%|▋         | 6853/100000 [4:08:22<114:53:08,  4.44s/it]  7%|▋         | 6854/100000 [4:08:30<141:28:35,  5.47s/it]                                                             7%|▋         | 6854/100000 [4:08:30<141:28:35,  5.47s/it]  7%|▋         | 6855/100000 [4:08:36<141:18:10,  5.46s/it]                                                             7%|▋         | 6855/100000 [4:08:36<141:18:10,  5.46s/it]  7%|▋         | 6856/100000 [4:08:40<133:46:49,  5.17s/it]                                                             7%|▋         | 6856/100000 [4:08:40<133:46:49,  5.17s/it]  7%|▋         | 6857/100000 [4:08:44<123:26:03,  4.77s/it]                                                             7%|▋         | 6857/100000 [4:08:44<123:26:03,  4.77s/it]  7%|▋         | 6858/100000 [4:08:47<110:22:38,  4.27s/it]                                                             7%|▋         | 6858/100000 [4:08:47<110:22:38,  4.27s/it]  7%|▋         | 6859/100000 [4:08:50<100:37:06,  3.89s/it]                                                             7%|▋         | 6859/100000 [4:08:50<100:37:06,  3.89s/it]  7%|▋         | 6860/100000 [4:08:53<91:15:39,  3.53s/it]                                                             7%|▋         | 6860/100000 [4:08:53<91:15:39,  3.53s/it]  7%|▋         | 6861/100000 [4:08:55<82:10:02,  3.18s/it]                                                          {'loss': 0.138, 'grad_norm': 0.8019485473632812, 'learning_rate': 2.0319e-05, 'epoch': 44.01}
{'loss': 0.1066, 'grad_norm': 0.9073473215103149, 'learning_rate': 2.0322e-05, 'epoch': 44.01}
{'loss': 0.0858, 'grad_norm': 0.6005157828330994, 'learning_rate': 2.0325e-05, 'epoch': 44.02}
{'loss': 0.0835, 'grad_norm': 0.724204421043396, 'learning_rate': 2.0328e-05, 'epoch': 44.03}
{'loss': 0.0629, 'grad_norm': 0.45117703080177307, 'learning_rate': 2.0331e-05, 'epoch': 44.03}
{'loss': 0.0551, 'grad_norm': 0.6736599206924438, 'learning_rate': 2.0334e-05, 'epoch': 44.04}
{'loss': 0.0428, 'grad_norm': 0.5160115957260132, 'learning_rate': 2.0337e-05, 'epoch': 44.05}
{'loss': 0.0766, 'grad_norm': 0.9377732276916504, 'learning_rate': 2.0340000000000002e-05, 'epoch': 44.05}
{'loss': 0.0448, 'grad_norm': 0.7422600388526917, 'learning_rate': 2.0343e-05, 'epoch': 44.06}
{'loss': 0.0419, 'grad_norm': 0.580773651599884, 'learning_rate': 2.0346e-05, 'epoch': 44.06}
{'loss': 0.034, 'grad_norm': 0.6025410294532776, 'learning_rate': 2.0349e-05, 'epoch': 44.07}
{'loss': 0.0409, 'grad_norm': 0.6371257901191711, 'learning_rate': 2.0352e-05, 'epoch': 44.08}
{'loss': 0.0311, 'grad_norm': 0.5653414130210876, 'learning_rate': 2.0355e-05, 'epoch': 44.08}
{'loss': 0.0362, 'grad_norm': 1.0711368322372437, 'learning_rate': 2.0358e-05, 'epoch': 44.09}
{'loss': 0.0287, 'grad_norm': 0.6989681124687195, 'learning_rate': 2.0361e-05, 'epoch': 44.1}
{'loss': 0.0185, 'grad_norm': 0.5119734406471252, 'learning_rate': 2.0364e-05, 'epoch': 44.1}
{'loss': 0.0289, 'grad_norm': 0.6774959564208984, 'learning_rate': 2.0367e-05, 'epoch': 44.11}
{'loss': 0.0368, 'grad_norm': 1.1775472164154053, 'learning_rate': 2.0370000000000003e-05, 'epoch': 44.12}
{'loss': 0.0184, 'grad_norm': 0.6981374025344849, 'learning_rate': 2.0373000000000003e-05, 'epoch': 44.12}
{'loss': 0.0141, 'grad_norm': 0.39089056849479675, 'learning_rate': 2.0376000000000003e-05, 'epoch': 44.13}
{'loss': 0.0317, 'grad_norm': 0.7594020962715149, 'learning_rate': 2.0379000000000003e-05, 'epoch': 44.14}
{'loss': 0.0236, 'grad_norm': 0.7315323948860168, 'learning_rate': 2.0382e-05, 'epoch': 44.14}
{'loss': 0.0251, 'grad_norm': 1.4320629835128784, 'learning_rate': 2.0385e-05, 'epoch': 44.15}
{'loss': 0.0225, 'grad_norm': 0.9374985694885254, 'learning_rate': 2.0388e-05, 'epoch': 44.16}
{'loss': 0.0233, 'grad_norm': 0.8817260265350342, 'learning_rate': 2.0391e-05, 'epoch': 44.16}
{'loss': 0.0135, 'grad_norm': 0.5822677612304688, 'learning_rate': 2.0393999999999998e-05, 'epoch': 44.17}
{'loss': 0.0579, 'grad_norm': 0.9664849638938904, 'learning_rate': 2.0396999999999998e-05, 'epoch': 44.18}
{'loss': 0.011, 'grad_norm': 0.5825279951095581, 'learning_rate': 2.04e-05, 'epoch': 44.18}
{'loss': 0.0129, 'grad_norm': 0.47866326570510864, 'learning_rate': 2.0403e-05, 'epoch': 44.19}
{'loss': 0.007, 'grad_norm': 0.4428650438785553, 'learning_rate': 2.0406e-05, 'epoch': 44.19}
{'loss': 0.0185, 'grad_norm': 0.8923534154891968, 'learning_rate': 2.0409e-05, 'epoch': 44.2}
{'loss': 0.0253, 'grad_norm': 2.3424770832061768, 'learning_rate': 2.0412e-05, 'epoch': 44.21}
{'loss': 0.034, 'grad_norm': 8.106632232666016, 'learning_rate': 2.0415e-05, 'epoch': 44.21}
{'loss': 0.032, 'grad_norm': 1.273074746131897, 'learning_rate': 2.0418e-05, 'epoch': 44.22}
{'loss': 0.0084, 'grad_norm': 0.8127052187919617, 'learning_rate': 2.0421e-05, 'epoch': 44.23}
{'loss': 0.0064, 'grad_norm': 0.6422135233879089, 'learning_rate': 2.0424e-05, 'epoch': 44.23}
{'loss': 0.0091, 'grad_norm': 0.5031071305274963, 'learning_rate': 2.0427e-05, 'epoch': 44.24}
{'loss': 0.0209, 'grad_norm': 0.9154602289199829, 'learning_rate': 2.0430000000000003e-05, 'epoch': 44.25}
{'loss': 0.1949, 'grad_norm': 1.0513014793395996, 'learning_rate': 2.0433000000000002e-05, 'epoch': 44.25}
{'loss': 0.1153, 'grad_norm': 0.6274464130401611, 'learning_rate': 2.0436000000000002e-05, 'epoch': 44.26}
{'loss': 0.0942, 'grad_norm': 0.6872881054878235, 'learning_rate': 2.0439000000000002e-05, 'epoch': 44.27}
{'loss': 0.0775, 'grad_norm': 0.5409935116767883, 'learning_rate': 2.0442000000000002e-05, 'epoch': 44.27}
{'loss': 0.0621, 'grad_norm': 0.7928751111030579, 'learning_rate': 2.0445e-05, 'epoch': 44.28}
{'loss': 0.0508, 'grad_norm': 0.605496346950531, 'learning_rate': 2.0448e-05, 'epoch': 44.29}
{'loss': 0.0533, 'grad_norm': 0.7351372838020325, 'learning_rate': 2.0451e-05, 'epoch': 44.29}
{'loss': 0.0475, 'grad_norm': 0.6501680016517639, 'learning_rate': 2.0454e-05, 'epoch': 44.3}
{'loss': 0.0424, 'grad_norm': 1.3960200548171997, 'learning_rate': 2.0456999999999997e-05, 'epoch': 44.31}
{'loss': 0.0502, 'grad_norm': 0.6648540496826172, 'learning_rate': 2.046e-05, 'epoch': 44.31}
{'loss': 0.0296, 'grad_norm': 0.5352290868759155, 'learning_rate': 2.0463e-05, 'epoch': 44.32}
{'loss': 0.0397, 'grad_norm': 0.6239357590675354, 'learning_rate': 2.0466e-05, 'epoch': 44.32}
{'loss': 0.0421, 'grad_norm': 0.5006378889083862, 'learning_rate': 2.0469e-05, 'epoch': 44.33}
{'loss': 0.0231, 'grad_norm': 0.49193552136421204, 'learning_rate': 2.0472e-05, 'epoch': 44.34}
{'loss': 0.0257, 'grad_norm': 0.4477808475494385, 'learning_rate': 2.0475e-05, 'epoch': 44.34}
{'loss': 0.0266, 'grad_norm': 0.7479775547981262, 'learning_rate': 2.0478e-05, 'epoch': 44.35}
{'loss': 0.0181, 'grad_norm': 0.604354202747345, 'learning_rate': 2.0481e-05, 'epoch': 44.36}
{'loss': 0.0204, 'grad_norm': 0.6251181364059448, 'learning_rate': 2.0484e-05, 'epoch': 44.36}
{'loss': 0.0224, 'grad_norm': 1.4241571426391602, 'learning_rate': 2.0487e-05, 'epoch': 44.37}
{'loss': 0.0193, 'grad_norm': 0.5306369066238403, 'learning_rate': 2.0490000000000002e-05, 'epoch': 44.38}
{'loss': 0.0322, 'grad_norm': 0.8190548419952393, 'learning_rate': 2.0493000000000002e-05, 'epoch': 44.38}
{'loss': 0.0099, 'grad_norm': 0.4440566301345825, 'learning_rate': 2.0496e-05, 'epoch': 44.39}
{'loss': 0.0306, 'grad_norm': 1.9429644346237183, 'learning_rate': 2.0499e-05, 'epoch': 44.4}
{'loss': 0.0676, 'grad_norm': 0.9327848553657532, 'learning_rate': 2.0502e-05, 'epoch': 44.4}
{'loss': 0.015, 'grad_norm': 0.5120751857757568, 'learning_rate': 2.0505e-05, 'epoch': 44.41}
{'loss': 0.0109, 'grad_norm': 0.5397185683250427, 'learning_rate': 2.0508e-05, 'epoch': 44.42}
{'loss': 0.0075, 'grad_norm': 0.5546067357063293, 'learning_rate': 2.0511e-05, 'epoch': 44.42}
{'loss': 0.0687, 'grad_norm': 1.083260416984558, 'learning_rate': 2.0514e-05, 'epoch': 44.43}
{'loss': 0.0124, 'grad_norm': 0.8974732160568237, 'learning_rate': 2.0517e-05, 'epoch': 44.44}
{'loss': 0.0201, 'grad_norm': 2.053910970687866, 'learning_rate': 2.0520000000000003e-05, 'epoch': 44.44}
{'loss': 0.0307, 'grad_norm': 0.8264093995094299, 'learning_rate': 2.0523000000000003e-05, 'epoch': 44.45}
{'loss': 0.0766, 'grad_norm': 1.7910155057907104, 'learning_rate': 2.0526000000000003e-05, 'epoch': 44.45}
{'loss': 0.0154, 'grad_norm': 0.7527741193771362, 'learning_rate': 2.0529e-05, 'epoch': 44.46}
{'loss': 0.0049, 'grad_norm': 0.4236069321632385, 'learning_rate': 2.0532e-05, 'epoch': 44.47}
{'loss': 0.0136, 'grad_norm': 2.325502395629883, 'learning_rate': 2.0535e-05, 'epoch': 44.47}
{'loss': 0.0344, 'grad_norm': 1.2707960605621338, 'learning_rate': 2.0538e-05, 'epoch': 44.48}
{'loss': 0.0149, 'grad_norm': 1.8901807069778442, 'learning_rate': 2.0541e-05, 'epoch': 44.49}
{'loss': 0.024, 'grad_norm': 1.773003101348877, 'learning_rate': 2.0544e-05, 'epoch': 44.49}
{'loss': 0.1473, 'grad_norm': 0.9341977834701538, 'learning_rate': 2.0546999999999998e-05, 'epoch': 44.5}
{'loss': 0.0885, 'grad_norm': 0.6480652689933777, 'learning_rate': 2.055e-05, 'epoch': 44.51}
{'loss': 0.0615, 'grad_norm': 0.48305532336235046, 'learning_rate': 2.0553e-05, 'epoch': 44.51}
{'loss': 0.0853, 'grad_norm': 0.5670173168182373, 'learning_rate': 2.0556e-05, 'epoch': 44.52}
{'loss': 0.0652, 'grad_norm': 0.8308736681938171, 'learning_rate': 2.0559e-05, 'epoch': 44.53}
{'loss': 0.0572, 'grad_norm': 0.6460453867912292, 'learning_rate': 2.0562e-05, 'epoch': 44.53}
{'loss': 0.0496, 'grad_norm': 0.5921408534049988, 'learning_rate': 2.0565e-05, 'epoch': 44.54}
{'loss': 0.0541, 'grad_norm': 0.7103278040885925, 'learning_rate': 2.0568e-05, 'epoch': 44.55}
  7%|▋         | 6861/100000 [4:08:55<82:10:02,  3.18s/it]  7%|▋         | 6862/100000 [4:08:57<74:22:30,  2.87s/it]                                                            7%|▋         | 6862/100000 [4:08:57<74:22:30,  2.87s/it]  7%|▋         | 6863/100000 [4:08:59<67:21:57,  2.60s/it]                                                            7%|▋         | 6863/100000 [4:08:59<67:21:57,  2.60s/it]  7%|▋         | 6864/100000 [4:09:01<61:09:11,  2.36s/it]                                                            7%|▋         | 6864/100000 [4:09:01<61:09:11,  2.36s/it]  7%|▋         | 6865/100000 [4:09:03<55:52:02,  2.16s/it]                                                            7%|▋         | 6865/100000 [4:09:03<55:52:02,  2.16s/it]  7%|▋         | 6866/100000 [4:09:04<51:39:18,  2.00s/it]                                                            7%|▋         | 6866/100000 [4:09:04<51:39:18,  2.00s/it]  7%|▋         | 6867/100000 [4:09:06<48:22:06,  1.87s/it]                                                            7%|▋         | 6867/100000 [4:09:06<48:22:06,  1.87s/it]  7%|▋         | 6868/100000 [4:09:07<45:00:42,  1.74s/it]                                                            7%|▋         | 6868/100000 [4:09:07<45:00:42,  1.74s/it]  7%|▋         | 6869/100000 [4:09:09<42:18:47,  1.64s/it]                                                            7%|▋         | 6869/100000 [4:09:09<42:18:47,  1.64s/it]  7%|▋         | 6870/100000 [4:09:10<40:02:50,  1.55s/it]                                                            7%|▋         | 6870/100000 [4:09:10<40:02:50,  1.55s/it]  7%|▋         | 6871/100000 [4:09:11<37:59:48,  1.47s/it]                                                            7%|▋         | 6871/100000 [4:09:11<37:59:48,  1.47s/it]  7%|▋         | 6872/100000 [4:09:13<36:15:54,  1.40s/it]                                                            7%|▋         | 6872/100000 [4:09:13<36:15:54,  1.40s/it]  7%|▋         | 6873/100000 [4:09:14<34:33:31,  1.34s/it]                                                            7%|▋         | 6873/100000 [4:09:14<34:33:31,  1.34s/it]  7%|▋         | 6874/100000 [4:09:15<32:54:21,  1.27s/it]                                                            7%|▋         | 6874/100000 [4:09:15<32:54:21,  1.27s/it]  7%|▋         | 6875/100000 [4:09:16<31:11:26,  1.21s/it]                                                            7%|▋         | 6875/100000 [4:09:16<31:11:26,  1.21s/it]  7%|▋         | 6876/100000 [4:09:17<29:50:48,  1.15s/it]                                                            7%|▋         | 6876/100000 [4:09:17<29:50:48,  1.15s/it]  7%|▋         | 6877/100000 [4:09:18<28:05:59,  1.09s/it]                                                            7%|▋         | 6877/100000 [4:09:18<28:05:59,  1.09s/it]  7%|▋         | 6878/100000 [4:09:19<26:47:10,  1.04s/it]                                                            7%|▋         | 6878/100000 [4:09:19<26:47:10,  1.04s/it]  7%|▋         | 6879/100000 [4:09:20<25:40:06,  1.01it/s]                                                            7%|▋         | 6879/100000 [4:09:20<25:40:06,  1.01it/s]  7%|▋         | 6880/100000 [4:09:21<24:51:13,  1.04it/s]                                                            7%|▋         | 6880/100000 [4:09:21<24:51:13,  1.04it/s]  7%|▋         | 6881/100000 [4:09:21<23:57:27,  1.08it/s]                                                            7%|▋         | 6881/100000 [4:09:21<23:57:27,  1.08it/s]  7%|▋         | 6882/100000 [4:09:22<23:17:50,  1.11it/s]                                                            7%|▋         | 6882/100000 [4:09:22<23:17:50,  1.11it/s]  7%|▋         | 6883/100000 [4:09:23<23:04:59,  1.12it/s]                                                            7%|▋         | 6883/100000 [4:09:23<23:04:59,  1.12it/s]  7%|▋         | 6884/100000 [4:09:24<22:26:33,  1.15it/s]                                                            7%|▋         | 6884/100000 [4:09:24<22:26:33,  1.15it/s]  7%|▋         | 6885/100000 [4:09:25<21:37:35,  1.20it/s]                                                            7%|▋         | 6885/100000 [4:09:25<21:37:35,  1.20it/s]  7%|▋         | 6886/100000 [4:09:25<20:58:16,  1.23it/s]                                                            7%|▋         | 6886/100000 [4:09:26<20:58:16,  1.23it/s]  7%|▋         | 6887/100000 [4:09:26<20:22:22,  1.27it/s]                                                            7%|▋         | 6887/100000 [4:09:26<20:22:22,  1.27it/s]  7%|▋         | 6888/100000 [4:09:27<20:03:09,  1.29it/s]                                                            7%|▋         | 6888/100000 [4:09:27<20:03:09,  1.29it/s]  7%|▋         | 6889/100000 [4:09:28<19:34:51,  1.32it/s]                                                            7%|▋         | 6889/100000 [4:09:28<19:34:51,  1.32it/s]  7%|▋         | 6890/100000 [4:09:28<19:08:53,  1.35it/s]                                                            7%|▋         | 6890/100000 [4:09:28<19:08:53,  1.35it/s]  7%|▋         | 6891/100000 [4:09:40<102:22:16,  3.96s/it]                                                             7%|▋         | 6891/100000 [4:09:40<102:22:16,  3.96s/it]  7%|▋         | 6892/100000 [4:09:47<130:52:38,  5.06s/it]                                                             7%|▋         | 6892/100000 [4:09:48<130:52:38,  5.06s/it]  7%|▋         | 6893/100000 [4:09:53<133:01:08,  5.14s/it]                                                             7%|▋         | 6893/100000 [4:09:53<133:01:08,  5.14s/it]  7%|▋         | 6894/100000 [4:09:58<130:37:55,  5.05s/it]                                                             7%|▋         | 6894/100000 [4:09:58<130:37:55,  5.05s/it]  7%|▋         | 6895/100000 [4:10:02<123:27:15,  4.77s/it]                                                             7%|▋         | 6895/100000 [4:10:02<123:27:15,  4.77s/it]  7%|▋         | 6896/100000 [4:10:05<114:12:56,  4.42s/it]                                                             7%|▋         | 6896/100000 [4:10:05<114:12:56,  4.42s/it]  7%|▋         | 6897/100000 [4:10:08<104:09:37,  4.03s/it]                                                             7%|▋         | 6897/100000 [4:10:09<104:09:37,  4.03s/it]  7%|▋         | 6898/100000 [4:10:11<93:30:19,  3.62s/it]                                                             7%|▋         | 6898/100000 [4:10:11<93:30:19,  3.62s/it]  7%|▋         | 6899/100000 [4:10:13<83:28:14,  3.23s/it]                                                            7%|▋         | 6899/100000 [4:10:13<83:28:14,  3.23s/it]  7%|▋         | 6900/100000 [4:10:16<74:47:30,  2.89s/it]                                                            7%|▋         | 6900/100000 [4:10:16<74:47:30,  2.89s/it]  7%|▋         | 6901/100000 [4:10:18<67:51:26,  2.62s/it]                                                            7%|▋         | 6901/100000 [4:10:18<67:51:26,  2.62s/it]  7%|▋         | 6902/100000 [4:10:19<61:50:25,  2.39s/it]                                                            7%|▋         | 6902/100000 [4:10:19<61:50:25,  2.39s/it]  7%|▋         | 6903/100000 [4:10:21<57:50:28,  2.24s/it]                                                            7%|▋         | 6903/100000 [4:10:21<57:50:28,  2.24s/it]  7%|▋         | 6904/100000 [4:10:23<53:00:04,  2.05s/it]                                                            7%|▋         | 6904/100000 [4:10:23<53:00:04,  2.05s/it]  7%|▋         | 6905/100000 [4:10:24<49:20:52,  1.91s/it]                                                            7%|▋         | 6905/100000 [4:10:24<49:20:52,  1.91s/it]  7%|▋         | 6906/100000 [4:10:26<45:38:36,  1.77s/it]                                                            7%|▋         | 6906/100000 [4:10:26<45:38:36,  1.77s/it]  7%|▋         | 6907/100000 [4:10:27<42:59:05,  1.66s/it]                                                            7%|▋         | 6907/100000 [4:10:27<42:59:05,  1.66s/it]  7%|▋         | 6908/100000 [4:10:29<40:22:11,  1.56s/it]                                                            7%|▋         | 6908/100000 [4:10:29<40:22:11,  1.56s/it]  7%|▋         | 6909/100000 [4:10:30<38:17:44,  1.48s/it]                                                            7%|▋         | 6909/100000 [4:10:30<38:17:44,  1.48s/it]  7%|▋         | 6910/100000 [4:10:31<35:55:20,  1.39s/it]                                                            7%|▋         | 6910/100000 [4:10:31<35:55:20,  1.39s/it]  7%|▋         | 6911/100000 [4:10:32<33:43:21,  1.30s/it]                                                            7%|▋         | 6911/100000 [4:10:32<33:43:21,  1.30s/it]  7%|▋         | 6912/100000 [4:10:33<32:08:15,  1.24s/it]                                                            7%|▋         | 6912/100000 [4:10:33<32:08:15,  1.24s/it]  7%|▋         | 6913/100000 [4:10:34<30:36:14,  1.18s/it]                                                            7%|▋         | 6913/100000 [4:10:34<30:36:14,  1.18s/it]  7%|▋         | 6914/100000 [4:10:35<29:02:42,  1.12s/it]                                                            7%|▋         | 6914/100000 [4:10:35<29:02:42,  1.12s/it]  7%|▋         | 6915/100000 [4:10:36<27:28:07,  1.06s/it]                                                            7%|▋         | 6915/100000 [4:10:36<27:28:07,  1.06s/it]  7%|▋         | 6916/100000 [4:10:37<26:17:34,  1.02s/it]                                                            7%|▋         | 6916/100000 [4:10:37<26:17:34,  1.02s/it]  7%|▋         | 6917/100000 [4:10:38<25:18:12,  1.02it/s]                                                            7%|▋         | 6917/100000 [4:10:38<25:18:12,  1.02it/s]  7%|▋         | 6918/100000 [4:10:39<24:26:56,  1.06it/s]                                                            7%|▋         | 6918/100000 [4:10:39<24:26:56,  1.06it/s]  7%|▋         | 6919/100000 [4:10:40<23:23:04,  1.11it/s]                                                            7%|▋         | 6919/100000 [4:10:40<23:23:04,  1.11it/s]  7%|▋         | 6920/100000 [4:10:41<22:25:51,  1.15it/s]                                                            7%|▋         | 6920/100000 [4:10:41<22:25:51,  1.15it/s]  7%|▋         | 6921/100000 [4:10:41<21:42:05,  1.19it/s]                                                            7%|▋         | 6921/100000 [4:10:41<21:42:05,  1.19it/s]  7%|▋         | 6922/100000 [4:10:42<21:05:24,  1.23it/s]                                                            7%|▋         | 6922/100000 [4:10:42<21:05:24,  1.23it/s]  7%|▋         | 6923/100000 [4:10:43<20:03:08,  1.29it/s]                                                            7%|▋         | 6923/100000 [4:10:43<20:03:08,  1.29it/s]  7%|▋         | 6924/100000 [4:10:43<19:26:22,  1.33it/s]                                                            7%|▋         | 6924/100000 [4:10:43<19:26:22,  1.33it/s]  7%|▋         | 6925/100000 [4:10:44<19:27:55,  1.33it/s]                                                            7%|▋         | 6925/100000 [4:10:44<19:27:55,  1.33it/s]  7%|▋         | 6926/100000 [4:10:45<19:20:27,  1.34it/s]                                                            7%|▋         | 6926/100000 [4:10:45<19:20:27,  1.34it/s]  7%|▋         | 6927/100000 [4:10:46<19:55:29,  1.30it/s]                                                            7%|▋         | 6927/100000 [4:10:46<19:55:29,  1.30it/s]  7%|▋         | 6928/100000 [4:10:46<18:07:30,  1.43it/s]                                                            7%|▋         | 6928/100000 [4:10:46<18:07:30,  1.43it/s]  7%|▋         | 6929/100000 [4:10:53<65:21:22,  2.53s/it]                                                            7%|▋         | 6929/100000 [4:10:53<65:21:22,  2.53s/it]  7%|▋         | 6930/100000 [4:10:55<56:38:29,  2.19s/it]                                                            7%|▋         | 6930/100000 [4:10:55<56:38:29,  2.19s/it]{'loss': 0.0732, 'grad_norm': 1.0658732652664185, 'learning_rate': 2.0571e-05, 'epoch': 44.55}
{'loss': 0.0405, 'grad_norm': 0.5714212656021118, 'learning_rate': 2.0574e-05, 'epoch': 44.56}
{'loss': 0.0276, 'grad_norm': 0.4585931599140167, 'learning_rate': 2.0577e-05, 'epoch': 44.56}
{'loss': 0.0342, 'grad_norm': 0.59669429063797, 'learning_rate': 2.0580000000000003e-05, 'epoch': 44.57}
{'loss': 0.0378, 'grad_norm': 0.9099804162979126, 'learning_rate': 2.0583000000000003e-05, 'epoch': 44.58}
{'loss': 0.0263, 'grad_norm': 0.6273664236068726, 'learning_rate': 2.0586000000000002e-05, 'epoch': 44.58}
{'loss': 0.0315, 'grad_norm': 0.6512634754180908, 'learning_rate': 2.0589000000000002e-05, 'epoch': 44.59}
{'loss': 0.0248, 'grad_norm': 0.5728796720504761, 'learning_rate': 2.0592000000000002e-05, 'epoch': 44.6}
{'loss': 0.0264, 'grad_norm': 0.7674238681793213, 'learning_rate': 2.0595000000000002e-05, 'epoch': 44.6}
{'loss': 0.0324, 'grad_norm': 1.145994782447815, 'learning_rate': 2.0598e-05, 'epoch': 44.61}
{'loss': 0.02, 'grad_norm': 0.5113826394081116, 'learning_rate': 2.0601e-05, 'epoch': 44.62}
{'loss': 0.0184, 'grad_norm': 0.7185758948326111, 'learning_rate': 2.0603999999999998e-05, 'epoch': 44.62}
{'loss': 0.0314, 'grad_norm': 1.2514103651046753, 'learning_rate': 2.0606999999999998e-05, 'epoch': 44.63}
{'loss': 0.0225, 'grad_norm': 1.6573902368545532, 'learning_rate': 2.061e-05, 'epoch': 44.64}
{'loss': 0.0232, 'grad_norm': 4.487938404083252, 'learning_rate': 2.0613e-05, 'epoch': 44.64}
{'loss': 0.0153, 'grad_norm': 0.6172623038291931, 'learning_rate': 2.0616e-05, 'epoch': 44.65}
{'loss': 0.0148, 'grad_norm': 0.9386165738105774, 'learning_rate': 2.0619e-05, 'epoch': 44.66}
{'loss': 0.038, 'grad_norm': 1.453764796257019, 'learning_rate': 2.0622e-05, 'epoch': 44.66}
{'loss': 0.0253, 'grad_norm': 1.4607312679290771, 'learning_rate': 2.0625e-05, 'epoch': 44.67}
{'loss': 0.019, 'grad_norm': 1.4953560829162598, 'learning_rate': 2.0628e-05, 'epoch': 44.68}
{'loss': 0.1267, 'grad_norm': 1.5537885427474976, 'learning_rate': 2.0631e-05, 'epoch': 44.68}
{'loss': 0.0092, 'grad_norm': 0.7180618643760681, 'learning_rate': 2.0634e-05, 'epoch': 44.69}
{'loss': 0.0227, 'grad_norm': 1.1070902347564697, 'learning_rate': 2.0637e-05, 'epoch': 44.69}
{'loss': 0.0234, 'grad_norm': 1.037352442741394, 'learning_rate': 2.064e-05, 'epoch': 44.7}
{'loss': 0.0173, 'grad_norm': 1.932560920715332, 'learning_rate': 2.0643000000000002e-05, 'epoch': 44.71}
{'loss': 0.0193, 'grad_norm': 1.6369585990905762, 'learning_rate': 2.0646000000000002e-05, 'epoch': 44.71}
{'loss': 0.0214, 'grad_norm': 1.075094223022461, 'learning_rate': 2.0649e-05, 'epoch': 44.72}
{'loss': 0.0577, 'grad_norm': 1.8037521839141846, 'learning_rate': 2.0652e-05, 'epoch': 44.73}
{'loss': 0.0399, 'grad_norm': 2.483642339706421, 'learning_rate': 2.0655e-05, 'epoch': 44.73}
{'loss': 0.0315, 'grad_norm': 1.8527743816375732, 'learning_rate': 2.0658e-05, 'epoch': 44.74}
{'loss': 0.18, 'grad_norm': 1.3967854976654053, 'learning_rate': 2.0661e-05, 'epoch': 44.75}
{'loss': 0.1061, 'grad_norm': 0.9006019234657288, 'learning_rate': 2.0664e-05, 'epoch': 44.75}
{'loss': 0.1153, 'grad_norm': 0.7253544926643372, 'learning_rate': 2.0667e-05, 'epoch': 44.76}
{'loss': 0.074, 'grad_norm': 0.5429807305335999, 'learning_rate': 2.067e-05, 'epoch': 44.77}
{'loss': 0.067, 'grad_norm': 0.6777581572532654, 'learning_rate': 2.0673000000000003e-05, 'epoch': 44.77}
{'loss': 0.0845, 'grad_norm': 1.040784478187561, 'learning_rate': 2.0676e-05, 'epoch': 44.78}
{'loss': 0.0877, 'grad_norm': 1.052843451499939, 'learning_rate': 2.0679e-05, 'epoch': 44.79}
{'loss': 0.0585, 'grad_norm': 0.7509164214134216, 'learning_rate': 2.0682e-05, 'epoch': 44.79}
{'loss': 0.0389, 'grad_norm': 0.49053463339805603, 'learning_rate': 2.0685e-05, 'epoch': 44.8}
{'loss': 0.0426, 'grad_norm': 0.5379279851913452, 'learning_rate': 2.0688e-05, 'epoch': 44.81}
{'loss': 0.036, 'grad_norm': 0.6496807336807251, 'learning_rate': 2.0691e-05, 'epoch': 44.81}
{'loss': 0.0458, 'grad_norm': 0.9448539018630981, 'learning_rate': 2.0694e-05, 'epoch': 44.82}
{'loss': 0.0492, 'grad_norm': 1.048027753829956, 'learning_rate': 2.0697e-05, 'epoch': 44.82}
{'loss': 0.0451, 'grad_norm': 0.9547445178031921, 'learning_rate': 2.07e-05, 'epoch': 44.83}
{'loss': 0.0414, 'grad_norm': 1.0083560943603516, 'learning_rate': 2.0703e-05, 'epoch': 44.84}
{'loss': 0.0711, 'grad_norm': 1.2716997861862183, 'learning_rate': 2.0706e-05, 'epoch': 44.84}
{'loss': 0.0311, 'grad_norm': 0.833609938621521, 'learning_rate': 2.0709e-05, 'epoch': 44.85}
{'loss': 0.0376, 'grad_norm': 1.0633394718170166, 'learning_rate': 2.0712e-05, 'epoch': 44.86}
{'loss': 0.0406, 'grad_norm': 1.815902590751648, 'learning_rate': 2.0715e-05, 'epoch': 44.86}
{'loss': 0.0301, 'grad_norm': 0.9329203367233276, 'learning_rate': 2.0718e-05, 'epoch': 44.87}
{'loss': 0.0302, 'grad_norm': 1.628998041152954, 'learning_rate': 2.0721e-05, 'epoch': 44.88}
{'loss': 0.0309, 'grad_norm': 1.1138036251068115, 'learning_rate': 2.0724e-05, 'epoch': 44.88}
{'loss': 0.0165, 'grad_norm': 0.8183475136756897, 'learning_rate': 2.0727e-05, 'epoch': 44.89}
{'loss': 0.0218, 'grad_norm': 0.8291590213775635, 'learning_rate': 2.073e-05, 'epoch': 44.9}
{'loss': 0.0138, 'grad_norm': 0.62747722864151, 'learning_rate': 2.0733000000000003e-05, 'epoch': 44.9}
{'loss': 0.0199, 'grad_norm': 0.8073747158050537, 'learning_rate': 2.0736000000000003e-05, 'epoch': 44.91}
{'loss': 0.0154, 'grad_norm': 0.8242432475090027, 'learning_rate': 2.0739000000000003e-05, 'epoch': 44.92}
{'loss': 0.0214, 'grad_norm': 1.178087830543518, 'learning_rate': 2.0742000000000002e-05, 'epoch': 44.92}
{'loss': 0.0329, 'grad_norm': 1.4563333988189697, 'learning_rate': 2.0745000000000002e-05, 'epoch': 44.93}
{'loss': 0.0248, 'grad_norm': 0.9783340096473694, 'learning_rate': 2.0748000000000002e-05, 'epoch': 44.94}
{'loss': 0.0242, 'grad_norm': 1.3834471702575684, 'learning_rate': 2.0751e-05, 'epoch': 44.94}
{'loss': 0.0083, 'grad_norm': 0.9602005481719971, 'learning_rate': 2.0753999999999998e-05, 'epoch': 44.95}
{'loss': 0.0205, 'grad_norm': 1.3941866159439087, 'learning_rate': 2.0756999999999998e-05, 'epoch': 44.95}
{'loss': 0.0142, 'grad_norm': 0.6667248010635376, 'learning_rate': 2.0759999999999998e-05, 'epoch': 44.96}
{'loss': 0.0252, 'grad_norm': 1.638550043106079, 'learning_rate': 2.0763e-05, 'epoch': 44.97}
{'loss': 0.0221, 'grad_norm': 1.1789852380752563, 'learning_rate': 2.0766e-05, 'epoch': 44.97}
{'loss': 0.0354, 'grad_norm': 2.615297555923462, 'learning_rate': 2.0769e-05, 'epoch': 44.98}
{'loss': 0.0782, 'grad_norm': 1.2082648277282715, 'learning_rate': 2.0772e-05, 'epoch': 44.99}
{'loss': 0.1072, 'grad_norm': 1.2771878242492676, 'learning_rate': 2.0775e-05, 'epoch': 44.99}
{'loss': 0.0235, 'grad_norm': 0.7910636067390442, 'learning_rate': 2.0778e-05, 'epoch': 45.0}
  7%|▋         | 6931/100000 [4:11:13<180:28:57,  6.98s/it]                                                             7%|▋         | 6931/100000 [4:11:13<180:28:57,  6.98s/it]  7%|▋         | 6932/100000 [4:11:20<185:27:41,  7.17s/it]                                                             7%|▋         | 6932/100000 [4:11:20<185:27:41,  7.17s/it]  7%|▋         | 6933/100000 [4:11:26<171:30:32,  6.63s/it]                                                             7%|▋         | 6933/100000 [4:11:26<171:30:32,  6.63s/it]  7%|▋         | 6934/100000 [4:11:30<152:38:13,  5.90s/it]                                                             7%|▋         | 6934/100000 [4:11:30<152:38:13,  5.90s/it]  7%|▋         | 6935/100000 [4:11:34<137:17:56,  5.31s/it]                                                             7%|▋         | 6935/100000 [4:11:34<137:17:56,  5.31s/it]  7%|▋         | 6936/100000 [4:11:37<121:31:20,  4.70s/it]                                                             7%|▋         | 6936/100000 [4:11:37<121:31:20,  4.70s/it]  7%|▋         | 6937/100000 [4:11:40<108:28:10,  4.20s/it]                                                             7%|▋         | 6937/100000 [4:11:40<108:28:10,  4.20s/it]  7%|▋         | 6938/100000 [4:11:43<96:33:14,  3.74s/it]                                                             7%|▋         | 6938/100000 [4:11:43<96:33:14,  3.74s/it]  7%|▋         | 6939/100000 [4:11:45<86:00:52,  3.33s/it]                                                            7%|▋         | 6939/100000 [4:11:45<86:00:52,  3.33s/it]  7%|▋         | 6940/100000 [4:11:47<76:55:59,  2.98s/it]                                                            7%|▋         | 6940/100000 [4:11:47<76:55:59,  2.98s/it]  7%|▋         | 6941/100000 [4:11:49<69:24:12,  2.68s/it]                                                            7%|▋         | 6941/100000 [4:11:49<69:24:12,  2.68s/it]  7%|▋         | 6942/100000 [4:11:51<63:34:55,  2.46s/it]                                                            7%|▋         | 6942/100000 [4:11:51<63:34:55,  2.46s/it]  7%|▋         | 6943/100000 [4:11:53<58:19:22,  2.26s/it]                                                            7%|▋         | 6943/100000 [4:11:53<58:19:22,  2.26s/it]  7%|▋         | 6944/100000 [4:11:55<53:36:45,  2.07s/it]                                                            7%|▋         | 6944/100000 [4:11:55<53:36:45,  2.07s/it]  7%|▋         | 6945/100000 [4:11:56<49:46:53,  1.93s/it]                                                            7%|▋         | 6945/100000 [4:11:56<49:46:53,  1.93s/it]  7%|▋         | 6946/100000 [4:11:58<46:21:33,  1.79s/it]                                                            7%|▋         | 6946/100000 [4:11:58<46:21:33,  1.79s/it]  7%|▋         | 6947/100000 [4:11:59<43:28:10,  1.68s/it]                                                            7%|▋         | 6947/100000 [4:11:59<43:28:10,  1.68s/it]  7%|▋         | 6948/100000 [4:12:01<41:03:27,  1.59s/it]                                                            7%|▋         | 6948/100000 [4:12:01<41:03:27,  1.59s/it]  7%|▋         | 6949/100000 [4:12:02<38:41:43,  1.50s/it]                                                            7%|▋         | 6949/100000 [4:12:02<38:41:43,  1.50s/it]  7%|▋         | 6950/100000 [4:12:03<36:52:10,  1.43s/it]                                                            7%|▋         | 6950/100000 [4:12:03<36:52:10,  1.43s/it]  7%|▋         | 6951/100000 [4:12:04<34:57:39,  1.35s/it]                                                            7%|▋         | 6951/100000 [4:12:04<34:57:39,  1.35s/it]  7%|▋         | 6952/100000 [4:12:05<32:57:26,  1.28s/it]                                                            7%|▋         | 6952/100000 [4:12:05<32:57:26,  1.28s/it]  7%|▋         | 6953/100000 [4:12:06<31:29:46,  1.22s/it]                                                            7%|▋         | 6953/100000 [4:12:06<31:29:46,  1.22s/it]  7%|▋         | 6954/100000 [4:12:07<30:08:55,  1.17s/it]                                                            7%|▋         | 6954/100000 [4:12:07<30:08:55,  1.17s/it]  7%|▋         | 6955/100000 [4:12:08<29:02:56,  1.12s/it]                                                            7%|▋         | 6955/100000 [4:12:08<29:02:56,  1.12s/it]  7%|▋         | 6956/100000 [4:12:09<27:40:36,  1.07s/it]                                                            7%|▋         | 6956/100000 [4:12:09<27:40:36,  1.07s/it]  7%|▋         | 6957/100000 [4:12:10<26:25:53,  1.02s/it]                                                            7%|▋         | 6957/100000 [4:12:10<26:25:53,  1.02s/it]  7%|▋         | 6958/100000 [4:12:11<25:15:48,  1.02it/s]                                                            7%|▋         | 6958/100000 [4:12:11<25:15:48,  1.02it/s]  7%|▋         | 6959/100000 [4:12:12<24:43:46,  1.05it/s]                                                            7%|▋         | 6959/100000 [4:12:12<24:43:46,  1.05it/s]  7%|▋         | 6960/100000 [4:12:13<23:43:16,  1.09it/s]                                                            7%|▋         | 6960/100000 [4:12:13<23:43:16,  1.09it/s]  7%|▋         | 6961/100000 [4:12:14<23:07:35,  1.12it/s]                                                            7%|▋         | 6961/100000 [4:12:14<23:07:35,  1.12it/s]  7%|▋         | 6962/100000 [4:12:15<22:12:47,  1.16it/s]                                                            7%|▋         | 6962/100000 [4:12:15<22:12:47,  1.16it/s]  7%|▋         | 6963/100000 [4:12:15<21:20:45,  1.21it/s]                                                            7%|▋         | 6963/100000 [4:12:15<21:20:45,  1.21it/s]  7%|▋         | 6964/100000 [4:12:16<20:52:16,  1.24it/s]                                                            7%|▋         | 6964/100000 [4:12:16<20:52:16,  1.24it/s]  7%|▋         | 6965/100000 [4:12:17<20:39:52,  1.25it/s]                                                            7%|▋         | 6965/100000 [4:12:17<20:39:52,  1.25it/s]  7%|▋         | 6966/100000 [4:12:18<19:57:25,  1.29it/s]                                                            7%|▋         | 6966/100000 [4:12:18<19:57:25,  1.29it/s]  7%|▋         | 6967/100000 [4:12:18<19:22:52,  1.33it/s]                                                            7%|▋         | 6967/100000 [4:12:18<19:22:52,  1.33it/s]  7%|▋         | 6968/100000 [4:12:19<19:36:50,  1.32it/s]                                                            7%|▋         | 6968/100000 [4:12:19<19:36:50,  1.32it/s]  7%|▋         | 6969/100000 [4:12:32<113:26:05,  4.39s/it]                                                             7%|▋         | 6969/100000 [4:12:32<113:26:05,  4.39s/it]  7%|▋         | 6970/100000 [4:12:40<141:42:02,  5.48s/it]                                                             7%|▋         | 6970/100000 [4:12:40<141:42:02,  5.48s/it]  7%|▋         | 6971/100000 [4:12:46<144:13:20,  5.58s/it]                                                             7%|▋         | 6971/100000 [4:12:46<144:13:20,  5.58s/it]  7%|▋         | 6972/100000 [4:12:51<137:49:58,  5.33s/it]                                                             7%|▋         | 6972/100000 [4:12:51<137:49:58,  5.33s/it]  7%|▋         | 6973/100000 [4:12:55<128:05:53,  4.96s/it]                                                             7%|▋         | 6973/100000 [4:12:55<128:05:53,  4.96s/it]  7%|▋         | 6974/100000 [4:12:58<117:39:24,  4.55s/it]                                                             7%|▋         | 6974/100000 [4:12:58<117:39:24,  4.55s/it]  7%|▋         | 6975/100000 [4:13:01<106:56:29,  4.14s/it]                                                             7%|▋         | 6975/100000 [4:13:01<106:56:29,  4.14s/it]  7%|▋         | 6976/100000 [4:13:04<95:51:41,  3.71s/it]                                                             7%|▋         | 6976/100000 [4:13:04<95:51:41,  3.71s/it]  7%|▋         | 6977/100000 [4:13:06<84:56:47,  3.29s/it]                                                            7%|▋         | 6977/100000 [4:13:06<84:56:47,  3.29s/it]  7%|▋         | 6978/100000 [4:13:09<76:24:14,  2.96s/it]                                                            7%|▋         | 6978/100000 [4:13:09<76:24:14,  2.96s/it]  7%|▋         | 6979/100000 [4:13:11<68:56:48,  2.67s/it]                                                            7%|▋         | 6979/100000 [4:13:11<68:56:48,  2.67s/it]  7%|▋         | 6980/100000 [4:13:12<62:36:25,  2.42s/it]                                                            7%|▋         | 6980/100000 [4:13:12<62:36:25,  2.42s/it]  7%|▋         | 6981/100000 [4:13:14<57:16:12,  2.22s/it]                                                            7%|▋         | 6981/100000 [4:13:14<57:16:12,  2.22s/it]  7%|▋         | 6982/100000 [4:13:16<52:47:33,  2.04s/it]                                                            7%|▋         | 6982/100000 [4:13:16<52:47:33,  2.04s/it]  7%|▋         | 6983/100000 [4:13:17<49:02:24,  1.90s/it]                                                            7%|▋         | 6983/100000 [4:13:17<49:02:24,  1.90s/it]  7%|▋         | 6984/100000 [4:13:19<45:40:10,  1.77s/it]                                                            7%|▋         | 6984/100000 [4:13:19<45:40:10,  1.77s/it]  7%|▋         | 6985/100000 [4:13:20<42:54:26,  1.66s/it]                                                            7%|▋         | 6985/100000 [4:13:20<42:54:26,  1.66s/it]  7%|▋         | 6986/100000 [4:13:22<40:29:54,  1.57s/it]                                                            7%|▋         | 6986/100000 [4:13:22<40:29:54,  1.57s/it]  7%|▋         | 6987/100000 [4:13:23<38:23:33,  1.49s/it]                                                            7%|▋         | 6987/100000 [4:13:23<38:23:33,  1.49s/it]  7%|▋         | 6988/100000 [4:13:24<36:32:30,  1.41s/it]                                                            7%|▋         | 6988/100000 [4:13:24<36:32:30,  1.41s/it]  7%|▋         | 6989/100000 [4:13:25<34:41:26,  1.34s/it]                                                            7%|▋         | 6989/100000 [4:13:25<34:41:26,  1.34s/it]  7%|▋         | 6990/100000 [4:13:26<32:48:56,  1.27s/it]                                                            7%|▋         | 6990/100000 [4:13:26<32:48:56,  1.27s/it]  7%|▋         | 6991/100000 [4:13:27<31:15:22,  1.21s/it]                                                            7%|▋         | 6991/100000 [4:13:27<31:15:22,  1.21s/it]  7%|▋         | 6992/100000 [4:13:28<29:32:00,  1.14s/it]                                                            7%|▋         | 6992/100000 [4:13:28<29:32:00,  1.14s/it]  7%|▋         | 6993/100000 [4:13:29<27:56:50,  1.08s/it]                                                            7%|▋         | 6993/100000 [4:13:29<27:56:50,  1.08s/it]  7%|▋         | 6994/100000 [4:13:30<27:00:01,  1.05s/it]                                                            7%|▋         | 6994/100000 [4:13:30<27:00:01,  1.05s/it]  7%|▋         | 6995/100000 [4:13:31<25:51:05,  1.00s/it]                                                            7%|▋         | 6995/100000 [4:13:31<25:51:05,  1.00s/it]  7%|▋         | 6996/100000 [4:13:32<25:21:54,  1.02it/s]                                                            7%|▋         | 6996/100000 [4:13:32<25:21:54,  1.02it/s]  7%|▋         | 6997/100000 [4:13:33<24:48:22,  1.04it/s]                                                            7%|▋         | 6997/100000 [4:13:33<24:48:22,  1.04it/s]  7%|▋         | 6998/100000 [4:13:34<24:28:16,  1.06it/s]                                                            7%|▋         | 6998/100000 [4:13:34<24:28:16,  1.06it/s]  7%|▋         | 6999/100000 [4:13:35<23:29:13,  1.10it/s]                                                            7%|▋         | 6999/100000 [4:13:35<23:29:13,  1.10it/s]  7%|▋         | 7000/100000 [4:13:36<22:45:05,  1.14it/s]                                                            7%|▋         | 7000/100000 [4:13:36<22:45:05,  1.14it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 0.1569, 'grad_norm': 0.8772289752960205, 'learning_rate': 2.0781e-05, 'epoch': 45.01}
{'loss': 0.093, 'grad_norm': 0.7309026122093201, 'learning_rate': 2.0784e-05, 'epoch': 45.01}
{'loss': 0.0781, 'grad_norm': 0.5603967308998108, 'learning_rate': 2.0787e-05, 'epoch': 45.02}
{'loss': 0.0775, 'grad_norm': 0.5009786486625671, 'learning_rate': 2.079e-05, 'epoch': 45.03}
{'loss': 0.0584, 'grad_norm': 0.6521298289299011, 'learning_rate': 2.0793000000000002e-05, 'epoch': 45.03}
{'loss': 0.0461, 'grad_norm': 0.4381581246852875, 'learning_rate': 2.0796000000000002e-05, 'epoch': 45.04}
{'loss': 0.0487, 'grad_norm': 0.6648659706115723, 'learning_rate': 2.0799000000000002e-05, 'epoch': 45.05}
{'loss': 0.0613, 'grad_norm': 0.6668816208839417, 'learning_rate': 2.0802000000000002e-05, 'epoch': 45.05}
{'loss': 0.0346, 'grad_norm': 0.6280629634857178, 'learning_rate': 2.0805e-05, 'epoch': 45.06}
{'loss': 0.0396, 'grad_norm': 0.44486212730407715, 'learning_rate': 2.0808e-05, 'epoch': 45.06}
{'loss': 0.0273, 'grad_norm': 0.43990620970726013, 'learning_rate': 2.0811e-05, 'epoch': 45.07}
{'loss': 0.0277, 'grad_norm': 0.5583500266075134, 'learning_rate': 2.0814e-05, 'epoch': 45.08}
{'loss': 0.0369, 'grad_norm': 0.6194401979446411, 'learning_rate': 2.0817e-05, 'epoch': 45.08}
{'loss': 0.0278, 'grad_norm': 1.1132749319076538, 'learning_rate': 2.082e-05, 'epoch': 45.09}
{'loss': 0.0286, 'grad_norm': 0.5795655250549316, 'learning_rate': 2.0823e-05, 'epoch': 45.1}
{'loss': 0.0309, 'grad_norm': 0.6440514326095581, 'learning_rate': 2.0826e-05, 'epoch': 45.1}
{'loss': 0.0258, 'grad_norm': 0.5913647413253784, 'learning_rate': 2.0829e-05, 'epoch': 45.11}
{'loss': 0.0216, 'grad_norm': 0.7223711013793945, 'learning_rate': 2.0832e-05, 'epoch': 45.12}
{'loss': 0.0237, 'grad_norm': 0.807619571685791, 'learning_rate': 2.0835e-05, 'epoch': 45.12}
{'loss': 0.0213, 'grad_norm': 0.7442163825035095, 'learning_rate': 2.0838e-05, 'epoch': 45.13}
{'loss': 0.0204, 'grad_norm': 0.6360273957252502, 'learning_rate': 2.0841e-05, 'epoch': 45.14}
{'loss': 0.022, 'grad_norm': 0.9744259715080261, 'learning_rate': 2.0844e-05, 'epoch': 45.14}
{'loss': 0.0159, 'grad_norm': 0.6258656978607178, 'learning_rate': 2.0847e-05, 'epoch': 45.15}
{'loss': 0.046, 'grad_norm': 0.9762774705886841, 'learning_rate': 2.085e-05, 'epoch': 45.16}
{'loss': 0.015, 'grad_norm': 0.7204665541648865, 'learning_rate': 2.0853000000000002e-05, 'epoch': 45.16}
{'loss': 0.0265, 'grad_norm': 1.3355801105499268, 'learning_rate': 2.0856e-05, 'epoch': 45.17}
{'loss': 0.0075, 'grad_norm': 0.42985281348228455, 'learning_rate': 2.0859e-05, 'epoch': 45.18}
{'loss': 0.0184, 'grad_norm': 0.5672218203544617, 'learning_rate': 2.0862e-05, 'epoch': 45.18}
{'loss': 0.0115, 'grad_norm': 0.5227508544921875, 'learning_rate': 2.0865e-05, 'epoch': 45.19}
{'loss': 0.0167, 'grad_norm': 0.8234418630599976, 'learning_rate': 2.0868e-05, 'epoch': 45.19}
{'loss': 0.0199, 'grad_norm': 1.2223623991012573, 'learning_rate': 2.0871e-05, 'epoch': 45.2}
{'loss': 0.066, 'grad_norm': 1.2061436176300049, 'learning_rate': 2.0874e-05, 'epoch': 45.21}
{'loss': 0.0108, 'grad_norm': 0.6717630624771118, 'learning_rate': 2.0877e-05, 'epoch': 45.21}
{'loss': 0.0279, 'grad_norm': 1.4982975721359253, 'learning_rate': 2.088e-05, 'epoch': 45.22}
{'loss': 0.0085, 'grad_norm': 0.7138494253158569, 'learning_rate': 2.0883000000000003e-05, 'epoch': 45.23}
{'loss': 0.0204, 'grad_norm': 1.5988150835037231, 'learning_rate': 2.0886000000000003e-05, 'epoch': 45.23}
{'loss': 0.02, 'grad_norm': 1.2415175437927246, 'learning_rate': 2.0889000000000003e-05, 'epoch': 45.24}
{'loss': 0.0437, 'grad_norm': 2.877534866333008, 'learning_rate': 2.0892000000000003e-05, 'epoch': 45.25}
{'loss': 0.1712, 'grad_norm': 1.2932013273239136, 'learning_rate': 2.0895000000000002e-05, 'epoch': 45.25}
{'loss': 0.1215, 'grad_norm': 1.048350214958191, 'learning_rate': 2.0898e-05, 'epoch': 45.26}
{'loss': 0.0855, 'grad_norm': 0.6031173467636108, 'learning_rate': 2.0901e-05, 'epoch': 45.27}
{'loss': 0.0687, 'grad_norm': 0.5656957030296326, 'learning_rate': 2.0904e-05, 'epoch': 45.27}
{'loss': 0.0745, 'grad_norm': 0.6751156449317932, 'learning_rate': 2.0906999999999998e-05, 'epoch': 45.28}
{'loss': 0.0518, 'grad_norm': 0.6174746751785278, 'learning_rate': 2.0909999999999998e-05, 'epoch': 45.29}
{'loss': 0.0579, 'grad_norm': 1.0466727018356323, 'learning_rate': 2.0913e-05, 'epoch': 45.29}
{'loss': 0.0509, 'grad_norm': 0.695343017578125, 'learning_rate': 2.0916e-05, 'epoch': 45.3}
{'loss': 0.0392, 'grad_norm': 0.6197478175163269, 'learning_rate': 2.0919e-05, 'epoch': 45.31}
{'loss': 0.0396, 'grad_norm': 0.5208163261413574, 'learning_rate': 2.0922e-05, 'epoch': 45.31}
{'loss': 0.0295, 'grad_norm': 0.4269213378429413, 'learning_rate': 2.0925e-05, 'epoch': 45.32}
{'loss': 0.0282, 'grad_norm': 0.46155688166618347, 'learning_rate': 2.0928e-05, 'epoch': 45.32}
{'loss': 0.0357, 'grad_norm': 0.7584547996520996, 'learning_rate': 2.0931e-05, 'epoch': 45.33}
{'loss': 0.0375, 'grad_norm': 0.8438752889633179, 'learning_rate': 2.0934e-05, 'epoch': 45.34}
{'loss': 0.0357, 'grad_norm': 0.7714623808860779, 'learning_rate': 2.0937e-05, 'epoch': 45.34}
{'loss': 0.0262, 'grad_norm': 0.5642960667610168, 'learning_rate': 2.094e-05, 'epoch': 45.35}
{'loss': 0.0303, 'grad_norm': 0.851102352142334, 'learning_rate': 2.0943000000000003e-05, 'epoch': 45.36}
{'loss': 0.0178, 'grad_norm': 0.4864192306995392, 'learning_rate': 2.0946000000000002e-05, 'epoch': 45.36}
{'loss': 0.0209, 'grad_norm': 0.8194461464881897, 'learning_rate': 2.0949000000000002e-05, 'epoch': 45.37}
{'loss': 0.0192, 'grad_norm': 0.7899038791656494, 'learning_rate': 2.0952000000000002e-05, 'epoch': 45.38}
{'loss': 0.0154, 'grad_norm': 1.1294429302215576, 'learning_rate': 2.0955000000000002e-05, 'epoch': 45.38}
{'loss': 0.0253, 'grad_norm': 1.5261521339416504, 'learning_rate': 2.0958e-05, 'epoch': 45.39}
{'loss': 0.0266, 'grad_norm': 1.0427753925323486, 'learning_rate': 2.0961e-05, 'epoch': 45.4}
{'loss': 0.0194, 'grad_norm': 0.6258809566497803, 'learning_rate': 2.0964e-05, 'epoch': 45.4}
{'loss': 0.0242, 'grad_norm': 1.4021251201629639, 'learning_rate': 2.0967e-05, 'epoch': 45.41}
{'loss': 0.0099, 'grad_norm': 0.6664815545082092, 'learning_rate': 2.097e-05, 'epoch': 45.42}
{'loss': 0.0132, 'grad_norm': 0.5413791537284851, 'learning_rate': 2.0973e-05, 'epoch': 45.42}
{'loss': 0.057, 'grad_norm': 1.178513765335083, 'learning_rate': 2.0976e-05, 'epoch': 45.43}
{'loss': 0.0278, 'grad_norm': 1.1094939708709717, 'learning_rate': 2.0979e-05, 'epoch': 45.44}
{'loss': 0.0223, 'grad_norm': 1.5178502798080444, 'learning_rate': 2.0982e-05, 'epoch': 45.44}
{'loss': 0.0206, 'grad_norm': 4.293355464935303, 'learning_rate': 2.0985e-05, 'epoch': 45.45}
{'loss': 0.0245, 'grad_norm': 1.2077001333236694, 'learning_rate': 2.0988e-05, 'epoch': 45.45}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:01<00:01,  1.40it/s][A
 75%|███████▌  | 3/4 [00:02<00:01,  1.06s/it][A
100%|██████████| 4/4 [00:03<00:00,  1.22it/s][A                                                          
                                             [A  7%|▋         | 7000/100000 [4:13:49<22:45:05,  1.14it/s]
100%|██████████| 4/4 [00:03<00:00,  1.22it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-7000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-7000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-7000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-7000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-7000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-7000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-7000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-6000] due to args.save_total_limit
  7%|▋         | 7001/100000 [4:14:02<222:20:09,  8.61s/it]                                                             7%|▋         | 7001/100000 [4:14:02<222:20:09,  8.61s/it]  7%|▋         | 7002/100000 [4:14:03<161:52:27,  6.27s/it]                                                             7%|▋         | 7002/100000 [4:14:03<161:52:27,  6.27s/it]  7%|▋         | 7003/100000 [4:14:04<118:57:56,  4.61s/it]                                                             7%|▋         | 7003/100000 [4:14:04<118:57:56,  4.61s/it]  7%|▋         | 7004/100000 [4:14:04<88:19:45,  3.42s/it]                                                             7%|▋         | 7004/100000 [4:14:04<88:19:45,  3.42s/it]  7%|▋         | 7005/100000 [4:14:05<68:27:37,  2.65s/it]                                                            7%|▋         | 7005/100000 [4:14:05<68:27:37,  2.65s/it]  7%|▋         | 7006/100000 [4:14:06<53:21:26,  2.07s/it]                                                            7%|▋         | 7006/100000 [4:14:06<53:21:26,  2.07s/it]  7%|▋         | 7007/100000 [4:14:18<128:14:58,  4.96s/it]                                                             7%|▋         | 7007/100000 [4:14:18<128:14:58,  4.96s/it]  7%|▋         | 7008/100000 [4:14:25<145:36:54,  5.64s/it]                                                             7%|▋         | 7008/100000 [4:14:25<145:36:54,  5.64s/it]  7%|▋         | 7009/100000 [4:14:31<146:51:06,  5.69s/it]                                                             7%|▋         | 7009/100000 [4:14:31<146:51:06,  5.69s/it]  7%|▋         | 7010/100000 [4:14:35<138:23:22,  5.36s/it]                                                             7%|▋         | 7010/100000 [4:14:35<138:23:22,  5.36s/it]  7%|▋         | 7011/100000 [4:14:39<127:11:47,  4.92s/it]                                                             7%|▋         | 7011/100000 [4:14:39<127:11:47,  4.92s/it]  7%|▋         | 7012/100000 [4:14:43<116:54:55,  4.53s/it]                                                             7%|▋         | 7012/100000 [4:14:43<116:54:55,  4.53s/it]  7%|▋         | 7013/100000 [4:14:46<106:37:52,  4.13s/it]                                                             7%|▋         | 7013/100000 [4:14:46<106:37:52,  4.13s/it]  7%|▋         | 7014/100000 [4:14:49<95:08:37,  3.68s/it]                                                             7%|▋         | 7014/100000 [4:14:49<95:08:37,  3.68s/it]  7%|▋         | 7015/100000 [4:14:51<85:20:37,  3.30s/it]                                                            7%|▋         | 7015/100000 [4:14:51<85:20:37,  3.30s/it]  7%|▋         | 7016/100000 [4:14:53<76:36:32,  2.97s/it]                                                            7%|▋         | 7016/100000 [4:14:53<76:36:32,  2.97s/it]  7%|▋         | 7017/100000 [4:14:55<69:06:48,  2.68s/it]                                                            7%|▋         | 7017/100000 [4:14:55<69:06:48,  2.68s/it]  7%|▋         | 7018/100000 [4:14:57<63:01:20,  2.44s/it]                                                            7%|▋         | 7018/100000 [4:14:57<63:01:20,  2.44s/it]  7%|▋         | 7019/100000 [4:14:59<57:46:12,  2.24s/it]                                                            7%|▋         | 7019/100000 [4:14:59<57:46:12,  2.24s/it]  7%|▋         | 7020/100000 [4:15:01<52:40:50,  2.04s/it]                                                            7%|▋         | 7020/100000 [4:15:01<52:40:50,  2.04s/it]  7%|▋         | 7021/100000 [4:15:02<49:09:53,  1.90s/it]                                                            7%|▋         | 7021/100000 [4:15:02<49:09:53,  1.90s/it]  7%|▋         | 7022/100000 [4:15:04<45:24:06,  1.76s/it]                                                            7%|▋         | 7022/100000 [4:15:04<45:24:06,  1.76s/it]  7%|▋         | 7023/100000 [4:15:05<42:46:15,  1.66s/it]                                                            7%|▋         | 7023/100000 [4:15:05<42:46:15,  1.66s/it]  7%|▋         | 7024/100000 [4:15:06<40:31:45,  1.57s/it]                                                            7%|▋         | 7024/100000 [4:15:06<40:31:45,  1.57s/it]  7%|▋         | 7025/100000 [4:15:08<38:19:38,  1.48s/it]                                                            7%|▋         | 7025/100000 [4:15:08<38:19:38,  1.48s/it]  7%|▋         | 7026/100000 [4:15:09<36:25:50,  1.41s/it]                                                            7%|▋         | 7026/100000 [4:15:09<36:25:50,  1.41s/it]  7%|▋         | 7027/100000 [4:15:10<34:35:58,  1.34s/it]                                                            7%|▋         | 7027/100000 [4:15:10<34:35:58,  1.34s/it]  7%|▋         | 7028/100000 [4:15:11<33:05:51,  1.28s/it]                                                            7%|▋         | 7028/100000 [4:15:11<33:05:51,  1.28s/it]  7%|▋         | 7029/100000 [4:15:12<31:34:25,  1.22s/it]                                                            7%|▋         | 7029/100000 [4:15:12<31:34:25,  1.22s/it]  7%|▋         | 7030/100000 [4:15:13<30:04:06,  1.16s/it]                                                            7%|▋         | 7030/100000 [4:15:13<30:04:06,  1.16s/it]  7%|▋         | 7031/100000 [4:15:14<28:43:46,  1.11s/it]                                                            7%|▋         | 7031/100000 [4:15:14<28:43:46,  1.11s/it]  7%|▋         | 7032/100000 [4:15:15<27:32:08,  1.07s/it]                                                            7%|▋         | 7032/100000 [4:15:15<27:32:08,  1.07s/it]  7%|▋         | 7033/100000 [4:15:16<26:26:53,  1.02s/it]                                                            7%|▋         | 7033/100000 [4:15:16<26:26:53,  1.02s/it]  7%|▋         | 7034/100000 [4:15:17<25:20:47,  1.02it/s]                                                            7%|▋         | 7034/100000 [4:15:17<25:20:47,  1.02it/s]  7%|▋         | 7035/100000 [4:15:18<24:44:58,  1.04it/s]                                                            7%|▋         | 7035/100000 [4:15:18<24:44:58,  1.04it/s]  7%|▋         | 7036/100000 [4:15:19<24:42:26,  1.05it/s]                                                            7%|▋         | 7036/100000 [4:15:19<24:42:26,  1.05it/s]  7%|▋         | 7037/100000 [4:15:20<24:06:53,  1.07it/s]                                                            7%|▋         | 7037/100000 [4:15:20<24:06:53,  1.07it/s]  7%|▋         | 7038/100000 [4:15:21<23:00:35,  1.12it/s]                                                            7%|▋         | 7038/100000 [4:15:21<23:00:35,  1.12it/s]  7%|▋         | 7039/100000 [4:15:21<22:33:49,  1.14it/s]                                                            7%|▋         | 7039/100000 [4:15:21<22:33:49,  1.14it/s]  7%|▋         | 7040/100000 [4:15:22<21:51:56,  1.18it/s]                                                            7%|▋         | 7040/100000 [4:15:22<21:51:56,  1.18it/s]  7%|▋         | 7041/100000 [4:15:23<21:49:16,  1.18it/s]                                                            7%|▋         | 7041/100000 [4:15:23<21:49:16,  1.18it/s]  7%|▋         | 7042/100000 [4:15:24<21:09:48,  1.22it/s]                                                            7%|▋         | 7042/100000 [4:15:24<21:09:48,  1.22it/s]  7%|▋         | 7043/100000 [4:15:24<19:48:52,  1.30it/s]                                                            7%|▋         | 7043/100000 [4:15:24<19:48:52,  1.30it/s]  7%|▋         | 7044/100000 [4:15:25<19:12:34,  1.34it/s]                                                            7%|▋         | 7044/100000 [4:15:25<19:12:34,  1.34it/s]  7%|▋         | 7045/100000 [4:15:38<111:49:09,  4.33s/it]                                                             7%|▋         | 7045/100000 [4:15:38<111:49:09,  4.33s/it]  7%|▋         | 7046/100000 [4:15:46<139:43:29,  5.41s/it]                                                             7%|▋         | 7046/100000 [4:15:46<139:43:29,  5.41s/it]  7%|▋         | 7047/100000 [4:15:51<139:12:18,  5.39s/it]                                                             7%|▋         | 7047/100000 [4:15:51<139:12:18,  5.39s/it]  7%|▋         | 7048/100000 [4:15:56<132:18:51,  5.12s/it]                                                             7%|▋         | 7048/100000 [4:15:56<132:18:51,  5.12s/it]  7%|▋         | 7049/100000 [4:15:59<122:21:32,  4.74s/it]                                                             7%|▋         | 7049/100000 [4:15:59<122:21:32,  4.74s/it]  7%|▋         | 7050/100000 [4:16:03<111:24:32,  4.31s/it]                                                             7%|▋         | 7050/100000 [4:16:03<111:24:32,  4.31s/it]  7%|▋         | 7051/100000 [4:16:06<99:23:03,  3.85s/it]                                                             7%|▋         | 7051/100000 [4:16:06<99:23:03,  3.85s/it]  7%|▋         | 7052/100000 [4:16:08<88:46:15,  3.44s/it]                                                            7%|▋         | 7052/100000 [4:16:08<88:46:15,  3.44s/it]  7%|▋         | 7053/100000 [4:16:10<78:42:56,  3.05s/it]                                                            7%|▋         | 7053/100000 [4:16:10<78:42:56,  3.05s/it]  7%|▋         | 7054/100000 [4:16:12<70:11:55,  2.72s/it]                                                            7%|▋         | 7054/100000 [4:16:12<70:11:55,  2.72s/it]  7%|▋         | 7055/100000 [4:16:14<64:15:05,  2.49s/it]                                                            7%|▋         | 7055/100000 [4:16:14<64:15:05,  2.49s/it]  7%|▋         | 7056/100000 [4:16:16<58:47:39,  2.28s/it]                                                            7%|▋         | 7056/100000 [4:16:16<58:47:39,  2.28s/it]  7%|▋         | 7057/100000 [4:16:18<54:12:45,  2.10s/it]                                                            7%|▋         | 7057/100000 [4:16:18<54:12:45,  2.10s/it]  7%|▋         | 7058/100000 [4:16:19<50:16:47,  1.95s/it]                                                            7%|▋         | 7058/100000 [4:16:19<50:16:47,  1.95s/it]  7%|▋         | 7059/100000 [4:16:21<46:31:06,  1.80s/it]                                                            7%|▋         | 7059/100000 [4:16:21<46:31:06,  1.80s/it]  7%|▋         | 7060/100000 [4:16:22<43:37:12,  1.69s/it]                                                            7%|▋         | 7060/100000 [4:16:22<43:37:12,  1.69s/it]  7%|▋         | 7061/100000 [4:16:23<40:58:34,  1.59s/it]                                                            7%|▋         | 7061/100000 [4:16:23<40:58:34,  1.59s/it]  7%|▋         | 7062/100000 [4:16:25<38:32:32,  1.49s/it]                                                            7%|▋         | 7062/100000 [4:16:25<38:32:32,  1.49s/it]  7%|▋         | 7063/100000 [4:16:26<36:53:03,  1.43s/it]                                                            7%|▋         | 7063/100000 [4:16:26<36:53:03,  1.43s/it]  7%|▋         | 7064/100000 [4:16:27<35:14:45,  1.37s/it]                                                            7%|▋         | 7064/100000 [4:16:27<35:14:45,  1.37s/it]  7%|▋         | 7065/100000 [4:16:28<33:21:33,  1.29s/it]                                                            7%|▋         | 7065/100000 [4:16:28<33:21:33,  1.29s/it]  7%|▋         | 7066/100000 [4:16:29<31:35:48,  1.22s/it]                                                            7%|▋         | 7066/100000 [4:16:29<31:35:48,  1.22s/it]  7%|▋         | 7067/100000 [4:16:30<30:03:22,  1.16s/it]                                                            7%|▋         | 7067/100000 [4:16:30<30:03:22,  1.16s/it]  7%|▋         | 7068/100000 [4:16:31<28:29:37,  1.10s/it]                                                            7%|▋         | 7068/100000 [4:16:31<28:29:37,  1.10s/it]  7%|▋         | 7069/100000 [4:16:32<27:27:49,  1.06s/it]                                                            7%|▋         | 7069/100000 [4:16:32<27:27:49,  1.06s/it]  7%|▋         | 7070/100000 [4:16:33<26:21:16,  1.02s/it]                                                            7%|▋         | 7070/100000 [4:16:33<26:21:16,  1.02s/it]  7%|▋         | 7071/100000 [4:16:34<25:16:23,  1.02it/s]                                                            7%|▋         | 7071/100000 [4:16:34<25:16:23,  1.02it/s]  7%|▋         | 7072/100000 [4:16:35<24:33:17,  1.05it/s]                                                            7%|▋         | 7072/100000 [4:16:35<24:33:17,  1.05it/s]  7%|▋         | 7073/100000 [4:16:36<23:39:09,  1.09it/s]                                                            7%|▋         | 7073/100000 [4:16:36<23:39:09,  1.09it/s]  7%|▋         | 7074/100000 [4:16:37<23:12:21,  1.11it/s]                                                            7%|▋         | 7074/100000 [4:16:37<23:12:21,  1.11it/s]  7%|▋         | 7075/100000 [4:16:37<22:37:38,  1.14it/s]                                                            7%|▋         | 7075/100000 [4:16:37<22:37:38,  1.14it/s]  7%|▋         | 7076/100000 [4:16:38<22:19:00,  1.16it/s]                                                            7%|▋         | 7076/100000 [4:16:38<22:19:00,  1.16it/s]  7%|▋         | 7077/100000 [4:16:39<21:16:45,  1.21it/s]                                                            7%|▋         | 7077/100000 [4:16:39<21:16:45,  1.21it/s]  7%|▋         | 7078/100000 [4:16:40<20:39:59,  1.25it/s]                                                            7%|▋         | 7078/100000 [4:16:40<20:39:59,  1.25it/s]  7%|▋         | 7079/100000 [4:16:41<20:41:37,  1.25it/s]                                                            7%|▋         | 7079/100000 [4:16:41<20:41:37,  1.25it/s]  7%|▋         | 7080/100000 [4:16:41<19:45:35,  1.31it/s]                                                            7%|▋         | 7080/100000 [4:16:41<19:45:35,  1.31it/s]  7%|▋         | 7081/100000 [4:16:42<19:24:52,  1.33it/s]                                                            7%|▋         | 7081/100000 [4:16:42<19:24:52,  1.33it/s]  7%|▋         | 7082/100000 [4:16:43<19:01:52,  1.36it/s]                                                            7%|▋         | 7082/100000 [4:16:43<19:01:52,  1.36it/s]  7%|▋         | 7083/100000 [4:16:49<60:06:04,  2.33s/it]                                                          {'eval_loss': 0.4163818359375, 'eval_wer': 0.37918871252204583, 'eval_cer': 0.10071480202393382, 'eval_runtime': 8.276, 'eval_samples_per_second': 12.204, 'eval_steps_per_second': 0.483, 'epoch': 45.45}
{'loss': 0.0072, 'grad_norm': 0.44010603427886963, 'learning_rate': 2.0991e-05, 'epoch': 45.46}
{'loss': 0.0267, 'grad_norm': 2.165374994277954, 'learning_rate': 2.0994e-05, 'epoch': 45.47}
{'loss': 0.0202, 'grad_norm': 1.0007027387619019, 'learning_rate': 2.0997e-05, 'epoch': 45.47}
{'loss': 0.0432, 'grad_norm': 1.3422245979309082, 'learning_rate': 2.1e-05, 'epoch': 45.48}
{'loss': 0.0251, 'grad_norm': 1.3621615171432495, 'learning_rate': 2.1003e-05, 'epoch': 45.49}
{'loss': 0.0689, 'grad_norm': 1.1042091846466064, 'learning_rate': 2.1006000000000002e-05, 'epoch': 45.49}
{'loss': 0.1529, 'grad_norm': 1.0734392404556274, 'learning_rate': 2.1009e-05, 'epoch': 45.5}
{'loss': 0.1212, 'grad_norm': 0.8033533096313477, 'learning_rate': 2.1012e-05, 'epoch': 45.51}
{'loss': 0.0934, 'grad_norm': 0.5667890906333923, 'learning_rate': 2.1015e-05, 'epoch': 45.51}
{'loss': 0.079, 'grad_norm': 0.727145791053772, 'learning_rate': 2.1018e-05, 'epoch': 45.52}
{'loss': 0.0701, 'grad_norm': 0.6773256659507751, 'learning_rate': 2.1021e-05, 'epoch': 45.53}
{'loss': 0.0628, 'grad_norm': 0.6907804608345032, 'learning_rate': 2.1024e-05, 'epoch': 45.53}
{'loss': 0.0729, 'grad_norm': 0.9223235249519348, 'learning_rate': 2.1027e-05, 'epoch': 45.54}
{'loss': 0.0557, 'grad_norm': 1.0269955396652222, 'learning_rate': 2.103e-05, 'epoch': 45.55}
{'loss': 0.0466, 'grad_norm': 0.644632875919342, 'learning_rate': 2.1033e-05, 'epoch': 45.55}
{'loss': 0.0729, 'grad_norm': 0.6781050562858582, 'learning_rate': 2.1036000000000003e-05, 'epoch': 45.56}
{'loss': 0.0329, 'grad_norm': 0.5955923795700073, 'learning_rate': 2.1039000000000003e-05, 'epoch': 45.56}
{'loss': 0.0295, 'grad_norm': 0.8305558562278748, 'learning_rate': 2.1042000000000003e-05, 'epoch': 45.57}
{'loss': 0.0393, 'grad_norm': 0.644412100315094, 'learning_rate': 2.1045e-05, 'epoch': 45.58}
{'loss': 0.0288, 'grad_norm': 0.6243135929107666, 'learning_rate': 2.1048e-05, 'epoch': 45.58}
{'loss': 0.0355, 'grad_norm': 0.6758634448051453, 'learning_rate': 2.1051e-05, 'epoch': 45.59}
{'loss': 0.0428, 'grad_norm': 0.9222208857536316, 'learning_rate': 2.1054e-05, 'epoch': 45.6}
{'loss': 0.0271, 'grad_norm': 0.7450504899024963, 'learning_rate': 2.1057e-05, 'epoch': 45.6}
{'loss': 0.0179, 'grad_norm': 0.5401211977005005, 'learning_rate': 2.1059999999999998e-05, 'epoch': 45.61}
{'loss': 0.0224, 'grad_norm': 1.8010495901107788, 'learning_rate': 2.1062999999999998e-05, 'epoch': 45.62}
{'loss': 0.0222, 'grad_norm': 1.0641182661056519, 'learning_rate': 2.1066e-05, 'epoch': 45.62}
{'loss': 0.0336, 'grad_norm': 0.8769547343254089, 'learning_rate': 2.1069e-05, 'epoch': 45.63}
{'loss': 0.0167, 'grad_norm': 0.9351891875267029, 'learning_rate': 2.1072e-05, 'epoch': 45.64}
{'loss': 0.0315, 'grad_norm': 1.443982481956482, 'learning_rate': 2.1075e-05, 'epoch': 45.64}
{'loss': 0.0296, 'grad_norm': 1.1153184175491333, 'learning_rate': 2.1078e-05, 'epoch': 45.65}
{'loss': 0.0432, 'grad_norm': 3.0425260066986084, 'learning_rate': 2.1081e-05, 'epoch': 45.66}
{'loss': 0.0171, 'grad_norm': 0.9894627332687378, 'learning_rate': 2.1084e-05, 'epoch': 45.66}
{'loss': 0.0149, 'grad_norm': 0.7798727750778198, 'learning_rate': 2.1087e-05, 'epoch': 45.67}
{'loss': 0.0783, 'grad_norm': 1.1911728382110596, 'learning_rate': 2.109e-05, 'epoch': 45.68}
{'loss': 0.0244, 'grad_norm': 1.1692410707473755, 'learning_rate': 2.1093e-05, 'epoch': 45.68}
{'loss': 0.0228, 'grad_norm': 0.9018442630767822, 'learning_rate': 2.1096000000000003e-05, 'epoch': 45.69}
{'loss': 0.0171, 'grad_norm': 0.9277768731117249, 'learning_rate': 2.1099000000000002e-05, 'epoch': 45.69}
{'loss': 0.0426, 'grad_norm': 1.0714137554168701, 'learning_rate': 2.1102000000000002e-05, 'epoch': 45.7}
{'loss': 0.0193, 'grad_norm': 1.0066717863082886, 'learning_rate': 2.1105000000000002e-05, 'epoch': 45.71}
{'loss': 0.0229, 'grad_norm': 1.5396974086761475, 'learning_rate': 2.1108000000000002e-05, 'epoch': 45.71}
{'loss': 0.0324, 'grad_norm': 1.0394301414489746, 'learning_rate': 2.1111e-05, 'epoch': 45.72}
{'loss': 0.0235, 'grad_norm': 1.6027262210845947, 'learning_rate': 2.1114e-05, 'epoch': 45.73}
{'loss': 0.028, 'grad_norm': 2.4814465045928955, 'learning_rate': 2.1117e-05, 'epoch': 45.73}
{'loss': 0.0155, 'grad_norm': 1.5018107891082764, 'learning_rate': 2.1119999999999998e-05, 'epoch': 45.74}
{'loss': 0.1391, 'grad_norm': 0.9686362147331238, 'learning_rate': 2.1122999999999997e-05, 'epoch': 45.75}
{'loss': 0.0895, 'grad_norm': 0.7315717339515686, 'learning_rate': 2.1126e-05, 'epoch': 45.75}
{'loss': 0.0777, 'grad_norm': 0.519980251789093, 'learning_rate': 2.1129e-05, 'epoch': 45.76}
{'loss': 0.0688, 'grad_norm': 0.5699936747550964, 'learning_rate': 2.1132e-05, 'epoch': 45.77}
{'loss': 0.066, 'grad_norm': 0.7811843752861023, 'learning_rate': 2.1135e-05, 'epoch': 45.77}
{'loss': 0.0609, 'grad_norm': 0.7804419994354248, 'learning_rate': 2.1138e-05, 'epoch': 45.78}
{'loss': 0.0784, 'grad_norm': 0.8431859612464905, 'learning_rate': 2.1141e-05, 'epoch': 45.79}
{'loss': 0.0473, 'grad_norm': 0.8489909172058105, 'learning_rate': 2.1144e-05, 'epoch': 45.79}
{'loss': 0.0379, 'grad_norm': 0.5956270098686218, 'learning_rate': 2.1147e-05, 'epoch': 45.8}
{'loss': 0.0384, 'grad_norm': 1.128606915473938, 'learning_rate': 2.115e-05, 'epoch': 45.81}
{'loss': 0.039, 'grad_norm': 0.6301161050796509, 'learning_rate': 2.1153e-05, 'epoch': 45.81}
{'loss': 0.0398, 'grad_norm': 0.5756465196609497, 'learning_rate': 2.1156000000000002e-05, 'epoch': 45.82}
{'loss': 0.0344, 'grad_norm': 0.7336777448654175, 'learning_rate': 2.1159000000000002e-05, 'epoch': 45.82}
{'loss': 0.0345, 'grad_norm': 0.7620272040367126, 'learning_rate': 2.1162e-05, 'epoch': 45.83}
{'loss': 0.0334, 'grad_norm': 0.6782425045967102, 'learning_rate': 2.1165e-05, 'epoch': 45.84}
{'loss': 0.0775, 'grad_norm': 0.7512791156768799, 'learning_rate': 2.1168e-05, 'epoch': 45.84}
{'loss': 0.0333, 'grad_norm': 0.7106899619102478, 'learning_rate': 2.1171e-05, 'epoch': 45.85}
{'loss': 0.0296, 'grad_norm': 0.6450155377388, 'learning_rate': 2.1174e-05, 'epoch': 45.86}
{'loss': 0.0136, 'grad_norm': 0.4710800051689148, 'learning_rate': 2.1177e-05, 'epoch': 45.86}
{'loss': 0.0261, 'grad_norm': 0.5715537071228027, 'learning_rate': 2.118e-05, 'epoch': 45.87}
{'loss': 0.036, 'grad_norm': 0.9555354714393616, 'learning_rate': 2.1183e-05, 'epoch': 45.88}
{'loss': 0.0224, 'grad_norm': 1.180201530456543, 'learning_rate': 2.1186000000000003e-05, 'epoch': 45.88}
{'loss': 0.0288, 'grad_norm': 1.1310455799102783, 'learning_rate': 2.1189000000000003e-05, 'epoch': 45.89}
{'loss': 0.0485, 'grad_norm': 3.8773064613342285, 'learning_rate': 2.1192e-05, 'epoch': 45.9}
{'loss': 0.0138, 'grad_norm': 0.6706445217132568, 'learning_rate': 2.1195e-05, 'epoch': 45.9}
{'loss': 0.0152, 'grad_norm': 1.4567188024520874, 'learning_rate': 2.1198e-05, 'epoch': 45.91}
{'loss': 0.0515, 'grad_norm': 0.5199403762817383, 'learning_rate': 2.1201e-05, 'epoch': 45.92}
{'loss': 0.0745, 'grad_norm': 1.7814501523971558, 'learning_rate': 2.1204e-05, 'epoch': 45.92}
{'loss': 0.0515, 'grad_norm': 3.1902599334716797, 'learning_rate': 2.1207e-05, 'epoch': 45.93}
{'loss': 0.0178, 'grad_norm': 1.2632755041122437, 'learning_rate': 2.121e-05, 'epoch': 45.94}
{'loss': 0.0102, 'grad_norm': 0.8672463297843933, 'learning_rate': 2.1213e-05, 'epoch': 45.94}
{'loss': 0.0163, 'grad_norm': 0.8018568158149719, 'learning_rate': 2.1216e-05, 'epoch': 45.95}
{'loss': 0.0161, 'grad_norm': 0.8350406289100647, 'learning_rate': 2.1219e-05, 'epoch': 45.95}
{'loss': 0.0094, 'grad_norm': 0.9822860360145569, 'learning_rate': 2.1222e-05, 'epoch': 45.96}
{'loss': 0.0075, 'grad_norm': 0.5659498572349548, 'learning_rate': 2.1225e-05, 'epoch': 45.97}
{'loss': 0.0056, 'grad_norm': 0.34061485528945923, 'learning_rate': 2.1228e-05, 'epoch': 45.97}
{'loss': 0.0159, 'grad_norm': 1.1699788570404053, 'learning_rate': 2.1231e-05, 'epoch': 45.98}
{'loss': 0.0322, 'grad_norm': 2.0279016494750977, 'learning_rate': 2.1234e-05, 'epoch': 45.99}
  7%|▋         | 7083/100000 [4:16:49<60:06:04,  2.33s/it]  7%|▋         | 7084/100000 [4:16:50<52:21:27,  2.03s/it]                                                            7%|▋         | 7084/100000 [4:16:50<52:21:27,  2.03s/it]{'loss': 0.0704, 'grad_norm': 0.8212679028511047, 'learning_rate': 2.1237e-05, 'epoch': 45.99}
{'loss': 0.0195, 'grad_norm': 0.8496456742286682, 'learning_rate': 2.124e-05, 'epoch': 46.0}
  7%|▋         | 7085/100000 [4:17:08<175:39:08,  6.81s/it]                                                             7%|▋         | 7085/100000 [4:17:08<175:39:08,  6.81s/it]  7%|▋         | 7086/100000 [4:17:15<175:19:46,  6.79s/it]                                                             7%|▋         | 7086/100000 [4:17:15<175:19:46,  6.79s/it]  7%|▋         | 7087/100000 [4:17:20<165:50:25,  6.43s/it]                                                             7%|▋         | 7087/100000 [4:17:20<165:50:25,  6.43s/it]  7%|▋         | 7088/100000 [4:17:25<151:01:08,  5.85s/it]                                                             7%|▋         | 7088/100000 [4:17:25<151:01:08,  5.85s/it]  7%|▋         | 7089/100000 [4:17:29<136:32:26,  5.29s/it]                                                             7%|▋         | 7089/100000 [4:17:29<136:32:26,  5.29s/it]  7%|▋         | 7090/100000 [4:17:32<123:07:56,  4.77s/it]                                                             7%|▋         | 7090/100000 [4:17:32<123:07:56,  4.77s/it]  7%|▋         | 7091/100000 [4:17:35<110:10:18,  4.27s/it]                                                             7%|▋         | 7091/100000 [4:17:36<110:10:18,  4.27s/it]  7%|▋         | 7092/100000 [4:17:38<98:17:52,  3.81s/it]                                                             7%|▋         | 7092/100000 [4:17:38<98:17:52,  3.81s/it]  7%|▋         | 7093/100000 [4:17:41<86:44:27,  3.36s/it]                                                            7%|▋         | 7093/100000 [4:17:41<86:44:27,  3.36s/it]  7%|▋         | 7094/100000 [4:17:43<77:37:32,  3.01s/it]                                                            7%|▋         | 7094/100000 [4:17:43<77:37:32,  3.01s/it]  7%|▋         | 7095/100000 [4:17:45<69:49:34,  2.71s/it]                                                            7%|▋         | 7095/100000 [4:17:45<69:49:34,  2.71s/it]  7%|▋         | 7096/100000 [4:17:47<62:48:11,  2.43s/it]                                                            7%|▋         | 7096/100000 [4:17:47<62:48:11,  2.43s/it]  7%|▋         | 7097/100000 [4:17:48<57:16:51,  2.22s/it]                                                            7%|▋         | 7097/100000 [4:17:48<57:16:51,  2.22s/it]  7%|▋         | 7098/100000 [4:17:50<52:37:07,  2.04s/it]                                                            7%|▋         | 7098/100000 [4:17:50<52:37:07,  2.04s/it]  7%|▋         | 7099/100000 [4:17:51<49:00:08,  1.90s/it]                                                            7%|▋         | 7099/100000 [4:17:51<49:00:08,  1.90s/it]  7%|▋         | 7100/100000 [4:17:53<45:18:06,  1.76s/it]                                                            7%|▋         | 7100/100000 [4:17:53<45:18:06,  1.76s/it]  7%|▋         | 7101/100000 [4:17:54<42:05:03,  1.63s/it]                                                            7%|▋         | 7101/100000 [4:17:54<42:05:03,  1.63s/it]  7%|▋         | 7102/100000 [4:17:56<39:57:38,  1.55s/it]                                                            7%|▋         | 7102/100000 [4:17:56<39:57:38,  1.55s/it]  7%|▋         | 7103/100000 [4:17:57<37:48:41,  1.47s/it]                                                            7%|▋         | 7103/100000 [4:17:57<37:48:41,  1.47s/it]  7%|▋         | 7104/100000 [4:17:58<35:54:29,  1.39s/it]                                                            7%|▋         | 7104/100000 [4:17:58<35:54:29,  1.39s/it]  7%|▋         | 7105/100000 [4:17:59<33:45:51,  1.31s/it]                                                            7%|▋         | 7105/100000 [4:17:59<33:45:51,  1.31s/it]  7%|▋         | 7106/100000 [4:18:00<32:08:28,  1.25s/it]                                                            7%|▋         | 7106/100000 [4:18:00<32:08:28,  1.25s/it]  7%|▋         | 7107/100000 [4:18:01<30:39:22,  1.19s/it]                                                            7%|▋         | 7107/100000 [4:18:01<30:39:22,  1.19s/it]  7%|▋         | 7108/100000 [4:18:02<29:07:03,  1.13s/it]                                                            7%|▋         | 7108/100000 [4:18:02<29:07:03,  1.13s/it]  7%|▋         | 7109/100000 [4:18:03<27:45:03,  1.08s/it]                                                            7%|▋         | 7109/100000 [4:18:03<27:45:03,  1.08s/it]  7%|▋         | 7110/100000 [4:18:04<26:34:32,  1.03s/it]                                                            7%|▋         | 7110/100000 [4:18:04<26:34:32,  1.03s/it]  7%|▋         | 7111/100000 [4:18:05<25:18:27,  1.02it/s]                                                            7%|▋         | 7111/100000 [4:18:05<25:18:27,  1.02it/s]  7%|▋         | 7112/100000 [4:18:06<24:15:50,  1.06it/s]                                                            7%|▋         | 7112/100000 [4:18:06<24:15:50,  1.06it/s]  7%|▋         | 7113/100000 [4:18:07<23:36:38,  1.09it/s]                                                            7%|▋         | 7113/100000 [4:18:07<23:36:38,  1.09it/s]  7%|▋         | 7114/100000 [4:18:08<22:51:02,  1.13it/s]                                                            7%|▋         | 7114/100000 [4:18:08<22:51:02,  1.13it/s]  7%|▋         | 7115/100000 [4:18:08<21:51:08,  1.18it/s]                                                            7%|▋         | 7115/100000 [4:18:08<21:51:08,  1.18it/s]  7%|▋         | 7116/100000 [4:18:09<21:05:03,  1.22it/s]                                                            7%|▋         | 7116/100000 [4:18:09<21:05:03,  1.22it/s]  7%|▋         | 7117/100000 [4:18:10<20:20:04,  1.27it/s]                                                            7%|▋         | 7117/100000 [4:18:10<20:20:04,  1.27it/s]  7%|▋         | 7118/100000 [4:18:11<20:25:09,  1.26it/s]                                                            7%|▋         | 7118/100000 [4:18:11<20:25:09,  1.26it/s]  7%|▋         | 7119/100000 [4:18:11<20:02:02,  1.29it/s]                                                            7%|▋         | 7119/100000 [4:18:11<20:02:02,  1.29it/s]  7%|▋         | 7120/100000 [4:18:12<19:34:40,  1.32it/s]                                                            7%|▋         | 7120/100000 [4:18:12<19:34:40,  1.32it/s]  7%|▋         | 7121/100000 [4:18:13<19:22:40,  1.33it/s]                                                            7%|▋         | 7121/100000 [4:18:13<19:22:40,  1.33it/s]  7%|▋         | 7122/100000 [4:18:13<18:36:14,  1.39it/s]                                                            7%|▋         | 7122/100000 [4:18:13<18:36:14,  1.39it/s]  7%|▋         | 7123/100000 [4:18:26<111:32:18,  4.32s/it]                                                             7%|▋         | 7123/100000 [4:18:26<111:32:18,  4.32s/it]  7%|▋         | 7124/100000 [4:18:34<140:20:38,  5.44s/it]                                                             7%|▋         | 7124/100000 [4:18:34<140:20:38,  5.44s/it]  7%|▋         | 7125/100000 [4:18:40<141:44:37,  5.49s/it]                                                             7%|▋         | 7125/100000 [4:18:40<141:44:37,  5.49s/it]  7%|▋         | 7126/100000 [4:18:45<136:20:42,  5.29s/it]                                                             7%|▋         | 7126/100000 [4:18:45<136:20:42,  5.29s/it]  7%|▋         | 7127/100000 [4:18:49<127:53:40,  4.96s/it]                                                             7%|▋         | 7127/100000 [4:18:49<127:53:40,  4.96s/it]  7%|▋         | 7128/100000 [4:18:52<117:57:54,  4.57s/it]                                                             7%|▋         | 7128/100000 [4:18:52<117:57:54,  4.57s/it]  7%|▋         | 7129/100000 [4:18:56<106:59:43,  4.15s/it]                                                             7%|▋         | 7129/100000 [4:18:56<106:59:43,  4.15s/it]  7%|▋         | 7130/100000 [4:18:58<96:33:48,  3.74s/it]                                                             7%|▋         | 7130/100000 [4:18:58<96:33:48,  3.74s/it]  7%|▋         | 7131/100000 [4:19:01<86:08:14,  3.34s/it]                                                            7%|▋         | 7131/100000 [4:19:01<86:08:14,  3.34s/it]  7%|▋         | 7132/100000 [4:19:03<77:06:12,  2.99s/it]                                                            7%|▋         | 7132/100000 [4:19:03<77:06:12,  2.99s/it]  7%|▋         | 7133/100000 [4:19:05<69:19:48,  2.69s/it]                                                            7%|▋         | 7133/100000 [4:19:05<69:19:48,  2.69s/it]  7%|▋         | 7134/100000 [4:19:07<62:54:53,  2.44s/it]                                                            7%|▋         | 7134/100000 [4:19:07<62:54:53,  2.44s/it]  7%|▋         | 7135/100000 [4:19:09<57:13:57,  2.22s/it]                                                            7%|▋         | 7135/100000 [4:19:09<57:13:57,  2.22s/it]  7%|▋         | 7136/100000 [4:19:10<52:50:33,  2.05s/it]                                                            7%|▋         | 7136/100000 [4:19:10<52:50:33,  2.05s/it]  7%|▋         | 7137/100000 [4:19:12<48:54:10,  1.90s/it]                                                            7%|▋         | 7137/100000 [4:19:12<48:54:10,  1.90s/it]  7%|▋         | 7138/100000 [4:19:13<45:16:58,  1.76s/it]                                                            7%|▋         | 7138/100000 [4:19:13<45:16:58,  1.76s/it]  7%|▋         | 7139/100000 [4:19:15<42:25:24,  1.64s/it]                                                            7%|▋         | 7139/100000 [4:19:15<42:25:24,  1.64s/it]  7%|▋         | 7140/100000 [4:19:16<40:06:19,  1.55s/it]                                                            7%|▋         | 7140/100000 [4:19:16<40:06:19,  1.55s/it]  7%|▋         | 7141/100000 [4:19:17<37:48:36,  1.47s/it]                                                            7%|▋         | 7141/100000 [4:19:17<37:48:36,  1.47s/it]  7%|▋         | 7142/100000 [4:19:18<36:06:31,  1.40s/it]                                                            7%|▋         | 7142/100000 [4:19:18<36:06:31,  1.40s/it]  7%|▋         | 7143/100000 [4:19:20<34:20:30,  1.33s/it]                                                            7%|▋         | 7143/100000 [4:19:20<34:20:30,  1.33s/it]  7%|▋         | 7144/100000 [4:19:21<32:43:55,  1.27s/it]                                                            7%|▋         | 7144/100000 [4:19:21<32:43:55,  1.27s/it]  7%|▋         | 7145/100000 [4:19:22<31:15:47,  1.21s/it]                                                            7%|▋         | 7145/100000 [4:19:22<31:15:47,  1.21s/it]  7%|▋         | 7146/100000 [4:19:23<29:57:24,  1.16s/it]                                                            7%|▋         | 7146/100000 [4:19:23<29:57:24,  1.16s/it]  7%|▋         | 7147/100000 [4:19:24<28:43:25,  1.11s/it]                                                            7%|▋         | 7147/100000 [4:19:24<28:43:25,  1.11s/it]  7%|▋         | 7148/100000 [4:19:25<27:48:41,  1.08s/it]                                                            7%|▋         | 7148/100000 [4:19:25<27:48:41,  1.08s/it]  7%|▋         | 7149/100000 [4:19:26<27:04:53,  1.05s/it]                                                            7%|▋         | 7149/100000 [4:19:26<27:04:53,  1.05s/it]  7%|▋         | 7150/100000 [4:19:27<26:17:26,  1.02s/it]                                                            7%|▋         | 7150/100000 [4:19:27<26:17:26,  1.02s/it]  7%|▋         | 7151/100000 [4:19:28<25:45:58,  1.00it/s]                                                            7%|▋         | 7151/100000 [4:19:28<25:45:58,  1.00it/s]  7%|▋         | 7152/100000 [4:19:29<25:09:23,  1.03it/s]                                                            7%|▋         | 7152/100000 [4:19:29<25:09:23,  1.03it/s]  7%|▋         | 7153/100000 [4:19:30<24:31:19,  1.05it/s]                                                            7%|▋         | 7153/100000 [4:19:30<24:31:19,  1.05it/s]  7%|▋         | 7154/100000 [4:19:30<23:38:49,  1.09it/s]                                                            7%|▋         | 7154/100000 [4:19:30<23:38:49,  1.09it/s]  7%|▋         | 7155/100000 [4:19:31<22:33:23,  1.14it/s]                                                            7%|▋         | 7155/100000 [4:19:31<22:33:23,  1.14it/s]  7%|▋         | 7156/100000 [4:19:32<22:20:07,  1.15it/s]                                                            7%|▋         | 7156/100000 [4:19:32<22:20:07,  1.15it/s]  7%|▋         | 7157/100000 [4:19:33<21:51:46,  1.18it/s]                                                            7%|▋         | 7157/100000 [4:19:33<21:51:46,  1.18it/s]  7%|▋         | 7158/100000 [4:19:34<21:29:51,  1.20it/s]                                                            7%|▋         | 7158/100000 [4:19:34<21:29:51,  1.20it/s]  7%|▋         | 7159/100000 [4:19:34<20:33:35,  1.25it/s]                                                            7%|▋         | 7159/100000 [4:19:34<20:33:35,  1.25it/s]  7%|▋         | 7160/100000 [4:19:35<19:38:10,  1.31it/s]                                                            7%|▋         | 7160/100000 [4:19:35<19:38:10,  1.31it/s]  7%|▋         | 7161/100000 [4:19:45<94:50:39,  3.68s/it]                                                            7%|▋         | 7161/100000 [4:19:45<94:50:39,  3.68s/it]  7%|▋         | 7162/100000 [4:19:53<127:24:51,  4.94s/it]                                                             7%|▋         | 7162/100000 [4:19:53<127:24:51,  4.94s/it]  7%|▋         | 7163/100000 [4:19:59<129:28:53,  5.02s/it]                                                             7%|▋         | 7163/100000 [4:19:59<129:28:53,  5.02s/it]  7%|▋         | 7164/100000 [4:20:03<123:30:14,  4.79s/it]                                                             7%|▋         | 7164/100000 [4:20:03<123:30:14,  4.79s/it]  7%|▋         | 7165/100000 [4:20:07<115:50:20,  4.49s/it]                                                             7%|▋         | 7165/100000 [4:20:07<115:50:20,  4.49s/it]  7%|▋         | 7166/100000 [4:20:10<107:15:23,  4.16s/it]                                                             7%|▋         | 7166/100000 [4:20:10<107:15:23,  4.16s/it]  7%|▋         | 7167/100000 [4:20:13<97:08:52,  3.77s/it]                                                             7%|▋         | 7167/100000 [4:20:13<97:08:52,  3.77s/it]  7%|▋         | 7168/100000 [4:20:15<86:56:00,  3.37s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.99383544921875, 'learning_rate': 2.1243e-05, 'epoch': 46.01}
{'loss': 0.0887, 'grad_norm': 0.7588391900062561, 'learning_rate': 2.1246000000000003e-05, 'epoch': 46.01}
{'loss': 0.0801, 'grad_norm': 0.6637883186340332, 'learning_rate': 2.1249000000000003e-05, 'epoch': 46.02}
{'loss': 0.0659, 'grad_norm': 0.8259907960891724, 'learning_rate': 2.1252000000000003e-05, 'epoch': 46.03}
{'loss': 0.0525, 'grad_norm': 0.48028478026390076, 'learning_rate': 2.1255000000000002e-05, 'epoch': 46.03}
{'loss': 0.0443, 'grad_norm': 0.513812780380249, 'learning_rate': 2.1258000000000002e-05, 'epoch': 46.04}
{'loss': 0.0536, 'grad_norm': 1.053422451019287, 'learning_rate': 2.1261000000000002e-05, 'epoch': 46.05}
{'loss': 0.0477, 'grad_norm': 0.5760539770126343, 'learning_rate': 2.1264000000000002e-05, 'epoch': 46.05}
{'loss': 0.0368, 'grad_norm': 0.6059135794639587, 'learning_rate': 2.1266999999999998e-05, 'epoch': 46.06}
{'loss': 0.0496, 'grad_norm': 0.6466754674911499, 'learning_rate': 2.1269999999999998e-05, 'epoch': 46.06}
{'loss': 0.025, 'grad_norm': 0.8595566749572754, 'learning_rate': 2.1272999999999998e-05, 'epoch': 46.07}
{'loss': 0.0335, 'grad_norm': 0.6578559875488281, 'learning_rate': 2.1276e-05, 'epoch': 46.08}
{'loss': 0.0578, 'grad_norm': 1.8716572523117065, 'learning_rate': 2.1279e-05, 'epoch': 46.08}
{'loss': 0.0355, 'grad_norm': 0.8203628659248352, 'learning_rate': 2.1282e-05, 'epoch': 46.09}
{'loss': 0.0246, 'grad_norm': 0.5736147165298462, 'learning_rate': 2.1285e-05, 'epoch': 46.1}
{'loss': 0.0279, 'grad_norm': 0.7835046052932739, 'learning_rate': 2.1288e-05, 'epoch': 46.1}
{'loss': 0.0168, 'grad_norm': 0.5254369378089905, 'learning_rate': 2.1291e-05, 'epoch': 46.11}
{'loss': 0.0233, 'grad_norm': 0.6214694976806641, 'learning_rate': 2.1294e-05, 'epoch': 46.12}
{'loss': 0.0144, 'grad_norm': 0.4556709825992584, 'learning_rate': 2.1297e-05, 'epoch': 46.12}
{'loss': 0.0159, 'grad_norm': 0.4315298795700073, 'learning_rate': 2.13e-05, 'epoch': 46.13}
{'loss': 0.0142, 'grad_norm': 0.7950038909912109, 'learning_rate': 2.1303e-05, 'epoch': 46.14}
{'loss': 0.0179, 'grad_norm': 0.7722816467285156, 'learning_rate': 2.1306000000000002e-05, 'epoch': 46.14}
{'loss': 0.0448, 'grad_norm': 2.3255245685577393, 'learning_rate': 2.1309000000000002e-05, 'epoch': 46.15}
{'loss': 0.0233, 'grad_norm': 1.3285865783691406, 'learning_rate': 2.1312000000000002e-05, 'epoch': 46.16}
{'loss': 0.0465, 'grad_norm': 1.676008701324463, 'learning_rate': 2.1315000000000002e-05, 'epoch': 46.16}
{'loss': 0.0315, 'grad_norm': 1.1645002365112305, 'learning_rate': 2.1318e-05, 'epoch': 46.17}
{'loss': 0.0373, 'grad_norm': 1.201170802116394, 'learning_rate': 2.1321e-05, 'epoch': 46.18}
{'loss': 0.023, 'grad_norm': 0.901414155960083, 'learning_rate': 2.1324e-05, 'epoch': 46.18}
{'loss': 0.0139, 'grad_norm': 0.6004810929298401, 'learning_rate': 2.1327e-05, 'epoch': 46.19}
{'loss': 0.0155, 'grad_norm': 0.8785259127616882, 'learning_rate': 2.133e-05, 'epoch': 46.19}
{'loss': 0.0311, 'grad_norm': 1.5352338552474976, 'learning_rate': 2.1333e-05, 'epoch': 46.2}
{'loss': 0.0211, 'grad_norm': 1.1774080991744995, 'learning_rate': 2.1336000000000004e-05, 'epoch': 46.21}
{'loss': 0.0306, 'grad_norm': 1.594125509262085, 'learning_rate': 2.1339e-05, 'epoch': 46.21}
{'loss': 0.0412, 'grad_norm': 2.278820753097534, 'learning_rate': 2.1342e-05, 'epoch': 46.22}
{'loss': 0.0248, 'grad_norm': 1.638624906539917, 'learning_rate': 2.1345e-05, 'epoch': 46.23}
{'loss': 0.0266, 'grad_norm': 2.352260112762451, 'learning_rate': 2.1348e-05, 'epoch': 46.23}
{'loss': 0.0131, 'grad_norm': 0.8769665360450745, 'learning_rate': 2.1351e-05, 'epoch': 46.24}
{'loss': 0.0229, 'grad_norm': 1.604418158531189, 'learning_rate': 2.1354e-05, 'epoch': 46.25}
{'loss': 0.1375, 'grad_norm': 0.9522919058799744, 'learning_rate': 2.1357e-05, 'epoch': 46.25}
{'loss': 0.1168, 'grad_norm': 0.7027192711830139, 'learning_rate': 2.136e-05, 'epoch': 46.26}
{'loss': 0.0857, 'grad_norm': 0.6554204225540161, 'learning_rate': 2.1363e-05, 'epoch': 46.27}
{'loss': 0.0727, 'grad_norm': 0.5785751342773438, 'learning_rate': 2.1366000000000002e-05, 'epoch': 46.27}
{'loss': 0.0696, 'grad_norm': 0.7023919224739075, 'learning_rate': 2.1369e-05, 'epoch': 46.28}
{'loss': 0.0571, 'grad_norm': 0.7168617248535156, 'learning_rate': 2.1372e-05, 'epoch': 46.29}
{'loss': 0.0545, 'grad_norm': 0.6800767779350281, 'learning_rate': 2.1375e-05, 'epoch': 46.29}
{'loss': 0.0683, 'grad_norm': 0.7465797066688538, 'learning_rate': 2.1378e-05, 'epoch': 46.3}
{'loss': 0.0876, 'grad_norm': 1.1598355770111084, 'learning_rate': 2.1381e-05, 'epoch': 46.31}
{'loss': 0.0428, 'grad_norm': 0.8090403079986572, 'learning_rate': 2.1384e-05, 'epoch': 46.31}
{'loss': 0.0302, 'grad_norm': 0.5953204035758972, 'learning_rate': 2.1387e-05, 'epoch': 46.32}
{'loss': 0.0328, 'grad_norm': 0.5279346108436584, 'learning_rate': 2.139e-05, 'epoch': 46.32}
{'loss': 0.0471, 'grad_norm': 1.1961504220962524, 'learning_rate': 2.1393e-05, 'epoch': 46.33}
{'loss': 0.0276, 'grad_norm': 0.7623040676116943, 'learning_rate': 2.1396e-05, 'epoch': 46.34}
{'loss': 0.0338, 'grad_norm': 0.8002135157585144, 'learning_rate': 2.1399000000000003e-05, 'epoch': 46.34}
{'loss': 0.0201, 'grad_norm': 0.8476061820983887, 'learning_rate': 2.1402000000000003e-05, 'epoch': 46.35}
{'loss': 0.0243, 'grad_norm': 0.646192193031311, 'learning_rate': 2.1405000000000003e-05, 'epoch': 46.36}
{'loss': 0.0307, 'grad_norm': 0.7457143664360046, 'learning_rate': 2.1408000000000002e-05, 'epoch': 46.36}
{'loss': 0.0089, 'grad_norm': 0.39206692576408386, 'learning_rate': 2.1411000000000002e-05, 'epoch': 46.37}
{'loss': 0.0262, 'grad_norm': 1.2882736921310425, 'learning_rate': 2.1414e-05, 'epoch': 46.38}
{'loss': 0.0211, 'grad_norm': 0.6907997727394104, 'learning_rate': 2.1417e-05, 'epoch': 46.38}
{'loss': 0.0364, 'grad_norm': 1.2031137943267822, 'learning_rate': 2.1419999999999998e-05, 'epoch': 46.39}
{'loss': 0.02, 'grad_norm': 2.2788169384002686, 'learning_rate': 2.1422999999999998e-05, 'epoch': 46.4}
{'loss': 0.017, 'grad_norm': 0.7666593790054321, 'learning_rate': 2.1425999999999998e-05, 'epoch': 46.4}
{'loss': 0.0309, 'grad_norm': 1.0311832427978516, 'learning_rate': 2.1429e-05, 'epoch': 46.41}
{'loss': 0.0191, 'grad_norm': 0.9779524803161621, 'learning_rate': 2.1432e-05, 'epoch': 46.42}
{'loss': 0.038, 'grad_norm': 1.6389141082763672, 'learning_rate': 2.1435e-05, 'epoch': 46.42}
{'loss': 0.0146, 'grad_norm': 0.8054282665252686, 'learning_rate': 2.1438e-05, 'epoch': 46.43}
{'loss': 0.0251, 'grad_norm': 1.1787668466567993, 'learning_rate': 2.1441e-05, 'epoch': 46.44}
{'loss': 0.0265, 'grad_norm': 0.8400250673294067, 'learning_rate': 2.1444e-05, 'epoch': 46.44}
{'loss': 0.0203, 'grad_norm': 1.321268916130066, 'learning_rate': 2.1447e-05, 'epoch': 46.45}
{'loss': 0.036, 'grad_norm': 1.4647135734558105, 'learning_rate': 2.145e-05, 'epoch': 46.45}
{'loss': 0.0276, 'grad_norm': 1.0587948560714722, 'learning_rate': 2.1453e-05, 'epoch': 46.46}
{'loss': 0.0199, 'grad_norm': 1.0148183107376099, 'learning_rate': 2.1456e-05, 'epoch': 46.47}
{'loss': 0.0259, 'grad_norm': 1.2420774698257446, 'learning_rate': 2.1459000000000002e-05, 'epoch': 46.47}
{'loss': 0.0303, 'grad_norm': 2.0956900119781494, 'learning_rate': 2.1462000000000002e-05, 'epoch': 46.48}
{'loss': 0.02, 'grad_norm': 4.007828235626221, 'learning_rate': 2.1465000000000002e-05, 'epoch': 46.49}
{'loss': 0.0098, 'grad_norm': 0.7263929843902588, 'learning_rate': 2.1468000000000002e-05, 'epoch': 46.49}
{'loss': 0.1881, 'grad_norm': 1.4327090978622437, 'learning_rate': 2.1471e-05, 'epoch': 46.5}
{'loss': 0.1017, 'grad_norm': 0.7070159912109375, 'learning_rate': 2.1474e-05, 'epoch': 46.51}
{'loss': 0.0903, 'grad_norm': 0.7176761627197266, 'learning_rate': 2.1477e-05, 'epoch': 46.51}
{'loss': 0.0651, 'grad_norm': 0.6394079327583313, 'learning_rate': 2.148e-05, 'epoch': 46.52}
{'loss': 0.06, 'grad_norm': 0.5920074582099915, 'learning_rate': 2.1483e-05, 'epoch': 46.53}
{'loss': 0.057, 'grad_norm': 0.7003150582313538, 'learning_rate': 2.1486e-05, 'epoch': 46.53}
{'loss': 0.065, 'grad_norm': 0.7732235193252563, 'learning_rate': 2.1489e-05, 'epoch': 46.54}
  7%|▋         | 7168/100000 [4:20:15<86:56:00,  3.37s/it]  7%|▋         | 7169/100000 [4:20:18<78:46:38,  3.05s/it]                                                            7%|▋         | 7169/100000 [4:20:18<78:46:38,  3.05s/it]  7%|▋         | 7170/100000 [4:20:20<71:29:29,  2.77s/it]                                                            7%|▋         | 7170/100000 [4:20:20<71:29:29,  2.77s/it]  7%|▋         | 7171/100000 [4:20:22<65:23:18,  2.54s/it]                                                            7%|▋         | 7171/100000 [4:20:22<65:23:18,  2.54s/it]  7%|▋         | 7172/100000 [4:20:24<59:42:08,  2.32s/it]                                                            7%|▋         | 7172/100000 [4:20:24<59:42:08,  2.32s/it]  7%|▋         | 7173/100000 [4:20:25<55:15:40,  2.14s/it]                                                            7%|▋         | 7173/100000 [4:20:25<55:15:40,  2.14s/it]  7%|▋         | 7174/100000 [4:20:27<51:02:19,  1.98s/it]                                                            7%|▋         | 7174/100000 [4:20:27<51:02:19,  1.98s/it]  7%|▋         | 7175/100000 [4:20:28<47:58:32,  1.86s/it]                                                            7%|▋         | 7175/100000 [4:20:28<47:58:32,  1.86s/it]  7%|▋         | 7176/100000 [4:20:30<45:11:57,  1.75s/it]                                                            7%|▋         | 7176/100000 [4:20:30<45:11:57,  1.75s/it]  7%|▋         | 7177/100000 [4:20:31<42:46:32,  1.66s/it]                                                            7%|▋         | 7177/100000 [4:20:31<42:46:32,  1.66s/it]  7%|▋         | 7178/100000 [4:20:33<40:18:25,  1.56s/it]                                                            7%|▋         | 7178/100000 [4:20:33<40:18:25,  1.56s/it]  7%|▋         | 7179/100000 [4:20:34<38:20:02,  1.49s/it]                                                            7%|▋         | 7179/100000 [4:20:34<38:20:02,  1.49s/it]  7%|▋         | 7180/100000 [4:20:35<36:49:23,  1.43s/it]                                                            7%|▋         | 7180/100000 [4:20:35<36:49:23,  1.43s/it]  7%|▋         | 7181/100000 [4:20:36<34:58:17,  1.36s/it]                                                            7%|▋         | 7181/100000 [4:20:36<34:58:17,  1.36s/it]  7%|▋         | 7182/100000 [4:20:38<33:05:59,  1.28s/it]                                                            7%|▋         | 7182/100000 [4:20:38<33:05:59,  1.28s/it]  7%|▋         | 7183/100000 [4:20:39<31:36:54,  1.23s/it]                                                            7%|▋         | 7183/100000 [4:20:39<31:36:54,  1.23s/it]  7%|▋         | 7184/100000 [4:20:40<30:14:45,  1.17s/it]                                                            7%|▋         | 7184/100000 [4:20:40<30:14:45,  1.17s/it]  7%|▋         | 7185/100000 [4:20:41<29:01:33,  1.13s/it]                                                            7%|▋         | 7185/100000 [4:20:41<29:01:33,  1.13s/it]  7%|▋         | 7186/100000 [4:20:42<28:01:19,  1.09s/it]                                                            7%|▋         | 7186/100000 [4:20:42<28:01:19,  1.09s/it]  7%|▋         | 7187/100000 [4:20:43<27:12:01,  1.06s/it]                                                            7%|▋         | 7187/100000 [4:20:43<27:12:01,  1.06s/it]  7%|▋         | 7188/100000 [4:20:44<27:26:06,  1.06s/it]                                                            7%|▋         | 7188/100000 [4:20:44<27:26:06,  1.06s/it]  7%|▋         | 7189/100000 [4:20:45<26:15:02,  1.02s/it]                                                            7%|▋         | 7189/100000 [4:20:45<26:15:02,  1.02s/it]  7%|▋         | 7190/100000 [4:20:46<25:35:31,  1.01it/s]                                                            7%|▋         | 7190/100000 [4:20:46<25:35:31,  1.01it/s]  7%|▋         | 7191/100000 [4:20:47<24:34:11,  1.05it/s]                                                            7%|▋         | 7191/100000 [4:20:47<24:34:11,  1.05it/s]  7%|▋         | 7192/100000 [4:20:47<23:56:55,  1.08it/s]                                                            7%|▋         | 7192/100000 [4:20:47<23:56:55,  1.08it/s]  7%|▋         | 7193/100000 [4:20:48<23:00:45,  1.12it/s]                                                            7%|▋         | 7193/100000 [4:20:48<23:00:45,  1.12it/s]  7%|▋         | 7194/100000 [4:20:49<21:57:30,  1.17it/s]                                                            7%|▋         | 7194/100000 [4:20:49<21:57:30,  1.17it/s]  7%|▋         | 7195/100000 [4:20:50<21:26:16,  1.20it/s]                                                            7%|▋         | 7195/100000 [4:20:50<21:26:16,  1.20it/s]  7%|▋         | 7196/100000 [4:20:51<20:57:16,  1.23it/s]                                                            7%|▋         | 7196/100000 [4:20:51<20:57:16,  1.23it/s]  7%|▋         | 7197/100000 [4:20:51<20:07:48,  1.28it/s]                                                            7%|▋         | 7197/100000 [4:20:51<20:07:48,  1.28it/s]  7%|▋         | 7198/100000 [4:20:52<19:40:42,  1.31it/s]                                                            7%|▋         | 7198/100000 [4:20:52<19:40:42,  1.31it/s]  7%|▋         | 7199/100000 [4:21:05<116:12:36,  4.51s/it]                                                             7%|▋         | 7199/100000 [4:21:05<116:12:36,  4.51s/it]  7%|▋         | 7200/100000 [4:21:13<144:53:39,  5.62s/it]                                                             7%|▋         | 7200/100000 [4:21:13<144:53:39,  5.62s/it]  7%|▋         | 7201/100000 [4:21:19<146:28:19,  5.68s/it]                                                             7%|▋         | 7201/100000 [4:21:19<146:28:19,  5.68s/it]  7%|▋         | 7202/100000 [4:21:24<139:27:06,  5.41s/it]                                                             7%|▋         | 7202/100000 [4:21:24<139:27:06,  5.41s/it]  7%|▋         | 7203/100000 [4:21:28<128:36:02,  4.99s/it]                                                             7%|▋         | 7203/100000 [4:21:28<128:36:02,  4.99s/it]  7%|▋         | 7204/100000 [4:21:31<115:18:37,  4.47s/it]                                                             7%|▋         | 7204/100000 [4:21:31<115:18:37,  4.47s/it]  7%|▋         | 7205/100000 [4:21:34<103:22:12,  4.01s/it]                                                             7%|▋         | 7205/100000 [4:21:34<103:22:12,  4.01s/it]  7%|▋         | 7206/100000 [4:21:37<92:23:02,  3.58s/it]                                                             7%|▋         | 7206/100000 [4:21:37<92:23:02,  3.58s/it]  7%|▋         | 7207/100000 [4:21:39<82:54:07,  3.22s/it]                                                            7%|▋         | 7207/100000 [4:21:39<82:54:07,  3.22s/it]  7%|▋         | 7208/100000 [4:21:41<74:20:30,  2.88s/it]                                                            7%|▋         | 7208/100000 [4:21:41<74:20:30,  2.88s/it]  7%|▋         | 7209/100000 [4:21:43<67:21:51,  2.61s/it]                                                            7%|▋         | 7209/100000 [4:21:43<67:21:51,  2.61s/it]  7%|▋         | 7210/100000 [4:21:45<61:27:51,  2.38s/it]                                                            7%|▋         | 7210/100000 [4:21:45<61:27:51,  2.38s/it]  7%|▋         | 7211/100000 [4:21:47<55:51:30,  2.17s/it]                                                            7%|▋         | 7211/100000 [4:21:47<55:51:30,  2.17s/it]  7%|▋         | 7212/100000 [4:21:48<51:53:34,  2.01s/it]                                                            7%|▋         | 7212/100000 [4:21:48<51:53:34,  2.01s/it]  7%|▋         | 7213/100000 [4:21:50<48:20:38,  1.88s/it]                                                            7%|▋         | 7213/100000 [4:21:50<48:20:38,  1.88s/it]  7%|▋         | 7214/100000 [4:21:51<45:03:02,  1.75s/it]                                                            7%|▋         | 7214/100000 [4:21:51<45:03:02,  1.75s/it]  7%|▋         | 7215/100000 [4:21:53<42:05:55,  1.63s/it]                                                            7%|▋         | 7215/100000 [4:21:53<42:05:55,  1.63s/it]  7%|▋         | 7216/100000 [4:21:54<39:29:58,  1.53s/it]                                                            7%|▋         | 7216/100000 [4:21:54<39:29:58,  1.53s/it]  7%|▋         | 7217/100000 [4:21:55<37:32:35,  1.46s/it]                                                            7%|▋         | 7217/100000 [4:21:55<37:32:35,  1.46s/it]  7%|▋         | 7218/100000 [4:21:57<35:42:02,  1.39s/it]                                                            7%|▋         | 7218/100000 [4:21:57<35:42:02,  1.39s/it]  7%|▋         | 7219/100000 [4:21:58<33:46:13,  1.31s/it]                                                            7%|▋         | 7219/100000 [4:21:58<33:46:13,  1.31s/it]  7%|▋         | 7220/100000 [4:21:59<32:04:55,  1.24s/it]                                                            7%|▋         | 7220/100000 [4:21:59<32:04:55,  1.24s/it]  7%|▋         | 7221/100000 [4:22:00<30:29:56,  1.18s/it]                                                            7%|▋         | 7221/100000 [4:22:00<30:29:56,  1.18s/it]  7%|▋         | 7222/100000 [4:22:01<29:16:22,  1.14s/it]                                                            7%|▋         | 7222/100000 [4:22:01<29:16:22,  1.14s/it]  7%|▋         | 7223/100000 [4:22:02<27:57:33,  1.08s/it]                                                            7%|▋         | 7223/100000 [4:22:02<27:57:33,  1.08s/it]  7%|▋         | 7224/100000 [4:22:03<27:11:53,  1.06s/it]                                                            7%|▋         | 7224/100000 [4:22:03<27:11:53,  1.06s/it]  7%|▋         | 7225/100000 [4:22:04<26:19:40,  1.02s/it]                                                            7%|▋         | 7225/100000 [4:22:04<26:19:40,  1.02s/it]  7%|▋         | 7226/100000 [4:22:05<25:30:51,  1.01it/s]                                                            7%|▋         | 7226/100000 [4:22:05<25:30:51,  1.01it/s]  7%|▋         | 7227/100000 [4:22:06<24:59:50,  1.03it/s]                                                            7%|▋         | 7227/100000 [4:22:06<24:59:50,  1.03it/s]  7%|▋         | 7228/100000 [4:22:07<24:19:25,  1.06it/s]                                                            7%|▋         | 7228/100000 [4:22:07<24:19:25,  1.06it/s]  7%|▋         | 7229/100000 [4:22:07<23:52:17,  1.08it/s]                                                            7%|▋         | 7229/100000 [4:22:07<23:52:17,  1.08it/s]  7%|▋         | 7230/100000 [4:22:08<23:32:16,  1.09it/s]                                                            7%|▋         | 7230/100000 [4:22:08<23:32:16,  1.09it/s]  7%|▋         | 7231/100000 [4:22:09<22:59:45,  1.12it/s]                                                            7%|▋         | 7231/100000 [4:22:09<22:59:45,  1.12it/s]  7%|▋         | 7232/100000 [4:22:10<22:33:52,  1.14it/s]                                                            7%|▋         | 7232/100000 [4:22:10<22:33:52,  1.14it/s]  7%|▋         | 7233/100000 [4:22:11<22:08:47,  1.16it/s]                                                            7%|▋         | 7233/100000 [4:22:11<22:08:47,  1.16it/s]  7%|▋         | 7234/100000 [4:22:12<21:50:37,  1.18it/s]                                                            7%|▋         | 7234/100000 [4:22:12<21:50:37,  1.18it/s]  7%|▋         | 7235/100000 [4:22:12<21:23:18,  1.20it/s]                                                            7%|▋         | 7235/100000 [4:22:12<21:23:18,  1.20it/s]  7%|▋         | 7236/100000 [4:22:13<20:58:20,  1.23it/s]                                                            7%|▋         | 7236/100000 [4:22:13<20:58:20,  1.23it/s]  7%|▋         | 7237/100000 [4:22:21<76:32:46,  2.97s/it]                                                            7%|▋         | 7237/100000 [4:22:21<76:32:46,  2.97s/it]  7%|▋         | 7238/100000 [4:22:23<64:04:51,  2.49s/it]                                                            7%|▋         | 7238/100000 [4:22:23<64:04:51,  2.49s/it]{'loss': 0.0507, 'grad_norm': 0.8793988227844238, 'learning_rate': 2.1492e-05, 'epoch': 46.55}
{'loss': 0.0466, 'grad_norm': 0.669360876083374, 'learning_rate': 2.1495e-05, 'epoch': 46.55}
{'loss': 0.0361, 'grad_norm': 0.5649695992469788, 'learning_rate': 2.1498e-05, 'epoch': 46.56}
{'loss': 0.0372, 'grad_norm': 0.7106032371520996, 'learning_rate': 2.1501e-05, 'epoch': 46.56}
{'loss': 0.0288, 'grad_norm': 0.5153235793113708, 'learning_rate': 2.1504e-05, 'epoch': 46.57}
{'loss': 0.0422, 'grad_norm': 1.0002098083496094, 'learning_rate': 2.1507e-05, 'epoch': 46.58}
{'loss': 0.0278, 'grad_norm': 0.6855799555778503, 'learning_rate': 2.151e-05, 'epoch': 46.58}
{'loss': 0.0296, 'grad_norm': 0.5477891564369202, 'learning_rate': 2.1513e-05, 'epoch': 46.59}
{'loss': 0.0243, 'grad_norm': 0.5309179425239563, 'learning_rate': 2.1516e-05, 'epoch': 46.6}
{'loss': 0.0731, 'grad_norm': 0.7524964809417725, 'learning_rate': 2.1519000000000002e-05, 'epoch': 46.6}
{'loss': 0.0183, 'grad_norm': 0.7236229181289673, 'learning_rate': 2.1522e-05, 'epoch': 46.61}
{'loss': 0.0268, 'grad_norm': 1.1845760345458984, 'learning_rate': 2.1525e-05, 'epoch': 46.62}
{'loss': 0.0282, 'grad_norm': 0.9989315867424011, 'learning_rate': 2.1528e-05, 'epoch': 46.62}
{'loss': 0.0261, 'grad_norm': 0.5158478617668152, 'learning_rate': 2.1531e-05, 'epoch': 46.63}
{'loss': 0.0163, 'grad_norm': 0.7167555093765259, 'learning_rate': 2.1534e-05, 'epoch': 46.64}
{'loss': 0.0195, 'grad_norm': 0.6980829834938049, 'learning_rate': 2.1537e-05, 'epoch': 46.64}
{'loss': 0.0182, 'grad_norm': 0.6678100228309631, 'learning_rate': 2.154e-05, 'epoch': 46.65}
{'loss': 0.023, 'grad_norm': 1.1964519023895264, 'learning_rate': 2.1543e-05, 'epoch': 46.66}
{'loss': 0.029, 'grad_norm': 1.4030101299285889, 'learning_rate': 2.1546e-05, 'epoch': 46.66}
{'loss': 0.0143, 'grad_norm': 0.7256066203117371, 'learning_rate': 2.1549000000000003e-05, 'epoch': 46.67}
{'loss': 0.0977, 'grad_norm': 1.1000944375991821, 'learning_rate': 2.1552000000000003e-05, 'epoch': 46.68}
{'loss': 0.1064, 'grad_norm': 1.1025018692016602, 'learning_rate': 2.1555000000000003e-05, 'epoch': 46.68}
{'loss': 0.0152, 'grad_norm': 2.361917734146118, 'learning_rate': 2.1558000000000003e-05, 'epoch': 46.69}
{'loss': 0.0217, 'grad_norm': 1.3979544639587402, 'learning_rate': 2.1561e-05, 'epoch': 46.69}
{'loss': 0.0158, 'grad_norm': 0.8423776030540466, 'learning_rate': 2.1564e-05, 'epoch': 46.7}
{'loss': 0.048, 'grad_norm': 2.7948172092437744, 'learning_rate': 2.1567e-05, 'epoch': 46.71}
{'loss': 0.0065, 'grad_norm': 0.47760361433029175, 'learning_rate': 2.157e-05, 'epoch': 46.71}
{'loss': 0.0199, 'grad_norm': 0.8781577348709106, 'learning_rate': 2.1572999999999998e-05, 'epoch': 46.72}
{'loss': 0.062, 'grad_norm': 1.5263328552246094, 'learning_rate': 2.1575999999999998e-05, 'epoch': 46.73}
{'loss': 0.0156, 'grad_norm': 1.779383659362793, 'learning_rate': 2.1579e-05, 'epoch': 46.73}
{'loss': 0.0218, 'grad_norm': 1.8891371488571167, 'learning_rate': 2.1582e-05, 'epoch': 46.74}
{'loss': 0.1715, 'grad_norm': 1.4333417415618896, 'learning_rate': 2.1585e-05, 'epoch': 46.75}
{'loss': 0.1198, 'grad_norm': 0.9682273864746094, 'learning_rate': 2.1588e-05, 'epoch': 46.75}
{'loss': 0.0846, 'grad_norm': 0.6649976968765259, 'learning_rate': 2.1591e-05, 'epoch': 46.76}
{'loss': 0.0568, 'grad_norm': 0.5074074268341064, 'learning_rate': 2.1594e-05, 'epoch': 46.77}
{'loss': 0.0737, 'grad_norm': 1.110790491104126, 'learning_rate': 2.1597e-05, 'epoch': 46.77}
{'loss': 0.0494, 'grad_norm': 0.5983782410621643, 'learning_rate': 2.16e-05, 'epoch': 46.78}
{'loss': 0.0535, 'grad_norm': 0.792510449886322, 'learning_rate': 2.1603e-05, 'epoch': 46.79}
{'loss': 0.0558, 'grad_norm': 0.7799752950668335, 'learning_rate': 2.1606e-05, 'epoch': 46.79}
{'loss': 0.0485, 'grad_norm': 0.8003721833229065, 'learning_rate': 2.1609000000000003e-05, 'epoch': 46.8}
{'loss': 0.0583, 'grad_norm': 0.8118754029273987, 'learning_rate': 2.1612000000000002e-05, 'epoch': 46.81}
{'loss': 0.0319, 'grad_norm': 0.531684935092926, 'learning_rate': 2.1615000000000002e-05, 'epoch': 46.81}
{'loss': 0.0382, 'grad_norm': 0.8488958477973938, 'learning_rate': 2.1618000000000002e-05, 'epoch': 46.82}
{'loss': 0.0297, 'grad_norm': 0.6220601797103882, 'learning_rate': 2.1621000000000002e-05, 'epoch': 46.82}
{'loss': 0.0417, 'grad_norm': 2.6536738872528076, 'learning_rate': 2.1624e-05, 'epoch': 46.83}
{'loss': 0.0499, 'grad_norm': 2.77677583694458, 'learning_rate': 2.1627e-05, 'epoch': 46.84}
{'loss': 0.051, 'grad_norm': 1.2305430173873901, 'learning_rate': 2.163e-05, 'epoch': 46.84}
{'loss': 0.0566, 'grad_norm': 1.427120327949524, 'learning_rate': 2.1633e-05, 'epoch': 46.85}
{'loss': 0.0465, 'grad_norm': 1.0950919389724731, 'learning_rate': 2.1635999999999997e-05, 'epoch': 46.86}
{'loss': 0.0271, 'grad_norm': 0.718772292137146, 'learning_rate': 2.1639e-05, 'epoch': 46.86}
{'loss': 0.0288, 'grad_norm': 1.0532665252685547, 'learning_rate': 2.1642e-05, 'epoch': 46.87}
{'loss': 0.0222, 'grad_norm': 0.502099871635437, 'learning_rate': 2.1645e-05, 'epoch': 46.88}
{'loss': 0.0217, 'grad_norm': 0.6976007223129272, 'learning_rate': 2.1648e-05, 'epoch': 46.88}
{'loss': 0.0323, 'grad_norm': 2.6524577140808105, 'learning_rate': 2.1651e-05, 'epoch': 46.89}
{'loss': 0.0638, 'grad_norm': 1.1562540531158447, 'learning_rate': 2.1654e-05, 'epoch': 46.9}
{'loss': 0.0333, 'grad_norm': 1.1772676706314087, 'learning_rate': 2.1657e-05, 'epoch': 46.9}
{'loss': 0.0228, 'grad_norm': 0.8148380517959595, 'learning_rate': 2.166e-05, 'epoch': 46.91}
{'loss': 0.0229, 'grad_norm': 1.9854074716567993, 'learning_rate': 2.1663e-05, 'epoch': 46.92}
{'loss': 0.0174, 'grad_norm': 2.3221447467803955, 'learning_rate': 2.1666e-05, 'epoch': 46.92}
{'loss': 0.0233, 'grad_norm': 0.8062292337417603, 'learning_rate': 2.1669000000000002e-05, 'epoch': 46.93}
{'loss': 0.007, 'grad_norm': 0.520573079586029, 'learning_rate': 2.1672000000000002e-05, 'epoch': 46.94}
{'loss': 0.0115, 'grad_norm': 0.731454610824585, 'learning_rate': 2.1675e-05, 'epoch': 46.94}
{'loss': 0.0942, 'grad_norm': 1.294075846672058, 'learning_rate': 2.1678e-05, 'epoch': 46.95}
{'loss': 0.0305, 'grad_norm': 3.8373196125030518, 'learning_rate': 2.1681e-05, 'epoch': 46.95}
{'loss': 0.0305, 'grad_norm': 1.1343272924423218, 'learning_rate': 2.1684e-05, 'epoch': 46.96}
{'loss': 0.0271, 'grad_norm': 1.036433458328247, 'learning_rate': 2.1687e-05, 'epoch': 46.97}
{'loss': 0.0199, 'grad_norm': 2.1317453384399414, 'learning_rate': 2.169e-05, 'epoch': 46.97}
{'loss': 0.0243, 'grad_norm': 1.2517361640930176, 'learning_rate': 2.1693e-05, 'epoch': 46.98}
{'loss': 0.1135, 'grad_norm': 2.514738082885742, 'learning_rate': 2.1696e-05, 'epoch': 46.99}
{'loss': 0.0941, 'grad_norm': 1.1638308763504028, 'learning_rate': 2.1699000000000003e-05, 'epoch': 46.99}
{'loss': 0.0425, 'grad_norm': 1.2480803728103638, 'learning_rate': 2.1702000000000003e-05, 'epoch': 47.0}
  7%|▋         | 7239/100000 [4:22:40<183:41:45,  7.13s/it]                                                             7%|▋         | 7239/100000 [4:22:40<183:41:45,  7.13s/it]  7%|▋         | 7240/100000 [4:22:49<192:26:47,  7.47s/it]                                                             7%|▋         | 7240/100000 [4:22:49<192:26:47,  7.47s/it]  7%|▋         | 7241/100000 [4:22:54<177:43:26,  6.90s/it]                                                             7%|▋         | 7241/100000 [4:22:54<177:43:26,  6.90s/it]  7%|▋         | 7242/100000 [4:22:59<159:20:42,  6.18s/it]                                                             7%|▋         | 7242/100000 [4:22:59<159:20:42,  6.18s/it]  7%|▋         | 7243/100000 [4:23:03<142:01:06,  5.51s/it]                                                             7%|▋         | 7243/100000 [4:23:03<142:01:06,  5.51s/it]  7%|▋         | 7244/100000 [4:23:06<124:05:17,  4.82s/it]                                                             7%|▋         | 7244/100000 [4:23:06<124:05:17,  4.82s/it]  7%|▋         | 7245/100000 [4:23:09<109:42:54,  4.26s/it]                                                             7%|▋         | 7245/100000 [4:23:09<109:42:54,  4.26s/it]  7%|▋         | 7246/100000 [4:23:12<96:59:01,  3.76s/it]                                                             7%|▋         | 7246/100000 [4:23:12<96:59:01,  3.76s/it]  7%|▋         | 7247/100000 [4:23:14<85:38:09,  3.32s/it]                                                            7%|▋         | 7247/100000 [4:23:14<85:38:09,  3.32s/it]  7%|▋         | 7248/100000 [4:23:16<76:05:01,  2.95s/it]                                                            7%|▋         | 7248/100000 [4:23:16<76:05:01,  2.95s/it]  7%|▋         | 7249/100000 [4:23:18<68:21:07,  2.65s/it]                                                            7%|▋         | 7249/100000 [4:23:18<68:21:07,  2.65s/it]  7%|▋         | 7250/100000 [4:23:20<61:56:02,  2.40s/it]                                                            7%|▋         | 7250/100000 [4:23:20<61:56:02,  2.40s/it]  7%|▋         | 7251/100000 [4:23:21<56:19:56,  2.19s/it]                                                            7%|▋         | 7251/100000 [4:23:21<56:19:56,  2.19s/it]  7%|▋         | 7252/100000 [4:23:23<51:36:01,  2.00s/it]                                                            7%|▋         | 7252/100000 [4:23:23<51:36:01,  2.00s/it]  7%|▋         | 7253/100000 [4:23:24<47:41:30,  1.85s/it]                                                            7%|▋         | 7253/100000 [4:23:24<47:41:30,  1.85s/it]  7%|▋         | 7254/100000 [4:23:26<44:24:56,  1.72s/it]                                                            7%|▋         | 7254/100000 [4:23:26<44:24:56,  1.72s/it]  7%|▋         | 7255/100000 [4:23:27<41:41:32,  1.62s/it]                                                            7%|▋         | 7255/100000 [4:23:27<41:41:32,  1.62s/it]  7%|▋         | 7256/100000 [4:23:29<39:38:34,  1.54s/it]                                                            7%|▋         | 7256/100000 [4:23:29<39:38:34,  1.54s/it]  7%|▋         | 7257/100000 [4:23:30<37:42:01,  1.46s/it]                                                            7%|▋         | 7257/100000 [4:23:30<37:42:01,  1.46s/it]  7%|▋         | 7258/100000 [4:23:31<35:51:49,  1.39s/it]                                                            7%|▋         | 7258/100000 [4:23:31<35:51:49,  1.39s/it]  7%|▋         | 7259/100000 [4:23:32<34:01:26,  1.32s/it]                                                            7%|▋         | 7259/100000 [4:23:32<34:01:26,  1.32s/it]  7%|▋         | 7260/100000 [4:23:33<32:26:07,  1.26s/it]                                                            7%|▋         | 7260/100000 [4:23:33<32:26:07,  1.26s/it]  7%|▋         | 7261/100000 [4:23:34<30:41:13,  1.19s/it]                                                            7%|▋         | 7261/100000 [4:23:34<30:41:13,  1.19s/it]  7%|▋         | 7262/100000 [4:23:35<29:18:27,  1.14s/it]                                                            7%|▋         | 7262/100000 [4:23:35<29:18:27,  1.14s/it]  7%|▋         | 7263/100000 [4:23:36<27:56:29,  1.08s/it]                                                            7%|▋         | 7263/100000 [4:23:36<27:56:29,  1.08s/it]  7%|▋         | 7264/100000 [4:23:37<27:06:50,  1.05s/it]                                                            7%|▋         | 7264/100000 [4:23:37<27:06:50,  1.05s/it]  7%|▋         | 7265/100000 [4:23:38<26:10:17,  1.02s/it]                                                            7%|▋         | 7265/100000 [4:23:38<26:10:17,  1.02s/it]  7%|▋         | 7266/100000 [4:23:39<25:05:50,  1.03it/s]                                                            7%|▋         | 7266/100000 [4:23:39<25:05:50,  1.03it/s]  7%|▋         | 7267/100000 [4:23:40<23:52:22,  1.08it/s]                                                            7%|▋         | 7267/100000 [4:23:40<23:52:22,  1.08it/s]  7%|▋         | 7268/100000 [4:23:41<23:07:05,  1.11it/s]                                                            7%|▋         | 7268/100000 [4:23:41<23:07:05,  1.11it/s]  7%|▋         | 7269/100000 [4:23:42<22:32:16,  1.14it/s]                                                            7%|▋         | 7269/100000 [4:23:42<22:32:16,  1.14it/s]  7%|▋         | 7270/100000 [4:23:42<21:49:23,  1.18it/s]                                                            7%|▋         | 7270/100000 [4:23:42<21:49:23,  1.18it/s]  7%|▋         | 7271/100000 [4:23:43<21:23:49,  1.20it/s]                                                            7%|▋         | 7271/100000 [4:23:43<21:23:49,  1.20it/s]  7%|▋         | 7272/100000 [4:23:44<20:43:23,  1.24it/s]                                                            7%|▋         | 7272/100000 [4:23:44<20:43:23,  1.24it/s]  7%|▋         | 7273/100000 [4:23:45<20:37:38,  1.25it/s]                                                            7%|▋         | 7273/100000 [4:23:45<20:37:38,  1.25it/s]  7%|▋         | 7274/100000 [4:23:45<20:14:43,  1.27it/s]                                                            7%|▋         | 7274/100000 [4:23:46<20:14:43,  1.27it/s]  7%|▋         | 7275/100000 [4:23:46<19:39:02,  1.31it/s]                                                            7%|▋         | 7275/100000 [4:23:46<19:39:02,  1.31it/s]  7%|▋         | 7276/100000 [4:23:47<18:45:14,  1.37it/s]                                                            7%|▋         | 7276/100000 [4:23:47<18:45:14,  1.37it/s]  7%|▋         | 7277/100000 [4:23:59<108:16:48,  4.20s/it]                                                             7%|▋         | 7277/100000 [4:23:59<108:16:48,  4.20s/it]  7%|▋         | 7278/100000 [4:24:07<133:11:37,  5.17s/it]                                                             7%|▋         | 7278/100000 [4:24:07<133:11:37,  5.17s/it]  7%|▋         | 7279/100000 [4:24:12<133:46:50,  5.19s/it]                                                             7%|▋         | 7279/100000 [4:24:12<133:46:50,  5.19s/it]  7%|▋         | 7280/100000 [4:24:16<126:56:21,  4.93s/it]                                                             7%|▋         | 7280/100000 [4:24:16<126:56:21,  4.93s/it]  7%|▋         | 7281/100000 [4:24:20<118:20:03,  4.59s/it]                                                             7%|▋         | 7281/100000 [4:24:20<118:20:03,  4.59s/it]  7%|▋         | 7282/100000 [4:24:23<108:46:43,  4.22s/it]                                                             7%|▋         | 7282/100000 [4:24:23<108:46:43,  4.22s/it]  7%|▋         | 7283/100000 [4:24:26<99:20:05,  3.86s/it]                                                             7%|▋         | 7283/100000 [4:24:26<99:20:05,  3.86s/it]  7%|▋         | 7284/100000 [4:24:29<89:05:37,  3.46s/it]                                                            7%|▋         | 7284/100000 [4:24:29<89:05:37,  3.46s/it]  7%|▋         | 7285/100000 [4:24:31<80:10:55,  3.11s/it]                                                            7%|▋         | 7285/100000 [4:24:31<80:10:55,  3.11s/it]  7%|▋         | 7286/100000 [4:24:33<71:23:11,  2.77s/it]                                                            7%|▋         | 7286/100000 [4:24:33<71:23:11,  2.77s/it]  7%|▋         | 7287/100000 [4:24:35<65:06:48,  2.53s/it]                                                            7%|▋         | 7287/100000 [4:24:35<65:06:48,  2.53s/it]  7%|▋         | 7288/100000 [4:24:37<59:29:03,  2.31s/it]                                                            7%|▋         | 7288/100000 [4:24:37<59:29:03,  2.31s/it]  7%|▋         | 7289/100000 [4:24:39<54:24:16,  2.11s/it]                                                            7%|▋         | 7289/100000 [4:24:39<54:24:16,  2.11s/it]  7%|▋         | 7290/100000 [4:24:40<50:32:37,  1.96s/it]                                                            7%|▋         | 7290/100000 [4:24:40<50:32:37,  1.96s/it]  7%|▋         | 7291/100000 [4:24:42<47:23:13,  1.84s/it]                                                            7%|▋         | 7291/100000 [4:24:42<47:23:13,  1.84s/it]  7%|▋         | 7292/100000 [4:24:43<44:14:57,  1.72s/it]                                                            7%|▋         | 7292/100000 [4:24:43<44:14:57,  1.72s/it]  7%|▋         | 7293/100000 [4:24:45<41:29:42,  1.61s/it]                                                            7%|▋         | 7293/100000 [4:24:45<41:29:42,  1.61s/it]  7%|▋         | 7294/100000 [4:24:46<39:25:16,  1.53s/it]                                                            7%|▋         | 7294/100000 [4:24:46<39:25:16,  1.53s/it]  7%|▋         | 7295/100000 [4:24:47<37:32:27,  1.46s/it]                                                            7%|▋         | 7295/100000 [4:24:47<37:32:27,  1.46s/it]  7%|▋         | 7296/100000 [4:24:48<35:40:59,  1.39s/it]                                                            7%|▋         | 7296/100000 [4:24:48<35:40:59,  1.39s/it]  7%|▋         | 7297/100000 [4:24:49<33:42:51,  1.31s/it]                                                            7%|▋         | 7297/100000 [4:24:49<33:42:51,  1.31s/it]  7%|▋         | 7298/100000 [4:24:51<32:07:41,  1.25s/it]                                                            7%|▋         | 7298/100000 [4:24:51<32:07:41,  1.25s/it]  7%|▋         | 7299/100000 [4:24:52<30:48:42,  1.20s/it]                                                            7%|▋         | 7299/100000 [4:24:52<30:48:42,  1.20s/it]  7%|▋         | 7300/100000 [4:24:53<29:28:02,  1.14s/it]                                                            7%|▋         | 7300/100000 [4:24:53<29:28:02,  1.14s/it]  7%|▋         | 7301/100000 [4:24:54<28:03:16,  1.09s/it]                                                            7%|▋         | 7301/100000 [4:24:54<28:03:16,  1.09s/it]  7%|▋         | 7302/100000 [4:24:55<27:01:45,  1.05s/it]                                                            7%|▋         | 7302/100000 [4:24:55<27:01:45,  1.05s/it]  7%|▋         | 7303/100000 [4:24:56<26:08:23,  1.02s/it]                                                            7%|▋         | 7303/100000 [4:24:56<26:08:23,  1.02s/it]  7%|▋         | 7304/100000 [4:24:56<25:12:31,  1.02it/s]                                                            7%|▋         | 7304/100000 [4:24:56<25:12:31,  1.02it/s]  7%|▋         | 7305/100000 [4:24:57<24:05:17,  1.07it/s]                                                            7%|▋         | 7305/100000 [4:24:57<24:05:17,  1.07it/s]  7%|▋         | 7306/100000 [4:24:58<23:33:04,  1.09it/s]                                                            7%|▋         | 7306/100000 [4:24:58<23:33:04,  1.09it/s]  7%|▋         | 7307/100000 [4:24:59<23:20:53,  1.10it/s]                                                            7%|▋         | 7307/100000 [4:24:59<23:20:53,  1.10it/s]  7%|▋         | 7308/100000 [4:25:00<22:21:32,  1.15it/s]                                                            7%|▋         | 7308/100000 [4:25:00<22:21:32,  1.15it/s]  7%|▋         | 7309/100000 [4:25:01<22:33:24,  1.14it/s]                                                            7%|▋         | 7309/100000 [4:25:01<22:33:24,  1.14it/s]  7%|▋         | 7310/100000 [4:25:01<21:37:25,  1.19it/s]                                                            7%|▋         | 7310/100000 [4:25:01<21:37:25,  1.19it/s]  7%|▋         | 7311/100000 [4:25:02<20:57:22,  1.23it/s]                                                            7%|▋         | 7311/100000 [4:25:02<20:57:22,  1.23it/s]  7%|▋         | 7312/100000 [4:25:03<20:14:55,  1.27it/s]                                                            7%|▋         | 7312/100000 [4:25:03<20:14:55,  1.27it/s]  7%|▋         | 7313/100000 [4:25:04<19:45:30,  1.30it/s]                                                            7%|▋         | 7313/100000 [4:25:04<19:45:30,  1.30it/s]  7%|▋         | 7314/100000 [4:25:04<18:41:50,  1.38it/s]                                                            7%|▋         | 7314/100000 [4:25:04<18:41:50,  1.38it/s]  7%|▋         | 7315/100000 [4:25:16<102:10:05,  3.97s/it]                                                             7%|▋         | 7315/100000 [4:25:16<102:10:05,  3.97s/it]  7%|▋         | 7316/100000 [4:25:24<134:51:28,  5.24s/it]                                                             7%|▋         | 7316/100000 [4:25:24<134:51:28,  5.24s/it]  7%|▋         | 7317/100000 [4:25:30<138:33:11,  5.38s/it]                                                             7%|▋         | 7317/100000 [4:25:30<138:33:11,  5.38s/it]  7%|▋         | 7318/100000 [4:25:34<130:40:14,  5.08s/it]                                                             7%|▋         | 7318/100000 [4:25:34<130:40:14,  5.08s/it]  7%|▋         | 7319/100000 [4:25:38<122:20:16,  4.75s/it]                                                             7%|▋         | 7319/100000 [4:25:38<122:20:16,  4.75s/it]  7%|▋         | 7320/100000 [4:25:41<110:46:13,  4.30s/it]                                                             7%|▋         | 7320/100000 [4:25:41<110:46:13,  4.30s/it]  7%|▋         | 7321/100000 [4:25:44<101:43:46,  3.95s/it]                                                             7%|▋         | 7321/100000 [4:25:45<101:43:46,  3.95s/it]  7%|▋         | 7322/100000 [4:25:47<92:35:55,  3.60s/it]                                                           {'loss': 0.1391, 'grad_norm': 1.1195378303527832, 'learning_rate': 2.1705000000000003e-05, 'epoch': 47.01}
{'loss': 0.0898, 'grad_norm': 0.732020914554596, 'learning_rate': 2.1708e-05, 'epoch': 47.01}
{'loss': 0.0881, 'grad_norm': 0.6288642883300781, 'learning_rate': 2.1711e-05, 'epoch': 47.02}
{'loss': 0.0603, 'grad_norm': 0.8048322796821594, 'learning_rate': 2.1714e-05, 'epoch': 47.03}
{'loss': 0.0511, 'grad_norm': 0.8831266760826111, 'learning_rate': 2.1717e-05, 'epoch': 47.03}
{'loss': 0.0465, 'grad_norm': 0.49815744161605835, 'learning_rate': 2.172e-05, 'epoch': 47.04}
{'loss': 0.0368, 'grad_norm': 0.5501987934112549, 'learning_rate': 2.1723e-05, 'epoch': 47.05}
{'loss': 0.0437, 'grad_norm': 0.6603541970252991, 'learning_rate': 2.1726e-05, 'epoch': 47.05}
{'loss': 0.0752, 'grad_norm': 1.0009863376617432, 'learning_rate': 2.1729e-05, 'epoch': 47.06}
{'loss': 0.0318, 'grad_norm': 0.49270668625831604, 'learning_rate': 2.1732e-05, 'epoch': 47.06}
{'loss': 0.0306, 'grad_norm': 0.5046753287315369, 'learning_rate': 2.1735e-05, 'epoch': 47.07}
{'loss': 0.034, 'grad_norm': 0.7747657895088196, 'learning_rate': 2.1738e-05, 'epoch': 47.08}
{'loss': 0.0228, 'grad_norm': 0.993480384349823, 'learning_rate': 2.1741e-05, 'epoch': 47.08}
{'loss': 0.034, 'grad_norm': 0.6725218296051025, 'learning_rate': 2.1744e-05, 'epoch': 47.09}
{'loss': 0.0392, 'grad_norm': 0.8992119431495667, 'learning_rate': 2.1747e-05, 'epoch': 47.1}
{'loss': 0.0167, 'grad_norm': 0.5982548594474792, 'learning_rate': 2.175e-05, 'epoch': 47.1}
{'loss': 0.0294, 'grad_norm': 0.5361592173576355, 'learning_rate': 2.1753e-05, 'epoch': 47.11}
{'loss': 0.0241, 'grad_norm': 0.6103781461715698, 'learning_rate': 2.1756e-05, 'epoch': 47.12}
{'loss': 0.019, 'grad_norm': 0.8790278434753418, 'learning_rate': 2.1759e-05, 'epoch': 47.12}
{'loss': 0.0167, 'grad_norm': 0.48590824007987976, 'learning_rate': 2.1762000000000003e-05, 'epoch': 47.13}
{'loss': 0.0179, 'grad_norm': 0.5683101415634155, 'learning_rate': 2.1765000000000003e-05, 'epoch': 47.14}
{'loss': 0.0224, 'grad_norm': 0.8290939927101135, 'learning_rate': 2.1768000000000002e-05, 'epoch': 47.14}
{'loss': 0.0136, 'grad_norm': 1.1997863054275513, 'learning_rate': 2.1771000000000002e-05, 'epoch': 47.15}
{'loss': 0.0363, 'grad_norm': 0.5546011328697205, 'learning_rate': 2.1774000000000002e-05, 'epoch': 47.16}
{'loss': 0.0322, 'grad_norm': 1.9475492238998413, 'learning_rate': 2.1777000000000002e-05, 'epoch': 47.16}
{'loss': 0.0142, 'grad_norm': 1.080768346786499, 'learning_rate': 2.178e-05, 'epoch': 47.17}
{'loss': 0.0167, 'grad_norm': 1.159117341041565, 'learning_rate': 2.1782999999999998e-05, 'epoch': 47.18}
{'loss': 0.0274, 'grad_norm': 0.8558977842330933, 'learning_rate': 2.1785999999999998e-05, 'epoch': 47.18}
{'loss': 0.0327, 'grad_norm': 1.0216023921966553, 'learning_rate': 2.1788999999999998e-05, 'epoch': 47.19}
{'loss': 0.0104, 'grad_norm': 0.6056734323501587, 'learning_rate': 2.1792e-05, 'epoch': 47.19}
{'loss': 0.0091, 'grad_norm': 0.8918805122375488, 'learning_rate': 2.1795e-05, 'epoch': 47.2}
{'loss': 0.0043, 'grad_norm': 0.3328372836112976, 'learning_rate': 2.1798e-05, 'epoch': 47.21}
{'loss': 0.0073, 'grad_norm': 0.48345714807510376, 'learning_rate': 2.1801e-05, 'epoch': 47.21}
{'loss': 0.0151, 'grad_norm': 1.115060567855835, 'learning_rate': 2.1804e-05, 'epoch': 47.22}
{'loss': 0.0306, 'grad_norm': 1.344954252243042, 'learning_rate': 2.1807e-05, 'epoch': 47.23}
{'loss': 0.0431, 'grad_norm': 2.133434295654297, 'learning_rate': 2.181e-05, 'epoch': 47.23}
{'loss': 0.0609, 'grad_norm': 3.147611618041992, 'learning_rate': 2.1813e-05, 'epoch': 47.24}
{'loss': 0.0606, 'grad_norm': 2.0043225288391113, 'learning_rate': 2.1816e-05, 'epoch': 47.25}
{'loss': 0.1656, 'grad_norm': 1.477266788482666, 'learning_rate': 2.1819e-05, 'epoch': 47.25}
{'loss': 0.1344, 'grad_norm': 1.9096482992172241, 'learning_rate': 2.1822000000000002e-05, 'epoch': 47.26}
{'loss': 0.0908, 'grad_norm': 0.9184868335723877, 'learning_rate': 2.1825000000000002e-05, 'epoch': 47.27}
{'loss': 0.0732, 'grad_norm': 0.6881463527679443, 'learning_rate': 2.1828000000000002e-05, 'epoch': 47.27}
{'loss': 0.0576, 'grad_norm': 0.6855895519256592, 'learning_rate': 2.1831e-05, 'epoch': 47.28}
{'loss': 0.0575, 'grad_norm': 0.6702688336372375, 'learning_rate': 2.1834e-05, 'epoch': 47.29}
{'loss': 0.0605, 'grad_norm': 0.6962154507637024, 'learning_rate': 2.1837e-05, 'epoch': 47.29}
{'loss': 0.0706, 'grad_norm': 0.9259691834449768, 'learning_rate': 2.184e-05, 'epoch': 47.3}
{'loss': 0.0628, 'grad_norm': 1.272225022315979, 'learning_rate': 2.1843e-05, 'epoch': 47.31}
{'loss': 0.0481, 'grad_norm': 0.8470637798309326, 'learning_rate': 2.1846e-05, 'epoch': 47.31}
{'loss': 0.0423, 'grad_norm': 1.223268985748291, 'learning_rate': 2.1849e-05, 'epoch': 47.32}
{'loss': 0.0293, 'grad_norm': 0.5079959630966187, 'learning_rate': 2.1852000000000004e-05, 'epoch': 47.32}
{'loss': 0.0253, 'grad_norm': 0.6973896026611328, 'learning_rate': 2.1855e-05, 'epoch': 47.33}
{'loss': 0.0235, 'grad_norm': 0.6175279021263123, 'learning_rate': 2.1858e-05, 'epoch': 47.34}
{'loss': 0.0345, 'grad_norm': 0.8479810357093811, 'learning_rate': 2.1861e-05, 'epoch': 47.34}
{'loss': 0.0274, 'grad_norm': 0.659328818321228, 'learning_rate': 2.1864e-05, 'epoch': 47.35}
{'loss': 0.0392, 'grad_norm': 0.7642689347267151, 'learning_rate': 2.1867e-05, 'epoch': 47.36}
{'loss': 0.0318, 'grad_norm': 0.7656071782112122, 'learning_rate': 2.187e-05, 'epoch': 47.36}
{'loss': 0.0142, 'grad_norm': 0.5347545146942139, 'learning_rate': 2.1873e-05, 'epoch': 47.37}
{'loss': 0.0259, 'grad_norm': 0.6218857169151306, 'learning_rate': 2.1876e-05, 'epoch': 47.38}
{'loss': 0.0179, 'grad_norm': 0.5048543810844421, 'learning_rate': 2.1879e-05, 'epoch': 47.38}
{'loss': 0.0104, 'grad_norm': 0.6120550036430359, 'learning_rate': 2.1882e-05, 'epoch': 47.39}
{'loss': 0.0143, 'grad_norm': 1.2122281789779663, 'learning_rate': 2.1885e-05, 'epoch': 47.4}
{'loss': 0.0167, 'grad_norm': 0.7255440354347229, 'learning_rate': 2.1888e-05, 'epoch': 47.4}
{'loss': 0.0215, 'grad_norm': 0.8972841501235962, 'learning_rate': 2.1891e-05, 'epoch': 47.41}
{'loss': 0.0359, 'grad_norm': 1.4594167470932007, 'learning_rate': 2.1894e-05, 'epoch': 47.42}
{'loss': 0.0301, 'grad_norm': 1.0836149454116821, 'learning_rate': 2.1897e-05, 'epoch': 47.42}
{'loss': 0.0127, 'grad_norm': 0.9798356890678406, 'learning_rate': 2.19e-05, 'epoch': 47.43}
{'loss': 0.0463, 'grad_norm': 1.2085270881652832, 'learning_rate': 2.1903e-05, 'epoch': 47.44}
{'loss': 0.0067, 'grad_norm': 0.34682440757751465, 'learning_rate': 2.1906e-05, 'epoch': 47.44}
{'loss': 0.0197, 'grad_norm': 0.8139390349388123, 'learning_rate': 2.1909e-05, 'epoch': 47.45}
{'loss': 0.0081, 'grad_norm': 0.5044726729393005, 'learning_rate': 2.1912000000000003e-05, 'epoch': 47.45}
{'loss': 0.0124, 'grad_norm': 1.258985161781311, 'learning_rate': 2.1915000000000003e-05, 'epoch': 47.46}
{'loss': 0.024, 'grad_norm': 1.186572551727295, 'learning_rate': 2.1918000000000003e-05, 'epoch': 47.47}
{'loss': 0.0357, 'grad_norm': 1.6223251819610596, 'learning_rate': 2.1921000000000002e-05, 'epoch': 47.47}
{'loss': 0.0302, 'grad_norm': 1.8134182691574097, 'learning_rate': 2.1924000000000002e-05, 'epoch': 47.48}
{'loss': 0.0285, 'grad_norm': 2.0504069328308105, 'learning_rate': 2.1927000000000002e-05, 'epoch': 47.49}
{'loss': 0.015, 'grad_norm': 0.8576469421386719, 'learning_rate': 2.193e-05, 'epoch': 47.49}
{'loss': 0.1318, 'grad_norm': 1.1042736768722534, 'learning_rate': 2.1932999999999998e-05, 'epoch': 47.5}
{'loss': 0.0954, 'grad_norm': 0.8269374966621399, 'learning_rate': 2.1935999999999998e-05, 'epoch': 47.51}
{'loss': 0.0817, 'grad_norm': 0.8238112330436707, 'learning_rate': 2.1938999999999998e-05, 'epoch': 47.51}
{'loss': 0.0724, 'grad_norm': 0.597111165523529, 'learning_rate': 2.1942e-05, 'epoch': 47.52}
{'loss': 0.0597, 'grad_norm': 0.534464418888092, 'learning_rate': 2.1945e-05, 'epoch': 47.53}
{'loss': 0.0453, 'grad_norm': 0.456894189119339, 'learning_rate': 2.1948e-05, 'epoch': 47.53}
{'loss': 0.0576, 'grad_norm': 1.1040593385696411, 'learning_rate': 2.1951e-05, 'epoch': 47.54}
  7%|▋         | 7322/100000 [4:25:47<92:35:55,  3.60s/it]  7%|▋         | 7323/100000 [4:25:50<82:34:36,  3.21s/it]                                                            7%|▋         | 7323/100000 [4:25:50<82:34:36,  3.21s/it]  7%|▋         | 7324/100000 [4:25:52<74:46:00,  2.90s/it]                                                            7%|▋         | 7324/100000 [4:25:52<74:46:00,  2.90s/it]  7%|▋         | 7325/100000 [4:25:54<67:40:53,  2.63s/it]                                                            7%|▋         | 7325/100000 [4:25:54<67:40:53,  2.63s/it]  7%|▋         | 7326/100000 [4:25:56<62:46:28,  2.44s/it]                                                            7%|▋         | 7326/100000 [4:25:56<62:46:28,  2.44s/it]  7%|▋         | 7327/100000 [4:25:57<57:33:39,  2.24s/it]                                                            7%|▋         | 7327/100000 [4:25:58<57:33:39,  2.24s/it]  7%|▋         | 7328/100000 [4:25:59<53:13:42,  2.07s/it]                                                            7%|▋         | 7328/100000 [4:25:59<53:13:42,  2.07s/it]  7%|▋         | 7329/100000 [4:26:01<49:31:05,  1.92s/it]                                                            7%|▋         | 7329/100000 [4:26:01<49:31:05,  1.92s/it]  7%|▋         | 7330/100000 [4:26:02<46:24:03,  1.80s/it]                                                            7%|▋         | 7330/100000 [4:26:02<46:24:03,  1.80s/it]  7%|▋         | 7331/100000 [4:26:04<43:33:12,  1.69s/it]                                                            7%|▋         | 7331/100000 [4:26:04<43:33:12,  1.69s/it]  7%|▋         | 7332/100000 [4:26:05<40:48:51,  1.59s/it]                                                            7%|▋         | 7332/100000 [4:26:05<40:48:51,  1.59s/it]  7%|▋         | 7333/100000 [4:26:06<38:24:25,  1.49s/it]                                                            7%|▋         | 7333/100000 [4:26:06<38:24:25,  1.49s/it]  7%|▋         | 7334/100000 [4:26:08<36:33:12,  1.42s/it]                                                            7%|▋         | 7334/100000 [4:26:08<36:33:12,  1.42s/it]  7%|▋         | 7335/100000 [4:26:09<34:39:54,  1.35s/it]                                                            7%|▋         | 7335/100000 [4:26:09<34:39:54,  1.35s/it]  7%|▋         | 7336/100000 [4:26:10<32:39:29,  1.27s/it]                                                            7%|▋         | 7336/100000 [4:26:10<32:39:29,  1.27s/it]  7%|▋         | 7337/100000 [4:26:11<31:18:45,  1.22s/it]                                                            7%|▋         | 7337/100000 [4:26:11<31:18:45,  1.22s/it]  7%|▋         | 7338/100000 [4:26:12<29:51:59,  1.16s/it]                                                            7%|▋         | 7338/100000 [4:26:12<29:51:59,  1.16s/it]  7%|▋         | 7339/100000 [4:26:13<28:44:20,  1.12s/it]                                                            7%|▋         | 7339/100000 [4:26:13<28:44:20,  1.12s/it]  7%|▋         | 7340/100000 [4:26:14<27:25:09,  1.07s/it]                                                            7%|▋         | 7340/100000 [4:26:14<27:25:09,  1.07s/it]  7%|▋         | 7341/100000 [4:26:15<26:33:19,  1.03s/it]                                                            7%|▋         | 7341/100000 [4:26:15<26:33:19,  1.03s/it]  7%|▋         | 7342/100000 [4:26:16<25:33:55,  1.01it/s]                                                            7%|▋         | 7342/100000 [4:26:16<25:33:55,  1.01it/s]  7%|▋         | 7343/100000 [4:26:17<24:32:07,  1.05it/s]                                                            7%|▋         | 7343/100000 [4:26:17<24:32:07,  1.05it/s]  7%|▋         | 7344/100000 [4:26:17<23:40:45,  1.09it/s]                                                            7%|▋         | 7344/100000 [4:26:17<23:40:45,  1.09it/s]  7%|▋         | 7345/100000 [4:26:18<22:51:58,  1.13it/s]                                                            7%|▋         | 7345/100000 [4:26:18<22:51:58,  1.13it/s]  7%|▋         | 7346/100000 [4:26:19<22:29:19,  1.14it/s]                                                            7%|▋         | 7346/100000 [4:26:19<22:29:19,  1.14it/s]  7%|▋         | 7347/100000 [4:26:20<21:46:09,  1.18it/s]                                                            7%|▋         | 7347/100000 [4:26:20<21:46:09,  1.18it/s]  7%|▋         | 7348/100000 [4:26:21<21:24:09,  1.20it/s]                                                            7%|▋         | 7348/100000 [4:26:21<21:24:09,  1.20it/s]  7%|▋         | 7349/100000 [4:26:22<21:47:05,  1.18it/s]                                                            7%|▋         | 7349/100000 [4:26:22<21:47:05,  1.18it/s]  7%|▋         | 7350/100000 [4:26:22<20:36:24,  1.25it/s]                                                            7%|▋         | 7350/100000 [4:26:22<20:36:24,  1.25it/s]  7%|▋         | 7351/100000 [4:26:23<19:59:01,  1.29it/s]                                                            7%|▋         | 7351/100000 [4:26:23<19:59:01,  1.29it/s]  7%|▋         | 7352/100000 [4:26:24<18:53:17,  1.36it/s]                                                            7%|▋         | 7352/100000 [4:26:24<18:53:17,  1.36it/s]  7%|▋         | 7353/100000 [4:26:37<114:40:54,  4.46s/it]                                                             7%|▋         | 7353/100000 [4:26:37<114:40:54,  4.46s/it]  7%|▋         | 7354/100000 [4:26:45<140:14:40,  5.45s/it]                                                             7%|▋         | 7354/100000 [4:26:45<140:14:40,  5.45s/it]  7%|▋         | 7355/100000 [4:26:51<144:32:59,  5.62s/it]                                                             7%|▋         | 7355/100000 [4:26:51<144:32:59,  5.62s/it]  7%|▋         | 7356/100000 [4:26:55<138:27:18,  5.38s/it]                                                             7%|▋         | 7356/100000 [4:26:55<138:27:18,  5.38s/it]  7%|▋         | 7357/100000 [4:26:59<127:07:43,  4.94s/it]                                                             7%|▋         | 7357/100000 [4:26:59<127:07:43,  4.94s/it]  7%|▋         | 7358/100000 [4:27:03<116:50:20,  4.54s/it]                                                             7%|▋         | 7358/100000 [4:27:03<116:50:20,  4.54s/it]  7%|▋         | 7359/100000 [4:27:06<104:44:17,  4.07s/it]                                                             7%|▋         | 7359/100000 [4:27:06<104:44:17,  4.07s/it]  7%|▋         | 7360/100000 [4:27:09<93:53:17,  3.65s/it]                                                             7%|▋         | 7360/100000 [4:27:09<93:53:17,  3.65s/it]  7%|▋         | 7361/100000 [4:27:11<84:19:22,  3.28s/it]                                                            7%|▋         | 7361/100000 [4:27:11<84:19:22,  3.28s/it]  7%|▋         | 7362/100000 [4:27:13<75:56:59,  2.95s/it]                                                            7%|▋         | 7362/100000 [4:27:13<75:56:59,  2.95s/it]  7%|▋         | 7363/100000 [4:27:15<68:32:59,  2.66s/it]                                                            7%|▋         | 7363/100000 [4:27:15<68:32:59,  2.66s/it]  7%|▋         | 7364/100000 [4:27:17<61:55:38,  2.41s/it]                                                            7%|▋         | 7364/100000 [4:27:17<61:55:38,  2.41s/it]  7%|▋         | 7365/100000 [4:27:19<56:52:47,  2.21s/it]                                                            7%|▋         | 7365/100000 [4:27:19<56:52:47,  2.21s/it]  7%|▋         | 7366/100000 [4:27:20<52:14:32,  2.03s/it]                                                            7%|▋         | 7366/100000 [4:27:20<52:14:32,  2.03s/it]  7%|▋         | 7367/100000 [4:27:22<48:54:31,  1.90s/it]                                                            7%|▋         | 7367/100000 [4:27:22<48:54:31,  1.90s/it]  7%|▋         | 7368/100000 [4:27:23<45:39:16,  1.77s/it]                                                            7%|▋         | 7368/100000 [4:27:23<45:39:16,  1.77s/it]  7%|▋         | 7369/100000 [4:27:25<42:58:34,  1.67s/it]                                                            7%|▋         | 7369/100000 [4:27:25<42:58:34,  1.67s/it]  7%|▋         | 7370/100000 [4:27:26<40:26:26,  1.57s/it]                                                            7%|▋         | 7370/100000 [4:27:26<40:26:26,  1.57s/it]  7%|▋         | 7371/100000 [4:27:27<38:01:52,  1.48s/it]                                                            7%|▋         | 7371/100000 [4:27:27<38:01:52,  1.48s/it]  7%|▋         | 7372/100000 [4:27:29<36:11:11,  1.41s/it]                                                            7%|▋         | 7372/100000 [4:27:29<36:11:11,  1.41s/it]  7%|▋         | 7373/100000 [4:27:30<33:43:20,  1.31s/it]                                                            7%|▋         | 7373/100000 [4:27:30<33:43:20,  1.31s/it]  7%|▋         | 7374/100000 [4:27:31<31:59:15,  1.24s/it]                                                            7%|▋         | 7374/100000 [4:27:31<31:59:15,  1.24s/it]  7%|▋         | 7375/100000 [4:27:32<30:41:24,  1.19s/it]                                                            7%|▋         | 7375/100000 [4:27:32<30:41:24,  1.19s/it]  7%|▋         | 7376/100000 [4:27:33<29:15:54,  1.14s/it]                                                            7%|▋         | 7376/100000 [4:27:33<29:15:54,  1.14s/it]  7%|▋         | 7377/100000 [4:27:34<27:24:02,  1.06s/it]                                                            7%|▋         | 7377/100000 [4:27:34<27:24:02,  1.06s/it]  7%|▋         | 7378/100000 [4:27:35<26:12:47,  1.02s/it]                                                            7%|▋         | 7378/100000 [4:27:35<26:12:47,  1.02s/it]  7%|▋         | 7379/100000 [4:27:36<25:08:04,  1.02it/s]                                                            7%|▋         | 7379/100000 [4:27:36<25:08:04,  1.02it/s]  7%|▋         | 7380/100000 [4:27:36<23:55:47,  1.08it/s]                                                            7%|▋         | 7380/100000 [4:27:36<23:55:47,  1.08it/s]  7%|▋         | 7381/100000 [4:27:37<23:21:17,  1.10it/s]                                                            7%|▋         | 7381/100000 [4:27:37<23:21:17,  1.10it/s]  7%|▋         | 7382/100000 [4:27:38<22:47:09,  1.13it/s]                                                            7%|▋         | 7382/100000 [4:27:38<22:47:09,  1.13it/s]  7%|▋         | 7383/100000 [4:27:39<21:56:29,  1.17it/s]                                                            7%|▋         | 7383/100000 [4:27:39<21:56:29,  1.17it/s]  7%|▋         | 7384/100000 [4:27:40<21:22:22,  1.20it/s]                                                            7%|▋         | 7384/100000 [4:27:40<21:22:22,  1.20it/s]  7%|▋         | 7385/100000 [4:27:40<20:13:54,  1.27it/s]                                                            7%|▋         | 7385/100000 [4:27:40<20:13:54,  1.27it/s]  7%|▋         | 7386/100000 [4:27:41<19:22:50,  1.33it/s]                                                            7%|▋         | 7386/100000 [4:27:41<19:22:50,  1.33it/s]  7%|▋         | 7387/100000 [4:27:42<19:12:00,  1.34it/s]                                                            7%|▋         | 7387/100000 [4:27:42<19:12:00,  1.34it/s]  7%|▋         | 7388/100000 [4:27:42<18:34:53,  1.38it/s]                                                            7%|▋         | 7388/100000 [4:27:42<18:34:53,  1.38it/s]  7%|▋         | 7389/100000 [4:27:43<18:09:57,  1.42it/s]                                                            7%|▋         | 7389/100000 [4:27:43<18:09:57,  1.42it/s]  7%|▋         | 7390/100000 [4:27:44<17:13:36,  1.49it/s]                                                            7%|▋         | 7390/100000 [4:27:44<17:13:36,  1.49it/s]  7%|▋         | 7391/100000 [4:27:50<62:53:00,  2.44s/it]                                                            7%|▋         | 7391/100000 [4:27:50<62:53:00,  2.44s/it]  7%|▋         | 7392/100000 [4:27:52<53:53:17,  2.09s/it]                                                            7%|▋         | 7392/100000 [4:27:52<53:53:17,  2.09s/it]{'loss': 0.041, 'grad_norm': 0.5696249008178711, 'learning_rate': 2.1954e-05, 'epoch': 47.55}
{'loss': 0.0448, 'grad_norm': 0.787509560585022, 'learning_rate': 2.1957e-05, 'epoch': 47.55}
{'loss': 0.0614, 'grad_norm': 0.9043580293655396, 'learning_rate': 2.196e-05, 'epoch': 47.56}
{'loss': 0.0442, 'grad_norm': 0.7975749969482422, 'learning_rate': 2.1963e-05, 'epoch': 47.56}
{'loss': 0.0473, 'grad_norm': 0.7034626603126526, 'learning_rate': 2.1966e-05, 'epoch': 47.57}
{'loss': 0.0443, 'grad_norm': 0.7678623795509338, 'learning_rate': 2.1969e-05, 'epoch': 47.58}
{'loss': 0.0279, 'grad_norm': 0.6132237911224365, 'learning_rate': 2.1972000000000002e-05, 'epoch': 47.58}
{'loss': 0.0291, 'grad_norm': 0.6442697644233704, 'learning_rate': 2.1975000000000002e-05, 'epoch': 47.59}
{'loss': 0.0783, 'grad_norm': 1.0357404947280884, 'learning_rate': 2.1978000000000002e-05, 'epoch': 47.6}
{'loss': 0.0353, 'grad_norm': 0.9992433190345764, 'learning_rate': 2.1981000000000002e-05, 'epoch': 47.6}
{'loss': 0.0356, 'grad_norm': 0.8730611205101013, 'learning_rate': 2.1984e-05, 'epoch': 47.61}
{'loss': 0.0251, 'grad_norm': 1.0609546899795532, 'learning_rate': 2.1987e-05, 'epoch': 47.62}
{'loss': 0.0226, 'grad_norm': 0.8243615627288818, 'learning_rate': 2.199e-05, 'epoch': 47.62}
{'loss': 0.0133, 'grad_norm': 0.36552533507347107, 'learning_rate': 2.1993e-05, 'epoch': 47.63}
{'loss': 0.0122, 'grad_norm': 0.38840800523757935, 'learning_rate': 2.1996e-05, 'epoch': 47.64}
{'loss': 0.0112, 'grad_norm': 0.9885716438293457, 'learning_rate': 2.1999e-05, 'epoch': 47.64}
{'loss': 0.0162, 'grad_norm': 1.9542126655578613, 'learning_rate': 2.2002e-05, 'epoch': 47.65}
{'loss': 0.0131, 'grad_norm': 0.4977444112300873, 'learning_rate': 2.2005e-05, 'epoch': 47.66}
{'loss': 0.0173, 'grad_norm': 1.1106085777282715, 'learning_rate': 2.2008e-05, 'epoch': 47.66}
{'loss': 0.0073, 'grad_norm': 0.4143794775009155, 'learning_rate': 2.2011e-05, 'epoch': 47.67}
{'loss': 0.0156, 'grad_norm': 0.7156421542167664, 'learning_rate': 2.2014e-05, 'epoch': 47.68}
{'loss': 0.0619, 'grad_norm': 0.9772223234176636, 'learning_rate': 2.2017e-05, 'epoch': 47.68}
{'loss': 0.0123, 'grad_norm': 0.6145195364952087, 'learning_rate': 2.202e-05, 'epoch': 47.69}
{'loss': 0.0249, 'grad_norm': 2.0410265922546387, 'learning_rate': 2.2023e-05, 'epoch': 47.69}
{'loss': 0.0181, 'grad_norm': 0.9594005346298218, 'learning_rate': 2.2026e-05, 'epoch': 47.7}
{'loss': 0.0105, 'grad_norm': 1.194515585899353, 'learning_rate': 2.2029e-05, 'epoch': 47.71}
{'loss': 0.0151, 'grad_norm': 1.08328115940094, 'learning_rate': 2.2032000000000002e-05, 'epoch': 47.71}
{'loss': 0.035, 'grad_norm': 1.2465118169784546, 'learning_rate': 2.2035e-05, 'epoch': 47.72}
{'loss': 0.0715, 'grad_norm': 1.9513243436813354, 'learning_rate': 2.2038e-05, 'epoch': 47.73}
{'loss': 0.0213, 'grad_norm': 1.3368933200836182, 'learning_rate': 2.2041e-05, 'epoch': 47.73}
{'loss': 0.0357, 'grad_norm': 1.4804699420928955, 'learning_rate': 2.2044e-05, 'epoch': 47.74}
{'loss': 0.1764, 'grad_norm': 1.0696792602539062, 'learning_rate': 2.2047e-05, 'epoch': 47.75}
{'loss': 0.136, 'grad_norm': 0.9754189252853394, 'learning_rate': 2.205e-05, 'epoch': 47.75}
{'loss': 0.088, 'grad_norm': 0.6685559153556824, 'learning_rate': 2.2053e-05, 'epoch': 47.76}
{'loss': 0.0674, 'grad_norm': 0.5941315293312073, 'learning_rate': 2.2056e-05, 'epoch': 47.77}
{'loss': 0.0695, 'grad_norm': 0.5721414089202881, 'learning_rate': 2.2059e-05, 'epoch': 47.77}
{'loss': 0.059, 'grad_norm': 0.8169716000556946, 'learning_rate': 2.2062000000000003e-05, 'epoch': 47.78}
{'loss': 0.0452, 'grad_norm': 0.6157453656196594, 'learning_rate': 2.2065000000000003e-05, 'epoch': 47.79}
{'loss': 0.0462, 'grad_norm': 0.6025559306144714, 'learning_rate': 2.2068000000000003e-05, 'epoch': 47.79}
{'loss': 0.0389, 'grad_norm': 0.6190391182899475, 'learning_rate': 2.2071000000000003e-05, 'epoch': 47.8}
{'loss': 0.0334, 'grad_norm': 0.5192304253578186, 'learning_rate': 2.2074000000000002e-05, 'epoch': 47.81}
{'loss': 0.0422, 'grad_norm': 0.7386945486068726, 'learning_rate': 2.2077e-05, 'epoch': 47.81}
{'loss': 0.0349, 'grad_norm': 0.8053735494613647, 'learning_rate': 2.208e-05, 'epoch': 47.82}
{'loss': 0.0368, 'grad_norm': 1.8872867822647095, 'learning_rate': 2.2083e-05, 'epoch': 47.82}
{'loss': 0.0242, 'grad_norm': 0.6298043727874756, 'learning_rate': 2.2085999999999998e-05, 'epoch': 47.83}
{'loss': 0.0399, 'grad_norm': 0.7848415970802307, 'learning_rate': 2.2088999999999998e-05, 'epoch': 47.84}
{'loss': 0.0235, 'grad_norm': 0.47472891211509705, 'learning_rate': 2.2092e-05, 'epoch': 47.84}
{'loss': 0.0202, 'grad_norm': 0.6032178401947021, 'learning_rate': 2.2095e-05, 'epoch': 47.85}
{'loss': 0.0217, 'grad_norm': 0.6474823355674744, 'learning_rate': 2.2098e-05, 'epoch': 47.86}
{'loss': 0.0213, 'grad_norm': 0.822688639163971, 'learning_rate': 2.2101e-05, 'epoch': 47.86}
{'loss': 0.0187, 'grad_norm': 0.5679406523704529, 'learning_rate': 2.2104e-05, 'epoch': 47.87}
{'loss': 0.0334, 'grad_norm': 0.9025001525878906, 'learning_rate': 2.2107e-05, 'epoch': 47.88}
{'loss': 0.0198, 'grad_norm': 0.6526265144348145, 'learning_rate': 2.211e-05, 'epoch': 47.88}
{'loss': 0.0322, 'grad_norm': 0.7383239269256592, 'learning_rate': 2.2113e-05, 'epoch': 47.89}
{'loss': 0.0188, 'grad_norm': 0.8243243098258972, 'learning_rate': 2.2116e-05, 'epoch': 47.9}
{'loss': 0.0248, 'grad_norm': 0.7107781767845154, 'learning_rate': 2.2119e-05, 'epoch': 47.9}
{'loss': 0.0375, 'grad_norm': 1.6382440328598022, 'learning_rate': 2.2122000000000003e-05, 'epoch': 47.91}
{'loss': 0.0531, 'grad_norm': 1.3373509645462036, 'learning_rate': 2.2125000000000002e-05, 'epoch': 47.92}
{'loss': 0.028, 'grad_norm': 0.8562478423118591, 'learning_rate': 2.2128000000000002e-05, 'epoch': 47.92}
{'loss': 0.0998, 'grad_norm': 0.874460756778717, 'learning_rate': 2.2131000000000002e-05, 'epoch': 47.93}
{'loss': 0.0256, 'grad_norm': 1.6352157592773438, 'learning_rate': 2.2134000000000002e-05, 'epoch': 47.94}
{'loss': 0.0188, 'grad_norm': 1.0415383577346802, 'learning_rate': 2.2137e-05, 'epoch': 47.94}
{'loss': 0.0661, 'grad_norm': 3.184248208999634, 'learning_rate': 2.214e-05, 'epoch': 47.95}
{'loss': 0.0078, 'grad_norm': 0.7742404937744141, 'learning_rate': 2.2143e-05, 'epoch': 47.95}
{'loss': 0.0081, 'grad_norm': 0.4926927089691162, 'learning_rate': 2.2146e-05, 'epoch': 47.96}
{'loss': 0.0322, 'grad_norm': 2.224087953567505, 'learning_rate': 2.2149e-05, 'epoch': 47.97}
{'loss': 0.0193, 'grad_norm': 0.8555344939231873, 'learning_rate': 2.2151999999999997e-05, 'epoch': 47.97}
{'loss': 0.0219, 'grad_norm': 1.2289574146270752, 'learning_rate': 2.2155e-05, 'epoch': 47.98}
{'loss': 0.0366, 'grad_norm': 1.685417890548706, 'learning_rate': 2.2158e-05, 'epoch': 47.99}
{'loss': 0.0646, 'grad_norm': 0.7799661159515381, 'learning_rate': 2.2161e-05, 'epoch': 47.99}
{'loss': 0.0144, 'grad_norm': 0.700987696647644, 'learning_rate': 2.2164e-05, 'epoch': 48.0}
  7%|▋         | 7393/100000 [4:28:09<173:35:50,  6.75s/it]                                                             7%|▋         | 7393/100000 [4:28:09<173:35:50,  6.75s/it]  7%|▋         | 7394/100000 [4:28:17<184:52:47,  7.19s/it]                                                             7%|▋         | 7394/100000 [4:28:17<184:52:47,  7.19s/it]  7%|▋         | 7395/100000 [4:28:23<173:36:29,  6.75s/it]                                                             7%|▋         | 7395/100000 [4:28:23<173:36:29,  6.75s/it]  7%|▋         | 7396/100000 [4:28:28<159:06:00,  6.19s/it]                                                             7%|▋         | 7396/100000 [4:28:28<159:06:00,  6.19s/it]  7%|▋         | 7397/100000 [4:28:32<141:44:40,  5.51s/it]                                                             7%|▋         | 7397/100000 [4:28:32<141:44:40,  5.51s/it]  7%|▋         | 7398/100000 [4:28:36<127:54:50,  4.97s/it]                                                             7%|▋         | 7398/100000 [4:28:36<127:54:50,  4.97s/it]  7%|▋         | 7399/100000 [4:28:39<114:51:58,  4.47s/it]                                                             7%|▋         | 7399/100000 [4:28:39<114:51:58,  4.47s/it]  7%|▋         | 7400/100000 [4:28:42<103:08:59,  4.01s/it]                                                             7%|▋         | 7400/100000 [4:28:42<103:08:59,  4.01s/it]  7%|▋         | 7401/100000 [4:28:44<92:09:02,  3.58s/it]                                                             7%|▋         | 7401/100000 [4:28:44<92:09:02,  3.58s/it]  7%|▋         | 7402/100000 [4:28:47<81:54:20,  3.18s/it]                                                            7%|▋         | 7402/100000 [4:28:47<81:54:20,  3.18s/it]  7%|▋         | 7403/100000 [4:28:49<73:26:46,  2.86s/it]                                                            7%|▋         | 7403/100000 [4:28:49<73:26:46,  2.86s/it]  7%|▋         | 7404/100000 [4:28:51<66:25:48,  2.58s/it]                                                            7%|▋         | 7404/100000 [4:28:51<66:25:48,  2.58s/it]  7%|▋         | 7405/100000 [4:28:52<60:13:38,  2.34s/it]                                                            7%|▋         | 7405/100000 [4:28:53<60:13:38,  2.34s/it]  7%|▋         | 7406/100000 [4:28:54<54:50:15,  2.13s/it]                                                            7%|▋         | 7406/100000 [4:28:54<54:50:15,  2.13s/it]  7%|▋         | 7407/100000 [4:28:56<50:51:13,  1.98s/it]                                                            7%|▋         | 7407/100000 [4:28:56<50:51:13,  1.98s/it]  7%|▋         | 7408/100000 [4:28:57<47:20:21,  1.84s/it]                                                            7%|▋         | 7408/100000 [4:28:57<47:20:21,  1.84s/it]  7%|▋         | 7409/100000 [4:28:59<44:09:19,  1.72s/it]                                                            7%|▋         | 7409/100000 [4:28:59<44:09:19,  1.72s/it]  7%|▋         | 7410/100000 [4:29:00<41:38:08,  1.62s/it]                                                            7%|▋         | 7410/100000 [4:29:00<41:38:08,  1.62s/it]  7%|▋         | 7411/100000 [4:29:01<39:12:29,  1.52s/it]                                                            7%|▋         | 7411/100000 [4:29:01<39:12:29,  1.52s/it]  7%|▋         | 7412/100000 [4:29:03<36:54:12,  1.43s/it]                                                            7%|▋         | 7412/100000 [4:29:03<36:54:12,  1.43s/it]  7%|▋         | 7413/100000 [4:29:04<34:52:40,  1.36s/it]                                                            7%|▋         | 7413/100000 [4:29:04<34:52:40,  1.36s/it]  7%|▋         | 7414/100000 [4:29:05<32:42:36,  1.27s/it]                                                            7%|▋         | 7414/100000 [4:29:05<32:42:36,  1.27s/it]  7%|▋         | 7415/100000 [4:29:06<31:13:16,  1.21s/it]                                                            7%|▋         | 7415/100000 [4:29:06<31:13:16,  1.21s/it]  7%|▋         | 7416/100000 [4:29:07<29:42:13,  1.15s/it]                                                            7%|▋         | 7416/100000 [4:29:07<29:42:13,  1.15s/it]  7%|▋         | 7417/100000 [4:29:08<28:02:07,  1.09s/it]                                                            7%|▋         | 7417/100000 [4:29:08<28:02:07,  1.09s/it]  7%|▋         | 7418/100000 [4:29:09<26:43:54,  1.04s/it]                                                            7%|▋         | 7418/100000 [4:29:09<26:43:54,  1.04s/it]  7%|▋         | 7419/100000 [4:29:10<25:41:26,  1.00it/s]                                                            7%|▋         | 7419/100000 [4:29:10<25:41:26,  1.00it/s]  7%|▋         | 7420/100000 [4:29:11<24:47:01,  1.04it/s]                                                            7%|▋         | 7420/100000 [4:29:11<24:47:01,  1.04it/s]  7%|▋         | 7421/100000 [4:29:11<24:00:29,  1.07it/s]                                                            7%|▋         | 7421/100000 [4:29:11<24:00:29,  1.07it/s]  7%|▋         | 7422/100000 [4:29:12<23:25:48,  1.10it/s]                                                            7%|▋         | 7422/100000 [4:29:12<23:25:48,  1.10it/s]  7%|▋         | 7423/100000 [4:29:13<22:42:54,  1.13it/s]                                                            7%|▋         | 7423/100000 [4:29:13<22:42:54,  1.13it/s]  7%|▋         | 7424/100000 [4:29:14<21:50:34,  1.18it/s]                                                            7%|▋         | 7424/100000 [4:29:14<21:50:34,  1.18it/s]  7%|▋         | 7425/100000 [4:29:15<21:02:42,  1.22it/s]                                                            7%|▋         | 7425/100000 [4:29:15<21:02:42,  1.22it/s]  7%|▋         | 7426/100000 [4:29:16<21:22:31,  1.20it/s]                                                            7%|▋         | 7426/100000 [4:29:16<21:22:31,  1.20it/s]  7%|▋         | 7427/100000 [4:29:16<21:01:27,  1.22it/s]                                                            7%|▋         | 7427/100000 [4:29:16<21:01:27,  1.22it/s]  7%|▋         | 7428/100000 [4:29:17<20:13:06,  1.27it/s]                                                            7%|▋         | 7428/100000 [4:29:17<20:13:06,  1.27it/s]  7%|▋         | 7429/100000 [4:29:18<19:23:31,  1.33it/s]                                                            7%|▋         | 7429/100000 [4:29:18<19:23:31,  1.33it/s]  7%|▋         | 7430/100000 [4:29:18<18:08:43,  1.42it/s]                                                            7%|▋         | 7430/100000 [4:29:18<18:08:43,  1.42it/s]  7%|▋         | 7431/100000 [4:29:29<98:53:28,  3.85s/it]                                                            7%|▋         | 7431/100000 [4:29:29<98:53:28,  3.85s/it]  7%|▋         | 7432/100000 [4:29:37<129:03:19,  5.02s/it]                                                             7%|▋         | 7432/100000 [4:29:37<129:03:19,  5.02s/it]  7%|▋         | 7433/100000 [4:29:43<131:21:38,  5.11s/it]                                                             7%|▋         | 7433/100000 [4:29:43<131:21:38,  5.11s/it]  7%|▋         | 7434/100000 [4:29:47<126:57:28,  4.94s/it]                                                             7%|▋         | 7434/100000 [4:29:47<126:57:28,  4.94s/it]  7%|▋         | 7435/100000 [4:29:51<119:49:40,  4.66s/it]                                                             7%|▋         | 7435/100000 [4:29:51<119:49:40,  4.66s/it]  7%|▋         | 7436/100000 [4:29:55<110:48:46,  4.31s/it]                                                             7%|▋         | 7436/100000 [4:29:55<110:48:46,  4.31s/it]  7%|▋         | 7437/100000 [4:29:58<101:04:28,  3.93s/it]                                                             7%|▋         | 7437/100000 [4:29:58<101:04:28,  3.93s/it]  7%|▋         | 7438/100000 [4:30:00<91:27:48,  3.56s/it]                                                             7%|▋         | 7438/100000 [4:30:00<91:27:48,  3.56s/it]  7%|▋         | 7439/100000 [4:30:03<82:05:22,  3.19s/it]                                                            7%|▋         | 7439/100000 [4:30:03<82:05:22,  3.19s/it]  7%|▋         | 7440/100000 [4:30:05<72:44:51,  2.83s/it]                                                            7%|▋         | 7440/100000 [4:30:05<72:44:51,  2.83s/it]  7%|▋         | 7441/100000 [4:30:07<66:06:38,  2.57s/it]                                                            7%|▋         | 7441/100000 [4:30:07<66:06:38,  2.57s/it]  7%|▋         | 7442/100000 [4:30:08<60:12:11,  2.34s/it]                                                            7%|▋         | 7442/100000 [4:30:08<60:12:11,  2.34s/it]  7%|▋         | 7443/100000 [4:30:10<54:55:43,  2.14s/it]                                                            7%|▋         | 7443/100000 [4:30:10<54:55:43,  2.14s/it]  7%|▋         | 7444/100000 [4:30:12<50:51:28,  1.98s/it]                                                            7%|▋         | 7444/100000 [4:30:12<50:51:28,  1.98s/it]  7%|▋         | 7445/100000 [4:30:13<46:54:06,  1.82s/it]                                                            7%|▋         | 7445/100000 [4:30:13<46:54:06,  1.82s/it]  7%|▋         | 7446/100000 [4:30:15<44:07:37,  1.72s/it]                                                            7%|▋         | 7446/100000 [4:30:15<44:07:37,  1.72s/it]  7%|▋         | 7447/100000 [4:30:16<41:18:44,  1.61s/it]                                                            7%|▋         | 7447/100000 [4:30:16<41:18:44,  1.61s/it]  7%|▋         | 7448/100000 [4:30:17<39:17:40,  1.53s/it]                                                            7%|▋         | 7448/100000 [4:30:17<39:17:40,  1.53s/it]  7%|▋         | 7449/100000 [4:30:19<37:20:14,  1.45s/it]                                                            7%|▋         | 7449/100000 [4:30:19<37:20:14,  1.45s/it]  7%|▋         | 7450/100000 [4:30:20<35:37:21,  1.39s/it]                                                            7%|▋         | 7450/100000 [4:30:20<35:37:21,  1.39s/it]  7%|▋         | 7451/100000 [4:30:21<33:29:58,  1.30s/it]                                                            7%|▋         | 7451/100000 [4:30:21<33:29:58,  1.30s/it]  7%|▋         | 7452/100000 [4:30:22<31:52:36,  1.24s/it]                                                            7%|▋         | 7452/100000 [4:30:22<31:52:36,  1.24s/it]  7%|▋         | 7453/100000 [4:30:23<30:26:56,  1.18s/it]                                                            7%|▋         | 7453/100000 [4:30:23<30:26:56,  1.18s/it]  7%|▋         | 7454/100000 [4:30:24<29:02:12,  1.13s/it]                                                            7%|▋         | 7454/100000 [4:30:24<29:02:12,  1.13s/it]  7%|▋         | 7455/100000 [4:30:25<27:38:21,  1.08s/it]                                                            7%|▋         | 7455/100000 [4:30:25<27:38:21,  1.08s/it]  7%|▋         | 7456/100000 [4:30:26<26:29:26,  1.03s/it]                                                            7%|▋         | 7456/100000 [4:30:26<26:29:26,  1.03s/it]  7%|▋         | 7457/100000 [4:30:27<25:36:12,  1.00it/s]                                                            7%|▋         | 7457/100000 [4:30:27<25:36:12,  1.00it/s]  7%|▋         | 7458/100000 [4:30:28<24:52:12,  1.03it/s]                                                            7%|▋         | 7458/100000 [4:30:28<24:52:12,  1.03it/s]  7%|▋         | 7459/100000 [4:30:29<24:17:15,  1.06it/s]                                                            7%|▋         | 7459/100000 [4:30:29<24:17:15,  1.06it/s]  7%|▋         | 7460/100000 [4:30:30<23:48:16,  1.08it/s]                                                            7%|▋         | 7460/100000 [4:30:30<23:48:16,  1.08it/s]  7%|▋         | 7461/100000 [4:30:30<23:12:20,  1.11it/s]                                                            7%|▋         | 7461/100000 [4:30:30<23:12:20,  1.11it/s]  7%|▋         | 7462/100000 [4:30:31<22:34:45,  1.14it/s]                                                            7%|▋         | 7462/100000 [4:30:31<22:34:45,  1.14it/s]  7%|▋         | 7463/100000 [4:30:32<22:05:32,  1.16it/s]                                                            7%|▋         | 7463/100000 [4:30:32<22:05:32,  1.16it/s]  7%|▋         | 7464/100000 [4:30:33<21:35:46,  1.19it/s]                                                            7%|▋         | 7464/100000 [4:30:33<21:35:46,  1.19it/s]  7%|▋         | 7465/100000 [4:30:34<20:30:04,  1.25it/s]                                                            7%|▋         | 7465/100000 [4:30:34<20:30:04,  1.25it/s]  7%|▋         | 7466/100000 [4:30:34<20:14:42,  1.27it/s]                                                            7%|▋         | 7466/100000 [4:30:34<20:14:42,  1.27it/s]  7%|▋         | 7467/100000 [4:30:35<19:55:59,  1.29it/s]                                                            7%|▋         | 7467/100000 [4:30:35<19:55:59,  1.29it/s]  7%|▋         | 7468/100000 [4:30:36<19:03:05,  1.35it/s]                                                            7%|▋         | 7468/100000 [4:30:36<19:03:05,  1.35it/s]  7%|▋         | 7469/100000 [4:30:49<115:33:34,  4.50s/it]                                                             7%|▋         | 7469/100000 [4:30:49<115:33:34,  4.50s/it]  7%|▋         | 7470/100000 [4:30:57<144:15:12,  5.61s/it]                                                             7%|▋         | 7470/100000 [4:30:57<144:15:12,  5.61s/it]  7%|▋         | 7471/100000 [4:31:02<141:17:53,  5.50s/it]                                                             7%|▋         | 7471/100000 [4:31:02<141:17:53,  5.50s/it]  7%|▋         | 7472/100000 [4:31:07<134:20:12,  5.23s/it]                                                             7%|▋         | 7472/100000 [4:31:07<134:20:12,  5.23s/it]  7%|▋         | 7473/100000 [4:31:11<122:50:46,  4.78s/it]                                                             7%|▋         | 7473/100000 [4:31:11<122:50:46,  4.78s/it]  7%|▋         | 7474/100000 [4:31:14<110:05:32,  4.28s/it]                                                             7%|▋         | 7474/100000 [4:31:14<110:05:32,  4.28s/it]  7%|▋         | 7475/100000 [4:31:17<98:57:20,  3.85s/it]                                                             7%|▋         | 7475/100000 [4:31:17<98:57:20,  3.85s/it]  7%|▋         | 7476/100000 [4:31:19<87:26:16,  3.40s/it]                                                            7%|▋         | 7476/100000 [4:31:19<87:26:16,  3.40s/it]  7%|▋         | 7477/100000 [4:31:21<78:31:01,  3.06s/it]                                                          {'loss': 0.1474, 'grad_norm': 1.2254083156585693, 'learning_rate': 2.2167e-05, 'epoch': 48.01}
{'loss': 0.0968, 'grad_norm': 0.8193152546882629, 'learning_rate': 2.217e-05, 'epoch': 48.01}
{'loss': 0.0951, 'grad_norm': 0.6895842552185059, 'learning_rate': 2.2173e-05, 'epoch': 48.02}
{'loss': 0.0623, 'grad_norm': 0.6007095575332642, 'learning_rate': 2.2176e-05, 'epoch': 48.03}
{'loss': 0.059, 'grad_norm': 0.4942731261253357, 'learning_rate': 2.2179e-05, 'epoch': 48.03}
{'loss': 0.0566, 'grad_norm': 0.7117667198181152, 'learning_rate': 2.2182e-05, 'epoch': 48.04}
{'loss': 0.0426, 'grad_norm': 0.716370701789856, 'learning_rate': 2.2185000000000002e-05, 'epoch': 48.05}
{'loss': 0.0341, 'grad_norm': 0.5404720306396484, 'learning_rate': 2.2188e-05, 'epoch': 48.05}
{'loss': 0.0278, 'grad_norm': 0.4040619134902954, 'learning_rate': 2.2191e-05, 'epoch': 48.06}
{'loss': 0.0536, 'grad_norm': 0.5924820303916931, 'learning_rate': 2.2194e-05, 'epoch': 48.06}
{'loss': 0.033, 'grad_norm': 0.6163691878318787, 'learning_rate': 2.2197e-05, 'epoch': 48.07}
{'loss': 0.0165, 'grad_norm': 0.32329675555229187, 'learning_rate': 2.22e-05, 'epoch': 48.08}
{'loss': 0.0228, 'grad_norm': 0.6640217900276184, 'learning_rate': 2.2203e-05, 'epoch': 48.08}
{'loss': 0.0316, 'grad_norm': 0.5053070187568665, 'learning_rate': 2.2206e-05, 'epoch': 48.09}
{'loss': 0.0241, 'grad_norm': 0.5270048975944519, 'learning_rate': 2.2209e-05, 'epoch': 48.1}
{'loss': 0.0282, 'grad_norm': 1.0843305587768555, 'learning_rate': 2.2212e-05, 'epoch': 48.1}
{'loss': 0.0164, 'grad_norm': 0.48025378584861755, 'learning_rate': 2.2215000000000003e-05, 'epoch': 48.11}
{'loss': 0.0161, 'grad_norm': 0.6680988669395447, 'learning_rate': 2.2218000000000003e-05, 'epoch': 48.12}
{'loss': 0.0331, 'grad_norm': 0.8883902430534363, 'learning_rate': 2.2221000000000003e-05, 'epoch': 48.12}
{'loss': 0.0177, 'grad_norm': 0.6138500571250916, 'learning_rate': 2.2224e-05, 'epoch': 48.13}
{'loss': 0.0183, 'grad_norm': 0.5830053091049194, 'learning_rate': 2.2227e-05, 'epoch': 48.14}
{'loss': 0.0172, 'grad_norm': 0.9895625114440918, 'learning_rate': 2.223e-05, 'epoch': 48.14}
{'loss': 0.0109, 'grad_norm': 1.0241694450378418, 'learning_rate': 2.2233e-05, 'epoch': 48.15}
{'loss': 0.0096, 'grad_norm': 0.34256190061569214, 'learning_rate': 2.2236e-05, 'epoch': 48.16}
{'loss': 0.0095, 'grad_norm': 0.5329529643058777, 'learning_rate': 2.2239e-05, 'epoch': 48.16}
{'loss': 0.0165, 'grad_norm': 1.6050925254821777, 'learning_rate': 2.2241999999999998e-05, 'epoch': 48.17}
{'loss': 0.0192, 'grad_norm': 0.8863075375556946, 'learning_rate': 2.2245e-05, 'epoch': 48.18}
{'loss': 0.0108, 'grad_norm': 0.5676172971725464, 'learning_rate': 2.2248e-05, 'epoch': 48.18}
{'loss': 0.0155, 'grad_norm': 1.061537742614746, 'learning_rate': 2.2251e-05, 'epoch': 48.19}
{'loss': 0.0112, 'grad_norm': 0.6638559699058533, 'learning_rate': 2.2254e-05, 'epoch': 48.19}
{'loss': 0.0203, 'grad_norm': 1.0004472732543945, 'learning_rate': 2.2257e-05, 'epoch': 48.2}
{'loss': 0.0059, 'grad_norm': 0.3924870789051056, 'learning_rate': 2.226e-05, 'epoch': 48.21}
{'loss': 0.0086, 'grad_norm': 0.6080009937286377, 'learning_rate': 2.2263e-05, 'epoch': 48.21}
{'loss': 0.0038, 'grad_norm': 0.7362149357795715, 'learning_rate': 2.2266e-05, 'epoch': 48.22}
{'loss': 0.0267, 'grad_norm': 1.1998153924942017, 'learning_rate': 2.2269e-05, 'epoch': 48.23}
{'loss': 0.011, 'grad_norm': 0.6985376477241516, 'learning_rate': 2.2272e-05, 'epoch': 48.23}
{'loss': 0.0153, 'grad_norm': 1.4938782453536987, 'learning_rate': 2.2275000000000003e-05, 'epoch': 48.24}
{'loss': 0.0172, 'grad_norm': 1.131587028503418, 'learning_rate': 2.2278000000000003e-05, 'epoch': 48.25}
{'loss': 0.1273, 'grad_norm': 1.1071330308914185, 'learning_rate': 2.2281000000000002e-05, 'epoch': 48.25}
{'loss': 0.0728, 'grad_norm': 0.6379034519195557, 'learning_rate': 2.2284000000000002e-05, 'epoch': 48.26}
{'loss': 0.0783, 'grad_norm': 0.7330259680747986, 'learning_rate': 2.2287000000000002e-05, 'epoch': 48.27}
{'loss': 0.0674, 'grad_norm': 0.940498948097229, 'learning_rate': 2.2290000000000002e-05, 'epoch': 48.27}
{'loss': 0.0584, 'grad_norm': 0.7150653600692749, 'learning_rate': 2.2293e-05, 'epoch': 48.28}
{'loss': 0.0409, 'grad_norm': 0.4783508777618408, 'learning_rate': 2.2296e-05, 'epoch': 48.29}
{'loss': 0.0368, 'grad_norm': 0.5376025438308716, 'learning_rate': 2.2298999999999998e-05, 'epoch': 48.29}
{'loss': 0.0472, 'grad_norm': 0.7481003403663635, 'learning_rate': 2.2301999999999998e-05, 'epoch': 48.3}
{'loss': 0.0369, 'grad_norm': 0.5993119478225708, 'learning_rate': 2.2305e-05, 'epoch': 48.31}
{'loss': 0.0449, 'grad_norm': 0.6628870368003845, 'learning_rate': 2.2308e-05, 'epoch': 48.31}
{'loss': 0.0438, 'grad_norm': 1.0349684953689575, 'learning_rate': 2.2311e-05, 'epoch': 48.32}
{'loss': 0.0274, 'grad_norm': 0.5282625555992126, 'learning_rate': 2.2314e-05, 'epoch': 48.32}
{'loss': 0.0292, 'grad_norm': 0.6065698862075806, 'learning_rate': 2.2317e-05, 'epoch': 48.33}
{'loss': 0.0185, 'grad_norm': 0.6100849509239197, 'learning_rate': 2.232e-05, 'epoch': 48.34}
{'loss': 0.0196, 'grad_norm': 0.610034704208374, 'learning_rate': 2.2323e-05, 'epoch': 48.34}
{'loss': 0.0252, 'grad_norm': 0.5186688899993896, 'learning_rate': 2.2326e-05, 'epoch': 48.35}
{'loss': 0.0249, 'grad_norm': 1.264256238937378, 'learning_rate': 2.2329e-05, 'epoch': 48.36}
{'loss': 0.0217, 'grad_norm': 0.5113312602043152, 'learning_rate': 2.2332e-05, 'epoch': 48.36}
{'loss': 0.0182, 'grad_norm': 0.553104043006897, 'learning_rate': 2.2335000000000002e-05, 'epoch': 48.37}
{'loss': 0.0241, 'grad_norm': 0.6490656733512878, 'learning_rate': 2.2338000000000002e-05, 'epoch': 48.38}
{'loss': 0.0149, 'grad_norm': 0.5208029747009277, 'learning_rate': 2.2341000000000002e-05, 'epoch': 48.38}
{'loss': 0.0124, 'grad_norm': 0.7215738892555237, 'learning_rate': 2.2344e-05, 'epoch': 48.39}
{'loss': 0.025, 'grad_norm': 0.4701654314994812, 'learning_rate': 2.2347e-05, 'epoch': 48.4}
{'loss': 0.014, 'grad_norm': 0.8278986215591431, 'learning_rate': 2.235e-05, 'epoch': 48.4}
{'loss': 0.0159, 'grad_norm': 0.8113455772399902, 'learning_rate': 2.2353e-05, 'epoch': 48.41}
{'loss': 0.0078, 'grad_norm': 0.5224855542182922, 'learning_rate': 2.2356e-05, 'epoch': 48.42}
{'loss': 0.0168, 'grad_norm': 0.6953570246696472, 'learning_rate': 2.2359e-05, 'epoch': 48.42}
{'loss': 0.0687, 'grad_norm': 1.1649101972579956, 'learning_rate': 2.2362e-05, 'epoch': 48.43}
{'loss': 0.1116, 'grad_norm': 1.526189923286438, 'learning_rate': 2.2365000000000004e-05, 'epoch': 48.44}
{'loss': 0.0123, 'grad_norm': 0.9074917435646057, 'learning_rate': 2.2368000000000003e-05, 'epoch': 48.44}
{'loss': 0.0081, 'grad_norm': 0.6606813669204712, 'learning_rate': 2.2371e-05, 'epoch': 48.45}
{'loss': 0.0143, 'grad_norm': 0.7017751932144165, 'learning_rate': 2.2374e-05, 'epoch': 48.45}
{'loss': 0.0259, 'grad_norm': 2.5347750186920166, 'learning_rate': 2.2377e-05, 'epoch': 48.46}
{'loss': 0.0069, 'grad_norm': 0.5550187826156616, 'learning_rate': 2.238e-05, 'epoch': 48.47}
{'loss': 0.0147, 'grad_norm': 1.2073206901550293, 'learning_rate': 2.2383e-05, 'epoch': 48.47}
{'loss': 0.0019, 'grad_norm': 0.14123882353305817, 'learning_rate': 2.2386e-05, 'epoch': 48.48}
{'loss': 0.0167, 'grad_norm': 0.8098050951957703, 'learning_rate': 2.2389e-05, 'epoch': 48.49}
{'loss': 0.0967, 'grad_norm': 1.764279842376709, 'learning_rate': 2.2392e-05, 'epoch': 48.49}
{'loss': 0.1552, 'grad_norm': 1.233022928237915, 'learning_rate': 2.2395e-05, 'epoch': 48.5}
{'loss': 0.1148, 'grad_norm': 1.1159794330596924, 'learning_rate': 2.2398e-05, 'epoch': 48.51}
{'loss': 0.0743, 'grad_norm': 1.0138378143310547, 'learning_rate': 2.2401e-05, 'epoch': 48.51}
{'loss': 0.0718, 'grad_norm': 0.7300822138786316, 'learning_rate': 2.2404e-05, 'epoch': 48.52}
{'loss': 0.0552, 'grad_norm': 0.8839901685714722, 'learning_rate': 2.2407e-05, 'epoch': 48.53}
{'loss': 0.0527, 'grad_norm': 0.6479099988937378, 'learning_rate': 2.241e-05, 'epoch': 48.53}
{'loss': 0.0592, 'grad_norm': 0.8099057078361511, 'learning_rate': 2.2413e-05, 'epoch': 48.54}
{'loss': 0.0544, 'grad_norm': 0.7057859301567078, 'learning_rate': 2.2416e-05, 'epoch': 48.55}
  7%|▋         | 7477/100000 [4:31:21<78:31:01,  3.06s/it]  7%|▋         | 7478/100000 [4:31:23<70:55:38,  2.76s/it]                                                            7%|▋         | 7478/100000 [4:31:23<70:55:38,  2.76s/it]  7%|▋         | 7479/100000 [4:31:25<64:29:49,  2.51s/it]                                                            7%|▋         | 7479/100000 [4:31:25<64:29:49,  2.51s/it]  7%|▋         | 7480/100000 [4:31:27<59:00:52,  2.30s/it]                                                            7%|▋         | 7480/100000 [4:31:27<59:00:52,  2.30s/it]  7%|▋         | 7481/100000 [4:31:29<53:53:02,  2.10s/it]                                                            7%|▋         | 7481/100000 [4:31:29<53:53:02,  2.10s/it]  7%|▋         | 7482/100000 [4:31:30<50:02:36,  1.95s/it]                                                            7%|▋         | 7482/100000 [4:31:30<50:02:36,  1.95s/it]  7%|▋         | 7483/100000 [4:31:32<46:50:36,  1.82s/it]                                                            7%|▋         | 7483/100000 [4:31:32<46:50:36,  1.82s/it]  7%|▋         | 7484/100000 [4:31:33<43:46:27,  1.70s/it]                                                            7%|▋         | 7484/100000 [4:31:33<43:46:27,  1.70s/it]  7%|▋         | 7485/100000 [4:31:35<41:24:35,  1.61s/it]                                                            7%|▋         | 7485/100000 [4:31:35<41:24:35,  1.61s/it]  7%|▋         | 7486/100000 [4:31:36<39:11:49,  1.53s/it]                                                            7%|▋         | 7486/100000 [4:31:36<39:11:49,  1.53s/it]  7%|▋         | 7487/100000 [4:31:37<37:18:59,  1.45s/it]                                                            7%|▋         | 7487/100000 [4:31:37<37:18:59,  1.45s/it]  7%|▋         | 7488/100000 [4:31:39<35:33:12,  1.38s/it]                                                            7%|▋         | 7488/100000 [4:31:39<35:33:12,  1.38s/it]  7%|▋         | 7489/100000 [4:31:40<33:45:14,  1.31s/it]                                                            7%|▋         | 7489/100000 [4:31:40<33:45:14,  1.31s/it]  7%|▋         | 7490/100000 [4:31:41<31:59:34,  1.24s/it]                                                            7%|▋         | 7490/100000 [4:31:41<31:59:34,  1.24s/it]  7%|▋         | 7491/100000 [4:31:42<30:38:14,  1.19s/it]                                                            7%|▋         | 7491/100000 [4:31:42<30:38:14,  1.19s/it]  7%|▋         | 7492/100000 [4:31:43<29:10:39,  1.14s/it]                                                            7%|▋         | 7492/100000 [4:31:43<29:10:39,  1.14s/it]  7%|▋         | 7493/100000 [4:31:44<27:43:48,  1.08s/it]                                                            7%|▋         | 7493/100000 [4:31:44<27:43:48,  1.08s/it]  7%|▋         | 7494/100000 [4:31:45<26:59:58,  1.05s/it]                                                            7%|▋         | 7494/100000 [4:31:45<26:59:58,  1.05s/it]  7%|▋         | 7495/100000 [4:31:46<26:06:40,  1.02s/it]                                                            7%|▋         | 7495/100000 [4:31:46<26:06:40,  1.02s/it]  7%|▋         | 7496/100000 [4:31:47<24:55:50,  1.03it/s]                                                            7%|▋         | 7496/100000 [4:31:47<24:55:50,  1.03it/s]  7%|▋         | 7497/100000 [4:31:47<24:35:24,  1.04it/s]                                                            7%|▋         | 7497/100000 [4:31:47<24:35:24,  1.04it/s]  7%|▋         | 7498/100000 [4:31:48<24:20:03,  1.06it/s]                                                            7%|▋         | 7498/100000 [4:31:48<24:20:03,  1.06it/s]  7%|▋         | 7499/100000 [4:31:49<23:29:13,  1.09it/s]                                                            7%|▋         | 7499/100000 [4:31:49<23:29:13,  1.09it/s]  8%|▊         | 7500/100000 [4:31:50<22:45:15,  1.13it/s]                                                            8%|▊         | 7500/100000 [4:31:50<22:45:15,  1.13it/s]  8%|▊         | 7501/100000 [4:31:51<22:06:26,  1.16it/s]                                                            8%|▊         | 7501/100000 [4:31:51<22:06:26,  1.16it/s]  8%|▊         | 7502/100000 [4:31:52<21:10:27,  1.21it/s]                                                            8%|▊         | 7502/100000 [4:31:52<21:10:27,  1.21it/s]  8%|▊         | 7503/100000 [4:31:52<20:26:11,  1.26it/s]                                                            8%|▊         | 7503/100000 [4:31:52<20:26:11,  1.26it/s]  8%|▊         | 7504/100000 [4:31:53<19:38:58,  1.31it/s]                                                            8%|▊         | 7504/100000 [4:31:53<19:38:58,  1.31it/s]  8%|▊         | 7505/100000 [4:31:54<19:25:35,  1.32it/s]                                                            8%|▊         | 7505/100000 [4:31:54<19:25:35,  1.32it/s]  8%|▊         | 7506/100000 [4:31:54<18:44:21,  1.37it/s]                                                            8%|▊         | 7506/100000 [4:31:54<18:44:21,  1.37it/s]  8%|▊         | 7507/100000 [4:32:06<103:45:42,  4.04s/it]                                                             8%|▊         | 7507/100000 [4:32:06<103:45:42,  4.04s/it]  8%|▊         | 7508/100000 [4:32:13<127:51:10,  4.98s/it]                                                             8%|▊         | 7508/100000 [4:32:13<127:51:10,  4.98s/it]  8%|▊         | 7509/100000 [4:32:19<131:37:31,  5.12s/it]                                                             8%|▊         | 7509/100000 [4:32:19<131:37:31,  5.12s/it]  8%|▊         | 7510/100000 [4:32:23<127:16:15,  4.95s/it]                                                             8%|▊         | 7510/100000 [4:32:23<127:16:15,  4.95s/it]  8%|▊         | 7511/100000 [4:32:27<117:41:32,  4.58s/it]                                                             8%|▊         | 7511/100000 [4:32:27<117:41:32,  4.58s/it]  8%|▊         | 7512/100000 [4:32:30<107:23:12,  4.18s/it]                                                             8%|▊         | 7512/100000 [4:32:30<107:23:12,  4.18s/it]  8%|▊         | 7513/100000 [4:32:33<97:55:29,  3.81s/it]                                                             8%|▊         | 7513/100000 [4:32:33<97:55:29,  3.81s/it]  8%|▊         | 7514/100000 [4:32:36<88:29:30,  3.44s/it]                                                            8%|▊         | 7514/100000 [4:32:36<88:29:30,  3.44s/it]  8%|▊         | 7515/100000 [4:32:38<79:36:40,  3.10s/it]                                                            8%|▊         | 7515/100000 [4:32:38<79:36:40,  3.10s/it]  8%|▊         | 7516/100000 [4:32:40<71:04:26,  2.77s/it]                                                            8%|▊         | 7516/100000 [4:32:40<71:04:26,  2.77s/it]  8%|▊         | 7517/100000 [4:32:42<64:05:15,  2.49s/it]                                                            8%|▊         | 7517/100000 [4:32:42<64:05:15,  2.49s/it]  8%|▊         | 7518/100000 [4:32:44<58:49:32,  2.29s/it]                                                            8%|▊         | 7518/100000 [4:32:44<58:49:32,  2.29s/it]  8%|▊         | 7519/100000 [4:32:45<53:49:09,  2.10s/it]                                                            8%|▊         | 7519/100000 [4:32:45<53:49:09,  2.10s/it]  8%|▊         | 7520/100000 [4:32:47<50:20:55,  1.96s/it]                                                            8%|▊         | 7520/100000 [4:32:47<50:20:55,  1.96s/it]  8%|▊         | 7521/100000 [4:32:49<47:18:35,  1.84s/it]                                                            8%|▊         | 7521/100000 [4:32:49<47:18:35,  1.84s/it]  8%|▊         | 7522/100000 [4:32:50<44:05:29,  1.72s/it]                                                            8%|▊         | 7522/100000 [4:32:50<44:05:29,  1.72s/it]  8%|▊         | 7523/100000 [4:32:51<41:34:08,  1.62s/it]                                                            8%|▊         | 7523/100000 [4:32:51<41:34:08,  1.62s/it]  8%|▊         | 7524/100000 [4:32:53<39:16:54,  1.53s/it]                                                            8%|▊         | 7524/100000 [4:32:53<39:16:54,  1.53s/it]  8%|▊         | 7525/100000 [4:32:54<37:12:43,  1.45s/it]                                                            8%|▊         | 7525/100000 [4:32:54<37:12:43,  1.45s/it]  8%|▊         | 7526/100000 [4:32:55<35:35:35,  1.39s/it]                                                            8%|▊         | 7526/100000 [4:32:55<35:35:35,  1.39s/it]  8%|▊         | 7527/100000 [4:32:56<33:41:54,  1.31s/it]                                                            8%|▊         | 7527/100000 [4:32:56<33:41:54,  1.31s/it]  8%|▊         | 7528/100000 [4:32:57<31:46:59,  1.24s/it]                                                            8%|▊         | 7528/100000 [4:32:58<31:46:59,  1.24s/it]  8%|▊         | 7529/100000 [4:32:59<30:15:39,  1.18s/it]                                                            8%|▊         | 7529/100000 [4:32:59<30:15:39,  1.18s/it]  8%|▊         | 7530/100000 [4:33:00<28:52:24,  1.12s/it]                                                            8%|▊         | 7530/100000 [4:33:00<28:52:24,  1.12s/it]  8%|▊         | 7531/100000 [4:33:00<27:18:23,  1.06s/it]                                                            8%|▊         | 7531/100000 [4:33:00<27:18:23,  1.06s/it]  8%|▊         | 7532/100000 [4:33:01<26:29:47,  1.03s/it]                                                            8%|▊         | 7532/100000 [4:33:01<26:29:47,  1.03s/it]  8%|▊         | 7533/100000 [4:33:02<25:40:00,  1.00it/s]                                                            8%|▊         | 7533/100000 [4:33:02<25:40:00,  1.00it/s]  8%|▊         | 7534/100000 [4:33:03<24:41:05,  1.04it/s]                                                            8%|▊         | 7534/100000 [4:33:03<24:41:05,  1.04it/s]  8%|▊         | 7535/100000 [4:33:04<23:41:25,  1.08it/s]                                                            8%|▊         | 7535/100000 [4:33:04<23:41:25,  1.08it/s]  8%|▊         | 7536/100000 [4:33:05<22:36:25,  1.14it/s]                                                            8%|▊         | 7536/100000 [4:33:05<22:36:25,  1.14it/s]  8%|▊         | 7537/100000 [4:33:06<21:39:56,  1.19it/s]                                                            8%|▊         | 7537/100000 [4:33:06<21:39:56,  1.19it/s]  8%|▊         | 7538/100000 [4:33:06<20:56:27,  1.23it/s]                                                            8%|▊         | 7538/100000 [4:33:06<20:56:27,  1.23it/s]  8%|▊         | 7539/100000 [4:33:07<20:06:13,  1.28it/s]                                                            8%|▊         | 7539/100000 [4:33:07<20:06:13,  1.28it/s]  8%|▊         | 7540/100000 [4:33:08<19:50:48,  1.29it/s]                                                            8%|▊         | 7540/100000 [4:33:08<19:50:48,  1.29it/s]  8%|▊         | 7541/100000 [4:33:08<19:15:05,  1.33it/s]                                                            8%|▊         | 7541/100000 [4:33:08<19:15:05,  1.33it/s]  8%|▊         | 7542/100000 [4:33:09<19:10:48,  1.34it/s]                                                            8%|▊         | 7542/100000 [4:33:09<19:10:48,  1.34it/s]  8%|▊         | 7543/100000 [4:33:10<18:10:59,  1.41it/s]                                                            8%|▊         | 7543/100000 [4:33:10<18:10:59,  1.41it/s]  8%|▊         | 7544/100000 [4:33:10<17:07:34,  1.50it/s]                                                            8%|▊         | 7544/100000 [4:33:10<17:07:34,  1.50it/s]  8%|▊         | 7545/100000 [4:33:18<73:40:20,  2.87s/it]                                                            8%|▊         | 7545/100000 [4:33:18<73:40:20,  2.87s/it]  8%|▊         | 7546/100000 [4:33:20<62:08:53,  2.42s/it]                                                            8%|▊         | 7546/100000 [4:33:20<62:08:53,  2.42s/it]{'loss': 0.0341, 'grad_norm': 0.6492674350738525, 'learning_rate': 2.2419e-05, 'epoch': 48.55}
{'loss': 0.026, 'grad_norm': 0.533241331577301, 'learning_rate': 2.2422e-05, 'epoch': 48.56}
{'loss': 0.03, 'grad_norm': 0.630610466003418, 'learning_rate': 2.2425000000000003e-05, 'epoch': 48.56}
{'loss': 0.0282, 'grad_norm': 0.5572718977928162, 'learning_rate': 2.2428000000000003e-05, 'epoch': 48.57}
{'loss': 0.0284, 'grad_norm': 0.6794775128364563, 'learning_rate': 2.2431000000000003e-05, 'epoch': 48.58}
{'loss': 0.0342, 'grad_norm': 0.8603629469871521, 'learning_rate': 2.2434000000000002e-05, 'epoch': 48.58}
{'loss': 0.0208, 'grad_norm': 0.5882518887519836, 'learning_rate': 2.2437000000000002e-05, 'epoch': 48.59}
{'loss': 0.0173, 'grad_norm': 0.5853433012962341, 'learning_rate': 2.2440000000000002e-05, 'epoch': 48.6}
{'loss': 0.0259, 'grad_norm': 0.7933464646339417, 'learning_rate': 2.2443000000000002e-05, 'epoch': 48.6}
{'loss': 0.0229, 'grad_norm': 0.6762173771858215, 'learning_rate': 2.2445999999999998e-05, 'epoch': 48.61}
{'loss': 0.014, 'grad_norm': 1.2615565061569214, 'learning_rate': 2.2448999999999998e-05, 'epoch': 48.62}
{'loss': 0.026, 'grad_norm': 0.6822992563247681, 'learning_rate': 2.2451999999999998e-05, 'epoch': 48.62}
{'loss': 0.0124, 'grad_norm': 0.58998703956604, 'learning_rate': 2.2455e-05, 'epoch': 48.63}
{'loss': 0.0058, 'grad_norm': 0.3594859540462494, 'learning_rate': 2.2458e-05, 'epoch': 48.64}
{'loss': 0.0193, 'grad_norm': 0.7308642268180847, 'learning_rate': 2.2461e-05, 'epoch': 48.64}
{'loss': 0.0394, 'grad_norm': 1.0254125595092773, 'learning_rate': 2.2464e-05, 'epoch': 48.65}
{'loss': 0.0149, 'grad_norm': 0.5659653544425964, 'learning_rate': 2.2467e-05, 'epoch': 48.66}
{'loss': 0.0151, 'grad_norm': 0.7429981231689453, 'learning_rate': 2.247e-05, 'epoch': 48.66}
{'loss': 0.0093, 'grad_norm': 0.6400040984153748, 'learning_rate': 2.2473e-05, 'epoch': 48.67}
{'loss': 0.0517, 'grad_norm': 0.7064120769500732, 'learning_rate': 2.2476e-05, 'epoch': 48.68}
{'loss': 0.014, 'grad_norm': 0.8779258131980896, 'learning_rate': 2.2479e-05, 'epoch': 48.68}
{'loss': 0.0094, 'grad_norm': 0.5939318537712097, 'learning_rate': 2.2482e-05, 'epoch': 48.69}
{'loss': 0.0307, 'grad_norm': 1.5668522119522095, 'learning_rate': 2.2485000000000002e-05, 'epoch': 48.69}
{'loss': 0.0201, 'grad_norm': 0.7962045669555664, 'learning_rate': 2.2488000000000002e-05, 'epoch': 48.7}
{'loss': 0.0107, 'grad_norm': 0.9123440384864807, 'learning_rate': 2.2491000000000002e-05, 'epoch': 48.71}
{'loss': 0.0365, 'grad_norm': 2.3732144832611084, 'learning_rate': 2.2494000000000002e-05, 'epoch': 48.71}
{'loss': 0.0061, 'grad_norm': 0.4209967851638794, 'learning_rate': 2.2497e-05, 'epoch': 48.72}
{'loss': 0.0498, 'grad_norm': 0.9419896602630615, 'learning_rate': 2.25e-05, 'epoch': 48.73}
{'loss': 0.0184, 'grad_norm': 1.071774959564209, 'learning_rate': 2.2503e-05, 'epoch': 48.73}
{'loss': 0.0367, 'grad_norm': 4.328700542449951, 'learning_rate': 2.2506e-05, 'epoch': 48.74}
{'loss': 0.1639, 'grad_norm': 1.308139443397522, 'learning_rate': 2.2509e-05, 'epoch': 48.75}
{'loss': 0.1012, 'grad_norm': 0.777492344379425, 'learning_rate': 2.2512e-05, 'epoch': 48.75}
{'loss': 0.0684, 'grad_norm': 0.507272481918335, 'learning_rate': 2.2515e-05, 'epoch': 48.76}
{'loss': 0.0579, 'grad_norm': 0.5308139324188232, 'learning_rate': 2.2518e-05, 'epoch': 48.77}
{'loss': 0.0458, 'grad_norm': 0.5970106720924377, 'learning_rate': 2.2521e-05, 'epoch': 48.77}
{'loss': 0.0459, 'grad_norm': 0.5490032434463501, 'learning_rate': 2.2524e-05, 'epoch': 48.78}
{'loss': 0.0416, 'grad_norm': 0.5593807101249695, 'learning_rate': 2.2527e-05, 'epoch': 48.79}
{'loss': 0.0382, 'grad_norm': 0.5263195037841797, 'learning_rate': 2.253e-05, 'epoch': 48.79}
{'loss': 0.0322, 'grad_norm': 0.5850204229354858, 'learning_rate': 2.2533e-05, 'epoch': 48.8}
{'loss': 0.0392, 'grad_norm': 0.42790114879608154, 'learning_rate': 2.2536e-05, 'epoch': 48.81}
{'loss': 0.0258, 'grad_norm': 0.4988536834716797, 'learning_rate': 2.2539e-05, 'epoch': 48.81}
{'loss': 0.0264, 'grad_norm': 0.5800483226776123, 'learning_rate': 2.2542e-05, 'epoch': 48.82}
{'loss': 0.027, 'grad_norm': 0.5578680038452148, 'learning_rate': 2.2545e-05, 'epoch': 48.82}
{'loss': 0.025, 'grad_norm': 0.6927663087844849, 'learning_rate': 2.2548e-05, 'epoch': 48.83}
{'loss': 0.0253, 'grad_norm': 0.5984777808189392, 'learning_rate': 2.2551e-05, 'epoch': 48.84}
{'loss': 0.076, 'grad_norm': 0.7839990258216858, 'learning_rate': 2.2554e-05, 'epoch': 48.84}
{'loss': 0.023, 'grad_norm': 0.7444069981575012, 'learning_rate': 2.2557e-05, 'epoch': 48.85}
{'loss': 0.0181, 'grad_norm': 0.5587971210479736, 'learning_rate': 2.256e-05, 'epoch': 48.86}
{'loss': 0.0192, 'grad_norm': 0.6836512684822083, 'learning_rate': 2.2563e-05, 'epoch': 48.86}
{'loss': 0.0164, 'grad_norm': 0.41079235076904297, 'learning_rate': 2.2566e-05, 'epoch': 48.87}
{'loss': 0.0116, 'grad_norm': 0.41404950618743896, 'learning_rate': 2.2569e-05, 'epoch': 48.88}
{'loss': 0.0269, 'grad_norm': 0.689074695110321, 'learning_rate': 2.2572e-05, 'epoch': 48.88}
{'loss': 0.0277, 'grad_norm': 1.2508043050765991, 'learning_rate': 2.2575e-05, 'epoch': 48.89}
{'loss': 0.0135, 'grad_norm': 0.5847148895263672, 'learning_rate': 2.2578000000000003e-05, 'epoch': 48.9}
{'loss': 0.0149, 'grad_norm': 1.4882817268371582, 'learning_rate': 2.2581000000000003e-05, 'epoch': 48.9}
{'loss': 0.0207, 'grad_norm': 0.5192487239837646, 'learning_rate': 2.2584000000000003e-05, 'epoch': 48.91}
{'loss': 0.0149, 'grad_norm': 0.5603703856468201, 'learning_rate': 2.2587000000000002e-05, 'epoch': 48.92}
{'loss': 0.01, 'grad_norm': 0.6734902262687683, 'learning_rate': 2.2590000000000002e-05, 'epoch': 48.92}
{'loss': 0.0129, 'grad_norm': 0.5780431032180786, 'learning_rate': 2.2593e-05, 'epoch': 48.93}
{'loss': 0.0126, 'grad_norm': 0.7428280115127563, 'learning_rate': 2.2596e-05, 'epoch': 48.94}
{'loss': 0.0154, 'grad_norm': 0.8592507243156433, 'learning_rate': 2.2598999999999998e-05, 'epoch': 48.94}
{'loss': 0.0627, 'grad_norm': 1.2039881944656372, 'learning_rate': 2.2601999999999998e-05, 'epoch': 48.95}
{'loss': 0.0248, 'grad_norm': 1.1236292123794556, 'learning_rate': 2.2604999999999998e-05, 'epoch': 48.95}
{'loss': 0.0103, 'grad_norm': 0.8859894275665283, 'learning_rate': 2.2608e-05, 'epoch': 48.96}
{'loss': 0.0165, 'grad_norm': 1.3391789197921753, 'learning_rate': 2.2611e-05, 'epoch': 48.97}
{'loss': 0.0152, 'grad_norm': 1.1758579015731812, 'learning_rate': 2.2614e-05, 'epoch': 48.97}
{'loss': 0.0087, 'grad_norm': 2.1026551723480225, 'learning_rate': 2.2617e-05, 'epoch': 48.98}
{'loss': 0.0365, 'grad_norm': 2.1816112995147705, 'learning_rate': 2.262e-05, 'epoch': 48.99}
{'loss': 0.0455, 'grad_norm': 0.6254634857177734, 'learning_rate': 2.2623e-05, 'epoch': 48.99}
{'loss': 0.0265, 'grad_norm': 1.3811306953430176, 'learning_rate': 2.2626e-05, 'epoch': 49.0}
  8%|▊         | 7547/100000 [4:33:37<178:12:43,  6.94s/it]                                                             8%|▊         | 7547/100000 [4:33:37<178:12:43,  6.94s/it]  8%|▊         | 7548/100000 [4:33:45<187:20:32,  7.29s/it]                                                             8%|▊         | 7548/100000 [4:33:45<187:20:32,  7.29s/it]  8%|▊         | 7549/100000 [4:33:51<173:07:11,  6.74s/it]                                                             8%|▊         | 7549/100000 [4:33:51<173:07:11,  6.74s/it]  8%|▊         | 7550/100000 [4:33:55<155:17:48,  6.05s/it]                                                             8%|▊         | 7550/100000 [4:33:55<155:17:48,  6.05s/it]  8%|▊         | 7551/100000 [4:33:59<140:15:49,  5.46s/it]                                                             8%|▊         | 7551/100000 [4:33:59<140:15:49,  5.46s/it]  8%|▊         | 7552/100000 [4:34:03<125:48:38,  4.90s/it]                                                             8%|▊         | 7552/100000 [4:34:03<125:48:38,  4.90s/it]  8%|▊         | 7553/100000 [4:34:06<110:36:33,  4.31s/it]                                                             8%|▊         | 7553/100000 [4:34:06<110:36:33,  4.31s/it]  8%|▊         | 7554/100000 [4:34:09<97:41:00,  3.80s/it]                                                             8%|▊         | 7554/100000 [4:34:09<97:41:00,  3.80s/it]  8%|▊         | 7555/100000 [4:34:11<86:39:37,  3.37s/it]                                                            8%|▊         | 7555/100000 [4:34:11<86:39:37,  3.37s/it]  8%|▊         | 7556/100000 [4:34:13<76:58:55,  3.00s/it]                                                            8%|▊         | 7556/100000 [4:34:13<76:58:55,  3.00s/it]  8%|▊         | 7557/100000 [4:34:15<69:11:46,  2.69s/it]                                                            8%|▊         | 7557/100000 [4:34:15<69:11:46,  2.69s/it]  8%|▊         | 7558/100000 [4:34:17<62:30:16,  2.43s/it]                                                            8%|▊         | 7558/100000 [4:34:17<62:30:16,  2.43s/it]  8%|▊         | 7559/100000 [4:34:19<56:59:47,  2.22s/it]                                                            8%|▊         | 7559/100000 [4:34:19<56:59:47,  2.22s/it]  8%|▊         | 7560/100000 [4:34:20<52:21:33,  2.04s/it]                                                            8%|▊         | 7560/100000 [4:34:20<52:21:33,  2.04s/it]  8%|▊         | 7561/100000 [4:34:22<48:33:03,  1.89s/it]                                                            8%|▊         | 7561/100000 [4:34:22<48:33:03,  1.89s/it]  8%|▊         | 7562/100000 [4:34:23<45:15:39,  1.76s/it]                                                            8%|▊         | 7562/100000 [4:34:23<45:15:39,  1.76s/it]  8%|▊         | 7563/100000 [4:34:25<42:16:41,  1.65s/it]                                                            8%|▊         | 7563/100000 [4:34:25<42:16:41,  1.65s/it]  8%|▊         | 7564/100000 [4:34:26<39:58:01,  1.56s/it]                                                            8%|▊         | 7564/100000 [4:34:26<39:58:01,  1.56s/it]  8%|▊         | 7565/100000 [4:34:27<37:57:25,  1.48s/it]                                                            8%|▊         | 7565/100000 [4:34:27<37:57:25,  1.48s/it]  8%|▊         | 7566/100000 [4:34:28<36:03:26,  1.40s/it]                                                            8%|▊         | 7566/100000 [4:34:28<36:03:26,  1.40s/it]  8%|▊         | 7567/100000 [4:34:30<33:56:15,  1.32s/it]                                                            8%|▊         | 7567/100000 [4:34:30<33:56:15,  1.32s/it]  8%|▊         | 7568/100000 [4:34:31<32:07:25,  1.25s/it]                                                            8%|▊         | 7568/100000 [4:34:31<32:07:25,  1.25s/it]  8%|▊         | 7569/100000 [4:34:32<30:41:28,  1.20s/it]                                                            8%|▊         | 7569/100000 [4:34:32<30:41:28,  1.20s/it]  8%|▊         | 7570/100000 [4:34:33<29:17:03,  1.14s/it]                                                            8%|▊         | 7570/100000 [4:34:33<29:17:03,  1.14s/it]  8%|▊         | 7571/100000 [4:34:34<27:45:31,  1.08s/it]                                                            8%|▊         | 7571/100000 [4:34:34<27:45:31,  1.08s/it]  8%|▊         | 7572/100000 [4:34:35<26:41:08,  1.04s/it]                                                            8%|▊         | 7572/100000 [4:34:35<26:41:08,  1.04s/it]  8%|▊         | 7573/100000 [4:34:36<25:47:10,  1.00s/it]                                                            8%|▊         | 7573/100000 [4:34:36<25:47:10,  1.00s/it]  8%|▊         | 7574/100000 [4:34:36<24:29:03,  1.05it/s]                                                            8%|▊         | 7574/100000 [4:34:36<24:29:03,  1.05it/s]  8%|▊         | 7575/100000 [4:34:37<23:44:06,  1.08it/s]                                                            8%|▊         | 7575/100000 [4:34:37<23:44:06,  1.08it/s]  8%|▊         | 7576/100000 [4:34:38<23:04:25,  1.11it/s]                                                            8%|▊         | 7576/100000 [4:34:38<23:04:25,  1.11it/s]  8%|▊         | 7577/100000 [4:34:39<22:08:27,  1.16it/s]                                                            8%|▊         | 7577/100000 [4:34:39<22:08:27,  1.16it/s]  8%|▊         | 7578/100000 [4:34:40<21:37:44,  1.19it/s]                                                            8%|▊         | 7578/100000 [4:34:40<21:37:44,  1.19it/s]  8%|▊         | 7579/100000 [4:34:40<21:10:17,  1.21it/s]                                                            8%|▊         | 7579/100000 [4:34:40<21:10:17,  1.21it/s]  8%|▊         | 7580/100000 [4:34:41<20:20:42,  1.26it/s]                                                            8%|▊         | 7580/100000 [4:34:41<20:20:42,  1.26it/s]  8%|▊         | 7581/100000 [4:34:42<20:07:06,  1.28it/s]                                                            8%|▊         | 7581/100000 [4:34:42<20:07:06,  1.28it/s]  8%|▊         | 7582/100000 [4:34:43<19:32:23,  1.31it/s]                                                            8%|▊         | 7582/100000 [4:34:43<19:32:23,  1.31it/s]  8%|▊         | 7583/100000 [4:34:43<18:51:36,  1.36it/s]                                                            8%|▊         | 7583/100000 [4:34:43<18:51:36,  1.36it/s]  8%|▊         | 7584/100000 [4:34:44<18:59:15,  1.35it/s]                                                            8%|▊         | 7584/100000 [4:34:44<18:59:15,  1.35it/s]  8%|▊         | 7585/100000 [4:34:57<115:32:19,  4.50s/it]                                                             8%|▊         | 7585/100000 [4:34:57<115:32:19,  4.50s/it]  8%|▊         | 7586/100000 [4:35:05<142:48:08,  5.56s/it]                                                             8%|▊         | 7586/100000 [4:35:05<142:48:08,  5.56s/it]  8%|▊         | 7587/100000 [4:35:11<143:56:10,  5.61s/it]                                                             8%|▊         | 7587/100000 [4:35:11<143:56:10,  5.61s/it]  8%|▊         | 7588/100000 [4:35:16<137:09:19,  5.34s/it]                                                             8%|▊         | 7588/100000 [4:35:16<137:09:19,  5.34s/it]  8%|▊         | 7589/100000 [4:35:20<125:55:41,  4.91s/it]                                                             8%|▊         | 7589/100000 [4:35:20<125:55:41,  4.91s/it]  8%|▊         | 7590/100000 [4:35:23<114:56:18,  4.48s/it]                                                             8%|▊         | 7590/100000 [4:35:23<114:56:18,  4.48s/it]  8%|▊         | 7591/100000 [4:35:26<105:15:08,  4.10s/it]                                                             8%|▊         | 7591/100000 [4:35:26<105:15:08,  4.10s/it]  8%|▊         | 7592/100000 [4:35:29<95:06:11,  3.70s/it]                                                             8%|▊         | 7592/100000 [4:35:29<95:06:11,  3.70s/it]  8%|▊         | 7593/100000 [4:35:32<85:51:45,  3.35s/it]                                                            8%|▊         | 7593/100000 [4:35:32<85:51:45,  3.35s/it]  8%|▊         | 7594/100000 [4:35:34<77:31:50,  3.02s/it]                                                            8%|▊         | 7594/100000 [4:35:34<77:31:50,  3.02s/it]  8%|▊         | 7595/100000 [4:35:36<70:23:03,  2.74s/it]                                                            8%|▊         | 7595/100000 [4:35:36<70:23:03,  2.74s/it]  8%|▊         | 7596/100000 [4:35:38<63:45:04,  2.48s/it]                                                            8%|▊         | 7596/100000 [4:35:38<63:45:04,  2.48s/it]  8%|▊         | 7597/100000 [4:35:40<58:29:44,  2.28s/it]                                                            8%|▊         | 7597/100000 [4:35:40<58:29:44,  2.28s/it]  8%|▊         | 7598/100000 [4:35:41<54:08:40,  2.11s/it]                                                            8%|▊         | 7598/100000 [4:35:41<54:08:40,  2.11s/it]  8%|▊         | 7599/100000 [4:35:43<50:13:28,  1.96s/it]                                                            8%|▊         | 7599/100000 [4:35:43<50:13:28,  1.96s/it]  8%|▊         | 7600/100000 [4:35:44<46:37:11,  1.82s/it]                                                            8%|▊         | 7600/100000 [4:35:45<46:37:11,  1.82s/it]  8%|▊         | 7601/100000 [4:35:46<43:45:27,  1.70s/it]                                                            8%|▊         | 7601/100000 [4:35:46<43:45:27,  1.70s/it]  8%|▊         | 7602/100000 [4:35:47<40:38:34,  1.58s/it]                                                            8%|▊         | 7602/100000 [4:35:47<40:38:34,  1.58s/it]  8%|▊         | 7603/100000 [4:35:49<38:33:25,  1.50s/it]                                                            8%|▊         | 7603/100000 [4:35:49<38:33:25,  1.50s/it]  8%|▊         | 7604/100000 [4:35:50<36:44:53,  1.43s/it]                                                            8%|▊         | 7604/100000 [4:35:50<36:44:53,  1.43s/it]  8%|▊         | 7605/100000 [4:35:51<34:38:28,  1.35s/it]                                                            8%|▊         | 7605/100000 [4:35:51<34:38:28,  1.35s/it]  8%|▊         | 7606/100000 [4:35:52<32:54:01,  1.28s/it]                                                            8%|▊         | 7606/100000 [4:35:52<32:54:01,  1.28s/it]  8%|▊         | 7607/100000 [4:35:53<31:09:53,  1.21s/it]                                                            8%|▊         | 7607/100000 [4:35:53<31:09:53,  1.21s/it]  8%|▊         | 7608/100000 [4:35:54<29:26:39,  1.15s/it]                                                            8%|▊         | 7608/100000 [4:35:54<29:26:39,  1.15s/it]  8%|▊         | 7609/100000 [4:35:55<28:02:54,  1.09s/it]                                                            8%|▊         | 7609/100000 [4:35:55<28:02:54,  1.09s/it]  8%|▊         | 7610/100000 [4:35:56<26:50:27,  1.05s/it]                                                            8%|▊         | 7610/100000 [4:35:56<26:50:27,  1.05s/it]  8%|▊         | 7611/100000 [4:35:57<25:42:10,  1.00s/it]                                                            8%|▊         | 7611/100000 [4:35:57<25:42:10,  1.00s/it]  8%|▊         | 7612/100000 [4:35:58<24:37:31,  1.04it/s]                                                            8%|▊         | 7612/100000 [4:35:58<24:37:31,  1.04it/s]  8%|▊         | 7613/100000 [4:35:59<23:40:42,  1.08it/s]                                                            8%|▊         | 7613/100000 [4:35:59<23:40:42,  1.08it/s]  8%|▊         | 7614/100000 [4:35:59<22:55:08,  1.12it/s]                                                            8%|▊         | 7614/100000 [4:35:59<22:55:08,  1.12it/s]  8%|▊         | 7615/100000 [4:36:00<22:18:24,  1.15it/s]                                                            8%|▊         | 7615/100000 [4:36:00<22:18:24,  1.15it/s]  8%|▊         | 7616/100000 [4:36:01<21:22:02,  1.20it/s]                                                            8%|▊         | 7616/100000 [4:36:01<21:22:02,  1.20it/s]  8%|▊         | 7617/100000 [4:36:02<20:50:04,  1.23it/s]                                                            8%|▊         | 7617/100000 [4:36:02<20:50:04,  1.23it/s]  8%|▊         | 7618/100000 [4:36:03<20:23:15,  1.26it/s]                                                            8%|▊         | 7618/100000 [4:36:03<20:23:15,  1.26it/s]  8%|▊         | 7619/100000 [4:36:03<19:36:14,  1.31it/s]                                                            8%|▊         | 7619/100000 [4:36:03<19:36:14,  1.31it/s]  8%|▊         | 7620/100000 [4:36:04<19:10:35,  1.34it/s]                                                            8%|▊         | 7620/100000 [4:36:04<19:10:35,  1.34it/s]  8%|▊         | 7621/100000 [4:36:05<19:20:54,  1.33it/s]                                                            8%|▊         | 7621/100000 [4:36:05<19:20:54,  1.33it/s]  8%|▊         | 7622/100000 [4:36:05<18:48:23,  1.36it/s]                                                            8%|▊         | 7622/100000 [4:36:05<18:48:23,  1.36it/s]  8%|▊         | 7623/100000 [4:36:18<108:50:08,  4.24s/it]                                                             8%|▊         | 7623/100000 [4:36:18<108:50:08,  4.24s/it]  8%|▊         | 7624/100000 [4:36:25<135:15:59,  5.27s/it]                                                             8%|▊         | 7624/100000 [4:36:26<135:15:59,  5.27s/it]  8%|▊         | 7625/100000 [4:36:31<134:51:15,  5.26s/it]                                                             8%|▊         | 7625/100000 [4:36:31<134:51:15,  5.26s/it]  8%|▊         | 7626/100000 [4:36:35<127:47:03,  4.98s/it]                                                             8%|▊         | 7626/100000 [4:36:35<127:47:03,  4.98s/it]  8%|▊         | 7627/100000 [4:36:39<118:57:43,  4.64s/it]                                                             8%|▊         | 7627/100000 [4:36:39<118:57:43,  4.64s/it]  8%|▊         | 7628/100000 [4:36:42<108:53:49,  4.24s/it]                                                             8%|▊         | 7628/100000 [4:36:42<108:53:49,  4.24s/it]  8%|▊         | 7629/100000 [4:36:45<97:48:31,  3.81s/it]                                                             8%|▊         | 7629/100000 [4:36:45<97:48:31,  3.81s/it]  8%|▊         | 7630/100000 [4:36:48<87:35:56,  3.41s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.7475073933601379, 'learning_rate': 2.2629e-05, 'epoch': 49.01}
{'loss': 0.1061, 'grad_norm': 0.7362454533576965, 'learning_rate': 2.2632e-05, 'epoch': 49.01}
{'loss': 0.0537, 'grad_norm': 0.5727187395095825, 'learning_rate': 2.2635e-05, 'epoch': 49.02}
{'loss': 0.0558, 'grad_norm': 0.4719754457473755, 'learning_rate': 2.2638000000000002e-05, 'epoch': 49.03}
{'loss': 0.0391, 'grad_norm': 0.4373197555541992, 'learning_rate': 2.2641000000000002e-05, 'epoch': 49.03}
{'loss': 0.0369, 'grad_norm': 0.5679513216018677, 'learning_rate': 2.2644000000000002e-05, 'epoch': 49.04}
{'loss': 0.03, 'grad_norm': 0.5534698367118835, 'learning_rate': 2.2647000000000002e-05, 'epoch': 49.05}
{'loss': 0.0325, 'grad_norm': 0.6843624114990234, 'learning_rate': 2.265e-05, 'epoch': 49.05}
{'loss': 0.0236, 'grad_norm': 0.4818878173828125, 'learning_rate': 2.2653e-05, 'epoch': 49.06}
{'loss': 0.0402, 'grad_norm': 0.7484692335128784, 'learning_rate': 2.2656e-05, 'epoch': 49.06}
{'loss': 0.019, 'grad_norm': 0.4358607232570648, 'learning_rate': 2.2659e-05, 'epoch': 49.07}
{'loss': 0.0239, 'grad_norm': 0.8981132507324219, 'learning_rate': 2.2662e-05, 'epoch': 49.08}
{'loss': 0.0254, 'grad_norm': 0.6213988065719604, 'learning_rate': 2.2665e-05, 'epoch': 49.08}
{'loss': 0.0249, 'grad_norm': 2.0519206523895264, 'learning_rate': 2.2668e-05, 'epoch': 49.09}
{'loss': 0.0148, 'grad_norm': 0.49131685495376587, 'learning_rate': 2.2671e-05, 'epoch': 49.1}
{'loss': 0.056, 'grad_norm': 0.49712252616882324, 'learning_rate': 2.2674e-05, 'epoch': 49.1}
{'loss': 0.0134, 'grad_norm': 0.40394946932792664, 'learning_rate': 2.2677e-05, 'epoch': 49.11}
{'loss': 0.0279, 'grad_norm': 0.8330559134483337, 'learning_rate': 2.268e-05, 'epoch': 49.12}
{'loss': 0.0089, 'grad_norm': 0.3348251283168793, 'learning_rate': 2.2683e-05, 'epoch': 49.12}
{'loss': 0.025, 'grad_norm': 1.3331624269485474, 'learning_rate': 2.2686e-05, 'epoch': 49.13}
{'loss': 0.0159, 'grad_norm': 0.7728878855705261, 'learning_rate': 2.2689e-05, 'epoch': 49.14}
{'loss': 0.0131, 'grad_norm': 0.3606191873550415, 'learning_rate': 2.2692e-05, 'epoch': 49.14}
{'loss': 0.01, 'grad_norm': 0.35879793763160706, 'learning_rate': 2.2695e-05, 'epoch': 49.15}
{'loss': 0.0233, 'grad_norm': 1.0399272441864014, 'learning_rate': 2.2698000000000002e-05, 'epoch': 49.16}
{'loss': 0.0313, 'grad_norm': 1.0924493074417114, 'learning_rate': 2.2701000000000002e-05, 'epoch': 49.16}
{'loss': 0.008, 'grad_norm': 0.4299162030220032, 'learning_rate': 2.2704e-05, 'epoch': 49.17}
{'loss': 0.0154, 'grad_norm': 1.0729461908340454, 'learning_rate': 2.2707e-05, 'epoch': 49.18}
{'loss': 0.0151, 'grad_norm': 1.202368140220642, 'learning_rate': 2.271e-05, 'epoch': 49.18}
{'loss': 0.0706, 'grad_norm': 1.1944355964660645, 'learning_rate': 2.2713e-05, 'epoch': 49.19}
{'loss': 0.0169, 'grad_norm': 0.7246977090835571, 'learning_rate': 2.2716e-05, 'epoch': 49.19}
{'loss': 0.0107, 'grad_norm': 0.543805718421936, 'learning_rate': 2.2719e-05, 'epoch': 49.2}
{'loss': 0.0658, 'grad_norm': 2.423731803894043, 'learning_rate': 2.2722e-05, 'epoch': 49.21}
{'loss': 0.0134, 'grad_norm': 0.6345058083534241, 'learning_rate': 2.2725e-05, 'epoch': 49.21}
{'loss': 0.0136, 'grad_norm': 1.5307806730270386, 'learning_rate': 2.2728000000000003e-05, 'epoch': 49.22}
{'loss': 0.0109, 'grad_norm': 0.729756236076355, 'learning_rate': 2.2731000000000003e-05, 'epoch': 49.23}
{'loss': 0.054, 'grad_norm': 2.4432177543640137, 'learning_rate': 2.2734000000000003e-05, 'epoch': 49.23}
{'loss': 0.0261, 'grad_norm': 2.0563268661499023, 'learning_rate': 2.2737000000000003e-05, 'epoch': 49.24}
{'loss': 0.0348, 'grad_norm': 2.079771041870117, 'learning_rate': 2.274e-05, 'epoch': 49.25}
{'loss': 0.1342, 'grad_norm': 0.9425917863845825, 'learning_rate': 2.2743e-05, 'epoch': 49.25}
{'loss': 0.0989, 'grad_norm': 0.9132614731788635, 'learning_rate': 2.2746e-05, 'epoch': 49.26}
{'loss': 0.076, 'grad_norm': 0.8878679871559143, 'learning_rate': 2.2749e-05, 'epoch': 49.27}
{'loss': 0.057, 'grad_norm': 0.4844202697277069, 'learning_rate': 2.2752e-05, 'epoch': 49.27}
{'loss': 0.0486, 'grad_norm': 0.5124936699867249, 'learning_rate': 2.2754999999999998e-05, 'epoch': 49.28}
{'loss': 0.0398, 'grad_norm': 0.5388172268867493, 'learning_rate': 2.2758e-05, 'epoch': 49.29}
{'loss': 0.0421, 'grad_norm': 0.678217887878418, 'learning_rate': 2.2761e-05, 'epoch': 49.29}
{'loss': 0.0394, 'grad_norm': 0.8225293755531311, 'learning_rate': 2.2764e-05, 'epoch': 49.3}
{'loss': 0.03, 'grad_norm': 0.5369999408721924, 'learning_rate': 2.2767e-05, 'epoch': 49.31}
{'loss': 0.0554, 'grad_norm': 0.6341310143470764, 'learning_rate': 2.277e-05, 'epoch': 49.31}
{'loss': 0.0218, 'grad_norm': 0.46670016646385193, 'learning_rate': 2.2773e-05, 'epoch': 49.32}
{'loss': 0.032, 'grad_norm': 0.5699656009674072, 'learning_rate': 2.2776e-05, 'epoch': 49.32}
{'loss': 0.0274, 'grad_norm': 0.6254717707633972, 'learning_rate': 2.2779e-05, 'epoch': 49.33}
{'loss': 0.0184, 'grad_norm': 2.564570188522339, 'learning_rate': 2.2782e-05, 'epoch': 49.34}
{'loss': 0.0218, 'grad_norm': 0.5381771326065063, 'learning_rate': 2.2785e-05, 'epoch': 49.34}
{'loss': 0.021, 'grad_norm': 0.7061290740966797, 'learning_rate': 2.2788000000000003e-05, 'epoch': 49.35}
{'loss': 0.0223, 'grad_norm': 4.641775131225586, 'learning_rate': 2.2791000000000003e-05, 'epoch': 49.36}
{'loss': 0.0219, 'grad_norm': 1.071738600730896, 'learning_rate': 2.2794000000000002e-05, 'epoch': 49.36}
{'loss': 0.0232, 'grad_norm': 1.1509411334991455, 'learning_rate': 2.2797000000000002e-05, 'epoch': 49.37}
{'loss': 0.009, 'grad_norm': 0.3461233079433441, 'learning_rate': 2.2800000000000002e-05, 'epoch': 49.38}
{'loss': 0.0178, 'grad_norm': 0.7279288172721863, 'learning_rate': 2.2803000000000002e-05, 'epoch': 49.38}
{'loss': 0.0135, 'grad_norm': 0.45762255787849426, 'learning_rate': 2.2806e-05, 'epoch': 49.39}
{'loss': 0.0113, 'grad_norm': 0.8074663877487183, 'learning_rate': 2.2809e-05, 'epoch': 49.4}
{'loss': 0.0557, 'grad_norm': 1.184402585029602, 'learning_rate': 2.2812e-05, 'epoch': 49.4}
{'loss': 0.0159, 'grad_norm': 0.7213813662528992, 'learning_rate': 2.2814999999999998e-05, 'epoch': 49.41}
{'loss': 0.0357, 'grad_norm': 1.2682929039001465, 'learning_rate': 2.2818e-05, 'epoch': 49.42}
{'loss': 0.0221, 'grad_norm': 0.8200270533561707, 'learning_rate': 2.2821e-05, 'epoch': 49.42}
{'loss': 0.0444, 'grad_norm': 0.9228869676589966, 'learning_rate': 2.2824e-05, 'epoch': 49.43}
{'loss': 0.0157, 'grad_norm': 1.038861632347107, 'learning_rate': 2.2827e-05, 'epoch': 49.44}
{'loss': 0.0089, 'grad_norm': 0.5126060247421265, 'learning_rate': 2.283e-05, 'epoch': 49.44}
{'loss': 0.0136, 'grad_norm': 0.7471774816513062, 'learning_rate': 2.2833e-05, 'epoch': 49.45}
{'loss': 0.0062, 'grad_norm': 0.4688571095466614, 'learning_rate': 2.2836e-05, 'epoch': 49.45}
{'loss': 0.0131, 'grad_norm': 0.8364939093589783, 'learning_rate': 2.2839e-05, 'epoch': 49.46}
{'loss': 0.0325, 'grad_norm': 1.4581847190856934, 'learning_rate': 2.2842e-05, 'epoch': 49.47}
{'loss': 0.018, 'grad_norm': 1.0270273685455322, 'learning_rate': 2.2845e-05, 'epoch': 49.47}
{'loss': 0.0146, 'grad_norm': 1.2217533588409424, 'learning_rate': 2.2848000000000002e-05, 'epoch': 49.48}
{'loss': 0.0093, 'grad_norm': 0.6854462027549744, 'learning_rate': 2.2851000000000002e-05, 'epoch': 49.49}
{'loss': 0.0221, 'grad_norm': 0.6730403304100037, 'learning_rate': 2.2854000000000002e-05, 'epoch': 49.49}
{'loss': 0.1186, 'grad_norm': 1.415073275566101, 'learning_rate': 2.2857e-05, 'epoch': 49.5}
{'loss': 0.0795, 'grad_norm': 0.6406754851341248, 'learning_rate': 2.286e-05, 'epoch': 49.51}
{'loss': 0.0682, 'grad_norm': 0.7332111597061157, 'learning_rate': 2.2863e-05, 'epoch': 49.51}
{'loss': 0.0595, 'grad_norm': 0.638319730758667, 'learning_rate': 2.2866e-05, 'epoch': 49.52}
{'loss': 0.0557, 'grad_norm': 0.5684693455696106, 'learning_rate': 2.2869e-05, 'epoch': 49.53}
{'loss': 0.0527, 'grad_norm': 0.7441710829734802, 'learning_rate': 2.2872e-05, 'epoch': 49.53}
{'loss': 0.0435, 'grad_norm': 0.6466885209083557, 'learning_rate': 2.2875e-05, 'epoch': 49.54}
  8%|▊         | 7630/100000 [4:36:48<87:35:56,  3.41s/it]  8%|▊         | 7631/100000 [4:36:50<78:20:24,  3.05s/it]                                                            8%|▊         | 7631/100000 [4:36:50<78:20:24,  3.05s/it]  8%|▊         | 7632/100000 [4:36:52<70:25:44,  2.74s/it]                                                            8%|▊         | 7632/100000 [4:36:52<70:25:44,  2.74s/it]  8%|▊         | 7633/100000 [4:36:54<63:56:29,  2.49s/it]                                                            8%|▊         | 7633/100000 [4:36:54<63:56:29,  2.49s/it]  8%|▊         | 7634/100000 [4:36:55<58:08:41,  2.27s/it]                                                            8%|▊         | 7634/100000 [4:36:55<58:08:41,  2.27s/it]  8%|▊         | 7635/100000 [4:36:57<53:30:43,  2.09s/it]                                                            8%|▊         | 7635/100000 [4:36:57<53:30:43,  2.09s/it]  8%|▊         | 7636/100000 [4:36:59<49:57:02,  1.95s/it]                                                            8%|▊         | 7636/100000 [4:36:59<49:57:02,  1.95s/it]  8%|▊         | 7637/100000 [4:37:00<46:28:51,  1.81s/it]                                                            8%|▊         | 7637/100000 [4:37:00<46:28:51,  1.81s/it]  8%|▊         | 7638/100000 [4:37:02<43:31:53,  1.70s/it]                                                            8%|▊         | 7638/100000 [4:37:02<43:31:53,  1.70s/it]  8%|▊         | 7639/100000 [4:37:03<41:09:37,  1.60s/it]                                                            8%|▊         | 7639/100000 [4:37:03<41:09:37,  1.60s/it]  8%|▊         | 7640/100000 [4:37:04<39:12:16,  1.53s/it]                                                            8%|▊         | 7640/100000 [4:37:04<39:12:16,  1.53s/it]  8%|▊         | 7641/100000 [4:37:06<37:14:00,  1.45s/it]                                                            8%|▊         | 7641/100000 [4:37:06<37:14:00,  1.45s/it]  8%|▊         | 7642/100000 [4:37:07<35:36:26,  1.39s/it]                                                            8%|▊         | 7642/100000 [4:37:07<35:36:26,  1.39s/it]  8%|▊         | 7643/100000 [4:37:08<33:40:14,  1.31s/it]                                                            8%|▊         | 7643/100000 [4:37:08<33:40:14,  1.31s/it]  8%|▊         | 7644/100000 [4:37:09<31:51:19,  1.24s/it]                                                            8%|▊         | 7644/100000 [4:37:09<31:51:19,  1.24s/it]  8%|▊         | 7645/100000 [4:37:10<30:16:33,  1.18s/it]                                                            8%|▊         | 7645/100000 [4:37:10<30:16:33,  1.18s/it]  8%|▊         | 7646/100000 [4:37:11<28:44:19,  1.12s/it]                                                            8%|▊         | 7646/100000 [4:37:11<28:44:19,  1.12s/it]  8%|▊         | 7647/100000 [4:37:12<27:12:36,  1.06s/it]                                                            8%|▊         | 7647/100000 [4:37:12<27:12:36,  1.06s/it]  8%|▊         | 7648/100000 [4:37:13<26:07:52,  1.02s/it]                                                            8%|▊         | 7648/100000 [4:37:13<26:07:52,  1.02s/it]  8%|▊         | 7649/100000 [4:37:14<25:11:20,  1.02it/s]                                                            8%|▊         | 7649/100000 [4:37:14<25:11:20,  1.02it/s]  8%|▊         | 7650/100000 [4:37:15<24:24:33,  1.05it/s]                                                            8%|▊         | 7650/100000 [4:37:15<24:24:33,  1.05it/s]  8%|▊         | 7651/100000 [4:37:16<23:57:59,  1.07it/s]                                                            8%|▊         | 7651/100000 [4:37:16<23:57:59,  1.07it/s]  8%|▊         | 7652/100000 [4:37:16<23:21:11,  1.10it/s]                                                            8%|▊         | 7652/100000 [4:37:16<23:21:11,  1.10it/s]  8%|▊         | 7653/100000 [4:37:17<22:55:21,  1.12it/s]                                                            8%|▊         | 7653/100000 [4:37:17<22:55:21,  1.12it/s]  8%|▊         | 7654/100000 [4:37:18<21:50:29,  1.17it/s]                                                            8%|▊         | 7654/100000 [4:37:18<21:50:29,  1.17it/s]  8%|▊         | 7655/100000 [4:37:19<20:52:05,  1.23it/s]                                                            8%|▊         | 7655/100000 [4:37:19<20:52:05,  1.23it/s]  8%|▊         | 7656/100000 [4:37:20<20:38:27,  1.24it/s]                                                            8%|▊         | 7656/100000 [4:37:20<20:38:27,  1.24it/s]  8%|▊         | 7657/100000 [4:37:20<20:33:24,  1.25it/s]                                                            8%|▊         | 7657/100000 [4:37:20<20:33:24,  1.25it/s]  8%|▊         | 7658/100000 [4:37:21<19:34:10,  1.31it/s]                                                            8%|▊         | 7658/100000 [4:37:21<19:34:10,  1.31it/s]  8%|▊         | 7659/100000 [4:37:22<18:56:19,  1.35it/s]                                                            8%|▊         | 7659/100000 [4:37:22<18:56:19,  1.35it/s]  8%|▊         | 7660/100000 [4:37:22<18:42:10,  1.37it/s]                                                            8%|▊         | 7660/100000 [4:37:22<18:42:10,  1.37it/s]  8%|▊         | 7661/100000 [4:37:34<104:36:59,  4.08s/it]                                                             8%|▊         | 7661/100000 [4:37:34<104:36:59,  4.08s/it]  8%|▊         | 7662/100000 [4:37:42<135:21:37,  5.28s/it]                                                             8%|▊         | 7662/100000 [4:37:42<135:21:37,  5.28s/it]  8%|▊         | 7663/100000 [4:37:48<139:07:42,  5.42s/it]                                                             8%|▊         | 7663/100000 [4:37:48<139:07:42,  5.42s/it]  8%|▊         | 7664/100000 [4:37:52<130:39:51,  5.09s/it]                                                             8%|▊         | 7664/100000 [4:37:52<130:39:51,  5.09s/it]  8%|▊         | 7665/100000 [4:37:56<121:48:28,  4.75s/it]                                                             8%|▊         | 7665/100000 [4:37:56<121:48:28,  4.75s/it]  8%|▊         | 7666/100000 [4:38:00<111:43:38,  4.36s/it]                                                             8%|▊         | 7666/100000 [4:38:00<111:43:38,  4.36s/it]  8%|▊         | 7667/100000 [4:38:03<101:09:55,  3.94s/it]                                                             8%|▊         | 7667/100000 [4:38:03<101:09:55,  3.94s/it]  8%|▊         | 7668/100000 [4:38:05<91:09:29,  3.55s/it]                                                             8%|▊         | 7668/100000 [4:38:06<91:09:29,  3.55s/it]  8%|▊         | 7669/100000 [4:38:08<81:40:36,  3.18s/it]                                                            8%|▊         | 7669/100000 [4:38:08<81:40:36,  3.18s/it]  8%|▊         | 7670/100000 [4:38:10<72:28:12,  2.83s/it]                                                            8%|▊         | 7670/100000 [4:38:10<72:28:12,  2.83s/it]  8%|▊         | 7671/100000 [4:38:12<66:00:54,  2.57s/it]                                                            8%|▊         | 7671/100000 [4:38:12<66:00:54,  2.57s/it]  8%|▊         | 7672/100000 [4:38:14<60:14:20,  2.35s/it]                                                            8%|▊         | 7672/100000 [4:38:14<60:14:20,  2.35s/it]  8%|▊         | 7673/100000 [4:38:15<55:34:18,  2.17s/it]                                                            8%|▊         | 7673/100000 [4:38:15<55:34:18,  2.17s/it]  8%|▊         | 7674/100000 [4:38:17<51:19:25,  2.00s/it]                                                            8%|▊         | 7674/100000 [4:38:17<51:19:25,  2.00s/it]  8%|▊         | 7675/100000 [4:38:19<47:57:52,  1.87s/it]                                                            8%|▊         | 7675/100000 [4:38:19<47:57:52,  1.87s/it]  8%|▊         | 7676/100000 [4:38:20<45:08:43,  1.76s/it]                                                            8%|▊         | 7676/100000 [4:38:20<45:08:43,  1.76s/it]  8%|▊         | 7677/100000 [4:38:21<42:33:09,  1.66s/it]                                                            8%|▊         | 7677/100000 [4:38:21<42:33:09,  1.66s/it]  8%|▊         | 7678/100000 [4:38:23<39:45:21,  1.55s/it]                                                            8%|▊         | 7678/100000 [4:38:23<39:45:21,  1.55s/it]  8%|▊         | 7679/100000 [4:38:24<37:31:38,  1.46s/it]                                                            8%|▊         | 7679/100000 [4:38:24<37:31:38,  1.46s/it]  8%|▊         | 7680/100000 [4:38:25<35:35:55,  1.39s/it]                                                            8%|▊         | 7680/100000 [4:38:25<35:35:55,  1.39s/it]  8%|▊         | 7681/100000 [4:38:26<33:42:24,  1.31s/it]                                                            8%|▊         | 7681/100000 [4:38:26<33:42:24,  1.31s/it]  8%|▊         | 7682/100000 [4:38:27<32:06:10,  1.25s/it]                                                            8%|▊         | 7682/100000 [4:38:27<32:06:10,  1.25s/it]  8%|▊         | 7683/100000 [4:38:29<30:33:23,  1.19s/it]                                                            8%|▊         | 7683/100000 [4:38:29<30:33:23,  1.19s/it]  8%|▊         | 7684/100000 [4:38:30<29:09:50,  1.14s/it]                                                            8%|▊         | 7684/100000 [4:38:30<29:09:50,  1.14s/it]  8%|▊         | 7685/100000 [4:38:30<27:49:05,  1.08s/it]                                                            8%|▊         | 7685/100000 [4:38:31<27:49:05,  1.08s/it]  8%|▊         | 7686/100000 [4:38:31<26:34:07,  1.04s/it]                                                            8%|▊         | 7686/100000 [4:38:31<26:34:07,  1.04s/it]  8%|▊         | 7687/100000 [4:38:32<25:37:49,  1.00it/s]                                                            8%|▊         | 7687/100000 [4:38:32<25:37:49,  1.00it/s]  8%|▊         | 7688/100000 [4:38:33<24:39:16,  1.04it/s]                                                            8%|▊         | 7688/100000 [4:38:33<24:39:16,  1.04it/s]  8%|▊         | 7689/100000 [4:38:34<23:42:49,  1.08it/s]                                                            8%|▊         | 7689/100000 [4:38:34<23:42:49,  1.08it/s]  8%|▊         | 7690/100000 [4:38:35<22:50:45,  1.12it/s]                                                            8%|▊         | 7690/100000 [4:38:35<22:50:45,  1.12it/s]  8%|▊         | 7691/100000 [4:38:36<21:53:05,  1.17it/s]                                                            8%|▊         | 7691/100000 [4:38:36<21:53:05,  1.17it/s]  8%|▊         | 7692/100000 [4:38:36<21:08:35,  1.21it/s]                                                            8%|▊         | 7692/100000 [4:38:36<21:08:35,  1.21it/s]  8%|▊         | 7693/100000 [4:38:37<20:38:18,  1.24it/s]                                                            8%|▊         | 7693/100000 [4:38:37<20:38:18,  1.24it/s]  8%|▊         | 7694/100000 [4:38:38<20:32:59,  1.25it/s]                                                            8%|▊         | 7694/100000 [4:38:38<20:32:59,  1.25it/s]  8%|▊         | 7695/100000 [4:38:39<19:53:30,  1.29it/s]                                                            8%|▊         | 7695/100000 [4:38:39<19:53:30,  1.29it/s]  8%|▊         | 7696/100000 [4:38:39<18:53:50,  1.36it/s]                                                            8%|▊         | 7696/100000 [4:38:39<18:53:50,  1.36it/s]  8%|▊         | 7697/100000 [4:38:40<18:49:07,  1.36it/s]                                                            8%|▊         | 7697/100000 [4:38:40<18:49:07,  1.36it/s]  8%|▊         | 7698/100000 [4:38:41<18:02:57,  1.42it/s]                                                            8%|▊         | 7698/100000 [4:38:41<18:02:57,  1.42it/s]  8%|▊         | 7699/100000 [4:38:47<59:29:55,  2.32s/it]                                                            8%|▊         | 7699/100000 [4:38:47<59:29:55,  2.32s/it]  8%|▊         | 7700/100000 [4:38:48<51:33:37,  2.01s/it]                                                            8%|▊         | 7700/100000 [4:38:48<51:33:37,  2.01s/it]{'loss': 0.0385, 'grad_norm': 0.6735782623291016, 'learning_rate': 2.2878e-05, 'epoch': 49.55}
{'loss': 0.0274, 'grad_norm': 0.602904200553894, 'learning_rate': 2.2881000000000003e-05, 'epoch': 49.55}
{'loss': 0.0335, 'grad_norm': 0.6783220171928406, 'learning_rate': 2.2884000000000003e-05, 'epoch': 49.56}
{'loss': 0.0239, 'grad_norm': 0.5712589621543884, 'learning_rate': 2.2887e-05, 'epoch': 49.56}
{'loss': 0.0337, 'grad_norm': 0.523102343082428, 'learning_rate': 2.289e-05, 'epoch': 49.57}
{'loss': 0.0192, 'grad_norm': 0.4432762563228607, 'learning_rate': 2.2893e-05, 'epoch': 49.58}
{'loss': 0.0217, 'grad_norm': 0.5407163500785828, 'learning_rate': 2.2896e-05, 'epoch': 49.58}
{'loss': 0.0245, 'grad_norm': 0.7241998910903931, 'learning_rate': 2.2899e-05, 'epoch': 49.59}
{'loss': 0.0137, 'grad_norm': 0.41918453574180603, 'learning_rate': 2.2902e-05, 'epoch': 49.6}
{'loss': 0.0211, 'grad_norm': 0.5165001153945923, 'learning_rate': 2.2905e-05, 'epoch': 49.6}
{'loss': 0.0182, 'grad_norm': 0.6588399410247803, 'learning_rate': 2.2907999999999998e-05, 'epoch': 49.61}
{'loss': 0.0214, 'grad_norm': 0.8626248240470886, 'learning_rate': 2.2911e-05, 'epoch': 49.62}
{'loss': 0.0263, 'grad_norm': 1.0106534957885742, 'learning_rate': 2.2914e-05, 'epoch': 49.62}
{'loss': 0.0199, 'grad_norm': 0.5552247762680054, 'learning_rate': 2.2917e-05, 'epoch': 49.63}
{'loss': 0.0143, 'grad_norm': 0.6281254291534424, 'learning_rate': 2.292e-05, 'epoch': 49.64}
{'loss': 0.0287, 'grad_norm': 0.49666228890419006, 'learning_rate': 2.2923e-05, 'epoch': 49.64}
{'loss': 0.018, 'grad_norm': 0.5275145769119263, 'learning_rate': 2.2926e-05, 'epoch': 49.65}
{'loss': 0.006, 'grad_norm': 0.3256429433822632, 'learning_rate': 2.2929e-05, 'epoch': 49.66}
{'loss': 0.0177, 'grad_norm': 1.631432056427002, 'learning_rate': 2.2932e-05, 'epoch': 49.66}
{'loss': 0.0084, 'grad_norm': 0.41104814410209656, 'learning_rate': 2.2935e-05, 'epoch': 49.67}
{'loss': 0.0596, 'grad_norm': 1.0240495204925537, 'learning_rate': 2.2938e-05, 'epoch': 49.68}
{'loss': 0.0248, 'grad_norm': 4.052114009857178, 'learning_rate': 2.2941000000000003e-05, 'epoch': 49.68}
{'loss': 0.0147, 'grad_norm': 0.8454748392105103, 'learning_rate': 2.2944000000000003e-05, 'epoch': 49.69}
{'loss': 0.0059, 'grad_norm': 0.5116724967956543, 'learning_rate': 2.2947000000000002e-05, 'epoch': 49.69}
{'loss': 0.0222, 'grad_norm': 2.3260228633880615, 'learning_rate': 2.2950000000000002e-05, 'epoch': 49.7}
{'loss': 0.0154, 'grad_norm': 1.4423681497573853, 'learning_rate': 2.2953000000000002e-05, 'epoch': 49.71}
{'loss': 0.0196, 'grad_norm': 1.139248251914978, 'learning_rate': 2.2956000000000002e-05, 'epoch': 49.71}
{'loss': 0.0113, 'grad_norm': 0.6959219574928284, 'learning_rate': 2.2959e-05, 'epoch': 49.72}
{'loss': 0.029, 'grad_norm': 3.31964111328125, 'learning_rate': 2.2961999999999998e-05, 'epoch': 49.73}
{'loss': 0.016, 'grad_norm': 0.9404007196426392, 'learning_rate': 2.2964999999999998e-05, 'epoch': 49.73}
{'loss': 0.0443, 'grad_norm': 1.6933690309524536, 'learning_rate': 2.2967999999999998e-05, 'epoch': 49.74}
{'loss': 0.1752, 'grad_norm': 1.6734784841537476, 'learning_rate': 2.2971e-05, 'epoch': 49.75}
{'loss': 0.0906, 'grad_norm': 0.8027477860450745, 'learning_rate': 2.2974e-05, 'epoch': 49.75}
{'loss': 0.0824, 'grad_norm': 0.6366909742355347, 'learning_rate': 2.2977e-05, 'epoch': 49.76}
{'loss': 0.065, 'grad_norm': 0.5234696865081787, 'learning_rate': 2.298e-05, 'epoch': 49.77}
{'loss': 0.058, 'grad_norm': 0.6276499032974243, 'learning_rate': 2.2983e-05, 'epoch': 49.77}
{'loss': 0.0445, 'grad_norm': 0.6634260416030884, 'learning_rate': 2.2986e-05, 'epoch': 49.78}
{'loss': 0.0608, 'grad_norm': 0.7803844213485718, 'learning_rate': 2.2989e-05, 'epoch': 49.79}
{'loss': 0.0528, 'grad_norm': 0.6567749977111816, 'learning_rate': 2.2992e-05, 'epoch': 49.79}
{'loss': 0.0339, 'grad_norm': 0.6214286088943481, 'learning_rate': 2.2995e-05, 'epoch': 49.8}
{'loss': 0.0325, 'grad_norm': 0.5677991509437561, 'learning_rate': 2.2998e-05, 'epoch': 49.81}
{'loss': 0.025, 'grad_norm': 0.49802151322364807, 'learning_rate': 2.3001000000000002e-05, 'epoch': 49.81}
{'loss': 0.0242, 'grad_norm': 0.4607446491718292, 'learning_rate': 2.3004000000000002e-05, 'epoch': 49.82}
{'loss': 0.023, 'grad_norm': 0.38734158873558044, 'learning_rate': 2.3007000000000002e-05, 'epoch': 49.82}
{'loss': 0.0311, 'grad_norm': 0.5801908373832703, 'learning_rate': 2.301e-05, 'epoch': 49.83}
{'loss': 0.0196, 'grad_norm': 1.9262654781341553, 'learning_rate': 2.3013e-05, 'epoch': 49.84}
{'loss': 0.0218, 'grad_norm': 0.9023569226264954, 'learning_rate': 2.3016e-05, 'epoch': 49.84}
{'loss': 0.0171, 'grad_norm': 0.5946083068847656, 'learning_rate': 2.3019e-05, 'epoch': 49.85}
{'loss': 0.0148, 'grad_norm': 0.4538884460926056, 'learning_rate': 2.3022e-05, 'epoch': 49.86}
{'loss': 0.0163, 'grad_norm': 0.7562617659568787, 'learning_rate': 2.3025e-05, 'epoch': 49.86}
{'loss': 0.0151, 'grad_norm': 0.7636053562164307, 'learning_rate': 2.3028e-05, 'epoch': 49.87}
{'loss': 0.0131, 'grad_norm': 0.7022645473480225, 'learning_rate': 2.3031000000000004e-05, 'epoch': 49.88}
{'loss': 0.0207, 'grad_norm': 1.2339860200881958, 'learning_rate': 2.3034e-05, 'epoch': 49.88}
{'loss': 0.0154, 'grad_norm': 0.5856229066848755, 'learning_rate': 2.3037e-05, 'epoch': 49.89}
{'loss': 0.0203, 'grad_norm': 0.7825329899787903, 'learning_rate': 2.304e-05, 'epoch': 49.9}
{'loss': 0.0058, 'grad_norm': 0.283492773771286, 'learning_rate': 2.3043e-05, 'epoch': 49.9}
{'loss': 0.0115, 'grad_norm': 0.7387290000915527, 'learning_rate': 2.3046e-05, 'epoch': 49.91}
{'loss': 0.0348, 'grad_norm': 1.297105073928833, 'learning_rate': 2.3049e-05, 'epoch': 49.92}
{'loss': 0.0086, 'grad_norm': 0.3553507328033447, 'learning_rate': 2.3052e-05, 'epoch': 49.92}
{'loss': 0.0653, 'grad_norm': 1.032615303993225, 'learning_rate': 2.3055e-05, 'epoch': 49.93}
{'loss': 0.0174, 'grad_norm': 2.003484010696411, 'learning_rate': 2.3058e-05, 'epoch': 49.94}
{'loss': 0.0072, 'grad_norm': 0.49603569507598877, 'learning_rate': 2.3061e-05, 'epoch': 49.94}
{'loss': 0.0152, 'grad_norm': 1.0686746835708618, 'learning_rate': 2.3064e-05, 'epoch': 49.95}
{'loss': 0.011, 'grad_norm': 1.0853140354156494, 'learning_rate': 2.3067e-05, 'epoch': 49.95}
{'loss': 0.0193, 'grad_norm': 2.527268886566162, 'learning_rate': 2.307e-05, 'epoch': 49.96}
{'loss': 0.0231, 'grad_norm': 1.4905539751052856, 'learning_rate': 2.3073e-05, 'epoch': 49.97}
{'loss': 0.0191, 'grad_norm': 0.8950200080871582, 'learning_rate': 2.3076e-05, 'epoch': 49.97}
{'loss': 0.0044, 'grad_norm': 0.7780449390411377, 'learning_rate': 2.3079e-05, 'epoch': 49.98}
{'loss': 0.07, 'grad_norm': 3.6006650924682617, 'learning_rate': 2.3082e-05, 'epoch': 49.99}
{'loss': 0.055, 'grad_norm': 1.2724368572235107, 'learning_rate': 2.3085e-05, 'epoch': 49.99}
{'loss': 0.0277, 'grad_norm': 1.0880818367004395, 'learning_rate': 2.3088e-05, 'epoch': 50.0}
  8%|▊         | 7701/100000 [4:39:06<170:53:49,  6.67s/it]                                                             8%|▊         | 7701/100000 [4:39:06<170:53:49,  6.67s/it]  8%|▊         | 7702/100000 [4:39:13<174:35:19,  6.81s/it]                                                             8%|▊         | 7702/100000 [4:39:13<174:35:19,  6.81s/it]  8%|▊         | 7703/100000 [4:39:18<166:08:25,  6.48s/it]                                                             8%|▊         | 7703/100000 [4:39:18<166:08:25,  6.48s/it]  8%|▊         | 7704/100000 [4:39:23<153:02:56,  5.97s/it]                                                             8%|▊         | 7704/100000 [4:39:23<153:02:56,  5.97s/it]  8%|▊         | 7705/100000 [4:39:27<138:12:04,  5.39s/it]                                                             8%|▊         | 7705/100000 [4:39:27<138:12:04,  5.39s/it]  8%|▊         | 7706/100000 [4:39:31<124:42:02,  4.86s/it]                                                             8%|▊         | 7706/100000 [4:39:31<124:42:02,  4.86s/it]  8%|▊         | 7707/100000 [4:39:34<111:47:06,  4.36s/it]                                                             8%|▊         | 7707/100000 [4:39:34<111:47:06,  4.36s/it]  8%|▊         | 7708/100000 [4:39:37<99:36:38,  3.89s/it]                                                             8%|▊         | 7708/100000 [4:39:37<99:36:38,  3.89s/it]  8%|▊         | 7709/100000 [4:39:39<88:20:19,  3.45s/it]                                                            8%|▊         | 7709/100000 [4:39:39<88:20:19,  3.45s/it]  8%|▊         | 7710/100000 [4:39:41<78:43:18,  3.07s/it]                                                            8%|▊         | 7710/100000 [4:39:41<78:43:18,  3.07s/it]  8%|▊         | 7711/100000 [4:39:43<70:34:05,  2.75s/it]                                                            8%|▊         | 7711/100000 [4:39:43<70:34:05,  2.75s/it]  8%|▊         | 7712/100000 [4:39:45<63:13:17,  2.47s/it]                                                            8%|▊         | 7712/100000 [4:39:45<63:13:17,  2.47s/it]  8%|▊         | 7713/100000 [4:39:47<57:31:45,  2.24s/it]                                                            8%|▊         | 7713/100000 [4:39:47<57:31:45,  2.24s/it]  8%|▊         | 7714/100000 [4:39:49<52:35:57,  2.05s/it]                                                            8%|▊         | 7714/100000 [4:39:49<52:35:57,  2.05s/it]  8%|▊         | 7715/100000 [4:39:50<49:02:57,  1.91s/it]                                                            8%|▊         | 7715/100000 [4:39:50<49:02:57,  1.91s/it]  8%|▊         | 7716/100000 [4:39:52<45:48:45,  1.79s/it]                                                            8%|▊         | 7716/100000 [4:39:52<45:48:45,  1.79s/it]  8%|▊         | 7717/100000 [4:39:53<42:47:28,  1.67s/it]                                                            8%|▊         | 7717/100000 [4:39:53<42:47:28,  1.67s/it]  8%|▊         | 7718/100000 [4:39:54<40:24:14,  1.58s/it]                                                            8%|▊         | 7718/100000 [4:39:54<40:24:14,  1.58s/it]  8%|▊         | 7719/100000 [4:39:56<38:05:54,  1.49s/it]                                                            8%|▊         | 7719/100000 [4:39:56<38:05:54,  1.49s/it]  8%|▊         | 7720/100000 [4:39:57<36:17:47,  1.42s/it]                                                            8%|▊         | 7720/100000 [4:39:57<36:17:47,  1.42s/it]  8%|▊         | 7721/100000 [4:39:58<34:17:30,  1.34s/it]                                                            8%|▊         | 7721/100000 [4:39:58<34:17:30,  1.34s/it]  8%|▊         | 7722/100000 [4:39:59<32:19:18,  1.26s/it]                                                            8%|▊         | 7722/100000 [4:39:59<32:19:18,  1.26s/it]  8%|▊         | 7723/100000 [4:40:00<31:02:29,  1.21s/it]                                                            8%|▊         | 7723/100000 [4:40:00<31:02:29,  1.21s/it]  8%|▊         | 7724/100000 [4:40:01<29:23:09,  1.15s/it]                                                            8%|▊         | 7724/100000 [4:40:01<29:23:09,  1.15s/it]  8%|▊         | 7725/100000 [4:40:02<28:07:06,  1.10s/it]                                                            8%|▊         | 7725/100000 [4:40:02<28:07:06,  1.10s/it]  8%|▊         | 7726/100000 [4:40:03<26:54:49,  1.05s/it]                                                            8%|▊         | 7726/100000 [4:40:03<26:54:49,  1.05s/it]  8%|▊         | 7727/100000 [4:40:04<25:47:14,  1.01s/it]                                                            8%|▊         | 7727/100000 [4:40:04<25:47:14,  1.01s/it]  8%|▊         | 7728/100000 [4:40:05<24:37:44,  1.04it/s]                                                            8%|▊         | 7728/100000 [4:40:05<24:37:44,  1.04it/s]  8%|▊         | 7729/100000 [4:40:06<23:34:23,  1.09it/s]                                                            8%|▊         | 7729/100000 [4:40:06<23:34:23,  1.09it/s]  8%|▊         | 7730/100000 [4:40:07<22:46:00,  1.13it/s]                                                            8%|▊         | 7730/100000 [4:40:07<22:46:00,  1.13it/s]  8%|▊         | 7731/100000 [4:40:07<22:02:05,  1.16it/s]                                                            8%|▊         | 7731/100000 [4:40:07<22:02:05,  1.16it/s]  8%|▊         | 7732/100000 [4:40:08<21:25:52,  1.20it/s]                                                            8%|▊         | 7732/100000 [4:40:08<21:25:52,  1.20it/s]  8%|▊         | 7733/100000 [4:40:09<20:45:30,  1.23it/s]                                                            8%|▊         | 7733/100000 [4:40:09<20:45:30,  1.23it/s]  8%|▊         | 7734/100000 [4:40:10<20:22:25,  1.26it/s]                                                            8%|▊         | 7734/100000 [4:40:10<20:22:25,  1.26it/s]  8%|▊         | 7735/100000 [4:40:10<19:30:42,  1.31it/s]                                                            8%|▊         | 7735/100000 [4:40:10<19:30:42,  1.31it/s]  8%|▊         | 7736/100000 [4:40:11<19:16:42,  1.33it/s]                                                            8%|▊         | 7736/100000 [4:40:11<19:16:42,  1.33it/s]  8%|▊         | 7737/100000 [4:40:12<18:51:42,  1.36it/s]                                                            8%|▊         | 7737/100000 [4:40:12<18:51:42,  1.36it/s]  8%|▊         | 7738/100000 [4:40:12<18:28:31,  1.39it/s]                                                            8%|▊         | 7738/100000 [4:40:12<18:28:31,  1.39it/s]  8%|▊         | 7739/100000 [4:40:25<108:59:43,  4.25s/it]                                                             8%|▊         | 7739/100000 [4:40:25<108:59:43,  4.25s/it]  8%|▊         | 7740/100000 [4:40:33<138:42:58,  5.41s/it]                                                             8%|▊         | 7740/100000 [4:40:33<138:42:58,  5.41s/it]  8%|▊         | 7741/100000 [4:40:39<141:49:48,  5.53s/it]                                                             8%|▊         | 7741/100000 [4:40:39<141:49:48,  5.53s/it]  8%|▊         | 7742/100000 [4:40:44<134:49:58,  5.26s/it]                                                             8%|▊         | 7742/100000 [4:40:44<134:49:58,  5.26s/it]  8%|▊         | 7743/100000 [4:40:48<125:47:06,  4.91s/it]                                                             8%|▊         | 7743/100000 [4:40:48<125:47:06,  4.91s/it]  8%|▊         | 7744/100000 [4:40:51<115:35:24,  4.51s/it]                                                             8%|▊         | 7744/100000 [4:40:51<115:35:24,  4.51s/it]  8%|▊         | 7745/100000 [4:40:54<105:40:04,  4.12s/it]                                                             8%|▊         | 7745/100000 [4:40:54<105:40:04,  4.12s/it]  8%|▊         | 7746/100000 [4:40:57<95:37:32,  3.73s/it]                                                             8%|▊         | 7746/100000 [4:40:57<95:37:32,  3.73s/it]  8%|▊         | 7747/100000 [4:41:00<85:59:19,  3.36s/it]                                                            8%|▊         | 7747/100000 [4:41:00<85:59:19,  3.36s/it]  8%|▊         | 7748/100000 [4:41:02<76:47:00,  3.00s/it]                                                            8%|▊         | 7748/100000 [4:41:02<76:47:00,  3.00s/it]  8%|▊         | 7749/100000 [4:41:04<69:25:34,  2.71s/it]                                                            8%|▊         | 7749/100000 [4:41:04<69:25:34,  2.71s/it]  8%|▊         | 7750/100000 [4:41:06<63:10:09,  2.47s/it]                                                            8%|▊         | 7750/100000 [4:41:06<63:10:09,  2.47s/it]  8%|▊         | 7751/100000 [4:41:08<57:42:02,  2.25s/it]                                                            8%|▊         | 7751/100000 [4:41:08<57:42:02,  2.25s/it]  8%|▊         | 7752/100000 [4:41:09<52:42:00,  2.06s/it]                                                            8%|▊         | 7752/100000 [4:41:09<52:42:00,  2.06s/it]  8%|▊         | 7753/100000 [4:41:11<49:06:30,  1.92s/it]                                                            8%|▊         | 7753/100000 [4:41:11<49:06:30,  1.92s/it]  8%|▊         | 7754/100000 [4:41:12<45:25:46,  1.77s/it]                                                            8%|▊         | 7754/100000 [4:41:12<45:25:46,  1.77s/it]  8%|▊         | 7755/100000 [4:41:14<42:37:38,  1.66s/it]                                                            8%|▊         | 7755/100000 [4:41:14<42:37:38,  1.66s/it]  8%|▊         | 7756/100000 [4:41:15<40:19:07,  1.57s/it]                                                            8%|▊         | 7756/100000 [4:41:15<40:19:07,  1.57s/it]  8%|▊         | 7757/100000 [4:41:16<38:00:31,  1.48s/it]                                                            8%|▊         | 7757/100000 [4:41:16<38:00:31,  1.48s/it]  8%|▊         | 7758/100000 [4:41:18<36:16:07,  1.42s/it]                                                            8%|▊         | 7758/100000 [4:41:18<36:16:07,  1.42s/it]  8%|▊         | 7759/100000 [4:41:19<34:29:04,  1.35s/it]                                                            8%|▊         | 7759/100000 [4:41:19<34:29:04,  1.35s/it]  8%|▊         | 7760/100000 [4:41:20<32:42:24,  1.28s/it]                                                            8%|▊         | 7760/100000 [4:41:20<32:42:24,  1.28s/it]  8%|▊         | 7761/100000 [4:41:21<31:18:38,  1.22s/it]                                                            8%|▊         | 7761/100000 [4:41:21<31:18:38,  1.22s/it]  8%|▊         | 7762/100000 [4:41:22<29:53:58,  1.17s/it]                                                            8%|▊         | 7762/100000 [4:41:22<29:53:58,  1.17s/it]  8%|▊         | 7763/100000 [4:41:23<28:42:11,  1.12s/it]                                                            8%|▊         | 7763/100000 [4:41:23<28:42:11,  1.12s/it]  8%|▊         | 7764/100000 [4:41:24<27:37:15,  1.08s/it]                                                            8%|▊         | 7764/100000 [4:41:24<27:37:15,  1.08s/it]  8%|▊         | 7765/100000 [4:41:25<26:40:26,  1.04s/it]                                                            8%|▊         | 7765/100000 [4:41:25<26:40:26,  1.04s/it]  8%|▊         | 7766/100000 [4:41:26<25:44:02,  1.00s/it]                                                            8%|▊         | 7766/100000 [4:41:26<25:44:02,  1.00s/it]  8%|▊         | 7767/100000 [4:41:27<24:57:32,  1.03it/s]                                                            8%|▊         | 7767/100000 [4:41:27<24:57:32,  1.03it/s]  8%|▊         | 7768/100000 [4:41:28<24:21:01,  1.05it/s]                                                            8%|▊         | 7768/100000 [4:41:28<24:21:01,  1.05it/s]  8%|▊         | 7769/100000 [4:41:29<25:18:04,  1.01it/s]                                                            8%|▊         | 7769/100000 [4:41:29<25:18:04,  1.01it/s]  8%|▊         | 7770/100000 [4:41:29<24:03:33,  1.06it/s]                                                            8%|▊         | 7770/100000 [4:41:29<24:03:33,  1.06it/s]  8%|▊         | 7771/100000 [4:41:30<23:02:49,  1.11it/s]                                                            8%|▊         | 7771/100000 [4:41:30<23:02:49,  1.11it/s]  8%|▊         | 7772/100000 [4:41:31<22:38:03,  1.13it/s]                                                            8%|▊         | 7772/100000 [4:41:31<22:38:03,  1.13it/s]  8%|▊         | 7773/100000 [4:41:32<22:02:05,  1.16it/s]                                                            8%|▊         | 7773/100000 [4:41:32<22:02:05,  1.16it/s]  8%|▊         | 7774/100000 [4:41:33<21:14:19,  1.21it/s]                                                            8%|▊         | 7774/100000 [4:41:33<21:14:19,  1.21it/s]  8%|▊         | 7775/100000 [4:41:33<20:31:20,  1.25it/s]                                                            8%|▊         | 7775/100000 [4:41:33<20:31:20,  1.25it/s]  8%|▊         | 7776/100000 [4:41:34<20:07:06,  1.27it/s]                                                            8%|▊         | 7776/100000 [4:41:34<20:07:06,  1.27it/s]  8%|▊         | 7777/100000 [4:41:46<104:03:10,  4.06s/it]                                                             8%|▊         | 7777/100000 [4:41:46<104:03:10,  4.06s/it]  8%|▊         | 7778/100000 [4:41:54<134:49:13,  5.26s/it]                                                             8%|▊         | 7778/100000 [4:41:54<134:49:13,  5.26s/it]  8%|▊         | 7779/100000 [4:41:59<133:44:04,  5.22s/it]                                                             8%|▊         | 7779/100000 [4:41:59<133:44:04,  5.22s/it]  8%|▊         | 7780/100000 [4:42:04<129:17:42,  5.05s/it]                                                             8%|▊         | 7780/100000 [4:42:04<129:17:42,  5.05s/it]  8%|▊         | 7781/100000 [4:42:08<121:22:37,  4.74s/it]                                                             8%|▊         | 7781/100000 [4:42:08<121:22:37,  4.74s/it]  8%|▊         | 7782/100000 [4:42:11<110:08:22,  4.30s/it]                                                             8%|▊         | 7782/100000 [4:42:11<110:08:22,  4.30s/it]  8%|▊         | 7783/100000 [4:42:14<99:08:17,  3.87s/it]                                                           {'loss': 0.1176, 'grad_norm': 0.8916479349136353, 'learning_rate': 2.3091000000000003e-05, 'epoch': 50.01}
{'loss': 0.0767, 'grad_norm': 0.7673996090888977, 'learning_rate': 2.3094000000000003e-05, 'epoch': 50.01}
{'loss': 0.0485, 'grad_norm': 0.8993490934371948, 'learning_rate': 2.3097000000000003e-05, 'epoch': 50.02}
{'loss': 0.0558, 'grad_norm': 0.4775623679161072, 'learning_rate': 2.3100000000000002e-05, 'epoch': 50.03}
{'loss': 0.0547, 'grad_norm': 0.5949854850769043, 'learning_rate': 2.3103000000000002e-05, 'epoch': 50.03}
{'loss': 0.0305, 'grad_norm': 0.5207324028015137, 'learning_rate': 2.3106000000000002e-05, 'epoch': 50.04}
{'loss': 0.0353, 'grad_norm': 0.6518939733505249, 'learning_rate': 2.3109e-05, 'epoch': 50.05}
{'loss': 0.034, 'grad_norm': 0.5443499684333801, 'learning_rate': 2.3111999999999998e-05, 'epoch': 50.05}
{'loss': 0.033, 'grad_norm': 0.55215984582901, 'learning_rate': 2.3114999999999998e-05, 'epoch': 50.06}
{'loss': 0.034, 'grad_norm': 0.6591036319732666, 'learning_rate': 2.3117999999999998e-05, 'epoch': 50.06}
{'loss': 0.0193, 'grad_norm': 0.4899802505970001, 'learning_rate': 2.3121e-05, 'epoch': 50.07}
{'loss': 0.0206, 'grad_norm': 0.8924921154975891, 'learning_rate': 2.3124e-05, 'epoch': 50.08}
{'loss': 0.0358, 'grad_norm': 2.133134126663208, 'learning_rate': 2.3127e-05, 'epoch': 50.08}
{'loss': 0.0213, 'grad_norm': 0.7749494314193726, 'learning_rate': 2.313e-05, 'epoch': 50.09}
{'loss': 0.015, 'grad_norm': 0.37256571650505066, 'learning_rate': 2.3133e-05, 'epoch': 50.1}
{'loss': 0.0239, 'grad_norm': 0.5686384439468384, 'learning_rate': 2.3136e-05, 'epoch': 50.1}
{'loss': 0.026, 'grad_norm': 0.48985734581947327, 'learning_rate': 2.3139e-05, 'epoch': 50.11}
{'loss': 0.0186, 'grad_norm': 0.6046855449676514, 'learning_rate': 2.3142e-05, 'epoch': 50.12}
{'loss': 0.029, 'grad_norm': 0.6614640355110168, 'learning_rate': 2.3145e-05, 'epoch': 50.12}
{'loss': 0.0255, 'grad_norm': 0.8314052820205688, 'learning_rate': 2.3148e-05, 'epoch': 50.13}
{'loss': 0.0166, 'grad_norm': 0.6463599801063538, 'learning_rate': 2.3151000000000002e-05, 'epoch': 50.14}
{'loss': 0.0126, 'grad_norm': 0.5086212158203125, 'learning_rate': 2.3154000000000002e-05, 'epoch': 50.14}
{'loss': 0.0093, 'grad_norm': 0.5227901935577393, 'learning_rate': 2.3157000000000002e-05, 'epoch': 50.15}
{'loss': 0.0192, 'grad_norm': 1.5899596214294434, 'learning_rate': 2.3160000000000002e-05, 'epoch': 50.16}
{'loss': 0.0372, 'grad_norm': 0.6221840381622314, 'learning_rate': 2.3163e-05, 'epoch': 50.16}
{'loss': 0.0117, 'grad_norm': 0.4100881516933441, 'learning_rate': 2.3166e-05, 'epoch': 50.17}
{'loss': 0.0111, 'grad_norm': 0.9181921482086182, 'learning_rate': 2.3169e-05, 'epoch': 50.18}
{'loss': 0.0968, 'grad_norm': 0.8783582448959351, 'learning_rate': 2.3172e-05, 'epoch': 50.18}
{'loss': 0.1046, 'grad_norm': 0.9400662183761597, 'learning_rate': 2.3175e-05, 'epoch': 50.19}
{'loss': 0.0022, 'grad_norm': 0.1558501422405243, 'learning_rate': 2.3178e-05, 'epoch': 50.19}
{'loss': 0.0161, 'grad_norm': 0.6281031966209412, 'learning_rate': 2.3181000000000004e-05, 'epoch': 50.2}
{'loss': 0.0082, 'grad_norm': 0.8478763699531555, 'learning_rate': 2.3184e-05, 'epoch': 50.21}
{'loss': 0.0107, 'grad_norm': 0.724521279335022, 'learning_rate': 2.3187e-05, 'epoch': 50.21}
{'loss': 0.0117, 'grad_norm': 0.865207314491272, 'learning_rate': 2.319e-05, 'epoch': 50.22}
{'loss': 0.003, 'grad_norm': 0.2789890170097351, 'learning_rate': 2.3193e-05, 'epoch': 50.23}
{'loss': 0.0209, 'grad_norm': 1.151953935623169, 'learning_rate': 2.3196e-05, 'epoch': 50.23}
{'loss': 0.0434, 'grad_norm': 2.875537872314453, 'learning_rate': 2.3199e-05, 'epoch': 50.24}
{'loss': 0.011, 'grad_norm': 1.5800005197525024, 'learning_rate': 2.3202e-05, 'epoch': 50.25}
{'loss': 0.1285, 'grad_norm': 1.0361487865447998, 'learning_rate': 2.3205e-05, 'epoch': 50.25}
{'loss': 0.0755, 'grad_norm': 0.6166821122169495, 'learning_rate': 2.3208e-05, 'epoch': 50.26}
{'loss': 0.055, 'grad_norm': 0.5133305191993713, 'learning_rate': 2.3211000000000002e-05, 'epoch': 50.27}
{'loss': 0.0479, 'grad_norm': 1.5779099464416504, 'learning_rate': 2.3214000000000002e-05, 'epoch': 50.27}
{'loss': 0.0424, 'grad_norm': 0.4851464629173279, 'learning_rate': 2.3217e-05, 'epoch': 50.28}
{'loss': 0.0381, 'grad_norm': 0.44348689913749695, 'learning_rate': 2.322e-05, 'epoch': 50.29}
{'loss': 0.0367, 'grad_norm': 0.5191840529441833, 'learning_rate': 2.3223e-05, 'epoch': 50.29}
{'loss': 0.0262, 'grad_norm': 0.4914352297782898, 'learning_rate': 2.3226e-05, 'epoch': 50.3}
{'loss': 0.035, 'grad_norm': 0.7646039128303528, 'learning_rate': 2.3229e-05, 'epoch': 50.31}
{'loss': 0.0376, 'grad_norm': 0.604110836982727, 'learning_rate': 2.3232e-05, 'epoch': 50.31}
{'loss': 0.0193, 'grad_norm': 0.37053996324539185, 'learning_rate': 2.3235e-05, 'epoch': 50.32}
{'loss': 0.0363, 'grad_norm': 0.7335007786750793, 'learning_rate': 2.3238e-05, 'epoch': 50.32}
{'loss': 0.0222, 'grad_norm': 0.5249828100204468, 'learning_rate': 2.3241000000000003e-05, 'epoch': 50.33}
{'loss': 0.0145, 'grad_norm': 0.4168901741504669, 'learning_rate': 2.3244000000000003e-05, 'epoch': 50.34}
{'loss': 0.0202, 'grad_norm': 0.45738038420677185, 'learning_rate': 2.3247000000000003e-05, 'epoch': 50.34}
{'loss': 0.02, 'grad_norm': 0.5633386373519897, 'learning_rate': 2.3250000000000003e-05, 'epoch': 50.35}
{'loss': 0.0171, 'grad_norm': 0.6089255213737488, 'learning_rate': 2.3253000000000003e-05, 'epoch': 50.36}
{'loss': 0.0154, 'grad_norm': 0.42918145656585693, 'learning_rate': 2.3256e-05, 'epoch': 50.36}
{'loss': 0.0201, 'grad_norm': 1.0890567302703857, 'learning_rate': 2.3259e-05, 'epoch': 50.37}
{'loss': 0.0214, 'grad_norm': 0.8000197410583496, 'learning_rate': 2.3262e-05, 'epoch': 50.38}
{'loss': 0.0139, 'grad_norm': 0.5606150031089783, 'learning_rate': 2.3265e-05, 'epoch': 50.38}
{'loss': 0.0156, 'grad_norm': 0.7490243315696716, 'learning_rate': 2.3267999999999998e-05, 'epoch': 50.39}
{'loss': 0.0081, 'grad_norm': 0.7650390267372131, 'learning_rate': 2.3270999999999998e-05, 'epoch': 50.4}
{'loss': 0.0293, 'grad_norm': 2.795258045196533, 'learning_rate': 2.3274e-05, 'epoch': 50.4}
{'loss': 0.0163, 'grad_norm': 1.2934712171554565, 'learning_rate': 2.3277e-05, 'epoch': 50.41}
{'loss': 0.0193, 'grad_norm': 0.8100014328956604, 'learning_rate': 2.328e-05, 'epoch': 50.42}
{'loss': 0.0126, 'grad_norm': 1.0071468353271484, 'learning_rate': 2.3283e-05, 'epoch': 50.42}
{'loss': 0.0118, 'grad_norm': 0.6463537812232971, 'learning_rate': 2.3286e-05, 'epoch': 50.43}
{'loss': 0.0155, 'grad_norm': 0.7583481669425964, 'learning_rate': 2.3289e-05, 'epoch': 50.44}
{'loss': 0.0214, 'grad_norm': 1.3504594564437866, 'learning_rate': 2.3292e-05, 'epoch': 50.44}
{'loss': 0.011, 'grad_norm': 1.1665419340133667, 'learning_rate': 2.3295e-05, 'epoch': 50.45}
{'loss': 0.0088, 'grad_norm': 1.4320578575134277, 'learning_rate': 2.3298e-05, 'epoch': 50.45}
{'loss': 0.0183, 'grad_norm': 1.5023025274276733, 'learning_rate': 2.3301e-05, 'epoch': 50.46}
{'loss': 0.0095, 'grad_norm': 1.1345468759536743, 'learning_rate': 2.3304000000000003e-05, 'epoch': 50.47}
{'loss': 0.0097, 'grad_norm': 0.623128354549408, 'learning_rate': 2.3307000000000002e-05, 'epoch': 50.47}
{'loss': 0.0081, 'grad_norm': 0.8138800859451294, 'learning_rate': 2.3310000000000002e-05, 'epoch': 50.48}
{'loss': 0.0118, 'grad_norm': 0.6807566285133362, 'learning_rate': 2.3313000000000002e-05, 'epoch': 50.49}
{'loss': 0.037, 'grad_norm': 1.3021903038024902, 'learning_rate': 2.3316000000000002e-05, 'epoch': 50.49}
{'loss': 0.1303, 'grad_norm': 1.0215221643447876, 'learning_rate': 2.3319e-05, 'epoch': 50.5}
{'loss': 0.0944, 'grad_norm': 0.7964080572128296, 'learning_rate': 2.3322e-05, 'epoch': 50.51}
{'loss': 0.0695, 'grad_norm': 0.8658848404884338, 'learning_rate': 2.3325e-05, 'epoch': 50.51}
{'loss': 0.0583, 'grad_norm': 0.5147222876548767, 'learning_rate': 2.3328e-05, 'epoch': 50.52}
{'loss': 0.0501, 'grad_norm': 0.6837586164474487, 'learning_rate': 2.3330999999999997e-05, 'epoch': 50.53}
{'loss': 0.0237, 'grad_norm': 0.3843223750591278, 'learning_rate': 2.3334e-05, 'epoch': 50.53}
  8%|▊         | 7783/100000 [4:42:14<99:08:17,  3.87s/it]  8%|▊         | 7784/100000 [4:42:17<89:47:36,  3.51s/it]                                                            8%|▊         | 7784/100000 [4:42:17<89:47:36,  3.51s/it]  8%|▊         | 7785/100000 [4:42:19<80:40:17,  3.15s/it]                                                            8%|▊         | 7785/100000 [4:42:19<80:40:17,  3.15s/it]  8%|▊         | 7786/100000 [4:42:21<72:21:19,  2.82s/it]                                                            8%|▊         | 7786/100000 [4:42:21<72:21:19,  2.82s/it]  8%|▊         | 7787/100000 [4:42:23<65:59:20,  2.58s/it]                                                            8%|▊         | 7787/100000 [4:42:23<65:59:20,  2.58s/it]  8%|▊         | 7788/100000 [4:42:25<60:22:03,  2.36s/it]                                                            8%|▊         | 7788/100000 [4:42:25<60:22:03,  2.36s/it]  8%|▊         | 7789/100000 [4:42:27<55:31:34,  2.17s/it]                                                            8%|▊         | 7789/100000 [4:42:27<55:31:34,  2.17s/it]  8%|▊         | 7790/100000 [4:42:28<51:28:47,  2.01s/it]                                                            8%|▊         | 7790/100000 [4:42:28<51:28:47,  2.01s/it]  8%|▊         | 7791/100000 [4:42:30<48:09:37,  1.88s/it]                                                            8%|▊         | 7791/100000 [4:42:30<48:09:37,  1.88s/it]  8%|▊         | 7792/100000 [4:42:31<44:43:47,  1.75s/it]                                                            8%|▊         | 7792/100000 [4:42:31<44:43:47,  1.75s/it]  8%|▊         | 7793/100000 [4:42:33<42:08:43,  1.65s/it]                                                            8%|▊         | 7793/100000 [4:42:33<42:08:43,  1.65s/it]  8%|▊         | 7794/100000 [4:42:34<39:58:01,  1.56s/it]                                                            8%|▊         | 7794/100000 [4:42:34<39:58:01,  1.56s/it]  8%|▊         | 7795/100000 [4:42:35<37:45:03,  1.47s/it]                                                            8%|▊         | 7795/100000 [4:42:35<37:45:03,  1.47s/it]  8%|▊         | 7796/100000 [4:42:36<36:00:27,  1.41s/it]                                                            8%|▊         | 7796/100000 [4:42:36<36:00:27,  1.41s/it]  8%|▊         | 7797/100000 [4:42:38<34:17:47,  1.34s/it]                                                            8%|▊         | 7797/100000 [4:42:38<34:17:47,  1.34s/it]  8%|▊         | 7798/100000 [4:42:39<32:36:08,  1.27s/it]                                                            8%|▊         | 7798/100000 [4:42:39<32:36:08,  1.27s/it]  8%|▊         | 7799/100000 [4:42:40<31:03:17,  1.21s/it]                                                            8%|▊         | 7799/100000 [4:42:40<31:03:17,  1.21s/it]  8%|▊         | 7800/100000 [4:42:41<29:42:44,  1.16s/it]                                                            8%|▊         | 7800/100000 [4:42:41<29:42:44,  1.16s/it]  8%|▊         | 7801/100000 [4:42:42<28:20:51,  1.11s/it]                                                            8%|▊         | 7801/100000 [4:42:42<28:20:51,  1.11s/it]  8%|▊         | 7802/100000 [4:42:43<27:19:11,  1.07s/it]                                                            8%|▊         | 7802/100000 [4:42:43<27:19:11,  1.07s/it]  8%|▊         | 7803/100000 [4:42:44<26:23:39,  1.03s/it]                                                            8%|▊         | 7803/100000 [4:42:44<26:23:39,  1.03s/it]  8%|▊         | 7804/100000 [4:42:45<25:27:00,  1.01it/s]                                                            8%|▊         | 7804/100000 [4:42:45<25:27:00,  1.01it/s]  8%|▊         | 7805/100000 [4:42:46<24:59:42,  1.02it/s]                                                            8%|▊         | 7805/100000 [4:42:46<24:59:42,  1.02it/s]  8%|▊         | 7806/100000 [4:42:46<23:52:48,  1.07it/s]                                                            8%|▊         | 7806/100000 [4:42:46<23:52:48,  1.07it/s]  8%|▊         | 7807/100000 [4:42:47<22:48:45,  1.12it/s]                                                            8%|▊         | 7807/100000 [4:42:47<22:48:45,  1.12it/s]  8%|▊         | 7808/100000 [4:42:48<21:55:40,  1.17it/s]                                                            8%|▊         | 7808/100000 [4:42:48<21:55:40,  1.17it/s]  8%|▊         | 7809/100000 [4:42:49<21:03:57,  1.22it/s]                                                            8%|▊         | 7809/100000 [4:42:49<21:03:57,  1.22it/s]  8%|▊         | 7810/100000 [4:42:49<20:24:06,  1.26it/s]                                                            8%|▊         | 7810/100000 [4:42:49<20:24:06,  1.26it/s]  8%|▊         | 7811/100000 [4:42:50<19:58:04,  1.28it/s]                                                            8%|▊         | 7811/100000 [4:42:50<19:58:04,  1.28it/s]  8%|▊         | 7812/100000 [4:42:51<19:36:31,  1.31it/s]                                                            8%|▊         | 7812/100000 [4:42:51<19:36:31,  1.31it/s]  8%|▊         | 7813/100000 [4:42:52<18:57:46,  1.35it/s]                                                            8%|▊         | 7813/100000 [4:42:52<18:57:46,  1.35it/s]  8%|▊         | 7814/100000 [4:42:52<18:15:15,  1.40it/s]                                                            8%|▊         | 7814/100000 [4:42:52<18:15:15,  1.40it/s]  8%|▊         | 7815/100000 [4:43:04<106:11:27,  4.15s/it]                                                             8%|▊         | 7815/100000 [4:43:04<106:11:27,  4.15s/it]  8%|▊         | 7816/100000 [4:43:13<136:50:29,  5.34s/it]                                                             8%|▊         | 7816/100000 [4:43:13<136:50:29,  5.34s/it]  8%|▊         | 7817/100000 [4:43:18<137:33:58,  5.37s/it]                                                             8%|▊         | 7817/100000 [4:43:18<137:33:58,  5.37s/it]  8%|▊         | 7818/100000 [4:43:23<131:26:43,  5.13s/it]                                                             8%|▊         | 7818/100000 [4:43:23<131:26:43,  5.13s/it]  8%|▊         | 7819/100000 [4:43:26<121:00:00,  4.73s/it]                                                             8%|▊         | 7819/100000 [4:43:26<121:00:00,  4.73s/it]  8%|▊         | 7820/100000 [4:43:30<110:18:22,  4.31s/it]                                                             8%|▊         | 7820/100000 [4:43:30<110:18:22,  4.31s/it]  8%|▊         | 7821/100000 [4:43:32<98:31:01,  3.85s/it]                                                             8%|▊         | 7821/100000 [4:43:32<98:31:01,  3.85s/it]  8%|▊         | 7822/100000 [4:43:35<88:07:43,  3.44s/it]                                                            8%|▊         | 7822/100000 [4:43:35<88:07:43,  3.44s/it]  8%|▊         | 7823/100000 [4:43:37<79:02:17,  3.09s/it]                                                            8%|▊         | 7823/100000 [4:43:37<79:02:17,  3.09s/it]  8%|▊         | 7824/100000 [4:43:39<71:17:44,  2.78s/it]                                                            8%|▊         | 7824/100000 [4:43:39<71:17:44,  2.78s/it]  8%|▊         | 7825/100000 [4:43:41<64:48:39,  2.53s/it]                                                            8%|▊         | 7825/100000 [4:43:41<64:48:39,  2.53s/it]  8%|▊         | 7826/100000 [4:43:43<59:23:08,  2.32s/it]                                                            8%|▊         | 7826/100000 [4:43:43<59:23:08,  2.32s/it]  8%|▊         | 7827/100000 [4:43:45<54:43:33,  2.14s/it]                                                            8%|▊         | 7827/100000 [4:43:45<54:43:33,  2.14s/it]  8%|▊         | 7828/100000 [4:43:46<50:34:15,  1.98s/it]                                                            8%|▊         | 7828/100000 [4:43:46<50:34:15,  1.98s/it]  8%|▊         | 7829/100000 [4:43:48<47:24:10,  1.85s/it]                                                            8%|▊         | 7829/100000 [4:43:48<47:24:10,  1.85s/it]  8%|▊         | 7830/100000 [4:43:49<44:05:55,  1.72s/it]                                                            8%|▊         | 7830/100000 [4:43:49<44:05:55,  1.72s/it]  8%|▊         | 7831/100000 [4:43:51<41:19:00,  1.61s/it]                                                            8%|▊         | 7831/100000 [4:43:51<41:19:00,  1.61s/it]  8%|▊         | 7832/100000 [4:43:52<39:20:44,  1.54s/it]                                                            8%|▊         | 7832/100000 [4:43:52<39:20:44,  1.54s/it]  8%|▊         | 7833/100000 [4:43:53<37:06:03,  1.45s/it]                                                            8%|▊         | 7833/100000 [4:43:53<37:06:03,  1.45s/it]  8%|▊         | 7834/100000 [4:43:55<35:02:40,  1.37s/it]                                                            8%|▊         | 7834/100000 [4:43:55<35:02:40,  1.37s/it]  8%|▊         | 7835/100000 [4:43:56<33:07:10,  1.29s/it]                                                            8%|▊         | 7835/100000 [4:43:56<33:07:10,  1.29s/it]  8%|▊         | 7836/100000 [4:43:57<31:20:06,  1.22s/it]                                                            8%|▊         | 7836/100000 [4:43:57<31:20:06,  1.22s/it]  8%|▊         | 7837/100000 [4:43:58<30:03:19,  1.17s/it]                                                            8%|▊         | 7837/100000 [4:43:58<30:03:19,  1.17s/it]  8%|▊         | 7838/100000 [4:43:59<28:34:56,  1.12s/it]                                                            8%|▊         | 7838/100000 [4:43:59<28:34:56,  1.12s/it]  8%|▊         | 7839/100000 [4:44:00<27:00:51,  1.06s/it]                                                            8%|▊         | 7839/100000 [4:44:00<27:00:51,  1.06s/it]  8%|▊         | 7840/100000 [4:44:01<25:59:04,  1.02s/it]                                                            8%|▊         | 7840/100000 [4:44:01<25:59:04,  1.02s/it]  8%|▊         | 7841/100000 [4:44:01<24:48:49,  1.03it/s]                                                            8%|▊         | 7841/100000 [4:44:01<24:48:49,  1.03it/s]  8%|▊         | 7842/100000 [4:44:02<24:03:32,  1.06it/s]                                                            8%|▊         | 7842/100000 [4:44:02<24:03:32,  1.06it/s]  8%|▊         | 7843/100000 [4:44:03<23:06:49,  1.11it/s]                                                            8%|▊         | 7843/100000 [4:44:03<23:06:49,  1.11it/s]  8%|▊         | 7844/100000 [4:44:04<22:34:25,  1.13it/s]                                                            8%|▊         | 7844/100000 [4:44:04<22:34:25,  1.13it/s]  8%|▊         | 7845/100000 [4:44:05<22:00:31,  1.16it/s]                                                            8%|▊         | 7845/100000 [4:44:05<22:00:31,  1.16it/s]  8%|▊         | 7846/100000 [4:44:05<21:00:26,  1.22it/s]                                                            8%|▊         | 7846/100000 [4:44:06<21:00:26,  1.22it/s]  8%|▊         | 7847/100000 [4:44:06<20:10:32,  1.27it/s]                                                            8%|▊         | 7847/100000 [4:44:06<20:10:32,  1.27it/s]  8%|▊         | 7848/100000 [4:44:07<19:27:50,  1.32it/s]                                                            8%|▊         | 7848/100000 [4:44:07<19:27:50,  1.32it/s]  8%|▊         | 7849/100000 [4:44:08<19:05:50,  1.34it/s]                                                            8%|▊         | 7849/100000 [4:44:08<19:05:50,  1.34it/s]  8%|▊         | 7850/100000 [4:44:08<18:42:48,  1.37it/s]                                                            8%|▊         | 7850/100000 [4:44:08<18:42:48,  1.37it/s]  8%|▊         | 7851/100000 [4:44:09<18:00:24,  1.42it/s]                                                            8%|▊         | 7851/100000 [4:44:09<18:00:24,  1.42it/s]  8%|▊         | 7852/100000 [4:44:10<17:06:51,  1.50it/s]                                                            8%|▊         | 7852/100000 [4:44:10<17:06:51,  1.50it/s]  8%|▊         | 7853/100000 [4:44:16<60:59:31,  2.38s/it]                                                            8%|▊         | 7853/100000 [4:44:16<60:59:31,  2.38s/it]  8%|▊         | 7854/100000 [4:44:17<51:37:06,  2.02s/it]                                                            8%|▊         | 7854/100000 [4:44:17<51:37:06,  2.02s/it]{'loss': 0.0575, 'grad_norm': 0.7032356262207031, 'learning_rate': 2.3337e-05, 'epoch': 50.54}
{'loss': 0.0488, 'grad_norm': 3.1007144451141357, 'learning_rate': 2.334e-05, 'epoch': 50.55}
{'loss': 0.0513, 'grad_norm': 0.717275857925415, 'learning_rate': 2.3343e-05, 'epoch': 50.55}
{'loss': 0.0314, 'grad_norm': 1.0063526630401611, 'learning_rate': 2.3346e-05, 'epoch': 50.56}
{'loss': 0.0299, 'grad_norm': 0.5783025026321411, 'learning_rate': 2.3349e-05, 'epoch': 50.56}
{'loss': 0.0192, 'grad_norm': 0.4157325029373169, 'learning_rate': 2.3352e-05, 'epoch': 50.57}
{'loss': 0.0387, 'grad_norm': 0.6022326946258545, 'learning_rate': 2.3355e-05, 'epoch': 50.58}
{'loss': 0.0171, 'grad_norm': 0.40505078434944153, 'learning_rate': 2.3358e-05, 'epoch': 50.58}
{'loss': 0.0213, 'grad_norm': 0.5366602540016174, 'learning_rate': 2.3361e-05, 'epoch': 50.59}
{'loss': 0.0187, 'grad_norm': 0.7271671295166016, 'learning_rate': 2.3364000000000002e-05, 'epoch': 50.6}
{'loss': 0.0183, 'grad_norm': 0.7045695185661316, 'learning_rate': 2.3367000000000002e-05, 'epoch': 50.6}
{'loss': 0.0254, 'grad_norm': 0.7546029090881348, 'learning_rate': 2.337e-05, 'epoch': 50.61}
{'loss': 0.0269, 'grad_norm': 0.7601775527000427, 'learning_rate': 2.3373e-05, 'epoch': 50.62}
{'loss': 0.0129, 'grad_norm': 0.5858122110366821, 'learning_rate': 2.3376e-05, 'epoch': 50.62}
{'loss': 0.012, 'grad_norm': 0.44661515951156616, 'learning_rate': 2.3379e-05, 'epoch': 50.63}
{'loss': 0.0114, 'grad_norm': 0.644059956073761, 'learning_rate': 2.3382e-05, 'epoch': 50.64}
{'loss': 0.0124, 'grad_norm': 1.1972832679748535, 'learning_rate': 2.3385e-05, 'epoch': 50.64}
{'loss': 0.0206, 'grad_norm': 0.9819314479827881, 'learning_rate': 2.3388e-05, 'epoch': 50.65}
{'loss': 0.0087, 'grad_norm': 0.711582601070404, 'learning_rate': 2.3391e-05, 'epoch': 50.66}
{'loss': 0.0085, 'grad_norm': 0.5468783378601074, 'learning_rate': 2.3394000000000003e-05, 'epoch': 50.66}
{'loss': 0.0119, 'grad_norm': 1.0909101963043213, 'learning_rate': 2.3397000000000003e-05, 'epoch': 50.67}
{'loss': 0.0156, 'grad_norm': 3.5557565689086914, 'learning_rate': 2.3400000000000003e-05, 'epoch': 50.68}
{'loss': 0.0101, 'grad_norm': 0.9154223799705505, 'learning_rate': 2.3403e-05, 'epoch': 50.68}
{'loss': 0.0071, 'grad_norm': 0.5649943947792053, 'learning_rate': 2.3406e-05, 'epoch': 50.69}
{'loss': 0.0121, 'grad_norm': 0.6901968717575073, 'learning_rate': 2.3409e-05, 'epoch': 50.69}
{'loss': 0.1027, 'grad_norm': 1.031700611114502, 'learning_rate': 2.3412e-05, 'epoch': 50.7}
{'loss': 0.0062, 'grad_norm': 0.7542145252227783, 'learning_rate': 2.3415e-05, 'epoch': 50.71}
{'loss': 0.0447, 'grad_norm': 2.122018814086914, 'learning_rate': 2.3418e-05, 'epoch': 50.71}
{'loss': 0.0209, 'grad_norm': 0.8738532662391663, 'learning_rate': 2.3420999999999998e-05, 'epoch': 50.72}
{'loss': 0.0197, 'grad_norm': 2.0000903606414795, 'learning_rate': 2.3424e-05, 'epoch': 50.73}
{'loss': 0.0167, 'grad_norm': 0.9949323534965515, 'learning_rate': 2.3427e-05, 'epoch': 50.73}
{'loss': 0.0889, 'grad_norm': 3.3253490924835205, 'learning_rate': 2.343e-05, 'epoch': 50.74}
{'loss': 0.1327, 'grad_norm': 0.9127336740493774, 'learning_rate': 2.3433e-05, 'epoch': 50.75}
{'loss': 0.1053, 'grad_norm': 0.8642773628234863, 'learning_rate': 2.3436e-05, 'epoch': 50.75}
{'loss': 0.0784, 'grad_norm': 0.567007303237915, 'learning_rate': 2.3439e-05, 'epoch': 50.76}
{'loss': 0.0605, 'grad_norm': 0.5944607853889465, 'learning_rate': 2.3442e-05, 'epoch': 50.77}
{'loss': 0.0497, 'grad_norm': 0.47506049275398254, 'learning_rate': 2.3445e-05, 'epoch': 50.77}
{'loss': 0.0401, 'grad_norm': 0.5318834781646729, 'learning_rate': 2.3448e-05, 'epoch': 50.78}
{'loss': 0.0352, 'grad_norm': 0.4054625332355499, 'learning_rate': 2.3451e-05, 'epoch': 50.79}
{'loss': 0.0313, 'grad_norm': 0.4907737970352173, 'learning_rate': 2.3454000000000003e-05, 'epoch': 50.79}
{'loss': 0.0397, 'grad_norm': 0.7765464186668396, 'learning_rate': 2.3457000000000003e-05, 'epoch': 50.8}
{'loss': 0.0341, 'grad_norm': 0.47415515780448914, 'learning_rate': 2.3460000000000002e-05, 'epoch': 50.81}
{'loss': 0.0262, 'grad_norm': 0.5171619057655334, 'learning_rate': 2.3463000000000002e-05, 'epoch': 50.81}
{'loss': 0.0226, 'grad_norm': 0.4772909879684448, 'learning_rate': 2.3466000000000002e-05, 'epoch': 50.82}
{'loss': 0.0235, 'grad_norm': 0.8091490864753723, 'learning_rate': 2.3469000000000002e-05, 'epoch': 50.82}
{'loss': 0.0262, 'grad_norm': 0.5472704172134399, 'learning_rate': 2.3472e-05, 'epoch': 50.83}
{'loss': 0.0247, 'grad_norm': 0.9431559443473816, 'learning_rate': 2.3475e-05, 'epoch': 50.84}
{'loss': 0.0666, 'grad_norm': 1.1604018211364746, 'learning_rate': 2.3477999999999998e-05, 'epoch': 50.84}
{'loss': 0.024, 'grad_norm': 0.509220540523529, 'learning_rate': 2.3480999999999998e-05, 'epoch': 50.85}
{'loss': 0.0178, 'grad_norm': 0.5503283739089966, 'learning_rate': 2.3484e-05, 'epoch': 50.86}
{'loss': 0.0128, 'grad_norm': 0.5762293934822083, 'learning_rate': 2.3487e-05, 'epoch': 50.86}
{'loss': 0.0325, 'grad_norm': 1.0687679052352905, 'learning_rate': 2.349e-05, 'epoch': 50.87}
{'loss': 0.0257, 'grad_norm': 0.7706995010375977, 'learning_rate': 2.3493e-05, 'epoch': 50.88}
{'loss': 0.0131, 'grad_norm': 0.5371109843254089, 'learning_rate': 2.3496e-05, 'epoch': 50.88}
{'loss': 0.0141, 'grad_norm': 0.5799723267555237, 'learning_rate': 2.3499e-05, 'epoch': 50.89}
{'loss': 0.0161, 'grad_norm': 0.7367031574249268, 'learning_rate': 2.3502e-05, 'epoch': 50.9}
{'loss': 0.0176, 'grad_norm': 1.472663402557373, 'learning_rate': 2.3505e-05, 'epoch': 50.9}
{'loss': 0.0138, 'grad_norm': 0.7430665493011475, 'learning_rate': 2.3508e-05, 'epoch': 50.91}
{'loss': 0.0069, 'grad_norm': 0.40751326084136963, 'learning_rate': 2.3511e-05, 'epoch': 50.92}
{'loss': 0.0167, 'grad_norm': 0.9227803945541382, 'learning_rate': 2.3514000000000002e-05, 'epoch': 50.92}
{'loss': 0.0233, 'grad_norm': 1.0092800855636597, 'learning_rate': 2.3517000000000002e-05, 'epoch': 50.93}
{'loss': 0.0098, 'grad_norm': 0.7835108041763306, 'learning_rate': 2.3520000000000002e-05, 'epoch': 50.94}
{'loss': 0.0043, 'grad_norm': 0.39536401629447937, 'learning_rate': 2.3523e-05, 'epoch': 50.94}
{'loss': 0.0367, 'grad_norm': 1.8933758735656738, 'learning_rate': 2.3526e-05, 'epoch': 50.95}
{'loss': 0.0083, 'grad_norm': 0.6099303960800171, 'learning_rate': 2.3529e-05, 'epoch': 50.95}
{'loss': 0.0301, 'grad_norm': 1.3838164806365967, 'learning_rate': 2.3532e-05, 'epoch': 50.96}
{'loss': 0.0203, 'grad_norm': 0.8199911713600159, 'learning_rate': 2.3535e-05, 'epoch': 50.97}
{'loss': 0.0627, 'grad_norm': 1.5734992027282715, 'learning_rate': 2.3538e-05, 'epoch': 50.97}
{'loss': 0.0388, 'grad_norm': 2.660033702850342, 'learning_rate': 2.3541e-05, 'epoch': 50.98}
{'loss': 0.0994, 'grad_norm': 4.131207466125488, 'learning_rate': 2.3544000000000004e-05, 'epoch': 50.99}
{'loss': 0.0444, 'grad_norm': 0.5989941358566284, 'learning_rate': 2.3547000000000003e-05, 'epoch': 50.99}
{'loss': 0.0279, 'grad_norm': 1.1624277830123901, 'learning_rate': 2.3550000000000003e-05, 'epoch': 51.0}
  8%|▊         | 7855/100000 [4:44:35<172:27:59,  6.74s/it]                                                             8%|▊         | 7855/100000 [4:44:35<172:27:59,  6.74s/it]  8%|▊         | 7856/100000 [4:44:43<181:08:28,  7.08s/it]                                                             8%|▊         | 7856/100000 [4:44:43<181:08:28,  7.08s/it]  8%|▊         | 7857/100000 [4:44:48<166:57:03,  6.52s/it]                                                             8%|▊         | 7857/100000 [4:44:48<166:57:03,  6.52s/it]  8%|▊         | 7858/100000 [4:44:53<152:19:48,  5.95s/it]                                                             8%|▊         | 7858/100000 [4:44:53<152:19:48,  5.95s/it]  8%|▊         | 7859/100000 [4:44:57<138:32:29,  5.41s/it]                                                             8%|▊         | 7859/100000 [4:44:57<138:32:29,  5.41s/it]  8%|▊         | 7860/100000 [4:45:00<123:05:45,  4.81s/it]                                                             8%|▊         | 7860/100000 [4:45:00<123:05:45,  4.81s/it]  8%|▊         | 7861/100000 [4:45:03<110:16:24,  4.31s/it]                                                             8%|▊         | 7861/100000 [4:45:03<110:16:24,  4.31s/it]  8%|▊         | 7862/100000 [4:45:06<96:50:36,  3.78s/it]                                                             8%|▊         | 7862/100000 [4:45:06<96:50:36,  3.78s/it]  8%|▊         | 7863/100000 [4:45:08<86:21:21,  3.37s/it]                                                            8%|▊         | 7863/100000 [4:45:08<86:21:21,  3.37s/it]  8%|▊         | 7864/100000 [4:45:10<76:52:21,  3.00s/it]                                                            8%|▊         | 7864/100000 [4:45:10<76:52:21,  3.00s/it]  8%|▊         | 7865/100000 [4:45:12<69:18:22,  2.71s/it]                                                            8%|▊         | 7865/100000 [4:45:12<69:18:22,  2.71s/it]  8%|▊         | 7866/100000 [4:45:14<63:04:07,  2.46s/it]                                                            8%|▊         | 7866/100000 [4:45:14<63:04:07,  2.46s/it]  8%|▊         | 7867/100000 [4:45:16<57:42:51,  2.26s/it]                                                            8%|▊         | 7867/100000 [4:45:16<57:42:51,  2.26s/it]  8%|▊         | 7868/100000 [4:45:18<53:17:17,  2.08s/it]                                                            8%|▊         | 7868/100000 [4:45:18<53:17:17,  2.08s/it]  8%|▊         | 7869/100000 [4:45:19<49:20:17,  1.93s/it]                                                            8%|▊         | 7869/100000 [4:45:19<49:20:17,  1.93s/it]  8%|▊         | 7870/100000 [4:45:21<46:19:32,  1.81s/it]                                                            8%|▊         | 7870/100000 [4:45:21<46:19:32,  1.81s/it]  8%|▊         | 7871/100000 [4:45:22<43:15:27,  1.69s/it]                                                            8%|▊         | 7871/100000 [4:45:22<43:15:27,  1.69s/it]  8%|▊         | 7872/100000 [4:45:24<40:30:35,  1.58s/it]                                                            8%|▊         | 7872/100000 [4:45:24<40:30:35,  1.58s/it]  8%|▊         | 7873/100000 [4:45:25<38:28:25,  1.50s/it]                                                            8%|▊         | 7873/100000 [4:45:25<38:28:25,  1.50s/it]  8%|▊         | 7874/100000 [4:45:26<36:36:26,  1.43s/it]                                                            8%|▊         | 7874/100000 [4:45:26<36:36:26,  1.43s/it]  8%|▊         | 7875/100000 [4:45:27<34:43:30,  1.36s/it]                                                            8%|▊         | 7875/100000 [4:45:27<34:43:30,  1.36s/it]  8%|▊         | 7876/100000 [4:45:28<32:54:20,  1.29s/it]                                                            8%|▊         | 7876/100000 [4:45:28<32:54:20,  1.29s/it]  8%|▊         | 7877/100000 [4:45:30<32:24:19,  1.27s/it]                                                            8%|▊         | 7877/100000 [4:45:30<32:24:19,  1.27s/it]  8%|▊         | 7878/100000 [4:45:31<30:19:51,  1.19s/it]                                                            8%|▊         | 7878/100000 [4:45:31<30:19:51,  1.19s/it]  8%|▊         | 7879/100000 [4:45:32<28:53:26,  1.13s/it]                                                            8%|▊         | 7879/100000 [4:45:32<28:53:26,  1.13s/it]  8%|▊         | 7880/100000 [4:45:33<27:43:15,  1.08s/it]                                                            8%|▊         | 7880/100000 [4:45:33<27:43:15,  1.08s/it]  8%|▊         | 7881/100000 [4:45:34<26:33:29,  1.04s/it]                                                            8%|▊         | 7881/100000 [4:45:34<26:33:29,  1.04s/it]  8%|▊         | 7882/100000 [4:45:34<25:12:01,  1.02it/s]                                                            8%|▊         | 7882/100000 [4:45:34<25:12:01,  1.02it/s]  8%|▊         | 7883/100000 [4:45:35<24:12:52,  1.06it/s]                                                            8%|▊         | 7883/100000 [4:45:35<24:12:52,  1.06it/s]  8%|▊         | 7884/100000 [4:45:36<23:14:16,  1.10it/s]                                                            8%|▊         | 7884/100000 [4:45:36<23:14:16,  1.10it/s]  8%|▊         | 7885/100000 [4:45:37<22:36:23,  1.13it/s]                                                            8%|▊         | 7885/100000 [4:45:37<22:36:23,  1.13it/s]  8%|▊         | 7886/100000 [4:45:38<21:44:55,  1.18it/s]                                                            8%|▊         | 7886/100000 [4:45:38<21:44:55,  1.18it/s]  8%|▊         | 7887/100000 [4:45:38<20:44:22,  1.23it/s]                                                            8%|▊         | 7887/100000 [4:45:38<20:44:22,  1.23it/s]  8%|▊         | 7888/100000 [4:45:39<19:51:31,  1.29it/s]                                                            8%|▊         | 7888/100000 [4:45:39<19:51:31,  1.29it/s]  8%|▊         | 7889/100000 [4:45:40<19:31:48,  1.31it/s]                                                            8%|▊         | 7889/100000 [4:45:40<19:31:48,  1.31it/s]  8%|▊         | 7890/100000 [4:45:41<19:28:53,  1.31it/s]                                                            8%|▊         | 7890/100000 [4:45:41<19:28:53,  1.31it/s]  8%|▊         | 7891/100000 [4:45:41<19:22:45,  1.32it/s]                                                            8%|▊         | 7891/100000 [4:45:41<19:22:45,  1.32it/s]  8%|▊         | 7892/100000 [4:45:42<18:49:47,  1.36it/s]                                                            8%|▊         | 7892/100000 [4:45:42<18:49:47,  1.36it/s]  8%|▊         | 7893/100000 [4:45:55<112:43:52,  4.41s/it]                                                             8%|▊         | 7893/100000 [4:45:55<112:43:52,  4.41s/it]  8%|▊         | 7894/100000 [4:46:03<138:47:42,  5.42s/it]                                                             8%|▊         | 7894/100000 [4:46:03<138:47:42,  5.42s/it]  8%|▊         | 7895/100000 [4:46:08<137:46:17,  5.38s/it]                                                             8%|▊         | 7895/100000 [4:46:08<137:46:17,  5.38s/it]  8%|▊         | 7896/100000 [4:46:13<130:10:30,  5.09s/it]                                                             8%|▊         | 7896/100000 [4:46:13<130:10:30,  5.09s/it]  8%|▊         | 7897/100000 [4:46:16<118:24:35,  4.63s/it]                                                             8%|▊         | 7897/100000 [4:46:16<118:24:35,  4.63s/it]  8%|▊         | 7898/100000 [4:46:19<108:00:53,  4.22s/it]                                                             8%|▊         | 7898/100000 [4:46:19<108:00:53,  4.22s/it]  8%|▊         | 7899/100000 [4:46:22<97:51:10,  3.82s/it]                                                             8%|▊         | 7899/100000 [4:46:22<97:51:10,  3.82s/it]  8%|▊         | 7900/100000 [4:46:25<87:48:49,  3.43s/it]                                                            8%|▊         | 7900/100000 [4:46:25<87:48:49,  3.43s/it]  8%|▊         | 7901/100000 [4:46:27<78:31:29,  3.07s/it]                                                            8%|▊         | 7901/100000 [4:46:27<78:31:29,  3.07s/it]  8%|▊         | 7902/100000 [4:46:29<71:11:42,  2.78s/it]                                                            8%|▊         | 7902/100000 [4:46:29<71:11:42,  2.78s/it]  8%|▊         | 7903/100000 [4:46:31<64:33:31,  2.52s/it]                                                            8%|▊         | 7903/100000 [4:46:31<64:33:31,  2.52s/it]  8%|▊         | 7904/100000 [4:46:33<59:09:55,  2.31s/it]                                                            8%|▊         | 7904/100000 [4:46:33<59:09:55,  2.31s/it]  8%|▊         | 7905/100000 [4:46:35<54:37:34,  2.14s/it]                                                            8%|▊         | 7905/100000 [4:46:35<54:37:34,  2.14s/it]  8%|▊         | 7906/100000 [4:46:36<50:45:13,  1.98s/it]                                                            8%|▊         | 7906/100000 [4:46:36<50:45:13,  1.98s/it]  8%|▊         | 7907/100000 [4:46:38<47:40:59,  1.86s/it]                                                            8%|▊         | 7907/100000 [4:46:38<47:40:59,  1.86s/it]  8%|▊         | 7908/100000 [4:46:39<44:12:44,  1.73s/it]                                                            8%|▊         | 7908/100000 [4:46:39<44:12:44,  1.73s/it]  8%|▊         | 7909/100000 [4:46:41<42:19:49,  1.65s/it]                                                            8%|▊         | 7909/100000 [4:46:41<42:19:49,  1.65s/it]  8%|▊         | 7910/100000 [4:46:42<40:11:23,  1.57s/it]                                                            8%|▊         | 7910/100000 [4:46:42<40:11:23,  1.57s/it]  8%|▊         | 7911/100000 [4:46:43<38:14:06,  1.49s/it]                                                            8%|▊         | 7911/100000 [4:46:43<38:14:06,  1.49s/it]  8%|▊         | 7912/100000 [4:46:45<36:22:47,  1.42s/it]                                                            8%|▊         | 7912/100000 [4:46:45<36:22:47,  1.42s/it]  8%|▊         | 7913/100000 [4:46:46<34:32:52,  1.35s/it]                                                            8%|▊         | 7913/100000 [4:46:46<34:32:52,  1.35s/it]  8%|▊         | 7914/100000 [4:46:47<32:38:37,  1.28s/it]                                                            8%|▊         | 7914/100000 [4:46:47<32:38:37,  1.28s/it]  8%|▊         | 7915/100000 [4:46:48<30:53:14,  1.21s/it]                                                            8%|▊         | 7915/100000 [4:46:48<30:53:14,  1.21s/it]  8%|▊         | 7916/100000 [4:46:49<29:23:43,  1.15s/it]                                                            8%|▊         | 7916/100000 [4:46:49<29:23:43,  1.15s/it]  8%|▊         | 7917/100000 [4:46:50<27:43:32,  1.08s/it]                                                            8%|▊         | 7917/100000 [4:46:50<27:43:32,  1.08s/it]  8%|▊         | 7918/100000 [4:46:51<26:41:56,  1.04s/it]                                                            8%|▊         | 7918/100000 [4:46:51<26:41:56,  1.04s/it]  8%|▊         | 7919/100000 [4:46:52<25:31:22,  1.00it/s]                                                            8%|▊         | 7919/100000 [4:46:52<25:31:22,  1.00it/s]  8%|▊         | 7920/100000 [4:46:53<24:30:10,  1.04it/s]                                                            8%|▊         | 7920/100000 [4:46:53<24:30:10,  1.04it/s]  8%|▊         | 7921/100000 [4:46:53<23:36:14,  1.08it/s]                                                            8%|▊         | 7921/100000 [4:46:53<23:36:14,  1.08it/s]  8%|▊         | 7922/100000 [4:46:54<22:42:02,  1.13it/s]                                                            8%|▊         | 7922/100000 [4:46:54<22:42:02,  1.13it/s]  8%|▊         | 7923/100000 [4:46:55<21:46:40,  1.17it/s]                                                            8%|▊         | 7923/100000 [4:46:55<21:46:40,  1.17it/s]  8%|▊         | 7924/100000 [4:46:56<20:54:19,  1.22it/s]                                                            8%|▊         | 7924/100000 [4:46:56<20:54:19,  1.22it/s]  8%|▊         | 7925/100000 [4:46:57<20:46:29,  1.23it/s]                                                            8%|▊         | 7925/100000 [4:46:57<20:46:29,  1.23it/s]  8%|▊         | 7926/100000 [4:46:57<20:00:32,  1.28it/s]                                                            8%|▊         | 7926/100000 [4:46:57<20:00:32,  1.28it/s]  8%|▊         | 7927/100000 [4:46:58<19:38:38,  1.30it/s]                                                            8%|▊         | 7927/100000 [4:46:58<19:38:38,  1.30it/s]  8%|▊         | 7928/100000 [4:46:59<19:13:33,  1.33it/s]                                                            8%|▊         | 7928/100000 [4:46:59<19:13:33,  1.33it/s]  8%|▊         | 7929/100000 [4:46:59<18:32:05,  1.38it/s]                                                            8%|▊         | 7929/100000 [4:46:59<18:32:05,  1.38it/s]  8%|▊         | 7930/100000 [4:47:00<17:36:40,  1.45it/s]                                                            8%|▊         | 7930/100000 [4:47:00<17:36:40,  1.45it/s]  8%|▊         | 7931/100000 [4:47:12<102:39:54,  4.01s/it]                                                             8%|▊         | 7931/100000 [4:47:12<102:39:54,  4.01s/it]  8%|▊         | 7932/100000 [4:47:20<135:10:09,  5.29s/it]                                                             8%|▊         | 7932/100000 [4:47:20<135:10:09,  5.29s/it]  8%|▊         | 7933/100000 [4:47:26<139:04:59,  5.44s/it]                                                             8%|▊         | 7933/100000 [4:47:26<139:04:59,  5.44s/it]  8%|▊         | 7934/100000 [4:47:30<132:55:13,  5.20s/it]                                                             8%|▊         | 7934/100000 [4:47:30<132:55:13,  5.20s/it]  8%|▊         | 7935/100000 [4:47:35<124:30:14,  4.87s/it]                                                             8%|▊         | 7935/100000 [4:47:35<124:30:14,  4.87s/it]  8%|▊         | 7936/100000 [4:47:38<114:57:34,  4.50s/it]                                                             8%|▊         | 7936/100000 [4:47:38<114:57:34,  4.50s/it]  8%|▊         | 7937/100000 [4:47:41<104:44:10,  4.10s/it]                                                             8%|▊         | 7937/100000 [4:47:41<104:44:10,  4.10s/it]  8%|▊         | 7938/100000 [4:47:44<94:34:51,  3.70s/it]                                                           {'loss': 0.1084, 'grad_norm': 1.0171080827713013, 'learning_rate': 2.3553e-05, 'epoch': 51.01}
{'loss': 0.0793, 'grad_norm': 0.8425518870353699, 'learning_rate': 2.3556e-05, 'epoch': 51.01}
{'loss': 0.0512, 'grad_norm': 0.44895613193511963, 'learning_rate': 2.3559e-05, 'epoch': 51.02}
{'loss': 0.0515, 'grad_norm': 0.4265146851539612, 'learning_rate': 2.3562e-05, 'epoch': 51.03}
{'loss': 0.0526, 'grad_norm': 0.57932049036026, 'learning_rate': 2.3565e-05, 'epoch': 51.03}
{'loss': 0.033, 'grad_norm': 0.4527418613433838, 'learning_rate': 2.3568e-05, 'epoch': 51.04}
{'loss': 0.0453, 'grad_norm': 0.4598137438297272, 'learning_rate': 2.3571e-05, 'epoch': 51.05}
{'loss': 0.0344, 'grad_norm': 0.4983680546283722, 'learning_rate': 2.3574e-05, 'epoch': 51.05}
{'loss': 0.0328, 'grad_norm': 0.5921860933303833, 'learning_rate': 2.3577e-05, 'epoch': 51.06}
{'loss': 0.0235, 'grad_norm': 0.9416823387145996, 'learning_rate': 2.358e-05, 'epoch': 51.06}
{'loss': 0.028, 'grad_norm': 0.7447001338005066, 'learning_rate': 2.3583e-05, 'epoch': 51.07}
{'loss': 0.0252, 'grad_norm': 0.5152143836021423, 'learning_rate': 2.3586e-05, 'epoch': 51.08}
{'loss': 0.0172, 'grad_norm': 0.4476914405822754, 'learning_rate': 2.3589e-05, 'epoch': 51.08}
{'loss': 0.0187, 'grad_norm': 0.5678839087486267, 'learning_rate': 2.3592e-05, 'epoch': 51.09}
{'loss': 0.0126, 'grad_norm': 0.4356610178947449, 'learning_rate': 2.3595e-05, 'epoch': 51.1}
{'loss': 0.0732, 'grad_norm': 0.8768753409385681, 'learning_rate': 2.3598e-05, 'epoch': 51.1}
{'loss': 0.0181, 'grad_norm': 0.4842311143875122, 'learning_rate': 2.3601e-05, 'epoch': 51.11}
{'loss': 0.0112, 'grad_norm': 0.5622292160987854, 'learning_rate': 2.3604000000000003e-05, 'epoch': 51.12}
{'loss': 0.0198, 'grad_norm': 0.8957656025886536, 'learning_rate': 2.3607000000000003e-05, 'epoch': 51.12}
{'loss': 0.0093, 'grad_norm': 0.3875821530818939, 'learning_rate': 2.3610000000000003e-05, 'epoch': 51.13}
{'loss': 0.0159, 'grad_norm': 0.5719680786132812, 'learning_rate': 2.3613000000000002e-05, 'epoch': 51.14}
{'loss': 0.014, 'grad_norm': 1.355054497718811, 'learning_rate': 2.3616000000000002e-05, 'epoch': 51.14}
{'loss': 0.0219, 'grad_norm': 1.1948742866516113, 'learning_rate': 2.3619000000000002e-05, 'epoch': 51.15}
{'loss': 0.0323, 'grad_norm': 0.48687243461608887, 'learning_rate': 2.3622000000000002e-05, 'epoch': 51.16}
{'loss': 0.0144, 'grad_norm': 0.7689256072044373, 'learning_rate': 2.3624999999999998e-05, 'epoch': 51.16}
{'loss': 0.0223, 'grad_norm': 0.9880906343460083, 'learning_rate': 2.3627999999999998e-05, 'epoch': 51.17}
{'loss': 0.0142, 'grad_norm': 0.8012881875038147, 'learning_rate': 2.3630999999999998e-05, 'epoch': 51.18}
{'loss': 0.0108, 'grad_norm': 1.4255914688110352, 'learning_rate': 2.3633999999999998e-05, 'epoch': 51.18}
{'loss': 0.0185, 'grad_norm': 0.821418285369873, 'learning_rate': 2.3637e-05, 'epoch': 51.19}
{'loss': 0.0169, 'grad_norm': 0.8759452104568481, 'learning_rate': 2.364e-05, 'epoch': 51.19}
{'loss': 0.0142, 'grad_norm': 1.3308014869689941, 'learning_rate': 2.3643e-05, 'epoch': 51.2}
{'loss': 0.01, 'grad_norm': 0.48885414004325867, 'learning_rate': 2.3646e-05, 'epoch': 51.21}
{'loss': 0.0051, 'grad_norm': 0.5638792514801025, 'learning_rate': 2.3649e-05, 'epoch': 51.21}
{'loss': 0.0095, 'grad_norm': 1.1694185733795166, 'learning_rate': 2.3652e-05, 'epoch': 51.22}
{'loss': 0.0368, 'grad_norm': 8.123011589050293, 'learning_rate': 2.3655e-05, 'epoch': 51.23}
{'loss': 0.0234, 'grad_norm': 0.9664283990859985, 'learning_rate': 2.3658e-05, 'epoch': 51.23}
{'loss': 0.0142, 'grad_norm': 0.9188976287841797, 'learning_rate': 2.3661e-05, 'epoch': 51.24}
{'loss': 0.0044, 'grad_norm': 0.7829346656799316, 'learning_rate': 2.3664e-05, 'epoch': 51.25}
{'loss': 0.1168, 'grad_norm': 0.9781280755996704, 'learning_rate': 2.3667000000000002e-05, 'epoch': 51.25}
{'loss': 0.0789, 'grad_norm': 0.8661542534828186, 'learning_rate': 2.3670000000000002e-05, 'epoch': 51.26}
{'loss': 0.0564, 'grad_norm': 0.5684576034545898, 'learning_rate': 2.3673000000000002e-05, 'epoch': 51.27}
{'loss': 0.0393, 'grad_norm': 0.47363343834877014, 'learning_rate': 2.3676e-05, 'epoch': 51.27}
{'loss': 0.035, 'grad_norm': 0.4111289381980896, 'learning_rate': 2.3679e-05, 'epoch': 51.28}
{'loss': 0.0329, 'grad_norm': 0.728973388671875, 'learning_rate': 2.3682e-05, 'epoch': 51.29}
{'loss': 0.0362, 'grad_norm': 0.5588011145591736, 'learning_rate': 2.3685e-05, 'epoch': 51.29}
{'loss': 0.03, 'grad_norm': 2.1667063236236572, 'learning_rate': 2.3688e-05, 'epoch': 51.3}
{'loss': 0.041, 'grad_norm': 0.6289619207382202, 'learning_rate': 2.3691e-05, 'epoch': 51.31}
{'loss': 0.0263, 'grad_norm': 0.6054849624633789, 'learning_rate': 2.3694e-05, 'epoch': 51.31}
{'loss': 0.0181, 'grad_norm': 0.6243099570274353, 'learning_rate': 2.3697000000000004e-05, 'epoch': 51.32}
{'loss': 0.0257, 'grad_norm': 0.6967810392379761, 'learning_rate': 2.37e-05, 'epoch': 51.32}
{'loss': 0.0217, 'grad_norm': 0.6372780203819275, 'learning_rate': 2.3703e-05, 'epoch': 51.33}
{'loss': 0.0184, 'grad_norm': 1.00232994556427, 'learning_rate': 2.3706e-05, 'epoch': 51.34}
{'loss': 0.0167, 'grad_norm': 0.4291273057460785, 'learning_rate': 2.3709e-05, 'epoch': 51.34}
{'loss': 0.0153, 'grad_norm': 0.5364559292793274, 'learning_rate': 2.3712e-05, 'epoch': 51.35}
{'loss': 0.0269, 'grad_norm': 0.798627495765686, 'learning_rate': 2.3715e-05, 'epoch': 51.36}
{'loss': 0.0141, 'grad_norm': 0.48718029260635376, 'learning_rate': 2.3718e-05, 'epoch': 51.36}
{'loss': 0.0083, 'grad_norm': 0.4303855001926422, 'learning_rate': 2.3721e-05, 'epoch': 51.37}
{'loss': 0.0151, 'grad_norm': 0.6948195695877075, 'learning_rate': 2.3724e-05, 'epoch': 51.38}
{'loss': 0.0178, 'grad_norm': 0.9538294672966003, 'learning_rate': 2.3727000000000002e-05, 'epoch': 51.38}
{'loss': 0.0112, 'grad_norm': 0.5833655595779419, 'learning_rate': 2.373e-05, 'epoch': 51.39}
{'loss': 0.0061, 'grad_norm': 0.371126264333725, 'learning_rate': 2.3733e-05, 'epoch': 51.4}
{'loss': 0.0202, 'grad_norm': 0.8000425100326538, 'learning_rate': 2.3736e-05, 'epoch': 51.4}
{'loss': 0.0142, 'grad_norm': 0.8747881650924683, 'learning_rate': 2.3739e-05, 'epoch': 51.41}
{'loss': 0.0122, 'grad_norm': 0.7040542364120483, 'learning_rate': 2.3742e-05, 'epoch': 51.42}
{'loss': 0.0045, 'grad_norm': 0.2530357837677002, 'learning_rate': 2.3745e-05, 'epoch': 51.42}
{'loss': 0.009, 'grad_norm': 0.7495144009590149, 'learning_rate': 2.3748e-05, 'epoch': 51.43}
{'loss': 0.0155, 'grad_norm': 0.8402649760246277, 'learning_rate': 2.3751e-05, 'epoch': 51.44}
{'loss': 0.0105, 'grad_norm': 1.118905782699585, 'learning_rate': 2.3754e-05, 'epoch': 51.44}
{'loss': 0.0323, 'grad_norm': 1.0405737161636353, 'learning_rate': 2.3757000000000003e-05, 'epoch': 51.45}
{'loss': 0.0454, 'grad_norm': 0.34765851497650146, 'learning_rate': 2.3760000000000003e-05, 'epoch': 51.45}
{'loss': 0.0147, 'grad_norm': 1.1953966617584229, 'learning_rate': 2.3763000000000003e-05, 'epoch': 51.46}
{'loss': 0.0077, 'grad_norm': 0.6001710891723633, 'learning_rate': 2.3766000000000003e-05, 'epoch': 51.47}
{'loss': 0.0091, 'grad_norm': 1.5009468793869019, 'learning_rate': 2.3769000000000002e-05, 'epoch': 51.47}
{'loss': 0.0189, 'grad_norm': 1.095776081085205, 'learning_rate': 2.3772e-05, 'epoch': 51.48}
{'loss': 0.0138, 'grad_norm': 1.173319935798645, 'learning_rate': 2.3775e-05, 'epoch': 51.49}
{'loss': 0.0301, 'grad_norm': 1.4389042854309082, 'learning_rate': 2.3778e-05, 'epoch': 51.49}
{'loss': 0.126, 'grad_norm': 0.8442491292953491, 'learning_rate': 2.3780999999999998e-05, 'epoch': 51.5}
{'loss': 0.0772, 'grad_norm': 0.5949296951293945, 'learning_rate': 2.3783999999999998e-05, 'epoch': 51.51}
{'loss': 0.0551, 'grad_norm': 0.631125807762146, 'learning_rate': 2.3787e-05, 'epoch': 51.51}
{'loss': 0.0545, 'grad_norm': 0.5298367738723755, 'learning_rate': 2.379e-05, 'epoch': 51.52}
{'loss': 0.0531, 'grad_norm': 0.5931487083435059, 'learning_rate': 2.3793e-05, 'epoch': 51.53}
{'loss': 0.0335, 'grad_norm': 0.5213512182235718, 'learning_rate': 2.3796e-05, 'epoch': 51.53}
{'loss': 0.0326, 'grad_norm': 0.48745349049568176, 'learning_rate': 2.3799e-05, 'epoch': 51.54}
  8%|▊         | 7938/100000 [4:47:44<94:34:51,  3.70s/it]  8%|▊         | 7939/100000 [4:47:46<84:44:46,  3.31s/it]                                                            8%|▊         | 7939/100000 [4:47:47<84:44:46,  3.31s/it]  8%|▊         | 7940/100000 [4:47:49<75:41:48,  2.96s/it]                                                            8%|▊         | 7940/100000 [4:47:49<75:41:48,  2.96s/it]  8%|▊         | 7941/100000 [4:47:51<68:28:26,  2.68s/it]                                                            8%|▊         | 7941/100000 [4:47:51<68:28:26,  2.68s/it]  8%|▊         | 7942/100000 [4:47:53<62:19:14,  2.44s/it]                                                            8%|▊         | 7942/100000 [4:47:53<62:19:14,  2.44s/it]  8%|▊         | 7943/100000 [4:47:54<57:10:41,  2.24s/it]                                                            8%|▊         | 7943/100000 [4:47:54<57:10:41,  2.24s/it]  8%|▊         | 7944/100000 [4:47:56<52:29:24,  2.05s/it]                                                            8%|▊         | 7944/100000 [4:47:56<52:29:24,  2.05s/it]  8%|▊         | 7945/100000 [4:47:57<48:43:11,  1.91s/it]                                                            8%|▊         | 7945/100000 [4:47:57<48:43:11,  1.91s/it]  8%|▊         | 7946/100000 [4:47:59<45:16:25,  1.77s/it]                                                            8%|▊         | 7946/100000 [4:47:59<45:16:25,  1.77s/it]  8%|▊         | 7947/100000 [4:48:00<42:18:09,  1.65s/it]                                                            8%|▊         | 7947/100000 [4:48:00<42:18:09,  1.65s/it]  8%|▊         | 7948/100000 [4:48:02<39:27:08,  1.54s/it]                                                            8%|▊         | 7948/100000 [4:48:02<39:27:08,  1.54s/it]  8%|▊         | 7949/100000 [4:48:03<37:43:52,  1.48s/it]                                                            8%|▊         | 7949/100000 [4:48:03<37:43:52,  1.48s/it]  8%|▊         | 7950/100000 [4:48:04<35:50:03,  1.40s/it]                                                            8%|▊         | 7950/100000 [4:48:04<35:50:03,  1.40s/it]  8%|▊         | 7951/100000 [4:48:05<33:41:38,  1.32s/it]                                                            8%|▊         | 7951/100000 [4:48:05<33:41:38,  1.32s/it]  8%|▊         | 7952/100000 [4:48:06<32:02:34,  1.25s/it]                                                            8%|▊         | 7952/100000 [4:48:06<32:02:34,  1.25s/it]  8%|▊         | 7953/100000 [4:48:07<30:35:34,  1.20s/it]                                                            8%|▊         | 7953/100000 [4:48:07<30:35:34,  1.20s/it]  8%|▊         | 7954/100000 [4:48:08<29:29:17,  1.15s/it]                                                            8%|▊         | 7954/100000 [4:48:08<29:29:17,  1.15s/it]  8%|▊         | 7955/100000 [4:48:09<27:52:22,  1.09s/it]                                                            8%|▊         | 7955/100000 [4:48:09<27:52:22,  1.09s/it]  8%|▊         | 7956/100000 [4:48:10<26:48:10,  1.05s/it]                                                            8%|▊         | 7956/100000 [4:48:10<26:48:10,  1.05s/it]  8%|▊         | 7957/100000 [4:48:11<26:07:48,  1.02s/it]                                                            8%|▊         | 7957/100000 [4:48:11<26:07:48,  1.02s/it]  8%|▊         | 7958/100000 [4:48:12<24:52:45,  1.03it/s]                                                            8%|▊         | 7958/100000 [4:48:12<24:52:45,  1.03it/s]  8%|▊         | 7959/100000 [4:48:13<23:39:48,  1.08it/s]                                                            8%|▊         | 7959/100000 [4:48:13<23:39:48,  1.08it/s]  8%|▊         | 7960/100000 [4:48:14<22:40:38,  1.13it/s]                                                            8%|▊         | 7960/100000 [4:48:14<22:40:38,  1.13it/s]  8%|▊         | 7961/100000 [4:48:15<21:55:57,  1.17it/s]                                                            8%|▊         | 7961/100000 [4:48:15<21:55:57,  1.17it/s]  8%|▊         | 7962/100000 [4:48:15<21:42:38,  1.18it/s]                                                            8%|▊         | 7962/100000 [4:48:15<21:42:38,  1.18it/s]  8%|▊         | 7963/100000 [4:48:16<21:07:04,  1.21it/s]                                                            8%|▊         | 7963/100000 [4:48:16<21:07:04,  1.21it/s]  8%|▊         | 7964/100000 [4:48:17<20:24:56,  1.25it/s]                                                            8%|▊         | 7964/100000 [4:48:17<20:24:56,  1.25it/s]  8%|▊         | 7965/100000 [4:48:18<19:36:24,  1.30it/s]                                                            8%|▊         | 7965/100000 [4:48:18<19:36:24,  1.30it/s]  8%|▊         | 7966/100000 [4:48:18<19:05:21,  1.34it/s]                                                            8%|▊         | 7966/100000 [4:48:18<19:05:21,  1.34it/s]  8%|▊         | 7967/100000 [4:48:19<18:47:42,  1.36it/s]                                                            8%|▊         | 7967/100000 [4:48:19<18:47:42,  1.36it/s]  8%|▊         | 7968/100000 [4:48:20<17:38:36,  1.45it/s]                                                            8%|▊         | 7968/100000 [4:48:20<17:38:36,  1.45it/s]  8%|▊         | 7969/100000 [4:48:33<114:22:16,  4.47s/it]                                                             8%|▊         | 7969/100000 [4:48:33<114:22:16,  4.47s/it]  8%|▊         | 7970/100000 [4:48:41<143:40:27,  5.62s/it]                                                             8%|▊         | 7970/100000 [4:48:41<143:40:27,  5.62s/it]  8%|▊         | 7971/100000 [4:48:47<145:11:02,  5.68s/it]                                                             8%|▊         | 7971/100000 [4:48:47<145:11:02,  5.68s/it]  8%|▊         | 7972/100000 [4:48:52<137:58:32,  5.40s/it]                                                             8%|▊         | 7972/100000 [4:48:52<137:58:32,  5.40s/it]  8%|▊         | 7973/100000 [4:48:56<128:26:46,  5.02s/it]                                                             8%|▊         | 7973/100000 [4:48:56<128:26:46,  5.02s/it]  8%|▊         | 7974/100000 [4:48:59<116:33:25,  4.56s/it]                                                             8%|▊         | 7974/100000 [4:48:59<116:33:25,  4.56s/it]  8%|▊         | 7975/100000 [4:49:03<105:42:54,  4.14s/it]                                                             8%|▊         | 7975/100000 [4:49:03<105:42:54,  4.14s/it]  8%|▊         | 7976/100000 [4:49:05<95:17:07,  3.73s/it]                                                             8%|▊         | 7976/100000 [4:49:05<95:17:07,  3.73s/it]  8%|▊         | 7977/100000 [4:49:08<85:02:52,  3.33s/it]                                                            8%|▊         | 7977/100000 [4:49:08<85:02:52,  3.33s/it]  8%|▊         | 7978/100000 [4:49:10<76:06:22,  2.98s/it]                                                            8%|▊         | 7978/100000 [4:49:10<76:06:22,  2.98s/it]  8%|▊         | 7979/100000 [4:49:12<68:40:51,  2.69s/it]                                                            8%|▊         | 7979/100000 [4:49:12<68:40:51,  2.69s/it]  8%|▊         | 7980/100000 [4:49:14<62:18:12,  2.44s/it]                                                            8%|▊         | 7980/100000 [4:49:14<62:18:12,  2.44s/it]  8%|▊         | 7981/100000 [4:49:15<56:52:55,  2.23s/it]                                                            8%|▊         | 7981/100000 [4:49:15<56:52:55,  2.23s/it]  8%|▊         | 7982/100000 [4:49:17<52:06:55,  2.04s/it]                                                            8%|▊         | 7982/100000 [4:49:17<52:06:55,  2.04s/it]  8%|▊         | 7983/100000 [4:49:19<48:29:53,  1.90s/it]                                                            8%|▊         | 7983/100000 [4:49:19<48:29:53,  1.90s/it]  8%|▊         | 7984/100000 [4:49:20<44:49:23,  1.75s/it]                                                            8%|▊         | 7984/100000 [4:49:20<44:49:23,  1.75s/it]  8%|▊         | 7985/100000 [4:49:21<42:02:18,  1.64s/it]                                                            8%|▊         | 7985/100000 [4:49:21<42:02:18,  1.64s/it]  8%|▊         | 7986/100000 [4:49:23<39:28:15,  1.54s/it]                                                            8%|▊         | 7986/100000 [4:49:23<39:28:15,  1.54s/it]  8%|▊         | 7987/100000 [4:49:24<37:10:48,  1.45s/it]                                                            8%|▊         | 7987/100000 [4:49:24<37:10:48,  1.45s/it]  8%|▊         | 7988/100000 [4:49:25<35:17:17,  1.38s/it]                                                            8%|▊         | 7988/100000 [4:49:25<35:17:17,  1.38s/it]  8%|▊         | 7989/100000 [4:49:26<33:25:26,  1.31s/it]                                                            8%|▊         | 7989/100000 [4:49:26<33:25:26,  1.31s/it]  8%|▊         | 7990/100000 [4:49:27<31:40:18,  1.24s/it]                                                            8%|▊         | 7990/100000 [4:49:27<31:40:18,  1.24s/it]  8%|▊         | 7991/100000 [4:49:28<30:09:34,  1.18s/it]                                                            8%|▊         | 7991/100000 [4:49:28<30:09:34,  1.18s/it]  8%|▊         | 7992/100000 [4:49:29<28:50:43,  1.13s/it]                                                            8%|▊         | 7992/100000 [4:49:29<28:50:43,  1.13s/it]  8%|▊         | 7993/100000 [4:49:30<27:19:03,  1.07s/it]                                                            8%|▊         | 7993/100000 [4:49:30<27:19:03,  1.07s/it]  8%|▊         | 7994/100000 [4:49:31<26:21:33,  1.03s/it]                                                            8%|▊         | 7994/100000 [4:49:31<26:21:33,  1.03s/it]  8%|▊         | 7995/100000 [4:49:32<25:22:40,  1.01it/s]                                                            8%|▊         | 7995/100000 [4:49:32<25:22:40,  1.01it/s]  8%|▊         | 7996/100000 [4:49:33<24:22:04,  1.05it/s]                                                            8%|▊         | 7996/100000 [4:49:33<24:22:04,  1.05it/s]  8%|▊         | 7997/100000 [4:49:34<23:19:01,  1.10it/s]                                                            8%|▊         | 7997/100000 [4:49:34<23:19:01,  1.10it/s]  8%|▊         | 7998/100000 [4:49:35<22:20:06,  1.14it/s]                                                            8%|▊         | 7998/100000 [4:49:35<22:20:06,  1.14it/s]  8%|▊         | 7999/100000 [4:49:36<21:41:06,  1.18it/s]                                                            8%|▊         | 7999/100000 [4:49:36<21:41:06,  1.18it/s]  8%|▊         | 8000/100000 [4:49:36<20:52:47,  1.22it/s]                                                            8%|▊         | 8000/100000 [4:49:36<20:52:47,  1.22it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 0.0305, 'grad_norm': 0.5613018870353699, 'learning_rate': 2.3802e-05, 'epoch': 51.55}
{'loss': 0.0531, 'grad_norm': 0.8241968154907227, 'learning_rate': 2.3805e-05, 'epoch': 51.55}
{'loss': 0.0367, 'grad_norm': 1.1269747018814087, 'learning_rate': 2.3808e-05, 'epoch': 51.56}
{'loss': 0.0306, 'grad_norm': 0.5692846179008484, 'learning_rate': 2.3811e-05, 'epoch': 51.56}
{'loss': 0.0253, 'grad_norm': 0.6321428418159485, 'learning_rate': 2.3814e-05, 'epoch': 51.57}
{'loss': 0.0286, 'grad_norm': 1.490694522857666, 'learning_rate': 2.3817000000000003e-05, 'epoch': 51.58}
{'loss': 0.0147, 'grad_norm': 0.4668222665786743, 'learning_rate': 2.3820000000000002e-05, 'epoch': 51.58}
{'loss': 0.0158, 'grad_norm': 0.3728787899017334, 'learning_rate': 2.3823000000000002e-05, 'epoch': 51.59}
{'loss': 0.0194, 'grad_norm': 0.5365464687347412, 'learning_rate': 2.3826000000000002e-05, 'epoch': 51.6}
{'loss': 0.0213, 'grad_norm': 0.617246150970459, 'learning_rate': 2.3829000000000002e-05, 'epoch': 51.6}
{'loss': 0.03, 'grad_norm': 0.9973040819168091, 'learning_rate': 2.3832e-05, 'epoch': 51.61}
{'loss': 0.0212, 'grad_norm': 0.6012718677520752, 'learning_rate': 2.3835e-05, 'epoch': 51.62}
{'loss': 0.0169, 'grad_norm': 0.8498200178146362, 'learning_rate': 2.3838e-05, 'epoch': 51.62}
{'loss': 0.0217, 'grad_norm': 1.0191231966018677, 'learning_rate': 2.3841e-05, 'epoch': 51.63}
{'loss': 0.0116, 'grad_norm': 0.5063259601593018, 'learning_rate': 2.3844e-05, 'epoch': 51.64}
{'loss': 0.0221, 'grad_norm': 0.8078585267066956, 'learning_rate': 2.3847e-05, 'epoch': 51.64}
{'loss': 0.011, 'grad_norm': 0.4924759864807129, 'learning_rate': 2.385e-05, 'epoch': 51.65}
{'loss': 0.0244, 'grad_norm': 1.3722578287124634, 'learning_rate': 2.3853e-05, 'epoch': 51.66}
{'loss': 0.0112, 'grad_norm': 0.587454617023468, 'learning_rate': 2.3856e-05, 'epoch': 51.66}
{'loss': 0.0424, 'grad_norm': 0.5977602601051331, 'learning_rate': 2.3859e-05, 'epoch': 51.67}
{'loss': 0.0539, 'grad_norm': 0.7092606425285339, 'learning_rate': 2.3862e-05, 'epoch': 51.68}
{'loss': 0.1397, 'grad_norm': 14.215047836303711, 'learning_rate': 2.3865e-05, 'epoch': 51.68}
{'loss': 0.0062, 'grad_norm': 0.5458367466926575, 'learning_rate': 2.3868e-05, 'epoch': 51.69}
{'loss': 0.0123, 'grad_norm': 0.5694273710250854, 'learning_rate': 2.3871e-05, 'epoch': 51.69}
{'loss': 0.0172, 'grad_norm': 0.6503310799598694, 'learning_rate': 2.3874e-05, 'epoch': 51.7}
{'loss': 0.0262, 'grad_norm': 1.7150315046310425, 'learning_rate': 2.3877000000000002e-05, 'epoch': 51.71}
{'loss': 0.009, 'grad_norm': 0.6730391979217529, 'learning_rate': 2.3880000000000002e-05, 'epoch': 51.71}
{'loss': 0.0361, 'grad_norm': 0.8522117137908936, 'learning_rate': 2.3883e-05, 'epoch': 51.72}
{'loss': 0.048, 'grad_norm': 1.0523477792739868, 'learning_rate': 2.3886e-05, 'epoch': 51.73}
{'loss': 0.02, 'grad_norm': 1.527463674545288, 'learning_rate': 2.3889e-05, 'epoch': 51.73}
{'loss': 0.0791, 'grad_norm': 1.5696163177490234, 'learning_rate': 2.3892e-05, 'epoch': 51.74}
{'loss': 0.1292, 'grad_norm': 0.8904415369033813, 'learning_rate': 2.3895e-05, 'epoch': 51.75}
{'loss': 0.0966, 'grad_norm': 0.6635564565658569, 'learning_rate': 2.3898e-05, 'epoch': 51.75}
{'loss': 0.0924, 'grad_norm': 0.623358428478241, 'learning_rate': 2.3901e-05, 'epoch': 51.76}
{'loss': 0.0631, 'grad_norm': 0.4604138433933258, 'learning_rate': 2.3904e-05, 'epoch': 51.77}
{'loss': 0.0541, 'grad_norm': 0.5048354268074036, 'learning_rate': 2.3907000000000003e-05, 'epoch': 51.77}
{'loss': 0.0383, 'grad_norm': 0.5327581763267517, 'learning_rate': 2.3910000000000003e-05, 'epoch': 51.78}
{'loss': 0.028, 'grad_norm': 0.3791007995605469, 'learning_rate': 2.3913000000000003e-05, 'epoch': 51.79}
{'loss': 0.0343, 'grad_norm': 0.6171579360961914, 'learning_rate': 2.3916000000000003e-05, 'epoch': 51.79}
{'loss': 0.0233, 'grad_norm': 0.5079417824745178, 'learning_rate': 2.3919e-05, 'epoch': 51.8}
{'loss': 0.0332, 'grad_norm': 0.6059619784355164, 'learning_rate': 2.3922e-05, 'epoch': 51.81}
{'loss': 0.0201, 'grad_norm': 0.5436551570892334, 'learning_rate': 2.3925e-05, 'epoch': 51.81}
{'loss': 0.0257, 'grad_norm': 0.5657943487167358, 'learning_rate': 2.3928e-05, 'epoch': 51.82}
{'loss': 0.0207, 'grad_norm': 0.46644604206085205, 'learning_rate': 2.3931e-05, 'epoch': 51.82}
{'loss': 0.0316, 'grad_norm': 0.8587744235992432, 'learning_rate': 2.3933999999999998e-05, 'epoch': 51.83}
{'loss': 0.0136, 'grad_norm': 0.6122726798057556, 'learning_rate': 2.3937e-05, 'epoch': 51.84}
{'loss': 0.0172, 'grad_norm': 0.5196976065635681, 'learning_rate': 2.394e-05, 'epoch': 51.84}
{'loss': 0.0287, 'grad_norm': 0.779520571231842, 'learning_rate': 2.3943e-05, 'epoch': 51.85}
{'loss': 0.0603, 'grad_norm': 1.0212996006011963, 'learning_rate': 2.3946e-05, 'epoch': 51.86}
{'loss': 0.0223, 'grad_norm': 0.7782618999481201, 'learning_rate': 2.3949e-05, 'epoch': 51.86}
{'loss': 0.0383, 'grad_norm': 1.8969045877456665, 'learning_rate': 2.3952e-05, 'epoch': 51.87}
{'loss': 0.0167, 'grad_norm': 0.7561274170875549, 'learning_rate': 2.3955e-05, 'epoch': 51.88}
{'loss': 0.0124, 'grad_norm': 0.6773400902748108, 'learning_rate': 2.3958e-05, 'epoch': 51.88}
{'loss': 0.0244, 'grad_norm': 0.47021663188934326, 'learning_rate': 2.3961e-05, 'epoch': 51.89}
{'loss': 0.0185, 'grad_norm': 0.9085155725479126, 'learning_rate': 2.3964e-05, 'epoch': 51.9}
{'loss': 0.0125, 'grad_norm': 0.5606744289398193, 'learning_rate': 2.3967000000000003e-05, 'epoch': 51.9}
{'loss': 0.0076, 'grad_norm': 0.4062902331352234, 'learning_rate': 2.3970000000000003e-05, 'epoch': 51.91}
{'loss': 0.0122, 'grad_norm': 1.0177394151687622, 'learning_rate': 2.3973000000000002e-05, 'epoch': 51.92}
{'loss': 0.018, 'grad_norm': 1.040421724319458, 'learning_rate': 2.3976000000000002e-05, 'epoch': 51.92}
{'loss': 0.0653, 'grad_norm': 1.0810699462890625, 'learning_rate': 2.3979000000000002e-05, 'epoch': 51.93}
{'loss': 0.023, 'grad_norm': 3.5150012969970703, 'learning_rate': 2.3982000000000002e-05, 'epoch': 51.94}
{'loss': 0.0103, 'grad_norm': 0.4576854109764099, 'learning_rate': 2.3985e-05, 'epoch': 51.94}
{'loss': 0.0122, 'grad_norm': 0.6370328068733215, 'learning_rate': 2.3988e-05, 'epoch': 51.95}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:01<00:01,  1.24it/s][A
 75%|███████▌  | 3/4 [00:03<00:01,  1.11s/it][A
100%|██████████| 4/4 [00:03<00:00,  1.24it/s][A                                                          
                                             [A  8%|▊         | 8000/100000 [4:49:49<20:52:47,  1.22it/s]
100%|██████████| 4/4 [00:03<00:00,  1.24it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-8000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-8000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-8000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-8000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-8000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-8000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-8000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-7000] due to args.save_total_limit
  8%|▊         | 8001/100000 [4:50:04<226:16:46,  8.85s/it]                                                             8%|▊         | 8001/100000 [4:50:04<226:16:46,  8.85s/it]  8%|▊         | 8002/100000 [4:50:05<164:45:24,  6.45s/it]                                                             8%|▊         | 8002/100000 [4:50:05<164:45:24,  6.45s/it]  8%|▊         | 8003/100000 [4:50:06<121:55:12,  4.77s/it]                                                             8%|▊         | 8003/100000 [4:50:06<121:55:12,  4.77s/it]  8%|▊         | 8004/100000 [4:50:06<91:08:44,  3.57s/it]                                                             8%|▊         | 8004/100000 [4:50:06<91:08:44,  3.57s/it]  8%|▊         | 8005/100000 [4:50:07<69:31:19,  2.72s/it]                                                            8%|▊         | 8005/100000 [4:50:07<69:31:19,  2.72s/it]  8%|▊         | 8006/100000 [4:50:08<54:37:08,  2.14s/it]                                                            8%|▊         | 8006/100000 [4:50:08<54:37:08,  2.14s/it]  8%|▊         | 8007/100000 [4:50:16<99:00:20,  3.87s/it]                                                            8%|▊         | 8007/100000 [4:50:16<99:00:20,  3.87s/it]  8%|▊         | 8008/100000 [4:50:17<80:28:53,  3.15s/it]                                                            8%|▊         | 8008/100000 [4:50:17<80:28:53,  3.15s/it]{'eval_loss': 0.3996407091617584, 'eval_wer': 0.3165784832451499, 'eval_cer': 0.09637780097984097, 'eval_runtime': 8.3255, 'eval_samples_per_second': 12.131, 'eval_steps_per_second': 0.48, 'epoch': 51.95}
{'loss': 0.0069, 'grad_norm': 0.5383841395378113, 'learning_rate': 2.3991e-05, 'epoch': 51.95}
{'loss': 0.0101, 'grad_norm': 1.0839585065841675, 'learning_rate': 2.3993999999999998e-05, 'epoch': 51.96}
{'loss': 0.0196, 'grad_norm': 1.0455549955368042, 'learning_rate': 2.3997e-05, 'epoch': 51.97}
{'loss': 0.013, 'grad_norm': 1.557121992111206, 'learning_rate': 2.4e-05, 'epoch': 51.97}
{'loss': 0.0158, 'grad_norm': 1.0458356142044067, 'learning_rate': 2.4003e-05, 'epoch': 51.98}
{'loss': 0.0052, 'grad_norm': 0.47017526626586914, 'learning_rate': 2.4006e-05, 'epoch': 51.99}
{'loss': 0.0471, 'grad_norm': 0.6762582659721375, 'learning_rate': 2.4009e-05, 'epoch': 51.99}
{'loss': 0.0272, 'grad_norm': 1.1609055995941162, 'learning_rate': 2.4012e-05, 'epoch': 52.0}
  8%|▊         | 8009/100000 [4:50:35<190:46:36,  7.47s/it]                                                             8%|▊         | 8009/100000 [4:50:35<190:46:36,  7.47s/it]  8%|▊         | 8010/100000 [4:50:43<194:53:23,  7.63s/it]                                                             8%|▊         | 8010/100000 [4:50:43<194:53:23,  7.63s/it]  8%|▊         | 8011/100000 [4:50:48<178:04:34,  6.97s/it]                                                             8%|▊         | 8011/100000 [4:50:48<178:04:34,  6.97s/it]  8%|▊         | 8012/100000 [4:50:53<159:08:41,  6.23s/it]                                                             8%|▊         | 8012/100000 [4:50:53<159:08:41,  6.23s/it]  8%|▊         | 8013/100000 [4:50:57<140:58:33,  5.52s/it]                                                             8%|▊         | 8013/100000 [4:50:57<140:58:33,  5.52s/it]  8%|▊         | 8014/100000 [4:51:00<125:13:36,  4.90s/it]                                                             8%|▊         | 8014/100000 [4:51:00<125:13:36,  4.90s/it]  8%|▊         | 8015/100000 [4:51:03<109:59:11,  4.30s/it]                                                             8%|▊         | 8015/100000 [4:51:03<109:59:11,  4.30s/it]  8%|▊         | 8016/100000 [4:51:05<96:37:49,  3.78s/it]                                                             8%|▊         | 8016/100000 [4:51:06<96:37:49,  3.78s/it]  8%|▊         | 8017/100000 [4:51:08<85:16:44,  3.34s/it]                                                            8%|▊         | 8017/100000 [4:51:08<85:16:44,  3.34s/it]  8%|▊         | 8018/100000 [4:51:10<75:44:13,  2.96s/it]                                                            8%|▊         | 8018/100000 [4:51:10<75:44:13,  2.96s/it]  8%|▊         | 8019/100000 [4:51:12<67:56:11,  2.66s/it]                                                            8%|▊         | 8019/100000 [4:51:12<67:56:11,  2.66s/it]  8%|▊         | 8020/100000 [4:51:14<60:52:09,  2.38s/it]                                                            8%|▊         | 8020/100000 [4:51:14<60:52:09,  2.38s/it]  8%|▊         | 8021/100000 [4:51:15<55:39:47,  2.18s/it]                                                            8%|▊         | 8021/100000 [4:51:15<55:39:47,  2.18s/it]  8%|▊         | 8022/100000 [4:51:17<51:13:47,  2.01s/it]                                                            8%|▊         | 8022/100000 [4:51:17<51:13:47,  2.01s/it]  8%|▊         | 8023/100000 [4:51:18<47:18:20,  1.85s/it]                                                            8%|▊         | 8023/100000 [4:51:18<47:18:20,  1.85s/it]  8%|▊         | 8024/100000 [4:51:20<44:12:22,  1.73s/it]                                                            8%|▊         | 8024/100000 [4:51:20<44:12:22,  1.73s/it]  8%|▊         | 8025/100000 [4:51:21<41:35:14,  1.63s/it]                                                            8%|▊         | 8025/100000 [4:51:21<41:35:14,  1.63s/it]  8%|▊         | 8026/100000 [4:51:23<39:05:24,  1.53s/it]                                                            8%|▊         | 8026/100000 [4:51:23<39:05:24,  1.53s/it]  8%|▊         | 8027/100000 [4:51:24<37:12:34,  1.46s/it]                                                            8%|▊         | 8027/100000 [4:51:24<37:12:34,  1.46s/it]  8%|▊         | 8028/100000 [4:51:25<35:11:07,  1.38s/it]                                                            8%|▊         | 8028/100000 [4:51:25<35:11:07,  1.38s/it]  8%|▊         | 8029/100000 [4:51:26<33:23:04,  1.31s/it]                                                            8%|▊         | 8029/100000 [4:51:26<33:23:04,  1.31s/it]  8%|▊         | 8030/100000 [4:51:27<31:47:21,  1.24s/it]                                                            8%|▊         | 8030/100000 [4:51:27<31:47:21,  1.24s/it]  8%|▊         | 8031/100000 [4:51:28<30:27:56,  1.19s/it]                                                            8%|▊         | 8031/100000 [4:51:28<30:27:56,  1.19s/it]  8%|▊         | 8032/100000 [4:51:29<29:08:20,  1.14s/it]                                                            8%|▊         | 8032/100000 [4:51:29<29:08:20,  1.14s/it]  8%|▊         | 8033/100000 [4:51:30<28:03:27,  1.10s/it]                                                            8%|▊         | 8033/100000 [4:51:30<28:03:27,  1.10s/it]  8%|▊         | 8034/100000 [4:51:31<26:57:36,  1.06s/it]                                                            8%|▊         | 8034/100000 [4:51:31<26:57:36,  1.06s/it]  8%|▊         | 8035/100000 [4:51:32<26:14:09,  1.03s/it]                                                            8%|▊         | 8035/100000 [4:51:32<26:14:09,  1.03s/it]  8%|▊         | 8036/100000 [4:51:33<25:32:20,  1.00it/s]                                                            8%|▊         | 8036/100000 [4:51:33<25:32:20,  1.00it/s]  8%|▊         | 8037/100000 [4:51:34<25:13:28,  1.01it/s]                                                            8%|▊         | 8037/100000 [4:51:34<25:13:28,  1.01it/s]  8%|▊         | 8038/100000 [4:51:35<24:21:09,  1.05it/s]                                                            8%|▊         | 8038/100000 [4:51:35<24:21:09,  1.05it/s]  8%|▊         | 8039/100000 [4:51:36<23:57:30,  1.07it/s]                                                            8%|▊         | 8039/100000 [4:51:36<23:57:30,  1.07it/s]  8%|▊         | 8040/100000 [4:51:37<23:45:06,  1.08it/s]                                                            8%|▊         | 8040/100000 [4:51:37<23:45:06,  1.08it/s]  8%|▊         | 8041/100000 [4:51:38<23:02:22,  1.11it/s]                                                            8%|▊         | 8041/100000 [4:51:38<23:02:22,  1.11it/s]  8%|▊         | 8042/100000 [4:51:38<22:30:40,  1.13it/s]                                                            8%|▊         | 8042/100000 [4:51:38<22:30:40,  1.13it/s]  8%|▊         | 8043/100000 [4:51:39<22:06:43,  1.16it/s]                                                            8%|▊         | 8043/100000 [4:51:39<22:06:43,  1.16it/s]  8%|▊         | 8044/100000 [4:51:40<21:13:00,  1.20it/s]                                                            8%|▊         | 8044/100000 [4:51:40<21:13:00,  1.20it/s]  8%|▊         | 8045/100000 [4:51:41<20:45:01,  1.23it/s]                                                            8%|▊         | 8045/100000 [4:51:41<20:45:01,  1.23it/s]  8%|▊         | 8046/100000 [4:51:42<20:23:10,  1.25it/s]                                                            8%|▊         | 8046/100000 [4:51:42<20:23:10,  1.25it/s]  8%|▊         | 8047/100000 [4:51:54<112:39:55,  4.41s/it]                                                             8%|▊         | 8047/100000 [4:51:54<112:39:55,  4.41s/it]  8%|▊         | 8048/100000 [4:52:02<137:49:21,  5.40s/it]                                                             8%|▊         | 8048/100000 [4:52:02<137:49:21,  5.40s/it]  8%|▊         | 8049/100000 [4:52:07<135:50:08,  5.32s/it]                                                             8%|▊         | 8049/100000 [4:52:07<135:50:08,  5.32s/it]  8%|▊         | 8050/100000 [4:52:12<129:28:06,  5.07s/it]                                                             8%|▊         | 8050/100000 [4:52:12<129:28:06,  5.07s/it]  8%|▊         | 8051/100000 [4:52:16<121:40:50,  4.76s/it]                                                             8%|▊         | 8051/100000 [4:52:16<121:40:50,  4.76s/it]  8%|▊         | 8052/100000 [4:52:19<112:00:28,  4.39s/it]                                                             8%|▊         | 8052/100000 [4:52:19<112:00:28,  4.39s/it]  8%|▊         | 8053/100000 [4:52:22<101:34:39,  3.98s/it]                                                             8%|▊         | 8053/100000 [4:52:22<101:34:39,  3.98s/it]  8%|▊         | 8054/100000 [4:52:25<91:39:43,  3.59s/it]                                                             8%|▊         | 8054/100000 [4:52:25<91:39:43,  3.59s/it]  8%|▊         | 8055/100000 [4:52:27<82:24:28,  3.23s/it]                                                            8%|▊         | 8055/100000 [4:52:27<82:24:28,  3.23s/it]  8%|▊         | 8056/100000 [4:52:30<74:17:47,  2.91s/it]                                                            8%|▊         | 8056/100000 [4:52:30<74:17:47,  2.91s/it]  8%|▊         | 8057/100000 [4:52:32<67:27:39,  2.64s/it]                                                            8%|▊         | 8057/100000 [4:52:32<67:27:39,  2.64s/it]  8%|▊         | 8058/100000 [4:52:33<61:30:21,  2.41s/it]                                                            8%|▊         | 8058/100000 [4:52:33<61:30:21,  2.41s/it]  8%|▊         | 8059/100000 [4:52:35<56:03:42,  2.20s/it]                                                            8%|▊         | 8059/100000 [4:52:35<56:03:42,  2.20s/it]  8%|▊         | 8060/100000 [4:52:37<51:51:46,  2.03s/it]                                                            8%|▊         | 8060/100000 [4:52:37<51:51:46,  2.03s/it]  8%|▊         | 8061/100000 [4:52:38<48:29:16,  1.90s/it]                                                            8%|▊         | 8061/100000 [4:52:38<48:29:16,  1.90s/it]  8%|▊         | 8062/100000 [4:52:40<45:24:43,  1.78s/it]                                                            8%|▊         | 8062/100000 [4:52:40<45:24:43,  1.78s/it]  8%|▊         | 8063/100000 [4:52:41<42:40:52,  1.67s/it]                                                            8%|▊         | 8063/100000 [4:52:41<42:40:52,  1.67s/it]  8%|▊         | 8064/100000 [4:52:43<40:08:19,  1.57s/it]                                                            8%|▊         | 8064/100000 [4:52:43<40:08:19,  1.57s/it]  8%|▊         | 8065/100000 [4:52:44<38:14:30,  1.50s/it]                                                            8%|▊         | 8065/100000 [4:52:44<38:14:30,  1.50s/it]  8%|▊         | 8066/100000 [4:52:45<36:33:13,  1.43s/it]                                                            8%|▊         | 8066/100000 [4:52:45<36:33:13,  1.43s/it]  8%|▊         | 8067/100000 [4:52:46<34:54:35,  1.37s/it]                                                            8%|▊         | 8067/100000 [4:52:46<34:54:35,  1.37s/it]  8%|▊         | 8068/100000 [4:52:48<33:00:31,  1.29s/it]                                                            8%|▊         | 8068/100000 [4:52:48<33:00:31,  1.29s/it]  8%|▊         | 8069/100000 [4:52:49<31:42:29,  1.24s/it]                                                            8%|▊         | 8069/100000 [4:52:49<31:42:29,  1.24s/it]  8%|▊         | 8070/100000 [4:52:50<30:28:40,  1.19s/it]                                                            8%|▊         | 8070/100000 [4:52:50<30:28:40,  1.19s/it]  8%|▊         | 8071/100000 [4:52:51<29:06:10,  1.14s/it]                                                            8%|▊         | 8071/100000 [4:52:51<29:06:10,  1.14s/it]  8%|▊         | 8072/100000 [4:52:52<27:56:12,  1.09s/it]                                                            8%|▊         | 8072/100000 [4:52:52<27:56:12,  1.09s/it]  8%|▊         | 8073/100000 [4:52:53<27:09:52,  1.06s/it]                                                            8%|▊         | 8073/100000 [4:52:53<27:09:52,  1.06s/it]  8%|▊         | 8074/100000 [4:52:54<26:16:14,  1.03s/it]                                                            8%|▊         | 8074/100000 [4:52:54<26:16:14,  1.03s/it]  8%|▊         | 8075/100000 [4:52:55<25:55:17,  1.02s/it]                                                            8%|▊         | 8075/100000 [4:52:55<25:55:17,  1.02s/it]  8%|▊         | 8076/100000 [4:52:56<25:25:29,  1.00it/s]                                                            8%|▊         | 8076/100000 [4:52:56<25:25:29,  1.00it/s]  8%|▊         | 8077/100000 [4:52:57<24:59:31,  1.02it/s]                                                            8%|▊         | 8077/100000 [4:52:57<24:59:31,  1.02it/s]  8%|▊         | 8078/100000 [4:52:58<24:37:15,  1.04it/s]                                                            8%|▊         | 8078/100000 [4:52:58<24:37:15,  1.04it/s]  8%|▊         | 8079/100000 [4:52:58<23:05:56,  1.11it/s]                                                            8%|▊         | 8079/100000 [4:52:58<23:05:56,  1.11it/s]  8%|▊         | 8080/100000 [4:52:59<22:36:19,  1.13it/s]                                                            8%|▊         | 8080/100000 [4:52:59<22:36:19,  1.13it/s]  8%|▊         | 8081/100000 [4:53:00<21:36:14,  1.18it/s]                                                            8%|▊         | 8081/100000 [4:53:00<21:36:14,  1.18it/s]  8%|▊         | 8082/100000 [4:53:01<20:26:05,  1.25it/s]                                                            8%|▊         | 8082/100000 [4:53:01<20:26:05,  1.25it/s]  8%|▊         | 8083/100000 [4:53:01<19:34:36,  1.30it/s]                                                            8%|▊         | 8083/100000 [4:53:01<19:34:36,  1.30it/s]  8%|▊         | 8084/100000 [4:53:02<18:39:38,  1.37it/s]                                                            8%|▊         | 8084/100000 [4:53:02<18:39:38,  1.37it/s]  8%|▊         | 8085/100000 [4:53:14<102:37:00,  4.02s/it]                                                             8%|▊         | 8085/100000 [4:53:14<102:37:00,  4.02s/it]  8%|▊         | 8086/100000 [4:53:22<134:28:43,  5.27s/it]                                                             8%|▊         | 8086/100000 [4:53:22<134:28:43,  5.27s/it]  8%|▊         | 8087/100000 [4:53:27<135:41:28,  5.31s/it]                                                             8%|▊         | 8087/100000 [4:53:27<135:41:28,  5.31s/it]  8%|▊         | 8088/100000 [4:53:32<131:14:49,  5.14s/it]                                                             8%|▊         | 8088/100000 [4:53:32<131:14:49,  5.14s/it]  8%|▊         | 8089/100000 [4:53:36<122:21:27,  4.79s/it]                                                             8%|▊         | 8089/100000 [4:53:36<122:21:27,  4.79s/it]  8%|▊         | 8090/100000 [4:53:39<111:55:41,  4.38s/it]                                                             8%|▊         | 8090/100000 [4:53:39<111:55:41,  4.38s/it]  8%|▊         | 8091/100000 [4:53:42<101:43:16,  3.98s/it]                                                             8%|▊         | 8091/100000 [4:53:42<101:43:16,  3.98s/it]  8%|▊         | 8092/100000 [4:53:45<91:02:28,  3.57s/it]                                                           {'loss': 0.1141, 'grad_norm': 1.004381775856018, 'learning_rate': 2.4015e-05, 'epoch': 52.01}
{'loss': 0.0599, 'grad_norm': 0.6389362812042236, 'learning_rate': 2.4018e-05, 'epoch': 52.01}
{'loss': 0.068, 'grad_norm': 0.5617554783821106, 'learning_rate': 2.4021e-05, 'epoch': 52.02}
{'loss': 0.0548, 'grad_norm': 0.6310510635375977, 'learning_rate': 2.4024e-05, 'epoch': 52.03}
{'loss': 0.0431, 'grad_norm': 0.6799232959747314, 'learning_rate': 2.4027e-05, 'epoch': 52.03}
{'loss': 0.0317, 'grad_norm': 0.5152419805526733, 'learning_rate': 2.4030000000000002e-05, 'epoch': 52.04}
{'loss': 0.0349, 'grad_norm': 0.7018707394599915, 'learning_rate': 2.4033000000000002e-05, 'epoch': 52.05}
{'loss': 0.0383, 'grad_norm': 0.5749786496162415, 'learning_rate': 2.4036e-05, 'epoch': 52.05}
{'loss': 0.0303, 'grad_norm': 0.7665761113166809, 'learning_rate': 2.4039e-05, 'epoch': 52.06}
{'loss': 0.0221, 'grad_norm': 0.5132085084915161, 'learning_rate': 2.4042e-05, 'epoch': 52.06}
{'loss': 0.0194, 'grad_norm': 0.4570142924785614, 'learning_rate': 2.4045e-05, 'epoch': 52.07}
{'loss': 0.0309, 'grad_norm': 0.6970662474632263, 'learning_rate': 2.4048e-05, 'epoch': 52.08}
{'loss': 0.0228, 'grad_norm': 0.4695972502231598, 'learning_rate': 2.4051e-05, 'epoch': 52.08}
{'loss': 0.0142, 'grad_norm': 0.49562495946884155, 'learning_rate': 2.4054e-05, 'epoch': 52.09}
{'loss': 0.0153, 'grad_norm': 0.48273539543151855, 'learning_rate': 2.4057e-05, 'epoch': 52.1}
{'loss': 0.0177, 'grad_norm': 0.6344725489616394, 'learning_rate': 2.4060000000000003e-05, 'epoch': 52.1}
{'loss': 0.0173, 'grad_norm': 0.8627158999443054, 'learning_rate': 2.4063000000000003e-05, 'epoch': 52.11}
{'loss': 0.0299, 'grad_norm': 0.8218784928321838, 'learning_rate': 2.4066000000000003e-05, 'epoch': 52.12}
{'loss': 0.0163, 'grad_norm': 1.5111137628555298, 'learning_rate': 2.4069e-05, 'epoch': 52.12}
{'loss': 0.0131, 'grad_norm': 0.4499128460884094, 'learning_rate': 2.4072e-05, 'epoch': 52.13}
{'loss': 0.014, 'grad_norm': 0.695358157157898, 'learning_rate': 2.4075e-05, 'epoch': 52.14}
{'loss': 0.0102, 'grad_norm': 0.4439432919025421, 'learning_rate': 2.4078e-05, 'epoch': 52.14}
{'loss': 0.0086, 'grad_norm': 0.3686031997203827, 'learning_rate': 2.4081e-05, 'epoch': 52.15}
{'loss': 0.011, 'grad_norm': 0.8621277213096619, 'learning_rate': 2.4084e-05, 'epoch': 52.16}
{'loss': 0.0155, 'grad_norm': 0.8972821831703186, 'learning_rate': 2.4086999999999998e-05, 'epoch': 52.16}
{'loss': 0.0169, 'grad_norm': 0.8384754061698914, 'learning_rate': 2.409e-05, 'epoch': 52.17}
{'loss': 0.0093, 'grad_norm': 1.1005420684814453, 'learning_rate': 2.4093e-05, 'epoch': 52.18}
{'loss': 0.008, 'grad_norm': 0.5531758666038513, 'learning_rate': 2.4096e-05, 'epoch': 52.18}
{'loss': 0.0128, 'grad_norm': 0.8061277866363525, 'learning_rate': 2.4099e-05, 'epoch': 52.19}
{'loss': 0.0183, 'grad_norm': 0.7122824192047119, 'learning_rate': 2.4102e-05, 'epoch': 52.19}
{'loss': 0.0043, 'grad_norm': 0.33244165778160095, 'learning_rate': 2.4105e-05, 'epoch': 52.2}
{'loss': 0.0099, 'grad_norm': 1.0071181058883667, 'learning_rate': 2.4108e-05, 'epoch': 52.21}
{'loss': 0.0142, 'grad_norm': 0.8475053310394287, 'learning_rate': 2.4111e-05, 'epoch': 52.21}
{'loss': 0.0178, 'grad_norm': 1.2729592323303223, 'learning_rate': 2.4114e-05, 'epoch': 52.22}
{'loss': 0.0151, 'grad_norm': 1.0713258981704712, 'learning_rate': 2.4117e-05, 'epoch': 52.23}
{'loss': 0.0038, 'grad_norm': 0.9576282501220703, 'learning_rate': 2.4120000000000003e-05, 'epoch': 52.23}
{'loss': 0.0062, 'grad_norm': 0.6381996273994446, 'learning_rate': 2.4123000000000003e-05, 'epoch': 52.24}
{'loss': 0.0837, 'grad_norm': 1.1837241649627686, 'learning_rate': 2.4126000000000002e-05, 'epoch': 52.25}
{'loss': 0.1084, 'grad_norm': 0.7772025465965271, 'learning_rate': 2.4129000000000002e-05, 'epoch': 52.25}
{'loss': 0.0962, 'grad_norm': 0.8438675999641418, 'learning_rate': 2.4132000000000002e-05, 'epoch': 52.26}
{'loss': 0.0569, 'grad_norm': 0.7710689306259155, 'learning_rate': 2.4135000000000002e-05, 'epoch': 52.27}
{'loss': 0.0562, 'grad_norm': 0.7494058012962341, 'learning_rate': 2.4138e-05, 'epoch': 52.27}
{'loss': 0.0389, 'grad_norm': 0.6584091186523438, 'learning_rate': 2.4140999999999998e-05, 'epoch': 52.28}
{'loss': 0.0309, 'grad_norm': 0.5996710062026978, 'learning_rate': 2.4143999999999998e-05, 'epoch': 52.29}
{'loss': 0.0317, 'grad_norm': 0.6103060245513916, 'learning_rate': 2.4146999999999998e-05, 'epoch': 52.29}
{'loss': 0.0325, 'grad_norm': 0.5390776991844177, 'learning_rate': 2.415e-05, 'epoch': 52.3}
{'loss': 0.015, 'grad_norm': 0.32805687189102173, 'learning_rate': 2.4153e-05, 'epoch': 52.31}
{'loss': 0.0383, 'grad_norm': 1.1189653873443604, 'learning_rate': 2.4156e-05, 'epoch': 52.31}
{'loss': 0.017, 'grad_norm': 0.39971667528152466, 'learning_rate': 2.4159e-05, 'epoch': 52.32}
{'loss': 0.0271, 'grad_norm': 0.6492587924003601, 'learning_rate': 2.4162e-05, 'epoch': 52.32}
{'loss': 0.029, 'grad_norm': 0.8038089275360107, 'learning_rate': 2.4165e-05, 'epoch': 52.33}
{'loss': 0.014, 'grad_norm': 0.36448079347610474, 'learning_rate': 2.4168e-05, 'epoch': 52.34}
{'loss': 0.0174, 'grad_norm': 0.9123284816741943, 'learning_rate': 2.4171e-05, 'epoch': 52.34}
{'loss': 0.0601, 'grad_norm': 0.5860453248023987, 'learning_rate': 2.4174e-05, 'epoch': 52.35}
{'loss': 0.0166, 'grad_norm': 0.39793917536735535, 'learning_rate': 2.4177e-05, 'epoch': 52.36}
{'loss': 0.0116, 'grad_norm': 0.6052804589271545, 'learning_rate': 2.4180000000000002e-05, 'epoch': 52.36}
{'loss': 0.014, 'grad_norm': 0.48733919858932495, 'learning_rate': 2.4183000000000002e-05, 'epoch': 52.37}
{'loss': 0.0161, 'grad_norm': 1.076330542564392, 'learning_rate': 2.4186000000000002e-05, 'epoch': 52.38}
{'loss': 0.0113, 'grad_norm': 0.7865820527076721, 'learning_rate': 2.4189e-05, 'epoch': 52.38}
{'loss': 0.0311, 'grad_norm': 1.7497830390930176, 'learning_rate': 2.4192e-05, 'epoch': 52.39}
{'loss': 0.0097, 'grad_norm': 0.5119703412055969, 'learning_rate': 2.4195e-05, 'epoch': 52.4}
{'loss': 0.0228, 'grad_norm': 1.3515315055847168, 'learning_rate': 2.4198e-05, 'epoch': 52.4}
{'loss': 0.0082, 'grad_norm': 0.48921865224838257, 'learning_rate': 2.4201e-05, 'epoch': 52.41}
{'loss': 0.0148, 'grad_norm': 0.7181090712547302, 'learning_rate': 2.4204e-05, 'epoch': 52.42}
{'loss': 0.006, 'grad_norm': 1.0132540464401245, 'learning_rate': 2.4207e-05, 'epoch': 52.42}
{'loss': 0.0474, 'grad_norm': 0.6322754621505737, 'learning_rate': 2.4210000000000004e-05, 'epoch': 52.43}
{'loss': 0.0507, 'grad_norm': 0.7779325842857361, 'learning_rate': 2.4213000000000003e-05, 'epoch': 52.44}
{'loss': 0.0164, 'grad_norm': 1.2305238246917725, 'learning_rate': 2.4216e-05, 'epoch': 52.44}
{'loss': 0.012, 'grad_norm': 0.6890877485275269, 'learning_rate': 2.4219e-05, 'epoch': 52.45}
{'loss': 0.0129, 'grad_norm': 0.990486204624176, 'learning_rate': 2.4222e-05, 'epoch': 52.45}
{'loss': 0.0089, 'grad_norm': 0.818291425704956, 'learning_rate': 2.4225e-05, 'epoch': 52.46}
{'loss': 0.0172, 'grad_norm': 0.8808450698852539, 'learning_rate': 2.4228e-05, 'epoch': 52.47}
{'loss': 0.0125, 'grad_norm': 1.9381163120269775, 'learning_rate': 2.4231e-05, 'epoch': 52.47}
{'loss': 0.0108, 'grad_norm': 0.6966499090194702, 'learning_rate': 2.4234e-05, 'epoch': 52.48}
{'loss': 0.0087, 'grad_norm': 0.7562633156776428, 'learning_rate': 2.4237e-05, 'epoch': 52.49}
{'loss': 0.0087, 'grad_norm': 1.6832494735717773, 'learning_rate': 2.4240000000000002e-05, 'epoch': 52.49}
{'loss': 0.1078, 'grad_norm': 0.888931930065155, 'learning_rate': 2.4243e-05, 'epoch': 52.5}
{'loss': 0.0741, 'grad_norm': 0.7506171464920044, 'learning_rate': 2.4246e-05, 'epoch': 52.51}
{'loss': 0.0599, 'grad_norm': 0.48168230056762695, 'learning_rate': 2.4249e-05, 'epoch': 52.51}
{'loss': 0.0463, 'grad_norm': 0.4579673111438751, 'learning_rate': 2.4252e-05, 'epoch': 52.52}
{'loss': 0.0435, 'grad_norm': 0.5422937870025635, 'learning_rate': 2.4255e-05, 'epoch': 52.53}
{'loss': 0.0413, 'grad_norm': 0.702457070350647, 'learning_rate': 2.4258e-05, 'epoch': 52.53}
{'loss': 0.0658, 'grad_norm': 0.9024709463119507, 'learning_rate': 2.4261e-05, 'epoch': 52.54}
  8%|▊         | 8092/100000 [4:53:45<91:02:28,  3.57s/it]  8%|▊         | 8093/100000 [4:53:47<82:10:28,  3.22s/it]                                                            8%|▊         | 8093/100000 [4:53:47<82:10:28,  3.22s/it]  8%|▊         | 8094/100000 [4:53:50<73:56:00,  2.90s/it]                                                            8%|▊         | 8094/100000 [4:53:50<73:56:00,  2.90s/it]  8%|▊         | 8095/100000 [4:53:52<67:31:22,  2.64s/it]                                                            8%|▊         | 8095/100000 [4:53:52<67:31:22,  2.64s/it]  8%|▊         | 8096/100000 [4:53:54<61:50:02,  2.42s/it]                                                            8%|▊         | 8096/100000 [4:53:54<61:50:02,  2.42s/it]  8%|▊         | 8097/100000 [4:53:55<56:36:36,  2.22s/it]                                                            8%|▊         | 8097/100000 [4:53:55<56:36:36,  2.22s/it]  8%|▊         | 8098/100000 [4:53:57<52:20:38,  2.05s/it]                                                            8%|▊         | 8098/100000 [4:53:57<52:20:38,  2.05s/it]  8%|▊         | 8099/100000 [4:53:59<48:46:34,  1.91s/it]                                                            8%|▊         | 8099/100000 [4:53:59<48:46:34,  1.91s/it]  8%|▊         | 8100/100000 [4:54:00<45:48:51,  1.79s/it]                                                            8%|▊         | 8100/100000 [4:54:00<45:48:51,  1.79s/it]  8%|▊         | 8101/100000 [4:54:01<42:46:27,  1.68s/it]                                                            8%|▊         | 8101/100000 [4:54:01<42:46:27,  1.68s/it]  8%|▊         | 8102/100000 [4:54:03<40:12:56,  1.58s/it]                                                            8%|▊         | 8102/100000 [4:54:03<40:12:56,  1.58s/it]  8%|▊         | 8103/100000 [4:54:04<37:38:28,  1.47s/it]                                                            8%|▊         | 8103/100000 [4:54:04<37:38:28,  1.47s/it]  8%|▊         | 8104/100000 [4:54:05<35:52:46,  1.41s/it]                                                            8%|▊         | 8104/100000 [4:54:05<35:52:46,  1.41s/it]  8%|▊         | 8105/100000 [4:54:06<33:36:47,  1.32s/it]                                                            8%|▊         | 8105/100000 [4:54:06<33:36:47,  1.32s/it]  8%|▊         | 8106/100000 [4:54:07<32:00:19,  1.25s/it]                                                            8%|▊         | 8106/100000 [4:54:07<32:00:19,  1.25s/it]  8%|▊         | 8107/100000 [4:54:08<30:17:53,  1.19s/it]                                                            8%|▊         | 8107/100000 [4:54:09<30:17:53,  1.19s/it]  8%|▊         | 8108/100000 [4:54:10<29:00:45,  1.14s/it]                                                            8%|▊         | 8108/100000 [4:54:10<29:00:45,  1.14s/it]  8%|▊         | 8109/100000 [4:54:10<27:47:12,  1.09s/it]                                                            8%|▊         | 8109/100000 [4:54:10<27:47:12,  1.09s/it]  8%|▊         | 8110/100000 [4:54:11<26:58:50,  1.06s/it]                                                            8%|▊         | 8110/100000 [4:54:11<26:58:50,  1.06s/it]  8%|▊         | 8111/100000 [4:54:12<25:52:15,  1.01s/it]                                                            8%|▊         | 8111/100000 [4:54:12<25:52:15,  1.01s/it]  8%|▊         | 8112/100000 [4:54:13<25:04:09,  1.02it/s]                                                            8%|▊         | 8112/100000 [4:54:13<25:04:09,  1.02it/s]  8%|▊         | 8113/100000 [4:54:14<24:19:33,  1.05it/s]                                                            8%|▊         | 8113/100000 [4:54:14<24:19:33,  1.05it/s]  8%|▊         | 8114/100000 [4:54:15<23:40:37,  1.08it/s]                                                            8%|▊         | 8114/100000 [4:54:15<23:40:37,  1.08it/s]  8%|▊         | 8115/100000 [4:54:16<23:16:08,  1.10it/s]                                                            8%|▊         | 8115/100000 [4:54:16<23:16:08,  1.10it/s]  8%|▊         | 8116/100000 [4:54:17<23:17:09,  1.10it/s]                                                            8%|▊         | 8116/100000 [4:54:17<23:17:09,  1.10it/s]  8%|▊         | 8117/100000 [4:54:18<22:54:28,  1.11it/s]                                                            8%|▊         | 8117/100000 [4:54:18<22:54:28,  1.11it/s]  8%|▊         | 8118/100000 [4:54:19<22:48:40,  1.12it/s]                                                            8%|▊         | 8118/100000 [4:54:19<22:48:40,  1.12it/s]  8%|▊         | 8119/100000 [4:54:19<22:26:09,  1.14it/s]                                                            8%|▊         | 8119/100000 [4:54:19<22:26:09,  1.14it/s]  8%|▊         | 8120/100000 [4:54:20<21:39:01,  1.18it/s]                                                            8%|▊         | 8120/100000 [4:54:20<21:39:01,  1.18it/s]  8%|▊         | 8121/100000 [4:54:21<21:18:53,  1.20it/s]                                                            8%|▊         | 8121/100000 [4:54:21<21:18:53,  1.20it/s]  8%|▊         | 8122/100000 [4:54:22<20:57:34,  1.22it/s]                                                            8%|▊         | 8122/100000 [4:54:22<20:57:34,  1.22it/s]  8%|▊         | 8123/100000 [4:54:35<117:41:30,  4.61s/it]                                                             8%|▊         | 8123/100000 [4:54:35<117:41:30,  4.61s/it]  8%|▊         | 8124/100000 [4:54:42<137:30:22,  5.39s/it]                                                             8%|▊         | 8124/100000 [4:54:42<137:30:22,  5.39s/it]  8%|▊         | 8125/100000 [4:54:48<140:09:40,  5.49s/it]                                                             8%|▊         | 8125/100000 [4:54:48<140:09:40,  5.49s/it]  8%|▊         | 8126/100000 [4:54:53<134:14:28,  5.26s/it]                                                             8%|▊         | 8126/100000 [4:54:53<134:14:28,  5.26s/it]  8%|▊         | 8127/100000 [4:54:57<123:53:09,  4.85s/it]                                                             8%|▊         | 8127/100000 [4:54:57<123:53:09,  4.85s/it]  8%|▊         | 8128/100000 [4:55:00<114:06:09,  4.47s/it]                                                             8%|▊         | 8128/100000 [4:55:00<114:06:09,  4.47s/it]  8%|▊         | 8129/100000 [4:55:03<103:06:07,  4.04s/it]                                                             8%|▊         | 8129/100000 [4:55:03<103:06:07,  4.04s/it]  8%|▊         | 8130/100000 [4:55:06<91:59:42,  3.60s/it]                                                             8%|▊         | 8130/100000 [4:55:06<91:59:42,  3.60s/it]  8%|▊         | 8131/100000 [4:55:08<82:09:22,  3.22s/it]                                                            8%|▊         | 8131/100000 [4:55:08<82:09:22,  3.22s/it]  8%|▊         | 8132/100000 [4:55:10<73:50:02,  2.89s/it]                                                            8%|▊         | 8132/100000 [4:55:10<73:50:02,  2.89s/it]  8%|▊         | 8133/100000 [4:55:12<66:48:55,  2.62s/it]                                                            8%|▊         | 8133/100000 [4:55:12<66:48:55,  2.62s/it]  8%|▊         | 8134/100000 [4:55:14<60:44:34,  2.38s/it]                                                            8%|▊         | 8134/100000 [4:55:14<60:44:34,  2.38s/it]  8%|▊         | 8135/100000 [4:55:16<55:22:46,  2.17s/it]                                                            8%|▊         | 8135/100000 [4:55:16<55:22:46,  2.17s/it]  8%|▊         | 8136/100000 [4:55:18<51:06:13,  2.00s/it]                                                            8%|▊         | 8136/100000 [4:55:18<51:06:13,  2.00s/it]  8%|▊         | 8137/100000 [4:55:19<47:38:29,  1.87s/it]                                                            8%|▊         | 8137/100000 [4:55:19<47:38:29,  1.87s/it]  8%|▊         | 8138/100000 [4:55:21<44:24:26,  1.74s/it]                                                            8%|▊         | 8138/100000 [4:55:21<44:24:26,  1.74s/it]  8%|▊         | 8139/100000 [4:55:22<41:38:55,  1.63s/it]                                                            8%|▊         | 8139/100000 [4:55:22<41:38:55,  1.63s/it]  8%|▊         | 8140/100000 [4:55:23<39:12:21,  1.54s/it]                                                            8%|▊         | 8140/100000 [4:55:23<39:12:21,  1.54s/it]  8%|▊         | 8141/100000 [4:55:25<37:11:36,  1.46s/it]                                                            8%|▊         | 8141/100000 [4:55:25<37:11:36,  1.46s/it]  8%|▊         | 8142/100000 [4:55:26<35:18:22,  1.38s/it]                                                            8%|▊         | 8142/100000 [4:55:26<35:18:22,  1.38s/it]  8%|▊         | 8143/100000 [4:55:27<33:49:53,  1.33s/it]                                                            8%|▊         | 8143/100000 [4:55:27<33:49:53,  1.33s/it]  8%|▊         | 8144/100000 [4:55:28<32:00:06,  1.25s/it]                                                            8%|▊         | 8144/100000 [4:55:28<32:00:06,  1.25s/it]  8%|▊         | 8145/100000 [4:55:29<30:29:00,  1.19s/it]                                                            8%|▊         | 8145/100000 [4:55:29<30:29:00,  1.19s/it]  8%|▊         | 8146/100000 [4:55:30<28:49:01,  1.13s/it]                                                            8%|▊         | 8146/100000 [4:55:30<28:49:01,  1.13s/it]  8%|▊         | 8147/100000 [4:55:31<27:19:36,  1.07s/it]                                                            8%|▊         | 8147/100000 [4:55:31<27:19:36,  1.07s/it]  8%|▊         | 8148/100000 [4:55:32<26:16:15,  1.03s/it]                                                            8%|▊         | 8148/100000 [4:55:32<26:16:15,  1.03s/it]  8%|▊         | 8149/100000 [4:55:33<25:34:59,  1.00s/it]                                                            8%|▊         | 8149/100000 [4:55:33<25:34:59,  1.00s/it]  8%|▊         | 8150/100000 [4:55:34<24:52:50,  1.03it/s]                                                            8%|▊         | 8150/100000 [4:55:34<24:52:50,  1.03it/s]  8%|▊         | 8151/100000 [4:55:35<24:14:03,  1.05it/s]                                                            8%|▊         | 8151/100000 [4:55:35<24:14:03,  1.05it/s]  8%|▊         | 8152/100000 [4:55:36<24:01:27,  1.06it/s]                                                            8%|▊         | 8152/100000 [4:55:36<24:01:27,  1.06it/s]  8%|▊         | 8153/100000 [4:55:36<23:14:43,  1.10it/s]                                                            8%|▊         | 8153/100000 [4:55:36<23:14:43,  1.10it/s]  8%|▊         | 8154/100000 [4:55:37<22:36:29,  1.13it/s]                                                            8%|▊         | 8154/100000 [4:55:37<22:36:29,  1.13it/s]  8%|▊         | 8155/100000 [4:55:38<21:54:16,  1.16it/s]                                                            8%|▊         | 8155/100000 [4:55:38<21:54:16,  1.16it/s]  8%|▊         | 8156/100000 [4:55:39<21:24:11,  1.19it/s]                                                            8%|▊         | 8156/100000 [4:55:39<21:24:11,  1.19it/s]  8%|▊         | 8157/100000 [4:55:40<21:00:20,  1.21it/s]                                                            8%|▊         | 8157/100000 [4:55:40<21:00:20,  1.21it/s]  8%|▊         | 8158/100000 [4:55:40<20:37:45,  1.24it/s]                                                            8%|▊         | 8158/100000 [4:55:40<20:37:45,  1.24it/s]  8%|▊         | 8159/100000 [4:55:41<20:07:45,  1.27it/s]                                                            8%|▊         | 8159/100000 [4:55:41<20:07:45,  1.27it/s]  8%|▊         | 8160/100000 [4:55:42<19:15:12,  1.33it/s]                                                            8%|▊         | 8160/100000 [4:55:42<19:15:12,  1.33it/s]  8%|▊         | 8161/100000 [4:55:48<63:12:43,  2.48s/it]                                                            8%|▊         | 8161/100000 [4:55:48<63:12:43,  2.48s/it]  8%|▊         | 8162/100000 [4:55:50<54:49:54,  2.15s/it]                                                            8%|▊         | 8162/100000 [4:55:50<54:49:54,  2.15s/it]{'loss': 0.0296, 'grad_norm': 0.5446065068244934, 'learning_rate': 2.4264e-05, 'epoch': 52.55}
{'loss': 0.0407, 'grad_norm': 0.6329758763313293, 'learning_rate': 2.4267e-05, 'epoch': 52.55}
{'loss': 0.0222, 'grad_norm': 0.45983943343162537, 'learning_rate': 2.4270000000000003e-05, 'epoch': 52.56}
{'loss': 0.0252, 'grad_norm': 2.2556064128875732, 'learning_rate': 2.4273000000000003e-05, 'epoch': 52.56}
{'loss': 0.0266, 'grad_norm': 0.6967962980270386, 'learning_rate': 2.4276000000000003e-05, 'epoch': 52.57}
{'loss': 0.023, 'grad_norm': 0.4867936372756958, 'learning_rate': 2.4279000000000003e-05, 'epoch': 52.58}
{'loss': 0.0206, 'grad_norm': 0.6746218800544739, 'learning_rate': 2.4282000000000002e-05, 'epoch': 52.58}
{'loss': 0.0175, 'grad_norm': 0.4263167679309845, 'learning_rate': 2.4285000000000002e-05, 'epoch': 52.59}
{'loss': 0.014, 'grad_norm': 0.3730796277523041, 'learning_rate': 2.4288e-05, 'epoch': 52.6}
{'loss': 0.0158, 'grad_norm': 0.4698730409145355, 'learning_rate': 2.4291e-05, 'epoch': 52.6}
{'loss': 0.0223, 'grad_norm': 0.7519428730010986, 'learning_rate': 2.4293999999999998e-05, 'epoch': 52.61}
{'loss': 0.0146, 'grad_norm': 0.5258777737617493, 'learning_rate': 2.4296999999999998e-05, 'epoch': 52.62}
{'loss': 0.0191, 'grad_norm': 0.6656308174133301, 'learning_rate': 2.43e-05, 'epoch': 52.62}
{'loss': 0.0081, 'grad_norm': 0.3807423412799835, 'learning_rate': 2.4303e-05, 'epoch': 52.63}
{'loss': 0.0199, 'grad_norm': 0.8144670128822327, 'learning_rate': 2.4306e-05, 'epoch': 52.64}
{'loss': 0.0264, 'grad_norm': 0.9942243099212646, 'learning_rate': 2.4309e-05, 'epoch': 52.64}
{'loss': 0.0112, 'grad_norm': 0.8834215402603149, 'learning_rate': 2.4312e-05, 'epoch': 52.65}
{'loss': 0.0095, 'grad_norm': 0.476552814245224, 'learning_rate': 2.4315e-05, 'epoch': 52.66}
{'loss': 0.0173, 'grad_norm': 2.6220877170562744, 'learning_rate': 2.4318e-05, 'epoch': 52.66}
{'loss': 0.0061, 'grad_norm': 0.366783082485199, 'learning_rate': 2.4321e-05, 'epoch': 52.67}
{'loss': 0.0289, 'grad_norm': 3.0761053562164307, 'learning_rate': 2.4324e-05, 'epoch': 52.68}
{'loss': 0.0163, 'grad_norm': 0.6588398218154907, 'learning_rate': 2.4327e-05, 'epoch': 52.68}
{'loss': 0.0065, 'grad_norm': 0.409412145614624, 'learning_rate': 2.4330000000000003e-05, 'epoch': 52.69}
{'loss': 0.0196, 'grad_norm': 0.7536243200302124, 'learning_rate': 2.4333000000000002e-05, 'epoch': 52.69}
{'loss': 0.0421, 'grad_norm': 2.3769450187683105, 'learning_rate': 2.4336000000000002e-05, 'epoch': 52.7}
{'loss': 0.0369, 'grad_norm': 6.451946258544922, 'learning_rate': 2.4339000000000002e-05, 'epoch': 52.71}
{'loss': 0.0236, 'grad_norm': 1.5800518989562988, 'learning_rate': 2.4342000000000002e-05, 'epoch': 52.71}
{'loss': 0.0295, 'grad_norm': 1.7433967590332031, 'learning_rate': 2.4345e-05, 'epoch': 52.72}
{'loss': 0.007, 'grad_norm': 0.6311408877372742, 'learning_rate': 2.4348e-05, 'epoch': 52.73}
{'loss': 0.0212, 'grad_norm': 1.710162878036499, 'learning_rate': 2.4351e-05, 'epoch': 52.73}
{'loss': 0.0113, 'grad_norm': 0.5481275320053101, 'learning_rate': 2.4354e-05, 'epoch': 52.74}
{'loss': 0.1175, 'grad_norm': 0.7241109013557434, 'learning_rate': 2.4357e-05, 'epoch': 52.75}
{'loss': 0.0757, 'grad_norm': 0.7684359550476074, 'learning_rate': 2.4360000000000004e-05, 'epoch': 52.75}
{'loss': 0.0645, 'grad_norm': 0.7457575798034668, 'learning_rate': 2.4363e-05, 'epoch': 52.76}
{'loss': 0.0517, 'grad_norm': 0.4704071581363678, 'learning_rate': 2.4366e-05, 'epoch': 52.77}
{'loss': 0.0494, 'grad_norm': 0.4989866316318512, 'learning_rate': 2.4369e-05, 'epoch': 52.77}
{'loss': 0.0325, 'grad_norm': 0.47693973779678345, 'learning_rate': 2.4372e-05, 'epoch': 52.78}
{'loss': 0.0288, 'grad_norm': 0.521725594997406, 'learning_rate': 2.4375e-05, 'epoch': 52.79}
{'loss': 0.0331, 'grad_norm': 0.600330650806427, 'learning_rate': 2.4378e-05, 'epoch': 52.79}
{'loss': 0.0345, 'grad_norm': 0.7212135791778564, 'learning_rate': 2.4381e-05, 'epoch': 52.8}
{'loss': 0.0258, 'grad_norm': 0.5115464925765991, 'learning_rate': 2.4384e-05, 'epoch': 52.81}
{'loss': 0.0347, 'grad_norm': 0.8673791289329529, 'learning_rate': 2.4387e-05, 'epoch': 52.81}
{'loss': 0.0199, 'grad_norm': 2.3438827991485596, 'learning_rate': 2.439e-05, 'epoch': 52.82}
{'loss': 0.0204, 'grad_norm': 0.524383008480072, 'learning_rate': 2.4393000000000002e-05, 'epoch': 52.82}
{'loss': 0.0169, 'grad_norm': 0.484075129032135, 'learning_rate': 2.4396e-05, 'epoch': 52.83}
{'loss': 0.0215, 'grad_norm': 1.9907264709472656, 'learning_rate': 2.4399e-05, 'epoch': 52.84}
{'loss': 0.0205, 'grad_norm': 0.6296572089195251, 'learning_rate': 2.4402e-05, 'epoch': 52.84}
{'loss': 0.0215, 'grad_norm': 0.6155471801757812, 'learning_rate': 2.4405e-05, 'epoch': 52.85}
{'loss': 0.0318, 'grad_norm': 1.242944598197937, 'learning_rate': 2.4408e-05, 'epoch': 52.86}
{'loss': 0.0133, 'grad_norm': 0.9127728343009949, 'learning_rate': 2.4411e-05, 'epoch': 52.86}
{'loss': 0.0138, 'grad_norm': 0.41184625029563904, 'learning_rate': 2.4414e-05, 'epoch': 52.87}
{'loss': 0.0222, 'grad_norm': 0.5187374949455261, 'learning_rate': 2.4417e-05, 'epoch': 52.88}
{'loss': 0.0165, 'grad_norm': 0.9798563718795776, 'learning_rate': 2.442e-05, 'epoch': 52.88}
{'loss': 0.0135, 'grad_norm': 0.8348144888877869, 'learning_rate': 2.4423000000000003e-05, 'epoch': 52.89}
{'loss': 0.048, 'grad_norm': 1.2659722566604614, 'learning_rate': 2.4426000000000003e-05, 'epoch': 52.9}
{'loss': 0.008, 'grad_norm': 0.3727342486381531, 'learning_rate': 2.4429000000000003e-05, 'epoch': 52.9}
{'loss': 0.0085, 'grad_norm': 0.6424509882926941, 'learning_rate': 2.4432000000000003e-05, 'epoch': 52.91}
{'loss': 0.0178, 'grad_norm': 0.9752641916275024, 'learning_rate': 2.4435e-05, 'epoch': 52.92}
{'loss': 0.0527, 'grad_norm': 0.6406075954437256, 'learning_rate': 2.4438e-05, 'epoch': 52.92}
{'loss': 0.0605, 'grad_norm': 0.9096822142601013, 'learning_rate': 2.4441e-05, 'epoch': 52.93}
{'loss': 0.022, 'grad_norm': 1.3582124710083008, 'learning_rate': 2.4444e-05, 'epoch': 52.94}
{'loss': 0.0124, 'grad_norm': 0.7901268005371094, 'learning_rate': 2.4446999999999998e-05, 'epoch': 52.94}
{'loss': 0.0502, 'grad_norm': 0.5129043459892273, 'learning_rate': 2.4449999999999998e-05, 'epoch': 52.95}
{'loss': 0.0186, 'grad_norm': 1.0587819814682007, 'learning_rate': 2.4453e-05, 'epoch': 52.95}
{'loss': 0.0193, 'grad_norm': 0.9095109701156616, 'learning_rate': 2.4456e-05, 'epoch': 52.96}
{'loss': 0.0112, 'grad_norm': 0.8721672892570496, 'learning_rate': 2.4459e-05, 'epoch': 52.97}
{'loss': 0.0586, 'grad_norm': 1.5222117900848389, 'learning_rate': 2.4462e-05, 'epoch': 52.97}
{'loss': 0.0084, 'grad_norm': 0.5787148475646973, 'learning_rate': 2.4465e-05, 'epoch': 52.98}
{'loss': 0.0251, 'grad_norm': 1.6851996183395386, 'learning_rate': 2.4468e-05, 'epoch': 52.99}
{'loss': 0.0526, 'grad_norm': 0.9969984889030457, 'learning_rate': 2.4471e-05, 'epoch': 52.99}
{'loss': 0.014, 'grad_norm': 0.5176374316215515, 'learning_rate': 2.4474e-05, 'epoch': 53.0}
  8%|▊         | 8163/100000 [4:56:08<174:43:04,  6.85s/it]                                                             8%|▊         | 8163/100000 [4:56:08<174:43:04,  6.85s/it]  8%|▊         | 8164/100000 [4:56:15<182:36:25,  7.16s/it]                                                             8%|▊         | 8164/100000 [4:56:15<182:36:25,  7.16s/it]  8%|▊         | 8165/100000 [4:56:21<168:41:46,  6.61s/it]                                                             8%|▊         | 8165/100000 [4:56:21<168:41:46,  6.61s/it]  8%|▊         | 8166/100000 [4:56:25<150:14:02,  5.89s/it]                                                             8%|▊         | 8166/100000 [4:56:25<150:14:02,  5.89s/it]  8%|▊         | 8167/100000 [4:56:29<134:25:11,  5.27s/it]                                                             8%|▊         | 8167/100000 [4:56:29<134:25:11,  5.27s/it]  8%|▊         | 8168/100000 [4:56:32<119:13:37,  4.67s/it]                                                             8%|▊         | 8168/100000 [4:56:32<119:13:37,  4.67s/it]  8%|▊         | 8169/100000 [4:56:35<104:49:44,  4.11s/it]                                                             8%|▊         | 8169/100000 [4:56:35<104:49:44,  4.11s/it]  8%|▊         | 8170/100000 [4:56:37<92:21:58,  3.62s/it]                                                             8%|▊         | 8170/100000 [4:56:37<92:21:58,  3.62s/it]  8%|▊         | 8171/100000 [4:56:40<81:39:18,  3.20s/it]                                                            8%|▊         | 8171/100000 [4:56:40<81:39:18,  3.20s/it]  8%|▊         | 8172/100000 [4:56:42<72:50:43,  2.86s/it]                                                            8%|▊         | 8172/100000 [4:56:42<72:50:43,  2.86s/it]  8%|▊         | 8173/100000 [4:56:43<65:35:40,  2.57s/it]                                                            8%|▊         | 8173/100000 [4:56:44<65:35:40,  2.57s/it]  8%|▊         | 8174/100000 [4:56:45<59:14:26,  2.32s/it]                                                            8%|▊         | 8174/100000 [4:56:45<59:14:26,  2.32s/it]  8%|▊         | 8175/100000 [4:56:47<54:20:20,  2.13s/it]                                                            8%|▊         | 8175/100000 [4:56:47<54:20:20,  2.13s/it]  8%|▊         | 8176/100000 [4:56:48<50:00:13,  1.96s/it]                                                            8%|▊         | 8176/100000 [4:56:48<50:00:13,  1.96s/it]  8%|▊         | 8177/100000 [4:56:50<46:30:55,  1.82s/it]                                                            8%|▊         | 8177/100000 [4:56:50<46:30:55,  1.82s/it]  8%|▊         | 8178/100000 [4:56:51<43:20:46,  1.70s/it]                                                            8%|▊         | 8178/100000 [4:56:51<43:20:46,  1.70s/it]  8%|▊         | 8179/100000 [4:56:53<40:41:29,  1.60s/it]                                                            8%|▊         | 8179/100000 [4:56:53<40:41:29,  1.60s/it]  8%|▊         | 8180/100000 [4:56:54<38:40:40,  1.52s/it]                                                            8%|▊         | 8180/100000 [4:56:54<38:40:40,  1.52s/it]  8%|▊         | 8181/100000 [4:56:55<36:25:13,  1.43s/it]                                                            8%|▊         | 8181/100000 [4:56:55<36:25:13,  1.43s/it]  8%|▊         | 8182/100000 [4:56:56<34:37:12,  1.36s/it]                                                            8%|▊         | 8182/100000 [4:56:56<34:37:12,  1.36s/it]  8%|▊         | 8183/100000 [4:56:58<32:42:03,  1.28s/it]                                                            8%|▊         | 8183/100000 [4:56:58<32:42:03,  1.28s/it]  8%|▊         | 8184/100000 [4:56:59<31:19:25,  1.23s/it]                                                            8%|▊         | 8184/100000 [4:56:59<31:19:25,  1.23s/it]  8%|▊         | 8185/100000 [4:57:00<30:04:57,  1.18s/it]                                                            8%|▊         | 8185/100000 [4:57:00<30:04:57,  1.18s/it]  8%|▊         | 8186/100000 [4:57:01<28:34:14,  1.12s/it]                                                            8%|▊         | 8186/100000 [4:57:01<28:34:14,  1.12s/it]  8%|▊         | 8187/100000 [4:57:02<27:13:23,  1.07s/it]                                                            8%|▊         | 8187/100000 [4:57:02<27:13:23,  1.07s/it]  8%|▊         | 8188/100000 [4:57:03<27:35:07,  1.08s/it]                                                            8%|▊         | 8188/100000 [4:57:03<27:35:07,  1.08s/it]  8%|▊         | 8189/100000 [4:57:04<26:36:16,  1.04s/it]                                                            8%|▊         | 8189/100000 [4:57:04<26:36:16,  1.04s/it]  8%|▊         | 8190/100000 [4:57:05<25:29:14,  1.00it/s]                                                            8%|▊         | 8190/100000 [4:57:05<25:29:14,  1.00it/s]  8%|▊         | 8191/100000 [4:57:06<25:02:31,  1.02it/s]                                                            8%|▊         | 8191/100000 [4:57:06<25:02:31,  1.02it/s]  8%|▊         | 8192/100000 [4:57:06<24:02:50,  1.06it/s]                                                            8%|▊         | 8192/100000 [4:57:06<24:02:50,  1.06it/s]  8%|▊         | 8193/100000 [4:57:07<23:31:53,  1.08it/s]                                                            8%|▊         | 8193/100000 [4:57:07<23:31:53,  1.08it/s]  8%|▊         | 8194/100000 [4:57:08<23:09:58,  1.10it/s]                                                            8%|▊         | 8194/100000 [4:57:08<23:09:58,  1.10it/s]  8%|▊         | 8195/100000 [4:57:09<22:57:05,  1.11it/s]                                                            8%|▊         | 8195/100000 [4:57:09<22:57:05,  1.11it/s]  8%|▊         | 8196/100000 [4:57:10<22:08:09,  1.15it/s]                                                            8%|▊         | 8196/100000 [4:57:10<22:08:09,  1.15it/s]  8%|▊         | 8197/100000 [4:57:11<21:34:20,  1.18it/s]                                                            8%|▊         | 8197/100000 [4:57:11<21:34:20,  1.18it/s]  8%|▊         | 8198/100000 [4:57:11<20:54:26,  1.22it/s]                                                            8%|▊         | 8198/100000 [4:57:11<20:54:26,  1.22it/s]  8%|▊         | 8199/100000 [4:57:12<20:38:41,  1.24it/s]                                                            8%|▊         | 8199/100000 [4:57:12<20:38:41,  1.24it/s]  8%|▊         | 8200/100000 [4:57:13<19:50:57,  1.28it/s]                                                            8%|▊         | 8200/100000 [4:57:13<19:50:57,  1.28it/s]  8%|▊         | 8201/100000 [4:57:26<114:18:50,  4.48s/it]                                                             8%|▊         | 8201/100000 [4:57:26<114:18:50,  4.48s/it]  8%|▊         | 8202/100000 [4:57:34<141:46:50,  5.56s/it]                                                             8%|▊         | 8202/100000 [4:57:34<141:46:50,  5.56s/it]  8%|▊         | 8203/100000 [4:57:40<143:08:17,  5.61s/it]                                                             8%|▊         | 8203/100000 [4:57:40<143:08:17,  5.61s/it]  8%|▊         | 8204/100000 [4:57:45<137:07:01,  5.38s/it]                                                             8%|▊         | 8204/100000 [4:57:45<137:07:01,  5.38s/it]  8%|▊         | 8205/100000 [4:57:49<125:34:51,  4.93s/it]                                                             8%|▊         | 8205/100000 [4:57:49<125:34:51,  4.93s/it]  8%|▊         | 8206/100000 [4:57:52<115:44:39,  4.54s/it]                                                             8%|▊         | 8206/100000 [4:57:52<115:44:39,  4.54s/it]  8%|▊         | 8207/100000 [4:57:55<105:49:16,  4.15s/it]                                                             8%|▊         | 8207/100000 [4:57:55<105:49:16,  4.15s/it]  8%|▊         | 8208/100000 [4:57:58<95:28:50,  3.74s/it]                                                             8%|▊         | 8208/100000 [4:57:58<95:28:50,  3.74s/it]  8%|▊         | 8209/100000 [4:58:01<85:46:55,  3.36s/it]                                                            8%|▊         | 8209/100000 [4:58:01<85:46:55,  3.36s/it]  8%|▊         | 8210/100000 [4:58:03<77:03:30,  3.02s/it]                                                            8%|▊         | 8210/100000 [4:58:03<77:03:30,  3.02s/it]  8%|▊         | 8211/100000 [4:58:05<69:31:24,  2.73s/it]                                                            8%|▊         | 8211/100000 [4:58:05<69:31:24,  2.73s/it]  8%|▊         | 8212/100000 [4:58:07<63:14:13,  2.48s/it]                                                            8%|▊         | 8212/100000 [4:58:07<63:14:13,  2.48s/it]  8%|▊         | 8213/100000 [4:58:09<57:41:52,  2.26s/it]                                                            8%|▊         | 8213/100000 [4:58:09<57:41:52,  2.26s/it]  8%|▊         | 8214/100000 [4:58:10<53:06:27,  2.08s/it]                                                            8%|▊         | 8214/100000 [4:58:10<53:06:27,  2.08s/it]  8%|▊         | 8215/100000 [4:58:12<49:18:31,  1.93s/it]                                                            8%|▊         | 8215/100000 [4:58:12<49:18:31,  1.93s/it]  8%|▊         | 8216/100000 [4:58:13<46:05:32,  1.81s/it]                                                            8%|▊         | 8216/100000 [4:58:13<46:05:32,  1.81s/it]  8%|▊         | 8217/100000 [4:58:15<43:12:30,  1.69s/it]                                                            8%|▊         | 8217/100000 [4:58:15<43:12:30,  1.69s/it]  8%|▊         | 8218/100000 [4:58:16<40:28:15,  1.59s/it]                                                            8%|▊         | 8218/100000 [4:58:16<40:28:15,  1.59s/it]  8%|▊         | 8219/100000 [4:58:17<38:22:35,  1.51s/it]                                                            8%|▊         | 8219/100000 [4:58:17<38:22:35,  1.51s/it]  8%|▊         | 8220/100000 [4:58:19<36:29:09,  1.43s/it]                                                            8%|▊         | 8220/100000 [4:58:19<36:29:09,  1.43s/it]  8%|▊         | 8221/100000 [4:58:20<34:38:36,  1.36s/it]                                                            8%|▊         | 8221/100000 [4:58:20<34:38:36,  1.36s/it]  8%|▊         | 8222/100000 [4:58:21<32:45:56,  1.29s/it]                                                            8%|▊         | 8222/100000 [4:58:21<32:45:56,  1.29s/it]  8%|▊         | 8223/100000 [4:58:22<31:18:53,  1.23s/it]                                                            8%|▊         | 8223/100000 [4:58:22<31:18:53,  1.23s/it]  8%|▊         | 8224/100000 [4:58:23<29:53:39,  1.17s/it]                                                            8%|▊         | 8224/100000 [4:58:23<29:53:39,  1.17s/it]  8%|▊         | 8225/100000 [4:58:24<28:44:30,  1.13s/it]                                                            8%|▊         | 8225/100000 [4:58:24<28:44:30,  1.13s/it]  8%|▊         | 8226/100000 [4:58:25<27:35:57,  1.08s/it]                                                            8%|▊         | 8226/100000 [4:58:25<27:35:57,  1.08s/it]  8%|▊         | 8227/100000 [4:58:26<26:52:01,  1.05s/it]                                                            8%|▊         | 8227/100000 [4:58:26<26:52:01,  1.05s/it]  8%|▊         | 8228/100000 [4:58:27<26:08:45,  1.03s/it]                                                            8%|▊         | 8228/100000 [4:58:27<26:08:45,  1.03s/it]  8%|▊         | 8229/100000 [4:58:28<25:26:51,  1.00it/s]                                                            8%|▊         | 8229/100000 [4:58:28<25:26:51,  1.00it/s]  8%|▊         | 8230/100000 [4:58:29<24:37:01,  1.04it/s]                                                            8%|▊         | 8230/100000 [4:58:29<24:37:01,  1.04it/s]  8%|▊         | 8231/100000 [4:58:30<24:11:55,  1.05it/s]                                                            8%|▊         | 8231/100000 [4:58:30<24:11:55,  1.05it/s]  8%|▊         | 8232/100000 [4:58:31<23:34:07,  1.08it/s]                                                            8%|▊         | 8232/100000 [4:58:31<23:34:07,  1.08it/s]  8%|▊         | 8233/100000 [4:58:32<22:43:52,  1.12it/s]                                                            8%|▊         | 8233/100000 [4:58:32<22:43:52,  1.12it/s]  8%|▊         | 8234/100000 [4:58:32<21:56:51,  1.16it/s]                                                            8%|▊         | 8234/100000 [4:58:32<21:56:51,  1.16it/s]  8%|▊         | 8235/100000 [4:58:33<21:36:07,  1.18it/s]                                                            8%|▊         | 8235/100000 [4:58:33<21:36:07,  1.18it/s]  8%|▊         | 8236/100000 [4:58:34<21:02:39,  1.21it/s]                                                            8%|▊         | 8236/100000 [4:58:34<21:02:39,  1.21it/s]  8%|▊         | 8237/100000 [4:58:35<20:19:41,  1.25it/s]                                                            8%|▊         | 8237/100000 [4:58:35<20:19:41,  1.25it/s]  8%|▊         | 8238/100000 [4:58:35<19:46:19,  1.29it/s]                                                            8%|▊         | 8238/100000 [4:58:35<19:46:19,  1.29it/s]  8%|▊         | 8239/100000 [4:58:46<93:55:13,  3.68s/it]                                                            8%|▊         | 8239/100000 [4:58:46<93:55:13,  3.68s/it]  8%|▊         | 8240/100000 [4:58:54<124:51:37,  4.90s/it]                                                             8%|▊         | 8240/100000 [4:58:54<124:51:37,  4.90s/it]  8%|▊         | 8241/100000 [4:58:59<132:12:36,  5.19s/it]                                                             8%|▊         | 8241/100000 [4:58:59<132:12:36,  5.19s/it]  8%|▊         | 8242/100000 [4:59:04<129:02:45,  5.06s/it]                                                             8%|▊         | 8242/100000 [4:59:04<129:02:45,  5.06s/it]  8%|▊         | 8243/100000 [4:59:08<120:15:21,  4.72s/it]                                                             8%|▊         | 8243/100000 [4:59:08<120:15:21,  4.72s/it]  8%|▊         | 8244/100000 [4:59:12<112:17:32,  4.41s/it]                                                             8%|▊         | 8244/100000 [4:59:12<112:17:32,  4.41s/it]  8%|▊         | 8245/100000 [4:59:15<103:49:27,  4.07s/it]                                                             8%|▊         | 8245/100000 [4:59:15<103:49:27,  4.07s/it]  8%|▊         | 8246/100000 [4:59:18<94:40:40,  3.71s/it]                                                           {'loss': 0.1044, 'grad_norm': 0.9849452376365662, 'learning_rate': 2.4477e-05, 'epoch': 53.01}
{'loss': 0.0547, 'grad_norm': 0.5559848546981812, 'learning_rate': 2.448e-05, 'epoch': 53.01}
{'loss': 0.0461, 'grad_norm': 1.2412036657333374, 'learning_rate': 2.4483000000000003e-05, 'epoch': 53.02}
{'loss': 0.0432, 'grad_norm': 0.6471278667449951, 'learning_rate': 2.4486000000000002e-05, 'epoch': 53.03}
{'loss': 0.0422, 'grad_norm': 0.5555614233016968, 'learning_rate': 2.4489000000000002e-05, 'epoch': 53.03}
{'loss': 0.0331, 'grad_norm': 0.5457502603530884, 'learning_rate': 2.4492000000000002e-05, 'epoch': 53.04}
{'loss': 0.0369, 'grad_norm': 0.6728273034095764, 'learning_rate': 2.4495000000000002e-05, 'epoch': 53.05}
{'loss': 0.0227, 'grad_norm': 0.44627416133880615, 'learning_rate': 2.4498e-05, 'epoch': 53.05}
{'loss': 0.0263, 'grad_norm': 0.5727068185806274, 'learning_rate': 2.4501e-05, 'epoch': 53.06}
{'loss': 0.0249, 'grad_norm': 0.4477171301841736, 'learning_rate': 2.4504e-05, 'epoch': 53.06}
{'loss': 0.0156, 'grad_norm': 0.5469317436218262, 'learning_rate': 2.4507e-05, 'epoch': 53.07}
{'loss': 0.0249, 'grad_norm': 0.8179191946983337, 'learning_rate': 2.4509999999999997e-05, 'epoch': 53.08}
{'loss': 0.0117, 'grad_norm': 0.48641613125801086, 'learning_rate': 2.4513e-05, 'epoch': 53.08}
{'loss': 0.0167, 'grad_norm': 0.7211700677871704, 'learning_rate': 2.4516e-05, 'epoch': 53.09}
{'loss': 0.0762, 'grad_norm': 0.7836438417434692, 'learning_rate': 2.4519e-05, 'epoch': 53.1}
{'loss': 0.008, 'grad_norm': 0.4159071743488312, 'learning_rate': 2.4522e-05, 'epoch': 53.1}
{'loss': 0.0181, 'grad_norm': 0.9104670882225037, 'learning_rate': 2.4525e-05, 'epoch': 53.11}
{'loss': 0.0125, 'grad_norm': 0.9974208474159241, 'learning_rate': 2.4528e-05, 'epoch': 53.12}
{'loss': 0.0122, 'grad_norm': 0.9208500981330872, 'learning_rate': 2.4531e-05, 'epoch': 53.12}
{'loss': 0.014, 'grad_norm': 0.3975857198238373, 'learning_rate': 2.4534e-05, 'epoch': 53.13}
{'loss': 0.0144, 'grad_norm': 0.5021221041679382, 'learning_rate': 2.4537e-05, 'epoch': 53.14}
{'loss': 0.0092, 'grad_norm': 0.7277497053146362, 'learning_rate': 2.454e-05, 'epoch': 53.14}
{'loss': 0.0126, 'grad_norm': 0.9053137898445129, 'learning_rate': 2.4543000000000002e-05, 'epoch': 53.15}
{'loss': 0.0108, 'grad_norm': 0.7528463006019592, 'learning_rate': 2.4546000000000002e-05, 'epoch': 53.16}
{'loss': 0.0102, 'grad_norm': 1.7211273908615112, 'learning_rate': 2.4549e-05, 'epoch': 53.16}
{'loss': 0.0203, 'grad_norm': 1.4498927593231201, 'learning_rate': 2.4552e-05, 'epoch': 53.17}
{'loss': 0.0195, 'grad_norm': 1.4529846906661987, 'learning_rate': 2.4555e-05, 'epoch': 53.18}
{'loss': 0.0502, 'grad_norm': 0.7736836671829224, 'learning_rate': 2.4558e-05, 'epoch': 53.18}
{'loss': 0.0057, 'grad_norm': 0.33454737067222595, 'learning_rate': 2.4561e-05, 'epoch': 53.19}
{'loss': 0.0103, 'grad_norm': 0.5934089422225952, 'learning_rate': 2.4564e-05, 'epoch': 53.19}
{'loss': 0.0119, 'grad_norm': 1.5259217023849487, 'learning_rate': 2.4567e-05, 'epoch': 53.2}
{'loss': 0.0299, 'grad_norm': 0.9481545686721802, 'learning_rate': 2.457e-05, 'epoch': 53.21}
{'loss': 0.0112, 'grad_norm': 1.762158751487732, 'learning_rate': 2.4573000000000003e-05, 'epoch': 53.21}
{'loss': 0.0158, 'grad_norm': 1.2450311183929443, 'learning_rate': 2.4576000000000003e-05, 'epoch': 53.22}
{'loss': 0.0092, 'grad_norm': 1.6764543056488037, 'learning_rate': 2.4579000000000003e-05, 'epoch': 53.23}
{'loss': 0.0185, 'grad_norm': 1.1278910636901855, 'learning_rate': 2.4582000000000003e-05, 'epoch': 53.23}
{'loss': 0.0385, 'grad_norm': 1.8606775999069214, 'learning_rate': 2.4585e-05, 'epoch': 53.24}
{'loss': 0.0178, 'grad_norm': 1.3433369398117065, 'learning_rate': 2.4588e-05, 'epoch': 53.25}
{'loss': 0.1052, 'grad_norm': 1.21318781375885, 'learning_rate': 2.4591e-05, 'epoch': 53.25}
{'loss': 0.0642, 'grad_norm': 0.5676712989807129, 'learning_rate': 2.4594e-05, 'epoch': 53.26}
{'loss': 0.066, 'grad_norm': 0.814508855342865, 'learning_rate': 2.4597e-05, 'epoch': 53.27}
{'loss': 0.0473, 'grad_norm': 0.6181508898735046, 'learning_rate': 2.4599999999999998e-05, 'epoch': 53.27}
{'loss': 0.0593, 'grad_norm': 0.5524260401725769, 'learning_rate': 2.4603e-05, 'epoch': 53.28}
{'loss': 0.034, 'grad_norm': 0.4889374077320099, 'learning_rate': 2.4606e-05, 'epoch': 53.29}
{'loss': 0.0287, 'grad_norm': 0.5318428874015808, 'learning_rate': 2.4609e-05, 'epoch': 53.29}
{'loss': 0.0395, 'grad_norm': 0.6116361618041992, 'learning_rate': 2.4612e-05, 'epoch': 53.3}
{'loss': 0.0387, 'grad_norm': 0.6118521094322205, 'learning_rate': 2.4615e-05, 'epoch': 53.31}
{'loss': 0.0249, 'grad_norm': 0.7132859826087952, 'learning_rate': 2.4618e-05, 'epoch': 53.31}
{'loss': 0.0241, 'grad_norm': 0.624022901058197, 'learning_rate': 2.4621e-05, 'epoch': 53.32}
{'loss': 0.0203, 'grad_norm': 0.4650390148162842, 'learning_rate': 2.4624e-05, 'epoch': 53.32}
{'loss': 0.0246, 'grad_norm': 0.6693549752235413, 'learning_rate': 2.4627e-05, 'epoch': 53.33}
{'loss': 0.0193, 'grad_norm': 0.5230281949043274, 'learning_rate': 2.463e-05, 'epoch': 53.34}
{'loss': 0.0214, 'grad_norm': 0.5907139778137207, 'learning_rate': 2.4633000000000003e-05, 'epoch': 53.34}
{'loss': 0.0137, 'grad_norm': 0.5892942547798157, 'learning_rate': 2.4636000000000003e-05, 'epoch': 53.35}
{'loss': 0.0128, 'grad_norm': 0.565937340259552, 'learning_rate': 2.4639000000000002e-05, 'epoch': 53.36}
{'loss': 0.0145, 'grad_norm': 0.5722232460975647, 'learning_rate': 2.4642000000000002e-05, 'epoch': 53.36}
{'loss': 0.0197, 'grad_norm': 2.3155884742736816, 'learning_rate': 2.4645000000000002e-05, 'epoch': 53.37}
{'loss': 0.0124, 'grad_norm': 0.4800484776496887, 'learning_rate': 2.4648000000000002e-05, 'epoch': 53.38}
{'loss': 0.0122, 'grad_norm': 0.9182471036911011, 'learning_rate': 2.4651e-05, 'epoch': 53.38}
{'loss': 0.0099, 'grad_norm': 0.5103558897972107, 'learning_rate': 2.4654e-05, 'epoch': 53.39}
{'loss': 0.0145, 'grad_norm': 0.5521284937858582, 'learning_rate': 2.4656999999999998e-05, 'epoch': 53.4}
{'loss': 0.0143, 'grad_norm': 0.986211359500885, 'learning_rate': 2.4659999999999998e-05, 'epoch': 53.4}
{'loss': 0.0095, 'grad_norm': 1.1094448566436768, 'learning_rate': 2.4663e-05, 'epoch': 53.41}
{'loss': 0.0136, 'grad_norm': 0.7646001577377319, 'learning_rate': 2.4666e-05, 'epoch': 53.42}
{'loss': 0.0056, 'grad_norm': 0.430375337600708, 'learning_rate': 2.4669e-05, 'epoch': 53.42}
{'loss': 0.0462, 'grad_norm': 1.0456112623214722, 'learning_rate': 2.4672e-05, 'epoch': 53.43}
{'loss': 0.0717, 'grad_norm': 1.026679515838623, 'learning_rate': 2.4675e-05, 'epoch': 53.44}
{'loss': 0.015, 'grad_norm': 1.227598786354065, 'learning_rate': 2.4678e-05, 'epoch': 53.44}
{'loss': 0.0166, 'grad_norm': 1.7685424089431763, 'learning_rate': 2.4681e-05, 'epoch': 53.45}
{'loss': 0.0063, 'grad_norm': 0.5242939591407776, 'learning_rate': 2.4684e-05, 'epoch': 53.45}
{'loss': 0.0798, 'grad_norm': 1.6945635080337524, 'learning_rate': 2.4687e-05, 'epoch': 53.46}
{'loss': 0.0133, 'grad_norm': 1.4509620666503906, 'learning_rate': 2.469e-05, 'epoch': 53.47}
{'loss': 0.0157, 'grad_norm': 1.175424575805664, 'learning_rate': 2.4693000000000002e-05, 'epoch': 53.47}
{'loss': 0.0602, 'grad_norm': 2.1754682064056396, 'learning_rate': 2.4696000000000002e-05, 'epoch': 53.48}
{'loss': 0.015, 'grad_norm': 1.1575392484664917, 'learning_rate': 2.4699000000000002e-05, 'epoch': 53.49}
{'loss': 0.0283, 'grad_norm': 1.0906200408935547, 'learning_rate': 2.4702e-05, 'epoch': 53.49}
{'loss': 0.176, 'grad_norm': 1.7596051692962646, 'learning_rate': 2.4705e-05, 'epoch': 53.5}
{'loss': 0.1111, 'grad_norm': 1.1733859777450562, 'learning_rate': 2.4708e-05, 'epoch': 53.51}
{'loss': 0.0691, 'grad_norm': 0.6678208708763123, 'learning_rate': 2.4711e-05, 'epoch': 53.51}
{'loss': 0.063, 'grad_norm': 0.6735740900039673, 'learning_rate': 2.4714e-05, 'epoch': 53.52}
{'loss': 0.0475, 'grad_norm': 0.9245827794075012, 'learning_rate': 2.4717e-05, 'epoch': 53.53}
{'loss': 0.0331, 'grad_norm': 0.5983281135559082, 'learning_rate': 2.472e-05, 'epoch': 53.53}
{'loss': 0.0331, 'grad_norm': 0.47867992520332336, 'learning_rate': 2.4723000000000004e-05, 'epoch': 53.54}
  8%|▊         | 8246/100000 [4:59:18<94:40:40,  3.71s/it]  8%|▊         | 8247/100000 [4:59:20<85:22:50,  3.35s/it]                                                            8%|▊         | 8247/100000 [4:59:20<85:22:50,  3.35s/it]  8%|▊         | 8248/100000 [4:59:23<76:16:01,  2.99s/it]                                                            8%|▊         | 8248/100000 [4:59:23<76:16:01,  2.99s/it]  8%|▊         | 8249/100000 [4:59:25<69:09:29,  2.71s/it]                                                            8%|▊         | 8249/100000 [4:59:25<69:09:29,  2.71s/it]  8%|▊         | 8250/100000 [4:59:27<63:19:38,  2.48s/it]                                                            8%|▊         | 8250/100000 [4:59:27<63:19:38,  2.48s/it]  8%|▊         | 8251/100000 [4:59:28<58:10:39,  2.28s/it]                                                            8%|▊         | 8251/100000 [4:59:28<58:10:39,  2.28s/it]  8%|▊         | 8252/100000 [4:59:30<53:46:48,  2.11s/it]                                                            8%|▊         | 8252/100000 [4:59:30<53:46:48,  2.11s/it]  8%|▊         | 8253/100000 [4:59:32<50:13:57,  1.97s/it]                                                            8%|▊         | 8253/100000 [4:59:32<50:13:57,  1.97s/it]  8%|▊         | 8254/100000 [4:59:33<46:56:28,  1.84s/it]                                                            8%|▊         | 8254/100000 [4:59:33<46:56:28,  1.84s/it]  8%|▊         | 8255/100000 [4:59:35<44:09:07,  1.73s/it]                                                            8%|▊         | 8255/100000 [4:59:35<44:09:07,  1.73s/it]  8%|▊         | 8256/100000 [4:59:36<41:20:46,  1.62s/it]                                                            8%|▊         | 8256/100000 [4:59:36<41:20:46,  1.62s/it]  8%|▊         | 8257/100000 [4:59:38<39:15:13,  1.54s/it]                                                            8%|▊         | 8257/100000 [4:59:38<39:15:13,  1.54s/it]  8%|▊         | 8258/100000 [4:59:39<37:17:10,  1.46s/it]                                                            8%|▊         | 8258/100000 [4:59:39<37:17:10,  1.46s/it]  8%|▊         | 8259/100000 [4:59:40<35:29:29,  1.39s/it]                                                            8%|▊         | 8259/100000 [4:59:40<35:29:29,  1.39s/it]  8%|▊         | 8260/100000 [4:59:41<33:33:26,  1.32s/it]                                                            8%|▊         | 8260/100000 [4:59:41<33:33:26,  1.32s/it]  8%|▊         | 8261/100000 [4:59:42<31:49:38,  1.25s/it]                                                            8%|▊         | 8261/100000 [4:59:42<31:49:38,  1.25s/it]  8%|▊         | 8262/100000 [4:59:43<30:04:43,  1.18s/it]                                                            8%|▊         | 8262/100000 [4:59:43<30:04:43,  1.18s/it]  8%|▊         | 8263/100000 [4:59:44<28:16:00,  1.11s/it]                                                            8%|▊         | 8263/100000 [4:59:44<28:16:00,  1.11s/it]  8%|▊         | 8264/100000 [4:59:45<27:07:42,  1.06s/it]                                                            8%|▊         | 8264/100000 [4:59:45<27:07:42,  1.06s/it]  8%|▊         | 8265/100000 [4:59:46<25:58:45,  1.02s/it]                                                            8%|▊         | 8265/100000 [4:59:46<25:58:45,  1.02s/it]  8%|▊         | 8266/100000 [4:59:47<24:43:27,  1.03it/s]                                                            8%|▊         | 8266/100000 [4:59:47<24:43:27,  1.03it/s]  8%|▊         | 8267/100000 [4:59:48<23:40:46,  1.08it/s]                                                            8%|▊         | 8267/100000 [4:59:48<23:40:46,  1.08it/s]  8%|▊         | 8268/100000 [4:59:49<23:25:57,  1.09it/s]                                                            8%|▊         | 8268/100000 [4:59:49<23:25:57,  1.09it/s]  8%|▊         | 8269/100000 [4:59:50<22:52:05,  1.11it/s]                                                            8%|▊         | 8269/100000 [4:59:50<22:52:05,  1.11it/s]  8%|▊         | 8270/100000 [4:59:50<22:18:07,  1.14it/s]                                                            8%|▊         | 8270/100000 [4:59:50<22:18:07,  1.14it/s]  8%|▊         | 8271/100000 [4:59:51<21:48:02,  1.17it/s]                                                            8%|▊         | 8271/100000 [4:59:51<21:48:02,  1.17it/s]  8%|▊         | 8272/100000 [4:59:52<21:27:11,  1.19it/s]                                                            8%|▊         | 8272/100000 [4:59:52<21:27:11,  1.19it/s]  8%|▊         | 8273/100000 [4:59:53<20:29:12,  1.24it/s]                                                            8%|▊         | 8273/100000 [4:59:53<20:29:12,  1.24it/s]  8%|▊         | 8274/100000 [4:59:53<19:39:44,  1.30it/s]                                                            8%|▊         | 8274/100000 [4:59:53<19:39:44,  1.30it/s]  8%|▊         | 8275/100000 [4:59:54<18:52:27,  1.35it/s]                                                            8%|▊         | 8275/100000 [4:59:54<18:52:27,  1.35it/s]  8%|▊         | 8276/100000 [4:59:55<18:38:30,  1.37it/s]                                                            8%|▊         | 8276/100000 [4:59:55<18:38:30,  1.37it/s]  8%|▊         | 8277/100000 [5:00:08<113:29:26,  4.45s/it]                                                             8%|▊         | 8277/100000 [5:00:08<113:29:26,  4.45s/it]  8%|▊         | 8278/100000 [5:00:16<140:13:03,  5.50s/it]                                                             8%|▊         | 8278/100000 [5:00:16<140:13:03,  5.50s/it]  8%|▊         | 8279/100000 [5:00:21<140:27:14,  5.51s/it]                                                             8%|▊         | 8279/100000 [5:00:21<140:27:14,  5.51s/it]  8%|▊         | 8280/100000 [5:00:26<133:40:21,  5.25s/it]                                                             8%|▊         | 8280/100000 [5:00:26<133:40:21,  5.25s/it]  8%|▊         | 8281/100000 [5:00:30<122:35:23,  4.81s/it]                                                             8%|▊         | 8281/100000 [5:00:30<122:35:23,  4.81s/it]  8%|▊         | 8282/100000 [5:00:33<111:27:30,  4.37s/it]                                                             8%|▊         | 8282/100000 [5:00:33<111:27:30,  4.37s/it]  8%|▊         | 8283/100000 [5:00:36<100:15:52,  3.94s/it]                                                             8%|▊         | 8283/100000 [5:00:36<100:15:52,  3.94s/it]  8%|▊         | 8284/100000 [5:00:39<89:57:52,  3.53s/it]                                                             8%|▊         | 8284/100000 [5:00:39<89:57:52,  3.53s/it]  8%|▊         | 8285/100000 [5:00:41<80:13:51,  3.15s/it]                                                            8%|▊         | 8285/100000 [5:00:41<80:13:51,  3.15s/it]  8%|▊         | 8286/100000 [5:00:43<71:58:25,  2.83s/it]                                                            8%|▊         | 8286/100000 [5:00:43<71:58:25,  2.83s/it]  8%|▊         | 8287/100000 [5:00:45<65:23:16,  2.57s/it]                                                            8%|▊         | 8287/100000 [5:00:45<65:23:16,  2.57s/it]  8%|▊         | 8288/100000 [5:00:47<59:35:51,  2.34s/it]                                                            8%|▊         | 8288/100000 [5:00:47<59:35:51,  2.34s/it]  8%|▊         | 8289/100000 [5:00:48<54:39:13,  2.15s/it]                                                            8%|▊         | 8289/100000 [5:00:49<54:39:13,  2.15s/it]  8%|▊         | 8290/100000 [5:00:50<50:28:42,  1.98s/it]                                                            8%|▊         | 8290/100000 [5:00:50<50:28:42,  1.98s/it]  8%|▊         | 8291/100000 [5:00:52<46:56:07,  1.84s/it]                                                            8%|▊         | 8291/100000 [5:00:52<46:56:07,  1.84s/it]  8%|▊         | 8292/100000 [5:00:53<43:36:07,  1.71s/it]                                                            8%|▊         | 8292/100000 [5:00:53<43:36:07,  1.71s/it]  8%|▊         | 8293/100000 [5:00:54<41:13:35,  1.62s/it]                                                            8%|▊         | 8293/100000 [5:00:54<41:13:35,  1.62s/it]  8%|▊         | 8294/100000 [5:00:56<38:43:46,  1.52s/it]                                                            8%|▊         | 8294/100000 [5:00:56<38:43:46,  1.52s/it]  8%|▊         | 8295/100000 [5:00:57<36:44:02,  1.44s/it]                                                            8%|▊         | 8295/100000 [5:00:57<36:44:02,  1.44s/it]  8%|▊         | 8296/100000 [5:00:58<34:32:30,  1.36s/it]                                                            8%|▊         | 8296/100000 [5:00:58<34:32:30,  1.36s/it]  8%|▊         | 8297/100000 [5:00:59<32:29:58,  1.28s/it]                                                            8%|▊         | 8297/100000 [5:00:59<32:29:58,  1.28s/it]  8%|▊         | 8298/100000 [5:01:00<30:56:49,  1.21s/it]                                                            8%|▊         | 8298/100000 [5:01:00<30:56:49,  1.21s/it]  8%|▊         | 8299/100000 [5:01:01<29:14:51,  1.15s/it]                                                            8%|▊         | 8299/100000 [5:01:01<29:14:51,  1.15s/it]  8%|▊         | 8300/100000 [5:01:02<28:06:26,  1.10s/it]                                                            8%|▊         | 8300/100000 [5:01:02<28:06:26,  1.10s/it]  8%|▊         | 8301/100000 [5:01:03<26:40:28,  1.05s/it]                                                            8%|▊         | 8301/100000 [5:01:03<26:40:28,  1.05s/it]  8%|▊         | 8302/100000 [5:01:04<25:35:59,  1.01s/it]                                                            8%|▊         | 8302/100000 [5:01:04<25:35:59,  1.01s/it]  8%|▊         | 8303/100000 [5:01:05<24:45:48,  1.03it/s]                                                            8%|▊         | 8303/100000 [5:01:05<24:45:48,  1.03it/s]  8%|▊         | 8304/100000 [5:01:06<24:13:54,  1.05it/s]                                                            8%|▊         | 8304/100000 [5:01:06<24:13:54,  1.05it/s]  8%|▊         | 8305/100000 [5:01:07<23:42:52,  1.07it/s]                                                            8%|▊         | 8305/100000 [5:01:07<23:42:52,  1.07it/s]  8%|▊         | 8306/100000 [5:01:08<23:04:00,  1.10it/s]                                                            8%|▊         | 8306/100000 [5:01:08<23:04:00,  1.10it/s]  8%|▊         | 8307/100000 [5:01:08<22:21:57,  1.14it/s]                                                            8%|▊         | 8307/100000 [5:01:08<22:21:57,  1.14it/s]  8%|▊         | 8308/100000 [5:01:09<21:27:15,  1.19it/s]                                                            8%|▊         | 8308/100000 [5:01:09<21:27:15,  1.19it/s]  8%|▊         | 8309/100000 [5:01:10<20:29:22,  1.24it/s]                                                            8%|▊         | 8309/100000 [5:01:10<20:29:22,  1.24it/s]  8%|▊         | 8310/100000 [5:01:11<20:26:05,  1.25it/s]                                                            8%|▊         | 8310/100000 [5:01:11<20:26:05,  1.25it/s]  8%|▊         | 8311/100000 [5:01:12<20:22:08,  1.25it/s]                                                            8%|▊         | 8311/100000 [5:01:12<20:22:08,  1.25it/s]  8%|▊         | 8312/100000 [5:01:12<20:13:03,  1.26it/s]                                                            8%|▊         | 8312/100000 [5:01:12<20:13:03,  1.26it/s]  8%|▊         | 8313/100000 [5:01:13<19:14:18,  1.32it/s]                                                            8%|▊         | 8313/100000 [5:01:13<19:14:18,  1.32it/s]  8%|▊         | 8314/100000 [5:01:14<18:25:52,  1.38it/s]                                                            8%|▊         | 8314/100000 [5:01:14<18:25:52,  1.38it/s]  8%|▊         | 8315/100000 [5:01:18<49:39:36,  1.95s/it]                                                            8%|▊         | 8315/100000 [5:01:18<49:39:36,  1.95s/it]  8%|▊         | 8316/100000 [5:01:20<45:15:02,  1.78s/it]                                                            8%|▊         | 8316/100000 [5:01:20<45:15:02,  1.78s/it]{'loss': 0.0392, 'grad_norm': 0.6858625411987305, 'learning_rate': 2.4726000000000003e-05, 'epoch': 53.55}
{'loss': 0.0406, 'grad_norm': 0.9663276076316833, 'learning_rate': 2.4729000000000003e-05, 'epoch': 53.55}
{'loss': 0.048, 'grad_norm': 0.45153698325157166, 'learning_rate': 2.4732e-05, 'epoch': 53.56}
{'loss': 0.0262, 'grad_norm': 0.7824146747589111, 'learning_rate': 2.4735e-05, 'epoch': 53.56}
{'loss': 0.0228, 'grad_norm': 0.7050312161445618, 'learning_rate': 2.4738e-05, 'epoch': 53.57}
{'loss': 0.0233, 'grad_norm': 0.5877144932746887, 'learning_rate': 2.4741e-05, 'epoch': 53.58}
{'loss': 0.014, 'grad_norm': 0.34872499108314514, 'learning_rate': 2.4744e-05, 'epoch': 53.58}
{'loss': 0.022, 'grad_norm': 0.7623422145843506, 'learning_rate': 2.4747e-05, 'epoch': 53.59}
{'loss': 0.0206, 'grad_norm': 0.6494055390357971, 'learning_rate': 2.475e-05, 'epoch': 53.6}
{'loss': 0.0164, 'grad_norm': 0.5063561797142029, 'learning_rate': 2.4753e-05, 'epoch': 53.6}
{'loss': 0.0163, 'grad_norm': 0.6153071522712708, 'learning_rate': 2.4756e-05, 'epoch': 53.61}
{'loss': 0.0203, 'grad_norm': 0.5679752230644226, 'learning_rate': 2.4759e-05, 'epoch': 53.62}
{'loss': 0.0216, 'grad_norm': 1.4350981712341309, 'learning_rate': 2.4762e-05, 'epoch': 53.62}
{'loss': 0.0112, 'grad_norm': 0.4136727452278137, 'learning_rate': 2.4765e-05, 'epoch': 53.63}
{'loss': 0.0123, 'grad_norm': 0.46119552850723267, 'learning_rate': 2.4768e-05, 'epoch': 53.64}
{'loss': 0.0126, 'grad_norm': 0.5688527226448059, 'learning_rate': 2.4771e-05, 'epoch': 53.64}
{'loss': 0.0091, 'grad_norm': 0.3511935770511627, 'learning_rate': 2.4774e-05, 'epoch': 53.65}
{'loss': 0.0134, 'grad_norm': 1.6326603889465332, 'learning_rate': 2.4777e-05, 'epoch': 53.66}
{'loss': 0.0066, 'grad_norm': 0.4965105354785919, 'learning_rate': 2.478e-05, 'epoch': 53.66}
{'loss': 0.0097, 'grad_norm': 0.837590217590332, 'learning_rate': 2.4783e-05, 'epoch': 53.67}
{'loss': 0.0154, 'grad_norm': 0.7000525593757629, 'learning_rate': 2.4786000000000003e-05, 'epoch': 53.68}
{'loss': 0.0572, 'grad_norm': 0.7021335363388062, 'learning_rate': 2.4789000000000003e-05, 'epoch': 53.68}
{'loss': 0.01, 'grad_norm': 1.325264811515808, 'learning_rate': 2.4792000000000003e-05, 'epoch': 53.69}
{'loss': 0.0106, 'grad_norm': 0.9372618794441223, 'learning_rate': 2.4795000000000002e-05, 'epoch': 53.69}
{'loss': 0.0047, 'grad_norm': 0.8575153946876526, 'learning_rate': 2.4798000000000002e-05, 'epoch': 53.7}
{'loss': 0.0074, 'grad_norm': 0.5362425446510315, 'learning_rate': 2.4801000000000002e-05, 'epoch': 53.71}
{'loss': 0.0051, 'grad_norm': 0.41746726632118225, 'learning_rate': 2.4804e-05, 'epoch': 53.71}
{'loss': 0.0125, 'grad_norm': 0.6764034628868103, 'learning_rate': 2.4806999999999998e-05, 'epoch': 53.72}
{'loss': 0.01, 'grad_norm': 0.9781319499015808, 'learning_rate': 2.4809999999999998e-05, 'epoch': 53.73}
{'loss': 0.0444, 'grad_norm': 2.127371072769165, 'learning_rate': 2.4812999999999998e-05, 'epoch': 53.73}
{'loss': 0.0182, 'grad_norm': 1.1205161809921265, 'learning_rate': 2.4816e-05, 'epoch': 53.74}
{'loss': 0.1025, 'grad_norm': 0.76502525806427, 'learning_rate': 2.4819e-05, 'epoch': 53.75}
{'loss': 0.0663, 'grad_norm': 0.6366612911224365, 'learning_rate': 2.4822e-05, 'epoch': 53.75}
{'loss': 0.0568, 'grad_norm': 0.46308043599128723, 'learning_rate': 2.4825e-05, 'epoch': 53.76}
{'loss': 0.059, 'grad_norm': 0.5375297665596008, 'learning_rate': 2.4828e-05, 'epoch': 53.77}
{'loss': 0.0327, 'grad_norm': 0.44599273800849915, 'learning_rate': 2.4831e-05, 'epoch': 53.77}
{'loss': 0.036, 'grad_norm': 0.4823852777481079, 'learning_rate': 2.4834e-05, 'epoch': 53.78}
{'loss': 0.0351, 'grad_norm': 0.3978864848613739, 'learning_rate': 2.4837e-05, 'epoch': 53.79}
{'loss': 0.0223, 'grad_norm': 0.4689541757106781, 'learning_rate': 2.484e-05, 'epoch': 53.79}
{'loss': 0.0325, 'grad_norm': 0.6613557934761047, 'learning_rate': 2.4843e-05, 'epoch': 53.8}
{'loss': 0.0259, 'grad_norm': 0.46399810910224915, 'learning_rate': 2.4846000000000002e-05, 'epoch': 53.81}
{'loss': 0.0215, 'grad_norm': 0.377263605594635, 'learning_rate': 2.4849000000000002e-05, 'epoch': 53.81}
{'loss': 0.0185, 'grad_norm': 1.0154507160186768, 'learning_rate': 2.4852000000000002e-05, 'epoch': 53.82}
{'loss': 0.0117, 'grad_norm': 0.37009307742118835, 'learning_rate': 2.4855000000000002e-05, 'epoch': 53.82}
{'loss': 0.0223, 'grad_norm': 0.6999024748802185, 'learning_rate': 2.4858e-05, 'epoch': 53.83}
{'loss': 0.0197, 'grad_norm': 0.8780303597450256, 'learning_rate': 2.4861e-05, 'epoch': 53.84}
{'loss': 0.017, 'grad_norm': 1.2628657817840576, 'learning_rate': 2.4864e-05, 'epoch': 53.84}
{'loss': 0.0216, 'grad_norm': 0.6836172938346863, 'learning_rate': 2.4867e-05, 'epoch': 53.85}
{'loss': 0.0131, 'grad_norm': 0.5034902095794678, 'learning_rate': 2.487e-05, 'epoch': 53.86}
{'loss': 0.0122, 'grad_norm': 0.6098118424415588, 'learning_rate': 2.4873e-05, 'epoch': 53.86}
{'loss': 0.028, 'grad_norm': 0.8280580639839172, 'learning_rate': 2.4876000000000004e-05, 'epoch': 53.87}
{'loss': 0.0123, 'grad_norm': 0.4527526795864105, 'learning_rate': 2.4879e-05, 'epoch': 53.88}
{'loss': 0.0138, 'grad_norm': 1.1583613157272339, 'learning_rate': 2.4882e-05, 'epoch': 53.88}
{'loss': 0.0255, 'grad_norm': 0.644068717956543, 'learning_rate': 2.4885e-05, 'epoch': 53.89}
{'loss': 0.0243, 'grad_norm': 1.4543098211288452, 'learning_rate': 2.4888e-05, 'epoch': 53.9}
{'loss': 0.0102, 'grad_norm': 0.5186062455177307, 'learning_rate': 2.4891e-05, 'epoch': 53.9}
{'loss': 0.0076, 'grad_norm': 0.4306381940841675, 'learning_rate': 2.4894e-05, 'epoch': 53.91}
{'loss': 0.0106, 'grad_norm': 0.6810272932052612, 'learning_rate': 2.4897e-05, 'epoch': 53.92}
{'loss': 0.0126, 'grad_norm': 0.8019207715988159, 'learning_rate': 2.49e-05, 'epoch': 53.92}
{'loss': 0.0105, 'grad_norm': 0.44086572527885437, 'learning_rate': 2.4903e-05, 'epoch': 53.93}
{'loss': 0.0123, 'grad_norm': 0.6840571761131287, 'learning_rate': 2.4906000000000002e-05, 'epoch': 53.94}
{'loss': 0.0135, 'grad_norm': 0.6163772344589233, 'learning_rate': 2.4909e-05, 'epoch': 53.94}
{'loss': 0.02, 'grad_norm': 1.1448843479156494, 'learning_rate': 2.4912e-05, 'epoch': 53.95}
{'loss': 0.014, 'grad_norm': 0.7305691838264465, 'learning_rate': 2.4915e-05, 'epoch': 53.95}
{'loss': 0.0246, 'grad_norm': 2.3169777393341064, 'learning_rate': 2.4918e-05, 'epoch': 53.96}
{'loss': 0.0079, 'grad_norm': 0.5389490127563477, 'learning_rate': 2.4921e-05, 'epoch': 53.97}
{'loss': 0.013, 'grad_norm': 1.2672748565673828, 'learning_rate': 2.4924e-05, 'epoch': 53.97}
{'loss': 0.0129, 'grad_norm': 1.0100539922714233, 'learning_rate': 2.4927e-05, 'epoch': 53.98}
{'loss': 0.0897, 'grad_norm': 1.5478168725967407, 'learning_rate': 2.493e-05, 'epoch': 53.99}
{'loss': 0.0453, 'grad_norm': 0.7442532181739807, 'learning_rate': 2.4933e-05, 'epoch': 53.99}
{'loss': 0.0124, 'grad_norm': 1.0137921571731567, 'learning_rate': 2.4936000000000003e-05, 'epoch': 54.0}
  8%|▊         | 8317/100000 [5:01:38<168:20:29,  6.61s/it]                                                             8%|▊         | 8317/100000 [5:01:38<168:20:29,  6.61s/it]  8%|▊         | 8318/100000 [5:01:46<181:41:04,  7.13s/it]                                                             8%|▊         | 8318/100000 [5:01:46<181:41:04,  7.13s/it]  8%|▊         | 8319/100000 [5:01:51<168:36:01,  6.62s/it]                                                             8%|▊         | 8319/100000 [5:01:51<168:36:01,  6.62s/it]  8%|▊         | 8320/100000 [5:01:56<153:41:49,  6.04s/it]                                                             8%|▊         | 8320/100000 [5:01:56<153:41:49,  6.04s/it]  8%|▊         | 8321/100000 [5:02:00<138:27:01,  5.44s/it]                                                             8%|▊         | 8321/100000 [5:02:00<138:27:01,  5.44s/it]  8%|▊         | 8322/100000 [5:02:04<123:42:39,  4.86s/it]                                                             8%|▊         | 8322/100000 [5:02:04<123:42:39,  4.86s/it]  8%|▊         | 8323/100000 [5:02:07<110:06:07,  4.32s/it]                                                             8%|▊         | 8323/100000 [5:02:07<110:06:07,  4.32s/it]  8%|▊         | 8324/100000 [5:02:09<96:00:10,  3.77s/it]                                                             8%|▊         | 8324/100000 [5:02:09<96:00:10,  3.77s/it]  8%|▊         | 8325/100000 [5:02:12<84:51:11,  3.33s/it]                                                            8%|▊         | 8325/100000 [5:02:12<84:51:11,  3.33s/it]  8%|▊         | 8326/100000 [5:02:14<76:11:07,  2.99s/it]                                                            8%|▊         | 8326/100000 [5:02:14<76:11:07,  2.99s/it]  8%|▊         | 8327/100000 [5:02:16<68:35:08,  2.69s/it]                                                            8%|▊         | 8327/100000 [5:02:16<68:35:08,  2.69s/it]  8%|▊         | 8328/100000 [5:02:18<62:09:22,  2.44s/it]                                                            8%|▊         | 8328/100000 [5:02:18<62:09:22,  2.44s/it]  8%|▊         | 8329/100000 [5:02:19<56:49:37,  2.23s/it]                                                            8%|▊         | 8329/100000 [5:02:19<56:49:37,  2.23s/it]  8%|▊         | 8330/100000 [5:02:21<52:06:01,  2.05s/it]                                                            8%|▊         | 8330/100000 [5:02:21<52:06:01,  2.05s/it]  8%|▊         | 8331/100000 [5:02:23<48:29:16,  1.90s/it]                                                            8%|▊         | 8331/100000 [5:02:23<48:29:16,  1.90s/it]  8%|▊         | 8332/100000 [5:02:24<44:51:21,  1.76s/it]                                                            8%|▊         | 8332/100000 [5:02:24<44:51:21,  1.76s/it]  8%|▊         | 8333/100000 [5:02:25<41:45:29,  1.64s/it]                                                            8%|▊         | 8333/100000 [5:02:25<41:45:29,  1.64s/it]  8%|▊         | 8334/100000 [5:02:27<39:29:51,  1.55s/it]                                                            8%|▊         | 8334/100000 [5:02:27<39:29:51,  1.55s/it]  8%|▊         | 8335/100000 [5:02:28<37:27:51,  1.47s/it]                                                            8%|▊         | 8335/100000 [5:02:28<37:27:51,  1.47s/it]  8%|▊         | 8336/100000 [5:02:29<35:26:16,  1.39s/it]                                                            8%|▊         | 8336/100000 [5:02:29<35:26:16,  1.39s/it]  8%|▊         | 8337/100000 [5:02:30<33:09:36,  1.30s/it]                                                            8%|▊         | 8337/100000 [5:02:30<33:09:36,  1.30s/it]  8%|▊         | 8338/100000 [5:02:31<31:36:47,  1.24s/it]                                                            8%|▊         | 8338/100000 [5:02:31<31:36:47,  1.24s/it]  8%|▊         | 8339/100000 [5:02:32<30:17:44,  1.19s/it]                                                            8%|▊         | 8339/100000 [5:02:32<30:17:44,  1.19s/it]  8%|▊         | 8340/100000 [5:02:33<29:00:41,  1.14s/it]                                                            8%|▊         | 8340/100000 [5:02:33<29:00:41,  1.14s/it]  8%|▊         | 8341/100000 [5:02:34<27:30:08,  1.08s/it]                                                            8%|▊         | 8341/100000 [5:02:34<27:30:08,  1.08s/it]  8%|▊         | 8342/100000 [5:02:35<26:28:01,  1.04s/it]                                                            8%|▊         | 8342/100000 [5:02:35<26:28:01,  1.04s/it]  8%|▊         | 8343/100000 [5:02:36<25:41:34,  1.01s/it]                                                            8%|▊         | 8343/100000 [5:02:36<25:41:34,  1.01s/it]  8%|▊         | 8344/100000 [5:02:37<24:44:40,  1.03it/s]                                                            8%|▊         | 8344/100000 [5:02:37<24:44:40,  1.03it/s]  8%|▊         | 8345/100000 [5:02:38<23:50:21,  1.07it/s]                                                            8%|▊         | 8345/100000 [5:02:38<23:50:21,  1.07it/s]  8%|▊         | 8346/100000 [5:02:39<23:21:19,  1.09it/s]                                                            8%|▊         | 8346/100000 [5:02:39<23:21:19,  1.09it/s]  8%|▊         | 8347/100000 [5:02:40<22:23:52,  1.14it/s]                                                            8%|▊         | 8347/100000 [5:02:40<22:23:52,  1.14it/s]  8%|▊         | 8348/100000 [5:02:40<21:28:22,  1.19it/s]                                                            8%|▊         | 8348/100000 [5:02:40<21:28:22,  1.19it/s]  8%|▊         | 8349/100000 [5:02:41<20:25:40,  1.25it/s]                                                            8%|▊         | 8349/100000 [5:02:41<20:25:40,  1.25it/s]  8%|▊         | 8350/100000 [5:02:42<19:35:52,  1.30it/s]                                                            8%|▊         | 8350/100000 [5:02:42<19:35:52,  1.30it/s]  8%|▊         | 8351/100000 [5:02:43<19:08:22,  1.33it/s]                                                            8%|▊         | 8351/100000 [5:02:43<19:08:22,  1.33it/s]  8%|▊         | 8352/100000 [5:02:43<18:53:22,  1.35it/s]                                                            8%|▊         | 8352/100000 [5:02:43<18:53:22,  1.35it/s]  8%|▊         | 8353/100000 [5:02:44<19:18:00,  1.32it/s]                                                            8%|▊         | 8353/100000 [5:02:44<19:18:00,  1.32it/s]  8%|▊         | 8354/100000 [5:02:45<19:00:15,  1.34it/s]                                                            8%|▊         | 8354/100000 [5:02:45<19:00:15,  1.34it/s]  8%|▊         | 8355/100000 [5:02:58<113:57:22,  4.48s/it]                                                             8%|▊         | 8355/100000 [5:02:58<113:57:22,  4.48s/it]  8%|▊         | 8356/100000 [5:03:06<143:13:00,  5.63s/it]                                                             8%|▊         | 8356/100000 [5:03:06<143:13:00,  5.63s/it]  8%|▊         | 8357/100000 [5:03:12<144:22:44,  5.67s/it]                                                             8%|▊         | 8357/100000 [5:03:12<144:22:44,  5.67s/it]  8%|▊         | 8358/100000 [5:03:17<138:45:24,  5.45s/it]                                                             8%|▊         | 8358/100000 [5:03:17<138:45:24,  5.45s/it]  8%|▊         | 8359/100000 [5:03:21<127:09:59,  5.00s/it]                                                             8%|▊         | 8359/100000 [5:03:21<127:09:59,  5.00s/it]  8%|▊         | 8360/100000 [5:03:25<117:26:45,  4.61s/it]                                                             8%|▊         | 8360/100000 [5:03:25<117:26:45,  4.61s/it]  8%|▊         | 8361/100000 [5:03:28<104:48:39,  4.12s/it]                                                             8%|▊         | 8361/100000 [5:03:28<104:48:39,  4.12s/it]  8%|▊         | 8362/100000 [5:03:30<94:59:32,  3.73s/it]                                                             8%|▊         | 8362/100000 [5:03:30<94:59:32,  3.73s/it]  8%|▊         | 8363/100000 [5:03:33<85:08:08,  3.34s/it]                                                            8%|▊         | 8363/100000 [5:03:33<85:08:08,  3.34s/it]  8%|▊         | 8364/100000 [5:03:35<76:16:40,  3.00s/it]                                                            8%|▊         | 8364/100000 [5:03:35<76:16:40,  3.00s/it]  8%|▊         | 8365/100000 [5:03:37<68:44:57,  2.70s/it]                                                            8%|▊         | 8365/100000 [5:03:37<68:44:57,  2.70s/it]  8%|▊         | 8366/100000 [5:03:39<62:32:36,  2.46s/it]                                                            8%|▊         | 8366/100000 [5:03:39<62:32:36,  2.46s/it]  8%|▊         | 8367/100000 [5:03:41<57:14:21,  2.25s/it]                                                            8%|▊         | 8367/100000 [5:03:41<57:14:21,  2.25s/it]  8%|▊         | 8368/100000 [5:03:42<52:42:51,  2.07s/it]                                                            8%|▊         | 8368/100000 [5:03:42<52:42:51,  2.07s/it]  8%|▊         | 8369/100000 [5:03:44<50:14:11,  1.97s/it]                                                            8%|▊         | 8369/100000 [5:03:44<50:14:11,  1.97s/it]  8%|▊         | 8370/100000 [5:03:46<46:39:47,  1.83s/it]                                                            8%|▊         | 8370/100000 [5:03:46<46:39:47,  1.83s/it]  8%|▊         | 8371/100000 [5:03:47<43:15:18,  1.70s/it]                                                            8%|▊         | 8371/100000 [5:03:47<43:15:18,  1.70s/it]  8%|▊         | 8372/100000 [5:03:48<40:31:23,  1.59s/it]                                                            8%|▊         | 8372/100000 [5:03:48<40:31:23,  1.59s/it]  8%|▊         | 8373/100000 [5:03:50<38:18:14,  1.50s/it]                                                            8%|▊         | 8373/100000 [5:03:50<38:18:14,  1.50s/it]  8%|▊         | 8374/100000 [5:03:51<36:16:21,  1.43s/it]                                                            8%|▊         | 8374/100000 [5:03:51<36:16:21,  1.43s/it]  8%|▊         | 8375/100000 [5:03:52<34:28:13,  1.35s/it]                                                            8%|▊         | 8375/100000 [5:03:52<34:28:13,  1.35s/it]  8%|▊         | 8376/100000 [5:03:53<32:47:40,  1.29s/it]                                                            8%|▊         | 8376/100000 [5:03:53<32:47:40,  1.29s/it]  8%|▊         | 8377/100000 [5:03:54<31:14:12,  1.23s/it]                                                            8%|▊         | 8377/100000 [5:03:54<31:14:12,  1.23s/it]  8%|▊         | 8378/100000 [5:03:55<29:54:32,  1.18s/it]                                                            8%|▊         | 8378/100000 [5:03:55<29:54:32,  1.18s/it]  8%|▊         | 8379/100000 [5:03:56<28:32:32,  1.12s/it]                                                            8%|▊         | 8379/100000 [5:03:56<28:32:32,  1.12s/it]  8%|▊         | 8380/100000 [5:03:57<27:16:47,  1.07s/it]                                                            8%|▊         | 8380/100000 [5:03:57<27:16:47,  1.07s/it]  8%|▊         | 8381/100000 [5:03:58<26:07:35,  1.03s/it]                                                            8%|▊         | 8381/100000 [5:03:58<26:07:35,  1.03s/it]  8%|▊         | 8382/100000 [5:03:59<25:20:39,  1.00it/s]                                                            8%|▊         | 8382/100000 [5:03:59<25:20:39,  1.00it/s]  8%|▊         | 8383/100000 [5:04:00<24:17:02,  1.05it/s]                                                            8%|▊         | 8383/100000 [5:04:00<24:17:02,  1.05it/s]  8%|▊         | 8384/100000 [5:04:01<23:28:34,  1.08it/s]                                                            8%|▊         | 8384/100000 [5:04:01<23:28:34,  1.08it/s]  8%|▊         | 8385/100000 [5:04:02<22:20:39,  1.14it/s]                                                            8%|▊         | 8385/100000 [5:04:02<22:20:39,  1.14it/s]  8%|▊         | 8386/100000 [5:04:02<21:20:15,  1.19it/s]                                                            8%|▊         | 8386/100000 [5:04:02<21:20:15,  1.19it/s]  8%|▊         | 8387/100000 [5:04:03<20:50:06,  1.22it/s]                                                            8%|▊         | 8387/100000 [5:04:03<20:50:06,  1.22it/s]  8%|▊         | 8388/100000 [5:04:04<20:07:30,  1.26it/s]                                                            8%|▊         | 8388/100000 [5:04:04<20:07:30,  1.26it/s]  8%|▊         | 8389/100000 [5:04:05<19:42:38,  1.29it/s]                                                            8%|▊         | 8389/100000 [5:04:05<19:42:38,  1.29it/s]  8%|▊         | 8390/100000 [5:04:05<18:57:21,  1.34it/s]                                                            8%|▊         | 8390/100000 [5:04:05<18:57:21,  1.34it/s]  8%|▊         | 8391/100000 [5:04:06<19:01:28,  1.34it/s]                                                            8%|▊         | 8391/100000 [5:04:06<19:01:28,  1.34it/s]  8%|▊         | 8392/100000 [5:04:07<18:03:51,  1.41it/s]                                                            8%|▊         | 8392/100000 [5:04:07<18:03:51,  1.41it/s]  8%|▊         | 8393/100000 [5:04:18<100:46:40,  3.96s/it]                                                             8%|▊         | 8393/100000 [5:04:18<100:46:40,  3.96s/it]  8%|▊         | 8394/100000 [5:04:26<129:34:10,  5.09s/it]                                                             8%|▊         | 8394/100000 [5:04:26<129:34:10,  5.09s/it]  8%|▊         | 8395/100000 [5:04:31<132:06:11,  5.19s/it]                                                             8%|▊         | 8395/100000 [5:04:31<132:06:11,  5.19s/it]  8%|▊         | 8396/100000 [5:04:36<125:37:39,  4.94s/it]                                                             8%|▊         | 8396/100000 [5:04:36<125:37:39,  4.94s/it]  8%|▊         | 8397/100000 [5:04:39<117:04:18,  4.60s/it]                                                             8%|▊         | 8397/100000 [5:04:40<117:04:18,  4.60s/it]  8%|▊         | 8398/100000 [5:04:43<106:07:53,  4.17s/it]                                                             8%|▊         | 8398/100000 [5:04:43<106:07:53,  4.17s/it]  8%|▊         | 8399/100000 [5:04:46<96:24:30,  3.79s/it]                                                             8%|▊         | 8399/100000 [5:04:46<96:24:30,  3.79s/it]  8%|▊         | 8400/100000 [5:04:48<86:10:28,  3.39s/it]                                                          {'loss': 0.0877, 'grad_norm': 0.7183870077133179, 'learning_rate': 2.4939000000000003e-05, 'epoch': 54.01}
{'loss': 0.071, 'grad_norm': 0.7183266282081604, 'learning_rate': 2.4942000000000003e-05, 'epoch': 54.01}
{'loss': 0.0393, 'grad_norm': 0.4678155183792114, 'learning_rate': 2.4945000000000003e-05, 'epoch': 54.02}
{'loss': 0.0428, 'grad_norm': 0.44676926732063293, 'learning_rate': 2.4948000000000002e-05, 'epoch': 54.03}
{'loss': 0.0351, 'grad_norm': 0.5880889296531677, 'learning_rate': 2.4951e-05, 'epoch': 54.03}
{'loss': 0.0267, 'grad_norm': 0.43866223096847534, 'learning_rate': 2.4954e-05, 'epoch': 54.04}
{'loss': 0.0384, 'grad_norm': 0.818178117275238, 'learning_rate': 2.4957e-05, 'epoch': 54.05}
{'loss': 0.0323, 'grad_norm': 0.6884257197380066, 'learning_rate': 2.4959999999999998e-05, 'epoch': 54.05}
{'loss': 0.018, 'grad_norm': 0.5714384317398071, 'learning_rate': 2.4962999999999998e-05, 'epoch': 54.06}
{'loss': 0.024, 'grad_norm': 0.7587859034538269, 'learning_rate': 2.4966e-05, 'epoch': 54.06}
{'loss': 0.0161, 'grad_norm': 0.5428839325904846, 'learning_rate': 2.4969e-05, 'epoch': 54.07}
{'loss': 0.0158, 'grad_norm': 0.7501628994941711, 'learning_rate': 2.4972e-05, 'epoch': 54.08}
{'loss': 0.0176, 'grad_norm': 0.8745840191841125, 'learning_rate': 2.4975e-05, 'epoch': 54.08}
{'loss': 0.0221, 'grad_norm': 1.503183364868164, 'learning_rate': 2.4978e-05, 'epoch': 54.09}
{'loss': 0.0195, 'grad_norm': 0.3953208327293396, 'learning_rate': 2.4981e-05, 'epoch': 54.1}
{'loss': 0.0153, 'grad_norm': 0.6633824706077576, 'learning_rate': 2.4984e-05, 'epoch': 54.1}
{'loss': 0.0265, 'grad_norm': 0.6767112612724304, 'learning_rate': 2.4987e-05, 'epoch': 54.11}
{'loss': 0.025, 'grad_norm': 0.8862568140029907, 'learning_rate': 2.499e-05, 'epoch': 54.12}
{'loss': 0.0174, 'grad_norm': 1.1532737016677856, 'learning_rate': 2.4993e-05, 'epoch': 54.12}
{'loss': 0.0145, 'grad_norm': 1.1454685926437378, 'learning_rate': 2.4996000000000003e-05, 'epoch': 54.13}
{'loss': 0.0087, 'grad_norm': 0.4493553936481476, 'learning_rate': 2.4999000000000002e-05, 'epoch': 54.14}
{'loss': 0.0145, 'grad_norm': 0.7011358737945557, 'learning_rate': 2.5002000000000002e-05, 'epoch': 54.14}
{'loss': 0.0153, 'grad_norm': 0.38091835379600525, 'learning_rate': 2.5005000000000002e-05, 'epoch': 54.15}
{'loss': 0.0153, 'grad_norm': 0.7853702902793884, 'learning_rate': 2.5008000000000002e-05, 'epoch': 54.16}
{'loss': 0.0069, 'grad_norm': 0.6018696427345276, 'learning_rate': 2.5011e-05, 'epoch': 54.16}
{'loss': 0.0136, 'grad_norm': 1.0498512983322144, 'learning_rate': 2.5014e-05, 'epoch': 54.17}
{'loss': 0.0062, 'grad_norm': 0.7720135450363159, 'learning_rate': 2.5017e-05, 'epoch': 54.18}
{'loss': 0.0046, 'grad_norm': 0.4180584251880646, 'learning_rate': 2.502e-05, 'epoch': 54.18}
{'loss': 0.0138, 'grad_norm': 0.7028398513793945, 'learning_rate': 2.5023e-05, 'epoch': 54.19}
{'loss': 0.0121, 'grad_norm': 0.7376348376274109, 'learning_rate': 2.5026e-05, 'epoch': 54.19}
{'loss': 0.0099, 'grad_norm': 0.6436176896095276, 'learning_rate': 2.5029e-05, 'epoch': 54.2}
{'loss': 0.0381, 'grad_norm': 1.0279231071472168, 'learning_rate': 2.5032e-05, 'epoch': 54.21}
{'loss': 0.0189, 'grad_norm': 0.7047038674354553, 'learning_rate': 2.5035e-05, 'epoch': 54.21}
{'loss': 0.0019, 'grad_norm': 0.14612546563148499, 'learning_rate': 2.5038e-05, 'epoch': 54.22}
{'loss': 0.0147, 'grad_norm': 1.287196397781372, 'learning_rate': 2.5041e-05, 'epoch': 54.23}
{'loss': 0.0245, 'grad_norm': 4.5390214920043945, 'learning_rate': 2.5044e-05, 'epoch': 54.23}
{'loss': 0.0295, 'grad_norm': 1.49889075756073, 'learning_rate': 2.5047e-05, 'epoch': 54.24}
{'loss': 0.0127, 'grad_norm': 0.6989672780036926, 'learning_rate': 2.505e-05, 'epoch': 54.25}
{'loss': 0.109, 'grad_norm': 0.8670871257781982, 'learning_rate': 2.5053e-05, 'epoch': 54.25}
{'loss': 0.0755, 'grad_norm': 0.6140865087509155, 'learning_rate': 2.5056000000000002e-05, 'epoch': 54.26}
{'loss': 0.0649, 'grad_norm': 0.7091186046600342, 'learning_rate': 2.5059000000000002e-05, 'epoch': 54.27}
{'loss': 0.0461, 'grad_norm': 0.49152278900146484, 'learning_rate': 2.5062e-05, 'epoch': 54.27}
{'loss': 0.0477, 'grad_norm': 0.4642481803894043, 'learning_rate': 2.5065e-05, 'epoch': 54.28}
{'loss': 0.031, 'grad_norm': 0.46220824122428894, 'learning_rate': 2.5068e-05, 'epoch': 54.29}
{'loss': 0.0454, 'grad_norm': 0.7521990537643433, 'learning_rate': 2.5071e-05, 'epoch': 54.29}
{'loss': 0.0283, 'grad_norm': 0.6243072748184204, 'learning_rate': 2.5074e-05, 'epoch': 54.3}
{'loss': 0.0342, 'grad_norm': 0.8864762187004089, 'learning_rate': 2.5077e-05, 'epoch': 54.31}
{'loss': 0.0504, 'grad_norm': 0.9460402727127075, 'learning_rate': 2.508e-05, 'epoch': 54.31}
{'loss': 0.0283, 'grad_norm': 0.6634421944618225, 'learning_rate': 2.5083e-05, 'epoch': 54.32}
{'loss': 0.0197, 'grad_norm': 0.5694945454597473, 'learning_rate': 2.5086000000000003e-05, 'epoch': 54.32}
{'loss': 0.0267, 'grad_norm': 0.740810215473175, 'learning_rate': 2.5089000000000003e-05, 'epoch': 54.33}
{'loss': 0.0163, 'grad_norm': 0.43614017963409424, 'learning_rate': 2.5092000000000003e-05, 'epoch': 54.34}
{'loss': 0.0132, 'grad_norm': 0.42415979504585266, 'learning_rate': 2.5095000000000003e-05, 'epoch': 54.34}
{'loss': 0.0185, 'grad_norm': 0.7955679297447205, 'learning_rate': 2.5098000000000003e-05, 'epoch': 54.35}
{'loss': 0.0174, 'grad_norm': 0.761079728603363, 'learning_rate': 2.5101e-05, 'epoch': 54.36}
{'loss': 0.0394, 'grad_norm': 1.646545171737671, 'learning_rate': 2.5104e-05, 'epoch': 54.36}
{'loss': 0.0209, 'grad_norm': 0.8146466612815857, 'learning_rate': 2.5107e-05, 'epoch': 54.37}
{'loss': 0.0217, 'grad_norm': 0.6727401614189148, 'learning_rate': 2.511e-05, 'epoch': 54.38}
{'loss': 0.0141, 'grad_norm': 0.5680493712425232, 'learning_rate': 2.5112999999999998e-05, 'epoch': 54.38}
{'loss': 0.0107, 'grad_norm': 0.7901730537414551, 'learning_rate': 2.5116e-05, 'epoch': 54.39}
{'loss': 0.0089, 'grad_norm': 1.0637586116790771, 'learning_rate': 2.5119e-05, 'epoch': 54.4}
{'loss': 0.0143, 'grad_norm': 0.4461449384689331, 'learning_rate': 2.5122e-05, 'epoch': 54.4}
{'loss': 0.0062, 'grad_norm': 0.5850365161895752, 'learning_rate': 2.5125e-05, 'epoch': 54.41}
{'loss': 0.0208, 'grad_norm': 1.207187294960022, 'learning_rate': 2.5128e-05, 'epoch': 54.42}
{'loss': 0.0122, 'grad_norm': 0.8888070583343506, 'learning_rate': 2.5131e-05, 'epoch': 54.42}
{'loss': 0.0524, 'grad_norm': 2.1000170707702637, 'learning_rate': 2.5134e-05, 'epoch': 54.43}
{'loss': 0.0077, 'grad_norm': 0.4556381404399872, 'learning_rate': 2.5137e-05, 'epoch': 54.44}
{'loss': 0.0131, 'grad_norm': 1.2577457427978516, 'learning_rate': 2.514e-05, 'epoch': 54.44}
{'loss': 0.0063, 'grad_norm': 0.56230229139328, 'learning_rate': 2.5143e-05, 'epoch': 54.45}
{'loss': 0.0095, 'grad_norm': 0.5406215190887451, 'learning_rate': 2.5146e-05, 'epoch': 54.45}
{'loss': 0.0089, 'grad_norm': 0.7278375625610352, 'learning_rate': 2.5149000000000003e-05, 'epoch': 54.46}
{'loss': 0.0169, 'grad_norm': 1.0976186990737915, 'learning_rate': 2.5152000000000002e-05, 'epoch': 54.47}
{'loss': 0.0086, 'grad_norm': 0.9232262372970581, 'learning_rate': 2.5155000000000002e-05, 'epoch': 54.47}
{'loss': 0.0179, 'grad_norm': 1.0081342458724976, 'learning_rate': 2.5158000000000002e-05, 'epoch': 54.48}
{'loss': 0.0051, 'grad_norm': 0.5778641700744629, 'learning_rate': 2.5161000000000002e-05, 'epoch': 54.49}
{'loss': 0.0214, 'grad_norm': 0.9443079233169556, 'learning_rate': 2.5164e-05, 'epoch': 54.49}
{'loss': 0.1138, 'grad_norm': 1.5233420133590698, 'learning_rate': 2.5167e-05, 'epoch': 54.5}
{'loss': 0.0697, 'grad_norm': 0.6754326224327087, 'learning_rate': 2.517e-05, 'epoch': 54.51}
{'loss': 0.0685, 'grad_norm': 0.6946467757225037, 'learning_rate': 2.5172999999999998e-05, 'epoch': 54.51}
{'loss': 0.0505, 'grad_norm': 0.9704127311706543, 'learning_rate': 2.5175999999999997e-05, 'epoch': 54.52}
{'loss': 0.0436, 'grad_norm': 0.5599063634872437, 'learning_rate': 2.5179e-05, 'epoch': 54.53}
{'loss': 0.0314, 'grad_norm': 0.5684065222740173, 'learning_rate': 2.5182e-05, 'epoch': 54.53}
{'loss': 0.0281, 'grad_norm': 0.3981505036354065, 'learning_rate': 2.5185e-05, 'epoch': 54.54}
  8%|▊         | 8400/100000 [5:04:48<86:10:28,  3.39s/it]  8%|▊         | 8401/100000 [5:04:50<78:00:03,  3.07s/it]                                                            8%|▊         | 8401/100000 [5:04:50<78:00:03,  3.07s/it]  8%|▊         | 8402/100000 [5:04:52<70:56:19,  2.79s/it]                                                            8%|▊         | 8402/100000 [5:04:52<70:56:19,  2.79s/it]  8%|▊         | 8403/100000 [5:04:54<64:41:32,  2.54s/it]                                                            8%|▊         | 8403/100000 [5:04:54<64:41:32,  2.54s/it]  8%|▊         | 8404/100000 [5:04:56<59:15:52,  2.33s/it]                                                            8%|▊         | 8404/100000 [5:04:56<59:15:52,  2.33s/it]  8%|▊         | 8405/100000 [5:04:58<54:41:16,  2.15s/it]                                                            8%|▊         | 8405/100000 [5:04:58<54:41:16,  2.15s/it]  8%|▊         | 8406/100000 [5:05:00<50:45:56,  2.00s/it]                                                            8%|▊         | 8406/100000 [5:05:00<50:45:56,  2.00s/it]  8%|▊         | 8407/100000 [5:05:01<47:20:30,  1.86s/it]                                                            8%|▊         | 8407/100000 [5:05:01<47:20:30,  1.86s/it]  8%|▊         | 8408/100000 [5:05:03<44:06:08,  1.73s/it]                                                            8%|▊         | 8408/100000 [5:05:03<44:06:08,  1.73s/it]  8%|▊         | 8409/100000 [5:05:04<41:34:24,  1.63s/it]                                                            8%|▊         | 8409/100000 [5:05:04<41:34:24,  1.63s/it]  8%|▊         | 8410/100000 [5:05:05<38:48:31,  1.53s/it]                                                            8%|▊         | 8410/100000 [5:05:05<38:48:31,  1.53s/it]  8%|▊         | 8411/100000 [5:05:07<36:49:55,  1.45s/it]                                                            8%|▊         | 8411/100000 [5:05:07<36:49:55,  1.45s/it]  8%|▊         | 8412/100000 [5:05:08<34:43:57,  1.37s/it]                                                            8%|▊         | 8412/100000 [5:05:08<34:43:57,  1.37s/it]  8%|▊         | 8413/100000 [5:05:09<32:43:02,  1.29s/it]                                                            8%|▊         | 8413/100000 [5:05:09<32:43:02,  1.29s/it]  8%|▊         | 8414/100000 [5:05:10<31:05:08,  1.22s/it]                                                            8%|▊         | 8414/100000 [5:05:10<31:05:08,  1.22s/it]  8%|▊         | 8415/100000 [5:05:11<29:30:04,  1.16s/it]                                                            8%|▊         | 8415/100000 [5:05:11<29:30:04,  1.16s/it]  8%|▊         | 8416/100000 [5:05:12<27:53:20,  1.10s/it]                                                            8%|▊         | 8416/100000 [5:05:12<27:53:20,  1.10s/it]  8%|▊         | 8417/100000 [5:05:13<27:00:01,  1.06s/it]                                                            8%|▊         | 8417/100000 [5:05:13<27:00:01,  1.06s/it]  8%|▊         | 8418/100000 [5:05:14<25:52:07,  1.02s/it]                                                            8%|▊         | 8418/100000 [5:05:14<25:52:07,  1.02s/it]  8%|▊         | 8419/100000 [5:05:15<24:44:35,  1.03it/s]                                                            8%|▊         | 8419/100000 [5:05:15<24:44:35,  1.03it/s]  8%|▊         | 8420/100000 [5:05:15<23:38:30,  1.08it/s]                                                            8%|▊         | 8420/100000 [5:05:15<23:38:30,  1.08it/s]  8%|▊         | 8421/100000 [5:05:16<22:49:10,  1.11it/s]                                                            8%|▊         | 8421/100000 [5:05:16<22:49:10,  1.11it/s]  8%|▊         | 8422/100000 [5:05:17<22:19:58,  1.14it/s]                                                            8%|▊         | 8422/100000 [5:05:17<22:19:58,  1.14it/s]  8%|▊         | 8423/100000 [5:05:18<21:51:29,  1.16it/s]                                                            8%|▊         | 8423/100000 [5:05:18<21:51:29,  1.16it/s]  8%|▊         | 8424/100000 [5:05:19<21:43:04,  1.17it/s]                                                            8%|▊         | 8424/100000 [5:05:19<21:43:04,  1.17it/s]  8%|▊         | 8425/100000 [5:05:20<20:52:40,  1.22it/s]                                                            8%|▊         | 8425/100000 [5:05:20<20:52:40,  1.22it/s]  8%|▊         | 8426/100000 [5:05:20<20:33:37,  1.24it/s]                                                            8%|▊         | 8426/100000 [5:05:20<20:33:37,  1.24it/s]  8%|▊         | 8427/100000 [5:05:21<20:20:44,  1.25it/s]                                                            8%|▊         | 8427/100000 [5:05:21<20:20:44,  1.25it/s]  8%|▊         | 8428/100000 [5:05:22<19:03:09,  1.34it/s]                                                            8%|▊         | 8428/100000 [5:05:22<19:03:09,  1.34it/s]  8%|▊         | 8429/100000 [5:05:22<17:58:59,  1.41it/s]                                                            8%|▊         | 8429/100000 [5:05:22<17:58:59,  1.41it/s]  8%|▊         | 8430/100000 [5:05:23<17:32:44,  1.45it/s]                                                            8%|▊         | 8430/100000 [5:05:23<17:32:44,  1.45it/s]  8%|▊         | 8431/100000 [5:05:36<110:40:43,  4.35s/it]                                                             8%|▊         | 8431/100000 [5:05:36<110:40:43,  4.35s/it]  8%|▊         | 8432/100000 [5:05:43<133:52:24,  5.26s/it]                                                             8%|▊         | 8432/100000 [5:05:43<133:52:24,  5.26s/it]  8%|▊         | 8433/100000 [5:05:49<134:09:55,  5.27s/it]                                                             8%|▊         | 8433/100000 [5:05:49<134:09:55,  5.27s/it]  8%|▊         | 8434/100000 [5:05:53<127:43:31,  5.02s/it]                                                             8%|▊         | 8434/100000 [5:05:53<127:43:31,  5.02s/it]  8%|▊         | 8435/100000 [5:05:57<118:51:31,  4.67s/it]                                                             8%|▊         | 8435/100000 [5:05:57<118:51:31,  4.67s/it]  8%|▊         | 8436/100000 [5:06:00<109:06:43,  4.29s/it]                                                             8%|▊         | 8436/100000 [5:06:00<109:06:43,  4.29s/it]  8%|▊         | 8437/100000 [5:06:03<98:24:06,  3.87s/it]                                                             8%|▊         | 8437/100000 [5:06:03<98:24:06,  3.87s/it]  8%|▊         | 8438/100000 [5:06:06<88:18:47,  3.47s/it]                                                            8%|▊         | 8438/100000 [5:06:06<88:18:47,  3.47s/it]  8%|▊         | 8439/100000 [5:06:08<79:18:55,  3.12s/it]                                                            8%|▊         | 8439/100000 [5:06:08<79:18:55,  3.12s/it]  8%|▊         | 8440/100000 [5:06:10<71:19:06,  2.80s/it]                                                            8%|▊         | 8440/100000 [5:06:10<71:19:06,  2.80s/it]  8%|▊         | 8441/100000 [5:06:12<64:54:20,  2.55s/it]                                                            8%|▊         | 8441/100000 [5:06:12<64:54:20,  2.55s/it]  8%|▊         | 8442/100000 [5:06:14<59:06:15,  2.32s/it]                                                            8%|▊         | 8442/100000 [5:06:14<59:06:15,  2.32s/it]  8%|▊         | 8443/100000 [5:06:15<53:57:08,  2.12s/it]                                                            8%|▊         | 8443/100000 [5:06:15<53:57:08,  2.12s/it]  8%|▊         | 8444/100000 [5:06:17<50:04:13,  1.97s/it]                                                            8%|▊         | 8444/100000 [5:06:17<50:04:13,  1.97s/it]  8%|▊         | 8445/100000 [5:06:19<47:00:08,  1.85s/it]                                                            8%|▊         | 8445/100000 [5:06:19<47:00:08,  1.85s/it]  8%|▊         | 8446/100000 [5:06:20<43:48:05,  1.72s/it]                                                            8%|▊         | 8446/100000 [5:06:20<43:48:05,  1.72s/it]  8%|▊         | 8447/100000 [5:06:21<41:31:30,  1.63s/it]                                                            8%|▊         | 8447/100000 [5:06:21<41:31:30,  1.63s/it]  8%|▊         | 8448/100000 [5:06:23<39:13:26,  1.54s/it]                                                            8%|▊         | 8448/100000 [5:06:23<39:13:26,  1.54s/it]  8%|▊         | 8449/100000 [5:06:24<36:55:04,  1.45s/it]                                                            8%|▊         | 8449/100000 [5:06:24<36:55:04,  1.45s/it]  8%|▊         | 8450/100000 [5:06:25<35:05:09,  1.38s/it]                                                            8%|▊         | 8450/100000 [5:06:25<35:05:09,  1.38s/it]  8%|▊         | 8451/100000 [5:06:26<33:25:50,  1.31s/it]                                                            8%|▊         | 8451/100000 [5:06:26<33:25:50,  1.31s/it]  8%|▊         | 8452/100000 [5:06:28<31:51:49,  1.25s/it]                                                            8%|▊         | 8452/100000 [5:06:28<31:51:49,  1.25s/it]  8%|▊         | 8453/100000 [5:06:29<30:15:57,  1.19s/it]                                                            8%|▊         | 8453/100000 [5:06:29<30:15:57,  1.19s/it]  8%|▊         | 8454/100000 [5:06:30<28:51:56,  1.14s/it]                                                            8%|▊         | 8454/100000 [5:06:30<28:51:56,  1.14s/it]  8%|▊         | 8455/100000 [5:06:30<27:13:17,  1.07s/it]                                                            8%|▊         | 8455/100000 [5:06:31<27:13:17,  1.07s/it]  8%|▊         | 8456/100000 [5:06:31<26:07:41,  1.03s/it]                                                            8%|▊         | 8456/100000 [5:06:31<26:07:41,  1.03s/it]  8%|▊         | 8457/100000 [5:06:32<25:26:49,  1.00s/it]                                                            8%|▊         | 8457/100000 [5:06:32<25:26:49,  1.00s/it]  8%|▊         | 8458/100000 [5:06:33<24:41:01,  1.03it/s]                                                            8%|▊         | 8458/100000 [5:06:33<24:41:01,  1.03it/s]  8%|▊         | 8459/100000 [5:06:34<23:31:13,  1.08it/s]                                                            8%|▊         | 8459/100000 [5:06:34<23:31:13,  1.08it/s]  8%|▊         | 8460/100000 [5:06:35<22:26:10,  1.13it/s]                                                            8%|▊         | 8460/100000 [5:06:35<22:26:10,  1.13it/s]  8%|▊         | 8461/100000 [5:06:36<21:51:49,  1.16it/s]                                                            8%|▊         | 8461/100000 [5:06:36<21:51:49,  1.16it/s]  8%|▊         | 8462/100000 [5:06:36<21:23:41,  1.19it/s]                                                            8%|▊         | 8462/100000 [5:06:36<21:23:41,  1.19it/s]  8%|▊         | 8463/100000 [5:06:37<21:05:29,  1.21it/s]                                                            8%|▊         | 8463/100000 [5:06:37<21:05:29,  1.21it/s]  8%|▊         | 8464/100000 [5:06:38<19:57:22,  1.27it/s]                                                            8%|▊         | 8464/100000 [5:06:38<19:57:22,  1.27it/s]  8%|▊         | 8465/100000 [5:06:39<19:33:28,  1.30it/s]                                                            8%|▊         | 8465/100000 [5:06:39<19:33:28,  1.30it/s]  8%|▊         | 8466/100000 [5:06:39<18:45:29,  1.36it/s]                                                            8%|▊         | 8466/100000 [5:06:39<18:45:29,  1.36it/s]  8%|▊         | 8467/100000 [5:06:40<17:47:37,  1.43it/s]                                                            8%|▊         | 8467/100000 [5:06:40<17:47:37,  1.43it/s]  8%|▊         | 8468/100000 [5:06:41<16:55:21,  1.50it/s]                                                            8%|▊         | 8468/100000 [5:06:41<16:55:21,  1.50it/s]  8%|▊         | 8469/100000 [5:06:49<74:23:38,  2.93s/it]                                                            8%|▊         | 8469/100000 [5:06:49<74:23:38,  2.93s/it]  8%|▊         | 8470/100000 [5:06:50<62:35:02,  2.46s/it]                                                            8%|▊         | 8470/100000 [5:06:50<62:35:02,  2.46s/it]{'loss': 0.0312, 'grad_norm': 0.49963948130607605, 'learning_rate': 2.5188e-05, 'epoch': 54.55}
{'loss': 0.0342, 'grad_norm': 0.6206725239753723, 'learning_rate': 2.5191e-05, 'epoch': 54.55}
{'loss': 0.0185, 'grad_norm': 0.5012489557266235, 'learning_rate': 2.5194e-05, 'epoch': 54.56}
{'loss': 0.0181, 'grad_norm': 0.6982083916664124, 'learning_rate': 2.5197e-05, 'epoch': 54.56}
{'loss': 0.0298, 'grad_norm': 0.6310738325119019, 'learning_rate': 2.52e-05, 'epoch': 54.57}
{'loss': 0.0164, 'grad_norm': 0.4721934497356415, 'learning_rate': 2.5203e-05, 'epoch': 54.58}
{'loss': 0.0125, 'grad_norm': 0.6629128456115723, 'learning_rate': 2.5206e-05, 'epoch': 54.58}
{'loss': 0.0163, 'grad_norm': 0.5286962389945984, 'learning_rate': 2.5209000000000002e-05, 'epoch': 54.59}
{'loss': 0.0192, 'grad_norm': 0.49514368176460266, 'learning_rate': 2.5212000000000002e-05, 'epoch': 54.6}
{'loss': 0.0255, 'grad_norm': 0.9527934193611145, 'learning_rate': 2.5215e-05, 'epoch': 54.6}
{'loss': 0.0151, 'grad_norm': 0.48402950167655945, 'learning_rate': 2.5218e-05, 'epoch': 54.61}
{'loss': 0.0077, 'grad_norm': 0.2615624666213989, 'learning_rate': 2.5221e-05, 'epoch': 54.62}
{'loss': 0.0226, 'grad_norm': 0.8354614973068237, 'learning_rate': 2.5224e-05, 'epoch': 54.62}
{'loss': 0.0118, 'grad_norm': 0.4427894353866577, 'learning_rate': 2.5227e-05, 'epoch': 54.63}
{'loss': 0.0217, 'grad_norm': 0.9080418348312378, 'learning_rate': 2.523e-05, 'epoch': 54.64}
{'loss': 0.0309, 'grad_norm': 1.193536639213562, 'learning_rate': 2.5233e-05, 'epoch': 54.64}
{'loss': 0.023, 'grad_norm': 0.9042842388153076, 'learning_rate': 2.5236e-05, 'epoch': 54.65}
{'loss': 0.0071, 'grad_norm': 0.3788817822933197, 'learning_rate': 2.5239000000000003e-05, 'epoch': 54.66}
{'loss': 0.0067, 'grad_norm': 0.32904621958732605, 'learning_rate': 2.5242000000000003e-05, 'epoch': 54.66}
{'loss': 0.0482, 'grad_norm': 1.2992535829544067, 'learning_rate': 2.5245000000000003e-05, 'epoch': 54.67}
{'loss': 0.0556, 'grad_norm': 1.2866902351379395, 'learning_rate': 2.5248e-05, 'epoch': 54.68}
{'loss': 0.0454, 'grad_norm': 0.7169643640518188, 'learning_rate': 2.5251e-05, 'epoch': 54.68}
{'loss': 0.0096, 'grad_norm': 0.5932412147521973, 'learning_rate': 2.5254e-05, 'epoch': 54.69}
{'loss': 0.0097, 'grad_norm': 0.8769442439079285, 'learning_rate': 2.5257e-05, 'epoch': 54.69}
{'loss': 0.0145, 'grad_norm': 1.8946731090545654, 'learning_rate': 2.526e-05, 'epoch': 54.7}
{'loss': 0.0098, 'grad_norm': 0.8609272241592407, 'learning_rate': 2.5263e-05, 'epoch': 54.71}
{'loss': 0.0187, 'grad_norm': 1.0217952728271484, 'learning_rate': 2.5266e-05, 'epoch': 54.71}
{'loss': 0.0161, 'grad_norm': 1.6793633699417114, 'learning_rate': 2.5269e-05, 'epoch': 54.72}
{'loss': 0.0372, 'grad_norm': 1.242098093032837, 'learning_rate': 2.5272e-05, 'epoch': 54.73}
{'loss': 0.0674, 'grad_norm': 3.230943202972412, 'learning_rate': 2.5275e-05, 'epoch': 54.73}
{'loss': 0.0281, 'grad_norm': 1.1191986799240112, 'learning_rate': 2.5278e-05, 'epoch': 54.74}
{'loss': 0.116, 'grad_norm': 0.9484768509864807, 'learning_rate': 2.5281e-05, 'epoch': 54.75}
{'loss': 0.0938, 'grad_norm': 3.0080819129943848, 'learning_rate': 2.5284e-05, 'epoch': 54.75}
{'loss': 0.0537, 'grad_norm': 0.529762327671051, 'learning_rate': 2.5287e-05, 'epoch': 54.76}
{'loss': 0.0552, 'grad_norm': 0.5390300750732422, 'learning_rate': 2.529e-05, 'epoch': 54.77}
{'loss': 0.0504, 'grad_norm': 0.7058410048484802, 'learning_rate': 2.5293e-05, 'epoch': 54.77}
{'loss': 0.0318, 'grad_norm': 0.5299239158630371, 'learning_rate': 2.5296e-05, 'epoch': 54.78}
{'loss': 0.0513, 'grad_norm': 0.6642476916313171, 'learning_rate': 2.5299000000000003e-05, 'epoch': 54.79}
{'loss': 0.0306, 'grad_norm': 0.6885585188865662, 'learning_rate': 2.5302000000000003e-05, 'epoch': 54.79}
{'loss': 0.0488, 'grad_norm': 0.7614700198173523, 'learning_rate': 2.5305000000000003e-05, 'epoch': 54.8}
{'loss': 0.0256, 'grad_norm': 0.5621205568313599, 'learning_rate': 2.5308000000000002e-05, 'epoch': 54.81}
{'loss': 0.0206, 'grad_norm': 0.4652096927165985, 'learning_rate': 2.5311000000000002e-05, 'epoch': 54.81}
{'loss': 0.0229, 'grad_norm': 0.5037287473678589, 'learning_rate': 2.5314000000000002e-05, 'epoch': 54.82}
{'loss': 0.0303, 'grad_norm': 0.7479549050331116, 'learning_rate': 2.5317000000000002e-05, 'epoch': 54.82}
{'loss': 0.0249, 'grad_norm': 0.6368118524551392, 'learning_rate': 2.5319999999999998e-05, 'epoch': 54.83}
{'loss': 0.0165, 'grad_norm': 0.9067639112472534, 'learning_rate': 2.5322999999999998e-05, 'epoch': 54.84}
{'loss': 0.0625, 'grad_norm': 0.6869015097618103, 'learning_rate': 2.5325999999999998e-05, 'epoch': 54.84}
{'loss': 0.0104, 'grad_norm': 0.45835959911346436, 'learning_rate': 2.5329e-05, 'epoch': 54.85}
{'loss': 0.0169, 'grad_norm': 0.8347742557525635, 'learning_rate': 2.5332e-05, 'epoch': 54.86}
{'loss': 0.0156, 'grad_norm': 0.5840649604797363, 'learning_rate': 2.5335e-05, 'epoch': 54.86}
{'loss': 0.0169, 'grad_norm': 0.627406895160675, 'learning_rate': 2.5338e-05, 'epoch': 54.87}
{'loss': 0.0217, 'grad_norm': 0.5312653183937073, 'learning_rate': 2.5341e-05, 'epoch': 54.88}
{'loss': 0.0358, 'grad_norm': 1.793805480003357, 'learning_rate': 2.5344e-05, 'epoch': 54.88}
{'loss': 0.013, 'grad_norm': 0.6888132095336914, 'learning_rate': 2.5347e-05, 'epoch': 54.89}
{'loss': 0.0107, 'grad_norm': 0.5716010332107544, 'learning_rate': 2.535e-05, 'epoch': 54.9}
{'loss': 0.0123, 'grad_norm': 0.5815815329551697, 'learning_rate': 2.5353e-05, 'epoch': 54.9}
{'loss': 0.0095, 'grad_norm': 0.47199922800064087, 'learning_rate': 2.5356e-05, 'epoch': 54.91}
{'loss': 0.0095, 'grad_norm': 0.44562244415283203, 'learning_rate': 2.5359000000000002e-05, 'epoch': 54.92}
{'loss': 0.0121, 'grad_norm': 0.6136189103126526, 'learning_rate': 2.5362000000000002e-05, 'epoch': 54.92}
{'loss': 0.0207, 'grad_norm': 1.7966748476028442, 'learning_rate': 2.5365000000000002e-05, 'epoch': 54.93}
{'loss': 0.0168, 'grad_norm': 0.6527115702629089, 'learning_rate': 2.5368000000000002e-05, 'epoch': 54.94}
{'loss': 0.0065, 'grad_norm': 0.4192926585674286, 'learning_rate': 2.5371e-05, 'epoch': 54.94}
{'loss': 0.0551, 'grad_norm': 1.1155320405960083, 'learning_rate': 2.5374e-05, 'epoch': 54.95}
{'loss': 0.0038, 'grad_norm': 0.2639077305793762, 'learning_rate': 2.5377e-05, 'epoch': 54.95}
{'loss': 0.0075, 'grad_norm': 0.5677832961082458, 'learning_rate': 2.538e-05, 'epoch': 54.96}
{'loss': 0.0093, 'grad_norm': 0.8814823627471924, 'learning_rate': 2.5383e-05, 'epoch': 54.97}
{'loss': 0.0024, 'grad_norm': 0.1960117518901825, 'learning_rate': 2.5386e-05, 'epoch': 54.97}
{'loss': 0.0422, 'grad_norm': 4.159732341766357, 'learning_rate': 2.5389000000000004e-05, 'epoch': 54.98}
{'loss': 0.0746, 'grad_norm': 1.8000283241271973, 'learning_rate': 2.5392000000000004e-05, 'epoch': 54.99}
{'loss': 0.0351, 'grad_norm': 0.7528501749038696, 'learning_rate': 2.5395e-05, 'epoch': 54.99}
{'loss': 0.0151, 'grad_norm': 0.7421210408210754, 'learning_rate': 2.5398e-05, 'epoch': 55.0}
  8%|▊         | 8471/100000 [5:07:07<175:32:42,  6.90s/it]                                                             8%|▊         | 8471/100000 [5:07:07<175:32:42,  6.90s/it]  8%|▊         | 8472/100000 [5:07:15<180:50:27,  7.11s/it]                                                             8%|▊         | 8472/100000 [5:07:15<180:50:27,  7.11s/it]  8%|▊         | 8473/100000 [5:07:20<168:26:41,  6.63s/it]                                                             8%|▊         | 8473/100000 [5:07:20<168:26:41,  6.63s/it]  8%|▊         | 8474/100000 [5:07:25<153:38:42,  6.04s/it]                                                             8%|▊         | 8474/100000 [5:07:25<153:38:42,  6.04s/it]  8%|▊         | 8475/100000 [5:07:29<138:17:49,  5.44s/it]                                                             8%|▊         | 8475/100000 [5:07:29<138:17:49,  5.44s/it]  8%|▊         | 8476/100000 [5:07:33<123:59:10,  4.88s/it]                                                             8%|▊         | 8476/100000 [5:07:33<123:59:10,  4.88s/it]  8%|▊         | 8477/100000 [5:07:36<110:14:25,  4.34s/it]                                                             8%|▊         | 8477/100000 [5:07:36<110:14:25,  4.34s/it]  8%|▊         | 8478/100000 [5:07:38<97:15:46,  3.83s/it]                                                             8%|▊         | 8478/100000 [5:07:38<97:15:46,  3.83s/it]  8%|▊         | 8479/100000 [5:07:41<85:43:00,  3.37s/it]                                                            8%|▊         | 8479/100000 [5:07:41<85:43:00,  3.37s/it]  8%|▊         | 8480/100000 [5:07:43<75:34:56,  2.97s/it]                                                            8%|▊         | 8480/100000 [5:07:43<75:34:56,  2.97s/it]  8%|▊         | 8481/100000 [5:07:45<67:56:52,  2.67s/it]                                                            8%|▊         | 8481/100000 [5:07:45<67:56:52,  2.67s/it]  8%|▊         | 8482/100000 [5:07:47<61:36:14,  2.42s/it]                                                            8%|▊         | 8482/100000 [5:07:47<61:36:14,  2.42s/it]  8%|▊         | 8483/100000 [5:07:48<55:51:26,  2.20s/it]                                                            8%|▊         | 8483/100000 [5:07:48<55:51:26,  2.20s/it]  8%|▊         | 8484/100000 [5:07:50<51:36:38,  2.03s/it]                                                            8%|▊         | 8484/100000 [5:07:50<51:36:38,  2.03s/it]  8%|▊         | 8485/100000 [5:07:52<48:21:09,  1.90s/it]                                                            8%|▊         | 8485/100000 [5:07:52<48:21:09,  1.90s/it]  8%|▊         | 8486/100000 [5:07:53<44:48:52,  1.76s/it]                                                            8%|▊         | 8486/100000 [5:07:53<44:48:52,  1.76s/it]  8%|▊         | 8487/100000 [5:07:54<42:13:13,  1.66s/it]                                                            8%|▊         | 8487/100000 [5:07:54<42:13:13,  1.66s/it]  8%|▊         | 8488/100000 [5:07:56<39:40:15,  1.56s/it]                                                            8%|▊         | 8488/100000 [5:07:56<39:40:15,  1.56s/it]  8%|▊         | 8489/100000 [5:07:57<37:23:48,  1.47s/it]                                                            8%|▊         | 8489/100000 [5:07:57<37:23:48,  1.47s/it]  8%|▊         | 8490/100000 [5:07:58<35:44:33,  1.41s/it]                                                            8%|▊         | 8490/100000 [5:07:58<35:44:33,  1.41s/it]  8%|▊         | 8491/100000 [5:07:59<33:59:14,  1.34s/it]                                                            8%|▊         | 8491/100000 [5:07:59<33:59:14,  1.34s/it]  8%|▊         | 8492/100000 [5:08:01<32:07:08,  1.26s/it]                                                            8%|▊         | 8492/100000 [5:08:01<32:07:08,  1.26s/it]  8%|▊         | 8493/100000 [5:08:02<30:34:09,  1.20s/it]                                                            8%|▊         | 8493/100000 [5:08:02<30:34:09,  1.20s/it]  8%|▊         | 8494/100000 [5:08:03<29:17:30,  1.15s/it]                                                            8%|▊         | 8494/100000 [5:08:03<29:17:30,  1.15s/it]  8%|▊         | 8495/100000 [5:08:04<27:54:52,  1.10s/it]                                                            8%|▊         | 8495/100000 [5:08:04<27:54:52,  1.10s/it]  8%|▊         | 8496/100000 [5:08:05<26:58:30,  1.06s/it]                                                            8%|▊         | 8496/100000 [5:08:05<26:58:30,  1.06s/it]  8%|▊         | 8497/100000 [5:08:05<25:57:50,  1.02s/it]                                                            8%|▊         | 8497/100000 [5:08:06<25:57:50,  1.02s/it]  8%|▊         | 8498/100000 [5:08:06<25:01:44,  1.02it/s]                                                            8%|▊         | 8498/100000 [5:08:06<25:01:44,  1.02it/s]  8%|▊         | 8499/100000 [5:08:07<24:28:02,  1.04it/s]                                                            8%|▊         | 8499/100000 [5:08:07<24:28:02,  1.04it/s]  8%|▊         | 8500/100000 [5:08:08<24:04:51,  1.06it/s]                                                            8%|▊         | 8500/100000 [5:08:08<24:04:51,  1.06it/s]  9%|▊         | 8501/100000 [5:08:09<23:11:32,  1.10it/s]                                                            9%|▊         | 8501/100000 [5:08:09<23:11:32,  1.10it/s]  9%|▊         | 8502/100000 [5:08:10<22:23:15,  1.14it/s]                                                            9%|▊         | 8502/100000 [5:08:10<22:23:15,  1.14it/s]  9%|▊         | 8503/100000 [5:08:11<21:51:12,  1.16it/s]                                                            9%|▊         | 8503/100000 [5:08:11<21:51:12,  1.16it/s]  9%|▊         | 8504/100000 [5:08:11<21:18:39,  1.19it/s]                                                            9%|▊         | 8504/100000 [5:08:11<21:18:39,  1.19it/s]  9%|▊         | 8505/100000 [5:08:12<21:25:04,  1.19it/s]                                                            9%|▊         | 8505/100000 [5:08:12<21:25:04,  1.19it/s]  9%|▊         | 8506/100000 [5:08:13<20:44:34,  1.23it/s]                                                            9%|▊         | 8506/100000 [5:08:13<20:44:34,  1.23it/s]  9%|▊         | 8507/100000 [5:08:14<20:10:50,  1.26it/s]                                                            9%|▊         | 8507/100000 [5:08:14<20:10:50,  1.26it/s]  9%|▊         | 8508/100000 [5:08:15<19:39:51,  1.29it/s]                                                            9%|▊         | 8508/100000 [5:08:15<19:39:51,  1.29it/s]  9%|▊         | 8509/100000 [5:08:28<114:34:26,  4.51s/it]                                                             9%|▊         | 8509/100000 [5:08:28<114:34:26,  4.51s/it]  9%|▊         | 8510/100000 [5:08:36<141:18:45,  5.56s/it]                                                             9%|▊         | 8510/100000 [5:08:36<141:18:45,  5.56s/it]  9%|▊         | 8511/100000 [5:08:41<140:29:33,  5.53s/it]                                                             9%|▊         | 8511/100000 [5:08:41<140:29:33,  5.53s/it]  9%|▊         | 8512/100000 [5:08:46<133:34:59,  5.26s/it]                                                             9%|▊         | 8512/100000 [5:08:46<133:34:59,  5.26s/it]  9%|▊         | 8513/100000 [5:08:50<124:49:33,  4.91s/it]                                                             9%|▊         | 8513/100000 [5:08:50<124:49:33,  4.91s/it]  9%|▊         | 8514/100000 [5:08:53<113:51:54,  4.48s/it]                                                             9%|▊         | 8514/100000 [5:08:53<113:51:54,  4.48s/it]  9%|▊         | 8515/100000 [5:08:57<103:22:35,  4.07s/it]                                                             9%|▊         | 8515/100000 [5:08:57<103:22:35,  4.07s/it]  9%|▊         | 8516/100000 [5:08:59<92:07:36,  3.63s/it]                                                             9%|▊         | 8516/100000 [5:08:59<92:07:36,  3.63s/it]  9%|▊         | 8517/100000 [5:09:02<82:50:31,  3.26s/it]                                                            9%|▊         | 8517/100000 [5:09:02<82:50:31,  3.26s/it]  9%|▊         | 8518/100000 [5:09:04<74:54:39,  2.95s/it]                                                            9%|▊         | 8518/100000 [5:09:04<74:54:39,  2.95s/it]  9%|▊         | 8519/100000 [5:09:06<67:51:18,  2.67s/it]                                                            9%|▊         | 8519/100000 [5:09:06<67:51:18,  2.67s/it]  9%|▊         | 8520/100000 [5:09:08<61:51:11,  2.43s/it]                                                            9%|▊         | 8520/100000 [5:09:08<61:51:11,  2.43s/it]  9%|▊         | 8521/100000 [5:09:09<56:43:47,  2.23s/it]                                                            9%|▊         | 8521/100000 [5:09:09<56:43:47,  2.23s/it]  9%|▊         | 8522/100000 [5:09:11<52:33:11,  2.07s/it]                                                            9%|▊         | 8522/100000 [5:09:11<52:33:11,  2.07s/it]  9%|▊         | 8523/100000 [5:09:13<48:39:29,  1.91s/it]                                                            9%|▊         | 8523/100000 [5:09:13<48:39:29,  1.91s/it]  9%|▊         | 8524/100000 [5:09:14<45:27:23,  1.79s/it]                                                            9%|▊         | 8524/100000 [5:09:14<45:27:23,  1.79s/it]  9%|▊         | 8525/100000 [5:09:16<42:39:27,  1.68s/it]                                                            9%|▊         | 8525/100000 [5:09:16<42:39:27,  1.68s/it]  9%|▊         | 8526/100000 [5:09:17<39:50:54,  1.57s/it]                                                            9%|▊         | 8526/100000 [5:09:17<39:50:54,  1.57s/it]  9%|▊         | 8527/100000 [5:09:18<37:42:21,  1.48s/it]                                                            9%|▊         | 8527/100000 [5:09:18<37:42:21,  1.48s/it]  9%|▊         | 8528/100000 [5:09:19<35:56:46,  1.41s/it]                                                            9%|▊         | 8528/100000 [5:09:19<35:56:46,  1.41s/it]  9%|▊         | 8529/100000 [5:09:21<34:09:26,  1.34s/it]                                                            9%|▊         | 8529/100000 [5:09:21<34:09:26,  1.34s/it]  9%|▊         | 8530/100000 [5:09:22<32:05:46,  1.26s/it]                                                            9%|▊         | 8530/100000 [5:09:22<32:05:46,  1.26s/it]  9%|▊         | 8531/100000 [5:09:23<30:38:30,  1.21s/it]                                                            9%|▊         | 8531/100000 [5:09:23<30:38:30,  1.21s/it]  9%|▊         | 8532/100000 [5:09:24<29:18:45,  1.15s/it]                                                            9%|▊         | 8532/100000 [5:09:24<29:18:45,  1.15s/it]  9%|▊         | 8533/100000 [5:09:25<28:07:59,  1.11s/it]                                                            9%|▊         | 8533/100000 [5:09:25<28:07:59,  1.11s/it]  9%|▊         | 8534/100000 [5:09:26<26:58:07,  1.06s/it]                                                            9%|▊         | 8534/100000 [5:09:26<26:58:07,  1.06s/it]  9%|▊         | 8535/100000 [5:09:27<26:15:26,  1.03s/it]                                                            9%|▊         | 8535/100000 [5:09:27<26:15:26,  1.03s/it]  9%|▊         | 8536/100000 [5:09:28<25:33:51,  1.01s/it]                                                            9%|▊         | 8536/100000 [5:09:28<25:33:51,  1.01s/it]  9%|▊         | 8537/100000 [5:09:29<24:39:47,  1.03it/s]                                                            9%|▊         | 8537/100000 [5:09:29<24:39:47,  1.03it/s]  9%|▊         | 8538/100000 [5:09:29<23:41:04,  1.07it/s]                                                            9%|▊         | 8538/100000 [5:09:29<23:41:04,  1.07it/s]  9%|▊         | 8539/100000 [5:09:30<23:01:10,  1.10it/s]                                                            9%|▊         | 8539/100000 [5:09:30<23:01:10,  1.10it/s]  9%|▊         | 8540/100000 [5:09:31<22:23:55,  1.13it/s]                                                            9%|▊         | 8540/100000 [5:09:31<22:23:55,  1.13it/s]  9%|▊         | 8541/100000 [5:09:32<21:48:13,  1.17it/s]                                                            9%|▊         | 8541/100000 [5:09:32<21:48:13,  1.17it/s]  9%|▊         | 8542/100000 [5:09:33<22:04:20,  1.15it/s]                                                            9%|▊         | 8542/100000 [5:09:33<22:04:20,  1.15it/s]  9%|▊         | 8543/100000 [5:09:33<21:03:27,  1.21it/s]                                                            9%|▊         | 8543/100000 [5:09:33<21:03:27,  1.21it/s]  9%|▊         | 8544/100000 [5:09:34<20:33:17,  1.24it/s]                                                            9%|▊         | 8544/100000 [5:09:34<20:33:17,  1.24it/s]  9%|▊         | 8545/100000 [5:09:35<19:56:23,  1.27it/s]                                                            9%|▊         | 8545/100000 [5:09:35<19:56:23,  1.27it/s]  9%|▊         | 8546/100000 [5:09:36<19:15:09,  1.32it/s]                                                            9%|▊         | 8546/100000 [5:09:36<19:15:09,  1.32it/s]  9%|▊         | 8547/100000 [5:09:48<105:35:42,  4.16s/it]                                                             9%|▊         | 8547/100000 [5:09:48<105:35:42,  4.16s/it]  9%|▊         | 8548/100000 [5:09:56<135:25:34,  5.33s/it]                                                             9%|▊         | 8548/100000 [5:09:56<135:25:34,  5.33s/it]  9%|▊         | 8549/100000 [5:10:01<137:00:21,  5.39s/it]                                                             9%|▊         | 8549/100000 [5:10:01<137:00:21,  5.39s/it]  9%|▊         | 8550/100000 [5:10:06<131:47:22,  5.19s/it]                                                             9%|▊         | 8550/100000 [5:10:06<131:47:22,  5.19s/it]  9%|▊         | 8551/100000 [5:10:10<123:14:47,  4.85s/it]                                                             9%|▊         | 8551/100000 [5:10:10<123:14:47,  4.85s/it]  9%|▊         | 8552/100000 [5:10:14<113:01:58,  4.45s/it]                                                             9%|▊         | 8552/100000 [5:10:14<113:01:58,  4.45s/it]  9%|▊         | 8553/100000 [5:10:17<101:54:38,  4.01s/it]                                                             9%|▊         | 8553/100000 [5:10:17<101:54:38,  4.01s/it]  9%|▊         | 8554/100000 [5:10:19<91:06:10,  3.59s/it]                                                           {'loss': 0.1057, 'grad_norm': 1.3832844495773315, 'learning_rate': 2.5401e-05, 'epoch': 55.01}
{'loss': 0.0672, 'grad_norm': 0.6561842560768127, 'learning_rate': 2.5404e-05, 'epoch': 55.01}
{'loss': 0.0581, 'grad_norm': 0.8594436645507812, 'learning_rate': 2.5407e-05, 'epoch': 55.02}
{'loss': 0.0435, 'grad_norm': 0.5680339932441711, 'learning_rate': 2.541e-05, 'epoch': 55.03}
{'loss': 0.0289, 'grad_norm': 0.37848007678985596, 'learning_rate': 2.5413e-05, 'epoch': 55.03}
{'loss': 0.024, 'grad_norm': 0.6981774568557739, 'learning_rate': 2.5416e-05, 'epoch': 55.04}
{'loss': 0.0234, 'grad_norm': 0.3863540291786194, 'learning_rate': 2.5419000000000002e-05, 'epoch': 55.05}
{'loss': 0.0294, 'grad_norm': 0.43991950154304504, 'learning_rate': 2.5422e-05, 'epoch': 55.05}
{'loss': 0.0386, 'grad_norm': 0.5634133815765381, 'learning_rate': 2.5425e-05, 'epoch': 55.06}
{'loss': 0.0206, 'grad_norm': 0.6977635025978088, 'learning_rate': 2.5428e-05, 'epoch': 55.06}
{'loss': 0.0118, 'grad_norm': 0.6744689345359802, 'learning_rate': 2.5431e-05, 'epoch': 55.07}
{'loss': 0.0098, 'grad_norm': 0.30028778314590454, 'learning_rate': 2.5434e-05, 'epoch': 55.08}
{'loss': 0.0223, 'grad_norm': 0.5761619210243225, 'learning_rate': 2.5437e-05, 'epoch': 55.08}
{'loss': 0.0113, 'grad_norm': 0.33568596839904785, 'learning_rate': 2.544e-05, 'epoch': 55.09}
{'loss': 0.0174, 'grad_norm': 0.4316405951976776, 'learning_rate': 2.5443e-05, 'epoch': 55.1}
{'loss': 0.0147, 'grad_norm': 0.47206199169158936, 'learning_rate': 2.5446e-05, 'epoch': 55.1}
{'loss': 0.0105, 'grad_norm': 0.5288814306259155, 'learning_rate': 2.5449000000000003e-05, 'epoch': 55.11}
{'loss': 0.0117, 'grad_norm': 0.7363091707229614, 'learning_rate': 2.5452000000000003e-05, 'epoch': 55.12}
{'loss': 0.0128, 'grad_norm': 0.6376668214797974, 'learning_rate': 2.5455000000000003e-05, 'epoch': 55.12}
{'loss': 0.0141, 'grad_norm': 1.5045645236968994, 'learning_rate': 2.5458000000000003e-05, 'epoch': 55.13}
{'loss': 0.0094, 'grad_norm': 0.3305223882198334, 'learning_rate': 2.5461000000000002e-05, 'epoch': 55.14}
{'loss': 0.0063, 'grad_norm': 0.4573926329612732, 'learning_rate': 2.5464000000000002e-05, 'epoch': 55.14}
{'loss': 0.0096, 'grad_norm': 0.9333510994911194, 'learning_rate': 2.5467e-05, 'epoch': 55.15}
{'loss': 0.0198, 'grad_norm': 0.5436280369758606, 'learning_rate': 2.547e-05, 'epoch': 55.16}
{'loss': 0.0127, 'grad_norm': 0.7590431571006775, 'learning_rate': 2.5472999999999998e-05, 'epoch': 55.16}
{'loss': 0.0096, 'grad_norm': 0.4472278654575348, 'learning_rate': 2.5475999999999998e-05, 'epoch': 55.17}
{'loss': 0.0361, 'grad_norm': 0.5762173533439636, 'learning_rate': 2.5479e-05, 'epoch': 55.18}
{'loss': 0.0063, 'grad_norm': 0.3582073748111725, 'learning_rate': 2.5482e-05, 'epoch': 55.18}
{'loss': 0.0462, 'grad_norm': 1.1293586492538452, 'learning_rate': 2.5485e-05, 'epoch': 55.19}
{'loss': 0.009, 'grad_norm': 0.9672886729240417, 'learning_rate': 2.5488e-05, 'epoch': 55.19}
{'loss': 0.0073, 'grad_norm': 1.0146445035934448, 'learning_rate': 2.5491e-05, 'epoch': 55.2}
{'loss': 0.0045, 'grad_norm': 0.5268258452415466, 'learning_rate': 2.5494e-05, 'epoch': 55.21}
{'loss': 0.0112, 'grad_norm': 0.6914583444595337, 'learning_rate': 2.5497e-05, 'epoch': 55.21}
{'loss': 0.0038, 'grad_norm': 0.3715069591999054, 'learning_rate': 2.55e-05, 'epoch': 55.22}
{'loss': 0.0034, 'grad_norm': 0.5824124217033386, 'learning_rate': 2.5503e-05, 'epoch': 55.23}
{'loss': 0.021, 'grad_norm': 1.0947611331939697, 'learning_rate': 2.5506e-05, 'epoch': 55.23}
{'loss': 0.0091, 'grad_norm': 0.5368781089782715, 'learning_rate': 2.5509e-05, 'epoch': 55.24}
{'loss': 0.0132, 'grad_norm': 0.5045387744903564, 'learning_rate': 2.5512000000000002e-05, 'epoch': 55.25}
{'loss': 0.089, 'grad_norm': 0.7376561164855957, 'learning_rate': 2.5515000000000002e-05, 'epoch': 55.25}
{'loss': 0.0771, 'grad_norm': 0.8539137840270996, 'learning_rate': 2.5518000000000002e-05, 'epoch': 55.26}
{'loss': 0.05, 'grad_norm': 0.530421257019043, 'learning_rate': 2.5521000000000002e-05, 'epoch': 55.27}
{'loss': 0.0407, 'grad_norm': 0.4056093990802765, 'learning_rate': 2.5524e-05, 'epoch': 55.27}
{'loss': 0.0369, 'grad_norm': 0.4338408410549164, 'learning_rate': 2.5527e-05, 'epoch': 55.28}
{'loss': 0.0267, 'grad_norm': 0.39493781328201294, 'learning_rate': 2.553e-05, 'epoch': 55.29}
{'loss': 0.0291, 'grad_norm': 0.5518216490745544, 'learning_rate': 2.5533e-05, 'epoch': 55.29}
{'loss': 0.0198, 'grad_norm': 0.364695280790329, 'learning_rate': 2.5536e-05, 'epoch': 55.3}
{'loss': 0.0174, 'grad_norm': 0.6158806681632996, 'learning_rate': 2.5539e-05, 'epoch': 55.31}
{'loss': 0.0247, 'grad_norm': 0.46461063623428345, 'learning_rate': 2.5542e-05, 'epoch': 55.31}
{'loss': 0.0238, 'grad_norm': 0.5652477741241455, 'learning_rate': 2.5545e-05, 'epoch': 55.32}
{'loss': 0.0101, 'grad_norm': 0.40310773253440857, 'learning_rate': 2.5548e-05, 'epoch': 55.32}
{'loss': 0.0576, 'grad_norm': 1.6831930875778198, 'learning_rate': 2.5551e-05, 'epoch': 55.33}
{'loss': 0.0146, 'grad_norm': 0.43465501070022583, 'learning_rate': 2.5554e-05, 'epoch': 55.34}
{'loss': 0.0098, 'grad_norm': 0.47036802768707275, 'learning_rate': 2.5557e-05, 'epoch': 55.34}
{'loss': 0.0102, 'grad_norm': 0.4881124496459961, 'learning_rate': 2.556e-05, 'epoch': 55.35}
{'loss': 0.0153, 'grad_norm': 0.7139782309532166, 'learning_rate': 2.5563e-05, 'epoch': 55.36}
{'loss': 0.0329, 'grad_norm': 1.1029466390609741, 'learning_rate': 2.5566e-05, 'epoch': 55.36}
{'loss': 0.0175, 'grad_norm': 0.5284827947616577, 'learning_rate': 2.5569e-05, 'epoch': 55.37}
{'loss': 0.0251, 'grad_norm': 0.7734081149101257, 'learning_rate': 2.5572000000000002e-05, 'epoch': 55.38}
{'loss': 0.016, 'grad_norm': 0.8956934213638306, 'learning_rate': 2.5575e-05, 'epoch': 55.38}
{'loss': 0.0099, 'grad_norm': 0.5966949462890625, 'learning_rate': 2.5578e-05, 'epoch': 55.39}
{'loss': 0.0045, 'grad_norm': 0.4008689522743225, 'learning_rate': 2.5581e-05, 'epoch': 55.4}
{'loss': 0.0106, 'grad_norm': 0.419437438249588, 'learning_rate': 2.5584e-05, 'epoch': 55.4}
{'loss': 0.0118, 'grad_norm': 0.6839075684547424, 'learning_rate': 2.5587e-05, 'epoch': 55.41}
{'loss': 0.0092, 'grad_norm': 0.7142062783241272, 'learning_rate': 2.559e-05, 'epoch': 55.42}
{'loss': 0.0406, 'grad_norm': 8.205182075500488, 'learning_rate': 2.5593e-05, 'epoch': 55.42}
{'loss': 0.0121, 'grad_norm': 1.6723779439926147, 'learning_rate': 2.5596e-05, 'epoch': 55.43}
{'loss': 0.0559, 'grad_norm': 0.6135571002960205, 'learning_rate': 2.5599e-05, 'epoch': 55.44}
{'loss': 0.0071, 'grad_norm': 0.736522912979126, 'learning_rate': 2.5602000000000003e-05, 'epoch': 55.44}
{'loss': 0.0144, 'grad_norm': 1.5534512996673584, 'learning_rate': 2.5605000000000003e-05, 'epoch': 55.45}
{'loss': 0.0901, 'grad_norm': 2.812795639038086, 'learning_rate': 2.5608000000000003e-05, 'epoch': 55.45}
{'loss': 0.0147, 'grad_norm': 1.258985996246338, 'learning_rate': 2.5611000000000003e-05, 'epoch': 55.46}
{'loss': 0.0225, 'grad_norm': 1.7128556966781616, 'learning_rate': 2.5614000000000002e-05, 'epoch': 55.47}
{'loss': 0.0266, 'grad_norm': 2.0558621883392334, 'learning_rate': 2.5617e-05, 'epoch': 55.47}
{'loss': 0.0097, 'grad_norm': 0.6183123588562012, 'learning_rate': 2.562e-05, 'epoch': 55.48}
{'loss': 0.0153, 'grad_norm': 1.09636390209198, 'learning_rate': 2.5623e-05, 'epoch': 55.49}
{'loss': 0.0395, 'grad_norm': 1.0490384101867676, 'learning_rate': 2.5625999999999998e-05, 'epoch': 55.49}
{'loss': 0.1209, 'grad_norm': 1.2049882411956787, 'learning_rate': 2.5628999999999998e-05, 'epoch': 55.5}
{'loss': 0.0648, 'grad_norm': 0.8029406070709229, 'learning_rate': 2.5632e-05, 'epoch': 55.51}
{'loss': 0.071, 'grad_norm': 0.7528201341629028, 'learning_rate': 2.5635e-05, 'epoch': 55.51}
{'loss': 0.0434, 'grad_norm': 0.572022557258606, 'learning_rate': 2.5638e-05, 'epoch': 55.52}
{'loss': 0.0483, 'grad_norm': 0.8233655691146851, 'learning_rate': 2.5641e-05, 'epoch': 55.53}
{'loss': 0.0319, 'grad_norm': 0.7804155349731445, 'learning_rate': 2.5644e-05, 'epoch': 55.53}
{'loss': 0.0371, 'grad_norm': 0.5694950222969055, 'learning_rate': 2.5647e-05, 'epoch': 55.54}
  9%|▊         | 8554/100000 [5:10:19<91:06:10,  3.59s/it]  9%|▊         | 8555/100000 [5:10:22<81:58:26,  3.23s/it]                                                            9%|▊         | 8555/100000 [5:10:22<81:58:26,  3.23s/it]  9%|▊         | 8556/100000 [5:10:24<74:11:03,  2.92s/it]                                                            9%|▊         | 8556/100000 [5:10:24<74:11:03,  2.92s/it]  9%|▊         | 8557/100000 [5:10:26<66:42:48,  2.63s/it]                                                            9%|▊         | 8557/100000 [5:10:26<66:42:48,  2.63s/it]  9%|▊         | 8558/100000 [5:10:28<60:27:52,  2.38s/it]                                                            9%|▊         | 8558/100000 [5:10:28<60:27:52,  2.38s/it]  9%|▊         | 8559/100000 [5:10:29<55:27:27,  2.18s/it]                                                            9%|▊         | 8559/100000 [5:10:29<55:27:27,  2.18s/it]  9%|▊         | 8560/100000 [5:10:31<51:04:33,  2.01s/it]                                                            9%|▊         | 8560/100000 [5:10:31<51:04:33,  2.01s/it]  9%|▊         | 8561/100000 [5:10:32<47:36:52,  1.87s/it]                                                            9%|▊         | 8561/100000 [5:10:32<47:36:52,  1.87s/it]  9%|▊         | 8562/100000 [5:10:34<44:07:29,  1.74s/it]                                                            9%|▊         | 8562/100000 [5:10:34<44:07:29,  1.74s/it]  9%|▊         | 8563/100000 [5:10:35<41:06:05,  1.62s/it]                                                            9%|▊         | 8563/100000 [5:10:35<41:06:05,  1.62s/it]  9%|▊         | 8564/100000 [5:10:37<39:02:59,  1.54s/it]                                                            9%|▊         | 8564/100000 [5:10:37<39:02:59,  1.54s/it]  9%|▊         | 8565/100000 [5:10:38<37:04:17,  1.46s/it]                                                            9%|▊         | 8565/100000 [5:10:38<37:04:17,  1.46s/it]  9%|▊         | 8566/100000 [5:10:39<35:09:31,  1.38s/it]                                                            9%|▊         | 8566/100000 [5:10:39<35:09:31,  1.38s/it]  9%|▊         | 8567/100000 [5:10:40<33:15:28,  1.31s/it]                                                            9%|▊         | 8567/100000 [5:10:40<33:15:28,  1.31s/it]  9%|▊         | 8568/100000 [5:10:41<31:31:29,  1.24s/it]                                                            9%|▊         | 8568/100000 [5:10:41<31:31:29,  1.24s/it]  9%|▊         | 8569/100000 [5:10:42<29:37:13,  1.17s/it]                                                            9%|▊         | 8569/100000 [5:10:42<29:37:13,  1.17s/it]  9%|▊         | 8570/100000 [5:10:43<28:22:24,  1.12s/it]                                                            9%|▊         | 8570/100000 [5:10:43<28:22:24,  1.12s/it]  9%|▊         | 8571/100000 [5:10:44<27:00:37,  1.06s/it]                                                            9%|▊         | 8571/100000 [5:10:44<27:00:37,  1.06s/it]  9%|▊         | 8572/100000 [5:10:45<26:04:07,  1.03s/it]                                                            9%|▊         | 8572/100000 [5:10:45<26:04:07,  1.03s/it]  9%|▊         | 8573/100000 [5:10:46<25:14:12,  1.01it/s]                                                            9%|▊         | 8573/100000 [5:10:46<25:14:12,  1.01it/s]  9%|▊         | 8574/100000 [5:10:47<24:26:21,  1.04it/s]                                                            9%|▊         | 8574/100000 [5:10:47<24:26:21,  1.04it/s]  9%|▊         | 8575/100000 [5:10:48<23:32:19,  1.08it/s]                                                            9%|▊         | 8575/100000 [5:10:48<23:32:19,  1.08it/s]  9%|▊         | 8576/100000 [5:10:49<23:07:59,  1.10it/s]                                                            9%|▊         | 8576/100000 [5:10:49<23:07:59,  1.10it/s]  9%|▊         | 8577/100000 [5:10:50<22:47:25,  1.11it/s]                                                            9%|▊         | 8577/100000 [5:10:50<22:47:25,  1.11it/s]  9%|▊         | 8578/100000 [5:10:50<22:08:42,  1.15it/s]                                                            9%|▊         | 8578/100000 [5:10:50<22:08:42,  1.15it/s]  9%|▊         | 8579/100000 [5:10:51<21:27:41,  1.18it/s]                                                            9%|▊         | 8579/100000 [5:10:51<21:27:41,  1.18it/s]  9%|▊         | 8580/100000 [5:10:52<20:52:47,  1.22it/s]                                                            9%|▊         | 8580/100000 [5:10:52<20:52:47,  1.22it/s]  9%|▊         | 8581/100000 [5:10:53<20:26:43,  1.24it/s]                                                            9%|▊         | 8581/100000 [5:10:53<20:26:43,  1.24it/s]  9%|▊         | 8582/100000 [5:10:53<19:59:14,  1.27it/s]                                                            9%|▊         | 8582/100000 [5:10:53<19:59:14,  1.27it/s]  9%|▊         | 8583/100000 [5:10:54<20:03:31,  1.27it/s]                                                            9%|▊         | 8583/100000 [5:10:54<20:03:31,  1.27it/s]  9%|▊         | 8584/100000 [5:10:55<19:57:23,  1.27it/s]                                                            9%|▊         | 8584/100000 [5:10:55<19:57:23,  1.27it/s]  9%|▊         | 8585/100000 [5:11:08<114:41:57,  4.52s/it]                                                             9%|▊         | 8585/100000 [5:11:08<114:41:57,  4.52s/it]  9%|▊         | 8586/100000 [5:11:16<141:36:27,  5.58s/it]                                                             9%|▊         | 8586/100000 [5:11:16<141:36:27,  5.58s/it]  9%|▊         | 8587/100000 [5:11:22<141:34:21,  5.58s/it]                                                             9%|▊         | 8587/100000 [5:11:22<141:34:21,  5.58s/it]  9%|▊         | 8588/100000 [5:11:26<131:24:17,  5.18s/it]                                                             9%|▊         | 8588/100000 [5:11:26<131:24:17,  5.18s/it]  9%|▊         | 8589/100000 [5:11:30<121:22:06,  4.78s/it]                                                             9%|▊         | 8589/100000 [5:11:30<121:22:06,  4.78s/it]  9%|▊         | 8590/100000 [5:11:33<110:31:24,  4.35s/it]                                                             9%|▊         | 8590/100000 [5:11:33<110:31:24,  4.35s/it]  9%|▊         | 8591/100000 [5:11:36<99:20:40,  3.91s/it]                                                             9%|▊         | 8591/100000 [5:11:36<99:20:40,  3.91s/it]  9%|▊         | 8592/100000 [5:11:39<88:50:08,  3.50s/it]                                                            9%|▊         | 8592/100000 [5:11:39<88:50:08,  3.50s/it]  9%|▊         | 8593/100000 [5:11:41<79:23:36,  3.13s/it]                                                            9%|▊         | 8593/100000 [5:11:41<79:23:36,  3.13s/it]  9%|▊         | 8594/100000 [5:11:43<71:14:09,  2.81s/it]                                                            9%|▊         | 8594/100000 [5:11:43<71:14:09,  2.81s/it]  9%|▊         | 8595/100000 [5:11:45<63:57:10,  2.52s/it]                                                            9%|▊         | 8595/100000 [5:11:45<63:57:10,  2.52s/it]  9%|▊         | 8596/100000 [5:11:47<58:21:58,  2.30s/it]                                                            9%|▊         | 8596/100000 [5:11:47<58:21:58,  2.30s/it]  9%|▊         | 8597/100000 [5:11:48<53:16:37,  2.10s/it]                                                            9%|▊         | 8597/100000 [5:11:48<53:16:37,  2.10s/it]  9%|▊         | 8598/100000 [5:11:50<49:40:06,  1.96s/it]                                                            9%|▊         | 8598/100000 [5:11:50<49:40:06,  1.96s/it]  9%|▊         | 8599/100000 [5:11:51<45:56:15,  1.81s/it]                                                            9%|▊         | 8599/100000 [5:11:51<45:56:15,  1.81s/it]  9%|▊         | 8600/100000 [5:11:53<43:01:37,  1.69s/it]                                                            9%|▊         | 8600/100000 [5:11:53<43:01:37,  1.69s/it]  9%|▊         | 8601/100000 [5:11:54<40:34:21,  1.60s/it]                                                            9%|▊         | 8601/100000 [5:11:54<40:34:21,  1.60s/it]  9%|▊         | 8602/100000 [5:11:55<38:08:06,  1.50s/it]                                                            9%|▊         | 8602/100000 [5:11:55<38:08:06,  1.50s/it]  9%|▊         | 8603/100000 [5:11:57<36:16:19,  1.43s/it]                                                            9%|▊         | 8603/100000 [5:11:57<36:16:19,  1.43s/it]  9%|▊         | 8604/100000 [5:11:58<34:27:21,  1.36s/it]                                                            9%|▊         | 8604/100000 [5:11:58<34:27:21,  1.36s/it]  9%|▊         | 8605/100000 [5:11:59<32:48:37,  1.29s/it]                                                            9%|▊         | 8605/100000 [5:11:59<32:48:37,  1.29s/it]  9%|▊         | 8606/100000 [5:12:00<31:21:25,  1.24s/it]                                                            9%|▊         | 8606/100000 [5:12:00<31:21:25,  1.24s/it]  9%|▊         | 8607/100000 [5:12:01<29:49:35,  1.17s/it]                                                            9%|▊         | 8607/100000 [5:12:01<29:49:35,  1.17s/it]  9%|▊         | 8608/100000 [5:12:02<28:27:09,  1.12s/it]                                                            9%|▊         | 8608/100000 [5:12:02<28:27:09,  1.12s/it]  9%|▊         | 8609/100000 [5:12:03<27:06:58,  1.07s/it]                                                            9%|▊         | 8609/100000 [5:12:03<27:06:58,  1.07s/it]  9%|▊         | 8610/100000 [5:12:04<26:15:00,  1.03s/it]                                                            9%|▊         | 8610/100000 [5:12:04<26:15:00,  1.03s/it]  9%|▊         | 8611/100000 [5:12:05<25:14:08,  1.01it/s]                                                            9%|▊         | 8611/100000 [5:12:05<25:14:08,  1.01it/s]  9%|▊         | 8612/100000 [5:12:06<24:32:59,  1.03it/s]                                                            9%|▊         | 8612/100000 [5:12:06<24:32:59,  1.03it/s]  9%|▊         | 8613/100000 [5:12:07<23:50:07,  1.07it/s]                                                            9%|▊         | 8613/100000 [5:12:07<23:50:07,  1.07it/s]  9%|▊         | 8614/100000 [5:12:08<23:10:53,  1.10it/s]                                                            9%|▊         | 8614/100000 [5:12:08<23:10:53,  1.10it/s]  9%|▊         | 8615/100000 [5:12:08<22:29:21,  1.13it/s]                                                            9%|▊         | 8615/100000 [5:12:08<22:29:21,  1.13it/s]  9%|▊         | 8616/100000 [5:12:09<21:48:33,  1.16it/s]                                                            9%|▊         | 8616/100000 [5:12:09<21:48:33,  1.16it/s]  9%|▊         | 8617/100000 [5:12:10<21:20:19,  1.19it/s]                                                            9%|▊         | 8617/100000 [5:12:10<21:20:19,  1.19it/s]  9%|▊         | 8618/100000 [5:12:11<21:10:12,  1.20it/s]                                                            9%|▊         | 8618/100000 [5:12:11<21:10:12,  1.20it/s]  9%|▊         | 8619/100000 [5:12:12<20:46:06,  1.22it/s]                                                            9%|▊         | 8619/100000 [5:12:12<20:46:06,  1.22it/s]  9%|▊         | 8620/100000 [5:12:12<20:06:43,  1.26it/s]                                                            9%|▊         | 8620/100000 [5:12:12<20:06:43,  1.26it/s]  9%|▊         | 8621/100000 [5:12:13<19:28:28,  1.30it/s]                                                            9%|▊         | 8621/100000 [5:12:13<19:28:28,  1.30it/s]  9%|▊         | 8622/100000 [5:12:14<19:03:18,  1.33it/s]                                                            9%|▊         | 8622/100000 [5:12:14<19:03:18,  1.33it/s]  9%|▊         | 8623/100000 [5:12:21<66:09:45,  2.61s/it]                                                            9%|▊         | 8623/100000 [5:12:21<66:09:45,  2.61s/it]  9%|▊         | 8624/100000 [5:12:22<57:19:23,  2.26s/it]                                                            9%|▊         | 8624/100000 [5:12:22<57:19:23,  2.26s/it]{'loss': 0.0241, 'grad_norm': 0.44972720742225647, 'learning_rate': 2.565e-05, 'epoch': 55.55}
{'loss': 0.0447, 'grad_norm': 1.9912605285644531, 'learning_rate': 2.5653e-05, 'epoch': 55.55}
{'loss': 0.0293, 'grad_norm': 0.470516562461853, 'learning_rate': 2.5656e-05, 'epoch': 55.56}
{'loss': 0.0322, 'grad_norm': 0.6548928618431091, 'learning_rate': 2.5659e-05, 'epoch': 55.56}
{'loss': 0.0278, 'grad_norm': 0.5600460767745972, 'learning_rate': 2.5662000000000003e-05, 'epoch': 55.57}
{'loss': 0.0146, 'grad_norm': 0.5873297452926636, 'learning_rate': 2.5665000000000002e-05, 'epoch': 55.58}
{'loss': 0.0273, 'grad_norm': 0.5981171131134033, 'learning_rate': 2.5668000000000002e-05, 'epoch': 55.58}
{'loss': 0.0143, 'grad_norm': 0.4452972114086151, 'learning_rate': 2.5671000000000002e-05, 'epoch': 55.59}
{'loss': 0.0171, 'grad_norm': 0.7964209318161011, 'learning_rate': 2.5674000000000002e-05, 'epoch': 55.6}
{'loss': 0.0147, 'grad_norm': 0.6205999255180359, 'learning_rate': 2.5677e-05, 'epoch': 55.6}
{'loss': 0.0182, 'grad_norm': 0.6992273330688477, 'learning_rate': 2.568e-05, 'epoch': 55.61}
{'loss': 0.0185, 'grad_norm': 1.1365089416503906, 'learning_rate': 2.5683e-05, 'epoch': 55.62}
{'loss': 0.0178, 'grad_norm': 0.8479490280151367, 'learning_rate': 2.5686e-05, 'epoch': 55.62}
{'loss': 0.0195, 'grad_norm': 0.7898946404457092, 'learning_rate': 2.5688999999999997e-05, 'epoch': 55.63}
{'loss': 0.0105, 'grad_norm': 0.46111446619033813, 'learning_rate': 2.5692e-05, 'epoch': 55.64}
{'loss': 0.0054, 'grad_norm': 0.324879914522171, 'learning_rate': 2.5695e-05, 'epoch': 55.64}
{'loss': 0.0298, 'grad_norm': 1.0135587453842163, 'learning_rate': 2.5698e-05, 'epoch': 55.65}
{'loss': 0.005, 'grad_norm': 0.41364097595214844, 'learning_rate': 2.5701e-05, 'epoch': 55.66}
{'loss': 0.0088, 'grad_norm': 0.5524446964263916, 'learning_rate': 2.5704e-05, 'epoch': 55.66}
{'loss': 0.0139, 'grad_norm': 0.9274213910102844, 'learning_rate': 2.5707e-05, 'epoch': 55.67}
{'loss': 0.0132, 'grad_norm': 1.1828557252883911, 'learning_rate': 2.571e-05, 'epoch': 55.68}
{'loss': 0.016, 'grad_norm': 0.7479880452156067, 'learning_rate': 2.5713e-05, 'epoch': 55.68}
{'loss': 0.0082, 'grad_norm': 0.5619333386421204, 'learning_rate': 2.5716e-05, 'epoch': 55.69}
{'loss': 0.0057, 'grad_norm': 0.4230939447879791, 'learning_rate': 2.5719e-05, 'epoch': 55.69}
{'loss': 0.0123, 'grad_norm': 1.1059447526931763, 'learning_rate': 2.5722000000000002e-05, 'epoch': 55.7}
{'loss': 0.0052, 'grad_norm': 0.37241360545158386, 'learning_rate': 2.5725000000000002e-05, 'epoch': 55.71}
{'loss': 0.03, 'grad_norm': 1.827429175376892, 'learning_rate': 2.5728e-05, 'epoch': 55.71}
{'loss': 0.0045, 'grad_norm': 0.4048207104206085, 'learning_rate': 2.5731e-05, 'epoch': 55.72}
{'loss': 0.0068, 'grad_norm': 0.46425071358680725, 'learning_rate': 2.5734e-05, 'epoch': 55.73}
{'loss': 0.0067, 'grad_norm': 1.0366319417953491, 'learning_rate': 2.5737e-05, 'epoch': 55.73}
{'loss': 0.0569, 'grad_norm': 1.0155584812164307, 'learning_rate': 2.574e-05, 'epoch': 55.74}
{'loss': 0.108, 'grad_norm': 1.0928678512573242, 'learning_rate': 2.5743e-05, 'epoch': 55.75}
{'loss': 0.0755, 'grad_norm': 0.7285892367362976, 'learning_rate': 2.5746e-05, 'epoch': 55.75}
{'loss': 0.0611, 'grad_norm': 0.7840049862861633, 'learning_rate': 2.5749e-05, 'epoch': 55.76}
{'loss': 0.0418, 'grad_norm': 0.49228355288505554, 'learning_rate': 2.5752000000000003e-05, 'epoch': 55.77}
{'loss': 0.0415, 'grad_norm': 0.5787147283554077, 'learning_rate': 2.5755000000000003e-05, 'epoch': 55.77}
{'loss': 0.0275, 'grad_norm': 0.4736388027667999, 'learning_rate': 2.5758000000000003e-05, 'epoch': 55.78}
{'loss': 0.0344, 'grad_norm': 0.6112191081047058, 'learning_rate': 2.5761000000000003e-05, 'epoch': 55.79}
{'loss': 0.0319, 'grad_norm': 0.5885828733444214, 'learning_rate': 2.5764e-05, 'epoch': 55.79}
{'loss': 0.0311, 'grad_norm': 0.9102065563201904, 'learning_rate': 2.5767e-05, 'epoch': 55.8}
{'loss': 0.0234, 'grad_norm': 0.5036226511001587, 'learning_rate': 2.577e-05, 'epoch': 55.81}
{'loss': 0.0174, 'grad_norm': 0.5629022717475891, 'learning_rate': 2.5773e-05, 'epoch': 55.81}
{'loss': 0.0188, 'grad_norm': 0.5931556820869446, 'learning_rate': 2.5776e-05, 'epoch': 55.82}
{'loss': 0.0175, 'grad_norm': 0.487557590007782, 'learning_rate': 2.5779e-05, 'epoch': 55.82}
{'loss': 0.0221, 'grad_norm': 0.5417318344116211, 'learning_rate': 2.5782e-05, 'epoch': 55.83}
{'loss': 0.0122, 'grad_norm': 0.40191271901130676, 'learning_rate': 2.5785e-05, 'epoch': 55.84}
{'loss': 0.061, 'grad_norm': 0.8957288861274719, 'learning_rate': 2.5788e-05, 'epoch': 55.84}
{'loss': 0.0189, 'grad_norm': 0.518517255783081, 'learning_rate': 2.5791e-05, 'epoch': 55.85}
{'loss': 0.0121, 'grad_norm': 0.3904828131198883, 'learning_rate': 2.5794e-05, 'epoch': 55.86}
{'loss': 0.0144, 'grad_norm': 0.4405477046966553, 'learning_rate': 2.5797e-05, 'epoch': 55.86}
{'loss': 0.034, 'grad_norm': 1.2826087474822998, 'learning_rate': 2.58e-05, 'epoch': 55.87}
{'loss': 0.0172, 'grad_norm': 0.6201916933059692, 'learning_rate': 2.5803e-05, 'epoch': 55.88}
{'loss': 0.0104, 'grad_norm': 1.4369831085205078, 'learning_rate': 2.5806e-05, 'epoch': 55.88}
{'loss': 0.0121, 'grad_norm': 0.7292680144309998, 'learning_rate': 2.5809e-05, 'epoch': 55.89}
{'loss': 0.029, 'grad_norm': 1.1468029022216797, 'learning_rate': 2.5812000000000003e-05, 'epoch': 55.9}
{'loss': 0.0093, 'grad_norm': 0.6075692176818848, 'learning_rate': 2.5815000000000003e-05, 'epoch': 55.9}
{'loss': 0.0058, 'grad_norm': 0.3751261532306671, 'learning_rate': 2.5818000000000003e-05, 'epoch': 55.91}
{'loss': 0.0125, 'grad_norm': 0.7054264545440674, 'learning_rate': 2.5821000000000002e-05, 'epoch': 55.92}
{'loss': 0.0174, 'grad_norm': 1.0981334447860718, 'learning_rate': 2.5824000000000002e-05, 'epoch': 55.92}
{'loss': 0.0606, 'grad_norm': 1.3276976346969604, 'learning_rate': 2.5827000000000002e-05, 'epoch': 55.93}
{'loss': 0.0084, 'grad_norm': 0.5598097443580627, 'learning_rate': 2.5830000000000002e-05, 'epoch': 55.94}
{'loss': 0.0246, 'grad_norm': 1.0665569305419922, 'learning_rate': 2.5833e-05, 'epoch': 55.94}
{'loss': 0.0141, 'grad_norm': 1.3298331499099731, 'learning_rate': 2.5835999999999998e-05, 'epoch': 55.95}
{'loss': 0.0142, 'grad_norm': 3.674036741256714, 'learning_rate': 2.5838999999999998e-05, 'epoch': 55.95}
{'loss': 0.0134, 'grad_norm': 0.6716468930244446, 'learning_rate': 2.5842e-05, 'epoch': 55.96}
{'loss': 0.0031, 'grad_norm': 0.3340442478656769, 'learning_rate': 2.5845e-05, 'epoch': 55.97}
{'loss': 0.0443, 'grad_norm': 0.7437348365783691, 'learning_rate': 2.5848e-05, 'epoch': 55.97}
{'loss': 0.0081, 'grad_norm': 0.516200065612793, 'learning_rate': 2.5851e-05, 'epoch': 55.98}
{'loss': 0.0098, 'grad_norm': 0.7919240593910217, 'learning_rate': 2.5854e-05, 'epoch': 55.99}
{'loss': 0.0439, 'grad_norm': 0.7006518840789795, 'learning_rate': 2.5857e-05, 'epoch': 55.99}
{'loss': 0.032, 'grad_norm': 1.0591137409210205, 'learning_rate': 2.586e-05, 'epoch': 56.0}
  9%|▊         | 8625/100000 [5:12:40<175:12:51,  6.90s/it]                                                             9%|▊         | 8625/100000 [5:12:40<175:12:51,  6.90s/it]  9%|▊         | 8626/100000 [5:12:48<185:20:58,  7.30s/it]                                                             9%|▊         | 8626/100000 [5:12:48<185:20:58,  7.30s/it]  9%|▊         | 8627/100000 [5:12:54<172:53:45,  6.81s/it]                                                             9%|▊         | 8627/100000 [5:12:54<172:53:45,  6.81s/it]  9%|▊         | 8628/100000 [5:12:58<156:25:04,  6.16s/it]                                                             9%|▊         | 8628/100000 [5:12:58<156:25:04,  6.16s/it]  9%|▊         | 8629/100000 [5:13:03<141:25:28,  5.57s/it]                                                             9%|▊         | 8629/100000 [5:13:03<141:25:28,  5.57s/it]  9%|▊         | 8630/100000 [5:13:06<126:42:38,  4.99s/it]                                                             9%|▊         | 8630/100000 [5:13:06<126:42:38,  4.99s/it]  9%|▊         | 8631/100000 [5:13:09<112:51:04,  4.45s/it]                                                             9%|▊         | 8631/100000 [5:13:09<112:51:04,  4.45s/it]  9%|▊         | 8632/100000 [5:13:12<99:45:24,  3.93s/it]                                                             9%|▊         | 8632/100000 [5:13:12<99:45:24,  3.93s/it]  9%|▊         | 8633/100000 [5:13:14<87:26:22,  3.45s/it]                                                            9%|▊         | 8633/100000 [5:13:15<87:26:22,  3.45s/it]  9%|▊         | 8634/100000 [5:13:17<77:56:22,  3.07s/it]                                                            9%|▊         | 8634/100000 [5:13:17<77:56:22,  3.07s/it]  9%|▊         | 8635/100000 [5:13:19<69:59:52,  2.76s/it]                                                            9%|▊         | 8635/100000 [5:13:19<69:59:52,  2.76s/it]  9%|▊         | 8636/100000 [5:13:21<63:19:45,  2.50s/it]                                                            9%|▊         | 8636/100000 [5:13:21<63:19:45,  2.50s/it]  9%|▊         | 8637/100000 [5:13:22<57:58:22,  2.28s/it]                                                            9%|▊         | 8637/100000 [5:13:22<57:58:22,  2.28s/it]  9%|▊         | 8638/100000 [5:13:24<53:16:24,  2.10s/it]                                                            9%|▊         | 8638/100000 [5:13:24<53:16:24,  2.10s/it]  9%|▊         | 8639/100000 [5:13:26<49:21:23,  1.94s/it]                                                            9%|▊         | 8639/100000 [5:13:26<49:21:23,  1.94s/it]  9%|▊         | 8640/100000 [5:13:27<46:05:30,  1.82s/it]                                                            9%|▊         | 8640/100000 [5:13:27<46:05:30,  1.82s/it]  9%|▊         | 8641/100000 [5:13:29<43:08:27,  1.70s/it]                                                            9%|▊         | 8641/100000 [5:13:29<43:08:27,  1.70s/it]  9%|▊         | 8642/100000 [5:13:30<40:24:53,  1.59s/it]                                                            9%|▊         | 8642/100000 [5:13:30<40:24:53,  1.59s/it]  9%|▊         | 8643/100000 [5:13:31<38:06:27,  1.50s/it]                                                            9%|▊         | 8643/100000 [5:13:31<38:06:27,  1.50s/it]  9%|▊         | 8644/100000 [5:13:32<36:07:48,  1.42s/it]                                                            9%|▊         | 8644/100000 [5:13:32<36:07:48,  1.42s/it]  9%|▊         | 8645/100000 [5:13:34<34:00:35,  1.34s/it]                                                            9%|▊         | 8645/100000 [5:13:34<34:00:35,  1.34s/it]  9%|▊         | 8646/100000 [5:13:35<32:17:13,  1.27s/it]                                                            9%|▊         | 8646/100000 [5:13:35<32:17:13,  1.27s/it]  9%|▊         | 8647/100000 [5:13:36<30:41:07,  1.21s/it]                                                            9%|▊         | 8647/100000 [5:13:36<30:41:07,  1.21s/it]  9%|▊         | 8648/100000 [5:13:37<29:10:31,  1.15s/it]                                                            9%|▊         | 8648/100000 [5:13:37<29:10:31,  1.15s/it]  9%|▊         | 8649/100000 [5:13:38<27:52:40,  1.10s/it]                                                            9%|▊         | 8649/100000 [5:13:38<27:52:40,  1.10s/it]  9%|▊         | 8650/100000 [5:13:39<27:00:53,  1.06s/it]                                                            9%|▊         | 8650/100000 [5:13:39<27:00:53,  1.06s/it]  9%|▊         | 8651/100000 [5:13:40<26:20:50,  1.04s/it]                                                            9%|▊         | 8651/100000 [5:13:40<26:20:50,  1.04s/it]  9%|▊         | 8652/100000 [5:13:41<25:47:17,  1.02s/it]                                                            9%|▊         | 8652/100000 [5:13:41<25:47:17,  1.02s/it]  9%|▊         | 8653/100000 [5:13:42<25:18:03,  1.00it/s]                                                            9%|▊         | 8653/100000 [5:13:42<25:18:03,  1.00it/s]  9%|▊         | 8654/100000 [5:13:43<24:47:06,  1.02it/s]                                                            9%|▊         | 8654/100000 [5:13:43<24:47:06,  1.02it/s]  9%|▊         | 8655/100000 [5:13:43<24:14:48,  1.05it/s]                                                            9%|▊         | 8655/100000 [5:13:43<24:14:48,  1.05it/s]  9%|▊         | 8656/100000 [5:13:44<23:38:57,  1.07it/s]                                                            9%|▊         | 8656/100000 [5:13:44<23:38:57,  1.07it/s]  9%|▊         | 8657/100000 [5:13:45<22:41:12,  1.12it/s]                                                            9%|▊         | 8657/100000 [5:13:45<22:41:12,  1.12it/s]  9%|▊         | 8658/100000 [5:13:46<22:26:33,  1.13it/s]                                                            9%|▊         | 8658/100000 [5:13:46<22:26:33,  1.13it/s]  9%|▊         | 8659/100000 [5:13:47<22:02:56,  1.15it/s]                                                            9%|▊         | 8659/100000 [5:13:47<22:02:56,  1.15it/s]  9%|▊         | 8660/100000 [5:13:48<21:35:32,  1.18it/s]                                                            9%|▊         | 8660/100000 [5:13:48<21:35:32,  1.18it/s]  9%|▊         | 8661/100000 [5:13:48<21:10:38,  1.20it/s]                                                            9%|▊         | 8661/100000 [5:13:48<21:10:38,  1.20it/s]  9%|▊         | 8662/100000 [5:13:49<20:48:42,  1.22it/s]                                                            9%|▊         | 8662/100000 [5:13:49<20:48:42,  1.22it/s]  9%|▊         | 8663/100000 [5:14:01<104:10:32,  4.11s/it]                                                             9%|▊         | 8663/100000 [5:14:01<104:10:32,  4.11s/it]  9%|▊         | 8664/100000 [5:14:08<129:17:17,  5.10s/it]                                                             9%|▊         | 8664/100000 [5:14:08<129:17:17,  5.10s/it]  9%|▊         | 8665/100000 [5:14:14<131:58:58,  5.20s/it]                                                             9%|▊         | 8665/100000 [5:14:14<131:58:58,  5.20s/it]  9%|▊         | 8666/100000 [5:14:18<126:06:32,  4.97s/it]                                                             9%|▊         | 8666/100000 [5:14:18<126:06:32,  4.97s/it]  9%|▊         | 8667/100000 [5:14:22<116:13:48,  4.58s/it]                                                             9%|▊         | 8667/100000 [5:14:22<116:13:48,  4.58s/it]  9%|▊         | 8668/100000 [5:14:25<106:14:37,  4.19s/it]                                                             9%|▊         | 8668/100000 [5:14:25<106:14:37,  4.19s/it]  9%|▊         | 8669/100000 [5:14:28<97:01:17,  3.82s/it]                                                             9%|▊         | 8669/100000 [5:14:28<97:01:17,  3.82s/it]  9%|▊         | 8670/100000 [5:14:31<87:42:32,  3.46s/it]                                                            9%|▊         | 8670/100000 [5:14:31<87:42:32,  3.46s/it]  9%|▊         | 8671/100000 [5:14:33<78:53:47,  3.11s/it]                                                            9%|▊         | 8671/100000 [5:14:33<78:53:47,  3.11s/it]  9%|▊         | 8672/100000 [5:14:35<70:49:27,  2.79s/it]                                                            9%|▊         | 8672/100000 [5:14:35<70:49:27,  2.79s/it]  9%|▊         | 8673/100000 [5:14:37<64:02:55,  2.52s/it]                                                            9%|▊         | 8673/100000 [5:14:37<64:02:55,  2.52s/it]  9%|▊         | 8674/100000 [5:14:39<57:58:20,  2.29s/it]                                                            9%|▊         | 8674/100000 [5:14:39<57:58:20,  2.29s/it]  9%|▊         | 8675/100000 [5:14:41<53:31:44,  2.11s/it]                                                            9%|▊         | 8675/100000 [5:14:41<53:31:44,  2.11s/it]  9%|▊         | 8676/100000 [5:14:42<49:42:56,  1.96s/it]                                                            9%|▊         | 8676/100000 [5:14:42<49:42:56,  1.96s/it]  9%|▊         | 8677/100000 [5:14:44<46:41:43,  1.84s/it]                                                            9%|▊         | 8677/100000 [5:14:44<46:41:43,  1.84s/it]  9%|▊         | 8678/100000 [5:14:45<43:43:36,  1.72s/it]                                                            9%|▊         | 8678/100000 [5:14:45<43:43:36,  1.72s/it]  9%|▊         | 8679/100000 [5:14:47<40:58:46,  1.62s/it]                                                            9%|▊         | 8679/100000 [5:14:47<40:58:46,  1.62s/it]  9%|▊         | 8680/100000 [5:14:48<39:07:54,  1.54s/it]                                                            9%|▊         | 8680/100000 [5:14:48<39:07:54,  1.54s/it]  9%|▊         | 8681/100000 [5:14:49<37:19:24,  1.47s/it]                                                            9%|▊         | 8681/100000 [5:14:49<37:19:24,  1.47s/it]  9%|▊         | 8682/100000 [5:14:50<35:44:37,  1.41s/it]                                                            9%|▊         | 8682/100000 [5:14:50<35:44:37,  1.41s/it]  9%|▊         | 8683/100000 [5:14:52<34:09:41,  1.35s/it]                                                            9%|▊         | 8683/100000 [5:14:52<34:09:41,  1.35s/it]  9%|▊         | 8684/100000 [5:14:53<32:14:47,  1.27s/it]                                                            9%|▊         | 8684/100000 [5:14:53<32:14:47,  1.27s/it]  9%|▊         | 8685/100000 [5:14:54<30:41:08,  1.21s/it]                                                            9%|▊         | 8685/100000 [5:14:54<30:41:08,  1.21s/it]  9%|▊         | 8686/100000 [5:14:55<29:07:33,  1.15s/it]                                                            9%|▊         | 8686/100000 [5:14:55<29:07:33,  1.15s/it]  9%|▊         | 8687/100000 [5:14:56<27:42:41,  1.09s/it]                                                            9%|▊         | 8687/100000 [5:14:56<27:42:41,  1.09s/it]  9%|▊         | 8688/100000 [5:14:57<26:39:59,  1.05s/it]                                                            9%|▊         | 8688/100000 [5:14:57<26:39:59,  1.05s/it]  9%|▊         | 8689/100000 [5:14:58<25:51:03,  1.02s/it]                                                            9%|▊         | 8689/100000 [5:14:58<25:51:03,  1.02s/it]  9%|▊         | 8690/100000 [5:14:59<25:15:47,  1.00it/s]                                                            9%|▊         | 8690/100000 [5:14:59<25:15:47,  1.00it/s]  9%|▊         | 8691/100000 [5:15:00<24:56:33,  1.02it/s]                                                            9%|▊         | 8691/100000 [5:15:00<24:56:33,  1.02it/s]  9%|▊         | 8692/100000 [5:15:00<24:11:04,  1.05it/s]                                                            9%|▊         | 8692/100000 [5:15:00<24:11:04,  1.05it/s]  9%|▊         | 8693/100000 [5:15:01<23:25:09,  1.08it/s]                                                            9%|▊         | 8693/100000 [5:15:01<23:25:09,  1.08it/s]  9%|▊         | 8694/100000 [5:15:02<22:59:35,  1.10it/s]                                                            9%|▊         | 8694/100000 [5:15:02<22:59:35,  1.10it/s]  9%|▊         | 8695/100000 [5:15:03<22:12:02,  1.14it/s]                                                            9%|▊         | 8695/100000 [5:15:03<22:12:02,  1.14it/s]  9%|▊         | 8696/100000 [5:15:04<21:41:06,  1.17it/s]                                                            9%|▊         | 8696/100000 [5:15:04<21:41:06,  1.17it/s]  9%|▊         | 8697/100000 [5:15:05<21:28:10,  1.18it/s]                                                            9%|▊         | 8697/100000 [5:15:05<21:28:10,  1.18it/s]  9%|▊         | 8698/100000 [5:15:05<21:09:14,  1.20it/s]                                                            9%|▊         | 8698/100000 [5:15:05<21:09:14,  1.20it/s]  9%|▊         | 8699/100000 [5:15:06<20:49:58,  1.22it/s]                                                            9%|▊         | 8699/100000 [5:15:06<20:49:58,  1.22it/s]  9%|▊         | 8700/100000 [5:15:07<20:11:08,  1.26it/s]                                                            9%|▊         | 8700/100000 [5:15:07<20:11:08,  1.26it/s]  9%|▊         | 8701/100000 [5:15:20<112:25:26,  4.43s/it]                                                             9%|▊         | 8701/100000 [5:15:20<112:25:26,  4.43s/it]  9%|▊         | 8702/100000 [5:15:27<133:27:04,  5.26s/it]                                                             9%|▊         | 8702/100000 [5:15:27<133:27:04,  5.26s/it]  9%|▊         | 8703/100000 [5:15:33<136:49:01,  5.39s/it]                                                             9%|▊         | 8703/100000 [5:15:33<136:49:01,  5.39s/it]  9%|▊         | 8704/100000 [5:15:37<130:58:06,  5.16s/it]                                                             9%|▊         | 8704/100000 [5:15:37<130:58:06,  5.16s/it]  9%|▊         | 8705/100000 [5:15:41<122:38:55,  4.84s/it]                                                             9%|▊         | 8705/100000 [5:15:41<122:38:55,  4.84s/it]  9%|▊         | 8706/100000 [5:15:45<113:25:50,  4.47s/it]                                                             9%|▊         | 8706/100000 [5:15:45<113:25:50,  4.47s/it]  9%|▊         | 8707/100000 [5:15:48<103:01:53,  4.06s/it]                                                             9%|▊         | 8707/100000 [5:15:48<103:01:53,  4.06s/it]  9%|▊         | 8708/100000 [5:15:51<92:14:26,  3.64s/it]                                                           {'loss': 0.1141, 'grad_norm': 0.9578433036804199, 'learning_rate': 2.5863e-05, 'epoch': 56.01}
{'loss': 0.0719, 'grad_norm': 0.7150177359580994, 'learning_rate': 2.5866e-05, 'epoch': 56.01}
{'loss': 0.0622, 'grad_norm': 0.5238743424415588, 'learning_rate': 2.5869e-05, 'epoch': 56.02}
{'loss': 0.0469, 'grad_norm': 0.4041619598865509, 'learning_rate': 2.5872000000000002e-05, 'epoch': 56.03}
{'loss': 0.0363, 'grad_norm': 0.6962948441505432, 'learning_rate': 2.5875000000000002e-05, 'epoch': 56.03}
{'loss': 0.022, 'grad_norm': 0.3705318868160248, 'learning_rate': 2.5878000000000002e-05, 'epoch': 56.04}
{'loss': 0.0203, 'grad_norm': 0.8739813566207886, 'learning_rate': 2.5881000000000002e-05, 'epoch': 56.05}
{'loss': 0.0365, 'grad_norm': 0.7001017332077026, 'learning_rate': 2.5884e-05, 'epoch': 56.05}
{'loss': 0.023, 'grad_norm': 0.5647068619728088, 'learning_rate': 2.5887e-05, 'epoch': 56.06}
{'loss': 0.0285, 'grad_norm': 0.4640927314758301, 'learning_rate': 2.589e-05, 'epoch': 56.06}
{'loss': 0.0159, 'grad_norm': 0.43329140543937683, 'learning_rate': 2.5893e-05, 'epoch': 56.07}
{'loss': 0.0242, 'grad_norm': 0.7540870904922485, 'learning_rate': 2.5896e-05, 'epoch': 56.08}
{'loss': 0.036, 'grad_norm': 0.8862878084182739, 'learning_rate': 2.5899e-05, 'epoch': 56.08}
{'loss': 0.0112, 'grad_norm': 0.4626120328903198, 'learning_rate': 2.5902e-05, 'epoch': 56.09}
{'loss': 0.0084, 'grad_norm': 0.3444463014602661, 'learning_rate': 2.5905000000000004e-05, 'epoch': 56.1}
{'loss': 0.0281, 'grad_norm': 1.5937330722808838, 'learning_rate': 2.5908000000000003e-05, 'epoch': 56.1}
{'loss': 0.0113, 'grad_norm': 0.5708736777305603, 'learning_rate': 2.5911e-05, 'epoch': 56.11}
{'loss': 0.0133, 'grad_norm': 0.46634095907211304, 'learning_rate': 2.5914e-05, 'epoch': 56.12}
{'loss': 0.0128, 'grad_norm': 0.6492021679878235, 'learning_rate': 2.5917e-05, 'epoch': 56.12}
{'loss': 0.0225, 'grad_norm': 0.7062011361122131, 'learning_rate': 2.592e-05, 'epoch': 56.13}
{'loss': 0.01, 'grad_norm': 0.3825705647468567, 'learning_rate': 2.5923e-05, 'epoch': 56.14}
{'loss': 0.0126, 'grad_norm': 0.6816923022270203, 'learning_rate': 2.5926e-05, 'epoch': 56.14}
{'loss': 0.0096, 'grad_norm': 0.5443412661552429, 'learning_rate': 2.5929e-05, 'epoch': 56.15}
{'loss': 0.0066, 'grad_norm': 0.38691210746765137, 'learning_rate': 2.5932e-05, 'epoch': 56.16}
{'loss': 0.0158, 'grad_norm': 0.6766664981842041, 'learning_rate': 2.5935e-05, 'epoch': 56.16}
{'loss': 0.0154, 'grad_norm': 0.6528871059417725, 'learning_rate': 2.5938e-05, 'epoch': 56.17}
{'loss': 0.01, 'grad_norm': 1.9884947538375854, 'learning_rate': 2.5941e-05, 'epoch': 56.18}
{'loss': 0.0439, 'grad_norm': 0.5997827053070068, 'learning_rate': 2.5944e-05, 'epoch': 56.18}
{'loss': 0.0112, 'grad_norm': 0.7931162714958191, 'learning_rate': 2.5947e-05, 'epoch': 56.19}
{'loss': 0.0062, 'grad_norm': 0.6095603108406067, 'learning_rate': 2.595e-05, 'epoch': 56.19}
{'loss': 0.007, 'grad_norm': 0.45064017176628113, 'learning_rate': 2.5953e-05, 'epoch': 56.2}
{'loss': 0.0286, 'grad_norm': 2.092013359069824, 'learning_rate': 2.5956e-05, 'epoch': 56.21}
{'loss': 0.0079, 'grad_norm': 0.48398569226264954, 'learning_rate': 2.5959e-05, 'epoch': 56.21}
{'loss': 0.0199, 'grad_norm': 1.986203670501709, 'learning_rate': 2.5962e-05, 'epoch': 56.22}
{'loss': 0.0154, 'grad_norm': 1.546345591545105, 'learning_rate': 2.5965000000000003e-05, 'epoch': 56.23}
{'loss': 0.0161, 'grad_norm': 0.8068186640739441, 'learning_rate': 2.5968000000000003e-05, 'epoch': 56.23}
{'loss': 0.006, 'grad_norm': 0.4717101752758026, 'learning_rate': 2.5971000000000003e-05, 'epoch': 56.24}
{'loss': 0.0163, 'grad_norm': 0.9510309100151062, 'learning_rate': 2.5974000000000002e-05, 'epoch': 56.25}
{'loss': 0.0971, 'grad_norm': 1.2424840927124023, 'learning_rate': 2.5977000000000002e-05, 'epoch': 56.25}
{'loss': 0.0742, 'grad_norm': 0.9390220046043396, 'learning_rate': 2.5980000000000002e-05, 'epoch': 56.26}
{'loss': 0.0556, 'grad_norm': 0.5386507511138916, 'learning_rate': 2.5983000000000002e-05, 'epoch': 56.27}
{'loss': 0.0398, 'grad_norm': 0.7150086164474487, 'learning_rate': 2.5985999999999998e-05, 'epoch': 56.27}
{'loss': 0.0309, 'grad_norm': 0.3950488865375519, 'learning_rate': 2.5988999999999998e-05, 'epoch': 56.28}
{'loss': 0.0255, 'grad_norm': 0.5028530359268188, 'learning_rate': 2.5991999999999998e-05, 'epoch': 56.29}
{'loss': 0.0208, 'grad_norm': 0.3644680678844452, 'learning_rate': 2.5995e-05, 'epoch': 56.29}
{'loss': 0.0282, 'grad_norm': 0.6566518545150757, 'learning_rate': 2.5998e-05, 'epoch': 56.3}
{'loss': 0.0212, 'grad_norm': 0.7146825790405273, 'learning_rate': 2.6001e-05, 'epoch': 56.31}
{'loss': 0.0227, 'grad_norm': 0.4681835174560547, 'learning_rate': 2.6004e-05, 'epoch': 56.31}
{'loss': 0.0133, 'grad_norm': 0.4143199026584625, 'learning_rate': 2.6007e-05, 'epoch': 56.32}
{'loss': 0.022, 'grad_norm': 0.6423527002334595, 'learning_rate': 2.601e-05, 'epoch': 56.32}
{'loss': 0.0169, 'grad_norm': 1.2820219993591309, 'learning_rate': 2.6013e-05, 'epoch': 56.33}
{'loss': 0.0121, 'grad_norm': 0.32855460047721863, 'learning_rate': 2.6016e-05, 'epoch': 56.34}
{'loss': 0.0142, 'grad_norm': 0.5149587392807007, 'learning_rate': 2.6019e-05, 'epoch': 56.34}
{'loss': 0.0169, 'grad_norm': 0.6933625936508179, 'learning_rate': 2.6022e-05, 'epoch': 56.35}
{'loss': 0.0125, 'grad_norm': 0.5150189399719238, 'learning_rate': 2.6025000000000002e-05, 'epoch': 56.36}
{'loss': 0.0163, 'grad_norm': 0.4581129252910614, 'learning_rate': 2.6028000000000002e-05, 'epoch': 56.36}
{'loss': 0.0119, 'grad_norm': 0.5296790599822998, 'learning_rate': 2.6031000000000002e-05, 'epoch': 56.37}
{'loss': 0.0211, 'grad_norm': 0.7860209941864014, 'learning_rate': 2.6034000000000002e-05, 'epoch': 56.38}
{'loss': 0.0118, 'grad_norm': 0.4133698046207428, 'learning_rate': 2.6037e-05, 'epoch': 56.38}
{'loss': 0.0155, 'grad_norm': 0.7805116772651672, 'learning_rate': 2.604e-05, 'epoch': 56.39}
{'loss': 0.0075, 'grad_norm': 0.3962467312812805, 'learning_rate': 2.6043e-05, 'epoch': 56.4}
{'loss': 0.0372, 'grad_norm': 0.9144934415817261, 'learning_rate': 2.6046e-05, 'epoch': 56.4}
{'loss': 0.0077, 'grad_norm': 0.47099563479423523, 'learning_rate': 2.6049e-05, 'epoch': 56.41}
{'loss': 0.0051, 'grad_norm': 0.3143909275531769, 'learning_rate': 2.6052e-05, 'epoch': 56.42}
{'loss': 0.005, 'grad_norm': 0.3318991959095001, 'learning_rate': 2.6055000000000004e-05, 'epoch': 56.42}
{'loss': 0.0123, 'grad_norm': 0.589523434638977, 'learning_rate': 2.6058e-05, 'epoch': 56.43}
{'loss': 0.0534, 'grad_norm': 0.5787364840507507, 'learning_rate': 2.6061e-05, 'epoch': 56.44}
{'loss': 0.0103, 'grad_norm': 0.5488003492355347, 'learning_rate': 2.6064e-05, 'epoch': 56.44}
{'loss': 0.0055, 'grad_norm': 0.5130693912506104, 'learning_rate': 2.6067e-05, 'epoch': 56.45}
{'loss': 0.0101, 'grad_norm': 1.5027906894683838, 'learning_rate': 2.607e-05, 'epoch': 56.45}
{'loss': 0.0069, 'grad_norm': 0.6685611009597778, 'learning_rate': 2.6073e-05, 'epoch': 56.46}
{'loss': 0.0051, 'grad_norm': 0.5935513973236084, 'learning_rate': 2.6076e-05, 'epoch': 56.47}
{'loss': 0.0149, 'grad_norm': 0.7488710880279541, 'learning_rate': 2.6079e-05, 'epoch': 56.47}
{'loss': 0.028, 'grad_norm': 0.7276023030281067, 'learning_rate': 2.6082e-05, 'epoch': 56.48}
{'loss': 0.018, 'grad_norm': 0.953538715839386, 'learning_rate': 2.6085000000000002e-05, 'epoch': 56.49}
{'loss': 0.0578, 'grad_norm': 2.0165457725524902, 'learning_rate': 2.6088e-05, 'epoch': 56.49}
{'loss': 0.0927, 'grad_norm': 0.989352285861969, 'learning_rate': 2.6091e-05, 'epoch': 56.5}
{'loss': 0.0532, 'grad_norm': 0.48842084407806396, 'learning_rate': 2.6094e-05, 'epoch': 56.51}
{'loss': 0.0387, 'grad_norm': 0.43145495653152466, 'learning_rate': 2.6097e-05, 'epoch': 56.51}
{'loss': 0.0379, 'grad_norm': 0.6312183141708374, 'learning_rate': 2.61e-05, 'epoch': 56.52}
{'loss': 0.035, 'grad_norm': 0.4233121871948242, 'learning_rate': 2.6103e-05, 'epoch': 56.53}
{'loss': 0.0249, 'grad_norm': 0.436595618724823, 'learning_rate': 2.6106e-05, 'epoch': 56.53}
{'loss': 0.0225, 'grad_norm': 0.47743961215019226, 'learning_rate': 2.6109e-05, 'epoch': 56.54}
  9%|▊         | 8708/100000 [5:15:51<92:14:26,  3.64s/it]  9%|▊         | 8709/100000 [5:15:53<83:05:36,  3.28s/it]                                                            9%|▊         | 8709/100000 [5:15:53<83:05:36,  3.28s/it]  9%|▊         | 8710/100000 [5:15:55<74:57:01,  2.96s/it]                                                            9%|▊         | 8710/100000 [5:15:55<74:57:01,  2.96s/it]  9%|▊         | 8711/100000 [5:15:57<67:47:34,  2.67s/it]                                                            9%|▊         | 8711/100000 [5:15:58<67:47:34,  2.67s/it]  9%|▊         | 8712/100000 [5:15:59<61:37:32,  2.43s/it]                                                            9%|▊         | 8712/100000 [5:15:59<61:37:32,  2.43s/it]  9%|▊         | 8713/100000 [5:16:01<56:00:20,  2.21s/it]                                                            9%|▊         | 8713/100000 [5:16:01<56:00:20,  2.21s/it]  9%|▊         | 8714/100000 [5:16:03<51:32:38,  2.03s/it]                                                            9%|▊         | 8714/100000 [5:16:03<51:32:38,  2.03s/it]  9%|▊         | 8715/100000 [5:16:04<48:09:11,  1.90s/it]                                                            9%|▊         | 8715/100000 [5:16:04<48:09:11,  1.90s/it]  9%|▊         | 8716/100000 [5:16:06<44:50:37,  1.77s/it]                                                            9%|▊         | 8716/100000 [5:16:06<44:50:37,  1.77s/it]  9%|▊         | 8717/100000 [5:16:07<41:49:56,  1.65s/it]                                                            9%|▊         | 8717/100000 [5:16:07<41:49:56,  1.65s/it]  9%|▊         | 8718/100000 [5:16:08<39:40:54,  1.56s/it]                                                            9%|▊         | 8718/100000 [5:16:08<39:40:54,  1.56s/it]  9%|▊         | 8719/100000 [5:16:10<37:38:45,  1.48s/it]                                                            9%|▊         | 8719/100000 [5:16:10<37:38:45,  1.48s/it]  9%|▊         | 8720/100000 [5:16:11<35:46:25,  1.41s/it]                                                            9%|▊         | 8720/100000 [5:16:11<35:46:25,  1.41s/it]  9%|▊         | 8721/100000 [5:16:12<33:34:35,  1.32s/it]                                                            9%|▊         | 8721/100000 [5:16:12<33:34:35,  1.32s/it]  9%|▊         | 8722/100000 [5:16:13<31:55:26,  1.26s/it]                                                            9%|▊         | 8722/100000 [5:16:13<31:55:26,  1.26s/it]  9%|▊         | 8723/100000 [5:16:14<30:30:12,  1.20s/it]                                                            9%|▊         | 8723/100000 [5:16:14<30:30:12,  1.20s/it]  9%|▊         | 8724/100000 [5:16:15<29:08:46,  1.15s/it]                                                            9%|▊         | 8724/100000 [5:16:15<29:08:46,  1.15s/it]  9%|▊         | 8725/100000 [5:16:16<27:55:06,  1.10s/it]                                                            9%|▊         | 8725/100000 [5:16:16<27:55:06,  1.10s/it]  9%|▊         | 8726/100000 [5:16:17<26:51:47,  1.06s/it]                                                            9%|▊         | 8726/100000 [5:16:17<26:51:47,  1.06s/it]  9%|▊         | 8727/100000 [5:16:18<25:46:56,  1.02s/it]                                                            9%|▊         | 8727/100000 [5:16:18<25:46:56,  1.02s/it]  9%|▊         | 8728/100000 [5:16:19<25:01:02,  1.01it/s]                                                            9%|▊         | 8728/100000 [5:16:19<25:01:02,  1.01it/s]  9%|▊         | 8729/100000 [5:16:20<24:32:24,  1.03it/s]                                                            9%|▊         | 8729/100000 [5:16:20<24:32:24,  1.03it/s]  9%|▊         | 8730/100000 [5:16:21<24:01:38,  1.06it/s]                                                            9%|▊         | 8730/100000 [5:16:21<24:01:38,  1.06it/s]  9%|▊         | 8731/100000 [5:16:22<23:55:48,  1.06it/s]                                                            9%|▊         | 8731/100000 [5:16:22<23:55:48,  1.06it/s]  9%|▊         | 8732/100000 [5:16:23<22:55:14,  1.11it/s]                                                            9%|▊         | 8732/100000 [5:16:23<22:55:14,  1.11it/s]  9%|▊         | 8733/100000 [5:16:23<22:15:43,  1.14it/s]                                                            9%|▊         | 8733/100000 [5:16:23<22:15:43,  1.14it/s]  9%|▊         | 8734/100000 [5:16:24<21:33:06,  1.18it/s]                                                            9%|▊         | 8734/100000 [5:16:24<21:33:06,  1.18it/s]  9%|▊         | 8735/100000 [5:16:25<20:41:34,  1.23it/s]                                                            9%|▊         | 8735/100000 [5:16:25<20:41:34,  1.23it/s]  9%|▊         | 8736/100000 [5:16:26<20:40:33,  1.23it/s]                                                            9%|▊         | 8736/100000 [5:16:26<20:40:33,  1.23it/s]  9%|▊         | 8737/100000 [5:16:27<20:08:59,  1.26it/s]                                                            9%|▊         | 8737/100000 [5:16:27<20:08:59,  1.26it/s]  9%|▊         | 8738/100000 [5:16:27<19:14:27,  1.32it/s]                                                            9%|▊         | 8738/100000 [5:16:27<19:14:27,  1.32it/s]  9%|▊         | 8739/100000 [5:16:40<112:46:25,  4.45s/it]                                                             9%|▊         | 8739/100000 [5:16:40<112:46:25,  4.45s/it]  9%|▊         | 8740/100000 [5:16:48<139:00:38,  5.48s/it]                                                             9%|▊         | 8740/100000 [5:16:48<139:00:38,  5.48s/it]  9%|▊         | 8741/100000 [5:16:54<140:40:11,  5.55s/it]                                                             9%|▊         | 8741/100000 [5:16:54<140:40:11,  5.55s/it]  9%|▊         | 8742/100000 [5:16:59<134:27:10,  5.30s/it]                                                             9%|▊         | 8742/100000 [5:16:59<134:27:10,  5.30s/it]  9%|▊         | 8743/100000 [5:17:03<124:18:39,  4.90s/it]                                                             9%|▊         | 8743/100000 [5:17:03<124:18:39,  4.90s/it]  9%|▊         | 8744/100000 [5:17:06<112:58:55,  4.46s/it]                                                             9%|▊         | 8744/100000 [5:17:06<112:58:55,  4.46s/it]  9%|▊         | 8745/100000 [5:17:09<100:35:58,  3.97s/it]                                                             9%|▊         | 8745/100000 [5:17:09<100:35:58,  3.97s/it]  9%|▊         | 8746/100000 [5:17:11<89:15:20,  3.52s/it]                                                             9%|▊         | 8746/100000 [5:17:11<89:15:20,  3.52s/it]  9%|▊         | 8747/100000 [5:17:14<80:15:43,  3.17s/it]                                                            9%|▊         | 8747/100000 [5:17:14<80:15:43,  3.17s/it]  9%|▊         | 8748/100000 [5:17:16<72:45:42,  2.87s/it]                                                            9%|▊         | 8748/100000 [5:17:16<72:45:42,  2.87s/it]  9%|▊         | 8749/100000 [5:17:18<66:13:40,  2.61s/it]                                                            9%|▊         | 8749/100000 [5:17:18<66:13:40,  2.61s/it]  9%|▉         | 8750/100000 [5:17:20<60:15:30,  2.38s/it]                                                            9%|▉         | 8750/100000 [5:17:20<60:15:30,  2.38s/it]  9%|▉         | 8751/100000 [5:17:21<55:09:01,  2.18s/it]                                                            9%|▉         | 8751/100000 [5:17:21<55:09:01,  2.18s/it]  9%|▉         | 8752/100000 [5:17:23<51:10:15,  2.02s/it]                                                            9%|▉         | 8752/100000 [5:17:23<51:10:15,  2.02s/it]  9%|▉         | 8753/100000 [5:17:25<47:40:05,  1.88s/it]                                                            9%|▉         | 8753/100000 [5:17:25<47:40:05,  1.88s/it]  9%|▉         | 8754/100000 [5:17:26<44:29:31,  1.76s/it]                                                            9%|▉         | 8754/100000 [5:17:26<44:29:31,  1.76s/it]  9%|▉         | 8755/100000 [5:17:27<41:46:57,  1.65s/it]                                                            9%|▉         | 8755/100000 [5:17:27<41:46:57,  1.65s/it]  9%|▉         | 8756/100000 [5:17:29<39:25:39,  1.56s/it]                                                            9%|▉         | 8756/100000 [5:17:29<39:25:39,  1.56s/it]  9%|▉         | 8757/100000 [5:17:30<37:24:36,  1.48s/it]                                                            9%|▉         | 8757/100000 [5:17:30<37:24:36,  1.48s/it]  9%|▉         | 8758/100000 [5:17:31<35:36:49,  1.41s/it]                                                            9%|▉         | 8758/100000 [5:17:31<35:36:49,  1.41s/it]  9%|▉         | 8759/100000 [5:17:32<33:18:38,  1.31s/it]                                                            9%|▉         | 8759/100000 [5:17:32<33:18:38,  1.31s/it]  9%|▉         | 8760/100000 [5:17:34<31:34:21,  1.25s/it]                                                            9%|▉         | 8760/100000 [5:17:34<31:34:21,  1.25s/it]  9%|▉         | 8761/100000 [5:17:35<30:03:19,  1.19s/it]                                                            9%|▉         | 8761/100000 [5:17:35<30:03:19,  1.19s/it]  9%|▉         | 8762/100000 [5:17:36<28:39:56,  1.13s/it]                                                            9%|▉         | 8762/100000 [5:17:36<28:39:56,  1.13s/it]  9%|▉         | 8763/100000 [5:17:37<27:10:02,  1.07s/it]                                                            9%|▉         | 8763/100000 [5:17:37<27:10:02,  1.07s/it]  9%|▉         | 8764/100000 [5:17:37<26:11:49,  1.03s/it]                                                            9%|▉         | 8764/100000 [5:17:37<26:11:49,  1.03s/it]  9%|▉         | 8765/100000 [5:17:38<25:32:37,  1.01s/it]                                                            9%|▉         | 8765/100000 [5:17:38<25:32:37,  1.01s/it]  9%|▉         | 8766/100000 [5:17:39<24:54:36,  1.02it/s]                                                            9%|▉         | 8766/100000 [5:17:39<24:54:36,  1.02it/s]  9%|▉         | 8767/100000 [5:17:40<23:54:05,  1.06it/s]                                                            9%|▉         | 8767/100000 [5:17:40<23:54:05,  1.06it/s]  9%|▉         | 8768/100000 [5:17:41<23:33:13,  1.08it/s]                                                            9%|▉         | 8768/100000 [5:17:41<23:33:13,  1.08it/s]  9%|▉         | 8769/100000 [5:17:42<22:55:36,  1.11it/s]                                                            9%|▉         | 8769/100000 [5:17:42<22:55:36,  1.11it/s]  9%|▉         | 8770/100000 [5:17:43<22:09:23,  1.14it/s]                                                            9%|▉         | 8770/100000 [5:17:43<22:09:23,  1.14it/s]  9%|▉         | 8771/100000 [5:17:44<21:39:25,  1.17it/s]                                                            9%|▉         | 8771/100000 [5:17:44<21:39:25,  1.17it/s]  9%|▉         | 8772/100000 [5:17:44<21:10:41,  1.20it/s]                                                            9%|▉         | 8772/100000 [5:17:44<21:10:41,  1.20it/s]  9%|▉         | 8773/100000 [5:17:45<20:37:05,  1.23it/s]                                                            9%|▉         | 8773/100000 [5:17:45<20:37:05,  1.23it/s]  9%|▉         | 8774/100000 [5:17:46<20:11:21,  1.26it/s]                                                            9%|▉         | 8774/100000 [5:17:46<20:11:21,  1.26it/s]  9%|▉         | 8775/100000 [5:17:47<19:28:19,  1.30it/s]                                                            9%|▉         | 8775/100000 [5:17:47<19:28:19,  1.30it/s]  9%|▉         | 8776/100000 [5:17:47<19:09:01,  1.32it/s]                                                            9%|▉         | 8776/100000 [5:17:47<19:09:01,  1.32it/s]  9%|▉         | 8777/100000 [5:17:55<68:40:14,  2.71s/it]                                                            9%|▉         | 8777/100000 [5:17:55<68:40:14,  2.71s/it]  9%|▉         | 8778/100000 [5:17:56<58:59:44,  2.33s/it]                                                            9%|▉         | 8778/100000 [5:17:56<58:59:44,  2.33s/it]{'loss': 0.0165, 'grad_norm': 0.32409006357192993, 'learning_rate': 2.6112e-05, 'epoch': 56.55}
{'loss': 0.0355, 'grad_norm': 0.4473613202571869, 'learning_rate': 2.6115000000000003e-05, 'epoch': 56.55}
{'loss': 0.02, 'grad_norm': 0.4836438298225403, 'learning_rate': 2.6118000000000003e-05, 'epoch': 56.56}
{'loss': 0.0177, 'grad_norm': 1.7152447700500488, 'learning_rate': 2.6121000000000003e-05, 'epoch': 56.56}
{'loss': 0.0105, 'grad_norm': 0.2842996418476105, 'learning_rate': 2.6124000000000003e-05, 'epoch': 56.57}
{'loss': 0.0251, 'grad_norm': 0.5945543646812439, 'learning_rate': 2.6127000000000002e-05, 'epoch': 56.58}
{'loss': 0.0164, 'grad_norm': 0.473309189081192, 'learning_rate': 2.6130000000000002e-05, 'epoch': 56.58}
{'loss': 0.0148, 'grad_norm': 0.5541772246360779, 'learning_rate': 2.6133e-05, 'epoch': 56.59}
{'loss': 0.0546, 'grad_norm': 0.6829124689102173, 'learning_rate': 2.6136e-05, 'epoch': 56.6}
{'loss': 0.0171, 'grad_norm': 0.4053587019443512, 'learning_rate': 2.6138999999999998e-05, 'epoch': 56.6}
{'loss': 0.0091, 'grad_norm': 0.3796641230583191, 'learning_rate': 2.6141999999999998e-05, 'epoch': 56.61}
{'loss': 0.0072, 'grad_norm': 0.46627891063690186, 'learning_rate': 2.6145e-05, 'epoch': 56.62}
{'loss': 0.019, 'grad_norm': 1.3906973600387573, 'learning_rate': 2.6148e-05, 'epoch': 56.62}
{'loss': 0.0176, 'grad_norm': 0.9019446969032288, 'learning_rate': 2.6151e-05, 'epoch': 56.63}
{'loss': 0.0175, 'grad_norm': 0.8992758393287659, 'learning_rate': 2.6154e-05, 'epoch': 56.64}
{'loss': 0.0099, 'grad_norm': 0.3823014199733734, 'learning_rate': 2.6157e-05, 'epoch': 56.64}
{'loss': 0.0261, 'grad_norm': 0.7228079438209534, 'learning_rate': 2.616e-05, 'epoch': 56.65}
{'loss': 0.0135, 'grad_norm': 0.5820515751838684, 'learning_rate': 2.6163e-05, 'epoch': 56.66}
{'loss': 0.014, 'grad_norm': 0.8100523948669434, 'learning_rate': 2.6166e-05, 'epoch': 56.66}
{'loss': 0.0347, 'grad_norm': 0.7533032298088074, 'learning_rate': 2.6169e-05, 'epoch': 56.67}
{'loss': 0.0195, 'grad_norm': 1.7921510934829712, 'learning_rate': 2.6172e-05, 'epoch': 56.68}
{'loss': 0.0186, 'grad_norm': 1.2367136478424072, 'learning_rate': 2.6175000000000003e-05, 'epoch': 56.68}
{'loss': 0.0035, 'grad_norm': 0.37907153367996216, 'learning_rate': 2.6178000000000002e-05, 'epoch': 56.69}
{'loss': 0.0095, 'grad_norm': 0.4954952001571655, 'learning_rate': 2.6181000000000002e-05, 'epoch': 56.69}
{'loss': 0.011, 'grad_norm': 1.7134913206100464, 'learning_rate': 2.6184000000000002e-05, 'epoch': 56.7}
{'loss': 0.0107, 'grad_norm': 0.7343213558197021, 'learning_rate': 2.6187000000000002e-05, 'epoch': 56.71}
{'loss': 0.0106, 'grad_norm': 0.9769492745399475, 'learning_rate': 2.619e-05, 'epoch': 56.71}
{'loss': 0.0248, 'grad_norm': 2.1563751697540283, 'learning_rate': 2.6193e-05, 'epoch': 56.72}
{'loss': 0.0065, 'grad_norm': 0.7455111145973206, 'learning_rate': 2.6196e-05, 'epoch': 56.73}
{'loss': 0.0255, 'grad_norm': 1.2962346076965332, 'learning_rate': 2.6199e-05, 'epoch': 56.73}
{'loss': 0.0272, 'grad_norm': 1.7191611528396606, 'learning_rate': 2.6202e-05, 'epoch': 56.74}
{'loss': 0.1542, 'grad_norm': 2.033130407333374, 'learning_rate': 2.6205e-05, 'epoch': 56.75}
{'loss': 0.0961, 'grad_norm': 0.9657585620880127, 'learning_rate': 2.6208e-05, 'epoch': 56.75}
{'loss': 0.0517, 'grad_norm': 0.6184728741645813, 'learning_rate': 2.6211e-05, 'epoch': 56.76}
{'loss': 0.0657, 'grad_norm': 1.0894896984100342, 'learning_rate': 2.6214e-05, 'epoch': 56.77}
{'loss': 0.0378, 'grad_norm': 0.5487089157104492, 'learning_rate': 2.6217e-05, 'epoch': 56.77}
{'loss': 0.0375, 'grad_norm': 0.6634489297866821, 'learning_rate': 2.622e-05, 'epoch': 56.78}
{'loss': 0.0333, 'grad_norm': 0.5607606768608093, 'learning_rate': 2.6223e-05, 'epoch': 56.79}
{'loss': 0.0288, 'grad_norm': 0.4337315857410431, 'learning_rate': 2.6226e-05, 'epoch': 56.79}
{'loss': 0.0266, 'grad_norm': 0.5896046161651611, 'learning_rate': 2.6229e-05, 'epoch': 56.8}
{'loss': 0.0208, 'grad_norm': 0.4426535665988922, 'learning_rate': 2.6232e-05, 'epoch': 56.81}
{'loss': 0.0298, 'grad_norm': 0.8717060685157776, 'learning_rate': 2.6235000000000002e-05, 'epoch': 56.81}
{'loss': 0.0223, 'grad_norm': 0.5015999674797058, 'learning_rate': 2.6238000000000002e-05, 'epoch': 56.82}
{'loss': 0.0157, 'grad_norm': 0.4131259322166443, 'learning_rate': 2.6241e-05, 'epoch': 56.82}
{'loss': 0.0148, 'grad_norm': 0.44498857855796814, 'learning_rate': 2.6244e-05, 'epoch': 56.83}
{'loss': 0.0194, 'grad_norm': 0.5123580098152161, 'learning_rate': 2.6247e-05, 'epoch': 56.84}
{'loss': 0.0203, 'grad_norm': 1.2955586910247803, 'learning_rate': 2.625e-05, 'epoch': 56.84}
{'loss': 0.0127, 'grad_norm': 0.38595718145370483, 'learning_rate': 2.6253e-05, 'epoch': 56.85}
{'loss': 0.0199, 'grad_norm': 0.5831722021102905, 'learning_rate': 2.6256e-05, 'epoch': 56.86}
{'loss': 0.0116, 'grad_norm': 0.5567636489868164, 'learning_rate': 2.6259e-05, 'epoch': 56.86}
{'loss': 0.0103, 'grad_norm': 0.5177070498466492, 'learning_rate': 2.6262e-05, 'epoch': 56.87}
{'loss': 0.0122, 'grad_norm': 0.4939444065093994, 'learning_rate': 2.6265e-05, 'epoch': 56.88}
{'loss': 0.0123, 'grad_norm': 0.5349764227867126, 'learning_rate': 2.6268000000000003e-05, 'epoch': 56.88}
{'loss': 0.0089, 'grad_norm': 1.197412371635437, 'learning_rate': 2.6271000000000003e-05, 'epoch': 56.89}
{'loss': 0.0123, 'grad_norm': 1.2962026596069336, 'learning_rate': 2.6274000000000003e-05, 'epoch': 56.9}
{'loss': 0.0125, 'grad_norm': 0.49474427103996277, 'learning_rate': 2.6277000000000003e-05, 'epoch': 56.9}
{'loss': 0.0078, 'grad_norm': 0.5407232046127319, 'learning_rate': 2.628e-05, 'epoch': 56.91}
{'loss': 0.0071, 'grad_norm': 0.45368871092796326, 'learning_rate': 2.6283e-05, 'epoch': 56.92}
{'loss': 0.0149, 'grad_norm': 0.89769047498703, 'learning_rate': 2.6286e-05, 'epoch': 56.92}
{'loss': 0.059, 'grad_norm': 0.9916949272155762, 'learning_rate': 2.6289e-05, 'epoch': 56.93}
{'loss': 0.0086, 'grad_norm': 0.3886737823486328, 'learning_rate': 2.6292e-05, 'epoch': 56.94}
{'loss': 0.0182, 'grad_norm': 0.6907166242599487, 'learning_rate': 2.6294999999999998e-05, 'epoch': 56.94}
{'loss': 0.0211, 'grad_norm': 0.5652289390563965, 'learning_rate': 2.6298e-05, 'epoch': 56.95}
{'loss': 0.0053, 'grad_norm': 0.488039493560791, 'learning_rate': 2.6301e-05, 'epoch': 56.95}
{'loss': 0.0028, 'grad_norm': 0.3140849471092224, 'learning_rate': 2.6304e-05, 'epoch': 56.96}
{'loss': 0.0085, 'grad_norm': 0.674458920955658, 'learning_rate': 2.6307e-05, 'epoch': 56.97}
{'loss': 0.0085, 'grad_norm': 0.9293384552001953, 'learning_rate': 2.631e-05, 'epoch': 56.97}
{'loss': 0.0139, 'grad_norm': 0.7802467942237854, 'learning_rate': 2.6313e-05, 'epoch': 56.98}
{'loss': 0.0134, 'grad_norm': 5.653180122375488, 'learning_rate': 2.6316e-05, 'epoch': 56.99}
{'loss': 0.0326, 'grad_norm': 0.6110098958015442, 'learning_rate': 2.6319e-05, 'epoch': 56.99}
{'loss': 0.0555, 'grad_norm': 1.126652717590332, 'learning_rate': 2.6322e-05, 'epoch': 57.0}
  9%|▉         | 8779/100000 [5:18:12<165:13:28,  6.52s/it]                                                             9%|▉         | 8779/100000 [5:18:12<165:13:28,  6.52s/it]  9%|▉         | 8780/100000 [5:18:19<168:42:44,  6.66s/it]                                                             9%|▉         | 8780/100000 [5:18:19<168:42:44,  6.66s/it]  9%|▉         | 8781/100000 [5:18:24<156:29:08,  6.18s/it]                                                             9%|▉         | 8781/100000 [5:18:24<156:29:08,  6.18s/it]  9%|▉         | 8782/100000 [5:18:29<143:16:57,  5.65s/it]                                                             9%|▉         | 8782/100000 [5:18:29<143:16:57,  5.65s/it]  9%|▉         | 8783/100000 [5:18:33<130:32:53,  5.15s/it]                                                             9%|▉         | 8783/100000 [5:18:33<130:32:53,  5.15s/it]  9%|▉         | 8784/100000 [5:18:36<116:36:13,  4.60s/it]                                                             9%|▉         | 8784/100000 [5:18:36<116:36:13,  4.60s/it]  9%|▉         | 8785/100000 [5:18:39<104:21:10,  4.12s/it]                                                             9%|▉         | 8785/100000 [5:18:39<104:21:10,  4.12s/it]  9%|▉         | 8786/100000 [5:18:41<91:36:41,  3.62s/it]                                                             9%|▉         | 8786/100000 [5:18:41<91:36:41,  3.62s/it]  9%|▉         | 8787/100000 [5:18:44<81:41:31,  3.22s/it]                                                            9%|▉         | 8787/100000 [5:18:44<81:41:31,  3.22s/it]  9%|▉         | 8788/100000 [5:18:46<73:19:49,  2.89s/it]                                                            9%|▉         | 8788/100000 [5:18:46<73:19:49,  2.89s/it]  9%|▉         | 8789/100000 [5:18:48<66:22:04,  2.62s/it]                                                            9%|▉         | 8789/100000 [5:18:48<66:22:04,  2.62s/it]  9%|▉         | 8790/100000 [5:18:50<59:38:42,  2.35s/it]                                                            9%|▉         | 8790/100000 [5:18:50<59:38:42,  2.35s/it]  9%|▉         | 8791/100000 [5:18:51<54:39:43,  2.16s/it]                                                            9%|▉         | 8791/100000 [5:18:51<54:39:43,  2.16s/it]  9%|▉         | 8792/100000 [5:18:53<50:28:04,  1.99s/it]                                                            9%|▉         | 8792/100000 [5:18:53<50:28:04,  1.99s/it]  9%|▉         | 8793/100000 [5:18:54<46:51:37,  1.85s/it]                                                            9%|▉         | 8793/100000 [5:18:54<46:51:37,  1.85s/it]  9%|▉         | 8794/100000 [5:18:56<43:52:35,  1.73s/it]                                                            9%|▉         | 8794/100000 [5:18:56<43:52:35,  1.73s/it]  9%|▉         | 8795/100000 [5:18:57<40:42:26,  1.61s/it]                                                            9%|▉         | 8795/100000 [5:18:57<40:42:26,  1.61s/it]  9%|▉         | 8796/100000 [5:18:59<38:39:26,  1.53s/it]                                                            9%|▉         | 8796/100000 [5:18:59<38:39:26,  1.53s/it]  9%|▉         | 8797/100000 [5:19:00<36:41:21,  1.45s/it]                                                            9%|▉         | 8797/100000 [5:19:00<36:41:21,  1.45s/it]  9%|▉         | 8798/100000 [5:19:01<34:42:34,  1.37s/it]                                                            9%|▉         | 8798/100000 [5:19:01<34:42:34,  1.37s/it]  9%|▉         | 8799/100000 [5:19:02<32:53:33,  1.30s/it]                                                            9%|▉         | 8799/100000 [5:19:02<32:53:33,  1.30s/it]  9%|▉         | 8800/100000 [5:19:03<31:17:59,  1.24s/it]                                                            9%|▉         | 8800/100000 [5:19:03<31:17:59,  1.24s/it]  9%|▉         | 8801/100000 [5:19:04<29:44:40,  1.17s/it]                                                            9%|▉         | 8801/100000 [5:19:04<29:44:40,  1.17s/it]  9%|▉         | 8802/100000 [5:19:05<28:05:27,  1.11s/it]                                                            9%|▉         | 8802/100000 [5:19:05<28:05:27,  1.11s/it]  9%|▉         | 8803/100000 [5:19:06<27:04:06,  1.07s/it]                                                            9%|▉         | 8803/100000 [5:19:06<27:04:06,  1.07s/it]  9%|▉         | 8804/100000 [5:19:07<26:12:49,  1.03s/it]                                                            9%|▉         | 8804/100000 [5:19:07<26:12:49,  1.03s/it]  9%|▉         | 8805/100000 [5:19:08<25:11:16,  1.01it/s]                                                            9%|▉         | 8805/100000 [5:19:08<25:11:16,  1.01it/s]  9%|▉         | 8806/100000 [5:19:09<24:25:53,  1.04it/s]                                                            9%|▉         | 8806/100000 [5:19:09<24:25:53,  1.04it/s]  9%|▉         | 8807/100000 [5:19:10<23:42:36,  1.07it/s]                                                            9%|▉         | 8807/100000 [5:19:10<23:42:36,  1.07it/s]  9%|▉         | 8808/100000 [5:19:11<23:35:14,  1.07it/s]                                                            9%|▉         | 8808/100000 [5:19:11<23:35:14,  1.07it/s]  9%|▉         | 8809/100000 [5:19:12<23:17:47,  1.09it/s]                                                            9%|▉         | 8809/100000 [5:19:12<23:17:47,  1.09it/s]  9%|▉         | 8810/100000 [5:19:12<22:48:29,  1.11it/s]                                                            9%|▉         | 8810/100000 [5:19:12<22:48:29,  1.11it/s]  9%|▉         | 8811/100000 [5:19:13<22:05:15,  1.15it/s]                                                            9%|▉         | 8811/100000 [5:19:13<22:05:15,  1.15it/s]  9%|▉         | 8812/100000 [5:19:14<21:15:27,  1.19it/s]                                                            9%|▉         | 8812/100000 [5:19:14<21:15:27,  1.19it/s]  9%|▉         | 8813/100000 [5:19:15<21:01:39,  1.20it/s]                                                            9%|▉         | 8813/100000 [5:19:15<21:01:39,  1.20it/s]  9%|▉         | 8814/100000 [5:19:16<20:40:33,  1.23it/s]                                                            9%|▉         | 8814/100000 [5:19:16<20:40:33,  1.23it/s]  9%|▉         | 8815/100000 [5:19:16<20:14:20,  1.25it/s]                                                            9%|▉         | 8815/100000 [5:19:16<20:14:20,  1.25it/s]  9%|▉         | 8816/100000 [5:19:17<19:32:18,  1.30it/s]                                                            9%|▉         | 8816/100000 [5:19:17<19:32:18,  1.30it/s]  9%|▉         | 8817/100000 [5:19:30<111:54:32,  4.42s/it]                                                             9%|▉         | 8817/100000 [5:19:30<111:54:32,  4.42s/it]  9%|▉         | 8818/100000 [5:19:38<137:58:46,  5.45s/it]                                                             9%|▉         | 8818/100000 [5:19:38<137:58:46,  5.45s/it]  9%|▉         | 8819/100000 [5:19:43<137:19:14,  5.42s/it]                                                             9%|▉         | 8819/100000 [5:19:43<137:19:14,  5.42s/it]  9%|▉         | 8820/100000 [5:19:48<130:56:19,  5.17s/it]                                                             9%|▉         | 8820/100000 [5:19:48<130:56:19,  5.17s/it]  9%|▉         | 8821/100000 [5:19:52<121:38:11,  4.80s/it]                                                             9%|▉         | 8821/100000 [5:19:52<121:38:11,  4.80s/it]  9%|▉         | 8822/100000 [5:19:55<111:16:06,  4.39s/it]                                                             9%|▉         | 8822/100000 [5:19:55<111:16:06,  4.39s/it]  9%|▉         | 8823/100000 [5:19:58<101:37:32,  4.01s/it]                                                             9%|▉         | 8823/100000 [5:19:58<101:37:32,  4.01s/it]  9%|▉         | 8824/100000 [5:20:01<91:57:16,  3.63s/it]                                                             9%|▉         | 8824/100000 [5:20:01<91:57:16,  3.63s/it]  9%|▉         | 8825/100000 [5:20:03<82:28:56,  3.26s/it]                                                            9%|▉         | 8825/100000 [5:20:03<82:28:56,  3.26s/it]  9%|▉         | 8826/100000 [5:20:06<73:25:29,  2.90s/it]                                                            9%|▉         | 8826/100000 [5:20:06<73:25:29,  2.90s/it]  9%|▉         | 8827/100000 [5:20:07<66:20:04,  2.62s/it]                                                            9%|▉         | 8827/100000 [5:20:08<66:20:04,  2.62s/it]  9%|▉         | 8828/100000 [5:20:09<60:26:06,  2.39s/it]                                                            9%|▉         | 8828/100000 [5:20:09<60:26:06,  2.39s/it]  9%|▉         | 8829/100000 [5:20:11<55:03:40,  2.17s/it]                                                            9%|▉         | 8829/100000 [5:20:11<55:03:40,  2.17s/it]  9%|▉         | 8830/100000 [5:20:13<50:24:57,  1.99s/it]                                                            9%|▉         | 8830/100000 [5:20:13<50:24:57,  1.99s/it]  9%|▉         | 8831/100000 [5:20:14<47:21:08,  1.87s/it]                                                            9%|▉         | 8831/100000 [5:20:14<47:21:08,  1.87s/it]  9%|▉         | 8832/100000 [5:20:16<45:14:59,  1.79s/it]                                                            9%|▉         | 8832/100000 [5:20:16<45:14:59,  1.79s/it]  9%|▉         | 8833/100000 [5:20:17<42:21:40,  1.67s/it]                                                            9%|▉         | 8833/100000 [5:20:17<42:21:40,  1.67s/it]  9%|▉         | 8834/100000 [5:20:19<39:49:28,  1.57s/it]                                                            9%|▉         | 8834/100000 [5:20:19<39:49:28,  1.57s/it]  9%|▉         | 8835/100000 [5:20:20<37:36:27,  1.49s/it]                                                            9%|▉         | 8835/100000 [5:20:20<37:36:27,  1.49s/it]  9%|▉         | 8836/100000 [5:20:21<35:33:47,  1.40s/it]                                                            9%|▉         | 8836/100000 [5:20:21<35:33:47,  1.40s/it]  9%|▉         | 8837/100000 [5:20:22<33:33:33,  1.33s/it]                                                            9%|▉         | 8837/100000 [5:20:22<33:33:33,  1.33s/it]  9%|▉         | 8838/100000 [5:20:23<31:55:08,  1.26s/it]                                                            9%|▉         | 8838/100000 [5:20:23<31:55:08,  1.26s/it]  9%|▉         | 8839/100000 [5:20:24<30:15:22,  1.19s/it]                                                            9%|▉         | 8839/100000 [5:20:24<30:15:22,  1.19s/it]  9%|▉         | 8840/100000 [5:20:25<28:40:20,  1.13s/it]                                                            9%|▉         | 8840/100000 [5:20:25<28:40:20,  1.13s/it]  9%|▉         | 8841/100000 [5:20:26<27:42:19,  1.09s/it]                                                            9%|▉         | 8841/100000 [5:20:26<27:42:19,  1.09s/it]  9%|▉         | 8842/100000 [5:20:27<26:36:39,  1.05s/it]                                                            9%|▉         | 8842/100000 [5:20:27<26:36:39,  1.05s/it]  9%|▉         | 8843/100000 [5:20:28<25:45:05,  1.02s/it]                                                            9%|▉         | 8843/100000 [5:20:28<25:45:05,  1.02s/it]  9%|▉         | 8844/100000 [5:20:29<24:49:12,  1.02it/s]                                                            9%|▉         | 8844/100000 [5:20:29<24:49:12,  1.02it/s]  9%|▉         | 8845/100000 [5:20:30<24:14:50,  1.04it/s]                                                            9%|▉         | 8845/100000 [5:20:30<24:14:50,  1.04it/s]  9%|▉         | 8846/100000 [5:20:31<23:56:47,  1.06it/s]                                                            9%|▉         | 8846/100000 [5:20:31<23:56:47,  1.06it/s]  9%|▉         | 8847/100000 [5:20:32<23:00:29,  1.10it/s]                                                            9%|▉         | 8847/100000 [5:20:32<23:00:29,  1.10it/s]  9%|▉         | 8848/100000 [5:20:33<22:25:28,  1.13it/s]                                                            9%|▉         | 8848/100000 [5:20:33<22:25:28,  1.13it/s]  9%|▉         | 8849/100000 [5:20:33<21:34:10,  1.17it/s]                                                            9%|▉         | 8849/100000 [5:20:33<21:34:10,  1.17it/s]  9%|▉         | 8850/100000 [5:20:34<21:01:49,  1.20it/s]                                                            9%|▉         | 8850/100000 [5:20:34<21:01:49,  1.20it/s]  9%|▉         | 8851/100000 [5:20:35<20:28:05,  1.24it/s]                                                            9%|▉         | 8851/100000 [5:20:35<20:28:05,  1.24it/s]  9%|▉         | 8852/100000 [5:20:36<19:57:12,  1.27it/s]                                                            9%|▉         | 8852/100000 [5:20:36<19:57:12,  1.27it/s]  9%|▉         | 8853/100000 [5:20:36<19:55:38,  1.27it/s]                                                            9%|▉         | 8853/100000 [5:20:36<19:55:38,  1.27it/s]  9%|▉         | 8854/100000 [5:20:37<19:06:46,  1.32it/s]                                                            9%|▉         | 8854/100000 [5:20:37<19:06:46,  1.32it/s]  9%|▉         | 8855/100000 [5:20:49<101:39:01,  4.01s/it]                                                             9%|▉         | 8855/100000 [5:20:49<101:39:01,  4.01s/it]  9%|▉         | 8856/100000 [5:20:57<133:45:42,  5.28s/it]                                                             9%|▉         | 8856/100000 [5:20:57<133:45:42,  5.28s/it]  9%|▉         | 8857/100000 [5:21:03<136:16:24,  5.38s/it]                                                             9%|▉         | 8857/100000 [5:21:03<136:16:24,  5.38s/it]  9%|▉         | 8858/100000 [5:21:07<129:22:00,  5.11s/it]                                                             9%|▉         | 8858/100000 [5:21:07<129:22:00,  5.11s/it]  9%|▉         | 8859/100000 [5:21:11<121:05:29,  4.78s/it]                                                             9%|▉         | 8859/100000 [5:21:11<121:05:29,  4.78s/it]  9%|▉         | 8860/100000 [5:21:14<110:26:00,  4.36s/it]                                                             9%|▉         | 8860/100000 [5:21:14<110:26:00,  4.36s/it]  9%|▉         | 8861/100000 [5:21:17<99:18:30,  3.92s/it]                                                           {'loss': 0.0826, 'grad_norm': 0.6255658864974976, 'learning_rate': 2.6325e-05, 'epoch': 57.01}
{'loss': 0.0547, 'grad_norm': 0.5681101679801941, 'learning_rate': 2.6328000000000003e-05, 'epoch': 57.01}
{'loss': 0.0501, 'grad_norm': 0.5295252203941345, 'learning_rate': 2.6331000000000003e-05, 'epoch': 57.02}
{'loss': 0.0541, 'grad_norm': 0.521908164024353, 'learning_rate': 2.6334000000000002e-05, 'epoch': 57.03}
{'loss': 0.035, 'grad_norm': 0.44585034251213074, 'learning_rate': 2.6337000000000002e-05, 'epoch': 57.03}
{'loss': 0.0266, 'grad_norm': 0.45463162660598755, 'learning_rate': 2.6340000000000002e-05, 'epoch': 57.04}
{'loss': 0.0207, 'grad_norm': 0.40203532576560974, 'learning_rate': 2.6343000000000002e-05, 'epoch': 57.05}
{'loss': 0.0254, 'grad_norm': 0.46786022186279297, 'learning_rate': 2.6346e-05, 'epoch': 57.05}
{'loss': 0.028, 'grad_norm': 0.5434834361076355, 'learning_rate': 2.6349e-05, 'epoch': 57.06}
{'loss': 0.0223, 'grad_norm': 0.5877464413642883, 'learning_rate': 2.6351999999999998e-05, 'epoch': 57.06}
{'loss': 0.0182, 'grad_norm': 0.4151669442653656, 'learning_rate': 2.6354999999999998e-05, 'epoch': 57.07}
{'loss': 0.0177, 'grad_norm': 0.32337048649787903, 'learning_rate': 2.6358e-05, 'epoch': 57.08}
{'loss': 0.0139, 'grad_norm': 0.38718074560165405, 'learning_rate': 2.6361e-05, 'epoch': 57.08}
{'loss': 0.0119, 'grad_norm': 2.62727427482605, 'learning_rate': 2.6364e-05, 'epoch': 57.09}
{'loss': 0.0135, 'grad_norm': 0.7787790894508362, 'learning_rate': 2.6367e-05, 'epoch': 57.1}
{'loss': 0.0142, 'grad_norm': 0.5131046175956726, 'learning_rate': 2.637e-05, 'epoch': 57.1}
{'loss': 0.0123, 'grad_norm': 0.45095381140708923, 'learning_rate': 2.6373e-05, 'epoch': 57.11}
{'loss': 0.0142, 'grad_norm': 0.6978129148483276, 'learning_rate': 2.6376e-05, 'epoch': 57.12}
{'loss': 0.0123, 'grad_norm': 0.5404172539710999, 'learning_rate': 2.6379e-05, 'epoch': 57.12}
{'loss': 0.0108, 'grad_norm': 0.7491227984428406, 'learning_rate': 2.6382e-05, 'epoch': 57.13}
{'loss': 0.0098, 'grad_norm': 0.4529198110103607, 'learning_rate': 2.6385e-05, 'epoch': 57.14}
{'loss': 0.0227, 'grad_norm': 0.5210885405540466, 'learning_rate': 2.6388000000000002e-05, 'epoch': 57.14}
{'loss': 0.0077, 'grad_norm': 0.5692012906074524, 'learning_rate': 2.6391000000000002e-05, 'epoch': 57.15}
{'loss': 0.005, 'grad_norm': 0.49798646569252014, 'learning_rate': 2.6394000000000002e-05, 'epoch': 57.16}
{'loss': 0.0112, 'grad_norm': 0.6239396929740906, 'learning_rate': 2.6397e-05, 'epoch': 57.16}
{'loss': 0.0077, 'grad_norm': 0.5062862634658813, 'learning_rate': 2.64e-05, 'epoch': 57.17}
{'loss': 0.0089, 'grad_norm': 0.5755444765090942, 'learning_rate': 2.6403e-05, 'epoch': 57.18}
{'loss': 0.0225, 'grad_norm': 8.33802318572998, 'learning_rate': 2.6406e-05, 'epoch': 57.18}
{'loss': 0.0092, 'grad_norm': 0.6724854111671448, 'learning_rate': 2.6409e-05, 'epoch': 57.19}
{'loss': 0.0056, 'grad_norm': 0.6177037954330444, 'learning_rate': 2.6412e-05, 'epoch': 57.19}
{'loss': 0.0041, 'grad_norm': 0.3841473162174225, 'learning_rate': 2.6415e-05, 'epoch': 57.2}
{'loss': 0.0071, 'grad_norm': 0.5020402073860168, 'learning_rate': 2.6418000000000004e-05, 'epoch': 57.21}
{'loss': 0.01, 'grad_norm': 0.740915834903717, 'learning_rate': 2.6421000000000003e-05, 'epoch': 57.21}
{'loss': 0.0107, 'grad_norm': 2.606882333755493, 'learning_rate': 2.6424000000000003e-05, 'epoch': 57.22}
{'loss': 0.0071, 'grad_norm': 0.6845217943191528, 'learning_rate': 2.6427e-05, 'epoch': 57.23}
{'loss': 0.0081, 'grad_norm': 0.5646446347236633, 'learning_rate': 2.643e-05, 'epoch': 57.23}
{'loss': 0.0054, 'grad_norm': 0.6353277564048767, 'learning_rate': 2.6433e-05, 'epoch': 57.24}
{'loss': 0.0299, 'grad_norm': 1.7645903825759888, 'learning_rate': 2.6436e-05, 'epoch': 57.25}
{'loss': 0.0841, 'grad_norm': 0.9364569187164307, 'learning_rate': 2.6439e-05, 'epoch': 57.25}
{'loss': 0.0651, 'grad_norm': 0.6458081603050232, 'learning_rate': 2.6442e-05, 'epoch': 57.26}
{'loss': 0.0488, 'grad_norm': 0.5186681151390076, 'learning_rate': 2.6445e-05, 'epoch': 57.27}
{'loss': 0.0355, 'grad_norm': 0.553065836429596, 'learning_rate': 2.6448e-05, 'epoch': 57.27}
{'loss': 0.0256, 'grad_norm': 0.5103198289871216, 'learning_rate': 2.6451e-05, 'epoch': 57.28}
{'loss': 0.0229, 'grad_norm': 0.4208187162876129, 'learning_rate': 2.6454e-05, 'epoch': 57.29}
{'loss': 0.0222, 'grad_norm': 0.6272039413452148, 'learning_rate': 2.6457e-05, 'epoch': 57.29}
{'loss': 0.0229, 'grad_norm': 0.5360037088394165, 'learning_rate': 2.646e-05, 'epoch': 57.3}
{'loss': 0.0192, 'grad_norm': 0.5096069574356079, 'learning_rate': 2.6463e-05, 'epoch': 57.31}
{'loss': 0.018, 'grad_norm': 0.4568782150745392, 'learning_rate': 2.6466e-05, 'epoch': 57.31}
{'loss': 0.0154, 'grad_norm': 0.8906477689743042, 'learning_rate': 2.6469e-05, 'epoch': 57.32}
{'loss': 0.0146, 'grad_norm': 0.39842015504837036, 'learning_rate': 2.6472e-05, 'epoch': 57.32}
{'loss': 0.02, 'grad_norm': 0.7467867732048035, 'learning_rate': 2.6475e-05, 'epoch': 57.33}
{'loss': 0.0167, 'grad_norm': 0.46424317359924316, 'learning_rate': 2.6478000000000003e-05, 'epoch': 57.34}
{'loss': 0.015, 'grad_norm': 0.3943394720554352, 'learning_rate': 2.6481000000000003e-05, 'epoch': 57.34}
{'loss': 0.0088, 'grad_norm': 0.33215272426605225, 'learning_rate': 2.6484000000000003e-05, 'epoch': 57.35}
{'loss': 0.0203, 'grad_norm': 0.8242252469062805, 'learning_rate': 2.6487000000000002e-05, 'epoch': 57.36}
{'loss': 0.0056, 'grad_norm': 0.37707656621932983, 'learning_rate': 2.6490000000000002e-05, 'epoch': 57.36}
{'loss': 0.0068, 'grad_norm': 0.3575998544692993, 'learning_rate': 2.6493000000000002e-05, 'epoch': 57.37}
{'loss': 0.0065, 'grad_norm': 0.30725106596946716, 'learning_rate': 2.6496000000000002e-05, 'epoch': 57.38}
{'loss': 0.0175, 'grad_norm': 1.0800540447235107, 'learning_rate': 2.6499e-05, 'epoch': 57.38}
{'loss': 0.0208, 'grad_norm': 1.0884511470794678, 'learning_rate': 2.6501999999999998e-05, 'epoch': 57.39}
{'loss': 0.0113, 'grad_norm': 0.8361142873764038, 'learning_rate': 2.6504999999999998e-05, 'epoch': 57.4}
{'loss': 0.0157, 'grad_norm': 0.7418834567070007, 'learning_rate': 2.6508e-05, 'epoch': 57.4}
{'loss': 0.0083, 'grad_norm': 0.4589538872241974, 'learning_rate': 2.6511e-05, 'epoch': 57.41}
{'loss': 0.0091, 'grad_norm': 0.7879874110221863, 'learning_rate': 2.6514e-05, 'epoch': 57.42}
{'loss': 0.0142, 'grad_norm': 1.3819912672042847, 'learning_rate': 2.6517e-05, 'epoch': 57.42}
{'loss': 0.0174, 'grad_norm': 1.0391021966934204, 'learning_rate': 2.652e-05, 'epoch': 57.43}
{'loss': 0.0188, 'grad_norm': 1.0075461864471436, 'learning_rate': 2.6523e-05, 'epoch': 57.44}
{'loss': 0.0039, 'grad_norm': 0.2713860273361206, 'learning_rate': 2.6526e-05, 'epoch': 57.44}
{'loss': 0.0081, 'grad_norm': 0.7899738550186157, 'learning_rate': 2.6529e-05, 'epoch': 57.45}
{'loss': 0.051, 'grad_norm': 0.45777517557144165, 'learning_rate': 2.6532e-05, 'epoch': 57.45}
{'loss': 0.0058, 'grad_norm': 0.5639674067497253, 'learning_rate': 2.6535e-05, 'epoch': 57.46}
{'loss': 0.0061, 'grad_norm': 1.230996012687683, 'learning_rate': 2.6538000000000002e-05, 'epoch': 57.47}
{'loss': 0.0116, 'grad_norm': 0.9189363121986389, 'learning_rate': 2.6541000000000002e-05, 'epoch': 57.47}
{'loss': 0.0133, 'grad_norm': 1.1259243488311768, 'learning_rate': 2.6544000000000002e-05, 'epoch': 57.48}
{'loss': 0.0134, 'grad_norm': 0.8489556908607483, 'learning_rate': 2.6547000000000002e-05, 'epoch': 57.49}
{'loss': 0.0155, 'grad_norm': 1.1843643188476562, 'learning_rate': 2.655e-05, 'epoch': 57.49}
{'loss': 0.1259, 'grad_norm': 1.801662564277649, 'learning_rate': 2.6553e-05, 'epoch': 57.5}
{'loss': 0.0772, 'grad_norm': 0.8166127800941467, 'learning_rate': 2.6556e-05, 'epoch': 57.51}
{'loss': 0.0456, 'grad_norm': 0.4653361737728119, 'learning_rate': 2.6559e-05, 'epoch': 57.51}
{'loss': 0.0495, 'grad_norm': 0.7395403385162354, 'learning_rate': 2.6562e-05, 'epoch': 57.52}
{'loss': 0.0428, 'grad_norm': 0.9486024975776672, 'learning_rate': 2.6565e-05, 'epoch': 57.53}
{'loss': 0.0383, 'grad_norm': 0.5481448173522949, 'learning_rate': 2.6568000000000004e-05, 'epoch': 57.53}
  9%|▉         | 8861/100000 [5:21:17<99:18:30,  3.92s/it]  9%|▉         | 8862/100000 [5:21:20<88:22:15,  3.49s/it]                                                            9%|▉         | 8862/100000 [5:21:20<88:22:15,  3.49s/it]  9%|▉         | 8863/100000 [5:21:22<79:26:54,  3.14s/it]                                                            9%|▉         | 8863/100000 [5:21:22<79:26:54,  3.14s/it]  9%|▉         | 8864/100000 [5:21:24<70:47:38,  2.80s/it]                                                            9%|▉         | 8864/100000 [5:21:24<70:47:38,  2.80s/it]  9%|▉         | 8865/100000 [5:21:26<64:34:34,  2.55s/it]                                                            9%|▉         | 8865/100000 [5:21:26<64:34:34,  2.55s/it]  9%|▉         | 8866/100000 [5:21:28<59:18:35,  2.34s/it]                                                            9%|▉         | 8866/100000 [5:21:28<59:18:35,  2.34s/it]  9%|▉         | 8867/100000 [5:21:30<54:32:02,  2.15s/it]                                                            9%|▉         | 8867/100000 [5:21:30<54:32:02,  2.15s/it]  9%|▉         | 8868/100000 [5:21:31<50:32:48,  2.00s/it]                                                            9%|▉         | 8868/100000 [5:21:31<50:32:48,  2.00s/it]  9%|▉         | 8869/100000 [5:21:33<47:10:46,  1.86s/it]                                                            9%|▉         | 8869/100000 [5:21:33<47:10:46,  1.86s/it]  9%|▉         | 8870/100000 [5:21:34<44:07:58,  1.74s/it]                                                            9%|▉         | 8870/100000 [5:21:34<44:07:58,  1.74s/it]  9%|▉         | 8871/100000 [5:21:36<41:17:20,  1.63s/it]                                                            9%|▉         | 8871/100000 [5:21:36<41:17:20,  1.63s/it]  9%|▉         | 8872/100000 [5:21:37<39:14:09,  1.55s/it]                                                            9%|▉         | 8872/100000 [5:21:37<39:14:09,  1.55s/it]  9%|▉         | 8873/100000 [5:21:38<37:07:37,  1.47s/it]                                                            9%|▉         | 8873/100000 [5:21:38<37:07:37,  1.47s/it]  9%|▉         | 8874/100000 [5:21:40<35:32:37,  1.40s/it]                                                            9%|▉         | 8874/100000 [5:21:40<35:32:37,  1.40s/it]  9%|▉         | 8875/100000 [5:21:41<33:51:02,  1.34s/it]                                                            9%|▉         | 8875/100000 [5:21:41<33:51:02,  1.34s/it]  9%|▉         | 8876/100000 [5:21:42<32:07:20,  1.27s/it]                                                            9%|▉         | 8876/100000 [5:21:42<32:07:20,  1.27s/it]  9%|▉         | 8877/100000 [5:21:43<30:34:51,  1.21s/it]                                                            9%|▉         | 8877/100000 [5:21:43<30:34:51,  1.21s/it]  9%|▉         | 8878/100000 [5:21:44<29:19:51,  1.16s/it]                                                            9%|▉         | 8878/100000 [5:21:44<29:19:51,  1.16s/it]  9%|▉         | 8879/100000 [5:21:45<28:01:08,  1.11s/it]                                                            9%|▉         | 8879/100000 [5:21:45<28:01:08,  1.11s/it]  9%|▉         | 8880/100000 [5:21:46<26:45:21,  1.06s/it]                                                            9%|▉         | 8880/100000 [5:21:46<26:45:21,  1.06s/it]  9%|▉         | 8881/100000 [5:21:47<26:06:56,  1.03s/it]                                                            9%|▉         | 8881/100000 [5:21:47<26:06:56,  1.03s/it]  9%|▉         | 8882/100000 [5:21:48<25:16:32,  1.00it/s]                                                            9%|▉         | 8882/100000 [5:21:48<25:16:32,  1.00it/s]  9%|▉         | 8883/100000 [5:21:49<24:32:14,  1.03it/s]                                                            9%|▉         | 8883/100000 [5:21:49<24:32:14,  1.03it/s]  9%|▉         | 8884/100000 [5:21:50<23:42:16,  1.07it/s]                                                            9%|▉         | 8884/100000 [5:21:50<23:42:16,  1.07it/s]  9%|▉         | 8885/100000 [5:21:50<22:34:48,  1.12it/s]                                                            9%|▉         | 8885/100000 [5:21:50<22:34:48,  1.12it/s]  9%|▉         | 8886/100000 [5:21:51<21:40:18,  1.17it/s]                                                            9%|▉         | 8886/100000 [5:21:51<21:40:18,  1.17it/s]  9%|▉         | 8887/100000 [5:21:52<20:52:43,  1.21it/s]                                                            9%|▉         | 8887/100000 [5:21:52<20:52:43,  1.21it/s]  9%|▉         | 8888/100000 [5:21:53<19:54:32,  1.27it/s]                                                            9%|▉         | 8888/100000 [5:21:53<19:54:32,  1.27it/s]  9%|▉         | 8889/100000 [5:21:53<19:12:25,  1.32it/s]                                                            9%|▉         | 8889/100000 [5:21:53<19:12:25,  1.32it/s]  9%|▉         | 8890/100000 [5:21:54<18:33:11,  1.36it/s]                                                            9%|▉         | 8890/100000 [5:21:54<18:33:11,  1.36it/s]  9%|▉         | 8891/100000 [5:21:55<17:48:19,  1.42it/s]                                                            9%|▉         | 8891/100000 [5:21:55<17:48:19,  1.42it/s]  9%|▉         | 8892/100000 [5:21:55<16:39:29,  1.52it/s]                                                            9%|▉         | 8892/100000 [5:21:55<16:39:29,  1.52it/s]  9%|▉         | 8893/100000 [5:22:08<112:27:07,  4.44s/it]                                                             9%|▉         | 8893/100000 [5:22:08<112:27:07,  4.44s/it]  9%|▉         | 8894/100000 [5:22:17<142:14:06,  5.62s/it]                                                             9%|▉         | 8894/100000 [5:22:17<142:14:06,  5.62s/it]  9%|▉         | 8895/100000 [5:22:22<141:47:52,  5.60s/it]                                                             9%|▉         | 8895/100000 [5:22:22<141:47:52,  5.60s/it]  9%|▉         | 8896/100000 [5:22:27<136:16:10,  5.38s/it]                                                             9%|▉         | 8896/100000 [5:22:27<136:16:10,  5.38s/it]  9%|▉         | 8897/100000 [5:22:31<126:53:53,  5.01s/it]                                                             9%|▉         | 8897/100000 [5:22:31<126:53:53,  5.01s/it]  9%|▉         | 8898/100000 [5:22:35<116:09:57,  4.59s/it]                                                             9%|▉         | 8898/100000 [5:22:35<116:09:57,  4.59s/it]  9%|▉         | 8899/100000 [5:22:38<104:55:25,  4.15s/it]                                                             9%|▉         | 8899/100000 [5:22:38<104:55:25,  4.15s/it]  9%|▉         | 8900/100000 [5:22:41<94:59:11,  3.75s/it]                                                             9%|▉         | 8900/100000 [5:22:41<94:59:11,  3.75s/it]  9%|▉         | 8901/100000 [5:22:43<85:11:29,  3.37s/it]                                                            9%|▉         | 8901/100000 [5:22:43<85:11:29,  3.37s/it]  9%|▉         | 8902/100000 [5:22:46<76:46:10,  3.03s/it]                                                            9%|▉         | 8902/100000 [5:22:46<76:46:10,  3.03s/it]  9%|▉         | 8903/100000 [5:22:48<69:34:52,  2.75s/it]                                                            9%|▉         | 8903/100000 [5:22:48<69:34:52,  2.75s/it]  9%|▉         | 8904/100000 [5:22:50<62:57:08,  2.49s/it]                                                            9%|▉         | 8904/100000 [5:22:50<62:57:08,  2.49s/it]  9%|▉         | 8905/100000 [5:22:51<57:16:04,  2.26s/it]                                                            9%|▉         | 8905/100000 [5:22:51<57:16:04,  2.26s/it]  9%|▉         | 8906/100000 [5:22:53<52:35:01,  2.08s/it]                                                            9%|▉         | 8906/100000 [5:22:53<52:35:01,  2.08s/it]  9%|▉         | 8907/100000 [5:22:55<49:05:28,  1.94s/it]                                                            9%|▉         | 8907/100000 [5:22:55<49:05:28,  1.94s/it]  9%|▉         | 8908/100000 [5:22:56<45:59:58,  1.82s/it]                                                            9%|▉         | 8908/100000 [5:22:56<45:59:58,  1.82s/it]  9%|▉         | 8909/100000 [5:22:58<43:06:11,  1.70s/it]                                                            9%|▉         | 8909/100000 [5:22:58<43:06:11,  1.70s/it]  9%|▉         | 8910/100000 [5:22:59<41:05:38,  1.62s/it]                                                            9%|▉         | 8910/100000 [5:22:59<41:05:38,  1.62s/it]  9%|▉         | 8911/100000 [5:23:00<38:17:12,  1.51s/it]                                                            9%|▉         | 8911/100000 [5:23:00<38:17:12,  1.51s/it]  9%|▉         | 8912/100000 [5:23:02<36:21:23,  1.44s/it]                                                            9%|▉         | 8912/100000 [5:23:02<36:21:23,  1.44s/it]  9%|▉         | 8913/100000 [5:23:03<34:42:35,  1.37s/it]                                                            9%|▉         | 8913/100000 [5:23:03<34:42:35,  1.37s/it]  9%|▉         | 8914/100000 [5:23:04<32:57:43,  1.30s/it]                                                            9%|▉         | 8914/100000 [5:23:04<32:57:43,  1.30s/it]  9%|▉         | 8915/100000 [5:23:05<31:20:00,  1.24s/it]                                                            9%|▉         | 8915/100000 [5:23:05<31:20:00,  1.24s/it]  9%|▉         | 8916/100000 [5:23:06<29:54:41,  1.18s/it]                                                            9%|▉         | 8916/100000 [5:23:06<29:54:41,  1.18s/it]  9%|▉         | 8917/100000 [5:23:07<28:30:59,  1.13s/it]                                                            9%|▉         | 8917/100000 [5:23:07<28:30:59,  1.13s/it]  9%|▉         | 8918/100000 [5:23:08<26:48:09,  1.06s/it]                                                            9%|▉         | 8918/100000 [5:23:08<26:48:09,  1.06s/it]  9%|▉         | 8919/100000 [5:23:09<25:45:01,  1.02s/it]                                                            9%|▉         | 8919/100000 [5:23:09<25:45:01,  1.02s/it]  9%|▉         | 8920/100000 [5:23:10<24:46:08,  1.02it/s]                                                            9%|▉         | 8920/100000 [5:23:10<24:46:08,  1.02it/s]  9%|▉         | 8921/100000 [5:23:11<23:40:26,  1.07it/s]                                                            9%|▉         | 8921/100000 [5:23:11<23:40:26,  1.07it/s]  9%|▉         | 8922/100000 [5:23:11<22:50:15,  1.11it/s]                                                            9%|▉         | 8922/100000 [5:23:11<22:50:15,  1.11it/s]  9%|▉         | 8923/100000 [5:23:12<22:08:10,  1.14it/s]                                                            9%|▉         | 8923/100000 [5:23:12<22:08:10,  1.14it/s]  9%|▉         | 8924/100000 [5:23:13<21:00:44,  1.20it/s]                                                            9%|▉         | 8924/100000 [5:23:13<21:00:44,  1.20it/s]  9%|▉         | 8925/100000 [5:23:14<19:53:36,  1.27it/s]                                                            9%|▉         | 8925/100000 [5:23:14<19:53:36,  1.27it/s]  9%|▉         | 8926/100000 [5:23:14<18:58:20,  1.33it/s]                                                            9%|▉         | 8926/100000 [5:23:14<18:58:20,  1.33it/s]  9%|▉         | 8927/100000 [5:23:15<18:24:20,  1.37it/s]                                                            9%|▉         | 8927/100000 [5:23:15<18:24:20,  1.37it/s]  9%|▉         | 8928/100000 [5:23:16<17:41:08,  1.43it/s]                                                            9%|▉         | 8928/100000 [5:23:16<17:41:08,  1.43it/s]  9%|▉         | 8929/100000 [5:23:16<17:48:14,  1.42it/s]                                                            9%|▉         | 8929/100000 [5:23:16<17:48:14,  1.42it/s]  9%|▉         | 8930/100000 [5:23:17<17:12:04,  1.47it/s]                                                            9%|▉         | 8930/100000 [5:23:17<17:12:04,  1.47it/s]  9%|▉         | 8931/100000 [5:23:26<78:23:55,  3.10s/it]                                                            9%|▉         | 8931/100000 [5:23:26<78:23:55,  3.10s/it]  9%|▉         | 8932/100000 [5:23:27<64:54:16,  2.57s/it]                                                            9%|▉         | 8932/100000 [5:23:27<64:54:16,  2.57s/it]{'loss': 0.0601, 'grad_norm': 1.1167869567871094, 'learning_rate': 2.6571000000000004e-05, 'epoch': 57.54}
{'loss': 0.0362, 'grad_norm': 0.8492358326911926, 'learning_rate': 2.6574e-05, 'epoch': 57.55}
{'loss': 0.0403, 'grad_norm': 0.6796233057975769, 'learning_rate': 2.6577e-05, 'epoch': 57.55}
{'loss': 0.0214, 'grad_norm': 0.4964083433151245, 'learning_rate': 2.658e-05, 'epoch': 57.56}
{'loss': 0.0146, 'grad_norm': 0.4377773702144623, 'learning_rate': 2.6583e-05, 'epoch': 57.56}
{'loss': 0.017, 'grad_norm': 0.471513569355011, 'learning_rate': 2.6586e-05, 'epoch': 57.57}
{'loss': 0.0221, 'grad_norm': 0.7329806685447693, 'learning_rate': 2.6589e-05, 'epoch': 57.58}
{'loss': 0.0138, 'grad_norm': 0.49478837847709656, 'learning_rate': 2.6592e-05, 'epoch': 57.58}
{'loss': 0.0248, 'grad_norm': 0.4984396994113922, 'learning_rate': 2.6595e-05, 'epoch': 57.59}
{'loss': 0.0586, 'grad_norm': 0.5075521469116211, 'learning_rate': 2.6598000000000002e-05, 'epoch': 57.6}
{'loss': 0.0189, 'grad_norm': 0.6939003467559814, 'learning_rate': 2.6601e-05, 'epoch': 57.6}
{'loss': 0.0204, 'grad_norm': 0.6182692050933838, 'learning_rate': 2.6604e-05, 'epoch': 57.61}
{'loss': 0.0111, 'grad_norm': 0.5222489833831787, 'learning_rate': 2.6607e-05, 'epoch': 57.62}
{'loss': 0.0071, 'grad_norm': 0.28828808665275574, 'learning_rate': 2.661e-05, 'epoch': 57.62}
{'loss': 0.013, 'grad_norm': 0.4407082200050354, 'learning_rate': 2.6613e-05, 'epoch': 57.63}
{'loss': 0.0093, 'grad_norm': 0.40614423155784607, 'learning_rate': 2.6616e-05, 'epoch': 57.64}
{'loss': 0.0111, 'grad_norm': 0.5092353820800781, 'learning_rate': 2.6619e-05, 'epoch': 57.64}
{'loss': 0.0132, 'grad_norm': 0.5777338743209839, 'learning_rate': 2.6622e-05, 'epoch': 57.65}
{'loss': 0.0282, 'grad_norm': 0.5968455672264099, 'learning_rate': 2.6625e-05, 'epoch': 57.66}
{'loss': 0.0069, 'grad_norm': 0.7459278106689453, 'learning_rate': 2.6628e-05, 'epoch': 57.66}
{'loss': 0.0107, 'grad_norm': 0.6561416983604431, 'learning_rate': 2.6631000000000003e-05, 'epoch': 57.67}
{'loss': 0.006, 'grad_norm': 0.4462380111217499, 'learning_rate': 2.6634000000000003e-05, 'epoch': 57.68}
{'loss': 0.0936, 'grad_norm': 1.569033145904541, 'learning_rate': 2.6637000000000003e-05, 'epoch': 57.68}
{'loss': 0.0055, 'grad_norm': 0.4096440076828003, 'learning_rate': 2.6640000000000002e-05, 'epoch': 57.69}
{'loss': 0.0412, 'grad_norm': 5.751771450042725, 'learning_rate': 2.6643000000000002e-05, 'epoch': 57.69}
{'loss': 0.0048, 'grad_norm': 0.43808305263519287, 'learning_rate': 2.6646000000000002e-05, 'epoch': 57.7}
{'loss': 0.0196, 'grad_norm': 1.6203997135162354, 'learning_rate': 2.6649e-05, 'epoch': 57.71}
{'loss': 0.0101, 'grad_norm': 1.0100812911987305, 'learning_rate': 2.6651999999999998e-05, 'epoch': 57.71}
{'loss': 0.0097, 'grad_norm': 0.8416292667388916, 'learning_rate': 2.6654999999999998e-05, 'epoch': 57.72}
{'loss': 0.0331, 'grad_norm': 0.8625369668006897, 'learning_rate': 2.6657999999999998e-05, 'epoch': 57.73}
{'loss': 0.0083, 'grad_norm': 1.8761415481567383, 'learning_rate': 2.6661e-05, 'epoch': 57.73}
{'loss': 0.003, 'grad_norm': 0.6041485071182251, 'learning_rate': 2.6664e-05, 'epoch': 57.74}
{'loss': 0.1261, 'grad_norm': 1.4071736335754395, 'learning_rate': 2.6667e-05, 'epoch': 57.75}
{'loss': 0.0764, 'grad_norm': 0.7074599862098694, 'learning_rate': 2.667e-05, 'epoch': 57.75}
{'loss': 0.0579, 'grad_norm': 0.7030696868896484, 'learning_rate': 2.6673e-05, 'epoch': 57.76}
{'loss': 0.0477, 'grad_norm': 0.5676921606063843, 'learning_rate': 2.6676e-05, 'epoch': 57.77}
{'loss': 0.0458, 'grad_norm': 0.7370282411575317, 'learning_rate': 2.6679e-05, 'epoch': 57.77}
{'loss': 0.0353, 'grad_norm': 0.6234330534934998, 'learning_rate': 2.6682e-05, 'epoch': 57.78}
{'loss': 0.0304, 'grad_norm': 0.589933454990387, 'learning_rate': 2.6685e-05, 'epoch': 57.79}
{'loss': 0.0285, 'grad_norm': 0.738743782043457, 'learning_rate': 2.6688e-05, 'epoch': 57.79}
{'loss': 0.0192, 'grad_norm': 0.6108332276344299, 'learning_rate': 2.6691000000000002e-05, 'epoch': 57.8}
{'loss': 0.0269, 'grad_norm': 0.7235342264175415, 'learning_rate': 2.6694000000000002e-05, 'epoch': 57.81}
{'loss': 0.0197, 'grad_norm': 0.38819536566734314, 'learning_rate': 2.6697000000000002e-05, 'epoch': 57.81}
{'loss': 0.0172, 'grad_norm': 0.38986578583717346, 'learning_rate': 2.6700000000000002e-05, 'epoch': 57.82}
{'loss': 0.022, 'grad_norm': 1.0189307928085327, 'learning_rate': 2.6703e-05, 'epoch': 57.82}
{'loss': 0.0125, 'grad_norm': 0.4015810191631317, 'learning_rate': 2.6706e-05, 'epoch': 57.83}
{'loss': 0.0137, 'grad_norm': 0.6278086304664612, 'learning_rate': 2.6709e-05, 'epoch': 57.84}
{'loss': 0.0218, 'grad_norm': 1.1396183967590332, 'learning_rate': 2.6712e-05, 'epoch': 57.84}
{'loss': 0.0175, 'grad_norm': 0.5858739614486694, 'learning_rate': 2.6715e-05, 'epoch': 57.85}
{'loss': 0.0175, 'grad_norm': 0.40833476185798645, 'learning_rate': 2.6718e-05, 'epoch': 57.86}
{'loss': 0.011, 'grad_norm': 0.4044695496559143, 'learning_rate': 2.6721e-05, 'epoch': 57.86}
{'loss': 0.0132, 'grad_norm': 0.8642796874046326, 'learning_rate': 2.6724e-05, 'epoch': 57.87}
{'loss': 0.0273, 'grad_norm': 1.1288617849349976, 'learning_rate': 2.6727e-05, 'epoch': 57.88}
{'loss': 0.0104, 'grad_norm': 0.3588671088218689, 'learning_rate': 2.673e-05, 'epoch': 57.88}
{'loss': 0.0088, 'grad_norm': 0.36955368518829346, 'learning_rate': 2.6733e-05, 'epoch': 57.89}
{'loss': 0.0069, 'grad_norm': 0.6269460320472717, 'learning_rate': 2.6736e-05, 'epoch': 57.9}
{'loss': 0.0174, 'grad_norm': 0.6967498064041138, 'learning_rate': 2.6739e-05, 'epoch': 57.9}
{'loss': 0.0329, 'grad_norm': 1.381544589996338, 'learning_rate': 2.6742e-05, 'epoch': 57.91}
{'loss': 0.0164, 'grad_norm': 1.0233933925628662, 'learning_rate': 2.6745e-05, 'epoch': 57.92}
{'loss': 0.0341, 'grad_norm': 0.4308152496814728, 'learning_rate': 2.6748e-05, 'epoch': 57.92}
{'loss': 0.0104, 'grad_norm': 0.4483242332935333, 'learning_rate': 2.6751000000000002e-05, 'epoch': 57.93}
{'loss': 0.0093, 'grad_norm': 0.5527045130729675, 'learning_rate': 2.6754e-05, 'epoch': 57.94}
{'loss': 0.0191, 'grad_norm': 0.6971291303634644, 'learning_rate': 2.6757e-05, 'epoch': 57.94}
{'loss': 0.0236, 'grad_norm': 0.9524756073951721, 'learning_rate': 2.676e-05, 'epoch': 57.95}
{'loss': 0.0217, 'grad_norm': 0.7128652334213257, 'learning_rate': 2.6763e-05, 'epoch': 57.95}
{'loss': 0.003, 'grad_norm': 0.26834169030189514, 'learning_rate': 2.6766e-05, 'epoch': 57.96}
{'loss': 0.0253, 'grad_norm': 1.7443830966949463, 'learning_rate': 2.6769e-05, 'epoch': 57.97}
{'loss': 0.0319, 'grad_norm': 2.2639718055725098, 'learning_rate': 2.6772e-05, 'epoch': 57.97}
{'loss': 0.0345, 'grad_norm': 1.674955129623413, 'learning_rate': 2.6775e-05, 'epoch': 57.98}
{'loss': 0.0204, 'grad_norm': 1.3646527528762817, 'learning_rate': 2.6778e-05, 'epoch': 57.99}
{'loss': 0.0514, 'grad_norm': 0.5941437482833862, 'learning_rate': 2.6781000000000003e-05, 'epoch': 57.99}
{'loss': 0.0994, 'grad_norm': 0.8496437668800354, 'learning_rate': 2.6784000000000003e-05, 'epoch': 58.0}
  9%|▉         | 8933/100000 [5:23:44<175:02:55,  6.92s/it]                                                             9%|▉         | 8933/100000 [5:23:44<175:02:55,  6.92s/it]  9%|▉         | 8934/100000 [5:23:52<180:57:02,  7.15s/it]                                                             9%|▉         | 8934/100000 [5:23:52<180:57:02,  7.15s/it]  9%|▉         | 8935/100000 [5:23:57<168:45:52,  6.67s/it]                                                             9%|▉         | 8935/100000 [5:23:57<168:45:52,  6.67s/it]  9%|▉         | 8936/100000 [5:24:02<153:45:49,  6.08s/it]                                                             9%|▉         | 8936/100000 [5:24:02<153:45:49,  6.08s/it]  9%|▉         | 8937/100000 [5:24:06<138:19:32,  5.47s/it]                                                             9%|▉         | 8937/100000 [5:24:06<138:19:32,  5.47s/it]  9%|▉         | 8938/100000 [5:24:10<123:27:48,  4.88s/it]                                                             9%|▉         | 8938/100000 [5:24:10<123:27:48,  4.88s/it]  9%|▉         | 8939/100000 [5:24:13<109:35:22,  4.33s/it]                                                             9%|▉         | 8939/100000 [5:24:13<109:35:22,  4.33s/it]  9%|▉         | 8940/100000 [5:24:15<96:49:49,  3.83s/it]                                                             9%|▉         | 8940/100000 [5:24:15<96:49:49,  3.83s/it]  9%|▉         | 8941/100000 [5:24:18<84:56:48,  3.36s/it]                                                            9%|▉         | 8941/100000 [5:24:18<84:56:48,  3.36s/it]  9%|▉         | 8942/100000 [5:24:20<76:13:58,  3.01s/it]                                                            9%|▉         | 8942/100000 [5:24:20<76:13:58,  3.01s/it]  9%|▉         | 8943/100000 [5:24:22<68:48:42,  2.72s/it]                                                            9%|▉         | 8943/100000 [5:24:22<68:48:42,  2.72s/it]  9%|▉         | 8944/100000 [5:24:24<62:38:56,  2.48s/it]                                                            9%|▉         | 8944/100000 [5:24:24<62:38:56,  2.48s/it]  9%|▉         | 8945/100000 [5:24:25<57:14:29,  2.26s/it]                                                            9%|▉         | 8945/100000 [5:24:25<57:14:29,  2.26s/it]  9%|▉         | 8946/100000 [5:24:27<52:40:56,  2.08s/it]                                                            9%|▉         | 8946/100000 [5:24:27<52:40:56,  2.08s/it]  9%|▉         | 8947/100000 [5:24:29<49:00:00,  1.94s/it]                                                            9%|▉         | 8947/100000 [5:24:29<49:00:00,  1.94s/it]  9%|▉         | 8948/100000 [5:24:30<45:24:10,  1.80s/it]                                                            9%|▉         | 8948/100000 [5:24:30<45:24:10,  1.80s/it]  9%|▉         | 8949/100000 [5:24:32<42:43:07,  1.69s/it]                                                            9%|▉         | 8949/100000 [5:24:32<42:43:07,  1.69s/it]  9%|▉         | 8950/100000 [5:24:33<39:52:52,  1.58s/it]                                                            9%|▉         | 8950/100000 [5:24:33<39:52:52,  1.58s/it]  9%|▉         | 8951/100000 [5:24:34<37:59:11,  1.50s/it]                                                            9%|▉         | 8951/100000 [5:24:34<37:59:11,  1.50s/it]  9%|▉         | 8952/100000 [5:24:35<36:04:19,  1.43s/it]                                                            9%|▉         | 8952/100000 [5:24:35<36:04:19,  1.43s/it]  9%|▉         | 8953/100000 [5:24:37<34:14:20,  1.35s/it]                                                            9%|▉         | 8953/100000 [5:24:37<34:14:20,  1.35s/it]  9%|▉         | 8954/100000 [5:24:38<32:34:27,  1.29s/it]                                                            9%|▉         | 8954/100000 [5:24:38<32:34:27,  1.29s/it]  9%|▉         | 8955/100000 [5:24:39<30:44:33,  1.22s/it]                                                            9%|▉         | 8955/100000 [5:24:39<30:44:33,  1.22s/it]  9%|▉         | 8956/100000 [5:24:40<28:54:32,  1.14s/it]                                                            9%|▉         | 8956/100000 [5:24:40<28:54:32,  1.14s/it]  9%|▉         | 8957/100000 [5:24:41<27:23:27,  1.08s/it]                                                            9%|▉         | 8957/100000 [5:24:41<27:23:27,  1.08s/it]  9%|▉         | 8958/100000 [5:24:42<26:10:59,  1.04s/it]                                                            9%|▉         | 8958/100000 [5:24:42<26:10:59,  1.04s/it]  9%|▉         | 8959/100000 [5:24:43<25:13:52,  1.00it/s]                                                            9%|▉         | 8959/100000 [5:24:43<25:13:52,  1.00it/s]  9%|▉         | 8960/100000 [5:24:44<24:45:19,  1.02it/s]                                                            9%|▉         | 8960/100000 [5:24:44<24:45:19,  1.02it/s]  9%|▉         | 8961/100000 [5:24:44<23:58:06,  1.06it/s]                                                            9%|▉         | 8961/100000 [5:24:44<23:58:06,  1.06it/s]  9%|▉         | 8962/100000 [5:24:45<22:44:54,  1.11it/s]                                                            9%|▉         | 8962/100000 [5:24:45<22:44:54,  1.11it/s]  9%|▉         | 8963/100000 [5:24:46<21:59:08,  1.15it/s]                                                            9%|▉         | 8963/100000 [5:24:46<21:59:08,  1.15it/s]  9%|▉         | 8964/100000 [5:24:47<21:41:43,  1.17it/s]                                                            9%|▉         | 8964/100000 [5:24:47<21:41:43,  1.17it/s]  9%|▉         | 8965/100000 [5:24:48<21:20:15,  1.19it/s]                                                            9%|▉         | 8965/100000 [5:24:48<21:20:15,  1.19it/s]  9%|▉         | 8966/100000 [5:24:48<21:20:08,  1.19it/s]                                                            9%|▉         | 8966/100000 [5:24:48<21:20:08,  1.19it/s]  9%|▉         | 8967/100000 [5:24:49<20:25:40,  1.24it/s]                                                            9%|▉         | 8967/100000 [5:24:49<20:25:40,  1.24it/s]  9%|▉         | 8968/100000 [5:24:50<19:34:58,  1.29it/s]                                                            9%|▉         | 8968/100000 [5:24:50<19:34:58,  1.29it/s]  9%|▉         | 8969/100000 [5:24:51<19:05:18,  1.32it/s]                                                            9%|▉         | 8969/100000 [5:24:51<19:05:18,  1.32it/s]  9%|▉         | 8970/100000 [5:24:51<18:27:05,  1.37it/s]                                                            9%|▉         | 8970/100000 [5:24:51<18:27:05,  1.37it/s]  9%|▉         | 8971/100000 [5:25:03<100:25:40,  3.97s/it]                                                             9%|▉         | 8971/100000 [5:25:03<100:25:40,  3.97s/it]  9%|▉         | 8972/100000 [5:25:11<131:53:55,  5.22s/it]                                                             9%|▉         | 8972/100000 [5:25:11<131:53:55,  5.22s/it]  9%|▉         | 8973/100000 [5:25:17<135:54:36,  5.38s/it]                                                             9%|▉         | 8973/100000 [5:25:17<135:54:36,  5.38s/it]  9%|▉         | 8974/100000 [5:25:21<130:46:26,  5.17s/it]                                                             9%|▉         | 8974/100000 [5:25:21<130:46:26,  5.17s/it]  9%|▉         | 8975/100000 [5:25:25<122:05:05,  4.83s/it]                                                             9%|▉         | 8975/100000 [5:25:25<122:05:05,  4.83s/it]  9%|▉         | 8976/100000 [5:25:29<112:00:35,  4.43s/it]                                                             9%|▉         | 8976/100000 [5:25:29<112:00:35,  4.43s/it]  9%|▉         | 8977/100000 [5:25:32<101:23:22,  4.01s/it]                                                             9%|▉         | 8977/100000 [5:25:32<101:23:22,  4.01s/it]  9%|▉         | 8978/100000 [5:25:35<90:49:09,  3.59s/it]                                                             9%|▉         | 8978/100000 [5:25:35<90:49:09,  3.59s/it]  9%|▉         | 8979/100000 [5:25:37<80:53:44,  3.20s/it]                                                            9%|▉         | 8979/100000 [5:25:37<80:53:44,  3.20s/it]  9%|▉         | 8980/100000 [5:25:39<72:36:01,  2.87s/it]                                                            9%|▉         | 8980/100000 [5:25:39<72:36:01,  2.87s/it]  9%|▉         | 8981/100000 [5:25:41<65:29:14,  2.59s/it]                                                            9%|▉         | 8981/100000 [5:25:41<65:29:14,  2.59s/it]  9%|▉         | 8982/100000 [5:25:43<59:40:19,  2.36s/it]                                                            9%|▉         | 8982/100000 [5:25:43<59:40:19,  2.36s/it]  9%|▉         | 8983/100000 [5:25:44<54:54:45,  2.17s/it]                                                            9%|▉         | 8983/100000 [5:25:44<54:54:45,  2.17s/it]  9%|▉         | 8984/100000 [5:25:46<50:40:15,  2.00s/it]                                                            9%|▉         | 8984/100000 [5:25:46<50:40:15,  2.00s/it]  9%|▉         | 8985/100000 [5:25:48<47:17:59,  1.87s/it]                                                            9%|▉         | 8985/100000 [5:25:48<47:17:59,  1.87s/it]  9%|▉         | 8986/100000 [5:25:49<44:16:11,  1.75s/it]                                                            9%|▉         | 8986/100000 [5:25:49<44:16:11,  1.75s/it]  9%|▉         | 8987/100000 [5:25:50<41:36:31,  1.65s/it]                                                            9%|▉         | 8987/100000 [5:25:50<41:36:31,  1.65s/it]  9%|▉         | 8988/100000 [5:25:52<38:46:46,  1.53s/it]                                                            9%|▉         | 8988/100000 [5:25:52<38:46:46,  1.53s/it]  9%|▉         | 8989/100000 [5:25:53<36:47:34,  1.46s/it]                                                            9%|▉         | 8989/100000 [5:25:53<36:47:34,  1.46s/it]  9%|▉         | 8990/100000 [5:25:54<35:05:08,  1.39s/it]                                                            9%|▉         | 8990/100000 [5:25:54<35:05:08,  1.39s/it]  9%|▉         | 8991/100000 [5:25:55<33:05:33,  1.31s/it]                                                            9%|▉         | 8991/100000 [5:25:55<33:05:33,  1.31s/it]  9%|▉         | 8992/100000 [5:25:56<31:32:54,  1.25s/it]                                                            9%|▉         | 8992/100000 [5:25:56<31:32:54,  1.25s/it]  9%|▉         | 8993/100000 [5:25:58<30:19:17,  1.20s/it]                                                            9%|▉         | 8993/100000 [5:25:58<30:19:17,  1.20s/it]  9%|▉         | 8994/100000 [5:25:59<28:53:51,  1.14s/it]                                                            9%|▉         | 8994/100000 [5:25:59<28:53:51,  1.14s/it]  9%|▉         | 8995/100000 [5:26:00<27:49:35,  1.10s/it]                                                            9%|▉         | 8995/100000 [5:26:00<27:49:35,  1.10s/it]  9%|▉         | 8996/100000 [5:26:01<26:50:11,  1.06s/it]                                                            9%|▉         | 8996/100000 [5:26:01<26:50:11,  1.06s/it]  9%|▉         | 8997/100000 [5:26:02<26:00:42,  1.03s/it]                                                            9%|▉         | 8997/100000 [5:26:02<26:00:42,  1.03s/it]  9%|▉         | 8998/100000 [5:26:02<24:53:29,  1.02it/s]                                                            9%|▉         | 8998/100000 [5:26:02<24:53:29,  1.02it/s]  9%|▉         | 8999/100000 [5:26:03<23:59:32,  1.05it/s]                                                            9%|▉         | 8999/100000 [5:26:03<23:59:32,  1.05it/s]  9%|▉         | 9000/100000 [5:26:04<22:55:36,  1.10it/s]                                                            9%|▉         | 9000/100000 [5:26:04<22:55:36,  1.10it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
{'loss': 0.0848, 'grad_norm': 0.614337146282196, 'learning_rate': 2.6787000000000003e-05, 'epoch': 58.01}
{'loss': 0.056, 'grad_norm': 1.3926384449005127, 'learning_rate': 2.6790000000000003e-05, 'epoch': 58.01}
{'loss': 0.0443, 'grad_norm': 0.4876740276813507, 'learning_rate': 2.6793000000000002e-05, 'epoch': 58.02}
{'loss': 0.0319, 'grad_norm': 0.3533487319946289, 'learning_rate': 2.6796e-05, 'epoch': 58.03}
{'loss': 0.0252, 'grad_norm': 0.5177319645881653, 'learning_rate': 2.6799e-05, 'epoch': 58.03}
{'loss': 0.023, 'grad_norm': 0.4440218210220337, 'learning_rate': 2.6802e-05, 'epoch': 58.04}
{'loss': 0.0214, 'grad_norm': 0.4067361056804657, 'learning_rate': 2.6805e-05, 'epoch': 58.05}
{'loss': 0.0197, 'grad_norm': 0.6576463580131531, 'learning_rate': 2.6807999999999998e-05, 'epoch': 58.05}
{'loss': 0.0218, 'grad_norm': 0.5398200154304504, 'learning_rate': 2.6811e-05, 'epoch': 58.06}
{'loss': 0.0151, 'grad_norm': 0.3821515142917633, 'learning_rate': 2.6814e-05, 'epoch': 58.06}
{'loss': 0.0247, 'grad_norm': 0.7900677919387817, 'learning_rate': 2.6817e-05, 'epoch': 58.07}
{'loss': 0.0124, 'grad_norm': 0.4027329087257385, 'learning_rate': 2.682e-05, 'epoch': 58.08}
{'loss': 0.0111, 'grad_norm': 0.3511236310005188, 'learning_rate': 2.6823e-05, 'epoch': 58.08}
{'loss': 0.0065, 'grad_norm': 0.34068962931632996, 'learning_rate': 2.6826e-05, 'epoch': 58.09}
{'loss': 0.0154, 'grad_norm': 0.6717095971107483, 'learning_rate': 2.6829e-05, 'epoch': 58.1}
{'loss': 0.0641, 'grad_norm': 1.2318456172943115, 'learning_rate': 2.6832e-05, 'epoch': 58.1}
{'loss': 0.0063, 'grad_norm': 0.44007471203804016, 'learning_rate': 2.6835e-05, 'epoch': 58.11}
{'loss': 0.0179, 'grad_norm': 1.4079734086990356, 'learning_rate': 2.6838e-05, 'epoch': 58.12}
{'loss': 0.0048, 'grad_norm': 0.31832975149154663, 'learning_rate': 2.6841000000000003e-05, 'epoch': 58.12}
{'loss': 0.0071, 'grad_norm': 0.49923059344291687, 'learning_rate': 2.6844000000000003e-05, 'epoch': 58.13}
{'loss': 0.0111, 'grad_norm': 0.48822957277297974, 'learning_rate': 2.6847000000000002e-05, 'epoch': 58.14}
{'loss': 0.0123, 'grad_norm': 0.4882010221481323, 'learning_rate': 2.6850000000000002e-05, 'epoch': 58.14}
{'loss': 0.0219, 'grad_norm': 1.180547833442688, 'learning_rate': 2.6853000000000002e-05, 'epoch': 58.15}
{'loss': 0.0352, 'grad_norm': 0.6590543389320374, 'learning_rate': 2.6856000000000002e-05, 'epoch': 58.16}
{'loss': 0.0107, 'grad_norm': 0.7275116443634033, 'learning_rate': 2.6859e-05, 'epoch': 58.16}
{'loss': 0.0142, 'grad_norm': 0.9226766228675842, 'learning_rate': 2.6862e-05, 'epoch': 58.17}
{'loss': 0.0054, 'grad_norm': 0.4683894217014313, 'learning_rate': 2.6865e-05, 'epoch': 58.18}
{'loss': 0.0508, 'grad_norm': 0.6909335851669312, 'learning_rate': 2.6867999999999998e-05, 'epoch': 58.18}
{'loss': 0.0498, 'grad_norm': 0.715910017490387, 'learning_rate': 2.6871e-05, 'epoch': 58.19}
{'loss': 0.0118, 'grad_norm': 1.3289098739624023, 'learning_rate': 2.6874e-05, 'epoch': 58.19}
{'loss': 0.006, 'grad_norm': 0.5012878179550171, 'learning_rate': 2.6877e-05, 'epoch': 58.2}
{'loss': 0.0038, 'grad_norm': 0.34513944387435913, 'learning_rate': 2.688e-05, 'epoch': 58.21}
{'loss': 0.0278, 'grad_norm': 1.4859379529953003, 'learning_rate': 2.6883e-05, 'epoch': 58.21}
{'loss': 0.0111, 'grad_norm': 0.4288955628871918, 'learning_rate': 2.6886e-05, 'epoch': 58.22}
{'loss': 0.042, 'grad_norm': 3.2505128383636475, 'learning_rate': 2.6889e-05, 'epoch': 58.23}
{'loss': 0.0132, 'grad_norm': 0.7960237860679626, 'learning_rate': 2.6892e-05, 'epoch': 58.23}
{'loss': 0.0041, 'grad_norm': 0.5837253928184509, 'learning_rate': 2.6895e-05, 'epoch': 58.24}
{'loss': 0.016, 'grad_norm': 1.075203776359558, 'learning_rate': 2.6898e-05, 'epoch': 58.25}
{'loss': 0.1016, 'grad_norm': 0.821635901927948, 'learning_rate': 2.6901000000000002e-05, 'epoch': 58.25}
{'loss': 0.0596, 'grad_norm': 0.9024339914321899, 'learning_rate': 2.6904000000000002e-05, 'epoch': 58.26}
{'loss': 0.0429, 'grad_norm': 0.6789851784706116, 'learning_rate': 2.6907000000000002e-05, 'epoch': 58.27}
{'loss': 0.044, 'grad_norm': 0.6047398447990417, 'learning_rate': 2.691e-05, 'epoch': 58.27}
{'loss': 0.0326, 'grad_norm': 0.46803611516952515, 'learning_rate': 2.6913e-05, 'epoch': 58.28}
{'loss': 0.0248, 'grad_norm': 0.5851209163665771, 'learning_rate': 2.6916e-05, 'epoch': 58.29}
{'loss': 0.0359, 'grad_norm': 0.5931286215782166, 'learning_rate': 2.6919e-05, 'epoch': 58.29}
{'loss': 0.0297, 'grad_norm': 1.2153244018554688, 'learning_rate': 2.6922e-05, 'epoch': 58.3}
{'loss': 0.0248, 'grad_norm': 1.1240649223327637, 'learning_rate': 2.6925e-05, 'epoch': 58.31}
{'loss': 0.0169, 'grad_norm': 0.3858548104763031, 'learning_rate': 2.6928e-05, 'epoch': 58.31}
{'loss': 0.0135, 'grad_norm': 0.6561246514320374, 'learning_rate': 2.6931000000000004e-05, 'epoch': 58.32}
{'loss': 0.0141, 'grad_norm': 0.3876414895057678, 'learning_rate': 2.6934000000000003e-05, 'epoch': 58.32}
{'loss': 0.0178, 'grad_norm': 0.47233808040618896, 'learning_rate': 2.6937000000000003e-05, 'epoch': 58.33}
{'loss': 0.0132, 'grad_norm': 0.48110559582710266, 'learning_rate': 2.6940000000000003e-05, 'epoch': 58.34}
{'loss': 0.0133, 'grad_norm': 0.6849279999732971, 'learning_rate': 2.6943e-05, 'epoch': 58.34}
{'loss': 0.0111, 'grad_norm': 0.5554015636444092, 'learning_rate': 2.6946e-05, 'epoch': 58.35}
{'loss': 0.0159, 'grad_norm': 0.5556256175041199, 'learning_rate': 2.6949e-05, 'epoch': 58.36}
{'loss': 0.0229, 'grad_norm': 0.8008018136024475, 'learning_rate': 2.6952e-05, 'epoch': 58.36}
{'loss': 0.0078, 'grad_norm': 0.7275980710983276, 'learning_rate': 2.6955e-05, 'epoch': 58.37}
{'loss': 0.006, 'grad_norm': 0.6673866510391235, 'learning_rate': 2.6958e-05, 'epoch': 58.38}
{'loss': 0.0076, 'grad_norm': 0.37105101346969604, 'learning_rate': 2.6961e-05, 'epoch': 58.38}
{'loss': 0.0183, 'grad_norm': 0.6450040340423584, 'learning_rate': 2.6964e-05, 'epoch': 58.39}
{'loss': 0.0159, 'grad_norm': 0.7712404131889343, 'learning_rate': 2.6967e-05, 'epoch': 58.4}
{'loss': 0.0124, 'grad_norm': 0.6940825581550598, 'learning_rate': 2.697e-05, 'epoch': 58.4}
{'loss': 0.0086, 'grad_norm': 2.444988965988159, 'learning_rate': 2.6973e-05, 'epoch': 58.41}
{'loss': 0.0092, 'grad_norm': 0.4858110249042511, 'learning_rate': 2.6976e-05, 'epoch': 58.42}
{'loss': 0.0153, 'grad_norm': 1.1186378002166748, 'learning_rate': 2.6979e-05, 'epoch': 58.42}
{'loss': 0.0072, 'grad_norm': 0.390438973903656, 'learning_rate': 2.6982e-05, 'epoch': 58.43}
{'loss': 0.0309, 'grad_norm': 1.0036377906799316, 'learning_rate': 2.6985e-05, 'epoch': 58.44}
{'loss': 0.0088, 'grad_norm': 0.8807679414749146, 'learning_rate': 2.6988e-05, 'epoch': 58.44}

  0%|          | 0/4 [00:00<?, ?it/s][A
 50%|█████     | 2/4 [00:01<00:01,  1.24it/s][A
 75%|███████▌  | 3/4 [00:03<00:01,  1.12s/it][A
100%|██████████| 4/4 [00:03<00:00,  1.24it/s][A                                                          
                                             [A  9%|▉         | 9000/100000 [5:26:17<22:55:36,  1.10it/s]
100%|██████████| 4/4 [00:03<00:00,  1.24it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-9000
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-9000/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-9000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-9000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-9000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-9000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-9000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-8000] due to args.save_total_limit


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from ./w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-4000 (score: 0.26823195815086365).
                                                            9%|▉         | 9000/100000 [5:26:31<22:55:36,  1.10it/s]Deleting older checkpoint [w2v-bert-2.0-luo_cv_fleurs_19h/checkpoint-9000] due to args.save_total_limit
  9%|▉         | 9000/100000 [5:26:32<55:01:43,  2.18s/it]
Waiting for the current checkpoint push to be finished, this might take a couple of minutes.
Saving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Saving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Dropping the following result as it does not have all the necessary fields:
{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 0.3055555555555556}]}
{'eval_loss': 0.43225327134132385, 'eval_wer': 0.3055555555555556, 'eval_cer': 0.09517307846759296, 'eval_runtime': 8.0727, 'eval_samples_per_second': 12.511, 'eval_steps_per_second': 0.495, 'epoch': 58.44}
{'train_runtime': 19591.5272, 'train_samples_per_second': 326.672, 'train_steps_per_second': 5.104, 'train_loss': 0.5092113474743285, 'epoch': 58.44}
***** train metrics *****
  epoch                    =        58.4416
  total_flos               = 114109549878GF
  train_loss               =         0.5092
  train_runtime            =     5:26:31.52
  train_samples            =           9856
  train_samples_per_second =        326.672
  train_steps_per_second   =          5.104
04/12/2025 04:27:08 - INFO - __main__ - *** Evaluate ***
The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 101
  Batch size = 32
  0%|          | 0/4 [00:00<?, ?it/s] 50%|█████     | 2/4 [00:01<00:01,  1.24it/s] 75%|███████▌  | 3/4 [00:03<00:01,  1.11s/it]100%|██████████| 4/4 [00:03<00:00,  1.24it/s]100%|██████████| 4/4 [00:03<00:00,  1.08it/s]
Saving model checkpoint to ./w2v-bert-2.0-luo_cv_fleurs_19h
Configuration saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/config.json
Model weights saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-luo_cv_fleurs_19h/added_tokens.json
Dropping the following result as it does not have all the necessary fields:
{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 0.2998236331569665}]}
***** eval metrics *****
  epoch                   =    58.4416
  eval_cer                =      0.093
  eval_loss               =     0.2682
  eval_runtime            = 0:00:09.38
  eval_samples            =        101
  eval_samples_per_second =     10.763
  eval_steps_per_second   =      0.426
  eval_wer                =     0.2998
events.out.tfevents.1744432043.synvoices-single-a100.22442.1:   0%|          | 0.00/453 [00:00<?, ?B/s]events.out.tfevents.1744432043.synvoices-single-a100.22442.1: 100%|██████████| 453/453 [00:00<00:00, 1.73kB/s]