Jesteban247 commited on 23 days ago

Commit

c140341

verified ·

1 Parent(s): c7e3197

Upload brats_medgemma_r16_alpha16_20251014_023559

Browse files

Files changed (43) hide show

.gitattributes +3 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/adapter_config.json +38 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/adapter_model.safetensors +3 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/added_tokens.json +3 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/chat_template.jinja +47 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/optimizer.pt +3 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/rng_state.pth +3 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/scheduler.pt +3 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/special_tokens_map.json +33 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/tokenizer.json +3 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/tokenizer.model +3 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/tokenizer_config.json +0 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/trainer_state.json +1770 -0
brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/training_args.bin +3 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/adapter_config.json +38 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/adapter_model.safetensors +3 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/added_tokens.json +3 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/chat_template.jinja +47 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/preprocessor_config.json +29 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/processor_config.json +4 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/special_tokens_map.json +33 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/tokenizer.json +3 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/tokenizer.model +3 -0
brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/tokenizer_config.json +0 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/added_tokens.json +3 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/chat_template.jinja +47 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/config.json +99 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/model-00001-of-00002.safetensors +3 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/model-00002-of-00002.safetensors +3 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/model.safetensors.index.json +891 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/preprocessor_config.json +29 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/processor_config.json +4 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/special_tokens_map.json +33 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/tokenizer.json +3 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/tokenizer.model +3 -0
brats_medgemma_r16_alpha16_20251014_023559/merged_model/tokenizer_config.json +0 -0
brats_medgemma_r16_alpha16_20251014_023559/metrics/complete_data_distribution_20251014_023559.json +29 -0
brats_medgemma_r16_alpha16_20251014_023559/metrics/test_detailed_20251014_023559.csv +0 -0
brats_medgemma_r16_alpha16_20251014_023559/metrics/test_summary_20251014_023559.csv +4 -0
brats_medgemma_r16_alpha16_20251014_023559/metrics/training_log_20251014_023559.csv +249 -0
brats_medgemma_r16_alpha16_20251014_023559/metrics/training_summary_20251014_023559.csv +16 -0
brats_medgemma_r16_alpha16_20251014_023559/metrics/validation_during_training_20251014_023559.json +0 -0
brats_medgemma_r16_alpha16_20251014_023559/metrics/validation_log_20251014_023559.csv +73 -0

.gitattributes CHANGED Viewed

@@ -45,3 +45,6 @@ brats_medgemma_r1_alpha4_20251014_005739/merged_model/tokenizer.json filter=lfs
 brats_medgemma_r4_alpha4_20251014_013202/checkpoint-248/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 brats_medgemma_r4_alpha4_20251014_013202/lora_adapters/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 brats_medgemma_r4_alpha4_20251014_013202/merged_model/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 brats_medgemma_r4_alpha4_20251014_013202/checkpoint-248/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 brats_medgemma_r4_alpha4_20251014_013202/lora_adapters/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 brats_medgemma_r4_alpha4_20251014_013202/merged_model/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+brats_medgemma_r16_alpha16_20251014_023559/merged_model/tokenizer.json filter=lfs diff=lfs merge=lfs -text

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/adapter_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": {
+    "base_model_class": "Gemma3ForConditionalGeneration",
+    "parent_library": "transformers.models.gemma3.modeling_gemma3",
+    "unsloth_fixed": true
+  },
+  "base_model_name_or_path": "unsloth/medgemma-4b-it-unsloth-bnb-4bit",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "qalora_group_size": 16,
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "(?:.*?(?:vision|image|visual|patch|language|text).*?(?:self_attn|attention|attn|mlp|feed_forward|ffn|dense).*?(?:k_proj|v_proj|q_proj|out_proj|fc1|fc2|o_proj|gate_proj|up_proj|down_proj).*?)|(?:\\bmodel\\.layers\\.[\\d]{1,}\\.(?:self_attn|attention|attn|mlp|feed_forward|ffn|dense)\\.(?:(?:k_proj|v_proj|q_proj|out_proj|fc1|fc2|o_proj|gate_proj|up_proj|down_proj)))",
+  "target_parameters": null,
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b71de9c6e97ce314cd37a62ceee7d462555b335623a95be180afe62959e6ba0
+size 154116312

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:640af6939a901c013fdf37f392e0aca1f802b318cc6ce57829643296ce8f2be1
+size 308668611

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90bad30f6b1b844bcf0b22e5af882e5ad10303c5f36ff87da9227b11e9223ca7
+size 14645

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dfc458a8aed21bb5249e7244720291574e9f88c26ed474990ce80b22219c63ab
+size 1465

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<end_of_turn>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7666402c0617d170e6b0a985b3130c3fb0795393aa0970600994a5d9aae12351
+size 33384822

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1770 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9879518072289155,
+  "eval_steps": 500,
+  "global_step": 248,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008032128514056224,
+      "grad_norm": 1.7501472234725952,
+      "learning_rate": 0.0,
+      "loss": 3.661,
+      "step": 1
+    },
+    {
+      "epoch": 0.01606425702811245,
+      "grad_norm": 1.261156439781189,
+      "learning_rate": 2.5e-05,
+      "loss": 3.5315,
+      "step": 2
+    },
+    {
+      "epoch": 0.024096385542168676,
+      "grad_norm": 1.1711699962615967,
+      "learning_rate": 5e-05,
+      "loss": 3.4579,
+      "step": 3
+    },
+    {
+      "epoch": 0.0321285140562249,
+      "grad_norm": 1.1998167037963867,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 3.5264,
+      "step": 4
+    },
+    {
+      "epoch": 0.040160642570281124,
+      "grad_norm": 2.0034165382385254,
+      "learning_rate": 0.0001,
+      "loss": 3.4838,
+      "step": 5
+    },
+    {
+      "epoch": 0.04819277108433735,
+      "grad_norm": 0.9970829486846924,
+      "learning_rate": 0.000125,
+      "loss": 3.2449,
+      "step": 6
+    },
+    {
+      "epoch": 0.05622489959839357,
+      "grad_norm": 1.0100913047790527,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 3.1235,
+      "step": 7
+    },
+    {
+      "epoch": 0.0642570281124498,
+      "grad_norm": 0.9232551455497742,
+      "learning_rate": 0.000175,
+      "loss": 2.8445,
+      "step": 8
+    },
+    {
+      "epoch": 0.07228915662650602,
+      "grad_norm": 0.9619626402854919,
+      "learning_rate": 0.0002,
+      "loss": 2.5856,
+      "step": 9
+    },
+    {
+      "epoch": 0.08032128514056225,
+      "grad_norm": 1.0351252555847168,
+      "learning_rate": 0.00019999143275740072,
+      "loss": 2.2717,
+      "step": 10
+    },
+    {
+      "epoch": 0.08835341365461848,
+      "grad_norm": 1.099572777748108,
+      "learning_rate": 0.00019996573249755572,
+      "loss": 2.1625,
+      "step": 11
+    },
+    {
+      "epoch": 0.0963855421686747,
+      "grad_norm": 1.1375186443328857,
+      "learning_rate": 0.0001999229036240723,
+      "loss": 2.0916,
+      "step": 12
+    },
+    {
+      "epoch": 0.10441767068273092,
+      "grad_norm": 1.1086307764053345,
+      "learning_rate": 0.0001998629534754574,
+      "loss": 1.8151,
+      "step": 13
+    },
+    {
+      "epoch": 0.11244979919678715,
+      "grad_norm": 0.976887583732605,
+      "learning_rate": 0.00019978589232386035,
+      "loss": 1.6842,
+      "step": 14
+    },
+    {
+      "epoch": 0.12048192771084337,
+      "grad_norm": 1.0469285249710083,
+      "learning_rate": 0.0001996917333733128,
+      "loss": 1.5816,
+      "step": 15
+    },
+    {
+      "epoch": 0.1285140562248996,
+      "grad_norm": 1.072758436203003,
+      "learning_rate": 0.0001995804927574662,
+      "loss": 1.4959,
+      "step": 16
+    },
+    {
+      "epoch": 0.13654618473895583,
+      "grad_norm": 1.0180130004882812,
+      "learning_rate": 0.00019945218953682734,
+      "loss": 1.3337,
+      "step": 17
+    },
+    {
+      "epoch": 0.14457831325301204,
+      "grad_norm": 0.9453176856040955,
+      "learning_rate": 0.00019930684569549264,
+      "loss": 1.3806,
+      "step": 18
+    },
+    {
+      "epoch": 0.15261044176706828,
+      "grad_norm": 0.8729744553565979,
+      "learning_rate": 0.00019914448613738106,
+      "loss": 1.2007,
+      "step": 19
+    },
+    {
+      "epoch": 0.1606425702811245,
+      "grad_norm": 0.7515984177589417,
+      "learning_rate": 0.00019896513868196704,
+      "loss": 1.1429,
+      "step": 20
+    },
+    {
+      "epoch": 0.1686746987951807,
+      "grad_norm": 0.6825393438339233,
+      "learning_rate": 0.00019876883405951377,
+      "loss": 1.1445,
+      "step": 21
+    },
+    {
+      "epoch": 0.17670682730923695,
+      "grad_norm": 0.6199571490287781,
+      "learning_rate": 0.00019855560590580778,
+      "loss": 0.9499,
+      "step": 22
+    },
+    {
+      "epoch": 0.18473895582329317,
+      "grad_norm": 0.5918586254119873,
+      "learning_rate": 0.0001983254907563955,
+      "loss": 1.0323,
+      "step": 23
+    },
+    {
+      "epoch": 0.1927710843373494,
+      "grad_norm": 0.6076586842536926,
+      "learning_rate": 0.00019807852804032305,
+      "loss": 1.029,
+      "step": 24
+    },
+    {
+      "epoch": 0.20080321285140562,
+      "grad_norm": 0.6977405548095703,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 0.9902,
+      "step": 25
+    },
+    {
+      "epoch": 0.20883534136546184,
+      "grad_norm": 0.6340116858482361,
+      "learning_rate": 0.00019753423205085127,
+      "loss": 0.9497,
+      "step": 26
+    },
+    {
+      "epoch": 0.21686746987951808,
+      "grad_norm": 0.6178178191184998,
+      "learning_rate": 0.00019723699203976766,
+      "loss": 0.956,
+      "step": 27
+    },
+    {
+      "epoch": 0.2248995983935743,
+      "grad_norm": 0.6371400952339172,
+      "learning_rate": 0.00019692309097067546,
+      "loss": 0.837,
+      "step": 28
+    },
+    {
+      "epoch": 0.23293172690763053,
+      "grad_norm": 0.6009551286697388,
+      "learning_rate": 0.00019659258262890683,
+      "loss": 0.8698,
+      "step": 29
+    },
+    {
+      "epoch": 0.24096385542168675,
+      "grad_norm": 0.6794220805168152,
+      "learning_rate": 0.00019624552364536473,
+      "loss": 0.988,
+      "step": 30
+    },
+    {
+      "epoch": 0.24899598393574296,
+      "grad_norm": 0.5848167538642883,
+      "learning_rate": 0.0001958819734868193,
+      "loss": 0.825,
+      "step": 31
+    },
+    {
+      "epoch": 0.2570281124497992,
+      "grad_norm": 0.6502186059951782,
+      "learning_rate": 0.0001955019944457187,
+      "loss": 0.9907,
+      "step": 32
+    },
+    {
+      "epoch": 0.26506024096385544,
+      "grad_norm": 0.5682573914527893,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 0.8782,
+      "step": 33
+    },
+    {
+      "epoch": 0.27309236947791166,
+      "grad_norm": 0.6430437564849854,
+      "learning_rate": 0.0001946930129495106,
+      "loss": 0.769,
+      "step": 34
+    },
+    {
+      "epoch": 0.28112449799196787,
+      "grad_norm": 0.524416983127594,
+      "learning_rate": 0.00019426414910921787,
+      "loss": 0.7752,
+      "step": 35
+    },
+    {
+      "epoch": 0.2891566265060241,
+      "grad_norm": 0.7426691055297852,
+      "learning_rate": 0.00019381913359224842,
+      "loss": 0.8828,
+      "step": 36
+    },
+    {
+      "epoch": 0.2971887550200803,
+      "grad_norm": 0.515574038028717,
+      "learning_rate": 0.00019335804264972018,
+      "loss": 0.7844,
+      "step": 37
+    },
+    {
+      "epoch": 0.30522088353413657,
+      "grad_norm": 0.5492933392524719,
+      "learning_rate": 0.00019288095528719243,
+      "loss": 0.8084,
+      "step": 38
+    },
+    {
+      "epoch": 0.3132530120481928,
+      "grad_norm": 0.46743109822273254,
+      "learning_rate": 0.0001923879532511287,
+      "loss": 0.7309,
+      "step": 39
+    },
+    {
+      "epoch": 0.321285140562249,
+      "grad_norm": 0.47355759143829346,
+      "learning_rate": 0.00019187912101488984,
+      "loss": 0.8236,
+      "step": 40
+    },
+    {
+      "epoch": 0.3293172690763052,
+      "grad_norm": 0.558452308177948,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 0.7279,
+      "step": 41
+    },
+    {
+      "epoch": 0.3373493975903614,
+      "grad_norm": 0.477460116147995,
+      "learning_rate": 0.00019081431738250814,
+      "loss": 0.7369,
+      "step": 42
+    },
+    {
+      "epoch": 0.3453815261044177,
+      "grad_norm": 0.5022737979888916,
+      "learning_rate": 0.00019025852843498607,
+      "loss": 0.7966,
+      "step": 43
+    },
+    {
+      "epoch": 0.3534136546184739,
+      "grad_norm": 0.4783857464790344,
+      "learning_rate": 0.00018968727415326884,
+      "loss": 0.746,
+      "step": 44
+    },
+    {
+      "epoch": 0.3614457831325301,
+      "grad_norm": 0.4540962278842926,
+      "learning_rate": 0.0001891006524188368,
+      "loss": 0.6863,
+      "step": 45
+    },
+    {
+      "epoch": 0.36947791164658633,
+      "grad_norm": 0.5081683993339539,
+      "learning_rate": 0.0001884987637463042,
+      "loss": 0.7613,
+      "step": 46
+    },
+    {
+      "epoch": 0.37751004016064255,
+      "grad_norm": 0.501970648765564,
+      "learning_rate": 0.00018788171126619653,
+      "loss": 0.7194,
+      "step": 47
+    },
+    {
+      "epoch": 0.3855421686746988,
+      "grad_norm": 0.4575251638889313,
+      "learning_rate": 0.00018724960070727972,
+      "loss": 0.7073,
+      "step": 48
+    },
+    {
+      "epoch": 0.39357429718875503,
+      "grad_norm": 0.518724799156189,
+      "learning_rate": 0.00018660254037844388,
+      "loss": 0.7205,
+      "step": 49
+    },
+    {
+      "epoch": 0.40160642570281124,
+      "grad_norm": 0.4516771733760834,
+      "learning_rate": 0.0001859406411501453,
+      "loss": 0.7297,
+      "step": 50
+    },
+    {
+      "epoch": 0.40963855421686746,
+      "grad_norm": 0.5083345770835876,
+      "learning_rate": 0.00018526401643540922,
+      "loss": 0.8135,
+      "step": 51
+    },
+    {
+      "epoch": 0.41767068273092367,
+      "grad_norm": 0.3864598572254181,
+      "learning_rate": 0.00018457278217039736,
+      "loss": 0.7296,
+      "step": 52
+    },
+    {
+      "epoch": 0.42570281124497994,
+      "grad_norm": 0.4150853157043457,
+      "learning_rate": 0.00018386705679454242,
+      "loss": 0.609,
+      "step": 53
+    },
+    {
+      "epoch": 0.43373493975903615,
+      "grad_norm": 0.5288349390029907,
+      "learning_rate": 0.00018314696123025454,
+      "loss": 0.7304,
+      "step": 54
+    },
+    {
+      "epoch": 0.44176706827309237,
+      "grad_norm": 0.48020851612091064,
+      "learning_rate": 0.00018241261886220154,
+      "loss": 0.7076,
+      "step": 55
+    },
+    {
+      "epoch": 0.4497991967871486,
+      "grad_norm": 0.44168344140052795,
+      "learning_rate": 0.00018166415551616792,
+      "loss": 0.6758,
+      "step": 56
+    },
+    {
+      "epoch": 0.4578313253012048,
+      "grad_norm": 0.42815861105918884,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 0.7476,
+      "step": 57
+    },
+    {
+      "epoch": 0.46586345381526106,
+      "grad_norm": 0.3930998742580414,
+      "learning_rate": 0.00018012538126910608,
+      "loss": 0.6272,
+      "step": 58
+    },
+    {
+      "epoch": 0.4738955823293173,
+      "grad_norm": 0.4077748656272888,
+      "learning_rate": 0.00017933533402912354,
+      "loss": 0.7345,
+      "step": 59
+    },
+    {
+      "epoch": 0.4819277108433735,
+      "grad_norm": 0.39470747113227844,
+      "learning_rate": 0.00017853169308807448,
+      "loss": 0.81,
+      "step": 60
+    },
+    {
+      "epoch": 0.4899598393574297,
+      "grad_norm": 0.3741629421710968,
+      "learning_rate": 0.0001777145961456971,
+      "loss": 0.6539,
+      "step": 61
+    },
+    {
+      "epoch": 0.4979919678714859,
+      "grad_norm": 0.3814719319343567,
+      "learning_rate": 0.00017688418320734598,
+      "loss": 0.6992,
+      "step": 62
+    },
+    {
+      "epoch": 0.5060240963855421,
+      "grad_norm": 0.38698244094848633,
+      "learning_rate": 0.0001760405965600031,
+      "loss": 0.6696,
+      "step": 63
+    },
+    {
+      "epoch": 0.5140562248995983,
+      "grad_norm": 0.408509761095047,
+      "learning_rate": 0.00017518398074789775,
+      "loss": 0.7097,
+      "step": 64
+    },
+    {
+      "epoch": 0.5220883534136547,
+      "grad_norm": 0.35829615592956543,
+      "learning_rate": 0.00017431448254773944,
+      "loss": 0.6624,
+      "step": 65
+    },
+    {
+      "epoch": 0.5301204819277109,
+      "grad_norm": 0.4033007323741913,
+      "learning_rate": 0.00017343225094356855,
+      "loss": 0.7463,
+      "step": 66
+    },
+    {
+      "epoch": 0.5381526104417671,
+      "grad_norm": 0.41762790083885193,
+      "learning_rate": 0.00017253743710122875,
+      "loss": 0.7302,
+      "step": 67
+    },
+    {
+      "epoch": 0.5461847389558233,
+      "grad_norm": 0.4563567638397217,
+      "learning_rate": 0.00017163019434246547,
+      "loss": 0.7259,
+      "step": 68
+    },
+    {
+      "epoch": 0.5542168674698795,
+      "grad_norm": 0.44283413887023926,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 0.6961,
+      "step": 69
+    },
+    {
+      "epoch": 0.5622489959839357,
+      "grad_norm": 0.38985833525657654,
+      "learning_rate": 0.00016977904598416803,
+      "loss": 0.7072,
+      "step": 70
+    },
+    {
+      "epoch": 0.570281124497992,
+      "grad_norm": 0.4015519917011261,
+      "learning_rate": 0.0001688354575693754,
+      "loss": 0.668,
+      "step": 71
+    },
+    {
+      "epoch": 0.5783132530120482,
+      "grad_norm": 0.4717429578304291,
+      "learning_rate": 0.0001678800745532942,
+      "loss": 0.6893,
+      "step": 72
+    },
+    {
+      "epoch": 0.5863453815261044,
+      "grad_norm": 0.41144484281539917,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 0.6434,
+      "step": 73
+    },
+    {
+      "epoch": 0.5943775100401606,
+      "grad_norm": 0.3843387961387634,
+      "learning_rate": 0.00016593458151000688,
+      "loss": 0.7735,
+      "step": 74
+    },
+    {
+      "epoch": 0.6024096385542169,
+      "grad_norm": 0.37844914197921753,
+      "learning_rate": 0.00016494480483301836,
+      "loss": 0.6256,
+      "step": 75
+    },
+    {
+      "epoch": 0.6104417670682731,
+      "grad_norm": 0.41536372900009155,
+      "learning_rate": 0.00016394390019805848,
+      "loss": 0.7426,
+      "step": 76
+    },
+    {
+      "epoch": 0.6184738955823293,
+      "grad_norm": 0.37561890482902527,
+      "learning_rate": 0.00016293203910498376,
+      "loss": 0.6418,
+      "step": 77
+    },
+    {
+      "epoch": 0.6265060240963856,
+      "grad_norm": 0.3691718578338623,
+      "learning_rate": 0.00016190939493098344,
+      "loss": 0.6586,
+      "step": 78
+    },
+    {
+      "epoch": 0.6345381526104418,
+      "grad_norm": 0.3598015308380127,
+      "learning_rate": 0.00016087614290087208,
+      "loss": 0.6553,
+      "step": 79
+    },
+    {
+      "epoch": 0.642570281124498,
+      "grad_norm": 0.3489457964897156,
+      "learning_rate": 0.00015983246005706593,
+      "loss": 0.668,
+      "step": 80
+    },
+    {
+      "epoch": 0.6506024096385542,
+      "grad_norm": 0.3610674738883972,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 0.651,
+      "step": 81
+    },
+    {
+      "epoch": 0.6586345381526104,
+      "grad_norm": 0.37823182344436646,
+      "learning_rate": 0.0001577145190037234,
+      "loss": 0.6791,
+      "step": 82
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.34397029876708984,
+      "learning_rate": 0.00015664062369248328,
+      "loss": 0.632,
+      "step": 83
+    },
+    {
+      "epoch": 0.6746987951807228,
+      "grad_norm": 0.33996886014938354,
+      "learning_rate": 0.00015555702330196023,
+      "loss": 0.5976,
+      "step": 84
+    },
+    {
+      "epoch": 0.6827309236947792,
+      "grad_norm": 0.3748410940170288,
+      "learning_rate": 0.00015446390350150273,
+      "loss": 0.6634,
+      "step": 85
+    },
+    {
+      "epoch": 0.6907630522088354,
+      "grad_norm": 0.40181100368499756,
+      "learning_rate": 0.00015336145159156115,
+      "loss": 0.6584,
+      "step": 86
+    },
+    {
+      "epoch": 0.6987951807228916,
+      "grad_norm": 0.35927265882492065,
+      "learning_rate": 0.0001522498564715949,
+      "loss": 0.641,
+      "step": 87
+    },
+    {
+      "epoch": 0.7068273092369478,
+      "grad_norm": 0.3607875406742096,
+      "learning_rate": 0.0001511293086077052,
+      "loss": 0.5411,
+      "step": 88
+    },
+    {
+      "epoch": 0.714859437751004,
+      "grad_norm": 0.40355342626571655,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.7025,
+      "step": 89
+    },
+    {
+      "epoch": 0.7228915662650602,
+      "grad_norm": 0.3567318618297577,
+      "learning_rate": 0.00014886212414969553,
+      "loss": 0.652,
+      "step": 90
+    },
+    {
+      "epoch": 0.7309236947791165,
+      "grad_norm": 0.39796894788742065,
+      "learning_rate": 0.00014771587602596084,
+      "loss": 0.687,
+      "step": 91
+    },
+    {
+      "epoch": 0.7389558232931727,
+      "grad_norm": 0.344121515750885,
+      "learning_rate": 0.00014656145203251114,
+      "loss": 0.6257,
+      "step": 92
+    },
+    {
+      "epoch": 0.7469879518072289,
+      "grad_norm": 0.37534448504447937,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 0.6625,
+      "step": 93
+    },
+    {
+      "epoch": 0.7550200803212851,
+      "grad_norm": 0.3805689215660095,
+      "learning_rate": 0.00014422886902190014,
+      "loss": 0.6521,
+      "step": 94
+    },
+    {
+      "epoch": 0.7630522088353414,
+      "grad_norm": 0.32775577902793884,
+      "learning_rate": 0.00014305110968082952,
+      "loss": 0.5926,
+      "step": 95
+    },
+    {
+      "epoch": 0.7710843373493976,
+      "grad_norm": 0.3876950144767761,
+      "learning_rate": 0.0001418659737537428,
+      "loss": 0.7515,
+      "step": 96
+    },
+    {
+      "epoch": 0.7791164658634538,
+      "grad_norm": 0.3428015410900116,
+      "learning_rate": 0.00014067366430758004,
+      "loss": 0.627,
+      "step": 97
+    },
+    {
+      "epoch": 0.7871485943775101,
+      "grad_norm": 0.3655902147293091,
+      "learning_rate": 0.0001394743856384267,
+      "loss": 0.6381,
+      "step": 98
+    },
+    {
+      "epoch": 0.7951807228915663,
+      "grad_norm": 0.352104514837265,
+      "learning_rate": 0.000138268343236509,
+      "loss": 0.605,
+      "step": 99
+    },
+    {
+      "epoch": 0.8032128514056225,
+      "grad_norm": 0.38013413548469543,
+      "learning_rate": 0.00013705574375098365,
+      "loss": 0.6991,
+      "step": 100
+    },
+    {
+      "epoch": 0.8112449799196787,
+      "grad_norm": 0.3535749614238739,
+      "learning_rate": 0.00013583679495453,
+      "loss": 0.6365,
+      "step": 101
+    },
+    {
+      "epoch": 0.8192771084337349,
+      "grad_norm": 0.3335859477519989,
+      "learning_rate": 0.0001346117057077493,
+      "loss": 0.5886,
+      "step": 102
+    },
+    {
+      "epoch": 0.8273092369477911,
+      "grad_norm": 0.3656397759914398,
+      "learning_rate": 0.0001333806859233771,
+      "loss": 0.6207,
+      "step": 103
+    },
+    {
+      "epoch": 0.8353413654618473,
+      "grad_norm": 0.4211784601211548,
+      "learning_rate": 0.00013214394653031616,
+      "loss": 0.7371,
+      "step": 104
+    },
+    {
+      "epoch": 0.8433734939759037,
+      "grad_norm": 0.42227882146835327,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 0.6579,
+      "step": 105
+    },
+    {
+      "epoch": 0.8514056224899599,
+      "grad_norm": 0.38780152797698975,
+      "learning_rate": 0.00012965415749755709,
+      "loss": 0.6774,
+      "step": 106
+    },
+    {
+      "epoch": 0.8594377510040161,
+      "grad_norm": 0.38335657119750977,
+      "learning_rate": 0.00012840153447039228,
+      "loss": 0.6075,
+      "step": 107
+    },
+    {
+      "epoch": 0.8674698795180723,
+      "grad_norm": 0.39593783020973206,
+      "learning_rate": 0.00012714404498650743,
+      "loss": 0.6875,
+      "step": 108
+    },
+    {
+      "epoch": 0.8755020080321285,
+      "grad_norm": 0.38726451992988586,
+      "learning_rate": 0.00012588190451025207,
+      "loss": 0.6714,
+      "step": 109
+    },
+    {
+      "epoch": 0.8835341365461847,
+      "grad_norm": 0.4037511348724365,
+      "learning_rate": 0.00012461532930289933,
+      "loss": 0.6312,
+      "step": 110
+    },
+    {
+      "epoch": 0.891566265060241,
+      "grad_norm": 0.3689521849155426,
+      "learning_rate": 0.00012334453638559057,
+      "loss": 0.5689,
+      "step": 111
+    },
+    {
+      "epoch": 0.8995983935742972,
+      "grad_norm": 0.42005592584609985,
+      "learning_rate": 0.00012206974350215015,
+      "loss": 0.6369,
+      "step": 112
+    },
+    {
+      "epoch": 0.9076305220883534,
+      "grad_norm": 0.388080358505249,
+      "learning_rate": 0.00012079116908177593,
+      "loss": 0.6634,
+      "step": 113
+    },
+    {
+      "epoch": 0.9156626506024096,
+      "grad_norm": 0.3856017291545868,
+      "learning_rate": 0.00011950903220161285,
+      "loss": 0.6634,
+      "step": 114
+    },
+    {
+      "epoch": 0.9236947791164659,
+      "grad_norm": 0.40936410427093506,
+      "learning_rate": 0.00011822355254921478,
+      "loss": 0.6879,
+      "step": 115
+    },
+    {
+      "epoch": 0.9317269076305221,
+      "grad_norm": 0.3653692901134491,
+      "learning_rate": 0.00011693495038490245,
+      "loss": 0.619,
+      "step": 116
+    },
+    {
+      "epoch": 0.9397590361445783,
+      "grad_norm": 0.3929893970489502,
+      "learning_rate": 0.0001156434465040231,
+      "loss": 0.6762,
+      "step": 117
+    },
+    {
+      "epoch": 0.9477911646586346,
+      "grad_norm": 0.34892353415489197,
+      "learning_rate": 0.00011434926219911793,
+      "loss": 0.6508,
+      "step": 118
+    },
+    {
+      "epoch": 0.9558232931726908,
+      "grad_norm": 0.36806151270866394,
+      "learning_rate": 0.00011305261922200519,
+      "loss": 0.6438,
+      "step": 119
+    },
+    {
+      "epoch": 0.963855421686747,
+      "grad_norm": 0.3607989251613617,
+      "learning_rate": 0.00011175373974578378,
+      "loss": 0.6095,
+      "step": 120
+    },
+    {
+      "epoch": 0.9718875502008032,
+      "grad_norm": 0.4311230480670929,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 0.7351,
+      "step": 121
+    },
+    {
+      "epoch": 0.9799196787148594,
+      "grad_norm": 0.3869074881076813,
+      "learning_rate": 0.00010915016186634026,
+      "loss": 0.6223,
+      "step": 122
+    },
+    {
+      "epoch": 0.9879518072289156,
+      "grad_norm": 0.38434508442878723,
+      "learning_rate": 0.0001078459095727845,
+      "loss": 0.7414,
+      "step": 123
+    },
+    {
+      "epoch": 0.9959839357429718,
+      "grad_norm": 0.3856058418750763,
+      "learning_rate": 0.00010654031292301432,
+      "loss": 0.6143,
+      "step": 124
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.4785459041595459,
+      "learning_rate": 0.0001052335956242944,
+      "loss": 0.5728,
+      "step": 125
+    },
+    {
+      "epoch": 1.0080321285140563,
+      "grad_norm": 0.3806856870651245,
+      "learning_rate": 0.00010392598157590688,
+      "loss": 0.6583,
+      "step": 126
+    },
+    {
+      "epoch": 1.0160642570281124,
+      "grad_norm": 0.3617662489414215,
+      "learning_rate": 0.00010261769483078733,
+      "loss": 0.6128,
+      "step": 127
+    },
+    {
+      "epoch": 1.0240963855421688,
+      "grad_norm": 0.3823893368244171,
+      "learning_rate": 0.00010130895955713445,
+      "loss": 0.5854,
+      "step": 128
+    },
+    {
+      "epoch": 1.0321285140562249,
+      "grad_norm": 0.35945284366607666,
+      "learning_rate": 0.0001,
+      "loss": 0.5855,
+      "step": 129
+    },
+    {
+      "epoch": 1.0401606425702812,
+      "grad_norm": 0.3592842221260071,
+      "learning_rate": 9.869104044286558e-05,
+      "loss": 0.5634,
+      "step": 130
+    },
+    {
+      "epoch": 1.0481927710843373,
+      "grad_norm": 0.3981737196445465,
+      "learning_rate": 9.73823051692127e-05,
+      "loss": 0.6018,
+      "step": 131
+    },
+    {
+      "epoch": 1.0562248995983936,
+      "grad_norm": 0.3831716477870941,
+      "learning_rate": 9.607401842409317e-05,
+      "loss": 0.5822,
+      "step": 132
+    },
+    {
+      "epoch": 1.0642570281124497,
+      "grad_norm": 0.4005658030509949,
+      "learning_rate": 9.476640437570562e-05,
+      "loss": 0.605,
+      "step": 133
+    },
+    {
+      "epoch": 1.072289156626506,
+      "grad_norm": 0.4409717917442322,
+      "learning_rate": 9.345968707698569e-05,
+      "loss": 0.6726,
+      "step": 134
+    },
+    {
+      "epoch": 1.0803212851405624,
+      "grad_norm": 0.3908624053001404,
+      "learning_rate": 9.215409042721552e-05,
+      "loss": 0.6115,
+      "step": 135
+    },
+    {
+      "epoch": 1.0883534136546185,
+      "grad_norm": 0.38460999727249146,
+      "learning_rate": 9.084983813365978e-05,
+      "loss": 0.5773,
+      "step": 136
+    },
+    {
+      "epoch": 1.0963855421686748,
+      "grad_norm": 0.3928130567073822,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 0.5901,
+      "step": 137
+    },
+    {
+      "epoch": 1.104417670682731,
+      "grad_norm": 0.3815149664878845,
+      "learning_rate": 8.824626025421626e-05,
+      "loss": 0.564,
+      "step": 138
+    },
+    {
+      "epoch": 1.1124497991967872,
+      "grad_norm": 0.404792845249176,
+      "learning_rate": 8.694738077799488e-05,
+      "loss": 0.6025,
+      "step": 139
+    },
+    {
+      "epoch": 1.1204819277108433,
+      "grad_norm": 0.37854811549186707,
+      "learning_rate": 8.565073780088208e-05,
+      "loss": 0.5837,
+      "step": 140
+    },
+    {
+      "epoch": 1.1285140562248996,
+      "grad_norm": 0.36779746413230896,
+      "learning_rate": 8.435655349597689e-05,
+      "loss": 0.5631,
+      "step": 141
+    },
+    {
+      "epoch": 1.1365461847389557,
+      "grad_norm": 0.4113304913043976,
+      "learning_rate": 8.306504961509754e-05,
+      "loss": 0.5767,
+      "step": 142
+    },
+    {
+      "epoch": 1.144578313253012,
+      "grad_norm": 0.39485666155815125,
+      "learning_rate": 8.177644745078526e-05,
+      "loss": 0.5723,
+      "step": 143
+    },
+    {
+      "epoch": 1.1526104417670684,
+      "grad_norm": 0.4239311218261719,
+      "learning_rate": 8.049096779838719e-05,
+      "loss": 0.5348,
+      "step": 144
+    },
+    {
+      "epoch": 1.1606425702811245,
+      "grad_norm": 0.4282151460647583,
+      "learning_rate": 7.920883091822408e-05,
+      "loss": 0.5669,
+      "step": 145
+    },
+    {
+      "epoch": 1.1686746987951806,
+      "grad_norm": 0.4061000347137451,
+      "learning_rate": 7.79302564978499e-05,
+      "loss": 0.5642,
+      "step": 146
+    },
+    {
+      "epoch": 1.176706827309237,
+      "grad_norm": 0.43998250365257263,
+      "learning_rate": 7.66554636144095e-05,
+      "loss": 0.5882,
+      "step": 147
+    },
+    {
+      "epoch": 1.1847389558232932,
+      "grad_norm": 0.45231902599334717,
+      "learning_rate": 7.53846706971007e-05,
+      "loss": 0.5494,
+      "step": 148
+    },
+    {
+      "epoch": 1.1927710843373494,
+      "grad_norm": 0.39367568492889404,
+      "learning_rate": 7.411809548974792e-05,
+      "loss": 0.4972,
+      "step": 149
+    },
+    {
+      "epoch": 1.2008032128514057,
+      "grad_norm": 0.42307448387145996,
+      "learning_rate": 7.285595501349258e-05,
+      "loss": 0.5895,
+      "step": 150
+    },
+    {
+      "epoch": 1.2088353413654618,
+      "grad_norm": 0.49210721254348755,
+      "learning_rate": 7.159846552960774e-05,
+      "loss": 0.6801,
+      "step": 151
+    },
+    {
+      "epoch": 1.216867469879518,
+      "grad_norm": 0.44184809923171997,
+      "learning_rate": 7.034584250244291e-05,
+      "loss": 0.548,
+      "step": 152
+    },
+    {
+      "epoch": 1.2248995983935742,
+      "grad_norm": 0.44745784997940063,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.6272,
+      "step": 153
+    },
+    {
+      "epoch": 1.2329317269076305,
+      "grad_norm": 0.43461766839027405,
+      "learning_rate": 6.785605346968386e-05,
+      "loss": 0.551,
+      "step": 154
+    },
+    {
+      "epoch": 1.2409638554216866,
+      "grad_norm": 0.4215232729911804,
+      "learning_rate": 6.661931407662292e-05,
+      "loss": 0.587,
+      "step": 155
+    },
+    {
+      "epoch": 1.248995983935743,
+      "grad_norm": 0.46021243929862976,
+      "learning_rate": 6.538829429225069e-05,
+      "loss": 0.666,
+      "step": 156
+    },
+    {
+      "epoch": 1.2570281124497993,
+      "grad_norm": 0.43266525864601135,
+      "learning_rate": 6.416320504546997e-05,
+      "loss": 0.5465,
+      "step": 157
+    },
+    {
+      "epoch": 1.2650602409638554,
+      "grad_norm": 0.4326479136943817,
+      "learning_rate": 6.294425624901638e-05,
+      "loss": 0.5177,
+      "step": 158
+    },
+    {
+      "epoch": 1.2730923694779117,
+      "grad_norm": 0.39661237597465515,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 0.5171,
+      "step": 159
+    },
+    {
+      "epoch": 1.2811244979919678,
+      "grad_norm": 0.3806839883327484,
+      "learning_rate": 6.052561436157329e-05,
+      "loss": 0.5073,
+      "step": 160
+    },
+    {
+      "epoch": 1.2891566265060241,
+      "grad_norm": 0.4210509657859802,
+      "learning_rate": 5.9326335692419995e-05,
+      "loss": 0.5821,
+      "step": 161
+    },
+    {
+      "epoch": 1.2971887550200802,
+      "grad_norm": 0.42562586069107056,
+      "learning_rate": 5.8134026246257225e-05,
+      "loss": 0.536,
+      "step": 162
+    },
+    {
+      "epoch": 1.3052208835341366,
+      "grad_norm": 0.4517780840396881,
+      "learning_rate": 5.694889031917047e-05,
+      "loss": 0.625,
+      "step": 163
+    },
+    {
+      "epoch": 1.3132530120481927,
+      "grad_norm": 0.4157387614250183,
+      "learning_rate": 5.577113097809989e-05,
+      "loss": 0.5074,
+      "step": 164
+    },
+    {
+      "epoch": 1.321285140562249,
+      "grad_norm": 0.468340128660202,
+      "learning_rate": 5.4600950026045326e-05,
+      "loss": 0.6067,
+      "step": 165
+    },
+    {
+      "epoch": 1.3293172690763053,
+      "grad_norm": 0.4638711214065552,
+      "learning_rate": 5.343854796748886e-05,
+      "loss": 0.5925,
+      "step": 166
+    },
+    {
+      "epoch": 1.3373493975903614,
+      "grad_norm": 0.4303557872772217,
+      "learning_rate": 5.2284123974039154e-05,
+      "loss": 0.5357,
+      "step": 167
+    },
+    {
+      "epoch": 1.3453815261044177,
+      "grad_norm": 0.42685240507125854,
+      "learning_rate": 5.113787585030454e-05,
+      "loss": 0.5257,
+      "step": 168
+    },
+    {
+      "epoch": 1.3534136546184738,
+      "grad_norm": 0.44624361395835876,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.576,
+      "step": 169
+    },
+    {
+      "epoch": 1.3614457831325302,
+      "grad_norm": 0.44937214255332947,
+      "learning_rate": 4.887069139229481e-05,
+      "loss": 0.5646,
+      "step": 170
+    },
+    {
+      "epoch": 1.3694779116465863,
+      "grad_norm": 0.45711764693260193,
+      "learning_rate": 4.7750143528405126e-05,
+      "loss": 0.617,
+      "step": 171
+    },
+    {
+      "epoch": 1.3775100401606426,
+      "grad_norm": 0.45029303431510925,
+      "learning_rate": 4.6638548408438856e-05,
+      "loss": 0.5469,
+      "step": 172
+    },
+    {
+      "epoch": 1.3855421686746987,
+      "grad_norm": 0.43247318267822266,
+      "learning_rate": 4.5536096498497295e-05,
+      "loss": 0.5647,
+      "step": 173
+    },
+    {
+      "epoch": 1.393574297188755,
+      "grad_norm": 0.45187047123908997,
+      "learning_rate": 4.444297669803981e-05,
+      "loss": 0.5859,
+      "step": 174
+    },
+    {
+      "epoch": 1.4016064257028114,
+      "grad_norm": 0.46647849678993225,
+      "learning_rate": 4.335937630751674e-05,
+      "loss": 0.6178,
+      "step": 175
+    },
+    {
+      "epoch": 1.4096385542168675,
+      "grad_norm": 0.43186652660369873,
+      "learning_rate": 4.228548099627665e-05,
+      "loss": 0.5443,
+      "step": 176
+    },
+    {
+      "epoch": 1.4176706827309236,
+      "grad_norm": 0.43191027641296387,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 0.5142,
+      "step": 177
+    },
+    {
+      "epoch": 1.4257028112449799,
+      "grad_norm": 0.44731366634368896,
+      "learning_rate": 4.01675399429341e-05,
+      "loss": 0.5181,
+      "step": 178
+    },
+    {
+      "epoch": 1.4337349397590362,
+      "grad_norm": 0.4435579478740692,
+      "learning_rate": 3.9123857099127936e-05,
+      "loss": 0.542,
+      "step": 179
+    },
+    {
+      "epoch": 1.4417670682730923,
+      "grad_norm": 0.47112271189689636,
+      "learning_rate": 3.8090605069016595e-05,
+      "loss": 0.5727,
+      "step": 180
+    },
+    {
+      "epoch": 1.4497991967871486,
+      "grad_norm": 0.5084322094917297,
+      "learning_rate": 3.7067960895016275e-05,
+      "loss": 0.6583,
+      "step": 181
+    },
+    {
+      "epoch": 1.4578313253012047,
+      "grad_norm": 0.49195897579193115,
+      "learning_rate": 3.6056099801941534e-05,
+      "loss": 0.5475,
+      "step": 182
+    },
+    {
+      "epoch": 1.465863453815261,
+      "grad_norm": 0.4539106488227844,
+      "learning_rate": 3.5055195166981645e-05,
+      "loss": 0.5778,
+      "step": 183
+    },
+    {
+      "epoch": 1.4738955823293174,
+      "grad_norm": 0.4443821907043457,
+      "learning_rate": 3.406541848999312e-05,
+      "loss": 0.5777,
+      "step": 184
+    },
+    {
+      "epoch": 1.4819277108433735,
+      "grad_norm": 0.43998903036117554,
+      "learning_rate": 3.308693936411421e-05,
+      "loss": 0.57,
+      "step": 185
+    },
+    {
+      "epoch": 1.4899598393574296,
+      "grad_norm": 0.44189924001693726,
+      "learning_rate": 3.211992544670582e-05,
+      "loss": 0.6352,
+      "step": 186
+    },
+    {
+      "epoch": 1.497991967871486,
+      "grad_norm": 0.4840128421783447,
+      "learning_rate": 3.116454243062459e-05,
+      "loss": 0.6272,
+      "step": 187
+    },
+    {
+      "epoch": 1.5060240963855422,
+      "grad_norm": 0.4701727330684662,
+      "learning_rate": 3.0220954015832003e-05,
+      "loss": 0.572,
+      "step": 188
+    },
+    {
+      "epoch": 1.5140562248995983,
+      "grad_norm": 0.45267772674560547,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 0.5198,
+      "step": 189
+    },
+    {
+      "epoch": 1.5220883534136547,
+      "grad_norm": 0.47177690267562866,
+      "learning_rate": 2.8369805657534575e-05,
+      "loss": 0.5712,
+      "step": 190
+    },
+    {
+      "epoch": 1.5301204819277108,
+      "grad_norm": 0.44207021594047546,
+      "learning_rate": 2.746256289877126e-05,
+      "loss": 0.5571,
+      "step": 191
+    },
+    {
+      "epoch": 1.538152610441767,
+      "grad_norm": 0.4417279064655304,
+      "learning_rate": 2.6567749056431467e-05,
+      "loss": 0.5753,
+      "step": 192
+    },
+    {
+      "epoch": 1.5461847389558234,
+      "grad_norm": 0.47222092747688293,
+      "learning_rate": 2.5685517452260567e-05,
+      "loss": 0.514,
+      "step": 193
+    },
+    {
+      "epoch": 1.5542168674698795,
+      "grad_norm": 0.4567453861236572,
+      "learning_rate": 2.4816019252102273e-05,
+      "loss": 0.5828,
+      "step": 194
+    },
+    {
+      "epoch": 1.5622489959839356,
+      "grad_norm": 0.5072610378265381,
+      "learning_rate": 2.3959403439996907e-05,
+      "loss": 0.5784,
+      "step": 195
+    },
+    {
+      "epoch": 1.570281124497992,
+      "grad_norm": 0.41678211092948914,
+      "learning_rate": 2.3115816792654056e-05,
+      "loss": 0.5524,
+      "step": 196
+    },
+    {
+      "epoch": 1.5783132530120483,
+      "grad_norm": 0.430743545293808,
+      "learning_rate": 2.2285403854302912e-05,
+      "loss": 0.5035,
+      "step": 197
+    },
+    {
+      "epoch": 1.5863453815261044,
+      "grad_norm": 0.47123971581459045,
+      "learning_rate": 2.146830691192553e-05,
+      "loss": 0.5641,
+      "step": 198
+    },
+    {
+      "epoch": 1.5943775100401605,
+      "grad_norm": 0.42210519313812256,
+      "learning_rate": 2.0664665970876496e-05,
+      "loss": 0.5493,
+      "step": 199
+    },
+    {
+      "epoch": 1.6024096385542168,
+      "grad_norm": 0.4235696792602539,
+      "learning_rate": 1.9874618730893946e-05,
+      "loss": 0.5562,
+      "step": 200
+    },
+    {
+      "epoch": 1.6104417670682731,
+      "grad_norm": 0.46009334921836853,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 0.6261,
+      "step": 201
+    },
+    {
+      "epoch": 1.6184738955823295,
+      "grad_norm": 0.4464077651500702,
+      "learning_rate": 1.833584448383211e-05,
+      "loss": 0.5858,
+      "step": 202
+    },
+    {
+      "epoch": 1.6265060240963856,
+      "grad_norm": 0.43902528285980225,
+      "learning_rate": 1.7587381137798432e-05,
+      "loss": 0.5252,
+      "step": 203
+    },
+    {
+      "epoch": 1.6345381526104417,
+      "grad_norm": 0.44163450598716736,
+      "learning_rate": 1.6853038769745467e-05,
+      "loss": 0.5204,
+      "step": 204
+    },
+    {
+      "epoch": 1.642570281124498,
+      "grad_norm": 0.46067509055137634,
+      "learning_rate": 1.6132943205457606e-05,
+      "loss": 0.5889,
+      "step": 205
+    },
+    {
+      "epoch": 1.6506024096385543,
+      "grad_norm": 0.469901978969574,
+      "learning_rate": 1.542721782960268e-05,
+      "loss": 0.5593,
+      "step": 206
+    },
+    {
+      "epoch": 1.6586345381526104,
+      "grad_norm": 0.45984557271003723,
+      "learning_rate": 1.4735983564590783e-05,
+      "loss": 0.5283,
+      "step": 207
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.44461560249328613,
+      "learning_rate": 1.405935884985473e-05,
+      "loss": 0.5246,
+      "step": 208
+    },
+    {
+      "epoch": 1.6746987951807228,
+      "grad_norm": 0.5367749929428101,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 0.6312,
+      "step": 209
+    },
+    {
+      "epoch": 1.6827309236947792,
+      "grad_norm": 0.46750009059906006,
+      "learning_rate": 1.2750399292720283e-05,
+      "loss": 0.5555,
+      "step": 210
+    },
+    {
+      "epoch": 1.6907630522088355,
+      "grad_norm": 0.4599219560623169,
+      "learning_rate": 1.2118288733803473e-05,
+      "loss": 0.555,
+      "step": 211
+    },
+    {
+      "epoch": 1.6987951807228916,
+      "grad_norm": 0.46629390120506287,
+      "learning_rate": 1.1501236253695823e-05,
+      "loss": 0.5792,
+      "step": 212
+    },
+    {
+      "epoch": 1.7068273092369477,
+      "grad_norm": 0.4901868999004364,
+      "learning_rate": 1.0899347581163221e-05,
+      "loss": 0.5637,
+      "step": 213
+    },
+    {
+      "epoch": 1.714859437751004,
+      "grad_norm": 0.4441889822483063,
+      "learning_rate": 1.0312725846731175e-05,
+      "loss": 0.5488,
+      "step": 214
+    },
+    {
+      "epoch": 1.7228915662650603,
+      "grad_norm": 0.456942617893219,
+      "learning_rate": 9.74147156501396e-06,
+      "loss": 0.5249,
+      "step": 215
+    },
+    {
+      "epoch": 1.7309236947791165,
+      "grad_norm": 0.46953219175338745,
+      "learning_rate": 9.185682617491863e-06,
+      "loss": 0.5427,
+      "step": 216
+    },
+    {
+      "epoch": 1.7389558232931726,
+      "grad_norm": 0.4749215245246887,
+      "learning_rate": 8.645454235739903e-06,
+      "loss": 0.6051,
+      "step": 217
+    },
+    {
+      "epoch": 1.7469879518072289,
+      "grad_norm": 0.44843533635139465,
+      "learning_rate": 8.12087898511018e-06,
+      "loss": 0.5369,
+      "step": 218
+    },
+    {
+      "epoch": 1.7550200803212852,
+      "grad_norm": 0.4446662664413452,
+      "learning_rate": 7.612046748871327e-06,
+      "loss": 0.5633,
+      "step": 219
+    },
+    {
+      "epoch": 1.7630522088353415,
+      "grad_norm": 0.4770858585834503,
+      "learning_rate": 7.119044712807577e-06,
+      "loss": 0.576,
+      "step": 220
+    },
+    {
+      "epoch": 1.7710843373493976,
+      "grad_norm": 0.49559614062309265,
+      "learning_rate": 6.6419573502798374e-06,
+      "loss": 0.5754,
+      "step": 221
+    },
+    {
+      "epoch": 1.7791164658634537,
+      "grad_norm": 0.4570510983467102,
+      "learning_rate": 6.180866407751595e-06,
+      "loss": 0.5006,
+      "step": 222
+    },
+    {
+      "epoch": 1.78714859437751,
+      "grad_norm": 0.5011153817176819,
+      "learning_rate": 5.735850890782157e-06,
+      "loss": 0.5614,
+      "step": 223
+    },
+    {
+      "epoch": 1.7951807228915664,
+      "grad_norm": 0.4965890049934387,
+      "learning_rate": 5.306987050489442e-06,
+      "loss": 0.5502,
+      "step": 224
+    },
+    {
+      "epoch": 1.8032128514056225,
+      "grad_norm": 0.44638779759407043,
+      "learning_rate": 4.8943483704846475e-06,
+      "loss": 0.494,
+      "step": 225
+    },
+    {
+      "epoch": 1.8112449799196786,
+      "grad_norm": 0.47069528698921204,
+      "learning_rate": 4.498005554281337e-06,
+      "loss": 0.5481,
+      "step": 226
+    },
+    {
+      "epoch": 1.819277108433735,
+      "grad_norm": 0.46604669094085693,
+      "learning_rate": 4.118026513180695e-06,
+      "loss": 0.5954,
+      "step": 227
+    },
+    {
+      "epoch": 1.8273092369477912,
+      "grad_norm": 0.4828666150569916,
+      "learning_rate": 3.7544763546352834e-06,
+      "loss": 0.579,
+      "step": 228
+    },
+    {
+      "epoch": 1.8353413654618473,
+      "grad_norm": 0.4978160262107849,
+      "learning_rate": 3.40741737109318e-06,
+      "loss": 0.5948,
+      "step": 229
+    },
+    {
+      "epoch": 1.8433734939759037,
+      "grad_norm": 0.49469539523124695,
+      "learning_rate": 3.0769090293245705e-06,
+      "loss": 0.5563,
+      "step": 230
+    },
+    {
+      "epoch": 1.8514056224899598,
+      "grad_norm": 0.44712793827056885,
+      "learning_rate": 2.7630079602323442e-06,
+      "loss": 0.5135,
+      "step": 231
+    },
+    {
+      "epoch": 1.859437751004016,
+      "grad_norm": 0.45914801955223083,
+      "learning_rate": 2.465767949148734e-06,
+      "loss": 0.5179,
+      "step": 232
+    },
+    {
+      "epoch": 1.8674698795180724,
+      "grad_norm": 0.46274736523628235,
+      "learning_rate": 2.1852399266194314e-06,
+      "loss": 0.521,
+      "step": 233
+    },
+    {
+      "epoch": 1.8755020080321285,
+      "grad_norm": 0.44251975417137146,
+      "learning_rate": 1.921471959676957e-06,
+      "loss": 0.5183,
+      "step": 234
+    },
+    {
+      "epoch": 1.8835341365461846,
+      "grad_norm": 0.5851150751113892,
+      "learning_rate": 1.6745092436045494e-06,
+      "loss": 0.5471,
+      "step": 235
+    },
+    {
+      "epoch": 1.891566265060241,
+      "grad_norm": 0.4568715989589691,
+      "learning_rate": 1.444394094192225e-06,
+      "loss": 0.5463,
+      "step": 236
+    },
+    {
+      "epoch": 1.8995983935742973,
+      "grad_norm": 0.4288991391658783,
+      "learning_rate": 1.231165940486234e-06,
+      "loss": 0.496,
+      "step": 237
+    },
+    {
+      "epoch": 1.9076305220883534,
+      "grad_norm": 0.44451212882995605,
+      "learning_rate": 1.0348613180329757e-06,
+      "loss": 0.4712,
+      "step": 238
+    },
+    {
+      "epoch": 1.9156626506024095,
+      "grad_norm": 0.48721274733543396,
+      "learning_rate": 8.555138626189618e-07,
+      "loss": 0.5715,
+      "step": 239
+    },
+    {
+      "epoch": 1.9236947791164658,
+      "grad_norm": 0.4431383013725281,
+      "learning_rate": 6.931543045073708e-07,
+      "loss": 0.5273,
+      "step": 240
+    },
+    {
+      "epoch": 1.9317269076305221,
+      "grad_norm": 0.4700658917427063,
+      "learning_rate": 5.478104631726711e-07,
+      "loss": 0.5849,
+      "step": 241
+    },
+    {
+      "epoch": 1.9397590361445785,
+      "grad_norm": 0.4517907500267029,
+      "learning_rate": 4.1950724253383423e-07,
+      "loss": 0.5683,
+      "step": 242
+    },
+    {
+      "epoch": 1.9477911646586346,
+      "grad_norm": 0.4785766005516052,
+      "learning_rate": 3.0826662668720364e-07,
+      "loss": 0.5879,
+      "step": 243
+    },
+    {
+      "epoch": 1.9558232931726907,
+      "grad_norm": 0.45734453201293945,
+      "learning_rate": 2.141076761396521e-07,
+      "loss": 0.5764,
+      "step": 244
+    },
+    {
+      "epoch": 1.963855421686747,
+      "grad_norm": 0.4947751760482788,
+      "learning_rate": 1.3704652454261668e-07,
+      "loss": 0.6172,
+      "step": 245
+    },
+    {
+      "epoch": 1.9718875502008033,
+      "grad_norm": 0.47916358709335327,
+      "learning_rate": 7.709637592770991e-08,
+      "loss": 0.5588,
+      "step": 246
+    },
+    {
+      "epoch": 1.9799196787148594,
+      "grad_norm": 0.48069119453430176,
+      "learning_rate": 3.4267502444274015e-08,
+      "loss": 0.5064,
+      "step": 247
+    },
+    {
+      "epoch": 1.9879518072289155,
+      "grad_norm": 0.49128061532974243,
+      "learning_rate": 8.567242599299973e-09,
+      "loss": 0.5275,
+      "step": 248
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 248,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 248,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.093364034080077e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

brats_medgemma_r16_alpha16_20251014_023559/checkpoint-248/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cb30560075f36464a75fff4e2c3606ed2b35b55a5af7ab6c0986359e8faca4f
+size 6353

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/adapter_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": {
+    "base_model_class": "Gemma3ForConditionalGeneration",
+    "parent_library": "transformers.models.gemma3.modeling_gemma3",
+    "unsloth_fixed": true
+  },
+  "base_model_name_or_path": "unsloth/medgemma-4b-it-unsloth-bnb-4bit",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "qalora_group_size": 16,
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "(?:.*?(?:vision|image|visual|patch|language|text).*?(?:self_attn|attention|attn|mlp|feed_forward|ffn|dense).*?(?:k_proj|v_proj|q_proj|out_proj|fc1|fc2|o_proj|gate_proj|up_proj|down_proj).*?)|(?:\\bmodel\\.layers\\.[\\d]{1,}\\.(?:self_attn|attention|attn|mlp|feed_forward|ffn|dense)\\.(?:(?:k_proj|v_proj|q_proj|out_proj|fc1|fc2|o_proj|gate_proj|up_proj|down_proj)))",
+  "target_parameters": null,
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b71de9c6e97ce314cd37a62ceee7d462555b335623a95be180afe62959e6ba0
+size 154116312

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{ '<start_of_turn>model
+' }}
+{%- endif -%}

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_pan_and_scan": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Gemma3ImageProcessor",
+  "image_seq_length": 256,
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "pan_and_scan_max_num_crops": null,
+  "pan_and_scan_min_crop_size": null,
+  "pan_and_scan_min_ratio_to_activate": null,
+  "processor_class": "Gemma3Processor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 896,
+    "width": 896
+  }
+}

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/processor_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "image_seq_length": 256,
+  "processor_class": "Gemma3Processor"
+}

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<end_of_turn>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

brats_medgemma_r16_alpha16_20251014_023559/lora_adapters/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

brats_medgemma_r16_alpha16_20251014_023559/merged_model/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

brats_medgemma_r16_alpha16_20251014_023559/merged_model/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{ '<start_of_turn>model
+' }}
+{%- endif -%}

brats_medgemma_r16_alpha16_20251014_023559/merged_model/config.json ADDED Viewed

	@@ -0,0 +1,99 @@

+{
+    "architectures": [
+        "Gemma3ForConditionalGeneration"
+    ],
+    "boi_token_index": 255999,
+    "bos_token_id": 2,
+    "torch_dtype": "bfloat16",
+    "eoi_token_index": 256000,
+    "eos_token_id": 106,
+    "image_token_index": 262144,
+    "initializer_range": 0.02,
+    "mm_tokens_per_image": 256,
+    "model_type": "gemma3",
+    "pad_token_id": 0,
+    "text_config": {
+        "_sliding_window_pattern": 6,
+        "attention_bias": false,
+        "attention_dropout": 0.0,
+        "attn_logit_softcapping": null,
+        "cache_implementation": "hybrid",
+        "torch_dtype": "bfloat16",
+        "final_logit_softcapping": null,
+        "head_dim": 256,
+        "hidden_activation": "gelu_pytorch_tanh",
+        "hidden_size": 2560,
+        "initializer_range": 0.02,
+        "intermediate_size": 10240,
+        "layer_types": [
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "full_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "full_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "full_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "full_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "full_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention",
+            "sliding_attention"
+        ],
+        "max_position_embeddings": 131072,
+        "model_type": "gemma3_text",
+        "num_attention_heads": 8,
+        "num_hidden_layers": 34,
+        "num_key_value_heads": 4,
+        "query_pre_attn_scalar": 256,
+        "rms_norm_eps": 1e-06,
+        "rope_local_base_freq": 10000,
+        "rope_scaling": {
+            "factor": 8.0,
+            "rope_type": "linear"
+        },
+        "rope_theta": 1000000,
+        "sliding_window": 1024,
+        "use_cache": true,
+        "vocab_size": 262208
+    },
+    "transformers_version": "4.56.2",
+    "unsloth_fixed": true,
+    "unsloth_version": "2025.10.1",
+    "vision_config": {
+        "attention_dropout": 0.0,
+        "torch_dtype": "bfloat16",
+        "hidden_act": "gelu_pytorch_tanh",
+        "hidden_size": 1152,
+        "image_size": 896,
+        "intermediate_size": 4304,
+        "layer_norm_eps": 1e-06,
+        "model_type": "siglip_vision_model",
+        "num_attention_heads": 16,
+        "num_channels": 3,
+        "num_hidden_layers": 27,
+        "patch_size": 14,
+        "vision_use_head": false
+    }
+}

brats_medgemma_r16_alpha16_20251014_023559/merged_model/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:261b82172968668e38b03115295bc04e313803929b49ef174391fa80bee3aa4e
+size 4961251752

brats_medgemma_r16_alpha16_20251014_023559/merged_model/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:118602196177d7e66def43402902115d570b4492335c719e8dd7f0c64b2aa1da
+size 3639026128

brats_medgemma_r16_alpha16_20251014_023559/merged_model/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,891 @@

+{
+  "metadata": {
+    "total_parameters": 4971331952,
+    "total_size": 8600158944
+  },
+  "weight_map": {
+    "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.norm.weight": "model-00002-of-00002.safetensors",
+    "multi_modal_projector.mm_input_projection_weight": "model-00001-of-00002.safetensors",
+    "multi_modal_projector.mm_soft_emb_norm.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}

brats_medgemma_r16_alpha16_20251014_023559/merged_model/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_pan_and_scan": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Gemma3ImageProcessor",
+  "image_seq_length": 256,
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "pan_and_scan_max_num_crops": null,
+  "pan_and_scan_min_crop_size": null,
+  "pan_and_scan_min_ratio_to_activate": null,
+  "processor_class": "Gemma3Processor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 896,
+    "width": 896
+  }
+}

brats_medgemma_r16_alpha16_20251014_023559/merged_model/processor_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "image_seq_length": 256,
+  "processor_class": "Gemma3Processor"
+}

brats_medgemma_r16_alpha16_20251014_023559/merged_model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<end_of_turn>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

brats_medgemma_r16_alpha16_20251014_023559/merged_model/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

brats_medgemma_r16_alpha16_20251014_023559/merged_model/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

brats_medgemma_r16_alpha16_20251014_023559/merged_model/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

brats_medgemma_r16_alpha16_20251014_023559/metrics/complete_data_distribution_20251014_023559.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "experiment_metadata": {
+    "timestamp": "20251014_023559",
+    "random_seed": 3407,
+    "source_dataset": "Jupitern52/TextBraTS"
+  },
+  "data_summary": {
+    "original_textbrats_samples": 369,
+    "available_patients": 369,
+    "patients_used": 369,
+    "total_created_samples": 1107,
+    "train_samples": 996,
+    "test_samples": 111
+  },
+  "train_split": {
+    "image_type_distribution": {
+      "single_slice": 336,
+      "three_slices": 326,
+      "five_slices": 334
+    }
+  },
+  "test_split": {
+    "image_type_distribution": {
+      "three_slices": 43,
+      "five_slices": 35,
+      "single_slice": 33
+    }
+  }
+}

brats_medgemma_r16_alpha16_20251014_023559/metrics/test_detailed_20251014_023559.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

brats_medgemma_r16_alpha16_20251014_023559/metrics/test_summary_20251014_023559.csv ADDED Viewed

	@@ -0,0 +1,4 @@

+Metric,Score
+ROUGE1,0.624212
+ROUGE2,0.345734
+ROUGEL,0.464775

brats_medgemma_r16_alpha16_20251014_023559/metrics/training_log_20251014_023559.csv ADDED Viewed

	@@ -0,0 +1,249 @@

+step,epoch,loss,learning_rate,grad_norm,elapsed_time_s,timestamp
+1,0.0080,3.661000,0.00e+00,1.7501,4.50,2025-10-14 02:38:11
+2,0.0161,3.531500,2.50e-05,1.2612,7.31,2025-10-14 02:38:14
+3,0.0241,3.457900,5.00e-05,1.1712,10.29,2025-10-14 02:38:17
+4,0.0321,3.526400,7.50e-05,1.1998,13.04,2025-10-14 02:38:19
+5,0.0402,3.483800,1.00e-04,2.0034,15.85,2025-10-14 02:38:22
+6,0.0482,3.244900,1.25e-04,0.9971,18.89,2025-10-14 02:38:25
+7,0.0562,3.123500,1.50e-04,1.0101,21.56,2025-10-14 02:38:28
+8,0.0643,2.844500,1.75e-04,0.9233,24.40,2025-10-14 02:38:31
+9,0.0723,2.585600,2.00e-04,0.9620,27.34,2025-10-14 02:38:34
+10,0.0803,2.271700,2.00e-04,1.0351,45.88,2025-10-14 02:38:52
+11,0.0884,2.162500,2.00e-04,1.0996,48.59,2025-10-14 02:38:55
+12,0.0964,2.091600,2.00e-04,1.1375,51.61,2025-10-14 02:38:58
+13,0.1044,1.815100,2.00e-04,1.1086,54.32,2025-10-14 02:39:01
+14,0.1124,1.684200,2.00e-04,0.9769,57.01,2025-10-14 02:39:03
+15,0.1205,1.581600,2.00e-04,1.0469,59.97,2025-10-14 02:39:06
+16,0.1285,1.495900,2.00e-04,1.0728,62.73,2025-10-14 02:39:09
+17,0.1365,1.333700,1.99e-04,1.0180,65.34,2025-10-14 02:39:12
+18,0.1446,1.380600,1.99e-04,0.9453,68.05,2025-10-14 02:39:14
+19,0.1526,1.200700,1.99e-04,0.8730,71.00,2025-10-14 02:39:17
+20,0.1606,1.142900,1.99e-04,0.7516,98.27,2025-10-14 02:39:45
+21,0.1687,1.144500,1.99e-04,0.6825,101.24,2025-10-14 02:39:47
+22,0.1767,0.949900,1.99e-04,0.6200,103.99,2025-10-14 02:39:50
+23,0.1847,1.032300,1.98e-04,0.5919,106.65,2025-10-14 02:39:53
+24,0.1928,1.029000,1.98e-04,0.6077,109.42,2025-10-14 02:39:56
+25,0.2008,0.990200,1.98e-04,0.6977,112.36,2025-10-14 02:39:59
+26,0.2088,0.949700,1.98e-04,0.6340,115.05,2025-10-14 02:40:01
+27,0.2169,0.956000,1.97e-04,0.6178,117.77,2025-10-14 02:40:04
+28,0.2249,0.837000,1.97e-04,0.6371,120.73,2025-10-14 02:40:07
+29,0.2329,0.869800,1.97e-04,0.6010,123.43,2025-10-14 02:40:10
+30,0.2410,0.988000,1.96e-04,0.6794,153.04,2025-10-14 02:40:39
+31,0.2490,0.825000,1.96e-04,0.5848,155.72,2025-10-14 02:40:42
+32,0.2570,0.990700,1.96e-04,0.6502,158.39,2025-10-14 02:40:45
+33,0.2651,0.878200,1.95e-04,0.5683,161.06,2025-10-14 02:40:47
+34,0.2731,0.769000,1.95e-04,0.6430,163.97,2025-10-14 02:40:50
+35,0.2811,0.775200,1.94e-04,0.5244,166.62,2025-10-14 02:40:53
+36,0.2892,0.882800,1.94e-04,0.7427,169.35,2025-10-14 02:40:56
+37,0.2972,0.784400,1.93e-04,0.5156,172.31,2025-10-14 02:40:59
+38,0.3052,0.808400,1.93e-04,0.5493,175.08,2025-10-14 02:41:01
+39,0.3133,0.730900,1.92e-04,0.4674,177.79,2025-10-14 02:41:04
+40,0.3213,0.823600,1.92e-04,0.4736,205.49,2025-10-14 02:41:32
+41,0.3293,0.727900,1.91e-04,0.5585,208.16,2025-10-14 02:41:34
+42,0.3373,0.736900,1.91e-04,0.4775,210.90,2025-10-14 02:41:37
+43,0.3454,0.796600,1.90e-04,0.5023,213.97,2025-10-14 02:41:40
+44,0.3534,0.746000,1.90e-04,0.4784,216.70,2025-10-14 02:41:43
+45,0.3614,0.686300,1.89e-04,0.4541,219.36,2025-10-14 02:41:46
+46,0.3695,0.761300,1.88e-04,0.5082,222.26,2025-10-14 02:41:48
+47,0.3775,0.719400,1.88e-04,0.5020,224.96,2025-10-14 02:41:51
+48,0.3855,0.707300,1.87e-04,0.4575,227.68,2025-10-14 02:41:54
+49,0.3936,0.720500,1.87e-04,0.5187,230.58,2025-10-14 02:41:57
+50,0.4016,0.729700,1.86e-04,0.4517,260.34,2025-10-14 02:42:27
+51,0.4096,0.813500,1.85e-04,0.5083,263.02,2025-10-14 02:42:29
+52,0.4177,0.729600,1.85e-04,0.3865,265.96,2025-10-14 02:42:32
+53,0.4257,0.609000,1.84e-04,0.4151,268.64,2025-10-14 02:42:35
+54,0.4337,0.730400,1.83e-04,0.5288,271.25,2025-10-14 02:42:37
+55,0.4418,0.707600,1.82e-04,0.4802,274.16,2025-10-14 02:42:40
+56,0.4498,0.675800,1.82e-04,0.4417,276.82,2025-10-14 02:42:43
+57,0.4578,0.747600,1.81e-04,0.4282,279.42,2025-10-14 02:42:46
+58,0.4659,0.627200,1.80e-04,0.3931,282.30,2025-10-14 02:42:49
+59,0.4739,0.734500,1.79e-04,0.4078,285.00,2025-10-14 02:42:51
+60,0.4819,0.810000,1.79e-04,0.3947,313.47,2025-10-14 02:43:20
+61,0.4900,0.653900,1.78e-04,0.3742,316.39,2025-10-14 02:43:23
+62,0.4980,0.699200,1.77e-04,0.3815,319.07,2025-10-14 02:43:25
+63,0.5060,0.669600,1.76e-04,0.3870,321.77,2025-10-14 02:43:28
+64,0.5141,0.709700,1.75e-04,0.4085,324.70,2025-10-14 02:43:31
+65,0.5221,0.662400,1.74e-04,0.3583,327.41,2025-10-14 02:43:34
+66,0.5301,0.746300,1.73e-04,0.4033,330.06,2025-10-14 02:43:36
+67,0.5382,0.730200,1.73e-04,0.4176,332.90,2025-10-14 02:43:39
+68,0.5462,0.725900,1.72e-04,0.4564,335.61,2025-10-14 02:43:42
+69,0.5542,0.696100,1.71e-04,0.4428,338.24,2025-10-14 02:43:44
+70,0.5622,0.707200,1.70e-04,0.3899,368.44,2025-10-14 02:44:15
+71,0.5703,0.668000,1.69e-04,0.4016,371.14,2025-10-14 02:44:17
+72,0.5783,0.689300,1.68e-04,0.4717,373.76,2025-10-14 02:44:20
+73,0.5863,0.643400,1.67e-04,0.4114,376.76,2025-10-14 02:44:23
+74,0.5944,0.773500,1.66e-04,0.3843,379.40,2025-10-14 02:44:26
+75,0.6024,0.625600,1.65e-04,0.3784,382.07,2025-10-14 02:44:28
+76,0.6104,0.742600,1.64e-04,0.4154,384.85,2025-10-14 02:44:31
+77,0.6185,0.641800,1.63e-04,0.3756,387.48,2025-10-14 02:44:34
+78,0.6265,0.658600,1.62e-04,0.3692,390.17,2025-10-14 02:44:36
+79,0.6345,0.655300,1.61e-04,0.3598,393.05,2025-10-14 02:44:39
+80,0.6426,0.668000,1.60e-04,0.3489,417.49,2025-10-14 02:45:04
+81,0.6506,0.651000,1.59e-04,0.3611,420.13,2025-10-14 02:45:06
+82,0.6586,0.679100,1.58e-04,0.3782,423.04,2025-10-14 02:45:09
+83,0.6667,0.632000,1.57e-04,0.3440,425.72,2025-10-14 02:45:12
+84,0.6747,0.597600,1.56e-04,0.3400,428.33,2025-10-14 02:45:15
+85,0.6827,0.663400,1.54e-04,0.3748,431.15,2025-10-14 02:45:17
+86,0.6908,0.658400,1.53e-04,0.4018,433.81,2025-10-14 02:45:20
+87,0.6988,0.641000,1.52e-04,0.3593,436.43,2025-10-14 02:45:23
+88,0.7068,0.541100,1.51e-04,0.3608,439.31,2025-10-14 02:45:26
+89,0.7149,0.702500,1.50e-04,0.4036,442.04,2025-10-14 02:45:28
+90,0.7229,0.652000,1.49e-04,0.3567,470.64,2025-10-14 02:45:57
+91,0.7309,0.687000,1.48e-04,0.3980,473.58,2025-10-14 02:46:00
+92,0.7390,0.625700,1.47e-04,0.3441,476.26,2025-10-14 02:46:02
+93,0.7470,0.662500,1.45e-04,0.3753,478.92,2025-10-14 02:46:05
+94,0.7550,0.652100,1.44e-04,0.3806,481.82,2025-10-14 02:46:08
+95,0.7631,0.592600,1.43e-04,0.3278,484.45,2025-10-14 02:46:11
+96,0.7711,0.751500,1.42e-04,0.3877,487.12,2025-10-14 02:46:13
+97,0.7791,0.627000,1.41e-04,0.3428,490.02,2025-10-14 02:46:16
+98,0.7871,0.638100,1.39e-04,0.3656,492.65,2025-10-14 02:46:19
+99,0.7952,0.605000,1.38e-04,0.3521,495.29,2025-10-14 02:46:22
+100,0.8032,0.699100,1.37e-04,0.3801,523.72,2025-10-14 02:46:50
+101,0.8112,0.636500,1.36e-04,0.3536,526.34,2025-10-14 02:46:53
+102,0.8193,0.588600,1.35e-04,0.3336,528.97,2025-10-14 02:46:55
+103,0.8273,0.620700,1.33e-04,0.3656,531.94,2025-10-14 02:46:58
+104,0.8353,0.737100,1.32e-04,0.4212,534.57,2025-10-14 02:47:01
+105,0.8434,0.657900,1.31e-04,0.4223,537.28,2025-10-14 02:47:04
+106,0.8514,0.677400,1.30e-04,0.3878,540.07,2025-10-14 02:47:06
+107,0.8594,0.607500,1.28e-04,0.3834,542.75,2025-10-14 02:47:09
+108,0.8675,0.687500,1.27e-04,0.3959,545.32,2025-10-14 02:47:12
+109,0.8755,0.671400,1.26e-04,0.3873,548.14,2025-10-14 02:47:14
+110,0.8835,0.631200,1.25e-04,0.4038,574.80,2025-10-14 02:47:41
+111,0.8916,0.568900,1.23e-04,0.3690,577.46,2025-10-14 02:47:44
+112,0.8996,0.636900,1.22e-04,0.4201,580.33,2025-10-14 02:47:47
+113,0.9076,0.663400,1.21e-04,0.3881,582.95,2025-10-14 02:47:49
+114,0.9157,0.663400,1.20e-04,0.3856,585.61,2025-10-14 02:47:52
+115,0.9237,0.687900,1.18e-04,0.4094,588.48,2025-10-14 02:47:55
+116,0.9317,0.619000,1.17e-04,0.3654,591.08,2025-10-14 02:47:57
+117,0.9398,0.676200,1.16e-04,0.3930,593.75,2025-10-14 02:48:00
+118,0.9478,0.650800,1.14e-04,0.3489,596.61,2025-10-14 02:48:03
+119,0.9558,0.643800,1.13e-04,0.3681,599.25,2025-10-14 02:48:05
+120,0.9639,0.609500,1.12e-04,0.3608,628.16,2025-10-14 02:48:34
+121,0.9719,0.735100,1.10e-04,0.4311,631.09,2025-10-14 02:48:37
+122,0.9799,0.622300,1.09e-04,0.3869,633.76,2025-10-14 02:48:40
+123,0.9880,0.741400,1.08e-04,0.3843,636.41,2025-10-14 02:48:43
+124,0.9960,0.614300,1.07e-04,0.3856,639.24,2025-10-14 02:48:45
+125,1.0000,0.572800,1.05e-04,0.4785,640.49,2025-10-14 02:48:47
+126,1.0080,0.658300,1.04e-04,0.3807,643.22,2025-10-14 02:48:49
+127,1.0161,0.612800,1.03e-04,0.3618,645.88,2025-10-14 02:48:52
+128,1.0241,0.585400,1.01e-04,0.3824,648.63,2025-10-14 02:48:55
+129,1.0321,0.585500,1.00e-04,0.3595,651.24,2025-10-14 02:48:57
+130,1.0402,0.563400,9.87e-05,0.3593,678.24,2025-10-14 02:49:24
+131,1.0482,0.601800,9.74e-05,0.3982,680.83,2025-10-14 02:49:27
+132,1.0562,0.582200,9.61e-05,0.3832,683.49,2025-10-14 02:49:30
+133,1.0643,0.605000,9.48e-05,0.4006,686.37,2025-10-14 02:49:33
+134,1.0723,0.672600,9.35e-05,0.4410,688.88,2025-10-14 02:49:35
+135,1.0803,0.611500,9.22e-05,0.3909,691.48,2025-10-14 02:49:38
+136,1.0884,0.577300,9.08e-05,0.3846,694.03,2025-10-14 02:49:40
+137,1.0964,0.590100,8.95e-05,0.3928,696.87,2025-10-14 02:49:43
+138,1.1044,0.564000,8.82e-05,0.3815,699.57,2025-10-14 02:49:46
+139,1.1124,0.602500,8.69e-05,0.4048,702.19,2025-10-14 02:49:48
+140,1.1205,0.583700,8.57e-05,0.3785,730.25,2025-10-14 02:50:16
+141,1.1285,0.563100,8.44e-05,0.3678,732.89,2025-10-14 02:50:19
+142,1.1365,0.576700,8.31e-05,0.4113,735.49,2025-10-14 02:50:22
+143,1.1446,0.572300,8.18e-05,0.3949,738.29,2025-10-14 02:50:25
+144,1.1526,0.534800,8.05e-05,0.4239,740.91,2025-10-14 02:50:27
+145,1.1606,0.566900,7.92e-05,0.4282,743.43,2025-10-14 02:50:30
+146,1.1687,0.564200,7.79e-05,0.4061,746.21,2025-10-14 02:50:32
+147,1.1767,0.588200,7.67e-05,0.4400,748.88,2025-10-14 02:50:35
+148,1.1847,0.549400,7.54e-05,0.4523,751.47,2025-10-14 02:50:38
+149,1.1928,0.497200,7.41e-05,0.3937,754.29,2025-10-14 02:50:41
+150,1.2008,0.589500,7.29e-05,0.4231,780.53,2025-10-14 02:51:07
+151,1.2088,0.680100,7.16e-05,0.4921,783.42,2025-10-14 02:51:10
+152,1.2169,0.548000,7.03e-05,0.4418,786.06,2025-10-14 02:51:12
+153,1.2249,0.627200,6.91e-05,0.4475,788.68,2025-10-14 02:51:15
+154,1.2329,0.551000,6.79e-05,0.4346,791.48,2025-10-14 02:51:18
+155,1.2410,0.587000,6.66e-05,0.4215,794.04,2025-10-14 02:51:20
+156,1.2490,0.666000,6.54e-05,0.4602,796.69,2025-10-14 02:51:23
+157,1.2570,0.546500,6.42e-05,0.4327,799.30,2025-10-14 02:51:26
+158,1.2651,0.517700,6.29e-05,0.4326,802.01,2025-10-14 02:51:28
+159,1.2731,0.517100,6.17e-05,0.3966,804.66,2025-10-14 02:51:31
+160,1.2811,0.507300,6.05e-05,0.3807,832.31,2025-10-14 02:51:59
+161,1.2892,0.582100,5.93e-05,0.4211,834.92,2025-10-14 02:52:01
+162,1.2972,0.536000,5.81e-05,0.4256,837.65,2025-10-14 02:52:04
+163,1.3052,0.625000,5.69e-05,0.4518,840.54,2025-10-14 02:52:07
+164,1.3133,0.507400,5.58e-05,0.4157,843.16,2025-10-14 02:52:09
+165,1.3213,0.606700,5.46e-05,0.4683,845.80,2025-10-14 02:52:12
+166,1.3293,0.592500,5.34e-05,0.4639,848.65,2025-10-14 02:52:15
+167,1.3373,0.535700,5.23e-05,0.4304,851.28,2025-10-14 02:52:18
+168,1.3454,0.525700,5.11e-05,0.4269,853.96,2025-10-14 02:52:20
+169,1.3534,0.576000,5.00e-05,0.4462,856.64,2025-10-14 02:52:23
+170,1.3614,0.564600,4.89e-05,0.4494,886.14,2025-10-14 02:52:52
+171,1.3695,0.617000,4.78e-05,0.4571,888.69,2025-10-14 02:52:55
+172,1.3775,0.546900,4.66e-05,0.4503,891.53,2025-10-14 02:52:58
+173,1.3855,0.564700,4.55e-05,0.4325,894.21,2025-10-14 02:53:00
+174,1.3936,0.585900,4.44e-05,0.4519,896.93,2025-10-14 02:53:03
+175,1.4016,0.617800,4.34e-05,0.4665,899.61,2025-10-14 02:53:06
+176,1.4096,0.544300,4.23e-05,0.4319,902.43,2025-10-14 02:53:09
+177,1.4177,0.514200,4.12e-05,0.4319,905.09,2025-10-14 02:53:11
+178,1.4257,0.518100,4.02e-05,0.4473,907.73,2025-10-14 02:53:14
+179,1.4337,0.542000,3.91e-05,0.4436,910.56,2025-10-14 02:53:17
+180,1.4418,0.572700,3.81e-05,0.4711,939.38,2025-10-14 02:53:46
+181,1.4498,0.658300,3.71e-05,0.5084,941.96,2025-10-14 02:53:48
+182,1.4578,0.547500,3.61e-05,0.4920,944.88,2025-10-14 02:53:51
+183,1.4659,0.577800,3.51e-05,0.4539,947.57,2025-10-14 02:53:54
+184,1.4739,0.577700,3.41e-05,0.4444,950.20,2025-10-14 02:53:56
+185,1.4819,0.570000,3.31e-05,0.4400,953.05,2025-10-14 02:53:59
+186,1.4900,0.635200,3.21e-05,0.4419,955.70,2025-10-14 02:54:02
+187,1.4980,0.627200,3.12e-05,0.4840,958.31,2025-10-14 02:54:05
+188,1.5060,0.572000,3.02e-05,0.4702,961.18,2025-10-14 02:54:07
+189,1.5141,0.519800,2.93e-05,0.4527,963.83,2025-10-14 02:54:10
+190,1.5221,0.571200,2.84e-05,0.4718,991.61,2025-10-14 02:54:38
+191,1.5301,0.557100,2.75e-05,0.4421,994.25,2025-10-14 02:54:40
+192,1.5382,0.575300,2.66e-05,0.4417,996.92,2025-10-14 02:54:43
+193,1.5462,0.514000,2.57e-05,0.4722,999.79,2025-10-14 02:54:46
+194,1.5542,0.582800,2.48e-05,0.4567,1002.46,2025-10-14 02:54:49
+195,1.5622,0.578400,2.40e-05,0.5073,1005.12,2025-10-14 02:54:51
+196,1.5703,0.552400,2.31e-05,0.4168,1007.98,2025-10-14 02:54:54
+197,1.5783,0.503500,2.23e-05,0.4307,1010.64,2025-10-14 02:54:57
+198,1.5863,0.564100,2.15e-05,0.4712,1013.20,2025-10-14 02:54:59
+199,1.5944,0.549300,2.07e-05,0.4221,1016.09,2025-10-14 02:55:02
+200,1.6024,0.556200,1.99e-05,0.4236,1044.98,2025-10-14 02:55:31
+201,1.6104,0.626100,1.91e-05,0.4601,1047.63,2025-10-14 02:55:34
+202,1.6185,0.585800,1.83e-05,0.4464,1050.54,2025-10-14 02:55:37
+203,1.6265,0.525200,1.76e-05,0.4390,1053.18,2025-10-14 02:55:39
+204,1.6345,0.520400,1.69e-05,0.4416,1055.82,2025-10-14 02:55:42
+205,1.6426,0.588900,1.61e-05,0.4607,1058.48,2025-10-14 02:55:45
+206,1.6506,0.559300,1.54e-05,0.4699,1061.34,2025-10-14 02:55:48
+207,1.6586,0.528300,1.47e-05,0.4598,1063.98,2025-10-14 02:55:50
+208,1.6667,0.524600,1.41e-05,0.4446,1066.63,2025-10-14 02:55:53
+209,1.6747,0.631200,1.34e-05,0.5368,1069.43,2025-10-14 02:55:56
+210,1.6827,0.555500,1.28e-05,0.4675,1096.70,2025-10-14 02:56:23
+211,1.6908,0.555000,1.21e-05,0.4599,1099.28,2025-10-14 02:56:26
+212,1.6988,0.579200,1.15e-05,0.4663,1102.23,2025-10-14 02:56:28
+213,1.7068,0.563700,1.09e-05,0.4902,1104.87,2025-10-14 02:56:31
+214,1.7149,0.548800,1.03e-05,0.4442,1107.71,2025-10-14 02:56:34
+215,1.7229,0.524900,9.74e-06,0.4569,1110.29,2025-10-14 02:56:37
+216,1.7309,0.542700,9.19e-06,0.4695,1112.85,2025-10-14 02:56:39
+217,1.7390,0.605100,8.65e-06,0.4749,1115.46,2025-10-14 02:56:42
+218,1.7470,0.536900,8.12e-06,0.4484,1118.30,2025-10-14 02:56:45
+219,1.7550,0.563300,7.61e-06,0.4447,1120.96,2025-10-14 02:56:47
+220,1.7631,0.576000,7.12e-06,0.4771,1147.72,2025-10-14 02:57:14
+221,1.7711,0.575400,6.64e-06,0.4956,1150.39,2025-10-14 02:57:17
+222,1.7791,0.500600,6.18e-06,0.4571,1153.07,2025-10-14 02:57:19
+223,1.7871,0.561400,5.74e-06,0.5011,1156.00,2025-10-14 02:57:22
+224,1.7952,0.550200,5.31e-06,0.4966,1158.58,2025-10-14 02:57:25
+225,1.8032,0.494000,4.89e-06,0.4464,1161.21,2025-10-14 02:57:27
+226,1.8112,0.548100,4.50e-06,0.4707,1164.12,2025-10-14 02:57:30
+227,1.8193,0.595400,4.12e-06,0.4660,1166.78,2025-10-14 02:57:33
+228,1.8273,0.579000,3.75e-06,0.4829,1169.38,2025-10-14 02:57:36
+229,1.8353,0.594800,3.41e-06,0.4978,1172.27,2025-10-14 02:57:38
+230,1.8434,0.556300,3.08e-06,0.4947,1200.49,2025-10-14 02:58:07
+231,1.8514,0.513500,2.76e-06,0.4471,1203.13,2025-10-14 02:58:09
+232,1.8594,0.517900,2.47e-06,0.4591,1206.02,2025-10-14 02:58:12
+233,1.8675,0.521000,2.19e-06,0.4627,1208.65,2025-10-14 02:58:15
+234,1.8755,0.518300,1.92e-06,0.4425,1211.28,2025-10-14 02:58:18
+235,1.8835,0.547100,1.67e-06,0.5851,1214.11,2025-10-14 02:58:20
+236,1.8916,0.546300,1.44e-06,0.4569,1216.81,2025-10-14 02:58:23
+237,1.8996,0.496000,1.23e-06,0.4289,1219.46,2025-10-14 02:58:26
+238,1.9076,0.471200,1.03e-06,0.4445,1222.32,2025-10-14 02:58:29
+239,1.9157,0.571500,8.56e-07,0.4872,1224.97,2025-10-14 02:58:31
+240,1.9237,0.527300,6.93e-07,0.4431,1252.15,2025-10-14 02:58:58
+241,1.9317,0.584900,5.48e-07,0.4701,1255.03,2025-10-14 02:59:01
+242,1.9398,0.568300,4.20e-07,0.4518,1257.70,2025-10-14 02:59:04
+243,1.9478,0.587900,3.08e-07,0.4786,1260.37,2025-10-14 02:59:07
+244,1.9558,0.576400,2.14e-07,0.4573,1263.27,2025-10-14 02:59:09
+245,1.9639,0.617200,1.37e-07,0.4948,1265.93,2025-10-14 02:59:12
+246,1.9719,0.558800,7.71e-08,0.4792,1268.50,2025-10-14 02:59:15
+247,1.9799,0.506400,3.43e-08,0.4807,1271.35,2025-10-14 02:59:18
+248,1.9880,0.527500,8.57e-09,0.4913,1273.93,2025-10-14 02:59:20

brats_medgemma_r16_alpha16_20251014_023559/metrics/training_summary_20251014_023559.csv ADDED Viewed

	@@ -0,0 +1,16 @@

+Metric,Value
+Timestamp,20251014_023559
+Training Time (s),1275.33
+Training Time (min),21.26
+Final Loss,0.7768651945216041
+Epochs,2
+Steps,Full epochs
+Train Samples,996
+Test Samples,111
+Train Split,0.9
+Learning Rate,0.0002
+LoRA Rank,16
+LoRA Alpha,16
+Batch Size,2
+Gradient Accumulation,4
+Validation Every N Steps,10

brats_medgemma_r16_alpha16_20251014_023559/metrics/validation_during_training_20251014_023559.json ADDED Viewed

The diff for this file is too large to render. See raw diff

brats_medgemma_r16_alpha16_20251014_023559/metrics/validation_log_20251014_023559.csv ADDED Viewed

	@@ -0,0 +1,73 @@

+step,epoch,sample_id,patient_id,image_type,rouge1,rouge2,rougeL,avg_rouge
+10,0.0803,7,BraTS20_Training_005,three_slices,0.0845,0.0000,0.0704,0.0516
+10,0.0803,53,BraTS20_Training_048,five_slices,0.1419,0.0131,0.1032,0.0861
+10,0.0803,16,BraTS20_Training_199,three_slices,0.4800,0.1435,0.2311,0.2849
+20,0.1606,42,BraTS20_Training_165,three_slices,0.5978,0.2857,0.4565,0.4467
+20,0.1606,27,BraTS20_Training_128,three_slices,0.5481,0.2524,0.3846,0.3950
+20,0.1606,51,BraTS20_Training_146,single_slice,0.5514,0.1887,0.2804,0.3402
+30,0.2410,39,BraTS20_Training_107,single_slice,0.5714,0.2703,0.4018,0.4145
+30,0.2410,75,BraTS20_Training_347,five_slices,0.5837,0.2899,0.4019,0.4252
+30,0.2410,108,BraTS20_Training_279,three_slices,0.4906,0.2476,0.3208,0.3530
+40,0.3213,45,BraTS20_Training_364,single_slice,0.6477,0.3448,0.4205,0.4710
+40,0.3213,31,BraTS20_Training_080,single_slice,0.5877,0.2679,0.4076,0.4211
+40,0.3213,99,BraTS20_Training_329,five_slices,0.6061,0.3057,0.3636,0.4251
+50,0.4016,108,BraTS20_Training_279,three_slices,0.5972,0.3158,0.4550,0.4560
+50,0.4016,60,BraTS20_Training_366,single_slice,0.6729,0.3208,0.4299,0.4745
+50,0.4016,90,BraTS20_Training_248,five_slices,0.6571,0.3365,0.5429,0.5122
+60,0.4819,65,BraTS20_Training_368,five_slices,0.6590,0.3860,0.4855,0.5102
+60,0.4819,52,BraTS20_Training_239,five_slices,0.6368,0.3116,0.4478,0.4654
+60,0.4819,86,BraTS20_Training_121,single_slice,0.5234,0.2736,0.3832,0.3934
+70,0.5622,33,BraTS20_Training_214,five_slices,0.6875,0.4324,0.5357,0.5519
+70,0.5622,109,BraTS20_Training_178,three_slices,0.6637,0.3710,0.4036,0.4794
+70,0.5622,34,BraTS20_Training_116,three_slices,0.6484,0.3041,0.4384,0.4636
+80,0.6426,28,BraTS20_Training_271,three_slices,0.6598,0.4063,0.5464,0.5375
+80,0.6426,13,BraTS20_Training_132,three_slices,0.6429,0.3604,0.4911,0.4981
+80,0.6426,38,BraTS20_Training_040,single_slice,0.5896,0.3041,0.4624,0.4520
+90,0.7229,108,BraTS20_Training_279,three_slices,0.6425,0.3665,0.5285,0.5125
+90,0.7229,24,BraTS20_Training_139,five_slices,0.6359,0.4186,0.4516,0.5021
+90,0.7229,40,BraTS20_Training_192,three_slices,0.6435,0.3246,0.4261,0.4647
+100,0.8032,73,BraTS20_Training_111,single_slice,0.6170,0.3656,0.4894,0.4907
+100,0.8032,95,BraTS20_Training_039,single_slice,0.6780,0.4343,0.5650,0.5591
+100,0.8032,14,BraTS20_Training_259,five_slices,0.6957,0.4035,0.5043,0.5345
+110,0.8835,15,BraTS20_Training_343,five_slices,0.6638,0.3863,0.4596,0.5032
+110,0.8835,75,BraTS20_Training_347,five_slices,0.6632,0.4043,0.5053,0.5242
+110,0.8835,82,BraTS20_Training_301,five_slices,0.6368,0.4221,0.4975,0.5188
+120,0.9639,28,BraTS20_Training_271,three_slices,0.5888,0.3491,0.4953,0.4777
+120,0.9639,42,BraTS20_Training_165,three_slices,0.6667,0.3518,0.4876,0.5020
+120,0.9639,3,BraTS20_Training_355,single_slice,0.5833,0.3579,0.4583,0.4665
+130,1.0402,14,BraTS20_Training_259,five_slices,0.6937,0.4091,0.5315,0.5448
+130,1.0402,35,BraTS20_Training_178,single_slice,0.6400,0.3535,0.4500,0.4812
+130,1.0402,106,BraTS20_Training_004,three_slices,0.6257,0.3164,0.4581,0.4667
+140,1.1205,71,BraTS20_Training_367,five_slices,0.6979,0.4120,0.4936,0.5345
+140,1.1205,5,BraTS20_Training_344,single_slice,0.7035,0.3858,0.4925,0.5273
+140,1.1205,3,BraTS20_Training_355,single_slice,0.6122,0.3402,0.4184,0.4569
+150,1.2008,94,BraTS20_Training_091,three_slices,0.6139,0.3100,0.4653,0.4631
+150,1.2008,20,BraTS20_Training_130,three_slices,0.6971,0.4740,0.5486,0.5732
+150,1.2008,102,BraTS20_Training_274,three_slices,0.6179,0.3361,0.4228,0.4589
+160,1.2811,107,BraTS20_Training_145,five_slices,0.6140,0.3717,0.5175,0.5011
+160,1.2811,72,BraTS20_Training_203,three_slices,0.6041,0.3292,0.4816,0.4716
+160,1.2811,30,BraTS20_Training_300,five_slices,0.6484,0.3778,0.5055,0.5105
+170,1.3614,62,BraTS20_Training_122,five_slices,0.6458,0.3895,0.4792,0.5048
+170,1.3614,70,BraTS20_Training_244,three_slices,0.5991,0.3256,0.4608,0.4618
+170,1.3614,109,BraTS20_Training_178,three_slices,0.6518,0.3694,0.4911,0.5041
+180,1.4418,37,BraTS20_Training_296,five_slices,0.6169,0.3920,0.4677,0.4922
+180,1.4418,68,BraTS20_Training_215,three_slices,0.5600,0.3139,0.4267,0.4335
+180,1.4418,17,BraTS20_Training_211,five_slices,0.7019,0.3883,0.4712,0.5205
+190,1.5221,27,BraTS20_Training_128,three_slices,0.6332,0.3553,0.4925,0.4937
+190,1.5221,63,BraTS20_Training_236,single_slice,0.6528,0.3560,0.4870,0.4986
+190,1.5221,75,BraTS20_Training_347,five_slices,0.6087,0.3512,0.4541,0.4713
+200,1.6024,93,BraTS20_Training_321,five_slices,0.5953,0.3756,0.4930,0.4880
+200,1.6024,74,BraTS20_Training_180,single_slice,0.5922,0.3039,0.4175,0.4379
+200,1.6024,72,BraTS20_Training_203,three_slices,0.6412,0.2923,0.3969,0.4435
+210,1.6827,59,BraTS20_Training_260,single_slice,0.5670,0.3438,0.4227,0.4445
+210,1.6827,85,BraTS20_Training_369,five_slices,0.6311,0.3333,0.4757,0.4800
+210,1.6827,1,BraTS20_Training_060,three_slices,0.6000,0.3483,0.4778,0.4754
+220,1.7631,49,BraTS20_Training_110,three_slices,0.6036,0.3713,0.4852,0.4867
+220,1.7631,60,BraTS20_Training_366,single_slice,0.6263,0.3061,0.4646,0.4657
+220,1.7631,32,BraTS20_Training_101,five_slices,0.6667,0.3362,0.4701,0.4910
+230,1.8434,83,BraTS20_Training_320,three_slices,0.5837,0.3188,0.4211,0.4412
+230,1.8434,94,BraTS20_Training_091,three_slices,0.6000,0.3846,0.4857,0.4901
+230,1.8434,43,BraTS20_Training_114,five_slices,0.5326,0.3297,0.4348,0.4324
+240,1.9237,10,BraTS20_Training_327,three_slices,0.6289,0.3646,0.4742,0.4892
+240,1.9237,31,BraTS20_Training_080,single_slice,0.6419,0.3192,0.4186,0.4599
+240,1.9237,53,BraTS20_Training_048,five_slices,0.6829,0.3547,0.4976,0.5117