Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

.ipynb_checkpoints/model.safetensors.index-checkpoint.json +266 -0
latest +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
trainer_state.json +3 -259

.ipynb_checkpoints/model.safetensors.index-checkpoint.json ADDED Viewed

	@@ -0,0 +1,266 @@

+{
+  "metadata": {
+    "total_size": 14485561344
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.swiglu.w12.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.swiglu.w3.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.swiglu.w12.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.swiglu.w3.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.swiglu.w12.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.swiglu.w3.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step400~~


1	+ global_step200

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09dbc2d50e21279a6687e5ce2aa33783bcd56dc8b7f181e4204eb1f06352476c
 size 4944209688

 version https://git-lfs.github.com/spec/v1
+oid sha256:57883e74182256c5d1f51385d44947cd90975ff37361696085ccd967af5ab751
 size 4944209688

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:889dff47100f537a4f3605a3b3c7037fba880411dde94a2500b9bdfa7e8cf3b7
 size 4999818096

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5b4e7e3a82dd1175cd8fa3a61b5fda1986b843466429d46c9a331cc0af13331
 size 4999818096

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdcaf67ca9fadbf1301ffa67b7c82053de2936de0a8cda5b62c49e6485820680
 size 4541563792

 version https://git-lfs.github.com/spec/v1
+oid sha256:459644e159ed45cae93d11cf420711adb49366931b694157db666af83d9c69e0
 size 4541563792

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.016247366149628087,
   "eval_steps": 100,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -269,262 +269,6 @@
       "eval_samples_per_second": 16.039,
       "eval_steps_per_second": 2.678,
       "step": 200
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.319838056680162e-05,
-      "loss": 1.0047,
-      "step": 205
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.4008097165991904e-05,
-      "loss": 1.0575,
-      "step": 210
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.481781376518219e-05,
-      "loss": 1.0273,
-      "step": 215
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.562753036437247e-05,
-      "loss": 1.0536,
-      "step": 220
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.6437246963562756e-05,
-      "loss": 1.0294,
-      "step": 225
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.724696356275304e-05,
-      "loss": 1.0606,
-      "step": 230
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.8056680161943324e-05,
-      "loss": 1.0694,
-      "step": 235
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.88663967611336e-05,
-      "loss": 1.0938,
-      "step": 240
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.967611336032389e-05,
-      "loss": 1.0869,
-      "step": 245
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999999850459128e-05,
-      "loss": 1.168,
-      "step": 250
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999998936598321e-05,
-      "loss": 1.1085,
-      "step": 255
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999997191955348e-05,
-      "loss": 1.1078,
-      "step": 260
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.9999946165309344e-05,
-      "loss": 1.1171,
-      "step": 265
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.9999912103261505e-05,
-      "loss": 1.1211,
-      "step": 270
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.99998697334241e-05,
-      "loss": 1.1611,
-      "step": 275
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999981905581474e-05,
-      "loss": 1.1409,
-      "step": 280
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999976007045447e-05,
-      "loss": 1.1618,
-      "step": 285
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.9999692777367795e-05,
-      "loss": 1.1556,
-      "step": 290
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999961717658266e-05,
-      "loss": 1.1638,
-      "step": 295
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999953326813049e-05,
-      "loss": 1.155,
-      "step": 300
-    },
-    {
-      "epoch": 0.01,
-      "eval_loss": 1.1065119504928589,
-      "eval_runtime": 147.7258,
-      "eval_samples_per_second": 16.016,
-      "eval_steps_per_second": 2.674,
-      "step": 300
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999944105204611e-05,
-      "loss": 1.1231,
-      "step": 305
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999934052836784e-05,
-      "loss": 1.1643,
-      "step": 310
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999923169713744e-05,
-      "loss": 1.1288,
-      "step": 315
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999911455840012e-05,
-      "loss": 1.2138,
-      "step": 320
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.9998989112204534e-05,
-      "loss": 1.1732,
-      "step": 325
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999885535860278e-05,
-      "loss": 1.2124,
-      "step": 330
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.9998713297650436e-05,
-      "loss": 1.1609,
-      "step": 335
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.9998562929406505e-05,
-      "loss": 1.1319,
-      "step": 340
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999840425393345e-05,
-      "loss": 1.1741,
-      "step": 345
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999823727129718e-05,
-      "loss": 1.1274,
-      "step": 350
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999806198156706e-05,
-      "loss": 1.1295,
-      "step": 355
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999787838481591e-05,
-      "loss": 1.1273,
-      "step": 360
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 3.999768648111998e-05,
-      "loss": 1.1855,
-      "step": 365
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 3.9997486270559006e-05,
-      "loss": 1.1445,
-      "step": 370
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 3.999727775321613e-05,
-      "loss": 1.1475,
-      "step": 375
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 3.9997060929177987e-05,
-      "loss": 1.1315,
-      "step": 380
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 3.999683579853463e-05,
-      "loss": 1.174,
-      "step": 385
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 3.999660236137959e-05,
-      "loss": 1.1369,
-      "step": 390
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 3.9996360617809826e-05,
-      "loss": 1.1386,
-      "step": 395
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 3.999611056792576e-05,
-      "loss": 1.1698,
-      "step": 400
-    },
-    {
-      "epoch": 0.02,
-      "eval_loss": 1.1100603342056274,
-      "eval_runtime": 147.5975,
-      "eval_samples_per_second": 16.03,
-      "eval_steps_per_second": 2.676,
-      "step": 400
     }
   ],
   "logging_steps": 5,
@@ -532,7 +276,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
-  "total_flos": 55519391719424.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.008123683074814043,
   "eval_steps": 100,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.039,
       "eval_steps_per_second": 2.678,
       "step": 200
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
+  "total_flos": 27833727655936.0,
   "trial_name": null,
   "trial_params": null
 }