Upload folder using huggingface_hub

Files changed (7) hide show

config.json CHANGED Viewed

@@ -5,7 +5,7 @@
     "params": {
       "depth": 2,
       "input_dim": 1024,
-      "n_embed": 4096,
       "projector_type": "mlp_gelu"
     }
   },
@@ -15,7 +15,7 @@
     "params": {
       "depth": 2,
       "input_dim": 8,
-      "n_embed": 4096,
       "projector_type": "mlp_gelu"
     }
   },
@@ -23,9 +23,9 @@
     "cls": "vision_head",
     "model_type": "gen_head",
     "params": {
-      "image_token_embed": 4096,
       "image_token_size": 16384,
-      "n_embed": 4096
     }
   },
   "gen_vision_config": {
@@ -43,9 +43,27 @@
     "torch_dtype": "bfloat16",
     "vocab_size": 102400
   },
-  "model_type": "janus",
   "torch_dtype": "float16",
-  "transformers_version": "4.33.1",
   "vision_config": {
     "cls": "CLIPVisionTower",
     "model_type": "vision",
@@ -57,10 +75,8 @@
     }
   },
   "architectures": [
-    "JanusForConditionalGeneration"
   ],
   "use_cache": true,
-  "webgpu_compatible": true,
-  "quantization": "q4f16",
-  "pipeline_tag": "text-to-image"
 }

     "params": {
       "depth": 2,
       "input_dim": 1024,
+      "n_embed": 2048,
       "projector_type": "mlp_gelu"
     }
   },
     "params": {
       "depth": 2,
       "input_dim": 8,
+      "n_embed": 2048,
       "projector_type": "mlp_gelu"
     }
   },
     "cls": "vision_head",
     "model_type": "gen_head",
     "params": {
+      "image_token_embed": 2048,
       "image_token_size": 16384,
+      "n_embed": 2048
     }
   },
   "gen_vision_config": {
     "torch_dtype": "bfloat16",
     "vocab_size": 102400
   },
+  "model_type": "multi_modality",
   "torch_dtype": "float16",
+  "transformers_version": "4.36.0",
+  "transformers.js_config": {
+    "kv_cache_dtype": {
+      "fp16": "float16",
+      "q4f16": "float16"
+    },
+    "dtype": {
+      "prepare_inputs_embeds": "fp32",
+      "language_model": "q4",
+      "lm_head": "fp32",
+      "gen_head": "fp32",
+      "gen_img_embeds": "fp32",
+      "image_decode": "fp32"
+    },
+    "use_external_data_format": {
+      "language_model.onnx": true,
+      "language_model_fp16.onnx": true
+    }
+  },
   "vision_config": {
     "cls": "CLIPVisionTower",
     "model_type": "vision",
     }
   },
   "architectures": [
+    "MultiModalityCausalLM"
   ],
   "use_cache": true,
+  "_name_or_path": "janus-pro-7b-webgpu-working"
 }

generation_config.json CHANGED Viewed

@@ -1,12 +1,9 @@
 {
   "bos_token_id": 100000,
   "eos_token_id": 100001,
-  "pad_token_id": 151643,
-  "max_length": 2048,
-  "max_new_tokens": 1024,
   "do_sample": true,
   "temperature": 0.7,
-  "top_p": 0.9,
-  "use_cache": true,
-  "num_image_tokens": 576
 }

 {
   "bos_token_id": 100000,
   "eos_token_id": 100001,
   "do_sample": true,
+  "num_image_tokens": 576,
+  "pad_token_id": 100015,
   "temperature": 0.7,
+  "top_p": 0.95
 }

model_index.json CHANGED Viewed

@@ -1,20 +1,32 @@
 {
-  "model_name": "Janus-Pro-7B",
-  "model_type": "multimodal",
-  "architecture": "janus",
   "format": "onnx",
-  "quantization": "q4f16",
   "device": "webgpu",
-  "total_size_mb": 4935.2,
-  "components_count": 6,
-  "status": "complete",
-  "capabilities": [
-    "text-to-image",
-    "image-to-text",
-    "multimodal-chat"
   ],
-  "transformers_js_compatible": true,
-  "webgpu_optimized": true,
-  "export_date": "2025-09-27",
-  "notes": "All 6 components successfully exported for WebGPU deployment"
 }

 {
+  "model_type": "multi_modality",
+  "pipeline_tag": "image-to-text",
+  "framework": "transformers.js",
   "format": "onnx",
   "device": "webgpu",
+  "total_size_mb": 4743.1,
+  "onnx_files": [
+    {
+      "name": "decoder.onnx",
+      "size_mb": 320.1
+    },
+    {
+      "name": "embed_tokens.onnx",
+      "size_mb": 64.0
+    },
+    {
+      "name": "encoder.onnx",
+      "size_mb": 1159.0
+    },
+    {
+      "name": "lm_head.onnx",
+      "size_mb": 1600.0
+    },
+    {
+      "name": "prepare_inputs_embeds.onnx",
+      "size_mb": 1600.0
+    }
   ],
+  "based_on": "onnx-community/Janus-1.3B-ONNX (working structure)",
+  "scaled_to": "Janus-Pro-7B"
 }

onnx/decoder.onnx ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:22eb336ab33e4d0b9ee5c09c2d3906682c4aeff408a189a2eb45077ff3f1de30
+size 335628308

onnx/embed_tokens.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b94e5d5ccaf0a02a804dbcb35c7f0d0b57f22fd30b1f187c2ec797fb34df6c5b
-size 1677721872

 version https://git-lfs.github.com/spec/v1
+oid sha256:184a1b1eb70e501a8a5831e7ab5193364f973a4d9946dc12caf410cf85294f13
+size 67125624

onnx/encoder.onnx ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c17e3ed46cb81ac30d8cf1c9c6c723afc77108a52a63df4c6b74e7c1dd8431c
+size 1215274800

processor_config.json CHANGED Viewed

@@ -2,6 +2,8 @@
   "add_special_token": false,
   "ignore_id": -100,
   "image_tag": "<image_placeholder>",
   "mask_prompt": true,
   "num_image_tokens": 576,
   "processor_class": "VLChatProcessor",

   "add_special_token": false,
   "ignore_id": -100,
   "image_tag": "<image_placeholder>",
+  "image_start_tag": "<begin_of_image>",
+  "image_end_tag": "<end_of_image>",
   "mask_prompt": true,
   "num_image_tokens": 576,
   "processor_class": "VLChatProcessor",