aws-neuron
/

optimum-neuron-cache

dacorvo HF Staff commited on Sep 24

Commit

51619c0

verified ·

1 Parent(s): 2fa381c

Update inference-cache-config/qwen-moe.json

Files changed (1) hide show

inference-cache-config/qwen-moe.json CHANGED Viewed

@@ -17,6 +17,12 @@
       "sequence_length": 4096,
       "num_cores": 16,
       "auto_cast_type": "bf16"
     }
-  ]
 }

       "sequence_length": 4096,
       "num_cores": 16,
       "auto_cast_type": "bf16"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "num_cores": 32,
+      "auto_cast_type": "bf16"
     }
+   ]
 }