etsien
/

Llama-3.1-Nemotron-70B-Instruct-HF-GPTQ-w4a8-v2

Text Generation

text-generation-inference

8-bit precision

compressed-tensors

Model card Files Files and versions

Llama-3.1-Nemotron-70B-Instruct-HF-GPTQ-w4a8-v2 / recipe.yaml

etsien's picture

Upload GPTQ W4A8 V2 quantized Llama-3.1-Nemotron-70B

3b948d8 verified 3 months ago

history blame contribute delete

229 Bytes

	default_stage:
	default_modifiers:
	GPTQModifier:
	targets: [Linear]
	ignore: [lm_head]
	scheme: W4A8
	sequential_update: true
	block_size: 64
	dampening_frac: 0.01
	offload_hessians: false