inclusionAI
/

LLaDA-MoE-7B-A1B-Base

Text Generation

text_generation

Model card Files Files and versions

luguoshan commited on 11 days ago

Commit

daccaf1

·

verified ·

1 Parent(s): c01ef14

Update README.md

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -21,6 +21,7 @@ This model is based on the principles described in the paper [Large Language Dif
 - `LLaDA-MoE-7B-A1B-Base`: A base pre-trained model designed for research and secondary development.
 - `LLaDA-MoE-7B-A1B-Instruct`: An instruction-tuned model optimized for practical applications.
 ---
 <div align="center">
@@ -56,6 +57,7 @@ This model is based on the principles described in the paper [Large Language Dif
 |--------|-------------|-------------------|
 | [`inclusionAI/LLaDA-MoE-7B-A1B-Base`](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base) | Base pre-trained model for research and fine-tuning. | [🤗 Model Card](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base) |
 | [`inclusionAI/LLaDA-MoE-7B-A1B-Instruct`](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Instruct) | Instruction-tuned model, ready for downstream applications. | [🤗 Model Card](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Instruct) |
 ---

 - `LLaDA-MoE-7B-A1B-Base`: A base pre-trained model designed for research and secondary development.
 - `LLaDA-MoE-7B-A1B-Instruct`: An instruction-tuned model optimized for practical applications.
+- `LLaDA-MoE-7B-A1B-Instruct-TD`: A specialized instruction-tuned model, further optimized for accelerated inference using Trajectory Distillation.
 ---
 <div align="center">
 |--------|-------------|-------------------|
 | [`inclusionAI/LLaDA-MoE-7B-A1B-Base`](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base) | Base pre-trained model for research and fine-tuning. | [🤗 Model Card](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base) |
 | [`inclusionAI/LLaDA-MoE-7B-A1B-Instruct`](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Instruct) | Instruction-tuned model, ready for downstream applications. | [🤗 Model Card](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Instruct) |
+| [`inclusionAI/LLaDA-MoE-7B-A1B-Instruct-TD`](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Instruct-TD) | An instruction-tuned model further optimized with **Trajectory Distillation (TD)** for accelerated inference. Decodes multiple tokens per forward pass. | [🤗 Model Card](https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Instruct-TD) |
 ---