--- language: - zh - en tags: - MoE - Int8 --- # 开源盘古 Ultra-MoE-718B-V1.1-Int8 中文 | [English](README_EN.md) ## 1. 简介 openPangu-Ultra-MoE-718B-V1.1 是基于昇腾 NPU 训练的大规模混合专家语言模型,总参数量为718B,激活参数量为39B,同一个模型具备快思考和慢思考两种能力。 相较 [[openPangu-Ultra-MoE-718B-V1.0](https://ai.gitcode.com/ascend-tribe/openpangu-ultra-moe-718b-model)] 版本,V1.1版本主要提升了Agent工具调用能力,降低了幻觉率,其他综合能力也进一步增强。 **openPangu-Ultra-MoE-718B-V1.1-Int8 是 [[openPangu-Ultra-MoE-718B-V1.1](https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1)] 的量化版本,使用动态 per-token 量化方法,能够减少约一半的显存占用,提升20%吞吐,综合精度损失小于1%。** ## 2. 模型架构 openPangu-Ultra-MoE-718B-V1.1-Int8 的模型架构采用了业界主流的 Multi-head Latent Attention (MLA)、Multi-Token Prediction (MTP)、大稀疏比等架构,以及一些特有的设计: - Depth-Scaled Sandwich-Norm 和 TinyInit:通过调整层归一化结构与参数初始化,提升训练稳定性。 - 基于 EP-Group 的负载均衡策略:通过优化负载均衡损失函数,改善专家特化效果。 ## 3. 推理说明 使用Omni-Infer推理openPangu-Ultra-MoE-718B-V1.1-Int8的方式请参考[[Omni-Infer推理部署指南](doc/omniinfer_for_openPangu-Ultra-MoE-718B-V1.1-Int8.md)]。 ## 4. Function Call 调用示例 当前开源的 Omni-Infer 推理引擎已支持 Function Call 调用,vllm_ascend 版本将很快更新。 ``` import requests,json # 定义工具函数,Json列表格式,支持MCP协议规格 tools = [ { "type": "function", "function": { "name": "get_current_weather", "description": "获取指定城市的当前天气信息,包括温度、湿度、风速等数据。", "parameters": { "type": "object", "properties": { "location": { "type": "string", "description": "城市名称,例如:'北京'、'深圳'。支持中文或拼音输入。" }, "date": { "type": "string", "description": "查询日期,格式为 YYYY-MM-DD(遵循 ISO 8601 标准)。例如:'2023-10-01'。" } }, "required": ["location", "date"], "additionalProperties": False } } } ] messages = [ {"role": "system", "content": "你是华为公司开发的盘古模型。\n现在是2025年10月13日"}, # 自定义system prompt,不需要使用时置空 {"role": "user", "content": "深圳后天的天气如何?"} ] headers = {'Content-Type': 'application/json'} api_url = "xxxxxxxx" payload = { "model": "pangu_ultra_moe", "messages": messages, "tools": tools, "chat_template_kwargs":{ "think": False, # 控制快慢思考,False快思考,默认True(慢思考) "mcp_prompt": True # 控制是否使用默认的工具调用system prompt。默认True(使用) } } api_response = requests.post(api_url, headers=headers, json=payload) # 处理模型响应返回值 choice = api_response.json()["choices"][0] reasoning_response = choice['message']['reasoning_content'] response = choice['message']['content'] tool_calls = choice['message']['tool_calls'] ``` **chat_template_kwargs 快慢切换和工具相关参数说明** - think: 慢思考模式开关,默认 True,慢思考模式; - mcp_prompt: Function Call 模式是否使用内置的默认工具调用指令,默认 True(使用)。如果为 True 且传入了 tools ,会在自定义 system prompt 之后插入内置的默认工具调用指令。 ## 5. 模型许可证 除文件中对开源许可证另有约定外,openPangu-Ultra-MoE-718B-V1.1-Int8 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 [LICENSE](LICENSE) 文件。 ## 6. 免责声明 由于 openPangu-Ultra-MoE-718B-V1.1-Int8 (“模型”)所依赖的技术固有的限制,以及人工智能生成的内容是由盘古自动生成的,华为无法对以下事项做出任何保证: - 该模型的输出通过AI算法自动生成,不能排除某些信息可能存在缺陷、不合理或引起不适的可能性,生成的内容不代表华为的态度或立场; - 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障; - 该模型的输出内容不构成任何建议或决策,也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考,不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断,华为不承担任何责任。 ## 7. 反馈 如果有任何意见和建议,请提交issue或联系[openPangu@huawei.com](url)。