#

MobiZen-GUI-4B

🌐 项目 | 💻 Demo展示 | 📄 中文轨迹数据

English | 简体中文

## 简介 MobiZen-GUI-4B是基于Qwen3-VL训练的原生GUI模型。它基于大规模、精细构建的 **中文移动 GUI 交互数据集** 进行训练,涵盖电商、出行、社交、金融等场景的数十万条中文真实App会话。每条数据包含截图、触控轨迹及中文指令,使模型能够深入理解中文 UI 规范与业务流程。 MobiZen-GUI-4B 的目标是让 **移动 GUI 智能体** 的开发与部署更加快捷、易用。它带来了: - **40 亿参数的智能体模型**:可完全在本地台式机或笔记本电脑上运行。 - **仅依赖单图像加历史动作,执行速度快**:仅依赖单张当前图像加历史动作,无需额外信息,执行速度快。 - **即插即用的推理套件**:自动处理 ADB 连接并安装所有依赖库。 #### 主要能力 - **本地高效运行**:针对消费级硬件优化,低延迟且数据留存在本地,保障隐私。 - **看得懂,也会动**:能精准识别按钮、输入框、列表等界面元素,并执行点击、输入、滑动、等待等操作。 - **掌控长链任务**:可在外卖、打车、购物、社交等多类应用中完成多步骤任务。 - **即开即用**:无需额外微调或针对特定应用的适配,即可处理全新 App 与动态界面。 ## 使用指南 请参考 [这里](https://github.com/alibaba/MobiZen-GUI) 使用 MobiZen-GUI-4B 模型。 ## 部署 我们推荐使用 vllm==0.11.0 / transformers==4.57.0 部署 MobiZen-GUI-4B。