MobiZen-GUI-4B / README_CN.md
wensheng0503's picture
Update README_CN.md
1bfbb82 verified

MobiZen-GUI-4B

🌐 项目 | 💻 Demo展示 | 📄 中文轨迹数据

English | 简体中文

简介

MobiZen-GUI-4B是基于Qwen3-VL训练的原生GUI模型。它基于大规模、精细构建的 中文移动 GUI 交互数据集 进行训练,涵盖电商、出行、社交、金融等场景的数十万条中文真实App会话。每条数据包含截图、触控轨迹及中文指令,使模型能够深入理解中文 UI 规范与业务流程。

MobiZen-GUI-4B 的目标是让 移动 GUI 智能体 的开发与部署更加快捷、易用。它带来了:

  • 40 亿参数的智能体模型:可完全在本地台式机或笔记本电脑上运行。
  • 仅依赖单图像加历史动作,执行速度快:仅依赖单张当前图像加历史动作,无需额外信息,执行速度快。
  • 即插即用的推理套件:自动处理 ADB 连接并安装所有依赖库。

主要能力

  • 本地高效运行:针对消费级硬件优化,低延迟且数据留存在本地,保障隐私。
  • 看得懂,也会动:能精准识别按钮、输入框、列表等界面元素,并执行点击、输入、滑动、等待等操作。
  • 掌控长链任务:可在外卖、打车、购物、社交等多类应用中完成多步骤任务。
  • 即开即用:无需额外微调或针对特定应用的适配,即可处理全新 App 与动态界面。

使用指南

请参考 这里 使用 MobiZen-GUI-4B 模型。

部署

我们推荐使用 vllm==0.11.0 / transformers==4.57.0 部署 MobiZen-GUI-4B。