zai-org/Open-AutoGLM
Python
Captured source
source ↗zai-org/Open-AutoGLM
Description: An Open Phone Agent Model & Framework. Unlocking the AI Phone for Everyone
Language: Python
License: Apache-2.0
Stars: 25486
Forks: 3972
Open issues: 252
Created: 2025-12-08T09:23:44Z
Pushed: 2026-03-06T08:38:39Z
Default branch: main
Fork: no
Archived: no
README:
Open-AutoGLM
[Readme in English](README_en.md)
👋 加入我们的 微信 社区
👋 关注智谱 AI 输入法 X 账号
🎤 进一步在我们的产品 智谱 AI 输入法 体验“用嘴发指令”
AutoGLM 实战派 开发者激励活动火热进行中,跑通、二创即可瓜分数万元现金奖池!成果提交 👉 入口
懒人版快速安装
你可以使用Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。
访问文档,为我安装 AutoGLM https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md
项目介绍
Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
> ⚠️ > 本项目仅供研究和学习使用。严禁用于非法获取信息、干扰系统或任何违法活动。请仔细审阅 [使用条款](resources/privacy_policy.txt)。
与其他自动化工具集成
Midscene.js
Midscene.js 是一款由视觉模型驱动的开源 UI 自动化 SDK,支持通过 JavaScript 或 Yaml 格式的流程语法,实现多平台的自动化。
目前 Midscene.js 已完成对 AutoGLM 模型的适配,你可以通过 Midscene.js 接入指南 快速体验 AutoGLM 在 iOS 和 Android 设备上的自动化效果。
模型下载地址
| Model | Download Links | |-------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | AutoGLM-Phone-9B | 🤗 Hugging Face 🤖 ModelScope | | AutoGLM-Phone-9B-Multilingual | 🤗 Hugging Face 🤖 ModelScope |
其中,AutoGLM-Phone-9B 是针对中文手机应用优化的模型,而 AutoGLM-Phone-9B-Multilingual 支持英语场景,适用于包含英文等其他语言内容的应用。
Android 环境准备
1. Python 环境
建议使用 Python 3.10 及以上版本。
2. 手机调试命令行工具
根据你的设备类型选择相应的工具:
对于 Android 设备 - 使用 ADB
1. 下载官方 ADB 安装包,并解压到自定义路径 2. 配置环境变量
- MacOS 配置方法:在
Terminal或者任何命令行工具里
# 假设解压后的目录为 ~/Downloads/platform-tools。如果不是请自行调整命令。
export PATH=${PATH}:~/Downloads/platform-tools- Windows 配置方法:可参考 第三方教程 进行配置。
对于鸿蒙设备 (HarmonyOS NEXT版本以上) - 使用 HDC
1. 下载 HDC 工具:
- 从 HarmonyOS SDK 下载
2. 配置环境变量
- MacOS/Linux 配置方法:
# 假设解压后的目录为 ~/Downloads/harmonyos-sdk/toolchains。请根据实际路径调整。
export PATH=${PATH}:~/Downloads/harmonyos-sdk/toolchains- Windows 配置方法:将 HDC 工具所在目录添加到系统 PATH 环境变量
3. Android 7.0+ 或 HarmonyOS 设备,并启用 开发者模式 和 USB 调试
1. 开发者模式启用:通常启用方法是,找到 设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示“开发者模式已启用”。不同手机会有些许差别,如果找不到,可以上网搜索一下教程。 2. USB 调试启用:启用开发者模式之后,会出现 设置-开发者选项-USB 调试,勾选启用 3. 部分机型在设置开发者选项以后, 可能需要重启设备才能生效. 可以测试一下: 将手机用USB数据线连接到电脑后, adb devices 查看是否有设备信息, 如果没有说明连接失败.
请务必仔细检查相关权限

4. 安装 ADB Keyboard(仅 Android 设备需要,用于文本输入)
注意:鸿蒙设备使用原生输入方法,无需安装 ADB Keyboard。
如果你使用的是 Android 设备:
下载 安装包 并在对应的安卓设备中进行安装。 注意,安装完成后还需要到 设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效(或使用命令adb shell ime enable com.android.adbkeyboard/.AdbIMEHow-to-use)
iPhone 环境准备
如果你使用的是 iPhone 设备,请参考专门的 iOS 配置文档:
📱 [iOS 环境配置指南](docs/ios_setup/ios_setup.md)
该文档详细介绍了如何配置 WebDriverAgent 和 iPhone 设备,以便在 iOS 上使用 AutoGLM。
部署准备工作
1. 安装依赖
pip install -r requirements.txt pip install -e .
2. 配置 ADB 或 HDC
对于 Android 设备
确认 USB数据线具有数据传输功能, 而不是仅有充电功能
确保已安装 ADB 并使用 USB数据线 连接设备:
# 检查已连接的设备 adb devices # 输出结果应显示你的设备,如: # List of devices attached # emulator-5554 device
对于鸿蒙设备
确认 USB数据线具有数据传输功能, 而不是仅有充电功能
确保已安装 HDC 并使用 USB数据线 连接设备:
# 检查已连接的设备 hdc list targets # 输出结果应显示你的设备,如: # 7001005458323933328a01bce01c2500
3. 启动模型服务
你可以选择自行部署模型服务,或使用第三方模型服务商。
选项 A: 使用第三方模型服务
如果你不想自行部署模型,可以使用以下已部署我们模型的第三方服务:
1. 智谱 BigModel
- 文档: https://docs.bigmodel.cn/cn/api/introduction
--base-url:https://open.bigmodel.cn/api/paas/v4--model:autoglm-phone--apikey: 在智谱平台申请你的 API Key
2. ModelScope(魔搭社区)
- 文档: https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B
--base-url:https://api-inference.modelscope.cn/v1--model:ZhipuAI/AutoGLM-Phone-9B--apikey: 在 ModelScope 平台申请你的 API Key
使用第三方服务的示例:
# 使用智谱 BigModel python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "your-bigmodel-api-key" "打开美团搜索附近的火锅店" # 使用 ModelScope python main.py --base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "your-modelscope-api-key" "打开美团搜索附近的火锅店"
选项 B: 自行部署模型
如果你希望在本地或自己的服务器上部署模型:
1. 按照 requirements.txt 中 For Model Deployment 章节自行安装推理引擎框架。
对于SGLang, 除了使用pip安装,你也可以使用官方docker: > > ``shell > docker pull lmsysorg/sglang:v0.5.6.post1 > > > 进入容器,执行 > > > pip install nvidia-cudnn-cu12==9.16.0.29 >
对于 vLLM,除了使用pip 安装,你也可以使用官方docker: > > ``shell > docker pull vllm/vllm-openai:v0.12.0 > > > 进入容器,执行 > > > pip install -U transformers --pre >
注意: 上述步骤出现的关于 transformers 的依赖冲突可以忽略。
1. 在对应容器或者实体机中(非容器安装)下载模型,通过 SGlang / vLLM 启动,得到 OpenAI 格式服务。这里提供一个 vLLM部署方案,请严格遵循我们提供的启动参数:
- vLLM:
python3 -m vllm.entrypoints.openai.api_server \
--served-model-name autoglm-phone-9b \
--allowed-local-media-path / \
--mm-encoder-tp-mode data \
--mm_processor_cache_type shm \
--mm_processor_kwargs "{\"max_pixels\":5000000}" \
--max-model-len 25480 \
--chat-template-content-format string \
--limit-mm-per-prompt "{\"image\":10}" \
--model zai-org/AutoGLM-Phone-9B \
--port 8000- SGLang:
python3 -m sglang.launch_server --model-path zai-org/AutoGLM-Phone-9B \
--served-model-name autoglm-phone-9b \
--context-length 25480 \
--mm-enable-dp-encoder \
--mm-process-config '{"image":{"max_pixels":5000000}}' \
--port 8000- 该模型结构与
GLM-4.1V-9B-Thinking相同, 关于模型部署的详细内容,你也以查看…
Excerpt shown — open the source for the full document.
Notability
notability 8.0/10High GitHub stars, significant open-source release