2026/5/21 17:32:57
网站建设
项目流程
单页应用网站,芜湖网站建设费用,遵义网红打卡,建设企业网站官网下载手把手教你部署Open-AutoGLM#xff0c;连手机都能听懂话
你有没有试过一边炒菜一边想#xff1a;“要是手机能自己打开小红书搜‘快手家常菜’就好了”#xff1f; 或者加班到深夜#xff0c;只想说一句“把今天会议的截图发给张经理”#xff0c;手机就自动完成——不用…手把手教你部署Open-AutoGLM连手机都能听懂话你有没有试过一边炒菜一边想“要是手机能自己打开小红书搜‘快手家常菜’就好了”或者加班到深夜只想说一句“把今天会议的截图发给张经理”手机就自动完成——不用解锁、不用点开App、不用复制粘贴。这不是科幻片是 Open-AutoGLM 正在做的事让手机真正听懂人话并替你动手。它不是另一个聊天机器人而是一个能“看”屏幕、“读”界面、“想”步骤、“点”按钮的 AI 手机助理。你下指令它执行你说需求它跑流程你动嘴它动手。本文不讲抽象概念不堆技术参数只做一件事带你从零开始在自己的电脑上搭起这个会听话的手机AI代理——哪怕你没碰过ADB也没写过一行Python也能照着操作成功。全程实测基于 Windows 11 和 macOS Sonoma覆盖真机连接、WiFi远程控制、本地轻量运行与云端高性能调用四种典型场景。所有命令可直接复制粘贴所有坑我都替你踩过了。1. 它到底能干什么先看三个真实指令别急着装先确认这东西是不是你想要的。我们用三句最普通的中文测试 Open-AutoGLM 在真实安卓手机上的表现Pixel 7aAndroid 141.1 “打开微信给王磊发条消息今晚聚餐改到7点”自动唤醒微信 → 进入聊天列表 → 搜索“王磊” → 点击对话框 → 输入文字 → 点击发送全程无手动干预耗时约28秒1.2 “打开高德地图查从公司到西溪湿地的公交路线”启动高德 → 定位起点自动获取当前位置→ 输入“西溪湿地”为终点 → 切换至公交模式 → 展示首班/末班时间、换乘数、步行距离识别出地图顶部的“公交”Tab并精准点击1.3 “打开小红书搜‘露营装备推荐’保存前3篇笔记的封面图”启动小红书 → 点击搜索栏 → 输入关键词 → 进入图文流 → 逐篇长按封面 → 选择“保存图片” → 弹出系统提示“已保存至相册”自动识别“保存图片”按钮位置适配不同机型UI偏移关键不在“能不能做”而在怎么做它不靠预设脚本不依赖固定ID而是每一步都先“看”一眼当前屏幕截图UI结构XML再结合你的语言指令推理下一步该点哪、输什么、滑多远——就像一个坐在你旁边、手速极快又特别耐心的朋友。2. 准备工作三件套搞定硬件与环境部署分两部分手机端准备一次配置长期有效和电脑端控制你的操作台。我们按顺序来不跳步。2.1 手机端开启“被操控权限”这是最关键的一步。很多失败卡在这儿。开启开发者选项设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在是开发者”开启USB调试设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹窗点“确定”安装并启用 ADB Keyboard必须下载地址https://github.com/senzhk/adbkeyb/releases安装 APK 后设置 → 语言与输入法 → 虚拟键盘 → 勾选ADB Keyboard→ 设为默认输入法验证在任意输入框长按 → 选“输入法” → 应能看到 ADB Keyboard 被选中注意部分国产手机华为、小米需额外开启“USB调试安全设置”或关闭“MIUI优化”。若 adb devices 显示unauthorized请在手机弹窗点“允许”。2.2 电脑端装好ADB与Python无论 Windows 还是 macOS只需三步安装 ADB 工具包官方下载页https://developer.android.com/tools/releases/platform-tools解压后记下路径例如C:\platform-toolsWin或~/Downloads/platform-toolsMac配置环境变量让终端认得 adb 命令WindowsWin R→ 输入sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴 ADB 解压路径 → 确定打开新命令行输入adb version应显示版本号如1.0.41macOS终端执行echo export PATH$PATH:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc adb version安装 Python 3.10推荐从 python.org 下载安装包勾选“Add Python to PATH”终端输入python --version确认输出 ≥ 3.103. 部署控制端克隆、安装、连设备现在你的电脑就是“指挥中心”。3.1 下载并安装 Open-AutoGLM 控制代码打开终端Windows 用 PowerShell 或 CMDMac 用 Terminal# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境推荐避免依赖冲突 python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 安装依赖含核心库 phone_agent pip install -r requirements.txt pip install -e .成功标志无报错且python -c import phone_agent不报错。3.2 连接你的手机确保手机已通过 USB 连接电脑并已授权调试。检查连接状态终端执行adb devices输出应类似List of devices attached AERFUT4B08000806 device若显示unauthorized请检查手机弹窗若为空重插USB线或换接口。WiFi 远程连接可选适合桌面固定使用首次需 USB 连接启用 TCP/IPadb tcpip 5555 # 断开USB线连接同一WiFi adb connect 192.168.1.100:5555 # 替换为手机IP设置→关于手机→状态→IP地址小技巧手机IP可在 WiFi 设置里长按网络名查看或用adb shell ip addr show wlan0 | grep inet 快速获取。4. 启动AI代理两种方式按需选择Open-AutoGLM 支持两种运行模式本地轻量运行适合体验、隐私敏感场景和远程API调用适合高性能、多设备管理。我们分别说明。4.1 方式一本地运行无需云服务手机电脑即可适用于 M1/M2 Mac 或 Windows NVIDIA 显卡用户。模型需提前下载并量化。下载并量化模型以 Mac M2 为例# 安装 Hugging Face CLI pip install -U huggingface_hub[cli] # 下载原始模型约12GB支持断点续传 huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B \ --local-dir ./models/AutoGLM-Phone-9B # 4-bit 量化生成约6.5GB MLX 格式模型15分钟内完成 python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 \ --mlx-path ./models/autoglm-9b-4bit启动本地代理# 单次指令执行 python main.py --local --model ./models/autoglm-9b-4bit 打开知乎搜‘大模型入门’ # 交互模式连续输入多条指令 python main.py --local --model ./models/autoglm-9b-4bit优势数据不出本地响应稳定适合个人日常辅助。注意M2 16GB 内存可运行但建议关闭其他应用Windows 用户需 CUDA 环境支持。4.2 方式二远程API调用推荐新手开箱即用如果你不想折腾模型下载与量化可直接调用已部署好的云端服务如 CSDN 星图镜像广场提供的预置实例。启动命令替换为你实际的服务器地址python main.py \ --device-id AERFUT4B08000806 \ --base-url http://192.168.1.200:8800/v1 \ --model autoglm-phone-9b \ 打开抖音搜‘dycwo11nt61d’并关注参数说明--device-idadb devices显示的设备IDUSB或IP:5555WiFi--base-url指向 vLLM 或 Ollama 启动的 OpenAI 兼容 API端口需映射到公网或局域网最后字符串你的自然语言指令支持中文越具体越好优势免模型管理即装即用适合快速验证效果。提示CSDN 星图镜像广场提供一键部署的 Open-AutoGLM 服务镜像含预装 vLLM 与模型3分钟可上线。5. 实战调试遇到问题这样排查最有效部署中最常见的5个问题及对应解法5.1 “adb devices 显示 offline 或 unauthorized”解决拔掉USB线 → 关闭手机“开发者选项” → 重新开启 → 再次授权调试弹窗检查手机是否开启“USB调试安全设置”华为/OPPO等品牌特有5.2 “执行Type动作手机没输入文字”核心原因ADB Keyboard 未设为默认输入法操作设置 → 语言与输入法 → 默认输入法 → 选 ADB Keyboard验证在备忘录里点输入框 → 长按 → “输入法” → 确认 ADB Keyboard 被勾选5.3 “模型返回乱码或空响应”检查 base-url 是否正确末尾必须带/v1检查 vLLM 启动时--mm-processor-kwargs参数是否包含{max_pixels:5000000}降低请求复杂度先试“打开设置”等简单指令5.4 “点击位置偏差总点错地方”原因手机开启了“字体缩放”或“显示大小”解决设置 → 显示 → 字体大小与样式 → 设为“默认”显示大小 → 设为“默认”5.5 “WiFi连接后adb devices不显示设备”先用USB执行adb tcpip 5555确保电脑与手机在同一子网如都是192.168.1.x关闭电脑防火墙临时测试终极调试命令adb shell screencap -p /sdcard/screen.png adb pull /sdcard/screen.png ./可随时抓取当前屏幕截图确认 Agent “看到”的画面是否与你一致。6. 进阶玩法不止于“听话”还能“记事”“学习惯”Open-AutoGLM 的设计远超单次任务执行。它支持上下文记忆、多轮协作与人工接管让自动化更自然。6.1 多轮对话让AI记住你的偏好比如你第一次说“打开网易云播周杰伦的歌”它会启动App并搜索。第二次说“换一首”它无需再打开App直接点击“下一首”按钮——因为它记住了当前在播放界面。原理Agent 在每次操作后缓存当前界面状态截图XML历史动作作为下一轮推理的上下文。6.2 敏感操作人工接管安全第一当进入银行App、支付页面或验证码弹窗时Agent 不会强行操作而是输出{action: Take_over, reason: 检测到支付确认弹窗请手动输入验证码}此时你只需操作手机完成验证Agent 自动恢复后续流程。6.3 批量任务脚本化适合测试工程师将指令写入文本文件批量执行# tasks.txt 内容 打开淘宝搜索蓝牙耳机 打开小红书搜“露营装备” 打开高德查公司到西湖路线 # 执行全部 cat tasks.txt | while read cmd; do python main.py --device-id AERFUT4B08000806 --base-url http://192.168.1.200:8800/v1 --model autoglm-phone-9b $cmd sleep 5 done7. 总结这不是工具而是你手机的“第二双手”回看开头那句“连手机都能听懂话”——现在你知道它不只是听懂更是理解、规划、执行、反馈、学习。对普通用户它是厨房里的语音助手、通勤路上的行程管家、会议中的自动记录员对开发者它是UI自动化测试的新范式不再维护XPath只描述“我要做什么”对产品经理它是竞品功能快速验证器一句话就能跑通整个用户旅程对安全研究员它是移动App行为审计员自动遍历所有页面并截图留痕。Open-AutoGLM 的价值不在于它多“聪明”而在于它足够“务实”不要求你写一行代码只要会说话不依赖特定App所有安卓应用都适用不需要Root不越狱不越权不只是Demo而是已在真实测试、辅助办公场景中稳定运行。它不取代你而是把你从重复点击中解放出来让你专注真正需要思考的事。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。