2026/4/6 7:30:43
网站建设
项目流程
深圳快速网站制作哪家快,万网如何建设购物网站,做的网站很卡是什么原因,域名能免费申请吗Open-AutoGLM部署教程#xff1a;从克隆仓库到指令执行完整手册
1. Open-AutoGLM – 智谱开源的手机端AI Agent框架
你有没有想过#xff0c;让AI帮你操作手机#xff1f;不是简单的语音助手#xff0c;而是真正“看得懂”屏幕、“想得出”步骤、“点得准”按钮的智能体。…Open-AutoGLM部署教程从克隆仓库到指令执行完整手册1. Open-AutoGLM – 智谱开源的手机端AI Agent框架你有没有想过让AI帮你操作手机不是简单的语音助手而是真正“看得懂”屏幕、“想得出”步骤、“点得准”按钮的智能体。Open-AutoGLM 正是这样一个项目——由智谱开源的手机端 AI Agent 框架它能让大模型像人一样使用手机。AutoGLM-Phone 是基于视觉语言模型VLM构建的 AI 手机助理框架。它的核心能力是通过多模态理解手机屏幕内容并借助 ADBAndroid Debug Bridge自动操控设备。你只需要用自然语言下达指令比如“打开小红书搜美食”系统就能自动解析你的意图识别当前界面元素规划出点击、滑动、输入等操作序列并一步步执行完成任务。而 Phone Agent 则是在 AutoGLM 基础上进一步封装的智能助理系统。它不仅能完成基础自动化还内置了安全机制在涉及敏感操作如支付、删除时会暂停并提示确认遇到登录或验证码场景也支持人工临时接管。更棒的是它支持远程 ADB 调试可以通过 WiFi 或局域网连接设备实现无需插线的灵活控制与开发调试。本文将带你从零开始完整走一遍 Open-AutoGLM 的本地控制端部署流程从克隆代码、配置环境到连接真机、发送指令手把手教你如何让 AI 真正“上手”你的手机。2. 硬件与软件环境准备在开始之前先确保你的本地电脑和安卓设备满足以下基本要求。2.1 系统与工具清单操作系统Windows 或 macOSLinux 同样适用但本文以主流桌面系统为主Python 版本建议使用 Python 3.10 或更高版本。较低版本可能导致依赖冲突。安卓设备Android 7.0 及以上系统的手机或模拟器推荐真机测试体验更真实ADB 工具Android SDK Platform Tools用于与设备通信2.2 安装并配置 ADBADB 是整个系统与手机交互的桥梁。我们需要先安装它并确保命令行可以全局调用。Windows 用户配置步骤前往 Android 开发者官网 下载platform-tools压缩包。解压到一个固定目录例如C:\platform-tools。设置环境变量按下Win R输入sysdm.cpl回车打开“系统属性”。点击“高级”选项卡 → “环境变量”。在“系统变量”区域找到Path双击编辑。新增一条路径C:\platform-tools根据实际解压位置调整。验证安装 打开命令提示符CMD或 PowerShell输入adb version如果返回类似Android Debug Bridge version 1.xx.xx的信息说明配置成功。macOS 用户配置方法macOS 用户可以直接在终端中临时添加路径或写入 shell 配置文件永久生效。假设你把platform-tools解压到了~/Downloads/platform-tools运行以下命令export PATH${PATH}:~/Downloads/platform-tools为了永久生效你可以将这行命令添加到你的 shell 配置文件中如.zshrc或.bash_profileecho export PATH${PATH}:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc同样用adb version验证是否可用。提示如果你使用 Homebrew也可以直接安装brew install android-platform-tools这样就无需手动管理路径了。3. 手机端设置开启调试权限为了让电脑能控制手机必须在设备上启用开发者选项和 USB 调试功能。3.1 开启开发者模式进入手机“设置”应用。找到“关于手机”。连续点击“版本号”7 次直到弹出提示“您已进入开发者模式”。3.2 启用 USB 调试返回“设置”主菜单进入“开发者选项”。找到“USB 调试”并勾选启用。当你首次通过 USB 连接电脑时手机可能会弹出“允许 USB 调试吗”的对话框请点击“允许”。3.3 安装 ADB Keyboard关键这是很多人忽略但极其重要的一步让 AI 能够输入文字。默认情况下ADB 只能模拟点击和滑动无法输入中文或复杂字符。为此项目推荐使用 ADB Keyboard 这个开源输入法。操作步骤如下访问 GitHub 项目页面下载最新版ADBKeyboard.apk。将 APK 文件传到手机并安装。进入“设置”→“语言与输入法”→“当前输入法”选择“ADB Keyboard”作为默认输入法。完成后AI 就可以通过 ADB 发送文本指令实现搜索、填写表单等操作。4. 部署本地控制端克隆与安装 Open-AutoGLM现在我们回到本地电脑部署 Open-AutoGLM 的控制端代码。4.1 克隆项目仓库打开终端或命令行工具执行以下命令git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM这个仓库包含了所有与手机交互的核心逻辑包括屏幕抓取、动作规划、ADB 控制等模块。4.2 安装 Python 依赖建议使用虚拟环境来隔离依赖避免与其他项目冲突。# 创建虚拟环境可选但推荐 python -m venv venv source venv/bin/activate # macOS/Linux # 或在 Windows 上 # venv\Scripts\activate然后安装所需依赖pip install -r requirements.txt pip install -e .其中-e .表示以“可编辑模式”安装当前项目便于后续修改调试。注意部分依赖可能因平台差异出现安装失败尤其是opencv-python或pyautogui。若遇问题可尝试升级 pip 并重试pip install --upgrade pip5. 连接设备USB 与 WiFi 两种方式设备准备就绪后接下来就是建立连接。Open-AutoGLM 支持两种连接方式USB 和 WiFi远程 ADB各有优劣。5.1 使用 USB 连接稳定首选用数据线将手机连接电脑。手机弹出“允许调试”提示时点击“允许”。在终端运行adb devices正常输出应类似List of devices attached ABCDEF1234567890 device只要看到设备 ID 后面显示device说明连接成功。5.2 使用 WiFi 远程连接免线自由如果你希望摆脱数据线束缚可以使用 ADB over TCP/IP 实现无线控制。前提需先通过 USB 成功连接一次。步骤如下先用 USB 连接设备确保adb devices能识别。在终端执行adb tcpip 5555这条命令会让设备监听 5555 端口的 TCP 连接。断开 USB 数据线。查看手机 WiFi IP 地址通常在“设置 → 关于手机 → 状态信息”里。使用 IP 连接设备adb connect 192.168.x.x:5555替换192.168.x.x为你的手机实际 IP。连接成功后再次运行adb devices你会看到设备出现在列表中连接类型为 TCP。小技巧你可以编写脚本自动获取设备 IP 并连接提升效率。6. 启动 AI 代理执行第一条自然语言指令终于到了最激动人心的环节——让 AI 接管手机6.1 命令行方式启动在Open-AutoGLM项目根目录下运行python main.py \ --device-id ABCDEF1234567890 \ --base-url http://云服务器IP:8800/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他参数说明--device-id通过adb devices获取的设备唯一标识如果是 WiFi 连接则填IP:5555格式。--base-url指向你部署的 vLLM 或其他推理服务的地址格式为http://公网IP:端口/v1。--model指定使用的模型名称需与服务端注册的一致。最后的字符串你要下达的自然语言指令越清晰越好。执行后你会看到程序开始工作抓取当前手机屏幕截图将图像和指令一起发送给云端模型模型返回下一步操作如“点击搜索框”ADB 执行该操作循环直至任务完成。整个过程就像一个“AI 观察员”在看着手机一边思考一边动手。6.2 使用 Python API 编程调用除了命令行你还可以在自己的项目中集成 Phone Agent 的能力。以下是一个完整的远程连接示例from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn ADBConnection() # 连接远程设备WiFi success, message conn.connect(192.168.1.100:5555) print(f连接状态: {message}) # 列出所有已连接设备 devices list_devices() for device in devices: print(f{device.device_id} - {device.connection_type.value}) # 可选为 USB 设备开启 TCP/IP 模式 success, message conn.enable_tcpip(5555) if success: ip conn.get_device_ip() print(f设备 IP: {ip}) # 断开连接 conn.disconnect(192.168.1.100:5555)这段代码展示了如何动态管理设备连接非常适合嵌入到自动化测试、远程运维等系统中。7. 常见问题与排查建议尽管流程看似简单但在实际部署中仍可能遇到各种问题。以下是高频故障及解决方案。7.1 ADB 无法识别设备现象adb devices显示unauthorized或空白。原因未授权调试或驱动问题。解决检查手机是否弹出“允许调试”对话框务必点击“允许”。Windows 用户可尝试安装手机厂商官方驱动如华为 HiSuite、小米助手。重启 ADB 服务adb kill-server adb start-server7.2 连接被拒绝或超时现象adb connect失败提示“connection refused”。原因防火墙阻挡、端口未开放、设备未开启 tcpip。解决确保设备已执行adb tcpip 5555。检查手机和电脑是否在同一局域网。关闭电脑防火墙或添加例外规则。使用 USB 先连通再切换为无线模式。7.3 模型无响应或输出乱码现象AI 不执行动作或返回无法理解的操作指令。原因服务端模型未正确加载或参数不匹配。解决确认 vLLM 服务已启动且日志无报错。检查--base-url是否正确指向/v1接口。确保max-model-len设置足够大建议 ≥ 8192否则长上下文会被截断。查看模型是否支持多模态输入必须能处理图像。7.4 输入中文失败现象搜索框输入英文正常但中文变成拼音或乱码。原因ADB Keyboard 未设为默认输入法或编码问题。解决再次确认 ADB Keyboard 已激活。在手机设置中将其设为唯一启用的输入法。尝试重启 ADB Keyboard 应用。8. 总结通过这篇教程你应该已经完成了 Open-AutoGLM 的完整部署流程从环境准备、ADB 配置、手机调试设置到克隆代码、安装依赖、连接设备最终成功下发了一条自然语言指令并让 AI 自动执行。这套系统的核心价值在于将大模型的认知能力与真实世界的操作能力结合起来。它不只是“聊天”而是“做事”。无论是批量操作多个账号、自动化测试 App 功能还是辅助视障用户使用手机都有广阔的应用前景。当然目前它还在早期阶段对复杂界面的理解、多步容错能力仍有提升空间。但只要你掌握了这套部署方法就可以在此基础上做二次开发比如接入更强的 VLM 模型、增加动作记忆机制、或是构建可视化操作面板。未来每个人或许都会有一个“数字分身”替我们在手机上完成重复劳动。而现在你已经迈出了第一步。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。