网站运营主要做什么工作番禺人才网招聘网官网最新招聘
2026/5/21 3:23:47 网站建设 项目流程
网站运营主要做什么工作,番禺人才网招聘网官网最新招聘,东莞企业年检哪个网站做,特种设备企业服务平台Open-AutoGLM从零开始#xff1a;Python API连接远程设备完整指南 Open-AutoGLM 是智谱开源的手机端 AI Agent 框架#xff0c;它把大模型能力真正带到了指尖——不是在云端跑个 demo#xff0c;而是让 AI 真正“看见”你的手机屏幕、“理解”当前界面、“动手”完成操作。…Open-AutoGLM从零开始Python API连接远程设备完整指南Open-AutoGLM 是智谱开源的手机端 AI Agent 框架它把大模型能力真正带到了指尖——不是在云端跑个 demo而是让 AI 真正“看见”你的手机屏幕、“理解”当前界面、“动手”完成操作。它不依赖预设脚本也不靠固定规则匹配而是用视觉语言模型做感知用智能规划做决策再通过 ADB 实现精准执行。一句话说你动嘴它动手。AutoGLM-Phone 是这个框架的核心落地形态。它能以多模态方式理解屏幕内容并通过 ADB 自动操控设备。用户只需用自然语言下指令比如“打开小红书搜美食”模型就能解析意图、识别当前 App 界面、判断按钮位置、模拟点击、输入文字、滑动页面一气呵成。而 Phone Agent 则是基于 AutoGLM 构建的完整手机端智能助理系统不仅支持本地 USB 控制更关键的是——它原生支持远程 ADB 调试能力。你可以把手机放在客厅电脑放在书房甚至服务器部署在云上全程通过 WiFi 或公网连接控制真机。它还内置了敏感操作确认机制在登录、支付、验证码等关键环节会暂停并提示人工接管兼顾自动化与安全性。下面我们就从零开始手把手带你完成整个链路本地电脑配置 → 手机端设置 → 控制端部署 → Python API 远程连接 → 实际指令调用。全程不绕弯、不跳步每一步都可验证、可复现。1. 环境准备让电脑“认得”你的手机要让本地电脑能指挥安卓设备第一步不是写代码而是打通底层通信通道。这依赖 ADBAndroid Debug Bridge——它是 Android 官方提供的调试桥接工具也是 Open-AutoGLM 控制真机的唯一通路。1.1 硬件与基础环境要求操作系统Windows 10/11 或 macOS Monterey 及以上Linux 同理本文以 Win/macOS 为主Python 版本建议使用 Python 3.10避免因 asyncio 或 typing 模块差异导致兼容问题安卓设备Android 7.0Nougat及以上版本的真机或模拟器推荐真机模拟器对屏幕截图和触控模拟支持有限ADB 工具必须独立安装不能只靠 Android Studio 带的版本因其路径常被隐藏且不易加入环境变量为什么强调独立安装 ADBOpen-AutoGLM 的ADBConnection类会主动调用adb devices、adb shell screencap、adb shell input tap等命令。如果 ADB 不在系统 PATH 中程序会在运行时直接报错“adb: command not found”而不是给你友好的提示。提前配好省去 80% 的排查时间。1.2 Windows 下 ADB 环境变量配置实测有效别点开各种“一键配置工具”手动配最稳去 Android SDK Platform-Tools 官网 下载最新 ZIP 包如platform-tools-latest-windows.zip解压到一个固定路径例如C:\adb按Win R输入sysdm.cpl→ “高级”选项卡 → “环境变量”在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb打开新终端重要旧终端不会自动加载新变量输入adb version若输出类似Android Debug Bridge version 34.0.5说明成功。1.3 macOS 下 ADB 配置Terminal 一行搞定同样下载 platform-tools解压后假设路径为~/Downloads/platform-tools# 临时生效当前 Terminal 有效 export PATH$PATH:~/Downloads/platform-tools # 永久生效写入 shell 配置 echo export PATH$PATH:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc验证方式同上adb version。注意 macOS 默认 shell 是 zsh不是 bash别写错配置文件。2. 手机端设置打开“控制权限”的三把钥匙电脑有了 ADB手机还得“点头同意”。这不是信任问题是 Android 系统级的安全设计。三步缺一不可2.1 开启开发者模式路径因品牌略有差异但逻辑统一设置 → 关于手机 → 连续点击“版本号”7 次直到弹出提示“您现在处于开发者模式”。小技巧部分国产机型如小米、华为需先开启“MIUI 优化”或“系统更新”里的“开发者选项开关”再点版本号才生效。2.2 启用 USB 调试回到设置首页 →开发者选项 → 找到“USB 调试”并开启首次开启时手机会弹窗询问“允许 USB 调试吗”勾选“始终允许”再点确定。注意如果后续用 WiFi 连接这一步仍是必需的——因为adb tcpip命令必须通过 USB 首次握手才能启用 TCP/IP 模式。2.3 安装并启用 ADB Keyboard解决输入难题Open-AutoGLM 要帮你在搜索框里打字但默认输入法无法被 ADB 直接控制。解决方案是换一个“听命令”的输入法下载 ADB Keyboard APK推荐 v1.3用 USB 连接手机通过adb install adbkeyboard.apk安装或手动安装进入手机设置 → 语言与输入法 → 当前输入法 → 选择 ADB Keyboard返回设置 →开发者选项 → 默认输入法 → 选择 ADB Keyboard验证是否生效断开 USB在 Terminal 输入adb shell am broadcast -a ADB_INPUT_TEXT --es msg hello如果手机当前焦点输入框出现 “hello”说明 ADB Keyboard 已就绪。3. 部署控制端把 Open-AutoGLM 装进你的电脑现在软硬件通道已通下一步是把控制大脑——Open-AutoGLM 的客户端代码——部署到本地。3.1 克隆仓库与安装依赖打开终端Windows 推荐 PowerShellmacOS 用 Terminal执行# 1. 克隆官方仓库非 fork确保获取最新稳定版 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境强烈推荐避免包冲突 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装核心依赖 pip install -r requirements.txt pip install -e .pip install -e .的作用是“开发模式安装”它把当前目录作为可导入的 Python 包。这样你修改phone_agent/下的代码main.py就能立刻生效无需反复重装。3.2 理解项目结构关键文件速览不必全读源码先盯住三个核心模块main.py命令行入口封装了从截图→推理→动作生成→执行的全流程phone_agent/adb.py所有 ADB 操作的封装包括connect()、screenshot()、tap()、text()等方法phone_agent/agent.pyAI Agent 核心逻辑负责调用远端模型 API、解析返回的 JSON 动作指令、做安全校验你后续写自己的自动化脚本90% 的工作都在adb.py和agent.py的组合调用上。4. 设备连接实战USB 与 WiFi 两种方式全掌握Open-AutoGLM 支持两种连接模式USB稳定可靠适合调试和 WiFi灵活自由适合远程。我们分别实操。4.1 USB 连接即插即用5 秒验证用原装数据线连接手机与电脑手机弹窗确认“允许 USB 调试”勾选“始终允许”终端执行adb devices输出应类似List of devices attached 1234567890abcdef device出现device状态说明连接成功。1234567890abcdef就是你的--device-id。4.2 WiFi 远程连接摆脱线缆实现真·远程控制这是 Open-AutoGLM 的亮点能力。分三步走步骤 1USB 首次握手启用 TCP/IP 模式adb tcpip 5555手机会显示“正在重新启动 adbd 以进行 TCP/IP 连接”几秒后提示成功。步骤 2断开 USB用 WiFi 连接先查手机 IP设置 → WLAN → 点击当前网络 → 查看 IP 地址通常是192.168.x.x然后执行adb connect 192.168.1.100:5555若输出connected to 192.168.1.100:5555即成功。步骤 3验证远程连通性adb -s 192.168.1.100:5555 devices adb -s 192.168.1.100:5555 shell getprop ro.build.version.release后者应返回安卓版本号如13证明远程 shell 可用。提示WiFi 连接不稳定试试关闭手机“智能 WiFi 切换”或“WLAN”功能这些特性会让手机在后台自动断开 ADB 所需的长连接。5. Python API 远程连接用代码接管手机命令行main.py是快速验证但工程化必须用 API。Open-AutoGLM 提供了清晰、面向对象的 Python 接口核心就是ADBConnection类。5.1 基础连接与设备管理以下代码可在任意 Python 脚本中运行无需在 Open-AutoGLM 根目录from phone_agent.adb import ADBConnection, list_devices # 1. 创建连接管理器实例 conn ADBConnection() # 2. 连接远程设备支持 IP:port 或 device_id success, message conn.connect(192.168.1.100:5555) print(f连接状态: {message}) # 成功时输出 Connected successfully # 3. 列出所有已连接设备USB/WiFi devices list_devices() for device in devices: print(f{device.device_id} - {device.connection_type.value}) # 输出示例192.168.1.100:5555 - wifi # 4. 可选为 USB 设备启用 TCP/IP方便后续切 WiFi # success, message conn.enable_tcpip(5555) # ip conn.get_device_ip() # 自动获取设备 IP # print(f设备 IP: {ip}) # 5. 断开连接 conn.disconnect(192.168.1.100:5555)这段代码的价值在于它把 ADB 的底层命令adb connect、adb devices封装成了直白的 Python 方法你不再需要拼接字符串、解析 stdout所有错误都以(False, error msg)元组返回便于异常处理。5.2 屏幕截图与动作执行真实可用的最小闭环光连上没用得让 AI “看见”并“动手”。下面这段代码完成了 Open-AutoGLM 最核心的两步from phone_agent.adb import ADBConnection import time conn ADBConnection() conn.connect(192.168.1.100:5555) # 1. 截图并保存到本地用于后续模型分析 screenshot_path screen.png success, msg conn.screenshot(screenshot_path) if not success: print(f截图失败: {msg}) else: print(f截图已保存至 {screenshot_path}) # 2. 模拟一次点击x500, y1200单位像素 success, msg conn.tap(500, 1200) print(f点击结果: {msg}) # 3. 输入文字需确保 ADB Keyboard 已启用 success, msg conn.text(Hello from Open-AutoGLM!) print(f输入结果: {msg}) time.sleep(1) # 等待 UI 响应 conn.disconnect(192.168.1.100:5555)关键点conn.screenshot()返回的是本地路径这意味着你可以把它直接喂给自己的 VLM 模型conn.tap()和conn.text()是原子操作调用即执行没有中间状态。这就是“远程控制”的本质——把手机当成本地外设来用。6. 启动 AI 代理让大模型真正“动手”连接只是铺路真正的智能在云端模型。Open-AutoGLM 的设计哲学是控制端轻量化AI 端专业化。你本地只管传图、收指令、执行动作所有“理解屏幕”、“规划步骤”、“生成动作”的重活都交给部署在服务器上的autoglm-phone-9b模型。6.1 命令行快速启动适合调试在 Open-AutoGLM 根目录下执行python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://123.56.78.90:8800/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他参数说明--device-id你的设备标识USB ID 或 WiFi IP:port--base-url指向你部署的 vLLM 服务地址需提前映射端口如 8800--model模型名称必须与 vLLM 启动时注册的名称一致最后字符串自然语言指令支持中文越具体成功率越高实际效果程序会自动截图 → 发送图片文字到云端 → 接收 JSON 格式动作序列如[{action: click, x: 120, y: 340}, {action: text, content: dycwo11nt61d}]→ 逐条执行 → 最终完成关注。6.2 Python 脚本集成生产推荐把上面的流程封装成函数便于嵌入业务系统from phone_agent.agent import PhoneAgent from phone_agent.adb import ADBConnection # 初始化连接与 Agent conn ADBConnection() conn.connect(192.168.1.100:5555) agent PhoneAgent( base_urlhttp://123.56.78.90:8800/v1, model_nameautoglm-phone-9b, device_connectionconn ) # 执行任务自动完成截图→推理→执行全链路 result agent.run(打开小红书搜索北京烤鸭进入第一个笔记点赞并收藏) print(f任务状态: {result.status}) print(f执行步骤: {len(result.actions)} 步) print(f耗时: {result.duration:.2f} 秒) conn.disconnect(192.168.1.100:5555)PhoneAgent.run()是最高层封装它内部已处理多次截图防动态界面错误重试网络抖动、模型超时敏感动作拦截如adb shell input keyevent 26关机指令会被拒绝人工接管钩子遇到验证码时抛出HumanInterventionRequired异常7. 常见问题排查少走弯路的实战经验即使按步骤操作也常卡在几个经典坑位。以下是真实踩坑总结7.1 “Connection refused” —— 云服务器端口没放行现象--base-url指向云服务器但main.py报错ConnectionRefusedError原因云服务器防火墙如阿里云安全组、腾讯云网络 ACL未开放8800端口解决登录云控制台 → 找到对应 ECS 实例 → 编辑安全组规则 → 添加入方向规则端口8800协议TCP授权对象0.0.0.0/0或限制为你的办公 IP7.2 “Device offline” —— WiFi 连接掉线现象adb devices显示offline或conn.connect()返回失败原因手机 WiFi 省电策略自动断开闲置连接解决手机设置 → WLAN → 高级 → 关闭“WLAN 休眠策略”或在终端定期保活while true; do adb connect 192.168.1.100:5555; sleep 30; done7.3 模型返回乱码 / 无动作 —— vLLM 启动参数不匹配现象main.py日志显示收到响应但actions字段为空或格式错误原因autoglm-phone-9b对max-model-len和gpu-memory-utilization敏感。若显存不足或上下文截断过短模型无法生成完整 JSON解决启动 vLLM 时务必指定python -m vllm.entrypoints.api_server \ --model zai-org/autoglm-phone-9b \ --tensor-parallel-size 1 \ --max-model-len 8192 \ --gpu-memory-utilization 0.95 \ --port 8800max-model-len 8192是硬性要求低于此值会导致 JSON 截断gpu-memory-utilization 0.95确保显存足够加载视觉编码器。8. 总结你已掌握手机 AI Agent 的完整控制权到这里你已经走完了 Open-AutoGLM 从零到落地的全部关键路径本地电脑装好了 ADB能稳定识别手机手机开启了开发者模式、USB 调试、ADB Keyboard获得了“被操控”的能力控制端代码部署完毕ADBConnection让远程连接像调用函数一样简单你亲手写了截图、点击、输入的闭环代码理解了底层交互逻辑你用PhoneAgent成功驱动云端大模型把一句“打开抖音搜博主”变成了真实操作你还掌握了最常见的三个故障点及解法不再是“报错就懵”。Open-AutoGLM 的价值从来不只是“又一个手机自动化工具”。它把大模型从“对话盒子”升级为“数字双手”——你能用它批量测试 App UI、自动生成短视频脚本并执行发布、为视障用户实时描述屏幕、甚至构建无人值守的电商运营机器人。而这一切的起点就是今天你亲手敲下的这几行adb connect和conn.tap()。下一步不妨试试把PhoneAgent.run()封装成 Web API用 Flask 暴露一个/do-task接口结合schedule库每天上午 9 点自动打开企业微信打卡用cv2对截图做 OCR 预处理把模糊文字转成清晰文本再送模型。技术的边界永远由动手的人定义。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询