2026/4/22 12:04:06
网站建设
项目流程
什么软件 做短视频网站好,公司黄页是官网吗,基于wordpress的用户管理实现原理,怎么做电商平台网站AutoGLM-Phone笔记整理应用#xff1a;语音转文字AI代理部署
1. 什么是AutoGLM-Phone#xff1f;一个真正能“看懂”手机屏幕的AI助理
你有没有过这样的体验#xff1a;想快速记下会议要点#xff0c;却在翻找录音笔、打开转写软件、等待识别、再手动整理之间耗掉十分钟语音转文字AI代理部署1. 什么是AutoGLM-Phone一个真正能“看懂”手机屏幕的AI助理你有没有过这样的体验想快速记下会议要点却在翻找录音笔、打开转写软件、等待识别、再手动整理之间耗掉十分钟或者想让手机自动完成一连串操作——比如“把刚收到的微信语音转成文字复制到备忘录再发给老板确认”却只能一次次点开不同App反复切换、粘贴、发送AutoGLM-Phone不是又一个“调用API”的Demo项目而是一个能真正理解你手机屏幕、听懂你自然语言、并亲手帮你点按滑动的AI代理框架。它由智谱开源核心定位很清晰不做云端幻觉生成器而是做你手机上的“数字双手”。它不靠预设脚本也不依赖固定UI结构。当你对它说“打开小红书搜美食”它会先截图当前屏幕用视觉语言模型VLM识别出“小红书图标在哪”“搜索框长什么样”“键盘是否已弹出”再结合你的指令推理出完整动作链点击图标 → 等待App加载 → 点击搜索栏 → 调起ADB Keyboard输入“美食” → 点击搜索按钮。整个过程像一个熟练的真人用户在操作而不是一堆硬编码的坐标点击。更关键的是它把“语音转文字”这件事从孤立功能升级为任务流的起点。语音只是输入方式真正的价值在于语音指令触发后AI能自主完成后续所有环节——理解界面、规划路径、执行操作、反馈结果。这才是“笔记整理应用”的底层能力你说话它做事你只管看结果。2. 核心能力拆解为什么它能“看”“想”“动”2.1 多模态感知不只是OCR是真正“看懂”屏幕传统自动化工具如Auto.js依赖坐标或控件ID一旦App更新、界面重排就立刻失效。AutoGLM-Phone完全不同它通过ADB实时抓取手机屏幕画面PNG送入轻量化视觉语言模型模型不仅识别文字“搜索”“关注”“发送”还能理解图标语义放大镜搜索心形关注纸飞机发送、布局关系搜索框在顶部返回按钮在左上角、甚至状态“关注”按钮是灰色不可点说明已关注这种理解是上下文相关的。比如同一张“设置”图标在系统设置页和App内设置页它的可点击区域和后续动作完全不同。举个真实场景你让AI“把微信里张三发的‘今晚开会’这条消息转发给李四”。它不会盲目截图找“转发”按钮而是先定位聊天窗口中“张三”的头像区域向下扫描找到包含“今晚开会”的气泡再识别该气泡右上角的“…”菜单点击后在弹出菜单中精准定位“转发”选项——整个过程基于视觉语义推理而非死记硬背坐标。2.2 智能动作规划把自然语言翻译成可执行的ADB指令理解屏幕只是第一步。AutoGLM-Phone的规划模块才是它区别于普通OCRADB工具的关键它将用户指令如“登录淘宝搜索iPhone15加入购物车”解析为分层任务树登录→ [检测登录页] → [输入账号] → [输入密码] → [点击登录]搜索→ [检测首页] → [点击搜索框] → [输入iPhone15] → [点击搜索]加购→ [检测商品列表] → [点击第一个商品] → [检测“加入购物车”按钮] → [点击]每个子任务都绑定视觉验证条件。例如“点击登录”后模型会立即截图确认是否跳转到首页若未跳转则自动重试或提示“密码错误”而非盲目执行下一步。所有动作最终落地为标准ADB命令adb shell input tap x y点击、adb shell input text xxx输入、adb shell input keyevent KEYCODE_BACK返回等。这种“感知→规划→执行→验证”的闭环让它具备了应对复杂、动态界面的鲁棒性。2.3 安全与可控敏感操作有人把关远程调试随时接入全自动不等于无约束。AutoGLM-Phone内置两道安全阀敏感操作确认机制当检测到可能涉及隐私或高风险的动作如“删除全部短信”“清除微信聊天记录”“访问相册”AI会主动暂停向用户发起二次确认“即将删除所有短信确定执行吗[Y/N]”。这避免了指令歧义导致的误操作。人工接管通道在验证码、人脸识别、滑块验证等AI无法处理的环节系统会自动暂停并提示“请手动完成验证完成后按回车继续”。你只需拿起手机输入验证码再切回电脑按一下回车流程即恢复。远程ADB调试支持无需USB线。只要手机和电脑在同一WiFi下或通过公网IP可达就能用adb connect 192.168.x.x:5555建立连接。开发者可随时抓日志、查状态、甚至热更新模型参数极大提升调试效率。3. 本地控制端部署三步走让AI接管你的手机部署AutoGLM-Phone控制端本质是搭建一个“AI大脑”与“手机手脚”之间的通信桥梁。整个过程分为环境准备、设备连接、代理启动三步全程无需编译纯Python驱动。3.1 硬件与基础环境确保“手”和“眼”在线组件要求验证方式操作系统Windows 10/macOS 12systeminfo(Win) /sw_vers(Mac)Python3.10 或 3.11推荐3.10python --version安卓设备Android 7.0真机优先模拟器需开启GPU加速设置 → 关于手机 → 查看版本号ADB工具Platform-tools v34adb version需显示 1.0.41 或更高ADB环境变量配置关键Windows下载Android SDK Platform-tools解压后将文件夹路径添加到系统环境变量Path中。验证CMD中输入adb version应返回版本号。macOS/Linux终端执行将~/Downloads/platform-tools替换为你实际路径echo export PATH$PATH:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc adb version3.2 手机端设置赋予AI“操作权限”这是最容易卡住的一步请严格按顺序操作开启开发者模式设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在处于开发者模式”。启用USB调试设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹出授权框时勾选“始终允许”点击“确定”。安装ADB Keyboard必装下载ADB Keyboard APKv1.3手机安装后进入设置 → 系统 → 语言与输入法 → 虚拟键盘 → 勾选“ADB Keyboard”返回上一级点击“默认键盘” → 选择“ADB Keyboard”。为什么必须普通输入法无法被ADB命令调起ADB Keyboard是唯一能响应adb shell input text指令的输入法。3.3 克隆代码与安装依赖启动你的AI代理# 1. 克隆官方仓库国内用户建议加 --depth 1 加速 git clone --depth 1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境强烈推荐避免包冲突 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装核心依赖含ADB通信、VLM推理封装 pip install -r requirements.txt pip install -e . # 安装为可编辑包便于后续调试注意requirements.txt中已指定adb-shell0.4.3和transformers4.40.0等关键版本。若安装失败可尝试pip install --upgrade pip setuptools wheel后再重试。4. 连接设备与运行指令从一句话到全流程自动化一切就绪现在让AI开始工作。连接方式有两种推荐新手从USB开始。4.1 USB直连稳定可靠新手首选# 1. 用USB线连接手机与电脑 # 2. 在电脑终端执行 adb devices # 正常输出示例 # List of devices attached # 1234567890ABCDEF device若显示unauthorized请检查手机是否弹出“允许USB调试”授权框并勾选“始终允许”。4.2 WiFi无线连接摆脱线缆实现远程控制此方式需先用USB完成初始配置# 1. USB连接后开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB线确保手机与电脑在同一WiFi # 3. 查找手机IP设置 → WLAN → 点击当前网络 → 查看IP地址如 192.168.1.100 # 4. 连接WiFi设备 adb connect 192.168.1.100:5555 # 成功提示connected to 192.168.1.100:55554.3 启动AI代理用自然语言下达第一条指令假设你的云服务已部署好vLLM端口8800公网IP为203.107.1.5设备ID为1234567890ABCDEFpython main.py \ --device-id 1234567890ABCDEF \ --base-url http://203.107.1.5:8800/v1 \ --model autoglm-phone-9b \ 把微信里王五发的‘会议纪要.docx’文件下载到手机然后用WPS打开并转成PDF参数详解--device-idadb devices列出的设备ID或WiFi地址192.168.1.100:5555--base-url指向你部署的vLLM API服务需提前配置好autoglm-phone-9b模型最后字符串你的自然语言指令支持中文长度建议100字语义明确。执行过程实时反馈终端会逐行打印AI的思考日志[INFO] 截图成功尺寸 1080x2340[PLAN] 检测到微信图标点击进入[EXEC] adb shell input tap 540 1200[VERIFY] 当前界面包含‘聊天列表’确认进入微信[PLAN] 在聊天列表中查找‘王五’...整个过程透明、可追溯便于调试。5. 实战技巧与避坑指南让部署一次成功5.1 语音转文字的进阶用法不止于“听写”AutoGLM-Phone的语音能力本质是打通“语音输入→文本指令→AI执行”的全链路。你可以这样用会议笔记自动化用手机录音笔录下会议导出MP3 → 用Whisper API转成文字 → 将文字摘要喂给AutoGLM-Phone“提取会议中关于Q3市场策略的3个要点新建备忘录并保存”。跨App信息整合“把钉钉里张经理发的客户名单Excel复制到飞书多维表格第2页表头为‘客户名、电话、需求’” —— AI会自动切换App、定位文件、解析表格、粘贴数据。个性化快捷指令在config.yaml中预设常用指令别名如/日报 “打开企业微信进入‘每日汇报’群发送‘今日工作1. xxx2. yyy’”。5.2 常见问题排查快速定位拒绝玄学现象可能原因解决方案adb devices显示offlineADB服务异常adb kill-server adb start-serverAI执行后无反应或点错位置手机分辨率未适配在main.py中设置--screen-width 1080 --screen-height 2340按你手机实际值模型返回乱码、超时vLLM端口未映射/防火墙拦截检查云服务器安全组放行8800端口确认docker run时加了-p 8800:8000ADB Keyboard无法输入中文输入法未设为默认手机设置 → 语言与输入法 → 默认键盘 → 切换为ADB Keyboard远程WiFi连接频繁断开路由器省电策略进入路由器后台关闭“Wi-Fi节能模式”或“AP隔离”5.3 性能优化建议让AI跑得更快更稳显存不足启动vLLM时添加--max-model-len 2048 --gpu-memory-utilization 0.8平衡速度与显存截图太慢在phone_agent/screen.py中将adb exec-out screencap -p替换为adb shell screencap -p /sdcard/screen.png adb pull /sdcard/screen.png利用缓存加速指令理解不准在prompt_template.txt中强化few-shot示例加入你高频使用的指令类型如“转发微信文件”“截取当前屏幕”。6. 总结从“语音转文字”到“AI代劳”我们正在跨越什么AutoGLM-Phone的价值远不止于“把语音变成文字”。它标志着一个关键拐点AI代理正从“回答问题”走向“执行任务”。过去语音助手是“传声筒”——你说“打电话给妈妈”它调起拨号盘现在AutoGLM-Phone是“执行者”——你说“把妈妈上周发的旅行照片发到家庭群”它会打开微信 → 找到妈妈聊天 → 翻阅历史消息 → 定位图片 → 长按保存 → 打开家庭群 → 点击图片 → 发送。每一步都基于实时视觉理解与动态规划。部署它你获得的不是一个新工具而是一个可编程的“数字同事”。它不替代你的思考但接管了所有重复、机械、跨App的手动操作。当你把“记会议笔记”这个任务交给它你节省的不仅是十分钟更是从琐碎操作中解放出来的专注力。技术终将隐形。而AutoGLM-Phone正走在让AI真正“消失”于日常操作背后的路上。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。