网站建设文章网站建设网站设计哪家专业
2026/5/21 18:02:10 网站建设 项目流程
网站建设文章,网站建设网站设计哪家专业,企业seo排名,网站搭建平台有哪些AI看懂屏幕了吗#xff1f;Open-AutoGLM视觉理解能力实测 1. 这不是语音助手#xff0c;是真正“看见”屏幕的AI手 你有没有试过对手机说#xff1a;“帮我把微信里昨天那张会议截图发到项目群#xff1f;” 结果 Siri 回你一句#xff1a;“正在为你打开微信。”——然…AI看懂屏幕了吗Open-AutoGLM视觉理解能力实测1. 这不是语音助手是真正“看见”屏幕的AI手你有没有试过对手机说“帮我把微信里昨天那张会议截图发到项目群”结果 Siri 回你一句“正在为你打开微信。”——然后就停住了。它没点开聊天记录没找到截图更不会识别图中文字、定位时间、筛选对话。它只是执行了最表层的指令。而 Open-AutoGLM 做的是另一件事它真的在“看”。不是调用某个 App 的 API不是预设规则匹配关键词而是像人一样——先截一张当前屏幕把整张图送进视觉语言模型再结合你的自然语言指令比如“查一下张工发的带‘预算表’三个字的Excel”理解界面布局、识别按钮文字、定位输入框位置、判断列表滚动状态、甚至推断当前是否处于登录页或验证码弹窗……最后用 ADB 指令精准点击、滑动、输入一气呵成。这不是自动化脚本也不是 RPA 工具。这是第一个在消费级安卓设备上把“视觉感知 任务规划 设备操控”闭环跑通的开源 Phone Agent 框架。背后支撑它的是智谱开源的 AutoGLM-Phone 模型——一个专为手机交互场景优化的轻量级多模态大模型。本文不讲论文、不堆参数只做一件事用真实操作、完整链路、可复现步骤带你亲手验证——它到底能不能看懂屏幕看懂多少边界在哪2. 三步启动从零连上你的手机让AI开始“盯屏”别被“视觉语言模型”“ADB 调试”这些词吓住。整个过程不需要显卡、不编译模型、不改源码一台普通 Windows 笔记本 一部安卓手机就能跑起来。我们拆成三步每步都附可粘贴命令。2.1 手机端只需两开关 一个输入法这一步耗时约3分钟99%的问题都出在这里。请严格按顺序操作开启开发者模式设置 → 关于手机 → 连续点击“版本号”7次部分机型需10次直到弹出“您现在处于开发者模式”提示开启USB调试返回设置 → 系统与更新 → 开发者选项 → 启用“USB调试”安装 ADB Keyboard这是关键没有它AI无法向任意输入框发送文字。下载地址https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk安装后进入手机“设置 → 语言与输入法 → 当前输入法”将默认输入法切换为ADB Keyboard。验证是否成功用 USB 线连接手机与电脑在命令行输入adb devices若返回类似ZY225XXXXX device的一行说明手机已识别若显示unauthorized请在手机弹出的授权窗口点“允许”。2.2 电脑端配好 ADB克隆代码装依赖无需配置环境变量除非你后续想全局使用 adb直接下载平台工具包解压到C:\adbWindows或~/adbmacOS然后在项目目录下用绝对路径调用。# 1. 克隆官方仓库推荐国内镜像加速 git clone https://gitee.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建并激活 Python 虚拟环境推荐 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖含 ADB 封装库 pip install -r requirements.txt pip install -e .2.3 连接云端模型用智谱 BigModel API 快速启动本地不部署模型直连智谱云服务——这是目前最稳定、门槛最低的方式。注册地址https://bigmodel.cn新用户赠送充足免费 Token获取 API Key 后一条命令即可启动交互式代理python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here \ 打开小红书搜索‘上海咖啡探店’进入第一个笔记截图保存注意Windows 用户若运行check_deployment_cn.py报UnicodeDecodeError请手动编辑该文件在open()函数中添加encodingutf-8参数详见文档否则中文提示词会乱码。启动成功后你会看到类似这样的输出Enter your task:——这意味着AI 已就位正等待你的第一条自然语言指令。3. 实测深挖它到底“看懂”了什么五类典型场景全解析我们不只跑通“打开抖音”而是设计了5类真实高频任务覆盖视觉理解的核心能力维度UI 元素识别、跨页面状态追踪、图文混合推理、敏感操作防御、长流程容错。所有测试均在 vivo S20Android 14 Windows 11 智谱 API 下完成。3.1 场景一按钮识别 ≠ 文字识别——它能定位“不可见”的操作区指令“在微信里找到右上角‘’号点开选择‘扫一扫’”实测表现正确识别状态栏下方、标题栏右侧的“”图标非文字按钮在弹出菜单中准确定位“扫一扫”选项图标文字组合进入扫码界面后自动停止操作未误触快门。关键洞察它不是靠 OCR 识别“”字而是理解 UI 组件的语义角色——“右上角悬浮操作按钮”。即使图标更换如换成“≡”菜单只要位置和上下文一致仍能泛化定位。3.2 场景二跨页面意图保持——不被中间页“带偏”指令“打开美团搜‘杭州龙井村’点进第一个商家查看营业时间截图发给我”实测表现成功跳转至美团首页 → 输入框聚焦 → 输入“杭州龙井村” → 点击搜索在搜索结果页准确识别第一个商家卡片含头像、名称、评分进入详情页后向下滚动定位到“营业时间”模块非顶部固定栏截图前主动暂停等待人工确认因涉及隐私信息。关键洞察传统脚本在页面跳转后即丢失上下文。而 Open-AutoGLM 每次截图都携带历史动作链“已执行打开美团→输入→搜索→点击第1项”使模型能区分“当前页的‘营业时间’”和“首页的‘营业时间’入口”避免误操作。3.3 场景三图文混合推理——从截图中提取结构化信息指令“打开钉钉找到‘2024年Q3 OKR评审’群翻到昨天的聊天记录找张工发的带表格的图片把表格第一行文字抄下来”实测表现进入群聊后识别时间轴标记“昨天”在消息流中定位张工头像及发言气泡对气泡内图片进行视觉分析识别出其中嵌入的 Excel 表格提取表格首行文字“目标 | 关键结果 | 进度 | 负责人”。关键洞察它没有调用 OCR API而是将整张截图指令联合输入 VLM让模型端到端完成“定位图片→识别表格区域→提取首行文本”三级推理。响应延迟约8秒受 API 网络影响但结果准确率高于纯 OCR 工具对模糊截图的识别。3.4 场景四敏感操作熔断——不越界才敢真用指令“打开支付宝点‘我的’进入‘银行卡管理’删除最后一张卡”实测表现❌ 模型未执行删除操作输出提示“检测到高风险操作删除银行卡已暂停执行。请手动确认或输入‘继续执行’以授权。”关键洞察框架内置安全策略层对“删除”“转账”“注销”“清除数据”等关键词触发强制接管。这不是简单关键词过滤而是结合当前界面元素如“删除”按钮旁是否有警示图标、是否处于二级确认页做多模态风险评估。你永远保有最终控制权。3.5 场景五长流程容错——断点续传不是梦指令“打开携程搜‘北京环球影城’选10月1日门票买两张成人票填写我身份证号110101199003072315下单”实测表现完成搜索、筛选日期、选择票种进入填写页后识别身份证输入框带“证件号”标签输入过程中因网络波动导致一次 ADB 点击失败模型自动重试并在下一页检测到“订单确认”标题主动终止流程输出“已定位订单页下一步需短信验证请人工处理。”关键洞察它不追求“100%全自动”而是把“人类擅长的环节”如验证码识别、支付确认明确划出把“机器擅长的环节”重复点击、表单填写、页面跳转做到极致稳定。这种务实设计才是 Phone Agent 落地的关键。4. 能力边界它还做不到什么三点清醒认知实测中我们也清晰看到了当前版本的硬性限制。坦诚面对不足比夸大宣传更有价值。4.1 动态内容加载对“无限滚动”和“懒加载”仍显吃力当指令涉及“翻到最后一条微博”或“加载全部评论”时模型常在第3~5屏后停止滚动。原因在于截图仅反映当前可视区域模型无法预判“底部是否还有内容”缺乏对 ScrollView 滚动事件的底层监听仅靠视觉判断“底部出现‘正在加载’提示”来决策易漏判。建议方案配合adb shell input swipe指令做固定步长滚动再由模型判断是否终止可提升覆盖率。4.2 复杂图形界面游戏、自定义渲染 App 是盲区在《原神》启动器或某银行定制版 App 中模型识别准确率骤降至30%以下。根本原因是这些应用大量使用 Unity 渲染或自定义 ViewUI 层级信息如控件类型、ID被剥离截图变成纯图像失去 Android 原生控件的语义锚点如android.widget.Button。适用范围明确Open-AutoGLM 专为标准 Android UIMaterial Design / HarmonyOS优化不适用于游戏引擎或重度定制化金融类 App。4.3 多设备协同尚不支持“一台电脑控多台手机”当前架构基于单设备 ADB 连接--device-id参数仅接受单一标识。若需批量管理如电商客服同时回复10台手机需自行封装多进程 ADB 控制器或等待社区扩展。5. 进阶玩法不只是“执行指令”还能帮你“设计流程”Open-AutoGLM 的真正潜力在于它把“手机操作”变成了可编程接口。我们演示两个超越 Demo 的实用技巧。5.1 自定义动作链把高频操作存成“快捷指令”你想每天早9点自动打卡不用写 cron直接定义 JSON 流程// workflows/daily_checkin.json { name: 企业微信打卡, steps: [ {action: open_app, target: com.tencent.wework}, {action: wait_for_text, text: 工作台, timeout: 10}, {action: click_text, text: 打卡}, {action: click_text, text: 立即打卡, confidence: 0.8} ] }然后调用python main.py --workflow workflows/daily_checkin.json模型会自动解析 JSON将每步转化为视觉理解ADB 操作比传统自动化脚本更鲁棒不受图标微调影响。5.2 本地化微调用你自己的截图数据提升垂直场景精度框架支持加载自定义提示词模板。例如针对政务 App 的复杂表单# prompts/gov_form.txt 你是一名政务服务平台助手。当前界面为XX市社保局在线申办页。 请特别注意 - 所有带红色星号(*)的输入框为必填项 - “上传身份证正面”按钮位于页面中部偏右图标为相机 - 提交前必须勾选“本人承诺信息真实”复选框。启动时指定python main.py --prompt-file prompts/gov_form.txt 帮我提交失业登记申请通过注入领域知识模型在特定场景下的操作成功率可提升40%以上实测数据。6. 总结它不是替代你而是把“手指”借给你回看标题那个问题AI看懂屏幕了吗答案是它看懂了你能描述清楚的屏幕——那些有明确视觉特征、符合常规 UI 范式、承载具体操作意图的屏幕。它看不懂抽象艺术海报也读不懂加密的金融图表但它能稳稳接过你手里的手机帮你点开17个App、填完3页表单、截下5张图、再把结果发到钉钉群——全程不用你碰一下屏幕。这背后的价值不是炫技而是把人从重复性界面操作中解放出来。当你不再需要为“找入口→点按钮→等加载→输文字”耗费注意力真正的创造力才刚刚开始。如果你也想试试让AI替你“盯屏”现在就可以复制那条python main.py命令拿起手机打开开发者模式然后对它说一句“帮我订一杯瑞幸拿铁。”它可能不会立刻成功但那一刻你已经站在了人机协作的新界碑上。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询