2026/5/21 12:22:08
网站建设
项目流程
做内衣模特接广告网站,企业网站建设公,可以访问的国外网站,服饰网站模板设计梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI手机的“灵魂”GUI智能体#xff0c;就这么全套开源了。来自阿里通义实验室的MAI-UI#xff1a;论文、代码、模型全都有#xff0c;从2B的端侧小模型到235B的云端大模型#xff0c;一口气发布四个尺寸版本#xff0c;覆盖全场景部…梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI手机的“灵魂”GUI智能体就这么全套开源了。来自阿里通义实验室的MAI-UI论文、代码、模型全都有从2B的端侧小模型到235B的云端大模型一口气发布四个尺寸版本覆盖全场景部署需求。这套系统不只是能帮你点点屏幕它能主动追问你没说清楚的需求能直接调用外部API绕过繁琐的界面操作。甚至还搞了一套端云协同系统隐私敏感的操作留在本地跑复杂任务交给云端处理。论文给出几个典型案例用户收到中介发来的两套房源地址想比较哪套离公司更近然后把更近那套的地址发给朋友。传统做法需要在短信和地图APP之间反复切换复制粘贴地址分别搜索路线。但有了MCP工具调用智能体可以直接用高德地图的API查询两条路线的驾车距离一次性拿到结构化结果大幅压缩操作步骤。另一个案例更有难度用户想查看某个GitHub仓库最近三次提交的作者和信息然后发邮件。这种操作在手机上本来很难完成因为移动端浏览代码仓库体验很差。但通过MCP调用GitHub的API智能体直接获取提交记录的结构化数据提取需要的字段再切换到邮件APP发送。相当于把原本只能在桌面端做的工作流搬到了手机上。主动询问需求方面论文展示了一个文件分享任务用户让智能体把下载文件夹里最近一个月的简历发给HR同事但没说收件人邮箱也没说邮件正文要写什么。智能体检测到关键信息缺失后暂停执行主动向用户询问拿到回复后再继续完成任务。四大痛点一个方案团队在论文开头就直接点明了当前GUI智能体落地的四个核心问题。第一个是交互缺失。现有系统基本都是端到端执行默认用户指令清晰完整但现实中用户经常说一半留一半。比如「帮我订个机票」去哪儿什么时候几个人全没说智能体如果不能主动追问要么猜错要么卡死。第二个是纯UI操作的局限性。完全依赖界面点击会导致两个麻烦操作步骤一多中间任何一步出错就会导致整个任务失败而且有些功能在手机界面上根本做不了比如想让手机帮你查GitHub的提交记录光靠点屏幕是搞不定的。第三个是端云割裂。目前的GUI智能体要么是轻量级的端侧模型能力有限要么是大模型只能跑在云端隐私风险高、成本也高。两者之间没有原生的协作机制。第四个是动态环境下的脆弱性。用静态数据训练出来的模型遇到真实世界里千变万化的界面布局、突然弹出的权限请求、不同版本的APP就容易翻车。MAI-UI的解决方案一条能自动生成用户交互和MCP工具调用数据的自演化数据管线。一套根据任务状态和数据敏感度动态切换端云执行的协同系统。再加上一套支持500多个并行环境、最长50步交互的在线强化学习框架。端云协同与隐私保护端云协同系统是这次工作的一大重点。整个系统由三部分组成一个运行在手机本地的轻量级智能体既负责执行GUI操作也负责监控轨迹是否偏离用户意图一个部署在云端的大容量智能体用于处理复杂任务以及一个本地统一轨迹记忆模块保证端云之间的信息一致。工作流程是这样的用户下达指令后本地智能体开始执行。每隔几步本地监控模块会检查当前轨迹是否还在正确方向上。如果发现偏离且不涉及敏感数据就把任务交给云端模型接手完成。交接时还会生成一份错误摘要帮助云端模型理解问题出在哪里并快速恢复。相比纯端侧执行端云协同让2B模型的成功率提升了33%相比纯云端执行云端调用次数减少了40%以上超过40%的任务完全在本地完成。论文还给出了一个隐私保护的案例。在一个需要输入密码的任务中本地模型一开始执行出错反复点击登录按钮却没输入密码监控模块检测到偏离后准备切换到云端。但隐私检测模块发现当前界面涉及敏感凭证于是阻止了云端切换让任务继续在本地执行。最终本地模型自己纠正了错误并完成了任务全程没有任何敏感信息传到云端。性能屠榜多项SOTA在GUI元素定位任务上MAI-UI-32B在ScreenSpot-Pro上达到73.5%准确率超过了Gemini-3-Pro和Seed1.8。在UI-Vision上拿到49.2%比之前最强的UI-Venus-72B高出12.4个百分点。在MMBench GUI L2上更是达到91.3%刷新了纪录。在手机导航任务上MAI-UI-235B-A22B在AndroidWorld上取得76.7%的成功率超过了UI-Tars-2的73.3%和Gemini-2.5-Pro的69.7%。即便是最小的2B模型也达到了49.1%的成功率比之前最强的端侧模型Ferret-UI Lite高出21个百分点相对提升75.4%。在更接近真实场景的MobileWorld测试集上MAI-UI-235B-A22B整体成功率41.7%比其他端到端模型高出20.8个百分点。在需要主动询问用户的任务上成功率37.5%在需要调用MCP工具的任务上成功率51.1%分别比之前最好的成绩高出32.1和18.7个百分点。论文地址https://arxiv.org/abs/2512.22047GitHubhttps://github.com/Tongyi-MAI/MAI-UI—欢迎AI产品从业者共建—「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。一键关注 点亮星标科技前沿进展每日见