深圳做网站三网合一西安制作网站公司
2026/4/28 17:31:41 网站建设 项目流程
深圳做网站三网合一,西安制作网站公司,邢台seo网站制作,学建网站从下载到运行#xff1a;Open-AutoGLM完整上手流程 1. 这不是“另一个手机自动化工具”#xff0c;而是一个真正能听懂你说话的AI助手 你有没有过这样的时刻#xff1a; 想在小红书搜“最近爆火的咖啡馆”#xff0c;但正开会没法点手机#xff1b; 想给长辈远程教怎么用…从下载到运行Open-AutoGLM完整上手流程1. 这不是“另一个手机自动化工具”而是一个真正能听懂你说话的AI助手你有没有过这样的时刻想在小红书搜“最近爆火的咖啡馆”但正开会没法点手机想给长辈远程教怎么用微信视频却只能干着急或者只是单纯厌倦了每天重复点开App、输入关键词、滑动找结果——这些动作本不该由人来完成。Open-AutoGLM 就是为此而生的。它不是简单的脚本录制回放也不是靠固定坐标点击的脆弱方案。它用视觉语言模型“看懂”你的手机屏幕再用自然语言理解你的意图最后通过 ADB 精准执行每一步操作。你说“打开抖音搜dycwo11nt61d并关注”它就真的会打开App、输入框、搜索、点进主页、找到关注按钮——全程无需你碰一下屏幕。更关键的是它不依赖云端识别截图所有视觉理解都在本地或可控服务端完成它支持真机WiFi远程调试也兼容模拟器开发它甚至会在遇到登录页或验证码时主动暂停等你人工接管——安全、可控、真实可用。这篇文章不讲原理、不堆参数只带你从零开始下载代码、装好环境连上你的安卓手机USB 或 WiFi 都行启动一个可工作的模型服务输入一句中文亲眼看着 AI 替你完成整套操作全程不需要写一行新代码也不需要调任何模型权重。你只需要按顺序做对几件事就能让手机第一次真正“听你的话”。2. 准备工作三步搞定硬件与基础环境别被“多模态”“视觉语言模型”吓住——Open-AutoGLM 的控制端也就是你电脑上跑的部分其实非常轻量。真正复杂的模型推理可以部署在你自己的服务器上本地只需负责“看图发指令”。我们先聚焦在最实在的准备环节。2.1 你的设备要满足什么条件项目要求说明本地电脑Windows 10/macOS 12不需要显卡纯 CPU 也能跑通控制逻辑Python 版本3.10 或更高推荐用pyenv或conda管理避免系统 Python 冲突安卓设备Android 7.0 及以上真机优先模拟器仅限开发测试建议使用近3年主流机型网络环境USB 数据线 或 同一局域网WiFi 方式更灵活但首次连接必须用 USB 开启 TCP/IP注意这不是一个“装个App就能用”的产品。它需要你开启开发者选项、配置 ADB、连接设备——听起来像极了当年第一次刷机。但别担心下面每一步都配了明确指令和验证方式错一步马上能发现。2.2 安装并验证 ADB 工具ADB 是整个流程的“神经中枢”。没有它AI 再聪明也摸不到你的手机。Windows 用户去 Android SDK Platform-Tools 页面 下载 zip 包解压到一个固定路径比如C:\adb按Win R→ 输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴C:\adb打开新命令提示符输入adb version如果看到类似Android Debug Bridge version 1.0.41的输出说明成功。macOS 用户终端中执行curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH$PATH:$(pwd)/platform-tools验证方式同上adb version验证通过后你已经拥有了和安卓设备通信的能力。接下来就是让手机“认出”你的电脑。2.3 手机端三步设置开启调试、授权、换输入法这三步缺一不可且顺序不能乱开启开发者模式进入「设置」→「关于手机」→ 连续点击「版本号」7次 → 弹出“您现在是开发者”提示。开启 USB 调试返回「设置」→「系统」→「开发者选项」→ 找到「USB 调试」并开启。如果没看到「开发者选项」请确认上一步已成功。安装并启用 ADB Keyboard关键下载 ADB Keyboard APK推荐 v1.3用 USB 连接手机与电脑在电脑终端执行adb install adbkeyboard.apk手机上进入「设置」→「语言与输入法」→「当前键盘」→ 切换为ADB Keyboard此时手机屏幕顶部状态栏应显示“ADB Keyboard”字样完成后你的手机已准备好接收来自电脑的任何操作指令——点击、滑动、输入文字全部可控。3. 控制端部署5分钟拉起本地代理控制端代码完全开源无需编译纯 Python。它的作用很清晰 定期截取手机屏幕 → 传给模型服务 接收模型返回的操作指令如“点击坐标(320,650)”→ 转为 ADB 命令执行 在用户指令、模型响应、设备状态之间做协调与容错3.1 克隆代码并安装依赖打开终端Windows 用 PowerShell / macOS 用 Terminal依次执行# 1. 克隆仓库国内用户可加 --depth1 加速 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境强烈推荐避免包冲突 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖requirements.txt 已预置适配版本 pip install -r requirements.txt pip install -e .执行完pip install -e .后你已在本地注册了phone_agent模块后续 Python 脚本可直接import phone_agent。3.2 连接你的手机USB 和 WiFi 两种方式确保手机已用 USB 连接电脑并开启了 USB 调试。USB 直连推荐新手首选adb devices输出应类似List of devices attached 1234567890abcdef device记下那一串字母数字组合即device-id后面要用。WiFi 远程连接适合长期使用先用 USB 连接执行adb tcpip 5555拔掉 USB 线确保手机和电脑在同一 WiFi 下查看手机 IP设置 → 关于手机 → 状态 → IP 地址假设为192.168.1.105执行adb connect 192.168.1.105:5555再次adb devices应看到192.168.1.105:5555 device无论哪种方式只要adb devices显示device就代表控制端已能触达手机。4. 模型服务启动本地快速体验无需GPU你不需要自己训练模型也不必租用昂贵显卡服务器。Open-AutoGLM 官方提供了两个开箱即用的量化模型其中AutoGLM-Phone-9B-INT4可在消费级显卡如 RTX 3060甚至高端 CPU 上流畅运行。4.1 使用 vLLM 快速启动服务推荐vLLM 是目前最轻量、最稳定的 LLM 服务框架之一。我们用它把模型变成一个标准 OpenAI API 服务# 安装 vLLM需 CUDA 支持若无 GPU 可跳过此步改用 CPU 模式 pip install vllm # 启动服务以下命令适用于 RTX 3060 / 4090 等常见显卡 python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --dtype half \ --gpu-memory-utilization 0.9 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt {image:10} \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs {max_pixels:5000000} \ --port 8000启动成功后访问http://localhost:8000/v1/models应返回 JSON包含id:autoglm-phone-9b—— 这说明模型服务已就绪。4.2 无GPU用户替代方案CPU 模式稍慢但可用如果你只有 CPU如 MacBook M1/M2可改用llama.cppllava分支的轻量实现社区已有适配版。我们提供一个最小可行命令# 安装 llama-cpp-python需先装 cmake、rust pip install llama-cpp-python # 下载量化模型GGUF 格式约 4.2GB wget https://huggingface.co/zai-org/AutoGLM-Phone-9B-GGUF/resolve/main/ggml-model-Q4_K_M.gguf # 启动 API 服务端口 8000 python -m llama_cpp.server --model ggml-model-Q4_K_M.gguf --n-gpu-layers 0 --port 8000此时http://localhost:8000/v1/models同样应返回模型信息。虽然推理速度比 GPU 慢 3–5 倍但足以完成演示任务。5. 第一次运行用一句话让AI接管你的手机现在所有齿轮都已咬合。我们来执行那个最经典的指令“打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他”5.1 命令行一键执行最简方式在Open-AutoGLM项目根目录下执行python main.py \ --device-id 1234567890abcdef \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他--device-id替换为你adb devices看到的 ID--base-url保持http://localhost:8000/v1若模型服务在其他机器改 IP 和端口最后字符串就是你要下达的自然语言指令中文即可无需特殊格式你会看到终端逐行输出[INFO] 截取屏幕截图 → 上传至模型服务 [INFO] 模型返回{action:open_app,app_name:抖音} [INFO] 执行adb shell am start -n com.ss.android.ugc.aweme/.main.MainActivity [INFO] 截取新截图 → 上传 [INFO] 模型返回{action:click,x:180,y:120} ... [INFO] 任务完成整个过程约 20–60 秒取决于模型加载速度和网络延迟。你会亲眼看到手机自动亮屏、打开抖音、点击搜索框、输入ID、点进主页、按下关注按钮——全部由 AI 规划并执行。5.2 Python API 调用适合集成进自己的工具如果你希望把它嵌入脚本或 Web 界面用 API 更灵活from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型服务地址 model_config ModelConfig( base_urlhttp://localhost:8000/v1, model_nameautoglm-phone-9b, ) # 创建代理实例自动连接默认设备 agent PhoneAgent(model_configmodel_config) # 下达指令 result agent.run(打开小红书搜‘上海宝藏咖啡馆’) print(执行结果, result[status]) # success / failed print(详细步骤, result[steps])result[steps]会返回一个结构化列表包含每一步操作类型、坐标、截图哈希、耗时等方便你做日志分析或失败回溯。6. 常见问题与避坑指南来自真实踩坑记录即使按上述步骤操作也可能遇到几个高频问题。以下是我们在实测中总结的“血泪经验”6.1 ADB 连接不稳定试试这三招现象adb devices有时显示unauthorized有时干脆不显示设备原因手机弹出的“允许 USB 调试”对话框被忽略或授权被拒绝解法断开 USB关闭手机“开发者选项”重新开启“开发者选项”和“USB 调试”再次连接务必在手机上点击“允许”勾选“始终允许”6.2 模型返回乱码或卡住检查这两个参数现象终端卡在[INFO] 模型返回...或返回一堆符号原因vLLM 启动时--max-model-len设置过小或--mm_processor_kwargs中max_pixels不匹配解法确保--max-model-len 25480官方推荐值确保--mm_processor_kwargs {max_pixels:5000000}对应 2000×2500 像素截图若仍失败临时加--enforce-eager参数禁用 CUDA 图优化6.3 手机没反应先确认 ADB Keyboard 是否生效现象AI 说“正在输入xxx”但手机键盘没弹出文字没出现原因ADB Keyboard 未设为默认输入法或被系统强制切换回原生键盘解法手机进入「设置」→「语言与输入法」→ 确认「ADB Keyboard」在启用列表且为默认在任意输入框长按 → “选择输入法” → 手动切回 ADB Keyboard重启手机部分厂商需重启才生效6.4 想换模型两个官方推荐版本模型适用场景下载方式zai-org/AutoGLM-Phone-9B中文任务优先小红书/抖音/淘宝等国内 App 识别率高Hugging Face / ModelScopezai-org/AutoGLM-Phone-9B-Multilingual需处理英文界面、海外 App如 Instagram、Chrome同上注意切换--lang en参数切换模型只需改--model参数和--base-url后端服务模型名无需重装代码。7. 总结你刚刚完成了一次真正的“人机协作”启动回顾这一路 你配置了 ADB让电脑真正“看见”了手机 你安装了控制端搭建起指令与动作之间的桥梁 你启动了模型服务赋予手机“理解屏幕规划动作”的能力 你输入一句中文见证了 AI 自动完成打开App、搜索、点击、关注的全过程。这不是 Demo不是 PPT而是今天就能跑通的真实能力。Open-AutoGLM 的价值不在于它多炫技而在于它把“自动化”的门槛降到了最低——你不需要懂强化学习不需要写 XPath甚至不需要知道什么叫“多模态”只要你会说中文就能指挥手机做事。下一步你可以 尝试更多指令“给微信里‘张三’发消息‘会议推迟到3点’” 把main.py改造成 Web 界面让家人也能用语音下发指令 结合定时任务让手机每天早上自动截图健康数据发给你 在examples/目录里探索批量任务、单步调试、错误恢复等进阶用法技术的意义从来不是让人仰望而是让人伸手就能用。你现在已经伸出手了。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询