电子商务网站建设与维护考试两个公司的网站建设
2026/4/6 5:37:48 网站建设 项目流程
电子商务网站建设与维护考试,两个公司的网站建设,进不了wordpress,深圳建企业网站公司小白必看#xff01;Xinference-v1.17.1保姆级安装教程 你是不是也遇到过这些情况#xff1a; 想试试最新的开源大模型#xff0c;却卡在环境配置上#xff1f; 看到一堆命令行参数就头皮发麻#xff0c;不知道从哪下手#xff1f; 好不容易装好了#xff0c;一运行就报…小白必看Xinference-v1.17.1保姆级安装教程你是不是也遇到过这些情况想试试最新的开源大模型却卡在环境配置上看到一堆命令行参数就头皮发麻不知道从哪下手好不容易装好了一运行就报错“CUDA not found”或者“model not found”甚至翻遍文档还是搞不清——到底该用xinference launch还是xinference startWebUI怎么打开Jupyter里怎么调用别急。这篇教程就是为你写的。它不讲原理、不堆术语、不绕弯子只做一件事让你在30分钟内从零开始稳稳当当地把 Xinference-v1.17.1 跑起来能启动、能访问、能调用、能换模型。无论你是刚配好显卡的笔记本用户还是第一次接触命令行的新手只要照着步骤点、敲、回车就能成功。我们全程使用最简路径不编译源码、不改配置文件、不折腾Docker镜像除非你主动选、不依赖云服务。所有操作都在本地完成兼容 WindowsWSL2、macOS 和主流 Linux 发行版Ubuntu/CentOS/Debian。准备好了吗咱们现在就开始。1. 安装前的三件小事确认、清理、选对路在敲下第一行命令之前请花2分钟确认这三件事。它们看似简单却是90%安装失败的根源。1.1 确认你的Python版本是否达标Xinference-v1.17.1 要求 Python ≥ 3.9。太低会报错ModuleNotFoundError: No module named zoneinfo太高如3.13部分依赖尚未适配也可能出问题。打开终端Windows用户请先启动 WSL2 或 PowerShell输入python --version # 或 python3 --version如果显示Python 3.9.18、Python 3.10.12、Python 3.11.9—— 恭喜直接进下一步。如果显示Python 3.8.10或更低请先升级 Python推荐用 pyenv 或官网安装包如果显示Python 3.13.0建议临时切到 3.11Xinference 官方测试最稳版本。小贴士不确定自己用的是哪个 Python运行which python或where python查看路径。避免系统自带的/usr/bin/python常为2.7优先使用python3或通过pyenv global 3.11.9切换。1.2 清理旧版本残留重要如果你之前装过 Xinference哪怕只是试过pip install xinference请务必先卸载干净。v1.17.1 对旧缓存和注册表非常敏感残留会导致 WebUI 打不开、模型列表为空、API 返回 500 错误。执行这条命令一次清空pip uninstall xinference -y pip cache purge再检查是否还有残留进程尤其后台服务# Linux/macOS ps aux | grep xinference # 如果看到类似 /usr/bin/python3 ... xinference start 的进程记下 PID然后 kill -9 PID# Windows PowerShell管理员权限 Get-Process | Where-Object {$_.ProcessName -like *xinference*} | Stop-Process -Force1.3 明确你的硬件路线CPU 还是 GPUXinference 支持 CPU 推理适合测试、小模型、无显卡设备也支持 GPU 加速推荐 NVIDIA 显卡 CUDA 11.8/12.x。但安装方式略有不同场景推荐安装命令说明有NVIDIA显卡RTX 30/40系显存≥6GBpip install xinference[all]自动安装 CUDA 版本的 llama-cpp-python、vLLM 等加速后端只有CPU笔记本/老电脑/Mac M系列pip install xinference[cpu]跳过GPU依赖用纯CPU推理速度稍慢但100%兼容Mac M1/M2/M3芯片pip install xinference[metal]启用 Apple Metal 加速性能接近中端GPU本教程默认按NVIDIA GPU 用户展开覆盖人群最广。如果你是 CPU 或 Mac 用户只需把后续所有xinference[all]替换为对应选项即可其余步骤完全一致。2. 一行命令安装真正的一键到位现在进入最轻松的环节——安装。请确保你已激活一个干净的 Python 虚拟环境强烈推荐避免污染系统环境# 创建并激活虚拟环境Linux/macOS python3 -m venv xin_env source xin_env/bin/activate # WindowsPowerShell python -m venv xin_env .\xin_env\Scripts\Activate.ps1激活成功后命令行提示符前会显示(xin_env)。然后复制粘贴这一行命令注意是带引号的完整字符串pip install xinference[all] -i https://pypi.tuna.tsinghua.edu.cn/simple/-i参数指定清华镜像源国内用户下载快、不超时xinference[all]是 v1.17.1 的官方全功能包包含 WebUI、CLI、OpenAI 兼容 API、所有模型后端llama-cpp、vLLM、transformers及依赖。等待 3–8 分钟取决于网速和机器性能。你会看到大量Installing collected packages...日志最后出现Successfully installed xinference-1.17.1 ...安装完成不用重启终端不用改PATH现在就能验证。3. 验证安装三步确认“真的装好了”别急着开 WebUI。先用最简单的方式确认核心组件已就位。3.1 检查版本号最基础的“心跳测试”在已激活的虚拟环境中运行xinference --version你应该立刻看到输出xinference 1.17.1如果报错command not found说明虚拟环境没激活或安装失败请回到第2步重试。如果显示其他版本如1.16.0说明 pip 缓存了旧包加--force-reinstall重装。3.2 启动服务不加载任何模型纯验证运行以下命令启动一个最小化服务不下载模型、不占显存xinference start --host 127.0.0.1 --port 9997 --log-level warning--host 127.0.0.1只允许本机访问安全默认--port 9997指定端口避开常见冲突如8000、8080--log-level warning减少刷屏日志只显示关键信息几秒后你会看到类似日志INFO Starting Xinference server... INFO Server is running at http://127.0.0.1:9997 INFO OpenAI compatible API endpoint: http://127.0.0.1:9997/v1这表示服务已成功监听。保持这个终端开着或按CtrlZ挂起我们进行下一步。3.3 用 curl 测试 API 是否通程序员的“ping”新开一个终端或按CtrlC停止上一步再运行curl http://127.0.0.1:9997/health返回{status:ok}即为完全正常。如果返回curl: (7) Failed to connect说明服务没起来请检查上一步日志是否有OSError: [Errno 98] Address already in use端口被占换端口重试。 小知识/health是 Xinference 的健康检查接口所有生产环境都靠它判断服务状态。记住它以后排错神器。4. WebUI 启动与首次使用点一点就看见模型现在我们让 Xinference “长出图形界面”。4.1 启动带 WebUI 的服务关键一步关闭上一个服务CtrlC运行这个命令xinference start --host 0.0.0.0 --port 9997 --ui--ui启用内置 WebUIv1.17.1 默认集成无需额外安装--host 0.0.0.0允许局域网其他设备访问如手机、平板方便演示若仅本机用仍可写127.0.0.1启动成功后日志末尾会多出一行INFO Web UI is running at http://127.0.0.1:99974.2 打开浏览器见证第一步成果用 Chrome/Firefox/Safari访问http://127.0.0.1:9997你会看到 Xinference 的蓝色主界面左侧导航栏、顶部模型管理、中央欢迎页。此时页面会显示“No models are registered yet.”暂无模型注册—— 这完全正常我们还没下载任何模型。恭喜WebUI 已成功加载这是你和 Xinference 的第一次“见面”。4.3 下载并启动第一个模型Qwen2-0.5B轻量、快、适合新手在 WebUI 页面点击左侧Models → Launch Model。你会看到一个表单按以下方式填写全部使用默认值只改关键项字段填写内容说明Model Nameqwen2选择 Qwen2 系列阿里开源中文强体积小Model Size0.5B选最小的 0.5B 版本CPU/GPU 都能秒启Quantizationq4_k_m4-bit 量化平衡速度与精度显存占用1.2GBGPU Devices0如果你有GPU填0表示用第0块卡CPU用户留空或填-1填完点击右下角Launch。后台会自动① 从 Hugging Face 下载模型文件约 300MB首次需几分钟② 加载到内存/显存③ 注册为可用模型进度条走完后刷新页面点击Models → List Models你会看到qwen2-chat-q4_k_m | RUNNING | 0.5B | llama.cpp模型已就绪现在可以调用了。5. 两种调用方式Web聊天 Python代码任选其一你已经拥有了一个本地大模型服务。接下来选一种你喜欢的方式和它对话。5.1 方式一Web聊天最直观小白首选在 WebUI 页面点击顶部导航栏的Chat。在左上角下拉框选择刚启动的模型qwen2-chat-q4_k_m在输入框输入“你好你是谁”点击发送或按 CtrlEnter几秒后右侧就会显示 Qwen2 的回复例如“我是通义千问Qwen2由通义实验室研发的超大规模语言模型……”你刚刚完成了本地部署 → 模型加载 → 实时对话。全程无需联网调用第三方API数据100%留在你自己的设备上。5.2 方式二Python代码调用为后续开发铺路新建一个test_chat.py文件写入以下代码完全可运行已适配 v1.17.1from xinference.client import Client # 连接到本地服务 client Client(http://127.0.0.1:9997) # 获取模型列表验证连接 models client.list_models() print(已加载模型, list(models.keys())) # 获取 chat 模型实例 model_uid list(models.keys())[0] # 取第一个模型 chat_model client.get_model(model_uid) # 发送消息模仿 WebUI 的 chat 接口 response chat_model.chat( messages[{role: user, content: 用一句话介绍你自己}], generate_config{max_tokens: 128} ) print(模型回复, response[choices][0][message][content])保存后在终端运行python test_chat.py你会看到控制台打印出模型的自我介绍。这就是未来你集成到自己项目中的调用方式。关键点Client(http://127.0.0.1:9997)是核心所有 Xinference 服务都通过这个地址通信chat_model.chat(...)接口与 OpenAI 完全兼容意味着你现有的 LangChain、LlamaIndex 代码几乎不用改就能跑。6. 常见问题速查遇到报错别慌这里都有解安装过程可能遇到的小波折我们都为你预判并准备好了解法。6.1 报错OSError: CUDA error: no kernel image is available for execution on the device原因CUDA 版本与显卡驱动不匹配常见于 RTX 4090/4080 用户。解决降级安装llama-cpp-python的 CUDA 12 版本pip uninstall llama-cpp-python -y pip install llama-cpp-python --no-deps --force-reinstall --upgrade --index-url https://jllllll.github.io/llama-cpp-python-cu1216.2 WebUI 打不开显示空白页或 404原因前端资源未正确构建v1.17.1 极少数情况下发生。解决强制重建前端xinference start --host 127.0.0.1 --port 9997 --ui --rebuild-ui6.3 启动时报错ImportError: cannot import name xxx from pydantic原因pydantic 版本冲突Xinference 依赖 v2.x但系统有 v1.x。解决统一升级pip install pydantic2.0 --force-reinstall6.4 模型下载卡在 99%或提示HTTP Error 403原因Hugging Face 访问受限国内网络常见。解决设置代理如果你有或改用镜像源推荐# 临时设置当前终端有效 export HF_ENDPOINThttps://hf-mirror.com # 然后重新 launch 模型 xinference launch --model-name qwen2 --size 0.5B --quantization q4_k_m所有问题都源于环境差异而非 Xinference 本身。只要按本教程路径走99% 的用户都能一次成功。7. 下一步从“能跑”到“好用”的三个建议你现在已掌握 Xinference 的核心能力。接下来让体验更进一步7.1 换个更大更强的模型5分钟搞定回到 WebUI →Models → Launch Model这次选Model Name:qwen2Model Size:7BQuantization:q5_k_mGPU Devices:0如有GPU或留空CPU点击 Launch等待 5–10 分钟7B 模型约 2.1GB完成后在 Chat 页面切换模型即可。你会发现回答更严谨、逻辑更清晰、支持更长上下文。7.2 把服务变成开机自启一劳永逸创建一个start_xinference.shLinux/macOS或start_xinference.batWindows内容为# Linux/macOS nohup xinference start --host 0.0.0.0 --port 9997 --ui --log-level warning /tmp/xinference.log 21 :: Windows start /min cmd /c xinference start --host 0.0.0.0 --port 9997 --ui --log-level warning把它加入开机启动项从此每次开机Xinference 就在后台静静待命。7.3 用 OpenAI 兼容 API 接入现有工具你不需要改一行代码就能让 Xinference 替代 OpenAI在 LangChain 中把openai_api_base设为http://127.0.0.1:9997/v1在 Dify 中添加「自定义模型」Base URL 填http://127.0.0.1:9997/v1Model Name 填qwen2-chat-q4_k_m在 VS Code 的 Continue 插件里选择「Custom Endpoint」填入相同地址所有工具瞬间获得本地大模型能力。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询