2026/4/6 4:07:36
网站建设
项目流程
棋类游戏网站开发,wordpress 大前端主题,成都搜索优化排名公司,网站开发项目经理职责最近在本地部署LLaMA-Factory时#xff0c;踩了一连串环境配置的坑——从GitHub克隆失败、CUDA不可用到虚拟环境依赖缺失#xff0c;最终成功启动WebUI。这篇文章就把完整的排错过程和解决方案整理出来#xff0c;希望能帮到遇到类似问题的同学。
一、问题背景#xff1a;…最近在本地部署LLaMA-Factory时踩了一连串环境配置的坑——从GitHub克隆失败、CUDA不可用到虚拟环境依赖缺失最终成功启动WebUI。这篇文章就把完整的排错过程和解决方案整理出来希望能帮到遇到类似问题的同学。一、问题背景本地部署LLaMA-Factory的核心诉求目标是在Windows 10环境下基于Anaconda创建虚拟环境部署LLaMA-Factory并启动WebUI利用本地NVIDIA MX230显卡2GB显存实现GPU加速。但从克隆仓库开始就遇到了一系列报错主要涉及三类问题仓库克隆失败GitHub连接重置、Gitee 403权限拒绝PyTorch CUDA支持缺失报“Torch not compiled with CUDA enabled”虚拟环境依赖缺失直接运行WebUI报“ModuleNotFoundError: No module named torch”。二、核心报错解析与分步解决方案坑1仓库克隆失败——网络限制与镜像选择报错现象从GitHub克隆时提示连接重置从某Gitee镜像克隆时提示403权限拒绝(base) PS E:\pc-project git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git Cloning into LLaMA-Factory... fatal: unable to access https://github.com/hiyouga/LLaMA-Factory.git/: Recv failure: Connection was reset (base) PS E:\pc-project git clone https://gitee.com/qzl9999/LLaMA-Factory.git Cloning into LLaMA-Factory... remote: [session-6b44feb3] Access denied fatal: unable to access https://gitee.com/qzl9999/LLaMA-Factory.git/: The requested URL returned error: 403原因分析GitHub克隆失败是国内网络访问限制导致Gitee 403是因为选择的镜像仓库权限设置问题非公开可克隆。解决方案优先选择GitHub国内镜像站配合Git网络配置优化备选方案使用官方维护的Gitee镜像# 1. 配置Git超时与网络参数避免连接超时 git config --global http.lowSpeedLimit 0 git config --global http.lowSpeedTime 999999 git config --global http.timeout 300 # 2. 使用GitHub镜像站克隆推荐 git clone --depth 1 https://github.91chi.fun/https://github.com/hiyouga/LLaMA-Factory.git # 3. 备选使用Gitee官方维护镜像 rm -rf LLaMA-Factory # 删除之前失败的文件夹 git clone https://gitee.com/mirrors_LLaMA-Factory/LLaMA-Factory.git如果Git命令仍失败可直接手动下载源码压缩包访问https://github.com/hiyouga/LLaMA-Factory/archive/refs/heads/main.zip解压后重命名为“LLaMA-Factory”即可。坑2CUDA不可用——PyTorch版本错配报错现象进入Python交互环境调用torch.cuda相关函数时报错 import torch torch.cuda.current_device() Traceback (most recent call last): File stdin, line 1, in module File ...\torch\cuda\__init__.py, line 403, in _lazy_init raise AssertionError(Torch not compiled with CUDA enabled) AssertionError: Torch not compiled with CUDA enabled查看PyTorch编译配置发现USE_CUDA0纯CPU版本PyTorch编译配置 PyTorch built with: ... - Build settings: ... USE_CUDA0, ...原因分析默认安装的是纯CPU版本的PyTorch而本地有NVIDIA MX230显卡支持CUDA 12.5需要安装带CUDA支持的PyTorch版本。解决方案步骤1先确认本地显卡与CUDA支持情况# 在PowerShell中执行查看显卡信息 nvidia-smi输出显示显卡为NVIDIA GeForce MX230驱动版本556.12支持CUDA 12.5确认硬件支持GPU加速。步骤2卸载纯CPU版本PyTorch安装适配CUDA 12.5的版本# 1. 激活llama_factory虚拟环境 conda activate llama_factory # 2. 卸载CPU版PyTorch pip uninstall torch -y pip cache purge # 清理缓存避免安装冲突 # 3. 安装适配CUDA 12.5的PyTorchcu124版本兼容CUDA 12.5 pip install torch2.4.0 torchvision0.19.0 torchaudio2.4.0 --index-url https://download.pytorch.org/whl/cu124步骤3验证CUDA是否可用 import torch print(CUDA是否可用, torch.cuda.is_available()) # 输出True即成功 print(GPU名称, torch.cuda.get_device_name(0)) # 输出NVIDIA GeForce MX230 print(PyTorch版本, torch.__version__) # 输出2.4.0cu124坑3依赖缺失——虚拟环境未激活报错现象直接用base环境的Python运行webui.py提示缺少torch模块(base) PS E:\pc-project\LLaMA-Factory D:/python/miniconda3/python.exe e:/pc-project/LLaMA-Factory/src/webui.py Traceback (most recent call last): File e:\pc-project\LLaMA-Factory\src\webui.py, line 7, in module from llamafactory.extras.misc import fix_proxy, is_env_enabled File e:\pc-project\LLaMA-Factory\src\llamafactory\extras\misc.py, line 23, in module import torch ModuleNotFoundError: No module named torch原因分析Anaconda的base环境与llama_factory虚拟环境相互隔离torch等依赖只安装在llama_factory环境中base环境中没有这些依赖导致报错。解决方案核心是“先激活虚拟环境再运行脚本”提供两种可行方式方式1激活环境后运行推荐# 1. 激活llama_factory虚拟环境 conda activate llama_factory # 2. 切换到LLaMA-Factory根目录 cd E:\pc-project\LLaMA-Factory # 3. 运行webui.py适配2GB显存添加优化参数 python src/webui.py --device cuda:0 --load_in_4bit --use_gradient_checkpointing方式2直接调用虚拟环境的Python无需手动激活# 直接指定llama_factory环境的Python路径 D:/python/miniconda3/envs/llama_factory/python.exe e:/pc-project/LLaMA-Factory/src/webui.py --device cuda:0 --load_in_4bit --use_gradient_checkpointing参数说明--device cuda:0指定使用第0号GPU本地MX230--load_in_4bit4比特量化加载模型大幅降低显存占用--use_gradient_checkpointing梯度检查点进一步节省显存。坑4WebUI启动无响应——低显存适配问题现象执行启动命令后终端无响应或长时间无输出。原因分析MX230显卡仅2GB显存默认启动方式显存占用过高导致静默崩溃或首次启动需加载依赖过程较慢。解决方案添加日志输出参数查看进度同时进一步优化显存占用python src/webui.py --device cuda:0 --load_in_4bit --use_gradient_checkpointing --offload_folder ./offload --verbose参数说明--offload_folder ./offload将部分模型数据卸载到硬盘牺牲少量速度换显存--verbose打印启动日志清晰看到加载进度如“Loading tokenizer...”“Initializing model...”。启动成功后终端会显示访问地址如http://127.0.0.1:7860打开浏览器即可进入WebUI。三、避坑总结与关键提醒环境隔离是核心Anaconda虚拟环境必须激活后使用所有依赖安装和脚本运行都要在目标环境中进行避免混用base环境CUDA版本要匹配安装PyTorch前先通过nvidia-smi确认显卡支持的CUDA版本选择兼容的PyTorch-CUDA版本如CUDA 12.5适配cu124版本低显存显卡需优化2GB显存仅能运行小模型如LLaMA-3-8B 4bit、Qwen-1.8B必须添加--load_in_4bit等量化参数否则会显存不足日志是排错关键遇到无响应或报错时添加--verbose参数查看详细日志快速定位问题所在。四、最终成功启动流程一键复制# 1. 激活虚拟环境 conda activate llama_factory # 2. 切换到项目根目录 cd E:\pc-project\LLaMA-Factory # 3. 优化参数启动WebUI python src/webui.py --device cuda:0 --load_in_4bit --use_gradient_checkpointing --offload_folder ./offload --verbose按照以上步骤就能顺利解决LLaMA-Factory部署过程中的克隆、CUDA适配、依赖缺失等问题成功启动WebUI。如果遇到其他报错建议优先查看终端日志重点关注“网络连接”“显存占用”“依赖版本”这三个核心点大部分问题都能迎刃而解。