官渡网站设计制作wordpress 用户 新增
2026/5/21 5:08:04 网站建设 项目流程
官渡网站设计制作,wordpress 用户 新增,wordpress 新手教程,做网站刷东西代码#xff1a;https://gitee.com/holyshare/model_fune_tuning 当时因为是创业项目空气小猪#xff08;AI英语#xff09;的发布周#xff0c;我在到处当客服#xff0c;线上一堆BUG#xff0c;程序员也不想搭理我#xff0c;所以整体写得没那么细#xff0c;学员是懂…代码https://gitee.com/holyshare/model_fune_tuning当时因为是创业项目空气小猪AI英语的发布周我在到处当客服线上一堆BUG程序员也不想搭理我所以整体写得没那么细学员是懂了一些又没全懂于是今天补充一篇简单的。首先依旧必须重复昨天的问题当前模型如此强大的情况下提示词可以完成很多工作所以为什么还要微调WHY 微调当前AI应用开发有个实际的情况很多微调能做的事情完全可以用提示词搞定于是这也很容易让我们产生一个幻觉提示词和微调是一样的他们都影响了模型的输出预测非要说哪里不一样可能微调的特化能力强一些吧。但其实两者的本质有很大的区别提示词属于“引导”而微调是“改造”其中所谓泛化能力强弱的关键在于提示词属于输入级别的控制而微调是参数级别的迁移会直接影响模型的“脑回路”最直接的影响是对某些任务变敏感了。比如以下几个场景都可以直接使用提示词又总是会在一些情况下需要用到微调简单意图识别任务把一句管理口语判为以下 5 个意图之一 A 目标不清 B 忙闲不均 C 管理者精力不足 D 员工精力不足 E 沟通迟滞这个场景用提示词轻松搞定用户A组加班到半夜B组一堆人闲着刷手机 输出{label:B} 用户产品目标周周变大家都不知道先做哪个 输出{label:A}在这种主流的表述中提示词准确率非常高绝对的95%但在遭遇以下场景时可能会打折扣。一、表述变异过大。当出现大量方言、口语化表达、行业黑话甚至错别字时就有点麻烦了比如俺们组肝到秃头隔壁组摸鱼划水那还加锤子班二、多重转折。如果一个句式表达了多重意图模型也可能出错比如虽然不像以前那么忙了但是目标天天变更累了。三、边界模糊。还是上述的问题虽然不是多重转折了但同时表达多个特征并且没有倾向性就像捣蛋一样这种不同模型的答案会不一样这会直接影响稳定性比如老板口径每天变 vs 岗位职责说不清。如果是发现产品在这块不稳定提示词怎么都调不好那么就需要微调出场了{text: 俺们组肝到秃头隔壁组摸鱼划水, label: B} {text: 虽然不像以前那么忙了但是目标天天变更累了, label: A} {text: 老板和大伙儿都蔫儿了干啥都提不起劲, label: C} // 融合了C和D需根据定义明确标注槽位抽取/关键词提取这个是大模型过程中常见的任务一般用于判断一句话中是否出现或否定了多个特定概念。用户不是大家偷懒更像任务拆分有问题 输出{present:[], negated:[管理者长期疲惫影响节奏]} 用户A线忙疯了B线一堆人闲着 输出{present:[部分人很忙、部分人很闲], negated:[]}当对任务对判断的准确率要求极高且提示词在复杂否定句上错误频发时便需要微调登场了{ text: 我觉得不是员工精力不足而是管理者不会分配任务, output: { present: [], negated: [管理者精力不足] } }其实上述场景因为是管理场景还算简单的因为模型本身对这些问题多少有些熟悉但如果这里的特定概念是公司的黑话的话那么复杂度就提升了是一点都不能依赖模型能力这里做法只有两点要么提示词每次带上说明要么真的只能微调了。微调是笨办法从上述案例也可以看出来微调其实也是很笨的办法比如当遇到含糊不清/标签定义重叠/用户说法自相矛盾的场景他也无力…而且这是个前期ROI很低的事一定是要面对海量的需求才用微调比如在万级以上的处理时1%的错误就是100个客户被错误分类那么这个时候就值得做也不好在提示词里面手动搞案例了。另外我实际在槽位抽取这里会用到微调的原因也不是什么准不准的问题完全就是因为我想要更快的响应并且就是用小模型微调所以他根本不存在让大模型记住这些黑话的场景当前来说依旧是提示词更好用。所以我们这里就来说说这个复杂、独特或模糊的分类任务也就是常说的意图识别和槽位抽取关键词提取。意图识别在进行槽位抽取关键词提取一块的内容前我们特别聊一下意图识别能不能用小模型替换的问题就我个人的实践来说答案是悲观的。如果是简单场景的AI问答比如常见的知识库完全可以启用微调小模型但如果是复杂场景比如医疗AI中的慢病管理系统、复杂的客服系统这种东西小模型是吃不消的。原因是这些场景里面其实对语义理解要求挺高的因为他其实需要从10多轮聊天中判断自己接下来该干什么我举个例子系统一共有ABCDE五个意图并且用户可能随便切换而且从A切到B后聊几句他又想切回A并且这是非常正常的操作。比如用户线抱怨了下产品马上就问有没有什么优惠条件接着就去询问新产品这都是有可能的又比如说慢病管理体系患者先是寻求诊断中途突然问医保信息完了又要问某个药品的信息最后又回归问诊流程这种行为正常医生可能马上就一巴掌呼过去了但AI场景下是一定会发生并且是正常逻辑。只不过这不再是简单的单句分类而是需要模型具备对话状态追踪的能力。它必须理解整个对话的上下文脉络并据此决定当前的正确行动。综上AI多轮问答类项目还是建议使用大模型不建议做微调或者小模型做初筛置信度低的时候再启用大模型这是可以的…最后回归微调大主题我们来说下关键词抽取。概念抽取/多标签分类关键词提取是非常经典并且当前还真的有需要的微调场景需要将多变、模糊、非结构化的用户口语输入准确无误地映射到固定、明确、结构化的专业术语体系输出上这正命中微调的核心任务教会模型一套新的、特定的语言或分类体系。首先要明白提示词在这个场景下其实是有点麻烦的原因很简单少量样本学习 (Few-shot)搞不定确实太多了比如提示词中当然可以将**“刻骨铭心的头疼”、“脑壳痛”、“脑袋嗡嗡的”都全部映射到头痛**这个标签。但除了头痛还有胸痛、屁股痛、耳朵痛呢当前医学上记录到的症状数量非常庞大按常用本体约在1–3万级若扩展到“临床发现”层级含症状/体征等则达十万量级。如果这十万量级每个再扩展个10个口语马上就百万级别了所以这种东西是没办法放到提示词的。这样说起来比较虚还是来一个实际案例员工调查在之前我做管理咨询的时候会有一个行为叫员工调查他是一种定期、简短的员工反馈机制旨在持续跟踪员工的满意度。这类调查经常包含开放式问答员工可以填写自由文本表达意见和建议。然而大量非结构化的文本反馈给分析带来巨大挑战不同员工可能用多种措辞讨论相似主题导致难以直接量化和比较。为了解决这个问题当时是做了一个关键词归一化的任务通过构建AI模型将员工的自由文本评论归类到预先定义的一组标准化关键词主题类别上这也是典型的小模型微调场景了。关键词归一化关键词归一化这个是各种AI项目非常典型的任务这个场景是指将不同员工在反馈中使用的各种表述映射到统一的主题关键词上比如不同员工可能用“薪水低”、“工资不满意”、“待遇需要提高”等不同说法来表达关于薪酬福利的诉求通过关键词归一化这些不同措辞都归入统一的“薪酬与福利”类别下方便统计和比较。类似的“领导沟通不足”和“经理不听取意见”可以归为“管理沟通”类别。这种归一化的结果是可以极大的简化我某部分提示词的设计。数据治理归一化的前提是有关键词并且整个系统只有一套关键词。以当时一次实际收集情况来说8000条员工评论每条评论平均长度约为20~50个字涵盖了从工作环境、薪资福利到职业发展、管理沟通等各方面内容。接下来就是微调前期的数据处理工作流一、数据清洗主要工作很简单首先是脱敏、其次是一些错别字、格式上的优化这种完全是体力活。二、重要归并术语表这个是最重要的一步这个术语表后续会形成结构化的知识库甚至会全系统使用绝对要保证其对一份实际工作就是将穷举后的评语进行分类比如加班”与“加点”、“工作与生活平衡”与“劳逸结合”、“领导”与“老板”等。而后就是各种数据标注开始了例如要求标注者看到“工资”“薪水”“收入”都统一标记为“薪酬与福利”类。三、数据集划分完成清洗和预处理后我们要对数据进行了数据集划分用于模型训练和评估比如80%作为训练集10%验证集10%测试集。具体分层抽样时要确保各主要类别在三份数据集中大致按相同比例出现以避免某些类别只出现在训练集而未在验证/测试集充分覆盖。四、数据增强在基本数据集准备好后就可以用AI**“耍点手段”了要扩大样本量例如为每条训练样本生成带同义词替换的额外句子从而扩大训练数据量并改善模型对不同表述的泛化能力**。数据增强具体方法包括基于同义词词典随机替换部分词语、轻微改变句式如把陈述句改为“我觉得…”引导的形式等。这些方法均在不改变原始语义的前提下增加了数据多样性提高模型鲁棒性。无论是微调还是RAG数据工程一直是AI项目中最为重要的部分涉及最终成败不可不慎。如果是大型AI项目做数据工程会有严格的质检流程通常是需要一个后台系统、或者标注工具的我们这里是简单场景直接上AI表格就好最终会形成一个清单术语清单类别名称定义说明 (归一化关键词涵盖的主题)示例关键词/短语薪酬与福利有关工资水平、奖金、福利待遇、公平性的反馈。薪资、工资、奖金、补贴、福利、加薪职业发展有关培训学习机会、晋升通道、职业成长的反馈。培训、晋升、职业路径、学习机会工作与生活平衡有关加班、假期、弹性工作制、工作强度与个人生活平衡的反馈。加班、休假、996、工作强度管理支持有关直属上级和高层管理的领导力、沟通、决策支持的反馈。领导、主管、经理、管理层、沟通团队协作有关同事之间合作、团队氛围、人际关系的反馈。同事、团队合作、氛围、帮忙公司愿景与文化有关公司文化、使命愿景、价值观以及员工认同感的反馈。企业文化、愿景、价值观、认同沟通透明度有关公司内部信息沟通、决策透明度、反馈渠道的反馈。信息透明、沟通、反馈机制工作环境有关办公环境、设备设施、后勤支持如食堂、班车的反馈。办公室环境、设备、网络、食堂制度与流程有关公司规章制度、流程规范、审批效率的反馈。流程繁琐、制度、审批、规则认可与激励有关员工认可、表彰、激励机制如绩效奖励、晋升机会的反馈。表彰、激励、绩效奖金、晋升机会客户导向有关为客户服务、用户反馈、产品质量等影响员工工作的反馈。客户反馈、产品质量、用户抱怨其他无法归入上述明确类别的其他问题反馈。例如涉及个人特殊情况的建议上述每个类别都有明确的边界和涵盖范围说明以指导标注和模型学习。需要注意有些类别之间可能存在关联如“管理支持”与“沟通透明度”常有关联管理不支持往往体现为沟通不畅。但在标注时我们要求就事论事按照反馈内容直接提及的主题分类避免因类别关联而过度延展。例如“领导没有及时分享公司战略”主要标记为“沟通透明度”不标记“管理支持”尽管这是管理行为的一部分以保持标签独立性。这种约定在标签定义阶段已就要明确。并且真实场景会有非常复杂的层级关系我们这里只是做案例说明便不延展了…任务定义数据准备好了就要进入微调任务设定这里事实上是一个多标签文本分类任务输入为一段员工的开放式反馈文本输出为该文本所属的一个或多个预定义类别关键词。与一般的单标签分类不同多标签意味着每条反馈可能对应多个主题关键词。例如一条反馈“薪资不高加班又多希望领导合理安排工作”同时涉及“薪酬与福利”、“工作与生活平衡”、“管理支持”三个主题。经过上述的处理基本需求和数据也就七七八八了接下来我们就要进行微调环节了只不过在此之前我们要思考下到底选什么模型微调模型选择如果无脑选择的话直接上Qwen32B就好只不过当前场景其实仔细思考可能他并不是最优解。近两年基座模型发展迅速大家听得较多的都是GPT、Claude、DeepSeek、Qwen、智谱等偏文字推理型模型事实上在关键词提取这种任务上他们可能赶不上BERT。关于这个小领域的讨论有很多我印象比较深刻的是**《Are We Really Making Much Progress in Text Classification? A Comparative Review》**这是一篇批判性研究报告他的核心观点是在文本分类领域许多新提出的、复杂的深度学习模型所声称的“巨大进步”可能被严重高估了。论文通过大规模、系统的对比实验证明一些简单、经典的基线模型如线性模型的性能被长期低估它们往往能与甚至超越许多新提出的复杂模型尤其是在标准基准数据集上。我们这的任务是多标签分类即一段文本可能同时属于多个类别如“薪酬”和“加班”。这需要模型为每个类别输出一个独立的概率。从模型架构上看编码器模型如BERT是为分类任务而生的而生成式LLM是在“模拟”分类任务存在先天架构劣势。并且论文数据和实践表明BERT类模型在分类任务上性能顶尖且训练和推理效率远超LLM部署成本低数个量级。最终我们选择用 RoBERTa-wwm-ext工大发布的基于BERT的中文模型其参数量约1.1亿我们做demo选得小实际可以选性能好点的。具体微调具体到微调过程中会出现很多专有名词比如全参数微调Full Fine-tuning部分参数微调Partial Fine-tuning参数高效微调PEFT, Parameter-Efficient Fine-Tuning学习率。控制参数更新的步长batch size。每次迭代训练时输入的样本数量训练轮数。完整遍历数据集的次数最大序列长度。输入文本截断或填充到的最大 token 数学习率调度器…这些专业名词在各位具体训练时候自然会慢慢理解我们这里不做介绍但有个词一定要理解“拟合拟合是训练过程中非常核心的概念尤其是微调本质是去做具体任务他很类似我们的学生考试欠拟合学生根本没好好复习只看了几眼目录考试时题目训练数据和没见过的题测试数据他都做不好他没学会知识本身。欠拟合的原因往往是模型太蠢或者训练数据集特征太少无法有效表征数据不然就是训练有问题。过拟合学生没有理解知识而是死记硬背下了所有习题和答案考试时如果出现原题他能得满分但只要题目稍微一变测试数据他就完全不会做了他只记住了题目没学会解题方法。过拟合的原因往往是训练数据量不足模型没学到规律或者训练数据集里面噪音过多最终体现出来就是没得泛化能力。总而言之效果不行就搞数据。随后便可以进入训练环节。实际训练微调模型的关键在于数据而如何获取高质量的数据始终是一个难题当前具体方法无非三种人工标注虽然准确性较高但成本昂贵、效率低下大模型生成能够快速产出大规模数据但质量参差不齐大模型生成 人工审核与标注在效率和质量之间找到平衡是当前较为常见的方案我这里没办法把实际用的数据集拿出来所以就用AI生成一些大家感受下过程即可。然后 ConardLi 这个开源项目 可以帮助我们快速从文本、PDF等文件中自动生成问题、答案最后是一些训练数据样例{text: 系统经常卡死沟通效率低, labels: [TOOLING_ISSUE, COMMUNICATION]} {text: 网络不稳定压力很大, labels: [TOOLING_ISSUE, WORKLOAD]} {text: 发展渠道不开放补贴取消了, labels: [CAREER_GROWTH, COMPENSATION]} {text: 系统经常卡死, labels: [TOOLING_ISSUE]} {text: 决策不清楚, labels: [COMMUNICATION]} {text: 任务排得太满, labels: [WORKLOAD]}然后是训练样本集数据集样本数训练集1008验证集100测试集100合计1208训练参数参数值训练轮数2学习率1e-5批次大小8权重衰减0.05这里代码数据量过大我就不上传了后面放git上大家自己去看吧训练结果输入加班太多了 输出COMPENSATION: 0.532; CAREER_GROWTH: 0.407; WORKLOAD: 0.392; TOOLING_ISSUE: 0.306; COMMUNICATION: 0.216; MANAGER_SUPPORT: 0.196 输入加班 输出COMPENSATION: 0.502; WORKLOAD: 0.447; CAREER_GROWTH: 0.366; TOOLING_ISSUE: 0.331; COMMUNICATION: 0.211; MANAGER_SUPPORT: 0.196 输入加班像常态 输出COMPENSATION: 0.461; WORKLOAD: 0.362; CAREER_GROWTH: 0.360; TOOLING_ISSUE: 0.291; COMMUNICATION: 0.221; MANAGER_SUPPORT: 0.190从上面的数据来看模型已经学到了一些东西但是效果很差主要两点类别边界模糊样本量不足或类别不平衡标签分布偏差“加班” 可能被标注到不同的标签模型学歪了所以我们增加数据集调高学习率和训练轮次增加训练数据数据集样本数训练集5317验证集661测试集672合计6650训练参数参数数值训练轮数3学习率2e-5批次大小16权重衰减0.01训练结果如下但是从结果来看泛化能力不足过拟合了事实上这里很多原因就是训练数据集质量差所致再次训练为提高泛化能力换了个模型整理数据放到一起再次增加数据量训练集8539 条验证集1176 条测试集1199 条为减少过拟合并提升训练稳定性对训练参数进行了调整训练轮数从 3 轮减少到 2 轮学习率 从 2e-5 降低到 1e-5批次大小从 16 减少到 8权重衰减从 0.01 增加到 0.05还在这个基础上做了正则化增强与早停机制再次训练其结果为这个就是全参微调我们再简单测试下LORA微调LORA微调训练参数训练数据集8539条验证数据集1176条测试数据集1199条训练轮数2轮学习率5e-4批次大小32权重衰减0.01小结主要的实验数据汇总我们测试一下几个问题加班太多了、加班、加班是常态、经常加班、加班压力大、天天加班。几个模型输出workload标签的概率从前面几个问题的结果来看LoRA 微调的效果相对最佳不过当前的简单测试只能反映模型表现的一部分特别是这里的数据质量真的很差…模型评测最后简单说下模型评测上述的评测方式显然不行业内现在已经有较成熟的方法做模型全面的评估只不过这些效果好不好又得另说了原因很简单搞数据很烦高高质量数据特别烦比如要做模型评测要回答几个核心问题评测集怎么来人工打标签或者用现成的公开数据集比如MMLU、CMMLU这些通用知识库C-Eval中文测评集GSM8K数学题集确实可以提供但一到具体场景全傻眼想要评估什么能力就准备对应的数据集那么就要深入相关行业。如何量化模型能力这里有些通用的方法分类任务看正确率和误判容忍度文本生成类用BLEU像拼图相似度、ROUGE重叠率、ChrF字符级相似这些指标问答场景追求一字不差Exact Match或者关键信息匹配Token-level Match语言模型用困惑度Perplexity衡量预测能力数值越低模型越聪明测评要涵盖哪些维度基础知识储备通用知识特定任务表现任务能力抗干扰能力鲁棒性处理速度与资源消耗效率评估方式有哪些**自动化评测**适合快速大规模测试比如跑完1万道题只需要几分钟**人工评估**虽然费时费力但能发现模型是否真的懂了比如判断生成的诗歌是否押韵自然**常见组合**先用自动评测筛出候选再抽样人工复核常用工具OpenCompass清华HELM斯坦福LM Evaluation HarnessEleutherAI…具体这块因为不是今天的重点就不展开了这里特别推荐OpenCompass就是。结语–回到最初的问题模型已很强为什么还要微调因为真实业务要的不是更花哨的回答而是把模糊口语变成稳定、低延迟、可治理的结构化输出。在影响模型输出的几个常见名词中RAG、微调与并不是对立面而是不同的工具能用提示词别上微调需要最新事实用RAG当词表固定、口语丰富、准确率与成本双高要求时再考虑微调。并且无论是RAG还是微调他们都不是银弹因为过拟合、数据泄漏、标签边界模糊等想要解决都不是“招式”上能搞定的而是要修数据与治理的内功。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询