网站开发者模式成都定制网站建设服
2026/4/5 10:22:28 网站建设 项目流程
网站开发者模式,成都定制网站建设服,家装公司网站开发方案,网页搜索多个关键词接上文#xff1a;【通俗易懂】彻底搞懂 LoRA 矩阵分解#xff1a;从“用户看电影”讲起 结合之前“用户 x 电影 评分”的例子#xff0c;来进一步说明Rank#xff08;秩#xff09;与数值的确定机制。 1. 分解后矩阵的“秩”#xff08;Rank#xff09;怎么确定#…接上文【通俗易懂】彻底搞懂 LoRA 矩阵分解从“用户看电影”讲起结合之前“用户 x 电影 评分”的例子来进一步说明Rank秩与数值的确定机制。1. 分解后矩阵的“秩”Rank怎么确定在之前的电影推荐例子中我们将用户和电影压缩成了2个维度动作分、爱情分。这个“2”在数学上就叫做矩阵的秩Rank通常记为 r。在 LoRA (Low-Rank Adaptation) 中这个r rr是由人你人工设定的超参数。为什么是人工设定的LoRA 的核心思想是大模型参数虽然多但在做特定任务如写诗、改代码时真正起作用的参数变化不需要那么多维度。设定r rr的原则r rr越小如 4, 8参数量越少显存占用越低训练越快。比喻只用“动作”、“爱情” 2 个标签来概括所有电影。虽然粗糙但抓住了主要矛盾。r rr越大如 64, 128拟合能力越强能捕捉更细微的信息。比喻用了“动作”、“爱情”、“悬疑”、“科幻”… 64 个标签来概括电影。描述更精准但计算量变大。在实际 Llama 3 或 Stable Diffusion 的微调中常见的r rr值通常设为8, 16, 32 或 64。2. 矩阵里的“数值”初始值是怎么确定的既然r rr只是个形状大小那矩阵里面具体的数字0.9, 0.1 这种一开始是怎么来的假设我们要把一个d × d d \times dd×d的大权重矩阵分解为B BB(d × r d \times rd×r) 和A AA(r × d r \times dr×d)矩阵 A (降维矩阵)初始策略高斯分布随机初始化Random Gaussian Initialization。里面的数是随机生成的微小值就像刚开始没人知道“战狼”是啥先随机猜它是某个分类。矩阵 B (升维矩阵)初始策略全零初始化Zeros Initialization。这非常关键里面的数全部填0。为什么要这么做还记得公式吗Δ W B × A \Delta W B \times AΔWB×A。如果B BB全是 0那么B × A B \times AB×A的结果也是全 0。这意味着在训练刚开始的第一步LoRA 挂载上去后模型的表现和原始模型Base Model完全一模一样没有任何变化。随着训练开始反向传播梯度会更新A AA和B BB里数值让它们慢慢变成有意义的“动作分”、“爱情分”。3. “评分”是怎么确定的在 LoRA 里对应什么在“用户-电影”例子中相乘的结果是“评分Rating”。在LoRA中两个小矩阵相乘B × A B \times AB×A得到的结果不是“评分”而是原始权重的“增量”Update /Δ W \Delta WΔW。对应关系图解场景矩阵 A矩阵 B相乘结果 (Result)结果的意义电影推荐用户画像 (User)电影属性 (Movie)评分 (Rating)预测用户会不会喜欢这部电影LoRA降维投影 (A)升维投影 (B)权重增量 (Δ W \Delta WΔW)告诉大模型这句话该怎么改着说具体计算过程假设你在微调一个大模型让它学会“说脏话”仅举例输入你输入 “Hello”。原始路径原始大模型权重W WW计算由于没学过脏话想输出 “Hi there”。LoRA 路径输入 “Hello” 通过矩阵 A 变成了低维特征比如捕捉到了“打招呼”这个意图。再通过矩阵 B 变成了高维的修正信号学到的新知识这里应该加个脏词。这个修正信号就是Δ W \Delta WΔW作用的结果。最终融合最终输出 原始输出 LoRA修正O u t p u t W x Δ W x W x B ( A x ) Output Wx \Delta Wx Wx B(Ax)OutputWxΔWxWxB(Ax)结果可能变成了 “Hi there, f***!”。总结Rank (秩)是你拍脑袋定的决定了模型能学多少新花样。数值一开始是0为了不破坏原模型靠由于数据产生的Loss误差倒逼回来修改确定的。评分结果不是打分而是对原模型神经元连接强度的修正值。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询