2026/5/21 17:11:47
网站建设
项目流程
辽宁模板网站建设公司,北京网站代理备案,wordpress子网页,wordpress 文章类型模板目录 第14章 点击率预测模型
14.1 点击率预测
14.1.1 点击率基本模型
14.1.2 LR模型优化算法
14.1.3 点击率模型的校正
14.1.4 点击率模型的特征
14.1.5 点击率模型评测
14.1.6 智能频次控制
14.2 其他点击率模型
14.2.1 因子分解机
14.2.2 GBDT
14.2.3 深度学习点击…目录第14章 点击率预测模型14.1 点击率预测14.1.1 点击率基本模型14.1.2 LR模型优化算法14.1.3 点击率模型的校正14.1.4 点击率模型的特征14.1.5 点击率模型评测14.1.6 智能频次控制14.2 其他点击率模型14.2.1 因子分解机14.2.2 GBDT14.2.3 深度学习点击率模型14.3 探索与利用14.3.1 强化学习与EE14.3.2 UCB方法14.3.3 考虑上下文的 bandit14.3.4 汤普森采样第14章 点击率预测模型点击率Click-Through Rate CTR预估是计算广告乃至整个推荐系统的灵魂。它的使命是回答一个核心问题在特定的场景下将特定的广告展示给特定的用户其被点击的概率是多少这个看似简单的概率预测构成了广告竞价排序、流量分配、智能出价等几乎所有关键决策的基石。CTR预估的准确性每提升千分之一都可能意味着一个大型平台每日数百万美元的额外收入。本章将系统阐述CTR预估的完整技术体系从基础模型到前沿方法从理论原理到工程实战。14.1 点击率预测14.1.1 点击率基本模型点击率预测本质上是一个二分类概率预估问题。给定一次广告展示的上下文其特征向量记为 xx我们期望模型输出用户会点击该广告的概率其中 y1y1 表示点击y0y0 表示未点击。1. 逻辑回归经久不衰的基石逻辑回归因其形式简单、可解释性强、易于分布式训练和在线学习成为CTR预估最经典和广泛使用的模型。模型形式其中σ(⋅)σ(⋅) 是sigmoid函数它将线性组合 zwTxbzwTxb 映射到 (0, 1) 区间。ww 是权重向量bb 是偏置项。直观解释LR模型认为对数几率与特征向量 xx 呈线性关系。每个特征 xixi 的权重 wiwi 直接反映了该特征对点击概率的贡献正负和大小。优势可解释性权重向量直观反映了特征重要性。概率校准输出具有严格的概率意义。计算高效模型简单预测和训练速度快。稀疏友好非常适合处理广告场景中海量的稀疏特征。2. 特征工程LR模型效果的生命线由于LR本身是线性模型特征工程的质量直接决定了其性能天花板。广告场景的特征主要分为几类用户特征用户ID、人口属性性别、年龄、长期兴趣标签、实时行为序列等。广告特征广告ID、广告主ID、广告类别、创意类型、文案关键词等。上下文特征时间、地理位置、设备类型、网络环境、当前页面/APP信息等。交叉特征这是提升LR效果的关键。通过将不同域的特征进行笛卡尔积或组合引入非线性。例如“用户性别”与“广告类别”的交叉特征可以捕捉“女性用户对美妆广告偏好更强”这种模式。然而人工构造交叉特征成本高且难以覆盖所有高阶组合。3. 损失函数与优化目标CTR预估通常使用对数损失作为损失函数也称为二元交叉熵损失最小化该损失等价于最大化观测数据的似然函数。为了防止过拟合通常会在损失函数中加入L1或L2正则化项如14.1.2 LR模型优化算法在海量数据和高维稀疏特征的场景下LR模型的训练需要特殊设计的优化算法。批量优化算法如L-BFGS适用于中小规模数据集的全量训练能收敛到高精度解常用于离线模型训练。在线学习算法这是工业界的主流。数据以流式方式到来模型需要持续、快速地更新。随机梯度下降SGD每次用一个或一小批样本更新权重。简单但收敛慢对学习率敏感。自适应学习率算法AdaGrad, FTRL为每个特征维护独立的学习率对于稀疏特征尤其有效。FTRL是Google提出的专门针对稀疏逻辑回归的在线优化算法。它结合了L1正则化的截断特性能产生稀疏模型和自适应学习率在保证精度的同时使模型权重向量 ww 保持高度稀疏大量权重为0极大减少了模型存储和计算开销成为工业界标配。14.1.3 点击率模型的校正实际训练得到的CTR预估值 y^y^ 往往与真实的点击频率存在偏差可能整体偏高或偏低。模型校正的目标是使预估值在任何区间内都与实际后验统计概率一致。为何需要校正样本选择偏差训练样本是经过上一代模型筛选后展示的广告并非随机曝光这会导致模型预估有偏。模型正则化与约束L1/L2正则化会压缩权重可能使预估值偏向先验均值如全局平均CTR。损失函数不对称业务上可能对正负样本赋予不同权重。校准方法Platt Scaling将LR的输出通过一个额外的逻辑回归函数进行变换在验证集上学习参数 a,ba,b。Isotonic Regression一种非参数方法学习一个单调不减的映射函数。更灵活但需要更多数据。基于分桶的后验校正将预估值范围划分为多个桶计算每个桶内预估值的平均值和实际点击率的平均值然后学习一个映射表或分段函数。14.1.4 点击率模型的特征现代CTR模型的特征体系已高度复杂化和自动化。特征类型ID类特征用户ID、广告ID等。通过Embedding层映射为低维稠密向量这是深度学习模型处理稀疏特征的核心。数值特征用户年龄、广告历史CTR等。直接输入或进行分桶。类别特征性别、城市等。进行One-Hot或Embedding。序列特征用户最近点击的广告ID序列。使用RNN、Transformer或池化操作进行聚合。多模态特征广告图片的视觉特征、文案的语义特征。特征交叉的自动化从人工构造转向模型自动学习。因子分解机FM自动学习二阶特征交叉。深度神经网络通过多层非线性变换隐式地学习高阶特征交叉。14.1.5 点击率模型评测CTR模型的评估需从离线和在线两个层面进行。离线评测AUC最核心的指标衡量模型将正样本排序高于负样本的能力。AUC对样本比例不敏感适用于高度不平衡的CTR数据。LogLoss衡量预估概率与真实标签的差异。一个好的模型既要有高AUC排序好也要有低LogLoss概率准。校准指标如校准曲线、Expected Calibration Error (ECE)评估概率预估的准确性。在线A/B测试黄金标准。将新模型与基线模型在真实流量上进行对比观测核心业务指标的变化点击率直接指标。千次展示收入综合了CTR和竞价的影响是平台收入的直接体现。广告主投资回报率对于采用oCPC等模式的广告主其转化成本是否稳定或降低。用户体验指标如广告隐藏率、用户停留时长等。14.1.6 智能频次控制频次控制不仅是合约广告的需求在效果广告中也至关重要。过度展示同一广告会引起用户疲劳导致CTR骤降损害用户体验和广告主效果。传统频次控制在广告投放引擎中设置硬性上限如每个用户每天最多展示3次。智能频次控制将频次控制整合到CTR模型中。方法将“用户今日已看到该广告的次数”作为一个特征加入CTR模型。模型会自动学习到随着曝光次数增加点击概率衰减的曲线。在排序时一个已展示多次的广告其预估CTR会自然降低从而在竞争中排名下降实现软性、自适应的频次控制。这比硬性截断更优因为它考虑了广告本身的吸引力和用户个体的耐受度差异。14.2 其他点击率模型14.2.1 因子分解机因子分解机Factorization Machines FM是CTR预估领域的一个重要里程碑它优雅地解决了LR需要手动构造交叉特征的难题。模型形式在LR线性部分的基础上增加了对所有特征两两交叉的建模关键思想FM为每个特征学习一个隐向量。两个特征的交互强度不再由一个单独的权重 wijwij 表示在数据稀疏下很难有效学习而是通过它们对应隐向量的内积来估计。这借鉴了矩阵分解的思想即使特征 ii 和 jj 在训练数据中从未同时出现只要它们各自的隐向量通过其他交互被学习得很好仍能估计其交叉效应。优势自动学习高阶交叉解决了人工特征工程的瓶颈。处理数据稀疏在特征共现稀疏的情况下仍能有效学习。线性计算复杂度通过数学化简二阶项的计算复杂度可从 O(kn2)O(kn2) 降至 O(kn)O(kn)非常高效。应用FM及其扩展如FFM - Field-aware FM在2016年之前的各类CTR预估竞赛中独占鳌头是深度学习普及前最强大的浅层模型。14.2.2 GBDT梯度提升决策树Gradient Boosting Decision Tree GBDT是另一类强大的非线性模型在CTR预估中常以两种方式使用独立预测模型直接使用GBDT进行CTR预估。GBDT通过组合多个弱决策树能够自动处理各种类型的特征无需归一化并捕捉复杂的非线性关系和特征交叉。但当特征维度极高数百万且非常稀疏时纯GBDT可能效率不高。特征变换器 LRGBDTLR这是Facebook提出的经典架构曾极大地提升了其广告系统的效果。流程先用GBDT模型对原始特征进行训练。将每个样本输入训练好的GBDT每棵树的输出是该样本落入的叶子节点的索引。将所有树的叶子节点索引进行One-Hot编码生成一个高维的稀疏二值向量例如有100棵树每棵树有64个叶子则生成一个6400维的向量。将这个向量作为新的特征输入到LR模型中进行最终CTR预测。思想GBDT负责进行自动的、非线性的特征组合和离散化它将原始特征空间映射到一个新的、由决策路径构成的稀疏特征空间。LR则在这个新空间上进行快速且可解释的线性拟合。优点结合了GBDT强大的特征发现能力和LR的高效稀疏计算优势。14.2.3 深度学习点击率模型深度学习已成为现代CTR预估的绝对主流其核心优势在于能端到端地学习特征的深层表示和复杂的高阶交叉。1. 模型演进脉络基石Embedding MLP将稀疏ID特征通过Embedding层映射为稠密向量与稠密特征拼接后输入多层感知机MLP。MLP通过全连接层和非线性激活函数隐式地学习特征交叉。这是最简单的深度CTR模型。Wide DeepGoogle 2016开创性工作提出了“记忆”与“泛化”并重的思想。Wide部分一个广义线性模型如LR处理手工构造的交叉特征。负责“记忆”即精确匹配历史数据中出现的模式。Deep部分一个EmbeddingMLP网络。负责“泛化”即探索未见过的特征组合发现潜在模式。两部分联合训练最终输出为DeepFM2017对Wide Deep的改进用FM组件替代了Wide部分。优势FM组件可以自动学习所有二阶特征交叉无需人工特征工程且与Deep部分共享Embedding模型更紧凑。xDeepFM2018进一步提出压缩交互网络旨在显式地、向量级地学习有界阶数的特征交叉比隐式学习的MLP和简单的FM更强大。基于用户行为序列的模型DIN深度兴趣网络 Alibaba 2017针对用户历史行为序列引入了注意力机制。不是简单地将所有历史行为Embedding进行平均而是计算历史行为与当前候选广告的相关性权重进行加权求和。这模拟了用户兴趣的多样性以及与当前广告的关联性。DIEN深度兴趣进化网络 Alibaba 2018在DIN的基础上使用两层GRU来建模用户兴趣随时间的演化过程。第一层GRU抽取兴趣序列第二层GRU结合注意力机制模拟与当前广告相关的兴趣进化轨迹。2. 核心组件与技术Embedding层处理亿级稀疏ID通常需要分布式存储和训练。多任务学习一个模型同时预估CTR和CVR转化率、或不同互动类型点击、点赞、转发通过共享底层特征表示提升各任务效果和数据利用效率。代表模型MMoE。采样与负样本优化点击样本极度稀疏通常1%。需要采用负采样、难负样本挖掘等技术。在线服务优化深度模型参数多在线推理耗时。需采用模型蒸馏、量化、高性能算子优化等手段满足毫秒级响应要求。14.3 探索与利用探索与利用Exploration Exploitation EE是CTR预估乃至所有推荐系统面临的根本性困境。系统是应该持续投放已知的高CTR广告利用 Exploitation以获取稳定收益还是应该尝试投放一些新广告或给不常展示的广告一些机会探索 Exploration以收集数据、发现潜在的黑马从而优化长期收益14.3.1 强化学习与EE强化学习Reinforcement Learning RL为EE问题提供了一个自然的数学框架。智能体广告投放系统。环境用户群体和广告市场。状态用户画像、上下文、广告库存状态等。动作选择哪个广告展示。奖励用户点击1未点击0或更精细的转化价值。目标学习一个策略从状态到动作的映射以最大化长期累积奖励。然而将标准的RL如Q-Learning Policy Gradient直接应用于广告系统面临巨大挑战状态和动作空间极其巨大奖励延迟且稀疏线上试错成本高昂。因此工业界更多采用一些轻量级、可解释性强的Bandit算法。14.3.2 UCB方法置信区间上界Upper Confidence Bound UCB算法是解决EE问题的经典方法其思想朴素而有效对每个选项广告的估值不仅要看其当前的平均收益利用还要加上一个反映其估值不确定性的“信心加成”探索。算法流程假设有K个广告。初始化每个广告展示一次记录其点击情况。对于后续每一次决策计算每个广告 ii 的UCB分数其中μ^iμ^i 是广告 ii 历史点击率的均值利用项nini 是其被展示的次数tt 是总展示次数。第二项是探索项展示次数 nini 越少该项越大表示对该广告的点击率越不确定越值得探索。常数 cc 控制探索的强度。选择UCB分数最高的广告进行展示。更新该广告的点击统计和总次数 tt。优点有坚实的理论保证遗憾界实现简单。在广告中的应用冷启动阶段对新上线的广告可以赋予较高的探索权重。在排序阶段融入探索可以在CTR预估值 y^y^ 上加上一个与曝光次数负相关的探索奖励然后重新排序。14.3.3 考虑上下文的 bandit标准的UCB假设广告的点击率是静态的。但实际上点击率高度依赖于上下文用户和场景。上下文Bandit算法Contextual Bandit将上下文信息引入决策过程。LinUCB一个代表性的算法。它假设在给定上下文 xtxt用户特征、广告特征等下广告 aa 的预期收益与其特征呈线性关系算法核心为每个广告 aa 维护一个参数向量 θaθa 及其协方差矩阵。当收到带有上下文 xtxt 的请求时对每个广告 aa计算其预期收益的UCB选择LinUCB值最高的广告展示并观察收益 rtrt。使用新的观测数据 (xta,rt)(xta,rt) 更新广告 aa 的参数 θaθa 和矩阵 AaAa通常使用岭回归。优势结合了上下文信息探索更有针对性效率更高。与深度学习的结合可以将LinUCB中的线性模型替换为深度学习模型如神经网络的输出层形成神经Bandit或深度贝叶斯 Bandit用神经网络强大的特征表示能力来建模复杂的收益函数。14.3.4 汤普森采样汤普森采样是另一种极其优雅且强大的Bandit算法它基于贝叶斯思想。核心为每个广告的点击率维护一个概率分布先验/后验而不是一个点估计。例如用Beta分布 Beta(αβ)Beta(αβ) 来刻画CTR的不确定性其中 αα 代表历史点击次数1ββ 代表历史未点击次数1。决策过程每次决策时从每个广告的后验分布中随机抽取一个样本值即一个可能的CTR值。然后选择抽取到样本值最大的那个广告进行展示。直观理解一个广告如果不确定性高Beta分布较宽它就有更大的概率抽到一个很高的值从而被选中。随着展示次数增加其后验分布变窄集中在均值附近抽样值趋于稳定系统自然从探索转向利用。优点实现简单计算高效。探索自然无需手动设置探索参数如UCB中的c。在许多场景下其经验性能和理论遗憾界都优于或媲美UCB。上下文汤普森采样同样可以结合上下文。例如使用贝叶斯线性回归为线性模型的参数维护一个后验分布每次从参数的后验分布中采样一组参数再用这组参数计算各广告的期望收益并选择最高的。总结探索与利用是贯穿CTR模型生命周期的问题。在模型训练阶段需要探索性的流量来学习新模式在模型服务阶段也需要保留一定的探索性来避免陷入局部最优和应对分布变化。Bandit算法特别是汤普森采样和上下文Bandit提供了一套在实践中被验证有效的、轻量级的解决方案与复杂的深度CTR模型相辅相成共同构建了一个既能把握当下、又能投资未来的智能广告系统。