开发网站公司收入网站规划建设与管理维护教学大纲
2026/4/6 7:57:10 网站建设 项目流程
开发网站公司收入,网站规划建设与管理维护教学大纲,经典网页设计欣赏,万一打仗哪个省最安全在国内#xff0c;懂技术 —— 尤其是 AI 技术的年轻人#xff0c;真的不缺崭露头角的机会。 前段时间#xff0c;2025 年腾讯广告算法大赛结果揭晓#xff0c;前 10 名队伍的全部成员都拿到了腾讯的录用意向书#xff0c;冠军还拿到了 200 万元巨额奖金。 当时#xff…在国内懂技术 —— 尤其是 AI 技术的年轻人真的不缺崭露头角的机会。前段时间2025 年腾讯广告算法大赛结果揭晓前 10 名队伍的全部成员都拿到了腾讯的录用意向书冠军还拿到了 200 万元巨额奖金。当时看完选手们的答辩腾讯公司副总裁蒋杰感慨地说这届年轻人的知识储备令人惊叹他们做出来的东西和工业界的实际工作非常接近没有代差。如果说大赛考的是一个已经被工业界解决的问题选手们查查论文、复现方案拼拼工程把问题解决掉倒也不是什么新鲜事。但看过今年赛题的人都知道这次摆在桌面上的是一个仍在探索中的真实难题没有现成答案也不存在所谓「最优解」。也正因如此比赛真正精彩的部分其实不在排名本身而在于这道题究竟难在哪里工业界已经做了些什么而这些年轻人又给出了哪些实用的解法在这篇文章中我们将结合冠亚军团队的解决方案来详细聊聊这些问题。广告推荐从来不是一件简单的事一提到广告很多人都会下意识皱眉。这种情绪其实很正常没有人喜欢被无关的信息打断。但换个角度看今天我们习以为常的很多内容和服务之所以能够长期、稳定地存在本身就离不开广告的支撑。也正因如此平台真正想做的并不是把更多广告塞给用户而是尽量让广告「少出现一点、对一点」。只有把广告在合适的时间推给真正可能需要的人才能减少无效曝光也减少对其他人的打扰。腾讯广告算法大赛所讨论的正是如何把这件事做得更克制、更聪明。在业界目前主要有两种方法在 PK。一种是已经用了很多年的判别式方法另一种是最近两三年兴起的生成式方法。要理解两种方法的差异我们可以举个例子假设你是一个新来的班主任想要根据小明同学的兴趣给他推荐合适的课外书。在传统的判别式方法里你的任务很明确不是理解小明的成长过程而是判断「这本书适不适合他」。学校会给你一张小明的档案表以及一张馆藏书单。档案表上记录的是一系列已经被「统计好」的特征你需要做的是把这些特征代入模型给每一本书算一个匹配分数然后按分数高低排序。而按照最近兴起的生成式方法学校换了一种要求。不再让你给书打分而是直接把小明过去一整年的借阅「流水账」交给你让你去发现其中的规律并预测接下来最可能发生的那一次借书会是什么样子。后一种方法之所以兴起是因为前一种方法在研究多年之后遇到了很难克服的瓶颈。从例子里可以看出传统判别式方法更像是把小明压缩成一张「人设表」在书和人之间算匹配度然后用一种级联的「漏斗」去筛选。这种方式在早期非常有效但后来随着系统不断加入新的手工特征、更多统计维度、更复杂的级联模型效果提升却越来越有限尤其是在冷启动方面。传统判别式方法的级联架构像漏斗一样对广告层层筛选。原因并不是工程师不努力而是这种范式本身就存在很大的局限包括特征挖掘遇上天花板模型架构无法有效建模世界知识、推理用户意图、吸收多领域多模态用户行为信息级联架构把目标拆碎并带来误差累积等。这就造成一个局面算法工程师已经很难通过简单地增加特征或扩大现有模型规模来获得预期效果。而生成式方法换了一种思路。它不急着给小明下结论而是直接看他一整段时间的借阅记录去理解兴趣是如何变化的并顺着这个过程预测「下一步最可能发生什么」。对应到广告场景里这意味着系统不再只判断「点不点」某个广告而是尝试回答在此时此刻这个人最不反感、也最可能有用的广告会是什么。生成式模型本身的一些特质使得它们擅长回答这类问题包括处理长时间跨度的行为序列的能力可以直接利用大模型中已经学到的世界知识和多模态先验等。腾讯广告算法大赛所关注的正是这一代方法而且考虑到多模态信息在此类场景中的重要性他们把赛题确定为「全模态生成式推荐」。目前业界已经涌现出了一些优秀工作有些成功地将传统级联架构中的某个组件替换为了生成式模型比如 Google TIGER、Meta HSTU还有些探索了端到端的生成式推荐比如快手的 OneRec、腾讯的单模型框架 GPR。值得注意的是HSTU 首次在推荐中观察到了 Scaling Law这说明推荐系统也可以「吃到 scaling 的红利」。传统级联方法、用生成式模型替代部分组件的方法以及端到端生成式方法腾讯 GPR对比图。图源https://arxiv.org/pdf/2511.10138不过这一领域依然存在很多挑战比如工业级动态词表带来的训练 / 推理双重爆炸、毫秒级延迟与巨量算力的矛盾、大尺寸模型性能尚未得到充分验证等。就是在这样的探索阶段选手们拿到了这个赛题。对于没有接触过广告业务的他们来说这个赛题极具挑战性。首先从数据规模来看赛题对应的是超大规模数据场景涉及千万级广告、千万级用户以及同样规模的交互序列但可用于训练的计算资源却是有限的这要求模型在效果与效率之间做出权衡。其次数据本身的结构也非常复杂。选手拿到的是经过脱敏处理的用户全模态历史行为数据包含文本、图像以及用户与广告之间的协同行为信息同时还存在特征缺失、行为序列时间跨度大的问题需要在不完整信息下建模长期与短期行为。在任务层面复赛赛题并非单一目标优化而是同时涉及曝光、点击与转化等多个隐式目标并且存在近半数的冷启动 item这进一步提高了建模难度。接下来我们就看看本届大赛的冠亚军团队是怎么解决这些问题的。冠军 Echoch让推荐系统真正理解用户「此时此刻」想要什么冠军 Echoch 团队由来自华中科技大学、北京大学、中国科学技术大学的同学组成。在答辩中他们从特征工程、模型设计、语义 ID、训推加速四个角度介绍了自己的方案。三级会话体系 周期编码 时间差分桶让模型拥有节奏感同一个行为在不同时间和状态下含义可能完全不一样。比如同样是点一个广告早上看到可能是随便点点晚上可能更容易下单5 分钟前点过一双鞋可能是刚感兴趣3 天前点过的鞋可能已经不喜欢了。所以 Echoch 团队努力去解决的第一个大问题是如何让推荐系统拥有「时间感」和「节奏感」知道用户「此时此刻」处于什么状态。为了解决这个问题他们提出了三种方法从不同角度来描述用户行为的特征分别是三级会话体系、周期编码和时间差分桶。所谓的三级会话体系如下图所示它解决的问题是怎么组织用户的各种行为是刚点开随手划两下还是已经刷了一会儿兴趣在变化还是之前刷过现在又回来刷了。这样的区分有助于系统判断「用户现在想干嘛」从而决定推荐的时机和节奏。而周期编码的作用则是找到时间点的规律让模型感知此刻是用户常刷的高峰期还是偶尔点开的空档从而决定推荐的内容类型。时间差分桶是为了让模型分清「新鲜度」即某个商品是「刚刚感兴趣」还是「早就看过」从而决定历史行为的参考权重。这几个维度的信息叠加在一起可以让推荐系统既贴着用户的作息周期又更好地把握新鲜度和轰炸感在合适的时间推合适的内容。点击和转化一个模型两套策略到了复赛阶段大赛的规则其实发生了一些变化在初赛中选手们只需要预测「点击」行为但到了复赛他们需要同时预测「点击」与「转化」两种行为。这就带来了一个问题两种行为的目标与权重差异巨大但模型只能生成一个统一的用户画像推荐时左右为难。对此Echoch 团队给出的解决方案是让同一个模型能根据「想让用户点击」还是「想让用户购买」自动切换推荐策略而不是一套画像硬撑两个目标。除此之外他们在模型设计层面还发现了一个问题就是用 HSTU 作为基座模型会遇到显存瓶颈和性能瓶颈。经过调查他们发现这个问题的本质是 HSTU 需要靠「外挂补丁」去了解时间和行为信息这样不但显存和计算成本很高效果也开始停滞。于是他们把基座模型换成了 LLM因为 LLM 天生就有一个叫 RoPE 的位置编码机制就像自带了「时间感」这样时间和行为就不再是负担。结果不仅线上得分提升不少显存占用也减少 5G 左右。引入随机性让冷门广告也有曝光机会对于 Echoch 团队来说语义 ID 层面的核心问题在于用传统的聚类方法给广告编号热门广告占据了大部分「好位置」冷门广告被挤到角落几乎没有被推荐的机会。对此他们给出的解法是在编码的最后一层故意引入一些随机性让码表使用更均匀从而让更多广告能被模型真正看到、参与训练。这种方法效果显著长尾物品训练关注度提升了 190 倍码表利用率从 81.2% 提升至 100%Gini 系数衡量曝光分布的不平等程度的指标从 0.53 降至接近于 0。引入 Muon 优化器训练又快又稳定前面提到HSTU 首次证明推荐系统也能吃到 scaling 的红利。但对于选手来说训练更大的模型却没有那么容易因为他们可以调动的计算资源是有限的。模型一大就面临显存不够用、训练不稳定的问题。为了不在模型规模上妥协Echoch 引入了 Muon 优化器。与需要为每个参数额外存储 2 份历史信息的 AdamW 相比Muon 通过 Newton-Schulz 迭代把梯度矩阵变成正交矩阵省掉了记录二阶动量的显存开销显存占用实测锐减 45%收敛速度提升 40%。亚军 leejt大数据大模型scaling is all you need亚军 leejt 团队成员来自中山大学。在答辩中他们从数据处理、模型训练、模型推理与后训练等几个角度介绍了自己的方案。共享词表 哈希编码巧妙处理超大规模数据和 LLM 一样全模态生成式广告推荐的底层逻辑也是 next-token 预测但两者面对的 token 世界规模完全不同。语言模型的词表只有十几万而且是静态的而在广告推荐中如果把每个广告都视作一个 token词表规模会迅速膨胀到千万甚至上亿级。即便在比赛这种受控环境下广告数量也超过了 1800 万。如果为每个广告分配独立的嵌入向量显存很快就会爆掉。因此leejt 团队在数据处理阶段做的第一件事就是压缩词表规模。他们发现接近一半的广告交互频次极低既难以学到稳定表示又大量消耗显存于是将这些低频广告映射到共享词表中同时再通过 ID 哈希把原始广告 ID 压缩成更紧凑的表示。这两步基本解决了模型「训不起来」的问题。此外这里还涉及对多模态特征的取舍与压缩。面对维度极高、噪声较重的多模态向量leejt 并没有选择直接堆进模型而是先用 SVD 做降维去噪再通过 RQ-KMeans 将连续向量离散为语义 IDSID把高维连续空间压缩成可控的离散表示。与此同时对于缺失率高、线下验证效果不佳的模态特征他们选择直接舍弃而不是让模型为低质量信息付出建模成本。session 划分 异构时序图数据脏乱差也不怕除了数据规模真正让团队感到棘手的还有数据本身的复杂性。用户行为序列看似很长但仔细分析会发现很多序列其实是多个 session 拼接而成如果不显式建模 session 边界模型会把跨天、跨兴趣阶段的行为当成连续偏好来学噪声极大此外大量商品是冷启动或低频同时多模态特征维度高、缺失多、噪声重如果直接输入模型只会放大不确定性。leejt 给出的解法是主动补充序列之外的信息结构。一方面他们通过时间特征和 session 划分让模型知道哪些行为是「刚刚发生的」哪些只是历史残留另一方面他们引入了异构时序图把用户、广告以及语义层面的节点连接在一起。当某个用户或广告自身信息不足时模型可以通过与其相邻的用户、相似广告和语义簇来「借信号」用群体行为来弥补个体数据的稀疏。这一步的本质是把原本只能在一条序列上盲猜的问题转化成在一个关系网络中有依据地推断。极致的工程优化把 GPU 利用率拉到 100%和 Echoch 团队一样在有限的算力上训出更大更有效的模型也是 leejt 团队的核心目标。这方面他们确实做得很成功把模型从 4 层 512 维扩展到 8 层 2048 维带来了百分位级别的性能提升。团队的解法是从多个环节挤出效率空间混合精度训练、梯度检查点、torch.compile 图编译以及把所有数据预处理都放进 Dataloader 里让数据加载和模型计算完全并行。这套方法效果显著每步训练时间从 3.5 秒压缩到 0.8 秒GPU 利用率拉满到 100%省下来的时间和空间全部用来把模型做大做深最终验证了团队的核心信念 ——Scaling is all you need。腾讯广告算法大赛让技术理想照进现实的起点从这次比赛来看全模态生成式广告推荐确实不是一个简单的问题。但年轻一代给出了非常有价值的思路。这些方案既有扎实的工程功底也有对问题本质的深刻理解。从业界实践来看从判别式到生成式的演进正在平稳推进。蒋杰提到腾讯内部已经尝试在召回和粗排阶段用生成式模型替代传统的判别式模型并且取得了不错的效果这些收益在财报的营收数据上也有所体现。这说明生成式推荐不只是学术界的热门话题而是真正能落地、能创造商业价值的技术方向。为了适应这种趋势腾讯广告内部也在积极布局。蒋杰提到未来他们的数据将全面多模态化内部广告系统也将全面 Agent 化。同时为了支持整个社区的发展腾讯广告会将本次大赛的数据开源让更多研究者和开发者能够在真实场景的数据上探索和验证自己的想法。而生成式广告推荐的想象空间其实远超这次大赛所考察的范围。比赛关注的还是「从候选池里挑出最合适的广告」但未来可能出现即时生成的广告 —— 不再是从现有素材中检索而是根据用户当下的兴趣、场景、情绪实时生成个性化的广告文案、图片甚至视频。到那时「千人千面」才算真正名副其实。当然这中间还有很多技术难点需要克服。腾讯广告算法大赛正是这样一个让技术理想照进现实的起点。期待明年还能看到如此精彩的赛事。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询