2026/4/6 4:14:50
网站建设
项目流程
网站建设全,全网响应式网站,wordpress让收录,wordpress询盘功能BERT是谷歌提出的基于Transformer架构的双向编码表示模型#xff0c;通过预训练和微调两个阶段改变NLP领域。其核心创新在于使用双向上下文理解词语含义#xff0c;通过Masked Language Model(MLM)和Next Sentence Prediction(NSP)两种策略进行预训练#xff0c;使模型能够捕…BERT是谷歌提出的基于Transformer架构的双向编码表示模型通过预训练和微调两个阶段改变NLP领域。其核心创新在于使用双向上下文理解词语含义通过Masked Language Model(MLM)和Next Sentence Prediction(NSP)两种策略进行预训练使模型能够捕捉完整的语言语境。BERT无需为每个NLP任务重新设计架构只需微调即可在各种任务中取得优异表现显著提升了计算机理解和处理人类语言的能力。1、什么是Bert ?BERT 是一个开源机器学习框架用于更好地理解自然语言。BERT 是Bidirectional Encoder Representation from Transformer的缩写顾名思义BERT基于 Transformer 架构在训练阶段使用编码器表示法从标记的左右两侧学习上下文信息。这就是它被称为双向编码表示的原因。我们不妨来看个例子从上面的例子中我们可以看出单词bank在两个句子中的含义是不同的。因此如果模型不考虑双向的语境那么至少会在其中一个句子中出错。2、为什么需要BERT 在 BERT 之前模型的主要局限性在于它们都是单向的而BRET是双向语境。在这里双向性指的是输入序列中的每个Token都可以从前面和后面的Token分别称为左语境和右语境中获得语义信息。专业术语是我们说注意力机制可以关注每个Token的前面和后面的标记。细分起来我们可以回想一下BERT 只对输入序列中的单词进行预测而不会像 GPT 那样生成新的序列。因此当 BERT 预测输入序列中的某个单词时它可以结合周围所有单词的上下文线索。这就提供了两个方向的上下文语境帮助 BERT 做出更明智的预测。这与 GPT 等纯解码器模型形成鲜明对比后者的目标是一次预测一个新词以生成新的输出序列。每个预测的单词只能利用前面的单词左语境提供的语境因为后面的单词右语境尚未生成。因此这些模型被称为单向模型。上图显示了使用双向上下文语境的典型 BERT 任务和使用单向上下文语境的典型 GPT 任务的示例。对于 BERT这里的任务是预测 [MASK] 所指示的屏蔽词。由于这个单词的左右两边都有单词因此两边的单词都可以用来提供上下文。如果作为人类你在阅读这个句子时只有左右两边的单向上下文那么你可能很难预测出这个屏蔽词。然而有了双向上下文你就更有可能猜出屏蔽词是 fishing。对于 GPT目标是执行经典的 NTP 任务。在这种情况下目标是根据输入序列提供的上下文和输出中已生成的单词生成一个新序列。鉴于输入序列指示模型写一首诗而目前生成的单词都是 Upon a您可能会预测下一个单词是 river然后是 bank。对于许多潜在的候选词GPT作为语言模型会计算其词汇表中每个词出现在下一个词的可能性并根据训练数据选择一个最有可能出现的词。3、BERT模型结构BERT架构建立在Transformer架构之上。BERT 模型使用的是Transformer模块中的编码器结构。在初始版本中它有两个变体BERT Base: 12层12个注意力头110M参数BERT Large24层16个注意力头340M参数4、嵌入层我们无法直接向模型提供单词我们首先要将单词转换成向量这个过程称为嵌入。在 BERT 中将单词转换为数字表示向量的嵌入有以下三种类型Position Embeddings:与 BERT或Transformer一样我们不按顺序传递数据因此我们使用位置嵌入来表示每个标记在序列中的位置。这与我们在Transformer论文中看到的一样。Segment Embedding由于 BERT 还将句子对作为各种任务的输入因此每个标记都会添加句段嵌入以表明某标记属于句子 A 还是句子 B。Token Embedding第一句开头的输入词Token中添加一个 [CLS] 标记并在每个句子的末尾插入一个 [SEP] 标记。如上图所示对于给定的标记其输入表示是通过将相应的位置嵌入、句段嵌入和标记嵌入相加来构建的。5、预训练BERT 的训练分为两个阶段预训练和微调。预训练包括使用 MLM 和 NSP 目标损失在大量无标签文本数据的语料库上进行训练使 BERT 能够学习上下文化的单词表征。然后微调会使用特定任务的标注数据优化特定任务的训练目标使预训练的 BERT 模型适应特定的下游任务。预训练和微调的结合使 BERT 能够出色地理解和解决各种 NLP 问题。在训练语言模型时确定训练目标是一个难题。为了克服这一挑战BERT 采用了两种训练策略MaskedLM (MLM) 和 Next Sentence Prediction (NSP)。Masked LM (MLM)这是一种用于无监督训练模型技术MLM 将一定比例的输入标记替换为 [MASK] 标记然后模型会尝试根据序列中单词提供的上下文来预测屏蔽标记的原始值如下图所示其中训练MLM的核心点可总结为BERT 损失函数只考虑屏蔽值的预测而忽略非屏蔽词。与标准语言模型训练相比由于 MLM 只对每批中 15%的标记进行预测因此需要更多的预训练步骤才能收敛。从编码器获得输出后它会乘以嵌入矩阵将其转换为词汇维度并使用 Softmax 计算每个词的概率。在论文中作者在 80% 的情况下用 [MASK] 替换单词。在 10% 的情况下单词会被随机替换而在另外 10% 的情况下原始单词保持不变。这种方法可以确保编码器无法确定哪个单词需要预测哪个单词已被随机替换。因此每个标记的分布式上下文表征得以保持。Next Sentence Prediction (NSP)在 MLM的训练过程中句子之间的关系在问题解答等任务中也起着重要作用因此我们使用 NSP 来训练能理解这种关系的模型。在训练阶段我们选择一对句子作为输入然后让模型学习预测这对句子中的第二个句子是否是原始文档中的后续句子。在训练过程中我们会选择这样的输入50% 的输入是一对句子即原始文档中标注为 isNext 的后续句子而另外 50%的输入则是语料库中标注为 Not Next 的随机句子。这就转化成了一个有两个标签的分类问题。我们只需计算输入序列然后通过一个基于transformer的模型使用一个简单的分类层将 [CLS] 标记的输出转换为 2*1 向量并使用 Softmax 分配一个标签。该模型同时使用 MLM 和 NSP 进行训练以最小化两种策略的综合损失函数。6、微调在预训练之后BERT 将使用标注数据对特定任务进行微调。在微调训练中大多数超参数与 BERT 训练中的参数相同。微调的目的是通过调整 BERT 模型的参数使其更好地适应数据从而优化 BERT 模型使其在特定任务中表现出色。例如可以在较小的电影评论数据集上对在大型文本数据语料库上预先训练好的 BERT 模型进行微调以提高其准确预测特定评论情感的能力。结论通过实施双向语境BERT 改变了自然语言处理方法使模型能够在完整的上下文中理解词语。基于 Transformer 架构的 BERT 在各种 NLP 任务中的表现都优于早期的单向模型。它提高了 NLP 性能的标准因为它可以在大型数据集上进行预训练并针对特定工作进行微调而无需对模型架构进行重大改动。由于其适应性和高效性BERT 已成为改变计算机理解和处理人类语言方式的基本模型。那么如何系统的去学习大模型LLM作为一名从业五年的资深大模型算法工程师我经常会收到一些评论和私信我是小白学习大模型该从哪里入手呢我自学没有方向怎么办这个地方我不会啊。如果你也有类似的经历一定要继续看下去这些问题啊也不是三言两语啊就能讲明白的。所以我综合了大模型的所有知识点给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢我就曾放空大脑以一个大模型小白的角度去重新解析它采用基础知识和实战项目相结合的教学方式历时3个月终于完成了这样的课程让你真正体会到什么是每一秒都在疯狂输出知识点。由于篇幅有限⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》扫码获取~为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型学习指南路线汇总我们这套大模型资料呢会从基础篇、进阶篇和项目实战篇等三大方面来讲解。①.基础篇基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念用最易懂的方式带你入门大模型。②.进阶篇接下来是进阶篇你将掌握RAG、Agent、Langchain、大模型微调和私有化部署学习如何构建外挂知识库并和自己的企业相结合学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。③.实战篇实战篇会手把手带着大家练习企业级的落地项目已脱敏比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等从而帮助大家更好的应对大模型时代的挑战。④.福利篇最后呢会给大家一个小福利课程视频中的所有素材有搭建AI开发环境资料包还有学习计划表几十上百G素材、电子书和课件等等只要你能想到的素材我这里几乎都有。我已经全部上传到CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我这套大模型系统教程将会是全网最齐全 最易懂的小白专用课