2026/4/6 11:14:13
网站建设
项目流程
厦门市市场开发建设服务中心网站,用wordpress 安装自己喜欢的主题 主题图片显示不对,wordpress去除分类目录归档,游戏网站建设网一#xff0c;基础原理与数学模型
1.Transformer为何使用多头注意力机制?(为什么不用一个头)
2.Transformer为什么Q和K使用不同的权重矩阵生成?为何不能使用同一个值进行自身的点乘?(注意和第一个问题的区别)
3.Transformer计算attention的时候为何选择点乘而不是加法?…一基础原理与数学模型1.Transformer为何使用多头注意力机制?(为什么不用一个头)2.Transformer为什么Q和K使用不同的权重矩阵生成?为何不能使用同一个值进行自身的点乘?(注意和第一个问题的区别)3.Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?4。为什么在进行softmax之前需要对attention进行scaled?(为什么除以dk的平方根)并使用公式推导进行讲解5。在计算attention score的时候如何对padding做mask操作?6。为什么在进行多头注意力的时候需要对每个head进行降维?7。讲一下Transformer的Encoder模块?8。为何在获取输入词向量之后需要对矩阵乘以embedding size的开方?9。简单介绍Transformer的位置编码?10。了解哪些关于位置编码的技术?11。简单讲一下Transformer中的残差结构以及意义。12。为什么transformer块使用LayerNorm而不是BatchNorm?13。讲一下BatchNorm技术及其优缺点?14。简单描述一下Transformer中的前馈神经网络?使用了什么激活函数?相关优缺点?Encoder端和Decoder端是如何进行交互的?15.Encoder端和Decoder端是如何进行交互的?(在这里可以问一下关于 seq2seq的attention知识)16.Transformer的并行化提现在哪个地方?Decoder端可以做并行化吗?17。描述一下wordpiece model和bytepair encoding?Dropout是如何设定的位置在哪里?Dropout在测试的需要有什么需要注意的吗?18.Transformer训练的时候学习率是如何设定的?19.Dropout是如何设定的?20.Bert的mask为何不学习transformer在attention处进行屏蔽score的技巧?二训练与优化1.Transformer中的可训练Queries,Keys和Values矩阵从哪儿来?2.Transformer的Feed Forward层在训练的时候到底在训练什么?3。具体分析Transformer的Embeddings层Attention层和Feedforward层的复杂度。4.Transformer的Positional Encoding如何表达相对位置关系?5.Layer Normalization蕴含的神经网络的假设是什么?6。从数据的角度分析Transformer中的Decoder和Encoder的依存关系。7。描述Transformer中的Tokenization的数学原理运行流程问题及改进方法。8。描述把self-attention复杂度从O(n^2)降低到O(n)的方案。9.Bert的CLS能够有效的表达Sentence Embeddings吗?10。使用BPE进行Tokenization对于Cross-lingual语言模型的意义?11。如何训练Transformer处理数据量差异大的多类别数据?12。如何使用多种类小样本对Transformer训练取得好的分类效果?13。在输入Embeddings时是否可以使用多方来源的词嵌入?14。更深更宽的Transformer网络是否意味着更强的预训练模型?15。如何降低Transformer中Embedding中的参数数量?16。描述Trasnformer不同Layer之间的FeedForward神经网络之间的联系。17。如何降低Transformer的Feedforward层的参数数量?18.Transformer的Layer深度过深会可能导致什么现象?19。如何大规模降低Transformer中Embedding中的参数数量?三应用与实践1。如何使用Transformer实现Zero-shot Learning?2。描述至少2种对不同训练模型训练出来的Embeddings进行相似度比较的方法。3。如何使得小模型例如LSTM具有大模型例如Bert的能力?4。训练后的BERT模型泛化能力的限制是什么?5.GPT的auto-regressive语言模型架构在信息表示方面有什么缺陷?6。描述BERT中MLM实现中的缺陷及可能的解决方案。的词嵌入?四技术深入与创新应用1。从数学角度阐明对Transformer任意位置和长度进行Mask的方式。2。描述Encoder和Decoder中Attention机制的不同之处。3。描述Transformer中Decoder的Embeddinglayers架构设计运行流程和数学原理。4。描述Transformer进行Training的全生命周期的在Decoder中是如何进行 Embedding的。5。描述Transformer进行Inference的全生命周期的在Decoder中是如何进行 Embedding的。6。如果Transformer采用和Inference同样的流程进行Training会有什么弊端?7。为何Transformer的Matrix Dimensions是3D的?8。描述只由一个Encoder和Decoder的Transformer使用了Attention的地方及其功能。9。描述Training和Inference时Masking在Transformer使用Attention机制的地方的功能和数学实现。10。描述Transformer的Training Loss工作流程和数学公式。11。阐述Multi-head Attention机制中通过Linear layer计算QKV的logical和physical partition.12。阐述Transformer中所有可训练操作的功能。13。阐述QKV在Transformer中的功能。14。解释Transformer中Attention Score衡量不同WordsRelevance的原理。15。描述Transformer如何知道什么样的Weights能更好地表达不同信息部分的注意力。16。如何减少Transformer中训练后的Word Embeddings的Bias?17。解决Self-attention和Word与自身Attention的问题?18.Transformer如何有效表示NLP,CV等AI领域的信息?19。通过Ground Truth训练Transformer使其具有泛化能力的原因?20.Transformer的Attention计算时为何需要进行Scaling?21。输入文本词汇的顺序如何由position encoding或multi-head attention实现?22。描述multi-head attention的实现方式。23。描述Transformer中non-linear操作的类型和数学原理。24。为何Transformer论文作者声称Attention is all you need?25。谈一下Teacherforcing的数学原理及其在Transformer中的应用。五性能优化与模型改进(7题)1.Transformer采用Inference流程进行Training的问题?2.Transformer的Matrix Dimensions为何是3D的?3。描述单Encoder和Decoder的Transformer使用Attention的地方及其功能。4.Training和Inference时Masking在Transformer Attention机制中的功能和数学实现。5。描述Transformer的Training Loss工作流程和数学公式。6。阐述Multi-headAttention中通过Linearlayer计算QKV的partition.7。如何减少Transformer中训练后的Word Embeddings的Bias?六特定应用场景与解决方案(2题)1。如何使用Transformer实现对话系统并判定用户交流内容是否离题?2.Transformer训练时学习率和Dropout的设定?大模型(LLMs)基础面1目前 主流的开源模型体系 有哪些?2prefix Decoder和causal Decoder和Encoder-Decoder区别是什么?3大模型LLM的训练目标是什么?4涌现能力是啥原因?5为何现在的大模型大部分是Decoder only结构?6简单 介绍一下 大模型[LLMs]?7大模型[LLMs]后面跟的175B,60B,540B等指什么?8大模型[LLMs]具有什么优点?9大模型[LLMs]具有什么缺点?大模型(LLMs)进阶面一什么是生成式大模型?二大模型是怎么让生成的文本丰富而不单调的呢?三LLMs复读机问题3.1什么是LLMs复读机问题?3.2为什么会出现LLMs复读机问题?3.3如何缓解 LLMs 复读机问题?3.3.1 Unlikelihood Training3.3.2引入噪声3.3.3 Repetition Penalty3.3.4 Contrastive Search3.3.5 Beam Search3.3.6 TopK sampling3.3.8 Temperature3.7 Nucleus sampler匠3.3.9 No repeat ngram size3.3.10重复率指标检测3.3.11后处理和过滤3.3.12人工干预和控制四llama系列问题4.1llama输入句子长度理论上可以无限长吗?五什么情况用Bert模型什么情况用LLaMA,ChatGLM类大模型咋选?六各个专业领域是否需要各自的大模型来服务?七如何让大模型处理更长的文本?大模型(LLMs)微调面1。如果想要在某个模型基础上做全参数微调究竟需要多少显存?2。为什么SFT之后感觉LLM傻了?3.SFT指令微调数据 如何构建?4。领域模型Continue PreTrain数据选取?5。领域数据训练后通用能力往往会有所下降如何缓解模型遗忘通用能力?6。领域模型Continue PreTrain如何上模型在预训练过程中就学习到更多的知7。进行SFT操作的时候基座模型选用Chat还是Base?8。领域模型微调 指令数据输入格式要求?9。领域模型微调 领域评测集 构建?10。领域模型词表扩增是不是有必要的?11。如何训练自己的大模型?12。训练中文大模型有啥经验?13。指令微调的好处?14。预训练和微调哪个阶段注入知识的?15。想让模型学习某个领域或行业的知识是应该预训练还是应该微调?16。多轮对话任务如何微调模型?17。微调后的模型出现能力劣化灾难性遗忘是怎么回事?18。微调模型需要多大显存?19。大模型LLM进行SFT操作的时候在学习什么?20。预训练和SFT操作有什么不同21.样本量规模增大训练出现OOM错22。大模型LLM进行SFT 如何对样本进行优化?23。模型参数迭代实验24。微调大模型的一些建议25。微调大模型时如果batch size设置太小会出现什么问题?26。微调大模型时如果batch size设置太大会出现什么问题?27。微调大模型时batch size 如何设置问题?28。微调大模型时优化器如何?29。哪些因素会影响内存使用?30。进行领域大模型预训练应用哪些数据集比较好?31。用于大模型微调的数据集如何构建?32。大模型训练loss突刺原因和解决办法32.1大模型训练loss突刺是什么?32.2为什么大模型训练会出现loss突刺?32.3大模型训练loss突刺 如何解决?大模型学习资料领取https://mp.weixin.qq.com/s/DvIaQKLyNgdPk4H4AalgPg