2026/5/21 18:48:52
网站建设
项目流程
全方位营销型网站,网站开发哪一种语言好,如何查楼盘剩余房源,网站开发毕业答辩该模型提出了一种统一的视觉-语言预训练模型 VLMO#xff08;Vision-Language Mixture-of-Experts#xff09;#xff0c;其核心创新在于引入了 Mixture-of-Modality-Experts#xff08;MOME#xff09;Transformer 架构#xff0c;使得一个模型既能作为双编码器#xf…该模型提出了一种统一的视觉-语言预训练模型VLMOVision-Language Mixture-of-Experts其核心创新在于引入了 Mixture-of-Modality-ExpertsMOMETransformer 架构使得一个模型既能作为双编码器dual encoder用于高效的图文检索任务又能作为融合编码器fusion encoder用于需要深度跨模态交互的视觉-语言分类任务如视觉问答VQA和视觉推理。1 背景在视觉-语言预训练模型中有两种主要架构1.1 双编码器Dual Encoder如 CLIP、ALIGN图像和文本分别通过独立的编码器处理。模态间交互由最终的相似度计算如点积或余弦相似实现。优点速度快、适合大规模检索任务可预先编码所有图像/文本。缺点模态间交互浅不适合复杂的推理任务。1.2. 融合编码器Fusion Encoder如 ViLT、ALBEF、UNITER将图像与文本拼接后通过跨模态注意力机制进行联合编码。优点模态间交互深性能好适用于 VQA 等复杂任务。缺点每个图文对都需要联合编码推理速度慢时间复杂度为 不适用于大规模检索。1.3. VLMO 的目标是否可以设计一个模型既能做高效检索像双编码器又能做复杂推理像融合编码器答案是可以统一在一个架构中实现。核心设计VLMO 的核心是Mixture-of-Modality-ExpertsMOMETransformer它基于标准 Transformer 的结构但改进了前馈网络部分FFN引入“模态专家”机制。2.1. MOME 的三大专家每个 Transformer 块包含三个“专家”视觉专家Vision Expert, V-FFN专门处理图像块patch embeds语言专家Language Expert, L-FFN专门处理文本 token视觉-语言专家Vision-Language Expert, VL-FFN处理图文融合时的表示 这类似于 MoEMixture of Experts结构但不是在模型层面稀疏激活而是根据输入的模态自动路由到对应的专家。2.2 共享的多头自注意力Shared Self-Attention所有模态都共享同一个自注意力层Multi-Head Self-Attention。这保证了图像与文本的信息能在早期就开始对齐。重要性体现在无论单模态还是多模态输入模型都使用同样的注意力参数来融合信息。模型详细讲解3.1 输入表示Input Representations1. 图像表示Image Representations输入图像是一个 2D 矩阵 即高度 、宽度 、通道数 通常是 RGB 3 通道。 步骤如下(详见ViT部分内容)分块Patch Partitioning 图像被均匀划分为 个大小为 的小块patches。例如输入图像 块大小 则得到 个 patch。 这些 patch 被展平为一维向量: 。线性投影Linear Projection 每个 patch 向量通过一个可学习的线性层 投影到维度为 模型隐藏层大小如 768的向量成为patch embeddings。**加入特殊标记[I_CLS]**像 BERT 中有[CLS]标记一样这里为图像序列也添加一个可学习的特殊标记[I_CLS]它用于最终图像表示的聚合。加入位置和类型嵌入Position Type Embeddings位置嵌入 学习 patch 在图像中的 1D 顺序位置共 个: 个 patch 1 个 [I_CLS]尺寸为 。类型嵌入 因为图文对中需区分图像和文本 tokens这里为所有 image tokens 添加一个可学习的类型向量 类似于 BERT 的 segment embedding。最终图像输入表示为表示拼接。是线性投影参数 。是图像的初始输入矩阵尺寸 。2. 文本表示Text Representations文本处理方式基本遵循 BERT。分词Tokenization 使用 WordPiece 算法将句子划分为 subword tokens。长度记为 。添加特殊标记添加[T_CLS]用于文本最终表示。添加[T_SEP]用于分隔文本中的多个部分通常是单句只有一个。嵌入每个 token 有对应的 word embedding查表获得。加上 1D 位置嵌入 和 文本类型嵌入 。最终文本输入表示为是第 个 token 的 word embedding。尺寸为 。3. 图文对表示Image-Text Representations当我们要建模图像和文本的联合关系时如 VQA、图文匹配需要将两者表示拼接。具体操作将文本序列 放在前面。将图像序列 拼接在其后。得到表示矩阵拼接按行或 token 维度拼接。整个输入序列长度为 。⚠️ 注意仅当执行“融合编码”任务如 VQA时才使用 进行联合编码。若执行“双编码”如图文检索图像和文本是分开编码的不进行这类拼接。3.2 MOME Transformer这是 VLMO 的核心创新Mixture-of-Modality-Experts Transformer。3.2.1. 总体结构每个 MOME Transformer 块由两个主要部分组成多头自注意力层MSA公式是 Layer Normalization。是多头自注意力机制。是第 层的输出。是注意力输出 残差连接。关键点这个 MSA 层的参数在所有模态输入中是共享的。这是实现跨模态对齐的重要设计。3.2.2. MOME 前馈网络MoME-FFN公式这是标准 FFN 的升级替代。MoME-FFN 不是一个固定的函数而是一个可以根据输入模态“切换”的专家网络池。3.2.3. MoME-FFN如何根据模态切换MoME-FFN 包含三个专家Expert 是指一个前馈网络即两层全连接 激活视觉专家V-FFN语言专家L-FFN视觉-语言专家VL-FFN路由Switching策略如下输入是图像-only 所有 token包括[I_CLS]和 patches都由 V-FFN 处理。输入是文本-only 所有 token 都由 L-FFN 处理。输入是图文对 所有 tokens无论图文都由 VL-FFN 处理。这使得 VL-FFN 可以建模图文之间的深度交互。文本 tokens由 L-FFN 处理。图像 tokens由 V-FFN 处理。底层BottomTransformer 层顶层TopTransformer 层为什么顶层用 VL-FFN底层关注模态内特征提取用各自专属专家。顶层是建模跨模态交互的关键需要一个特化的、能理解图文联合语义的专家VL-FFN。3.3 预训练任务VLMO 同时优化三个任务3.3.1 图文对比学习ITC **目标让匹配的图文对表示靠近不匹配的远离。**给定一个 batch 的 个图文对1. 提取[CLS]表示图像编码器输出的[I_CLS]向量记为 。文本编码器输出的[T_CLS]向量记为 。经过独立的线性投影层 L2 归一化得到单位向量2. 计算相似度矩阵N×N公式第 个图像 和 第 个文本 的相似度。这是 Image-to-Text 相似度矩阵。类似地 是 Text-to-Image 相似度。3. 计算预测概率公式模型预测 “第 个图像” 与 batch 中 “第 个文本” 匹配的 softmax 概率。只有 时为正样本其余 是负样本。是一个可学习的温度参数控制分布的“锐利度”。 小正样本得分更突出。4. 损失函数交叉熵目标最大化 和 即正确匹配的概率。使用 cross-entropy 损失3.3.2 文本掩码建模MLM 目标根据上下文图像 文本预测被 [MASK] 掉的词。随机对文本中 15% 的 tokens 做掩码如 “A baseball [MASK] throwing [MASK] ball .”)。模型输入是图文拼接序列 。用最顶层的[T_CLS]的输出 或所有 masked token 的表示送入一个分类器线性层 Softmax预测原始词。使用 交叉熵损失。✅ 意义强制模型利用图像信息帮助恢复文本语义实现图文对齐。3.3.3. 图文匹配 ITM 目标判断一对图文是否真的匹配二分类任务。方法拼接图文序列 走完整的 Transformer 编码路径。使用最终编码的[T_CLS]token 表示 。送入一个分类头如一个线性层 sigmoid预测“是否匹配”使用 二元交叉熵损失Binary Cross-Entropy。3.5 微调1. 视觉-语言分类任务如 VQA, NLVR2使用 MOME 的融合路径。输入图文拼接。用[T_CLS]的最终向量作为联合表示加一个分类头。2. 视觉-语言检索任务只使用双编码路径图像用 V-FFN 路径编码提取[I_CLS]向量。文本用 L-FFN 路径编码提取[T_CLS]向量。相似度计算两个向量的点乘。无需联合编码速度极快。训练策略分阶段预训练为了充分利用非配对数据单一图像或文本VLMO采用三阶段训练策略4.1. 阶段 1视觉预训练Vision Pre-training仅使用图像数据如 ImageNet、BEIT 使用的数据。训练 V-FFN 和 共享的自注意力层。任务掩码图像建模Masked Image Modeling, MIM——类似 BEIT。4.2. 阶段 2语言预训练Language Pre-training冻结视觉模块参数V-FFN 和自注意力仅训练 L-FFN。使用大规模文本语料Wikipedia BookCorpus任务为掩码语言建模MLM。4.3. 阶段 3视觉-语言联合预训练Vision-Language Pre-training使用图文对数据如 COCO、SBU-Captions 等。解冻所有参数联合优化三大目标图文对比学习Image-Text Contrastive Learning——学习整体对齐图文匹配Image-Text Matching——二分类判断是否配对掩码语言建模Masked Language Modeling——进一步对齐局部语义特别地图文匹配引入了全局硬负采样Global Hard Negative Mining即从整个batch跨 GPU中挑选最相似但错误匹配的图文对作为难负样本比局部采样更有效。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】