2026/4/6 10:58:30
网站建设
项目流程
网站建设的ci设计指的是什么,电影网站规划,公司个人怎么制作网站,今天最近的新闻文章目录Mask-Guided Cross-Modality Fusion Network for Visible-Infrared Vehicle Detection一、研究背景#xff1a;跨模态融合的核心挑战二、MCMF框架#xff1a;三分支架构与核心模块1. 框架总览2. 核心创新#xff1a;位置敏感掩码自编码器#xff08;LMAE#xff0…文章目录Mask-Guided Cross-Modality Fusion Network for Visible-Infrared Vehicle Detection一、研究背景跨模态融合的核心挑战二、MCMF框架三分支架构与核心模块1. 框架总览2. 核心创新位置敏感掩码自编码器LMAE1LMAE结构2自监督学习机制3. 联合优化目标1检测损失L r g b \mathcal{L}_{rgb}Lrgb、L i n \mathcal{L}_{in}Lin、L f u s i o n \mathcal{L}_{fusion}Lfusion2LMAE正则化损失L m a e \mathcal{L}_{mae}Lmae三、实验验证性能与消融分析1. 与SOTA方法对比表1表1 DroneVehicle数据集上的SOTA对比2. 消融实验LMAE的有效性表2表2 LMAE消融实验结果3. LMAE卷积层数影响表3表3 LMAE卷积层数消融实验4. 可视化结果1检测效果对比2特征可视化四、核心创新点总结五、未来展望Mask-Guided Cross-Modality Fusion Network for Visible-Infrared Vehicle Detection论文地址https://ieeexplore.ieee.org/abstract/document/10971225/会议IEEE Signal Processing LettersSPL年份2025一、研究背景跨模态融合的核心挑战无人机车载检测需应对复杂场景如逆光、雨雪、夜间但现有方法存在两大关键问题单模态局限性可见光模态依赖光照低光环境下漏检率高红外模态虽能定位目标却因缺乏色彩与纹理信息易产生误检。融合效率低传统跨模态融合多停留在像素级或简单特征拼接忽略了模态间的“互补-冗余”关系未能有效提取跨模态引导信息。为解决上述问题论文基于DroneVehicle数据集包含28,439对可见光-红外图像、953,087个标注边界框提出MCMF框架通过“掩码引导自监督学习”实现高效跨模态融合。二、MCMF框架三分支架构与核心模块MCMF的核心设计是三分支网络结构分别处理可见光模态B r g b B_{rgb}Brgb、红外模态B i n B_{in}Bin与融合模态B f B_fBf整体流程如图1所示。1. 框架总览输入层成对的可见光图像I r g b I_{rgb}Irgb与红外图像I i n I_{in}Iin。特征提取采用ResNet-50作为 backbone分别输出两种模态的基础特征f r g b G r g b ( I r g b ) f_{rgb}G_{rgb}(I_{rgb})frgbGrgb(Irgb)与f i n G i n ( I i n ) f_{in}G_{in}(I_{in})finGin(Iin)以及中间层特征f r g b ′ f_{rgb}frgb′与f i n ′ f_{in}fin′。检测头每个分支配备基于Transformer的检测头H r g b H_{rgb}Hrgb、H i n H_{in}Hin、H f H_fHf可生成带旋转角度的定向边界框格式x , y , h , w , θ , c x,y,h,w,\theta,cx,y,h,w,θ,c其中θ \thetaθ为旋转角c cc为类别。融合模块通过LMAE位置敏感掩码自编码器处理中间层特征生成融合特征f m f_mfm最终经跨模态NMS输出最终检测结果Y c m Y_{cm}Ycm。2. 核心创新位置敏感掩码自编码器LMAELMAE是MCMF的关键模块其核心思想是用一种模态的检测结果引导另一种模态的特征学习实现“互补信息保留冗余信息剔除”。以B r g b B_{rgb}Brgb分支的LMAE为例流程如图2所示1LMAE结构掩码生成基于红外分支的检测结果Y i n Y_{in}Yin生成掩码M r g b { b b o x i n 1 , . . . , b b o x i n N } M_{rgb}\{bbox_{in}^1,...,bbox_{in}^N\}Mrgb{bboxin1,...,bboxinN}其中边界框区域像素设为1背景设为0。特征掩码将可见光中间特征f r g b ′ f_{rgb}frgb′与M r g b M_{rgb}Mrgb进行元素级乘积得到掩码特征f r g b ′ ‾ \overline{f_{rgb}}frgb′仅保留红外模态检测到的目标区域。编码器-解码器重建编码器通过3层卷积提取关键特征公式如下L a y e r 1 C o n v 1 e ( f r g b ′ ‾ ) Layer _{1}Conv_{1}^{e}\left(\overline{f_{r g b}}\right)Layer1Conv1e(frgb′)L a y e r 2 C o n v 2 e ( C o n c a t ( L a y e r 1 , f r g b ′ ‾ ) ) Layer _{2}Conv_{2}^{e}\left( Concat \left( Layer _{1}, \overline{f_{r g b}}\right) \right)Layer2Conv2e(Concat(Layer1,frgb′))f ^ r g b ′ C o n v 3 e ( C o n c a t ( L a y e r 1 , L a y e r 2 , f r g b ′ ‾ ) ) ( 1 ) \hat{f}_{r g b}Conv_{3}^{e}\left( Concat \left( Layer _{1}, Layer _{2}, \overline{f_{r g b}}\right) \right) \quad (1)f^rgb′Conv3e(Concat(Layer1,Layer2,frgb′))(1)其中C o n v j e ( ⋅ ) Conv_j^e(\cdot)Convje(⋅)表示编码器第j jj层卷积64个3×3滤波器C o n c a t ( ⋅ ) Concat(\cdot)Concat(⋅)为通道级拼接。解码器通过3层卷积将f ^ r g b ′ \hat{f}_{rgb}f^rgb′重建为可见光图像I ^ r g b \hat{I}_{rgb}I^rgb公式如下I ^ r g b C o n v 3 d ( C o n v 2 d ( C o n v 1 d ( f ^ r g b ′ ) ) ) ( 2 ) \hat{I}_{r g b}Conv_{3}^{d}\left(Conv_{2}^{d}\left(Conv_{1}^{d}\left(\hat{f}_{r g b}\right)\right)\right) \quad (2)I^rgbConv3d(Conv2d(Conv1d(f^rgb′)))(2)其中C o n v j d ( ⋅ ) Conv_j^d(\cdot)Convjd(⋅)表示解码器第j jj层卷积。2自监督学习机制通过最小化重建误差L m a e L_{mae}Lmae迫使LMAE学习“红外目标区域”对应的可见光特征既保留红外模态的定位优势又补充可见光的纹理细节实现跨模态引导。3. 联合优化目标MCMF的损失函数包含检测损失与LMAE正则化损失整体目标是最小化L a l l λ 1 L r g b λ 2 L i n λ 3 L f u s i o n β L m a e ( 6 ) \mathcal{L}_{all }\lambda_{1} \mathcal{L}_{rgb }\lambda_{2} \mathcal{L}_{in }\lambda_{3} \mathcal{L}_{fusion }\beta \mathcal{L}_{mae } \quad (6)Lallλ1Lrgbλ2Linλ3LfusionβLmae(6)其中λ 1 , λ 2 , λ 3 , β \lambda_1,\lambda_2,\lambda_3,\betaλ1,λ2,λ3,β为平衡系数论文中均设为1各损失项定义如下1检测损失L r g b \mathcal{L}_{rgb}Lrgb、L i n \mathcal{L}_{in}Lin、L f u s i o n \mathcal{L}_{fusion}Lfusion检测损失包含分类损失L c l s L_{cls}Lcls与回归损失L l o c L_{loc}Lloc以L r g b \mathcal{L}_{rgb}Lrgb为例L r g b ( c , u , t c , v , w r ) L c l s ( c , u ) [ c ≥ 1 ] L l o c ( t c , v , w r ) ( 3 ) \mathcal{L}_{r g b}\left(c, u, t^{c}, v, w_{r}\right)\mathcal{L}_{c l s}(c, u)[c \geq 1] \mathcal{L}_{l o c}\left(t^{c}, v, w_{r}\right) \quad (3)Lrgb(c,u,tc,v,wr)Lcls(c,u)[c≥1]Lloc(tc,v,wr)(3)c cc预测类别概率u uu真实类别标签L c l s L_{cls}Lcls采用交叉熵损失。t c { x c , y c , h c , w c , θ c } t^c\{x^c,y^c,h^c,w^c,\theta^c\}tc{xc,yc,hc,wc,θc}预测边界框v vv真实边界框[ c ≥ 1 ] [c\geq1][c≥1]为指示函数目标存在时为1。回归损失L l o c L_{loc}Lloc引入不确定性权重w r w_rwr补偿可见光模态的低光缺陷L l o c ( t c , v , w r ) w r ∑ i ∈ { x , y , h , w , θ } s m o o t h L 1 ( t i c − v i ) ( 4 ) \mathcal{L}_{loc }\left(t^{c}, v, w_{r}\right)w_{r} \sum_{i \in \{x,y,h,w,\theta\}} smooth_{L 1}\left(t_{i}^{c}-v_{i}\right) \quad (4)Lloc(tc,v,wr)wri∈{x,y,h,w,θ}∑smoothL1(tic−vi)(4)w r w_rwr的取值规则可见光边界框缺失时w r 0.1 w_r0.1wr0.1边界框错位时w r T 1 × T 2 w_rT_1×T_2wrT1×T2T 1 T_1T1为可见光平均亮度T 2 T_2T2为模态间IoU边界框对齐时w r T 1 w_rT_1wrT1。2LMAE正则化损失L m a e \mathcal{L}_{mae}Lmae通过重建误差引导跨模态特征对齐L m a e ( I ^ r g b , I r g b , I ^ i n , I i n ) ∥ I r g b − I ^ r g b ∥ 2 ∥ I i n − I ^ i n ∥ 2 \mathcal{L}_{mae }\left(\hat{I}_{r g b}, I_{r g b}, \hat{I}_{i n}, I_{i n}\right)\left\| I_{r g b}-\hat{I}_{r g b}\right\| _{2}\left\| I_{i n}-\hat{I}_{i n}\right\| _{2}Lmae(I^rgb,Irgb,I^in,Iin)Irgb−I^rgb2Iin−I^in2三、实验验证性能与消融分析论文在DroneVehicle数据集上进行了全面实验验证了MCMF的有效性核心结果如下1. 与SOTA方法对比表1表1展示了MCMF与单模态、跨模态SOTA方法的mAP平均精度均值对比其中MCMF*表示融合了[26]的neck层设计。表1 DroneVehicle数据集上的SOTA对比关键结论MCMF基础版mAP达71.4%较基线方法UA-CMDet [12]提升7.4%较单模态最优AO2-DETR [31]提升5.6%MCMF*融合neck层mAP进一步提升至74.7%刷新跨模态检测SOTA。2. 消融实验LMAE的有效性表2表2验证了LMAE在单模态与跨模态场景下的贡献以可见光模态V、红外模态I及跨模态VI为基线对比“仅拼接CMC”与“LMAE引导”的性能差异。表2 LMAE消融实验结果关键结论LMAE引导的融合方式显著优于传统拼接CMC单模态场景提升3.8%-9.3%跨模态场景提升7.4%证明其在跨模态信息蒸馏中的核心作用。3. LMAE卷积层数影响表3表3分析了LMAE编码器/解码器卷积层数J JJ对性能、参数量与速度的影响表3 LMAE卷积层数消融实验关键结论J 2 J2J2时已能实现7.38%的mAP提升且参数量仅增加1.51M随着J JJ增大mAP提升趋缓J 3 J3J3较J 2 J2J2仅提升0.04%但推理时间增加因此论文选择J 3 J3J3作为平衡方案。4. 可视化结果1检测效果对比MCMF有效解决了UA-CMDet的漏检如低光区域车辆与误检如背景误判为车辆问题检测结果更稳定。2特征可视化融合特征最右侧更聚焦于车辆区域有效抑制背景噪声证明LMAE能引导特征关注跨模态一致的目标区域。四、核心创新点总结三分支融合架构首次将可见光、红外、融合模态设计为独立分支既保留单模态优势又通过跨模态NMS实现结果互补。LMAE掩码引导机制通过“一种模态掩码→另一种模态特征学习→图像重建”的自监督范式实现跨模态信息的精准蒸馏剔除冗余、保留互补。不确定性加权检测损失针对可见光模态的低光缺陷引入亮度与IoU联合加权的回归损失提升复杂环境下的检测鲁棒性。五、未来展望论文指出未来将进一步拓展LMAE的应用场景如多模态信号处理如雷达-视觉融合、跨模态分割等任务为更广泛的智能感知问题提供解决方案。MCMF的提出不仅为无人机跨模态车辆检测提供了新范式也为“模态引导特征学习”提供了新思路其核心设计对多模态智能感知领域具有重要参考价值。